Eloszláscsaládokhoz való illeszkedés vizsgálata. Ph. D. értekezés tézisfüzete

Hasonló dokumentumok
Eloszláscsaládokhoz való illeszkedés vizsgálata Ph.D. értekezés

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

Statisztika 1. zárthelyi dolgozat március 21.

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

A matematikai statisztika elemei

Statisztika 1. zárthelyi dolgozat március 18.

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

BIOMATEMATIKA ELŐADÁS

véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?

Bootstrap (Efron, 1979)

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

Tartalom. Kezdeti szimulációs technikák. Tipikus kérdések. A bootstrap módszer. Bevezetés A független, azonos eloszlású eset:

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

Matematika B4 I. gyakorlat

3. SOROZATOK. ( n N) a n+1 < a n. Egy sorozatot (szigorúan) monotonnak mondunk, ha (szigorúan) monoton növekvő vagy csökkenő.

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

(A TÁMOP /2/A/KMR számú projekt keretében írt egyetemi jegyzetrészlet):

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

Komplex számok (el adásvázlat, február 12.) Maróti Miklós

Statisztikai programcsomagok

kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

Komputer statisztika

Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

A tárgy címe: ANALÍZIS 1 A-B-C (2+2). 1. gyakorlat

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

6. feladatsor. Statisztika december 6. és 8.

Differenciaegyenletek aszimptotikus viselkedésének

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

V. Deriválható függvények

Statisztika gyakorlat Geológus szakirány

A függvénysorozatok olyanok, mint a valós számsorozatok, csak éppen a tagjai nem valós számok,

Kalkulus II., második házi feladat

Kutatói pályára felkészítı modul

(d) x 6 3x 2 2 = 0, (e) x + x 2 = 1 x, (f) 2x x 1 = 8, 2(x 1) a 1

Statisztika október 27.

Wiener-folyamatok definiciója. A funkcionális centrális határeloszlástétel. Norbert Wienerre, a második pedig egy Brown nevű XIX. században élt angol

Statisztika (jegyzet)

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

ELTE TTK Budapest, január

Matematika I. 9. előadás

Autoregressziós folyamatok

VII. A határozatlan esetek kiküszöbölése

Innen. 2. Az. s n = 1 + q + q q n 1 = 1 qn. és q n 0 akkor és csak akkor, ha q < 1. a a n végtelen sor konvergenciáján nem változtat az, ha

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli tételek. Készítette: Szántó Ádám Tavaszi félév

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli beugró kérdések. Készítette: Szántó Ádám Tavaszi félév

Matematikai statisztika

Analízis feladatgy jtemény II.

Nevezetes sorozat-határértékek

1. Adatok közelítése. Bevezetés. 1-1 A közelítő függvény

Hipotézis-ellenırzés (Statisztikai próbák)

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Valószín ségszámítás (jegyzet)

VÉLETLENÍTETT ALGORITMUSOK. 1.ea.

Gyakorló feladatok II.

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

Hajós György Versenyre javasolt feladatok SZIE.YMÉTK 2011

7. el adás Becslések és minta elemszámok fejezet Áttekintés

Abszolút folytonos valószín ségi változó (4. el adás)

Metrikus terek. továbbra is.

ANALÍZIS I. TÉTELBIZONYÍTÁSOK ÍRÁSBELI VIZSGÁRA

Matematikai statisztika

Kevei Péter november 22.

Számsorozatok. 1. Alapfeladatok december 22. sorozat határértékét, ha. 1. Feladat: Határozzuk meg az a n = 3n2 + 7n 5n létezik.

Valószín ségszámítás 2 gyakorlat Alkalmazott matematikus szakirány

Debreceni Egyetem. Kalkulus példatár. Gselmann Eszter

Mo= argmax f(x), ha X abszolút folytonos; Mo= argmax P (X = x i ), ha X diszkrét.

Empirikus szórásnégyzet

Approximációs tételek a kupongyűjtő problémában. Doktori (Ph.D.) értekezés tézisei

Kalkulus gyakorlat - Megoldásvázlatok

3.1. A Poisson-eloszlás

ALGEBRA. egyenlet megoldásait, ha tudjuk, hogy egész számok, továbbá p + q = 198.

ANALÍZIS 1. I. VIZSGA január 11. Mérnök informatikus szak α-variáns Munkaidő: 90 perc., vagyis z 2 1p = i 1p = ( cos 3π 2 2

min{k R K fels korlátja H-nak} a A : a ξ : ξ fels korlát A legkisebb fels korlát is:

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

Tudjuk, hogy az optimumot az ún. regressziós görbe szolgáltatja, melynek egyenlete:

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

A figurális számokról (IV.)

Matematikai statisztika gyakorlat Programtervez informatikus alapszak, A szakirány 2018/2019 tavaszi félév Megoldások, végeredmények

Taylor-sorok alkalmazása numerikus sorok vizsgálatára

Lineáris kódok. u esetén u oszlopvektor, u T ( n, k ) május 31. Hibajavító kódok 2. 1

10.M ALGEBRA < <

Kalkulus I. Első zárthelyi dolgozat szeptember 16. MINTA. és q = k 2. k 2. = k 1l 2 k 2 l 1. l 1 l n 6n + 8

Andai Attila: november 13.

Debreceni Egyetem, Közgazdaság- és Gazdaságtudományi Kar. Feladatok a Gazdasági matematika I. tárgy gyakorlataihoz. Halmazelmélet

Algebra gyakorlat, 3. feladatsor, megoldásvázlatok

Rudas Tamás: A hibahatár a becsült mennyiség függvényében a mért pártpreferenciák téves értelmezésének egyik forrása

hogy alkalmas konstrukcióval megadható-e olyan sztochasztikus folyamat, melynek ezek

Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

1 n. 8abc (a + b) (b + c) (a + c) 8 27 (a + b + c)3. (1 a) 5 (1 + a)(1 + 2a) n + 1

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

hidrodinamikai határátmenet

1. Példa. A gamma függvény és a Fubini-tétel.

Átírás:

Eloszláscsaládokhoz való illeszkedés vizsgálata Ph.. értekezés tézisfüzete Osztéyié Krauczi Éva Témavezet : r. Csörg Sádor Kozulesek: r. Pap Gyula és r. Sz cs Gábor Matematika- és Számítástudomáyok oktori Iskola Szegedi Tudomáyegyetem, Bolyai Itézet Szeged, 26

. Bevezetés A disszertációba illeszkedésvizsgálattal kapcsolatos eredméyeket taglaluk. Legye X,..., X mita függetle, azoos eloszlású véletle változók) egy ismeretle F x), x R, eloszlásfüggvéy véletle változóból. Több külöböz módszerrel, több eloszlás eseté teszteli szereték azt az egyszer ullhipotézist, hogy H : F = F, ahol F x), x R, egy rögzített eloszlásfüggvéy; valamit azt az összetett ullhipotézist, hogy H : F F, ahol F egy eloszláscsaládot jelöl. A 2. fejezetbe a disszertáció szempotjából fotos törtéeti el zméyeket gy jtöttük össze. Felidézzük az els módszereket, amelyekkel rögzített eloszláshoz való illeszkedést lehet teszteli, valamit azt is, hogy hogya találták meg eze tesztstatisztikák határeloszlásait. Majd a számukra érdekes els összetett illeszkedésvizsgálati módszereket és határeloszlásukat eleveítjük fel. Eze eljárások két agy osztályát tárgyaljuk részletese, az egyik a mita eloszlásáak és az eloszláscsalád eloszlásaiak távolságá alapuló tesztek, a másik a regresszió-, illetve korrelációtesztek. A 3. fejezetbe egy eljárást javasluk egyeletes eloszlás eseté egyszer, illetve összetett illeszkedésvizsgálatra. Az ötlet a következ. Legyeek U, U 2,..., U függetle, [,] itervallumo egyeletes eloszlású véletle változók, egy mita. Emellett adott egy determiisztikus d,) távolságszit mide mitamérethez. A [,] itervallumo húzzuk végig ezt a távolságszitet, és gyeljük meg, hogy a redezett mita elemei háy osztályba esek. Egy klaszterbe azok az elemei tartozak a redezett mitáak, amelyekre teljesül az, hogy az egymást követ elemek távolsága em agyobb, mit d. Egy adott mitához és távolságszithez tartozó osztályok számát evezzük klaszterszámak. Csörg S. és Wu [6] három külöböz rátával ullához tartó távolságszit sorozat mellett bebizoyították a klaszterek számáak aszimptotikus ormalitását. Eek a tételek bizoyítjuk a többdimeziós változatait külöböz itervallumo egyeletes eloszlások esetébe, majd haszáljuk egyeletesség tesztelésére ismert és ismeretle itervallumo. Aszimptotikus χ 2 -tesztet kapuk egyszer, illetve összetett ullhipotézis elle rzésére. Elvégeztük az új tesztek szimulációs vizsgálatát. A 4. fejezetbe az L 2 -Wasserstei távolságot haszáló del Barrio, Cuesta-Albertos, Matrá és Rodríguez-Rodríguez [] által bevezetett ormalitás teszt szimulációs vizsgálatát mutatjuk be. Egy eltolás- és skálametes tesztstatisztikát kaptak a H : F N ullhipotézis elle rzésére, ahol N a ormális eloszláscsaládot jelöli. Eek a ormalitástesztek számos alteratívával szembei er vizsgálatát végeztük el szimuláció segítségével, valamit összehasolítottuk más ormalitástesztek viselkedésével. Az 5. fejezetbe el Barrio, Cuesta-Albertos, Matrá és Rodríguez-Rodríguez [], valamit del Barrio, Cuesta-Albertos és Matrá [9] által bevezetett kvatilis korreláció teszt súlyozott változatát vezetjük be logisztikus eloszláscsalád esetébe. A súlyfüggvéy haszálatát a tesztstatisztikába egymástól függetleül de Wet [7, 8] és Csörg S. [4, 5] külöböz motivációból javasolta. Mi a Csörg -féle [5] eredméyt a de Wet által, eltolás eloszláscsalád esetére javasolt kokrét súlyfüggvéyel bizoyítjuk logisztikus eltolás-skála

eloszláscsalád esetébe. el Barrio, Cuesta-Albertos és Matrá [9] a tesztstatisztika határeloszlását megadták súlyozott Brow-hidak KarhueLoève-sorfejtésekét. Ugyaeze techikával meghatározzuk az általuk kapott határeloszlás soros alakját. Majd bemutatjuk az új teszttel kapcsolatos szimulációs vizsgálat eredméyét. A disszertáció három cikk eredméyeit tartalmazza. Az Osztéyié Krauczi [6] tartalmazza az illeszkedésvizsgálat eredméyeit egyeletes eloszlás esetébe. A szimulációs vizsgálat eredméyei a ormális eloszláscsalád esetébe a Krauczi [4] cikkbe találhatók. A Balogh, Krauczi [2] tartalmazza a logisztikus eloszláscsalád esetébe kapott súlyozott kvatilis korreláció teszt bevezetését, aszimptotikus és szimulációs vizsgálatát. A tézisbe mide kovergecia úgy érted, amit. A az eloszlásba való kovergeciát, a P pedig a sztochasztikus kovergeciát jelöli. 2. Törtéeti el zméyek Az els alfejezetbe felidézzük az els teszteket, amelyekkel rögzített eloszláshoz való illeszkedést lehet elle rizi valamit, hogy hogya találták meg eze tesztstatisztikák határeloszlását. Az els illeszkedésvizsgálatra haszált eljárás a Pearso-féle χ 2 -teszt [7], amely aszimptotikusa χ 2 eloszlású megfelel szabadsági fokkal a ullhipotézis teljesülése mellett. Majd az empirikus és a hipotetikus eloszlásfüggvéy külöböz távolságait haszáló tesztek, az EF-tesztek bemutatása következik határeloszlásaik izgalmas megtalálásával. A második alfejezetbe a számukra érdekes els összetett illeszkedésvizsgálati módszereket és határeloszlásukat eleveítjük fel. Az els vizsgálatok ormális eloszláscsalád esetébe törtétek. Majd bemutatjuk, hogy az els alfejezetbeli rögzített eloszláshoz való illeszkedésvizsgálatra haszált módszerek alkalmasak parametrikus eloszláscsaládhoz való illeszkedés elle rzésére. A paraméterek becslése utá egy a becsült paraméter eloszláshoz való illeszkedést kell vizsgáli, illetve a becsléses tesztstatisztikák aszimptotikus viselkedését. Végül a regresszió-, illetve korrelációteszteket idézzük fel. Bemutatjuk Wilk Shapiro [9] ormalistástesztjét, eek további változatait, valamit, hogy hogya sikerült meghatározi a határeloszlását. 3. Illeszkedésvizsgálat egyeletes eloszlás esetébe Bevezetés és el zméyek Ebbe a fejezetbe egy eljárást vezetük be egyeletesség tesztelésére klaszterszámok segítségével. Legyeek U, U 2... függetle, a [,] itervallumo egyeletes eloszlású véletle változók, valamit bármely N eseté legye U,,..., U, az U,..., U mitához tartozó redezett mita. A mita elemei majdem biztosa külöbözek egymástól, így az U, < < U, reláció majdem biztosa érvéyes. Adott, determiisztikus d,) távolságszit mellett deiálható egy G =GU,..., U ; d ) véletle itervallumgráf. A G gráf csúcshalmaza az U,..., U elemeket reprezetáló {,..., } halmaz. Két külöböz i és j csúcs között akkor és csak akkor va él, ha U i U j < d, ahol i, j {,..., }. A mitához tartozó klasztereket úgy deiáljuk, mit eze mitához tartozó gráf összefügg kompoesei. A K klaszterszám a gráf összefügg kompoeseiek a számát jelöli. 2

Csörg S. és Wu [6] három külöböz aszimptotikus viselkedés távolságszit sorozat mellett bizoyították a klaszterek számáak aszimptotikus ormalitását, és még rátát is adtak az eloszlásfüggvéyek kovergeciájáak sebességére.. Tétel Csörg és Wu [6]). i) Ha d és 2 d, akkor ) := sup x R P K e d x Φx) e d e d ) ) = O 4 log d + log + log ) d d. d Eélfogva K e d d N,). ii) Ha < lim if d lim sup d <, akkor P K e d ) Φx) e 2d e d 2 d 2 ) x = O sup x R Ebb l következik, hogy ha d c, ), akkor K e d N, e 2c [e c c 2 ]). ) log 3/4. /4 iii) Ha d és e d, akkor d ) 3/2 = O + ) e d ε d loge d )+ e d loge d ), ahol ugyaazt a szuprémumot jelöli, mit az i) esetbe, valamit ε = 4 log )/. És így K e d e d N,). Eek a tételek bizoyítjuk a többdimeziós változatait külöböz itervallumo egyeletes eloszlások esetébe, majd haszáljuk egyeletesség tesztelésére ismert és ismeretle itervallumo. Elméleti eredméyek Megvizsgáltuk a Csörg Wu-féle, külöböz távolságszitekhez tartozó klaszterszámok együttes aszimptotikus ormalitását három esetbe: ha a mita a [,], ha az ismert [a, b] illetve ha egy ismeretle itervallumo egyeletes eloszlásból származik. 3

Tekitsük J darab, d d 2... d J, N, távolságszit sorozatot. A K j d j ) jelölje a d j távolságszithez tartozó klaszterek számát mide és j eseté. Tekitsük a K = K d ) m,..., K ) Jd J ) m J ) σ σ J a véletle vektorváltozót az m j = e d j és σ j = e 2d j e d j 2 d 2 j ), N, j =,..., J, cetralizáló és ormalizáló sorozattal. A következ határeloszlástételt kapjuk az ) vektor viselkedésére. 2. Tétel. Tegyük fel, hogy a d d 2... d J, N, távolságszit sorozatok midegyike kielégíti az alábbi feltételek valamelyikét: T) d j, 2 d j ; T2) < lim if d j lim sup d j < ; T3) d j, e d j. Továbbá, tegyük fel, hogy s ij := lim e di dj e di 2 d i d j ) σ i σ j R, i < j J, 2) és legye s jj := és s ji := s ij. Ekkor K a Σ = s ij ) i,j=,...,j kovariaciamátrixszal. N J, Σ), 3) Egy következméye eek a tételek, ha a távolságszitek típusai szerit sorbaredezük a klaszterszámokat, valamit ha a külöböz típusokhoz tartozó távolságszitek jól viselkedek, akkor blokkdiagoális kovariaciamátrixú határeloszlását kapjuk a ormált klaszterszám vektorak. 2.. Következméy. Speciálisa tegyük fel, hogy J 2 és J J 2 J olyaok, hogy mide j J eseté a d j távolságszitek T) típusúak, és mide j > J 2 eseté pedig T3) típusúak. Továbbá tegyük fel, hogy teljesülek az alábbi feltételek: i) Mide i < j J eseté s ij := lim di /d j R létezik. ii) Mide J <j J 2 eseté c j :=lim d j R szité létezik. Ekkor J <i<j J 2 eseté e c i c i c j ) s ij :=. e c i c 2 i )e c j c 2 j ) iii) Mide J 2 < i < j eseté pedig s ij := lim e d j d i )/2 R is létezik. Legye továbbá s ji := s ij és s jj :=. Ekkor a 3) kovergecia érvéyes, a Σ Σ = Σ 2 Σ 3 4

blokkdiagoális kovariaciamátrixszal, ahol Σ, Σ 2 és Σ 3 blokkok redre J J, J 2 J ) J 2 J ) és J J 2 ) J J 2 ) dimeziósak. A Σ mátrix blokkjaiba található kompoesek a fet deiált s ij értékek. Csörg S. és Wu [6] mutat jól viselked távolságszit sorozatokat midhárom típushoz. Egy tipikus d ) =,2,... távolságszit sorozat T) esetbe a d = α sorozat tetsz leges α,2) paraméterrel. J darab ilye d j = α j, j J, sorozatot véve, α > >α 2 > >α J paraméterrel a kovariaciamátrixba s ij = adódik mide i<j J eseté. Hasolóa egy tipikus d ) =,2,... távolságszit sorozat a T3) esetbe a d = βlog )/ sorozat tetsz leges β,) paraméterrel. Így a d j = β j log )/, j > J 2, sorozatok, a β J2 + < β J2 +2 < < β J paraméterválasztással szité a s ij = értékeket eredméyezik mide J 2 < i < j < J eseté. Végül, legye J 2 J 2. A J 2 J = esetbe ics T2) típusú távolságszit sorozat, míg a J 2 J = eseté egy ilye típusú sorozat va. A J 2 J = 2 esetbe pedig a c J2 = e c J + )/c J + összefüggés teljesül. Azáltal, hogy a sorozatokba lév paramétereket a feti módo választjuk, diagoális kovariaciamátrixot kapuk. Így ezekkel a sorozatokkal a 2.. Következméy a következ alakot ölti. 2.2. Következméy. Az el z bekezdésbe szerepl távolságszit sorozatok eseté ahol E J a J dimeziós egységmátrix. K N J, E J ), Vizsgáltuk továbbá ismert [a, b] itervallumo egyeletes eloszlású véletle változók eseté adott távolságszitekhez tartozó klaszterszámok együttes viselkedését. Ebbe az esetbe is meg tuduk adi a 2. Tétel megfelel jét, mivel [a, b] itervallumo egyeletes eloszlású mita köye [,] itervallumo egyeletesé traszformálható. Legyeek V, V 2,..., V függetle, egy ismert [a, b] itervallumo egyeletes eloszlású véletle változók, ahol a, b R, a < b. Jelölje K a,b := K a,b d ) az [a, b] itervallumból származó V, V 2,..., V mitához és a d távolságszithez tartozó klaszterszámot, amely meyiséget ugyaúgy deiáljuk, mit a [,] itervallumo a K, d ) = K d ) klaszterszámot. Legye J természetes szám, és legyeek d d 2... d J távolságszit sorozatok. A K a,b j d j) jelöli a megfelel d j távolságszithez tartozó klaszterszámot, j = =,..., J. Legyeek m a,b dj j = e b a, σ a,b j = ) ) 2 e 2 d j b a e d j dj b a, b a valamit K a,b = K a,b d ) m a,b σ a,b Ekkor a következ eredméyt bizoyítottuk. ),..., Ka,b J d J) m a,b J. σ a,b J 3. Tétel. Tegyük fel, hogy a d j sorozatok midegyike kielégíti a T), a T2) vagy a T3') feltétel valamelyikét, ahol 5

T3') d j, e d j b a. Tegyük fel továbbá, hogy létezik s ij valós szám, amire e d i b a d j b a e d i d i b a b a d j b a és legye s ii := és s ji := s ij. Ekkor érvéyes a K a,b kovergecia a Σ = s ij ) i,j=,...,j kovariaciamátrixszal. ) /σ a,b i σa,b j s ij, i < j J, 4) N J, Σ) 5) Végül pedig legyeek V,..., V függetle, ismeretle [a, b] itervallumo egyeletes eloszlású véletle változók, a, b R, a < b, valamit legye V,,..., V, a hozzá tartozó redezett mita. Ebbe az esetbe is megkaptuk a 2. és a 3. Tételek megfelel it azáltal, hogy az itervallum végpotjait becsüljük az â legkisebb és ˆb legagyobb mitaelemmel. Hasolóa az eddigi jelölésekhez, adott J természetes szám és adott d < <d J távolságszitek eseté ˆK j d j ) jelöli a megfelel d j távolságszithez tartozó klaszterszámot, j =,..., J. Legyeek ˆm j = e d j ) ) ˆb â, ˆσ j = 2 d j d j 2 dj e ˆb â e ˆb â ˆb â valamit K = ˆK d ) ˆm,..., ˆK J d J ) ˆm J ˆσ ˆσ J ). 4. Tétel. Tegyük fel, hogy teljesülek a 3. Tétel feltételei, és tekitsük az ott deiált Σ kovariaciamátrixot. Ekkor K N J, Σ). 6) Statisztikai eredméyek Adott X,..., X mita egy ismeretle F x), x R, eloszlásfüggvéy véletle változóból. Teszteli szereték azt az egyszer ullhipotézist, hogy H : F = F,, ahol most F, a [,] itervallumo egyeletes eloszlás eloszlásfüggvéyét jelöli. Tetsz leges J eseté legyeek a d... d J, N, távolságszit sorozatok olyaok, hogy midegyik sorozat kielégíti a T), T2) vagy T3) feltételek valamelyikét. Továbbá tegyük fel, hogy a 2) feltétel teljesül, és a 2. Tételbeli Σ kovariaciamátrix em sziguláris. Legye K az )-be deiált vektor. Ekkor a 3) kovergeciából a ullhipotézis mellett következik, hogy a tesztstatisztika C := K Σ K χ 2 J, 6

ahol χ 2 J a J szabadsági fokú khi-égyzet eloszlás. Így a C próbastatisztikával tesztelhetjük a H ullhipotézist. Ezt a tesztet evezzük klasztertesztek. Jelölje F a véges zárt itervallumo vett egyeletes eloszlások családját. Tekitsük azt az összetett ullhipotézist, hogy a mita valamelyik egyeletes eloszlásból származik, tehát H : F F = {F a,b : a, b R, a < b}, ahol F a,b az [a, b] itervallumo vett egyeletes eloszlás eloszlásfüggvéyét jelöli. Legyeek d... d J, N, távolságszit sorozatok olyaok, melyek kielégítik a 4. Tétel feltételeit. Ekkor teljesül Ĉ := K Σ K χ 2 J. 7) Ez alapjá úgy t het, hogy az összetett ullhipotézist lehet teszteli az el z bekezdéshez hasolóa. A probléma az, hogy mivel em ismertjük az a és b potos értékét, ezért a Σ kovariaciamátrix kompoeseit se tudjuk meghatározi, emiatt a Ĉ statisztika egy adott mita alapjá em számolható ki. Éppe emiatt az összetett ullhipotézist egy másik módszerrel fogjuk teszteli. Egy lehetséges megoldás, hogy a tetsz leges itervallumból származó V,..., V mitát a [,] itervallumba traszformáljuk a következ képpe: V2, V, V, V,,..., V, V, V, V, A feti formulába V,,..., V, a V,..., V mitaelemekhez tartozó redezett mitát jelöli.) Jelölje K 2,j d j ) a d j távolságszithez tartozó klaszterszámot az átskálázott mita eseté, j =,..., J, és legye ). K 2 := K 2, d ) m 2,,..., K 2,J d J ) m 2,J σ 2, σ 2,J az átskálázott mitához tartozó ormalizált klaszterszám vektor. Továbbá jelölje Σ a kovariaciamátrixot az átskálázott mita eseté. Ekkor C mod := K 2 Σ K 2 χ 2 J. Az így kapott tesztstatisztika már számolható, és ezáltal összetett ullhipotézis elle rzésére alkalmas. Ezt evezzük módosított klasztertesztek. Meghatároztuk eze tesztek erejét külöböz [,] itervalumo folytoos alteratívákkal szembe szimulációval, valamit összehasolítottuk az új tesztek erejét Iglot és Ledwia [2] által bevezetett data drive smooth teszttel. Az er vizsgálat kokluziója, hogy a klaszter tesztek rosszabbul viselkedek, mit más egyeletesség tesztek, kivéve a agyo oszcilláló alteratívák esetébe. A potos eredméyek táblázatok és ábrák formájába találhatók a disszertációba. ) 4. Illeszkedésvizsgálat ormális eloszláscsalád eseté Bevezetés és el zméyek Az L 2 -Wasserstei távolságot haszáló del Barrio, Cuesta-Albertos, Matrá és Rodríguez-Rodríguez [] által bevezetett ormalitás teszt szimulációs vizsgálatát mutatjuk be. 7

Egy eltolás- és skálametes tesztstatisztikát kaptak a H : F N ullhipotézis elle rzésére, ahol N a ormális eloszláscsaládot jelöli. Ez az eljárás egyrészt úgy tesztel ormális eloszláscsaládhoz való tartozást, hogy a teststatisztika a mita empirikus kvatilisfüggvéyéek egy fukcioálja; másrészt aszimptotikusa ekvivales egy korrelációteszttel. A két külöböz megközelítésb l származik az elevezése: kvatilis korrelációteszt. Legye P 2 R) azo valószí ségi mértékek halmaza R-e, melyekek létezik a második mometumuk. A P és P 2 P 2 R) valószí ségi mértékek L 2 -Wasserstei távolsága WP, P 2 ) := if { [EX X 2 ) 2 ] /2, LX ) = P, LX 2 ) = P 2 }, ahol LX) az X véletle változó eloszlását jelöli. Kvatilisfüggvéyek segítségével potosa számolható ez a távolság: [ /2 WP, P 2 ) = F t) F2 t)) dt] 2, ahol F illetve F2 a P illetve a P 2 eloszlásokhoz tartozó kvatilisfüggvéyek. Egy eloszláscsalád és egy adott eloszlás távolságát úgy deiáljuk, mit az adott eloszlásak az eloszláscsalád elemeit l vett távolságaiak imumát. Legye P P 2 R) tetsz leges valószí ségi mérték, és legye F az eloszlásfüggvéye, µ várható értéke és σ a szórása. Ekkor a P eloszlás távolságégyzete az N ormális eloszláscsaládtól 2 W 2 P, N) := if{w 2 P, N σ µ ), N σ µ N} = σ 2 F t)φ t)dt), ahol Φ a stadard ormális kvatilisfüggvéyt jelöli. Ha adott egy F eloszlásfüggvéy X,..., X véletle mita, akkor a H : F N összetett ullhipotézis elle rzésére megadható a WP, N)/σ háyados empirikus változata. Ekkor egy eltolás- és skálametes statisztikát kapuk: T := W2 F, N) S 2 = [ ] 2 Q t)φ t)dt S 2 = [ k= X k, k ] 2 k Φ t)dt, S 2 ahol S 2 az empirikus szóráségyzet. el Barrio, Cuesta-Albertos, Matrá és Rodríguez-Rodríguez [] megvizsgálták a tesztstatisztika ullhipotézis melletti aszimptotikus viselkedését. Két alakba sikerült el állítaiuk a határeloszlást. Az els Brow-híd fukcioáljakét, a második véletle változók végtele sorakét. Jelölje ϕ a stadard ormális eloszlás s r ségfüggvéyét, és legye a = + + t t) [ϕφ t))] 2 dt. 5. Tétel del Barrio, Cuesta-Albertos, Matrá és Rodríguez-Rodríguez[]). Ha F N, akkor [ T a ) B 2 t) EB 2 t)) ] 2 Bt) ] dt [ ϕ 2 Φ t)) ϕ 2 Φ t)) dt Bt)Φ 2 t) ϕ 2 Φ t)) dt = 3 2 + Zj 2 j j=3 ahol Z j ) j=3 függetle, stadard ormális eloszlású véletle változók sorozata. 8

Szimulációs eredméyek A szimulációs vizsgálatba el ször az 5. Tételbe deiált határ véletle változó eloszlását határoztuk meg umerikusa az ott megadott végtele soros alak segítségével. Eztá = -t l = -ig többféle mitaméret mellett Mote Carlo szimuláció alkalmazásával meghatároztuk az T a ) tesztstatisztika eloszlásfüggvéyét, és meggyeltük a kovergecia sebességét. A vizsgálat eredméyeit a. és a 2. ábra tartalmazza.. ábra. Az aszimptotikus eloszlásfüggvéy balra) és a s r ségfüggvéy jobbra) 2. ábra. Az T a ) tesztstatisztika eloszlásfüggvéye =, 2 potozott voal), 5 mitaméret eseté és az A-val jelölt vastagabb voal bal oldalo az aszimptotikus eloszlásfüggvéy balra). Ugyaez = és mitaméret eseté jobbra). Továbbá a szimulációs vizsgálatba kiértékeltük a BCMR-teszt a szerz k kezd bet ib l) számos alteratívával szembei erejét és öt másik ormalitás teszttel összehaso- 9

3. ábra. A BCMR, W, ISE, BHEP, és A 2 tesztek ereje a CNλ, 4) alteratíva λ paraméteréek függvéyébe balra) és ugyaez a CNλ, 9) alteratívára jobbra), jelölések: =BCMR-teszt; 2=W -teszt; 3=ISE-teszt; 4=BHEP-teszt; 5=-teszt; 6=A 2 -teszt lítottuk. Eze tesztek közül az els ShapiroWilk W -tesztje [9], amit = 2 és = 5 eseté haszáltuk az összehasolításba. Mivel a W -teszt együtthatói az = mitaméret eseté agyo eheze számolhatók, ezért ebbe az esetbe a ShapiroFracia [8] W -tesztet haszáltuk. Az EF-tesztek közül a KolmogorovSmirov [3] -teszt Stephes [2] által javasolt módosított változatát, és az Adersoarlig [] A 2 -tesztet választottuk. A egyedik teszt, amit bevettük az összehasolításba, egy s r ségbecslésre alapozott teszt, Bowma és Foster [3] itegrált égyzetes hiba ISE-tesztje. Az ötödik teszt Epps és Pulley [] BHEP-tesztje. A jobb összehasolíthatóság céljából a 3. ábrá felvettük a hat tesztek a kotamiált ormális alteratívákkal szembei erejét a λ paraméter függvéyébe. Jelölje CNλ, σ 2 ), <λ< és σ > paraméterekkel a kotamiált ormális eloszlást, amely a következ eloszlásfüggvéyel va deiálva F x) = λ)φx)+λφx/σ), x R. A szigikaciaszit,5; a mitaméret = 2 midkét esetbe. Általáos kokluziója eek a vizsgálatak, hogy a BCMR-teszt általába jobba teljesít, mit más tesztek, kivéve a WilkShapiro- és ShapiroFracia-teszteket. Valamit a legtöbb esetbe a W W kombiált teszt tulajdoságai és a BCMR kvatilis korrelációteszt tulajdoságai agyo hasolítaak egymáshoz. 5. Illeszkedésvizsgálat logisztikus eloszláscsalád eseté el Barrio, Cuesta-Albertos, Matrá és Rodríguez-Rodríguez [], valamit del Barrio, Cuesta-Albertos és Matrá [9] által bevezetett kvatilis korreláció teszt súlyozott

változatát vezetjük be logisztikus eloszláscsalád esetébe. A súlyfüggvéy haszálatát a tesztstatisztikába egymástól függetleül de Wet [7], [8] és Csörg S. [4], [5] külöböz motivációból javasolta. Mi a Csörg -féle [5] eredméyt a de Wet által eltolás eloszláscsalád esetére javasolt, kokrét súlyfüggvéyel bizoyítjuk logisztikus eltolás-skála eloszláscsalád esetébe. Adott Gx), x R, eloszlásfüggvéyre valamit θ R és σ > eltolás és skála paraméterekre legye G θ σx) = Gx θ)/σ), x R, valamit tekitsük a G l,s = {G θ σ : θ R, σ > } eltolás-skála családot. Jelölje Q G t) = G t), < t <, a G kvatilisfüggvéyét. Legye a w :,) [, ) súlyfüggvéy olya, amely a wt)dt = feltételt kielégíti, és deiáljuk az r-edik súlyozott mometumot µ r G, w) := Q G t)) r wt)dt = x r wgx))dgx). A továbbiakba feltesszük, hogy µ G, w) és µ 2 G, w) véges, és deiáljuk a súlyozott szóráségyzetet is: νg, w) := µ 2 G, w) µ 2 G, w). Két eloszlásfüggvéy, F és G, súlyozott L 2 -Wasserstei-távolságát deiáljuk a [ W w F, G) := ] Q F t) Q G t)) 2 2 wt)dt meyiséggel. A W w F, G l,s ) = if{w w F, G) : G G l,s } az F eloszlás és a G l,s eltolás-skála család közötti súlyozott L 2 -Wasserstei távolságot és a súlyozott variacia háyadosát [ ] 2 WwF, 2 G l,s ) Q F t)q G t)wt)dt µ F, w)µ G, w) = νf, w) νf, w)νg, w) Csörg S. [5] cikkéb l származtatjuk. Tekitsük egy X,..., X véletle mitát egy ismeretle F eloszlásfüggvéyel, és legye G egy rögzített eloszlásfüggvéy. Szereték teszteli a H : F G l,s ullhipotézist. Ebb l a célból deiáljuk a mita empirikus eloszlása és a G l,s eltolás-skála család súlyozott L 2 -Wasserstei-távolságából származtatott V [ Q t)q G t)wt)dt µ G, w) Q t)wt)dt := [ ) ] 2 νg, w) Q2 t)wt)dt Q t)wt)dt [ { k k Q G t)wt)dt µ G, w) k k = νg, w) k= X k, [ k= X2 k, k k wt)dt k= X k, ] 2 }] 2 wt)dt k k wt)dt ) 2 ] tesztstatisztikát, ahol Q az empirikus kvatilisfüggvéyt jelöli. Csörg t l [5] származik a következ eredméy a V statisztika aszimptotikus viselkedésér l.

6. Tétel Csörg [5]). Legye w egy emegatív, a,) itervallumo itegrálható függvéy, amelyre wt)dt =. Tegyük fel, hogy G olya eloszlásfüggvéy, amelyek va véges súlyozott második mometuma, és kétszer folytoosa diereciálható az a G, b G ) yitott itervallumo, továbbá gx)=g x)> mide x a G, b G ) eseté. Legye továbbá B a Brow-híd. Ha a t t) g Q G t)) t t) <, wt)dt <, g 2 Q G t)) g 2 Q G t)) és az sup <t< + [Y, Q G t)] 2 wt)dt, P [Y, Q G t)] 2 wt)dt, P + feltételek teljesülek, akkor a következ állítás érvéyes: Ha F a G által geerált G l,s eltolás-skála családhoz tartozik, akkor { V [ B 2 t) ] 2 } V g := νg, w) g 2 Q G t)) wt)dt Bt) gq G t)) wt)dt [ Bt)Q G t) νg, w) gq G t)) wt)dt µ G, w) ] 2 Bt) νg, w) gq G t)) wt)dt. Eek a tételek a segítségével találtuk meg a tesztstatisztika határeloszlását logisztikus eloszláscsalád esetébe. Eredméyek Tekitsük a Gx) = /+e x ), x R, logisztikus eloszlásfüggvéyt, és jelölje G l,s a kapcsolatos eltolás-skála családot. irekt számolással megmutatható, hogy a de Wet [8] által eltolás család esetére javasol wt) = 6t t), < t < súlyfüggvéyel a súlyozott els és második mometum µ G, w) = és µ 2 G, w) = π 2 /3 2. Ekkor az eltolás-skála metes tesztstatisztika logisztikus eltolás-skála család esetébe [ k= k= a k, X k, ] 2 V = ) π 2 ) 2 3 2 b k, Xk, 2 b k, X k, ahol az együtthatók potosa számolhatóak az alábbi alakba: k ) t a k, = 6t t) l dt t b k, = k k= = k2 3 2k) l k 3 k k )2 3 2k +2) l k 3 k + +l k k + + 2k + 2, k k 6t t)dt = 32k ) 2 + 2 3k2 +3k ) 3. 2,

Csörg aszimptotikus eredméyéek [5] a következméyekét kapjuk a V tesztstatisztika határeloszlását. 7. Tétel. Ha a mita F eloszlásfüggvéye a G l,s logisztikus eltolás-skála családhoz tartozik, akkor { V [ 6B 2 t) ] 2 } V := π 2 /3 2 t t) dt 6Bt) dt [ ) 2 t 6Bt) l dt], π 2 /3 2 t ahol a határérték valószí séggel létezik. el Barrio, Cuesta-Albertos, Matrá [9] a súly élküli tesztstatisztika határeloszlását megadták súlyozott Brow-hidak KarhueLoève-sorfejtésekét. Ugyaeze techikával meghatároztuk a határeloszlás végtele soros alakját. 8. Tétel. A V határeloszlás felírható V = π 2 3 2 k=2 6 kk +) Z2 k [ π 2 3 2 l= 3 ] 2 4l + ll +)2l )2l +) Z 2l alakba, ahol Z m ) m= függetle stadard ormális eloszlású véletle változók végtele sorozata, és a sor valószí séggel kovergál. Szimulációs eredméyek Hasolóa az el bbi fejezetekhez egy szimulációs er vizsgálatot hajtottuk végre, majd összehasolítottuk az új tesztet az empirikus karakterisztikus függvéyre és empirikus mometum geeráló függvéyre alapozott Meitais-tesztekkel [5]. A kapott eredméyeket az. táblázat foglalja össze. Általáos kokluziója eek a szimulációs vizsgálatak, hogy köye számolható tesztstatisztikájú, akár az aszimptotikus kritikus értékeket is haszálható, közepes er sség tesztet kaptuk. Hivatkozások [] T. W. Aderso ad. A. arlig. Asymptotic theory of certai goodess of t criteria based o stochastic processes. Aals of Mathematical Statistics, 23:9322, 952. [2] F. Balogh ad É. Krauczi. Weighted quatile corelatio test for the logistic family. Acta Scietiarum Mathematicarum.Szeged), 8-2):37326, 24. [3] A. Bowma ad P. Foster. Adaptive smoothig ad desity-based tests of multivariate ormality. JASA. Joural of the America Statistical Associatio, 88:529537, 993. 3

[4] S. Csörg. Weighted correlatio tests for scale families. Test, ):29248, 22. [5] S. Csörg. Weighted correlatio tests for locatio-scale families. Mathematical ad Computer Modellig, 387-9):753762, 23. Hugaria applied mathematics ad computer applicatios. [6] S. Csörg ad W. B. Wu. O the clusterig of idepedet uiform radom variables. Radom Structures Algorithms, 254):39642, 24. [7] T. de Wet. iscussio of "Cotributios of empirical ad quatile processes to the asymptotictheory of goodess-of-t tests". Test, 9):7479, 2. [8] T. de Wet. Goodess-of-t tests for locatio ad scale families based o a weighted L 2 -Wasserstei distace measure. Test, ):897, 22. [9] E. del Barrio, J. A. Cuesta-Albertos, ad C. Matrá. Cotributios of empirical ad quatile processes to the asymptotic theory of goodess-of-t tests. Test, 9):96, 2. With discussio. [] E. del Barrio, J. A. Cuesta-Albertos, C. Matrá, ad J. M. Rodríguez-Rodríguez. Tests of goodess of t based o the L 2 -Wasserstei distace. The Aals of Statistics, 274):23239, 999. [] T. Epps ad L. B. Pulley. A test for ormality based o the empirical characteristic fuctio. Biometrika, 7:723726, 983.. táblázat. Az V teszt %-ba megadott empirikus ereje éháy alteratívával szembe, = 2, 5 és mitaméret és α szigikaciaszit mellett a % empirikus er t jelöli). Alteratívák 2 5 2 5 N,) 5 6 8 2 2 4 Egyeletes 3 47 93 5 29 82 Cauchy 88 99 * 84 99 * Laplace 26 39 55 7 29 43 Exp) 7 99 * 56 97 * TriagleI) 4 7 3 2 3 6 TriagleII) 2 6 97 43 9 Beta2;2) 6 5 4 2 7 24 Weibull2) 2 25 54 5 5 38 Gamma2,) 4 8 99 27 69 98 Logormal 86 * * 79 * * Studet5) 6 9 2 2 3 χ 2 94 * * 88 * * Negatív Exp 69 99 * 56 97 * α,,5 4

[2] T. Iglot ad T. Ledwia. Towards data drive selectio of a pealty fuctio for data drive Neyma tests. Liear Algebra ad its Applicatios, 47):2433, 26. [3] A. Kolmogorov. Sulla determiazioe empirica di ua legge di distribuzioe. Giorale del Istituto Italiao degli Attuari, 4:839, 933. [4] É. Krauczi. A study of the quatile correlatio test of ormality. Test, 8):5665, 29. [5] S. G. Meitais. Goodess-of-t tests for the logistic distributio based o empirical trasforms. Sakhy a. The Idia Joural of Statistics, 662):36326, 24. [6] K. É. Osztéyié. Joit cluster couts from uiform distributio. Probability ad Mathematical Statistics, 33):936, 23. [7] E. S. Pearso. A further developmet of tests for ormality. Biometrika, 22:239249, 93. [8] M. W. Shapiro, S.S. ad H. Che. A approximate aalysis of variace test for ormality. Joural of the America Statistical Associatio, 63:34372, 968. [9] S. Shapiro ad M. Wilk. A aalysis of variace test for ormality complete samples). Biometrika, 52:596, 965. [2] M. A. Stephes. EF statistics for goodess of t ad some comparisos. Joural of the America Statistical Associatio, 69:73737, 974. 5