FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9
IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak, ha a feltételezett paraméteres modell pontosan leírja a megfigyelések eloszlását. Természetes kérdésként merül fel azonban az alkalmazhatóság, hiszen ezek a modellek pontosan szinte sohasem igazak. Ennek okait négy csoportba foglalták össze: 1. a nagy hibák előfordulása, 2. a kerekítés és osztályozás, 3. a modell csak közelítőleg érvényes, 4. eltekintve az eloszlásra vonatkozó feltevésektől a függetlenségi feltétel (vagy valamilyen más korrelációs struktúra) csak közelítőleg teljesülhet. A nagy hibák előfordulását pedig gyakorlatilag további két csoportba lehet osztani: 1. ritkán előforduló kiugró értékek (outliers), 2. nagyobb százalékban előforduló szennyeződések (contaminations). Ezek a hibák általában nem hagyhatók figyelmen kívül a gyakorlatban, mivel még nagyon enyhe eltérések is teljesen elronthatják az "optimális" becslés viselkedését. Maga a robusztusság (robustness) kifejezést G. E. P. Box (1953) használta először. Robusztusság: Sok statisztikai módszer, beleértve a valószínűségi szinteket, függ a feltételek pontosságától, pl. a vizsgált változó normális eloszlású-e. Ha a feltételek változására az eredmények csak kissé befolyásolódnak, pl. ha egy próba szignifikancia pontjai csak kissé változnak, ha a populáció lényegesen eltér a normálistól, akkor a próbát robusztusnak nevezzük. Még általánosabb értelemben egy statisztikai eljárás robusztus, ha nem nagyon érzékeny azokra a feltételekre, amelyektől függ. Definíció: Legyen M-becslésnek nevezzük azokat a becsléseket, amelyek minimalizálják a összeget -ra nézve adott minta esetén. Megjegyzés: Nagyon sokszor azonosítják az M-becsléseket a egyenletekkel. Tegyük fel, hogy a függvény deriváltjai alapján (ha léteznek) felírt parciális deriváltak léteznek, s ekkor az M-becslésekre teljesül, hogy A rövidség kedvéért sokszor csak a függvényeket használjuk az M-becslések definiálására. 2. A HELYPARAMÉTER NÉHÁNY BECsLÉsE 1. Ha akkor a megfelelő M-becslés az átlag, amelyik nem robusztus.
2. Ha akkor az M-becslés a medián, amely robusztus. 3. A Huber-féle becslés: ahol eloszlásfüggvényre. amelyhez tartozó becslés robusztus. Az optimális robusztus eset a normális 4. Sajnos a helyparaméter M-becslései általában nem skálainvariánsak, ezért szükséges a skálaparamétert valamilyen módszerrel megbecsülni. Ha gyorsan akarjuk a skálaparamétert becsülni, akkor az általánosan alkalmazott a medián abszolút eltérés (MAD) konstans szorosa, azaz ahol a minta mediánját jelöli, míg azt biztosítja, hogy a becslés konzisztens és torzítatlan legyen. Például esetén 5. Általában a helyparaméter meghatározására, a paramétert meghatározó egyenlet megoldására a következő rekurzív algoritmusok javasoltak: (a) Newton-módszer: (b) H-módszer (módosított Newton-módszer): (c) Súlyozott legkisebb négyzetek módszere: ahol A módszerekhez javasolt kiinduló érték:
3. A skálaparaméter NÉHÁNY BECsLÉsE 1. A maximum likelihood becslés esetén Tudjuk, hogy a regularitási feltételek mellett az ehhez tartozó becslésnek a legkisebb az aszimptotikus szórásnégyzete. De például esetén amely nem robusztus. 2. A medián abszolút eltérés viszont robusztus, amelynél 3. A Huber-féle becslés a skálaparaméterre a helyparaméterre vonatkozó becslés alapján készült, azaz ahol a helyparaméter becsléséhez bevezetett függvény. Ez robusztus. A skálaparaméter becslésére csak egy általánosan jól használható algoritmust javasol a szakirodalom: ahol és a helyparaméter becslése. A skálaparaméterre kiinduló értékként javasolt az 4. KIUGRÓ ÉRTÉK Kiugró értékek meghatározása: Enyhe kiugró értékről beszélünk, ha az adat eltérése a mediántól legalább 1.5-szerese a kvartilis terjedelemnek (a felső és az alsó kvartilis különbsége), de legfeljebb 3-szorosa. Extrém kiugró értékről beszélünk, ha az adat eltérése a mediántól legalább 3-szorosa a kvartilis terjedelemnek. PÉLDA Példa: Enyhe és extrém kiugró érték meghatározása, ha a mintarealizáció a következő: 30 305 409 470 522 585 640 766 860 171 306 411 480 527 592 656 792 869 184 322 436 482 548 592 668 792 918 201 322 437 487 550 607 707 794 925 212 336 439 494 559616 709 802 953 250 346 441 495 560 618 719 818 991 265 351 444 499 570 621 737 830 1000 270 370 448 503 572 629 739 832 1005 272 390 451 514 574 637 752 43 1068 289 404 453 521 578 638 758 858 1441.
medián = -dik legnagyobb adat = a 45-dik és 46-dik átlaga= (559+560)/2=559.5. Alsó kvartilis= -dik adat = 22.75-dik adat = Felső kvartilis= -dik adat = 68.25-dik adat = Kvartilis terjedelem =Felső kvartilis - Alsó kvartilis =312.5 Alsó belső határ = Alsó kvartilis- 1.5 Kvartilis terjedelem = -39 Felső belső határ = Felső kvartilis + 1.5 Kvartilis terjedelem = 1211. Alsó külső határ = Alsó kvartilis- 3 Kvartilis terjedelem = -507.75. Felső külső határ = Felső kvartilis + 3 Kvartilis terjedelem = 1679.75. Enyhe kiugró érték = 1441. 5. KIUGRÓ ÉRTÉK MEGHATÁROZÁsA GRUBBs ELMÉLETE ALAPJÁN A rendezett minta: Felső oldali kiugró statisztika: Alsó oldali kiugró statisztika: PÉLDA Példa: Adatok: 10.2, 9.5, 10.1, 10.3, 9.8, 9.9, 11.9, 10.0 Kritikus értékek (0.01 szint): 0.05 szint:
PÉLDA Példa: Grubbs-féle statisztikák: Adatok: 47.876 47.997 48.065 48.118 48.151 48.211 48.251 48.559 48.634 48.711 49.005 49.166 49.484 0.603, 0.482, 0.414, 0.361, 0.328, 0.268, 0.228, 0.080, 0.155, 0.232, 0.526, 0.687, 1.005. így a statisztikák értékei és a kritikus értékek 95% 99% 3 1.153 2.00-1.155 2.00-4 1.463 2.43 0.9992 1.492 2.44 1.0000 5 1.672 2.75 0.9817 1.749 2.80 0.9965 6 1.822 3.01 0.9436 1.944 3.10 0.9814 7 1.938 3.22 0.8980 2.097 3.34 0.9560 8 2.032 3.40 0.8522 2.221 3.54 0.9250 9 2.110 3.55 0.8091 2.323 3.72 0.8918 10 2.176 3.68 0.7695 2.410 3.88 0.8586 12 2.285 3.91 0.7004 2.550 4.13 0.7957 13 2.331 4.00 0.6705 2.607 4.24 0.7667 15 2.409 4.17 0.6182 2.705 4.43 0.7141 20 2.557 4.49 0.5196 2.884 4.79 0.6091 25 2.663 4.73 0.4505 3.009 5.03 0.5320 30 2.745 4.89 0.3992 3.103 5.19 0.4732 35 2.811 5.026 0.3595 3.178 5.326 0.4270 40 2.866 5.150 0.3276 3.240 5.450 0.3896
50 2.956 5.350 0.2797 3.336 5.650 0.3328 60 3.025 5.500 0.2450 3.411 5.800 0.2914 70 3.082 5.638 0.2187 3.471 5.938 0.2599 80 3.130 5.730 0.1979 3.521 6.030 0.2350 90 3.171 5.820 0.1810 3.563 6.120 0.2147 100 3.207 5.900 0.1671 3.600 6.200 0.1980 110 3.239 5.968 0.1553 3.632 6.268 0.1838 120 3.267 6.030 0.1452 3.662 6.330 0.1716 140 3.318 6.137 0.1288 3.712 6.437 0.1519 Grubbs-féle kritikus értékek táblázata Digitális Egyetem, Copyright Fegyverneki Sándor, 2011