FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A leíró statisztikák

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Kutatásmódszertan és prezentációkészítés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A maximum likelihood becslésről

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

A Statisztika alapjai

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

A valószínűségszámítás elemei

Bevezetés a hipotézisvizsgálatokba

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

egyetemi jegyzet Meskó Balázs

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Hipotézis vizsgálatok

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Több valószínűségi változó együttes eloszlása, korreláció

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Normák, kondíciószám

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Biostatisztika VIII. Mátyus László. 19 October

[Biomatematika 2] Orvosi biometria

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Segítség az outputok értelmezéséhez

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Statisztika elméleti összefoglaló

Matematikai geodéziai számítások 6.

Függvények növekedési korlátainak jellemzése

Elemi statisztika fizikusoknak

A mérési eredmény megadása

Valószínűségi változók. Várható érték és szórás

Korreláció és lineáris regresszió

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Matematikai geodéziai számítások 6.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Statisztikai módszerek 7. gyakorlat

Többváltozós lineáris regressziós modell feltételeinek

Likelihood, deviancia, Akaike-féle információs kritérium

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

6. Előadás. Vereb György, DE OEC BSI, október 12.

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

y ij = µ + α i + e ij

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatok statisztikai értékelésének főbb lehetőségei

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Mérési hibák

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

14 A Black-Scholes-Merton modell. Options, Futures, and Other Derivatives, 8th Edition, Copyright John C. Hull

Statisztikai becslés

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Regresszió. Fő cél: jóslás Történhet:

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Számítógépes döntéstámogatás. Statisztikai elemzés

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Regressziós vizsgálatok

Biomatematika 2 Orvosi biometria

Kettőnél több csoport vizsgálata. Makara B. Gábor

Matematikai geodéziai számítások 5.

Biomatematika 2 Orvosi biometria

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Dr. Karácsony Zsolt. Miskolci Egyetem november

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Abszolút folytonos valószín ségi változó (4. el adás)

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

A konfidencia intervallum képlete: x± t( α /2, df )

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Az értékelés során következtetést fogalmazhatunk meg a

Átírás:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9

IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak, ha a feltételezett paraméteres modell pontosan leírja a megfigyelések eloszlását. Természetes kérdésként merül fel azonban az alkalmazhatóság, hiszen ezek a modellek pontosan szinte sohasem igazak. Ennek okait négy csoportba foglalták össze: 1. a nagy hibák előfordulása, 2. a kerekítés és osztályozás, 3. a modell csak közelítőleg érvényes, 4. eltekintve az eloszlásra vonatkozó feltevésektől a függetlenségi feltétel (vagy valamilyen más korrelációs struktúra) csak közelítőleg teljesülhet. A nagy hibák előfordulását pedig gyakorlatilag további két csoportba lehet osztani: 1. ritkán előforduló kiugró értékek (outliers), 2. nagyobb százalékban előforduló szennyeződések (contaminations). Ezek a hibák általában nem hagyhatók figyelmen kívül a gyakorlatban, mivel még nagyon enyhe eltérések is teljesen elronthatják az "optimális" becslés viselkedését. Maga a robusztusság (robustness) kifejezést G. E. P. Box (1953) használta először. Robusztusság: Sok statisztikai módszer, beleértve a valószínűségi szinteket, függ a feltételek pontosságától, pl. a vizsgált változó normális eloszlású-e. Ha a feltételek változására az eredmények csak kissé befolyásolódnak, pl. ha egy próba szignifikancia pontjai csak kissé változnak, ha a populáció lényegesen eltér a normálistól, akkor a próbát robusztusnak nevezzük. Még általánosabb értelemben egy statisztikai eljárás robusztus, ha nem nagyon érzékeny azokra a feltételekre, amelyektől függ. Definíció: Legyen M-becslésnek nevezzük azokat a becsléseket, amelyek minimalizálják a összeget -ra nézve adott minta esetén. Megjegyzés: Nagyon sokszor azonosítják az M-becsléseket a egyenletekkel. Tegyük fel, hogy a függvény deriváltjai alapján (ha léteznek) felírt parciális deriváltak léteznek, s ekkor az M-becslésekre teljesül, hogy A rövidség kedvéért sokszor csak a függvényeket használjuk az M-becslések definiálására. 2. A HELYPARAMÉTER NÉHÁNY BECsLÉsE 1. Ha akkor a megfelelő M-becslés az átlag, amelyik nem robusztus.

2. Ha akkor az M-becslés a medián, amely robusztus. 3. A Huber-féle becslés: ahol eloszlásfüggvényre. amelyhez tartozó becslés robusztus. Az optimális robusztus eset a normális 4. Sajnos a helyparaméter M-becslései általában nem skálainvariánsak, ezért szükséges a skálaparamétert valamilyen módszerrel megbecsülni. Ha gyorsan akarjuk a skálaparamétert becsülni, akkor az általánosan alkalmazott a medián abszolút eltérés (MAD) konstans szorosa, azaz ahol a minta mediánját jelöli, míg azt biztosítja, hogy a becslés konzisztens és torzítatlan legyen. Például esetén 5. Általában a helyparaméter meghatározására, a paramétert meghatározó egyenlet megoldására a következő rekurzív algoritmusok javasoltak: (a) Newton-módszer: (b) H-módszer (módosított Newton-módszer): (c) Súlyozott legkisebb négyzetek módszere: ahol A módszerekhez javasolt kiinduló érték:

3. A skálaparaméter NÉHÁNY BECsLÉsE 1. A maximum likelihood becslés esetén Tudjuk, hogy a regularitási feltételek mellett az ehhez tartozó becslésnek a legkisebb az aszimptotikus szórásnégyzete. De például esetén amely nem robusztus. 2. A medián abszolút eltérés viszont robusztus, amelynél 3. A Huber-féle becslés a skálaparaméterre a helyparaméterre vonatkozó becslés alapján készült, azaz ahol a helyparaméter becsléséhez bevezetett függvény. Ez robusztus. A skálaparaméter becslésére csak egy általánosan jól használható algoritmust javasol a szakirodalom: ahol és a helyparaméter becslése. A skálaparaméterre kiinduló értékként javasolt az 4. KIUGRÓ ÉRTÉK Kiugró értékek meghatározása: Enyhe kiugró értékről beszélünk, ha az adat eltérése a mediántól legalább 1.5-szerese a kvartilis terjedelemnek (a felső és az alsó kvartilis különbsége), de legfeljebb 3-szorosa. Extrém kiugró értékről beszélünk, ha az adat eltérése a mediántól legalább 3-szorosa a kvartilis terjedelemnek. PÉLDA Példa: Enyhe és extrém kiugró érték meghatározása, ha a mintarealizáció a következő: 30 305 409 470 522 585 640 766 860 171 306 411 480 527 592 656 792 869 184 322 436 482 548 592 668 792 918 201 322 437 487 550 607 707 794 925 212 336 439 494 559616 709 802 953 250 346 441 495 560 618 719 818 991 265 351 444 499 570 621 737 830 1000 270 370 448 503 572 629 739 832 1005 272 390 451 514 574 637 752 43 1068 289 404 453 521 578 638 758 858 1441.

medián = -dik legnagyobb adat = a 45-dik és 46-dik átlaga= (559+560)/2=559.5. Alsó kvartilis= -dik adat = 22.75-dik adat = Felső kvartilis= -dik adat = 68.25-dik adat = Kvartilis terjedelem =Felső kvartilis - Alsó kvartilis =312.5 Alsó belső határ = Alsó kvartilis- 1.5 Kvartilis terjedelem = -39 Felső belső határ = Felső kvartilis + 1.5 Kvartilis terjedelem = 1211. Alsó külső határ = Alsó kvartilis- 3 Kvartilis terjedelem = -507.75. Felső külső határ = Felső kvartilis + 3 Kvartilis terjedelem = 1679.75. Enyhe kiugró érték = 1441. 5. KIUGRÓ ÉRTÉK MEGHATÁROZÁsA GRUBBs ELMÉLETE ALAPJÁN A rendezett minta: Felső oldali kiugró statisztika: Alsó oldali kiugró statisztika: PÉLDA Példa: Adatok: 10.2, 9.5, 10.1, 10.3, 9.8, 9.9, 11.9, 10.0 Kritikus értékek (0.01 szint): 0.05 szint:

PÉLDA Példa: Grubbs-féle statisztikák: Adatok: 47.876 47.997 48.065 48.118 48.151 48.211 48.251 48.559 48.634 48.711 49.005 49.166 49.484 0.603, 0.482, 0.414, 0.361, 0.328, 0.268, 0.228, 0.080, 0.155, 0.232, 0.526, 0.687, 1.005. így a statisztikák értékei és a kritikus értékek 95% 99% 3 1.153 2.00-1.155 2.00-4 1.463 2.43 0.9992 1.492 2.44 1.0000 5 1.672 2.75 0.9817 1.749 2.80 0.9965 6 1.822 3.01 0.9436 1.944 3.10 0.9814 7 1.938 3.22 0.8980 2.097 3.34 0.9560 8 2.032 3.40 0.8522 2.221 3.54 0.9250 9 2.110 3.55 0.8091 2.323 3.72 0.8918 10 2.176 3.68 0.7695 2.410 3.88 0.8586 12 2.285 3.91 0.7004 2.550 4.13 0.7957 13 2.331 4.00 0.6705 2.607 4.24 0.7667 15 2.409 4.17 0.6182 2.705 4.43 0.7141 20 2.557 4.49 0.5196 2.884 4.79 0.6091 25 2.663 4.73 0.4505 3.009 5.03 0.5320 30 2.745 4.89 0.3992 3.103 5.19 0.4732 35 2.811 5.026 0.3595 3.178 5.326 0.4270 40 2.866 5.150 0.3276 3.240 5.450 0.3896

50 2.956 5.350 0.2797 3.336 5.650 0.3328 60 3.025 5.500 0.2450 3.411 5.800 0.2914 70 3.082 5.638 0.2187 3.471 5.938 0.2599 80 3.130 5.730 0.1979 3.521 6.030 0.2350 90 3.171 5.820 0.1810 3.563 6.120 0.2147 100 3.207 5.900 0.1671 3.600 6.200 0.1980 110 3.239 5.968 0.1553 3.632 6.268 0.1838 120 3.267 6.030 0.1452 3.662 6.330 0.1716 140 3.318 6.137 0.1288 3.712 6.437 0.1519 Grubbs-féle kritikus értékek táblázata Digitális Egyetem, Copyright Fegyverneki Sándor, 2011