kritikus érték(ek) (critical value).



Hasonló dokumentumok
Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis vizsgálatok

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

Bevezetés a hipotézisvizsgálatokba

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Biostatisztika Összefoglalás

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Hipotézis vizsgálatok

Kettőnél több csoport vizsgálata. Makara B. Gábor

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Varianciaanalízis 4/24/12

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Normális eloszlás paramétereire vonatkozó próbák

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Biostatisztika Összefoglalás

Nemparaméteres próbák

Nemparametrikus tesztek december 3.

egyetemi jegyzet Meskó Balázs

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

[Biomatematika 2] Orvosi biometria

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

y ij = µ + α i + e ij

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Biomatematika 13. Varianciaanaĺızis (ANOVA)

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Statisztika Elıadások letölthetık a címrıl

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Adatok statisztikai értékelésének főbb lehetőségei

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Statisztika elméleti összefoglaló

Eloszlás-független módszerek 13. elıadás ( lecke)

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Az első számjegyek Benford törvénye

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

kritikus érték(ek) (critical value).

Matematikai statisztika c. tárgy oktatásának célja és tematikája

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Függetlenségvizsgálat, Illeszkedésvizsgálat

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Nem-paraméteres és paraméteres módszerek. Kontingencia tábla, rangtranszformálás, párosított minták, két független minta

Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József

Nem-paraméteres (eloszlásmentes) statisztikai módszerek Makara Gábor

Normális eloszlás tesztje

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

A konfidencia intervallum képlete: x± t( α /2, df )

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biostatisztika VIII. Mátyus László. 19 October

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztikai módszerek 7. gyakorlat

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

V. Gyakorisági táblázatok elemzése

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

IV. Változók és csoportok összehasonlítása

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

Korreláció és lineáris regresszió

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Segítség az outputok értelmezéséhez

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Hipotézisvizsgálat R-ben

Variancia-analízis (folytatás)

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

BIOMATEMATIKA ELŐADÁS

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Statisztikai módszerek 7. gyakorlat

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Átírás:

Hipotézisvizsgálatok (hypothesis testing) A statisztikának egyik célja lehet a populáció tulajdonságainak, ismeretlen paramétereinek a becslése. A másik tipikus cél: valamely elmélet, hipotézis empirikus bizonyítása vagy cáfolata. Nullhipotézisnek (null hypothesis) (H0) nevezzük azt a hipotézist, amelyet pillanatnyilag nincs okunk megkérdőjelezni, amely a tudomány jelenlegi álláspontja szerint elfogadható, amelyet, ha a kísérlet/felmérés semmi újat nem hoz, továbbra is fenntartunk, amely helyett nekünk már jobb elméletünk van, és a kísérletet éppen ennek a bizonyítására (egyben a régi megcáfolására) szánjuk. Ellenhipotézisnek (alternative hypothesis) (H) nevezzük azt a hipotézist, amelynek bizonyítását a kísérlettől várjuk (az új elmélet ).

Megszoktuk, hogy általában valamely különbség, hatás, korreláció meglétét, azaz nemnulla voltát szeretnénk bizonyítani, tehát azt a hipotézist szoktuk H0-nak választani, hogy az illető dolog (különbség, stb.) egyenlő nullával. Teszt-statisztika (test statistic), próbastatisztika, próbafüggvény: az a mintából számított mennyiség, amelynek értéke alapján a döntést hozzuk. A teszt-statisztika mivel a mintából számítjuk véletlen változó. Olyan mennyiségnek kell lennie, amelynek eloszlása lehetőleg minél jobban eltér a H0 és a H fennállása esetén, például kisebb értékekre számíthatunk H0, nagyobbakra H esetén. Elutasítási vagy kritikus tartomány (rejection region): a döntési szabályt meghatározó számhalmaz, ha a teszt-statisztika értéke ide esik, a nullhipotézist elvetjük, ha nem, megtartjuk. A kritikus tartomány kiegészítő halmazát elfogadási tartománynak is nevezik. E két tartományt elválasztó érték(ek) az úgynevezett kritikus érték(ek) (critical value).

Elsőfajú hiba valószínűsége (Type I error rate), α, annak a valószínűsége, hogy H0-t elvetjük, pedig igaz. Az elsőfajú hiba, hogy a teszt-statisztika értéke a kritikus tartományba esik, bár a H0 igaz. α a teszt-statisztika null-eloszlásától * (null distribution) és a kritikus tartomány megválasztásától függ. Szokásosan a kritikus tartományt úgy választjuk, hogy α = 5% (vagy %, esetleg 0.%) legyen. Példa: Ha arra vagyunk kíváncsiak, hogy egy pénzérme szabályos-e, akkor H0: az érme szabályos, azaz P(fej)=P(írás)=0.5 H: az érme nem szabályos Minta: 6 dobás eredménye (csak a példa egyszerűsége kedvéért ilyen kicsi) * a teszt-statisztika eloszlása H0 fennállása esetén

Teszt-statisztika: a fejek száma a 6-ból Null-eloszlás: (a fejek számának eloszlása H0 fennállása, azaz az érme szabályossága esetén): binomiális eloszlás n = 6 és p = 0.5 paraméterrel, azaz érték 0 3 4 5 6 valószínűség 0.056 0.0938 0.344 0.35 0.344 0.0938 0.056 Döntési szabály: 0 vagy 6 fej esetén elvetjük H0-t. Az első fajú hiba valószínűsége: 0.056+0.056=0.03 Mivel a tesztek nevüket általában a null-eloszlás után kapják, ezt binomiális tesztnek nevezik. Másodfajú hiba (Type II error) : ha a H0-t megtartjuk, pedig H igaz. Valószínűségét β-val jelöljük, (-β) a teszt ereje power.

Egy- és kétoldali ellenhipotézis A céljainktól függően a legtöbb tesztben két fajta ellenhipotézissel dolgozhatunk. Az első esetben az elfogadási tartomány mindkét oldalán van elutasítási tartomány. Az eredmény értékelésekor a feltételezett értéktől való mindkét irányú eltérés érdekes. Ez a kétoldali ellenhipotézis. H0: p=p 0 H: p p 0 Időnként az egyik irányú eltérés érdektelen a kísérlet szempontjából, például ha egy új eljárást vizsgálunk a vércukorszint csökkentésére, akkor érdektelen az, hogy az érték nő vagy változatlan marad, csak a csökkenést van értelme kimutatni. Ez az egyoldali ellenhipotézis. H0: p p 0 H: p>p 0, vagy H0: p p 0 H: p<p 0 Figyeljük meg, hogy a nullhipotézisben mindig van egyenlőség. Az, hogy számunkra a nullhipotézis elutasítása vagy megtartása a kedvező, mindig a kísérleti elrendezéstől függ.

Normális eloszlású változó várható értékére vonatkozó próbák egy minta esetén z-próba vagy u-próba (u-test) Tartható-e az az álláspont, hogy a vizsgált változó populációátlaga egy feltételezett µ érték? 0 Feltétel: normális eloszlású változó, valamint (ismert σ szórás, vagy 30-nál nagyobb elemszám). Próba-statisztika: x µ z= u= 0, ahol Z ~ N( 0,) σ n

Nullhipotézis: H : µ = µ 0 0 Ellenhipotézis: H : µ µ 0 Nullhipotézis: H : µ µ 0 0 Ellenhipotézis: H : µ > µ 0 0,45 0,4 0,35 0,3 0,5 0,45 0,4 0,35 0,3 0,5 0, 0, 0,5 0, a/ a/ 0,5 0, a 0,05 0,05 0 -zkrit 4 7 0 3 6 9 5 8 3 34 37 40 43 46 49 5 55 58 6 0 zkrit 0 4 7 0 3 6 9 5 8 3 34 37 40 43 46 49 5 55 zkrit 58 6 Kritikus tartomány: K :{ z > } z krit Kritikus tartomány: K :{ z > } z krit

egymintás t-próba (one sample t-test) Feltétel: normális eloszlású változó (robosztus, elég ha szimmetrikus és unimodális) Próba-statisztika: x µ =, s n t 0 mely Student féle t eloszlású változó, n- szabadsági fokkal Minden más megegyezik a z-próbával. Az egyetlen különbség, hogy a szórás ismert, vagy a mintából kell becsülni. A t-próba értelemszerűen kevésbé hatékony, hiszen eggyel több becsült paramétert használ. Ha a mintaelemszám elég nagy (>30), akkor használható a z-próba is. A z-próbát csak a kézzel, táblázatból történő munka esetén preferáljuk. A számítógépes programokkal nyugodtan használhatjuk a t-próbát.

Normális eloszlású változó várható értékére vonatkozó próbák két minta esetén z-próba vagy u-próba Tartható-e az az álláspont, hogy a vizsgált változók átlaga megegyezik a két populációban? Feltétel: független, normális eloszlású változók, valamint (ismert szórások, vagy 30-nál nagyobb elemszámok). Próba-statisztika: Nullhipotézis: H : µ = µ 0 x x z = u =, ahol Z ~ N( 0,) σ σ + n n Minden más ugyanúgy megy, mint az egymintás esetben.

Kétmintás t-próba (two sample t-test) Feltétel: független, normális eloszlású változók ismeretlen, de vélhetően azonos szórással. Próba-statisztika: t =, ahol s x x + n n Szanadsági fokok száma: n + n Nullhipotézis: H : µ = µ 0 s = ( n ) s + ( n ) Ha a két szórás nem egyezik meg, akkor vagy megpróbáljuk transzformálni a mintákat, vagy közelítő próbát alkalmazunk. (Welch-próba) n + n s

Welch-próba (Welch-test) Feltétel: független, normális eloszlású változók. Próba-statisztika: n s n s x x t + = Szabadsági fokok száma: ( )( ) ( ) ( )( ) + = c n c n n n n W, ahol n s n s n s c + =

Nagy mintákra (mindkét elemszám nagyobb, mint 30) a szórások jól becsülhetőek és a z-eloszlás kritikus értékei elég közel vannak a t-eloszlás kritikus értékeihez, ezért a z- próba használható a mintából becsült szórások esetén is. A t-próbát és a Welch-próbát kis mintákra használjuk attól függően, hogy a szórásokat azonosnak gondoljuk-e. Ha nem tudjuk, használhatjuk az F-próbát a szórások tesztelésére. A statisztikusok egy része ezt nem fogadja el, szerintük a két szórás sosem tekinthető azonosnak. A Welch-próba is csak közelítő eredményt ad, de használata széles körben elfogadott. A fenti módszerekkel nem csak az átlagok egyenlősége tesztelhető, hanem a köztük levő eltérés is. A számítógépes programok általában csak a t-próbát ismerik, a Welch-próbát is abba építik be.

Várható értékre vonatkozó próba két összefüggő minta esetén Páros t-próba (paired t-test) Ha a két minta összefügg (például ugyanazon egyedeken végeztük a mérést a kezelés előtt és a kezelés után, vagy ikerpárokon mérünk, ), akkor a kétmintás t-próbánál jóval erősebb a páros t-próba (paired t-test). Technikailag egy mintát képzünk, kiszámolva mindenütt a két változó értékének különbségét, és arra egymintás t-próbát alkalmazunk. Megjegyzések: A páros t-próba azért erősebb, mert információt hordoz, hogy melyik mérés melyikkel áll párban. A kapott különbségek szórása jóval kisebb lehet, mint a kétmintás próbában előálló szórás. Ha kezelés előtti és utáni eredményeink vannak, akkor a különbséget célszerű úgy képezni, hogy a későbbi mérés eredményéből vonjuk ki a korábbiét, ez esetben ugyanis a pozitív eredmény jelenti a növekedést.

Feltétel: a mérések ugyanazon az egyedeken, vagy más módon párosítható mintákon történtek (a minták nem függetlenek), valamint a két változó különbsége normális eloszlású (a változók nem kell, hogy azok legyenek). Nullhipotézis: H 0 : µ d = µ 0 Próba-statisztika: d µ t= 0 s d n

Varianciaanalízis (ANOVA) Kettőnél több minta esetén annak a nullhipotézisnek a tesztelésére szolgál, hogy valamennyi részpopulációban, amelyekből a minták származnak, ugyanaz a várható érték. Az ellenhipotézis, hogy van olyan (egy vagy több) részpopuláció, melyben a várható érték eltér. A próba feltétele a változók normalitása és a szórásuk azonossága, valamint az adatok függetlensége. Számtalan módon előfordulhat az, hogy a nullhipotézis nem teljesül!

Populációban egy tulajdonság arányára vonatkozó próba z-próba Tartható-e az az álláspont, hogy a vizsgált tulajdonság előfordulási valószínűsége a populációban a feltételezett p 0 érték? Feltétel: mivel a próba a binomiális eloszlás közelítésén alapul, hagyományosan akkor tekintik elfogadhatónak, ha 5 nˆ p n 5, ahol pˆ a mintabeli relatív gyakoriság. Nullhipotézis: H 0 : p= p0 Próba-statisztika: z = p pˆ 0 ( p ) n p 0 0 Ha a feltételek nem teljesülnek, akkor egzakt binomiális próbát kell csinálni. (Lásd konfidencia-intervallum meghatározás )

Két valószínűség összehasonlítása Származhat-e a két független minta adott tulajdonságra vonatkozóan azonos előfordulási valószínűségű populációból? Nullhipotézis: H 0 : p = p Próbastatisztika: z pˆ pˆ =, ahol p ( p ) + p p n n p f+ f = p n + n Két valószínűség összehasonlítása homogenitás vizsgálatként, történhet. χ -próbával is

χ -próba Egy változó varianciájára vonatkozó próba Tartható-e az az álláspont, hogy a vizsgált változó populációbeli varianciája egy feltételezett σ érték? 0 Feltétel: a vizsgált változó normális eloszlású. Nullhipotézis: Próba-statisztika: 0 :σ = σ 0 H vagy χ Szabadsági fok: n- ( n ) = σ s 0 :σ σ 0 H vagy

Kritikus tartomány: :σ σ 0 H esetén :σ < σ 0 H esetén χ : χ χ : χ χ + p vagy χ χ p χ + p

Két változó varianciájának összehasonlítása F-próba (F-test) Tartható-e az az álláspont, hogy a vizsgált változók varianciája megegyezik a két populációban? Feltétel: normális eloszlású(!) független változók, Nullhipotézis: Próba-statisztika: 0 :σ = σ H vagy F = s s 0 :σ σ s s (sorszámozás kérdése ) H (harmadik nem lehet Szabadsági fok: n - a számlálóban, n - a nevezőben Kritikus tartomány: { F : F } illetve { F : F F p} F p A normalitás nagy mintaelemszám esetén is kell. s s miatt)

Nemparaméteres próbák Ha az eddig megismert paraméteres próbák nem alkalmazhatóak, mert nem teljesülnek a feltételeik, akkor nemparaméteres próbákat kell alkalmazni. Ezek általában sokkal egyszerűbbek, mint a paraméteres próbák, sokkal megengedőbbek (feltételek), viszont jóval kisebb az erejük. A paraméteres és a nemparaméteres próbák összehasonlítása Nemparaméteres próbák Nagyjából függetlenek a változó eloszlásától. DE: azért nem minden eloszlásra, csak egy tágabb körre. Feltételeket ellenőrizni kell. Mediánok összehasonlítása. Gyakoriságok elemzésére alkalmas. Származtatott adatok elemzésére is jó, pl. arányok. Paraméteres próbák Feltételezik, hogy ismert a változó eloszlása: (leggyakrabban) normális, exponenciális, binomiális, stb. Átlagok és varianciák összehasonlítása. A gyakoriságokat általában transzformálni kell előtte. Származtatott adatokat először transzformálni kell.

Előjelpróba (sign test) Tartható-e az az álláspont, hogy a vizsgált változó mediánja egy feltételezett med 0 érték? Feltétel: a vizsgált változó eloszlása folytonos. 6< n < 30 Nullhipotézis: H 0 : med = med0 Próba-statisztika: a med hipot -nál nagyobb mintaelemek száma., ha xi > med0 δ i =, B= n δ i 0, ha xi < med0 i= Vigyázat! n-be azokat nem számoljuk bele, ahol x i = med0! Kritikus tartomány: a null-eloszlás binomiális, n=mintaelemszám, p=0.5. A kritikus tartomány H -től függően egy- vagy kétoldali.

Megjegyzések: A próbát azért hívják előjelpróbának, mert eredetileg a medián(x) = 0 hipotézis tesztelésére találták ki, és ekkor a próbához a mintabeli értékeknek csupán az előjelét használjuk. Két párosított minta esetén a különbségekre alkalmazható. Feltételként az eloszlás folytonossága helyett elegendő annyi is, hogy P(med 0 ) = 0. Nagy mintára a binomiális eloszlást a szokásos módon közelíthetjük Poissonnal vagy normálissal. Ugyanígy megy medián helyett tetszőleges kvantilisre.

Wilcoxon-féle előjeles rang-próba (Wilcoxon signed rank test) Tartható-e az az álláspont, hogy a vizsgált változó mediánja egy feltételezett med 0 érték? Feltétel: a vizsgált változó eloszlása folytonos és szimmetrikus Szimmetrikus eloszlás esetén a medián és az átlag egybeesik, ezért mindegy, melyikkel fogalmazzuk meg a hipotéziseket. Csak hagyomány-tiszteletből írjuk fel mediánnal. Nullhipotézis: H 0: med = med 0 Próba-statisztika: a megfigyelt értékek med 0 -tól való eltéréseit abszolút értékük nagysága szerint sorba rendezzük, és rangszámokat rendelünk hozzájuk. A statisztika a pozitív eltérésekhez tartozó rangok összege. Párosított minták esetén a különbségre alkalmazható.

Példa: 0 elemű minta:.4 3.3 5.0 5.0 6. 7.5 0. 0.5 3.0 8. med 0 = 9 Eltérések: -7.6-5.7-4.0-4.0 -.8 -.5..5 4.0 9. Rangszámok: 9 8 6* 6* 4.5.5 6* 0 * Egyenlő abszolút eltérést adó értékek (ties) esetén mindegyikük az összesen rájuk jutó rangok átlagát kapja (kapcsolt rangok, tied ranks). A pozitív eltérések rangösszege: T + = 9.5 Kritikus tartomány: K { T } T krit : +. A null-eloszlást kis mintaelemszámokra kiszámolták, a kritikus értékeket táblázatba foglalták. (Csak akkor érvényes, ha nincsenek kapcsolt rangok!) Nagyobb mintákra a null-eloszlás a = n ( n+) µ, normálissal közelíthető, a kritikus értékek ebből számolhatók. 4 = n( n+ )( n+ ) 4 σ paraméterű

Mann-Whitney-féle U-teszt (vagy: Wilcoxon-féle rangösszeg-teszt) Tartható-e az az álláspont, hogy a vizsgált X és Y változókra igaz a P(X<Y)=P(X>Y) egyenlőség (azaz ha mindkét változót megfigyeljük, azonos esély van arra, hogy az egyik, illetve a másik lesz nagyobb)? Feltétel: a változók eloszlása folytonos, sűrűségfüggvényeik azonos alakúak (eltolással egymásba átvihetők, varianciák megegyeznek); a két változóra két független mintánk van. Nullhipotézis: H 0: a változók eloszlása megegyezik, azaz az eltolás 0. Ellenhipotézis: H : az eltolás 0 (ez kétoldali ellenhipotézis, de megfogalmazható egyoldali is)

Ellenhipotézis: H : F( X ) / F(Y) Kolmogorov-Smirnov próba Tartható-e az az álláspont, hogy a vizsgált X és Y változók eloszlása azonos? A kétmintás t-próba megfelelője nem egyező varianciák esetére. Feltételek: Ordinális vagy folytonos változók, független minták, azonos alakú eloszlások. Nullhipotézis: H : F( X ) F( ) 0 Y Próbastatisztika: A két eloszlásfüggvény közötti maximális differencia. Nagyon kevéssé hatékony teszt.

Medián (Mood) próba Tartható-e az az álláspont, hogy a két minta ugyanakkora mediánú populációból származik? Nullhipotézis: H 0 : med= med Számítás menete: Kiszámítjuk az összes adat közös mediánját. Készítünk belőle egy -es kontingencia táblázatot, és abból kiszámítjuk az alábbi χ értéket: Próba-statisztika:. minta. minta > Közös medián f f Közös medián f f χ = ( f + f )( f + f )( f + f )( f + f ) f f f f n

Kritikus tartomány: H : med med esetén { χ : χ χ α / vagy χ χ α / }, H : med < med esetén { χ : χ χ α }, H : med > med esetén { χ : χ χ α }, ahol α az elsőfajú hiba megengedett szintje, χ α, χ α / és χ α / pedig az n- szabadsági fokú χ -eloszlás megfelelő kritikus értékei. Megjegyzés: Sokkal gyengébb teszt, mint a kétmintás t-próba, illetve a M-W teszt, ha azok is alkalmazhatók. Ha néhány gyakoriság nagyon kicsi, akkor a Fischer-féle egzakt teszt alkalmazandó.

Példa: X-re 8 elemű minta:, 3, 7, 8, 9, 5, 6, 7 Y-re 0 elemű minta: 5, 6, 8, 0,, 5, 8,, 3, 5 Összevont minta:, 3, 5, 6, 7, 8, 8, 9, 0,, 5, 5, 6, 7, 8,, 3, 5 Közös medián = χ = =. minta. minta > Közös medián f =3 f =6 Közös medián f =5 f =4 ( f + f )( f + f )( f + f )( f + f ) n 8 8 3 4 6 5 ( 3+ 5)( 6+ 5)( 3+ 6)( 5+ 4) f f f f n 8 9 = = 0, 045< χ 0, 05 = 3, 84 8 9 9 H 0 -t nem vetjük el

Kruskal-Wallis-féle H teszt (Kruskal-Wallis H-test) Több mint két minta esetén használjuk, hasonlóan az ANOVA-hoz. Feltétel: a változók eloszlása folytonos, sűrűségfüggvényeik azonos alakúak (eltolással egymásba átvihetők); k változóra k független mintánk van. Nullhipotézis: H 0: mind a k változó eloszlása megegyezik Ellenhipotézis: H : nem mind azonos eloszlásúak Próba-statisztika: bonyolult (lásd lejjebb) Kritikus tartomány: a null-eloszlás aszimptotikusan χ ebből kaphatjuk a kritikus értékeket (k szabadsági fokkal),

Példa: Egy biológus 4 mezőn (A, B, C, D) 5-5 véletlenszerűen kiválasztott kvadrátban számolja az orchideákat. Van-e különbség bármelyik két mező között az orchideák számát tekintve? megf/mező A B C D 7 () 48 (6) (6) 44 (5) 4 (7) 8 (9,5) 0 () 7 (9) 3 8 (4,5) 3 (3) 3 () 8 (0) 4 8 (9,5) 5 (7) 5 (8) 55 (8) 5 7 (3) () 8 (4,5) 39 (4) A Kruskal-Wallis próba menete: Készítsük el a fenti táblázatot. Oszloponként vannak a minták, zárójelben a megfigyelések rangja (összes mintaelemre együtt kiszámítva). Számítsuk ki mintánként a darabszámokat (n i ) és adjuk össze: N. Számítsuk ki mintánként a rangösszeget: R i. Emeljük négyzetre: R i.

Ri Osszuk el a mintaelemszámmal és adjuk össze:. n A próbastatisztika ( χ eloszlású): K Hasonlítsuk össze K-t a megfelelő χ krit (4-=3).χ krit = 7. 8. K krit Ri = 3 N ni N( N+ ) i ( + ) értékkel. A szabadsági fok: a minták száma- >χ elutasítjuk a H 0 -t. Ezek szerint az orchideák számát tekintve a mezők nem tekinthetők egyformáknak. Csak azt tudjuk, hogy valamelyik kettő között biztos van különbség. Biztos, hogy a Ri legnagyobb és a legkisebb átlagos rangszámú különbözik, jelen példában a C és ni D mezők.

Megjegyzések: Két minta esetén ugyanaz mint a Mann-Whitney próba. Szignifikancia esetén nem tudjuk megmondani, hogy ténylegesen melyikek különböznek (legkisebb-legnagyobb biztos). Ha a H 0 : med = med =... = medk hipotézis szeretnénk tesztelni, a medián próba kiterjeszthető több minta esetére. Nem független minták esetén a Friedman teszt használható.

Gyakoriságok elemzése Leszámolásos mintákra alkalmazható próbák. Klasszikus módszer: χ próba. Alkalmazzák homogenitás, véletlenszerűség, függetlenség és illeszkedésvizsgálatra. Alapelv: megfigyelt gyakoriságokat összehasonlítása nullhipotézis alapján várt gyakoriságokkal. Ha az eltérés egy bizonyos kritikus értéknél nagyobb, akkor elutasítjuk a nullhipotézist. Lényeg: hogyan számítsuk ki a várt gyakoriságokat?

Illeszkedés vizsgálat (goodness-of-fit, GOF) Tartható-e az az álláspont, hogy a vizsgált változó populációbeli eloszlása (eloszlásfüggvénye) egy feltételezett F hipot eloszlás (eloszlásfüggvény)? χ -próba Feltételek: a próbához a változó értékkészletét osztályokba kell sorolni és minden osztályra meghatározni az e i ún. várt gyakoriságot (a gyakoriság illeszkedés esetén várható értékét): a mintaelemszámot meg kell szorozni annak az i. osztálynak a feltételezett eloszlás szerinti valószínűségével. Akkora mintával kell dolgozni, vagy az osztályokat úgy megválasztani, hogy az e i -k ne legyenek 3-nál kisebbek, és 5-nél kisebbek is legfeljebb az osztályok 0%-ában. P 0.4 0.3 0. 0. 4 6 0 5 0 5 0 χ H : 0 : F F0 H F F 0

Próba-statisztika: ( e ) χ k i i = f i= gyakoriság, k pedig az osztályok száma. Kritikus tartomány: K: { χ χkrit} megfelelően kell kikeresni. e i, ahol fi a megfigyelt gyakoriság, ei a várt >. A kritikus értéket a szignifikancia szintnek Tiszta illeszkedésvizsgálat: A feltételezett eloszlás típusa és paraméterei is ismertek. Szabadsági fok: k -. Becsléses illeszkedésvizsgálat: Csak az eloszlás típusa ismert, a paramétereit becsüljük. Szabadsági fok: k--(becsült paraméterek száma). Normalitást is ezzel a próbával vizsgálhatunk. df = esetén szokták az ún. Yates korrekciót alkalmazni: χ = k ( fi ei 0.5), i= ei de erről a statisztikusok véleménye különbözik, azt a módszert kell használni, amely a tudományterületen, vagy az adott folyóiratban szokásos.

Példa: Kockadobás. Az az elképzelésünk (modellünk), hogy a kocka szabályos, azaz minden szám egyforma (/6) valószínűséggel fordulhat elő. A modell teszteléséhez dobáljuk a kockát, számoljuk az egyes előfordulások gyakoriságát, majd elvégezzük a χ -próbát. Formálisan felírva a hipotéziseket: H 0 : A kocka szabályos H : Nem szabályos ( e ) χ k i i = f i= e i, ahol fi a megfigyelt gyakoriság, ei a várt gyakoriság, k pedig az osztályok száma. Behelyettesítve a képletbe: ( 8 0) ( 6 0) ( 4 0) 4 χ = + +... + = = 4.. > χ krit =. 07 0 0 0 0 elutasítjuk a nullhipotézist! érték megfigyelt (f i ) várt (e i ) gyakoriság 8 0 6 0 3 6 0 4 7 0 5 9 0 6 4 0

Kolmogorov-Szmirnov próba Az eloszlásfüggvények legnagyobb abszolút eltérését veszi csak figyelembe. Példa: Házi rövidszőrű macskák étkezési preferenciáinak tesztelése. Ugyanaz a táp 5 féle nedvességtartalommal. 35 éhes macskát letettek egyenként az 5 táptól ugyanolyan távolságra. Melyiket választják? H 0 : A macskáknak nincs nedvesség preferenciája H : Legalább egyfélét preferálnak Próba-statisztika: d max =7 Táblázatból: d krit(0.05, 5, 35) =7 K:{d max d krit } H 0 -t elutasítjuk. Nedves száraz táp 3 4 5 f i 8 3 6 6 e i 7 7 7 7 7 kum f i 8 7 33 35 kum e i 7 4 8 35 d i 7 6 5 0

Függetlenségvizsgálat khi-négyzet próba Tartható-e az az álláspont, hogy a két vizsgált változó független egymástól? A próbához mindkét változó értékkészletét osztályokba kell sorolni (nem feltétlenül ugyanannyi osztályba!) és minden osztály-kombinációra (cellára) meghatározni az ún. várt gyakoriságot (e ij ) az alábbi képlettel: e ij = ( I f ij i= I )( J i= j= J j= f ij f ij ), ahol I és J az egyik, illetve másik változó szerinti osztályok száma, f ij pedig az i,j-edik cella mintabeli gyakorisága. 3... J-ik osztály Feltételek: Akkora mintára van szükség, hogy az e ij várt gyakoriságok ne legyenek 3- nál kisebbek, és 5-nél kisebbek is legfeljebb a cellák 0 %-ában.... I-ik oszt. ez a (, 3)-ik

Nullhipotézis: H0: a két vizsgált változó független egymástól Ellenhipotézis: H: nem függetlenek Próba-statisztika: ( ) = I J fij eij χ, ahol f ij a megfigyelt, e ij a várt gyakoriság az e i= j= ij i,j-edik cellában, I és J pedig az egyik, illetve a másik változó szerinti osztályok száma. Elutasítási tartomány: {χ :χ χ α}, ahol χ -eloszlás megfelelő kritikus értéke. χ α az (I )(J ) szabadsági fokú

Ha nem független két változó, akkor hogyan tudjuk mérni a kapcsolat erősségét? kontingencia táblázatok (nominális változók esetén) pl. asszociációs mértékekkel, ordinális skálák esetén pl. rangkorrelációval, intervallum skála esetén pl. a korrelációs együtthatóval.

Homogenitásvizsgálat Tartható-e az az álláspont, hogy a vizsgált változó eloszlása (eloszlásfüggvénye) azonos a két populációban? Függetlenségvizsgálat A vizsgálatot visszavezethetjük függetlenségvizsgálatra egy új változó segítségével, amelynek értéke minden mintaelemre annak a populációnak a sorszáma, amelyből a mintaelem származik ( vagy ). Az, hogy a vizsgált változó ugyanolyan eloszlást követ a két populációban, ekvivalens azzal, hogy a vizsgált változó független ettől a sorszám-változótól. A sorszám-változónak természetesen két osztálya van, a vizsgált változó értékeit pedig a függetlenségvizsgálat feltételeinek megfelelően kell osztályokba sorolni. osztály (populáció) 3... J-ik osztály

Feltételek: lásd a függetlenségvizsgálatnál. Nullhipotézis: H0: F =F, ahol F és F az ismeretlen eloszlásfüggvények. Ellenhipotézis: H: F F Próba-statisztika: lásd a függetlenségvizsgálatnál. Elutasítási tartomány: lásd a függetlenségvizsgálatnál. Ezzel a módszerrel kettőnél több populációra is végezhető homogenitásvizsgálat. Ha nem lett volna érthető: mindkét mintát osztályokba soroljuk, azonos határokkal. A táblázat első sorába az első mintából, a második sorába a második mintából írjuk be a megfigyelt gyakoriságokat. Így az első sor az első mintára, a második a második mintára vonatkozik. Ha a két sorban az eloszlás azonos, az ugyanazt jelenti, mintha a két minta független lenne.

Fisher egzakt teszt x-es kontingencia táblázatokra Ha túl kicsik a gyakoriságaink, akkor a χ próba nem ad helyes eredményt (csak közelítés, nagy mintákra működik jól.) A Fisher egzakt teszt azt számítja ki, hogy az adott marginális eloszlások mellett mekkora az adott, illetve annál extrémebb táblázatok valószínűsége, ha feltételezzük a változók függetlenségét. Ha ez a valószínűség kicsi (<5%), akkor nem fogadjuk el a nullhipotézist. Példa: Van 40 betegünk, akik részben pszichotikusok, részben neurotikusok, illetve részben éreznek öngyilkossági hajlamot, részben nem. Öngyilkossági pszichotikus neurotikus Összes hajlam Igen 6 8 Nem 8 4 3 Összes 0 0 40 Egy adott táblázat valószínűségét a hipergeometrikus eloszlás adja meg:

Az adott marginálisok mellett a táblázat valószínűsége: Mit jelent az, hogy extrémebb? Kiválasztjuk azt az átlót, amelyben a gyakoriságok összege nagyobb, és azt még tovább növeljük (az adott irányú összefüggés irányába megyünk tovább.)

Itt úgy tűnik, mintha a neurotikusok kicsit hajlamosabbak lennének az öngyilkosságra, mint a pszichotikusok. Megnézzük, hogy mi a helyzet, ha még jobban eltoljuk ebbe az irányba a táblázatot: Öngyilkossági pszichotikus neurotikus Összes hajlam Igen 7 8 Nem 9 3 3 Összes 0 0 40 Öngyilkossági pszichotikus neurotikus Összes hajlam Igen 0 8 8 Nem 0 3 Összes 0 0 40

A példabeli táblázat valószínűsége, illetve a nála extrémebbeké: Összesen: Következtetés. A két tünet függetlennek tekinthető.