Statsztka próbák Paraméteres. A populácó paraméteret becsüljük, ezekkel számolunk.. Az alapsokaság eloszlására van kkötés. Nem paraméteres Nncs lyen becslés Nncs kkötés Ugyanazon problémára sokszor megvan mndkét eljárás. Ha a feltételek nem teljesülnek, akkor nem paraméteres módszert kell (lehet) alkalmazn. A nem-paraméteres módszerek eloszlás függetlenek. Ezek azonban gyengébbek, vagys nő a. típusú hba valószínűsége. A nem-paraméteres eljárások csak nagyobb eltéréseket tudnak kmutatn. NEM-PARAMÉTERES PRÓBÁK. RANGSOROLÁSON ALAPULÓ MÓDSZEREK Eleve ez használható csak, ha az értékeket ordnáls skálán mértük (pl.: vrágzás sorrend, táplálék preferenca). Ilyenkor az értékek adottak. Ha arány v. ntervallum skálán dolgoztunk: Sorrendbe állítjuk a vzsgált értékeket (a mntaelemeket) és az aktuáls érték helyett a rangszámokat használjuk a próbastatsztkák értékenek kszámítására. Pl. Eredet értékek: 5 3 48 49 50 Rangok: 3 4 5 6
. Egyes próbáknál a két vagy több mntából származó értékeket összevonjuk és az egész mntát egy közös sorba rendezzük, majd hozzárendeljük a mntaelemekhez a rangszámokat (pl. Mann-Whtney és Kruskal-Walls próbák).. Más próbáknál a két mntát külön-külön rangsoroljuk és mndkettőhöz külön-külön rendelünk rangokat (pl. rangkorrelácós módszereknél). Hátrányok:. Mndenképpen áttérünk ordnáls skálára, vagys nformácót vesztünk, ha az eredet adatok arány- vagy ntervallum-skálán voltak megadva.. Csak a nagy eltéréseket tudjuk kmutatn, a ksebb eltérések esetén a próba eredménye a H 0 megtartása lesz, vagys nő a II. típusú hba valószínűsége. 3. Értékek egyezése, vagys kapcsolt rangok: Ha többször szerepel ugyanaz az érték, akkor ugyanazt a rangot kell nekk adn, mndegyknek azt az átlagos rangot, am a sorszámak átlaga lenne: Pl. ha az 5. és 6. érték egyezk: a 7. mntaérték pedg a 7-es rangszámot kapja. Pl. ha az első 3 egyezk.: a negyedk pedg a 4-es rangot kapja. 5 + 6 5 r6 5,5 Kapcsolt rangok esetén korrekcós tényezők alkalmazandók E ahol e azt adja meg, hogy hány érték egyezk meg az. csoportban. r r + + 3 3 r r3 e 3 e
Mann-Whtney teszt A kétmntás t-próba lletve d-próba helyett alkalmazható. Nullhpotézsünk az, hogy a két mnta ugyanabból az alapsokaságból származk. Ha ez gaz, akkor a rangszámok véletlenszerűen oszlanak meg a mnták közt. Teljes keveredés. mnta: 3 6 4 9 34. mnta: 9 5 0 7 33 37 rangsz.: 3 4 5 6 7 8 9 0 Ekkor a véletlen csak nagyon rtkán produkál pl. olyan szélsőséges megoszlást, hogy az egyk mnta mnden eleme ksebb a másk mnta összes eleménél:. mnta: 7 9 33 34 37. mnta: 9 3 5 6 0 4 rangsz.: 3 4 5 6 7 8 9 0 A próbastatsztka kszámítása n a ksebbk mnta elemszáma, n a nagyobbké (tehát a két mnta lehet eltérő méretű) Az. mnta mnden elemére kszámoljuk, hogy a másk mntában hány nála ksebb érték van. Ezeket az értékeket összeadjuk, ez lesz a C érték. (Ha az egyk mnta elemének rangja ugyananny, mnt a másk mnta egy eleméé, akkor ½-el számolunk.) U s { C, n n C} max Így az összehasonlítás ránya közömbös lesz. A fent két példában:. n 5, n 6, C ++3+4+5 5 n n C 30 5 5 U s 5. n 5, n 6, C 6+6+6+6+6 30 n n - C 30 30 0 U s 30 U krt Az ( n, n értékeket a Mann-Whtney U-táblázatból nézzük k: ha kétoldalú próbát ) végzünk, akkor az α/ sorból, mvel a táblázat egyoldalú. A táblázat szélen a mntaelemszámok szerepelnek, nem pedg a szabadságfokok! Nagy n-ekre a teszt a t próbára vezethető vssza.
Ez a próba az egyszempontos varancaanalízs nem-paraméteres megfelelője. 3 vagy több mnta összehasonlítása esetén alkalmazzuk. H 0 : a mnták azonos alapsokaságból származnak. H : legalább egy mnta különböző alapsokaságból származk. Feltételek: a mntaelemek egymástól független, random kválasztása. NEM feltétel a normáls eloszlású alapsokaság. A próba elve hasonló a Mann-Whtney próbáéhoz: Az összesített mntában kosztjuk a rangszámokat. Ha a mnták ugyanabból az alapsokaságból származnak, akkor a rangszámok eloszlása véletlenszerű lesz az egyes mnták között. A rangszámok átlaga kb egyforma lesz mnden csoportban. h: a mnták száma n j : a j mnta elemszáma R j : a j mnta rangszámösszege N h n j j összelemszám A Kruskal-Walls próba A statsztka kszámítása H h N( N + ) j R n j j 3( N + ) Ez a próbastatsztka h - szabadságfokú χ -eloszlást követ, 5-nél nagyobb mntaelemszámokra jó közelítéssel. Ha H > χkrt ( h, α), akkor H 0 -t elvetjük, mert a rangösszegek túlságosan eltérnek a várttól, nem valószínű, hogy a rangok pusztán a véletlen matt oszlanának el ennyre egyenlőtlenül. Ha H < χkrt ( h, α), akkor H 0 -t megtartjuk, a rangösszegek eltérése a várttól nem túl nagy, betudható a sztochasztkus ngadozásnak. Ha kapcsolt rangok s vannak, akkor a H statsztka értékét korrgáln kell: legyen k a kapcsolt rangú csoportok száma. Ekkor H korr 3 N H k E N
Az eddg tanult Pearson-féle korrelácó-számítás (r) nem használható, ha az adatok nem normáls eloszlásúak, lletve ha csak ordnáls skálán mértek. Pl. 6 növényen a csírázás sorrend és vrágzás sorrend kapcsolata. n mntaelemen két-két változó: x és y értéket mérjük. Külön-külön rangsoroljuk az x és y értékeket. Fgyeln kell az összetartozó adatpárokat, mert az összehasonlítás az alapján történk, hogy az összetartozó rangértékek mennyre különböznek. Két szélső eset lehetséges:. x: csírázás sorrend: 3 4 5 6 y: vrágzás sorrend: 3 4 5 6 max + rangkorrelácó (). x: csírázás sorrend 3 4 5 6 max rangkorrelácó ( ) y: vrágzás sorrend 6 5 4 3 Egy átlagos probléma Két változó kapcsolatának mérése: rangkorrelácós módszerek 3. x: csírázás sorrend 3 4 5 6 y: vrágzás sorrend 4 5 6 3 ) Spearman-féle rangkorrelácó (v. Spearman féle ρ) r s 6 n n 3 d n SPEARMAN, Charles Edward 863-945 ahol d a rangok különbsége az mntaelemre, ha nncsenek kapcsolt rangok, akkor gaz, hogy r A példában: r 0.54 A kapcsolt rangokra a módszer gen érzékeny. s Hpotézsvzsgálat: H 0 : r s értéke nem tér el szgnfkánsan a 0-tól, vagys a két változó valójában korrelálatlan, csupán a véletlen matt nem 0 a korrelácó. H : r s értéke szgnfkánsan eltér a 0-tól, a két változó korrelál. Ha n elég nagy (>0), akkor r s eloszlása megegyezk r-ével (a lneárs korrelácóéval):
) Kendall-féle τ Mnt fent, x változó szernt növekvő sorrendbe rendezzük a rangokat és alá írjuk a megfelelő y rangot. Kszámítjuk a C értékeket: az egyk sor eleme után nagyobb rangszámúak száma a másodk sorban. Példa: méhanya mérete és utód hossza (parthenogenezs), n 5 KENDALL, Sr Maurce George 907-983 rx: 3 4 5 6 7 8 9 0 3 4 5 ry: 3 5 3 4 9 0 6 7 8 4 5 C : 3 3 9 0 9 4 3 5 4 3 0 C 79 A statsztka τ 4 n C n( n ) n( n ) Ha n > 40, akkor τ eloszlása közelít a normálshoz, ekkor: t s τ (n 5) 9n( n ) τ 0,504 t s 0,504/ (5) /(9 5 4),6 t -nél nézzük meg (ez közelítés, persze): α 0.05 re a krtkus érték.96 < t s, tehát a próba szgnfkáns eredményt adott. A két rangkorrelácós koeffcens összehasonlítása: r s : nagyobb súlyt ad a távoleső rangoknak (d ), ezért ott célszerű használn, ahol a közel rangeltérések kevésbé megbízhatóak. τ: egyenlően súlyozza a rangbel eltéréseket, tehát akkor használható, ha a ks rangbel eltérések s megbízhatóak.