Krály Zoltá: Statsztka II. Bevezetés A paraméteres eljárások alkalmazásához, a célváltozóra ézve szgorú feltételek szükségesek (folytoosság, ormaltás, szóráshomogetás), ekkor a hpotézseket egy-egy paraméterre (pl. átlag, szórás) fogalmaztuk meg. Ha a feltételek em teljesülek, lletve a változók már eleve omáls vagy ordáls sztűek, em haszálhatjuk a paraméteres eljárásokat mert agymértékbe torzítaak. Így jöttek létre az ú. emparaméteres eljárások, amből sok fajta alakult k, de em szükségesek a paraméteres próbákál előírt megszorítások. A χ - eloszlás A χ -eloszlást a próbastatsztkákba legtöbbször kategorkus adatok elemzésére haszáljuk, lletve akkor, ha az ordáls, vagy eél fomabb skáláko em haszáljuk fel a változó agyságredjére voatkozó formácót. Ha darab stadard ormáls eloszlású változót égyzetese összegzük, akkor kapjuk a χ - eloszlást: Ha: η η, η,..., η (0,), 3 N Akkor kapjuk a Ch-eloszlást: χ η + η + η +... + η 3 Ha égyzetese összegzük, akkor a Ch-égyzet eloszlást kapjuk: 3 χ η + η + η +... + η Vagys az szabadság fokú χ -eloszlás em más mt darab függetle stadard ormál eloszlás égyzetösszege. A χ - statsztka Nullhpotézse általába az, hogy két vagy több omáls változó eloszlása azoos. H H 0 : F : F H H Ha a omáls változóak K-darab külöböző értéke fordulhat elő, akkor a Ch-égyzet statsztka általáos alakja a következő: tap tapasztalt, mért gyakorság várt lleszkedés eseté elvárt, elmélet gyakorság ( tap várt χ várt : az -edk cellába tapasztalt gyakorság N: elemszám p : az -edk cellába elvárt valószíűség )
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) K ( Np Np ) χ ( K ), α A próbastatsztkát természetese α szgfkaca-szthez tartozó krtkus érték mellett értelmezzük (táblázat érték). Ha a kszámított próbastatsztka-érték eél agyobb elvetjük a ullhpotézst. Számítógépes alkalmazásokál általába em a táblázat F krt -értéket kapjuk (mvel a számítógép em tudja, hogy m mlye szgorú szgfkaca szt mellett dötük majd később), haem a p-szgfkaca sztet határozza meg. Ha a p-érték 0,05-él ksebb, akkor elvetjük a H 0 -t, egyébkét megtartjuk. Illeszkedésvzsgálat χ -próbával Illeszkedésvzsgálatál az egyk változó egy elmélet eloszlás, a másk pedg a mért gyakorság adatok. H 0 : a tapasztalat és a hpotetkus eloszlás megegyezk H : a tapasztalat és a hpotetkus eloszlás em egyezk meg Azaz: H : F H 0 : F H H Egy telefoos lelksegély szolgálatál egy egyhetes dőtervallum sorá következő módo alakul a ap telefohívások száma: H:9, K:35, Sze:3, Cs:39, :47, Szo:6, V:5 A gyakorlat szert a lelk segítők száma a hét első égy apjá -, az utolsó három apo - fő.
Krály Zoltá: Statsztka II. Kérdés: A gyakorlat összhagba va-e azzal az elvárással, hogy a kollegák mukaterhelését egyeletese osszuk el? Napok: p N*p - N*p ( Hétfő 9 0, 9,4-0,4 0,005 Kedd 35 0, 9,4 5,6,066 3 Szerda 3 0, 9,4,6 0,087 4 Csütörtök 39 0, 9,4 9,6 3,34 5 étek 47 0, 58,8 -,8,368 6 Szombat 6 0, 58,8 3, 0,74 7 Vasárap 5 0, 58,8-7,8,034 Σ 94,0 94 7,868 Np ) Kéz számolás, és ch-égyzet eloszlás táblázat haszálata eseté; a df6, és α0,05 szgfkaca-szthez tartozó krtkus érték:,59, így a kszámolt próbastatsztka értéke (7,87) még belefér az elfogadás tartomáyba. Vagys helyes az a gyakorlat mszert dupláz kell az utolsó három apo a szolgálatot teljesítők létszámát. Az lleszkedésvzsgálat futtatása R-be (lelksegély szolgálat): gyak <- c(9,35,3,39,47,6,5) prob <- c(,,,,,,) chsq.test(gyak,pprob/0) Vagy általáosabba: chsq.test(gyak,pprob,rescale.ptrue) Np Eredméy: Ch-squared test for gve probabltes data: gyak X-squared 7.8707, df 6, p-value 0.477 A kéz számolással szkroba, (α0,05 mellett) tt sem utasítjuk el a H 0 -t. Feladat:. Egy pézérme szabályosságát vzsgáljuk: feldobjuk 00-szor és 60 esetbe FEJ lett az eredméy. Szabályos-e a pézérme.. Dobókocka szabályosságát vzsgálva az alább dobások születtek: -es:5, -es:, 3- as:7, 4-es:8, 5-ös:30, 6-os:9. Szabályos-e a dobókockák? Két változó kapcsolata Két változó kapcsolatával eddg csak folytoos esetbe találkoztuk. Itt taultuk a korrelácót és a regresszót mt a leárs kapcsolat erősségéek mérőszámát. Most omáls- és ordáls változók kapcsolatával folytatjuk, amhez be kell vezet a kotgecatábla fogalmát. 3
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) M a kotgeca tábla, és mre jó? Megfgyelés egységekről több külöböző kategorkus változó adatat összegyűjtve ábrázoljuk a változók külöböző értékeek együttes előfordulás gyakorságat. Az együttes gyakorságok táblázatos elredezése a kotgecatábla. Az elemzés céljatól függőe több formája lehet, két szempotos esetbe a táblázat sora az egyk, oszlopa a másk változó kategórát jeletk, a cellákba pedg a megfgyelt, együttes gyakorságok kerülek. Előfordul, hogy folytoos változókra s szerkesztük kotgecatáblát, ekkor a változók értéket tervallumokra botjuk és eze tervallumok előfordulás gyakorságat írjuk a megfelelő cellákba (pl. kh-égyzet-próba, lleszkedésvzsgálatál ormaltásvzsgálat eseté). A kotgecatábla elemzése lehetőséget ad a változók között függőség vszoyok feltárására s. Kétszempotos kotgecatáblá általába a kh-égyzet-próba szolgál a változók függetleségéek vzsgálatára. Ha emellett dötük, akkor a cellagyakorságok becsülhetők a margáls gyakorságok szorzatával, osztva a megfgyelések teljes N számával. Ha a függetleség ullhpotézsét elutasítjuk, asszocácós v. függőség mérőszámokkal (assocato measures) jellemezzük a változók között kapcsolat erősségét. Ilye maga a khégyzet-statsztka értéke s. Ha ezt N-el elosztjuk, a ph-égyzet égyzetes kotgecát (cotgecy coeffcet) kapjuk. Ez - a sorok és az oszlopok számától függőe, alkalmas ormalzáló téyezővel - 0 és közé tehető. Az így ormalzált kotgeca égyzetgyöke a Cramér-féle V, ezt éha a kapcsolat ráyát mutató előjellel s ellátják. Az említett mérőszámok szmmetrkusak, a változók sorredjét, vagys a kotgecatábla sorat és oszlopat felcserélve értékük em változk. Aszmmetrkus függőség mérőszám pl. a Goodma-Kruskal-féle lambda, amely azt mér, hogy a sorváltozó meyre határozza meg az oszlopváltozó értékét. KxK típusú táblázatba a változók egybevágóságát vzsgálja a Cohe-κ mutató. Egyszerűsége és gyakor alkalmazása matt külö s említedő a két dchotóm (kétértékű) változóból keletkező x -es (égymezős) kotgecatábla. Kevés megfgyelés eseté a kh-égyzet-próba helyett a Fsher-féle egzakt próbát (Fsher s exact test) érdemes választa, mvel az utóbb sokkal potosabb. A kotgecatábláko a hpotézstesztelés legtöbbször vsszavezethető a halmazelméletből s smert függetleség formulára, vagys a: (A B) (A)*(B) összefüggésre, Ha az A és B eseméyhalmazok egymástól függetleek, akkor a metszethalmaz (együttes előfordulás) várható valószíűsége egyelő az elem halmazok valószíűségeek szorzatával. Kotgecatáblá pedg, így módosul: a cellákét várható valószíűségek egyelők az adott cellához tartozó margáls valószíűségek szorzataval, am csak akkor teljesül, ha a sorokba és az oszlopokba levő változók függetleek egymástól. Ez utóbb következméye, hogy egy-egy változóra voatkozó cellagyakorságok aráya s megmaradak a függetleség, azaz H 0 eseté. 4
Krály Zoltá: Statsztka II. Tegyük fel, hogy G-sorból és K-oszlopból áll a kotgecatáblák. Változók: B B B 3. B K Sormargálsok: A O O O 3. O K O + A O O O 3. O K O + A 3 O 3 O 3 O 33. O 3K O 3+....... A G O G O G O G3. O GK O G+ Oszlopmargálsok: O + O + O +3. O +K N Mvel mde -edk sorba K-darab cellát összegzük, a sormargálsok általáos alakja a következő: K O + O j j Mvel mde j-edk oszlopba G-darab cellát összegzük, az oszlopmargálsok általáos alakja a következő: O G + j O j A teljes elemszám pedg az összes cella elemszámaak összegekét állítható elő: N G K O j j Függetleség vzsgálat Ha a két változó kategorkus - akár omáls, akár ordáls - a függetleség vzsgálat Khégyzet próbára vezet. Ugyaazt az elvet alkalmazzuk, mt az lleszkedés vzsgálatál, csak kcst máshogy. A G-sorból, és K-oszlopból álló kotgecatáblá a Ch-égyzet statsztka a következőképp alakul: G K ( j Npj ) χ ( G )( K ), α j Npj A kéz számolás sorá célszerű a tapasztalt és várt gyakorságokra alapoz, mert kevesebb számolást géyel: O j j az -edk sor j-edk cellájába tapasztalt, megfgyelt, mért (Observed) gyakorság E j az -edk sor j-edk cellájába függetleség eseté várt (Expected) gyakorság Alapösszefüggések a kotgecatáblá: E j N p j p j p+ p+ j p + O + N p + j O + j N 5
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) Ebből következk, hogy: E j N p j N O O + + p+ p+ j N N N j Ném egyszerűsítés utá, csak a margálsokkal kfejezve: E j O + N O + j Így a próbastatsztka jóval egyszerűbb alakot ölt: G K j ( O j E j E j ) χ ( G )( K ), α Hpotézsek: H 0 : az oszlpokba levő gyakorságok függetleek a soroktól H : az oszlpokba levő gyakorságok em függetleek a soroktól Ugyaez jelölésekkel felírva: H 0 :, j : O j E j H :, j : O j E j Homogetás vzsgálat Formalag ugyaúgy törték, mt a függetleség vzsgálat, csak más az értelmezése. Mdkét esetbe azt kérdezzük, az egyk változó eloszlása eltérő-e a másk változó külöbözô értékeél. Vagys az a kérdés, hogy a sorváltozó és az oszlopváltozó szert gyakorságok függetleek-e egymástól? élda a homogetásvzsgálatra: Egy kutatás sorá az elsőéves egyetem hallgatók lakáskörülméyet vzsgálták: Neme: Lakáskörülméyek: Kollégum: Albérlet: Család: Egyéb: Σ Fú: 4 57 97 7 395 Láy: 58 55 46 66 65 Σ 7 4 43 93 N00 Az elemzés futtatása R-be: Table <- matrx(c(4,57,97,7,58,55,46,66),, 4, byrowtrue) rowames(table) <- c('fu', 'Lay') colames(table) <- c('kol', 'Alberlet', 'Csalad', 'Egyeb') Table Test <- chsq.test(table, correctfalse) Test 6
Krály Zoltá: Statsztka II. Az eredméy: Kol Alberlet Csalad Egyeb Fu 4 57 97 7 Lay 58 55 46 66 earso's Ch-squared test data: Table X-squared 5.0583, df 3, p-value 0.676 A p0,676-os szgfkaca szt azt jelz, hogy a két em képvselőek lakóhely szert eloszlása homogéek tekthető. élda a függetleségvzsgálatra: Feladat: A gyerek később társadalm státusza összefügghet-e az apa végzettségével? A-változó: Apa végzettség: alsó, közép, 3felső B-változó: Gyerek státusz: alsó, közép, 3felső Adatok: Apa (A): Gyerek (B): B B B 3 Σ A 30 50 30 0 A 60 5 0 05 A 3 55 45 90 90 Σ 45 0 40 N405 Az elemzés futtatása R-be: Table <- matrx(c(30,50,30,60,5,0,55,45,90), 3, 3, byrowtrue) rowames(table) <- c('a', 'A', 'A3') colames(table) <- c('b', 'B', 'B3') Table Test <- chsq.test(table, correctfalse) Test A futtatás eredméye: B B B3 A 30 50 30 A 60 5 0 A3 55 45 90 earso's Ch-squared test data: Table X-squared 48.8659, df 4, p-value 6.7e-0 Az eredméy azt mutatja, hogy a gyerek később társadalm státusza és az apa végzettsége összefügg: p0,000, azoba a változók között kapcsolat ráyáról em kapuk formácót. Ha a függetleség vzsgálat sorá azt kapjuk, hogy a két változó függetle egymástól, akkor a kérdést le s zárhatjuk. Ha azoba em függetleek, akkor a kapcsolat mbelétét, erősségét 7
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) kezdhetjük vzsgál. Erre szolgálak a külöböző asszocácós mérőszámok, melyeket az előbb Apa-Gyerek vzsgálat χ -eredméyét felhaszálva foguk bevezet. A χ -statsztkából származó asszocácós mérőszámok omáls skálá A χ statsztka a két dszkrét változó függetleségét tesztel, H 0 -eseté függetleségről (lletve homogetásról) beszélük, lyekor a próbastatsztka értéke ulla, vagy ullához közel. A két változó függése eseté a χ statsztka poztív értéket vesz fel és mél agyobb ez az érték, aál agyobb a függés mértéke s. Mvel a statsztka maxmáls értéke függ az elemszámtól és a szabadság foktól s, a felhaszáló számára értelmezhetőbb, származtatott mérőszámok kerültek kdolgozásra. A traszformácók célja az eredet χ statsztka értékét beszoríta a [0, ] tartomáyba, hogy ezáltal egy korrelácóra emlékeztető mérőszámot kapjuk. A Φ (h) együttható Φ χ N 48.86 405 0.347 A Φ együttható tulajdosága: - H 0 -eseté ulla az értéke, ez a függetleség jele - x-es kotgca tábla eseté, az együttható maxmáls értéke - az együttható értéke túlléphet az -gyet, ha a táblázat soraak, vagy oszlopaak száma kettőél agyobb. Kotgeca (earso-féle C) együttható χ 48.86 C χ + N 48.86 + 405 0.38 A C együttható tulajdosága: - H 0 -eseté ulla az értéke, ez a függetleség jele - az együttható mdg 0 és között marad, de maxmáls értéke az -gyet sohasem ér el Cramer féle V együttható V χ N( k ) 48.86 0.45 405 ahol k az oszlopok vagy sorok száma közül a ksebbk. 8
Krály Zoltá: Statsztka II. A Cramer-féle V együttható tulajdosága: - H 0 -eseté ulla az értéke, ez a függetleség jele - A V együttható mdg 0 és között marad, maxmáls értéke elérhet az -gyet bármely kotgecatábla eseté. Ha két oszlopuk vagy soruk va, akkor értéke azoos a Φ együtthatóval, mvel a tört evezőjébe ekkor csak az N-értéke szerepel. Az asszocácós mérőszámok kszámítása R-be a vcd-csomagból: Table <- matrx(c(30,50,30,60,5,0,55,45,90), 3, 3, byrowtrue) rowames(table) <- c('a', 'A', 'A3') colames(table) <- c('b', 'B', 'B3') Table Test <- assocstats(table) Test A futtatás eredméye: X^ df (> X^) Lkelhood Rato 46.744 4.743e-09 earso 48.866 4 6.73e-0 h-coeffcet : 0.347 Cotgecy Coeff.: 0.38 Cramer's V : 0.46 Fsher-féle egzakt-próba (Fsher s exact test of sgfcace) Két dchotóm változó között kapcsolat erősségét mér. A függetleséget tesztel és közvetleül számítja k a szgfkaca sztet. H 0 : A sorok és oszlopok függetlesége (homogetás) H : A függetleség / homogetás sérül Nem érzékey: - az eloszlásra, és - a mtaagyságra sem. Általába *-es kotgecatáblá, és ks elemszámál haszáljuk, mvel eléggé számolásgéyes. A χ -próbát helyettesít, ha: - valamelyk cella gyakorsága <5, lletve - ha a mtaagyság N<0 A Fsher-próba működés elve: Közvetleül számolja a mért gyakorságok alapjá az aráytalaság mértékét, a tapasztaltál extrémebb értékek bekövetkezéséek valószíűségét H 0 gaz volta eseté. A számítás alapja a hpergeometrkus eloszlás. A számítás sorá, rögzített margálsok, és függetleséget feltételező H 0 eseté, a tapasztaltál szélsőségesebb elemek elmélet valószíűséget összegezzük, a hpergeometrkus eloszlás mde tovább tagjára. Vzsgálat: Igaz-e hogy a láyok depresszósabbak mt a fúk? 9
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) A mérés sorá az alább eredméyeket kaptuk: Depresszós Nem depresszós Láy 7 Fú 5 6 A Fsher-próba kszámításáak meete: Megkeressük a legksebb cellagyakorságot m (tt: m ). A legksebb cellagyakorságot, és a hozzá tartozó átlót lépésekét -gyel csökketve, a másk átlót pedg -gyel övelve egyre erősebb kereszttáblákat állítuk elő, amíg: m 0. (Ha eredetleg m, akkor 3 lépésből áll a számítás.) A mért gyakorságokat tartalmazó táblából duluk k, majd: - az m hez tartozó dagoáls elemet mdg -gyel csökketjük egésze 0-g, eközbe - a másk átló elemet -gyel öveljük - kszámítjuk mde lépésél a -t - addg smételjük a lépéseket amíg m hez tartozó cella 0 lesz - kszámítjuk a 0 + + + k értéket, vagys az egyes lépésekből származó valószíűségek összegét. Y Y Sormargálsok: X a7 b r a+b X c5 d6 r c+d Oszlopmargálsok: s a+c s b+d Na+b+c+d Az -edk lépésbe a -valószíűség a következőképp alakul: r! r! s! s! N! a! b! c! d! Vagys mde lépésél úgy számítjuk k a -t,hogy a margálsok faktorálsaak szorzatát elosztjuk a teljes elemszám, és a cellákét elemszámok faktorálsaak szorzatával. A számítás k+ lépésből áll:σ 0 + + +... k Lássuk a fet adatokkal a számítás meetét: 0 Alaphelyzet: a7 b r 9 c5 d6 r s s 8 N0 9!!! 8! 0! 7!! 5! 6! 0 0,3 Első lépés: 0
Krály Zoltá: Statsztka II. a8 b r 9 c4 d7 r s s 8 N0 9!!! 8! 0! 8!! 4! 7! 0,04 Másodk lépés: a9 b0 r 9 c3 d8 r s s 8 N0 9!!! 8! 0! 9! 0! 3! 8! 0,00 Így: Σ 0 + + 0,3 + 0,04 + 0,00 0,57 Azaz: p 0,57 Ez azt jelet, hogy a ullhpotézst megtartjuk, vagys a mta alapjá em modhatjuk azt, hogy a láyok depresszósabbak leéek a fúkhoz képest. A Fsher-próba és χ -próba futtatása R-be: Tabla <- matrx(c(7,,5,6),,, byrowtrue) rowames(tabla) <- c('a', 'b') colames(tabla) <- c('x', 'y') Tabla #fsher.test(tabla, a"less") # egyoldal/alsó szgfkaca szt #fsher.test(tabla, a"two") # kétoldal szgfkaca szt fsher.test(tabla, a"greater")# egyoldal/felső szgfkaca szt chsq.test(tabla, correctfalse) remove(tabla) Elv lehetőség az R-be, hogy k lehet számoltat az alsó egyoldal-, és a kétoldal szgfkaca sztet s, de a gyakorlatba eek cs jeletősége. R-Commaderrel: Statstcs / Cotgecy tables / Eter ad aalyze two-way table Eredméy: Fsher's Exact Test for Cout Data data: Tabla p-value 0.569 alteratve hypothess: true odds rato s greater tha 95 percet cofdece terval: 0.57668 If sample estmates: odds rato 3.8957 earso's Ch-squared test
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) data: Tabla X-squared.549, df, p-value 0.4 Amt látható a χ - statsztka eseté szgfkásabb lett az eredméy, mert a ks, és kegyesúlyozatla elemszám matt torzulás jeletkezk (másodfajú hba). A torzulás mértéke az elemszámok csökkeésével egyre agyobb, lye esetbe valóba csak a Fsher-próba az am jól haszálható. Kappa (Cohe-féle κ) együttható Nomáls változók egybehagzóságára alkalmazható asszocácós mérőszám Két omáls változó (A és B) egyezését vzsgálja. Ha ugyaazt az eseméyredszert kétfajta kódolással (A-kódolás és B-kódolás) képezzük le, megvzsgálható, hogy a két kódolás külöbözk-e, vagy léyegébe ugyaaz. A módszert legtöbbször tesztek valdtásvzsgálatára, lletve kódolók (ítészek, bírálók) ítéleteek egybehagzóságáak vzsgálatára haszáljuk. H 0 : a két kategorzácó (kódolás) egymástól függetle H : a két kategorzácó egybehagzk, a függetleségtől poztív ráyba tér el H H 0 : A : A B B Gyakorlat probléma: - Va egy drága, hagyomáyos teszt (A), és egy új olcsó eljárás (B). A két módszer ugyaazt a jeleséget kívája mér. El kell döte, hogy kváltható-e az új módszerrel a rég? Megoldása: A mérés sorá ugyaazt a jeleséget (eseméysort) mdkét teszttel megmérjük, majd megvzsgáljuk, hogy a kétféle teszt által adott kétféle kódolás ( dagózs ) meyre egyezk meg. Egyezés eseté a kétféle kódból előállított kotgecatáblá, csak a főátlóba leszek gyakorság adatok Feltétel, hogy a kétféle mérésből származó adatok (A és B) ugyaazt a kategóra-redszert adják outputkét (pl. Skzofré, Neurotkus, Egészséges). A-teszt B-teszt S N E S 45 5 6 N 0 70 3 E 7 5 56 Láthatjuk, hogy a kétféle mérés agyjából ugyaazt adja. Nem tökéletes az egybehagzóság, de a főátló ge erős. A próbastatsztka kzárólag a kotgecatábla főátlójába levő tapasztalt- és a függetleség eseté várható gyakorságokra alapoz.
Krály Zoltá: Statsztka II. κ o e e ahol: o p és e p p + + vagy gyakorságokkal: Ha : E O + N O + Akkor: κ O N E E A mutató stadard hbája pedg (amt kézzel em érdemes számol): ASE ( κ ) N ( ) ( O + O+ + O + O+ N O + O+ O + + O N( N O O ) + [ )] + + A kappa együttható léyegébe azt mér, hogy a függetleség állapotához képest, meyre erősödk fel a kereszttáblába a főátló, azaz meyre vág egybe a két kódoló kategorzácója. A számítógépes alkalmazásokál egy Z-traszformált próbastatsztkát alkalmazak a szgfkacaszt megállapítására (amely H 0 eseté aszmptotkusa stadard ormál eloszlású): κ Z ASE(κ ) A kappa-mutató értelmezése: 0-0,4-g gyege 0,4-0,6 közepes 0,6-0,8 jó 0,8- kváló A Cohe-kappa kszámítása kézzel a fet adatokkal: Változók: B B B 3 Sormargáls: A 45 5 6 56 A 0 70 3 83 A 3 7 5 56 68 Oszlopmargáls : 6 80 65 N07 Tapasztalt gyakorság a főátlóba: O 45 + 70 + 56 7 3
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) Függetleség eseté várt elmélet gyakorság a főátlóba: 56 6 83 80 68 65 E + + 6,77 + 3,07 +,35 07 07 07 70,9 Így a kappa értéke: 7 70,9 00,8 κ 0,7368 am egyébkét a jó egybehagzóságot jelet 07 70,9 36,8 A Cohe-kappa mutató az R-be a vcd-csomagból érhető el: lbrary(vcd) tabla<-matrx(c(45,5,6,0,70,3,7,5,56),3,3,byrowtrue) s.matrx(tabla) ckappa<-kappa(tabla) ckappa Az eredméy pedg kssé háyos: value ASE Uweghted 0.7368365 0.03986458 Weghted 0.795975 0.0945590 Így (a súlyozatla κ-ra ) a kétoldal szgfkaca szt kszámítása: a hagyomáyos módszerrel törték: cohesg*(-porm(0.7368/0.039)) cohesg Vagy egyszerűbbe, a számok begépelése élkül: cohesg*(-porm(ckappa$uweghted[]/ckappa$uweghted[])) cohesg Eek értéke: p0.000 Az eredméy azt mutatja, hogy a két teszt javarészt ugyaazt a jeleséget mér, jól egyezk a kétféle eredméy. Am azt jelet, hogy az új és olcsóbb (B) eljárással elég jól helyettesíthető a rég (A) módszer. Lambda (Goodma-Kruskal-féle λ) Nomáls változók predkcós jellegű kapcsolatáak vzsgálatára alkalmazható asszocácós mérőszám A RE-elv (roportoal Reducto predctve Error) Két változó kapcsolatáak vzsgálatára alkalmazott, egyk legrégebb alapelv az Y-változóba (célváltozó) tapasztalható előrejelzés hba egy másk X-változó (predktor) által csökketése. A statsztka próbák zöme erre az alapelvre vezethető vssza. Léyege, hogy a két változóról akkor godoljuk, hogy összefüggek (pl. okság kapcsolat va közöttük), ha a predktorváltozó értékeek smerete léyegese (szgfkása) csökket a célvéltozó becsléséek hbáját. Az eddg smert paraméteres próbák (pl. L.Reg., ANOVA) összhagba vaak ezzel az elvvel, a Goodam-Kruskal-féle λ pedg tökéletese bele s llk a RE-elv kocepcójába. Ha az X-változóval kapcsolatos a-paraméter szgfkása 4
Krály Zoltá: Statsztka II. csökket az Y becslés hbáját, ez általába azt jelet, hogy a két változó összefügg, valamlye értelembe, pl. az egyk változó (predktor) befolyásol egy másk változót (célváltozó). Leárs regresszó példájá: H : Y m + ε 0 H : Y b + a X + ε Nullhpotézs eseté, a legjobb becslés a célváltozó (Y) átlaga. Ezzel szembe, akkor fogadjuk el a H -et ha az a meredekségparaméter bevezetése (és az Y -hez tartozó X értékeek smerete) szgfkása csökket a becslés hbát. Egyszempotos ANOVA példájá: H : Y m + ε H 0 : Y m + a + ε Nullhpotézs eseté, a legjobb becslés a célváltozó (Y) átlaga. Akkor fogadjuk el a H -et ha az a csoport-paraméter bevezetése (X értékeek smerete) szgfkása csökket a becslés hbát. Ha az alapelvet megértettük, akkor köye geeralzálhatjuk egyéb, omáls változókra s: Nomáls változók eseté a változó (B) legvalószíűbb értékéek legjobb előrejelzése, a B- változó módusza, vagys a leggyakorbb értéke. Ha ez a B-változó és egy másk, omáls A- változó függvéye vagy következméye, akkor az A-változó értéke szert B-móduszokból megbízhatóbba lehet következtet a B-értékekre, azaz csökke a B-re voatkozó előrejelzés hba valószíűsége. Kérdés: Ha smert a populácó, egy omáls változó szert kategorzácója (A), akkor lehet-e következtetb ugyaeze populácó másk omáls változójára (B). Másképp: ha smerem a populácó egyk kategorzácóját, akkor eek smerete csökket-e egy másk kategorzácó becsléséek véletle hbáját? A B-változó előrejelzés hbája, ha a B-változó móduszával becslük: [hbab] A B-változó előrejelzés hbája, ha smerjük az A-változó értéke szert B-móduszokat: [ hbab A] Abszolút hbacsökkeés: [ hbab] [ hbab A] Aráyos hbacsökkeés: RE B A [ hbab] [ hbab] [ hbab A] 5
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) +m : a legagyobb oszlopmargáls valószíűsége (B-módusz) m : az -edk sor legagyobb eleméek valószíűsége (sorokét B-móduszok) λ B A ( + m ) ( m ) + m m + m + m Ugyaez a gyakorságokkal kfejezve: O +m : a legagyobb oszlopmargáls O m : az -edk sor legagyobb eleme λ B A O N m O O + m + m Azt fejez k, hogy mlye aráyba csökke a B-változó előrejelzés hbája, ha smerem ugyaeze sokaság A-változóbel értékét s. A mutató közvetleül mér az aráyos hbacsökkeés mértékét. Szemléletesebbe: a sorváltozó (A) meyre határozza meg az oszlopváltozó (B) értékét? A számítógépes alkalmazásokál Z-traszformált szgfkacaszt megállapítására: λ B A Z ASE λ ) ( B A próbastatsztkát alkalmazak a A gyakorlatba, a lambda értéke már éháy tzed eseté s erős függést jelez Korább példák kapcsá már megállapítottuk, hogy a gyerek és az apa társadalm státusza összefüggött (legalábbs a χ statsztka ezt mutatta), arról vszot em kaptuk formácót, hogy ez a kapcsolat mlye ráyú. Feladat: Az apa végzettsége befolyásolja-e a gyerek társadalm státuszát, vagy fordítva? A-változó: Apa végzettség: alsó, közép, 3felső B-változó: Gyerek státusz: alsó, közép, 3felső Adatok: Apa (A): Gyerek (B): B B B 3 Σ A 30 50 30 0 A 60 5 0 05 A 3 55 45 90 90 Σ 45 0 40 N405 A gyerekre ézve: λ (50 + 60 + 90) 45 405 45 00 45 405 45 55 60 B A 0, 6
Krály Zoltá: Statsztka II. Az apára ézve: λ (50 + 60 + 90) 90 405 90 00 90 405 90 0 5 A B 0,046 A kapott eredméyek em modaak ellet a józaészek sem, mvel az apa státusza kább meghatározhatja a gyerek társadalm helyzetét, mt fordítva. Megjegyzés: A Goodma-Kruskal-féle λ-mutató az R-programcsomagba még cs mplemetálva. Asszocácós mérőszámok ordáls változók eseté Moototás együtthatók: - Goodma-Kruskal féle (gamma) - Kedall féle τ τ b τ c (tau és tau b, c) - Somers féle D - Kedall-féle - Spearma-féle ragkorrelácó A fagylat-fogyasztás preferecákat vzsgáljuk a csok és a vaílafagyalt eseté. Kérdés: Meyre szeret Ö a fagylaltot?. utálom. megeszem 3. szeretem Változók: X Y Személyek: (csok) (vaíla) A B 3 C D 3 E A személyek X és Y változójáak eleme között, ha mde elemet összehasolítuk, összese: N( N ) darab elempárt lehet képez Ez 5 személy eseté 0 darab párt/összehasolítást fog jelete. Mooto kapcsolat szempotjából a személyek között megkülöböztetük kokordás () és dszkordás (Q), valamt kapcsolt (T) párokat s. Defícók: : Kokordás (egyráyú) az olya pár, amelyél az egyk személy mdkét változójához tartozó skálá magasabba ragsorol, mt a másk személy. Vagys akkor mooto, ha X >X eseté Y >Y s mdg feáll. AB, BE 7
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) Esetükbe: Q: Dszkordás (fordított) az olya pár, amelyél a két személy mdkét változójába elletétese ragsorolt. Tehát: X >X eseté Y <Y s mdg gaz. BD Esetükbe: Q Tx: (csak az X-változóba kapcsolt (azoos) és Y változójába eltérő pár) BC Esetükbe: T x Ty: (csak azy-változóba kapcsolt és X változójába eltérő pár) AC, AD, CD, CE, DE Esetükbe: T y 5 A moototásra voatkozó mérőszámok agy hasolóságot mutatak, ameybe a -Q és +Q aráyát vzsgálják külöböző feltételek mellet. Közös beük az a törekvés, hogy a mutató értékét a [-, ] tartomáyba szorítsák be. Goodma-Kruskal féle Γ: A gamma megmutatja, hogy meyvel agyobb a kokordás párok valószíűsége a dszkordás párok valószíűségéél. Q Γ + Q A gamma értéke az előbb példába: Γ + Q Q + 3 0,333 Khagyja azokat az eseteket, ahol kapcsolt pár (egyelőség) va, ezért csak a mooto változópárokkal foglalkozk. Értéke - és között mozoghat, függetleség eseté ulla az értéke. A Γ0 érték azoba csak a x-es táblázat eseté jelet bztosa függetleséget. Somers féle D: Ez aszmmetrkus mérőszám. A D (X Y) azt kérdez, Y és Y külöbözősége eseté X és X vszoya jelet-e moototást. Ebbe az értelembe X-t tekthetjük függő változóak. Q D (X Y) : D( X Y ) 0, 5 + Q + Tx + + 4 Ha Y a függő változó, akkor: Q D (Y X) : D( Y X ) 0, 5 + Q + Ty + + 5 8 8
Krály Zoltá: Statsztka II. A szmmetrkus változat a két aszmmetrkus D középértéke a képletbe látható módo. Szmmetrkus D: Q Tx + Ty + Q + + 5 + + D( sym ) 6 0,66 Kedall féle τ (Tau) Értéke azt fejez k, hogy meyvel agyobb a a kokordás párok valószíűsége a dszkordás párokéhoz képest, ha az összes lehetséges párt fgyelembe vesszük. τ ( Q) N( N ) ( ) 5 (5 ) 0 0, σ τ ( + 5) 9( ) Kedall féle τ b (Tau b) τ b ( + Q + Q Tx) ( + Q + Ty) ( + + )( + + 5) 4 8 0,77 Am egyébkét a két aszmmetrkus Somers-féle D mérta közepével egyelő, azaz: τ b X D( X Y ) D( Y ) 0,5 0,5 0,77 Értéke csak akkor érhet el a +-et vagy --et, ha a táblázat soraak és oszlopaak száma egyelő. Kedall féle τ c (Tau c): Eek értéke már bármlye táblázat eseté elérhet a +-et vagy --et. m( Q) ( ) 4 τ c 0,6 N ( m ) 5 5 Az m jeletése: a két változó értékkészlete (kereszttáblá: a sorok ll. oszlopok száma) közül a ksebbk (tt: m). Spearma-féle ragkorrelácó Ha két folytoos változó eloszlása külöbözk, lletve sérül a ormaltás követelméy, akkor a két folytoos változó leárs kapcsolatára voatkozó earso-féle (paraméteres) leárs 9
Nemparaméteres eljárások/. (asszocácós mérőszámok omáls és ordáls skálá) korrelácós együttható torzított eredméyt adhat. Ugyas a earso-féle r-együttható csak tervallum skálá levő ormáls eloszlású változókra haszálható. r ( x ( x x) x)( y y) ( y y) Számukra sokszor csak a két változó együttváltozása (moototása) a fotos: ha az egyk agyobb akkor a másk agyobb ksebb vagy változatla? Ekkor már em a változók kokrét értéke fotosak, csak az egymáshoz vszoyított helyzetük. Ebből az alapelvből kdulva születtek meg a ragsoroláso alapuló eljárások. A ragsorolásos eljárások léyege (ld. később s), hogy a számítás em a változók kokrét értékevel törték, haem a redezett mtába elfoglalt sorszámmal (X helyett: Rag(X ) ragszám). A ragsorolásos eljárások általába em érzékeyek a ormaltás feltétel sérülésére, és a mták eloszlásáak külöbözőségére sem. Csak azt géylk, hogy a változók legalább ordáls típusúak legyeek, ugyas ez a redezhetőség a ragszám-koverzó szükséges és elégséges feltétele. A Spearma-féle ragkorrelácó alapelve: - mdkét mtát redezzük - a redezett mták elemehez ragszámokat redelük - a ragszámokra számoljuk k a hagyomáyos earso-féle (paraméteres) korrelácót Mdkét mta -elemű X : x...x melyek r-külöböző értéke lehet Y : y...y melyek s-külöböző értéke lehet Mdkét mta elemet ragsoroljuk: X-ragsor:,...r Y-ragsor:,...s Az eredet értékeket a redezett mtabel ragszámokkal helyettesítjük (ragszámkoverzó): x R y S Ezt követőe a kovertált ragszámokra alkalmazzuk a earso-képletet: r s ( R ( R R) R)( S Az asszocácós eljárások közül az R-be egyelőre csak a earso-félr r, Spearma-féle rho, és a Kedall-féle tau b érhető el. Az eljárások a cor.test() függvéyel futtathatóak. A szükséges adatok (fagyprefereca) bevtele a futtatáshoz: fagy<-data.frame(xc(,,,3,),yc(,3,,,)) attach(fagy) ( S S ) S ) 0
Krály Zoltá: Statsztka II. A hagyomáyos earso-féle paraméteres korrelácó futtatása R-be: cor.test(x,y,method"pearso") Eredméy: earso's product-momet correlato data: X ad Y t 0.335, df 3, p-value 0.8304 alteratve hypothess: true correlato s ot equal to 0 95 percet cofdece terval: -0.848695 0.9087566 sample estmates: cor 0.336306 A Spearma-féle emparaméteres korrelácó (rho) futtatása R-be: cor.test(x,y,method"spearma") Eredméy: Warg cor.test.default(x, Y, method "spearma") : p-values may be correct due to tes Spearma's rak correlato rho data: X ad Y S 6, p-value 0.7833 alteratve hypothess: true rho s ot equal to 0 sample estmates: rho 0.86339 A Kedall-féle tau b asszocácós együttható kszámítása R-be: cor.test(x,y,method"kedall") Az eredméy, pedg: Warg cor.test.default(x, Y, method "kedall") : Caot compute exact p-value wth tes Kedall's rak correlato tau data: X ad Y z 0.433, p-value 0.665 alteratve hypothess: true tau s ot equal to 0 sample estmates: tau 0.767767 A Hmsc-csomagba található asszocácós eljárások: Goodma Kruskal gamma (Hmsc-csomagból): GKgamma<-rcorr.ces(X, Y, outxtrue) GKgamma