Statisztikai módszerek 7. gyakorlat A tanult nem paraméteres próbák: PRÓBA NEVE Illeszkedés-vizsgálat Χ 2 próbával Homogenitás-vizsgálat Χ 2 próbával Normalitás-vizsgálataΧ 2 próbával MIRE SZOLGÁL? A val.-i vált. eloszlása egy adott eloszlást követ-e? Két val.-i vált. eloszlása megegyezik-e? A val.-i vált. eloszlása normális eloszlást követ-e? Homogenitás-vizsgálat Wilcoxon próbával Két val.-i vált. eloszlása megegyezik-e? 0.Feladat Egyszerű felvezető feladat: pszichológia szakra felvételizők a fiú-lány arány ugyan akkora-e? 1984-es felvételi adatok: 94 felvételiző -> 16 fiú és 78 lány (mért gyakoriságok: -k) Megoldás H0: P(ffi) = 0.5 és P(nő) = 0.5 (mondjuk 99%os valószínűséggel) Ha H0 igaz lenne, 94 emberből 47-47 fiúra/lányra számítanánk(elméleti gyakoriságok: ). Minél nagyobb az eltérés a kapott és a várt gyakoriságok, annál valószínűbb, hogy a H0 hipotézis nem igaz. Az eltérés egy lehetséges mértéke (v.ö. a khi 2 eloszlás definíciójával): Ha H0 igaz, akkor ez khi-négyzet eloszlást követ (r = 2 szabadságfokkal). Adatok rendezve: Fiú Lány Összesen Kapott gyakoriság 16 78 N = 94 Várt gyakoriság 47 47 N = 94 ( INVERZ.KHI(1-0,99; 2-1) - angol verzióban a right tailed kell) H0 hipotézist elutasítjuk: a fiúk aránya szignifikánsan kisebb.
1.Feladat Egy telefonközpont telefonhívásainál azt tapasztalják, hogy a tárcsázást követő kapcsolásig terjedő időtartam 25 és 85 másodpercig terjed. Egy napon keresztül másodpercre pontosan rögzítették a hívások kapcsolási idejét, ezt mutatja a következő táblázat. Elfogadható-e 95 %-os biztonsággal, hogy a kapcsolási idő egyenletes eloszlást követ? Megoldás: Illeszkedésvizsgálatot végzünk Χ 2 próbával H0: A minta egyenletes eloszlásból származik (p=0,95) Készítsünk egy olyan táblázatot, ahol a lehetséges kapcsolási idők, és azok gyakorisága szerepel. D9:= lehetséges kapcsolási idők E9:= gyakoriság D10:=25; D11:=26 Húzzuk végig, míg D70:=85-öt el nem érjük E10:=DARABTELI(C$10:C$117;"="&D10), kattintsuk végig az egész oszlopra A Χ 2 próba aktuális értékének kiszámítása: Számoljuk meg a lehetséges kimeneteleket: I13:= r J13:=DARAB(E10:E70) Számoljuk ki az egyenletes eloszláshoz tartozó valószínűségeket: I14:= pi =1/r J14:=1/J13 Számoljuk meg a minta elemszámát: I15:= N J15:=DARAB(B10:B117) Számoljuk ki az utóbbi kettő szorzatát: I16:= N*pi J16: =J14*J15 Legyen a G oszlop a számláló négyzeteinek oszlopa: G9:=(vi-N*pi)^2 G10:=(E10-$J$16)^2, és kattintsuk végig az oszlopon Számoljuk ki a Χ 2 _akt értéket:
I18:=X2_akt J18:=SZUM(G10:G95)/J16 = 51.28 Keressük meg a kritikus értéket, p-hez és (r-1)-hez: I19:=X2_krit J19:=INVERZ.KHI(1-0,95;J13-1) = 79.08 X2_akt < X2_krit, H0-t elfogadjuk 2.Feladat Egy cég három különböző méretű konzervdobozba csomagolja termékét, a három csomagolástkülönböző technológiai folyamattal állítják elő. A gyártási folyamat célja természetesen jó, azonosminőségű dobozok előállítása. Egy minőségellenőrzési mérnök a következő okait azonosította annak,hogy konzervdobozok nem megfelelőek: 1. rongálódás a dobozon, 2. repedés a dobozon, 3. a nyitófül nem megfelelő helyen van, 4. a nyitófül hiányzik, 5. egyéb. Mindhárom gyártási eljárással készült, hibás termékhalmazból mintát vettek, és megállapították, hogy a minőségellenőrzésen miért nem felelt meg az adott doboz. Kijelenthető-e 95%-os valószínűséggel a mérési adatok alapján, hogy a különböző hibák százalékos előfordulása megegyezik a három gyártási eljárásnál? Megoldás: Homogenitás vizsgálatot végzünk Χ 2 próbával H0: A hibák százalékos előfordulása ugyanolyan eloszlást követ a különböző gyártási eljárások esetén (p=0,95). (Ezt vizsgáljuk meg páronként.)
Ehhez a vizsgálathoz érdemes egy új táblázatot készíteni valahova: 1-2 2-3 1-3 rongálódás Pl.: repedés fül rossz helyen fül hiányzik egyéb X2_akt X2_krit? Döntés Az argumentumban lévő hányadosokat számoljuk ki a narancsra színezett mezőkben. Pl.: =(D21/$I$21-D22/$I$22)^2/(D21+D22) Az aktuális értékeket számoljuk ki a fenti képlettel az egyes sorokra: az első sorra: =I21*I22*SZUM(C31:G31) A kritikus értékeket (1-p)-hez és (r-1)-hez keressük a Khi-négyzet eloszlásban: az első sorra: =INVERZ.KHI(1-0,95;DARAB(D21:H21)-1) A?-es oszlopba beírhatók a döntésben segítő relációk, majd mellé, hogy H0-t elfogadjuk vagy elvetjük: X2 akt X2_krit? Döntés 1-2 2-3 1-3 5,54 9,49 9,75 9,49 6,88 9,49 krit>akt krit<akt krit>akt H0-t elfogadjuk H0-t elutasítjuk H0-t elfogadjuk 3.Feladat Egy gyerekszékeket gyártó cég olyan tervezési irányelvet akar követni, amelyben feltételezi, hogy a) az adott korú (10-12 éves) gyermekek magassága normális eloszlást követ (p=95%), és b) a lányok és fiúk átlagos magassága nincs lényeges eltérés (p=98%). Egy kutató cég 40 fiút és 40 lányt vizsgált meg a célcsoportból, a vizsgálat eredménye a táblázatokban látható.) Alátámasztják-e a vizsgálat eredményei a cég feltételezéseit?
Megoldás: a) A gyerekek testmagassága normális eloszlást követ-e? (p=0,95) Kategorizált minta normalitásvizsgálata X2 próbával H0: A magasság normális eloszlást követ. (p=0,95) A statisztika: Számoljuk ki hány mérés volt: F18: =SZUM(F9:F17) Egészítsük ki a táblázatot négy oszloppal, a fejlécek a következők legyenek: G8:= zi H8:= Φ(zi) I8:= pi J8:= Χ2 A G oszlopba kerülnek a standard normális eloszlású változók (húzzuk végig): G9: =(E9-$D$19)/$D$20 A H oszlopba az ezekhez tartozó eloszlásfüggvény értékek: H9:=STNORMELOSZL(G9) (Megj.: H17-be írhatunk 1-et) Az I oszlopba az adott intervallumokba esés valószínűsége kerül: I9:=H9 I10=H10-H9 A J oszlopba jön a Khi-négyzet értéke az adott intervallumra: J9:=(F9-F$18*I9)^2/F$18/I9 Az aktuális érték ez utóbbiak összege: J19:=SZUM(J9:J17) = 10.82 A kritikus értéket( 1-p)-hez és (r-1)-hez keressük, ahol r az intervallumok száma: M19:=INVERZ.KHI(1-0,95;DARAB(F9:F17)-1) = 15.51 Mivel X2_akt < X2_krit, H0-t elfogadjuk b) Megegyezik-e a lányok és fiúk magasságának várható értéke? Ez paraméteres próba:welch próbát kell végrehajtani a lányok és fiúk átlagos testmagasságának várható értékére. H0: A lányok és afiúk testmagassága megegyezik (p=0,98) Csak az eredmények:
-w krit <w akt <w krit, H0-t elfogadjuk, a lányok és fiúk átlagos testmagassága megegyezik 4.Feladat Egy cég beszállítói versengenek egymással. A cég arra kíváncsi, hogy a beszállított alkatrészektönkremeneteli hajlama megegyezik-e, ezért mindkét beszállítótól vett mintát, és megvizsgálta, mennyi az alkatrészek tönkremeneteli ideje. Megegyezik-e 99%-os valószínűséggel a két gyártó által gyártott alkatrész tönkremeneteli hajlama? A táblázatban az alkatrészek élettartama szerepel órában. Megoldás: Homogenitás vizsgálat Χ 2 próbával H0: Az alkatrészek tönkremeneteli hajlama megegyező (p=0,99) A vizsgálathoz fel kell osztanunk a közös mintát intervallumokra, és megnézni, hogy melyik intervallumba, mennyi esik az adott beszállító alkatrészei közül. Készítsünk egy közös oszlopot, másoljuk egyszerűen egymás alá az értékeket pl. a G oszlopba. A közös minta elemszámát határozzuk meg. (n=35) A hisztogramszerkesztésnél megtanult módon osszuk be a közös mintát gyök(n), azaz r=6 db intervallumra, és határozzuk meg az intervallumhatárokat. Ehhez célszerű valami hasonló táblázatot készíteni: 1 2 3 4 5 6 Int. Alsó határa Int. Felső határa gyakoriság 1. beszállító gyakoriság 2. beszállító Khinégyzet darab: Számoltassuk meg, külön-külön a két beszállítóra, hogy hány elem esik az egyes alkatrészek közül az adott intervallumba (ezek kerülnek a narancsszínű mezőkbe): L15:=DARABTELI(C$11:C$25;"<"&K15)-DARABTELI(C$11:C$25;"<"&J15) ill. M15:=DARABTELI(E$11:E$30;"<"&K15)-DARABTELI(E$11:E$30;"<"&J15)
Akkor csináltuk jól, ha ezek summája (alul a darab mezőben) kiadja az eredeti 15, ill. 20 adatot. Ezután számolhatjuk a statisztika aktuális értékét. A Khi-négyzet oszlopban minden intervallumra kiszámoljuk a summa argumentumában található értéket. N15:=(L15/L$21-M15/M$21)^2/(L15+M15) Számoljuk ki az aktuális értéket: N23:=L21*M21*SZUM(N15:N20) A kritikus értékeket (1-p)-hez és (r-1)-hez keressük a Khi-négyzet eloszlásban (Rakjuk be J23- ba p-t): N25: =INVERZ.KHI(1-J23;I20-1)=15.08 Mivel X2_akt < X2_krit, H0-t elfogadjuk