Statisztikai módszerek 7. gyakorlat A tanult nem paraméteres próbák: PRÓBA NEVE Illeszkedés-vizsgálat Χ2próbával MIRE SZOLGÁL? Illeszkedés-vizsgálat Ryan-Joiner próbával A val.-i vált. eloszlása egy adott eloszlást követ-e? A val.-i vált. eloszlása egy adott eloszlást követ-e? Két val.-i vált. eloszlása megegyezik-e? Homogenitás-vizsgálat Χ2próbával 0.Feladat Egyszerű felvezető feladat: pszichológia szakra felvételizők a fiú-lány arány ugyan akkora-e? 1984-es felvételi adatok: 94 felvételiző -> 16 fiú és 78 lány mért gyakoriságok: -k Megoldás H0: Pffi = 0.5 és Pnő = 0.5 mondjuk 99%os valószínűséggel Ha H0 igaz lenne, 94 emberből 47-47 fiúra/lányra számítanánkelméleti gyakoriságok:. Minél nagyobb az eltérés a kapott és a várt gyakoriságok, annál valószínűbb, hogy a H0 hipotézis nem igaz. Az eltérés egy lehetséges mértéke v.ö. a khi2 eloszlás definíciójával: Ha H0 igaz, akkor ez khi-négyzet eloszlást követ r = 2 szabadságfokkal. Adatok rendezve: Fiú Kapott gyakoriság Várt gyakoriság Lány 16 47 78 47 Összesen N = 94 N = 94 INVERZ.KHI1-0,99; 2-1 - angol verzióban a right tailed kell H0 hipotézist elutasítjuk: a fiúk aránya szignifikánsan kisebb.
1.Feladat Egy telefonközpont telefonhívásainál azt tapasztalják, hogy a tárcsázást követő kapcsolásig terjedő időtartam 25 és 85 másodpercig terjed. Egy napon keresztül másodpercre pontosan rögzítették a hívások kapcsolási idejét, ezt mutatja a következő táblázat. Elfogadható-e 95 %-os biztonsággal, hogy a kapcsolási idő egyenletes eloszlást követ? Illeszkedésvizsgálatot végzünk Χ 2 próbával H0: A minta egyenletes eloszlásból származik p=0,95 Készítsünk egy olyan táblázatot, ahol a lehetséges kapcsolási idők, és azok gyakorisága szerepel. D9:= lehetséges kapcsolási idők E9:= gyakoriság D10:=25; D11:=26 Húzzuk végig, míg D70:=85-öt el nem érjük E10:=DARABTELIC$10:C$117;"="&D10, kattintsuk végig az egész oszlopra A Χ 2 próba aktuális értékének kiszámítása: Számoljuk meg a lehetséges kimeneteleket: I13:= r J13:=DARABE10:E70 Számoljuk ki az egyenletes eloszláshoz tartozó valószínűségeket: I14:= pi =1/r J14:=1/J13 Számoljuk meg a minta elemszámát: I15:= N J15:=DARABB10:B117 Számoljuk ki az utóbbi kettő szorzatát: I16:= N*pi J16: =J14*J15 Legyen a G oszlop a számláló négyzeteinek oszlopa: G9:=vi-N*pi^2 G10:=E10-$J$16^2, és kattintsuk végig az oszlopon Számoljuk ki a Χ 2 _akt értéket:
I18:=X2_akt J18:=SZUMG10:G95/J16 = 51.28 Keressük meg a kritikus értéket, p-hez és r-1-hez: I19:=X2_krit J19:=INVERZ.KHI1-0,95;J13-1 = 79.08 X2_akt < X2_krit, H0-t elfogadjuk 2.Feladat Egy dobókocka oldalainak számozását megváltoztattuk úgy, hogy kocka hat oldalapjára 1db 1-es, 2db 2-es és 3db 3-as számot festettünk. Az új kockával való mérési eredményeket felhasználva kijelenthető-e 95%-os biztonsággal, hogy a dobások valószínűsége 1/6, 2/6 és 3/6? Megjegyzés: A mérések imitálására egy véletlenszám generátort használtunk. A "dobások" értékei a C oszlopban találhatók, amiket a generátor által adott eredményekből számoltunk ki. A feladathoz megoldásához a dobásgenerátor működésének ismerete nem szükséges! Illeszkedésvizsgálatot végzünk Χ 2 próbával H0: A minta egy adott eloszlást követ p=0,95 Töltsük ki a táblázat lehetséges kimenetel oszlopát. Ez most egyszerűen 1,2 és3 lesz. Számoljuk ki a gyakoriságokat; E10:=DARABTELIC$11:C$559;"="E11, és kattintsuk végig az oszlopon Adjuk össze a gyakoriságokat, hogy megkapjuk a darabszámot; F14:=SZUMF11:F13 Habár a relatív gyakoriságra közvetlenül nincs szükségünk a próba elvégzéséhez, de számoljuk, hogy össze tudjuk hasonlítani az elméleti valószínűséggel; G11:=F11/$F$14 Töltsük ki az elméleti valószínűségek oszlopát; H11:=1/6, H12=2/6, H13=3/6. A Χ 2 próba aktuális értékének kiszámítása: Legyen a I oszlop a szumma belsejének oszlopa; I11:=F11-F$14*H11^2/F$14/H11 Számoljuk ki a Χ 2 _akt értéket: H17:=X2_akt I17:=SZUMI11:I13
Keressük meg a kritikus értéket, p-hez és r-1-hez: H18:=X2_krit I18:=INVERZ.KHI1-0,95;2 Most olyan egyszerű az intervallumok száma, hogy ne számoljuk meg a darab függvénnyel. Ha X2_akt < X2_krit akkor H0-t elfogadjuk Vizsgáljuk meg az automatikusan elkészülő diagramban a relatív gyakoriság és az elméleti valószínűség kapcsolatát. Hangsúlyozzuk, hogy a relatív gyakoriság az elméleti valószínűség közelítése. Hasonlítsuk össze a kettő közti eltérést az aktuális és kritikus értékek egymás közti eltérésével. Az F9 billentyű nyomogatásával a dobások újragenerálhatók. 3.Feladat Egy cég három különböző méretű konzervdobozba csomagolja termékét, a három csomagolástkülönböző technológiai folyamattal állítják elő. A gyártási folyamat célja természetesen jó, azonosminőségű dobozok előállítása. Egy minőségellenőrzési mérnök a következő okait azonosította annak,hogy konzervdobozok nem megfelelőek: 1. rongálódás a dobozon, 2. repedés a dobozon, 3. a nyitófül nem megfelelő helyen van, 4. a nyitófül hiányzik, 5. egyéb. Mindhárom gyártási eljárással készült, hibás termékhalmazból mintát vettek, és megállapították, hogy a minőségellenőrzésen miért nem felelt meg az adott doboz. Kijelenthető-e 95%-os valószínűséggel a mérési adatok alapján, hogy a különböző hibák százalékos előfordulása megegyezik a három gyártási eljárásnál? Homogenitás vizsgálatot végzünk Χ 2 próbával H0: A hibák százalékos előfordulása ugyanolyan eloszlást követ a különböző gyártási eljárások esetén p=0,95. Ezt vizsgáljuk meg páronként. Ehhez a vizsgálathoz érdemes egy új táblázatot készíteni valahova: 1-2 2-3 1-3 rongálódás Pl.: repedés fül rossz helyen fül hiányzik egyéb X2_akt X2_krit? Döntés
Az argumentumban lévő hányadosokat számoljuk ki a narancsra színezett mezőkben. Pl.: =D21/$I$21-D22/$I$22^2/D21+D22 Az aktuális értékeket számoljuk ki a fenti képlettel az egyes sorokra: az első sorra: =I21*I22*SZUMC31:G31 A kritikus értékeket 1-p-hez és r-1-hez keressük a Khi-négyzet eloszlásban: az első sorra: =INVERZ.KHI1-0,95;DARABD21:H21-1 A?-es oszlopba beírhatók a döntésben segítő relációk, majd mellé, hogy H0-t elfogadjuk vagy elvetjük: 1-2 2-3 1-3 X2 akt X2_krit 5,54 9,49 9,75 9,49 6,88 9,49? krit>akt krit<akt krit>akt Döntés H0-t elfogadjuk H0-t elutasítjuk H0-t elfogadjuk 4.Feladat Egy gyerekszékeket gyártó cég olyan tervezési irányelvet akar követni, amelyben feltételezi, hogy a az adott korú 10-12 éves gyermekek magassága normális eloszlást követ p=95%, és b a lányok és fiúk átlagos magassága nincs lényeges eltérés p=98%. Egy kutató cég 40 fiút és 40 lányt vizsgált meg a célcsoportból, a vizsgálat eredménye a táblázatokban látható. Alátámasztják-e a vizsgálat eredményei a cég feltételezéseit? a A gyerekek testmagassága normális eloszlást követ-e? p=0,95 Kategorizált minta normalitásvizsgálata X2 próbával H0: A magasság normális eloszlást követ. p=0,95 A statisztika:
Számoljuk ki hány mérés volt: F18: =SZUMF9:F17 Egészítsük ki a táblázatot négy oszloppal, a fejlécek a következők legyenek: G8:= zi H8:= Φzi I8:= pi J8:= Χ2 A G oszlopba kerülnek a standard normális eloszlású változók húzzuk végig: G9: =E9-$D$19/$D$20 A H oszlopba az ezekhez tartozó eloszlásfüggvény értékek: H9:=STNORMELOSZLG9 Megj.: H17-be írhatunk 1-et Az I oszlopba az adott intervallumokba esés valószínűsége kerül: I9:=H9 I10=H10-H9 A J oszlopba jön a Khi-négyzet értéke az adott intervallumra: J9:=F9-F$18*I9^2/F$18/I9 Az aktuális érték ez utóbbiak összege: J19:=SZUMJ9:J17 = 10.82 A kritikus értéket 1-p-hez és r-1-hez keressük, ahol r az intervallumok száma: M19:=INVERZ.KHI1-0,95;DARABF9:F17-1 = 15.51 Mivel X2_akt < X2_krit, H0-t elfogadjuk b Megegyezik-e a lányok és fiúk magasságának várható értéke? Ez paraméteres próba:welch próbát kell végrehajtani a lányok és fiúk átlagos testmagasságának várható értékére. H0: A lányok és afiúk testmagassága megegyezik p=0,98 Csak az eredmények: -wkrit<wakt<wkrit, H0-t elfogadjuk, a lányok és fiúk átlagos testmagassága megegyezik
5.Feladat Egy cég beszállítói versengenek egymással. A cég arra kíváncsi, hogy a beszállított alkatrészektönkremeneteli hajlama megegyezik-e, ezért mindkét beszállítótól vett mintát, és megvizsgálta, mennyi az alkatrészek tönkremeneteli ideje. Megegyezik-e 99%-os valószínűséggel a két gyártó által gyártott alkatrész tönkremeneteli hajlama? A táblázatban az alkatrészek élettartama szerepel órában. Homogenitás vizsgálat Χ 2 próbával H0: Az alkatrészek tönkremeneteli hajlama megegyező p=0,99 A vizsgálathoz fel kell osztanunk a közös mintát intervallumokra, és megnézni, hogy melyik intervallumba, mennyi esik az adott beszállító alkatrészei közül. Készítsünk egy közös oszlopot, másoljuk egyszerűen egymás alá az értékeket pl. a G oszlopba. A közös minta elemszámát határozzuk meg. n=35 A hisztogramszerkesztésnél megtanult módon osszuk be a közös mintát gyökn, azaz r=6 db intervallumra, és határozzuk meg az intervallumhatárokat. Ehhez célszerű valami hasonló táblázatot készíteni: 1 2 3 4 5 6 Int. Alsó határa Int. Felső határa gyakoriság 1. beszállító gyakoriság 2. beszállító Khinégyzet darab: Számoltassuk meg, külön-külön a két beszállítóra, hogy hány elem esik az egyes alkatrészek közül az adott intervallumba ezek kerülnek a narancsszínű mezőkbe: L15:=DARABTELIC$11:C$25;"<"&K15-DARABTELIC$11:C$25;"<"&J15 ill. M15:=DARABTELIE$11:E$30;"<"&K15-DARABTELIE$11:E$30;"<"&J15 Akkor csináltuk jól, ha ezek summája alul a darab mezőben kiadja az eredeti 15, ill. 20 adatot. Ezután számolhatjuk a statisztika aktuális értékét.
A Khi-négyzet oszlopban minden intervallumra kiszámoljuk a summa argumentumában található értéket. N15:=L15/L$21-M15/M$21^2/L15+M15 Számoljuk ki az aktuális értéket: N23:=L21*M21*SZUMN15:N20 A kritikus értékeket 1-p-hez és r-1-hez keressük a Khi-négyzet eloszlásban Rakjuk be J23- ba p-t: N25: =INVERZ.KHI1-J23;I20-1=15.08 Mivel X2_akt < X2_krit, H0-t elfogadjuk 6. Feladat Egy autógyártó konszern elvégeztetett egy élettartam vizsgálatot H7-es halogén fényszóróizzók 200 elemű mintáján. Az élettartam vizsgálat során az összes izzó egy nagy panelen foglalt helyet, ahol egyszerre lehetett azokat ki- és bekapcsolni. Minden 250. bekapcsolás után megszámolták és eltávolították a kiégett izzókat. A tesztet 3750 kapcsolás után befejezték, ekkor még 6 izzó működött. Az egyes ciklusokban kiégett izzók számát tartalmazza az alábbi táblázat. A khi-négyzet eloszlás segítségével döntse el 90%-os szignifikancia szint esetén, hogy az izzók élettartam-eloszlása illeszkedik-e ahhoz az exponenciális eloszláshoz, melynek eloszlásfüggvénye, ahol a bekapcsolások számát jelenti. A megoldás során vegyük figyelembe, hogy az adott elméleti eloszlás folytonos, míg a mintánk diszkrét. Ahhoz, hogy a folytonos eloszlásból ne "veszítsünk el" pozitív valószínűségű intervallumokat ne az [1;250], [251;500], [501,750], stb. intervallumokkal dolgozzunk, hanem a 0,250], 250,500], 500, 750], stb. intervallumokkal. A mintából számolt gyakoriságok ettől nem változnak meg, a folytonos exponenciális eloszlásból számolt valószínűségek viszont igen, hiszen pl. az első intervallum valószínűségét nem az kifejezéssel, hanem -val fogjuk kiszámolni. Az A oszlopban hozzuk létre a félig nyílt intervallumokhoz tartozó alsó határokat: A14: 0, A15: 250, majd folytatás számtani sorként. A14:A15 kijelölése, lehúzás A mintából származó gyakoriságok közvetlenül rendelkezésre állnak a D oszlopban. Számoljuk ki a G oszlopban a valószínűségeket a megadott eloszlásfüggvény alapján pl. = G13: valószínűség G14: =1-KITEVŐ-C14/1200-1-KITEVŐ-A14/1200, majd lehúzzuk. Az utolsó intervallum
felső határa + ahol bármely eloszlásfüggvény értéke 1, így G29: =1-1-KITEVŐ- B29/1200. A feladat folytatása innentől kezdve semmiben nem különbözik a korábban megoldott illeszkedés vizsgálatos feladattól. H13: Χ 2 akt részletek H14: =D14-$D$30*G14^2/$D$30*G14, majd lehúzzuk. G31: Χ 2 akt H31: =SZUMH14:H29 G32: Χ 2 krit H32: =INVERZ.KHI1-0,9;DARABH14:H29-1 Döntés: Χ 2 akt < Χ 2 krit miatt H 0 -t elfogadjuk, tehát a minta illeszkedik az adott exponenciális eloszláshoz. 7. Feladat A következő minta epoxi gyanta bomlási feszültségeinek 20 mérését mutatja. Vizsgálja meg, hogy a feszültség normális eloszlást követ-e p=0.95! Normalitásvizsgálat Ryan-Joiner próbával H0: A bomlási feszültség normális eloszlású p=0,95 Az eredeti mintaelemek, és a rendezett mintában megjelenő sorszámukból számolt változók percentilisei kvantilisei i korrelációt kell megvizsgálnunk. Egészítsük ki a táblázatot megint 4 oszloppal, a fejlécek legyenek a következők: D8:=k E8:= k-0,375/n+0,25 F8:= Zp G8:= xp Számoljuk végig az oszlopokat. Az első oszlopba a minta sorszámok kerülnek k, rendre, 1,2,..20. D9:=1 D10:=2. húzzuk végig Az E oszlopba a sorszámból számolt változók kerülnek: E9: =D9-0,375/DARABC$9:C$28+0,25 A következő az E változó normált kvantilise Zp: F9: =INVERZ.STNORME9 Az utolsó oszlopban meghatározzuk a kvantiliseknek megfelelő értékeket xp: G9: =C$30+F9*C$31
Ehhez persze számoljunk átlagot, szórást: C30: =ÁTLAGC9:C28 C31: =SZÓRÁSPC9:C28 A próbában ez eredeti mintaelemek, és az utóbb kiszámolt kvantilisek i korrelációt kell megállapítani. Fel is rajzolhatjuk, szép egyenes A statisztika aktuális értéke: J14: =KORRELC9:C28;G9:G28 = 0.9879 A kritikus értéket a megadott táblázatból 1-p-hez és n-hez kell megkeresnünk. Krit=0.9503 Mivel a számolt korrelációs együttható > kritikus érték, H0-t elfogadjuk.