Az első számjegyek Benford törvénye

Hasonló dokumentumok
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Hipotézis vizsgálatok

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

[Biomatematika 2] Orvosi biometria

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Biomatematika 13. Varianciaanaĺızis (ANOVA)

V. Gyakorisági táblázatok elemzése

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztikai módszerek 7. gyakorlat

Bevezetés a hipotézisvizsgálatokba

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

A konfidencia intervallum képlete: x± t( α /2, df )

y ij = µ + α i + e ij

Hipotézis vizsgálatok

Adatok statisztikai értékelésének főbb lehetőségei

Biostatisztika VIII. Mátyus László. 19 October

Varianciaanalízis 4/24/12

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Nemparaméteres próbák

Többváltozós lineáris regressziós modell feltételeinek

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Függetlenségvizsgálat, Illeszkedésvizsgálat

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Nemparametrikus tesztek december 3.

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Kutatásmódszertan és prezentációkészítés

Normális eloszlás tesztje

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

A khi-négyzet próba és alkalmazásai: illeszkedésés függetlenségvizsgálat. khi-(χ 2 )-négyzet próba

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Nem-paraméteres és paraméteres módszerek. Kontingencia tábla, rangtranszformálás, párosított minták, két független minta

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Biostatisztika 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

Eloszlás-független módszerek 13. elıadás ( lecke)

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

[Biomatematika 2] Orvosi biometria

Normális eloszlás paramétereire vonatkozó próbák

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Korreláció és lineáris regresszió

2012. április 18. Varianciaanaĺızis

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

egyetemi jegyzet Meskó Balázs

Centura Szövegértés Teszt

Biostatisztika Összefoglalás

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Biostatisztika Összefoglalás

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

A telefonnal való ellátottság kapcsolata a rádió és televízió műsorszórás használatával a 14 éves és idősebb lakosság körében

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Hipotézisvizsgálat R-ben

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Kutatásmódszertan és prezentációkészítés

Elemi statisztika fizikusoknak

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK

Biomatematika 2 Orvosi biometria

Statisztika Elıadások letölthetık a címrıl

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Átírás:

Az első számjegyek Benford törvénye Frank Benford (1883-1948) A General Electric fizikusa Simon Newcomb (1835 1909) asztronómus 1. oldal

2. oldal

A híres arizonai csekk sikkasztási eset http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm 3. oldal

11-1 Áttekintés 11. előadás Multinomiális kísérletek és kontingencia táblák 11-2 Multinomiális kísérletek: az illeszkedés jósága 11-3 Kontingencia táblák: Függetlenség és homogenitás 4. oldal

11-1 & 11-2 fejezetek Áttekintés és multinomiális kísérletek: az illeszkedés jósága 5. oldal

Áttekintés Kategoriális adatokkal foglalkozunk, vagy olyan kvantitatív adatokkal, amelyeket különböző kategóriákba lehet sorolni (gyakran bineknek vagy celláknak hívjuk). A χ 2 (khí-négyzet) teszt statisztika. Az illeszkedés vizsgálat (goodness of fit test) egy egydimenziós gyakorisági táblázat (egy sor vagy oszlop). A kontingencia tábla egy kétdimenzós gyakorisági táblázat (kettő vagy több oszlop és sor). 6. oldal

Kulcsfogalmak Adott, kategóriákba sorolt adatok esetén azt a hipotézist teszteljük, hogy az adatok eloszlása megegyezik valamilyen általunk feltételezett eloszlással. A hipotézis teszt a khí-négyzet eloszlást használja a megfigyelt gyakoriságok és az általunk várt gyakoriságok összehasonlítására. 7. oldal

Definíció Multinomiális kísérlet Egy olyan kísérlet, ami az alábbi feltételeknek tesz eleget: 1. A próbálkozások/kísérletek száma előre adott. 2. A próbálkozások/kísérletek függetlenek. 3. A kísérlet minden kimenetele egyértelműen besorolható pontosan egybe a lehetséges kategóriák közül. 4. A kísérletek során a kategóriák valószínűsége nem változik, állandó marad. 8. oldal

Példa: A tömegek utolsó számjegye Amikor az embereket megkérdezik, hogy mekkora a tömegük, gyakran mondanak a valóságosnál kisebb értékeket. Hogyan lehet eldönteni egy adathalmazról, hogy igazi mérésből származnak, vagy az emberek megkérdezéséből nyert értékek? 9. oldal

Példa: A tömegek utolsó jegye Teszteljük azt a feltevést, hogy az 11-2. táblázatban található értékek ugyanazzal a gyakorisággal lépnek fel. 11-2. táblázat összesítés 80 hallgató tömegének utolsó számjegyei 10. oldal

Példa: folyt. Ellenőrizzük, hogy a multinomiális kísérlet feltételei fennállnak-e. 1. A kísérletek száma adott, 80. 2. A kísérletek függetlenek, mert valaki tömegének utolsó számjegye nincs hatással valaki más tömegének utolsó számjegyére. 3. Minden kimenet (utolsó számjegy) pontosan egy kategóriába sorolható. A kategóriák 0, 1,, 9. 4. Végül, pedig nem változik a kimenetek valószínűsége a kísérlet során. 11. oldal

Definíció Illeszkedés vizsgálat Az illeszkedés vizsgálatot annak tesztelésére használjuk, hogy a megfigyelt gyakoriságok illeszkednek a feltételezett gyakoriság eloszláshoz. 12. oldal

Illeszkedés vizsgálat Jelölések O jelöli egy kimenetel megfigyelt gyakoriságát. E jelöli egy kimenetel várt gyakoriságát. k n jelöli a lehetséges kimenetek/kategóriák számát. jelöli a kísérletek teljes számát. 13. oldal

Várt gyakoriságok Ha minden gyakoriság egyenlő: E = n k az összes megfigyelt előfordulások száma elosztva a kategóriák számával 14. oldal

Várt gyakoriságok Ha nem mindegyik gyakoriság egyforma: E = n p Meg kell szorozni a kategória valószínűséget az összes esetek számával. 15. oldal

Illeszkedés vizsgálat (teszt) multinomiális kísérletekben Követelmények 1. Az adatokat véletlenül választjuk ki 2. A minta minden kategóriára vonatkozó gyakoriság adataiból áll. 3. Minden kategóriában legalább 5 legyen a várt megfigyelések száma! 16. oldal

Illeszkedés vizsgálat (teszt) multinomiális kísérletekben Teszt statisztika χ 2 = Σ (O E)2 E Kritikus értékek 1. A khí-négyzet táblázatot kell használnunk k 1 szabadsági fokok számával, ahol k = a kategóriák száma. 2. Az illeszkedés vizsgálatok mindig jobboldali tesztek. 17. oldal

Illeszkedés vizsgálat (teszt) multinomiális kísérletekben A közeli egyezés a megfigyelt és a várt értékek között kicsi χ 2 és nagy P-értékre vezetnek. A nagy eltérés a megfigyelt és a várt értékek között nagy χ 2 és kis P-értékre vezetnek. Egy szignifikánsan nagy χ 2 érték a null hipotézis elutasítását fogja okozni, amennyiben a null hipotézis szerint nincs különbség a megfigyelt és a várt gyakoriságok között. 18. oldal

Kapcsolat a χ 2 teszt statisztika, P-érték, és az illeszkedés vizsgálat között 11-3. ábra 19. oldal

Példa: utolsó számjegy elemzés Teszteljük azt a feltevést, hogy a 11-2. táblázatban a számjegyek nem ugyanazzal a gyakorisággal fordulnak elő. H 0 : p 0 = p 1 = = p 9 H 1 : Legalább az egyik vsz. különbözik a többitől. α = 0.05 k 1 = 9 χ 2.05, 9 = 16.919 20. oldal

Példa: utolsó számjegy elemzés Teszteljük azt a feltevést, hogy a 11-2. táblázatban a számjegyek nem ugyanazzal a gyakorisággal fordulnak elő. Ha a 80 számjegy egyenletesen oszlana el a 10 kategória között, akkor minden gyakoriságra 8-at várunk. 21. oldal

Példa: utolsó számjegy elemzés Teszteljük azt a feltevést, hogy a 11-2. táblázatban a számjegyek nem ugyanazzal a gyakorisággal fordulnak elő. 22. oldal

Példa: utolsó számjegy elemzés Teszteljük azt a feltevést, hogy a 11-2. táblázatban a számjegyek nem ugyanazzal a gyakorisággal fordulnak elő. A 11-3. táblázat szerint, a teszt statisztika értéke χ 2 = 156.500. Mivel a kritikus éték 16.919, elutasítjuk a null hipotézist, amely szerint a valószínűségek megegyeznek. Elegendő evidencia van arra, hogy támogassuk azt a feltevést, hogy az utolsó számjegyek nem mind ugyanakkora gyakorisággal fordulnak elő. 23. oldal

Példa: Csalás detektálás 11-1. táblázat: Az első számjegyek statisztikája és a Brenford szabály. 24. oldal

Példa: Csalás detektálás Teszteljük azt a feltevést, hogy szignifikáns eltérés van a Benford szabály és a 784 db számla első számjegye között. Observed Frequencies and Frequencies Expected with Benford s Law 25. oldal

Példa: Csalás detektálás Teszteljük azt a feltevést, hogy szignifikáns eltérés van a Benford szabály és a 784 db számla első számjegye között. H 0 : p 1 = 0.301, p 2 = 0.176, p 3 = 0.125, p 4 = 0.097, p 5 = 0.079, p 6 = 0.067, p 7 = 0.058, p 8 = 0.051 and p 9 = 0.046 H 1 : Legalább egy gyakoriság eltér ezektől az arányoktól. α = 0.01 k 1 = 8 χ 2.01,8 = 20.090 26. oldal

Példa: Csalás detektálás Teszteljük azt a feltevést, hogy szignifikáns eltérés van a Brenford szabály és a 784 db számla első számjegye között. A teszt statisztika értéke χ 2 = 3650,251. Mivel a kritikus érték 20,090, elutasítjuk a null hipotézist. Elég bizonyíték van a null hipotézis elutasítására - Elég bizonyíték van arra, hogy legalább az egyik arány eltér a várhatótól. 27. oldal

Példa: Csalás detektálás Teszteljük azt a feltevést, hogy szignifikáns eltérés van a Benford szabály és a 784 db számla első számjegye között. 11-5. ábra 28. oldal

Példa: Csalás detektálás 11-6. ábra A megfigyelt és a Benford törvénynek megfelelő első számjegy eloszlások 29. oldal

Összefoglalás Ebben a fejezetben megbeszéltük: Multinomiális kísérletek: Illeszkedés jósága Annak a hipotézisnek a tesztelése, hogy a megfigyelt gyakoriság eloszlás illeszkedik a feltételezett eloszláshoz. 30. oldal

11-3. fejezet Kontingencia táblázatok: Függetlenség és homogenitás 31. oldal

Kulcsfogalmak Ebben a fejezetben kontingencia vagy más néven két dimenziós gyakorisági táblázatokkal foglalkozunk. Olyan eljárást mutatunk be, amivel vizsgálni lehet, hogy a sor és az oszlop változók függetlenek-e egymástól. A homogenitás vizsgálatára ugyanezt a módszert használjuk, amellyel eldönthető, hogy különböző populációkban valamilyen tulajdonság ugyanolyan megoszlásban van-e jelen. 32. oldal

Definíció Kontingencia táblázat (vagy kétdimenziós gyakorisági táblázat) Egy kontingencia táblázat olyan táblázat, melyekben a gyakoriságok két változóhoz tartoznak. (Az egyik változó kategorizálja az oszlopokat, a másik a sorokat.) A kontingencia táblázatok minimum 2 X 2-esek. 33. oldal

Esettanulmány motorosokról A bukósisak színe és a baleseti sérülések között van-e valamilyen kapcsolat? Fekete Fehér Sárga/Narancs Sorösszeg Kontroll (nem sérült) 491 377 31 899 Balesetes (sérült v. meghalt) 213 112 8 333 Oszlopösszeg 704 489 39 1232 34. oldal

Definíció Függetlenség vizsgálat (teszt) A függetlenség vizsgálat azt a null hipotézist teszteli, hogy nincs kapcsolat az oszlop és a sor változó között a kontingencia táblában. A null hipotézis az, hogy a sor és oszlop változók függetlenek. 35. oldal

Követelmények 1. A minta adatokat véletlenül választjuk ki és két dimenziós gyakorisági táblázatban helyezzük el. 2. A null hipotézis H 0 az, hogy a sor és oszlop változók függetlenek; az alternatív hipotézis H 1 az, hogy az oszlop és sor változók függenek egymástól. 3. A kontingencia táblában minden várható gyakoriság E legalább 5. (Nem feltétel, hogy a megfigyelt esetek száma legalább 5 legyen. Nem feltétel, hogy a populáció normális eloszlású legyen.) 36. oldal

Függetlenségi teszt Teszt statisztika χ 2 = Σ (O E)2 E Kritikus értékek 1. A khí-négyzet eloszlás táblázatából szabadsági fokok száma = (r 1)(c 1) r a sorok, c az oszlopok száma 2. A függetlenségi teszt mindig jobboldali. 37. oldal

Feltételezett/várható gyakoriság E = (sor összeg) (oszlop összeg) (összes eset) A megfigyelt gyakoriságok teljes száma az egész táblázatban 38. oldal

Függetlenségi teszt Ez a procedúra nem alkalmas arra, hogy direkt ok-okozati kapcsolatot mutassunk ki a változók között. A függőség csak azt jelenti, hogy kapcsolat van a két változó között. 39. oldal

A kontingencia tábla várható gyakorisága sorösszeg összes eset E = összes eset oszlopösszeg összes eset n p (cella valószínűség) E = (sorösszeg) (oszlopösszeg) (összes eset) 40. oldal

Eset tanulmány Fekete Fehér Sárga/Narancs Sorösszeg Kontroll (nem sérült) 491 377 31 899 Balesetes 213 112 8 333 Oszlopösszeg 704 489 39 1232 A bal felső cellára: E = (sorösszeg) (oszlopösszeg) (összes eset) E = (899)(704) 1232 = 513.714 41. oldal

Esettanulmány Kontroll Várt esetszám Fekete 491 513.714 Fehér Sárga/Narancs Sorösszeg 377 31 899 Balesetes Várt esetszám 213 112 8 333 Oszlopösszeg 704 489 39 1232 E = (sorösszeg) (oszlopösszeg) (összes eset) E = (899)(704) 1232 = 513.714 42. oldal

Esettanulmány Kontroll Várt Fekete 491 513.714 Fehér Sárga/Narancs Sorösszeg 377 31 899 356.827 28.459 Balesetes Várt 213 190.286 112 132.173 8 10.541 333 Oszlopösszeg 704 489 39 Kiszámítottuk a várható esetszámot. 1232 A bal felső cella interpretálása: azt mondhatjuk, hogy 491 fekete sisakos motoros sérült meg, de 513.714 lenne a várható szám, ha a sérülések függetlenek lennének a sisak színétől. 43. oldal

folyt. A 0.05 szignifikancia szintet használva teszteljük azt a feltevést, hogy a csoport (kontroll vagy balesetes) független a sisak színétől. H 0 : Az, hogy valaki a kontroll vagy a balesetes csoportba esik független a sisak színétől. H 1 : A csoport és a szín összefüggnek. 44. oldal

folyt. Kontroll Várható Fekete 491 513.714 Fehér Sárga/Narancs Sorösszeg 377 31 899 356.827 28.459 Balesetes Várható 213 190.286 112 132.173 8 10.541 333 Oszlopösszeg 704 489 39 1232 2 ( O E) (491 513.714) (8 10.541) χ = = +... + E 513.714 10.541 2 χ = 8.775 2 2 2 45. oldal

folyt. H 0 : Sor és oszlop változók függetlenek. H 1 : Sor és oszlop változók összefüggnek. A teszt statisztika χ2 = 8.775 α = 0.05 A szabadsági fokok száma: (r 1)(c 1) = (2 1)(3 1) = 2. A kritikus érték a táblázatból χ 2.05,2 = 5.991. 46. oldal

folyt. 11-4. ábra Elvetjük a null hipotézist. Úgy tűnik, van kapcsolat a sisak színe és a motorozás biztonsága között. 47. oldal

A tesztelés menete 11-8. ábra 48. oldal

Definíció Homogenitás vizsgálat A homogenitás vizsgálatban, azt a feltevést teszteljük, hogy különböző populációk bizonyos tulajdonságokat ugyanolyan arányban tartalmaznak. 49. oldal

Mi a különbség a homogenitás és a függetlenség vizsgálat között: Egy előre meghatározott minta elemszámot használunk mindkét populációból (homogenitás vizsgálat), vagy egy nagy mintát használtunk, amiből a sor és az oszlopösszegek véletlenül jönnek ki (függetlenség vizsgálat)? 50. oldal

Példa: A nemek hatása Az 11-6. táblázatot használva 0.05 szignifikancia szint mellett teszteljük, van-e hatása a kérdező nemének a férfi válaszolók válaszaira. 51. oldal

Példa: folyt H 0 : Azok aránya, akik egyetértenek/nem értenek egyet ugyanakkora a férfi és a női kérdezők esetén is. H 1 : Az arányok különböznek. 52. oldal

Példa: folyt. Minitab 53. oldal

Összefoglalás Ebben a fejezetben megvitattuk: Kontingencia táblázatokat, ahol kategoriális adatok sorokba és oszlopokba vannak rendezve. * Függetlenség vizsgálattal teszteljük azt a feltételezést, hogy a sor és az oszlop változók függetlenek. * Homogenitás vizsgálattal teszteljük azt a feltételezést, hogy két populáció valamilyen tulajdonságot ugyanolyan arányban tartalmaz. 54. oldal

11-4. fejezet McNemar teszt párokba rendezett adatokra 55. oldal

Kulcsfogalmak Eddig független folyamatokból származó adatokkal foglalkoztunk. Hogyan kezeljünk olyan adatokat, amelyek párokba rendezetten keletkeznek? Ekkor nem teljesül a függetlenség feltétele. Ilyenkor használjuk McNemar párosított adatokra kidolgozott tesztjét. 56. oldal

Példa: két kezelést kapott minden páciens, néhányan gyógyultak, néhányan nem. 57. oldal

Melyik kezelés az eredményesebb? Vessük össze a b és c számokat! 58. oldal

Nullhipotézis: b aránya = c aránya Párokba rendezett előfordulás: minden páciens megkapta mindkét kezelést 59. oldal

Előfeltételek 1. Véletlen mintavételezés 2. A mintáról párokba rendezett előfordulási gyakoriságokat rögzítettünk 3. Nominális adatok, amiket két osztályba sorolhatunk minden párra. 4. A kontingencia-tábla nem-diagonális elemei legalább 10-szer előfordultak példánkban: b+c 10 azaz a különböző eredményre vezető esetek legalább 10-szer fordultak elő 60. oldal

Teszt Null hipotézis: b, c relatív gyakorisága egyenlő Próba statisztika: 2 ( b c 1) χ = b+ c Kritikus tartomány: jobboldali teszt Szabadsági fokok száma = 1 2 61. oldal

Példa: kezelések összehasonlítása Párokba rendezett előfordulás: egyik lábon Fungakrém, másik lábon Pedakrém kezelés 62. oldal

Hipotézis-vizsgálat H 0 : az alábbi két relatív gyakoriság egyenlő: 1. Pedakrémmel kezelt lábon gyógyult és a Fungakrémmel kezelt lábon nem javuló betegek aránya 2. Fungakrémmel kezelt lábon gyógyult és a Pedakrémmel kezelt lábon nem javuló betegek aránya Kérdés: az adatok alapján mondhatjuk-e, hogy eltérést látunk a két arány között? 63. oldal

Hipotézis-vizsgálat A teszt előfeltételei teljesülnek: 1. Véletlenszerűen kiválasztott mintából kaptuk az adatokat 2. Minden megfigyelésünk egyértelműen kategorizálható két változó-érték valamelyikére (egyik változó = Peda- vagy Fungakrém, másik változó = gyógyult/nem gyógyult) 3. b = 8 és c = 40, tehát b + c 10. 64. oldal

Teszt-statisztika Teszt-statisztika: 2 2 2 ( b c 1) ( 8 40 1) χ = = = b+ c 8 + 40 Kritikus érték táblázatból: 2 χ = 3.841 20.021 Mivel a kritikus értéknél nagyobb a statisztikánk értéke, ezért elfogadhatatlanul kicsi a valószínűsége, hogy a két kezelés egyforma Elutasítjuk a null hipotézist. 65. oldal

Fogalmak A teszt nem használja azokat az értékeket, amiknél az értékek egyezőek voltak. Definíció: negatív párosításnak (diszkordáns párnak) nevezzük azokat az értékpárokat, amelyekre eltérő kategóriákba esnek a párosított értékek (Példánkban: gyógyult/nem gyógyult) 66. oldal

Összefoglalás Ebben a fejezetben megvitattuk: McNemar tesztet, ahol párosított értékeket vizsgálunk. * Itt az adatok 2x2-es táblázatba vannak rendezve, ahol minden érték két kategória szerint van osztályozva * A teszt csak a diszkordáns (eltérő kategóriájú) párok előfordulásait használja fel 67. oldal