Illeszkedésvizsgálat



Hasonló dokumentumok
Khi-négyzet próbák. Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet

BIOMATEMATIKA ELŐADÁS

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Sz ekelyhidi L aszl o Val osz ın us egsz am ıt as es matematikai statisztika *************** Budapest, 1998

ingyenes tanulmány GOOGLE INSIGHTS FOR SEARCH

A fiatalok pénzügyi kultúrája Számít-e a gazdasági oktatás?

FIT-jelentés :: Intézményi jelentés. Összefoglalás

FIT-jelentés :: Intézményi jelentés. 8. évfolyam

Elemi statisztika fizikusoknak

FIT-jelentés :: Széchenyivárosi Óvoda és Általános Iskola 6000 Kecskemét, Lunkányi János u. 10. OM azonosító: Intézményi jelentés

Bevezetés az ökonometriába

2000 db speciális komposztláda, 0,3 m3 térfogatú

FIT-jelentés :: Zoltánfy István Általános Iskola 6772 Deszk, Móra F. u. 2. OM azonosító: Telephely kódja: 005. Telephelyi jelentés

FIT-jelentés :: Szász Ferenc Kereskedelmi Szakközépiskola és Szakiskola 1087 Budapest, Szörény u OM azonosító: Intézményi jelentés

2011. március 9. Dr. Vincze Szilvia

A döntő feladatai. valós számok!

Shared IMAP beállítása magyar nyelvű webmailes felületen

FIT-jelentés :: Bánki Donát Közlekedésgépészeti Szakközépiskola és Szakiskola 1138 Budapest, Váci út OM azonosító:

FIT-jelentés :: 2014 Intézményi jelentés Összefoglalás Ady Endre-Bay Zoltán Középiskola és Kollégium

Fordítóprogramok Készítette: Nagy Krisztián

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2004. III. negyedév) Budapest, december

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Lineáris algebra gyakorlat

A Hozzárendelési feladat megoldása Magyar-módszerrel

FIT-jelentés :: Érdi Gárdonyi Géza Általános Iskola és Gimnázium 2030 Érd, Gárdonyi Géza utca 1/b. OM azonosító: Intézményi jelentés

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2004. IV. negyedév) Budapest, április

FIT-jelentés :: Kőbányai Keresztury Dezső Általános Iskola 1106 Budapest, Keresztúri út 7-9. OM azonosító: Intézményi jelentés

Analízis elo adások. Vajda István október 3. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

Házi dolgozat. Minta a házi dolgozat formai és tartalmi követelményeihez. Készítette: (név+osztály) Iskola: (az iskola teljes neve)

FIT-jelentés :: Rácalmási Jankovich Miklós Általános Iskola és Alapfokú Művészeti Iskola 2459 Rácalmás, Szigetfő utca 24. OM azonosító:

Dr. Balogh Albert: A statisztikai adatfeldolgozás néhány érdekessége

Reiz Beáta április

A Közbeszerzések Tanácsa (Szerkesztőbizottsága) tölti ki A hirdetmény kézhezvételének dátuma KÉ nyilvántartási szám

Intézményi jelentés. Összefoglalás. Medgyessy Ferenc Gimnázium és Művészeti Szakközépiskola 4031 Debrecen, Holló László sétány 6 OM azonosító:

1. forduló. MEGOLDÁSOK Pontszerző Matematikaverseny 2015/2016-os tanév

MATEMATIKA HETI 3 ÓRA

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Egészségügyi kártevőirtó szakmunkás szakképesítés Kártevőirtás modul. 1. vizsgafeladat december 10.

Adatbázis-kezelés. 7. SQL Táblák összekapcsolása

- mit, hogyan, miért?

Országos Középiskolai Tanulmányi Verseny 2011/2012 Matematika I. kategória (SZAKKÖZÉPISKOLA) Döntő. x 3x 2 <

FIT-jelentés :: Jedlik Ányos Gépipari és Informatikai Középiskola és Kollégium 9021 Győr, Szent István út 7. OM azonosító:

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2004. I. negyedév) Budapest, július

Mágneses szuszceptibilitás vizsgálata

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2005. III. negyedév) Budapest, január

Fazekas Mihály Fővárosi Gyakorló Általános Iskola és Gimnázium

Analízis elo adások. Vajda István szeptember 24. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

Puskás Tivadar Távközlési Technikum

Laborgyakorlat Logikai áramkörök számítógéppel segített tervezése (CAD)

Kockázatkezelés és biztosítás

Programozás I gyakorlat

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

Játékok (domináns stratégia, alkalmazása

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Orvosi laboratóriumi technikai asszisztens szakképesítés Mikrobiológiai vizsgálatok modul. 1.

A mérési eredmény hibája

A mérés célja: Példák a műveleti erősítők lineáris üzemben történő felhasználására, az előadásokon elhangzottak alkalmazása a gyakorlatban.

Épületvillamosság laboratórium. Villámvédelemi felfogó-rendszer hatásosságának vizsgálata

irányítószám: Ország: Magyarország

Vegyes tételek könyvelése felhasználói dokumentum Lezárva:

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

118. Szerencsi Többcélú Kistérségi Társulás

3. Az integrált KVTF-ÁNTSZ közös szállópor mérési rendszer működik. A RENDSZER ÁLTAL VÉGZETT MÉRÉSEK EREDMÉNYEI, ÉS AZOK ÉRTÉKELÉSE

Tájékoztató a szerződés módosításáról_munkaruházati termékek szállítása (5. rész)

Ipari és vasúti szénkefék

GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN

I. 4.) Az ajánlatkéra más ajánlatkérak nevében folytatja-e le a közbeszerzési eljárást? nem X

Statisztikai módszerek alkalmazása az orvostudományban. Szentesi Péter

B1: a tej pufferkapacitását B2: a tej fehérjéinek enzimatikus lebontását B3: a tej kalciumtartalmának meghatározását. B.Q1.A a víz ph-ja = [0,25 pont]

Országos kompetenciamérés 2006

Dr. BALOGH ALBERT: AZ ÚJ STATISZTIKAI TERMINOLÓGIA

KOVÁCS BÉLA, MATEMATIKA I.

a munkanélküliség megelőzése és kezelése Baranya megyében

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Trigonometria

Fejlesztı neve: LÉNÁRT ANETT. Tanóra / modul címe: CÉGES REKLÁMBANNER KÉSZÍTÉSE PROJEKTMÓDSZERREL

Egységes jelátalakítók

Statisztika március 11. A csoport Neptun kód

biztosítási szolgáltatások

Radon, Toron és Aeroszol koncentráció viszonyok a Tapolcai Tavas-barlangban

A SZERZŐDÉS TELJESÍTÉSÉRE VONATKOZÓ INFORMÁCIÓK

Címzett: Markus Goddemeier Fax: +49 (0)

GÉPJÁRMŰ ÉRTÉKELŐ SZAKÉRTŐI VÉLEMÉNY

Az éves statisztikai összegezés STATISZTIKAI ÖSSZEGEZÉS AZ ÉVES KÖZBESZERZÉSEKRŐL A KLASSZIKUS AJÁNLATKÉRŐK VONATKOZÁSÁBAN

Elemi statisztika fizikusoknak

tartalmazó becsült értékek októbertől a lakáscélú és szabad felhasználású jelzáloghitelek új szerződéses összege tartalmazza a

[GVMGS11MNC] Gazdaságstatisztika

A mérések eredményeit az 1. számú táblázatban tüntettük fel.

Jelentéskészítő TEK-IK () Válaszadók száma = 610

Tisztítószerek és tisztító eszközök beszerzése (14669/2014.)- módosítás

Mutatószám alapú értékelés

GAZDASÁGI MATEMATIKA Gyakorlat

Az éves statisztikai összegezés STATISZTIKAI ÖSSZEGEZÉS AZ ÉVES KÖZBESZERZÉSEKRŐL A KLASSZIKUS AJÁNLATKÉRŐK VONATKOZÁSÁBAN

Azonosító jel: Matematika emelt szint

Conjoint-analízis példa (egyszerűsített)

Diszkrét matematika I. gyakorlat

Arany Dániel Matematikai Tanulóverseny 2011/2012-es tanév első (iskolai) forduló haladók I. kategória

TÁJÉKOZTATÓ A SZERZ DÉS MÓDOSÍTÁSÁRÓL I. SZAKASZ: A SZERZ DÉS ALANYAI I.1) AZ AJÁNLATKÉR KÉNT SZERZ D FÉL NEVE ÉS CÍME

ELEKTRONIKAI ALAPISMERETEK

Az Európai Szabadalmi Egyezmény végrehajtási szabályainak április 1-étől hatályba lépő lényeges változásai

Mehet!...És működik! Non-szpot televíziós hirdetési megjelenések hatékonysági vizsgálata. Az r-time és a TNS Hoffmann által végzett kutatás

8. melléklet a 92/2011. (XII. 30.) NFM rendelethez A SZERZŐDÉS TELJESÍTÉSÉRE VONATKOZÓ INFORMÁCIÓK I. SZAKASZ: A SZERZŐDÉS ALANYAI

Tagállamok - Szolgáltatásra irányuló szerződés - Szerződés odaítélése - Gyorsított tárgyalásos eljárás. HU-Szombathely: Banki szolgáltatások

Átírás:

Slide 1 Illeszkedésvizsgálat (kategória értékű változóra) Freedman: 28. fejezet 1-3. Egy képzeletbeli országban 10M ember lakik: 30% szőke, 10% barna, 60% fekete. Slide 2 N = 200 fős mintát vettünk, a mintabeli hajszín gyakoriságok: f szőke = 70, f barna = 25, f fekete = 105 a hajszín gyakoriságok várhatóértékei: e szőke = 60, e barna = 20, e fekete = 120 S = (f szőke e szőke ) 2 e szőke + (f barna e barna ) 2 e barna + (f fekete e fekete ) 2 e fekete Slide 3 ez a statisztika mutatja, hogy megfelelően illeszkedik-e a mintabeli gyakoriság eloszlás az alapsokasági eloszláshoz.

Slide 4 Ha a minta EVM, akkor az S eloszlása χ 2 2 (szavakban: 2 szab.fokú khi-négyzet) melynek a táblázat szerint a 0.95 kvantilise = 5.991 S = (70 60)2 60 + (25 20)2 20 + (105 120)2 120 = 100 60 + 25 20 + 225 120 = 4.792 = H 0 : a mintavétel EVM Slide 5 H 0 vizsgálatára a végzett khi-négyzet próbánál (0.05 szignifikancia szinten) az elfogadási tartomány felső határa = 5.991 A próbastatisztika S = 4.792 ezért a H 0 hipotézist elfogadjuk. Slide 6 Megjegyezzük, hogy ha csak a fekete/nem-fekete eloszlást nézzük, akkor az N = 200 elemű EVM p = 0.6 alapsokasági arány mellett a várható gyakoriság = 120, ennek SHja = 200 0.6 0.4 = 48

1.96 200 0.6 0.4 = 13.579 miatt a 95%-os megbízhatósági tartomány: 120 ± 13.579 Slide 7 A megfigyelt f fekete = 105 kívül esik e tartományon. Ha csak a fekete/nem-fekete komponenst vizsgáljuk (z-próbával), akkor 0.05 szignifikancia szinten a H 0 hipotézist elutasítjuk. Slide 8 Ugyanezt az eljárást egy másik példán megbeszéltük a z-próba kapcsán. Abban a példában (0.05 szignifikancia szinten) a komponensek egyenként vizsgálva a null-hipotézis elfogadására vezettek, miközben a khi-négyzet próba eredménye szignifikáns eltérést jelzett, a null-hipotézist el kellett utasítani. Azt látjuk, hogy a különböző statisztikai próbák a hipotézist más-más szempontból ellenőrzik. Slide 9 Figyelem: a statisztikusok hanyag szóhasználatában a khi-négyzet próba nevet az illeszkedésvizsgálat mellett (több más, különböző próbával együtt) a most következő khi-négyzet függetlenségvizsgálatra is használjuk.

Slide 10 Függetlenségvizsgálat kategória-értékű változókra Freedman: 28. fejezet 4. Egy képzeletbeli országban 10M ember lakik. Slide 11 Tudjuk, hogy 44% kékszemű, 56% zöldszemű, 30% szőkehajú, 10% barnahajú, 60% feketehajú. Ezek az adatok leírják a szem- és a hajszín marginális eloszlását, de nem határozzák meg azt, hogy mi a szem- és hajszín együttes eloszlása. Slide 12 Feltesszük, hogy a szem- és a hajszín függetlenek, miközben tiszteletben tartjuk a marginálisokról előbb mondottakat. A szem- és hajszín együttes eloszlása (ezer fő): szem \ haj szőke barna fekete összesen kékszemű 1320 440 2640 4400 zöldszemű 1680 560 3360 5600 összesen 3000 1000 6000 10000

Először a teljes lakosságra vetített arányszámokkal kitöltjük a marginális sort és oszlopot: Slide 13 szem \ haj szőke barna fekete összesen kékszemű 0.44 zöldszemű 0.56 összesen 0.3 0.1 0.6 1 Ezután kitöltjük az üresen maradt cellákat a megfelelő marginálisaik szorzatával: Slide 14 szem \ haj szőke barna fekete összesen kékszemű 0.132 0.044 0.264 0.44 zöldszemű 0.168 0.056 0.336 0.56 összesen 0.3 0.1 0.6 1 A Szignifikanciapróbák összefoglalóban egy általános jelölés szerepel: Slide 15 X \ Y Y = 1 Y = 2 Y = 3 marginális X = 1 p 1,1 p 1,2 p 1,3 p 1,+ X = 2 p 2,1 p 2,2 p 2,3 p 2,+ marginális p +,1 p +,2 p +,3 p +,+

Slide 16 A függetlenség azt jelenti, hogy P {X = i Y = j} = P {X = i} azaz p i,j = p i,+ teljesül minden (i, j) párra p +,j Például i = 2 és j = 3 esetén P {zöldszemű feketehajú} = P {zöldszemű} p 2,3 = 0.336 p +,3 0.6 = 0.56 = p 2,+ Slide 17 Ez azért megy ilyen szépen, mert az együttes eloszlás táblázatát a szorzási szabállyal készítettük, ezzel okoztuk a két változó függetlenségét. Ugyanezen marginális eloszlások tiszteletben tartása mellett tudunk nem-független együttes eloszlásokat is készíteni. Slide 18 Az alapsokasági relatív gyakoriságokat megszorozzuk az alapsokaság létszámával (itt 10M), és így kapjuk a bevezetőben mutatott gyakoriság eloszlási kereszt-táblát. Az alapsokasági relatív gyakoriságokat a statisztikus szleng totál-százalékos táblának is mondja, ezenkívül értelemszerűen használják a sorszázalékos és oszlopszázalékos tábla elnevezéseket is.

Slide 19 Két kategória-értékű változó függetlenségének vizsgálata khi-négyzet próbával Modell: az X változó alapsokaságbeli értékei X = 1, 2,.., I az Y változó alapsokaságbeli értékei Y = 1, 2,.., J Hipotézis: H 0 : X és Y függetlenek Minta: az (X, Y ) változópárra vett N elemű EVM. Az adatok a gyakoriság kereszt-táblázatban: X \ Y Y = 1... Y = J marginális Slide 20 X = 1 f 1,1... f 1,J f 1,+............... X = I f I,1... f I,J f I,+ marginális f +,1... f +,J N = f +,+ f i,j = az {X = i} és {Y = j} mintabeli együttes előfordulásainak gyakorisága. Slide 21 Ha X és Y függetlenek, akkor f i,j várhatóértéke = e i,j = f i+ f +j f ++ várhatóértéke Ez az állítás precízebben fogalmazva: ha X és Y függetlenek, akkor e i,j torzítatlan becslés N p i,j -re. Másrészt f i,j torzítatlan becslés N p i,j -re, akár teljesül X és Y függetlensége, akár nem.

Slide 22 A függetlenségvizsgálat próbastatisztikája: I J (f i,j e i,j ) 2 S = mely χ 2 (I 1) (J 1) i=1 j=1 e i,j (szavakban: (I 1) (J 1) szab.fokú khi-négyzet) eloszlású közelítőleg, ha H 0 igaz. Slide 23 Fisher próba (a képlet nem kötelező anyag!) Fisher egzakt próba. Van N darab X kártya és M darab Y kártya. Az összesen N + M kártyából véletlenszerűen kiválasztok K darabot. N 1 M 1 K N 2 M 2 L N M ( N N 1 )( M M 1 ) ( N+M ) a valószínűsége, hogy K éppen ezen táblabeli eloszlás jön ki. Alkalmazás a medián-próbára: K = M + N és a kiválasztás 2 azt jelenti, hogy az érték a közös mediánnál nagyobb. Slide 24 A Fisher-próba P értékét a fenti képlet segítségével tudjuk kiszámolni, és ezenközben kizárólag az ugyanilyen marginálisokat eredményező mintavételek valószínűségeit vesszük figyelembe. Ha a Fisher-próba helyett a függetlenségre vonatkozó khi-négyzet statisztika alapján számolnánk P értéket, ezzel negligálnánk a marginálisokra vonatkozó információt. A következő példák szimulációval szemléltetik a medián-próbánál a Fisher-próba és a khi-négyzet próba függetlenségvizsgálati eljárások működését.

A khi-négyzet és a Fisher egzakt próba összehasonlítása ROC analysis N= 50, M= 50, dev= 0.5 with Chi-squared 89% accepted at level ** with Fisher exact 79% accepted at level ** ROC analysis N= 50, M= 50, dev= 0.7 with Chi-squared 41% accepted at level ** with Fisher exact 24% accepted at level ** ROC analysis N= 80, M= 80, dev= 0.5 with Chi-squared 53% accepted at level ** with Fisher exact 26% accepted at level ** Az adathalmazok és a próba leírását lásd az előző előadásban. A medián-teszt 2x2-es kereszt-táblázatának értékelését egyrészt a khi-négyzet próbával, másrészt a Fisher egzakt próbával végezve azt látjuk, hogy a Fisher egzakt próba használata eredményezi a kisebb másodfajú hibavalószínűséget.