Adathiány kezelési eljárások és imputálások összehasonlítása

Hasonló dokumentumok
ADATHIÁNY KEZELÉSI ELJÁRÁSOK ÉS IMPUTÁLÁSOK ÖSSZEHASONLÍTÁSA 2

Amikor a kutatók adathiánnyal szembesülnek, általában a listwise vagy a pairwise

Kutatásmódszertan és prezentációkészítés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Mit mond a XXI. század emberének a statisztika?

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Közösségi kezdeményezéseket megalapozó szükségletfeltárás módszertana. Domokos Tamás, módszertani igazgató

STATISZTIKA I. Mintavétel fogalmai. Mintavételi hiba. Statisztikai adatgyűjtés Nem véletlenen alapuló kiválasztás

A Statisztika alapjai

Hallgatók Diplomás Pályakövetési Rendszer Intézményi adatfelvétel a felsőoktatási hallgatók körében Módszertani összefoglaló

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

társadalomtudományokban

A maximum likelihood becslésről

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Statisztikai módszerek a skálafüggetlen hálózatok

Hiányzó adatok és kezelésük a statisztikai elemzésekben

Mintavételi eljárások

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

1/8. Iskolai jelentés. 10.évfolyam matematika

Kutatásmódszertan. Kulturális szempont megjelenése. Modulok áttekintése. Történet Témák és megközelítések. 11. Társadalmi nézőpont

[Biomatematika 2] Orvosi biometria

A leíró statisztikák

AZ ADATHELYETTESÍTÉS MODERN TECHNIKÁJA MULTIPLE IMPUTATION (MI)

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Biomatematika 2 Orvosi biometria

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

Többváltozós lineáris regressziós modell feltételeinek

Foglalkoztatási modul

Standardizálás, transzformációk

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

SEGÉDANYAG az országos kompetenciamérések, érettségi és OKTV eredmények kiértékeléséhez

6. Előadás. Vereb György, DE OEC BSI, október 12.

Válogatott fejezetek a közlekedésgazdaságtanból

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Kétértékű függő változók: alkalmazások Mikroökonometria, 8. hét Bíró Anikó Probit, logit modellek együtthatók értelmezése

NÉPESSÉGTUDOMÁNYI KUTATÓ INTÉZET

A kvantitatív kutatás folyamata

KÖZELÍTŐ INFERENCIA II.

Biostatisztika VIII. Mátyus László. 19 October

KÖZELÍTŐ INFERENCIA II.

[Biomatematika 2] Orvosi biometria

Lineáris regresszió vizsgálata resampling eljárással

Gyakorló többnyire régebbi zh feladatok. Intelligens orvosi műszerek október 2.

KÖVETKEZTETŐ STATISZTIKA

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Szelekciós torzítás és csökkentése az adósminősítési modelleknél

Matematika. Xántus János Két Tanítási Nyelvű Gimnázium és Szakgimnázium OM azonosító: Telephelyi jelentés Telephely kódja: 001

Iskolai jelentés. 10. évfolyam szövegértés

Alba Radar. 4. hullám. Helyi politikai preferencia

A MIDAS_HU modell elemei és eredményei

Alba Radar. 1. hullám. Politikai helyzetkép

FIT-jelentés :: Eötvös József Főiskola Gyakorló Általános Iskolája 6500 Baja, Bezerédj utca 15. OM azonosító: Telephely kódja: 001

y ij = µ + α i + e ij

FIT-jelentés :: Eötvös József Gimnázium és Kollégium 2890 Tata, Tanoda tér 5. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Eötvös József Gimnázium és Kollégium 2890 Tata, Tanoda tér 5. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

FIT-jelentés :: Gárdonyi Géza Általános Iskola 2030 Érd, Gárdonyi Géza u. 1/b. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

Uniós források és hatásuk -- mennyiségek és mérési lehetőségek Major Klára. HÉTFA Kutatóintézet és Elemző Központ

Modellkiválasztás és struktúrák tanulása

FIT-jelentés :: Derkovits Gyula Általános Iskola 9700 Szombathely, Bem J u. 7. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Telephelyi jelentés. 10. évfolyam :: Szakközépiskola

Online melléklet. Kertesi Gábor és Kézdi Gábor. c. tanulmányához

FIT-jelentés :: Karinthy Frigyes Gimnázium 1183 Budapest, Thököly u. 7. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

es országos kompetenciamérés eredményeinek összehasonlítása intézményünkben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Frissdiplomások 2011

Településhálózati kapcsolatrendszerek

p-érték, hipotézistesztelés, és ellentmondásaik

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

A légkördinamikai modellek klimatológiai adatigénye Szentimrey Tamás

FIT-jelentés :: Erzsébet Utcai Általános Iskola 1043 Budapest, Erzsébet u. 31. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

Szövegértés. Xántus János Két Tanítási Nyelvű Gimnázium és Szakgimnázium OM azonosító: Telephelyi jelentés Telephely kódja: 001

FIT-jelentés :: Tátra Téri Általános Iskola 1204 Budapest, Tátra tér 1. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

Szerzők: Kmetty Zoltán Lektor: Fokasz Nikosz TÁMOP A/1-11/ INFORMÁCIÓ - TUDÁS ÉRVÉNYESÜLÉS

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Telephelyi jelentés. Szent István Közgazdasági Szakközépiskola és Kollégium 1095 Budapest, Mester u OM azonosító: Telephely kódja: 001

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Segítség az outputok értelmezéséhez

FIT-jelentés :: Máriaremete-Hidegkúti Ökumenikus Általános Iskola 1028 Budapest, Községház u OM azonosító: Telephely kódja: 001

Kérdőíves elemzés a Fecskepalotáról

FIT-jelentés :: Rózsakerti Általános Iskola 1223 Budapest, Rákóczi u. 16. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

A társadalomkutatás módszerei I.

Posztanalitikai folyamatok az orvosi laboratóriumban, az eredményközlés felelőssége

FIT-jelentés :: Telephelyi jelentés. 10. évfolyam :: Szakközépiskola

Átírás:

EÖTVÖS LORÁND TUDOMÁNYEGYETEM TÁRSADALOMTUDOMÁNYI KAR SZOCIOLÓGIA DOKTORI ISKOLA Adathiány kezelési eljárások és imputálások összehasonlítása PhD értekezés tézisei Máder Miklós Péter Témavezető: Dr. Székelyi Mária DSc. 2012 1

A kutatás fókusza Az értekezés témája az adathiányok jellegzetességeinek bemutatása, és a különböző adathiány kezelő eljárások összehasonlítása, értékelése. A téma választását az indokolja, hogy az adathiány szinte minden adatgyűjtés során megjelenik. Az adathiányok három típus szerint rendezhetők, melyek közül kettő szisztematikusan torzítja a megfigyelhető eloszlást, amelyet kényszerűségből használnak a kutatók. Ezért a jelen értekezés a szakirodalomnak az adathiány problematikájára adott válaszait ezen három adathiány típus mentén vizsgálja, oly módon, hogy ellenőrizhető körülmények között modellezi az adathiány kezelő eljárásokat, majd értékeli az eljárások eredményeit. A kutatók az eddigi gyakorlatnak megfelelően, amennyiben a válaszolókra vonatkozó megfigyelések hiányosak, lehetőleg kihagyják az adathiányos eseteket a statisztikai elemzésekből. Az adathiányos esetek figyelmen kívül hagyása helyett az adathiányok okainak és mintázatainak feltérképezése után az adathiányok bepótlása, az úgynevezett imputálás válhat az adathiány kezelés főáramává. Az imputálás eszközét az elemzés során akkor használják, ha az adott hiányzó értéket becslésen alapuló értékkel helyettesítik (Rubin, 1987). Az imputálás az a folyamat, amely az adatbázisban lévő adathiányokat egy becslési algoritmus segítségével feltölti. Az értekezésben bemutatott szakirodalom szerint számos alkalommal a megfigyelt esetek információtartalma hordoz annyi tudást önmagában, hogy az adathiányok feltöltésére nézve egy matematikailag releváns becslést lehessen adni. Számos, a komplexitásában jelentős különbséggel rendelkező megoldás létezik az adathiányok becslésére nézve. Az értekezés a különböző adathiány kezelő eljárások bemutatása és modellezése során a Handbook of Statistical Modeling for the Social and Behavioral Sciences J.A.R. Little és N, Schenker által írt fejezetekre (Little, and Schenker, 1995), valamint D.B. Rubin Multiple Imputation for Nonresponse in Surveys című szakkönyvére támaszkodik (Rubin, 1987). A szakirodalom számos eljárást említ, a feltételhez nem kötött átlag behelyettesítéstől a többszörös imputálásig, ám ezek közül az eljárások közül nem mindegyik vezet megfelelő eredményre. 2

A kutatás célja Az értekezés során alkalmazott munkahipotézis alapja az a feltételezés, hogy az imputálási eljárások valóban csökkentik a hiányos adatbázisok által adott becslések torzítottságát. Ennek a hipotézisnek az ellenőrzésére az értekezés a három különböző adathiány-mechanizmus mentén modellezi az adathiány kezelő eljárások ezek a különböző missingelési típusok és a különböző imputálási eljárások hatékonyságát. A disszertáció áttekintése Az értekezés először bemutatja az adathiányok esetlegesen megfigyelhető torzító hatását (1). Majd számba veszi az adathiányok jellegzetességeit, mechanizmusait. Áttekintést nyújt az imputálási módszerekről, az úgynevezett naívaktól kezdve az összetettebb módszereken át, a többszörös imputálási eljárásokig. (2) Ezt követően a fent már említett három különböző adathiány-mechanizmus mentén modellezi az imputálási eljárásokat. (3) Végül összehasonlítja a különböző eljárások hatékonyságát. (4) Az adathiányok torzító hatása A fent említett példák az adathiányok sokféleségét mutatták be. Az adathiány különböző okai mellett fontos szempont az adathiány mértéke. Az egyre növekvő mértékű adathiány pedig egyre növekvő adathiány kezelési igényeket támaszt. Az 1% vagy ez alatti adathiány ráta McDermit szerint triviális, az 1-5% közötti kezelhető. Az 5-15% közötti adathiány kezelése már szofisztikált módszerek használatát igényli, 15% feletti adathiány pedig már súlyos interpretálási problémákat vet fel. (McDermit, 1999) Az adathiány torzító hatásának matematikai hátterét vázolja fel Rudas Tamás a Mixture Models of Missing Data című cikkében (Rudas, 2005). Elméleti megközelítésében a vizsgált populáció két részre bontható: az egyikbe tartoznak azok, akik egy kérdőíves kutatás számára elérhetőek, és emiatt vizsgálhatók, míg a másik csoportban olyanok vannak, akik nem elérhetőek, vagyis nem is vizsgálhatók. A teljes populációra becsült eloszlás a két csoporthoz tartozó eloszlások együttese, vagyis a megfigyelhető (M) és a nem-megfigyelhetőé (N): 3

(1-p)M+pN, ahol az 1-p paraméter jelöli a megfigyelhetőség szempontjából elérhető esetek arányát a populációban, p pedig a megfigyelhetőség szempontjából nem-elérhető esetek arányát. Ha a p értéke nulla, akkor sikerült a teljes populációból torzítatlanul mintát venni, és azt lekérdezni. A survey kutatásra vonatkoztatott elérhetőség és nem-elérhetőség dichotómiája helyett helyesebb alkalmazni azt a megközelítést, miszerint a populáció minden egyes egyedére kalkulálható egy survey kutatásban való részvételt becslő pontos valószínűség. Azokra, akikre ez a survey kutatásban való részvételre vonatkozó valószínűségi becslés nulla, azok a nemmegfigyelhetők csoportjába kerülnek. A nem-megfigyelhetők csoportjába tartozók esetében a teljes megfigyelési adatdokumentáció hiányzik, ez az úgynevezett Unit nonresponse. Az értekezés során modellezett imputálási módszerek során a fent bemutatott Mixture Model-t egy esetben tudjuk figyelembe venni, amikor mind a teljes populációról, mind az adatbázisban megfigyelhető eloszlásról (M), mind pedig a megfigyelhetőség szempontjából nem-elérhető esetek (p) arányáról rendelkezünk információval. Az adathiányok jellegzetességei Az MCAR adathiány-mechanizmus lényege, hogy az adathiány nem függ ellenőrző változóktól. Az adathiány feltehetően egy előre tervezett módszertani szempont miatt keletkezett. Az MAR adathiány-mechanizmus esetén egy változóban megfigyelhető adathiány más változók függvénye, azoktól függ, azaz azokkal statisztikai összefüggés mutatható ki. A NOTMAR adathiány-mechanizmus esetében egy adott változón belüli adathiány önmagának, a változónak a függvénye. Ebben az esetben, az adatmátrixban lévő változók összefüggése, illetve függetlensége az adathiányos változóval már nem releváns. 4

Az imputálási eljárások modellezése Az imputálási módszereket Laaksonen négy fő kategóriába osztotta (Laaksonen, 1999), amelyek közül az első nem egy szó szoros értemében vett imputálási eljárás, de mégis egyfajta adathiány kezelési módszer. 1. A CC és AC eljárások, ahol az adathiány értékeket nem imputálták. Az elemzés során az adathiányos eseteket általában kihagyják az elemzésből. Ha csak a teljes, komplett eseteket elemzik, az a Complete-Case analysis (CC), ha pedig csak az adott összefüggés, asszociáció vizsgálatára vonatkozóan hagyják figyelem kívül az adathiányos eseteket akkor az Available Cases analysis (AC) módszert alkalmazzák. 2. Deduktív vagy logikai imputálás, ahol egy ismert, jogosan létező adathiány miatt logikailag imputálhatók az adathiányos esetek. Ilyenre példa a kérdés válaszopcióihoz rendelt ugrás a kérdőív kérdéssorrendjében. Amikor egy kérdés egyes válaszait a következő kérdésben kifejtjük, az értelemszerűen adathiányként szerepel, ha az előző kérdésben olyan válaszopciót jelöltünk be, amelyre nem vonatkoznak bizonyos válaszok. 3. Az imputált adathiányok értékei egy modell eredményeként születnek, emiatt lehetséges, hogy a megfigyelt esetek között nincs az újonnan imputált értékhez hasonló, annak megfeleltethető érték. Ezt Laaksonen model-donor imputálásnak (model-donor imputation) nevezte. 4. Az imputálás alapjául a már megfigyelt esetek értékei szolgálnak, ez a valódi donor imputálás, (real-donor imputation). A harmadik csoport szerinti imputálás is valós értelmezési tartományból generál imputáló értékeket, de az az érték nem a már megfigyelt esetekből választott, tényleges megfigyelésen alapul, mint az a negyedik csoport esetében megfigyelhető. Az imputálási eljárások által kapott eredményeket először négy, logikailag különálló csoportban ábrázoljuk, majd a fenti Lepkowski-Kalton szempontok figyelembe vételével összesített táblázatokban kerülnek összehasonlításra. A négy logikai csoport a következő: 1. Az első csoportba került eljárások a legegyszerűbb megközelítések közé tartoznak, ezek a CC, AC, és a súlyozás. Ezek az esetek még nem imputálások, 5

de mégis a hiányzó adatok ismeretében végzett eljárásmódok (Laaksonen, 2000). A csoportban használt rövidítések: Complete Cases, vagyis a listwise deletion: CC Available Cases, vagyis a pairwise deletion: AC Súlyozás: W 2. Már az imputálási eljárások közé tartozik az átlag, medián, és a módusz behelyettesítésének technikája; ez a második csoport. A csoportban használt rövidítések: Átlag imputálás: MEAN Módusz imputálás: MODUS Medián imputálás: MEDIAN 3. A harmadik csoportba tartoznak azok az imputálási módszerek, amelyek az adathiányok helyére egy explicit modell alapján becsült értéket illesztenek. Ilyenek a regressziós imputálás, a reziduálisokkal bővített regressziós imputálás, a reziduálisokkal bővített regressziós imputáláson alapuló többszörös imputlálás (multiple imputation), és az elvárás maximalizáló (expectation-maximization) E.M. eljárás. A csoportban használt rövidítések: Regressziós imputálás: REG Reziduálisokkal bővített regressziós imputálás: REG+REZ Reziduálisokkal bővített regressziós imputáláson alapuló többszörös imputálás: MI. A REG+REZ tudja biztosítani azt a következetes, mégis random algoritmust, melyet egységesen tudunk alkalmazni az MI esetében. Itt a REG imputálás azért nem lenne hatékony, mert minden imputálási eljárásában ugyanaz lenne az adott becslés értéke. 6

EM algoritmus: EM. Ennek alapja a REG imputálás volt, az iterálási folyamat sikerét egy következetesen nem randomizált eljárással biztosítottuk. 4. A negyedik csoportba tartozik a valós, ténylegesen megfigyelt donorok adta imputálási módszer. Ez implicit modell. Ebben a csoportban használt rövidítés: Real donor hot deck imputálás: HOT DECK A különböző eljárások hatékonyságának összehasonlítása A modellezett imputálási eljárásokat 4 dimenzió mentén hasonlítjuk össze. 1. Először bemutatjuk az imputált változók viszonyát a magyarázó változókkal, 2. majd bemutatjuk a létrejött új változók és az eredeti változó eloszlásbeli különbségeit. 3. Ezt követően csak az imputált értékekre fordítjuk a figyelmet, megvizsgáljuk a kitörölt és a modellezés során a helyére imputált érték viszonyát, 4. végül egy scoring eljárással megpróbáljuk a számos különböző értékelő szempontot összefoglalni, és megnevezni a leghatékonyabbnak bizonyult imputálási eljárást. Összegezve az MCAR adathiány mechanizmus esetében a szofisztikált imputálási eljárásokat megállapíthatjuk, hogy nem minden eljárás vezet torzítatlan becslésekhez. A törölt esetek átlagát, illetve heterogenitását nem minden eljárás imputálta helyesen. MCAR adathiány-mechanizmus esetében a HOT DECK eljárás bizonyult a leghatékonyabb imputálásnak, ez az eljárás a törölt esetek eloszlásának mind az átlagát, mind a szórását jól becsülte. Végezetül egy összefoglaló ábrán igyekszünk illusztrálni, hogy az MCAR adathiánymechanizmus modellezése során milyen volt az eredeti eloszlás, mi volt az adathiányok jellegzetessége, és milyen eredményre jutottunk az imputálási eljárások egyik jól teljesítő algoritmusával. 7

Az MCAR adathiány-mechanizmus és az imputálások hatása az adatbázisra 45% 40% 35% 30% MCAR AC HOTDECK imputálás teljes megfigyelés 25% 20% 15% 10% 5% 0% 0 5 10 15 20 25 30 35 40 45 50 Jól látható, hogy az MCAR adathiány-mechanizmus nem jelentett igazán torzító tényezőt az eredetileg ismert változóra nézve, a HOT DECK imputálási eljárás pedig nagyon jól közelítette az eredeti eloszlást. Összegezve az MAR adathiány mechanizmus esetében a szofisztikált imputálási eljárásokat megállapíthatjuk, hogy nem minden eljárás vezet torzítatlan becslésekhez. A törölt értékek heterogenitását nem minden eljárás imputálta helyesen. Végezetül egy összefoglaló ábrán igyekszünk illusztrálni, hogy az MAR adathiánymechanizmus modellezés során milyen volt az eredeti eloszlás, mi volt az adathiányok jellegzetessége, és milyen eredményre jutottunk az imputálási eljárások egyik jól teljesítő algoritmusával. 8

Az MAR adathiány-mechanizmus és az imputálások hatása az adatbázisra 45% 40% 35% 30% MAR AC HOTDECK imputálás teljes megfigyelés 25% 20% 15% 10% 5% 0% Fidesz MSZP SZDSZ MIÉP egyéb párt nem menne el szavazni Jól látható, hogy az MAR adathiány-mechanizmus esetében az AC határozottan torz eloszlást mutat az eredetileg ismert változóhoz viszonyítva, a HOT DECK imputálási eljárás viszont ezt a torzítást nagyon jól korrigálta és az AC eloszlást az eredeti eloszlás irányába módosította. Ez természetesen annak köszönhető, hogy az MAR adathiány-mechanizmus esetében az adathiány az adatbázisban megfigyelhető változók függvénye, emiatt az adatbázisban lévő információtartalom segítségével az MAR adathiány-mechanizmusú adathiány sikeresen imputálható. A NOTMAR mechanizmusú adathiány esetében is egy összefoglaló ábrán igyekszünk illusztrálni, hogy ezen adathiány-mechanizmus modellezése során milyen volt az eredeti eloszlás, mi volt az adathiányok jellegzetessége, és milyen eredményre jutottunk az imputálási eljárások egyik jól teljesítő algoritmusával. 9

A NOTMAR adathiány-mechanizmus és az imputálások hatása az adatbázisra 500 000 Ft 450 000 Ft 400 000 Ft 350 000 Ft NOTMAR AC HOTDECK imputálás teljes, korrigált megfigyelés 300 000 Ft 250 000 Ft 200 000 Ft 150 000 Ft 100 000 Ft 50 000 Ft 0 Ft 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. A NOTMAR adathiány-mechanizmus esetében a megfigyelt esetek alkotta eloszlás nagymértékben alulbecsli a makro-statisztikák alapján feltételezhető eloszlást. A korrigálás és a HOT DECK imputálás együttese sem volt képes olyannyira módosítani az adatfelvétel eloszlását, hogy az jól becsülje a makro-statisztikák által valószínűsített eloszlást. Az imputálásokra nézve elmondható, hogy annak ellenére, hogy az adatbázis alkotta megfigyelhető esetek (M) adta becslés közelített a teljes populáció paramétereihez, nem volt képes olyan magas értékek imputálására, amelyek jelentős mértékben korrigálni tudták volna a megfigyelt mintát, ez a NOTMAR adathiány mechanizmus jellegzetessége. 10

Új eredmények I. tézis (publikáció: Máder 2005) Az adathiányok különböző okoknál fogva keletkeznek. Ha ezek random módon keletkeztek, akkor jelentős hatást nem gyakorolnak a megfigyelhető esetek eloszlására. Ha ezek mögött viszont szisztematikus okok állnak, akkor az adathiány mechanizmusa a megfigyelhető eseteket befolyásolja. A következtetéseink torzzá válnak. A torzítatlanságtól a torzítottság felé három szintet különböztethetünk meg, ezek a MCAR, az MAR és a NOTMAR mechanizmusok. Az imputálások hatékonysága különböző a három adathiány mechanizmus mentén. II. tézis (publikáció: Máder 2005) Az egyre növekvő mértékű adathiány egyre növekvő adathiány kezelési igényeket támaszt. Minél nagyobb mértékű az adathiány és minél inkább szisztematikus az adathiány mögött álló ok-rendszer annál nagyobb a megfigyelhető esetek torzítottsága. A megfigyelt esetek adta becslések egyre torzulnak. III. tézis (publikáció: Máder 2004) Kiegészítettem az Oravecz Beatrix által definiált adathiány mintázatok 5 legjellemzőbb típusát egy, az adathiányos változók mögötti szociológiai magyarázat bevezetésével. Az MAR adathiány-mechanizmus esetében kimutattam, hogy bizonyos adathiányok szorosan együtt járhatnak, egységes adathiány mintázatot vesznek fel, és a mögöttük álló válaszadói magatartás és attitűd nevesíthető. IV. tézis (publikáció: Máder 2005) Az imputálási eljárások csökkentik a hiányos adatbázisok által adott becslések torzítottságát. Az MAR és a NOTMAR adathiány mechanizmusok esetében az adathiánnyal rendelkező adatbázisokból adott becslések torzak. Léteznek viszont olyan szofisztikált imputálási eljárások, melyek az adathiányos esetek átlagát, illetve 11

heterogenitását jól imputálják. A különböző adathiány mechanizmusok esetében a HOT DECK eljárás bizonyult a leghatékonyabb imputálásnak, ez az eljárás a törölt esetek eloszlásának mind az átlagát, mind a szórását jól becsülte. V. tézis (publikáció: Máder 2005) Az imputálási módszereket Laaksonen négy fő kategóriába osztotta (Laaksonen, 1999). Megmutattam, hogy a model-donor imputálások és a donor imputálások a hatékonyak, a naiv megközelítések elégtelen eredményre vezetnek. VI. tézis (A disszertációban az 5.2. fejezet.) Az imputálási eljárásnak alapja lehet explicit függvény, implicit függvény vagy ezen függvények keveréke. Az implicit modellek olyan függvények, amelyek a megfigyelt, ismert, az adatbázisban megtalálható elemeket használják fel. Az explicit modellek pedig az implicit modellekhez hasonlóan az adatbázisban megtalálható elemeket, információkat használják fel a becslési algoritmushoz, de azokból csak a becslés modelljét készítik el. Az imputálni szándékozott értéket pedig ezen becslési algoritmus alapján extrapolálják. A közöttük lévő különbségek: magas mérési szintű és MCAR adathiány mechanizmusú imputálandó változó esetében a implicit modellek hatékonyabbak, mint az explicit eljárások alacsony mérési szintű és MAR adathiány mechanizmusú imputálandó változó esetében viszont az explicit modellek voltak hatékonyabbak, mert az adathiánnyal való összefüggések orientálták ezeket az eljárásokat 12

VII. tézis (A disszertációban a 8.5. fejezet.) A REG regressziós becslésének természetes velejárója, hogy az eredeti tartományon túlmutathat, azaz az AC értelmezési tartományának területén kívüli extrém értékeket is adhat. Ennek az extrapolációnak a következménye, hogy az extrém értékek visszakódolódhatnak az AC eloszlás elvi minimumára illetve maximumára. Az explicit modellek extrém értékeinek hatása explicit modell imputálási értékei explicit modell visszaillesztése az értelemzési tartományba VIII. tézis (A disszertációban a 10.1. fejezet.) A NOTMAR adathiány-mechanizmusának korrigálása alapvetően három lépcsőben történik, az első lépésben más, független adatfelvételek eredményeit kell begyűjteni, hogy információt kapjunk a torzulás mértékéről és jellegzetességeiről (1), a második lépésben egy deflációs függvényt kell előállítani a változó torzulásának kijavítására (2), majd végül ezen a korrigált adatbázison kell az adathiányos értékeket imputálni. 13

Publikációk a disszertáció témakörében Máder Miklós Péter (2005) Imputálási eljárások hatékonysága In: Statisztikai Szemle 83. évfolyam, 7. szám, 628-644. oldal Máder Miklós Péter (2004) Adathiány mintázatok az életeseményekre adott válaszok között In: UISZ II. évfolyam 4. szám Máder Miklós Péter: A szülőktől való elszakadási dimenziók mentén létrejött alcsoportok In: UISZ 25. szám 14

A disszertáció tartalomjegyzéke I. Bevezetés.... Hiba! A könyvjelző nem létezik. Hiányos adatbázisok kezelésének módszerei.... 2 Az adathiány probléma bemutatása néhány példán keresztül... Hiba! A könyvjelző nem létezik. II. A hipotézis.... Hiba! A könyvjelző nem létezik. 2.1 Az adathiány torzító hatása... Hiba! A könyvjelző nem létezik. III. Az adathiányok típusai.... Hiba! A könyvjelző nem létezik. 3.1 Teljes nemválaszolás... Hiba! A könyvjelző nem létezik. 3.2 Item nemválaszolás... Hiba! A könyvjelző nem létezik. 3.3 Adathiány mintázat... Hiba! A könyvjelző nem létezik. 3.4 Adathiány-mechanizmusok.... Hiba! A könyvjelző nem létezik. 3.4.1 MCAR... Hiba! A könyvjelző nem létezik. 3.4.1.1 Példa az MCAR-ra... Hiba! A könyvjelző nem létezik. 3.4.2 MAR adathiány... Hiba! A könyvjelző nem létezik. 3.4.2.1 Példa az MAR-re... Hiba! A könyvjelző nem létezik. 3.4.3 NOTMAR adathiány... Hiba! A könyvjelző nem létezik. 3.4.3.1 Példa a NOTMAR-ra... Hiba! A könyvjelző nem létezik. IV Az adathiány kezelése... Hiba! A könyvjelző nem létezik. 4.1 CC elemzés... Hiba! A könyvjelző nem létezik. 4.2 AC elemzés... Hiba! A könyvjelző nem létezik. 4.3 Feltételhez nem kötött átlag imputálás.... Hiba! A könyvjelző nem létezik. 4.4 A random imputálások... Hiba! A könyvjelző nem létezik. 4.5. Összetettebb megközelítések... Hiba! A könyvjelző nem létezik. 4.5.1 A teljes nemválaszolás (Unit nonresponse) súlyozással való módosítása.... Hiba! A könyvjelző nem létezik. 4.5.2 PES... Hiba! A könyvjelző nem létezik. V. Az imputálások... Hiba! A könyvjelző nem létezik. 5.1 Az imputálások fontosabb alkotóelemei... Hiba! A könyvjelző nem létezik. 5.2 Implicit versus explicit modellek.... Hiba! A könyvjelző nem létezik. 5.3 Az imputálás elhagyható és nem elhagyható adathiány-mechanizmus modelljei Hiba! A könyvjelző nem létezik. VI. Az összetett imputálási eljárások... Hiba! A könyvjelző nem létezik. 6.1 A többszörös imputálás... Hiba! A könyvjelző nem létezik. 6.2 Az EM algoritmus... Hiba! A könyvjelző nem létezik. VII. Az összehasonlító eljárás módszertana... Hiba! A könyvjelző nem létezik. 7.1 A Mixture Model... Hiba! A könyvjelző nem létezik. 7.2 Az adathiány modellezés során használt adatbázisok és adatok.... Hiba! A könyvjelző nem létezik. 7.3 Az összehasonlítás módszere... Hiba! A könyvjelző nem létezik. VIII. Az MCAR adathiány-mechanizmus modellezése... Hiba! A könyvjelző nem létezik. 8.1 Imputálási eljárások modellezése 5%-os MCAR adathiány-mechanizmussal rendelkező adatbázison... Hiba! A könyvjelző nem létezik. 8.1.1 Első csoport CC, AC, W... Hiba! A könyvjelző nem létezik. 8.1.2 Második csoport - MEAN, MEDIAN, MODUS... Hiba! A könyvjelző nem létezik. 15

8.1.3 A harmadik csoport a REG, REG+REZ, MI és az EM.... Hiba! A könyvjelző nem létezik. 8.1.4 A negyedik csoport: a HOT DECK.... Hiba! A könyvjelző nem létezik. 8.2 Az 5%-os MCAR adathiány-mechanizmussal rendelkező adatbázison történt imputálási eljárások összehasonlítása... Hiba! A könyvjelző nem létezik. 8.3 Imputálási eljárások modellezése 20%-os MCAR adathiány-mechanizmussal rendelkező adatbázison... Hiba! A könyvjelző nem létezik. 8.3.1 Első csoport CC, AC, W... Hiba! A könyvjelző nem létezik. 8.3.2 Második csoport - MEAN, MEDIAN, MODUS... Hiba! A könyvjelző nem létezik. 8.3.3 A harmadik csoport a REG, REG+REZ, MI és az EM.... Hiba! A könyvjelző nem létezik. 8.3.4 A negyedik csoport: a HOT DECK.... Hiba! A könyvjelző nem létezik. 8.4 A 20%-os MCAR adathiány-mechanizmussal rendelkező adatbázison történt imputálási eljárások összehasonlítása... Hiba! A könyvjelző nem létezik. 8.5 Az imputálási eljárások hatékonyságának összefoglalása MCAR adathiánymechanizmus esetén... Hiba! A könyvjelző nem létezik. IX. MAR adathiány-mechanizmus modellezése... Hiba! A könyvjelző nem létezik. 9.1 Imputálási eljárások modellezése 5%-os MAR adathiány-mechanizmussal rendelkező adatbázison... Hiba! A könyvjelző nem létezik. 9.1.1 Első csoport CC, AC, W... Hiba! A könyvjelző nem létezik. 9.1.2 Második csoport - MODUS... Hiba! A könyvjelző nem létezik. 9.1.3 A harmadik csoport a REG, MI és az EM.... Hiba! A könyvjelző nem létezik. 9.1.4 A negyedik csoport: a HOT DECK.... Hiba! A könyvjelző nem létezik. 9.2 Az 5%-os MAR adathiány-mechanizmussal rendelkező adatbázison történt imputálási eljárások összehasonlítása... Hiba! A könyvjelző nem létezik. 9.3 Imputálási eljárások modellezése 20%-os MAR adathiány-mechanizmussal rendelkező adatbázison... Hiba! A könyvjelző nem létezik. 9.3.1 Első csoport CC, AC, W... Hiba! A könyvjelző nem létezik. 9.3.2 Második csoport - MODUS... Hiba! A könyvjelző nem létezik. 9.3.3 A harmadik csoport: REG, MI és az EM.... Hiba! A könyvjelző nem létezik. 9.3.4 A negyedik csoport: a HOT DECK.... Hiba! A könyvjelző nem létezik. 9.4 A 20%-os MAR adathiány-mechanizmussal rendelkező adatbázison történt imputálási eljárások összehasonlítása... Hiba! A könyvjelző nem létezik. 9.5 Az imputálási eljárások hatékonyságának összefoglalása MAR adathiány-mechanizmus esetén... Hiba! A könyvjelző nem létezik. X. NOTMAR adathiány-mechanizmus modellezése.... Hiba! A könyvjelző nem létezik. 10.1 A NOTMAR adathiány és adattorzulás mechanizmusának korrigálása.... Hiba! A könyvjelző nem létezik. 10.1.1 A jövedelembecslésének érvényességét vizsgáló makrostatisztikai adatok.hiba! A könyvjelző nem létezik. 10.1.2 A jövedelem eloszlására vonatkozó korrigáló függvény. Hiba! A könyvjelző nem létezik. 10.2 Imputálási eljárások modellezése 20%-os NOTMAR adathiány-mechanizmussal rendelkező adatbázison... Hiba! A könyvjelző nem létezik. 10.2.1 Első csoport CC, AC, W... Hiba! A könyvjelző nem létezik. 10.2.2 Második csoport - MEAN, MEDIAN, MODUS. Hiba! A könyvjelző nem létezik. 10.2.3 A harmadik csoport: REG, REG+REZ, MI és az EM.... Hiba! A könyvjelző nem létezik. 16

10.2.4 A negyedik csoport a HOT DECK.... Hiba! A könyvjelző nem létezik. 10.3 A 20%-os NOTMAR adathiány-mechanizmussal rendelkező adatbázison történt imputálási eljárások összehasonlítása... Hiba! A könyvjelző nem létezik. 10.4 A NOTMAR adathiány-mechanizmus imputálási eredményeinek összefoglalása.hiba! A könyvjelző nem létezik. XI. Következtetések.... Hiba! A könyvjelző nem létezik. Ajánlások... Hiba! A könyvjelző nem létezik. Irodalomjegyzék... Hiba! A könyvjelző nem létezik. A témakörrel kapcsolatos saját publikációk jegyzéke... Hiba! A könyvjelző nem létezik. 17