Tnulmányok Adtcserével nonimizált mikrodtok hsználhtóság Egy szimulációs vizsgált tnulsági* Brtus Tmás PhD, Budpesti Corvinus Egyetem docense E-mil: tms.brtus@unicorvinus.hu A tnulmány áttekinti z dtok felfedés elleni védelmét szolgáló eljárások sttisztiki következményeit, és részletesen elemzi z dtcsere kovrinci- és regressziós becslésekre gykorolt htását. Amellett érvel, hogy z dtcsere kitüntetett szerepet tölt be felfedés elleni védelem során. Az dtcsere különböző módszereinek kovrinci- és regressziós becslésekre gykorolt htását szimulációvl vizsgálj. E vizsgáltok eredménye szerint z esetek többségében z dtcseréből fkdó reltív torzítás mértéke 10 százlék ltt trthtó. A torzítást egyrészt donorok véletlenszerű kiválsztás, másrészt z dtcsere (mgyrázó-) változók közötti megosztás minimlizálj. Az eredményeket mérési hibák elméletére támszkodv értelmezi. TÁRGYSZÓ: Mikrodtok. Adtcsere. Anonimizálás. * A tnulmány z Új Mgyrország Fejlesztési Terv Társdlmi Megújulás Opertív Progrm támogtási rendszeréhez benyújtott Munkerő-pici előrejelzések készítése, szerkezetváltási folymtok előrejelzése című TÁMOP-2.3.2-09/1-2009-0001 kiemelt projekt keretében készült. Köszönettel trtozom Dróczi Gergőnek lelkiismeretes sszisztensi munkájáért. Szintén köszönet illeti Cseres-Gergely Zsombort kuttást segítő megjegyzéseiért, vlmint zért, hogy rendelkezésemre bocsátott KSH munkerő-felvétel 2011. I. negyedéves nonimizált dtit. A tnulmány korábbi változtát A mikrodtok hozzáférésével és z dtok felfedés elleni védelmével kpcsoltos kérdésekről (Budpest, 2012. november 6.) szervezett műhelykonferencián prezentáltm. Hsznos észrevételeikért köszönettel trtozom KSH Módszertni főosztály munktársink: elsősorbn Szép Ktlinnk és Vereczkei Zoltánnk, vlmint Antl Lászlónk, Dobány Máténk és Ngy Beátánk.
466 Brtus Tmás A sttisztiki törvény és nnk végrehjtási rendelete z dtszolgálttó beleegyezéséhez kötötte z ún. egyedi, zz z dtszolgálttóvl kpcsoltb hozhtó dtok továbbdását. 1 A jogszbályok mitt z dtgzdák például Központi Sttisztiki Hivtl (KSH) z dtokt csk nonimizálás után dhtják tovább. Az dtszolgálttók védelmére számos eljárást dolgoztk ki (Hundepool et l. [2010]); ezekről mgyrul is tájékozódhtnk z érdeklődők (Bánszegi [1997], Erdei Horváth [2004], Szép Gdácsi [2010]). A htásos dtvédelem zonbn korlátozz felhsználók érdekeit (Boudreu [2005]), sőt kár ellehetetlenítheti fontos kérdések empirikus kuttását. Kuttói szempontból nem z dtvédelem htásosság, hnem z nonimizált dtok hsználhtóság fő kérdés; z, hogy milyen mértékben veszélyezteti htásos dtvédelem z dtokból levont következtetések érvényességét. Ezzel kérdéssel hzi szkirodlom mindeddig lig fogllkozott. Tnulmányunk ezért z nonimizálásból fkdó torzítássl fogllkozik. A célunk ennél konkrétbb: felfedés elleni védelem egyik eljárásánk, z dtcserének kovrinci- és regressziós becslésekre gykorolt torzító htását vizsgáljuk. Az dtcserére több okból esett válsztás. Egyrészt z nomimizálási eljárások vgy technikák célj z, hogy ne lehessen z dtszolgálttóvl kpcsoltb hozni z dtbázisokbn tlálhtó információkt. Az dtszolgálttókt ún. kvázizonosítók segítségével lehet zonosítni: ezek olyn könnyen megfigyelt változók (például lkóhely, nem, korcsoport, gyerekszám), melyek együttesen lklmsk megfigyelt egyén felfedésére. Az dtcsere pont ktegorikus változók védelmére szolgál. Másrészt hogy nemsokár látni fogjuk felhsználók szemszögéből z dtcsere számos kedvező tuljdonsággl rendelkezik. A többváltozós regresszió-elemzés során bekövetkező torzításokt zért érdemes vizsgálni, mert z lpkuttások és htásvizsgáltok tlán legfontosbb dtelemzési módszere. Hbár z dtvédelmi technikákt áttekintő publikációkbn (Domingo-Ferrer Torr [2001], [2001b]; Hundepool et l. [2010]) számos, z információveszteséget mérő áltlános mérőszámot tlálhtunk, regressziós együtthtók torzulásávl kpcsoltos konkrét eredmények hiányoznk. 2 A szkirodlom tárgylt egyes technikák vrinci- és kovrincibecslésekre gykorolt htását, sőt zt is, hogyn lehet nonimizált állományokból torzíttln vrinci- és kovrincibecsléseket végezni (Kim [1990], Gouweleeuw et l. [1998]). Kérdéses zonbn, hogy z eredmények kiterjeszthetők többváltozós becslések kontextusár. 1 Lásd z 1993. évi XLV. I. törvény 17. prgrfusát, vlmint 170/1993. (XII. 3.) Korm. rendelet 16. prgrfusát. A hzi jogszbályok célj egybeesik például z meriki gykorlttl; lásd Sullivn [1992]. 2 A regresszióelemzés iránti érdektelenség vlószínűleg zzl mgyrázhtó, hogy z dtvédelem hivtlos sttisztik része, sttisztiki hivtlok munktársink feldt pedig nem regresszióelemzés, hnem átlgok és szórások publikálás, illetve becslése.
Adtcserével nonimizált mikrodtok szimulációs vizsgált 467 A tnulmány újdonság szimulációs módszer hsznált. A többváltozós modellek legkisebb négyzeteken lpuló becslése ugynis mgyrázóváltozók vrinci-, kovrincimátrix inverzének és függő és mgyrázó változók kovrincimátrixánk (pontosbbn vektoránk) szorzt. A mátrixlgebr mitt nehezen láthtó át, milyen mértékben torzulnk becslések, h z nonimizálás mitt módosul egyes mgyrázóváltozók vrinciáj vgy kovrinciáj. A problém hsonló hhoz, mikor mérési hib folytán egy dott változó szórás nő, és ezáltl z összes változó együtthtójánk regressziós becslése módosul (Mddl [2004]). Ez nehézség indokolj szimulációs módszer hsználtát. A szimulációs módszert eddig mikroggregálás regressziós becslésekre gykorolt htásink elemzésére hsználták (Liu Little [2003]; Lenz et l. [2006]; Schmid Schneeweiss [2005], [2007], [2008]). A tnulmány felépítése következő. Először áttekintjük mikrodtok nonimizálásár széleskörűen hsznált eljárásokt és ezek átlg-, szórás- és kovrincibecslésekre gykorolt htásit. Mivel z dtvédelmi szbályok kvázizonosítók nonimizálásár ösztönöznek, kvázizonosítók mint például településkód, fogllkozás kódj pedig gykrn ktegorikus változók, z dtvédelem egyik legfontosbb technikájánk z dtcserének kell lennie. A második rész z dtcsere technikáit, illetve z dtcserével kpcsoltos eredményeket elemzi. Bemuttjuk, hogy z dtcsere kovrincibecslésekre gykorolt htás mérési hibák foglmi keretén belül értelmezhető. Ez z eredmény zért fontos, mert mérési hibák többváltozós regressziós becslésekre gykorolt htás nlitikusn nehezen kezelhető (Mddl [2004]), z esetleges torzítások vizsgált ezért szimulációr váró tém. A hrmdik rész szimulációs vizsgált módszerét és z eredményeket értelmezi. A szimulációhoz KSH munkerő-felvételének 2011. első negyedéves (nonimizált) dtit hsználjuk. A regressziós becslésekkel kpcsoltos vizsgáltok során egy olyn kuttó helyzetét vizsgáljuk, ki lkóhely-zonosítót is trtlmzó dtbázist szeretné hsználni, de dtvédelmi okok mitt z dtgzd csk kkor bocsátj ezt rendelkezésre, h z zonosításhoz szükséges egyéb változókt módosítják. A szimuláció során különböző feltevéseket foglmzunk meg zzl kpcsoltbn, hogy kik zok, kik védelemre szorulnk, és milyen változók módosításávl grntálhtó z nonimitás. A tnulmány végén z eredményeket mintvételi és mérési hibák elméletére támszkodv értelmezzük. 1. Mikrodtok nonimizálásánk sttisztiki következményei A felfedés elleni védelem különösen hzi jogszbályok fényében legegyszerűbb módj kvázizonosítók vissztrtás (törlése) vgy átkódolás. Ezek
468 Brtus Tmás technikák nem torzítják, hnem lehetetlenné tesznek bizonyos becsléseket, továbbá jelentősen korlátozzák z dtbázis hsználhtóságát. Ebben szkszbn áttekintjük z ennél kevésbé korlátozó, de z dtok módosításávl járó technikák sttisztiki következményeit. Konkrétn zt vizsgáljuk, befolyásolják-e z egyes eljárások z nonimizált zz vlmilyen dtvédelmi technikávl módosított változók átlgát, szórását és más változókkl számolt kovrinciáját. 3 Ezek sttisztikák lkotják z dtelemzés során leggykrbbn hsznált eljárások például regresszióelemzés, fktorelemzés inputjit. Az eljárások logikájávl, lpjivl fogllkozunk, és figyelmen kívül hgyjuk z egyes eljárásokon belüli további techniki változtokt, melyek célj z dtvédelem htásosságánk fokozás. A fejezetben tlálhtó képletek zt feltételezik, hogy felfedés elleni technikákt teljes dtbázison, nem pedig nnk vlmelyik részmintáján hsználják. 1.1. Adthiány-generálás Az eljárás során z egyik kvázizonosító változó értékét mgs felfedési kockáztú egyéneknél dthiányr kódoljuk át, úgy, hogy többi kvázizonosító már ne tegye lehetővé z zonosítást. A módszer kifinomultbb változt nnk brutális megoldásnk, mikor z egész esetet törlik z dtbázisból. A módszer nyilvánvló hátrány z elemzéshez hsználhtó mintngyság csökkentése és z nonimizált változó átlgánk torzulás. H z n elemű mintábn k = pn megfigyelésnél töröljük z x változó értékét, kkor z nonimizált x változó átlg x = x px 1 p lesz, hol x k x átlg törléssel védett részmintábn, p pedig z nonimizált megfigyelések reltív gykoriság. A képlet súlyozott átlgbecslésekre is érvényes. H súlyok normlizáltk, zz súlyok összege zonos mintngysággl, kkor z egyenletben p prmétert törölt megfigyelésekhez trtozó súlyok összegének és mintngyság hánydosként kell értelmezni zz: 1 p = n w, ( k ) k 3 A tnulmánybn rendszeresen hsználjuk változó nonimizálás, vlmint z nonimizált változó terminusokt. Az előbbi változó dtvédelmi okok mitt végzett módosítás, z utóbbi z dtvédelmi megfontolások mitt módosított változó kifejezést rövidíti.
Adtcserével nonimizált mikrodtok szimulációs vizsgált 469 hol w i z i esethez trtozó súly, w pedig súlyok összege. A képlet világosn muttj, hogy z átlgbecslés kkor torzul, h kis mintából kiugró értéket törlünk. A 0 1 kódolású indikátorváltozóknál még egyszerűbb képlet. H törlésre csk z x = 1 értékekénél kerül sor, x k = 1 és z nonimizált indikátorváltozó súlyoztln átlg Az nonimizálás okozt torzítás x p x =. 1 p p x x = ( x 1), 1 p tehát nnál ngyobb, minél ngyobb p és minél ngyobb változó átlg. Az nonimizált indikátorváltozó szórásnégyzete: x p Vr x = Vr 2 ( x). x ( 1 p) H p értéke null, z nonimizált változó és nnk vrinciáj zonos z eredetivel. Mivel vrinci sosem lehet negtív, p x. Mivel x indikátorváltozó, z egyenlőtlenség zt triviális feltételt foglmzz meg, hogy z nonimizált esetek rány nem hldhtj meg z x = 1 esetek rányát. A p növekedésével tehát z nonimizált változó vrinciáj csökken; z nonimizálás elkopttj z eredeti változó vrinciáját. Szintén torzulht z nonimizált indikátorváltozó egy tetszőleges másik változóvl vett kovrinciáj. H z dtvédelem z dtbázis 100 p százlékár terjed ki, és ismét csk x = 1 esetekre, kkor z nonimizált indikátorváltozó és tetszőleges nonimizáltln y változó kovrinciáj: (, ) ( p) ( 1 )( 1 0) ( p) Cov x y p x y y Cov( x, y) =, 2 2 1 1 hol 1 y és 0 y y átlg z nonimizáltln dtbázisbn z 1, x = illetve 0 x = csoportokbn. A kovrincibecslés torzulás nyilvánvlón p és szóbn forgó csoportátlgok közti különbség függvénye.
470 Brtus Tmás Az dthiány-generálásnál tehát egyszerű képletet kptunk rr, milyen mértékben torzulnk z átlg- és vrincibecslések. A kovrincibecslések torzulásár kpott képlet viszont bonyolultbb. 1.2. Adtcsere Az dtcsere (dt swpping) során felfedési kockáztot jelentősen növelő változó (vgy változók) értékeit cseréljük fel egyes megfigyelések között (Dlenius Reiss [1982]). Képzeljük el, hogy egy dtbázisbn mgs flusi egészségügyi dolgozók és városi mezőgzdsági dolgozók felfedési kockázt. A felfedési kockázt csökkenthető, h k számú flusi egészségügyi dolgozó fogllkozását mezőgzdsági dolgozór, és ezzel párhuzmosn szintén k számú városi mezőgzdsági dolgozó fogllkozását egészségügyi dolgozór módosítjuk zz fogllkozási dtokt kicseréljük. Legyen δ xij = 1, h z x változó értékét z i és j-edik megfigyelések között kicseréljük; különben δ xij = 0. Az dtcsere formális definíciój következő (Boudreu [2005]): i xij i xij j x = 1 δ x +δ x, j xij j xij i x = 1 δ x +δ x. A formális definíció meglepő módon semmilyen információt nem trtlmz z i és j egyének felfedési kockáztáról. Az dtcsere céljánk figyelembe vétele mellett triviális, hogy két egyén közül z egyik de csk z egyik könnyen felfedhető. Az dtcsere nem módosítj z átlgot és szórást, de nem őrzi meg feltétlenül z együttes eloszlásokt. Példánkbn fogllkozás cseréje után mind településtípus, mind pedig fogllkozás peremeloszlás változtln mrd ugynkkor megváltozik fogllkozás és településtípus együttes eloszlás, hiszen csere révén csökken flusi egészségügyiek és városi mezőgzdságik szám (és értelemszerűen nő flusi mezőgzdsági és városi egészségügyi dolgozók szám). A problém megoldásár Dlenius és Reiss [1982] zt jvsolt, hogy z dtcserét további megfigyelések bevonásávl kell folyttni, mindddig, míg helyreáll többdimenziós eloszlás. A sikerre zonbn nincs grnci; rádásul z újbb és újbb cserék megtlálás roppnt időigényes. A gykorltbn is könnyen megvlósíthtó dtcsere ezért csk peremeloszlásokt őrzi meg tökéletesen z együttes eloszlásokt viszont csk közelítőleg (Reiss [1984]). Ilyen könnyen kivitelezhető technik például z, mikor z
Adtcserével nonimizált mikrodtok szimulációs vizsgált 471 dtcserébe bevont esetek kicserélt változóktól eltérő más változók szempontjából hsonlítnk egymásr (Shlomo Tudor Groom [2010]). Az együttes eloszlás változásánk két következménye vn. Egyrészt torzulnk súlyozott becslések, hiszen z dtcsere nem terjed ki súlyváltozókr. H z x j és x k értékeket cseréljük ki, kkor z nonimizált és z eredeti változók súlyozott átlgink különbsége ( ) + ( ) wi w x x w x x j k j k j k /1/ lesz, hol w i z i-edik megfigyeléshez rendelt súly. A súlyozott becslésekre vontkozó képletek rendkívül bonyolultk (Boudreu [2005]). A másik következmény: torzulnk (súlyoztln) kovrinciák. Tegyük fel, hogy z dtcsere pn megfigyeléspárt érint. Az x változón végrehjtott dtcsere következményeit tekintve zonos z y változón végzett dtcserével. Jelölje y 01 és y 10 zokt z y értékeket, melyeknél z x indikátorváltozót nulláról egyesre, illetve egyesről nullár cserélték. Az dtcsere egyetlen htás: x és y szorztösszegét y 01 összeggel növeljük és y10 összeggel csökkentjük. Ez lpján z dtcseréből fkdó torzítás [ 10 01] Cov x, y Cov x, y = p y y. /2/ H y várhtó értéke z x = 1 csoportbn mgsbb, és z nonimizált megfigyelések mint véletlenszerűen kiválsztott mintáj, kkor y10 > y01 és így /2/ egyenlet jobb oldlán szereplő különbség negtív. Ennek ellentéte igz, h y várhtó értéke z x = 0 csoportbn mgsbb. Az dtcsere tehát csökkenti, kopttj kovrinci bszolút értékét. A kopás mértéke nnál ngyobb, minél több megfigyelésre terjed ki z dtcsere. Mivel tetszőleges x indikátorváltozó és tetszőleges y változó kovrinciáj x vrinciájánk és y1 y 0 különbség szorzt, z nonimizált x indikátorváltozó és y kovrinciáj következő formár hozhtó: p y10 y 01 Cov( x, y) = Cov( x, y) 1. Vr ( x) y1 y0 A jobb oldlon szögletes zárójelben szereplő mennyiséget érdemes külön jelöléssel ellátni:
472 Brtus Tmás Qx Q x ( y) p y10 y01 = 1. /3/ Vr x y y 1 0 H z dtcsere véletlenszerű és teljesül z y 10 y 01 = y 1 y 0 egyenlőség, y még egyszerűbben írhtó fel: Q x ( y) p = 1. /4/ Vr x A képlet üzenete világos: z dtcserével védett megfigyelések növekedésével egyre ngyobb mértékben torzul kovrinci. A torzulás mértéke zonbn z dtcserével érintett változó vrinciájától is függ. H z dtgzd nyilvánosságr hozz p együtthtó értékét, felhsználó (, ) Cov ( x, y) Cov x y = Q /5/ x ( y) képlettel becsülheti z nonimizáltln állománybn érvényes kovrinciát. 1.3. Utólgos rndomizálás Az utólgos rndomizálás (post-rndomiztion PRAM) z dtcsere kifinomultbb változt: ez eljárás során dott változó értékeit egy előre meghtározott eloszlás szerint véletlenszerűen módosítják (Kooimn Willenborg Gouweleeuw [1997], Gouweleeuw et l. 1998). A módszert rndomizált válszok technikáj (Srndl Swensson Wretmn [1982]) inspirált. Diszkrét, 0 és 1 értékeket felvevő változó esetén módszer zt írj elő, hogy nullákt dott 0 1 θ vlószínűséggel 1-re, z egyeseket dott ( 1 θ 1 ) vlószínűséggel nullákr cseréljük. Többértékű változókr áltlánosítv: z dtcserét irányító vlószínűség-eloszlást egy k k dimenziójú P (perturbációs) mátrix definiálj, melynek ij-edik eleme nnk vlószínűségét dj meg, hogy változó i-edik értéke kicserélődik j-edik értékre. Az dtok cseréje tehát nem védelemre szoruló egyént, hnem véletlenszerűen kiválsztott egyéneket érinti. H ezt tényt z dtgzd nyilvánosságr hozz, rosszindultú felhsználó nem lehet biztos bbn, hogy egy dott flu álltorvos tényleg flusi álltorvos hiszen lehetséges, hogy z utólgos rndomizálás pont egy flusi mezőgzdsági segédmunkás fogllkozását cserélte fel egy városi álltorvos fogllkozásár.
Adtcserével nonimizált mikrodtok szimulációs vizsgált 473 Az utólgos rndomizálás után módosul mnipulált változó átlg és szórás. Az utólg rndomizált kétértékű változó átlg szórásnégyzete pedig x Vr x x = θ +θ 1 + 1 θ, /6/ 0 1 0 2 ( 0 1 1 ) Vr ( x) = θ +θ /7/ lesz (Gouweleeuw et l. [1998]). Az utólgos rndomizálás tehát torzíthtj z átlgot és vrinciát. Az átlgok és szórások zonbn nonimizált állományokból is becsülhetők mrdnk feltéve, hogy z dtgzd nyilvánosságr hozz rndomizálás során hsznált P perturbációs mátrixot. H θ prméterek ismertek felhsználók számár, /6/ /7/ egyenletek lpján korrigált átlgbecslés korrigált vrincibecslés pedig x ( 1 θ0 ) ( 1) xˆ =, /8/ θ +θ 0 1 Vr ( x ) Vr x = θ +θ /9/ 2 0 1 1 (Gouweleeuw et l. [1998]). A becslés természetesen csk kkor lehetséges, h θ 0 és θ 1 összege nem zonos eggyel. H például úgy döntünk, hogy diszkrét változó zérusit 5 százlékos eséllyel cseréljük egyre, kkor ezzel párhuzmosn nem dönthetünk úgy, hogy z egyes értékeket 95 százlékos eséllyel cseréjük nullákr. A felhsználók érdekei kkor sérülnek legkevésbé, h z utólgos rndomizálás z esetszámr zonos (Bycroft Merrett [2005] 126. old.). A P perturbációs mátrix elemeit ekkor úgy válsztjuk ki, hogy z nonimizált és z eredeti változó átlgi zonosk legyenek. Például kétértékű változók esetén kkor esetszámr zonos z utólgos rndomizálás, h teljesül z lábbi egyenlőség: 1 x θ 1 = 1 + ( θ 0 1). x Indikátorváltozóknál z esetszámr zonos utólgos rndomizálás nem torzítj z átlgok és szórások becslését, viszont /2/ egyenlet mitt torzíthtj kovrincibecsléseket, illetve súlyozott átlgbecsléseket.
474 Brtus Tmás 1.4. Mikroggregálás A mikroggregálásnk számos techniki változt létezik (Mteo-Snz Domingo- Ferrer [1998], Schmid Schneeweiss [2005]). Az eljárás logikáj mégis egyszerű. Első lépésben z dtokt védelemre kiszemelt változó vgy egy másik változó szerint sorb rendezzük. Ezután megfigyeléseket előre rögzített k vgy z eljárás során vlmilyen sttisztiki eljárássl megállpított változó ngyságú csoportokb soroljuk. Az egyéni megfigyeléseket végül szóbn forgó csoportátlgokkl helyettesítjük, melyeket rendezés mitt egymáshoz hsonló dtokból számolunk ki, z nominizált és vlós értékek eltérése kicsi is lehet. Ez felveti zt kérdést, vjon htásosn védi-e mikroggregálás személyes dtokt. Azonbn sorbrendezés nélküli csoportképzés sem grntálj utomtikusn htásos védelmet: előfordulht, hogy egy csoportspecifikus értékösszeget egyetlen megfigyelés dominál. 4 Az eljárás nyilvánvlón változtlnul hgyj változó átlgát és csökkenti vrinciát: szórásnégyzet-felbontás közismert képlete lpján z nonimizált változó vrinciáj belső szórásnégyzettel, zz ktegóriákon belüli szórásnégyzetek összegével lesz kisebb z eredeti változó vrinciájánál. Az ggregálást megelőző sorbrendezés célj z, hogy szórás csökkenése minimális legyen. A szórásbecslések mellett z eljárás kovrincibecsléseket is torzíthtj. H z eljárás során j drb k elemű ggregátumot lkítnk ki, kkor torzítás zz z nonimizált és z nonimizáltln állományokon számolt kovrinciák különbsége ki ( ki k ) K Cov x, y Cov x, y = y x x. ( j) ( i= 1) H z egyes mikroggregátumokon belül zonos lenne megfigyelések csoportátlgoktól vló eltérése, torzulás mértéke mikroggregátumok méretének növekvő függvénye. A kovrinciák és vrinciák módosulás mitt regressziós becslések is torzulnk torzítás konkrét mértékét számos szimulációs vizsgáltbn elemezték (Liu Little [2003]; Lenz et l. [2006]; Schmid Schneeweiss [2005], [2007], [2008]). 1.5. Zjosítás Az eljárás lényege: z egyedi vgy ritk dtokhoz egy véletlen zjt zz 0 átlgú, előre meghtározott szórássl rendelkező ε véletlen számot dunk. A zjosítás 4 A problém ugynz, mint z ggregált dtoknál ismert dominnciproblém: dtvédelmi szempontból ggályos olyn értékösszegek publikálás, melyeknél z értékösszeget két dtszolgálttó dominálj, és ezért ők z értékösszeg ismeretében többé-kevésbé pontos becslést dhtnk másik domináns dtszolgálttó értékére.
Adtcserével nonimizált mikrodtok szimulációs vizsgált 475 nem torzítj z átlgot, viszont torzítj vrinci- és kovrincibecsléseket (Brnd [2002]). A zj véletlenszerűsége mitt z nonimizált változó vrinciáj zj vrinciájávl hldj meg z nonimizáltln változó vrinciáját: = + ( ε ). Vr x Vr x Vr H zj független z dtbázisbn szereplő változóktól, kkor zjosított változó más változókkl vett kovrinciáj várhtón változtln mrd. H viszont zjosítás mindkét változór kiterjed, zjosított változók kovrinciáj z eredeti kovrinci és zj vrinciájánk z összege feltéve, hogy zjok szórás megegyezik. A zjosítási eljárás dokumentálás és zj vrinciájánk publikálás lehetővé teszi torzíttln becsléseket (Kim [1990], Brnd [2002]). A zj vrinciájánk ismeretében felhsználó Vr ( x) Vr ( x ) Vr képlettel becsülheti z eredeti változó vrinciáját és = ε /10/ Cov( yx) Cov( y, x ) Vr = ε /11/ képlettel zjosított változók kovrinciáját (Kim [1990]). A /10/ /11/ képletekkel természetesen korrelációs együtthtó is becsülhető. Mivel számítógépekkel szó szoros értelemben vett véletlenszámokt nem lehet létrehozni, egy konkrét mintábn zj kismértékben korrelálht zjosíttln változóvl, így /10/ /11/ egyenleten lpuló becslések torzíthtnk. E techniki tökéletlenségből fkdó esetleges torzítások minimlizálhtók szisztemtikus zjosítássl (Evns Zytz Slt [1996]). 5 Az információveszteség zzl is csökkenthető, h eljárást csk felfedhető egyének részmintáján hsználják (Fgn Greenberg [1988]). A zjosítás z utólgos rndomizáláshoz hsonlón tehát rendelkezik zzl kedvező tuljdonsággl, hogy z eljárás prmétereinek konkrétn zj vrinciájánk ismeretében felhsználó torzíttln becslést tegyen, még kkor is, h z eredeti helyett csk zjosított dtbázist hsználhtj. 5 Az eljárás lényege, hogy z dtbázist először zjosításr váró változó szerint sorb rendezzük. Ezután felváltv dunk pozitív és negtív zjt megfigyelésekhez. A pozitív és negtív értékeket két külön eloszlásból vesszük, melyek várhtó értékei szimmetrikusk, szórásik pedig zonosk. Például: pozitív értékeket generáló eloszlás átlg 1, szórás 0,2; negtív értékeket generáló eloszlás átlg 1, szórás szintén 0,2. H szórás z átlg bszolút értékéhez képest kicsi, kkor normális eloszlás tuljdonsági mitt csk ngyon ritkán fordulht elő, hogy pozitív (illetve negtív) eloszlás szándékoktól eltérően negtív (illetve pozitív) zjt generál.
476 Brtus Tmás 1.6. Kerekítés Az eljárás során z dott változót előre meghtározott szbályok szerint kerekítik, hogy pontos értékek vissztrtásávl z lnyok zonosítás nehezebbé, illetve lehetetlenné válik (Fischetti [1998]). A kerekítés során nem feltétlenül egész számr, de százsokr, ezresekre vgy kár tízezresekre történő kerekítés is előfordulht, mennyiben z dtok érzékenysége zt kívánj, illetve kerekítő lgoritmus meghtározott eloszlásnk megfelelően véletlen számokkl is dolgozht (Shlomo [2005]). A kerekítés felfoghtó zjosítás inverzének: védelemre szoruló változó olyn, minth z nonimizált változóhoz hozzádnánk egy véletlen számot, zjt. Persze ez zj nem normális, hnem egyenletes eloszlást követ [ h, + h] intervllumon, hol h z nonimizált változó ngyságrendjének fele. Az ezresekre kerekítés például nnk z eljárásnk z inverze, hogy z ezresekre kerekített számokhoz [ 500,500] intervllumból véletlenszerűen kiválsztott számot dunk. H ez z nlógi helyes, zjosításból fkdó torzításokt definiáló képletek kerekítésből dódó torzításokt is leírják feltéve, hogy z nonimizált és z nonimizáltln változókt felcseréljük z egyes képletekben. Az nonimizált változó és zj vrinciáink ismeretében z nonimizáltln változó vrinciájánk becslőfüggvénye h = +, 3 Vr ( x) Vr ( x ) korrelációs együtthtó becslőfüggvénye pedig Vr ( x ) ρ = Vr ( x ) + h 2 2 r 2 hol r korrelációs együtthtó z nomizált dtbázisbn. A képletekben szereplő h 2 3 hánydos [ h, h] vrinciáj. 3 2, + intervllumon értelmezett egyenletes eloszlású változó 1.7. Újr-mintvételezés Az újr-mintvételezés (resmpling) során módosítndó változó eredeti értékei szerint sorb rendezzük z dtbázist, mjd változóból lmintákt hozunk létre bootstrp vgy jckknife eljárássl. Az lmintákt szintén sorb rendezzük, mjd hozzáfűzzük z eredeti dtbázishoz. Az nonimizált és nyilvánosságr hozhtó változó z lmintákból számolt átlg lesz.
Adtcserével nonimizált mikrodtok szimulációs vizsgált 477 A bootstrp eljárás során n elemű mintából újbb n elemű, előre meghtározott ( mi számítógépes kpcitásokhoz mérten áltlábn mgs, minimum 10 000) számú lmintát generálunk vissztevéses, véletlen mintvétel segítségével. Az nonimizált változó értéke z iedik megfigyelésnél i x = S xis s= 1 lesz, hol S z lminták szám, s z lmint sorszám, x is pedig z i-edik megfigyelés z s lmintábn. Mindegyik lmintábn igz z, hogy x értékei olyn sorrendben követik egymást, mint z eredeti dtbázisbn. (H tehát x eredeti értékeit növekvő sorrendbe állítjuk, kkor ugynezt kell tenni mindegyik lmintábn is.) A bootstrp eljárás nem zárj ki nnk lehetőségét, hogy egy dott lmintáb ugynz z érték többször is bekerül, míg más értékek egyáltlán nem kerülnek be. Sőt, elvileg z is előfordulht igz, elenyészően kis vlószínűséggel 6, hogy egy dott lmint kizárólg egyetlen esetet trtlmzz n duplikátumbn. E problém kezelésére lklms jckknife eljárás. Ennek során z n elemű mintánkból n számú, n 1 elemszámú lmintát generálunk, minden egyes lmint esetében egy tg elhgyásávl. Az elhgyott elem lehet minden esetben más és más vgy véletlenszerűen kiválsztott. A hgyományos jcknife z nonimizálás során nem hsználhtó további megkötések nélkül, hiszen minden egyes lmintábn lesz 1 pótlólgos dthiány. H sttisztiki szoftver z dthiányt végtelenként értelmezi, kkor z dthiány mindig növekvő sorrendbe rendezett lminták utolsó megfigyeléséhez trtozik, tehát z utolsó megfigyelésnél dthiányt generálnánk. E problém elvi megoldás z lehet, h vlmilyen technikávl úgy rendezzük növekvő sorrendbe z lmintákt, hogy z dthiány egy véletlenszerűen kiválsztott sorb kerüljön. S 1.8. Összegzés Ebben részben áttekintjük, milyen mértékben torzítják z nonimizálási eljárások súlyozott, illetve súlyoztln átlg-, szórás- és kovrincibecsléseket. Az átlgbecsléseket z eljárások döntő többsége torzíttlnul hgyj. A vrincibecslések torzíttlnságát már csk z dtcsere és z esetszámr zonos utólgos rndomizálás grntálj. A mikroggregálás okozt torzítás elvileg kismértékű, zjosítássl és z esetszámr nem zonos utólgos rndomizálás védett állományokból pedig torzíttlnul becsülhető vrinci, h z dtgzd publikálj z nonimizálási eljárás releváns prmétereit. A kovrincibecsléseket szinte mind- 6 A szóbn forgó vlószínűség n n.
478 Brtus Tmás egyik módszer torzítj, ám itt is érvényes z, hogy z dtvédelem során hsznált releváns prméter (vgy prméterek) publikálás lehetővé teszi felhsználók számár becslések korrigálását. Az áttekintett nonimizálási módszerek közül kiemelt szerepet játszik z dtcsere. Egyrészt z dtcsere során hsznált prméterek publikálás lehetővé teszi felhsználók számár torzíttln becsléseket. Másrészt z dtgzdák tipikus célj legtöbbször ktegorikus kvázizonosítók (például településkódok) nonimizálás, ktegorikus változók kifinomult védelmére pedig csk z dtcsere vlmint nnk továbbfejlesztett változt, z utólgos rndomizálás lklms. Végül: elvileg semmi kdály, hogy dtcserével folytonos változókt is nonimizáljunk míg folytonos változók védelmére kidolgozott technikák ktegorikus változókr történő lklmzás nem mgától értődő. 7 Érdemes ezért z 1.2. lfejezetben bemuttott dtcserét és nnk sttisztiki következményeit lposbbn szemügyre venni. 2. Az dtcsere sttisztiki következményei: további eredmények Ebben fejezetben egyrészt mérési hibák elméletének kontextusáb helyezzük z dtcsere sttisztiki következményeire vontkozó eredményeinket. Másrészt zt vizsgáljuk, hogy szóbn forgó eredmények robusztusk mrdnk-e, h z dtcsere nem teljesen véletlenszerű. 2.1. Az dtcsere okozt torzítás mint mérési hib Az előző lfejezetben láttuk, hogy z dtcsere torzítj kovrinciákt: torzítás mértéke pedig p y10 y01 Qx ( y) = 1 Vr x y y 1 0 mennyiség függvénye. Mivel z egyváltozós regressziós becslés egy kovrinci és egy vrinci hánydos, z nonimizált állományból számolt egyváltozós becslés z nonimizáltln állományból számolt becslés és Qx ( y ) szorzt. Ez z eredmény ngyon hsonlít rr, mely mérési hibák regressziós becslésekre gykorolt htásá- 7 Nem világos például, hogy kedvező tuljdonságokkl rendelkező zjosítást hogyn lehetne ktegorikus változókr lklmzni, hiszen ekkor zj normális eloszlásár vontkozó feltevést módosítni kell. A mikroggregálás és kerekítés ktegorikus nlógiáj z átkódolás, melynek sttisztiki következményeit nehéz elemezni.
Adtcserével nonimizált mikrodtok szimulációs vizsgált 479 r vontkozik. Képzeljük el, hogy x nem dtcserével nonimizált, hnem u mérési hibávl mért változó! A mérési hibák becslésekre gykorolt htás ismert (Fuller [1987], Mddl [2004]): mérési hib elkopttj regressziós együtthtó bszolút ngyságát, mivel ( ) β= Cov y, x ˆ Cov x, y Vr x Rx. Vr x = Vr x + Vr u =β Vr x + Vr u =β R x z nonimizált változó megbízhtósági együtthtój. A /12/ és z /5/ egyenlet hsonlóság lpján Q mennyiséget érdemes reltív megbízhtósági együtthtónk nevezni. A reltív jelző rr utl, hogy Q értéke függ ttól változótól, mivel kovrinciát számolunk. A megbízhtósági együtthtó terminus lklmzás indokolt, mert z dtcsere következményeit tekintve mérési hib: hhoz hsonlón kopttj regressziós becsléseket. Az dtcserével nonimizált változó reltív megbízhtóság nnál ngyobb, minél ngyobb z nonimizálásr váró változó szórás és minél kisebb z dtcserével érintett megfigyelések rány. Sőt, regresszióelemzés kontextusábn z dtcsere olyn eljárásnk tekinthető, minth mgyrázóváltozót u mérési hibávl mérnénk, fiktív mérési hib vrinciáj pedig z R= Q zonosság lpján: Vr u pvr x =. Vr x p Ahhoz, hogy Q is normlizált legyen és fiktív mérési hib vrinciáj ne lehessen negtív, z indikátorváltozó vrinciájánk kisebbnek kell lennie p prméternél, zz teljesülnie kell p x ( x) 2 egyenlőtlenségnek. H például z indikátorváltozó eloszlás szimmetrikus, zz z egyesek és nullák szám zonos, kkor z dtcsere elvileg teljes mintár is kiterjedhet, megfigyeléspárok reltív gykoriság tehát 1/2, mégis z egyenlőtlenség ennek felét szbj meg korlátként. /12/ 2.2. Adtcsere-technikák és torzítás várhtó mértéke Az dtcsere kovrincibecsléseket torzító htás Q x ( y) p y y = 1 Vr x y y 10 01 1 0
480 Brtus Tmás mennyiség függvénye. Az egyszerű kifejtés kedvéért mindeddig zt feltételeztük, hogy csereprtnereket véletlenszerűen válsztjuk ki és teljesül z y y = y y /13/ 10 01 1 0 egyenlőség. A gykorltbn zonbn ez feltevés nem teljesül szükségszerűen. Egyrészt véletlenszerű kiválsztás nyilvánvlón nem grntálj, hogy /13/ egyenlet minden mintábn teljesül. A pontosság elérésének egyik eszköze rétegzés lehet. H rétegképző ismérvek korrelálnk z y változóvl, és dtcserére z dott rétegeken belül kerül sor, kkor ngy mintákbn és tömeges mértékű dtcserénél /13/ egyenletnek teljesülnie kell. A rétegzésnek viszont z mellékkövetkezménye, hogy egy dott rétegen belül z dtcsere kevés megfigyelésre terjedhet ki, z esetszám csökkenése viszont veszélyezteti /13/ egyenlőség fennállását. A rétegzés módszerét Shlomo Tudor Groom [2010] hsználták, és célzott dtcserének (trgeted dt-swpping) nevezték. A nem véletlenszerűség szándékosn is előidézhető. Az egyik z irányítottság bbn z értelemben, hogy z x = 1 megfigyeléseket z x = 0 megfigyelések egyik részhlmzából válsztjuk ki. Képzeljük el, hogy szükség vn legmgsbb iskoli végzettség nonimizálásár, mert egyes diplomások más ismérvekkel együtt bezonosíthtók. Tegyük fel, hogy diplomásokt hozzájuk leginkább hsonló érettségizettekkel krjuk felcserélni. Ebben z esetben z x indikátorváltozó diplomásokt zonosítj, z x = 0 feltétel nem diplomásokt jelöli. Az dtcsere zonbn nem terjedhet ki z x = 0 hlmz minden elemére csk zokr, kik érettségizettek. H kuttás során vizsgált y változó korrelál z iskoli végzettséggel, kkor y átlg mgsbb z érettségizettek körében, mint z összes nem diplomás körében. Emitt y01 > y0 és ezért y10 y01 < y1 y0, feltéve, hogy y 10 > y 1. Ebben példábn diplomásokt hozzájuk y szempontból leginkább hsonló nem diplomásokr cseréltük. A hsonló megfigyeléseket célzó irányított dtcsere növeli Q megbízhtósági együtthtót. 3. Szimulációs vizsgáltok Az dtcsere kovrincibecslésekre gykorolt htás /13/ egyenletben megfoglmzott feltevés mellett ismert. Nem világos zonbn, hogy z eredmények kiterjeszthetők többváltozós becslések kontextusár. A többváltozós modellek legkisebb négyzeteken lpuló becslése ugynis mgyrázóváltozók vrincikovrincimátrix inverzének és függő és mgyrázóváltozók kovrincimátrixánk (pontosbbn vektoránk) szorzt. A mátrixlgebr mitt nehezen láth-
Adtcserével nonimizált mikrodtok szimulációs vizsgált 481 tó át, milyen mértékben torzulnk becslések, h például z egyik mgyrázóváltozó vrinciáj z dtvédelem mitt megnő. A problém hsonló hhoz, mikor mérési hib folytán egy dott változó szórás nő, és ezáltl z összes változó együtthtójánk regressziós becslése módosul (Mddl [2004]). Az nlitikus eredmények hiány vgy értelmezési nehézségei indokolják szimulációs módszerek hsználtát. Az nonimizálási eljárások sttisztiki következményeinek szimulációs vizsgált bevett gykorlt. A regressziós becslésekre gykorolt htások vizsgált zonbn eddig főleg mikroggregálásr korlátozódott (Liu Little [2003]; Lenz et l. [2006]; Schmid Schneeweiss [2005], [2007], [2008]). Tekintsük z egyszerű y = β 0 +β 1x1 +β 2x2 +ε többváltozós modellt. H z dtbázis nem szorul védelemre, z együtthtókt z lábbi képletekkel számoljuk ki: Vr ( x ) Vr ( x ) ( x1x 2) Cov yx Cov yx Cov x x Vr x1 1 2 β 1 = 2 Cov 1 Vr x Vr x 1 2 1 2 1 2 Vr ( x ) Vr ( x ) ( x1x2) Cov yx Cov yx Cov x x Vr x2 1 2 β 2 = 2 Cov 1 Vr x Vr x 2 1 1 2 1 2 H viszont z első mgyrázóváltozót dtcserével védik, z nonimizált állománybn értelmezett,. 0 1 1 2 2 y = β +β x +β x +ε modell becsléséhez z lábbi becslőfüggvényeket kell hsználni: ( x ) Vr( x ) Vr( x ) Cov ( x1x2) Cov yx Cov yx Cov x x 2 1 1 2 Q1 y Q1 x2 Vr x2 1 2 1 2 β ˆ =, /14/ 1 Q 1 2 Vr x Vr x 1 2
482 Brtus Tmás Vr ( x ) Vr ( x ) Cov ( x1x 2) ( x ) Vr ( x ) Vr ( x ) Cov yx Cov yx Cov x x 2 1 1 2 Q1 y Q1 x2 Vr x2 1 2 2 2 β ˆ =. 1 Q 1 2 1 2 Az nonimizálás mindkét együtthtót érinti, tehát z nonimálás áltl nem érintett változó együtthtój is torzul. A torzítás irányát és ngyságát nehéz előre jelezni: hiáb ismerjük z egyes Q értékeket, torzítás ngyság többi kovrinci és vrinci ngyságától is függ. A nehézség nlóg zzl problémávl, hogy mérési hibákból fkdó torzításokt is nehéz vontkozó képletek lpján előre jelezni (Mddl [2004]). A tnulmány hátrlevő részében ezért szimulációs módszerrel vizsgáljuk z nlitikusn nem előre jelezhető torzítások mértékét. 8 3.1. Adtok és módszerek A szimulációs vizsgálttl egy olyn kuttó helyzetébe képzeljük mgunkt, ki rr kíváncsi, milyen mértékben befolyásolj z iskoli végzettség és településtípus munkerő-pici ktivitást és kereseteket. A kuttó egy olyn ngymintás felméréshez szeretne hozzáférni, mely e változók mellett munkerő-pici siker lterntív okiról például z életkorról, háztrtásbn élő gyermekek számáról és nemről is trtlmz információkt. Az nonimizáltln dtokhoz vló hozzáférés zonbn lehetetlen feldtunk nnk vizsgált, mennyiben torzítj z dtcserével végzett dtvédelem kuttó becslési eredményeit. A szimulációhoz KSH munkerő-felvétel 2011. első negyedéves dtit hsználjuk. Az dtbázis vlójábn már nonimizált; jelen kuttás keretében zonbn úgy teszünk, minth z nonimizáltln dtbázis lenne birtokunkbn. (Az nonimizáltln dtbázishoz nem férhettünk hozzá.) Az dtbázis 47 162 egyénről trtlmz dtokt; közülük 23 783 dolgozott megkérdezés idején. Az iskolázottságot három indikátorváltozóvl mérjük: szkmunkás végzettség (ISK 2 ), érettségi (ISK 3 ) és diplom (ISK 4 ). A településtípus (TELTIP) ktegorikus változó, melynek definíciój: 1 = Budpest, 2 = megyei jogú város, 3 = egyéb város és 4 = község. Az egyéb város helyett továbbikbn kisváros elnevezést hsználjuk. A nem olyn indikátorváltozó, melynek 1-es értékei férfikr vontkoznk. Hsználni fogjuk 8 Az eredményeket z utólgos rndomizálásr is érvényesnek tekintjük. Egy szimulációs vizsgált kontextusábn z dtcsere és z utólgos rndomizálás ekvivlens. A gykorltbn e két technik csk bbn tér el, hogy z előbbinél tudtosn, z utóbbinál véletlenszerűen dől el, melyik megfigyeléssel cserélünk fel egy dott megfigyelést. Szimulációs vizsgáltokbn zonbn csk véletlenszerű cserék léteznek, tudtosn kiválsztott cserék nem.
Adtcserével nonimizált mikrodtok szimulációs vizsgált 483 gyermekek jelenléte indikátorváltozót is, melynek értéke kkor 1, h vn háztrtásbn 0 6 éves gyermek. A munkerő-felvételben nincsenek bérdtok. Pótlásként szimulált jövedelemváltozót hozunk létre rendelkezésre álló változókr támszkodv. A szimulált logritmus jövedelem definíciój: log kereset = 9,67+ 0,1ISK2 + 0,2ISK3 + 0,6 ISK4 0,1( TELTIP 1) + 2 + 0,5 KOR 0,0002KOR + 0,2 NEM + e, hol e stndrd normális eloszlást követő véletlen szám. Az együtthtókt Kertesi Köllő [2001] eredményei inspirálták (lásd z idézett tnulmány F2. tábláztát). A reziduum szórás egységnyi, determinációs együtthtó (R 2 ) értéke így durván 25 százlék. A fiktív kuttó célj tehát egyrészt logritmus jövedelem, másrészt munkerőpici ktivitás modellezése, előrejelzése. A kuttó zonbn csk z nonimizált dtbázishoz férhet hozzá. Szimulációs vizsgáltunk lényege: szimulált jövedelmet is trtlmzó munkerő-felvétel dtbázist nonimizáltlnnk tekintjük, képzeletbeli felhsználónk pedig különböző eljárásokkl nonimizált állományokt bocsátunk rendelkezésre. Ezután zt vizsgáljuk, milyen mértékben térnek el z nonimizált állományokból becsült eredmények z nonimizáltln(nk trtott) állományokbn becsült (vlós) eredményektől. Az nonimizálásr 16 eljárást dolgoztunk ki. Mindegyik eljárásbn közös z feltételezés, hogy z nonimizáltln(nk tekintett) állománybn diplomás flusi megkérdezettek egy része felfedhető nnk ellenére, hogy z dtbázis már nem trtlmz olyn kvázizonosítókt, mint például település neve vgy kódj, fogllkozás neve vgy kódj. Az egyes eljárások három dimenzióbn térnek el. 1. A diplomás flusik védelmét vgy csk z iskoli végzettség, vgy csk lkóhely, vgy mindkét ismérv együttes, vgy két ismérv megosztott nonimizálásávl oldjuk meg. Az utóbbi zt jelenti, hogy z zonosíthtónk tekintett egyének véletlenszerűen kiválsztott felénél diplomás végzettséget, másik felénél flusi lkóhely változót nonimizáljuk. 2. A donorokt egyszerű véletlen vgy rétegzett kiválsztássl válszthtjuk ki. A rétegzett kiválsztásnál dtcserére csk rétegeken belül kerülhet sor. A rétegeket nem és korcsoport kombinációi definiálják. 9 9 A korcsoportváltozónk 5 ktegóriáj vn, melyek rendre 16 25, 26 35, 36 45, 46 55 és 56 65 éves egyéneket zonosítják. A rétegek szám tehát 2 5 = 10.
484 Brtus Tmás 3. A donorok kár egyszerű, kár rétegzett kiválsztás lehet irányíttln vgy irányított: irányíttln kiválsztásnál bárki lehet donor, ki nem diplomás (illetve nem flusi), míg z irányított kiválsztásnál csk diplomásokr, illetve flusikr leginkább hsonlító egyének tehát z érettségizettek, illetve kisvárosokbn lkók lehetnek donorok. Mindegyik módszernél zt feltételeztük, hogy flusi diplomások (ISK 4 = 1 és TELTIP = 4) p százlék felfedhető. A szimuláció során p 10, 25 és 50 értékeket vette fel. A munkerő-felvétel mintájábn z ktív megkérdezettek durván 6 százlék flusi diplomás. A három értékkel tehát olyn helyeztet modellezünk, mikor egy dtbázisbn megfigyelések rendre 0,6, 1,5 és 3 százlék fedhető fel. A kísérletet 16 módszer és p prméter mindegyik kombinációjánál ezer lklomml ismételtük meg. A 16 módszer és p prméter értékei áltl definiált nonimizált dtbázisokbn különböző becsléseket végzünk, és ezeket összehsonlítjuk z nonimizáltln(nk tekintett) állománybn végzett becsléssel. Az összehsonlításokt reltív torzítás formájábn prezentáljuk. Egy dott s sttisztik reltív torzítását következőképpen számoljuk ki. Adott módszer és p prméter mellett z nonimizáltln (vgy nnk tekintett) dtbázist egy dott eljárássl R lklomml nonimizáljuk (vizsgáltinkbn R = 1000). Az r-edik replikációbn sttisztik értéke s r. Az nonimizáltln állománybn sttisztik értéke S. A reltív torzítás képlete: s RS r r= 1 reltív torzítás 100. = R s RS /15/ H /13/ képletben megfoglmzott feltétel teljesül, kovrincibecslések reltív torzítás /2/ képlet lpján: βˆ β = β p. Vr x /16/ A reltív torzítás tehát egyenesen rányos z dtcserével védett megfigyelések rányávl. A /14/ egyenlet bonyolultság mitt többváltozós regressziós becslések reltív torzítását /16/ egyenlet segítségével sem lehet előre jelezni. 3.2. Eredmények A kovrincibecslések torzulási. A képzeletbeli kuttó célj jövedelmekben és munkerő-pici ktivitásbn mérhető egyenlőtlenségek elemzése. Mivel több-
Adtcserével nonimizált mikrodtok szimulációs vizsgált 485 változós regressziós becslések kovrinciák és vrinciák függvényei, érdemes először kovrincibecslések reltív torzításit elemezni. Az 1. és 2. táblázt egyrészt diplomás iskoli végzettség és szimulált logritmus jövedelem, másrészt diplomás végzettség és flusi lkóhely indikátorváltozók kovrinciáink reltív torzításit muttj. A diplomás indikátorváltozó és szimulált logritmus jövedelem kovrinciájánk reltív torzulási 1. táblázt Adtcsere módszere p = 10 százlék p = 25 százlék p = 50 százlék Átlg Szórás Átlg Szórás Átlg Szórás Iskoli végzettség nonimizálás: véletlenszerűen kiválsztott donorokkl 1,600 0,906 4,000 1,365 8,192 1,799 donorokkl 1,924 1,016 4,764 1,469 9,622 1,902 rétegzéssel kiválsztott donorokkl 2,142 0,770 5,413 1,159 11,043 1,596 rétegzéssel kiválsztott közeli donorokkl 2,089 0,889 4,991 1,341 10,188 1,703 Településtípus nonimizálás: 0 0 0 0 0 0 Iskoli végzettség és településtípus együttes nonimizálás: véletlenszerűen kiválsztott donorokkl 1,598 0,892 4,035 1,385 8,227 1,831 donorokkl 1,916 1,022 4,748 1,521 9,476 1,863 rétegzéssel kiválsztott donorokkl 2,138 0,764 5,407 1,210 10,970 1,610 rétegzéssel kiválsztott közeli donorokkl 2,081 0,871 5,045 1,299 10,168 1,580 Iskoli végzettség és településtípus megosztott nonimizálás: véletlenszerűen kiválsztott donorokkl 0,829 0,647 1,963 1,026 3,979 1,343 donorokkl 0,941 0,726 2,445 1,092 4,775 1,528 rétegzéssel kiválsztott donorokkl 1,060 0,562 2,693 0,866 5,354 1,204 rétegzéssel kiválsztott közeli donorokkl 1,051 0,617 2,488 0,942 5,130 1,273 Megjegyzés. A kovrinci vlós ngyság 0,08. A településtípus nonimizálás nem torzítj vizsgált kovrinciát.
486 Brtus Tmás 2. táblázt A diplomás indikátorváltozó és flusi településtípus indikátorváltozó kovrinciájánk reltív torzítási Adtcsere módszere p = 10 százlék p = 25 százlék p = 50 százlék Átlg Szórás Átlg Szórás Átlg Szórás Iskoli végzettség nonimizálás: véletlenszerűen kiválsztott donorokkl 8,224 0,807 20,672 1,256 41,921 1,819 donorokkl 11,731 0,770 29,212 1,177 58,391 1,676 rétegzéssel kiválsztott donorokkl 8,110 0,797 20,366 1,271 41,472 1,786 rétegzéssel kiválsztott közeli donorokkl 11,724 0,787 29,222 1,254 58,614 1,724 Településtípus nonimizálás: véletlenszerűen kiválsztott donorokkl 8,219 0,810 20,661 1,266 41,915 1,715 donorokkl 15,600 0,684 38,818 1,011 77,630 1,408 rétegzéssel kiválsztott donorokkl 8,091 0,795 20,365 1,284 41,368 1,725 rétegzéssel kiválsztott közeli donorokkl 15,236 0,666 37,990 1,056 75,870 1,401 Iskoli végzettség és településtípus együttes nonimizálás: véletlenszerűen kiválsztott donorokkl 7,505 0,951 18,475 1,479 36,024 2,148 donorokkl 7,438 1,031 18,044 1,569 34,800 2,159 rétegzéssel kiválsztott donorokkl 7,344 0,948 18,161 1,542 35,216 2,097 rétegzéssel kiválsztott közeli donorokkl 7,157 1,044 17,292 1,612 32,834 2,163 Iskoli végzettség és településtípus megosztott nonimizálás: véletlenszerűen kiválsztott donorokkl 8,141 0,791 20,371 1,264 40,957 1,777 donorokkl 13,591 0,738 33,829 1,119 67,208 1,587 rétegzéssel kiválsztott donorokkl 8,044 0,810 20,206 1,271 40,392 1,775 rétegzéssel kiválsztott közeli donorokkl 13,439 0,755 33,426 1,166 66,286 1,576 Megjegyzés. A kovrinci vlós ngyság 0,031. Az eredmények megfelelnek nnk várkozásnk, miszerint torzítás mértéke egyenesen rányos z nonimizált megfigyeléspárok (p) rányávl (lásd /16/ egyenletet). Durván két és félszer kkor torzításokt tpsztlunk p = 25 oszlopokbn, mint p = 10 oszlopokbn, és kétszer kkor torzítást p = 50 oszlopokbn, mint p = 25 oszlopokbn. A 2. tábláztbn lényegesen ngyobb torzításokt tpsztlunk, mint z 1. tábláztbn. A szimulált logritmus jövedelem és diplom kovrinciájánk torzítását ngyon lcsonyn lehet trtni, h z nonimizált megfigyeléspárok rány 10 vgy 25 százlék. Vegyük ezután szemügyre, hogy z dtcsere melyik módszere minimlizálj kovrincibecslések torzítását. A szimulált logritmus jövedelem és diplomás in-
Adtcserével nonimizált mikrodtok szimulációs vizsgált 487 dikátorváltozó kovrinciájánk torzítását véletlenszerű és irányíttln kiválsztás minimlizálj donorok kiválsztásánk négy módszere közül. Tlán meglepő, de sem rétegzés, sem z irányítás zz donorok hlmzánk szűkítése és közeli donorok kiválsztás nem jvít z eredményeken. A munkerő-felvételhez hsonló állományokbn donorok kiválsztáskor tehát érdemes véletlenre hgytkozni, és nem érdemes sem tudtos szűkítéssel, sem rétegzéssel donorok kiválsztásáb bevtkozni. A torzítások legkisebb mértékben rétegzett kiválsztásnál szóródnk, de szórások között jóvl kisebb különbség, mint z átlgos torzítások között. A flusi településtípus és diplomás indikátorváltozó kovrinciájánk torzítását ezzel szemben rétegzett kiválsztás minimlizálj. A véletlenszerű és rétegzett kiválsztás közötti különbség zonbn elenyésző mértékű, és jóvl kisebb nnál, mit jövedelem és diplomás végzettség kovrinciájánk z elemzésekor tláltunk. Tehát továbbr is fenntrthtó z következtetés, hogy donorok kiválsztáskor rétegzésnek nincs hozzádott értéke. Egyváltozós lineáris regressziós becslések torzulási. Képzeletbeli kuttónk egyik fő célj (szimulált) jövedelmi különbségek elemzése. Kuttását diplomások és érettségizettek, illetve kisvárosik és flusik közötti jövedelmi különbségek leírásávl kezdi. Az egyváltozós regressziós becslésekben bekövetkező reltív torzításokt 3. és 4. tábláztok muttják. A torzítás mértéke ismét egyenesen rányos p prméterrel. A legfontosbb eredmény z, hogy z dtvédelembe bevont megfigyeléspárok rányától függetlenül mindig tlálhtó olyn eljárás, mely reltív torzítást 10 százlék ltt trtj. Az dtok lpján torzítás kkor minimális, h z dtcserét megosztjuk z iskoli végzettség és településtípus között, donorokt pedig véletlenszerűen válsztjuk ki. Tehát sem rétegzés, sem z irányítás zz donorok hlmzánk szűkítése és közeli donorok kiválsztás nem jvít z eredményeken. Egyik eredmény sem meglepő. A megosztott dtcsere sikere nnk tuljdoníthtó, hogy egy dott változónál z dtcserében részt vevő megfigyelések és ezáltl p prméter effektív ngyság felére csökken. A véletlenszerű és irányíttln kiválsztás sikere pedig nnk tudhtó, hogy z egyváltozós regressziós becslések kovrinciák és vrinciák hánydosi, z dtcsere pedig csk z előbbit torzítj. Többváltozós lineáris regressziós becslések torzulási. Képzeletbeli kuttónk tudj, hogy z egyváltozós regressziós együtthtók torzn mérik z oksági htásokt, ezért z egyváltozós elemzések után olyn többváltozós lineáris regressziós modellt becsül, melynek mgyrázóváltozói: z iskoli végzettséget mérő három indikátorváltozó, településtípust mérő három indikátorváltozó, nem, z életkor és nnk négyzete. Az iskolázottságnál és településtípusnál z lpfokú végzettség, illetve Budpest referenciktegóri. A kuttó rr kíváncsi, mennyivel hldj meg diplomások ceteris pribus keresete z érettségizettét, illetve mennyivel hldj meg kisvárosik (zz nem megyei jogú városok) lkóink ceteris pribus keresete flusik keresetét. A többváltozós regressziós becslések reltív torzításit z 5. és 6. tábláztok muttják.
488 Brtus Tmás Az egyváltozós becslések elemzésekor zt tláltuk, hogy 1. torzítást véletlenszerű dtcsere minimlizálj, 2. h lehet, érdemes flusi diplomások védelmét megosztott dtcserével biztosítni, és 3. torzítás mértéke még viszonylg tömeges dtcsere esetén is 10 százlék ltt trthtó. A többváltozós együtthtók reltív torzításir e következtetések közül csk z első illik mrdéktlnul: most is donorok véletlenszerű és irányíttln kiválsztás legjobb módszer. A 2. következtetés most csk diplomások kereseti előnyére vontkozó becslésekre igz kisvárosik kereseti előnyére vontkozó becslések torzulásit ezzel szemben z együttes nonimizálás minimlizálj. Végül: többváltozós együtthtók ngyobb mértékben torzulnk, mint z egyváltozós együtthtók. Diplomások és érettségizettek közti nyers bérkülönbség reltív torzítás 3. táblázt Adtcsere módszere p = 10 százlék p = 25 százlék p = 50 százlék Átlg Szórás Átlg Szórás Átlg Szórás Iskoli végzettség nonimizálás: véletlenszerűen kiválsztott donorokkl 1,686 0,926 4,174 1,483 8,306 1,931 donorokkl 2,590 1,318 6,378 2,018 12,720 2,559 rétegzéssel kiválsztott donorokkl 2,158 0,849 5,377 1,278 10,844 1,737 rétegzéssel kiválsztott közeli donorokkl 2,632 1,146 6,797 1,748 13,522 2,099 Településtípus nonimizálás: 0 0 0 0 0 0 Iskoli végzettség és településtípus együttes nonimizálás: véletlenszerűen kiválsztott donorokkl 1,628 0,960 4,203 1,483 8,384 1,941 donorokkl 2,558 1,327 6,315 1,965 12,601 2,600 rétegzéssel kiválsztott donorokkl 2,176 0,852 5,322 1,310 10,864 1,707 rétegzéssel kiválsztott közeli donorokkl 2,647 1,174 6,832 1,786 13,642 2,217 Iskoli végzettség és településtípus megosztott nonimizálás: véletlenszerűen kiválsztott donorokkl 0,837 0,705 2,087 1,068 4,161 1,501 donorokkl 1,322 0,968 3,139 1,477 6,252 1,999 rétegzéssel kiválsztott donorokkl 1,095 0,593 2,685 0,971 5,313 1,289 rétegzéssel kiválsztott közeli donorokkl 1,298 0,827 3,450 1,279 6,859 1,761 Megjegyzés. Bérkülönbségen szimulált logritmus bérben muttkozó különbséget értjük. A bérkülönbség vlós ngyság 0,464. A településtípus nonimizálás nem torzítj vizsgált bérkülönbséget.
Adtcserével nonimizált mikrodtok szimulációs vizsgált 489 4. táblázt Flusik és kisvárosik közti nyers bérkülönbség reltív torzítás Adtcsere módszere p = 10 százlék p = 25 százlék p = 50 százlék Átlg Szórás Átlg Szórás Átlg Szórás Iskoli végzettség nonimizálás: 0 0 0 0 0 0 Településtípus nonimizálás: véletlenszerűen kiválsztott donorokkl 0,903 1,667 2,182 2,625 4,295 3,497 donorokkl 2,911 2,597 7,172 3,831 14,065 5,015 rétegzéssel kiválsztott donorokkl 1,689 1,450 4,043 2,303 8,120 3,099 rétegzéssel kiválsztott közeli donorokkl 4,576 2,325 11,639 3,593 22,922 4,496 Iskoli végzettség és településtípus együttes nonimizálás: véletlenszerűen kiválsztott donorokkl 0,781 1,636 2,224 2,587 4,215 3,416 donorokkl 2,894 2,624 7,257 3,902 14,088 5,124 rétegzéssel kiválsztott donorokkl 1,611 1,484 4,046 2,336 8,012 3,112 rétegzéssel kiválsztott közeli donorokkl 4,533 2,380 11,527 3,530 22,851 4,613 Iskoli végzettség és településtípus megosztott nonimizálás: véletlenszerűen kiválsztott donorokkl 0,427 1,137 1,083 1,873 2,019 2,568 donorokkl 1,412 1,894 3,763 2,946 7,154 3,971 rétegzéssel kiválsztott donorokkl 0,821 1,036 1,997 1,663 4,112 2,326 rétegzéssel kiválsztott közeli donorokkl 2,267 1,671 5,770 2,573 11,460 3,547 Megjegyzés: Bérkülönbségen szimulált logritmus bérben muttkozó különbséget értjük. A bérkülönbség vlós ngyság 0,161. Az iskoli végzettség nonimizálás nem torzítj vizsgált bérkülönbséget.