A TÁRKI Életpálya-felvétel mintavételi dokumentációja 4. változat. 2009. szeptember 7. Kézdi Gábor 1. A Mintavétel célja Az Életpálya-felvétel mintája 10,000 (tízezer) olyan fiatalból áll, akik 2006. májusában 8. osztályba jártak Magyarországon, és nincsenek közöttük olyanok, akik egy háztartásban élnek (pl. testvérek). A mintába olyan fiatalok kerülhettek, akik vagy megírták a kompetencia vizsgálat normál kérdőívét, vagy nem írták azt meg, de írtak rövidített kompetenciatesztet. A kompetenciavizsgálathoz családi háttérkérdőív tartozik, amelyet a tesztet megírt tanulóknak otthon kellett kitöltetniük szüleikkel. E háttérkérdőív mellé a célsokaság esetében egy szülői beleegyező nyilatkozatot is küldtünk, amelynek aláírásával (és a lakóhely címének pontos feltüntetésével) a szülők vállalták, hogy részt vesznek az Életpálya-kutatás követéses vizsgálatában. A teljes minta 3 dimenzióban oszlik almintákra. 1. dimenzió: teszteredmény (jelölése később: j). 4 alminta: sni (rövidített tesztet írt vagy enyhén értelmi fogyatékos sni); valamint a normál tesztet írtak teszteredmény szerinti alsó, középső és felső harmada. 2. dimenzió: régió (jelölése később: k) 7 KSH régió: Közép-Magyarország, Közép- Dunántúl, Nyugat-Dunántúl, Dél-Dunántúl, Észak-Magyarország, Észak- Alföld, Dél-Alföld. 3. dimenzió: település típus. (jelölése később: l) 3 tipus: Budapest+ mj. város, egyéb város, község. 1 A minta megoszlása az 1. dimenzió szerint kötött volt: 1000 sni 4500 normál, alsó harmad 2250 normál, középső harmad 2250 normál, felső harmad A célsokaság alább definiált létszámát tekintve a normál középső és felső harmadhoz képest a normál alsó harmad kétszeresen, az sni alminta két és félszeresen van felülreprezentálva. (A kiválasztás arányok rendre kb. 6.6%, 13.2% és 16.6%.) A 2. és 3. dimenzióban a minta megoszlása a sokaság (valamennyi teszteredményt írt tanuló) eloszlását követi, kivéve a községek esetén, ahol a nagyobb települések nagyobb valószínűséggel kerülnek a mintába. 1 A nagyon kis városokat (ahol a mintavételi keretbe legfeljebb 15 fiatal tartozott) is a községek közé soroltuk. Ezek a következők voltak: Adony, Badacsonytomaj, Balatonföldvár, Bélapátfalva, Csepreg, Dunavecse, Fertõd, Harkány, Herend, Hévíz, Izsák, Kadarkút, Kisköre, Letenye, Nagymaros, Pannonhalma, Pálháza, Pétervására, Répcelak, Rétság, Sellye, Szob, Sásd, Tab, Tokaj, Tét, Velence, Visegrád, Zalakaros, Zalalövõ, Záhony, Öriszentpéter. 1
2. Mintavételi keret 2.1 A 2006. májusi kompetenciavizsgálat kategóriái A mintavételi keret alapja a 2005/6. tanév végén a 8. osztályos tanulók körében végzett teljes körű kompetenciavizsgálat volt. A kompetenciavizsgálat során használt normál tesztet az sni tanulók tipikusan nem töltik ki (lásd később), ezért az Életpálya felmérés céljából velük rövidített tesztet kitöltettek ki a pedagógusok. Így végeredményben két füzettípust tölthettek ki a tanulók. Előzetesen a tanulókat a normál tesztre való alkalmasság alapján A (normál tantervű) és S (sajátos nevelési igényű) kategóriákba osztották a 2005/6. tanév első felében. A teszt megírásakor (a tanév második felében) nem mindenkinek volt előzetes beosztása; ezeket a tanulókat utólag beosztották. Itt az S kategórián belül megkülönböztették az 1 (középsúlyos értelmi fogyatékos?) 2 (enyhén értelmi fogyatékos) és 3 (érzékszervi fogyatékos?) kategóriákat, valamint a magyar nyelvi problémákkal küzdő tanulókat ( 8 ). A teszt megírásakor a pedagógus szabadon dönthetett arról, hogy melyik tanuló milyen tesztet ír, függetlenül annak besorolásától. 2.2 A mintavételi keret meghatározása A normál alminta alapját képező teljes sokaság az A besorolású és normál tesztet írt tanulók halmaza (102 686 fő). Az sni alminta sokasága elvileg csak az enyhén értelmi fogyatékos tanulókat tartalmazza, ám ezeket az előzetes besorolásban nem tudtuk megkülönböztetni a többi sni tanulótól (az utólagos besorolásban viszont igen). Az sni alminta sokaságát ezért úgy határoztuk meg, hogy abba mindenki beletartozik, aki rövidített tesztet írt, vagy normál tesztet írt, de S vagy 2 kategóriába tartozik (6035 fő). Ilymódon csak azok maradtak ki a mintavételi keretből, akik biztosan nem tartoztak sem a normál, sem az enyhén értelmi fogyatékos sni kategóriába. A teljes, tesztet írt célsokaság eloszlását alkalmasság és füzettípus alapján az 1. táblázat mutatja. Sárgával kiemelve a normál, zölddel az sni célsokaság található. 1. táblázat: A célsokaság (2006. májusában kompetenciavizsgálatot írt 8. osztályos tanuló) megoszlása alkalmasság és füzettípus alapján. alkalmasság Füzettípus Normál Rövidített Sum 1 11 0 11 2 211 199 410 3 32 1 33 8 112 12 124 A 102,686 0 102,686 S 938 4,885 5,823 Sum 103,990 5,097 109,087 A tényleges mintakeretet ezen belül azok a tanulók alkották, akiktől rendben aláírt szülői beleegyező nyilatkozat érkezett vissza, és a kompetenciavizsgálat szülői kérdőíve alapján lakcímükről is rendelkezünk információval. 2 2 A vizsgálatban való részvétel ösztönzésére a részvételi szándékukat kifejezők között 20 darab DVD-lejátszó készüléket sorsoltunk ki. 2
A továbbiakhoz bevezetjük a következő jelöléseket. N n *= 102,686 a teljes normál sokaság létszáma N n = 34,477 a normál mintavételi keret (hajlandó részt venni + teljes lakóhely adat) N s *= 6246 a teljes sni sokaság létszáma N s = 2550 az sni mintavételi keret (hajlandó részt venni + teljes lakóhely adat) N* = N n * + N s * = 102,587 + 6,269 = 108,932 N = N n + N s = 34,477 + 2,550 = 37,027 2.3 Teljes sokaság és mintavételi keret A teljes sokaságon belül a részt venni hajlandók ( pozitív nyilatkozók ) alkotják a mintavételi keretet. Ezek aránya kb. egyharmad. A pozitív nyilatkozók aránya kismértékben ugyan, de összefügg a kompetencia teszteredménnyel. A normál tesztet írók között az alsó harmadban (és azon belül is az alsó kilencedben) magasabb az arány, mint a felső kétharmadban, az sni tanulók között pedig még magasabb (lásd 2. táblázat). 2. táblázat: a pozitív nyilatkozók aránya az 1. alminta kategóriában Mintavételi keret Kategória Teljes sokaság (pozitív nyilatkozók) olvasás esetszám pontszám száma aránya Sni 6,269 2,550 0.407 Alsó harmad 34,192-450 12,237 0.358 Középső harmad 34,199 451-542 11,184 0.327 Felső harmad 34,196 543-11,056 0.323 Összesen 108,856 37,027 0.340 Az alábbi ábra részletesebben mutatja be a teszteredmény és a pozitív nyilatkozat valószínűségének összefüggését külön a normál, és külön az sni sokaságra. A felső panel teszteredmény kilencedekben, az alsó panel századokban mutatja a pozitív nyilatkozat valószínűségét (utóbbi ábra az sni tanulóknál igen zajos, az alacsony esetszám miatt). A valószínűség kismértékben de viszonylag folyamatosan csökken a teszteredménnyel a normál tanulók között, legalábbis az alsó harmadban. A felső kétharmadban nincs összefüggés. Az sni tanulók között az alsó harmadban növekedés, a sokaság középső harmadában csökkenés tapasztalható, a felső harmadban nincs összefüggés. Az sni legalsó egy-két százalékát leszámítva (és a kis elemszám miatti sni zajoktól eltekintve) azonban a pozitív nyilatkozatok valószínűsége mindig 30 és 50 százalék között van. 3
Pozitiv nyilatkozatok aránya olvasás score kategoriákban. Normál tanulók Pozitiv nyilatkozatok aránya olvasás score kategoriákban. SNI tanulók 0.500 0.500 0.400 0.400 0.300 0.300 0.200 0.200 0.100 0.100 0.000 1 2 3 4 5 6 7 8 9 0.000 1 2 3 4 5 6 7 8 9 olvasás score kilenced olvasás score kilenced Pozitiv nyilatkozatok aránya olvasás score kategoriákban. Normál tanulók Pozitiv nyilatkozatok aránya olvasás score kategoriákban. SNI tanulók 0.500 0.600 0.400 0.500 0.300 0.200 0.400 0.300 0.200 0.100 0.100 0.000 1 11 21 31 41 51 61 71 81 91 olvasás score század 0.000 1 11 21 31 41 51 61 71 81 91 olvasás score század 1. ábra: Pozitív nyilatkozók aránya és kompetencia teszteredmény A pozitív nyilatkozók aránya régió és településtípus szerint is változó volt. Az alábbi táblázat a pozitív nyilatkozók megoszlása és a kompetenciavizsgálatot megírt teljes sokaság megoszlását mutatja, kiegészítve a 14 évesek megoszlásával (a Népességnyilvántartó adata). 4
3. táblázat: A mintavételi keret, a teljes sokaság és a 14 éves lakónépesség megoszlása régió és településtípus szerint Mintavételi keret (pozitív nyilatkozók) megyei j v város község SUM Megyei j v város község SUM közép-magyarország 3,277 2,121 1,585 6,983 8.8% 5.7% 4.3% 18.7% közép-dunántúl 868 1,383 2,039 4,290 2.3% 3.7% 5.5% 11.5% nyugat-dunántúl 1,103 594 1,643 3,340 3.0% 1.6% 4.4% 9.0% dél-dunántúl 854 1,187 2,074 4,115 2.3% 3.2% 5.6% 11.0% Észak-magyarország 893 1,673 3,258 5,824 2.4% 4.5% 8.7% 15.6% Észak-alföld 1,328 3,006 2,956 7,290 3.6% 8.1% 7.9% 19.5% dél-alföld 1,269 2,225 1,955 5,449 3.4% 6.0% 5.2% 14.6% SUM 9,592 12,189 15,510 37,291 25.7% 32.7% 41.6% 100.0% Teljes sokaság (mindenki aki megírta a kompetenciavizsgálatot) megyei j v város község SUM Megyei j v város község SUM közép-magyarország 14,175 7,695 5,014 26,884 12.9% 7.0% 4.6% 24.5% közép-dunántúl 3,118 4,336 5,582 13,036 2.8% 4.0% 5.1% 11.9% nyugat-dunántúl 3,781 2,064 4,824 10,669 3.4% 1.9% 4.4% 9.7% dél-dunántúl 2,687 3,310 4,877 10,874 2.5% 3.0% 4.4% 9.9% Észak-magyarország 2,720 4,527 7,046 14,293 2.5% 4.1% 6.4% 13.0% Észak-alföld 4,379 7,697 6,432 18,508 4.0% 7.0% 5.9% 16.9% dél-alföld 4,203 6,345 4,821 15,369 3.8% 5.8% 4.4% 14.0% SUM 35,063 35,974 38,596 109,633 32.0% 32.8% 35.2% 100.0% 14 éves állandó népesség megyei j v város község SUM Megyei j v város község SUM közép-magyarország 16,549 8663 6238 31,450 13.1% 6.9% 4.9% 24.9% közép-dunántúl 3,329 4818 6507 14,654 2.6% 3.8% 5.2% 11.6% nyugat-dunántúl 4,069 2266 5598 11,933 3.2% 1.8% 4.4% 9.5% dél-dunántúl 2941 3539 5750 12,230 2.3% 2.8% 4.6% 9.7% Észak-magyarország 3,103 4971 8905 16,979 2.5% 3.9% 7.1% 13.5% Észak-alföld 4894 8790 7798 21,482 3.9% 7.0% 6.2% 17.0% dél-alföld 4740 7028 5562 17,330 3.8% 5.6% 4.4% 13.7% SUM 39,625 40,075 46,358 126,058 31.4% 31.8% 36.8% 100.0% A kompetenciavizsgálatot megírt, de nem pozitív nyilatkozók egy részénél (20553 fő, a telejs sokaság 19 százaléka) nem tudtuk a lakcímet (nem küldött vissza háttérkérdőívet vagy azon nem volt meg a településkód). Ezeknél azzal a feltevéssel éltünk, jogy a lakóhely és az iskola települése ugyanaz, és az iskola települését vettük számításba. Így regionálisan valószínűleg nem torzítottunk sokat, településtípusban azonban a nagyobb települések velé torzítottunk. A 14 évesek megoszlásával összevetve azonban látható, hoyg ez a torzítás nem jelentős (vagy a kompetencia háttérkérdőívének véletlenszerű hiányzása, miatt, vagy mert egyéb tényezők pl hiányzások a kompetencia megírásakor ellensúlyozták a torzítást). A mintavételi keret (a pozitív nyilatkozók) megoszlása azonban nagymértékben eltér a teljes sokaság megoszlásától (pl Budapest aránya 9 százalék alatt van, szemben a teljes sokaság 13 százalékos részesedésétől). Ezért a minta régió és településtípus szerinti reprezentativitását nem a mintavételi kerethez, hanem a teljes sokasághoz igazítottuk. 5
3. Adatvédelem A kompetencia-felmérés adatai és a mintavételi keret összekapcsolását a 1992. évi LXIII. törvény (a személyes adatok védelméről és a közérdekű adatok nyilvánosságáról) rendelkezéseinek szellemében valósítottuk meg. Esetünkben a kritikus pont az volt, hogy a kompetencia felmérést kitöltő gyermek személyes adatai: neve és címe ne legyen összekapcsolható teszteredményeivel. A kutatásban részvételi szándékukat jelző gyerekek (és szüleik) adatbázisának az esetleges személyes felkereséshez tartalmazta a gyermek nevét és pontos lakcímét, valamint a diák azonosító számát, mely a kompetencia-felmérés során azonosította őt. Az adatközlő itt maga a szülő (törvényes képviselő) volt, aki ezen adatoknak jelen kutatáson belüli felhasználásához az adatközlés tényével hozzájárult. A mintakészítéshez ezen adatok közül csak azon diákok azonosító számára volt szükségünk, akiknek szülei vállalták a kutatásban való részvételt. Ezt az azonosítót tehát leválasztottuk a címet is tartalmazó adatbázisról és segítségével leválogattuk a teszteredményeket tartalmazó adatbázisból a mintába választható diákok körét. Mivel a szülői háttérkérdőív a beleegyező nyilatkozat nélkül is tartalmazta a településkódot (a címet természetesen nem), az így előállított adatbázis elegendő információt tartalmazott ahhoz, hogy a kompetencia-teszt eredményének figyelembe vételével régióra és régión belül településtípusra reprezentatív mintát készíthessünk. Mivel ez az adatbázis nem tartalmazta sem a nevét sem a lakcímét a mintakeretbe került tanulóknak, ezért ebben a munkafázisban nem sérültek a résztvevők személyiségi jogai. A mintavétgelhez a mintakeret tanulóit a teszteredmény, településtípus és régió alapján almintákba soroltuk (lásd fent). A személyes megkereséshez ebből az adatbázisból csak a mintába (pótmintába) való kerülés tényére pontosabban arra az információra volt szükség, hogy a tanuló melyik almintába került. Ezt az információt (alminta kódot) a tényleges teszteredménytől leválasztva ismételten a diákot a kompetencia felmérés során azonosító szám segítségével fűztük vissza a nevét és lakcímét tartalmazó adatbázishoz, létrehozva így az adatfelvételhez szükséges címlistát. Ezzel az eljárással biztosítottuk a mintavétel során használt adatbázisok mindegyikének anonimizáltságát. Az Európa Tanács irányelveinek (322/97/EK sz. rendelet a közösségi statisztikáról) megfelelően ugyanis akkor tekintünk egy adatbázist anonimizáltnak, ha a nem statisztikai célú felhasználás kizárható azáltal, hogy a statisztikai egységek ésszerű erőfeszítések árán sem azonosíthatók egy rosszindulatú harmadik fél részéről. A mintakészítés során birtokunkba került neveknek és lakcímeknek a teszt-ereredményektől való elkülönített tárolására valamint a mintavételi procedúra után feleslegessé vált adatok megsemmisítésére a TÁRKI Rt. garanciát vállalt. Az adatok megsemmisítéséről a TÁRKI gyakorlatának és az adatvédelmi előírásoknak megfelelően jegyzőkönyvet készítünk. 4. A mintavétel részletes leírása Mint azt fent már bevezettük, jelölje j az első alminta dimenziót (j=0 ha sni, j=1 ha normál alsó harmad, j=2 ha középső, j=3 ha felső harmad). A második és harmadik alminta dimenziókat (7 régió és 3 településtípus) rendre jelölje k és l. A mintába kerülési valószínűségek az 1. dimenzió szerint különböznek, mert az sni (j=0) és az alsó harmad (j=1) felül vannak reprezentálva: p j = n j / N* j, amelyek p 0 = 0.166; p 1 = 0.132, p 2 =p 3 =0.066. Ezen belül a másik két dimenzió szerinti kiválasztási arányok azonosak: minden egyes j almintában a minta k és l szerinti megoszlása megegyezik a sokaság (N) k és l szerinti megoszlásával. A sokaság régió (k) és településtípus (l) szerinti megoszlását a 6
0 kozsegsorsz 10 20 30 40 kompetenciavizsgálatot megírt teljes sokaság megoszlása (N), nem pedig a pozitív nyilatkozók (N*) megoszlása jelenti. Az ismeretlen Jelölje n a minta elemszámot, n jkl az alminta elemszámát, N jkl pedig a teljes sokaság lélekszámát a jkl almintában. N j és n j jelöljék az 1. alminta szerinti summákat, n 0 =1000, n 1 =4500, n 2 =n 3 =2250. A jkl almintán belüli elemszámot a úgy határoztuk meg, hogy n jkl =n j *(N jkl /N j ). A régiók és településtípus szerint megoszlást tehát a teljes populáció (N), nem pedig a mintavételi keret (N*) megoszlásához igazítottuk (az indokláshoz lásd fenn a 2.3 fejezetet). A mintavétel technikailag az egyes almintákban véletlenszerűen sorbarendezett tanulók közül az első n jkl kiválasztását jelentette. A mintavétel Budapest és a megyei jogú városok esetében egyszerű véletlen kiválasztást követett. A jk1 almintába tartozók közül tehát egyszeri véletlen sorbaállítással választottuk ki az n jk1 fiatalt. Az egyéb városok esetében először minden régión belül kiválasztottuk a városok felét, és azokon belül egyszerű véletlen mintavétellel választottuk ki az n jk2 fiatalt. Községek esetében csoportos volt a mintavétel. Először a községeket rendeztük véletlen sorrenbe, és azokon belül a fiatalokat, majd minden jk3 almintában az első njk3 fiatalt választottuk ki. A községek sorbarendezésénél használt véletlen szám azonban korrelált a településmérettel: nagyobb településeknek nagyobb esélyük volt kisebb sorszámot kapniuk, és így nagyobb eséllyek kerültek be a mintába. 3 A minta reprezentativitásának biztosításához a súlyok kialakításakor, valamint az önsúlyozó minta kialakításakor is figyelembe vettük a nagysággal arányos kiválasztási arány tényét. A kiválasztott minta megoszlása az 1. és 2. alminta kategóriában (teszt-eloszlás és településtípus) a következő volt: Budapest+mjv egyéb város község Összesen sni 309 317 374 1,000 1 998 1,495 2,007 4,500 2 713 723 814 2,250 3 937 678 635 2,250 Összesen 2,957 3,213 3,830 10,000 3 A használt formula a következő volt: sorsz = z*(45-n község ), ahol sorsz a községek sorszámát meghatározó folytonos változó, z egy egyenletes (uniform) eloszlású véletlen változó a (0,1) intervallumon, N község pedig a mintavételi keretbe tartozók száma az adott településen. 45 az egy községekben található mintavételi keret maximuma. A községsorszám és N község közötti korreláció ilymódon -0.25 volt, a reláció gyenge volt de lineáris: Lowess smoother 0 10 20 30 40 (sum) K bandwidth =.8 A mintába kerülés valószínűsége annak a valószínűsége, hogy a sorsz változó egy bizonyos küszöbértéknél alacsonyabb: Pr(sorsz<küszöb jk3 ) = Pr(z*(45-N község )<küszöb jk3 ) = Pr(z<küszöb jk3 /(45-N község )) = F(küszöb jk3 /(45-N község )) = küszöb jk3 /(45-N község ), ahol F a [0,1] egyenletes eloszlás eloszlásfüggvénye. 7
5. A meghiúsulások és pótlások dokumentálása A meghiúsult kikérdezéseket előre kiválasztótt pótcímekkel pótoltuk, előre meghatározott pótlási sorrendben. Pótminta címeket minden egyes jkl almintában külön választottunk ki, ismét véletlen sorrendbe állítás útján. Meghiúsulások esetén a pótcímeket az előre (véletlenszerűen) meghatárosott sorrendben kellett igénybe venni. A megyei jogú és egyéb városokban a pótcímeket először a meghiúsult főcímmel megegyező településen (és természetesen azonos alminta kategóriában) kellett igénybe venni, majd ha ezek elfogytak, akkor az azonos megyében (instruktori körzetben) levő egyéb pótcímek következtek (természetesen megint azonos alminta kategóriában). Községek esetén pótláshoz az azonos megyében (instruktori körzetben) levő pótcímeket kellett igénybe venni (természetesen azonos alminta kategóriában). A kiválasztott címek közül meghiúsult 1484 (15%). Az igen alacsony meghiúsulási arány oka az adatfelvétel munkájának minősége mellett az lehet, hogy a megkeresett családok pozitív nyilatkozatukkal már vállalták májusban a felmérésben való részvételt. A sikertelen kérdezések okai a következők voltak: A sikertelen kérdezés oka Esetszám Százalék válaszképtelen 17 1.2 válaszmegtagadó 726 48.9 az adatfelvétel ideje alatt nem érhetõ 143 9.6 elköltöztek 131 8.8 a cím nem létezik 21 1.4 a címen a keresett család ismeretlen 30 2.0 aki válaszolhatna a szülõ kérdõívre, az 3 0.2 nem készült el mindkét kérdõív 5 0.3 nem sikerült a fiatalt négyszemközt kér 7 0.5 négyszeri sikertelen megkeresés 143 9.6 egyéb ok 220 14.8 missing ok 38 2.6 Total 1,484 100.0 A meghiúsulások gyakoribbak voltak a nagyvárosokban, ezeken belül (kissé meglepő módon) a teszteredmény-eloszlás közepén. Általánosságban azonban nincs összefüggés a teszteredmények és a meghiúsulási arány között. Budapest+mjv egyéb város község Összesen sni 19% 15% 13% 15% 1 24% 12% 11% 14% 2 25% 12% 11% 16% 3 19% 12% 12% 15% Összesen 22% 12% 11% 15% 8
6. A minta reprezentativitása és súlyozás A fent bemutatott mintavételi és pótlási eljárások biztosítják nemcsak az elóre kitűzött mintanagyságot, de azt is, hogy a minta reprezentatív legyen mindhárom alminta dimenzióban (sni, illetve normál teszteredmény-harmad; régió; településtípus). A minta úgy is tekinthetó, mint ami három részből áll: egy önsúlyozó minta (~7150: ~400 sni + ~2250 alsó harmad + ~2250 középső harmad + ~2250 felső harmad); egy normál tantervű alacsony teszteredményű oversample (~2250); egy SNI oversample (~600). A teljes minta reprezentativitását kétféleképpen lehet biztosítani: megfelelő súlyozással, vagy az önsúlyozó minta kiválasztásával. A súlyozott teljes minta előnye, hogy megtartja az összes információt. Az önsúlyozó minta előnye, hogy olyan statisztikai-ökonometriai módszerek is alkalmazhatóvá válnak, amelyek nem engedik súlyok használatát. A kitűzött 10 000 helyett végül 10 022 kérdőív készült el. A sikeres lekérdezések megoszlása az alminta kategóriákban a következő: Budapest+mjv egyéb város község Összesen sni 636 313 43 992 1 2,767 1,506 206 4,479 2 1,369 805 99 2,273 3 1,434 744 100 2,278 Összesen 6,206 3,368 448 10,022 A mintavételi kiválasztási arányok különbségeit helyrehozó súlyt az empirikus mintavételi valószínűség reciproka adja. A kiválasztási arányok Budapesten, valamint a megyei jogú és egyéb városokban az 1. dimenzió mentén különböznek, a községekben a településméret mentén is. Utóbbi eltéréseit nem folytonosan, hanem a községek (nyolcadikos tanulóban definiált) méretéből képzett öt kategóriában korrigáltuk (1-9, 10-20, 20-39, 40-99, 100+ nyolcadikos tanuló a községben). A súlyok összege a mintavételi keretet, vagyis a nyolcadikos tanulók összlétszámát adja, Σ(suly)=N* = 108 932. A súlyok átlaga az alminta kategóriákban a következő: Budapest+mjv egyéb város község Összesen sni 6.31 6.31 6.07 6.22 1 7.66 7.66 7.92 7.77 2 15.09 15.09 14.68 14.95 3 15.06 15.06 14.28 14.85 Összesen 11.60 10.94 10.19 10.85 Bizonyos elemzésekhez csak integer súly használható, ezért képeztünk egy isuly nevű változót, ami az eredet súly egész számra kerekített változata. A későbbi hullámokban képeztünk az adott hullámra értelmezett súly változót is (pl suly_b, suly_c), amelyek az eredeti súlyváltozót (suly) módosított változatai, a bennmaradási arányok (1 mintacsökkenési arány) reciprokával szorozva (amit a három mintavételi dimenzió szerint megbontva számoltunk, de számottevő variabilitást nem mutatott). Természetesen ezeknek is elkészítettük az integer változatát. 9