A szóródás mérőszámai

Hasonló dokumentumok
Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Elemi statisztika fizikusoknak

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

A leíró statisztikák

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Kutatásmódszertan és prezentációkészítés

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Segítség az outputok értelmezéséhez

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

A JÓLÉTI ÁLLAM KÖZGAZDASÁGTANA

Biomatematika 2 Orvosi biometria

[Biomatematika 2] Orvosi biometria

BARANYA MEGYE MUNKAERŐPIACI HELYZETE NOVEMBER

Fábián Zoltán: Szavazói táborok társadalmi, gazdasági beágyazottsága - Statisztikai melléklet

1. Egy Kft dolgozóit a havi bruttó kereseteik alapján csoportosítottuk: Havi bruttó bér, ezer Ft/fő

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

A GDP hasonlóképpen nem tükrözi a háztartások közötti munka- és termékcseréket.

Korrelációs kapcsolatok elemzése

Mérés módja szerint: Időtáv szerint. A szegénység okai szerint

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

TÁJÉKOZTATÓ BARANYA MEGYE MUNKAERŐ-PIACI HELYZETÉNEK ALAKULÁSÁRÓL ÁPRILIS

BARANYA MEGYE MUNKAERŐ-PIACI HELYZETE AUGUSZTUS

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

BARANYA MEGYE MUNKAERŐPIACI HELYZETE OKTÓBER

IV. Népegészségügyi Konferencia, Megnyitó A év szűrővizsgálatainak eredményei. Homonnai Balázs ACNIELSEN

OSAP Bér- és létszámstatisztika. Vezetõi összefoglaló

Fizetési trendek a magyarországi nemzetközi vállalatoknál

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

[Biomatematika 2] Orvosi biometria

Változók eloszlása, középértékek, szóródás

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Statisztikai alapfogalmak

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

TÁJÉKOZTATÓ BARANYA MEGYE MUNKAERŐ-PIACI HELYZETÉNEK ALAKULÁSÁRÓL MÁJUS

1. óra: Területi statisztikai alapok viszonyszámok, középértékek

A Debreceni Egyetem Intézményfejlesztési Terve

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

A es generikus juttatások elemzése

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Függvények Megoldások

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

A valószínűségszámítás elemei

A hazai jövedelmi egyenlőtlenségek főbb jellemzői az elmúlt évtizedekben (módszertani tanulságok)

A JÓLÉTI ÁLLAM KÖZGAZDASÁGTANA

MTA KIK Tudománypolitikai és Tudományelemzési Osztály. A hazai tudományos kibocsátás regionális megoszlása az MTMT alapján ( )

TÁJÉKOZTATÓ BARANYA MEGYE MUNKAERŐ-PIACI HELYZETÉNEK ALAKULÁSÁRÓL JÚNIUS

11.3. A készségek és a munkával kapcsolatos egészségi állapot

Országos kompetenciamérés eredményeinek kiértékelése 6. és 8. évfolyamokon 2012

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

A legfrissebb foglalkoztatási és aktivitási adatok értékelése május

TÁBLAJEGYZÉK. 1/l A éves foglalkoztatottak munkahelyre történő közlekedése nemek és a házastárs/élettárs gazdasági aktivitása szerint

STATISZTIKA. Gyakorló feladatok az első zh-ra

Mérési adatok illesztése, korreláció, regresszió

A sokaság/minta eloszlásának jellemzése

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

7.2. A készségek és az oktatás jövedelemben megtérülő hozama

TÁJÉKOZTATÓ BARANYA MEGYE MUNKAERŐ-PIACI HELYZETÉNEK ALAKULÁSÁRÓL MÁRCIUS

JA45 Cserkeszőlői Petőfi Sándor Általános Iskola (OM: ) 5465 Cserkeszőlő, Ady Endre utca 1.

Biostatisztika VIII. Mátyus László. 19 October

SZOCIÁLIS ÉS MUNKAERŐPIACI POLITIKÁK MAGYARORSZÁGON

TÁJÉKOZTATÓ BARANYA MEGYE MUNKAERŐ-PIACI HELYZETÉNEK ALAKULÁSÁRÓL JANUÁR

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

TÁRKI HÁZTARTÁS MONITOR Budapest, Gellért Szálló március 31.

Az Állami Foglalkoztatási Szolgálat munkanélküli nyilvántartásának fontosabb adatai szeptember FOGLALKOZTATÁSI HIVATAL

Rendszerváltás, nyertesek, vesztesek Empirikus adatok a Háztartások Életút Vizsgálata alapján

Muzeális intézmények munkaerő-állományához kapcsolódó információk

Microsoft Excel Gyakoriság

Matematikai statisztika

Diplomás pályakövető rendszer május-június

1. tétel. 1. Egy derékszögű háromszög egyik szöge 50, a szög melletti befogója 7 cm. Mekkora a háromszög átfogója? (4 pont)

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Népszavazás. Omnibusz 2008/02. A kutatás dokumentációja

Vargha András Károli Gáspár Református Egyetem Budapest

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Az egészségügyi és gazdasági indikátorok összefüggéseinek vizsgálata Magyarországon

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

6. Előadás. Vereb György, DE OEC BSI, október 12.

MATEMATIKAI KOMPETENCIATERÜLET A

MINTA. Béranalízis egy adott pozícióban. Adminisztratív alkalmazott Adminisztráció

Összefoglaló a magán-munkaközvetítők évi tevékenységéről

Átadásra került informatikai eszközök megyei bontásban. 1. ütem 2. ütem. KLIK Szakszolgálati Intézmény megnevezése

A termékenység területi különbségei

Tovább nőtt az orvoshoz forduló betegek száma. Az influenza B vírus felelős a megbetegedések többségéért.

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Adatok statisztikai értékelésének főbb lehetőségei

Munkaerő-piaci helyzetkép Fejér megyében, a év október havi zárónapi adatai alapján

OTP Termőföld Értéktérkép

Átírás:

Társadalomstatisztika, 2004/2005 I. félév. Mai tematika: A szóródás mérőszámai 1 Bevezetés. 1 A Kvalitatív Változékonyság Indexe (KVI) (Kiegészítő anyag) 2 4 5 Doboz ábra (box-plot) 7 A variancia és a szórás 8 Hogyan válasszuk meg a megfelelő szóródás-mutatót? 10 Speciális szóródási mutatók 12 Decilis-hányados 12 Gini együttható 13 A szóródás mérőszámai Bevezetés. A változók eloszlásának egyetlen számmal történő jellemzése. Eddig: egyetlen számmal jellemeztük a változó tipikus értékeit/centrális tendenciáját. Valójában sok esetben kevéssé informatív, vagy akár félrevezethető is lehet csupán a középértékkel (a centrális tendencia mutatóval) jellemezni az eloszlást. Ezért további információk szükségesek. A mai órán a változó változékonyságát/szóródását leírni képes mérőszámokat tárgyaljuk. Miért szükségesek ezek? Egyfajta sztereotipizálás lenne a középértékkel jellemezni a teljes populációt, ignorálva a populáción belüli különbségeket. Pl. 1998, ISSP, Tematika: vallás. Mennyire ért egyet vagy nem ért egyet a következő állítással: Ha egy pár össze akar házasodni, helyes, ha előtte együtt élnek egy ideig. % within Country Ország Magyarország Lengyelország Teljesen egyetért Együtt élni házasság előtt... Nem is ért egyet, Egyetér nincs is Nem ért Egyáltalán nem ért t ellene egyet egyet Együtt 27,5% 30,3% 21,3% 13,3% 7,6% 100,0% 18,4% 36,1% 18,8% 18,8% 7,9% 100,0% Magyarországon a módusz az Egyetért kategória. De csak ezt megadni igen félrevezető lehet, hiszen csupán a válaszolók harmada tartozik ide. Sőt, az Egyáltalán nem ért egyet kategória százalékos gyakorisága ugyanakkora, mint a köztudottan erősen vallásos Lengyelországban. A példában ordinális változó szerepelt. Nézzünk egy intervallum-arányskála mérési szintű változót! (1998, ISSP). A magyarországi minta eloszlását vizsgáljuk. Havi nettó jövedelem iskolázottsági kategóriánként: Iskolázottság = Érettségi Havi nettó jövedelem Mintael emszám 196 38664,74-1 -

Iskolázottság = Főiskola Havi nettó jövedelem Mintael emszám 72 38987,56 Láthatóan a két iskolázottsági kategórián belül megegyezik az átlagjövedelem. Ugyanakkor lényeges különbségek vannak a két csoporton belüli jövedelem-eloszlásban. Pl. a szélső értékeket figyelve kiderül, hogy az érettségizetteken belül ugyanazon átlag mögött jóval szórtabb eloszlás áll: Iskolázottság = Érettségi Havi nettó jövedelem Minimum Maximum 4000 500000 Iskolázottság = Főiskola Havi nettó jövedelem Minimum Maximum 10800 200000 A Kvalitatív Változékonyság Indexe (KVI) A KVI kiegészítő anyag, nem fog szerepelni a vizsgán. Szerepeltetése amiatt fontos, hogy lássuk: minden mérési szinthez rendelhető szóródási mérőszám. (Index of qualitative variation) Nominális vagy ordinális változók esetén használható. Értéke 0 és 1 közötti szám lehet. Ha a minta minden eleme ugyanabba a kategóriába esik, tehát egyáltalán nincs változékonyság, 0 a KVI értéke. Ellenkezőleg, ha minden kategóriába ugyanazon számú megfigyelés esik, tehát maximális a változékonyság, 1 az index értéke. Példa (ISSP, 1998, Magyarország). Az iskolázottság megoszlása két munkaerőpiaci helyzet kategórián belül. Önálló Alkalmazott Iskolázottság Érettségi Érettségi nélkül zett Diplomás Együtt 27 32 17 76 35,5% 42,1% 22,4% 100,0% 516 195 113 824 62,6% 23,7% 13,7% 100,0% Láthatóan az alkalmazottak körében az iskolázottság egységesebb: kétharmaduk az iparban dolgozik. Számoljuk ki a KVI-t a két csoportra! KVI = különbségek száma / a lehetséges különbségek maximális száma Hogyan számítjuk ki a különbségek számát? Ha az alábbi kis mintánk lenne - 2 -

János ÉRETTSÉGI ALATT István DIPLOMA Károly DIPLOMA Ildikó ÉRETTSÉGI akkor az alábbi párok különböznének: 1. János-István 2. János-Károly 3. János-Ildikó 4. István-Ildikó 5. Károly-Ildikó Tehát 5 különbséget találunk. Egyszerűbb módszer a különbségek megszámlálására, ha az alábbi módon járunk el: ÉRETTSÉGI ALATT 1 dolgozó DIPLOMA 2 dolgozó ÉRETTSÉGI 1 dolgozó Különböző párok: ÉRETTSÉGI ALATT-DIPLOMA 2 pár, ÉRETTSÉGI ALATT-ÉRETTSÉGI 1 pár, DIPLOMA-ÉRETTSÉGI 2 pár, az összesen 5 pár. Ha K kategóriánk van, és f i jelöli az i. kategória gyakoriságát, ezt röviden ezt az alábbi formulával írhatjuk le: Σ i=1..k, j=i..k, i j f i f j A formulát alkalmazva az önállókra, az alábbi KVI adódik: 27*32+27*17+32*17=1867 Míg az alkalmazottakra: 516*195+516*113+195*113=180963 Önálló Alkalmazott Iskolázottság Érettségi Érettségi nélkül zett Diplomás Együtt 27 32 17 76 35,5% 42,1% 22,4% 100,0% 516 195 113 824 62,6% 23,7% 13,7% 100,0% Hogyan számítjuk ki a lehetséges különbségek maximális számát? A maximális különbségek számára az alábbi formula alkalmazható: (K(K-1)/2)*(N/K) 2, ahol K a változó kategóriáinak száma, N pedig a mintaelemszám. Esetünkben az önállókra az alábbi érték adódik: - 3 -

(3*2/2)*(76/3) 2 = 1925 Míg az alkalmazottakra: (3*2/2)*(824/3) 2 = 226.325 A KVI számítása = különbségek száma / a lehetséges különbségek maximális száma Az önállókra: 1867/1925 = 0,97 Az alkalmazottakra: 180.963/226.325 = 0,8 Vagyis a KVI értéke alátámasztja korábbi megfigyelésünket: az alkalmazottakon belül egységesebb az iskolázottság, más szóval: az önállókon belül nagyobb az iskolázottság változékonysága. FIGYELEM! A fentiekben ordinális mérési szintű változóra alkalmaztuk a KVI-t. A KVI nem vesz tudomást arról, hogy rendezés van a kategóriák között, tehát úgy kezeli az iskolázottsági kategóriákat, mintha azok között nem lenne hierarchikus rend. Alkalmazása tehát egyfajta információvesztéssel jár. Megjegyzés: A KVI képletében szereplő f i gyakoriságok helyett százalékos arányt is használhatunk, ugyanazt az értéket kapjuk. Pl. a fenti esetben az önállókra: KVI = (35,5*42,1+35,5*22,4+42,1*22,4)/((3*2/2)*(100/3) 2 ) = 0,97 Példa Rassz/Etnikum szerinti eloszlás az USA 50 államában. (kategóriák: fehér / fekete / ázsiai / spanyolajkú / amerikai bennszülött). Az alábbiakban néhány államra megadjuk a KVI-t. Interpretáld a számokat! Tagállam KVI Új Mexikó 0,7 Kalifornia 0,69 New York 0,58 Florida 0,52 Alaska 0,48 Washington 0,29 Maine 0,06 Vermont 0,04 (Range) Intervallum-arányskála esetében használatos. Definíciója: a maximális és a minimális érték különbsége, vagyis az értékkészlet terjedelme. Példa. Az 1996-os ISSP magyar adatain korábban már láttuk az átlagjövedelmet pártszimpátia szerinti csoportokon belül. Már ott említettük, hogy pl. az SZDSZ-szavazók magas átlagjövedelme nem feltétlenül jelenti azt, hogy minden SZDSZ szavazó jövedelme magas. A kérdés megvizsgálásához szükségünk lenne a szóródás valamely mértékére; válasszuk ehhez most a terjedelmet! - 4 -

Jövedelem, havi nettó Pártszimpátia MSZP SZDSZ MDF FIDESZ KDNP FKGP Munkáspárt MSZDP Egyéb párt Bizonytalan, nem szavazva Total Terjede Minimum Maximum lem 22731,35 1800 80000 78200 29506,70 5600 250000 244400 22629,42 5600 43000 37400 26873,47 2500 165000 162500 20355,46 7500 45000 37500 19869,89 2500 65000 62500 20364,78 8600 50000 41400 16233,33 15000 18700 3700 26118,18 8700 40000 31300 19595,47 1200 100000 98800 21906,26 1200 250000 248800 Ellenőrizzük le a minimum és maximum alapján a terjedelmek számítását! Interpretáljuk a terjedelem értékeit! Nézzük meg az SZDSZ esetét! Melyik párt esetén leghomogénebb a jövedelem? Miért nem használhatjuk a terjedelmet nominális vagy ordinális mérési szint esetén? Bár a terjedelem igen könnyen számolható mennyiség, nyilvánvaló hátránya, hogy csak a két szélső értékre érzékeny; tehát nyers mutató. A szélső értékek sokszor atipikusak, ami a terjedelmet félrevezető indexszé teszi. Ezért vezetjük be az interkvartilis terjedelmet. Definíciója: a 75-ös és a 25-ös percentilis (vagyis a két szélső kvartilis) különbsége. Intervallum-arányskála esetén használható (ordinális szint esetén történő esetleges használatáról lásd a Hogyan válasszuk meg a megfelelő szóródás-mutatót? c. fejezetet). A fenti példára visszatérve: N Jövedelem, havi nettó MSZP SZDSZ MDF FIDESZ KDNP FKGP Munkáspárt MSZDP Egyéb párt Bizonytalan, nem szavazva 156 70 24 94 50 121 18 3 11 356-5 -

Percentilis Jövedelem, havi nettó MSZP SZDSZ MDF FIDESZ KDNP FKGP Munkáspárt MSZDP Egyéb párt Bizonytalan, nem szavazva 25 75 14850,00 28000,00 15897,25 36250,00 15000,00 29525,00 15600,00 31250,00 15025,00 25000,00 13053,00 25000,00 13000,00 25497,50 15000,00, 21000,00 35000,00 13000,00 24575,00 Jövedelem, havi nettó MSZP 22731,35 78200 13150,00 SZDSZ 29506,70 244400 20352,75 MDF 22629,42 37400 14525,00 FIDESZ 26873,47 162500 15650,00 KDNP 20355,46 37500 9975,00 FKGP 19869,89 62500 11947,00 Munkáspárt 20364,78 41400 12497,50 MSZDP 16233,33 3700, Egyéb párt 26118,18 31300 14000,00 Bizonytalan, nem szavazva 19595,47 98800 11575,00-6 -

Ellenőrizd a kvartilisek segítségével az interkvartilis terjedelem számítását! Interpretáld az értékeket! A terjedelemmel mérve az SZDSZ-en belüli változékonyság volt a legmagasabb, most megváltozott-e ez? Néhány esetben üres a kvartilis helye, mert nem számolható ez a statisztika. (pl. MSZDP, felső kvartilis). Miért nem számolható? Nézd meg az első táblázatban közölt mintabeli esetszámokat! Példa vagy interkvartilis terjedelem? Gyermekek száma anyák két különböző csoportjában. Gyermekek száma A Csoport B Csoport 0 1 2 3 4 5 6 7 8 9 10 Mi az A csoportra ill. a B csoportra számolt terjedelme a gyermekszám változónak? Mi az interkvartilis terjedelem értéke? Te melyik mutatót választanád ebben esetben? Doboz ábra (box-plot) A terjedelem, az interkvartilis terjedelem, a medián, a legkisebb és a legnagyobb érték ábrázolására szolgáló grafikus eszköz. Az interkvartilis terjedelmet egy dobozzal szemlélteti, ebben van meghúzva a medián, a legnagyobb és legkisebb értékek pedig egy-egy talppal vannak ábrázolva. A doboz elhelyezkedése a teljes talphoz viszonyítva, illetve a medián helyzete a dobozon belül információt ad az eloszlás szimmetrikus vagy ferde voltáról. Tökéletesen szimmetrikus eloszlás esetén a doboz és a medián is középen helyezkedne el. Fiktív példa a jövedelmi egyenlőtlenségek megyénkénti alakulására Magyarországon: 200000 Havi nettó jövedelem 100000 0 Budapest Szabolcs-Szatmar Megye Interpretáld az ábrát! Különbözik-e lényegesen a két megyében mért jövedelmi medián? Melyik megyében nagyobb a jövedelmi egyenlőtlenség (ha terjedelemmel mérem, ha interkvartilis terjedelemmel mérem)? Mit mondhatunk az eloszlások szimmetrikus voltáról? Ha nem szimmetrikus valamelyik: az alsó vagy a felső kvartilishez van közelebb a medián? Mit mutat ez? - 7 -

Megjegyzés: A box-plotnak több verziója létezik. Pl. az SPSS-ben implementált változat a mediánt, az interkvartilis terjedelmet ábrázolja, de a terjedelmet nem, ehelyett megad bizonyos feltételeknek megfelelő kiugró értékeket (outliers, extrems). A variancia és a szórás Ezek a mutatók is csak magas mérési szintű változók esetén használhatók. A fenti három mutatóval szemben ezek számolásakor az eloszlás összes értékét figyelembe vesszük, vagyis a teljes változékonyságot, nem csak a szélsők közötti távolságot mérik. A legelterjedtebb szóródás-mutatók, minden szoftver, még a zsebszámológépek többsége is képes megadni az értéküket. Azt mérik, hogy átlagosan mennyire térnek el az eloszlás értékei az átlagtól. Az átlagot használjuk centrális tendencia mutatóként, mert az is az eloszlás összes értékére érzékeny. (Hátránya, miszerint érzékeny egy-egy kiugró értékre, azáltal lényegében kiküszöbölődik, hogy átlagos eltérést számolunk. Nagyon ferde eloszlás esetén mégsem ajánlott, erről lásd a Hogyan válasszuk meg a megfelelő szóródás mutatót? c. fejezetet) A mutatók 0 értéke mellett nincsen szóródása a változónak (azaz minden értéke azonos). A mutatóknak csak pozitív értéke lehet; nagyobb érték nagyobb szóródást jelez. A variancia és a szórás egymásból számolhatók. Míg a variancia az átlagtól vett négyzetes eltérések átlagát adja, addig a szórás ennek négyzetgyökét: Variancia: S 2 Y,n ahol Y a változó, n a mintanagyság, y. az átlag. = i = 1..n (y - y.) n 2. Szórás: S Y,n = i = 1..n (y - y.) n 2. Miért a négyzetes eltéréssel definiáljuk az átlagtól vett eltérést? Ha egyszerűen csak az eltérést vennénk (y.-y), akkor a negatív ill. pozitív előjelű különbségek kioltanák egymást. Pl. a következő egyszerű eloszlás esetén, ahol a mintanagyság három: {1,2,3}, az eltérések összege Σ i=1..n (y-y.)=(1-2)+(2-2)+(3-2) = 1+0-1 = 0 lenne, így a variancia is 0 lenne, pedig van szóródása az értékeknek! Vehetnénk az eltérések abszolút értékének összegét is, az ugyanúgy csak pozitív értékeket ad, mint a négyzetre emelés. Az abszolút értékkel azonban matematikailag nehezebb bánni, ezért alkalmazzuk a négyzetre emelést. Egy másik lényeges különbség a két művelet között az, hogy a négyzetre emelés a nagy abszolút eltéréseket még nagyobbá teszi, vagyis a nagy eltéréseket jobban bünteti, mint az abszolút eltérés. Pl. a következő 3 elemű minta esetén {1, 3, 8}, az abszolút eltérések összege Σ i=1..n y-y. = 1-4 + 3-4 + 8-4 = 3+1+4, míg a négyzetes eltérések összege Σ i=1..n (y-y.) 2 = (1-4) 2 +(3-4) 2 +(8-4) 2 = 9+1+16. Példa a kiszámítására Vegyük az előbbi egyszerű példát, az {1, 3, 8}mintát. A variancia Σ i=1..n (y-y.) 2 /3 = (9+1+16)/3 = 26/3 = 8,7. Kérdés: Azt mondtuk, hogy a variancia 0 értéke mellett nincsen szóródása a változónak (azaz minden értéke azonos). Melyik szóródási mutatóra igaz még ez a fentiek közül? A szórás A variancia egyik problémája az, hogy négyzetes eltéréssel definiált, így nem a változó eredeti skáláján van kifejezve. Pl. az ISSP 1998-as felmérésében az egyéni havi nettó jövedelmek átlaga 31.000 Ft körül van, míg varianciája 587 millió, ami nehezen interpretálható érték. Ezért gyakran inkább négyzetgyökét, a szórást - 8 -

használjuk. Ebben a példánkban a szórás 24.246-nak adódik, ami könnyebben megfogható: azt mutatja, hogy átlagosan a jövedelmek nagymértékben szóródnak az átlag körül, hiszen maga a szórás értéke sincs messze az átlagtól. 1998, ISSP, Magyarország. A havi nettó jövedelem eloszlása Jövedelem Szórás Variancia 31062,54 24246,54 587894773 Igazán a szórás interpretálására két csoport vagy időpont összevetése esetén van lehetőség: Példa Első fordulós részvételi arány megyék szerint, 1990-ben ill. 2002-ben (forrás: KSH, Társadalmi helyzetkép, 2002). Megye 1990 2002 Budapest 71,2 77,5 Pest 63,3 70,6 Fejér 64,5 69,6 Komárom-Esztergom 64,5 71,0 Veszprém 70,9 72,6 Gy-M-S 76,4 73,9 Vas 76,8 74,2 Zala 69,3 70,7 Baranya 65,9 71,8 Somogy 62,5 68,0 Tolna 64,0 68,5 B-A-Z 61,0 68,0 Heves 65,3 70,1 Nógrád 62,6 69,3 H-B 56,3 66,0 J-N-Sz 59,0 66,7 Sz-Sz-B 53,8 65,8 Bács-Kiskun 60,7 65,0 Békés 54,6 66,9 Csongrád 63,4 67,3 Összesen 65,8 70,5 Számítsuk ki a megyei választási részvételi arányok szórást 1990-re, illetve 2002-re! = 2 (y - y.) i 1..n A képlet: SY,n =. n Első lépés: az átlag kiszámítása. Használhatjuk-e az országos részvételi arányt (65,8 ill. 70,5) átlagként? Nem. Az az érték nem egyezik meg a tényleges átlaggal. A tényleges átlag 1990-re: (71,2+63,3+..+54,6+63,4)/20 = 64,3. Ugyanez az érték 2002-re (77,5+70,6+..+66,9+67,3)/20 = 69,7. Behelyettesítve a képletbe, 1990-re a szórás [(71,2-64,3) 2 +(63,3-64,3) 2 + +(54,6-64,3) 2 +(63,4-64,3) 2 ]/n = 6,3. - 9 -

Míg a szórás 2002-re: [(77,5-69,7) 2 +(70,6-69,7) 2 + +(66,9-69,7) 2 +(67,3-69,7) 2 ]/n = 3,2. Interpretáld az átlagok és a szórások különbségét! 1990-ben mintegy 5%-kal alacsonyabb volt az átlagos megyénkénti részvételi arány, mint 2002-ben. Az 1990-re számolt szórás csaknem kétszerese a 2002-esnek, ami azt jelzi, hogy 2002-ben jóval homogénebb volt a megyénkénti részvételi arány. Megjegyzés Némely tankönyvben, így a Frakfort-Nachmias könyvben is a fenti mutatók nevezőjében n-1 szerepel n helyett. Megegyezés kérdése, hogy ki melyik definíciót használja. Mivel későbbi matematika és matematikai statisztika órákon az előbbi változat szerepel majd, itt is ahhoz tartjuk magunkat. Hogyan válasszuk meg a megfelelő szóródás-mutatót? A fentiekben öt különböző szóródási mutatót tárgyaltunk: a KVI-t, a terjedelmet, az interkvartilis terjedelmet, a varianciát és a szórást. Mikor melyiket válasszuk? A válaszadás, akárcsak a centrális tendencia mutatók esetén, több szempont együttes figyelembe vételével történik. Az alábbi döntési fa a szóródási mérőszám megválasztásának folyamatát mutatja be. Nem kötelező érvényű a betartása, inkább csak a lehetséges problémákra hívja fel a figyelmet. Néhány megjegyzés: magas mérési szintű változó esetén, ha az eloszlás nagyon ferde, az átlag nem reprezentálja megfelelően a centrális tendenciát, így a variancia vagy a szórás megadása félrevezethető lehet. ordinális mérési szintű változó esetén a KVI használata információvesztést eredményez, hiszen nem vesz tudomást a kategóriák rendezéséről ordinális mérési szintű változó esetén az interkvartilis terjedelem használata megkérdőjelezhető, hiszen a két kvartilis távolságát, azaz két érték különbségét adja, pedig a különbségképzés ordinális mérési szint mellett nem alkalmazható. A kompromisszum az, hogy az interkvartilis terjedelmet mint a rendezett értékek középső 50%-át tartalmazó sávot interpretáljuk, és óvatosan használjuk csak két ordinális változó szóródásának összevetésére (csak akkor, ha azok hasonló dolgokat mérnek hasonlóan kódolva, pl. véleménykérdések azonos számú, azonosan címkézett válaszkategóriával) - 10 -

A szóródási mutató megválasztása Mérési szint Nominális Ordinális Intervallum-arány KVI (az eloszlás változékonysága) Kutatási kérdés: Az eloszlás alakja: A teljes eloszlás változékonysága, a rendezést ignorálva: KVI A rendezett kategóriák középső, 50%-os terjedelmének meghatározása: INTERKVARTILIS TERJEDELEM Inkább szimmetrikus. Kutatási kérdés: Nagyon ferde: TERJEDELEM INTERKVARTILIS T. A változékonyság durva mérése: TERJEDELEM INTERKVARTLIS T. A teljes eloszlás változékonysága: VARIANCIA SZÓRÁS - 11 -

Speciális szóródási mutatók Decilis-hányados A terjedelemmel összevetve kiegyensúlyozottabb, egy-egy szélső értékre nem érzékeny index (akárcsak az interkvartilis terjedelem). Intervallum-arányskála mérési szint mellett használható. Leggyakrabban jövedelmi egyenlőtlenségek mérésére alkalmazzák. Definíciója: a 10. decilisbe tartozókra (azaz a 90. percentilis felettiekre) számolt átlagnak és az 1. decilisbe tartozókra számolt átlagnak hányadosa. Az interkvartilis terjedelemhez képest inkább koncentrál a magas ill. alacsony értékekre. Ezért jó eszköz pl. az ilyen szempontból definiált jövedelmi egyenlőtlenségek (kb.: a társadalom legjobban kereső tizedének és legrosszabbul kereső tizedének távolsága) mérésére. Példa a kiszámítására Vegyük az alábbi, 30 elemű fiktív mintát, jövedelem szerint rendezve: 1. 42 720 2. 43 866 3. 45 821 4. 49 418 5. 49 781 6. 50 975 7. 53 739 8. 57 693 9. 69 131 10. 89 341 11. 111 940 12. 137 045 13. 150 307 14. 156 443 15. 156 498 16. 208 115 17. 227 996 18. 235 034 19. 249 609 20. 262 369 21. 300 046 22. 328 424 23. 348 137 24. 351 597 25. 362 036 26. 368 305 27. 372 850 28. 447 664 29. 449 088 30. 484 355 Az alsó decilisre számolt átlag (42 720+43 866+45 821)/3=44 802, míg a felső decilisre számolt átlag (447 664+449 088+484 355)/3=460 369. Tehát a decilis-hányados 460369/44802=10-12 -

Példa Több kutatás alátámasztja (pl. Kolosi: A terhes babapiskóta), hogy Magyarországon a rendszerváltás körüli időszak óta folyamatos jövedelmi egyenlőtlenség növekedés figyelhető meg. Az alábbi adatok is ezt támasztják alá (forrás: KSH, Társadalmi helyzetkép, 2002). Háztartások jövedelmi egyenlőtlenségének változása az egy főre jutó nettó jövedelem alapján számolt decilis hányados alapján 12 10 8 6 4 2 0 A háztartásfő aktív kereső A háztartásfő vezető beosztású A háztartásfő vállakozó ill. önálló 1987 1995 Interpretáld az ábrát! Gini együttható A Gini együtthatóként ismert szóródás-mutatót leggyakrabban jövedelmi vagy más típusú egyenlőtlenség mérésére használják, főként közgazdasági területeken (gazdaság-szociológia, egészség-közgazdaságtan stb.) Az index az eloszlás teljes terjedelmét figyelembe veszi szemben a percentilis-típusú indexekkel (mint az interkvartilis terjedelem vagy a decilis-hányados). A Gini értékkészlete a [0;1] intervallum. 0 az értéke, ha a populáció minden tagja azonos jövedelemmel rendelkezik, tehát tökéletes az egyenlőség. Értéke 1, ha minden jövedelem egyetlen személy kezében összpontosul, azaz teljes egyenlőtlenség esetén. A 0,4 körüli Ginit már viszonylag jelentős egyenlőtlenségként interpretálhatjuk. A Gini-index szemléletesen interpretálható a Lorenz-görbe segítségével, ugyanakkor a görbe maga is az egyenlőtlenség leírásának - a Gini-nél komplexebb - eszköze. A görbe az alacsonyabb jövedelmek irányából kumulált népesség és az általuk birtokolt jövedelmi hányad kapcsolatát mutatja. Az 1. ábrán látható Lorenzgörbe szerint például a lakosság alacsonyabb jövedelmű 50%-a birtokolja a populációs összjövedelem 30%-át. Tökéletes egyenlőség esetén a görbe 45 0 os dőlésszögű egyenesként jelenne meg. A Gini az aktuális görbe és a tökéletes egyenlőség esetén megfigyelhető görbe által bezárt terület nagyságának kétszerese. (Az adatok forrása az Országos Lakossági Egészségfelmérés (OLEF2000). A jövedelmet az egy főre jutó havi nettó háztartási jövedelemmel definiáltuk.). Esettanulmány Jövedelmi egyenlőtlenségek Magyarországon Az országos szinten jelentkező jövedelmi egyenlőtlenségeket szemlélteti az 1. ábra Lorenz-görbéje. A görbéből számol GINI értéke országos szinten 0,31. Összevetésképpen: a 90-es években Latin-Amerikában volt a Gini értéke a legmagasabb (0,5 körüli átlaggal), az iparosodott nyugati államokban 0,35 körül mozgott, míg a legalacsonyabb a kelet-európai államokban volt 0,25 körüli átlagos értékkel. - 13 -

1. ábra: Lorenz görbe, országos 1,00 0,80 összjövedelem kumulatív aránya 0,60 0,40 0,20 aktuális tökéletes egyenlőség esetén 0,00 0,00 0,20 0,40 0,60 0,80 1,00 populáció jövedelem szerint rendezve A jövedelmi egyenlőtlenségek mértékét vélhetően nagyban befolyásolja a populációnak a jövedelmek meghatározásában szerepet játszó tényezők, mint az életkor, az iskolai végzettség vagy a foglalkozás szerinti összetétele. Az alábbi ábrán látható, hogy az egyenlőtlenség korcsoportonként igen különböző mértékben jelenik meg, leghangsúlyosabb a fiatalok, legkisebb az idősek között. A GINI értéke ennek megfelelően az életkorral csökken, ahogyan csökken az iskolai végzettség alacsonyabb foka felé haladva is. A foglalkozási kategóriákat tekintve a segéd- és betanított munkások között a legkisebb, és a foglalkozások presztízssorrendjét követve fokozatosan nő. A legnagyobb különbség az életkori bontásban jelenik meg. A különbség érzékeltetése végett: az idősekre érvényes 0,18-as GINI kisebb, mint valaha az utóbbi 40 évben országos szinten volt, míg a fiatalok 0,36-os együtthatója a nyugat-európai államokra jellemző. Legfeljebb 8 általános Középfokú érettségi nélkül Érettségi Felsőfokú 0,24 0,27 0,29 0,34 0,00 0,10 0,20 0,30 0,40 Iskolai végzettség - 14 -

65+ 0,18 35-64 0,31 18-34 0,36 0,00 0,10 0,20 0,30 0,40 Korcsoport Betanított- vagy segédmunkás Szakmunkás Egyéb szellemi Értelmiségi 0,24 0,27 0,30 0,33 0,00 0,10 0,20 0,30 0,40 Foglalkozás - 15 -