http://statisztika.szoc.elte.hu/tarsstat Társadalomstatisztika, 003/004 I. félév. November 5. Mai tematika: Változók közötti kapcsolat III.: a folytonos eset. Regresszió és korreláció. Bevezetés Együttes eloszlás Ábrázolás (scatter plot, pontdiagram) Lineáris kapcsolat 5 Nemlineáris kapcsolat 8 Determinisztikus/sztochasztikus kapcsolat 8 Összefüggés jellemzése 0 A legjobban illeszkedő egyenes megtalálása (lineáris regresszió) 0 Kovariancia, (Pearson-) korreláció 3 Esetek amikor a korreláció és a lineáris regresszió nem használható 4 Irodalom: Frankfort-Nachmias 349-439. Lásd még: Rövid összefoglaló: Babbie, Earl: A társadalomtudományi kutatás gyakorlata. Balassi kiadó, Budapest 995. pp. 498-503. Háttéranyag a megértéshez: zékelyi Mária - Barna Ildikó: Túlélőkészlet az P-hez - Többváltozós elmezési technikákról társadalomkutatók számára. Typotex kiadó, Budapest, 00. pp 04-. A lineáris regresszió társadalomtudományi használatáról szóló kötet: Moksony Ferenc: Gondolatok és adatok - Társadalomtudomáyni elméletek empirikus ellenőrzése. Osiris Kiadó, Budapest, 999. Változók közötti kapcsolat III.: a folytonos eset. Regresszió és korreláció. Bevezetés Az elmúlt két alkalommal az alacsony mérési szintű változók összefüggését vizsgáltuk. Ma a magas mérési szintű változók esetén kíséreljük meg ugyanezt. Mit jelent a magas mérési szint? Intervallumskála. A fenti példával szemben itt ismerjük a szomszédos értékek távolságát, de nincs abszolút 0 pont (szokásos példa a Celsius-fok); a zérus megválasztása esetleges (víz fagyáspont). Ilyen az IQ-pont is: 00 vs. 00 pont: nem kétszer okosabb. Arányskála. Van abszolút 0 pont is (mint Kelvin-fok). Itt már van értelme az osztás műveletnek is. Ilyen pl. súly, magasság, jövedelem. Emlékeztetőül azok a kérdések, amelyeket az összefüggések vizsgálatánál feltettünk:. Van-e kapcsolat?. Milyen erős? 3. Milyen irányú?
Mint később látni fogjuk más kérdéseket is fel kell tennünk a magas mérési szint esetén. Együttes eloszlás Ahogy az alacsony mérési szint esetén, úgy a magas mérési szintű változóknál is, az összefüggés vizsgálatát az együttes eloszlás vizsgálatával kezdjük. Mit jelent magas mérési szintű változóknál az együttes eloszlás? Legjobban úgy tudunk erről képet alkotni, ha valamilyen módon ábrázoljuk leírjuk. Ábrázolás (scatter plot, pontdiagram) Emlékezzünk vissza arra, hogy az alacsony mérési szintű változók esetén az együttes eloszlást jól vizsgálhattuk kereszttáblák segítségével. Működik-e ez a módszer a magas mérési szintű változók esetén is? Nézzük meg például az életkor és a jövedelem együttes eloszlását Magyarországon 995-ben :
Count R: Earnings I 500 3000 300 3500 3900 4000 4600 4730 5760 5800 6070 600 600 670 6300 6600 6640 6700 670 6800 6985 7000 700 700 7400 7500 7570 7600 7650 7700 7800 7900 8000 8040 800 860 800 850 8300 830 8400 8500 8600 8700 8900 9000 900 900 9400 9500 9600 9700 9750 9800 9979 0000 0050 0084 006 007 000 0400 0500 0600 0644 0700 0750 0800 0900 000 00 50 300 37 380 500 600 700 800 900 000 004 00 47 00 50 300 400 500 506 550 600 800 840 900 3000 300 3030 300 360 300 3400 3500 3536 3600 8 9 0 3 4 5 6 7 8 9 30 3 3 33 34 35 36 37 38 39 40 4 4 43 3
Úgy tűnik több okból sem célszerű a kereszttáblás ábrázolás: - a tábla áttekinthetetlenül nagy lesz - sok az esethiányos cella - cellánként túl alacsony az esetszám - összességében nem tudunk válaszolni az előbb feltett kérdésekre Célszerűbb valamilyen ábrát használni az adatok első áttekintéséhez, értékeléséhez. Életkor és jövedelem együttes eloszlása 300000 IP 95, Magyarország 00000 00000 Jövedelem 0-00000 0 0 40 60 80 00 Életkor Ezt az ábrát pontdiagramnak vagy angolul scatterplot-nak nevezzük. Első áttekintés előtt néhány szokásos jelölés: y (függőleges) tengely: ha értelmezhető akkor általában a függőváltozó x (vízszintes) tengely: ha értelmezhető akkor általában a független változó Minden egyes pont (itt négyzet) egy esetet jelöl. Mit olvashatunk le az ábrából? - a változók terjedelmét (minimumát és maximumát) - az összefüggés tendenciáit (hiányát/meglétét, irányát, alakját) - kiugró (a tendenciától eltérő) eseteket A kapcsolat jellemzéséhez meg kell állapítanunk, hogy látunk-e valamilyen összefüggést a két változó között az együttes eloszlás alapján. Ehhez ismételjük át két változó összefüggésének / függetlenségének fogalmát! Alacsony mérési szintű változó esetén ezt a definíciót adtuk: Azt mondjuk, hogy kapcsolat van a két változó között, ha a függő változó eloszlása más és más a független változó különböző kategóriáin belül nézve. Két változó függetlensége esetén tehát a függő változó eloszlása azonos a független változó különböző kategóriáin belül.
(Amennyiben nem különböztetünk meg függő és független változót akkor az egyik, illetve másik változó kifejzés használható) Megjegyzés: a függetlenség szimmetrikus tulajdonság Magas mérési szint esetén a függetlenséget így definiálhatjuk: A függő változó feltételes eloszlása azonos a független változóra, mint feltételre nézve. Kevésbé precízen fogalmazva a függő változó bármely értékénél a független változó hasonló értékeket vesz fel. Lássuk ismét a korábbi ábránkat az életkor és a jövedelem összefüggéséről! Független-e a két változó? Életkor és jövedelem együttes eloszlása 300000 IP 95, Magyarország 00000 00000 Jövedelem 0-00000 0 0 40 60 80 00 Életkor Nézzük ugyanezt az adatot olyan módon, hogy most a 50 000 Ft feletti, illetve 0 Ft-os jövedelmeket nem tekintjük! Most egy kicsit tisztábban látjuk, hogy a két változó nem független egymástól. Hogyan lehetne jellemezni a két változó kapcsolatát? Lineáris kapcsolat Két magas mérési szintű változó közötti kapcsolat lineáris, ha a független váltózó egységnyi emelése mellett a függő változó várható értéke minden esetben azonos mértékben és irányban változik. Két magas mérési szintű változó kapcsolata jellemezhető azzal az egyenessel (és annak tulajdonságaival), amelyre az adatok illeszkednek (ha ilyen egyenes létezik). Illesszünk egyenest a fenti ábrába!
Az illesztett egyenest ( az illesztés módjával az óra későbbi részében foglalkozunk) két paraméterrel jellemezhetjük: - a meredekséggel - és az y tengely metszéspontjával Az egyenes egyenlete általános esetben (emlékeztetőül a középiskolai matematika órák nyomán): y = a + bx ahol a b az a pont, ahol az egyenes metszi az y tengelyt (y értéke, amikor x=0) az egyenes meredeksége, azaz az egységenkénti emelkedése (ha az x tengelyen -et lépünk jobbra hányat kell lépni az y-on) Mit jelent a meredekség? Jellemzi az összefüggés irányát és mértékét: - negatív meredekség: fordított irányú összefüggés (minél nagyobb a független változó értéke, annál kisebb a függőé) - pozitív meredekség: egyenes irányú összefüggés - zérus meredekség: függetlenség - a meredekség abszolút értéke jellemzi a hatás erősségét Nézzük meg a következő két ábrát és a hozzájuk tartozó egyenleteket!
A két - azonos adatok alapján készült és ránézésre azonos - ábra arra hívja föl a figyelmet, hogy a meredekség számszerű értéke függ a mértékegységtől (itt év / évtized) így csak annak ismeretében alkalmas összehasonlításra. Mit jelent az y-tengely metszéspont (intercept)? Ha a független változó értéke nulla lenne, akkor ennyi lenne a függőváltozó értéke. Végül mit mondhatunk el az életkor és a jövedelem kapcsolatáról az eddigi ismeretek birtokában? Nemlineáris kapcsolat Az életkor és a jövedelem közötti összefüggés másképpen is bemutatható: Az ábrán egy itt most nem ismertetett eljárással görbét illesztettünk az együttes eloszlásra. Ebből a görbéből jól látszik, hogy az egyes korcsoportokon belül más és más a tapasztalható összefüggés: - 8-50 év között a jövedelem szinte egyenletesen emelkedik - 50-60 év között egyenletesen csökken - 60 év fölött az életkor és a jövedelem között nem látszik összefüggés Determinisztikus/sztochasztikus kapcsolat Két változó kapcsolatára jellemző, hogy függvényszerű vagy csak valószínűsíthető. Nézzük meg az alábbi példákat!
(Az ábrák fiktív, véletlenszerűen generált adatokat tartalmaznak, a generálás alapja a korábban bemutatott valós adatok voltak) Az ábrákat összehasonlítva látszik, hogy determinisztikus kapcsolat esetén a kapcsolat erősségéből (meredekség) és a függetlenváltozóból pontosan megadható a függőváltozó értéke, míg sztochasztikus kapcsolat esetén csak a legvalószínűbb értéket ismerjük. A determinisztikus kapcsolatot más néven függvény szerű kapcsolatnak is nevezik. Milyen kapcsolat típus lehet domináns a társadalomtudományokban? A társadalomtudományi kutatásokban lényegében csak sztochasztikus kapcsolatokkal találkozhatunk. Ez annak köszönhető, hogy a társadalmi folyamatokat általában több tényező is befolyásolja, mely tényezők az adott két változó kapcsolata szempontjából zajként, hibaként jelentkeznek. Összefüggés jellemzése Az eddig elmondottak alapján már nagyjából le tudjuk írni két magas mérési szintű változó kapcsolatát, azonban nehézségekbe ütköznénk, ha pontos számmal kellene jellemeznünk a kapcsolat erősségét (ilyen szám volt az alkalmazható egyenes meredeksége, de homályban hagytuk mindeddig, hogy hogyan kaphatjuk meg az egyenest magát). Az óra hátralevő részében arról lesz szó, hogy milyen módon jellemezhető egyetlen számmal két magas mérési szintű változó kapcsolata, illetve mik az ilyen jellemzés korlátai. A legjobban illeszkedő egyenes megtalálása (lineáris regresszió) A legjobb egyenes megtalálásához valamilyen módon minimalizálnunk kell az egyenes és az adatokat reprezentáló pontok távolságát (azaz az egyenes illeszkedését kell maximalizáljuk). Ennek egyik lehetséges módja, ha a négyzetes távolságot minimalizáljuk a függő változó mentén. Ezt az elvet a legkisebb négyzetes eltérés módszerének nevezzük (angolul: least squares method) Illusztráció: Év Munkanélküliségi ráta (gazd. akt. %-a) Bűnözési ráta (00 ezer főre) 99 9,9 433 993, 3895 994 0,8 3795 995 0,3 4908 996 0 457 997 8,8 5066 998 7,8 5939 999 7 5009 000 6,4 4496 00 5,7 457
Magyarázat: a körök jelzik az adatokat (0 megfigyelésünk van), a vörös vonal a regressziós egyenes, a fekete tüskék az eseteket reprezentáló pontok és az egyenes közötti távolságot jelölik, azt a távolságot, amelynek a negyzetösszegét minimalizáltuk. A lineáris regressziót a regressziós egyenlettel jellemezhetjük: y = a + bx ahol a, b a regressziós együtthatók y regressziós becslés a függőváltozóra Az a és b együtthatók megahatározásánál a következő érték minimalizálására törekszünk: ( y y)
Bizonyítható (ettől itt eltekintünk), hogy akkor lesz minimális a fenti eltérés négyzet, ha b = yx x = a = y bx ahol N N i= ( x x)( y i N i= i ( x x) y) ( xi x)( yi y) i= yx = N a két változó kovarianciája N ( x x) i= x = N a független változó varianciája (a képletek csak illusztrációs célt szolgálnak, a matematikai statisztika című tárgyból kerülnek levezetésre) Visszatérve az munkanélküliség és a bűnözés kapcsolatára a következő eredményt kaptuk: a = 599 b = - 4 Mit jelent ez? A b értelmezése: a munkanélküliségi ráta százalékpontos növekedése a 00 ezer főre vetített bűnözési ráta 4 esettel történő csökkenésével jár Az a értelmezése: ha a munkanélküliségi ráta 0 lenne a bűnözési ráta 00 ezer főre vetítve 599 eset lenne. Megjegyzés: a lineáris regresszió együtthatói aszimmetrikus mérőszámok, értékük függ attól, hogy melyik változót választjuk függőváltozónak. Az egyenes illeszkedésének mértéke: r (determinációs együttható) A regressziós együtthatók becslésén túl fontos, hogy megállapítsuk az egyenes mennyire illeszkedik az adatokhoz. Ennek egyik jellemző mértéke a becslés négyzetes hibája: E = ( y y) Gyakrabban használt mérőszám azonban a determinációs együttható, amely a becslés hibacsökkentő hatásának vagy másként a megmagyarázott szórásnak a jellemző mutatója: r = ( y y) ( y y) ( y y) A determinációs együttható értéke 0 és közé esik és megmutatja, hogy a függő változó szórásának mekkora részét magyarázta meg a független váltózóval mérhető kapcsolata. A fenti példában a determinációs együttható értéke 0,3 volt, ami társadalomtudományi adatok esetén jó magyarázóerőnek számít.
Kovariancia, (Pearson-) korreláció Két magas mérési szintű változó összefüggésének vannak más gyakran használt mutatószámai is. Az egyik ilyen a kovariancia (már említettük, amikor a regressziós egyenlet együtthatóit számoltuk). Képlete: yx = N i= ( x i x)( y N i y) A kovariancia a két változó együtt vagy ellentétes változását írja le. zimmetrikus mérőszám. Értéktartománya a változók szórásának függvénye (nyers mutató). A kovariancia rossz tulajdonsága az, hogy értéke függ a változók szórásától, így nehezen összehasonlíthatóak a mért eredmények. A kovarianciából továbbszámolható mérőszám a korreláció. Kiszámítása: r = x yx y ahol x, y a változók szórásai A korreláció értéke - és + közé esik. zimmetrikus mérőszám. Megjegyzés: nem véletlen a jelölések azonossága, a regresszió determinációs együtthatója és a korreláció egymásból számítható mérőszámok.
Esetek amikor a korreláció és a lineáris regresszió nem használható Mikor nem használhatóak a fenti eljárások? - ha nem lineáris a kapcsolat (korábban is láttunk hasonlót)
- ha extrém esetek vannak a mintában Láthatjuk, hogy egyetlen extrém eset képes jelentős összefüggés látszatát kelteni egy olyan populáció esetén, amelyben egyébként nem lenne összefüggés. Jó tanács: ha magas mérési szintű változókkal dolgozunk mindig készítsünk pontdiagrammot, amely alapján kialakíthatunk egy elsődleges benyomást az adatokról. Megjegyzés: a lineáris regresszió alkalmazásának vannak matematikai követeleményei is: - a függőváltozó független változó minden értékére vett eloszlásának normálinak kell lennie és azonos szórásúnak Összefoglalás Ma tanult fogalmak: Pontdiagram Determinisztikus / sztochasztikus összefüggés Lineáris kapcsolat Nem lineáris kapcsolat Lineáris regresszió Kovariancia Pearson (momentumszorzat) korreláció