Kvantitatív statisztikai módszerek 1. konzultáció tárgyjegyző Dr. Szilágyi Roland
Mérési skálák Számok meghatározott szabályok szerinti hozzárendelése jelenségekhez, bizonyos tulajdonságokhoz. 4 féle szabály alapján (erősségi fokozat szerint): - nominális skála - sorrendi skála - intervallum skála (különbség skála) - arány skála
1. Nominális skála (névleges) Számok kötetlen hozzárendelése Területi, minőségi ismérvek megfigyelésekor A szám csak azonosító Pl. rendszám, irányítószám Pl: kódolás: Szőke: 1, barna:, vörös: 3, fekete: 4 Férfi: 1, nő:
. Ordinális, sorrendi skála A sokaság egyedeinek egy közös tulajdonság alapján való sorba rendezése. A skálán az egyes egyedek nem feltétlen egyforma távolságra helyezkednek el egymástól. Pl. hallgatók osztályzata, országok hitelképességének sorrendje
3. Intervallum skála A két adat különbsége értelmezett, valós adat. Zérus pontja önkényes. A zérus pont nem jelenti azt, hogy az adott egyed nem rendelkezik az adott tulajdonsággal. De: nem értelmezhető a két adat összege, aránya, különbsége. Pl. Celsius fok
4. Arány skála A legerősebb mérési skála Zérus pontja természetesen adódik Bármely két érték aránya független a mértékegységtől Értelmezhető a két adat összege, aránya is Pl. hosszúság, pontszám
Összefüggés vizsgálat
Két változó közötti kapcsolat Független: Az X ismérv szerinti hovatartozás ismerete nem ad semmilyen többletinformációt az Y szerinti hovatartozásról. Sztochasztikus: Az egyik ismérv hatással van a másikra, de nem határozza meg egyértelműen annak értékeit/változatait. Függvényszerű (determinisztikus): A vizsgált egységek X szerinti hovatartozásának ismeretében egyértelműen megmondható azok Y szerinti hovatartozása is.
Sztochasztikus kapcsolatok fajtái Asszociáció (mindkét ismérv minőségi/területi ismérv, nominális skálán mérve). Vegyes (egyik ismérv mennyiségi, másik területi/minőségi, intervallum/arány és nominális skálán mérve. Korreláció (mindkét ismérv mennyiségi, intervallum/arány skálán mérve). Rangkorreláció (mindkét változó sorrendi skálán mérhető).
Az összefüggés vizsgálat eszközei Két nominális változó közötti kapcsolatot az asszociációs mérőszámokkal jellemezzük. Ordinális típusú változók összefüggését a rangkorrelációs mutatók mérik. Arány skála típusú változók összefüggését korreláció- és regresszió-analízissel elemezzük. Intervallum/arány és nominális skálán mért változók közötti összefüggést H;
A kapcsolatszorossági mutatókkal szemben támasztott követelmények Egyértelmű definíció Zárt intervallumban mozogjon Célszerű, ha: 0 < mutató < 1 0: teljes függetlenség 1: függvényszerű (determinisztikus) a kapcs. Monotonitás
Cramer asszociációs együttható B P A P B A P n f f f f f f χ 1 t 1 s n χ T j i * i r 1 i * i * i i A függetlenség feltételezésével számított gyakoriságokból indul ki. Csuprov mutató
T max 4 s 1 s t t 1 Cramer mutató C T T max n χ s 1
Egy vállalat dolgozóinak szakképzettség szerinti csoportosítása Szakképzettség Férfiak (fő) Nők (fő) Összesen (fő) Clerical 06 157 363 Custodial 0 7 7 Manager 10 74 84 Összesen 16 58 474
Output Symmetric Measures Nominal by Nominal N of Valid Cases Phi Cramer's V a. Not assuming the null hy pothesis. b. Value Approx. Sig.,409,000,409,000 474 Using t he asy mptotic standard error assuming the null hy pothesis. 0 C 0,3 gyenge kapcsolat 0,3 C 0,7 közepesen erős kapcsolat 0,7 C 1 erős kapcsolat Közepesen erős a kapcsolat a nem és a munka típusa között.
Output A nők 4,6%-a menedzser. A dolgozók 33,1%-a férfi hivatalnok. Minden custodial férfi. Elemszám (itt: dolgozói létszám)
Vegyes kapcsolatok szorosságának elemzése Szóráshányados: a kapcsolat szorosságának mérőszáma S k σk Szórásnégyzet-hányados: A mennyiségi ismérv szóródását mennyiben befolyásolja a csoportosító ismérv szerinti hovatartozás. H=H =0 függetlenség H=H =1 függvényszerű (determinisztikus) kapcsolat H H S Sk S σ σ σ k
H SS SS K σ σ K Szóráshányados: a kapcsolat szorosságát 0-1 közötti értékkel méri Vegyes kapcsolat vagy Ahol: H = H = 0 - függetlenség (nincs kapcsolat) H = H = 1 - függvényszerű kapcsolat 0 H 1 - sztochasztikus kapcsolat 0 H 0,3 gyenge kapcsolat 0,3 H 0,7 közepesen erős kapcsolat 0,7 H 1 erős kapcsolat 0 H 1 H SS SS K σ σ K Megmutatja, hogy a csoportosító (minőségi/területi) ismérv milyen hányadban, hány százalékban magyarázza a vizsgált mennyiségi ismérv szóródását.
Output Current Salary Gender Female Male Total Report Mean N Std. Dev iation $6,031.9 16 $7,558.01 $41,441.78 58 $19,499.14 $34,419.57 474 $17,075.661 Ez a táblázat a függő változó (current salary) középértékeit & szóródási mutatóit mutatja a független változó (nem) szerint csoportosítva. ANOVA Table Current Salary * Gender Between Groups Within Groups Total (S) (S B ) (Combined) (S K ) Sum of Squares df Mean Square F Sig.,8E+010 1,79E+010 119,798,000 1,1E+011 47 33046530,5 1,4E+011 473 Measures of Association Current Salary * Gender Közepesen erős a kapcsolat a nem és a jelenlegi fizetés között. H Eta Eta Squared,450,0 H S S K %; hány százalékban magyarázza a független változó (nem) a függő változó (fizetés) szóródását
Korrelációs kapcsolat elemzése Van-e összefüggés az ismérvek között? Milyen irányú az összefüggés? Mennyire szoros a kapcsolat? Az egyik ismérv változása milyen hatással van a másik ismérv változására?
Alapfogalmak I. A mennyiségi ismérvek közötti kapcsolatot korrelációnak nevezzük. A korrelációszámítás: a mennyiségi ismérvek közötti kapcsolat szorosságának mérése. A regressziószámítás: a mennyiségi ismérvek egymásra gyakorolt hatásának számszerűsítésével, e hatások irányának és mértékének megállapításával foglalkozik.
Alapfogalmak II. Ha a korreláció mögött egyirányú okozati összefüggés állapítható meg: az ok szerepét betöltő ismérvet tényezőváltozónak, magyarázó-, független változónak (X), az okozat szerepét játszó ismérvet pedig eredményváltozónak, függő változónak (Y) nevezzük.
A korreláció fontosabb típusai
Korreláció hiánya A regresszió-függvény bármely X helyen azonos (közel azonos) értéket vesz fel. A függvény képe vízszintes vonal. ( Y független X-től, X nem befolyásolja Y értékét.)
A korreláció hiánya Y = - 7. 4 E - 0 + 0. 0 8 3 4 8 X 3 R - S q = 3. 4 % 1 0-1 - - 3 - - 1 0 1 N i n c s k o r r e lá c i ó
Függvényszerű kapcsolat A korreláció hiányának logikai ellentéte a függvényszerű kapcsolat. Egy adott X értékhez csupán egyetlen Y érték tartozhat. Ilyenkor a pontdiagram pontjai a regresszió-vonalhoz illeszkednek, azaz a regresszióvonal körül nincs szóródás.
Pozitív korreláció Általában a regressziógörbe körül van szóródás. A regressziógörbe alakja a korreláció tartalmát fejezi ki. Ha nagyobb X értékekhez általában nagyobb Y értékek tartoznak, vagyis a tényezőváltozó növelése az eredményváltozó nagyságát növeli.
Pozitív korreláció Y = -8. 6 E -0 + 0. 6 9 0 8 6 X 3 R -S q = 6. 5 % 1 0-1 - - 3-3 - - 1 0 1 3 P o z i t ív k o r r e l á c i ó
Negatív korreláció Az előbbi kapcsolat ellentéte természetesen a negatív korreláció, amelyet a regressziófüggvény ugyancsak szemléletesen jelez.
Negatív korreláció Y = 5. 0 7 E - 0-0. 6 4 7 8 7 X 3 R - S q = 7 0. 9 % 1 0-1 - - 3-3 - - 1 0 1 3 N e g a t ív k o r r e lá c i ó
Görbevonalú kapcsolat A lineáristól eltérő típust görbe vonalú (nemlineáris) kapcsolatnak nevezzük. A nemlineáris kapcsolatok egy részénél továbbra is van értelme pozitív, vagy negatív irányzatról beszélni, feltéve, hogy a görbe monoton növekvő, illetve csökkenő irányzatot mutat az értelmezési tartományon belül. Nem lehet azonban pozitív vagy negatív irányról beszélni, ha a regresszió irányt változtat.
Görbevonalú kapcsolat Y = 1. 0 9 5 8 + 6. 0 7 6 8 4 X + 1. 1 6 6 8 6 X * * 4 0 R - S q = 8 8. 4 % 3 0 0 1 0 0-3 - - 1 0 1 3 N e m l i n e á r i s k o r r e lá c i ó
A kapcsolat szorosságának mérőszámai
A kovariancia Az X és Y mennyiségi változók közötti kapcsolat irányát mutatja meg. A megfelelő átlagtól vett ( x - x) és ( y - y) eltéréseken alapszik. C = d x d n -1 y = xy n -1 - x y C r s x s y
Kovariancia tulajdonságai A kovariancia nulla, ha a pozitív és a negatív előjelű eltérésszorzatok összege kiegyenlíti egymást. Kovariancia előjele a kapcsolat irányát mutatja. A kovariancia abszolút mértékének nincs határozott felső korlátja. A kovariancia a két változóban szimmetrikus, X és Y szerepe a formulában felcserélhető.
Dolgozó Egy vállalat dolgozóinak keresete és havi megtakarítása Bér (Ft/fő) Havi megtakarítás (Ft/hó) d x d y d x d y d x d y 1 10000 13000-13000 -3010 39130000 169000000 9060100 90000 10000-43000 -6010 58430000 1849000000 3610100 3 0000 35000 87000 18990 165130000 7569000000 36060100 4 150000 18000 17000 1990 33830000 89000000 3960100 5 100000 1000-33000 -4010 13330000 1089000000 16080100 6 115000 1500-18000 -3510 63180000 34000000 130100 7 160000 0000 7000 3990 107730000 79000000 1590100 8 130000 13800-3000 -10 6630000 9000000 4884100 9 145000 14000 1000-010 -410000 144000000 4040100 10 100000 11800-33000 -410 138930000 1089000000 1774100 Összesen 1330000 160100 0 0 40800000 1360000000 48079000
Kovariancia C = d x d n -1 y = xy n -1 - x y 40800000 9 67577777,8 Értelmezés: a dolgozók keresete és a havi megtakarított összege közötti kapcsolat pozitív irányú.
A korrelációs együttható A korrelációs együttható a lineáris korreláció szorosságának legfontosabb mérőszáma. A kapcsolat hiányát (korrelálatlanság) az r = 0 érték jelzi. Az r előjele a korreláció irányát mutatja. Tökéletes (függvényszerű) lineáris kapcsolatnak - az iránytól függően - az r = +1, illetve r = -1 értékek felelnek meg. A szélsőséges helyzetek között az együttható abszolút értéke a kapcsolat szorosságáról tájékoztat.
Lineáris korrelációs együttható (Pearson) d d = xy - n x y x y d = x n x x d = y n y y ) )( ( y x y x y x y n y x n x y x xy- n d d d d C = r s s
Lineáris korrelációs együttható Dolgozó Bér (Ft/fő) Havi megtakarítás (Ft/hó) d x d y d x d y d x d y Összesen 1330000 160100 0 0 40800000 1360000000 48079000 r = s x C dxd y s y dx d y 40800000 1360000000 48079000 0,954 Értelmezés: a dolgozók keresete és a havi megtakarított összege közötti kapcsolat pozitív irányú és erős.
Determinációs együttható A determinációs együttható megmutatja, hogy a magyarázóváltozó hány %-ban befolyásolja az eredményváltozó szóródását. Jele: r A determinációs együttható jellemzi: A regressziós függvény illeszkedését, A modell magyarázó erejét.
Determinációs együttható r 0,954 0,9098 90,98% Értelmezés: a dolgozók keresete 90,98%- ban befolyásolja a havi megtakarított összeg szóródását.
A rangkorreláció Létezhetnek a statisztikai sokaság egységeinek olyan kvantitatív jellegű tulajdonságai, amelyek számszerűen egyáltalán nem, vagy csak nehezen mérhetők. A mutatószám értéke r-hez hasonlóan természetesen -1 és 1 között helyezkedik el. Ha a kétféle rangsorszám rendre megegyezik, akkor = 1, ha a sorszámok a két ismérv szerint következetesen ellentétesen alakulnak, akkor = -1. 6di = 1- n(n 1)
Rangkorreláció Egy régió vállalatainak gazdálkodására vonatkozó adatok Régió 1 3 4 5 6 7 8 9 10 Árbevétel (MFt) 34 30 5 1 10 1 8 31 0 Nyereség (MFt) 16 10,5 10 1 7 4 1 9 11 x 10 8 7 6 5 3 1 9 4 y 10 7 6 9 4 3 1 5 8 d 0 1-1 -3 1-1 1 0 4-4 d 0 1 1 9 1 1 1 0 16 16 6di 646 = 1-1 0,71 n(n 1) 1010 1 Értelmezés: a vállalatok árbevétele és nyeresége között közepesnél szorosabb, pozitív irányú kapcsolat van.
Köszönöm a figyelmet! roland.szilagyi@uni-miskolc.hu