Statisztika. Politológus képzés. Daróczi Gergely május 8. Politológia Tanszék

Hasonló dokumentumok
Statisztika. Politológus képzés. Daróczi Gergely április 27. Politológia Tanszék

Statisztika. Politológus képzés. Daróczi Gergely május 4. Politológia Tanszék

Statisztika. Politológus képzés. Daróczi Gergely február 28. Politológia Tanszék

A statisztika alapjai - Bevezetés az SPSS-be -

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Statisztika. Politológus képzés. Daróczi Gergely február 23. Politológia Tanszék

Statisztika. Politológus képzés. Daróczi Gergely február 20. Politológia Tanszék

Sztochasztikus kapcsolatok

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Correlation & Linear Regression in SPSS

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Korreláció és lineáris regresszió

Alkalmazott statisztika feladatok

A társadalomkutatás módszerei I. Outline. 1. Zh Egyéni eredmények. Notes. Notes. Notes. 9. hét. Daróczi Gergely november 10.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Választási modellek 3

Kutatásmódszertan és prezentációkészítés

(Independence, dependence, random variables)

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Statisztika. Politológus képzés. Daróczi Gergely április 24. Politológia Tanszék

A társadalomkutatás módszerei I.

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Correlation & Linear Regression in SPSS

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Statistical Inference

Bevezetés a Korreláció &

A Lee-Carter módszer magyarországi

Az OECD PISA adatbázis elemzése

A golyók felállítása a Pool-biliárd 8-as játékának felel meg. A golyók átmérıje 57.2 mm. 15 számozott és egy fehér golyó. Az elsı 7 egyszínő, 9-15-ig

Statistical Dependence

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

THS710A, THS720A, THS730A & THS720P TekScope Reference

SPSS ALAPISMERETEK. T. Parázsó Lenke

FÖLDRAJZ ANGOL NYELVEN

Statisztika. Politológus képzés. Daróczi Gergely március 20. Politológia Tanszék

Statisztika elméleti összefoglaló

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

Többváltozós lineáris regressziós modell feltételeinek

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Az önértékelés szerepe a továbbtanulási döntésekben

A évi hőhullám expozíció, egészségi hatás és módosító tényezők összefüggésének kistérségi modellezése

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

PDF created with FinePrint pdffactory Pro trial version Adott egy X folytonos változó, ami normális eloszlású.

A társadalomkutatás módszerei I.

Using the CW-Net in a user defined IP network

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Mérnökgeodéziai hálózatok feldolgozása

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Minőségjavító kísérlettervezés

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Statisztika. Politológus képzés. Daróczi Gergely március 13. Politológia Tanszék

Gottsegen National Institute of Cardiology. Prof. A. JÁNOSI

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Supporting Information

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

A társadalomkutatás módszerei I. Outline. Ismétlés. Notes. Notes. Notes. 6. hét. Daróczi Gergely október. 20.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Megoldások

Lexington Public Schools 146 Maple Street Lexington, Massachusetts 02420

A társadalomkutatás módszerei I. Outline. Most járunk, vagy nem járunk? Már úgy szeretném megtudnííí, hogy most já-runk-e, vagy nem já-runk?

A társadalomkutatás módszerei I.

Regression games and applications TDK prezentáció

Megoldások MATEMATIKA II. VIZSGA (VK) NBT. NG. NMH. SZAKOS HALLGATÓK RÉSZÉRE (Kérjük, hogy a megfelelő szakot jelölje be!

IP/09/473. Brüsszel, március 25

Indexszámítási módszerek; Simpson-paradoxon

Affinium LED string lp w6300 P10

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

KERÜLETI DIÁKHETEK VERSENYKIÍRÁS 2017.

Regressziós vizsgálatok

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Diszkriminancia-analízis

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Függetlenségvizsgálat, Illeszkedésvizsgálat

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

AZ ELSŐÉVES HALLGATÓK INFORMATIKA TANULÁSI SZOKÁSAINAK VIZSGÁLATA ADATBÁNYÁSZATI ESZKÖZÖKKEL A BUDAPESTI MŰSZAKI FŐISKOLÁN

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Tavaszi Sporttábor / Spring Sports Camp május (péntek vasárnap) May 2016 (Friday Sunday)

Hibridspecifikus tápanyag-és vízhasznosítás kukoricánál csernozjom talajon

Korreláció számítás az SPSSben

RTL Klub Weekly Audience Report

Regresszió számítás az SPSSben

Továbbtanulási és pályaválasztási stratégiák

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 9. ÉVFOLYAM SZÁMÁRA

Kabos Sándor. Térben autokorrelált adatrendszerek

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Minőség-képességi index (Process capability)

RTL Klub Weekly Audience Report

Márkaépítés a YouTube-on

STATISZTIKA PRÓBAZH 2005

Polarizáló beruházások és változó gazdasági térszerkezet az átmenet Kínájában

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Flowering time. Col C24 Cvi C24xCol C24xCvi ColxCvi

RTL Klub Weekly Audience Report

Matematikai geodéziai számítások 6.

Átírás:

Statisztika Politológus képzés Daróczi Gergely Politológia Tanszék 2012. május 8.

Outline 1 Mintaválasztás (ismétlés) 2 A változók közötti kapcsolatról 3 Korreláció Elméleti háttér Gyakorlat A korrelációs együttható korlátairól Gyakorlat 4 Kereszttábla Elméleti háttér Simpson paradoxon 5 Standardizálás és dekompozíció 6 Grafikonok Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 2 / 63

A mintaválasztás Valószínűségi vs. nem-valószínűségi mintavétel Nő Férfi Elméleti matematika 10 10 20 Környezettudomány 40 10 50 Rendezvényszervező 10 20 30 60 40 100 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 3 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) Egy mini-kutatást végeztünk a diákok cipőmérete és matematika felkészültségéről. A következő eredményeket kaptuk: Cipőméret Matematika eredmény 1 29.75 26.67 2 29.75 33.33 3 29.75 41.67 4 31.50 35.00 5 31.50 46.67 6 31.50 63.33 7 31.50 70.00 8 33.25 30.00 9 33.25 38.33 10 33.25 56.67 11 35.00 26.67 12 35.00 40.00 13 35.00 43.33 14 35.00 46.67 15 35.00 53.33 16 38.50 55.00 17 40.25 45.00 18 42.00 58.33 19 42.00 76.67 20 42.00 77.50 21 42.00 100.00 22 43.75 70.83 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 4 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) 100 90 80 Result in math exam 70 60 50 40 30 30 32 34 36 38 40 42 Shoe size Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 5 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) Egy mini-kutatást végeztünk a diákok cipőmérete, matematika felkészültségéről és életkoráról. A következő eredményeket kaptuk: Cipőméret Matematika eredmény Age 1 29.75 26.67 3 2 29.75 33.33 7 3 29.75 41.67 5 4 31.50 35.00 8 5 31.50 46.67 10 6 31.50 63.33 11 7 31.50 70.00 12 8 33.25 30.00 7 9 33.25 38.33 7 10 33.25 56.67 12 11 35.00 26.67 6 12 35.00 40.00 8 13 35.00 43.33 6 14 35.00 46.67 10 15 35.00 53.33 11 16 38.50 55.00 9 17 40.25 45.00 9 18 42.00 58.33 9 19 42.00 76.67 16 20 42.00 77.50 18 21 42.00 100.00 19 22 43.75 70.83 14 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 6 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) 100 90 80 Result in math exam 70 60 50 40 30 30 32 34 36 38 40 42 Shoe size Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 7 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) 100 80 Result in math exam 60 40 20 5 10 15 Age Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 7 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) 45 40 Shoe size 35 30 5 10 15 Age Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 7 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) 100 100 45 90 80 80 40 Result in math exam 70 60 50 40 Result in math exam 60 40 Shoe size 35 30 30 20 30 32 34 36 38 40 42 Shoe size 5 10 15 Age 5 10 15 Age Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 7 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) 43.75 size 29.75 100 math 26.67 19 age 3 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 7 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) 40 60 80 100 size 40 60 80 100 0.65** 0.67*** 0.93 *** math 30 34 38 42 age 5 10 15 30 32 34 36 38 40 42 44 5 10 15 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 7 / 63

Kutatás egy általános iskolában Okos diákok nagy cipőben (példa) Parciális korreláció: r matek,cipo kor = 0.11 r matek,kor cipo = 0.87 r cipo,kor matek = 0.22 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 7 / 63

Elméleti háttér Kovariancia x és y változók együttes szórása: COV(xy) = n i=1 emlkeztet : σ = n (x i x)(y i y) i=1 n 1 (x i x) 2 n Ezekiel, M. (1930) Methods of Correlation Analysis. Wiley. Stopping distance (ft) 0 20 40 60 80 100 120 5 10 15 20 25 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 8 / 63

Elméleti háttér Kovariancia 5 10 15 20 25 0 20 40 60 80 100 120 Ezekiel, M. (1930): Methods of Correlation Analysis Speed (mph) Stopping distance (ft) 3.0 3.5 4.0 4.5 5.0 2 3 4 5 Henderson & Velleman (1981): Building multiple regression models interactively Rear axle ratio Weight (lb/1000) Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 9 / 63

Elméleti háttér Kovariancia r xy = n (x i x)(y i ȳ) i=1 = (n 1)s x s y n i=1 (x i x)(y i ȳ) n (x i x) 2 n (y i ȳ) 2 i=1 i=1 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 10 / 63

Elméleti háttér Kovariancia ˆr XY Z = N N i=1 r X,ir Y,i N i=1 r X,i N i=1 r Y,i N N i=1 r X,i 2 ( ) N i=1 r 2 X,i N N i=1 r Y 2,i ( N i=1 r Y,i ) 2 három változó esetén: ˆr XY Z = r XY r XZ r Y Z (1 r 2 XZ )(1 r 2 Y Z ) Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 11 / 63

Gyakorlat 1 Mit takar a korreláció és parciális korreláció kifejezés? 2 Határozza meg a korrelációs együtthatót az alábbi változó-párok esetében! 3 Mennyiben különbözik a parciális korreláció értéke? Érdemjegy (átlag) Ösztöndíj (HUF) Kiadás könyvekre (HUF) 3.05 22000 3500 3.2 25000 3000 3.35 27000 2800 3.35 24000 3700 3.45 25000 2200 3.55 28000 3200 3.7 28000 3700 45 30000 4100 3.8 27000 4000 3.8 29000 3800 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 12 / 63

Gyakorlat Megoldás Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 13 / 63

A korrelációs együttható korlátairól Korreláció és linearitás Korreláció és kauzalitás Lazarsfeld paradigma Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 14 / 63

A korrelációs együttható korlátairól Correlation does not imply causation! Forrás: http://xkcd.com/552 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 15 / 63

A korrelációs együttható korlátairól Correlation does not imply causation! - Elméleti háttér Arisztotelész: logika, szillogizmus if (A B)&(B C) A C David Hume: szkepticizmus only correlation can actually be perceived [not causality] l. holnap vajon felkel a nap? l. If I see a billiard ball moving towards another, on a smooth table, I can easily conceive to stop upon contact. Popper: falszifikáció Pearl, J. - Causality: Models, Reasoning, and Inference, Cambridge University Press, 2000 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 16 / 63

A korrelációs együttható korlátairól Lazarsfeld paradigma Stouffer: The American Soldier Soldiers in branches with higher promotion rates are happier than soldiers in branches with lower rates of promotion. Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 17 / 63

A korrelációs együttható korlátairól Lazarsfeld paradigma Stouffer: The American Soldier H 0 : Soldiers in branches with higher promotion rates are happier than soldiers in branches with lower rates of promotion. Ámde: Soldiers in branches with higher promotion rates were more pessimistic about their own chances of being promoted than soldiers in branches with lower rates of promotion. Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 18 / 63

A korrelációs együttható korlátairól Lazarsfeld paradigma Stouffer: The American Soldier H 0 : Soldiers in branches with higher promotion rates are happier than soldiers in branches with lower rates of promotion. Ámde: Soldiers in branches with higher promotion rates were more pessimistic about their own chances of being promoted than soldiers in branches with lower rates of promotion. Kulcsszavak: referencia csoport, relatív depriváció Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 18 / 63

A korrelációs együttható korlátairól Linearitás Forrás: Anscombe, F. J. (1973) Graphs in statistical analysis. American Statistician, 27, 17 21. Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 19 / 63

Gyakorlat The data was extracted from the 1974 Motor Trend US magazine, and comprises fuel consumption and 10 aspects of automobile design and performance for 32 automobiles (1973-74 models). mpg: Miles/(US) gallon cyl: Number of cylinders disp: Displacement (cu.in.) hp: Gross horsepower drat: Rear axle ratio wt: Weight (lb/1000) qsec: 1/4 mile time vs: V/S am: Transmission (0 = automatic, 1 = manual) gear: Number of forward gears carb: Number of carburetors Source: Henderson and Velleman (1981), Building multiple regression models interactively. Biometrics, 37, 391-411. Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 20 / 63

0.44* 0.09 0.058 Gyakorlat 4 6 8 50 250 2 4 0.0 0.8 mpg 4 5 6 7 8 0.85 *** 0.85 *** 50 200 0.78*** 0.68*** 2 3 4 5 0.87 *** 0.42 * 0.0 0.4 0.8 0.66*** 0.60*** 3.0 4.0 5.0 0.48** 0.55** cyl 0.90 *** 0.83 *** 0.70*** 0.78*** 0.59*** 0.81*** 0.52** 0.49** 0.53** disp 0.79*** 0.71*** 0.89 *** 0.43* 0.71*** 0.59*** 0.56*** 0.39 * hp 0.45** 0.66*** 0.71*** 0.72*** 0.24 0.13 0.75*** drat 0.71*** 0.091 0.17 wt 0.71*** 0.70*** 0.55*** 0.69*** 0.58*** 0.43* qsec 0.74*** 0.23 0.21 vs 0.17 0.66*** 0.21 0.57*** am 0.79*** 10 25 100 400 3.0 4.5 16 22 0.0 0.8 3.0 4.5 gear 0.27 carb 1 4 7 10 20 30 100 300 3.0 4.0 5.0 16 20 0.0 0.4 0.8 1 3 5 7 Henderson and Velleman (1981), Building multiple regression models interactively. Biometrics, 37, 391-411. Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 21 / 63

Gyakorlat Sepal.Length 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 Petal.Width Edgar Anderson s Iris Data Anderson, Edgar (1935). The irises of the Gaspe Peninsula, Bulletin of the American Iris Society, 59, 2-5. Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 22 / 63

Gyakorlat #2 Sepal.Length 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 Petal.Width Edgar Anderson s Iris Data Anderson, Edgar (1935). The irises of the Gaspe Peninsula, Bulletin of the American Iris Society, 59, 2-5. Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 23 / 63

Gyakorlat #3 Valós asszociáció? 5 10 15 20 60 70 80 90 Wind (miles per hour) Temperature (degrees Fahrenheit) Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 24 / 63

Gyakorlat #3 Valós asszociáció? Temp 5 10 15 20 60 70 80 90 0.46*** 60 70 80 90 5 10 15 20 Wind Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 24 / 63

Gyakorlat #3 Valós asszociáció? May Jun Jul Aug Sep Oct 60 70 80 90 date Temp May Jun Jul Aug Sep Oct 5 10 15 20 date Wind Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 24 / 63

Gyakorlat #3 Valós asszociáció? date 60 70 80 90 0.39*** 15100 15150 15200 15250 0.17 * 60 70 80 90 Temp 0.46*** 15100 15150 15200 15250 5 10 15 20 5 10 15 20 Wind Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 24 / 63

Kereszttábla Alacsony mérési szintű (kvalitatív) változók ID nem kedvenc szín 1 Female pink 2 Female pink 3 Female pink 4 Female pink 5 Female pink 6 Female pink 95 Male yellow 96 Male yellow 97 Male yellow 98 Male yellow 99 Male yellow 100 Male yellow Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 25 / 63

Kereszttábla Alacsony mérési szintű (kvalitatív) változók color green pink yellow Female Male 0.0 0.2 0.4 0.6 0.8 1.0 gender Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 26 / 63

Kereszttábla Alacsony mérési szintű (kvalitatív) változók color green pink yellow gender Male Female Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 26 / 63

Kereszttábla Alacsony mérési szintű (kvalitatív) változók zöld piros sárga nők 17 30 13 férfiak 18 10 12 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 27 / 63

Kereszttábla Alacsony mérési szintű (kvalitatív) változók zöld piros sárga nők 17 30 13 férfiak 18 10 12 Marginals Marginals N Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 28 / 63

Kereszttábla Alacsony mérési szintű (kvalitatív) változók zöld piros sárga nők 17 30 13 60 férfiak 18 10 12 40 35 40 25 100 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 29 / 63

Kereszttábla Százalékok zöld piros sárga nők 17 30 13 60 férfiak 18 10 12 40 35 40 25 100 1. táblázat. Tapasztalt értékek zöld piros sárga nők 17 % 30 % 13 % 60 % férfiak 18 % 10 % 12 % 40 % 35 % 40 % 25 % 100 % 2. táblázat. Teljes százalék Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 30 / 63

Kereszttábla Sorszázalék zöld piros sárga nők 17 30 13 60 férfiak 18 10 12 40 35 40 25 100 3. táblázat. Tapasztalt értékek zöld piros sárga nők 28.3 % 50 % 21.7 % 100 % férfiak 45 % 25 % 30 % 100 % 35 % 40 % 25 % 100 % 4. táblázat. Sorszázalék Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 31 / 63

Kereszttábla Oszlopszázalék zöld piros sárga nők 17 30 13 60 férfiak 18 10 12 40 35 40 25 100 5. táblázat. Tapasztalt értékek zöld piros sárga nők 48.63 % 75 % 52 % 60 % férfiak 51.4 % 25 % 48 % 40 % 100 % 100 % 100 % 100 % 6. táblázat. Oszlopszázalék Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 32 / 63

Kereszttábla Várható érték zöld piros sárga nők 17 30 13 60 férfiak 18 10 12 40 35 40 25 100 7. táblázat. Tapasztalt érték zöld piros sárga nők 21 24 15 60 férfiak 14 16 10 40 35 40 25 100 8. táblázat. Várható érték Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 33 / 63

Kereszttábla Khí-négyzet statisztika χ 2 = n i=1 (O i E i ) 2 E i where: χ 2 : Pearson-féle teszt statisztika, O i : tapasztalt érték, E i : várható éréték, n: cellák száma. H 0 : a tapasztalt és a várható érték megegyezik Követelmények? Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 34 / 63

Kereszttábla Khí-négyzet nők zöld piros sárga (17 21) 2 21 (18 14) 2 14 (30 24) 2 24 (10 16) 2 16 (13 15) 2 15 - (12 10) 2 10 - férfiak - - - - 9. táblázat. Számított távolság a várt és tapasztalt értékek között χ 2 = n i=1 (O i E i ) 2 E i = 6.321429 szabadságfok: (3 1)(2 1) = 2 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 35 / 63

Kereszttábla Khí-négyzet p = 0.04239545 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 36 / 63

Simpson paradoxon A Berkeley egyetem esete (Bickel et al.) Admitted admit Deny gender Male Female Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 37 / 63

Simpson paradoxon A Berkeley egyetem esete (Bickel et al.) Felvett Elutasított nők 1494 2827 4321 férfiak 3738 4704 8442 5232 7531 12763 10. táblázat. Tapasztalt értékek Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 38 / 63

Simpson paradoxon A Berkeley egyetem esete (Bickel et al.) Felvett Elutasított nők 1494 2827 4321 férfiak 3738 4704 8442 5232 7531 12763 10. táblázat. Tapasztalt értékek felvett elutasított nők 34.6 % 65.4 % 100 % férfiak 44.3 % 55.7 % 100 % 41 % 59 % 100 % 11. táblázat. Sorszázalék Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 38 / 63

Simpson paradoxon A Berkeley egyetem esete (Bickel et al.) Felvett Elutasított nők 1494 2827 4321 férfiak 3738 4704 8442 5232 7531 12763 10. táblázat. Tapasztalt értékek felvett elutasított nők 34.6 % 65.4 % 100 % férfiak 44.3 % 55.7 % 100 % 41 % 59 % 100 % 11. táblázat. Sorszázalék χ 2 = 110.8489;d.f. = 1;p = 6.385628e 26 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 38 / 63

Simpson paradoxon A Berkeley egyetem esete (Bickel et al.) Jelentkezők Felvettek száma férfiak 8442 44% nők 4321 35% férfiak nők szak jelentkezők felvett jelentkezők felvett A 825 62% 108 82% B 560 63% 25 68% C 325 37% 593 34% D 417 33% 375 35% E 191 28% 393 24% F 272 6% 341 7% Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 39 / 63

Simpson paradoxon Baseball ütések 1995 1996 Combined Runs/Outs % Runs/Outs % Runs/Outs % Derek Jeter 12/48 25 % 183/582 31.4 % 195/630 31 % David Justice 104/411 25.3 % 45/140 32.1 % 149/551 27 % Melyikük a jobb játékos? Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 40 / 63

Standardizálás és dekompozíció Egy egyszerű példa Henderson & Velleman (1981): Building multiple regression models interactively Weight (t) 1.0 1.5 2.0 2.5 50 100 150 200 250 300 Horsepower Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 41 / 63

Standardizálás és dekompozíció Egy egyszerű példa Henderson & Velleman (1981): Building multiple regression models interactively Standardized weight (t) 1 0 1 2 1 0 1 2 Standardized horsepower Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 41 / 63

Standardizálás és dekompozíció Elméleti háttér Egy standardizált változó (z-values, z-scores, normal scores, standardized variables) azt mutatja, hogy hány szórásnyira esik az adott érték az átlagtól: z = x µ σ Diamonds Diamonds Frequency 0 5000 15000 25000 Frequency 0 5000 15000 0 5000 10000 15000 20000 Price (USD) 1 0 1 2 3 4 Price (standardized) Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 42 / 63

Standardizálás és dekompozíció Dekompozíció Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 43 / 63

Grafikonok Csoportosított oszlopdiagram Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 44 / 63

Grafikonok Rétegzett oszlopdiagram Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 45 / 63

Grafikonok Vonaldiagram Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 46 / 63

Grafikonok Kördiagram Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 47 / 63

Grafikonok Terület Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 48 / 63

Grafikonok Összetett diagram Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 49 / 63

Grafikonok Összetett diagram Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 50 / 63

Grafikonok Poláris diagram Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 51 / 63

Grafikonok Heatmap Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 52 / 63

Grafikonok Heatmap (naptár) Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 53 / 63

Grafikonok Waterfall Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 54 / 63

Grafikonok Dot plot Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 55 / 63

Grafikonok Dot plot Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 56 / 63

Grafikonok Boxplot Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 57 / 63

Grafikonok Violin plot Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 58 / 63

Grafikonok Mosaic chart Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 59 / 63

Grafikonok Szófelhő Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 60 / 63

Grafikonok Crayola Color Chart, 1903-2010 Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 61 / 63

Grafikonok Érdekes honlapok http://www.visual-literacy.org/periodic_table/periodic_table.html http://www.edwardtufte.com/tufte/ http://www.perceptualedge.com/ http://www.visualcomplexity.com/vc/ http://flowingdata.com/ http://infosthetics.com/ http://chartsgraphs.wordpress.com/ http://www.informationisbeautiful.net/ http://chartporn.org/ Daróczi Gergely (PPKE BTK) Statisztika 2012-05-08 62 / 63

Köszönöm a figyelmet! Daróczi Gergely daroczi.gergely@btk.ppke.hu