Statisztika. Politológus képzés. Daróczi Gergely április 27. Politológia Tanszék

Hasonló dokumentumok
Statisztika. Politológus képzés. Daróczi Gergely május 8. Politológia Tanszék

Statisztika. Politológus képzés. Daróczi Gergely május 4. Politológia Tanszék

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Correlation & Linear Regression in SPSS

Statistical Dependence

Statisztika. Politológus képzés. Daróczi Gergely február 28. Politológia Tanszék

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Correlation & Linear Regression in SPSS

FÖLDRAJZ ANGOL NYELVEN

Statistical Inference

Statisztika. Politológus képzés. Daróczi Gergely április 24. Politológia Tanszék

Alkalmazott statisztika feladatok

STATISZTIKA PRÓBAZH 2005

A golyók felállítása a Pool-biliárd 8-as játékának felel meg. A golyók átmérıje 57.2 mm. 15 számozott és egy fehér golyó. Az elsı 7 egyszínő, 9-15-ig

Választási modellek 3

Statisztika. Politológus képzés. Daróczi Gergely február 20. Politológia Tanszék

A társadalomkutatás módszerei I.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression

First experiences with Gd fuel assemblies in. Tamás Parkó, Botond Beliczai AER Symposium

Módszertani eljárások az időtényező vezetési, szervezeti folyamatokban betöltött szerepének vizsgálatához

Tudományos Ismeretterjesztő Társulat

Using the CW-Net in a user defined IP network

KISTERV2_ANOVA_

A statisztika alapjai - Bevezetés az SPSS-be -

On The Number Of Slim Semimodular Lattices

FÖLDRAJZ ANGOL NYELVEN GEOGRAPHY

Statisztika. Politológus képzés. Daróczi Gergely február 23. Politológia Tanszék

BIOMETRIA_ANOVA_2 1 1

Cashback 2015 Deposit Promotion teljes szabályzat

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

THS710A, THS720A, THS730A & THS720P TekScope Reference

Sztochasztikus kapcsolatok

SPSS ALAPISMERETEK. T. Parázsó Lenke

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Gottsegen National Institute of Cardiology. Prof. A. JÁNOSI


Descriptive Statistics

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

2 level 3 innovation tiles. 3 level 2 innovation tiles. 3 level 1 innovation tiles. 2 tribe pawns of each color. 3 height 3 tribe pawns.

Computer Architecture

Tavaszi Sporttábor / Spring Sports Camp május (péntek vasárnap) May 2016 (Friday Sunday)

Supporting Information

MARKETINGKUTATÁS II. Oktatási segédanyag. Budapest, február

Performance Modeling of Intelligent Car Parking Systems

ANGOL NYELVI SZINTFELMÉRŐ 2013 A CSOPORT. on of for from in by with up to at

Az OECD PISA adatbázis elemzése

TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN

GÉPI HANG ÉRTÉSE. A hanganyag írott változata:

Lexington Public Schools 146 Maple Street Lexington, Massachusetts 02420

Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások

Mapping Sequencing Reads to a Reference Genome

KELER KSZF Zrt. bankgarancia-befogadási kondíciói. Hatályos: július 8.

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

FÖLDRAJZ ANGOL NYELVEN

Flowering time. Col C24 Cvi C24xCol C24xCvi ColxCvi

KERÜLETI DIÁKHETEK VERSENYKIÍRÁS 2017.

TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN

OROSZ MÁRTA DR., GÁLFFY GABRIELLA DR., KOVÁCS DOROTTYA ÁGH TAMÁS DR., MÉSZÁROS ÁGNES DR.

Genome 373: Hidden Markov Models I. Doug Fowler

ANGOL NYELVI SZINTFELMÉRŐ 2014 A CSOPORT

Supplementary Table 1. Cystometric parameters in sham-operated wild type and Trpv4 -/- rats during saline infusion and

Esetelemzések az SPSS használatával

Csima Judit április 9.

KN-CP50. MANUAL (p. 2) Digital compass. ANLEITUNG (s. 4) Digitaler Kompass. GEBRUIKSAANWIJZING (p. 10) Digitaal kompas

EPILEPSY TREATMENT: VAGUS NERVE STIMULATION. Sakoun Phommavongsa November 12, 2013

PDF created with FinePrint pdffactory Pro trial version Adott egy X folytonos változó, ami normális eloszlású.

Minőség-képességi index (Process capability)

FÖLDRAJZ ANGOL NYELVEN GEOGRAPHY

Márkaépítés a YouTube-on

Quantitative Statistical Methods

FAMILY STRUCTURES THROUGH THE LIFE CYCLE

Bevezetés a Korreláció &

PhEur Two-dose multiple assay with completely randomised design An assay of corticotrophin by subcutaneous injection in rats

FÖLDRAJZ ANGOL NYELVEN

Meteorológiai ensemble elırejelzések hidrológiai célú alkalmazásai

Fulbright Bizottság Budapest

A telefonnal való ellátottság kapcsolata a rádió és televízió műsorszórás használatával a 14 éves és idősebb lakosság körében

Előszó.2. Starter exercises. 3. Exercises for kids.. 9. Our comic...17

ASUS Transformer Pad útmutató

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

Agri- environment in the Rural Economy in Hungary Agnes Kaloczkai, Hungarian Academy of Sciences


Hasznos és kártevő rovarok monitorozása innovatív szenzorokkal (LIFE13 ENV/HU/001092)

Használati útmutató a VDO M6WL computereihez

IP/09/473. Brüsszel, március 25

Abigail Norfleet James, Ph.D.

FORGÁCS ANNA 1 LISÁNYI ENDRÉNÉ BEKE JUDIT 2

Introduction to Statistics

A vitorlázás versenyszabályai a évekre angol-magyar nyelvű kiadásának változási és hibajegyzéke

A katalógusban szereplő adatok változásának jogát fenntartjuk es kiadás

USER MANUAL Guest user

A társadalomkutatás módszerei I.

BKI13ATEX0030/1 EK-Típus Vizsgálati Tanúsítvány/ EC-Type Examination Certificate 1. kiegészítés / Amendment 1 MSZ EN :2014

MAGYAR. Felhasználói kézikönyv Polar CS400

TANULJUNK AZ ENERGIÁRÓL

Átírás:

Statisztika Politológus képzés Daróczi Gergely Politológia Tanszék 2011. április 27.

Outline 1 Ismétlés 2 Példa 3 Elméleti háttér 4 Elméleti háttér 5 Feladatok 6 A korrelációs együttható korlátai 7 Repeating 8 Crosstables 9 Simpson s paradox Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 2 / 40

Ismétlés Középértékek 10-10 diák magasságát mértük 2 osztályteremben? 170 180 190 cm 170 180 190 cm Melyik osztály diákjai a magassabbak a leíró statisztikák alapján adható becslések alapján? Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 3 / 40

Ismétlés Középértékek 170 180 190 cm 170 180 190 cm a b * * 160 165 170 175 180 185 190 195 Height (cm) Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 4 / 40

Általános iskolában végzett felmérés Cipőméret és IQ Egy általános iskolában felmérést végeztünk a diákok cipőméretéről és egy matematika teszten nyújtott teljesítményükről. Az eredmények: Cipőméret Matek Kor 1 29.75 26.67 3 2 29.75 33.33 7 3 29.75 41.67 5 4 31.50 35.00 8 5 31.50 46.67 10 6 31.50 63.33 11 7 31.50 70.00 12 8 33.25 30.00 7. 9 33.25 38.33 7 10 33.25 56.67 12 11 35.00 26.67 6 12 35.00 40.00 8 13 35.00 43.33 6 14 35.00 46.67 10 15 35.00 53.33 11 16 38.50 55.00 9 17 40.25 45.00 9 18 42.00 58.33 9 19 42.00 76.67 16 20 42.00 77.50 18 21 42.00 100.00 19 22 43.75 70.83 14 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 5 / 40

Általános iskolában végzett felmérés Cipőméret és IQ 100 1 90 80 Result in math exam 70 60 50 Result in math exam 40 30 30 32 34 36 38 40 42 Shoe size Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 6 / 40

Elméleti háttér Covariation x és y közös variabilitásának meghatározása: COV(xy) = n (x i x)(y i y) i=1 n 1 remember : σ = n i=1 (x i x) 2 n Ezekiel, M. (1930) Methods of Correlation Analysis. Wiley. Stopping distance (ft) 0 20 40 60 80 100 120 Daróczi Gergely (PPKE BTK) 5 10 Statisztika 15 20 25 2011-04-27 7 / 40

Elméleti háttér Kovariancia 5 10 15 20 25 0 20 40 60 80 100 120 Ezekiel, M. (1930): Methods of Correlation Analysis Speed (mph) Stopping distance (ft) 3.0 3.5 4.0 4.5 5.0 2 3 4 5 Henderson & Velleman (1981): Building multiple regression models interactively Rear axle ratio Weight (lb/1000) Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 8 / 40

Elméleti háttér Korreláció r xy = n (x i x)(y i ȳ) i=1 = (n 1)s x s y n i=1 (x i x)(y i ȳ) n (x i x) 2 n (y i ȳ) 2 i=1 i=1 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 9 / 40

Elméleti háttér Parciális korreláció ˆr XY Z = N N i=1 r X,ir Y,i N i=1 r X,i N i=1 r Y,i N N i=1 r X,i 2 ( ) N i=1 r 2 X,i N N i=1 r Y 2,i ( N i=1 r Y,i ) 2 három változó esetében: r XY r XZ r Y Z ˆr XY Z = (1 rxz 2 )(1 r Y 2 Z ) Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 10 / 40

Feladatok 1 Határozd meg az alábbi adatbázis alapján a korrelációs együtthatókat! 2 Ne felejtkezz el a parciális tagokról! Tan. átlag Ösztöndíj (HUF) Könykiadás (HUF) 3.05 22000 3500 3.2 25000 3000 3.35 27000 2800 3.35 24000 3700 3.45 25000 2200 3.55 28000 3200 3.7 28000 3700 45 30000 4100 3.8 27000 4000 3.8 29000 3800 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 11 / 40

Feladatok Megoldás Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 12 / 40

A korrelációs együttható korlátai Kauzalitás Lazarsfeld paradigma Linearitás Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 13 / 40

A korrelációs együttható korlátai Correlation does not imply causation! Source: http://xkcd.com/552 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 14 / 40

A korrelációs együttható korlátai Correlation does not imply causation! - Elméleti háttér Aristotle: logic, syllogism if (A B)&(B C) A C David Hume: scepticism only correlation can actually be perceived [not causality] see: our belief that the sun will rise tomorrow see: If I see a billiard ball moving towards another, on a smooth table, I can easily conceive to stop upon contact. Popper: falsification Pearl, J. - Causality: Models, Reasoning, and Inference, Cambridge University Press, 2000 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 15 / 40

A korrelációs együttható korlátai Lazarsfeld paradigma Stouffer: The American Soldier Soldiers in branches with higher promotion rates are happier than soldiers in branches with lower rates of promotion. Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 16 / 40

Soldiers in branches with higher promotion rates were more pessimistic about their own chances of being promoted than soldiers in branches with lower rates of promotion. Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 17 / 40 A korrelációs együttható korlátai Lazarsfeld paradigma Stouffer: The American Soldier H 0 : Soldiers in branches with higher promotion rates are happier than soldiers in branches with lower rates of promotion. BUT:

A korrelációs együttható korlátai Linearitás Forrás: Anscombe, F. J. (1973) Graphs in statistical analysis. American Statistician, Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 18 / 40

Feladat The data was extracted from the 1974 Motor Trend US magazine, and comprises fuel consumption and 10 aspects of automobile design and performance for 32 automobiles (1973-74 models). mpg: Miles/(US) gallon cyl: Number of cylinders disp: Displacement (cu.in.) hp: Gross horsepower drat: Rear axle ratio wt: Weight (lb/1000) qsec: 1/4 mile time vs: V/S am: Transmission (0 = automatic, 1 = manual) gear: Number of forward gears carb: Number of carburetors Source: Henderson and Velleman (1981), Building multiple regression models interactively. Biometrics, 37, 391-411. Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 19 / 40

0.44* 0.09 0.058 Exercise 4 6 8 50 250 2 4 0.0 0.8 mpg 4 5 6 7 8 0.85 *** 0.85 *** 50 200 0.78*** 0.68*** 2 3 4 5 0.87 *** 0.42 * 0.0 0.4 0.8 0.66*** 0.60*** 3.0 4.0 5.0 0.48** 0.55** cyl 0.90 *** 0.83 *** 0.70*** 0.78*** 0.59*** 0.81*** 0.52** 0.49** 0.53** disp 0.79*** 0.71*** 0.89 *** 0.43* 0.71*** 0.59*** 0.56*** 0.39 * hp 0.45** 0.66*** 0.71*** 0.72*** 0.24 0.13 0.75*** drat 0.71*** 0.091 0.17 wt 0.71*** 0.70*** 0.55*** 0.69*** 0.58*** 0.43* qsec 0.74*** 0.23 0.21 vs 0.17 0.66*** 0.21 0.57*** am 0.79*** 10 25 100 400 3.0 4.5 16 22 0.0 0.8 3.0 4.5 gear 0.27 carb 1 4 7 10 20 30 100 300 3.0 4.0 5.0 16 20 0.0 0.4 0.8 1 3 5 7 Henderson and Velleman (1981), Building multiple regression models interactively. Biometrics, 37, 391-411. Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 20 / 40

Exercise Sepal.Length 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 Petal.Width Edgar Anderson s Iris Data Anderson, Edgar (1935). The irises of the Gaspe Peninsula, Bulletin of the American Iris Society, 59, 2-5. Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 21 / 40

Exercise Sepal.Length 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 0.5 1.0 1.5 2.0 2.5 1 2 3 4 5 6 7 Petal.Width Edgar Anderson s Iris Data Anderson, Edgar (1935). The irises of the Gaspe Peninsula, Bulletin of the American Iris Society, 59, 2-5. Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 22 / 40

Újra korreláció Valós kapcsolat? 5 10 15 20 60 70 80 90 Wind (miles per hour) Temperature (degrees Fahrenheit) 60 5 10 15 20 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 23 / 40

Kereszttáblák Discrete (qualitative) variables ID gender color 1 Female pink 2 Female pink 3 Female pink 4 Female pink 5 Female pink 6 Female pink 95 Male yellow 96 Male yellow 97 Male yellow 98 Male yellow 99 Male yellow 100 Male yellow Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 24 / 40

Crosstables Discrete (qualitative) variables color green pink yellow 0.0 0.2 0.4 0.6 0.8 1.0 Female Male Daróczi Gergely (PPKE BTK) gender Statisztika 2011-04-27 25 / 40

Crosstables Discrete (qualitative) variables green pink yellow Female 17 30 13 Male 18 10 12 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 26 / 40

Crosstables Discrete (qualitative) variables green pink yellow Female 17 30 13 2*Marginals Male 18 10 12 Marginals N Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 27 / 40

Crosstables Discrete (qualitative) variables green pink yellow Female 17 30 13 60 Male 18 10 12 40 40 35 25 100 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 28 / 40

Crosstables Percentages green pink yellow Female 17 30 13 60 Male 18 10 12 40 40 35 25 100 1. táblázat. Counted values green pink yellow Female 17 % 30 % 13 % 60 % Male 18 % 10 % 12 % 40 % 40 % 35 % 25 % 100 % 2. táblázat. Total percentages Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 29 / 40

Crosstables Row percentages green pink yellow Female 17 30 13 60 Male 18 10 12 40 40 35 25 100 3. táblázat. Counted values green pink yellow Female 28.3 % 50 % 21.7 % 100 % Male 45 % 25 % 30 % 100 % 35 % 40 % 25 % 100 % 4. táblázat. Row percentages Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 30 / 40

Crosstables Column percentages green pink yellow Female 17 30 13 60 Male 18 10 12 40 40 35 25 100 5. táblázat. Counted values green pink yellow Female 48.63 % 75 % 52 % 60 % Male 51.4 % 25 % 48 % 40 % 100 % 100 % 100 % 100 % 6. táblázat. Column percentages Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 31 / 40

Crosstables Expected values green pink yellow Female 17 30 13 60 Male 18 10 12 40 40 35 25 100 7. táblázat. Counted values green pink yellow Female 21 24 15 60 Male 14 16 10 40 35 40 25 100 8. táblázat. Expected values Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 32 / 40

Crosstables Chi-square statistic where: χ 2 = n (O i E i ) 2 i=1 E i χ 2 : Pearson s cumulative test statistic, O i : an observed (counted) frequency, E i : an expected (theoretical) frequency, n: the number of cells in the table. H 0 : observed and expected values are all the same Requirements! Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 33 / 40

Crosstables Computed chi-square Female green pink yellow (17 21) 2 21 (18 14) 2 14 (30 24) 2 24 (10 16) 2 16 (13 15) 2 15 - (12 10) 2 10 - Male - - - - 9. táblázat. Computed distances between observed and expected values χ 2 = n (O i E i ) 2 = 6.321429 i=1 E i degrees of freedom: (3 1)(2 1) = 2 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 34 / 40

Crosstables Computed chi-square p = 0.04239545 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 35 / 40

Simpson s paradox Berkeley sex bias case Admitted admit Deny gender Male Female Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 36 / 40

Simpson s paradox Berkeley sex bias case Admitted Deny Female 1494 2827 4321 Male 3738 4704 8442 5232 7531 12763 10. táblázat. Observed values Admitted Deny Female 34.6 % 65.4 % 100 % Male 44.3 % 55.7 % 100 % 41 % 59 % 100 % 11. táblázat. Row percentages χ 2 = 110.8489;d.f. = 1;p = 6.385628e 26 Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 37 / 40

Simpson s paradox Berkeley sex bias case Applicants Admitted Men 8442 44% Women 4321 35% Men Women Departement Applicants Admitted Applicants Admitted A 825 62% 108 82% B 560 63% 25 68% C 325 37% 593 34% D 417 33% 375 35% E 191 28% 393 24% F 272 6% 341 7% Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 38 / 40

Simpson s paradox Batting averages in professional baseball 1995 1996 Combined Runs/Outs % Runs/Outs % Runs/Outs % Derek Jeter 12/48 25 % 183/582 31.4 % 195/630 31 % David Justice 104/411 25.3 % 45/140 32.1 % 149/551 27 % Who is the better player? Daróczi Gergely (PPKE BTK) Statisztika 2011-04-27 39 / 40

To be continued... Daróczi Gergely daroczi.gergely@btk.ppke.hu