Vargha András Károli Gáspár Református Egyetem Budapest
Kötelező irodalom a kurzushoz Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal (2. kiadás). Pólya Kiadó, Budapest, 2007.
Nélkülözhetetlen szoftver a kurzushoz: ROPstat www.ropstat.com Töltse le és próbálja ki a magyar nyelvű demó verziót!
A félév vázlata I. II. III. IV. V. Statisztikai alapfogalmak, leíró statisztikák A következtetési statisztika alapfogalmai Kvantitatív változók kapcsolata (korreláció, regresszió) Változók és csoportok összehasonlítása Gyakorisági táblázatok elemzése
I. Statisztikai alapfogalmak, leíró statisztikák
Tartalom Statisztikai alapfogalmak (adatok, adattáblázat, esetek, változók) Populáció és minta Változók és típusaik Leíró statisztika alapfogalmai Gyakorisági eloszlás Középértékek, szóródási mutatók stb. Normális eloszlás
Vágjunk bele!
Piaci szavak Karalábé Lilahagyma Padlizsán Cukkini Sárgarépa Tök Paprika Dinnye Jégsaláta Póréhagyma
Memóriajáték
Írja be a füzetébe, hogy milyen szavak fordultak elő az iménti dián! 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Mely szavakra emlékezett helyesen? 1. Karalábé 2. Lilahagyma 3. Padlizsán 4. Cukkini 5. Sárgarépa 6. Tök 7. Paprika 8. Dinnye 9. Jégsaláta 10. Póréhagyma
Egy személlyel kapcsolatban mi érdekelhet bennünket? Emlékezeti teljesítmény Helyesen megjegyzett szavak száma Más? Egyéb jellemzők Személy neme Más?
Pszichológiai változók Pszichológusok által vizsgált egyedek, személyek, házaspárok (megfigyelési egységek) egyedi jellemzői GYAK
Példák változókra (megfigyelési egység = egy házaspár) Mióta házasok Mióta járnak együtt Férj életkora Feleség életkora Korkülönbség Gyerekeik száma IQ(férj) - IQ(feleség) GYAK
Más példák (megfigyelési egység = egy személy) Nem Életkor MAWI-IQ Diagnózis Iskolázottsági szint Végzett osztályok száma GYAK
Mit várunk el egy pszichológiai változó meghatározásakor? Egyértelműen definiált értékkészlet Minden esetnél egyértelműen eldönthető érték GYAK
Mi a statisztika? Akkor fordulunk hozzá, ha sok egyedünk van és mindenkit ugyanazon változó (vagy változók) segítségével jellemzünk
Emberek, gyümölcsök
Virágok
Kavicsok
A statisztika segítségével Jellemezhetünk leírhatunk egy egész csoportot, mintát. Hogyan? Különböző csoportokat összehasonlíthatunk (pl. férfiak és nők memóriája) Változók között összefüggéseket kereshetünk (pl. van-e kapcsolat a kor és az emlékezeti teljesítmény között?) Stb.
Hogy kell a statisztikai adatfeldolgozáshoz (elemzéshez) előkészíteni az adatokat? Elsődlegesen egy személyek és változók szerint rendezett adattáblázatot (statisztikai adatállományt) kell létrehozni Ennek neve: eset-változó adattáblázat (adatmátrix) ROPstat illusztráció GYAK
3 Eset-változó adattáblázat Eset Nem Életkor Magasság (X1) (X2) (X3) 1. Nő 18 170 2. Férfi 21 178 3. Nő 19 155
Példák más adatállományokra
5 Pszichológia szakra jelentkezők, 1981
6 Gyerekek antropometriai adatai, 1993
7 Problémás és normál családok, 2005
A változóról Eseteket (személyeket stb.) jellemzi Értékei vannak (pl. a személy neme változó értékei mik? Kor, testmagasság, szemszín, érettségi matek jegye értékei?) Ha egy változónak véges számú (2, 3, 4, ) különböző értéke van, diszkrét változónak nevezzük. Példa? Folytonos változók. Mi folytonos ezeknél? GYAK
9 Pszichometriai skálatípusok Osztályozás szempontja: milyen logikai, illetve számtani műveletek végezhetők értelmesen a változó értékeivel? Nominális skála Ordinális skála Intervallum-skála Arányskála Példák: GYAK
0 Kvantitatív és kvalitatív változók Kvalitatív változók Nominális és ordinális skálájú változók Hangsúly: az értékek kategóriáján Kvantitatív változók Intervallum- és arányskálájú változók Hangsúly: az értékek nagyságán
1 A változók eloszlása Azt tudjuk meg a változó eloszlásából, hogy milyen értékből mennyi (%, darab) van. Ha ismerjük egy változó eloszlását, ebből már minden jellemzőjét (pl. az átlagot is) ki lehet számítani, illetve meg lehet határozni. GYAK
2 NEM 60 50 40 30 Percent 20 10 0 férfi NEM nõ
3 Hogy tetszik?
4 EPIL3 60 50 40 30 Percent 20 10 0.00 EPIL3 1.00 2.00 3.00 4.00
5 ISK 40 30 20 Percent 10 0 7 ISK 8 9 10 11 12 13 14 15 16 17 18
6 ISKKOD 50 40 30 Percent 20 10 0 7-11 ISKKOD 12-15 16-20
7 Az iskolai végzettség eloszlása Alsófokú végzettség 29% Középfokú végzettség Felsőfokú végzettség 40% 31%
8 Statisztikai alapfogalmak o Megfigyelési egységek (esetek) személyek, egyedek, házaspárok o Változók (megfigyelési egységek jellemzői) IQ, Nem, Kor, Megtanult tételek száma, Házasság időtartama o o Populáció (sokaság): esetek elvi (elméleti) összessége Minta: a populáció kiválasztott része
9 Populáció és minta o A populáció nagyon nagy, ezért csak egy kis részét vizsgáljuk meg. Ez a MINTA (pl. 50 vagy 100 vagy 35 személy).
0 Minta o o Megfigyelési egységek csoportja, akiket bizonyos változók segítségével egy vizsgálat, kísérlet vagy megfigyelés során konkréten megvizsgálunk és adatokkal jellemzünk. E minta alapján nyert adatok együttese: az adatminta
1 Egy adatminta személy Nem Életkor Magasság 1. Nő 18 170 2. Férfi 21 178 3. Nő 19 155
2 Statisztikai elemzések két fő típusa Leíró statisztika o Fókusz a konkrét mintán: milyen ez a minta? (Pl. mi itt a fiúk és a lányok aránya?) Következtetési statisztika o Következtetés a mintáról a populációra. Fókusz a populáción. (Pl. ha a minta 20%-a fiú, akkor mekkora lehet az arányuk a populációban? Kijelenthető-e, hogy a fiúk a populációban is kisebbségben vannak?)
Kiknek jobb a verbális memóriája, a fiúknak, vagy a lányoknak?
4 Leíró statisztika o o Milyen ez az évfolyam az emlékezeti vizsgálat változói szempontjából? Az elemzést lehet változónként, változópáronként, vagy ennél is bonyolultabb változómintázatok segítségével végezni. o Nemi megoszlás o Emlékezeti teljesítmény eloszlása
5 Leíró statisztikai elemzések o o o o Gyakorisági eloszlás Középértékek Szóródási mutatók Az eloszlás alakja o Ferdeség o Csúcsosság GYAK
6 Az iskolázottság gyakorisági eloszlása (n = 277) Érték Gyak % Kum% Érték Gyak % Kum% 3 1 0,4 0,4 11 18 6,5 41,2 4 2 0,7 1,1 12 68 24,5 65,7 5 3 1,1 2,2 13 9 3,2 69,0 6 20 7,2 9,4 14 14 5,1 74,0 7 5 1,8 11,2 15 1 0,4 74,4 8 47 17 28,2 16 36 13 87,4 9 2 0,7 28,9 17 32 11,6 98,9 10 16 5,8 34,7 18 3 1,1 100
7 Mi olvasható ki a gyakorisági eloszlásból? o o o o o Minimum, maximum Milyen értékből mennyi van? Relatív gyakoriság (százalékos) Milyen értékből van a legtöbb? (módusz) Kumulatív gyakoriság GYAK
8 Kvantilisek A mintát adott arányban két részre osztó pontok Felezőpont: medián Negyedelő pontok: kvartilisek K1: alsó 25%-ot levágó osztópont K3: alsó 75%-ot levágó osztópont Percentilisek (centilisek): C1, C1,, C100. - Med = C50, K1 = C25, K3 = C75, GYAK
9 A kvantilisekről A kum% segítségével határozhatók meg a legkönnyebben. Folytonos változók esetén lehet leginkább használni őket, mert a meghatározásuk itt a legtisztább. GYAK
0 14 12 10 8 6 50% 4 2 25% 25% 0 K1 K3
1 Itt mi az alsó és a felső kvartilis? Érték Gyak 3 1 % Kum% 0,4 0,4 Érték Gyak 11 18 % Kum% 6,5 41,2 4 2 0,7 1,1 12 68 24,5 5 3 1,1 2,2 13 9 3,2 69,0 6 20 7,2 9,4 14 14 5,1 74,0 7 5 1,8 11,2 15 1 0,4 74,4 8 47 17 28,2 16 36 13 87,4 9 2 0,7 28,9 17 32 11,6 98,9 10 16 5,8 34,7 18 3 1,1 65,7 100 GYAK
2 Középértékek
3 Egy változó nagyságának jellemzése egyetlen adattal Legtipikusabb érték: Módusz Eloszlás centruma: Átlag Eloszlás közepe: C50 = Medián
4 Medián =? Érték Gyak % Kum% Érték Gyak % Kum% 3 1 0,4 0,4 11 18 6,5 41,2 4 2 0,7 1,1 12 68 24,5 65,7 5 3 1,1 2,2 13 9 3,2 69,0 6 20 7,2 9,4 14 14 5,1 74,0 7 5 1,8 11,2 15 1 0,4 74,4 8 47 17 28,2 16 36 13 87,4 9 2 0,7 28,9 17 32 11,6 98,9 10 16 5,8 34,7 18 3 1,1 100
5 Mi az IQ mediánja?
6 Az IQ mediánja = 100 50% 50%
7 Mintajellemzők n-elemű minta: (x1, x2, x3,..., xn) Mintaátlag: x = ( xi)/n = (x1+x2+x3+...+xn)/n Mintamedián: Adatok növekvő sorában a középső vagy a középső kettő átlaga Minta: 2 < 4 < 5 < 7 < 8 Medián: M = 5
8 Férfiak és nők testsúlyátlagai különböző életkori szinteken 85 80 75 70 Férfiak Nők 65 60 55 év 50 20 30 40 50 60 70
9 Szóródási mutatók
0 Miben különbözik az alábbi két minta? 2 4 5 6 4 5 6 8
1 Három bizonyítvány Magatartás Szorgalom Magyar irodalom Magyar nyelvtan Matematika Történelem ÁTLAG: 3 3 3 3 3 3 3 5 1 5 1 5 1 3 2 4 2 4 2 4 3
2 Mennyire szóródnak az adatok az átlag körül? Átlagtól való négyzetes eltérés egyetlen személy esetén: Pl. IQ = 105 esetén (105 - IQ = 80 esetén (80 - Ezen négyzetes eltérések átlaga: variancia (Var) A variancia négyzetgyöke: szórás (, s)
3 Mintabeli szóródási mutatók Négyzetes Variancia összeg: Q = xi -x)2 (korrigált): Var = Q/(n - 1) = a variancia négyzetgyöke: Szórás s = Var = Q/(n-1) Szabadságfok: f = n - 1 GYAK
4 Szokásos jelölések Mintabeli (tapasztalati) átlag: x (ejtsd: x-vonás) Populációbeli (elméleti) átlag: μ (ejtsd: mű) Mintabeli (tapasztalati) szórás: s Populációbeli (elméleti) szórás: σ (ejtsd: szigma)
5 Relatív szórás = Variációs együttható Cél: dimenziómentes szóródási mutató Mintában: VE = s/x Populációban: Feltétel: Pl.: VE = / X arányskálájú Ha s = 3 kg, x = 5 kg, akkor VE = 3kg/5kg = 0,60 = 60% GYAK
6 Adatok nagysága Milyen nagy egy 210 cm-es testmagasság (150-es IQ, 160-as vérnyomás)? Milyen kicsi egy 145 cm-es testmagasság (65-ös IQ, 80-as vérnyomás)? GYAK
7 Standard érték Az X változó x értékének standard értéke (z) azt mutatja meg, hogy x hány szórásnyi távolságra van az átlagtól: z = (x átlag)/szórás Pl. 10-es átlag és 2-es szórás esetén 15 z-értéke mennyi? A standard értékeknek mi a mértékegysége? GYAK
8 Standardizálás Mintában: zx = (x x)/s Mi lesz az átlag standard értéke? Mi lesz a standard értékek szórása? A nagy hibák standard értéke kiugróan nagy (vö. ROPstat)
9 Példák az IQ-val = E(IQ) = 100, = D(IQ) = 15 Ha IQ = 130, z =? Ha z = -1, IQ =? GYAK
0 Hogyan határozza meg az eloszlás alakját a ferdeség és a csúcsosság?
1 Szimmetrikus, átlagos csúcsosságú eloszlás
2 Szimmetrikus, átlagosnál nagyobb csúcsosságú eloszlás
3 Hogy nézhet ki egy átlagosnál kisebb csúcsosságú (pl. lapos) eloszlás??
4 Folytonos egyenletes eloszlás
5 Pozitív ferdeségű eloszlás
6 Negatív ferdeségű eloszlás
7 Szimmetrikus, kétcsúcsú (bimodális) eloszlás
8 Ferdeség és csúcsosság mérése Ferdeségi együttható (skewness): E(z3) Csúcsossági együttható (kurtosis): E(z4) 3 A normális eloszlás ferdeségi és csúcsossági együtthatója 0
9 A normális eloszlástípus
0
1 Milyen változó normális eloszlású? Például a fejek száma 100-200-1000 dobásból Sok apró hasonló, de független mennyiség összegeződése Egy véletlen minta átlaga (vö. ROPstat) Kis minta? Nagy minta? GYAK
2 Változó: fejek száma 50 dobásból (gyakorisági eloszlás, n = 15000) 12 10 8 6 4 2 0 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
3 A normális eloszlás kiterjedtsége
4 A normális eloszlás kiterjedtsége 68% 95% 99,8%
5 Például = 100 és = 15 esetén 68% 95% 99,8% GYAK
6 Példák normális és nem normális eloszlású változókra Hisztogram és kum% megtekintése az alábbi adatfájlok változóira Antr500.msw Új fájl 1000 esettel random normál változóval GYAK