Vargha András Károli Gáspár Református Egyetem Budapest



Hasonló dokumentumok
Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Kutatásmódszertan és prezentációkészítés

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Biomatematika 2 Orvosi biometria

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

[Biomatematika 2] Orvosi biometria

A valószínűségszámítás elemei

A leíró statisztikák

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

V. Gyakorisági táblázatok elemzése

Segítség az outputok értelmezéséhez

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Biomatematika 2 Orvosi biometria

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A Statisztika alapjai

[Biomatematika 2] Orvosi biometria

Elemi statisztika fizikusoknak

Változók eloszlása, középértékek, szóródás

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Adatok statisztikai értékelésének főbb lehetőségei

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Az empirikus vizsgálatok alapfogalmai

[Biomatematika 2] Orvosi biometria

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Valószínűségszámítás összefoglaló

Matematikai statisztika

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

KÖVETKEZTETŐ STATISZTIKA

Biostatisztika. Sz cs Gábor. 2018/19 tavaszi félév. Szegedi Tudományegyetem, Bolyai Intézet

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Matematika feladatbank I. Statisztika. és feladatgyűjtemény középiskolásoknak

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Matematikai alapok és valószínőségszámítás. Normál eloszlás

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Biostatisztika Összefoglalás

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Területi sor Kárpát medence Magyarország Nyugat-Európa

OKM ISKOLAI EREDMÉNYEK

y ij = µ + α i + e ij

Alkalmazott statisztika feladatok

IV. Változók és csoportok összehasonlítása

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Sta t ti t s i zt z i t k i a 3. előadás

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria gyakorló feladatok BsC hallgatók számára

Matematikai statisztikai elemzések 2.

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztikai alapfogalmak

Matematikai statisztika

Normális eloszlás tesztje

MINTAFELADATOK. 1. Az alábbi diagram egy kiskereskedelmi lánc boltjainak forgalomkoncentrációját szemlélteti:

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Közlemény. Biostatisztika és informatika alapjai. Alapsokaság és minta

Bevezető Mi a statisztika? Mérés Csoportosítás

6. Előadás. Vereb György, DE OEC BSI, október 12.

Biostatisztika Összefoglalás

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Statisztikai módszerek 7. gyakorlat

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztikai becslés

Vizuális adatelemzés

[Biomatematika 2] Orvosi biometria

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1

Többváltozós lineáris regressziós modell feltételeinek

Korrelációs kapcsolatok elemzése

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

Átírás:

Vargha András Károli Gáspár Református Egyetem Budapest

Kötelező irodalom a kurzushoz Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal (2. kiadás). Pólya Kiadó, Budapest, 2007.

Nélkülözhetetlen szoftver a kurzushoz: ROPstat www.ropstat.com Töltse le és próbálja ki a magyar nyelvű demó verziót!

A félév vázlata I. II. III. IV. V. Statisztikai alapfogalmak, leíró statisztikák A következtetési statisztika alapfogalmai Kvantitatív változók kapcsolata (korreláció, regresszió) Változók és csoportok összehasonlítása Gyakorisági táblázatok elemzése

I. Statisztikai alapfogalmak, leíró statisztikák

Tartalom Statisztikai alapfogalmak (adatok, adattáblázat, esetek, változók) Populáció és minta Változók és típusaik Leíró statisztika alapfogalmai Gyakorisági eloszlás Középértékek, szóródási mutatók stb. Normális eloszlás

Vágjunk bele!

Piaci szavak Karalábé Lilahagyma Padlizsán Cukkini Sárgarépa Tök Paprika Dinnye Jégsaláta Póréhagyma

Memóriajáték

Írja be a füzetébe, hogy milyen szavak fordultak elő az iménti dián! 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

Mely szavakra emlékezett helyesen? 1. Karalábé 2. Lilahagyma 3. Padlizsán 4. Cukkini 5. Sárgarépa 6. Tök 7. Paprika 8. Dinnye 9. Jégsaláta 10. Póréhagyma

Egy személlyel kapcsolatban mi érdekelhet bennünket? Emlékezeti teljesítmény Helyesen megjegyzett szavak száma Más? Egyéb jellemzők Személy neme Más?

Pszichológiai változók Pszichológusok által vizsgált egyedek, személyek, házaspárok (megfigyelési egységek) egyedi jellemzői GYAK

Példák változókra (megfigyelési egység = egy házaspár) Mióta házasok Mióta járnak együtt Férj életkora Feleség életkora Korkülönbség Gyerekeik száma IQ(férj) - IQ(feleség) GYAK

Más példák (megfigyelési egység = egy személy) Nem Életkor MAWI-IQ Diagnózis Iskolázottsági szint Végzett osztályok száma GYAK

Mit várunk el egy pszichológiai változó meghatározásakor? Egyértelműen definiált értékkészlet Minden esetnél egyértelműen eldönthető érték GYAK

Mi a statisztika? Akkor fordulunk hozzá, ha sok egyedünk van és mindenkit ugyanazon változó (vagy változók) segítségével jellemzünk

Emberek, gyümölcsök

Virágok

Kavicsok

A statisztika segítségével Jellemezhetünk leírhatunk egy egész csoportot, mintát. Hogyan? Különböző csoportokat összehasonlíthatunk (pl. férfiak és nők memóriája) Változók között összefüggéseket kereshetünk (pl. van-e kapcsolat a kor és az emlékezeti teljesítmény között?) Stb.

Hogy kell a statisztikai adatfeldolgozáshoz (elemzéshez) előkészíteni az adatokat? Elsődlegesen egy személyek és változók szerint rendezett adattáblázatot (statisztikai adatállományt) kell létrehozni Ennek neve: eset-változó adattáblázat (adatmátrix) ROPstat illusztráció GYAK

3 Eset-változó adattáblázat Eset Nem Életkor Magasság (X1) (X2) (X3) 1. Nő 18 170 2. Férfi 21 178 3. Nő 19 155

Példák más adatállományokra

5 Pszichológia szakra jelentkezők, 1981

6 Gyerekek antropometriai adatai, 1993

7 Problémás és normál családok, 2005

A változóról Eseteket (személyeket stb.) jellemzi Értékei vannak (pl. a személy neme változó értékei mik? Kor, testmagasság, szemszín, érettségi matek jegye értékei?) Ha egy változónak véges számú (2, 3, 4, ) különböző értéke van, diszkrét változónak nevezzük. Példa? Folytonos változók. Mi folytonos ezeknél? GYAK

9 Pszichometriai skálatípusok Osztályozás szempontja: milyen logikai, illetve számtani műveletek végezhetők értelmesen a változó értékeivel? Nominális skála Ordinális skála Intervallum-skála Arányskála Példák: GYAK

0 Kvantitatív és kvalitatív változók Kvalitatív változók Nominális és ordinális skálájú változók Hangsúly: az értékek kategóriáján Kvantitatív változók Intervallum- és arányskálájú változók Hangsúly: az értékek nagyságán

1 A változók eloszlása Azt tudjuk meg a változó eloszlásából, hogy milyen értékből mennyi (%, darab) van. Ha ismerjük egy változó eloszlását, ebből már minden jellemzőjét (pl. az átlagot is) ki lehet számítani, illetve meg lehet határozni. GYAK

2 NEM 60 50 40 30 Percent 20 10 0 férfi NEM nõ

3 Hogy tetszik?

4 EPIL3 60 50 40 30 Percent 20 10 0.00 EPIL3 1.00 2.00 3.00 4.00

5 ISK 40 30 20 Percent 10 0 7 ISK 8 9 10 11 12 13 14 15 16 17 18

6 ISKKOD 50 40 30 Percent 20 10 0 7-11 ISKKOD 12-15 16-20

7 Az iskolai végzettség eloszlása Alsófokú végzettség 29% Középfokú végzettség Felsőfokú végzettség 40% 31%

8 Statisztikai alapfogalmak o Megfigyelési egységek (esetek) személyek, egyedek, házaspárok o Változók (megfigyelési egységek jellemzői) IQ, Nem, Kor, Megtanult tételek száma, Házasság időtartama o o Populáció (sokaság): esetek elvi (elméleti) összessége Minta: a populáció kiválasztott része

9 Populáció és minta o A populáció nagyon nagy, ezért csak egy kis részét vizsgáljuk meg. Ez a MINTA (pl. 50 vagy 100 vagy 35 személy).

0 Minta o o Megfigyelési egységek csoportja, akiket bizonyos változók segítségével egy vizsgálat, kísérlet vagy megfigyelés során konkréten megvizsgálunk és adatokkal jellemzünk. E minta alapján nyert adatok együttese: az adatminta

1 Egy adatminta személy Nem Életkor Magasság 1. Nő 18 170 2. Férfi 21 178 3. Nő 19 155

2 Statisztikai elemzések két fő típusa Leíró statisztika o Fókusz a konkrét mintán: milyen ez a minta? (Pl. mi itt a fiúk és a lányok aránya?) Következtetési statisztika o Következtetés a mintáról a populációra. Fókusz a populáción. (Pl. ha a minta 20%-a fiú, akkor mekkora lehet az arányuk a populációban? Kijelenthető-e, hogy a fiúk a populációban is kisebbségben vannak?)

Kiknek jobb a verbális memóriája, a fiúknak, vagy a lányoknak?

4 Leíró statisztika o o Milyen ez az évfolyam az emlékezeti vizsgálat változói szempontjából? Az elemzést lehet változónként, változópáronként, vagy ennél is bonyolultabb változómintázatok segítségével végezni. o Nemi megoszlás o Emlékezeti teljesítmény eloszlása

5 Leíró statisztikai elemzések o o o o Gyakorisági eloszlás Középértékek Szóródási mutatók Az eloszlás alakja o Ferdeség o Csúcsosság GYAK

6 Az iskolázottság gyakorisági eloszlása (n = 277) Érték Gyak % Kum% Érték Gyak % Kum% 3 1 0,4 0,4 11 18 6,5 41,2 4 2 0,7 1,1 12 68 24,5 65,7 5 3 1,1 2,2 13 9 3,2 69,0 6 20 7,2 9,4 14 14 5,1 74,0 7 5 1,8 11,2 15 1 0,4 74,4 8 47 17 28,2 16 36 13 87,4 9 2 0,7 28,9 17 32 11,6 98,9 10 16 5,8 34,7 18 3 1,1 100

7 Mi olvasható ki a gyakorisági eloszlásból? o o o o o Minimum, maximum Milyen értékből mennyi van? Relatív gyakoriság (százalékos) Milyen értékből van a legtöbb? (módusz) Kumulatív gyakoriság GYAK

8 Kvantilisek A mintát adott arányban két részre osztó pontok Felezőpont: medián Negyedelő pontok: kvartilisek K1: alsó 25%-ot levágó osztópont K3: alsó 75%-ot levágó osztópont Percentilisek (centilisek): C1, C1,, C100. - Med = C50, K1 = C25, K3 = C75, GYAK

9 A kvantilisekről A kum% segítségével határozhatók meg a legkönnyebben. Folytonos változók esetén lehet leginkább használni őket, mert a meghatározásuk itt a legtisztább. GYAK

0 14 12 10 8 6 50% 4 2 25% 25% 0 K1 K3

1 Itt mi az alsó és a felső kvartilis? Érték Gyak 3 1 % Kum% 0,4 0,4 Érték Gyak 11 18 % Kum% 6,5 41,2 4 2 0,7 1,1 12 68 24,5 5 3 1,1 2,2 13 9 3,2 69,0 6 20 7,2 9,4 14 14 5,1 74,0 7 5 1,8 11,2 15 1 0,4 74,4 8 47 17 28,2 16 36 13 87,4 9 2 0,7 28,9 17 32 11,6 98,9 10 16 5,8 34,7 18 3 1,1 65,7 100 GYAK

2 Középértékek

3 Egy változó nagyságának jellemzése egyetlen adattal Legtipikusabb érték: Módusz Eloszlás centruma: Átlag Eloszlás közepe: C50 = Medián

4 Medián =? Érték Gyak % Kum% Érték Gyak % Kum% 3 1 0,4 0,4 11 18 6,5 41,2 4 2 0,7 1,1 12 68 24,5 65,7 5 3 1,1 2,2 13 9 3,2 69,0 6 20 7,2 9,4 14 14 5,1 74,0 7 5 1,8 11,2 15 1 0,4 74,4 8 47 17 28,2 16 36 13 87,4 9 2 0,7 28,9 17 32 11,6 98,9 10 16 5,8 34,7 18 3 1,1 100

5 Mi az IQ mediánja?

6 Az IQ mediánja = 100 50% 50%

7 Mintajellemzők n-elemű minta: (x1, x2, x3,..., xn) Mintaátlag: x = ( xi)/n = (x1+x2+x3+...+xn)/n Mintamedián: Adatok növekvő sorában a középső vagy a középső kettő átlaga Minta: 2 < 4 < 5 < 7 < 8 Medián: M = 5

8 Férfiak és nők testsúlyátlagai különböző életkori szinteken 85 80 75 70 Férfiak Nők 65 60 55 év 50 20 30 40 50 60 70

9 Szóródási mutatók

0 Miben különbözik az alábbi két minta? 2 4 5 6 4 5 6 8

1 Három bizonyítvány Magatartás Szorgalom Magyar irodalom Magyar nyelvtan Matematika Történelem ÁTLAG: 3 3 3 3 3 3 3 5 1 5 1 5 1 3 2 4 2 4 2 4 3

2 Mennyire szóródnak az adatok az átlag körül? Átlagtól való négyzetes eltérés egyetlen személy esetén: Pl. IQ = 105 esetén (105 - IQ = 80 esetén (80 - Ezen négyzetes eltérések átlaga: variancia (Var) A variancia négyzetgyöke: szórás (, s)

3 Mintabeli szóródási mutatók Négyzetes Variancia összeg: Q = xi -x)2 (korrigált): Var = Q/(n - 1) = a variancia négyzetgyöke: Szórás s = Var = Q/(n-1) Szabadságfok: f = n - 1 GYAK

4 Szokásos jelölések Mintabeli (tapasztalati) átlag: x (ejtsd: x-vonás) Populációbeli (elméleti) átlag: μ (ejtsd: mű) Mintabeli (tapasztalati) szórás: s Populációbeli (elméleti) szórás: σ (ejtsd: szigma)

5 Relatív szórás = Variációs együttható Cél: dimenziómentes szóródási mutató Mintában: VE = s/x Populációban: Feltétel: Pl.: VE = / X arányskálájú Ha s = 3 kg, x = 5 kg, akkor VE = 3kg/5kg = 0,60 = 60% GYAK

6 Adatok nagysága Milyen nagy egy 210 cm-es testmagasság (150-es IQ, 160-as vérnyomás)? Milyen kicsi egy 145 cm-es testmagasság (65-ös IQ, 80-as vérnyomás)? GYAK

7 Standard érték Az X változó x értékének standard értéke (z) azt mutatja meg, hogy x hány szórásnyi távolságra van az átlagtól: z = (x átlag)/szórás Pl. 10-es átlag és 2-es szórás esetén 15 z-értéke mennyi? A standard értékeknek mi a mértékegysége? GYAK

8 Standardizálás Mintában: zx = (x x)/s Mi lesz az átlag standard értéke? Mi lesz a standard értékek szórása? A nagy hibák standard értéke kiugróan nagy (vö. ROPstat)

9 Példák az IQ-val = E(IQ) = 100, = D(IQ) = 15 Ha IQ = 130, z =? Ha z = -1, IQ =? GYAK

0 Hogyan határozza meg az eloszlás alakját a ferdeség és a csúcsosság?

1 Szimmetrikus, átlagos csúcsosságú eloszlás

2 Szimmetrikus, átlagosnál nagyobb csúcsosságú eloszlás

3 Hogy nézhet ki egy átlagosnál kisebb csúcsosságú (pl. lapos) eloszlás??

4 Folytonos egyenletes eloszlás

5 Pozitív ferdeségű eloszlás

6 Negatív ferdeségű eloszlás

7 Szimmetrikus, kétcsúcsú (bimodális) eloszlás

8 Ferdeség és csúcsosság mérése Ferdeségi együttható (skewness): E(z3) Csúcsossági együttható (kurtosis): E(z4) 3 A normális eloszlás ferdeségi és csúcsossági együtthatója 0

9 A normális eloszlástípus

0

1 Milyen változó normális eloszlású? Például a fejek száma 100-200-1000 dobásból Sok apró hasonló, de független mennyiség összegeződése Egy véletlen minta átlaga (vö. ROPstat) Kis minta? Nagy minta? GYAK

2 Változó: fejek száma 50 dobásból (gyakorisági eloszlás, n = 15000) 12 10 8 6 4 2 0 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

3 A normális eloszlás kiterjedtsége

4 A normális eloszlás kiterjedtsége 68% 95% 99,8%

5 Például = 100 és = 15 esetén 68% 95% 99,8% GYAK

6 Példák normális és nem normális eloszlású változókra Hisztogram és kum% megtekintése az alábbi adatfájlok változóira Antr500.msw Új fájl 1000 esettel random normál változóval GYAK