Matematikai statisztika elıadás, földtudományi BSc (geológus szakirány) 2014/2015 2. félév Arató Miklós
1. elıadás: Bevezetés Irodalom, követelmények A félév célja Matematikai statisztika tárgya Történet Alapfogalmak
Irodalom Jegyzet Bognárné-Göndıcs- : Matematikai statisztika. Példatár Móri-Szeidl-Zempléni: Matematikai statisztika példatár Könyvek John C. Davis: Statistics and Data Analysis in Geology E.H. lsaaks and R. M. Srivastava: Applied geostatistics Ezek a diák (késıbb): http://www.cs.elte.hu/~arato/stat_geo15.html
Számonkérés Vizsga: írásbeli, késıbb egyeztetendı idıpontban
Cél Matematikai statisztika alapjainak ismertetése Leíró statisztika Becsléselmélet Hipotézisvizsgálat Alkalmazási készség kialakítása
A matematikai statisztika tárgya Következtetések levonása adatok alapján Ipari termelés Mezıgazdaság Szociológia (közvéleménykutatások) Természettudományok Meteorológia (pl. klímaváltozás) Földtudományok Pénzügyi adatok stb.
Történet Népszámlálások már az ókorban is voltak Táblázatokat a biztosítók már többszáz éve használnak Maga a tudomány fiatal tudomány, alig 100 éves a múltja Angliai mezıgazdasági alkalmazások voltak az elsık Fejlıdése felgyorsult az utóbbi évtizedekben (számítógépek jóvoltából)
Halandóság Elsı halandósági táblázat: Edmond Halley (1693) Születéskor várható életkor: 26 év Ugyanolyan eséllyel lehet túlélni a 8 évet, mint korábban meghalni.
Magyarországi halandóság (2008) Születéskor várható életkor: 69,79 év (férfiak), 77,76 (nık). Ugyanolyan eséllyel lehet túlélni a 72 (férfiak) évet, mint korábban meghalni. A nıknél ez az érték 81 év. Kapnak-e majd a férfiak nyugdíjat, ha 70 év lesz a korhatár?
Várható elhalálozási életkor férfiak nők Születéskor 69,79 77,76 62 éves korban 77,37 81,85 65 éves korban 78,62 82,51 70 éves korban 80,90 83,75
Korfák
Mi csökkentheti az élettartamot? ~ fél óra: ~ 1 óra: ~90 óra:
Ecstasy vagy lovaglás? Angliában évente 30 halálozás ecstasy miatt és 25 lovaglás miatt. Alig van különbség, de 500 ezer ecstasy használat hetente, tehát ~ 1 halál/millió használat 1 millió lovaglás/hét, tehát ~ 0,5 halál/millió lovaglás
Statisztikai adatok Valamely sokaság jellemzıjére vonatkozó mért vagy számított eredmény Alapadat: közvetlenül a sokaságból méréssel vagy leszámlálással kapott eredmény Származtatott adat: alapadatokból mőveletek eredményeként kapjuk
Alapadatok Mit szeretnénk? Legyenek pontosak Álljanak idıben rendelkezésre Legyenek költséghatékonyak
Geológiai adatok Csoportosítás az adatgyőjtési mővelet szerint Mérés (pl. kızet kálciumtartalma vagy üledék vastagsága) Számlálás (pl. cirkon szemek száma mikroszkópos mérésnél vagy gyémántok száma egy adott területen) Identifikáció (pl. sok kızet és ásványadat intuitíven lett meghatározva és nem mérésekkel) Sorbarendezés (gyakran szubjektív)
Adatforrások Ellenırzött kísérletek Természeti folyamatok Fontos: Adatgyőjtés módja Régi adatok felhasználhatósága 17
Az adatok pontossága Általában korlátozott a pontosságuk Abszolút hiba: ε= V-M ahol V a valóságos adat és M a mért adat. Gyakorlatban nem tudjuk meghatározni, ezért felsı becslést adunk rá Relatív hiba: az abszolút hiba és a mért érték hányadosa: ε/m
Statisztikai ismérvek és ismérvváltozatok Statisztikai ismérv: a statisztikai sokaság egyedeit jellemzı tulajdonság Ismérv-változatok ill. ismérv-értékek: a statisztikai ismérv lehetséges kimenetei Például: Ismérv: A hallgató neme Ismérvváltozatok: Férfi, Nı Ismérv: A hallgató kora; Ismérv-értékek: (évben): 19, 20, 21 19
Statisztikai ismérvek típusai az adott információk alapján Minıségiek (pl. hallgató neme) Területiek (pl. hallgató születési helye), gyakran ezt minıséginek tekintik Mennyiségiek (pl. hallgató ösztöndíja) Idıbeliek (pl. hallgató születési ideje), gyakran ezt mennyiséginek tekintik
A statisztikai ismérvek típusai II. Diszkrét ismérvek: az ismérvváltozatok csak bizonyos számok lehetnek, a közbeesı értékek nem. Például: Magok, gyémántok száma. Folytonos ismérvek: az ismérvértékek egy adott tartományon belül minden értéket felvehetnek Például: Tömeg, hımérséklet. 21
Az ismérvváltozatok megfigyelése, a statisztikai mérés A statisztikai mérés: valamilyen mértékegységgel való összehasonlítás, vagy megszámlálás. Mérési skálák, a számok információtartalma: Nominális (néven alapuló, névleges) skála Ordinális (sorrendi) skála Intervallum (különbség) skála Arány skála 22
Nominális (névleges) skála Nominális skála: minıségi (és területi) ismérveknél. Mennyiségi értelmezésük nincs, csak az ismérvváltozatok azonosítására szolgálnak. Például: Nem: férfi (1), nı (2) vagy olaj (0), érc (2) Megye: Veszprém (19), Zala (20) 23
Ordinális (sorrendi) skála A sokaság egyedeinek valamely tulajdonságuk intenzitása alapján való sorba rendezésére alkalmas. Az egymást követı számok rangsort fejeznek ki, de nem jelentik azt, hogy az ismérvértékek közötti távolság azonos. Például: Sportban a helyezések (1., 2., 3. hely) Éttermek kategóriái (I, II, III, IV) Értékelés szavakkal (rossz-közepes-jó) 24
Intervallum (különbség) skála A számok ill. skálaértékek nemcsak sorrendet fejeznek ki, hanem a távolságuk is fontos. A mértékegység és a 0 pont meghatározása önkényes. A 0 érték nem feltétlenül jelenti a tulajdonság hiányát. Például: hımérsékleti skálák (Celsius és Fahrenheit) idıszámítás 25
Arány skála Mennyiségi ismérvek esetén ez a leggyakoribb. Kezdı pontja kötött; a nullpont a tulajdonság hiányát jelzi; a skála bármely két értékének aránya független a mértékegységtıl. itt minden matematikai mővelet értelmes Például: munkabér élelmiszerfogyasztási kiadások testsúly 26
Statisztikai csoportosítás, az ismérvértékek osztályozása A statisztikai csoportosítás a megfigyelt sokaság elemeinek felosztása valamilyen megkülönböztetı ismérv szerint. Követelmények: átfedésmentesség és teljesség, azaz a sokaság minden eleme besorolható legyen egy és csak egy osztályba. 27
Csoportosító (gyakorisági) sorok Az egy ismérv szerinti osztályozás eredménye a csoportosító sor, más néven gyakorisági sor. A csoportosító ismérv típusától függıen lehet: minıségi sor területi sor mennyiségi sor idısor 28
Adatok (matematikai definíció) Mintavétel a populációból: eredménye a (statisztikai) minta A mintavétel módja is lényeges (legegyszerőbb eset: bármelyik elem ugyanakkora valószínőséggel kerül a mintába) A mintavétel eredménye: (statisztikai) minta: x 1,x 2,,x n (számsorozat) Ugyanakkor egy másik, hasonló mintavételnél más mintát kapnánk, azaz az adott minta véletlen kísérlet eredménye. Ha a minta véletlen jellegét vizsgáljuk: X 1,X 2,,X n valószínőségi változó-sorozat. Lényeges különbség a valószínőségszámításhoz képest: az eloszlása nem (vagy csak részben) ismert.
Matematikai statisztika helye a tudományok között Matematikai tudomány, mert a valószínőségszámítás eredményeire épül. Ugyanakkor a statisztika mindennapi alkalmazása nem mindig kellıen precíz (teljesülnek-e a feltételek?) Ezért lényeges, hogy a valószínőségszámítási eredményeket alkalmazva fogalmazzuk meg következtetéseinket.
Példák 1. Egy hónapban 10 hurrikánt figyeltünk meg. Mit gondolunk, mennyi hurrikán lesz jövıre ugyanebben a hónapban? 2. Egy közvéleménykutatás során azt kaptuk, hogy 1000 emberbıl 400 választaná az adott pártot. Mások szerint a párt 50%-ot fog kapni. Elıfordulhat-e ez? Mekkora eséllyel?
Statisztikai elemzés lépései Tervezés (mit vizsgálunk, hogyan győjtjük az adatokat) Adatgyőjtés Kódolás (ha szükséges) Ellenırzés: leíró statisztikákkal Elemzés: matematikai statisztika módszereivel
Leíró statisztika Nem a véletlen hatását vizsgálja, hanem a konkrét minta megjelenítése, jellemzıinek kiszámítása a feladata Adatok elrendezhetık táblázatban (fontos: forrás feltüntetése), illetve ábrázolhatók grafikusan
Statisztikai táblák Megfelelı formával ellátott statisztikai sorok összefüggı rendszere Cél: tömör, számszerő jellemzés Egyszerő tábla: leíró sorokból áll Csoportosító táblák: tartalmaznak összesítı rovatot is (lehet bennük összehasonlítás is) Kombinációs vagy kontingenciatábla: két ismérv szerinti kombinációs csoportosítás. Mindkét irányban tartalmaz összesítést.
A statisztikai tábla kellékei Cím: Mirıl? Mikor? Milyen mértékegységben? Fej- és oldalrovat: Egyszerő és világos megnevezések Adatok: Egységes megjelenési forma 35
Egyszerő statisztikai tábla Év A foglalkoztatottak száma (2000 2012) [ezer fı] 2000 3 856,2 2001 3 868,3 2002 3 870,6 2003 3 921,9 2004 3 900,4 2005 3 901,5 2006 3 930,1 2007 3 926,2 2008 3 879,4 2009 3 781,9 2010 3 781,2 2011 3 811,9 2012 3 877,9 36
Csoportosító táblázatok Gyakran szükség van csoportosításra Sok adat Természetes ismérv-csoportok Felosztás a megkülönböztetı ismérv szerint, sok ismérvváltozat esetén osztályozás kell Eredmény: egy ismérv szerinti csoportosító táblázat Tartalmazhat gyakoriságot vagy relatív gyakoriságot Osztály Megfigyelések száma O 1 f 1 O k f k Összesen N
Csoportosító statisztikai tábla Területi egység Foglalkoztatottak száma 2012-ben [ezer fı] Budapest 766,9 Pest 513,1 Közép-Magyarország 1 280,1 Fejér 170,0 Komárom-Esztergom 130,1 Veszprém 143,6 Közép-Dunántúl 443,7 Gyır-Moson-Sopron 194,5 Vas 110,7 Zala 116,4 Nyugat-Dunántúl 421,6 Baranya 139,0 Somogy 112,7 Tolna 84,1 Dél-Dunántúl 335,9 Dunántúl 1 201,1 Borsod-Abaúj-Zemplén 216,0 38
Kombinációs statisztikai tábla Nem Családi állás Férfi Nı Összesen 4789565 5300765 Férj, feleség 2022290 2022290 Élettárs 348963 348817 Apa, anya 68675 463037 Gyermek 1726970 1361424 Felmenı rokon 26048 150253 Egyéb rokon 69095 82088 Nem rokon 15929 13920 Egyedülálló 511595 858936 Ismeretlen Mikrocenzus népességadatai 2005. 39
Hisztogram (mennyiségi ismérvekre) Adatainkat osztályokba soroljuk (mindegyiket pontosan egybe, pl. az i-edik osztály: a i x<a i+1 ), a csoportok relatív gyakoriságai (r ) i megegyeznek az osztály fölé rajzolt téglalap területével, tehát a téglalap magassága m = i r i /(a i+1 -a ). i Összterület:1 (hasonló a sőrőségfüggvényhez)
Hisztogram (Denver-Julesburg medence olajmezıi) 5 10 15 20 25 30 átlagos porozitás % Gyakorisági hisztogram 5 10 15 20 25 30 átlagos porozitás % Frequency 0 10 30 Density 0.00 0.04
Hisztogram (3 osztály) 0 5 10 15 20 25 30 átlagos porozitás % Hisztogram (5 osztály) 5 10 15 20 25 30 átlagos porozitás % Density 0.00 0.02 0.04 0.06 Density 0.00 0.02 0.04 0.06 Hisztogram (10 osztály) 5 10 15 20 25 átlagos porozitás % Hisztogram (20 osztály) 5 10 15 20 25 átlagos porozitás % Density 0.00 0.04 0.08 Density 0.00 0.04 0.08 0.12
Középértékek: átlag Mintaátlag: x +... n + x 1 n x : = ha az egyes értékek (l i ) gyakoriságai (f i ) adottak: f l +... n + 1 1 k k x : = f l Ha csak az osztályközökbe esı értékek gyakoriságát ismerjük, az egyes értékeket becsüljük az osztályközéppel és alkalmazzuk az elızı képletet.