Matematikai statisztika előadás survey statisztika MA szakosokak 206/207 2. félév Zempléi Adrás. előadás: Bevezetés Irodalom, követelméyek A félév célja Matematikai statisztika tárgya Törtéet Alapfogalmak Irodalom Jegyzet Korpás Attiláé: Általáos Statisztika I-II Taköyv Bolla-Krámli: Statisztikai következtetések elmélete R.A.Johso-G.K. Bhattacharyya: Statistics Példatár Móri-Szeidl-Zempléi: Matematikai statisztika példatár Program: R Számokérés A tárgy felvételéhez a valószíűségszámítás c. tárgy elvégzése szükséges Vizsga: írásbeli, később egyeztetedő időpotba, az előző félévhez hasolóa Lehet vizsgapotot szerezi az előadásoko is (írásba, villámkérdések megválaszolásával) A potszám 30%-át a kozultációs gyakorlato megíradó dolgozattal lehet megszerezi Cél Matematikai statisztika alapjaiak ismertetése Leíró statisztika Becsléselmélet Hipotézisvizsgálat Alkalmazási készség kialakítása A matematikai statisztika tárgya Következtetések levoása adatok alapjá Ipari termelés Mezőgazdaság Szociológia (közvéleméykutatások) Természettudomáyok Meteorológia (pl. klímaváltozás) Geetika (chiptechológia) Pézügyi adatok stb.
Törtéet Népszámlálások már az ókorba is voltak Táblázatokat a biztosítók már többszáz éve haszálak Maga a tudomáy fiatal tudomáy, alig 00 éves a múltja Agliai mezőgazdasági alkalmazások voltak az elsők Fejlődése felgyorsult az utóbbi évtizedekbe (számítógépek jóvoltából) Statisztikai adatok Valamely sokaság jellemzőjére voatkozó mért vagy számított eredméy Alapadat: közvetleül a sokaságból méréssel vagy leszámlálással kapott eredméy Származtatott adat: alapadatokból műveletek eredméyekét kapjuk Alapadatok Legyeek potosak Álljaak időbe redelkezésre Legyeek költséghatékoyak Forrásuk: Kimutatások, yilvátartások Adatgyűjtések (teljes körű vagy részleges) Az adatok potossága Általába korlátozott a potosságuk Abszolút hiba: ε= V-M ahol V a valóságos adat és M a mért adat. Gyakorlatba em tudjuk meghatározi, ezért felső becslést aduk rá. Megadható úgy is, hogy csak a szigifikás számjegyek jeleek meg az adatba. Relatív hiba: az abszolút hiba és a mért érték háyadosa: ε/m Statisztikai ismérvek A sokaság egyedeit jellemző tulajdoság. Lehetséges kimeetelei az ismérvváltozatok. Az ismérvek által adott iformációk alapjá az ismérvek lehetek: Időbeliek Területiek Meyiségiek Miőségiek. Adatok típusai (skálák) Nomiális: csak gyakoriságot tuduk számoli (em, foglalkozás, emzetiség): miőségi ismérv Ordiális (redezett): pl. értékelés szavakkal (rossz-közepes-jó), sorred egyértelmű, kvatilisek számolhatók Itervallum (pl. hőmérséklet: külöbség egyértelmű, de háyados em) Aráy (itt mide matematikai művelet értelmes), ez szerecsére a leggyakoribb 2
Populáció Azo egyedek összessége, akikről iformációt szereték gyűjtei (pl. Budapest lakói) Elvileg lehetséges a teljeskörű felmérés, de a gyakorlatba legikább mitákkal dolgozuk A mita: a téylegese összegyűjtött adatok összessége Adatok (matematikai defiíció) Mitavétel a populációból: eredméye a (statisztikai) mita A mitavétel módja is léyeges (legegyszerűbb eset: bármelyik elem ugyaakkora valószíűséggel kerül a mitába) A mitavétel eredméye: (statisztikai) mita: x,x 2,,x (számsorozat) Ugyaakkor egy másik, hasoló mitavételél más mitát kapák, azaz az adott mita véletle kísérlet eredméye. Ha a mita véletle jellegét vizsgáljuk: X,X 2,,X valószíűségi változó-sorozat. Léyeges külöbség a valószíűségszámításhoz képest: az eloszlása em (vagy csak részbe) ismert. Matematikai statisztika helye a tudomáyok között Matematikai tudomáy, mert a valószíűségszámítás eredméyeire épül. Ugyaakkor a statisztika mideapi alkalmazása em midig kellőe precíz (teljesülek-e a feltételek?) Ezért léyeges, hogy a valószíűségszámítási eredméyeket alkalmazva fogalmazzuk meg következtetéseiket. Példák. Egy hóapba 0 hurrikát figyeltük meg. Mit godoluk, meyi hurriká lesz jövőre ugyaebbe a hóapba? 2. Egy közvéleméykutatás sorá azt kaptuk, hogy 000 emberből 400 választaá az adott pártot. Mások szerit a párt 50%-ot fog kapi. Előfordulhat-e ez? Mekkora eséllyel? Statisztikai elemzés lépései Tervezés (mit vizsgáluk, hogya gyűjtjük az adatokat) Adatgyűjtés Kódolás (ha szükséges) Elleőrzés: leíró statisztikákkal Elemzés: matematikai statisztika módszereivel Leíró statisztika Nem a véletle hatását vizsgálja, haem a kokrét mita megjeleítése, jellemzőiek kiszámítása a feladata. Adatok elredezhetők táblázatba (fotos: forrás feltütetése), illetve ábrázolhatók grafikusa. 3
Statisztikai táblák Megfelelő formával ellátott statisztikai sorok összefüggő redszere Cél: tömör, számszerű jellemzés Egyszerű tábla: leíró sorokból áll Csoportosító táblák: tartalmazak összesítő rovatot is (lehet beük összehasolítás is) Kombiációs vagy kotigeciatábla: két ismérv szeriti kombiációs csoportosítás. Midkét iráyba tartalmaz összesítést. Csoportosító táblázatok Gyakra szükség va csoportosításra Sok adat Természetes ismérv-csoportok Felosztás a megkülöböztető ismérv szerit, sok ismérvváltozat eseté osztályozás kell Eredméy: egy ismérv szeriti csoportosító táblázat Tartalmazhat gyakoriságot vagy relatív gyakoriságot Osztály Megfigyelések száma O f O k f k Összese N Tapasztalati eloszlás Mide megfigyeléshez (x,x 2,,x ) / súlyt redel. Valószíűségeloszlás! Mitaátlag éppe eek az eloszlásak a várható értéke. Tapasztalati eloszlás eloszlásfüggvéye: tapasztalati eloszlásfüggvéy: F (lépcsősfüggvéy). F (z)=k/, ( ) ( ) ha x () 0 =-, x () x + = k z xk Ha a mita X,X 2,,X valószíűségi változó-sorozat, F (z) is valószíűségi változó. a/ 0.0 0.2 0.4 0.6 0.8.0 Példa ormális eloszlás közelítése, =0 30 40 50 60 70 z a/ 0.0 0.2 0.4 0.6 0.8.0 ormális eloszlás közelítése, =00 30 40 50 60 70 z Kumulált gyakorisági sorok Táblázatos megfelelője a tapasztalati eloszlásfüggvéyek: megadja, hogy az adott osztályköz felső határáak megfelelő és aál kisebb értékek háyszor (ill. milye aráyba) fordulak elő. Lehet lefele is kumuláli: az adott osztályköz alsó határáak megfelelő és aál agyobb értékek háyszor (ill. milye aráyba) fordulak elő. Értékösszegsor Az osztályokhoz az azokba tartozó megfigyelések ismérvértékeiek az összegét redeli Ha a gyakorisági sor osztályközökkel va megadva és csak a megoszlás ismert, akkor becsüljük (osztályközép és gyakoriság szorzata). Lehet relatív értékösszegsort is képezi (a teljes értékösszeggel elosztva az osztályok értékösszegét) 4
Grafikus ábrázolás Oszlopdiagram: a gyakoriságokkal aráyos az oszlopok magassága Meyiségi ismérvekre: Gyakorisági poligo Hisztogram Megoszlás szemléltetése lehetséges kördiagrammal is. Hisztogram (meyiségi ismérvekre) Adataikat osztályokba soroljuk (midegyiket potosa egybe, pl. az i-edik osztály: a i x<a i+ ), a csoportok relatív gyakoriságai (r i ) megegyezek az osztály fölé rajzolt téglalap területével, tehát a téglalap magassága m i = r i /(a i+ -a i ). Összterület: (hasoló a sűrűségfüggvéyhez) Potszámok grafikus ábrázolása Frequecy 0 0 20 30 40 Példák Túl sok osztály Potszámok grafikus ábrázolása 20 30 40 50 60 70 80 potszám Frequecy 0 50 00 50 200 250 300 350 Túl kevés osztály Potszámok grafikus ábrázolása 20 30 40 50 60 70 80 90 potszám Példák Jó osztályszám Frequecy Lehet általáos formulát is készítei, -/3 - al aráyos itervallumszám az opt. 0 50 00 50 200 20 30 40 50 60 70 80 potszám Gyakorló példák. Tegyük fel, hogy a mitákba szereplő 4 ember életkora a következő: 2,35,45,6. Rajzoljuk fel a tapasztalati eloszlásfüggvéyt! 2. Tegyük fel, hogy az alábbi, csoportosított adataik vaak. Számítsuk ki a mitába az átlagos életkort. Ábrázoljuk az adatokat hisztogrammal. életkor 20-30 30-40 40-70 gyakoriság 5 7 8 Középértékek: átlag Mitaátlag: x... x x : ha az egyes értékek (l i ) gyakoriságai (f i ) adottak: x Ha csak az osztályközökbe eső értékek gyakoriságát ismerjük, az egyes értékeket becsüljük az osztályközéppel és alkalmazzuk az előző képletet. fl... fkl : k 5
Mediá A sorbaredezett mita középső eleme (ha páros sok eleme va: a két középső átlaga). Közelítés osztályközös gyakoriságokra: f ' me Me x 2 l h f x : l a mediát magába foglaló osztály alsó határa f me : kumulált gyakoriság a mediát megelőző osztályig bezárólag f me : a mediát magába foglaló osztály gyakorisága h: a mediát magába foglaló osztály szélessége. : a mita elemszáma me Módusz A leggyakoribb (tipikus) érték. Az eloszlás lehet uimodális, bimodális vagy polimodális (egy-, két- vagy többmóduszú). Meghatározása: A gyakorisági poligo maximumhelye (a modális osztályköz középértéke). Közelítése em szimmetrikus esetbe Mo x mo f0 f0 2 f0 f0 f0 Ahol x mo a móduszt tartalmazó osztály alsó határa f 0 a móduszt tartalmazó osztály gyakorisága f 0- a móduszt tartalmazó osztályt megelőző osztály gyakorisága f 0+ a móduszt tartalmazó osztályt követő osztály gyakorisága h a móduszt tartalmazó osztály szélessége h Tapasztalati kvatilisek Elméleti kvatilis: abszolút folytoos, szigorúa mooto F eseté q z =F - (z) Általába: if{x:f(x)>z} A tapasztalati eloszlás kvatilisei: tapasztalati kvatilisek. Esetleg lieáris iterpolációval lehet potosítai a becsléseiket. z=/2: mediá. z=/4, 3/4: kvartilisek Kvatilisek kiszámítása Osztályközös gyakorisági sorból p f Qp xi f i ' i Ahol x i a kvatilist tartalmazó osztály alsó határa a mita elemszáma f i- kumulált gyakoriság a kvatilist tartalmazó osztályt megelőző osztállyal bezárólag f i a kvatilist tartalmazó osztály gyakorisága h i a kvatilist tartalmazó osztály szélessége h i Alapstatisztikák grafikus megjeleítése Az egyes dobozok az alsó kvartilistól Gam2 a felső kvartilisig tartaak. Középvoal a mediá. T5 A voalak a teljes terjedelmet Norm felölelik, ha ez az egyes iráyokba em agyobb a kvartilisek közötti külöbség.5- Ui05 boxplot szereséél. Ha eze kívül is vaak potok, azokat külö-külö jeleíti meg. -4-2 0 2 4 6 6