Valószíűségszámítás és statisztika előadás ifo. BSC/B-C szakosokak 6. előadás október 16. A matematikai statisztika tárgya Következtetések levoása adatok alapjá Ipari termelés Mezőgazdaság Szociológia (közvéleméykutatások) Természettudomáyok Meteorológia (pl. klímaváltozás) Geetika (chiptechológia) Pézügyi adatok stb. Törtéet Táblázatokat a biztosítók már többszáz éve haszálak Maga a tudomáy fiatal tudomáy, alig 100 éves a múltja Agliai mezőgazdasági alkalmazások voltak az elsők Fejlődése felgyorsult az utóbbi évtizedekbe (számítógépek jóvoltából) Populáció Az a sokaság, amiek a jellemzőire kivácsiak vagyuk. : Gyártmáyok Magyarország szavazópolgárai A Ft/Euro árfolyam api változásai Legtöbbször ics mód teljes körű (100%-os) adatfelvételre. Mita A populációból kiválasztott részhalmaz, amelyre voatkozóa az adatok redelkezésre állak. Mivel a mitavétel véletle, ezért a mitaelemek valószíűségi változók. Fotos szempot a reprezetativitás. Gyakorlatba legtöbbször feltesszük, hogy a mitaelemek függetleek. Adatok Mitavétel a populációból: eredméye a (statisztikai) mita A mitavétel módja is léyeges (legegyszerűbb eset: bármelyik elem ugyaakkora valószíűséggel kerül a mitába) Példa: Nem jó, ha a büfébe kérdezzük meg a diákokat az előadásról (em lesz reprezetatív) A mitavétel eredméye: (statisztikai) mita: 1, 2,, számsorozat, az X 1,X 2,,X valószíűségi változó-sorozat realizációja. 1
Matematikai statisztika helye a tudomáyok között Matematikai tudomáy, mert a valószíűségszámítás eredméyeire épül. Ugyaakkor a statisztika mideapi alkalmazása em midig kellőe precíz (teljesülek-e a feltételek?) Ezért léyeges, hogy a valószíűségszámítási eredméyeket alkalmazva fogalmazzuk meg következtetéseiket. 1. Egy hóapba 10 hurrikát figyeltük meg. Mit godoluk, meyi hurriká lesz jövőre ugyaebbe a hóapba? 2. Egy közvéleméykutatás sorá azt kaptuk, hogy 1000 emberből 400 választaá az adott pártot. Mások szerit a párt 50%-ot fog kapi. Előfordulhat-e ez? Mekkora eséllyel? Statisztikai elemzés lépései Tervezés (mit vizsgáluk, hogya gyűjtjük az adatokat) Adatgyűjtés Kódolás (ha szükséges) Elleőrzés: leíró statisztikákkal Elemzés: matematikai statisztika módszereivel Leíró statisztika Nem a véletle hatását vizsgálja, haem a kokrét mita megjeleítése, jellemzőiek kiszámítása a feladata. Adatok elredezhetők táblázatba (fotos: forrás feltütetése), illetve ábrázolhatók grafikusa. Adatok típusai (skálák) Nomiális: csak gyakoriságot tuduk számoli (pl. em, emzetiség) Ordiális (redezett): pl. értékelés szavakkal (rossz-közepes-jó), sorred egyértelmű, kvatilisek számolhatók Itervallum (pl. hőmérséklet: külöbség egyértelmű, de háyados em) Aráy (itt mide matematikai művelet értelmes), ez szerecsére a leggyakoribb Grafikus megjeleítés Ne legye túl Heti forgalom, MFt, XXZZ áruház boyolult! 35 30 : 25 20 oszlopdiagram 15 10 X tegely: csoportok, 5 0 típusok S/R S/N T/R T/N Y tegely: Forgalom (Mio.Ft) gyakoriságok, értékek S/N S/R T/N kördiagram T/R 2
Potszámok grafikus ábrázolása Hisztogram Adataikat osztályokba soroljuk (midegyiket potosa egybe, pl. az i-edik osztály: a i <a i+1 ), a csoportok relatív gyakoriságai megegyezek az osztály fölé rajzolt téglalap területével. Összterület:1 Frequecy Nics általáos érvéyű képlet az osztályok számára, általába 1/3 al lehet aráyos 0 50 100 150 200 20 30 40 50 60 70 80 potszám Frequecy Frequecy Frequecy 10 20 0 10 30 50 0 10 20 30 40 0 5 Hallgatói adatok 160 170 Magasság 180 190 200 cm Cipőméret 36 42 48 38 40 44 46 Utazás apota Frequecy Frequecy Frequecy 15 25 0 20 40 60 80 0 20 40 60 0 5 35 Testsúly 40 50 60 70 80 90 100 110 kg Taulás hetete 0 5 10 15 20 25 óra Sörök hetete Figyeljük meg az eloszlások alakját! Középértékek Mitaátlag: 1... : ha az egyes értékek (l ) i gyakoriságai (f ) i adottak: f1l1... fklk : Mediá: a sorbaredezett mita középső eleme (ha páros sok eleme va: a két középső átlaga). Kvartilisek: egyedelőpotok (1/4-3/4, illetve 3/4-1/4 aráyba osztják fel a redezett mitát) Az átlag érzékey a kiugró értékekre, a mediá viszot em. 0 100 200 300 400 perc 0 5 10 15 20 25 30 35 üveg boplot Hallgatói adatok V1 V2 V3 V4 V5 Mi. :160.0 Mi. : 45.00 Mi. :36.00 F:95 Mi. : 1.000 1st Qu.:172.0 1st Qu.: 64.00 1st Qu.:41.00 N:17 1st Qu.: 2.000 Media :178.0 Media : 72.00 Media :43.00 Media : 5.000 Mea :177.2 Mea : 72.18 Mea :42.28 Mea : 6.036 3rd Qu.:182.0 3rd Qu.: 80.25 3rd Qu.:44.00 3rd Qu.: 8.000 Ma. :198.0 Ma. :110.00 Ma. :48.00 Ma. :24.000 V6 V7 Mi. : 0.0 Mi. : 0.000 1st Qu.: 60.0 1st Qu.: 0.000 Media : 92.5 Media : 1.000 Mea :104.1 Mea : 3.527 3rd Qu.:120.0 3rd Qu.: 5.000 Ma. :360.0 Ma. :34.000 Az egyes dobozok az alsó kvartilistól Gam2 a felső kvartilisig tartaak. Középvoal a mediá. A voalak a teljes terjedelmet felölelik, ha ez T5 Norm Ui05 az egyes iráyokba em agyobb a kvartilisek közötti külöbség 1.5- szereséél. Ha eze kívül is vaak potok, azokat külö-külö jeleíti meg. -4-2 0 2 4 6 3
Példa adatbázis: Napi középhőmérséklet 1951-1988 között Jauár 1-i középhõmérsékletek A hallgatói adatok emekéti botásba Magasság Testsúly -5 0 5 cm perc 160 170 180 190 36 40 44 48 0 100 200 300 Cipőméret Utazás apota kg óra üveg 50 70 90 110 5 10 15 20 0 5 15 25 35 Taulás hetete Sörök hetete Vajo melyik esetbe szigifikás az eltérés? Budapest Kompolt Matematikai statisztika A mita: valószíűségi változó-sorozat realizációja. A belőle számolt statisztikák eloszlásáak vizsgálatához magukat a valószíűségi változókat haszáljuk, em pedig a realizációál kapott számértékeket. Statisztika: a mita függvéye (val.változó). statisztikára: miimum, maimum, mitaátlag terjedelem: X () - X 1 () Becslések A mitából kiszámolt értékek tekithetőek a vizsgált populációra voatkozó közelítésekek. Ezek tulajdoságait (meyire potosak/megbízhatóak) a valószíűségszámítás eszközeivel tudjuk vizsgáli. Becslések tulajdoságai Torzítatlaság. valós paramétert becslük a T(X) statisztikával. Ez torzítatla, ha, E T (X ) mide paraméterértékre. torzítatla becslésekre: Valószíűség becslése relatív gyakorisággal. Várható érték becslése mitaátlaggal Poisso eloszlás paraméterére: mitaátlag Becslési módszerek Eddig: ad hoc módszerek Általáos eljárás kellee Példa: valószíűség becslése, kísérletből. Jelölje k a sikeresek számát (X i i=1,..., idikátormita) P k k X i k p (1 p) i1 k Most p függvéyébe ézzük, k rögzített (elevezés: likelihood függvéy). 4
y y A likelihood függvéy maimumhelye logikus választás a valószíűség becsléséek 0.00 0.05 0.10 0.15 likelihood függvéy, =100 k=5, ma=0.05 k=25,ma=0.25 k=50,ma=0.5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.1 0.2 0.3 likelihood függvéy, =20 k=1, ma=0.05 k=5,ma=0.25 k=10,ma=0.5 0.0 0.2 0.4 0.6 0.8 1.0 A módszer általáosa L( ; f ( f ( i ) i1 (a likelihood függvéy) maimumhelye lesz a θ paraméter maimum likelihood becslése. Ha a függvéy deriválható, a loglikelihood függvéy l ; l f ( l f ( ) maimumhelye deriválással l( ; l f ( i1 megoldásakét megtalálható ( i i1 l f ( i ) 0 valószíűségre: relatív gyakoriság Poisso eloszlás paraméterére: Epoeciális eloszlás paraméterére: 1/ 5