Valószíőségszámítás és statsztka elıadás fo. BSC/B-C szakosokak 3. elıadás Szeptember 26 p 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 A bomáls és a hpergeom. elo. összehasolítása 0 1 2 3 4 5 6 7 8 9 10 k Hp.geom (N=20,M=10) Bomáls (p=0.5) Tulajdoságok Ha X dszkrét valószíőség változó, f :R R tetszıleges függvéy, akkor f (X) s dszkrét valószíőség változó. Példa: X a gyártott termék hossza mm-be. Tegyük fel, hogy P (X=18)= = =P (X=22)=1/5. T.f.h. az deáls a 20 mm. Ekkor a d= X-20 eloszlása: P (d=0)=1/5, P (d=1) = P (d=2) = 2/5. Teljes eseméyredszer Ha X dszkrét valószíőség változó, akkor az A ={ω:x(ω)= x } eseméyek teljes eseméyredszert alkotak., szmulácók Mtavétel Moty-Hall szmulácó Kocka-érme kísérlet X feltételes eloszlása A eseméyre voatkozóa: q :=P (X=x A). Ez s eloszlás: P( X = x A) = = ) = 1 q ( P X x A = P( A) Valószíőség változók függetlesége X és Y dszkrét valószíőség változók függetleek, ha P ({X = x } {Y = y k })=P (X = x )P (Y = y k ) teljesül mde,k értékre. (Azaz az X-hez és az Y-hoz tartozó teljes eseméyredszerek függetleek.) Megjegyzés: az elfajult eloszlású valószíőség változó mde valószíőség változótól függetle. Ömagától csak az elfajult eloszlású valószíőség változó függetle. 1
A matematka statsztka tárgya Következtetések levoása adatok alapjá Ipar termelés Mezıgazdaság Szocológa (közvéleméykutatások) Természettudomáyok Meteorológa (pl. klímaváltozás) Geetka (chptechológa) Pézügy adatok stb. Törtéet Táblázatokat a bztosítók már többszáz éve haszálak Maga a tudomáy fatal tudomáy, alg 100 éves a múltja Agla mezıgazdaság alkalmazások voltak az elsık Fejlıdése felgyorsult az utóbb évtzedekbe (számítógépek jóvoltából) Populácó Az a sokaság, amek a jellemzıre kvácsak vagyuk. : Gyártmáyok Magyarország szavazópolgára A Ft/Euro árfolyam ap változása Legtöbbször cs mód teljes körő (100%-os) adatfelvételre. Mta A populácóból kválasztott részhalmaz, amelyre voatkozóa az adatok redelkezésre állak. Mvel a mtavétel véletle, ezért a mtaelemek valószíőség változók. Fotos szempot a reprezetatvtás. Gyakorlatba legtöbbször feltesszük, hogy a mtaelemek függetleek. Függetleek-e? A ap középhımérséklet Budapeste az dé október 2-á és jövıre lyekor A sajtóhbák száma egy köyv két külöbözı oldalá Két háztartás áramfogyasztása ugyaazo a apo Két beteg véryomása Egy beteg véryomása két külöbözı vzsgálatál Adatok Mtavétel a populácóból: eredméye a (statsztka) mta A mtavétel módja s léyeges (legegyszerőbb eset: bármelyk elem ugyaakkora valószíőséggel kerül a mtába) A mtavétel eredméye: (statsztka) mta: x 1,x 2,,x számsorozat, az X 1,X 2,,X valószíőség változó-sorozat realzácója. 2
Matematka statsztka helye a tudomáyok között Matematka tudomáy, mert a valószíőségszámítás eredméyere épül. Ugyaakkor a statsztka mdeap alkalmazása em mdg kellıe precíz (teljesülek-e a feltételek?) Ezért léyeges, hogy a valószíőségszámítás eredméyeket alkalmazva fogalmazzuk meg következtetéseket. (Párhuzamosa fogjuk taul a valószíőségszámítást.) 1. Egy hóapba 10 hurrkát fgyeltük meg. Mt godoluk, mey hurrká lesz jövıre ugyaebbe a hóapba? 2. Egy közvéleméykutatás sorá azt kaptuk, hogy 1000 emberbıl 400 választaá az adott pártot. Mások szert a párt 50%-ot fog kap. Elıfordulhat-e ez? Mekkora eséllyel? Statsztka elemzés lépése Tervezés (mt vzsgáluk, hogya győjtjük az adatokat) Adatgyőjtés Kódolás (ha szükséges) Elleırzés: leíró statsztkákkal Elemzés: matematka statsztka módszerevel Leíró statsztka Nem a véletle hatását vzsgálja, haem a kokrét mta megjeleítése, jellemzıek kszámítása a feladata. Adatok elredezhetık táblázatba (fotos: forrás feltütetése), lletve ábrázolhatók grafkusa. Adatok típusa (skálák) Nomáls: csak gyakorságot tuduk számol (pl. em, emzetség) Ordáls (redezett): pl. értékelés szavakkal (rossz-közepes-jó), sorred egyértelmő, kvatlsek számolhatók Itervallum (pl. hımérséklet: külöbség egyértelmő, de háyados em) Aráy (tt mde matematka mővelet értelmes), ez szerecsére a leggyakorbb Grafkus megjeleítés Ne legye túl Het forgalom, MFt, XXZZ áruház boyolult! 35 30 : 25 20 oszlopdagram 15 10 X tegely: csoportok, 5 0 típusok S/R S/N T/R T/N Y tegely: Forgalom (Mo.Ft) gyakorságok, értékek S/N S/R T/N kördagram T/R 3
Potszámok grafkus ábrázolása Hsztogram Adatakat osztályokba soroljuk (mdegyket potosa egybe, pl. az -edk osztály: a x<a +1 ), a csoportok relatív gyakorsága megegyezek az osztály fölé rajzolt téglalap területével. Összterület:1 Túl sok osztály (ha az eloszlás alakjára vagyuk kvácsak) 0 10 20 30 40 20 30 40 50 60 70 80 Túl kevés osztály (ha az eloszlás alakjára vagyuk kvácsak) 0 50 100 150 200 250 300 350 Potszámok grafkus ábrázolása Jó osztályszám (ha az eloszlás alakjára vagyuk kvácsak) Ncs általáos érvéyő képlet az osztályok számára, általába 1/3 al lehet aráyos 0 50 100 150 200 Potszámok grafkus ábrázolása 20 30 40 50 60 70 80 90 20 30 40 50 60 70 80 10 20 0 10 30 50 0 10 20 30 40 0 5 Hallgató adatok 160 170 Magasság 180 190 200 cm Cpıméret 36 42 48 38 40 44 46 Utazás apota 15 25 0 20 40 60 80 0 20 40 60 0 5 35 Testsúly 40 50 60 70 80 90 100 110 kg Taulás hetete 0 5 10 15 20 25 óra Sörök hetete Fgyeljük meg az eloszlások alakját! Középértékek Mtaátlag: x1+... + x x: = ha az egyes értékek (l) gyakorsága (f) adottak: f1l1+... + fklk x: = Medá: a sorbaredezett mta középsı eleme (ha páros sok eleme va: a két középsı átlaga). Kvartlsek: egyedelıpotok (1/4-3/4, lletve 3/4-1/4 aráyba osztják fel a redezett mtát) Az átlag érzékey a kugró értékekre, a medá vszot em. 0 100 200 300 400 perc 0 5 10 15 20 25 30 35 üveg 4
boxplot Hallgató adatok V1 V2 V3 V4 V5 M. :160.0 M. : 45.00 M. :36.00 F:95 M. : 1.000 1st Qu.:172.0 1st Qu.: 64.00 1st Qu.:41.00 N:17 1st Qu.: 2.000 Meda :178.0 Meda : 72.00 Meda :43.00 Meda : 5.000 Mea :177.2 Mea : 72.18 Mea :42.28 Mea : 6.036 3rd Qu.:182.0 3rd Qu.: 80.25 3rd Qu.:44.00 3rd Qu.: 8.000 Max. :198.0 Max. :110.00 Max. :48.00 Max. :24.000 V6 V7 M. : 0.0 M. : 0.000 1st Qu.: 60.0 1st Qu.: 0.000 Meda : 92.5 Meda : 1.000 Mea :104.1 Mea : 3.527 3rd Qu.:120.0 3rd Qu.: 5.000 Max. :360.0 Max. :34.000 Az egyes dobozok az alsó kvartlstól a felsı kvartlsg tartaak. Középvoal a medá. Gam2 A voalak a teljes terjedelmet felölelk, ha ez T5 Norm U05 az egyes ráyokba em agyobb a kvartlsek között külöbség 1.5- szereséél. Ha eze kívül s vaak potok, azokat külö-külö jeleít meg. -4-2 0 2 4 6 Példa adatbázs: Nap középhımérséklet 1951-1988 között Jauár 1- középhõmérsékletek A hallgató adatok emekét botásba Magasság Testsúly -5 0 5 cm perc 160 170 180 190 36 40 44 48 0 100 200 300 Cpıméret Utazás apota kg óra üveg 50 70 90 110 5 10 15 20 0 5 15 25 35 Taulás hetete Sörök hetete Vajo melyk esetbe szgfkás az eltérés? Budapest Kompolt Becslések A mtából kszámolt értékek tekthetıek a vzsgált populácóra voatkozó közelítésekek. Ezek tulajdoságat (meyre potosak/megbízhatóak) a valószíőségszámítás eszközevel tudjuk vzsgál. Bomáls eloszlás alkalmazása Vsszatevéses mtavétel más realzácója: függetle kísérletek azoos körülméyek között. P(A)=p eseméy, végezzük (rögzített számú) függetle kísérletet. X: az A bekövetkezéséek gyakorsága (potosa háyszor jött k az A). X eloszlása bomáls (,p). X= X 1 + X 2 + X ahol X az -edk kísérletél az A eseméy dkátora. Ezek az dkátorok függetleek s! 5