Leíró és matematikai statisztika Matematika alapszak, matematikai elemző szakiráy Zempléi Adrás Valószíűségelméleti és Statisztika Taszék Matematikai Itézet Természettudomáyi Kar Eötvös Lorád Tudomáyegyetem Holap: zemplei.elte.hu E-mail: zemplei@caesar.elte.hu Szoba: D 3-30 3. előadás Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás / 0 Eddig megismert eloszlások Jelölése Eloszlása EX D X P(X = ) = p Id(p) p p( p) P(X = 0) = p M N M k k P(X = k) = ( ( Hipgeo(N, M, ) N ) M M M N N N Bi(, p) Geo(p) NegBi(, p) Poi(λ) k = 0,,..., mi(, M) P(X = k) = ( k) p k ( p) k k = 0,,..., P(X = k) = p( p) k k =,,... P(X = k) = ( k ) p ( p) k k =, +,... p p( p) p p p p ( p) p P(X =k)= λk k! e λ k =0,,... λ λ Jelölése Eloszlásfüggvéy Sűrűségfüggvéy EX D X 0 ha x a { x a ha a < x b E(a, b) ha a < x b b a a+b (b a) b a 0 külöbe ha b < x N(m, σ )... { e λx ha x 0 Exp(λ) 0 külöbe e (x m) σ { πσ x R m σ λe λx ha x 0 0 külöbe λ λ ) N Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás / 0 További abszolút folytoos eloszlások Eloszlás eve Jelölése Eloszlásfüggvéy Sűrűségfüggvéy EX D X Cauchy Cauchy(a, b) a R, b > 0 Pareto Pareto(, β), β > 0 Eloszlás eve π arctg x a + b { β x ha x β 0 ha x < β [ ( πb + x a b β + β ha x β x 0 ha x < β ) ] x R β β ( ) ( ) A Pareto-eloszlásak akkor va véges várható értéke a képletek megfelelőe, ha >, szóráségyzete pedig akkor, ha >. Jelölése Sűrűségfüggvéy EX D X LN(m, σ ) m R, σ > 0 Gamma Γ(, λ), λ > 0 Logormális Béta Beta(, β), β > 0 Khíégyzet Studet (t) F (Fisher) (log x m) x πσ e σ ha x 0 0 hax < 0 { Γ() λ e λx x ha x 0 0 ha x < 0 { Γ(+β) Γ()Γ(β) x ( x) β x [0, ] 0 külöbe e m+σ / λ +β (e σ )e m+σ λ β (+β) (+β+) χ k k N k/ Γ(k/) xk/ e x/ x R k k tν ν > 0 F d,d d, d > 0 Γ ν+ πνγ ν ν+ + x 0 (ha ν ν > ) ) d +d Γ( ( d ) d d ( d d x + d ) d +d x d Γ Γ d d d (ha d > ) ν ν (ha ν > ) d (d +d ) d (d ) (d 4) (ha d > ) Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 3 / 0 Vastag szélű (fat tailed) eloszlások A 0.0 0. 0. 0.3 0.4 0.000 0.005 0.00 0.05 0.00 0.05 0.030 sűrűségfüggvéyük: Stadard ormális Stadard Cauchy 3 0 3 Stadard ormális Stadard Cauchy 3.0 3. 3.4 3.6 3.8 4.0 végtele vagy em létezik a szórás (vagy a magasabb redű mometumok) fotos vastag szélű eloszlások: Cauchy-eloszlás Pareto-eloszlás Studet-féle t-eloszlás alacsoy szabadságfok eseté "extrém" eseméyek által okozott károk, például agy természeti katasztrófák, atomerőmű-katasztrófák, globális pézügyi válságok, az Iteret összeomlása, stb. mértékéek becslésére jóval alkalmasabbak a ormális eloszlásál Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 4 / 0
Stadard ormális versus vastag szélű eloszlások Feladatok Legyeek X N(0;), Y Cauchy(0;), U Pareto ( ; ) és V t Ekkor a hi Y = alakulása: P(Y >i) P(X>i), hu i = P(U>i) P(X>i) és hv i = P(V >i) P(X>i) háyadosok i hi Y hi U hi V 6, 5, 7 4, 0 3 7, 6 0, 0 3, 5 0 4, 5 0 3 4, 9 0 9, 0 0 5, 0 5 3, 4 0 4 6, 6 0 4 6 5, 3 0 7 7, 0 0 6, 4 0 7 7 3, 5 0 0 4, 0 0 9 7, 7 0 9 8 5, 9 0 3 5, 9 0, 0 3 E8.) Legye az X valószíűségi változó a.) eloszlása P(X = 0) = P(X = ) = P(X = 3) = 3 ; b.) sűrűségfüggvéye f (x) = (x )I( < x < ). Határozzuk meg X kvatilisfüggvéyét! E9.) Határozzuk meg a stadard ormális eloszlás móduszát, mediáját, ferdeségét és lapultságát! E0.) Határozzuk meg a stadard Cauchy-eloszlás (Cauchy(0;)) és a Pareto-eloszlás várható értékét! Az eloszlások (paraméterfüggésük, kvatiliseik) itt is megézhetőek: http://www.radomservices.org/radom/apps/specialcalculator.html Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 5 / 0 Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 6 / 0 Középértékek számítása I Adott az elemű x = (x, x,..., x ) tapasztalati mita; osztályközös gyakorisági sor eseté k jelöli az osztályok számát, x i az osztályközepeket, f i pedig a gyakoriságokat. Mitaátlag: az adatok átlagos értéke x i i= Számítása közvetleül az adatokból: x = x = Módusz: a legtöbbször előforduló ismérvérték Mo= x mo,a + h mo, ahol da d a+d f f i x i i= a móduszt tartalmazó osztályköz: amelyikbe egységyi osztályköz hosszra a legagyobb gyakoriság jut ( korrigált gyakoriságok!) x mo,a : a móduszt tartalmazó osztályköz alsó értéke h mo : a móduszt tartalmazó osztályköz hossza d a : a móduszt tartalmazó osztályköz korrigált gyakorisága míusz a móduszt közvetleül megelőző osztályköz korrigált gyakorisága d f : a móduszt tartalmazó osztályköz korrigált gyakorisága míusz a móduszt közvetleül követő osztályköz korrigált gyakorisága Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 7 / 0 Középértékek számítása II Jelölje x x... x a redezett tapasztalati mitát. Mediá: azo ismérvérték, amelyél ugyaayi kisebb vagy egyelő, mit agyobb vagy egyelő ismérvérték fordul elő a mitába (a "középső" elem) Számítása közvetleül az adatokból: x +, ha páratla Me= x +x +, ha páros Számítása osztályközös gyakorisági sorból két lépésbe lieáris iterpolációval:. Melyik osztályközbe va a mediá: azo i, amire f i és f i. Me = x i,a + f i h i, ahol fi x i,a: a mediát tartalmazó osztályköz alsó értéke h i: a mediát tartalmazó osztályköz hossza f i : a mediát közvetleül megelőző osztályköz kumulált gyakorisága f i: a mediát tartalmazó osztályköz gyakorisága Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 8 / 0
Rövid szüet Ez egy tudomáyosabb hír:,5 millió haláleset vizsgálata alapjá az adódott, hogy 4%-kal agyobb eséllyel halak meg az emberek a születésapjuko, mit más apoko. Mi lehet az ok? Túl sok evés/ivás? Ögyilkosság? Admiisztrációs hiba? Mideesetre érdemes vigyázi (emcsak a születésapi buli) Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 9 / 0 Tapasztalati kvatilisek számítása Tapasztalati y-kvatilis: azo ismérvérték, amelyél a mitaelemek y-ad része kisebb vagy egyelő, míg ( y)-ad része agyobb vagy egyelő, 0 < y < Számítása em egyértelmű, mi midig az egyik iterpolációs módszert alkalmazzuk két lépésbe:. háyadik mitaelem a keresett kvatilis sorszám: s := ( + )y. lieáris iterpolációval a kvatilis kiszámítása Számítása közvetleül az adatokból. Sorszám: s = e + t (e: egészrész, t: törtrész). q y = xe + t(xe+ x e ) Számítása osztályközös gyakorisági sorból két lépésbe lieáris iterpolációval:. Melyik osztályközbe va az s-edik elem: jelölje ezt i, azaz f s. q y = x i,a + s f i fi x i,a, h i, f f i h i, ahol i s és i és f i ugyaazokat jelöli, mit az előző fólia aljá, csak az adott y-kvatilisre voatkozóa Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 0 / 0 Nevezetes kvatilisek Tapasztalati eloszlás A szakirodalomba a tapasztalati és az elméleti értékek között em teszek külöbséget, midegyiket agy betűvel írják (ami éha meglehetőse zavaró...). Jelölje q y a tapasztalati y-kvatilist. tercilisek: T = q /3, T = q /3 kvartlisek: Q = q /4 (alsó kvartilis) Q = Me = q /4 (középső kvartilis vagy mediá) Q 3 = q 3/4 (felső kvartilis) kvitilisek: K = q /5, K = q /5, K 3 = q 3/5, K 4 = q 4/5 decilisek: D i = q i/0, i =,,..., 9 percetilisek: P i = q i/00, i =,,..., 99 Tapasztalati eloszlás: mide megfigyeléshez azoos, súlyt redelük ez egy diszkrét eloszlás A mitaátlag éppe eek a várható értéke A tapasztalati eloszlás eloszlásfüggvéyét hívjuk tapasztalati eloszlásfüggvéyek, ami egy tiszta ugrófüggvéy, értéke mide mitaelem helyé agyságot ugrik felfelé. A tapasztalati eloszlásfüggvéy az x helye: I(x < x) + I(x < x) +... + I(x < x) = I(x i < x) Azt mutatja meg, hogy a mitaelemek háyad része kisebb x-él. i= Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás / 0 Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás / 0
Szóródási mutatók számítása Terjedelem: R = x x (R=rage) Iterkvartilis terjedelem: IQR = Q 3 Q Tapasztalati szórás: az átlagtól való átlagos égyzetes eltérés égyzetgyöke Számítása közvetleül az adatokból: s = s = (x i x) i= f i (x i x) i= Korrigált tapasztalati szórás: az átlagtól való korrigált átlagos égyzetes eltérés égyzetgyöke Számítása közvetleül az adatokból: s = (x i x) i= f i (x i x) i= s = ezt "szeretjük" a legjobba, mide szoftver, programcsomag szórás számításáál ezt veszi alapértelmezettek Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 3 / 0 Szóródási mutatók számítása Relatív szórás vagy szórási együttható: az átlagtól való átlagos eltérés százalékba; lehet a korrigált és a korrigálatla tapasztalati szóráségyzetből is számítai: V = s x vagy V = s x Kevésbé gyakra haszált, szóródást mérő mutatók: átlagos abszolút eltérés: Gii-együttható: G = x i x i= ( ) i= j= x i x j. Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 4 / 0 Tapasztalati eloszlásfüggvéy, alakmutatók számítása Tapasztalati eloszlásfüggvéy: a tapasztalati eloszlás (mide mitaelem valószíűsége /) eloszlásfüggvéye Alakmutatók: a szórást ezekél is választhatjuk a tapasztalati vagy a korrigált tapasztalati szórásak egyarát. Tapasztalati ferdeség Számítása közvetleül az adatokból: Tapasztalati csúcsosság Számítása közvetleül az adatokból: (xi x) 3 i= (s) 3 fi (xi x) 3 i= (s) 3 (xi x) 4 i= 3 (s) 4 fi (xi x) 4 i= (s) 4 3 Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 5 / 0 Fotos leíró statisztikai ábrák I Hisztogram Ha a meyiségi ismérv folytoos vagy sok ismérvérték va, akkor alkalmas módo osztályokat képezük, majd mide egyes adatot potosa egy osztályhoz redeljük. A hisztogram az osztályok gyakoriságait ábrázolja. az osztályok száma: k = log ha azoos hosszúságú (h) osztályközöket akaruk létrehozi, akkor h = x x k az f i gyakoriságokat ábrázoljuk a függőleges tegelye sűrűséghisztogramál a g i = f i h i relatív gyakoriság/itervallumhossz értéket ábrázoljuk a függőleges tegelye (területaráyos, összterület=) ha az osztályközök külöböző hosszúságúak, akkor a gyakoriságokat egy közös hosszra kell aráyosítai Gyakoriságok 0 3 4 5 4 6 8 0 Lemerülési ido (óra) Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 6 / 0
Fotos leíró statisztikai ábrák II Boxplot ábra (Box&Whiskers diagram) ez fekvő, de lehet álló is A betűk a következő értékeket jeletik: A = max{x, Q, 5 IQR} B = Q C = Me D = Q 3 E = mi{x, Q 3 +, 5 IQR} F: kieső érték (outlier) azokat az adatpotokat tütetjük fel, amik A- vagy E- kívülre esek ahol IQR = Q 3 Q az iterkvartilis terjedelem Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 7 / 0 Mitavétel a gyakorlatba Az adatokkal szembe támasztott követelméyek: potosság e legyeek hibásak és a szükséges potosságba álljaak redelkezésre gyorsaság hamar be lehesse őket szerezi gazdaságosság az adatgyűjtés legye "olcsó" Az adatgyűjtés fajtái: teljes körű például a épszámlálás részleges a gyakorlatba ez a jellemző A részleges adatgyűjtés fajtái: reprezetatív (mitavételes): a teljes sokaság jellemzőit megfelelőe tükröző részsokaságból, ú. mitasokaságból szerezzük be az adatokat moográfia: egy vagy éháy kiemelt egyed részletes vizsgálata egyéb például ökétes kitöltése alapuló iteretes teszt Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 8 / 0 Az adatelemzés elemei (leíró statisztikák alk.).) Adathibák keresése, irreális adatok, értékek törlése. Ha lehet, akkor a hibák korrigálása..) Ha sok a külöböző adat, akkor alkalmas osztályközös gyakorisági sor készítése 3.) Középértékek kiszámítása: átlag (számtai vagy mértai amelyikek értelme va) helyzeti középértékek: módusz (az osztályközös gyakorisági sorból) és mediá 4.) Szóródási mutatók kiszámítása: szórás és relatív szórás terjedelem és iterkvartilis terjedelem 5.) Alakmutatók kiszámítása: ferdeség csúcsosság 6.) Ábrák készítése: hisztogram/sűrűséghisztogram boxplot ábra Lorez-görbe (értékösszeg sor eseté) 7.) Visszacsatolás a felfedezett adathibák javítása Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 9 / 0 Feladatok E.) Azoos felhaszálási körülméyek között megmérték 5 azoos típusú mobiltelefo akkumulátoráak lemerülési idejét teljes feltöltöttségről: (óra) 8 6 5 0 6-5 3 4 7 5 00 9 8 0 a.) Nézzük át agy voalakba az adatokat, reálisak-e! Próbáljuk meg kijavítai az esetleges adathibákat! b.) Ábrázoljuk a tapasztalati eloszlásfüggvéyt! Számítsuk ki és értelmezzük a 6 helye! c.) Készítsük alkalmas sávszélességű hisztogramot! d.) Elemezzük a lemerülési időt az alapstatisztikák: az átlag, a korrigált tapasztalati szórás, szórási együttható és boxplot ábra (kvartilisek) segítségével! Számítsuk ki a tapasztalati ferdeséget és csúcsosságot! Értelmezzük is az eredméyeket! Zempléi Adrás (ELTE) Leíró és matematikai statisztika 3. előadás 0 / 0