Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc

Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában ez lehetetlen vagy nehezen megoldható célszerűtlen Statisztika_bevezetés/

Bevezetés Sokaság a valamennyi elemet tartalmazó halmaz tulajdonságait akarjuk meghatározni típusai véges sokaság megszámlálhatóan végtelen sokaság végtelen sokaság Statisztika_bevezetés/3

Bevezetés Minta a teljes sokaság még véges esetben is nehezen kezelhető helyette mintát veszünk véges sokaság: selejtek száma megszámlálhatóan végtelen sokaság: egy műszakban a leállások száma végtelen sokaság: adott számú mérés minta tulajdonságai alapján következtetünk a teljes sokaságra Statisztika_bevezetés/4

Bevezetés Valószínűségi változó olyan mennyiségek leírására, amelyek értéke nem állandó, de meghatározható, hogy mekkora valószínűséggel esnek adott határok közé diszkrét valószínűségi változó értékét véges vagy megszámlálhatóan végtelen elemű készletből veszi fel folytonos valószínűségi változó értékét valós számok folytonos sokaságából veszi fel Statisztika_bevezetés/5

Bevezetés Diszkrét valószínűségi változók jellemzése egyszerűbb eset két lehetséges kimenetel bonyolultabb eset több lehetséges kimenetel események számának megjelenítése osztályokba sorolással egyértelmű és összehasonlítható besorolás egy adott osztályba tartozó elemek száma arányos az adott intervallumba esés valószínűségével relatív gyakorisági index Statisztika_bevezetés/6

Bevezetés relatív gyakorisági index megadása: relatív gyakoriság i = elemszám az i - dik osztályban a minta teljes elemszáma azaz annak valószínűsége, hogy az eredmény vagy tetszőleges kiválasztott mintaelem melyik osztályba esik: ( x ) = P( x < x x ) p < i min i max ahol p(x) lesz a (diszkrét) sűrűségfüggvény. i i Statisztika_bevezetés/7

Bevezetés A p(x) sűrűségfüggvény tulajdonságai: p(x i ) 0 x i -re Σ p(x i ) =. Kumulált/összegzett valószínűségek értelmezése: F ( k) = P( x k) = p( xi ) x k ez lesz a (diszkrét) eloszlásfüggvény. i Statisztika_bevezetés/8

Folytonos valószínűségi változók Folytonos valószínűségi változók diszkrét v.v. esetében több mérést végzünk / több mintát veszünk, akkor az osztályba sorolás finomítható az osztályszélesség csökkentésével határátmenetben x 0 azaz a diszkrét valószínűségi változó a valós számok közül tetszőleges értéket vehet fel, azaz folytonos valószínűségi változóként értelmezhető Statisztika_bevezetés/9

Folytonos valószínűségi változók folytonos valószínűségi változó értelmezése: ahol f(x) a (folytonos) sűrűségfüggvény. tulajdonságai: P(x=x 0 ) = 0 ahol x 0 tetszőleges érték, továbbá az egyezés nem lehetetlen esemény f(x) 0 - < x < f ( x) dx = P ( a < x b) f ( x) b = a dx Statisztika_bevezetés/0

Folytonos valószínűségi változók Folytonos eloszlásfüggvény a diszkrétről a folytonos esetre történő áttérés elve hasonló a sűrűségfüggvényhez x 0 határátmenetnél a folytonos eloszlás függvény értelmezése: F x k ( x ) ( ) k = P x xk = f ( x) dx Statisztika_bevezetés/

Paraméterek és statisztikák Sokaság leírása a sűrűség- és eloszlásfüggvényekkel Sokaság ismerete: a sűrűség- és az eloszlásfüggvény alakjának és paramétereinek ismerete Sűrűség- és eloszlásfüggvények jellemzése paraméterekkel (konstansok, momentumok) Sokaság jellemzése mintavételezéssel Minta jellemzése statisztikával / jellemzőkkel Paraméterek jellemzése statisztikával Statisztika_bevezetés/

Paraméterek és statisztikák Várható érték (paraméter) folytonos v.v. diszkrét v.v. E E = ( x) xf ( x) dx = µ ( x) x p( ) = i i x i statisztikája (mintabeli megfelelője) x = N N i= x i Statisztika_bevezetés/3

Paraméterek és statisztikák várható érték tulajdonságai E ϕ ( ( x) ) ϕ( x) f ( x) E(cx) = ce(x) E(c) = c = dx E(x +x + +x n ) = E(x )+ E(x )+ + E(x n ) Statisztika_bevezetés/4

Paraméterek és statisztikák számtani átlag tulajdonságai várható érték E( x) = E( x ) + + E( x ) K n = ne x n n variancia [ ] [ ( )] = µ Var( x) = [ Var( x ) Var( x )] [ nvar( x) ] + K+ n = = n n Var( x) n Statisztika_bevezetés/5

Paraméterek és statisztikák Medián - µ e azaz az érték, amelynél nagyobbat és kisebbet egyforma valószínűséggel vesz fel a valószínűségi változó, azaz F(µ e ) = 0,5 tapasztalati medián a nagyság szerint sorba rendezett elemek közül a középső (páratlan számú elemnél) vagy a középső kettő átlaga (páros számú elemnél) Statisztika_bevezetés/6

Paraméterek és statisztikák Módusz a valószínűségi változó legnagyobb valószínűségű értéke a sűrűségfüggvény maximum helye (több módusz is lehet) tapasztalati módusz: a legnagyobb gyakoriságú osztály (a legtöbb elemet tartalmazó osztály) osztályindexe Statisztika_bevezetés/7

Paraméterek és statisztikák Variancia (paraméter) az adatok térbeli elhelyezkedésének jellemzésére megadása: folytonos v.v. Var diszkrét v.v. Var ( ) [ ( )] x x E x f ( x) dx = E ( x µ ) = = x elméleti szórásnégyzet [ ] = σ = D ( x) [ ] ( ) [ ( )] x x E x p( x ) = E ( µ ) i i i Statisztika_bevezetés/8

Paraméterek és statisztikák korrigált tapasztalati szórásnégyzet (statisztika) s = n n ( x i x) i= variancia tulajdonságai Var(cx) = c Var(x) Var(x +x + +x n ) = Var(x )+ Var(x )+ + Var(x n ) független x, x,, x n valószínűségi változók esetén Statisztika_bevezetés/9

Diszkrét eloszlások Binomiális eloszlás akkor alkalmazzuk, ha a bekövetkező esemény kétféle lehet (pl. bináris döntések) sűrűség függvény n x x n x ( x) = p ( p) n a teljes elemszám p x a kérdéses esemény p a bekövetkezés valószínűsége Statisztika_bevezetés/0

Diszkrét eloszlások várható értéke varianciája E(x) = np Var(x) = np(-p) a mintavétel visszatevéssel történik gyakorlati alkalmazások bizonyos eseteinél nincs visszatevés, ilyenkor közelítésként megfelelő, ha n << N, azaz a vizsgált mintaszám sokkal kisebb, mint a teljes sokaság elemszáma Statisztika_bevezetés/

Diszkrét eloszlások Poisson-eloszlás ritka események modellezésére alkalmazási feltételei bármely egységben előforduló esemény független legyen a többi egységbelitől az esemény bekövetkezésének valószínűsége bármely egységben azonos és arányos az egység méretével annak valószínűsége, hogy két vagy több előfordulás következik be, az egység méretének csökkentével nullához tart Statisztika_bevezetés/

Diszkrét eloszlások ha a binomiális eloszlásnál a p bekövetkezési valószínűség igen kicsi, az n elemszám igen nagy, de np=λ konstans értékkel, akkor Poissoneloszlást kapunk sűrűségfüggvénye: p ( x) = e λ x λ x! várható értéke, varianciája: E(x) = Var(x) = λ Statisztika_bevezetés/3

Mintavétel szabályai a jó minta sajátosságai véletlenszerű reprezentatív megfelelően nagy külső változók által ellenőrzött Statisztika_bevezetés/4

Mintavétel szabályai véletlenszerű: a sokaság bármely eleme minta lehet vaktában történő mintavétel tévhit: jelenségek előfordulási sorrendje véletlenszerű reprezentatív nehezen teljesíthető véletlenszerűség fontosabb Statisztika_bevezetés/5

Mintavétel szabályai elegendően nagy cél: általánosítás de nem ész nélkül! befolyásoló tényezők eltérés nagysága a vizsgált változó dinamikája alkalmazott statisztikai módszer mérésnél lehetséges hibák költség Statisztika_bevezetés/6

Mintavétel szabályai független változó által ellenőrzött hasonló egyedek csoportja fehér egerek előzetes vizsgálatok kontrol csoport csoportok homogenitása matematikai kompenzáció más tényezők figyelembe vételére kovariancia analízis egyforma méretű minták Statisztika_bevezetés/7

Folytonos eloszlások normális eloszlás Normális eloszlás ha sok, egymástól független, egyenként kis hatású tényező összeadódik (pl. véletlen mérési hiba) sűrűségfüggvény eloszlásfüggvény F f ( x) ( x ) i = = xi ( x µ ) σ e π σ ( x µ ) σ e π σ dx Statisztika_bevezetés/8

Normális eloszlás várható érték variancia szokásos jelölés E(x) = µ Var(x) = σ N(µ, σ ) Statisztika_bevezetés/9

Normális eloszlás Normalizált (standardizált) normális eloszlás u-eloszlás legyen u a következő valószínűségi változó u paraméterei E Var ( u) = u = x µ σ ( ) x µ E x µ E = = 0 σ σ x µ σ ( u) = Var = Var( x) = σ Statisztika_bevezetés/30

Normális eloszlás ennek alapján u sűrűségfüggvénye f ( u) = e π u azaz nem szerepelnek a paraméterek a sűrűségfüggvényben, így az értékek megadhatók táblázatosan u-eloszlás táblázata Statisztika_bevezetés/3

Normális eloszlás a normalizált normális eloszlás segítségével annak valószínűsége, hogy a N(µ, σ ) eloszlású x valószínűségi változó nem halad meg egy adott a értéket: P ( x a) = F( a) = a e π σ ( x µ ) σ dx = u a e π u dx = F ( u ) a ahol u a = a µ σ Statisztika_bevezetés/3

Centrális határeloszlás tétele Centrális határeloszlás tétele bármilyen eloszlású sokaságból vett minták számtani középértéke közelítőleg normális eloszlást követ az eredeti eloszlás várható értéke körül, varianciája pedig σ /n. Tehát az x N(µ, σ /n) eloszlású v.v., így az N(0, ) eloszlású. u = x σ / µ Ha az eredeti eloszlás szimmetrikus, akkor már 4 elemű mintára is jó a közelítés n Statisztika_bevezetés/33

χ - eloszlás bevezetése legyen egy N(µ, σ ) eloszlás vegyünk ebből n db mintát: x,, x n ezek mindegyikét normalizáljuk ezek négyzetösszegét véve χ -eloszlású v.v. kapunk: χ = u + u az eloszlás szabadsági foka: ν a függetlenség miatt ν = n n + K+ u n = u i i= u i x = i µ σ Statisztika_bevezetés/34

χ - eloszlás sűrűségfüggvénye Statisztika_bevezetés/35

χ - eloszlás várható értéke E ( ) ( χ = E u = E u ) = E ( u ) i= varianciája n i Var( χ ) = ν n i= i n i= [ ] i = Var( ui ) n 0 = ν i= Statisztika_bevezetés/36

Tapasztalati szórásnégyzet eloszlása normális eloszlású sokaságból vett mintákra megadása s = n n ( x i x) i= belátható (Fisher-Cohran tétel), hogy a ( x i x) χ σ i= eloszlású, ν = n- szabadsági fokkal n e kifejezés várható értéke E n i= ( ) ( ) x x = σ E χ = σ ( n ) i Statisztika_bevezetés/37

Tapasztalati szórásnégyzet eloszlása ennek alapján a tapasztalati szórás várható értéke így s eloszlású s ν vagy χ eloszlású, ν = n- szabadsági fokkal példa E n = n i= ( ) ( ) ( ) s E x x = E χ = σ σ χ σ ν i σ n χ -eloszlás táblázat Statisztika_bevezetés/38

χ - eloszlás χ -eloszlás kritikus értékei Statisztika_bevezetés/39

χ - eloszlás χ -eloszlás α valószínűséghez tartozó felső kritikus értéke Statisztika_bevezetés/40

Student- vagy t-eloszlás értelmezése az u eloszlás nem használható, ha a minta elemszáma kicsi, nincs elegendő minta σ becsléséhez ilyenkor alkalmazzuk a t - eloszlást legyen ξ normális eloszlású v.v., ekkor ξ-ből a következő kifejezéssel kapunk Student-féle t- eloszlású v.v.-t: t = u χ n ξ E = χ σ ν ( ξ ) ξ E( ξ ) ξ = s ξ Statisztika_bevezetés/4

Student- vagy t-eloszlás sűrűségfüggvénye Statisztika_bevezetés/4

Student- vagy t-eloszlás egyetlen paramétere van, mely a nevezőben szereplő szórásnégyzetnek a szabadsági foka várható értéke E(t) = 0 ha ν, akkor a t-eloszlás közeledik normális eloszláshoz (ν > 30 esetén már helyettesíthető) a szabadsági fok alapján táblázatból kikereshetők adott α valószínűséghez és ν szabadsági fokhoz tartozó t α/ kritikus értékek Statisztika_bevezetés/43

Student- vagy t-eloszlás legyen t v.v. az n elemű minta középértéke alapján: t = x s x µ x µ = s / n ekkor megadható, hogy t v.v. α valószínűséggel veszi fel a (-t α/, t α/ ) intervallumon kívül eső értékeket t-eloszlás táblázata Statisztika_bevezetés/44

Student- vagy t-eloszlás t-eloszlás kritikus értékei Statisztika_bevezetés/45

Student- vagy t-eloszlás szabadsági fok konfidencia szint Statisztika_bevezetés/46

F-eloszlás értelmezése legyen χ és χ két egymástól független χ eloszlású v.v. ν és ν szabadsági fokkal a következő kifejezés F-eloszlású F = χ χ / ν / ν ahol a számláló szabadsági foka ν a nevezőé pedig ν Statisztika_bevezetés/47

F-eloszlás a tapasztalati szórásnégyzetnél levezetettek alapján: s σ ν = χ s σ = χ ν ebből F = ha σ σ = s s / σ / σ akkor F = s s Statisztika_bevezetés/48

F-eloszlás sűrűségfüggvénye Statisztika_bevezetés/49

F-eloszlás táblázatbeli megadás a ν és ν szabadsági fokok alapján történik legyen F α (ν,ν ) a ν és ν szabadsági fokokkal jellemzett F-eloszlású v.v.-nak az a kritikus értéke, amelyet csak α valószínűséggel halad meg. Ekkor F α ( ν, ν ) = F α ( ν, ν ) azaz a kritikus intervallum határai közül a felsőt a táblázatból, az alsót számolással kapjuk meg. Statisztika_bevezetés/50

F-eloszlás F-eloszlás kritikus értéke F-táblázat Statisztika_bevezetés/5

F-eloszlás számláló szabadsági foka nevező szabadsági foka Statisztika_bevezetés/5