A Matematikai Statisztika Alapjai
|
|
- Klaudia Borosné
- 6 évvel ezelőtt
- Látták:
Átírás
1 A Matematikai Statisztika Alapjai Dr. Márkus László március 1. Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 1 / 80
2 Valszám alapfogalmak ismétlés Valszám alapfogalmak Véletlen szám: Olyan mérési eredmény, amely a kísérlet vagy megfigyelés minden lehetséges ismétlése esetén más-más előre pontosan nem kiszámítható értéket vesz fel. Az egyes kísérletek/megfigyelések egy-egy elemi véletlennek felelnek meg (ezekből nagyon sok lehet), amelyeket az Ω eseménytérben gyűjtünk össze. A véletlen szám tehát ezen elemi véletlenekhez, kísérletekhez hozzárendeli a mért értéket, tehát egy számértékű függvény Ω-n. Valószínűség: Az Ω részhalmazairól semmit nem tudunk, pont azért véletlenek. Csak azt tudjuk megmondani, hogy az egész Ω kb. hányadrészét töltik ki, vagyis mennyi a mértékük, a területük. Ez a területmérték a valószínűségi mérték, P, amely egyre normált P(Ω) = 1. Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 2 / 80
3 Valszám alapfogalmak ismétlés Valszám alapfogalmak Eloszlás: A valváltozó eloszlásán, Q-n, durván szólva azokat a valószínűségeket értjük, összegyűjtve minden lehetséges [a, b] intervallumra, hogy a valváltozó (= a mérés/megfigyelés) két érték, a és b közé esik: Q[a,b] = P(a < X < b). Pl. Legyen a valváltozó egy hőmérsékletmérés. Ekkor Q[5.7, 6.3] = a mért hőmérséklet 5.7 C és 6.3 C közé esésének valószínűsége. Az eloszlás megadható azzal is, hogy adott értéknél kisebb mérés valószínűsége mennyi - ez az eloszlásfüggvény, F X : F X (x) = P(X < x) Ha az eloszlásfüggvény sima, azaz differenciálható, akkor deriváltja a sűrűségfüggvény, f X : f X (x) = F X (x) A lépcsős függvény nem sima, tehát diszkrét valváltozónak nincs sűrűségfüggvénye!! A sűrűségfüggvény (egy intervallumra integrálva) empirikusan (= tapasztalati szinten) tényleg azt mondja meg, hogy adott intervallumban milyen sűrűn fognak előfordulni a mért értékek: az összes érték kb. hányadrésze esik az intervallumba. Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 3 / 80
4 Valszám alapfogalmak ismétlés Valszám alapfogalmak Várható érték EX: A valváltozó (vagyis pl. egy mérés) lehetséges értékeinek felvételük valószínűségével súlyozott átlaga. Nem keverendő több mérés átlagával! (Az már a nagy számok törvénye.) A várható érték a valváltozó centruma, ami körül ingadozik. Ha diszkrét a valváltozó, akkor a fenti súlyozott átlagolás az ismert képletből is látszik. Ha folytonos értékű, akkor persze a szumma integrálba megy át, a valószínűséget meg a sűrűségfüggvény adja meg. Szórásnégyzet vagy variancia: A valváltozó centruma körüli ingadozásának mérőszáma. A centrumtól való négyzetes eltérést nézzük, és ezt átlagoljuk a valószínűséggel súlyozva, azaz várható értéket véve: D 2 X = E(X EX) 2 Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 4 / 80
5 Valszám alapfogalmak ismétlés Valszám alapfogalmak Kovariancia: Két valváltozó centrált szorzatának várható értéke: cov(x,y) = E [(X EX)(Y EY)] A kovariancia egyfajta skalárszorzat. Az önmagával vett kovariancia a szórásnégyzet. Az önmagával vett skalárszorzat a hossznégyzet. A szórásnégyzet tehát hossznégyzet, a szórás a valváltozó hossza. A korreláció: Kovariancia osztva a szórások szorzatával. cor(x,y) = cov(x,y) DX DY A korreláció a lineáris függés mérőszáma. Nem minden függést mér. Korreláció = skalárszorzat osztva a hosszak szorzatával = a bezárt szög koszinusza! Igen, a korreláció két valváltozó szögének koszinusza, ezért méri (csak) a lineáris függést! És így persze, hogy -1 és 1 között van, stb. Még egyszer: csak a lineáris függést méri. Szimmetrikus (pl. normális) eloszlású valváltozónak és négyzetének a korrelációja 0, pedig annyira összefüggnek, hogy egyik a másikból kiszámolható! Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 5 / 80
6 Elfajult eloszlás Nevezetes diszkrét eloszlások Elfajult eloszlás P(X = x 0 ) = 1 EX = x 0 D 2 X = 0 X biztosan (1 valószínűséggel) az x 0 értéket veszi fel. Más szóval X nem véletlen = determinisztikus, azaz közönséges valós szám. Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 6 / 80
7 Egyenletes eloszlás Nevezetes diszkrét eloszlások Egyenletes eloszlás, Unif (x 1,x 2,...,x n ) Minden lehetséges értéket ugyanakkora valószínűséggel vesz fel. x 1,x 2,...,x n 1 n, 1 n,..., 1 n Legyenek X értékei a természetes számok n-ig: x 1,x 2,...,x n = 1,2,...,n. Ekkor EX 2 = EX = x i n n k=1 D 2 X = EX 2 (EX) 2 = = i n = n k 2 n = 1 n(n + 1)(2n + 1) n 6 n(n + 1)(2n + 1) 6 = 4n2 + 6n + 2 3n 2 6n 3 12 = n (n + 1)2 4 Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 7 / 80 =
8 Indikátor eloszlás Nevezetes diszkrét eloszlások Indikátor valószínűségi változó χ A eloszlása Az A esemény indikátora 1 ha A bekövetkezik és 0 ha nem. χ A (ω) = P(A ) = p { 1, ha ω A 0, ha ω / A P(χ A = 1) = p P(χ A = 0) = 1 p = q Eχ A = p D 2 χ A = pq Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 8 / 80
9 Binomiális eloszlás Nevezetes diszkrét eloszlások Binomiális eloszlás, n-edrendű, p paraméterű, B(n,p) Az X valváltozó értékét az adja meg, hogy egy p valószínűségű A esemény n független kísérletből hányszor következik be. (Minden kísérletben vagy A vagy nem A következik be egyértelműen.) Pl.: Kockával n dobás során hány hatos lesz? P(X = k) = ( ) n k p k q n k (Kocka: ( ) n k ( 1 6 )k ( 5 6 )n k ) X = Y 1,Y 2,...,Y n, ahol Y i -k független indikátorok. Így EX = EY i = np D 2 X = D 2 Y i = npq Dr. Márkus László A Matematikai Statisztika Alapjai március 1. 9 / 80
10 Geometriai vagy Pascal eloszlás Nevezetes diszkrét eloszlások Geometriai eloszlás (Pascal eloszlás), p paraméterű, Geom(p) Az Y valváltozó értékét az adja meg, hogy a fenti kísérletsorozatban hányadikra következett be először az A esemény. Pl.: Kockával hányadikra dobok először hatost? P(Y = k) = pq k 1 EY = 1 p D 2 Y = q p 2 Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
11 Nevezetes diszkrét eloszlások EY = k=1 k pqk 1 = p 1 p q + 1 p q2 +...) = p( 1 p 1 1 q ) = p 1 = 1 p 2 p 1 + q + q 2 + q q + q 2 + q q 2 + q = p. 1 1 q + q 1 q + q 2 1 q +. = p( 1 p + D 2 Y hasonlóan. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
12 Negatív binomiális eloszlás Nevezetes diszkrét eloszlások Negatív binomiális eloszlás, n-edrendű, p paraméterű, NB(r,p) A Z valváltozó értékét az adja meg, hogy a fenti kísérletsorozatban hányadikra következett be r-edszer az A esemény. Pl.: Kockával hányadikra dobok r-edszer hatost? P(Z = k) = ( ) k 1 r 1 p r q k r Z = Y 1 + Y Y r, ahol Y i =az A esemény (i-1)-edik utáni első bekövetkezése Y i p paraméterű geometriai eloszlású. Ezért EZ = r p D 2 Z = rq p 2 Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
13 Normális eloszlás Nevezetes abszolút folytonos eloszlások Normális eloszlás, (m,σ 2 ) paraméterű, N(m,σ 2 ) Leggyakrabban sok, kis, független, elemi véletlen hatás összegződéseként előálló valváltozó. Az első paraméter a várható érték a második a szórásnégyzet. P(X = x) = 0, mert ez már abszolút folytonos eloszlású. Sűrűségfüggvénye: standard: f (x) = 1 e x2 1 2 általános: f (x) = e (x m)2 2σ 2 2π 2π σ Eloszlásfüggvénye elemi függvényekkel nem felírható, a fenti f integrálfüggvénye ( -től x-ig integrálunk), standard normális eloszlás esetén jelölése Φ(x). Független normálisak összege normális, a várható értékek és a szórásnégyzetek összeadódnak. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
14 Exponenciális eloszlás Nevezetes abszolút folytonos eloszlások Exponenciális eloszlás, λ paraméterű, Exp(λ) Leggyakrabban időben folytonosan (=bármikor) bekövetkez(het)ő esemény első bekövetkezési idejének eloszlása. Exponenciális konstansszorosa marad exponenciális. A paraméter a skála reciproka. (Pl. egy exponenciális vv. kétszeresének a paramétere az eredeti fele, háromszorosának a harmada. Ez is abszolút folytonos eloszlású. Sűrűségfüggvénye: Eloszlásfüggvénye:. f (x) = λe λx F(x) = 1 e λx Várható értéke: EX = 1 λ, szórásnégyzete: D 2 X = 1 λ 2 Az exponenciális eloszlás örökifjú P(X > s + t X > s) = P(X > t) Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
15 Gamma eloszlás Nevezetes abszolút folytonos eloszlások Gamma eloszlás, α rendű λ paraméterű, Γ(α,λ) Leggyakrabban időben folytonosan (=bármikor) bekövetkez(het)ő esemény n- edik bekövetkezési idejének eloszlása lesz Γ(n, λ) eloszlású. Ez is abszolút folytonos eloszlású. Sűrűségfüggvénye: f (x) = λ α Γ(α) x(α 1) e λx Eloszlásfüggvényét nem szoktuk számolni, egész rend esetén egy rend tagú összeg. Várható értéke: EX = α λ, szórásnégyzete: D 2 X = α λ 2 n darab független, azonos λ paraméterű exponenciális eloszlású valváltozó összege Γ(n,λ) eloszlású. Független, azonos λ paraméterű Γ eloszlású valváltozók összege ugyancsak λ paraméterű Γ eloszlású, és a rendek összeadódnak. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
16 Khi négyzet eloszlás Nevezetes abszolút folytonos eloszlások Khi négyzet eloszlás, d szabadsági fokú, χd 2 Független standard normális eloszlású valváltozók négyzetösszegének eloszlása. A szabadsági fok az összeadandók darabszáma. Úgy is gondolhatunk rá, mint független standard normális eloszlású koordinátákkal rendelkező d dimenziós véletlen vektor hossznégyzetének eloszlása. A szabadsági fok a dimenzió. Megmutatható, hogy egy standard normális eloszlású valváltozó négyzete Γ( 1 2, 1 2 ), tehát a független gammákra vonatkozó összegzési szabály miatt Sűrűségfüggvénye: f (x) = χ 2 d = Γ( d 2, 1 2 ) 1 2 d 2 Γ(( d 2 1))x( d 2 1) e 1 2 x Eloszlásfüggvényét nem szoktuk számolni. Várható értéke: EX = d, szórásnégyzete: D 2 X = 2d Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
17 Khi és t eloszlás Nevezetes abszolút folytonos eloszlások Khi eloszlás, d szabadsági fokú, χ d Egy khi négyzet eloszlású valváltozó négyzetgyökének eloszlása. A szabadsági fok a khi négyzet eloszláséval egyezik. Úgy is gondolhatunk rá, mint független standard normális eloszlású koordinátákkal rendelkező d dimenziós véletlen vektor hosszának eloszlása. A szabadsági fok a dimenzió. Sűrűségfüggvénye: pontosan pl. a wikipédián Student féle t eloszlás, d szabadsági fokú, t d Standard normális eloszlású és khi eloszlású valváltozók hányadosának eloszlása. Sűrűségfüggvénye: f (x) = const ) d+1 (1 + x2 2 d Eloszlásfüggvényét nem szoktuk számolni. Várható értéke: EX = 0, szórásnégyzete: D 2 X = d d 2 Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
18 A minta Bevezetés - A minta A minta fogalmának megértéséhez vegyünk például egy adott forrásból különböző időpontból származó vízmintát, amelyeknek kémiai összetételére vagyunk kíváncsiak. A vízmintákban mérünk pl. kalcium koncentrációt. Kétszer nem mérnénk ugyanazt, nem csak a műszer hibája miatt, hanem azért is, mert az adott jelenség sem zajlik kétszer pontosan ugyanúgy. Ezért minden egyes mérés valváltozónak tekinthető. Az adott mért érték, pl.125 mg/l ennek a valváltozónak egy realizációja. Több mérés esetén a mérések sorozata az X 1,X 2,...,X n valváltozók sorozata a minta, míg a hozzájuk tartozó x 1,x 2,...,x n számértékeket a minta realizációjának nevezünk. X i valváltozó a minta i-edik eleme. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
19 Bevezetés - A minta Független ill. azonos eloszlású minta Mivel minden mérésünkben a kalcium koncentrációt határoztuk meg, ezért mindegyik mérés ugyanazt a törvényszerüséget követi. Ezt a törvényszerüséget a valószínűségszámításban az eloszlás írja le, tehát azt mondhatjuk, hogy ezek az X 1,X 2,...,X n valváltozók valamennyien a azonos eloszlásúak, tehát azonos eloszlású mintánk van. Ha a méréseink egymást nem befolyásolva és egymástól kellően távoli időpontban zajlanak, akkor a mintában szereplő valváltozók teljesen függetlenek egymástól, és ilyenkor független mintáról beszélünk. Független, azonos eloszlású mintánk van, ha a mintaelemek eloszlása ilyen. A függetlenséget a realizáción közvetlenül nem látjuk, hiszen az csak 1-1 mérés. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
20 Bevezetés - A minta Sokszor beszélünk független azonos eloszlású mintáról, gyakran azonban csak azért mert erre vonatkozóan könnyebben végezhető el az adatok elemzése. Az életben a függetlenség messze nem mindig biztosított. Tipikusan ilyenek az időben egymás után zajló megfigyelések, ha az időtáv nem túl távoli. A Budapesti januári napi átlaghőmérsékletek nem lesznek egymástól függetlenek, de mondjuk az utolsó 10 év január 30-án mért adatai már független változók realizációinak tekinthetőek, még ha esetleg várható értékük és szórásuk meg is egyezik. Nem független adatok, mérések elemzése sokkal nehezebb és sokszor a helyes összefüggési struktúra érdekében a független mintákra vonatkozó alapvető elvek feladására is kényszerülünk. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
21 Az eloszláscsalád Bevezetés - A minta A minta eloszlását általában nem ismerjük, célunk pont ennek, vagy az eloszlás valamilyen jellemzőjének meghatározása a minta alapján. Bár az eloszlást nem ismerjük pontosan, de alakjáról (és ezen leggyakrabban a sűrűségfüggvény alakját értjük) van azért némi elképzelésünk. Ez általában azt jelenti, hogy az eloszlás családját ismerjük, vagy ismertnek tekintjük, és csak a paramétereit akarjuk megbecsülni a mintából. Pl. azt gondolhatjuk, hogy az eloszlás normális, de két paramétere (várható értéke m és szórása σ) akármi lehet. Néha korlátozni érdemes a lehetséges paramétereket arra, ami értelmes (pl. Bp napi középhőm. várható értéke -30 C és +50 C között). A paramétert ϑ-val jelöljük, akkor is ha egy szám, akkor is ha vektor. Pl. a fenti normális eloszlásra ϑ = (m,σ), tehát a paraméter két dimenziós vektor. A lehetséges paraméterek összessége adja a Θ paraméterteret. A minta eloszláscsaládja a lehetséges Q ϑ eloszlások összessége, ahol ϑ végigfut a Θ paramétertéren. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
22 Statisztika, becslés A realizált minta lehet nagyon sok szám is, pl. száz éves napi adatok közel számot jelentenek. Ez, bár nagyon sok információ, de áttekinthetetlen. Tömöríteni kell az információt, néhány jól értelmezhető, és ezért könnyen átlátható számba kell sűríteni, ki kell számítani a minta egy, vagy néhány függvényét (pl. átlag, maximum etc.). A minta egy tetszőleges T (mérhető ) függvényét statisztikának hívjuk. Az X 1,X 2,...,X n minta T(X 1,X 2,...,X n ) = T(X) függvénye a statisztikának a mintán felvett értéke, ami tehát maga is valváltozó (így pl. van eloszlása), míg T(x 1,x 2,...,x n ) = T(x) a statisztika értékének realizációja. (Nem mindig teszünk ebben élesen különbséget.) A becslés olyan statisztika, amelyet az eloszlás paraméterének, vagy e paraméter egy függvényének becslésére használunk. Igazából minden statisztika becslés is, legfeljebb rossz vagy értelmetlen becslés. Matematikai értelemben - itt nem adunk pontos definíciót Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
23 Példák statisztikákra: átlag A mintaátlag X 1+X X n n. Jelölése X. Itt a függvény n-változós: T n (x 1,x 2,...,x n ) = x 1+x x n n, tehát igazából más és más mintaelemszámra másik és másik függvénybe helyettesítjük a mintát: X 1+X X n n = T n (X 1,X 2,...,X n ), mégsem szoktuk az elemszámfüggést hangsúlyozni. A mintaátlag minimalizálja a mintaértékeknek egy számtól vett átlagos négyzetes eltérését, tehát az átlag a minta centruma. n i=1 (x i a) 2 min a = x Azonos eloszlású minta esetén minden mintaelem várható értéke ugyanannyi, (tehát a mérés várható eredménye ugyanaz). Ilyen mintára az átlag várható értéke is ugyanannyi, azaz: EX = EX 1 = EX 2 =... = EX n Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
24 Példák statisztikákra: tapasztalati szórásnégyzet Tapasztalati szórásnégyzet: S 2 n = 1 n n i=1 (X i X) 2 Könnyű látni, hogy független, azonos eloszlású minta esetén, amikor minden mintaelem szórásnégyzete ugyanannyi, ES 2 n = (n 1) D 2 X 1 n tehát ezt a becslést korrigálni kell, hogy igazán jó szórásbecslésünk legyen. Ez a korrigált tapasztalati szórásnégyzet Sn 2 = 1 n 1 n i=1 (X i X) 2 Nem független mintára ez sem lesz jó becslés!!! Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
25 Példák statisztikákra: medián és kvantilis Tapasztalati medián: Az a szám, amelynél a mintaelemek fele kisebb, a másik fele meg nagyobb. Sorbarendezzük nagyság szerint a mintát és ha páratlan elemszámú a minta, akkor a középső elem a medián, ha meg páros az elemszám, akkor a két középső számtani közepe. A tapasztalati medián minimalizálja a mintaértékeknek egy számtól vett átlagos abszolút eltérését, tehát a tapasztalati medián a minta centruma ebben az értelemben. n i=1 x i a min a = m, ahol m a medián. Míg az átlag a kiugró mintaértékekre (adott esetben mérési anomáliára) érzékeny, addig a medián nem, u.n. robusztus statisztika. Tapasztalati q%-os kvantilis: Az a szám, aminél a mintaelemek q%-a kisebb. Extremális viselkedések jellemzésére jó. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
26 Példák statisztikákra: Rendezett minta Az x 1,x 2,...,x n mintarealizációt nagyság szerint sorba rendezhetjük: x1 x 2... x n, Ugyanezt az X 1,X 2,...,X n mintával is megtehetjük minden ω mellett, így kapjuk az X1,X 2,...,X n rendezett mintát. Spec.: X1 a minta minimuma, Xn a maximuma. A rendezett mintában persze minden ω-ra más és más az eredeti mintaelemek nagyság szerinti sorrendje, pl. az egyik ω-ra a kilencedik mintaelem a legnagyobb egy másik ω-ra esetleg a negyedik. Tehát például a maximum, X n, nem lesz egyenlő egyik eredeti mintaelemmel sem, hanem hol az egyikből, hol a másikból kapja az értékét, ez egy teljesen új valváltozó lesz, csakúgy, mint bármely másik X k. A rendezett minta elemei nem függetlenek, hiszen pont az az összefüggés közöttük, hogy a nagyobb indexű értéke is nagyobb. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
27 Példák statisztikákra: Tapasztalati eloszlásfüggvény Legyen X 1,X 2,...,X n független azonos eloszlású minta. 0, ha x X1, azaz, ha x kisebb a minimumnál F n (x) = k n, ha Xk < x X k+1 1, ha Xn < x, azaz, ha x nagyobb a maximumnál Mi ez? Ez egy lépcsős függvény, amelyben a lépcsők a mintarealizáció értékeinél vannak, és a függvény a felől 0-ból indulva minden lépcsőnél pont 1 n nagyságút ugrik. F n (x) nem egyszerűen egy függvény, hanem minden ω-ra másik és másik, tehát igazából egy véletlen függvény, vagyis u.n. sztochasztikus folyamat. Glivenko tétele: Legyen n elemű független azonos eloszlású mintánk F(x) közös eloszlásfüggvénnyel. Az F n (x) tapasztalati eloszlásfüggvények a mintaelemszám n növelésével 1 valószínűséggel egyenletesen tartanak F(x)-hez. Ez egy elvi lehetőség az eloszlás meghatározására. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
28 Példa tapasztalati eloszlásfüggvényre x=c(1.2, 7.4, 3.3, 5.1, 5.3, 1.6, 7.9, 6.2) plot(ecdf(x), do.points=true, verticals=true) points(x,nn,pch=16, col=2,cex=2) Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
29 Példa Glivenko tételre Tapasztalati eloszlásfüggvény 50 ill. 200 elemű normális mintából, és az elméleti eloszlásfüggvény (pirossal) Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
30 Példa Glivenko tételre Tapasztalati eloszlásfüggvény 10,25,100 ill. 500 elemű normális mintából, és az elméleti eloszlásfüggvény (pirossal) Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
31 Példák statisztikákra: Hisztogram Gyakoriság hisztogram: az alapintervallumot felosztjuk k egyenlő részre, k n, megszámoljuk hány mintaérték esik a i-edik részintervallumba, és ilyen magas téglalapot rajzolunk fölé. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
32 Példák statisztikákra: Hisztogram Relatív gyakoriság: Megszámoljuk n kísérletből hányszor következik be az A esemény és osztjuk a kísérletek számával. Ez az A esemény valószínűségének becslése. Relatív gyakoriság hisztogram: Durván: a gyakoriság hisztogramot leosztjuk a mintaelemszámmal n-nel. A gyakoriság hisztogram konstrukcióját követve a téglalapok magasságát most nem a darabszám, hanem a relatív gyakoriság adja. Csak az y-tengely skálája változik ettől. Mintaterjedelem (range): különbsége, Xn X1. A legnagyobb és a legkisebb mintaelem Sűrűség hisztogram: most a legkisebb és a legnagyobb mintaelem által meghatározott intervallumot osztjuk fel n egyenlő részre, megszámoljuk hány mintaérték esik a k-adik részintervallumba, ezt osztjuk a mintaterjedelemmel és ilyen magas téglalapot rajzolunk fölé. A sűrűség hisztogram alatti terület 1 tehát ez a sűrűségfüggvény egyfajta becslése Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
33 Példák statisztikákra: Sűrűségfüggvény becslés A Parzen-Rosenblatt féle magfüggvényes sűrűségfüggvény becslés: minden mintaérték fölé egy sima függvényt (u.n. magfüggvényt) rajzolunk, (például Gauss görbét, háromszög-függvényt, egy cos ívet) majd minden alappontban összeadjuk a fölötte lévő függvényértékeket, így kapjuk a becsült sűrűségfüggvény értéket. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
34 Becslések tulajdonságai Igazi paraméternek nevezzük azt a paramétert, ami a minta tényleges eloszlását adja meg az eloszláscsaládban. A becslés torzítatlan, ha legalább várhatóan, várható értékben azt adja, amit becsülni szeretnénk, bármi is a minta eloszlása az eloszláscsaládból. Ha a paramétert ϑ-t vagy annak egy függvényét g(ϑ)-t becsüljük, akkor formulával: E ϑ T(X) = g(ϑ). Az E ϑ egy teljesen általánosan alkalmazott, de szerintem gyakorlati szempontból rossz (túl absztrakt) jelölés. Ugyanis nem a várható érték függ a ϑ-tól, hanem a minta (méréseink) eloszlása. Tehát igazából X-et kellene indexelni ϑ-val, a várható értéket pedig nem. A torzítatlanság tehát azt mondja, hogy ha 5 paraméterű eloszlással rendelkező mintát helyettesítek ebbe a statisztikába/becslésbe, akkor g(5) lesz a várható értéke, de ha ugyanebbe 3.2 paraméterűt, akkor g(3.2) lesz a várható érték sít. Változtathatnánk a valószínűségi mértéket is, de ez túl absztrakt megközelítés. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
35 Becslések tulajdonságai Egy torzítatlan becslés hatásos, ha ő a torzítatlanok között a legkevésbé ingadozó, vagyis szórása a legkisebb. Egy torzítatlan becslés hatásosabb mint a másik, ha szórása kisebb a másikénál. Torzítatlan becslések sorozata (erősen) konzisztens, ha a sorozat ingadozása elenyészik, azaz szórásnégyzete 0-hoz tart, és így végül határértékben pontosan megadja a becsülendő mennyiséget. Tipikusan egy torzítatlan becsléstípus (mint pl. az átlag vagy a maximum, amit egyre több és több megfigyelésből is számolhatunk) konzisztens, ha a mintaelemek számát növelve az ingadozás elenyészik, azaz a szórásnégyzet 0-hoz tart. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
36 Elégségesség, információs határ Említettük, hogy pl. normális eloszlás esetén a várható érték (m) paramétert az átlaggal tudjuk becsülni, és nevezetes tény, hogy ez a legjobb becslése. Az átlag tehát minden információt tartalmaz az m paraméterről, hiszen ha lenne még elérhető információ, akkor azt felhasználva jobb becslést is készíthetnénk. Azokat a statisztikákat, amelyek a paraméterről a mintában rejlő összes információt tartalmazzák, elégséges statisztikáknak hívjuk. Nem adunk formális definíciót és nem vizsgáljuk ezt a témakört. Egy mintából a paramétert vagy annak függvényét nem lehet tetszőleges pontossággal = megbízhatósággal becsülni, valamennyi bizonytalanság mindenféle becslés esetén marad, vagyis a becslés szórásnégyzete nem lehet tetszőlegesen kicsiny. A becslés szórásnégyzetére bizonyos feltételek mellett elvi alsó korlátot ad a nevezetes Rao-Cramér egyenlőtlenség a Fisher féle információs mennyiség reciproka segítségével. Ezeket a fogalmakat, eredményeket sem részletezzük. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
37 Becslési elvek: Maximum Likelihood (ML) Legyen adott egy mintarealizáció, azaz mérési eredmények egy sorozata, és egyelőre tegyük fel, hogy diszkrét eloszláscsaládból származik. Ekkor elvileg az összes lehetséges szóbajövő eloszlás, azaz az összes lehetséges paraméter mellett kiszámolhatjuk, hogy pont ennek a megfigyelésnek mekkora a valószínűsége. Ezek után elég természetes azt a paramétert választani az igazi ismeretlen paraméter becslésének, amelyik mellett a legnagyobb ez a valószínűség, azaz a legnagyobb a valószínűsége, hogy pont az a minta jön ki, amit éppen mértünk. Ez a maximum likelihood elv, a leggyakrabban használt becslési eljárás. Az ML becslés számítása azonban nem mindig könnyű, sőt sok esetben nem is lehetséges a bonyolult maximalizációs feladat miatt. Ilyenkor algoritmikus eljárásokat alkalmaznak. Abszolút folytonos eloszlású minta esetén nem a valószínűséget, hanem a sűrűségfüggvényt maximalizáljuk, a paraméter szerint. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
38 Becslési elvek: Maximum Likelihood (ML) A Maximum Likelihood elv szerint azt a paramétert választjuk, amelyik mellett a legnagyobb a valószínűsége a ténylegesen megfigyelt, mért mintarealizációnak. Technikailag ez diszkrét eloszlás feltételezése mellett pontosan a mért x 1,x 2,...,x n mintarealizáció helyén vett valószínűségfüggvény maximumhelyének megkeresését jelenti a paraméter szerint azaz ϑ-ban: P ϑ (X 1 = x 1,X 2 = x 2,...,X n = x n ) = p(x 1,x 2,...,x n,ϑ) max ϑ ban Abszolút folytonos eloszlású minta esetén nem a valószínűséget, hanem a minta együttes sűrűségfügvényét a megfigyelt helyen maximalizáljuk a paraméter szerint. f (x 1,x 2,...,x n,ϑ) max ϑ ban Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
39 Becslési elvek: A maximum likelihood számítása Definíció: p(x,ϑ) és f (x,ϑ) közös neve likelihood függvény. Mivel p > 0 és f > 0 valamint a logaritmus függvény szigorúan monoton növő ezért p vagy f maximuma ugyanott van ahol a logaritmusáé. Mivel a legtöbb sűrűségfügvény exp(valami) jellegű, ezért gyakran célszerű a maximumkereséshez logaritmálni. Definíció: log(p(x, ϑ)) és log(f (x, ϑ)) közös neve loglikelihood függvény. Ha még differenciálható is a loglikelihood függvény, akkor a maximumhely megtalálása a derivált nullahelyének megkeresésével is lehet, azaz a likelihood egyenletet kell megoldani: log(f (x,ϑ)) = 0 ϑ Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
40 Becslési elvek: A maximum likelihood tulajdonságai Adott mintaelemszámra a ML becslés semmilyen jó tulajdonsága sem garantált, de határértékben, azaz gyakorlatilag nagy mintára számos jó tulajdonsággal rendelkezik: Tétel: Bizonyos regularitási feltételek mellett a maximum likelihood becslés: aszimptotikusan torzítatlan, aszimptotikusan hatásos (aszimptotikusan Cramér-Rao, azaz az információs határt közelíti), erősen konzisztens, aszimptotikusan normális eloszlású. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
41 Becslési elvek: Momentum Módszer (MM) Tapasztalati momentum: Az X 1,X 2,...,X n minta k-adik tapasztalati momentuma M k = 1 n n Xi k i=1 Legyen a ϑ paraméter egy d dimenziós vektor. A d dimenziós paraméterrel kifejezett első d elméleti és tapasztalati momentum egyenlővé tételével d ismeretlenes egyenletrendszert kapunk a paraméterre, ennek megoldása a paraméter momentum módszeres becslése. Ez általában se nem torzítatlan se nem hatásos, de legalább erősen konzisztens becslés. Eloszlásáról sem lehet semmit mondani általánosságban. Akkor hasznos, amikor az ML vagy túl bonyolult, vagy olyan optimalizációs problémára vezet, amit nem lehet (még akár numerikusan sem) megoldani. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
42 Konfidencia Intervallum Becslés gyanánt egyetlen számérték soha nem elég informatív, mert semmit nem mond arról, hogy mennyire ingadozhat a becslés, és így az éppen számított érték milyen messze lehet az igazitól. A ϑ paraméter értékét egy a mintától függő (ezért véletlen) intervallum belsejébe akarjuk szorítani előírt valószínűséggel. Ezt az intervallumot hívjuk megbízhatósági azaz konfidencia intervallumnak. A konfidencia intervallum megkonstruálásához olyan T 1,T 2 statisztikákat keresünk, amelyre minden ϑ esetén teljesül, hogy P ϑ (T 1 (X) < ϑ < T 2 (X)) = 1 ε Ha ez teljesül akkot a (T 1 (X),T 2 (X) véletlen intervallumot 1 ε megbízhatóságú konfidencia intervallumnak nevezzük T 1 alsó és T 2 felső konfidencia határral. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
43 Hipotézisvizsgálat Legyen egy X 1,X 2,...,X n mintánk, P ϑ igazi eloszlással, amelyről tudjuk, hogy a ϑ paraméter a Θ paramétertér egy számunkra nem ismert eleme. A Θ paraméterteret két diszjunkt részhalmaz uniójára bontjuk Θ = Θ 0 Θ 1 és a minta alapján el szeretnénk dönteni, hogy az igazi ϑ paraméter melyik részhalmazba tartozik. Nullhipotézisnek nevezzük az a feltevést, hogy a minta igazi eloszlásának paramétere a Θ 0 részhalmazba tartozik. Alternatív vagy ellenhipotézisnek nevezzük azt, hogy az igazi eloszlás paramétere a Θ 1 részhalmazba tartozik: H 0 : ϑ Θ 0 H 1 : ϑ Θ 1 Hipotézisünkről a statisztikai próba vagy teszt segítségével döntünk. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
44 A statisztikai próba A mintából mindenek előtt kiszámítunk egy T(X 1,X 2,...,X n ) statisztika értéket, ezt a statisztikát nevezzük próbastatisztikának. A nullhipotézist igaznak feltételezve meghatározzuk a próbastatisztika eloszlását. Ezek után megvizsgáljuk, hogy a minta realizációjából, tehát a konkrét mért vagy megfigyelt értékekből számított próbastatisztika érték ezen eloszlás mellett tipikusnak, szokásosnak tekinthető-e, vagyis számottevő valószínűséggel előfordulhat-e, és ha igen akkor elfogadjuk a nullhipotézist. Ha a próbastatisztika érték a meghatározott eloszlás mellett atipikus, vagyis csak igen kis valószínűséggel kapható meg, akkor elutasítjuk a nullhipotézist. Az eloszlásra nézve tipikus próbastatisztika értékeket az X e elfogadási tartományban, míg az atipikus értékeket az X k kritikus tartományban gyűjtjük össze. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
45 A próba hibái A próbastatisztika alapján tehát kétféleképpen döntünk: elfogadjuk a nullhipotézist ha T(X) X e és elutasítjuk, ha T(X) X k. Ennek során kétféleképpen véthetünk hibát. Elsőfajú hibát vétek, ha elutasítom a nullhipotézist pedig igaz. Másodfajú hibát vétek, ha elfogadom a nullhipotézist pedig hamis. Mindkét hiba elkövetésének valószínűsége felírható: P(elsőfajú hiba) = P ϑ (T(X) X k ) ϑ Θ 0 P(másodfajú hiba) = P ϑ (T(X) X e ) ϑ Θ 1 Általában a kritikus tartományt adjuk meg, és ezt az alapján tesszük meg, hogy az elsőfajú hibát szeretnénk előírtan alacsony szinten tartani. Az α szint a próba terjedelme, ha az elsőfajú hiba kisebb, mint α, és a próba pontos terjedelme, ha nincs nála kisebb terjedelem. Egyelemű nullhipotézis esetén a terjedelem neve szignifikancia szint. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
46 A másodfajú hiba erőfüggvény Ha az elsőfajú hiba valószínűségét előírtuk, akkor a másodfajú hiba valószínűsége már adott. Ugyanis az elsőfajú hiba alapján meghatározott a kritikus tartomány és P(másodfajú hiba) = P ϑ (T(X) X e ) = 1 P ϑ (T(X) X k ) ϑ Θ 1. Tehát adott próbastatisztika és próbaterjedelem mellett a másodfajú hiba valószínűségét már nem tudjuk befolyásolni. A próbastatisztika megválasztásában viszont lehet szabadságunk. A próba akkor jó, ha egyszerre mindkét hiba kicsi. A másodfajú hiba helyett a próba Θ 1 -en értelmezett erőfüggvényét: β(ϑ) = 1 P ϑ (másodfajú hiba) = P ϑ (T(X) X k ) ϑ Θ 1 szokás vizsgálni. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
47 Egyenletesen legerősebb próba Nyilván az a kívánatos, hogy a próba ereje minél nagyobb legyen. A próba ereje tehát a próbastatisztika függvényében változhat csak. Egy próba(statisztika) T 1 egyenletesen erősebb egy másiknál T 2, ha az alternatív hipotézis minden lehetősége mellett az ereje nagyobb, mint a másiké: β 1 (ϑ) β 2 (ϑ) ϑ Θ 1 Egy próba egyenletesen legerősebb, ha minden másik próbánál egyenletesen erősebb. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
48 Véletlenített ill. szekvenciális próbák Ezekben az esetekben a mintateret nem csupán a kritikus és elfogadási tartományokra bontjuk, hanem három részre, az előbbiek mellett még egy X b bizonytalansági tartományt is megadunk. Véletlenítet (randomizált) próba esetén az elfogadási és a kritikus tartományokba eső próbastatisztika érték esetén értelemszerűen döntünk, míg a bizonytalansági tartományban a próbastatisztika értékétől függetlenül, adott valószínűséggel, véletlenszerűen döntünk elfogadás vagy elutasítás mellett. (Feldobunk egy előírtan hamis érmét... ) Szekvenciális próba végzésekor a bizonytalansági tartományba eső próbastatisztika érték esetén egy újabb mintaelemet adunk a meglévőkhöz, és ezzel újraszámoljuk a próbát. Ezt mindaddig folytatjuk, amíg egyértelműen nem tudunk dönteni. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
49 Neyman-Pearson féle alaplemma I. Tétel. (Neyman-Pearson féle alaplemma I.) Tegyük fel, hogy H 0 : ϑ = ϑ 0 H 1 : ϑ = ϑ 1, ϑ 0,ϑ 1 Θ azaz csak két paraméter van: egyszerű nullhipotézis áll szemben egyszerű alternatívával. Regularitási feltételek mellett az α terjedelmű (véletlenítet) próbák között létezik egyenletesen legerősebb, amelyet a likelihood hányados segítségével lehet megadni: X k = { L(X > c) } X b = { L(X = c) } X e = { L(X < c) }, ahol L(x) = f 1(x) f 0 (x) a likelihood függvények hányadosa. Vegyük észre, hogy az abszolút folytonos esetben a bizonytalansági tartomány 0 valószínűségű, tehát elhagyható, a próba nem véletlenített. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
50 Neyman-Pearson féle alaplemma II. Az első Neyman-Pearson féle alaplemmához hasonló állítás fogalmazható meg a H 0 : ϑ ϑ 0 H 1 : ϑ > ϑ 0, ϑ Θ, ϑ 0 egy adott szám típusú hipotézisre vonatkozóan is. Most tehát nem csupán két paraméter van: összetett nullhipotézis áll szemben összetett alternatívával, de azért speciális alakban. Monoton likelihood hányados, és regularitási feltételek mellett az α terjedelmű (véletlenítet) próbák között létezik egyenletesen legerősebb, amelyet a likelihood hányados segítségével lehet megadni, az előző lemmához hasonlóan. E lemmáknak köszönhetően a likelihood hányados próbák kitűntetett szerepűek, még akkor is, amikor nem tudunk egyenletesen legerősebb próbát találni. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
51 χ 2 próba A 1,...,A r teljes eseményrendszer P(A i ) > 0, de a P(A i ) valószínűségeket nem ismerjük, azt feltételezzük, hogy ezek rendre az adott p 1,...,p r értékek. H 0 : P(A i ) = p i i H 1 : i : P(A i ) p i Legyen ν i az A i esemény gyakorisága n független kísérletben. Ekkor r ν i = n. A próbastatisztika legyen: χ = r i=1 (ν i np i ) 2 ebben a "valószínűség alapján várt" gyakoriság lenne np i, ennek eltérését vizsgáljuk a tapasztalttól. χ eloszlásban tart egy r 1 szabadsági fokú χ 2 eloszláshoz. Emlékeztetőül: az s szabadsági fokú χ 2 s eloszlás X X2 s eloszlása, ahol X i -k független N(0,1)-esek. np i i=1 Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
52 χ 2 próba Ha még a p i -ket sem ismerjük, akkor becsüljük (pl. Poisson eloszlásból származó valószínűségek, de λ nem ismert, Binomiálisból, de p nem ismert stb.). A becsült p i -ket jelölje ˆp i és ezzel készítsük el el χ-t: χ = r i=1 (ν n ˆp i ) 2 Ebben az esetben ez d = r s 1 szabadsági fokú χ 2 eloszláshoz tart, ahol s a becsült paraméterek száma. Nagy n-re, n legalább 16-20, már érvényesnek tekinthető a határeloszlás. A kritikus tartomány megválasztása: X k = { X χ 2 d (α)} = { X c d (α) } ahol χ 2 d (α) = c d(α) a χ 2 eloszlás α szignifikanciaszinthez tartozó kvantilise n ˆp i P 0 (χ c d (α)) = α Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
53 χ 2 próba illeszkedésvizsgálatra Diszkrét eset A minta lehetséges értékei: 1, 2, 3,..., r, vagy x 1, x 2,..., x r Az előfordulási gyakoriságok: ν 1,ν 2,ν 3,...,ν r Azaz megszámoljuk, az n elemű mintából hány 1-est, 2-est, stb. kaptunk. A valószínűségeloszlás szerinti előfordulási valószínűségei ugyanezen értékeknek: p 1,p 2,p 3,...,p r Ekkor r (ν i np i ) 2 i=1 np i χ 2 eloszláshoz tart, n növelésével. A χ 2 szabadsági foka r s 1, ahol s az a szám, ahány paraméterét a H 0 -beli eloszlásnak becsülnünk kellett. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
54 χ 2 próba illeszkedésvizsgálatra Ha α a szignifikancia szint, akkor a d = r s 1 szabadsági fokú χ 2 d eloszlás α-kvantilise adja azt a kritikus c d (α) értéket, amelyre tehát P(χ 2 > c d (α)) = α és ha a próbastatisztika c d (α)-nál nagyobb értéket ad, akkor utasítjuk el H 0 -t. Folytonos eset A lehetséges értékek tartományát intervallumokra osztjuk be, majd ugyanúgy járunk el, mint a diszkrét esetben: Most az adott intervallumba eső értékek gyakoriságát számoljuk, és vetjük össze a hipotetikus eloszlásból adódó várt gyakorisággal. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
55 Homogenitásvizsgálat X, illetve Y valószínűségi változók ugyanolyan eloszlásúak-e X 1,...,X n ; Y 1,...,Y m minták H 0 : P(X < x) = P(Y < y) Intervallumfelosztást készítünk: ν i = az i-ik intervallumba eső mintaelemszám, azaz I i előfordulásának gyakorisága az 1. minta alapján µ i = ugyanaz a 2. minta alapján A próbastatisztika: χ = n m r i=1 ( νi n µ ) i 2 m ν i + µ i Ez a statisztika r 1 szabadsági fokú χ 2 eloszlású. A továbbiakban minden ugyanúgy zajlik. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
56 Függetlenségvizsgálat Legyen A 1,...,A r ; B 1,...,B s két teljes eseményrendszer. H 0 : P(A i B j ) = P(A i ) P(B j ) i = 1,...,r, j = 1,...,s. A próbastatisztika: χ = r s i=1 j=1 (ν ij n p i q j ) 2 n p i q j ahol ν ij az A i B i gyakorisága n független megfigyelésben. Ez r s 1 fokú χ 2 eloszlású. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
57 Normális eloszlás várható értékére próbák: ismert szórás Az U-próba (Z-test): Legyen X 1, X 2,...,X n egy N(m,σ) eloszlású független minta, melynek szórása σ ismert, de igazi várható értéke m nem, viszont azt feltételezzük róla, hogy egy adott m 0 értékkel egyenlő. A H 0 : {m = m 0 } nullhipotézist teszteljük, vagy a H 1 : {m > m 0 } egyoldali, vagy a H 1 : {m m 0 } kétoldali alternatíva mellett. A próbastatisztika: U = n ( X m 0 ), σ azaz az átlag standardizált eltérése a hipotetikus várható értéktől, ha igaz σ a nullhipotézis!!!. (Ne feledjük X szórása: n, bármi is az m, de a számláló csak H 0 mellett lesz 0 várható értékű.) Mivel a minta normális eloszlású, ezért az átlag is az, és így a próbastatisztika is. Mivel standardizáltuk ha igaz a nullhipotézis, ezért a próbastatisztika standard normális N(0,1) eloszlású lesz H 0 mellett. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
58 Az U-próba kritikus tartománya A próbastatisztika értékét a standard normális eloszláshoz hasonlítjuk. A kritikus tartomány az α szignifikancia szinten: X k = {U u α } } X k = { U u α2 az egyoldali, a kétoldali ellenhipotézis esetén, ahol u α a standard normális eloszlás 1 α-kvantilise, azaz P(U < u α ) = 1 α, illetve másként u α megoldása a Φ(u α ) = 1 α egyenletnek melyben Φ a standard normális eloszlás eloszlásfüggvénye. Például u 0.05 =1.645, míg u =1.96, tehát ha 5%-os, azaz 0.05-ös szignifikancia szinten akarok dönteni a nullhipotézisről az egyoldalú alternatívával szemben, akkor nél nagyobb próbastatisztika értékekre utasítom azt el, míg ha kétoldalú az alternatíva, akkor 1.96-nál nagyobb, vagy nál kisebb értékekre utasítom el. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
59 Kétmintás U-próba Legyen X 1, X 2,...,X n1, valamint Y 1, Y 2,...,Y n2 két N(m 1,σ 1 ) illetve N(m 2,σ 2 ) eloszlású független minta, melynek szórásai σ 1, σ 2 ismertek. Az m 1, m 2 várható értékekről azt feltételezzük, hogy egyenlőek. A H 0 : {m 1 = m 2 } nullhipotézist teszteljük, vagy a H 1 : {m 1 > m 2 } egyoldali, vagy a H 1 : {m 1 m 2 } kétoldali alternatíva mellett. Legyen a próbastatisztika ekkor: U = ( X Ȳ), σ 2 1 n 1 + σ 2 2 n 2 A nullhipotézis igaz volta mellett ez ugyancsak standard normális eloszlású. Ennek megfelelően innentől az előzőekben leírt eljárást követve a kvantilisek segítségével meghatározzuk a kritikus tartományt, és ennek alapján döntünk. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
60 Normális eloszlás várható értékére próbák: ismeretlen szórás A Student féle t-próba: Megint legyen X 1, X 2,...,X n egy N(m,σ) eloszlású független minta, melynek azonban szórása σ nem ismert, csakúgy mint igazi várható értéke m sem, viszont ez utóbbiról újfent azt feltételezzük, hogy egy adott m 0 értékkel egyenlő. A H 0 : {m = m 0 } nullhipotézist teszteljük, vagy a H 1 : {m > m 0 } egyoldali, vagy a H 1 : {m m 0 } kétoldali alternatíva mellett. Mivel a szórásnégyzet nem ismert, ezért azt az U-próba próbastatisztikájában a becsült értékével helyettesítjük. Azonban a becsült érték valváltozó, így a próbastatisztika eloszlását megváltoztatja! A próbastatisztika: t = n ( X m 0 ). S 2 n Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
61 Student féle t-próba A próbastatisztika tehát az átlagnak a becsült szórással standardizált eltérése a hipotetikus várható értéktől, ha igaz a nullhipotézis. (A számláló megint csak H 0 mellett lesz 0 várható értékű!) Vegyük észre, hogy az ismeretlen σ szórás nem befolyásolja a próbastatisztika eloszlását, ugyanis a számláló és a nevező szórása egyaránt σ-szoros, és így a hányadosból kiesik. Az ismeretlen szórás ilyen, becslés nélküli eltávolítását nevezik studentizálásnak. Mivel a minta normális eloszlású, ezért az átlag is az, és így a próbastatisztikában a számláló is, sőt, mivel az ismeretlen σ kiesik, ezért H 0 mellett standard normális is. A nevezőben normálisak négyzetösszege van, H 0 mellett 0 várható értékűeké, és mivel σ innen is kiesik, ezért az eloszlás n 1 szabadsági fokú χ 2 lesz (n a minta elemszáma). Mindez együtt adja, hogy a hányados n 1 szabadsági fokú t-eloszlású lesz a nullhipotézis igaz volta mellett. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
62 A t-próba kritikus tartománya A próbastatisztika értékét most tehát az n 1 szabadsági fokú t eloszláshoz hasonlítjuk. A kritikus tartomány az α szignifikancia szinten: X k = {t t α,n1 } { } X k = t t α 2,n 1 az egyoldali, a kétoldali ellenhipotézis esetén, ahol t α,n az n szabadsági fokú t eloszlás 1 α-kvantilise. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
63 Az U- és t-próba tulajdonságai Mind az U-próba, mind a t-próba likelihood hányados próba, a normális eloszlás pedig teljesíti a regularitási feltételeket, ezért az egyoldalú alternatíva mellett ezek egyenletesen legerősebb próbák. A kétoldalú ellenhipotézis esetén azonban nem egyenletesen legerősebbek, ilyenkor nincs is egyenletesen legerősebb. Ha a minta elemszáma nagy, a t-próba helyett az U-próba is használható (ezzel a korrigált tapasztalati szórásnégyzetből kapott becslés ingadozását elhanyagoljuk, megbízhatóságát 100%-osnak tekintjük). Mivel ezek a próbák az átlagot használják, ami közel normális eloszlású mindig, ha a minta eloszlása a centrális határeloszlás tétel feltételeit teljesíti, ezért a próba nem érzékeny a normális eloszlástól való ilyen eltérésre. Erősen vastag farkú eloszlás esetén már közelítőleg sem feltétlen ad megbízható eredményt a próba. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
64 Kétmintás t-próba Legyen X 1, X 2,...,X n1, valamint Y 1, Y 2,...,Y n2 két N(m 1,σ) illetve N(m 2,σ) eloszlású független minta, melynek szórásai ismertetlenek bár de megegyeznek. Az m 1, m 2 várható értékekről azt feltételezzük, hogy egyenlőek. A H 0 : {m 1 = m 2 } nullhipotézist teszteljük, vagy a H 1 : {m 1 > m 2 } egyoldali, vagy a H 1 : {m 1 m 2 } kétoldali alternatíva mellett. Legyen a próbastatisztika ekkor: n 1 + n 2 2 ( X Ȳ) t = n 1 n 2, n 1 + n 2 n 1 i=1 (X i X) 2 n 2 i=1 (Y i Y) 2 A nullhipotézis igaz volta mellett ez ugyancsak t eloszlású, n + m 2 szabadsági fokkal. Ennek megfelelően a kvantilisek segítségével meghatározzuk a kritikus tartományt, és ennek alapján döntünk. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
65 Welch próba Legyen X 1, X 2,...,X n1, valamint Y 1, Y 2,...,Y n2 két N(m 1,σ 1 ) illetve N(m 2,σ 2 ) eloszlású független minta, melynek szórásai σ 1, σ 2 ismertetlenek. Az m 1, m 2 várható értékekről azt feltételezzük, hogy egyenlőek. A H 0 : {m 1 = m 2 } nullhipotézist teszteljük, vagy a H 1 : {m 1 > m 2 } egyoldali, vagy a H 1 : {m 1 m 2 } kétoldali alternatíva mellett. Legyen a próbastatisztika ekkor: t ( X Ȳ) = n 1 n 2 S 2 1 n 2 + S 2 2 n 1 A nullhipotézis igaz volta mellett ez közelítőleg t eloszlású. A d szabadsági fok a c =: S1 2n 2 S1 2n 2+S2 2n 1 jelölés mellett: 1 d = c2 (1 c)2 + n 1 1 n 2 1 Dr. Márkus László A Matematikai Statisztika Alapjai március / 80,
66 Próba a szórásnégyzetek egyezésének tesztelésére A (Fisher féle) F-próba: Legyen X 1, X 2,...,X n1, valamint Y 1, Y 2,...,Y n2 két N(m 1,σ 1 ) illetve N(m 2,σ 2 ) eloszlású független minta, melynek várható értékei m 1, m 2 és szórásai σ 1, σ 2 egyaránt ismertetlenek. A H 0 : {σ 1 = σ 2 } nullhipotézist teszteljük, a H 1 : {σ 1 σ 2 } kétoldali alternatíva mellett. Legyen a próbastatisztika ekkor: F = S 2 1 S2 2 A nullhipotézis igaz volta mellett ez Fisher féle kétparaméteres F eloszlású, n 1, n 2 szabadsági fokokkal. Az F próbastatisztika ( helyett jobb (mert erősebb próbát ad) az F = max F, 1 ) próbastatisztikát választani, de ekkor a szabadsági F fokok meghatározásánál a sorrendre ügyelni kell. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
67 Eloszlásilleszkedés ellenőrzése: Kolmogorov Szmirnov teszt A Kolmogorov Szmirnov teszttel 1 azt ellenőrizzük, hogy egy n elemű független mintának ( pl. egy valószínűségi változó n-szeri független megfigyelésének) csakugyan az az eloszlása, amit feltételeztünk, az eloszlást az eloszlásfüggvénnyel megadva, (Egymintás K-S teszt), 2 vagy két minta (pl. két valószínűségi változó n-szeri független megfigyelése) eloszlásának egyezéséről döntünk segítségével. (Kétmintás K-S teszt). A tapasztalati és az elméleti eloszlásfüggvény abszolút eltérésének maximuma alapján döntünk. A Glivenko tételből tudjuk, hogy tapasztalati eloszlásfüggvény tart elméletihez, tehát azt teszteljük, hogy adott mintaelemszám mellett az eltérésük tipikusnak mondható, csak annyi, amennyit ez a mintaszám indokol, vagy ennél nagyobb. A próbát Andrej Nyikolájevics Kolmogorov dolgozta ki. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
68 Kolmogorov Szmirnov teszt, a nullhipotézis Legyen X = X 1,X 2,..., X n a vizsgált minta, aminek eloszlása F X (x) nem ismert, de feltételezzük, hogy megegyezik az F(x) eloszlásfüggvénnyel megadott eloszlással. H 0 : F X (x) = F(x) vs. H 1 : F X (x) F(x) Definiáljuk a tapasztalati eloszlásfüggvényt a szokásos módon: F n (x) = P(X < x) = 1 n n i=1 I(X i < x) alapján. A Glivenko tétel szerint a tapasztalati eloszlásfüggvényegyenletesen tart a valódi eloszlásfüggvényhez, tehát d n = F n F = sup F n (x) F(x) 0. x Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
69 Kolmogorov Szmirnov teszt, a próbastatisztika és eloszlása A szuprémumot természetesen csak a mintaértékekre számoljuk ki, de ehhez először sorbarendezzük őket, vagyis a rendezett minta helyein tekintjük a tapasztalati és a hipotetikus eloszlásfüggvény különbségét. Ami nagyon fontos, hogy a különbség szuprémum n-szeresének eloszlása nem függ az ismeretlen igazi mintaeloszlástól, legalábbis, ha F(x) folytonos. Ez teszi lehetővé, hogy ezt válasszuk próbastatisztikának: D n = nsup F n (x) F(x) x P(D n < t) = H(t) = 1 2 i=1 ( 1) i 1 e 2i2 t A határeloszlás alapján az α kvantilissel választhatjuk meg a kritikus értéket, és a próbastatisztika ennél nagyobb értékeinél utasítjuk el a nullhipotézist. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
70 További tesztek az eloszlásilleszkedés ellenőrzésére Elsőként az Anderson Darling és a Cramér von Mises teszteket említjük meg, amelyek ugyancsak a tapasztalati és az elméleti eloszlásfüggvény eltérésének vizsgálatán alapulnak. A Kolmogorov Szmirnov teszt a különbség szuprémumának vizsgálatán keresztül az eloszlás szokásos, gyakori értékei körül követeli meg a jó illeszkedést és ezt ellenőrzi. Ezt abból is látjuk, hogy minden eloszlásfüggvény 0 a -ben és 1 a + -ben, tehát nem várhatjuk, hogy az eltérés szuprémum valahol errefelé legyen, vagyis a nem túl gyakori, szélsőséges értékek között. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
71 A Cramér von Mises próbastatisztika Egyenletesebb, nagyobb értéktartományon meglévő illeszkedést követelhetünk meg, ha az eltérés négyzetintegtáljától várjuk el, hogy kicsi legyen. Ezt teszi a Cramér von Mises teszt. Próbastatisztikája: n ( F n (x) F(x)) 2 df(x). Ez viszont érzéketlen a kis értéktartományban meglévő jelentős változásra, pl. egy ugrásra a felvett értékek között. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
72 Az Anderson Darling teszt Megfelelő súlyozást bevezetve az integrálásban tovább finomíthatjuk, hogy az értékek mely tartományában szeretnénk pontosabb illeszkedést előírni, és azt ellenőrizni. Alkalmas súlyválasztással a nagy (ritka, szélsőséges) értékek illeszkedése is előírható, és erre koncentrál jobban az Anderson-Darling teszt. Az Anderson-Darling tesztben a szélsőséges értékeket jobban súlyozó súlyfüggvény: w(x) = [F(x) (1 F(x))] 1, ahonnan a négyzetintegrál eltérés: ( F n (x) F(x)) 2 n [F(x) (1 F(x))] df(x). Ezek után felhasználva a nullhipotézisből ismert eloszlásfüggvényt, úgy transzformáljuk az adatot, hogy egyenletes eloszlású legyen, majd a rendezett mintával számoljuk az alábbi próbastatisztikát: A 2 = n S, ahol S = n k=1 2k 1 [ ln(f(x n k )) + ln ( 1 F(Xn+1 k) )]. Dr. Márkus László A Matematikai Statisztika Alapjai március / 80
egyetemi jegyzet Meskó Balázs
egyetemi jegyzet 2011 Előszó 2. oldal Tartalomjegyzék 1. Bevezetés 4 1.1. A matematikai statisztika céljai.............................. 4 1.2. Alapfogalmak......................................... 4 2.
Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58
u- t- Matematikai statisztika Gazdaságinformatikus MSc 2. előadás 2018. szeptember 10. 1/58 u- t- 2/58 eloszlás eloszlás m várható értékkel, σ szórással N(m, σ) Sűrűségfüggvénye: f (x) = 1 e (x m)2 2σ
1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása
HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok
STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:
Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel: Valószínűségi változó általános fogalma: A : R leképezést valószínűségi változónak nevezzük, ha : ( ) x, x R, x rögzített esetén esemény.
Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév
Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,
e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:
Normális eloszlás ξ valószínűségi változó normális eloszlású. ξ N ( µ, σ 2) Paraméterei: µ: várható érték, σ 2 : szórásnégyzet (µ tetszőleges, σ 2 tetszőleges pozitív valós szám) Normális eloszlás sűrűségfüggvénye:
GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet
GVMST22GNC Statisztika II. 3. előadás: 8. Hipotézisvizsgálat Kóczy Á. László Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Hipotézisvizsgálat v becslés Becslés Ismeretlen paraméter Közeĺıtő
Dr. Karácsony Zsolt. Miskolci Egyetem november
Valószínűségszámítás és Matematikai statisztika Dr. Karácsony Zsolt Miskolci Egyetem, Alkalmazott Matematikai Tanszék 2013-2014 tanév 1. félév Miskolci Egyetem 2013. november 11-18 - 25. Dr. Karácsony
Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás
STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H
Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.
Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem. Elemi esemény: a kísérlet egyes lehetséges egyes lehetséges kimenetelei.
Bevezetés a hipotézisvizsgálatokba
Bevezetés a hipotézisvizsgálatokba Nullhipotézis: pl. az átlag egy adott µ becslése : M ( x -µ ) = 0 Alternatív hipotézis: : M ( x -µ ) 0 Szignifikancia: - teljes bizonyosság csak teljes enumerációra -
Biomatematika 2 Orvosi biometria
Biomatematika 2 Orvosi biometria 2017.02.13. Populáció és minta jellemző adatai Hibaszámítás Valószínűség 1 Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza)
A valószínűségszámítás elemei
A valószínűségszámítás elemei Kísérletsorozatban az esemény relatív gyakorisága: k/n, ahol k az esemény bekövetkezésének abszolút gyakorisága, n a kísérletek száma. Pl. Jelenség: kockadobás Megfigyelés:
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.15. Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza) alkotja az eseményteret. Esemény: az eseménytér részhalmazai.
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 3 III. VÉLETLEN VEKTOROK 1. A KÉTDIMENZIÓs VÉLETLEN VEKTOR Definíció: Az leképezést (kétdimenziós) véletlen vektornak nevezzük, ha Definíció:
Statisztika Elıadások letölthetık a címrıl
Statisztika Elıadások letölthetık a http://www.cs.elte.hu/~arato/stat*.pdf címrıl Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább 1-α valószínőséggel
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.
Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza
Készítette: Fegyverneki Sándor
VALÓSZÍNŰSÉGSZÁMÍTÁS Összefoglaló segédlet Készítette: Fegyverneki Sándor Miskolci Egyetem, 2001. i JELÖLÉSEK: N a természetes számok halmaza (pozitív egészek) R a valós számok halmaza R 2 {(x, y) x, y
Valószínűségszámítás összefoglaló
Statisztikai módszerek BMEGEVGAT Készítette: Halász Gábor Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel:
biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás
Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani
Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a
Kabos: Statisztika II. t-próba 9.1 Egymintás z-próba Ha ismert a doboz szórása de nem ismerjük a doboz várhatóértékét, akkor a H 0 : a doboz várhatóértéke = egy rögzített érték hipotézisről úgy döntünk,
0,1 P(X=1) = p p p(1-p) Egy p vszgő esemény bekövetkezik-e.
Egy kis emlékeztetı X val.változó értékek F(x) eloszlásfv. valségek P(a X
A maximum likelihood becslésről
A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának
Hipotézis vizsgálatok
Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Matematikai statisztika szorgalmi feladatok
Matematikai statisztika szorgalmi feladatok 1. Feltételes várható érték és konvolúció 1. Legyen X és Y független és azonos eloszlású valószín ségi változó véges második momentummal. Mutassuk meg, hogy
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát
Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.
Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef. Feladatok Gazdaságstatisztika 7. Statisztikai becslések (folyt.); 8. Hipotézisvizsgálat
Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n
Elemi statisztika >> =weiszd=
STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika
Valószínűségi változók. Várható érték és szórás
Matematikai statisztika gyakorlat Valószínűségi változók. Várható érték és szórás Valószínűségi változók 2016. március 7-11. 1 / 13 Valószínűségi változók Legyen a (Ω, A, P) valószínűségi mező. Egy X :
Nemparaméteres próbák
Nemparaméteres próbák Budapesti Mőszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék 1111, Budapest, Mőegyetem rkp. 3. D ép. 334. Tel: 463-16-80 Fax: 463-30-91 http://www.vizgep.bme.hu
Matematikai statisztika c. tárgy oktatásának célja és tematikája
Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:
Hipotézis vizsgálatok
Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével
Elméleti összefoglaló a Sztochasztika alapjai kurzushoz
Elméleti összefoglaló a Sztochasztika alapjai kurzushoz 1. dolgozat Véletlen kísérletek, események valószín sége Deníció. Egy véletlen kísérlet lehetséges eredményeit kimeneteleknek nevezzük. A kísérlet
egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk
Valószínűségszámítás 8. feladatsor 2015. november 26. 1. Bizonyítsuk be, hogy az alábbi folyamatok mindegyike martingál. a S n, Sn 2 n, Y n = t n 1+ 1 t 2 Sn, t Fn = σ S 1,..., S n, 0 < t < 1 rögzített,
STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése
4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól
Normális eloszlás paramétereire vonatkozó próbák
Normális eloszlás paramétereire vonatkozó próbák Az alábbi próbák akkor használhatók, ha a meggyelések függetlenek, és feltételezhetjük, hogy normális eloszlásúak a meggyelések függetlenek, véges szórású
2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!
GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az
Matematikai statisztika Tómács Tibor
Matematikai statisztika Tómács Tibor Matematikai statisztika Tómács Tibor Publication date 2011 Szerzői jog 2011 Hallgatói Információs Központ Copyright 2011, Educatio Kht., Hallgatói Információs Központ
Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem
agy számok törvényei Statisztikai mintavétel Várható érték becslése Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem A mérés mint statisztikai mintavétel A méréssel az eloszlásfüggvénnyel
Statisztika elméleti összefoglaló
1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11
Mi az adat? Az adat elemi ismeret. Az adatokból információkat
Mi az adat? Az adat elemi ismeret. Tények, fogalmak olyan megjelenési formája, amely alkalmas emberi eszközökkel történő értelmezésre, feldolgozásra, továbbításra. Az adatokból gondolkodás vagy gépi feldolgozás
A Statisztika alapjai
A Statisztika alapjai BME A3c Magyar Róbert 2016.05.12. Mi az a Statisztika? A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati
Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.
Kiválasztás A változó szerint Egymintás t-próba Mann-Whitney U-test paraméteres nem-paraméteres Varianciaanalízis De melyiket válasszam? Kétmintás t-próba Fontos, hogy mindig a kérdésnek és a változónak
Gyak. vez.: Palincza Richárd ( Gyakorlatok ideje/helye: CS , QBF10
Intervallumek Matematikai statisztika Gazdaságinformatikus MSc 1. előadás 2018. szeptember 3. 1/53 - Előadó, hely, idő etc. Intervallumek Előadó: Vizer Máté (email: mmvizer@gmail.com) Előadások ideje/helye:
Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása
Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból
A leíró statisztikák
A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az
Adatok statisztikai értékelésének főbb lehetőségei
Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció
STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba
Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum
(Independence, dependence, random variables)
Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,
Normális eloszlás tesztje
Valószínűség, pontbecslés, konfidenciaintervallum Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra
i p i p 0 p 1 p 2... i p i
. vizsga, 06--9, Feladatok és megoldások. (a) Adja meg az diszkrét eloszlás várható értékének a definícióját! i 0... p i p 0 p p... i p i (b) Tegyük fel, hogy a rigófészkekben található tojások X száma
földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás
Matematikai statisztika elıadás, földtudományi BSc (geológus szakirány) 2014/2015 2. félév 6. elıadás Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább
A mérési eredmény megadása
A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk meg: a determinisztikus és a véletlenszerű
ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26
ANOVA,MANOVA Márkus László 2013. március 30. Márkus László ANOVA,MANOVA 2013. március 30. 1 / 26 ANOVA / MANOVA One-Way ANOVA (Egyszeres ) Analysis of Variance (ANOVA) = szóráselemzés A szórásokat elemezzük,
Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem
Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Előadások-gyakorlatok 2018-ban (13 alkalom) IX.12, 19, 26, X. 3, 10, 17, 24, XI. 7, 14,
A valószínűségszámítás elemei
Alapfogalmak BIOSTATISZTIKA ÉS INFORMATIKA A valószínűségszámítás elemei Jelenség: minden, ami lényegében azonos feltételek mellett megismételhető, amivel kapcsolatban megfigyeléseket lehet végezni, lehet
Matematika A3 Valószínűségszámítás, 5. gyakorlat 2013/14. tavaszi félév
Matematika A3 Valószínűségszámítás, 5. gyakorlat 013/14. tavaszi félév 1. Folytonos eloszlások Eloszlásfüggvény és sűrűségfüggvény Egy valószínűségi változó, illetve egy eloszlás eloszlásfüggvényének egy
Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes
Abszolút folytonos valószín ségi változó (4. el adás)
Abszolút folytonos valószín ségi változó (4. el adás) Deníció (Abszolút folytonosság és s r ségfüggvény) Az X valószín ségi változó abszolút folytonos, ha van olyan f : R R függvény, melyre P(X t) = t
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.22. Valószínűségi változó Véletlentől függő számértékeket (értékek sokasága) felvevő változókat valószínűségi változóknak nevezzük(jelölés: ξ, η, x). (pl. x =
y ij = µ + α i + e ij
Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
Statisztikai következtetések Nemlineáris regresszió Feladatok Vége
[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell
Kísérlettervezés alapfogalmak
Kísérlettervezés alapfogalmak Rendszermodellezés Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Kísérlettervezés Cél: a modell paraméterezése a valóság alapján
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi fizika és statisztika I. előadás 2016.11.09 Orvosi
Kutatásmódszertan és prezentációkészítés
Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I
Valószín ségszámítás és statisztika
Valószín ségszámítás és statisztika Informatika BSc, esti tagozat Backhausz Ágnes 2016/2017. tavaszi félév Valószín ségi vektorváltozó Deníció Az X = (X 1,..., X n ) : Ω R n függvény valószín ségi vektorváltozó,
Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ
Megoldások Harmadik fejezet gyakorlatai 3.. gyakorlat megoldása ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4;, 3 normális eloszlású P (ξ 8 ξ 5 feltételes valószínűségét (.3. alapján számoljuk.
STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)
STATISZTIKA 10. Előadás Megbízhatósági tartományok (Konfidencia intervallumok) Sir Isaac Newton, 1643-1727 Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)
Illeszkedésvizsgálati módszerek összehasonlítása
Eötvös Loránd Tudományegyetem Természettudományi Kar Illeszkedésvizsgálati módszerek összehasonlítása Szakdolgozat Készítette: Tóth Alexandra Matematika BSc. Matematikai Elemző szakirány Témavezető: Zempléni
Elméleti összefoglaló a Valószín ségszámítás kurzushoz
Elméleti összefoglaló a Valószín ségszámítás kurzushoz Véletlen kísérletek, események valószín sége Deníció. Egy véletlen kísérlet lehetséges eredményeit kimeneteleknek nevezzük. A kísérlet kimeneteleinek
STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1
STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1 Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem
Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?
Egymintás próbák σ s μ m Alapkérdés: A populáció egy adott megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? egymintás t-próba Wilcoxon-féle előjeles
Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek
Anyagvizsgálati módszerek Mérési adatok feldolgozása Anyagvizsgálati módszerek Pannon Egyetem Mérnöki Kar Anyagvizsgálati módszerek Statisztika 1/ 22 Mérési eredmények felhasználása Tulajdonságok hierarchikus
Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév
Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév 1. A várható érték és a szórás transzformációja 1. Ha egy valószínűségi változóhoz hozzáadunk ötöt, mínusz ötöt, egy b konstanst,
MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI
MÉRÉSI EREDMÉYEK POTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI. A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk
Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat
Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia
Valószín ségszámítás és statisztika
Valószín ségszámítás és statisztika Informatika BSc, esti tagozat Backhausz Ágnes agnes@cs.elte.hu 2016/2017. tavaszi félév Bevezetés Célok: véletlen folyamatok modellezése; kísérletekb l, felmérésekb
Matematika III. 5. Nevezetes valószínűség-eloszlások Prof. Dr. Závoti, József
Matematika III. 5. Nevezetes valószínűség-eloszlások Prof. Dr. Závoti, József Matematika III. 5. : Nevezetes valószínűség-eloszlások Prof. Dr. Závoti, József Lektor : Bischof, Annamária Ez a modul a TÁMOP
6. Előadás. Vereb György, DE OEC BSI, október 12.
6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás
Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés
Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés Elek Péter 1. Valószínűségi változók és eloszlások 1.1. Egyváltozós eset Ismétlés: valószínűség fogalma Valószínűségekre vonatkozó axiómák
BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis
Hipotézis BIOMETRIA 5. Előad adás Hipotézisvizsg zisvizsgálatok Tudományos hipotézis Nullhipotézis feláll llítása (H ): Kétmintás s hipotézisek Munkahipotézis (H a ) Nullhipotézis (H ) > = 1 Statisztikai
Függvény határérték összefoglalás
Függvény határérték összefoglalás Függvény határértéke: Def: Függvény: egyértékű reláció. (Vagyis minden értelmezési tartománybeli elemhez, egyértelműen rendelünk hozzá egy elemet az értékkészletből. Vagyis
Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )
Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel: 463-6-80 Fa: 463-30-9 http://www.vizgep.bme.hu Alap-ötlet:
A konfidencia intervallum képlete: x± t( α /2, df )
1. feladat. Egy erdőben az egy fészekben levő tojásszámokat vizsgáltuk egy madárfajnál. A következő tojásszámokat találtuk: 1, 1, 1,,,,,,, 3, 3, 3, 3, 3, 4, 4, 5, 6, 7. Mi a mintának a minimuma, maximuma,
Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,
Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár PhD kurzus. KOKI, 2015.09.17. Mi a statisztika? A sokaság (a sok valami) feletti áttekintés megszerzése, a sokaságról való információszerzés eszköze.
4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O
1. Mit nevezünk elemi eseménynek és eseménytérnek? A kísérlet lehetséges kimeneteleit elemi eseményeknek nevezzük. Az adott kísélethez tartozó elemi események halmazát eseménytérnek nevezzük, jele: X 2.
Populációbecslés és monitoring. Eloszlások és alapstatisztikák
Populációbecslés és monitoring Eloszlások és alapstatisztikák Eloszlások Az eloszlás megadja, hogy milyen valószínűséggel kapunk egy adott intervallumba tartozó értéket, ha egy olyan populációból veszünk
STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1
STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1 Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem
Gazdasági matematika II. vizsgadolgozat megoldása A csoport
Gazdasági matematika II. vizsgadolgozat megoldása A csoport Definiálja az alábbi fogalmakat!. Egy eseménynek egy másik eseményre vonatkozó feltételes valószínűsége. ( pont) Az A esemény feltételes valószínűsége
1. Példa. A gamma függvény és a Fubini-tétel.
. Példa. A gamma függvény és a Fubini-tétel.. Az x exp x + t )) függvény az x, t tartományon folytonos, és nem negatív, ezért alkalmazható rá a Fubini-tétel. I x exp x + t )) dxdt + t dt π 4. [ exp x +
Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József
Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József Matematika III. 9. : Statisztikai hipotézisek Prof. Dr. Závoti, József Lektor : Bischof, Annamária Ez a modul a TÁMOP - 4.1.2-08/1/A-2009-0027
Többváltozós lineáris regressziós modell feltételeinek
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p