A Matematikai Statisztika Alapjai

Hasonló dokumentumok
egyetemi jegyzet Meskó Balázs

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Dr. Karácsony Zsolt. Miskolci Egyetem november

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

Bevezetés a hipotézisvizsgálatokba

Biomatematika 2 Orvosi biometria

A valószínűségszámítás elemei

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika Elıadások letölthetık a címrıl

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Készítette: Fegyverneki Sándor

Valószínűségszámítás összefoglaló

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

0,1 P(X=1) = p p p(1-p) Egy p vszgő esemény bekövetkezik-e.

A maximum likelihood becslésről

Hipotézis vizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai statisztika szorgalmi feladatok

[Biomatematika 2] Orvosi biometria

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Valószínűségi változók. Várható érték és szórás

Nemparaméteres próbák

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Hipotézis vizsgálatok

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Normális eloszlás paramétereire vonatkozó próbák

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Matematikai statisztika Tómács Tibor

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Statisztika elméleti összefoglaló

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

A Statisztika alapjai

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Gyak. vez.: Palincza Richárd ( Gyakorlatok ideje/helye: CS , QBF10

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

A leíró statisztikák

Adatok statisztikai értékelésének főbb lehetőségei

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

(Independence, dependence, random variables)

Normális eloszlás tesztje

i p i p 0 p 1 p 2... i p i

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

A mérési eredmény megadása

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

A valószínűségszámítás elemei

Matematika A3 Valószínűségszámítás, 5. gyakorlat 2013/14. tavaszi félév

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Abszolút folytonos valószín ségi változó (4. el adás)

[Biomatematika 2] Orvosi biometria

y ij = µ + α i + e ij

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Kísérlettervezés alapfogalmak

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Kutatásmódszertan és prezentációkészítés

Valószín ségszámítás és statisztika

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Illeszkedésvizsgálati módszerek összehasonlítása

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Valószín ségszámítás és statisztika

Matematika III. 5. Nevezetes valószínűség-eloszlások Prof. Dr. Závoti, József

6. Előadás. Vereb György, DE OEC BSI, október 12.

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

Függvény határérték összefoglalás

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

A konfidencia intervallum képlete: x± t( α /2, df )

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

1. Példa. A gamma függvény és a Fubini-tétel.

Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József

Többváltozós lineáris regressziós modell feltételeinek

Átírás:

A Matematikai Statisztika Alapjai Dr. Márkus László 2017. március 1. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 1 / 80

Valszám alapfogalmak ismétlés Valszám alapfogalmak Véletlen szám: Olyan mérési eredmény, amely a kísérlet vagy megfigyelés minden lehetséges ismétlése esetén más-más előre pontosan nem kiszámítható értéket vesz fel. Az egyes kísérletek/megfigyelések egy-egy elemi véletlennek felelnek meg (ezekből nagyon sok lehet), amelyeket az Ω eseménytérben gyűjtünk össze. A véletlen szám tehát ezen elemi véletlenekhez, kísérletekhez hozzárendeli a mért értéket, tehát egy számértékű függvény Ω-n. Valószínűség: Az Ω részhalmazairól semmit nem tudunk, pont azért véletlenek. Csak azt tudjuk megmondani, hogy az egész Ω kb. hányadrészét töltik ki, vagyis mennyi a mértékük, a területük. Ez a területmérték a valószínűségi mérték, P, amely egyre normált P(Ω) = 1. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 2 / 80

Valszám alapfogalmak ismétlés Valszám alapfogalmak Eloszlás: A valváltozó eloszlásán, Q-n, durván szólva azokat a valószínűségeket értjük, összegyűjtve minden lehetséges [a, b] intervallumra, hogy a valváltozó (= a mérés/megfigyelés) két érték, a és b közé esik: Q[a,b] = P(a < X < b). Pl. Legyen a valváltozó egy hőmérsékletmérés. Ekkor Q[5.7, 6.3] = a mért hőmérséklet 5.7 C és 6.3 C közé esésének valószínűsége. Az eloszlás megadható azzal is, hogy adott értéknél kisebb mérés valószínűsége mennyi - ez az eloszlásfüggvény, F X : F X (x) = P(X < x) Ha az eloszlásfüggvény sima, azaz differenciálható, akkor deriváltja a sűrűségfüggvény, f X : f X (x) = F X (x) A lépcsős függvény nem sima, tehát diszkrét valváltozónak nincs sűrűségfüggvénye!! A sűrűségfüggvény (egy intervallumra integrálva) empirikusan (= tapasztalati szinten) tényleg azt mondja meg, hogy adott intervallumban milyen sűrűn fognak előfordulni a mért értékek: az összes érték kb. hányadrésze esik az intervallumba. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 3 / 80

Valszám alapfogalmak ismétlés Valszám alapfogalmak Várható érték EX: A valváltozó (vagyis pl. egy mérés) lehetséges értékeinek felvételük valószínűségével súlyozott átlaga. Nem keverendő több mérés átlagával! (Az már a nagy számok törvénye.) A várható érték a valváltozó centruma, ami körül ingadozik. Ha diszkrét a valváltozó, akkor a fenti súlyozott átlagolás az ismert képletből is látszik. Ha folytonos értékű, akkor persze a szumma integrálba megy át, a valószínűséget meg a sűrűségfüggvény adja meg. Szórásnégyzet vagy variancia: A valváltozó centruma körüli ingadozásának mérőszáma. A centrumtól való négyzetes eltérést nézzük, és ezt átlagoljuk a valószínűséggel súlyozva, azaz várható értéket véve: D 2 X = E(X EX) 2 Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 4 / 80

Valszám alapfogalmak ismétlés Valszám alapfogalmak Kovariancia: Két valváltozó centrált szorzatának várható értéke: cov(x,y) = E [(X EX)(Y EY)] A kovariancia egyfajta skalárszorzat. Az önmagával vett kovariancia a szórásnégyzet. Az önmagával vett skalárszorzat a hossznégyzet. A szórásnégyzet tehát hossznégyzet, a szórás a valváltozó hossza. A korreláció: Kovariancia osztva a szórások szorzatával. cor(x,y) = cov(x,y) DX DY A korreláció a lineáris függés mérőszáma. Nem minden függést mér. Korreláció = skalárszorzat osztva a hosszak szorzatával = a bezárt szög koszinusza! Igen, a korreláció két valváltozó szögének koszinusza, ezért méri (csak) a lineáris függést! És így persze, hogy -1 és 1 között van, stb. Még egyszer: csak a lineáris függést méri. Szimmetrikus (pl. normális) eloszlású valváltozónak és négyzetének a korrelációja 0, pedig annyira összefüggnek, hogy egyik a másikból kiszámolható! Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 5 / 80

Elfajult eloszlás Nevezetes diszkrét eloszlások Elfajult eloszlás P(X = x 0 ) = 1 EX = x 0 D 2 X = 0 X biztosan (1 valószínűséggel) az x 0 értéket veszi fel. Más szóval X nem véletlen = determinisztikus, azaz közönséges valós szám. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 6 / 80

Egyenletes eloszlás Nevezetes diszkrét eloszlások Egyenletes eloszlás, Unif (x 1,x 2,...,x n ) Minden lehetséges értéket ugyanakkora valószínűséggel vesz fel. x 1,x 2,...,x n 1 n, 1 n,..., 1 n Legyenek X értékei a természetes számok n-ig: x 1,x 2,...,x n = 1,2,...,n. Ekkor EX 2 = EX = x i n n k=1 D 2 X = EX 2 (EX) 2 = = i n = n + 1 2 k 2 n = 1 n(n + 1)(2n + 1) n 6 n(n + 1)(2n + 1) 6 = 4n2 + 6n + 2 3n 2 6n 3 12 = n2 1 12 (n + 1)2 4 Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 7 / 80 =

Indikátor eloszlás Nevezetes diszkrét eloszlások Indikátor valószínűségi változó χ A eloszlása Az A esemény indikátora 1 ha A bekövetkezik és 0 ha nem. χ A (ω) = P(A ) = p { 1, ha ω A 0, ha ω / A P(χ A = 1) = p P(χ A = 0) = 1 p = q Eχ A = p D 2 χ A = pq Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 8 / 80

Binomiális eloszlás Nevezetes diszkrét eloszlások Binomiális eloszlás, n-edrendű, p paraméterű, B(n,p) Az X valváltozó értékét az adja meg, hogy egy p valószínűségű A esemény n független kísérletből hányszor következik be. (Minden kísérletben vagy A vagy nem A következik be egyértelműen.) Pl.: Kockával n dobás során hány hatos lesz? P(X = k) = ( ) n k p k q n k (Kocka: ( ) n k ( 1 6 )k ( 5 6 )n k ) X = Y 1,Y 2,...,Y n, ahol Y i -k független indikátorok. Így EX = EY i = np D 2 X = D 2 Y i = npq Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 9 / 80

Geometriai vagy Pascal eloszlás Nevezetes diszkrét eloszlások Geometriai eloszlás (Pascal eloszlás), p paraméterű, Geom(p) Az Y valváltozó értékét az adja meg, hogy a fenti kísérletsorozatban hányadikra következett be először az A esemény. Pl.: Kockával hányadikra dobok először hatost? P(Y = k) = pq k 1 EY = 1 p D 2 Y = q p 2 Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 10 / 80

Nevezetes diszkrét eloszlások EY = k=1 k pqk 1 = p 1 p q + 1 p q2 +...) = p( 1 p 1 1 q ) = p 1 = 1 p 2 p 1 + q + q 2 + q 3 +...+ q + q 2 + q 3 +...+ q 2 + q 3 +...+ = p. 1 1 q + q 1 q + q 2 1 q +. = p( 1 p + D 2 Y hasonlóan. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 11 / 80

Negatív binomiális eloszlás Nevezetes diszkrét eloszlások Negatív binomiális eloszlás, n-edrendű, p paraméterű, NB(r,p) A Z valváltozó értékét az adja meg, hogy a fenti kísérletsorozatban hányadikra következett be r-edszer az A esemény. Pl.: Kockával hányadikra dobok r-edszer hatost? P(Z = k) = ( ) k 1 r 1 p r q k r Z = Y 1 + Y 2 +... + Y r, ahol Y i =az A esemény (i-1)-edik utáni első bekövetkezése Y i p paraméterű geometriai eloszlású. Ezért EZ = r p D 2 Z = rq p 2 Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 12 / 80

Normális eloszlás Nevezetes abszolút folytonos eloszlások Normális eloszlás, (m,σ 2 ) paraméterű, N(m,σ 2 ) Leggyakrabban sok, kis, független, elemi véletlen hatás összegződéseként előálló valváltozó. Az első paraméter a várható érték a második a szórásnégyzet. P(X = x) = 0, mert ez már abszolút folytonos eloszlású. Sűrűségfüggvénye: standard: f (x) = 1 e x2 1 2 általános: f (x) = e (x m)2 2σ 2 2π 2π σ Eloszlásfüggvénye elemi függvényekkel nem felírható, a fenti f integrálfüggvénye ( -től x-ig integrálunk), standard normális eloszlás esetén jelölése Φ(x). Független normálisak összege normális, a várható értékek és a szórásnégyzetek összeadódnak. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 13 / 80

Exponenciális eloszlás Nevezetes abszolút folytonos eloszlások Exponenciális eloszlás, λ paraméterű, Exp(λ) Leggyakrabban időben folytonosan (=bármikor) bekövetkez(het)ő esemény első bekövetkezési idejének eloszlása. Exponenciális konstansszorosa marad exponenciális. A paraméter a skála reciproka. (Pl. egy exponenciális vv. kétszeresének a paramétere az eredeti fele, háromszorosának a harmada. Ez is abszolút folytonos eloszlású. Sűrűségfüggvénye: Eloszlásfüggvénye:. f (x) = λe λx F(x) = 1 e λx Várható értéke: EX = 1 λ, szórásnégyzete: D 2 X = 1 λ 2 Az exponenciális eloszlás örökifjú P(X > s + t X > s) = P(X > t) Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 14 / 80

Gamma eloszlás Nevezetes abszolút folytonos eloszlások Gamma eloszlás, α rendű λ paraméterű, Γ(α,λ) Leggyakrabban időben folytonosan (=bármikor) bekövetkez(het)ő esemény n- edik bekövetkezési idejének eloszlása lesz Γ(n, λ) eloszlású. Ez is abszolút folytonos eloszlású. Sűrűségfüggvénye: f (x) = λ α Γ(α) x(α 1) e λx Eloszlásfüggvényét nem szoktuk számolni, egész rend esetén egy rend tagú összeg. Várható értéke: EX = α λ, szórásnégyzete: D 2 X = α λ 2 n darab független, azonos λ paraméterű exponenciális eloszlású valváltozó összege Γ(n,λ) eloszlású. Független, azonos λ paraméterű Γ eloszlású valváltozók összege ugyancsak λ paraméterű Γ eloszlású, és a rendek összeadódnak. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 15 / 80

Khi négyzet eloszlás Nevezetes abszolút folytonos eloszlások Khi négyzet eloszlás, d szabadsági fokú, χd 2 Független standard normális eloszlású valváltozók négyzetösszegének eloszlása. A szabadsági fok az összeadandók darabszáma. Úgy is gondolhatunk rá, mint független standard normális eloszlású koordinátákkal rendelkező d dimenziós véletlen vektor hossznégyzetének eloszlása. A szabadsági fok a dimenzió. Megmutatható, hogy egy standard normális eloszlású valváltozó négyzete Γ( 1 2, 1 2 ), tehát a független gammákra vonatkozó összegzési szabály miatt Sűrűségfüggvénye: f (x) = χ 2 d = Γ( d 2, 1 2 ) 1 2 d 2 Γ(( d 2 1))x( d 2 1) e 1 2 x Eloszlásfüggvényét nem szoktuk számolni. Várható értéke: EX = d, szórásnégyzete: D 2 X = 2d Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 16 / 80

Khi és t eloszlás Nevezetes abszolút folytonos eloszlások Khi eloszlás, d szabadsági fokú, χ d Egy khi négyzet eloszlású valváltozó négyzetgyökének eloszlása. A szabadsági fok a khi négyzet eloszláséval egyezik. Úgy is gondolhatunk rá, mint független standard normális eloszlású koordinátákkal rendelkező d dimenziós véletlen vektor hosszának eloszlása. A szabadsági fok a dimenzió. Sűrűségfüggvénye: pontosan pl. a wikipédián Student féle t eloszlás, d szabadsági fokú, t d Standard normális eloszlású és khi eloszlású valváltozók hányadosának eloszlása. Sűrűségfüggvénye: f (x) = const ) d+1 (1 + x2 2 d Eloszlásfüggvényét nem szoktuk számolni. Várható értéke: EX = 0, szórásnégyzete: D 2 X = d d 2 Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 17 / 80

A minta Bevezetés - A minta A minta fogalmának megértéséhez vegyünk például egy adott forrásból különböző időpontból származó vízmintát, amelyeknek kémiai összetételére vagyunk kíváncsiak. A vízmintákban mérünk pl. kalcium koncentrációt. Kétszer nem mérnénk ugyanazt, nem csak a műszer hibája miatt, hanem azért is, mert az adott jelenség sem zajlik kétszer pontosan ugyanúgy. Ezért minden egyes mérés valváltozónak tekinthető. Az adott mért érték, pl.125 mg/l ennek a valváltozónak egy realizációja. Több mérés esetén a mérések sorozata az X 1,X 2,...,X n valváltozók sorozata a minta, míg a hozzájuk tartozó x 1,x 2,...,x n számértékeket a minta realizációjának nevezünk. X i valváltozó a minta i-edik eleme. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 18 / 80

Bevezetés - A minta Független ill. azonos eloszlású minta Mivel minden mérésünkben a kalcium koncentrációt határoztuk meg, ezért mindegyik mérés ugyanazt a törvényszerüséget követi. Ezt a törvényszerüséget a valószínűségszámításban az eloszlás írja le, tehát azt mondhatjuk, hogy ezek az X 1,X 2,...,X n valváltozók valamennyien a azonos eloszlásúak, tehát azonos eloszlású mintánk van. Ha a méréseink egymást nem befolyásolva és egymástól kellően távoli időpontban zajlanak, akkor a mintában szereplő valváltozók teljesen függetlenek egymástól, és ilyenkor független mintáról beszélünk. Független, azonos eloszlású mintánk van, ha a mintaelemek eloszlása ilyen. A függetlenséget a realizáción közvetlenül nem látjuk, hiszen az csak 1-1 mérés. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 19 / 80

Bevezetés - A minta Sokszor beszélünk független azonos eloszlású mintáról, gyakran azonban csak azért mert erre vonatkozóan könnyebben végezhető el az adatok elemzése. Az életben a függetlenség messze nem mindig biztosított. Tipikusan ilyenek az időben egymás után zajló megfigyelések, ha az időtáv nem túl távoli. A Budapesti januári napi átlaghőmérsékletek nem lesznek egymástól függetlenek, de mondjuk az utolsó 10 év január 30-án mért adatai már független változók realizációinak tekinthetőek, még ha esetleg várható értékük és szórásuk meg is egyezik. Nem független adatok, mérések elemzése sokkal nehezebb és sokszor a helyes összefüggési struktúra érdekében a független mintákra vonatkozó alapvető elvek feladására is kényszerülünk. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 20 / 80

Az eloszláscsalád Bevezetés - A minta A minta eloszlását általában nem ismerjük, célunk pont ennek, vagy az eloszlás valamilyen jellemzőjének meghatározása a minta alapján. Bár az eloszlást nem ismerjük pontosan, de alakjáról (és ezen leggyakrabban a sűrűségfüggvény alakját értjük) van azért némi elképzelésünk. Ez általában azt jelenti, hogy az eloszlás családját ismerjük, vagy ismertnek tekintjük, és csak a paramétereit akarjuk megbecsülni a mintából. Pl. azt gondolhatjuk, hogy az eloszlás normális, de két paramétere (várható értéke m és szórása σ) akármi lehet. Néha korlátozni érdemes a lehetséges paramétereket arra, ami értelmes (pl. Bp napi középhőm. várható értéke -30 C és +50 C között). A paramétert ϑ-val jelöljük, akkor is ha egy szám, akkor is ha vektor. Pl. a fenti normális eloszlásra ϑ = (m,σ), tehát a paraméter két dimenziós vektor. A lehetséges paraméterek összessége adja a Θ paraméterteret. A minta eloszláscsaládja a lehetséges Q ϑ eloszlások összessége, ahol ϑ végigfut a Θ paramétertéren. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 21 / 80

Statisztika, becslés A realizált minta lehet nagyon sok szám is, pl. száz éves napi adatok közel 37000 számot jelentenek. Ez, bár nagyon sok információ, de áttekinthetetlen. Tömöríteni kell az információt, néhány jól értelmezhető, és ezért könnyen átlátható számba kell sűríteni, ki kell számítani a minta egy, vagy néhány függvényét (pl. átlag, maximum etc.). A minta egy tetszőleges T (mérhető ) függvényét statisztikának hívjuk. Az X 1,X 2,...,X n minta T(X 1,X 2,...,X n ) = T(X) függvénye a statisztikának a mintán felvett értéke, ami tehát maga is valváltozó (így pl. van eloszlása), míg T(x 1,x 2,...,x n ) = T(x) a statisztika értékének realizációja. (Nem mindig teszünk ebben élesen különbséget.) A becslés olyan statisztika, amelyet az eloszlás paraméterének, vagy e paraméter egy függvényének becslésére használunk. Igazából minden statisztika becslés is, legfeljebb rossz vagy értelmetlen becslés. Matematikai értelemben - itt nem adunk pontos definíciót Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 22 / 80

Példák statisztikákra: átlag A mintaátlag X 1+X 2 +...+X n n. Jelölése X. Itt a függvény n-változós: T n (x 1,x 2,...,x n ) = x 1+x 2 +...+x n n, tehát igazából más és más mintaelemszámra másik és másik függvénybe helyettesítjük a mintát: X 1+X 2 +...+X n n = T n (X 1,X 2,...,X n ), mégsem szoktuk az elemszámfüggést hangsúlyozni. A mintaátlag minimalizálja a mintaértékeknek egy számtól vett átlagos négyzetes eltérését, tehát az átlag a minta centruma. n i=1 (x i a) 2 min a = x Azonos eloszlású minta esetén minden mintaelem várható értéke ugyanannyi, (tehát a mérés várható eredménye ugyanaz). Ilyen mintára az átlag várható értéke is ugyanannyi, azaz: EX = EX 1 = EX 2 =... = EX n Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 23 / 80

Példák statisztikákra: tapasztalati szórásnégyzet Tapasztalati szórásnégyzet: S 2 n = 1 n n i=1 (X i X) 2 Könnyű látni, hogy független, azonos eloszlású minta esetén, amikor minden mintaelem szórásnégyzete ugyanannyi, ES 2 n = (n 1) D 2 X 1 n tehát ezt a becslést korrigálni kell, hogy igazán jó szórásbecslésünk legyen. Ez a korrigált tapasztalati szórásnégyzet Sn 2 = 1 n 1 n i=1 (X i X) 2 Nem független mintára ez sem lesz jó becslés!!! Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 24 / 80

Példák statisztikákra: medián és kvantilis Tapasztalati medián: Az a szám, amelynél a mintaelemek fele kisebb, a másik fele meg nagyobb. Sorbarendezzük nagyság szerint a mintát és ha páratlan elemszámú a minta, akkor a középső elem a medián, ha meg páros az elemszám, akkor a két középső számtani közepe. A tapasztalati medián minimalizálja a mintaértékeknek egy számtól vett átlagos abszolút eltérését, tehát a tapasztalati medián a minta centruma ebben az értelemben. n i=1 x i a min a = m, ahol m a medián. Míg az átlag a kiugró mintaértékekre (adott esetben mérési anomáliára) érzékeny, addig a medián nem, u.n. robusztus statisztika. Tapasztalati q%-os kvantilis: Az a szám, aminél a mintaelemek q%-a kisebb. Extremális viselkedések jellemzésére jó. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 25 / 80

Példák statisztikákra: Rendezett minta Az x 1,x 2,...,x n mintarealizációt nagyság szerint sorba rendezhetjük: x1 x 2... x n, Ugyanezt az X 1,X 2,...,X n mintával is megtehetjük minden ω mellett, így kapjuk az X1,X 2,...,X n rendezett mintát. Spec.: X1 a minta minimuma, Xn a maximuma. A rendezett mintában persze minden ω-ra más és más az eredeti mintaelemek nagyság szerinti sorrendje, pl. az egyik ω-ra a kilencedik mintaelem a legnagyobb egy másik ω-ra esetleg a negyedik. Tehát például a maximum, X n, nem lesz egyenlő egyik eredeti mintaelemmel sem, hanem hol az egyikből, hol a másikból kapja az értékét, ez egy teljesen új valváltozó lesz, csakúgy, mint bármely másik X k. A rendezett minta elemei nem függetlenek, hiszen pont az az összefüggés közöttük, hogy a nagyobb indexű értéke is nagyobb. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 26 / 80

Példák statisztikákra: Tapasztalati eloszlásfüggvény Legyen X 1,X 2,...,X n független azonos eloszlású minta. 0, ha x X1, azaz, ha x kisebb a minimumnál F n (x) = k n, ha Xk < x X k+1 1, ha Xn < x, azaz, ha x nagyobb a maximumnál Mi ez? Ez egy lépcsős függvény, amelyben a lépcsők a mintarealizáció értékeinél vannak, és a függvény a felől 0-ból indulva minden lépcsőnél pont 1 n nagyságút ugrik. F n (x) nem egyszerűen egy függvény, hanem minden ω-ra másik és másik, tehát igazából egy véletlen függvény, vagyis u.n. sztochasztikus folyamat. Glivenko tétele: Legyen n elemű független azonos eloszlású mintánk F(x) közös eloszlásfüggvénnyel. Az F n (x) tapasztalati eloszlásfüggvények a mintaelemszám n növelésével 1 valószínűséggel egyenletesen tartanak F(x)-hez. Ez egy elvi lehetőség az eloszlás meghatározására. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 27 / 80

Példa tapasztalati eloszlásfüggvényre x=c(1.2, 7.4, 3.3, 5.1, 5.3, 1.6, 7.9, 6.2) plot(ecdf(x), do.points=true, verticals=true) points(x,nn,pch=16, col=2,cex=2) Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 28 / 80

Példa Glivenko tételre Tapasztalati eloszlásfüggvény 50 ill. 200 elemű normális mintából, és az elméleti eloszlásfüggvény (pirossal) Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 29 / 80

Példa Glivenko tételre Tapasztalati eloszlásfüggvény 10,25,100 ill. 500 elemű normális mintából, és az elméleti eloszlásfüggvény (pirossal) Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 30 / 80

Példák statisztikákra: Hisztogram Gyakoriság hisztogram: az alapintervallumot felosztjuk k egyenlő részre, k n, megszámoljuk hány mintaérték esik a i-edik részintervallumba, és ilyen magas téglalapot rajzolunk fölé. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 31 / 80

Példák statisztikákra: Hisztogram Relatív gyakoriság: Megszámoljuk n kísérletből hányszor következik be az A esemény és osztjuk a kísérletek számával. Ez az A esemény valószínűségének becslése. Relatív gyakoriság hisztogram: Durván: a gyakoriság hisztogramot leosztjuk a mintaelemszámmal n-nel. A gyakoriság hisztogram konstrukcióját követve a téglalapok magasságát most nem a darabszám, hanem a relatív gyakoriság adja. Csak az y-tengely skálája változik ettől. Mintaterjedelem (range): különbsége, Xn X1. A legnagyobb és a legkisebb mintaelem Sűrűség hisztogram: most a legkisebb és a legnagyobb mintaelem által meghatározott intervallumot osztjuk fel n egyenlő részre, megszámoljuk hány mintaérték esik a k-adik részintervallumba, ezt osztjuk a mintaterjedelemmel és ilyen magas téglalapot rajzolunk fölé. A sűrűség hisztogram alatti terület 1 tehát ez a sűrűségfüggvény egyfajta becslése Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 32 / 80

Példák statisztikákra: Sűrűségfüggvény becslés A Parzen-Rosenblatt féle magfüggvényes sűrűségfüggvény becslés: minden mintaérték fölé egy sima függvényt (u.n. magfüggvényt) rajzolunk, (például Gauss görbét, háromszög-függvényt, egy cos ívet) majd minden alappontban összeadjuk a fölötte lévő függvényértékeket, így kapjuk a becsült sűrűségfüggvény értéket. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 33 / 80

Becslések tulajdonságai Igazi paraméternek nevezzük azt a paramétert, ami a minta tényleges eloszlását adja meg az eloszláscsaládban. A becslés torzítatlan, ha legalább várhatóan, várható értékben azt adja, amit becsülni szeretnénk, bármi is a minta eloszlása az eloszláscsaládból. Ha a paramétert ϑ-t vagy annak egy függvényét g(ϑ)-t becsüljük, akkor formulával: E ϑ T(X) = g(ϑ). Az E ϑ egy teljesen általánosan alkalmazott, de szerintem gyakorlati szempontból rossz (túl absztrakt) jelölés. Ugyanis nem a várható érték függ a ϑ-tól, hanem a minta (méréseink) eloszlása. Tehát igazából X-et kellene indexelni ϑ-val, a várható értéket pedig nem. A torzítatlanság tehát azt mondja, hogy ha 5 paraméterű eloszlással rendelkező mintát helyettesítek ebbe a statisztikába/becslésbe, akkor g(5) lesz a várható értéke, de ha ugyanebbe 3.2 paraméterűt, akkor g(3.2) lesz a várható érték sít. Változtathatnánk a valószínűségi mértéket is, de ez túl absztrakt megközelítés. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 34 / 80

Becslések tulajdonságai Egy torzítatlan becslés hatásos, ha ő a torzítatlanok között a legkevésbé ingadozó, vagyis szórása a legkisebb. Egy torzítatlan becslés hatásosabb mint a másik, ha szórása kisebb a másikénál. Torzítatlan becslések sorozata (erősen) konzisztens, ha a sorozat ingadozása elenyészik, azaz szórásnégyzete 0-hoz tart, és így végül határértékben pontosan megadja a becsülendő mennyiséget. Tipikusan egy torzítatlan becsléstípus (mint pl. az átlag vagy a maximum, amit egyre több és több megfigyelésből is számolhatunk) konzisztens, ha a mintaelemek számát növelve az ingadozás elenyészik, azaz a szórásnégyzet 0-hoz tart. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 35 / 80

Elégségesség, információs határ Említettük, hogy pl. normális eloszlás esetén a várható érték (m) paramétert az átlaggal tudjuk becsülni, és nevezetes tény, hogy ez a legjobb becslése. Az átlag tehát minden információt tartalmaz az m paraméterről, hiszen ha lenne még elérhető információ, akkor azt felhasználva jobb becslést is készíthetnénk. Azokat a statisztikákat, amelyek a paraméterről a mintában rejlő összes információt tartalmazzák, elégséges statisztikáknak hívjuk. Nem adunk formális definíciót és nem vizsgáljuk ezt a témakört. Egy mintából a paramétert vagy annak függvényét nem lehet tetszőleges pontossággal = megbízhatósággal becsülni, valamennyi bizonytalanság mindenféle becslés esetén marad, vagyis a becslés szórásnégyzete nem lehet tetszőlegesen kicsiny. A becslés szórásnégyzetére bizonyos feltételek mellett elvi alsó korlátot ad a nevezetes Rao-Cramér egyenlőtlenség a Fisher féle információs mennyiség reciproka segítségével. Ezeket a fogalmakat, eredményeket sem részletezzük. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 36 / 80

Becslési elvek: Maximum Likelihood (ML) Legyen adott egy mintarealizáció, azaz mérési eredmények egy sorozata, és egyelőre tegyük fel, hogy diszkrét eloszláscsaládból származik. Ekkor elvileg az összes lehetséges szóbajövő eloszlás, azaz az összes lehetséges paraméter mellett kiszámolhatjuk, hogy pont ennek a megfigyelésnek mekkora a valószínűsége. Ezek után elég természetes azt a paramétert választani az igazi ismeretlen paraméter becslésének, amelyik mellett a legnagyobb ez a valószínűség, azaz a legnagyobb a valószínűsége, hogy pont az a minta jön ki, amit éppen mértünk. Ez a maximum likelihood elv, a leggyakrabban használt becslési eljárás. Az ML becslés számítása azonban nem mindig könnyű, sőt sok esetben nem is lehetséges a bonyolult maximalizációs feladat miatt. Ilyenkor algoritmikus eljárásokat alkalmaznak. Abszolút folytonos eloszlású minta esetén nem a valószínűséget, hanem a sűrűségfüggvényt maximalizáljuk, a paraméter szerint. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 37 / 80

Becslési elvek: Maximum Likelihood (ML) A Maximum Likelihood elv szerint azt a paramétert választjuk, amelyik mellett a legnagyobb a valószínűsége a ténylegesen megfigyelt, mért mintarealizációnak. Technikailag ez diszkrét eloszlás feltételezése mellett pontosan a mért x 1,x 2,...,x n mintarealizáció helyén vett valószínűségfüggvény maximumhelyének megkeresését jelenti a paraméter szerint azaz ϑ-ban: P ϑ (X 1 = x 1,X 2 = x 2,...,X n = x n ) = p(x 1,x 2,...,x n,ϑ) max ϑ ban Abszolút folytonos eloszlású minta esetén nem a valószínűséget, hanem a minta együttes sűrűségfügvényét a megfigyelt helyen maximalizáljuk a paraméter szerint. f (x 1,x 2,...,x n,ϑ) max ϑ ban Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 38 / 80

Becslési elvek: A maximum likelihood számítása Definíció: p(x,ϑ) és f (x,ϑ) közös neve likelihood függvény. Mivel p > 0 és f > 0 valamint a logaritmus függvény szigorúan monoton növő ezért p vagy f maximuma ugyanott van ahol a logaritmusáé. Mivel a legtöbb sűrűségfügvény exp(valami) jellegű, ezért gyakran célszerű a maximumkereséshez logaritmálni. Definíció: log(p(x, ϑ)) és log(f (x, ϑ)) közös neve loglikelihood függvény. Ha még differenciálható is a loglikelihood függvény, akkor a maximumhely megtalálása a derivált nullahelyének megkeresésével is lehet, azaz a likelihood egyenletet kell megoldani: log(f (x,ϑ)) = 0 ϑ Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 39 / 80

Becslési elvek: A maximum likelihood tulajdonságai Adott mintaelemszámra a ML becslés semmilyen jó tulajdonsága sem garantált, de határértékben, azaz gyakorlatilag nagy mintára számos jó tulajdonsággal rendelkezik: Tétel: Bizonyos regularitási feltételek mellett a maximum likelihood becslés: aszimptotikusan torzítatlan, aszimptotikusan hatásos (aszimptotikusan Cramér-Rao, azaz az információs határt közelíti), erősen konzisztens, aszimptotikusan normális eloszlású. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 40 / 80

Becslési elvek: Momentum Módszer (MM) Tapasztalati momentum: Az X 1,X 2,...,X n minta k-adik tapasztalati momentuma M k = 1 n n Xi k i=1 Legyen a ϑ paraméter egy d dimenziós vektor. A d dimenziós paraméterrel kifejezett első d elméleti és tapasztalati momentum egyenlővé tételével d ismeretlenes egyenletrendszert kapunk a paraméterre, ennek megoldása a paraméter momentum módszeres becslése. Ez általában se nem torzítatlan se nem hatásos, de legalább erősen konzisztens becslés. Eloszlásáról sem lehet semmit mondani általánosságban. Akkor hasznos, amikor az ML vagy túl bonyolult, vagy olyan optimalizációs problémára vezet, amit nem lehet (még akár numerikusan sem) megoldani. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 41 / 80

Konfidencia Intervallum Becslés gyanánt egyetlen számérték soha nem elég informatív, mert semmit nem mond arról, hogy mennyire ingadozhat a becslés, és így az éppen számított érték milyen messze lehet az igazitól. A ϑ paraméter értékét egy a mintától függő (ezért véletlen) intervallum belsejébe akarjuk szorítani előírt valószínűséggel. Ezt az intervallumot hívjuk megbízhatósági azaz konfidencia intervallumnak. A konfidencia intervallum megkonstruálásához olyan T 1,T 2 statisztikákat keresünk, amelyre minden ϑ esetén teljesül, hogy P ϑ (T 1 (X) < ϑ < T 2 (X)) = 1 ε Ha ez teljesül akkot a (T 1 (X),T 2 (X) véletlen intervallumot 1 ε megbízhatóságú konfidencia intervallumnak nevezzük T 1 alsó és T 2 felső konfidencia határral. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 42 / 80

Hipotézisvizsgálat Legyen egy X 1,X 2,...,X n mintánk, P ϑ igazi eloszlással, amelyről tudjuk, hogy a ϑ paraméter a Θ paramétertér egy számunkra nem ismert eleme. A Θ paraméterteret két diszjunkt részhalmaz uniójára bontjuk Θ = Θ 0 Θ 1 és a minta alapján el szeretnénk dönteni, hogy az igazi ϑ paraméter melyik részhalmazba tartozik. Nullhipotézisnek nevezzük az a feltevést, hogy a minta igazi eloszlásának paramétere a Θ 0 részhalmazba tartozik. Alternatív vagy ellenhipotézisnek nevezzük azt, hogy az igazi eloszlás paramétere a Θ 1 részhalmazba tartozik: H 0 : ϑ Θ 0 H 1 : ϑ Θ 1 Hipotézisünkről a statisztikai próba vagy teszt segítségével döntünk. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 43 / 80

A statisztikai próba A mintából mindenek előtt kiszámítunk egy T(X 1,X 2,...,X n ) statisztika értéket, ezt a statisztikát nevezzük próbastatisztikának. A nullhipotézist igaznak feltételezve meghatározzuk a próbastatisztika eloszlását. Ezek után megvizsgáljuk, hogy a minta realizációjából, tehát a konkrét mért vagy megfigyelt értékekből számított próbastatisztika érték ezen eloszlás mellett tipikusnak, szokásosnak tekinthető-e, vagyis számottevő valószínűséggel előfordulhat-e, és ha igen akkor elfogadjuk a nullhipotézist. Ha a próbastatisztika érték a meghatározott eloszlás mellett atipikus, vagyis csak igen kis valószínűséggel kapható meg, akkor elutasítjuk a nullhipotézist. Az eloszlásra nézve tipikus próbastatisztika értékeket az X e elfogadási tartományban, míg az atipikus értékeket az X k kritikus tartományban gyűjtjük össze. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 44 / 80

A próba hibái A próbastatisztika alapján tehát kétféleképpen döntünk: elfogadjuk a nullhipotézist ha T(X) X e és elutasítjuk, ha T(X) X k. Ennek során kétféleképpen véthetünk hibát. Elsőfajú hibát vétek, ha elutasítom a nullhipotézist pedig igaz. Másodfajú hibát vétek, ha elfogadom a nullhipotézist pedig hamis. Mindkét hiba elkövetésének valószínűsége felírható: P(elsőfajú hiba) = P ϑ (T(X) X k ) ϑ Θ 0 P(másodfajú hiba) = P ϑ (T(X) X e ) ϑ Θ 1 Általában a kritikus tartományt adjuk meg, és ezt az alapján tesszük meg, hogy az elsőfajú hibát szeretnénk előírtan alacsony szinten tartani. Az α szint a próba terjedelme, ha az elsőfajú hiba kisebb, mint α, és a próba pontos terjedelme, ha nincs nála kisebb terjedelem. Egyelemű nullhipotézis esetén a terjedelem neve szignifikancia szint. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 45 / 80

A másodfajú hiba erőfüggvény Ha az elsőfajú hiba valószínűségét előírtuk, akkor a másodfajú hiba valószínűsége már adott. Ugyanis az elsőfajú hiba alapján meghatározott a kritikus tartomány és P(másodfajú hiba) = P ϑ (T(X) X e ) = 1 P ϑ (T(X) X k ) ϑ Θ 1. Tehát adott próbastatisztika és próbaterjedelem mellett a másodfajú hiba valószínűségét már nem tudjuk befolyásolni. A próbastatisztika megválasztásában viszont lehet szabadságunk. A próba akkor jó, ha egyszerre mindkét hiba kicsi. A másodfajú hiba helyett a próba Θ 1 -en értelmezett erőfüggvényét: β(ϑ) = 1 P ϑ (másodfajú hiba) = P ϑ (T(X) X k ) ϑ Θ 1 szokás vizsgálni. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 46 / 80

Egyenletesen legerősebb próba Nyilván az a kívánatos, hogy a próba ereje minél nagyobb legyen. A próba ereje tehát a próbastatisztika függvényében változhat csak. Egy próba(statisztika) T 1 egyenletesen erősebb egy másiknál T 2, ha az alternatív hipotézis minden lehetősége mellett az ereje nagyobb, mint a másiké: β 1 (ϑ) β 2 (ϑ) ϑ Θ 1 Egy próba egyenletesen legerősebb, ha minden másik próbánál egyenletesen erősebb. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 47 / 80

Véletlenített ill. szekvenciális próbák Ezekben az esetekben a mintateret nem csupán a kritikus és elfogadási tartományokra bontjuk, hanem három részre, az előbbiek mellett még egy X b bizonytalansági tartományt is megadunk. Véletlenítet (randomizált) próba esetén az elfogadási és a kritikus tartományokba eső próbastatisztika érték esetén értelemszerűen döntünk, míg a bizonytalansági tartományban a próbastatisztika értékétől függetlenül, adott valószínűséggel, véletlenszerűen döntünk elfogadás vagy elutasítás mellett. (Feldobunk egy előírtan hamis érmét... ) Szekvenciális próba végzésekor a bizonytalansági tartományba eső próbastatisztika érték esetén egy újabb mintaelemet adunk a meglévőkhöz, és ezzel újraszámoljuk a próbát. Ezt mindaddig folytatjuk, amíg egyértelműen nem tudunk dönteni. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 48 / 80

Neyman-Pearson féle alaplemma I. Tétel. (Neyman-Pearson féle alaplemma I.) Tegyük fel, hogy H 0 : ϑ = ϑ 0 H 1 : ϑ = ϑ 1, ϑ 0,ϑ 1 Θ azaz csak két paraméter van: egyszerű nullhipotézis áll szemben egyszerű alternatívával. Regularitási feltételek mellett az α terjedelmű (véletlenítet) próbák között létezik egyenletesen legerősebb, amelyet a likelihood hányados segítségével lehet megadni: X k = { L(X > c) } X b = { L(X = c) } X e = { L(X < c) }, ahol L(x) = f 1(x) f 0 (x) a likelihood függvények hányadosa. Vegyük észre, hogy az abszolút folytonos esetben a bizonytalansági tartomány 0 valószínűségű, tehát elhagyható, a próba nem véletlenített. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 49 / 80

Neyman-Pearson féle alaplemma II. Az első Neyman-Pearson féle alaplemmához hasonló állítás fogalmazható meg a H 0 : ϑ ϑ 0 H 1 : ϑ > ϑ 0, ϑ Θ, ϑ 0 egy adott szám típusú hipotézisre vonatkozóan is. Most tehát nem csupán két paraméter van: összetett nullhipotézis áll szemben összetett alternatívával, de azért speciális alakban. Monoton likelihood hányados, és regularitási feltételek mellett az α terjedelmű (véletlenítet) próbák között létezik egyenletesen legerősebb, amelyet a likelihood hányados segítségével lehet megadni, az előző lemmához hasonlóan. E lemmáknak köszönhetően a likelihood hányados próbák kitűntetett szerepűek, még akkor is, amikor nem tudunk egyenletesen legerősebb próbát találni. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 50 / 80

χ 2 próba A 1,...,A r teljes eseményrendszer P(A i ) > 0, de a P(A i ) valószínűségeket nem ismerjük, azt feltételezzük, hogy ezek rendre az adott p 1,...,p r értékek. H 0 : P(A i ) = p i i H 1 : i : P(A i ) p i Legyen ν i az A i esemény gyakorisága n független kísérletben. Ekkor r ν i = n. A próbastatisztika legyen: χ = r i=1 (ν i np i ) 2 ebben a "valószínűség alapján várt" gyakoriság lenne np i, ennek eltérését vizsgáljuk a tapasztalttól. χ eloszlásban tart egy r 1 szabadsági fokú χ 2 eloszláshoz. Emlékeztetőül: az s szabadsági fokú χ 2 s eloszlás X 2 1 +... + X2 s eloszlása, ahol X i -k független N(0,1)-esek. np i i=1 Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 51 / 80

χ 2 próba Ha még a p i -ket sem ismerjük, akkor becsüljük (pl. Poisson eloszlásból származó valószínűségek, de λ nem ismert, Binomiálisból, de p nem ismert stb.). A becsült p i -ket jelölje ˆp i és ezzel készítsük el el χ-t: χ = r i=1 (ν n ˆp i ) 2 Ebben az esetben ez d = r s 1 szabadsági fokú χ 2 eloszláshoz tart, ahol s a becsült paraméterek száma. Nagy n-re, n legalább 16-20, már érvényesnek tekinthető a határeloszlás. A kritikus tartomány megválasztása: X k = { X χ 2 d (α)} = { X c d (α) } ahol χ 2 d (α) = c d(α) a χ 2 eloszlás α szignifikanciaszinthez tartozó kvantilise n ˆp i P 0 (χ c d (α)) = α Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 52 / 80

χ 2 próba illeszkedésvizsgálatra Diszkrét eset A minta lehetséges értékei: 1, 2, 3,..., r, vagy x 1, x 2,..., x r Az előfordulási gyakoriságok: ν 1,ν 2,ν 3,...,ν r Azaz megszámoljuk, az n elemű mintából hány 1-est, 2-est, stb. kaptunk. A valószínűségeloszlás szerinti előfordulási valószínűségei ugyanezen értékeknek: p 1,p 2,p 3,...,p r Ekkor r (ν i np i ) 2 i=1 np i χ 2 eloszláshoz tart, n növelésével. A χ 2 szabadsági foka r s 1, ahol s az a szám, ahány paraméterét a H 0 -beli eloszlásnak becsülnünk kellett. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 53 / 80

χ 2 próba illeszkedésvizsgálatra Ha α a szignifikancia szint, akkor a d = r s 1 szabadsági fokú χ 2 d eloszlás α-kvantilise adja azt a kritikus c d (α) értéket, amelyre tehát P(χ 2 > c d (α)) = α és ha a próbastatisztika c d (α)-nál nagyobb értéket ad, akkor utasítjuk el H 0 -t. Folytonos eset A lehetséges értékek tartományát intervallumokra osztjuk be, majd ugyanúgy járunk el, mint a diszkrét esetben: Most az adott intervallumba eső értékek gyakoriságát számoljuk, és vetjük össze a hipotetikus eloszlásból adódó várt gyakorisággal. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 54 / 80

Homogenitásvizsgálat X, illetve Y valószínűségi változók ugyanolyan eloszlásúak-e X 1,...,X n ; Y 1,...,Y m minták H 0 : P(X < x) = P(Y < y) Intervallumfelosztást készítünk: ν i = az i-ik intervallumba eső mintaelemszám, azaz I i előfordulásának gyakorisága az 1. minta alapján µ i = ugyanaz a 2. minta alapján A próbastatisztika: χ = n m r i=1 ( νi n µ ) i 2 m ν i + µ i Ez a statisztika r 1 szabadsági fokú χ 2 eloszlású. A továbbiakban minden ugyanúgy zajlik. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 55 / 80

Függetlenségvizsgálat Legyen A 1,...,A r ; B 1,...,B s két teljes eseményrendszer. H 0 : P(A i B j ) = P(A i ) P(B j ) i = 1,...,r, j = 1,...,s. A próbastatisztika: χ = r s i=1 j=1 (ν ij n p i q j ) 2 n p i q j ahol ν ij az A i B i gyakorisága n független megfigyelésben. Ez r s 1 fokú χ 2 eloszlású. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 56 / 80

Normális eloszlás várható értékére próbák: ismert szórás Az U-próba (Z-test): Legyen X 1, X 2,...,X n egy N(m,σ) eloszlású független minta, melynek szórása σ ismert, de igazi várható értéke m nem, viszont azt feltételezzük róla, hogy egy adott m 0 értékkel egyenlő. A H 0 : {m = m 0 } nullhipotézist teszteljük, vagy a H 1 : {m > m 0 } egyoldali, vagy a H 1 : {m m 0 } kétoldali alternatíva mellett. A próbastatisztika: U = n ( X m 0 ), σ azaz az átlag standardizált eltérése a hipotetikus várható értéktől, ha igaz σ a nullhipotézis!!!. (Ne feledjük X szórása: n, bármi is az m, de a számláló csak H 0 mellett lesz 0 várható értékű.) Mivel a minta normális eloszlású, ezért az átlag is az, és így a próbastatisztika is. Mivel standardizáltuk ha igaz a nullhipotézis, ezért a próbastatisztika standard normális N(0,1) eloszlású lesz H 0 mellett. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 57 / 80

Az U-próba kritikus tartománya A próbastatisztika értékét a standard normális eloszláshoz hasonlítjuk. A kritikus tartomány az α szignifikancia szinten: X k = {U u α } } X k = { U u α2 az egyoldali, a kétoldali ellenhipotézis esetén, ahol u α a standard normális eloszlás 1 α-kvantilise, azaz P(U < u α ) = 1 α, illetve másként u α megoldása a Φ(u α ) = 1 α egyenletnek melyben Φ a standard normális eloszlás eloszlásfüggvénye. Például u 0.05 =1.645, míg u 0.025 =1.96, tehát ha 5%-os, azaz 0.05-ös szignifikancia szinten akarok dönteni a nullhipotézisről az egyoldalú alternatívával szemben, akkor 1.645-nél nagyobb próbastatisztika értékekre utasítom azt el, míg ha kétoldalú az alternatíva, akkor 1.96-nál nagyobb, vagy -1.96-nál kisebb értékekre utasítom el. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 58 / 80

Kétmintás U-próba Legyen X 1, X 2,...,X n1, valamint Y 1, Y 2,...,Y n2 két N(m 1,σ 1 ) illetve N(m 2,σ 2 ) eloszlású független minta, melynek szórásai σ 1, σ 2 ismertek. Az m 1, m 2 várható értékekről azt feltételezzük, hogy egyenlőek. A H 0 : {m 1 = m 2 } nullhipotézist teszteljük, vagy a H 1 : {m 1 > m 2 } egyoldali, vagy a H 1 : {m 1 m 2 } kétoldali alternatíva mellett. Legyen a próbastatisztika ekkor: U = ( X Ȳ), σ 2 1 n 1 + σ 2 2 n 2 A nullhipotézis igaz volta mellett ez ugyancsak standard normális eloszlású. Ennek megfelelően innentől az előzőekben leírt eljárást követve a kvantilisek segítségével meghatározzuk a kritikus tartományt, és ennek alapján döntünk. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 59 / 80

Normális eloszlás várható értékére próbák: ismeretlen szórás A Student féle t-próba: Megint legyen X 1, X 2,...,X n egy N(m,σ) eloszlású független minta, melynek azonban szórása σ nem ismert, csakúgy mint igazi várható értéke m sem, viszont ez utóbbiról újfent azt feltételezzük, hogy egy adott m 0 értékkel egyenlő. A H 0 : {m = m 0 } nullhipotézist teszteljük, vagy a H 1 : {m > m 0 } egyoldali, vagy a H 1 : {m m 0 } kétoldali alternatíva mellett. Mivel a szórásnégyzet nem ismert, ezért azt az U-próba próbastatisztikájában a becsült értékével helyettesítjük. Azonban a becsült érték valváltozó, így a próbastatisztika eloszlását megváltoztatja! A próbastatisztika: t = n ( X m 0 ). S 2 n Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 60 / 80

Student féle t-próba A próbastatisztika tehát az átlagnak a becsült szórással standardizált eltérése a hipotetikus várható értéktől, ha igaz a nullhipotézis. (A számláló megint csak H 0 mellett lesz 0 várható értékű!) Vegyük észre, hogy az ismeretlen σ szórás nem befolyásolja a próbastatisztika eloszlását, ugyanis a számláló és a nevező szórása egyaránt σ-szoros, és így a hányadosból kiesik. Az ismeretlen szórás ilyen, becslés nélküli eltávolítását nevezik studentizálásnak. Mivel a minta normális eloszlású, ezért az átlag is az, és így a próbastatisztikában a számláló is, sőt, mivel az ismeretlen σ kiesik, ezért H 0 mellett standard normális is. A nevezőben normálisak négyzetösszege van, H 0 mellett 0 várható értékűeké, és mivel σ innen is kiesik, ezért az eloszlás n 1 szabadsági fokú χ 2 lesz (n a minta elemszáma). Mindez együtt adja, hogy a hányados n 1 szabadsági fokú t-eloszlású lesz a nullhipotézis igaz volta mellett. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 61 / 80

A t-próba kritikus tartománya A próbastatisztika értékét most tehát az n 1 szabadsági fokú t eloszláshoz hasonlítjuk. A kritikus tartomány az α szignifikancia szinten: X k = {t t α,n1 } { } X k = t t α 2,n 1 az egyoldali, a kétoldali ellenhipotézis esetén, ahol t α,n az n szabadsági fokú t eloszlás 1 α-kvantilise. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 62 / 80

Az U- és t-próba tulajdonságai Mind az U-próba, mind a t-próba likelihood hányados próba, a normális eloszlás pedig teljesíti a regularitási feltételeket, ezért az egyoldalú alternatíva mellett ezek egyenletesen legerősebb próbák. A kétoldalú ellenhipotézis esetén azonban nem egyenletesen legerősebbek, ilyenkor nincs is egyenletesen legerősebb. Ha a minta elemszáma nagy, a t-próba helyett az U-próba is használható (ezzel a korrigált tapasztalati szórásnégyzetből kapott becslés ingadozását elhanyagoljuk, megbízhatóságát 100%-osnak tekintjük). Mivel ezek a próbák az átlagot használják, ami közel normális eloszlású mindig, ha a minta eloszlása a centrális határeloszlás tétel feltételeit teljesíti, ezért a próba nem érzékeny a normális eloszlástól való ilyen eltérésre. Erősen vastag farkú eloszlás esetén már közelítőleg sem feltétlen ad megbízható eredményt a próba. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 63 / 80

Kétmintás t-próba Legyen X 1, X 2,...,X n1, valamint Y 1, Y 2,...,Y n2 két N(m 1,σ) illetve N(m 2,σ) eloszlású független minta, melynek szórásai ismertetlenek bár de megegyeznek. Az m 1, m 2 várható értékekről azt feltételezzük, hogy egyenlőek. A H 0 : {m 1 = m 2 } nullhipotézist teszteljük, vagy a H 1 : {m 1 > m 2 } egyoldali, vagy a H 1 : {m 1 m 2 } kétoldali alternatíva mellett. Legyen a próbastatisztika ekkor: n 1 + n 2 2 ( X Ȳ) t = n 1 n 2, n 1 + n 2 n 1 i=1 (X i X) 2 n 2 i=1 (Y i Y) 2 A nullhipotézis igaz volta mellett ez ugyancsak t eloszlású, n + m 2 szabadsági fokkal. Ennek megfelelően a kvantilisek segítségével meghatározzuk a kritikus tartományt, és ennek alapján döntünk. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 64 / 80

Welch próba Legyen X 1, X 2,...,X n1, valamint Y 1, Y 2,...,Y n2 két N(m 1,σ 1 ) illetve N(m 2,σ 2 ) eloszlású független minta, melynek szórásai σ 1, σ 2 ismertetlenek. Az m 1, m 2 várható értékekről azt feltételezzük, hogy egyenlőek. A H 0 : {m 1 = m 2 } nullhipotézist teszteljük, vagy a H 1 : {m 1 > m 2 } egyoldali, vagy a H 1 : {m 1 m 2 } kétoldali alternatíva mellett. Legyen a próbastatisztika ekkor: t ( X Ȳ) = n 1 n 2 S 2 1 n 2 + S 2 2 n 1 A nullhipotézis igaz volta mellett ez közelítőleg t eloszlású. A d szabadsági fok a c =: S1 2n 2 S1 2n 2+S2 2n 1 jelölés mellett: 1 d = c2 (1 c)2 + n 1 1 n 2 1 Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 65 / 80,

Próba a szórásnégyzetek egyezésének tesztelésére A (Fisher féle) F-próba: Legyen X 1, X 2,...,X n1, valamint Y 1, Y 2,...,Y n2 két N(m 1,σ 1 ) illetve N(m 2,σ 2 ) eloszlású független minta, melynek várható értékei m 1, m 2 és szórásai σ 1, σ 2 egyaránt ismertetlenek. A H 0 : {σ 1 = σ 2 } nullhipotézist teszteljük, a H 1 : {σ 1 σ 2 } kétoldali alternatíva mellett. Legyen a próbastatisztika ekkor: F = S 2 1 S2 2 A nullhipotézis igaz volta mellett ez Fisher féle kétparaméteres F eloszlású, n 1, n 2 szabadsági fokokkal. Az F próbastatisztika ( helyett jobb (mert erősebb próbát ad) az F = max F, 1 ) próbastatisztikát választani, de ekkor a szabadsági F fokok meghatározásánál a sorrendre ügyelni kell. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 66 / 80

Eloszlásilleszkedés ellenőrzése: Kolmogorov Szmirnov teszt A Kolmogorov Szmirnov teszttel 1 azt ellenőrizzük, hogy egy n elemű független mintának ( pl. egy valószínűségi változó n-szeri független megfigyelésének) csakugyan az az eloszlása, amit feltételeztünk, az eloszlást az eloszlásfüggvénnyel megadva, (Egymintás K-S teszt), 2 vagy két minta (pl. két valószínűségi változó n-szeri független megfigyelése) eloszlásának egyezéséről döntünk segítségével. (Kétmintás K-S teszt). A tapasztalati és az elméleti eloszlásfüggvény abszolút eltérésének maximuma alapján döntünk. A Glivenko tételből tudjuk, hogy tapasztalati eloszlásfüggvény tart elméletihez, tehát azt teszteljük, hogy adott mintaelemszám mellett az eltérésük tipikusnak mondható, csak annyi, amennyit ez a mintaszám indokol, vagy ennél nagyobb. A próbát Andrej Nyikolájevics Kolmogorov dolgozta ki. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 67 / 80

Kolmogorov Szmirnov teszt, a nullhipotézis Legyen X = X 1,X 2,..., X n a vizsgált minta, aminek eloszlása F X (x) nem ismert, de feltételezzük, hogy megegyezik az F(x) eloszlásfüggvénnyel megadott eloszlással. H 0 : F X (x) = F(x) vs. H 1 : F X (x) F(x) Definiáljuk a tapasztalati eloszlásfüggvényt a szokásos módon: F n (x) = P(X < x) = 1 n n i=1 I(X i < x) alapján. A Glivenko tétel szerint a tapasztalati eloszlásfüggvényegyenletesen tart a valódi eloszlásfüggvényhez, tehát d n = F n F = sup F n (x) F(x) 0. x Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 68 / 80

Kolmogorov Szmirnov teszt, a próbastatisztika és eloszlása A szuprémumot természetesen csak a mintaértékekre számoljuk ki, de ehhez először sorbarendezzük őket, vagyis a rendezett minta helyein tekintjük a tapasztalati és a hipotetikus eloszlásfüggvény különbségét. Ami nagyon fontos, hogy a különbség szuprémum n-szeresének eloszlása nem függ az ismeretlen igazi mintaeloszlástól, legalábbis, ha F(x) folytonos. Ez teszi lehetővé, hogy ezt válasszuk próbastatisztikának: D n = nsup F n (x) F(x) x P(D n < t) = H(t) = 1 2 i=1 ( 1) i 1 e 2i2 t A határeloszlás alapján az α kvantilissel választhatjuk meg a kritikus értéket, és a próbastatisztika ennél nagyobb értékeinél utasítjuk el a nullhipotézist. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 69 / 80

További tesztek az eloszlásilleszkedés ellenőrzésére Elsőként az Anderson Darling és a Cramér von Mises teszteket említjük meg, amelyek ugyancsak a tapasztalati és az elméleti eloszlásfüggvény eltérésének vizsgálatán alapulnak. A Kolmogorov Szmirnov teszt a különbség szuprémumának vizsgálatán keresztül az eloszlás szokásos, gyakori értékei körül követeli meg a jó illeszkedést és ezt ellenőrzi. Ezt abból is látjuk, hogy minden eloszlásfüggvény 0 a -ben és 1 a + -ben, tehát nem várhatjuk, hogy az eltérés szuprémum valahol errefelé legyen, vagyis a nem túl gyakori, szélsőséges értékek között. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 70 / 80

A Cramér von Mises próbastatisztika Egyenletesebb, nagyobb értéktartományon meglévő illeszkedést követelhetünk meg, ha az eltérés négyzetintegtáljától várjuk el, hogy kicsi legyen. Ezt teszi a Cramér von Mises teszt. Próbastatisztikája: n ( F n (x) F(x)) 2 df(x). Ez viszont érzéketlen a kis értéktartományban meglévő jelentős változásra, pl. egy ugrásra a felvett értékek között. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 71 / 80

Az Anderson Darling teszt Megfelelő súlyozást bevezetve az integrálásban tovább finomíthatjuk, hogy az értékek mely tartományában szeretnénk pontosabb illeszkedést előírni, és azt ellenőrizni. Alkalmas súlyválasztással a nagy (ritka, szélsőséges) értékek illeszkedése is előírható, és erre koncentrál jobban az Anderson-Darling teszt. Az Anderson-Darling tesztben a szélsőséges értékeket jobban súlyozó súlyfüggvény: w(x) = [F(x) (1 F(x))] 1, ahonnan a négyzetintegrál eltérés: ( F n (x) F(x)) 2 n [F(x) (1 F(x))] df(x). Ezek után felhasználva a nullhipotézisből ismert eloszlásfüggvényt, úgy transzformáljuk az adatot, hogy egyenletes eloszlású legyen, majd a rendezett mintával számoljuk az alábbi próbastatisztikát: A 2 = n S, ahol S = n k=1 2k 1 [ ln(f(x n k )) + ln ( 1 F(Xn+1 k) )]. Dr. Márkus László A Matematikai Statisztika Alapjai 2017. március 1. 72 / 80