Bevezetés a matematikai statisztikába

Hasonló dokumentumok
Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

egyetemi jegyzet Meskó Balázs

Statisztika elméleti összefoglaló

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Dr. Karácsony Zsolt. Miskolci Egyetem november

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Készítette: Fegyverneki Sándor

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Nemparaméteres próbák

Hipotézis vizsgálatok

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

BIOMATEMATIKA ELŐADÁS

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

GVMST22GNC Statisztika II.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezetés a hipotézisvizsgálatokba

[Biomatematika 2] Orvosi biometria

Gazdasági matematika II. vizsgadolgozat, megoldással,

Korreláció és lineáris regresszió

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztika Elıadások letölthetık a címrıl

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Valószínűségszámítás összefoglaló

Illeszkedésvizsgálati módszerek összehasonlítása

Matematikai statisztika feladatsor

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Matematikai statisztika Tómács Tibor

A maximum likelihood becslésről

Valószín ségszámítás és statisztika

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Abszolút folytonos valószín ségi változó (4. el adás)

Eloszlás-független módszerek 13. elıadás ( lecke)

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Matematikai statisztika szorgalmi feladatok

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

A Statisztika alapjai

Normális eloszlás paramétereire vonatkozó próbák

1. Példa. A gamma függvény és a Fubini-tétel.

Adatok statisztikai értékelésének főbb lehetőségei

Biostatisztika Összefoglalás

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

matematikai statisztika gyakorlatok feladatok és megoldások

Gyak. vez.: Palincza Richárd ( Gyakorlatok ideje/helye: CS , QBF10

Többváltozós lineáris regressziós modell feltételeinek

A valószínűségszámítás elemei

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Gyakorló feladatok I.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Valószínűségi változók. Várható érték és szórás

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

5. előadás - Regressziószámítás

[Biomatematika 2] Orvosi biometria

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Összeállította: dr. Leitold Adrien egyetemi docens

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

y ij = µ + α i + e ij

Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Biostatisztika Összefoglalás

Matematika (mesterképzés)

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Eloszlások jellemzése. Momentumok. Medián és kvantilis. Karakterisztikus függvény

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

Számítógépes döntéstámogatás. Statisztikai elemzés

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Hipotézis vizsgálatok

Principal Component Analysis

Varianciaanalízis 4/24/12

0,1 P(X=1) = p p p(1-p) Egy p vszgő esemény bekövetkezik-e.

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

Matematikai statisztikai elemzések 3.

Bevezetés, tudnivalók, ökonometriai alapok

Átírás:

Bevezetés a matematikai statisztikába Szegedi Tudományegyetem, Bolyai Intézet

i alapfogalmak Tekintsünk egy ξ valószínűségi változót. i minta (n elemű minta) ξ 1,..., ξ n fae vv, eloszlásuk megegyezik a ξ háttérváltozó eloszlásával. Ha ξ i változó az x i értéket veszi fel (i = 1,..., n), akkor azt mondjuk, hogy x 1,..., x n a minta realizációja. A matematikai statisztika alapvető feladatai: ξ háttérváltozó eloszlásának, egyéb mutatóinak becslése (pontbecslések, intervallumbecslések), ξ háttérváltozó eloszlására vonatkozó hipotézisek vizsgálata (statisztikai próbák).

i alapfogalmak Definíció Legyen f egy n-változós Borel mérhető függvény. A mintaelemek f (ξ 1,..., ξ n ) függvényét statisztikának nevezzük. Alapstatisztikák ξ = ξ 1 +... + ξ n mintaátlag, n min i {ξ i } legkisebb mintaelem, max i {ξ i } legnagyobb mintaelem, max i {ξ i } min i {ξ i } mintaterjedelem, empirikus (tapasztalati) medián: a sorbarendezett mintaelemek közül a középső (vagy ha n páros, a középső kettő átlaga)....

Becslések Legyen θ a ξ eloszlásának egy paramétere, ˆθ n := ˆθ(ξ 1,..., ξ n ). Definíció Az ˆθ n statisztika torzítatlan becslése θ-nak, ha a paraméterhalmaz minden θ elemére E(ˆθ n ) = θ. Definíció ˆθ n (n = 1, 2,...) sorozat gyengén konzisztens becslése θ-nak, ha ˆθ n szt θ, n. ˆθ n (n = 1, 2,...) sorozat erősen konzisztens becslése θ-nak, ha ˆθ n mb θ, n.

Példa Legyen ξ 1,..., ξ n minta, ahol a ξ háttérváltozónak létezik a σ szórása. Legyen θ = E(ξ) ismeretlen paraméter. Tekintsük a ξ 1 és a ξ statisztikákat. Nyilvánvalóan ξ 1 még gyengén sem konzisztens becslése θ-nak, míg a nagy számok erős törvénye miatt ξ erősen konzisztens becslés. Mindkét statisztika torzítatlan becslése θ-nak: E(ξ 1 ) = E(ξ) = θ, E(ξ) = 1 n E(ξ 1 +... + ξ n ) = 1 n n E(ξ) = θ. D 2 (ξ) = 1 n 2 D 2 (ξ 1 +...+ξ n ) = n n 2 D 2 (ξ) = σ2 n < σ2 = D 2 (ξ 1 ). Vagyis a két torzítatlan becslés közül ξ a hatásosabb.

Az eloszlásfüggvény becslése Definíció Legyen k n,x = n I (ξ i < x), ahol I indikátorfüggvény és F n (x) = k n,x n. Az F n függvényt empirikus eloszlásfüggvénynek nevezzük. F n tulajdonságai A minta bármely realizációját tekintve F n monoton nemcsökkenő, balról folytonos, lim x F n (x) = 1 és lim x F n (x) = 0.

Álĺıtás Legyen x R rögzített. F n (x) torzítatlan és erősen konzisztens becslése az F (x) eloszlásfüggvénynek. Bizonyítás. k x,n binomiális eloszlású n és F (x) paraméterekkel. Tehát ( ) kx,n E(F n (x)) = E = 1 n n E(k x,n) = 1 nf (x) = F (x). n Az erős konzisztencia nagy számok erős törvényéből közvetlenül következik. Tétel (A matematikai statisztika alaptétele; Glivenko Cantelli) mb sup F n (x) F (x) 0, n. x R

A sűrűségfüggvény becslése Definíció I 1, I 2,... páronként diszjunkt (véges hosszúságú) intervallumok, I i = R. Legyen ν k = n I (ξ i I k ), f n (x) = ν k n I k, ha x I k. Az f n függvényt sűrűséghisztogramnak nevezzük. f n tulajdonságai A minta bármely realizációját tekintve f n 0, f n(x) dx = 1. Megjegyzés Általában egyenlő hosszú az intervallumokra osztják R-t.

A várható érték becslése Definíció Az E n (ξ) = ξ statisztikát empirikus (tapasztalati) várható értéknek nevezzük. Álĺıtás Ha E(ξ) létezik, E n (ξ) torzítatlan, és ha E( ξ ) <, akkor erősen konzisztens becslése is E(ξ)-nek. Bizonyítás A várható érték additivitása miatt ( ) ξ1 +... + ξ n E(E n (ξ)) = E = E(ξ 1) +... + E(ξ n ) n n = 1 n ne(ξ). Az álĺıtás második fele éppen a nagy számok erős törvénye.

A szórás becslése Definíció Empirikus (tapasztalati) variancia: V n (ξ) = 1 n n (ξ i E n (ξ)) 2 Empirikus (tapasztalati) szórás: D n (ξ) = V n (ξ) Álĺıtás V n (ξ) = 1 n n ξ2 i E 2 n(ξ) = E n (ξ 2 ) E 2 n(ξ). Bizonyítás V n (ξ) = 1 n n ξi 2 2E n (ξ) 1 n = E n (ξ 2 ) E 2 n(ξ). n ξ i + 1 n ne2 n(ξ)

Tétel Ha D(ξ) létezik, akkor E(V n (ξ)) = n 1 n D2 (ξ). Bizonyítás ( E(V n (ξ)) = E 1 n n ) 2 ξi 2 1 n n 2 ξ i = 1 n E(ξi 2 ) 1 n n n 2 E(ξi 2 ) + 2 E(ξ i ξ j ) i<j = n 1 n n 2 E(ξi 2 ) 2 n 2 E(ξ i )E(ξ j ) i<j = n 1 n 2 n E(ξ 2 ) 2 n(n 1) E 2 (ξ) n2 2 = n 1 n E(ξ2 ) n 1 n E(ξ)2.

Definíció Korrigált empirikus (tapasztalati) variancia: V n(ξ) = n n 1 V n(ξ) = 1 n 1 n ξi 2 n n 1 E2 n(ξ). Korrigált empirikus (tapasztalati) szórás: D n(ξ) = V n(ξ). Következmény V n(ξ) torzítatlan becslése D 2 (ξ)-nek. Megjegyzés Az viszont nem következik ebből, hogy D n(ξ) torzítatlan becslése lenne D(ξ)-nek.

Tétel Ha D(ξ) létezik, akkor V n (ξ) és V n(ξ) is erősen konzisztens becslése D 2 (ξ)-nek. Bizonyítás A nagy számok erős törvény alapján valamint E n (ξ) = ξ 1 +... + ξ n n mb E(ξ), n E n (ξ 2 ) = ξ2 1 +... + ξ2 n n mb E(ξ 2 ), n. Így V n (ξ) = E n (ξ 2 ) E 2 n(ξ) mb E(ξ 2 ) E 2 (ξ) = D 2 (ξ), n.

Kovariancia, korreláció becslése Tekintsük (ξ, η) háttérváltozót és (ξ 1, η 1 ),..., (ξ n, η n ) mintát. Definíció ξ és η empirikus kovarianciája C n (ξ, η) = 1 n n (ξ i E n (ξ))(η i E n (η)). Álĺıtás C n (ξ, η) = 1 n n ξ iη i E n (ξ)e n (η). Bizonyítás ( n C n (ξ, η) = 1 ξ i η i E n (ξ) n = 1 n n η i E n (η) ) n ξ i + ne n (ξ)e n (η) n ξ i η i 2E n (ξ)e n (η) + E n (ξ)e n (η).

Definíció ξ és η (Pearson-féle) empirikus korrelációs együtthatója r n (ξ, η) = C n(ξ, η) D n (ξ)d n (η), ha D n(ξ)d n (η) 0, és 0 különben. Álĺıtás r n (ξ, η) 1. Továbbá r n (ξ, η) = 1 pontosan akkor teljesül, ha ξ i, η i pontpárok között lineáris összefüggés van. Bizonyítás A Cauchy-Bunyakovszkij-Schwarz egyenlőtlenség alapján n nc n (ξ, η) ξ i E n (ξ) η i E n (η) n n (ξ i E n (ξ)) 2 (η i E n (η)) 2 = nv n (ξ) nv n (η) = nd n (ξ)d n (η).

Megjegyzések C n (ξ, ξ) = V n (ξ). C n (ξ, η) valamint r n (ξ, η) előjele a kapcsolat irányára utal. r n (ξ, η) a kapcsolat szorosságát jelzi. Ha r n (ξ, η) = 1, akkor pozitív, ha r n (ξ, η) = 1, akkor negatív lineáris kapcsolat. Álĺıtás C n (ξ, η) erősen konzisztens becslése C(ξ, η)-nak, valamint r n (ξ, η) erősen konzisztens becslése r(ξ, η)-nak. Bizonyítás A nagy számok erős törvénye alapján egyszerűen adódik: E n (ξη) E n (ξ)e n (η) mb E(ξη) E(ξ)E(η) = C(ξ, η), n, C n (ξ, η) Vn (ξ)v n (η) mb C(ξ, η) D(ξ)D(η), n.

Tétel Ha C(ξ, η) létezik, akkor E(C n (ξ, η)) = n 1 C(ξ, η). n Bizonyítás ( ( 1 n n ) ( n )) E(C n (ξ, η)) = E ξ i η i 1 n n 2 ξ i η i = 1 n E(ξ i η i ) 1 n n n 2 E(ξ i η i ) + E(ξ i η j ) i j = n 1 n n 2 E(ξ i η i ) 1 n 2 E(ξ i )E(η j ) i j = n 1 n(n 1) n 2 n E(ξη) n 2 E(ξ)E(η) = n 1 n E(ξη) n 1 n E(ξ)E(η).

Maximum-likelihood módszer Legyen θ ismeretlen paraméter, erre szeretnénk becslést kapni. Definíció Legyen ξ diszkrét háttérváltozó, tekintsük az x 1,..., x n realizációt. A hozzá tartozó likelihood-függvény a következő: L(θ) = P θ (ξ 1 = x 1,..., ξ n = x n ) = P θ (ξ = x 1 )... P θ (ξ = x n ). Definíció Legyen ξ folytonos háttérváltozó. Tekintsük a x 1,..., x n realizációt. A hozzá tartozó likelihood-függvény a következő: L(θ) = f θ,ξ1,...,ξ n (x 1,..., x n ) = f θ (x 1 )... f θ (x n ). Definíció A θ paraméter maximum-likelihood becslése (röviden ML becslése) ˆθ statisztika, ha L(ˆθ) = max L(θ, x 1,..., x n ). θ

A szorzat maximumhelyének meghatározása helyett sokszor könnyebb egy összeg maximumhelyét megadni, ezért vezetjük be a következő fogalmat. Definíció Tekintsük az x 1,..., x n realizációt, θ paramétert, és a hozzájuk tartozó L(θ) likelihood-függvényt. A log-likelihood függvény l(θ) = ln L(θ). A (természetes alapú) logaritmus függvény monoton növő, ezért l(θ) éppen ott veszi fel szélsőértékeit, ahol L(θ). Megjegyzés ML becslést konkrét realizáció esetén kapunk, ha minden realizációra tekintjük, akkor kapunk becslést θ-ra.

Valószínűség ML becslése Legyen A egy esemény p = P(A) valószínűséggel, ahol 0 < p < 1. Tekintsük ξ = I (A) háttérváltozót (A indikátorváltozója), ez Bernoulli-eloszlású p paraméterrel. Tegyük fel, hogy x 1,..., x n, az ebből vett minta realizációja nem csupa 0 vagy csupa 1, és legyen K n (A) = n x i. L(p) = p Kn(A) (1 p) n Kn(A), ha p (0, 1) tehát l(p) = K n (A) ln p + (n K n (A)) ln(1 p) maximumhelyét keressük (0, 1)-en.

l(p) a (0, 1)-en kétszer deriválható, így l (ˆp) = K n(a) ˆp l (ˆp) = K n(a) ˆp 2 n K n(a) 1 ˆp = 0, n K n(a) (1 ˆp) 2 < 0 megoldása ˆp = K n (A)/n lesz p ML becslése. Megjegyzések Ha p = 0 vagy 1, akkor l(p) nem értelmezett. Ha a realizáció 1,..., 1, akkor L(p) = p n ha p [0, 1], maximumhelye 1, de nem deriválható 1-ben. (0, 1)-en nincs szélsőértéke L(p)-nek. Hasonló a helyzet 0,..., 0 realizáció esetén, L(p) = (1 p) n ha p [0, 1]. Ha K n (A) a bekövetkezések száma, E(K n (A)/n) = np/n = p.

Másik lehetőség p ML becslésére, ha tekintünk egy 0 < p < 1 paraméterű geometriai eloszlású ξ háttérváltozót. Tekintsük az x 1,..., x n N + mintarealizációt. Ekkor L(p) = p(1 p) x 1 1... p(1 p) xn 1 = p n (1 p) n x i n ( n ) l(p) = n ln p + x i n ln(1 p). l(p) (0, 1)-en kétszer deriválható, így l (ˆp) = ṋ n p x i n = 0, 1 ˆp l (ˆp) = n n ˆp 2 x i n (1 ˆp) 2 < 0 megoldása ˆp = n/ n x i. Belátható, hogy ˆp = n/ n ξ i nem torzítatlan becslése p-nek.

Poisson eloszlás paraméterének ML becslése L(λ) = tehát n ( λ x i x i! e λ l(λ) = ) = λ n x i ( n 1 x i!) e nλ, λ > 0. n x i ln λ + c nλ, λ > 0 kétszer deriválható (0, )-en, n l (ˆλ) = x i n = 0, ˆλ l (ˆλ) = n x i ˆλ 2 < 0 megoldása ˆλ = n x i/n, ha n x i 0. Ha n x i = 0, akkor L(λ) = e nλ, ennek nincs szélsőértéke a (0, ) intervallumon, így ekkor λ-nak nincs ML becslése.

Exponenciális eloszlás paraméterének ML becslése tehát L(λ) = n ( ) λe λx i = λ n e λ n x i, λ > 0. l(λ) = n ln λ λ kétszer deriválható (0, )-en, n x i, λ > 0 l (ˆλ) = ṋ n λ x i = 0, megoldása ˆλ = n/ n x i. l (ˆλ) = n ˆλ 2 < 0 Belátható, hogy 1/E n (ξ) nem torzítatlan becslése λ-nak.

Intervallum jobb végpontjának ML becslése Legyen ξ háttérváltozó egyenletes eloszlású a [0, θ] intervallumon (f (x) = θ 1, ha 0 x θ és 0 különben). { θ L(θ) = n, ha x 1,..., x n θ, 0 különben { θ = n, ha max n x i θ, 0 különben. L(θ) monoton nő, ezért maximumhelye ˆθ = max n x i. Megjegyzések Mivel L(θ)-nak a maximumhelye szakadási pont, deriválással nem lehet meghatározni ˆθ-t. Belátható, hogy E(max n ξ i) = n n+1 θ. Ha a (0, θ) intervallumból vennénk a mintát, akkor nem létezne ML becslés.

Intervallum helyének ML becslése Legyen ξ háttérváltozó egyenletes eloszlású a [θ, θ + 1] intervallumon (f (x) = 1, ha θ x θ + 1 és 0 különben). L(θ) = = { 1, ha θ x1,..., x n θ + 1, 0 különben { 1, ha max n x i 1 θ min n x i, 0 különben. L(θ) maximumhelyei a [max n x i 1, min n x i] intervallum pontjai. Megjegyzés Belátható, hogy E(max n ξ i 1) = θ 1/(n + 1), valamint E(min n ξ i) = θ + 1/(n + 1), tehát a kettő átlaga torzítatlan becslés θ-ra.

Normális eloszlás paramétereinek ML becslése L(µ, σ) = n ahol µ R és σ > 0. 1 2πσ e 1 2σ 2 (x i µ) 2 = ( 2πσ) n e 1 2σ 2 n (x i µ) 2, l(µ, σ) = n ln 2π n ln σ 1 2σ 2 n (x i µ) 2, ami kétszer deriválható. Képezzük a parciális deriváltakat: l µ = 1 n σ 2 (x i µ) = 0 (1) l σ = n σ + 1 σ 3 n (x i µ) 2 = 0, (2) L lehetséges szélsőértékhelyei ezek közös zérushelyei.

(1)-ből kapjuk, hogy ˆµ = n x i n = E n (ξ), ezt (2)-be helyettesítve pedig n ˆσ = 1ˆσ 3 n (x i ˆµ) 2 ˆσ 2 = 1 n (x i ˆµ) 2 n ˆσ = 1 n (x i ˆµ) n 2 = D n (ξ). Belátható, hogy (ˆµ, ˆσ) valóban maximumhelye L(µ, σ)-nak.

Normális eloszlásból származtatott eloszlások Legyenek ξ 0,..., ξ m+n független, standard normális eloszlású vv-k. Definíció χ 2 = ξ 2 1 +... + ξ2 n vv n szabadságfokú χ 2 eloszlású F χ 2,n eloszlásfüggvénnyel. ξ 0 n vv n szabadságfokú Student (t) eloszlású ξ1 2 +... + ξ2 n Φ n eloszlásfüggvénnyel. n m ξ1 2 +... + ξ2 m ξm+1 2 +... + vv (m, n) szabadságfokú F eloszlású ξ2 m+n F m,n eloszlásfüggvénnyel.

Megjegyzések Bizonyos paraméterértékek esetén a χ 2, Student és F eloszlások inverz eloszlásfüggvényeinek néhány értékét statisztikai táblázatok tartalmazzák. A t(n) eloszlás szimmetrikus: ha ξ t(n), akkor ξ t(n). Belátható, hogy ha ξ n t(n) és ξ N(0, 1), akkor ξ n ξ eloszlásban, ha n (vagyis Φ n (x) Φ(x), ha n ). Ha ξ F (n, m), akkor 1/ξ F (m, n). Ebből, ha x > 0, F n,m (x) = P(ξ < x) = P(1/ξ > 1/x) = 1 F m,n (1/x). Ha ξ t(n), akkor ξ 2 F (1, n). Ha ξ χ 2 (m), η χ 2 (n) függetlenek, akkor ξ/m η/n F (m, n).

Tétel Legyen ξ 1,..., ξ n egy N(µ, σ 2 ) eloszlásból vett minta. A következők teljesülnek: E n (ξ) N ) (µ, σ2, n n σ 2 V n(ξ) χ 2 (n 1), E n (ξ) és V n (ξ) függetlenek, E n(ξ) µ V n /n t(n 1).

Bizonyítás E n (ξ) = n ξ i/n N(nµ/n, nσ 2 /n 2 ) = N(µ, σ 2 /n). Legyen ξ = (ξ 1,..., ξ n ), U egy n n-es ortogonális mátrix, amely első sorának minden eleme 1/ n és legyen η = Uξ. η N(U(µ,... µ), Uσ 2 IU ) = N(( nµ, 0,..., 0), σ 2 I). η 1 = ne n (ξ), így nv n (ξ) = n ξ2 i ne 2 n(ξ) = n i=2 η2 i, mivel n n ηi 2 = η η = ξ U Uξ = ξ ξ = ξi 2, tehát E n (ξ) = η 1 / n és V n (ξ) = n i=2 η2 i n nv n (ξ) σ 2 = és a t eloszlás def. miatt η 2 i σ 2 χ2 (n 1), i=2 n 1(En(ξ) µ) n/σ n i=2 nvn(ξ)/σ2 /n függetlenek. Továbbá = En(ξ) µ V n /n t(n 1).

Tétel Legyen ξ 1,..., ξ n1 egy N(µ 1, σ 2 1 ), η 1,..., η n2 egy N(µ 2, σ 2 2 ) eloszlásból vett független minta. A következők teljesülnek: ha σ 1 = σ 2, akkor E n1 (ξ) E n2 (η) (µ 1 µ 2 ) N(0, 1). σ 2 1 n 1 + σ2 2 n 2 E n1 (ξ) E n2 (η) (µ 1 µ 2 ) n1 V n1 (ξ) + n 2 V n2 (η) n 1 n 2 (n 1 + n 2 2) n 1 + n 2 Student eloszlású n 1 + n 2 2 szabadságfokkal, Vn 1 (ξ)σ2 2 Vn 2 (η)σ1 2 F (n 1 1, n 2 1).

Bizonyítás vázlat Az előző tétel alapján tehát E n1 (ξ) N(µ 1, σ 2 1/n 1 ) és E n2 (η) N(µ 2, σ 2 2/n 2 ), E n1 (ξ) E n2 (η) N(µ 1 µ 2, σ 2 1/n 1 + σ 2 2/n 2 ), amiből adódik a tétel első része. Szintén az előző tétel miatt (n 1 1)V n 1 (ξ)/σ 2 1 χ 2 (n 1 1), (n 2 1)V n 2 (η)/σ 2 2 χ 2 (n 2 1), (n 1 1)V n 1 (ξ)/σ 2 1 + (n 2 1)V n 2 (η)/σ 2 2 χ 2 (n 1 + n 2 2) amiből a t és F eloszlások definíciója alapján az előző tételhez hasonlóan adódik a további két álĺıtás.

Konfidencia intervallumok Legyen θ ismeretlen paraméter. Az intervallumbecslés lényege olyan intervallum konstruálása (statisztikák segítségével), amelybe θ nagy valószínűséggel (általában 0,95 vagy 0,99) beleesik. Definíció Legyen S n < T n két statisztika, amelyre P(S n < θ < T n ) = 1 α. Ekkor azt mondjuk, (S n, T n ) egy 1 α megbízhatósági szintű konfidencia intervallum θ-ra. A konfidencia-intervallum szerkesztése általában Keresünk egy Z n (θ) statisztikát, aminek az eloszlása ismert. Z n (θ)-ra szerkesztünk intervallumot: P(a < Z n (θ) < b) = 1 α, ahol a, b konstansok. A Z n (θ)-ra feĺırt egyenlőtlenségeket átalakítjuk θ-ra feĺırt egyenlőtlenségekké: P(S n (a, b) < θ < T n (a, b)) = 1 α.

Konfidencia intervallum normális eloszlás várható értékére Legyen ξ 1,..., ξ n N(µ, σ 2 )-ből vett minta, ahol σ ismert. µ-re keresünk 1 α megbízhatósági szintű konfidencia intervallumot. Tudjuk, hogy E n (ξ) N(µ, σ 2 /n). Szerkesszünk a Z n (µ) = En(ξ) µ σ/ N(0, 1) statisztika köré intervallumot: n P( x α < Z n (µ) < x α ) = P(Z n (µ) < x α ) P(Z n (µ) < x α ) amiből x α = Φ 1 (1 α 2 ). = Φ(x α ) Φ( x α ) = 2Φ(x α ) 1 = 1 α, ( 1 α = P x α < E ) n(ξ) µ σ/ < x α n ) σ σ = P (E n (ξ) x α n < µ < E n (ξ) + x α n. Az intervallum hossza T n S n = 2x α σ/ n 0, ha n.

Most nézzük meg azt az esetet, ha σ ismeretlen. Legyen Z n (µ) = E n(ξ) µ t(n 1). V n (ξ)/n A t(n 1) eloszlás szimmetriáját felhasználva a P( x α < Z n (µ) < x α ) = 2Φ n 1 (x α ) 1 = 1 α összefüggésből az előzőhöz hasonlóan adódik x α = Φ 1 n 1 (1 α 2 ). Ebből 1 α = P ( ) x α < E n(ξ) µ V n (ξ)/n < x α ( D = P E n (ξ) x n(ξ) D ) α < µ < E n (ξ) + x n(ξ) α. n n

Konfidencia intervallum normális eloszlás szórására Legyen Z n (σ) = nv n (ξ)/σ 2 χ 2 (n 1). Ha a α = F 1 χ 2,n 1 (α/2) és b α = F 1 (1 α/2), χ 2,n 1 ( P(a α < Z n (σ) < b α ) = F χ 2,n 1(b α ) F χ 2,n 1(a α ) = 1 α ) α 2 2. ( 1 α = P a α < nv ) n(ξ) σ 2 < b α = P nv n (ξ) < σ < b α nv n (ξ). a α

Konf. intervallum normális eloszlások vé. különbségére Legyenek ξ 1,..., ξ n1 N(µ 1, σ 2 ) és η 1,..., η n2 N(µ 2, σ 2 ) fgn. minták. µ 1 µ 2 -re keresünk konfidencia intervallumot. Legyen Z n1,n 2 (µ 1 µ 2 ) = E n 1 (ξ) E n2 (η) (µ 1 µ 2 ) D t(n 1 + n 2 2), ahol D 2 n 1 + n 2 = (n 1 V n1 (ξ) + n 2 V n2 (η)) n 1 n 2 (n 1 + n 2 2). P( x < Z n1,n 2 < x) = 2Φ n1 +n 2 1(x) 1, így az x α = Φ 1 n 1 +n 2 2 (1 α/2) választással kapjuk: ( 1 α = P x α < E ) n 1 (ξ) E n2 (η) (µ 1 µ 2 ) < x α D = P (E n1 (ξ) E n2 (η) x α D < µ 1 µ 2 < E n1 (ξ) E n2 (η) + x α D ).

Konf. intervallum normális eloszlások szóráshányadosára Legyenek ξ 1,..., ξ n1 N(µ 1, σ 2 1 ) és η 1,..., η n2 N(µ 2, σ 2 2 ) fgn. minták. σ 1 /σ 2 -re keresünk konfidencia intervallumot. Legyen Z n1,n 2 (σ 1 /σ 2 ) = V n 1 (ξ) σ 2 2 V n 2 (η) σ 2 1 F (n 1 1, n 2 1). Ha a α = Fn 1 1 1,n 2 1 (α/2) és b α = Fn 1 1 1,n 2 1 (1 α/2), akkor 1 α = F n1 1,n 2 1(b α ) F n1 1,n 2 1(a α ) = ( ) P a α < V n 1 (ξ) σ2 2 Vn 2 (η) σ1 2 < b α ( ) = P Vn 1 (ξ) Vn < σ 1 < 2 (η)b α σ 2 Vn 1 (ξ) Vn 2 (η)a α.

Paraméteres próbák Legyen θ a háttéreloszlás egy ismeretlen paramétere a Θ paramétertér egy eleme, továbbá Θ 0 Θ 1 = Θ, Θ 0 Θ 1 =, Θ 0, Θ 1. A H 0 : θ Θ 0, H 1 : θ Θ 1 nullhipotézist és alternatív hipotézist vizsgáljuk. A hipotézisek közötti döntés egy S n tesztstatisztika (próbastatisztika) és egy C(α) kritikus tartomány segítségével történik: pontosan akkor vetjük el H 0 -t, ha S n C(α). A C(α)-t elfogadási tartománynak nevezzük. Ha P H0 (S n C(α)) α, akkor α terjedelmű próbáról beszélünk. α-t nevezik szignifikancia-szintnek is. H 0 általában θ = θ 0 alakú, H 1 pedig θ θ 0 (kétoldali próba), θ < θ 0 vagy θ > θ 0 (egyoldali próba). α-t általában 0,05-nak vagy 0,01-nak, néha 0,1-nek választják.

Tévedési lehetőségek: Elsőfajú hiba: H 0 teljesül, de elvetjük. Ennek valószínűsége p 1 = P H0 (S n C(α)) α. Másodfajú hiba: H 0 nem teljesül, de elfogadjuk. Ennek valószínűsége p 2 = P H1 (S n / C(α)). Definíció e n (α, θ) = 1 p 2 = P H1 (S n C(α)) a próba ereje, az e n függvény az erőfüggvény. Definíció Egy próba konzisztens, ha lim n e n (α, θ) = 1. Megjegyzések A kritikus tartomány csökkentésével az elsőfajú hiba csökken, a másodfajú hiba nő, ezért a kétfajta hiba egyszerre nem minimalizálható. A konzisztencia azt jelenti, hogy a mintaelemszám növelésével a másodfajú hiba tetszőlegesen kicsivé tehető.

Próbák szerkesztése Általános módszer próbák szerkesztésére Keresünk egy S n statisztikát, aminek ismert az eloszlása, ha H 0 teljesül. Jelölje az eloszlásfüggvényét G. Egyoldali próba esetén meghatározunk egy s α kritikus értéket, amelyre P H0 (S n < s α ) = G(s α ) = 1 α: s α = G 1 (1 α). Kétoldali próba esetén s α (1) és s α (2) kritikus értékeket keresünk, amelyekre P H0 (s α (1) S n < s α (2) ) = G(s α (2) ) G(s α (1) ) = 1 α: s α (1) = G 1 (α/2) és s α (2) = G 1 (1 α/2). Döntés: H 0 -t elfogadjuk, ha egyoldali esetben S n s α, kétoldali esetben s α (1) S n s α (2). Megjegyzés Ha több módon választhatjuk meg S n statisztikát (illetve a kritikus értékeket), akkor válasszuk azt, ahol az erőfüggvény nagyobb.

u-próba (µ-próba, Z-próba) Tekintsünk egy N(µ, σ 2 ) eloszlásból vett mintát. Tegyük fel, hogy σ ismert. Rögzített µ 0 esetén vizsgáljuk a következő hipotéziseket: H 0 : µ = µ 0, H 1 : µ µ 0. Tekintsük a következő próbastatisztikát: u = E n(ξ) µ 0 σ/, n ami H 0 teljesülése esetén standard normális eloszlású. Ehhez és α > 0-hoz keressük az u α kritikus értéket úgy, hogy P H0 ( u α u < u α ) = Φ(u α ) Φ( u α ) = 2Φ(u α ) 1 = 1 α legyen amiből u α = Φ 1 (1 α/2) adódik, C(α) = { u > u α }. Döntés: ha u u α, akkor H 0 -t elfogadjuk, különben elvetjük.

A hibák valószínűségei: Elsőfajú hiba valószínűsége: p 1 = P H0 ( u > u α ) = 1 P H0 ( u α u u α ) = α. Felhasználva, hogy En(ξ) µ valószínűsége: σ/ n N(0, 1), a másodfajú hiba p 2 = P H1 ( u u α ) ( = P H1 u α E n(ξ) µ 0 σ/ n ( = P H1 u α + µ 0 µ = Φ ( u α + µ 0 µ σ/ n ) u α σ/ n E n(ξ) µ σ/ u α + µ ) 0 µ n σ/ n ) ( Φ u α + µ ) 0 µ σ/. n

Álĺıtás Az u-próba konzisztens. Bizonyítás ( e n (α, µ) = 1 p 2 = 1 Φ u α + µ 0 µ σ/ n ) ( + Φ u α + µ 0 µ σ/ n Ha µ > µ 0, akkor µ 0 µ σ/, ha n. Tehát n lim n e n (α, µ) = 1 lim x Φ(x) + lim x Φ(x) = 1. Ha µ 0 < µ, akkor µ 0 µ σ/, ha n. Tehát n lim n e n (α, µ) = 1 lim x Φ(x) + lim x Φ(x) = 1. Megjegyzés A mintaelemszám növelésével a máűsodfajú hiba tetszőlegesen kicsivé tehető konstans α elsőfajú hiba mellett. Könnyen látható, hogy az α terjedelmű u-próba pontosan akkor fogadja el H 0 -t, ha µ 0 benne van az ismert σ esetén µ-re konstruált 1 α megbízhatósági szintű konfidencia intervallumban. ).

Egyoldali u-próba Most a következő hipotéziseket vizsgáljuk: A próbastatisztika most is H 0 : µ = µ 0, H 1 : µ > µ 0. u = E n(ξ) µ 0 σ/, n ami H 0 teljesülése esetén standard normális eloszlású. Ehhez és α > 0-hoz keressük az u α kritikus értéket úgy, hogy P H0 (u < u α ) = Φ(u α ) = 1 α legyen amiből u α = Φ 1 (1 α) adódik. Döntés: ha u u α, akkor H 0 -t elfogadjuk, különben elvetjük.

Álĺıtás Az egyoldali u-próba konzisztens. Bizonyítás Felhasználva, hogy En(ξ) µ σ/ N(0, 1), a másodfajú hiba n valószínűsége: ( ) En (ξ) µ 0 p 2 = P H1 σ/ u α n ( En (ξ) µ = P H1 σ/ u α + µ ) 0 µ n σ/ n ( = Φ u α + µ ) 0 µ σ/. n Ha µ > µ 0, akkor µ 0 µ σ/, ha n, így n ( e n (α, µ) = 1 p 2 = 1 Φ u α + µ ) 0 µ σ/ 1, ha n. n

t-próba Tekintsünk egy N(µ, σ 2 ) eloszlásból vett mintát, ahol σ ismeretlen. H 0 : µ = µ 0, H 1 : µ µ 0. Tekintsük a következő próbastatisztikát: t = E n(ξ) µ 0 V n /n, ami H 0 teljesülése esetén n-1 szabadságfokú Student eloszlású. Ehhez és α > 0-hoz keressük a t α kritikus értéket úgy, hogy P H0 ( t < t α ) = Φ n 1 (t α ) Φ n 1 ( t α ) = 2Φ n 1 (t α ) 1 = 1 α legyen amiből t α = Φ 1 n 1 (1 α/2) adódik. Döntés: ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük.

Egyoldali t-próba H 0 : µ = µ 0, H 1 : µ > µ 0 A próbastatisztika most is t = E n(ξ) µ 0 V n /n, ami H 0 teljesülése esetén n-1 szabadságfokú Student eloszlású. Ehhez és α > 0-hoz keressük az t α kritikus értéket úgy, hogy P H0 (t < t α ) = Φ n 1 (t α ) = 1 α legyen amiből t α = Φ 1 n 1 (1 α) adódik. Döntés: ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük.

Megjegyzések Belátható, hogy a két- és egyoldali t-próba is konzisztens. Könnyen látható, hogy az α terjedelmű kétoldali t-próba pontosan akkor fogadja el H 0 -t, ha µ 0 benne van az ismeretlen σ esetén µ-re konstruált 1 α megbízhatósági szintű konfidencia intervallumban. t aszimptotikus normalitása miatt nagy minta esetén ugyanazt a kritikus értéket használhatjuk, mint az u-próbánál. Nagy mintaelemszám esetén a centrális határeloszlástétel miatt mind az u-, mind a t-próba tetszőleges eloszlásból vett minta esetén alkalmazható. Az egyoldali u- és t-próbának van H 0 : µ = µ 0, H 1 : µ < µ 0 alternatívákat vizsgáló változata is, ekkor a próbastatisztika helyett annak 1-szeresét használjuk. Általában az egyoldali próbák staisztikája ugyanaz, mint a kétoldali változat, csak az elfogadási és a kritikus tartományt módosítják.

Páros t-próba Összetartozó (nem független) minta esetén a különbségváltozóra vonatkozó, ún. önkontrollos vizsgálat alkalmazható. Legyen (ξ, η) olyan vektorváltozó, amely komponenseinek létezik a várható értéke: E(ξ) = µ 1 és E(η) = µ 2, továbbá ν = ξ η normális eloszlású. Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát. A H 0 : µ 1 = µ 2 hipotézist vizsgáljuk. Az eljárás a következő: Képezzük a ν i = ξ i η i változókat, amik függetlenek és normális eloszlásúak µ = µ 1 µ 2 várható értékkel. A ν 1,..., ν n minta segítségével egymintás t-próbával teszteljük a H 0 : µ = 0 nullhipotézist. Ha H 1 : µ 1 µ 2, akkor a kétoldali, ha H 1 : µ 1 > µ 2, akkor az egyoldali változatot alkalmazzuk.

Kétmintás t-próba Tekintsük a ξ 1,..., ξ n1 N(µ 1, σ 2 ) és η 1,..., η n2 N(µ 2, σ 2 ) független mintákat. H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2. A próbastatisztika: E n1 (ξ) E n2 (η) t = n1 V n1 (ξ) + n 2 V n2 (η) n 1 n 2 (n 1 + n 2 2), n 1 + n 2 amiről tudjuk, hogy n 1 + n 2 2 szabadságfokú Student eloszlású H 0 teljesülése esetén. A kritikus érték α szinthez t α = Φ 1 n 1 +n 2 2 (1 α/2). Döntés: ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük.

Welch-próba Tekintsük a ξ 1,..., ξ n1 N(µ 1, σ 2 1 ) és η 1,..., η n2 N(µ 2, σ 2 2 ) független mintákat. H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2. A próbastatisztika:, V n1 (ξ) n 1 + V n 2 (η) n 2 t = E n 1 (ξ) E n2 (η) ( ) ami közeĺıtőleg df = c 2 1 n 1 1 + (1 c)2 n 2 1 szabadságfokú Student eloszlású H 0 teljesülése esetén, ahol c = V n 1 (ξ)/n 1 V n 1 (ξ)/n 1 + V n 2 (η)/n 2. A kritikus érték α szinthez t α = Φ 1 df (1 α/2). Döntés: ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük.

Megjegyzések Belátható, hogy a kétmintás t-próba konzisztens. Könnyen látható, hogy az α terjedelmű kétmintás t-próba pontosan akkor fogadja el a nullhipotézist, ha 0 benne van az ismeretlen szórás esetén µ 1 µ 2 -re konstruált 1 α megbízhatósági szintű konfidencia intervallumban. A kétmintás t-próbának van egyoldali változata is, ahol H 0 : µ 1 = µ 2, H 1 : µ 1 > µ 2, a t próbastatisztika ugyanaz, a kritikus érték t α = Φ 1 n 1 +n 2 2 (1 α), a döntés pedig ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük. A kétmintás t-próba feltétele a szórások egyezése, amit az alábbi F-próbával tesztelünk. Ha a szórások nem egyenlőek, akkor µ 1 µ 2 -re vonatkozó hipotéziseket a Welch-próbával vizsgáljuk.

F-próba Tekintsük a ξ 1,..., ξ n1 N(µ 1, σ 2 1 ) és η 1,..., η n2 N(µ 2, σ 2 2 ) független mintákat. H 0 : σ2 1 σ 2 2 A próbastatisztika: = τ 0, H 1 : σ2 1 σ 2 2 F = V n 1 V n 2 τ 0, τ 0. ami n 1 1, n 2 1 szabadságfokú F eloszlású H 0 esetén. A kritikus értékek α szinthez: f 1,α = Fn 1 1 1,n 2 1 (α/2) és f 2,α = Fn 1 1 1,n 2 1 (1 α/2). Döntés: ha f 1,α F f 2,α, akkor H 0 -t elfogadjuk, különben elvetjük.

A gyakorlatban az F-próba módosított változatát alkalmazzák, ami azon alapszik, hogy H 0 teljesülése esetén 1/F F (n 2 1, n 1 1), továbbá f 1,α < 1 és f 2,α > 1. Tehát a módosított próbastatisztika { V } F = max n1 Vn, V n 2 τ 0 1. 2 τ 0 V n 1 A kritikus érték α szinthez { F 1 n F α = 1 1,n 2 1 (1 α/2), ha V n 1 /Vn 2 τ 0, Fn 1 2 1,n 1 1 (1 α/2), ha V n 1 /Vn 2 < τ 0. Akkor fogadjuk el H 0 -t, ha F < F α. Szemléletesen: a mintát úgy választjuk, hogy az eredeti változatban F 1 teljesül, és csak a felső kritikus értékkel hasonĺıtjuk össze. Ez magyarázza, hogy az F táblázatokban csak F 1 m,n(p) értékek 1-hez közeli p-kre vannak feltüntetve.

Nemparaméteres próbák Nemparaméteres próbák esetén nem feltételezzük, hogy olyan eloszláscsaládból vesszük a háttérváltozó eloszlását, amely véges sok paraméterrel leírható. Leggyakoribb nemparaméteres tesztek események valószínűségére vonatkozó próbák, eloszlásfüggvények tesztelése, kvantilisekre (általában mediánra) vonatkozó próbák, homogenitásvizsgálatok, függetlenségvizsgálatok, véletlenszerűség tesztelése. Itt csak a legáltalánosabban használt nemparaméteres próbákat (kétoldali változataikat) tekintjük át.

χ 2 próbák Valószínűségek tesztelése Legyen A 1,..., A r teljes eseményrendszer, p i > 0 minden i-re és p 1 +... + p r = 1. H 0 : P(A i ) = p i, i = 1,..., r, Végezzünk n független megfigyelést, és jelölje ϕ i az A i bekövetkezéseinek számát. χ 2 = r (ϕ i np i ) 2 H 0 esetén eloszlásban χ 2 (r 1)-hez tart (n ), így a kritikus érték χ 2 α = F 1 (1 α). χ 2,r 1 Döntés: (nagy mintaelemszám esetén) ha χ 2 < χ 2 α, akkor elfogadjuk H 0 -t. np i

Tiszta illeszkedésvizsgálat χ 2 próbával Legyen ξ 1,..., ξ n minta ismeretlen F eloszlásfüggvénnyel. H 0 : F (x) = F 0 (x) x R, ahol F 0 egy adott eloszlásfüggvény. Legyenek = x 0 < x 1 <... < x r 1 < x r = osztópontok, valamint A i = {ξ [x i 1, x i )}, i = 1,..., r. P(A i ) = P(x i 1 ξ < x i ) = F (x i ) F (x i 1 ). Legyen p i = F 0 (x i ) F 0 (x i 1 ). A fentiek alapján H 0 maga után vonja az alábbi hipotézist: H 0 : P(A i ) = p i, i = 1,..., r, tehát a feladatot visszavezettük valószínűségek tesztelésére χ 2 próbával.

Becsléses illeszkedésvizsgálat χ 2 próbával H 0 : F (x) = F θ1,...,θ k (x) x R, ahol F θ1,...,θ k adott eloszlásfüggvény θ 1,..., θ k ismeretlen paraméterekkel. Vegyük a paraméterek ˆθ 1,..., ˆθ k becsléseit és legyen F 0 = Fˆθ1,...,ˆθ k. Az eljárás ugyanaz, mint a tiszta illeszkedésvizsgálatnál, de itt a próbastatisztika H 0 mellett n 1, n 2 esetén eloszlásban tart χ 2 (r k 1)-hez. Megjegyzések Ha ξ értékkészlete véges: x 1,..., x r, akkor nincs szükség osztópontokra, hanem az A i = {ξ = x i } választással a valószínűségek tesztelését közvetlenül alkalmazhatjuk. Becsléses illeszkedésvizsgálat esetén a szabadságfok most is csökken a becsült paraméterek számával. Jól használható ökölszabály a mintaelemszámra az eddigi χ 2 próbáknál: n > max 1 i r {10/p i }.

Homogenitásvizsgálat χ 2 próbával Tekintsünk két mintát: ξ 1,..., ξ n1 és η 1,..., η n2. H 0 : P(ξ < x) = P(η < x) x R. Legyenek most is = x 0 < x 1 <... < x r 1 < x r = osztópontok és µ i az [x i 1, x i ) intervallumba eső első, ν i a második mintabeli elemek száma. r ( χ 2 1 µi = n 1 n 2 ν ) 2 i. µ i + ν i n 1 n 2 ami H 0 esetén n 1, n 2 esetén eloszlásban tart χ 2 (r 1)-hez. Tehát most is χ 2 α = F 1 (1 α). χ 2,r 1 Döntés: ha χ 2 < χ 2 α, akkor elfogadjuk H 0 -t. Megjegyzés Diszkrét véges értékkészletű változók esetén itt sincs szükség az osztópontokra: intervallumokba esés helyett x i értéket keresünk.

Függetlenségvizsgálat χ 2 próbával Legyen ξ értékkészlete x 1,..., x r és η-é y 1,..., y s. H 0 : P(ξ = x i, η = y j ) = P(ξ = x i )P(η = y j ), 1 i r, 1 j s, azaz ξ és η függetlenek. Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát. Legyen ν ij az (x i, y j ) gyakorisága a mintában (a ν ij értékeket az ún. kontingenciatáblázat tartalmazza), ν i = s j=1 ν ij és ν j = r ν ij. r s χ 2 (ν ij ν i ν j n = n )2, ν i ν j j=1 ami H 0 mellett n 1, n 2 esetén eloszlásban tart χ 2 ((r 1)(s 1))-hez. Tehát χ 2 α = F 1 (1 α). χ 2,(r 1)(s 1) Döntés: ha χ 2 < χ 2 α, akkor elfogadjuk H 0 -t. Megjegyzés Ennek speciális esete a homogenitásra vonatkozó χ 2 próba.

Kolmogorov-Szmirnov próbák Tiszta illeszkedésvizsgálat A próbastatisztika H 0 : P(ξ < x) = F 0 (x) x R. n = sup F n (x) F 0 (x). x R H 0 mellett n n aszimptotikusan Kolmogorov-eloszlású. A kritikus érték k α = K 1 (1 α)/ n. Döntés: elfogadjuk H 0 -t, ha n < k α. Megjegyzések n meghatározásához elég 2n különbséget meghatározni, mivel F 0 monoton növő, F n pedig lépcsős függvény. Egyoldali változatban a próbastatisztika abszolutérték nélküli és közeĺıtőleg Szmirnov-eloszlású.

Homogenitásvizsgálat Kolmogorov-Szmirnov próbával H 0 : P(ξ < x) = P(η < x) x R. Tekintsük a ξ 1,..., ξ n1 és η 1,..., η n2 mintákat és a hozzájuk tartozó F n1 és G n2 empirikus eloszlásfüggvényeket. A próbastatisztika H 0 mellett n1 n 2 n 1 +n 2 n1,n 2 n1,n 2 = sup F n1 G n2. x R Tehát k α = n1 +n 2 n 1 n 2 K 1 (1 α). Döntés: elfogadjuk H 0 -t, ha n < k α. közeĺıtőleg Kolmogorov-eloszlású. Az illeszkedésvizsgálat megjegyzései itt is érvényesek.

Binomiális teszt Legyen ξ B(p) változó. ahol p 0 (0, 1) adott. H 0 : P(ξ = 1) = p 0, S n = K n ({ξ = 1}) a H 0 mellett binom(n, p 0 ) eloszlású. A kritikus értékek c 1 és c 2, amelyekre éppen c 1 ( ) n P H0 (S n c 1 ) = p0 k (1 p 0 ) n k α k 2, P H0 (S n c 2 ) = k=0 n k=c 2 ( ) n p0 k (1 p 0 ) n k α k 2. S Ha n nagy, CHT miatt n np 0 N(0, 1) közeĺıtőleg, np0 (1 p 0 ) c 1,2 = np 0 ( np 0 (1 p 0 ) Φ 1 1 α ). 2 Döntés: ha c 1 < S n < c 2, akkor H 0 -t elfogadjuk.

Egymintás előjelpróba Legyen ξ folytonos eloszlású valószínűségi változó. azaz a p 0 -kvantilis éppen x 0. H 0 : P(ξ < x 0 ) = p 0, Tekintsük az η = I (ξ < x 0 ) valószínűségi változót, amely B(p) eloszlású, ahol p = P(ξ < x 0 ). Alkalmazzuk a H 0 : P(η = 1) = p 0 hipotézis tesztelésére az binomiális tesztet. Itt a tesztstatisztika éppen S n = nf n (x 0 ), ami H 0 mellett binom(n, p 0 ) eloszlású. Megjegyzés: a próba neve x 0 ξ előjelére utal.

Medián-próba Az előjelpróba kétmintás változata. ξ 1,..., ξ n1 és η 1,..., η n2 független, folytonos eloszlású minták (n 1 + n 2 páros). H 0 : P(ξ < x) = P(η < x) x R. Vegyük az egyesített minta mediánját és jelölje M n1,n 2 az első mintában a mediánnál kisebb elemek számát. H 0 mellett ( n1 )( n 2 ) k n 1 +n 2 k 2 P(M n1,n 2 = k) = ), k = 0,..., n 1. ( n1 +n 2 n 1 +n 2 2 E(M n1,n 2 ) = n 1 2 és D 2 (M n1,n 2 ) = n 1 n 2 4(n 1 +n 2 +1). Ha n 1 és n 2 nagy, akkor Mn 1,n 2 E(Mn 1,n 2 ) D(M n1,n 2 ) N(0, 1) közeĺıtőleg. Döntés: H 0 -t elfogadjuk, ha < Φ 1 ( 1 α ) 2. Mn 1,n 2 E(Mn 1,n 2 ) D(M n1,n 2 )

Wilcoxon-próba Legyen ξ folytonos, a mediánra szimmetrikus eloszlású vv. H 0 : P(ξ < m 0 ) = 1 2. Rendezzük sorba ξ 1 m 0,..., ξ n m 0 mintát és legyen R i rangszám ξ i m 0 sorszáma ebben a rendezett mintában. Legyen T + = i:ξ i >m 0 R i. H 0 mellett kis n esetén T + eloszlásának t(α, n) kvantiliseit táblázat tartalmazza. Nagy n-re T + E(T + ) D(T + ) N(0, 1) közeĺıtőleg, E(T + ) = 1 n 2 i = n(n+1) 4 és D 2 (T + ) = n(n+1)(2n+1) 24. Döntés: H 0 -t elfogadjuk, ha kis n esetén t(α/2, n) < T + < n(n+1) 2 t(α/2, n), nagy n-re T + E(T + ) D(T + ) < Φ 1 (1 α/2).

Páros Wilcoxon-próba ξ, η folytonos eloszlásúak. Önkontrollos vizsgálatot alkalmazunk a következő hipotézis vizsgálatára: H 0 : P(ξ < η) = 1 2 Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát. Legyen ν i = ξ i η i, így H 0 : P(ν < 0) = 1 2, amit egymintás Wilcoxon-próbával tesztelhetünk, ha ν eloszlása folytonos és a mediánjára szimmetrikus. Megjegyzések A páros t-próba nemparaméteres alternatívájaként alkalmazzák. Az előjelpróbának is hasonlóan konstruálhatjuk meg a páros változatát, de ott nem kell feltenni ν szimmetriáját.

Kétmintás Wilcoxon (Mann-Whitney) próba η i = ξ i, i = 1,..., n 1 és ν j = ξ j + θ, j = n 1 + 1,..., n 1 + n 2 minták, ahol ξ 1,..., ξ n1 +n 2 független, azonos folytonos eloszlású változók. H 0 : θ = 0. Rendezzük sorba az egyesített mintát és legyen R i a η i rangja az egyesített mintában. R = n 1 R i. H 0 mellett kis elemszám esetén R eloszlásának r(α, n1, n 2 ) kvantiliseit táblázat tartalmazza. Nagy elemszámnál R E(R) D(R) N(0, 1) közeĺıtőleg, ahol E(R) = n1(n1+n2+1) 2 és D 2 (R) = n1n2(n1+n2+1) 12. Döntés: H 0 -t elfogadjuk, ha kis elemszám esetén r(α/2, n 1, n 2 ) < R < n 1 (n 1 + n 2 + 1) r(α/2, n 1, n 2 ), nagy elemszámra R E(R) < Φ 1 (1 α/2). D(R)

Spearman-féle rangkorreláció Definíció Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát. Legyen R i a ξ i és S i az η i rangszáma. A Spearman-féle rangkorrelációs együttható n ϱ n = (R i R)(S i S) n (R n. i R) 2 (S i S) 2 Tulajdonságok ρ n = n (R i n+1 2 )(S i n+1 2 ) n(n 2 1)/12 = 1 6 n (R i S i ) 2 n(n 2 1). ρ n 1. Ha ρ i = 1, akkor ξ i ξ j implikája η i η j -t, ha ρ i = 1, akkor ξ i ξ j implikálja η i η j -t minden i j-re. Függetlenségteszt H 0 : ξ és η függetlenek. H 0 mellett n 1ρ n N(0, 1) aszimptotikusan. Döntés: ha n 1ρ n < Φ 1 (1 α/2), elfogadjuk H 0 -t.

Futamteszt Véletlenszerűség tesztelése I. Adott egy két jelből álló sorozat. H 0 : sorrendjük véletlenszerű. xxxyy xyyyy Az azonos elemekből álló maximális sorozatok a futamok. Az x-ek száma n, az y-oké m, a futamok számát jelölje W. Legyen { 1, ha a k-adik elem futam eleje, I k = 0 különben. H 0 mellett I 1 = 1 és k > 1-re I k Bernoulli-eloszlású paraméterrel, valamint W = n+m I k. nm ( n+m 2 ) H 0 mellett E(W ) = 1 + 2nm n+m és D2 (W ) = 2nm(2nm n m) (n+m) 2 (n+m 1). Ha n és m nagy, akkor W E(W ) D(W ) közeĺıtőleg N(0, 1) eloszlású.

II. Vegyünk egy n hosszú 2 jelből állt sorozatot. H 0 : véletlen forrásból származik (fae), x valószínűsége 1/2. Ebben az esetben I 2,..., I n B(1/2) fae., amiből W 1 binom(n 1, 1/2), így E(W ) = n+1 2 és D 2 (W ) = n 1 4. CHT alapján nagy n-re W E(W ) D(W ) Döntés (I-II): H 0 -t elfogadjuk, ha közeĺıtőleg N(0, 1) eloszlású. < Φ 1 ( 1 α ) 2. W E(W ) D(W ) III. H 0 : x 1,..., x n véletlen minta realizációja. Legyen m a medián és alkalmazzuk az II-t a sgn(x 1 m),..., sgn(x n m) előjelsorozatra. Futamteszt homogenitásvizsgálatra (Wald-Wolfowitz) ξ 1,..., ξ n1 és η 1,..., η n2 független, folytonos eloszlású minták. H 0 : P(ξ < x) = P(η < x) x R. Rendezzük az egyesített mintát és ebben a ξ-η jelsorozatra alkalmazzuk I-t.

Többváltozós módszerek Ezek a módszerek több változó együttes vizsgálatára vonatkoznak. Alapvető típusaik: többdimenziós eloszlásokra vonatkozó hipotézisvizsgálatok (általában többdimenziós normális eloszlás paramétereire vonatkoznak), varianciaanaĺızisek, klasszifikációs módszerek (diszkrimináló illetve klaszterező eljárások), dimenziócsökkentés,...

Egyszempontos varianciaanaĺızis (ANOVA) Tekintsük a ξ i,j N(µ i, σ 2 ), i = 1,..., r, j = 1,..., n i független mintákat. A várható értékek feĺırhatók a következő formában: µ i = µ + a i, ahol µ a várható értékek n i értékekkel súlyozott átlaga, a i pedig az i-edik csoporthatás. azaz minden csoporthatás 0. H 0 : µ 1 =... = µ r, Legyen n = n 1 +... + n r. Képezzük a következő statisztikákat: ξ i = ni j=1 ξ i,j n i, ξ = r ni j=1 ξ i,j. n

SSB = SST = r n i (ξ i,j ξ) 2, j=1 r n i (ξ i ξ) 2, SSW = Álĺıtás SST = SSB + SSW. Bizonyítás SST = r n i (ξ i,j ξ i ) 2. j=1 r n i ((ξ i,j ξ i ) + (ξ i ξ)) 2 j=1 = SSW + SSB + 2 = SSW + SSB + 2 r n i (ξ i,j ξ i )(ξ i ξ) j=1 r n i (ξ i ξ) (ξ i,j ξ i ). j=1 } {{ } 0

Visszatérve H 0 vizsgálatára: a próbastatisztika F = SSB SSW n r r 1, ami H 0 mellett F (r 1, n r) eloszlású. Tehát a kritikus érték α-hoz F α = Fr 1,n r (1 α). Döntés: ha F < F α, akkor H 0 -t elfogadjuk, különben elvetjük. Megjegyzések ANOVA a kétmintás t-próba általánosítása: könnyen látható, hogy ha r = 2 és 0 = 0, akkor F = t 2, és F α = t 2 α. Itt is feltétel a szórások egyezése, ami az általánosított F -próbával tesztelhető. Ha a szórások nem egyenlőek, akkor ANOVA helyett a többmintás Welch-próbát alkalmazzák. Az ANOVA-t diszkrét és normális eloszlású változó függetlenségének tesztelésére is használják. Van többszempontos varianciaanaĺızis is.

Lineáris regresszió Tekintsük a (ξ, η) véletlen vektort. Keressük η-t legjobban közeĺıtő lineáris függvényt, azaz a-t és b-t, amelyre E((η (aξ + b)) 2 ) négyzetes eltérés minimális. E((η aξ b) 2 ) = E((η aξ) 2 ) 2b E(η aξ) + b 2 minimális, ha b = E(η aξ) = E(η) ae(ξ). E((η aξ E(η)+aE(ξ)) 2 ) = D 2 (η)+a 2 D 2 (ξ) 2a Cov(η, ξ), Cov(ξ, η) aminek maximumhelye a = D 2 = r(ξ, η) D(η) (ξ) D(ξ), Cov(ξ, η) amiből b = E(η) + D 2 E(ξ). (ξ) Definíció A fenti paraméterekkel feĺırt y = ax + b egyenes a regressziós egyenes, a, b paraméterek a lineáris regressziós együtthatók. Megjegyzés Ha ξ, η függetlenek, akkor a = r(ξ, η) D(η) D(ξ) = 0.

Regressziós egyenes paramétereinek ML becslése Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát és az (x 1, y 1 ),..., (x n, y n ) realizációt. Tegyük fel, hogy η = aξ + b + ε, ahol ε N(0, σ 2 ). Célunk a és b paraméterek becslése. Az egyszerűség kedvéért tegyük fel, hogy x i értékek nem véletlen minta realizációi, hanem rögzített értékek, így az η i = ax i + b + ε i modellt kapjuk, ahol ε 1,..., ε n N(0, σ 2 ) függetlenek, eloszlásuk nem függ sem a-tól, sem b-től. Tehát η 1,..., η n függetlenek, η i N(ax i + b, σ 2 ). Jelölje η i sűrűségfüggvényét f i n L(a, b) = f i (y i ) = 1 ( 2πσ) n e 1 n 2σ 2 (y i ax i b) 2. L(a, b) akkor maximális, ha Q(a, b) = n (y i ax i b) 2 minimális (legkisebb négyzetek módszere).

Megjegyzés Q(a, b) az (x 1, y 1 ),..., (x n, y n ) pontok együttes négyzetes távolsága az y = ax + b egyenestől. Q(a, b) = n (y i ax i b) 2 mindkét változó szerint deriválható, a deriváltak zérushelyei Q(a, b) lehetséges szélsőértékhelyei. Q a Q b n = 2 x i (y i ax i b) = n x i y i a = 2 = n b xi 2 n (y i ax i b) n y i a n x i nb = 0 n x i = 0

A lehetséges szélsőértékhelyek teljesítik a következő egyenlőséget n n x i y i n x i n Q n a Q x i b = 0 ( n n n ) 2 y i â n x i = 0. x 2 i Ebből â = n n x iy i n x n i y i n n x i 2 ( n x i) 2 = n2 C n (ξ, η) n 2 V n (ξ) = r n (ξ, η) D n(η) D n (ξ).

â-t beírva Q b = n y i a n x i nb = 0 egyenletbe kapjuk ˆb = n y i n n â x i. n Belátható, hogy (â, ˆb) valóban Q minimumhelye. Definíció Az â, ˆb értékeket becsült lineáris regressziós együtthatóknak, az y = âx + ˆb egyenest becsült lineáris regressziós egyenesnek nevezzük. Megjegyzés A becsült lineáris regressziós egyenest η n+1 érték becslésére használjuk, ha x n+1 adott csak.

Varianciaanaĺızis lineáris modellben Tekintsük a η = ax + b + ε, ε N(0, σ 2 ) regressziós modellt és az η 1,..., η n mintát. H 0 : a = 0. Vegyük a regressziós egyenes paramétereinek â, ˆb ML becsléseit és legyen ˆη i = âx i + ˆb. Képezzük a következő négyzetösszegeket: n n n SST = (η i η) 2, SSR = (ˆη i η) 2, SSE = (η i ˆη i ) 2. a próbastatisztika F = SSR (n 2), SSE ami H 0 mellett F (1, n 2) eloszlású. Tehát a kritikus érték α-hoz F α = F1,n 2 1 (1 α). Döntés: ha F < F α, akkor H 0 -t elfogadjuk, különben elvetjük.

Álĺıtás SST = SSR + SSE. Bizonyítás n SST = ((η i ˆη i )+(ˆη i η)) 2 = SSR+SSE+2 n (η i ˆη i )(ˆη i η), }{{} 2 n (η i âx i ˆb)(âx i + ˆb η) = â Q a (ˆb η) Q b = 0. Álĺıtás SSR = SST r 2 n (x, η). Bizonyítás n n (η i âx i ˆb) 2 = â 2 (x i x) = rn 2 (x, η) V n(η) V n (x) nv n(x). Következmény SSE = SST (1 r 2 n (x, η)) és SSR SSE = r 2 n (x, η) 1 r 2 n (x, η).

Többváltozós regresszió A modell η = a 1 x 1 +... + a r x r + b + ε, ε N(0, σ 2 ). H 0 : a 1 =... = a r = 0. Vesszük a 1,..., a r, b legkisebb négyzetes becsléseit, ˆη i = â 1 x i,1 +... + â r x i,r + ˆb i és képezzük SST, SSR és SSE négyzetösszegeket. A próbastatisztika most F = SSR SSE n r 1, ami H 0 mellett r F (r, n r 1) eloszlású. Megjegyzések Az x i -k a teljes variancia r 2 n (x, η)-részét magyarázzák. Ha (ξ, η) kétdimenziós normális eloszlású és ξ, η függetlenek, akkor r n 2 n(ξ,η) aszimptotikusan t(n 2) eloszlású. 1 r 2 n (ξ,η) Az általános regressziós modell η = f (ξ) + ε. Általában a nemlineáris regressziót a lineárisra vezetik vissza.

Főkomponensanaĺızis Legyen X egy d-dimenziós véletlen vektor m várható érték vektorral és pozitív definit C kovarianciamátrixszal. Cél a változók számának csökkentése minél kevesebb információ vesztésével. C szimmetrikus, spektrálfelbontása C = VΛV, ahol Λ = diag(λ 1,..., λ d ) a C mátrix λ 1... λ d > 0 sajátértékeinek diagonális mátrixa, V oszlopvektorai pedig a hozzá tartozó ortonormált sajátvektorrendszer a megfelelő sorrendben. Definíció A Y = V 1 (X m) = V T (X m) az X főkomponensvektora, Y k-adik komponense (Y k ) a k-adik főkomponens.

Álĺıtás Y kovarianciamátrixa Λ. Bizonyítás E(Y) = E(V T (X m)) = V T (E(X) m) = 0, E(YY ) = E(V T (X m)(x m) V) = V T E((X m)(x m) )V = V CV = Λ. Tétel x 1,..., x d ortonormált vektorrendszer. Ekkor k k x i Cx i λ i, k = 1,..., d. Ha x i = v i, i = 1,..., d, akkor egyenlőség teljesül. Következmény Y k szórása maximális az z (X m) alakú vv-k között, amelyre x = 1 és z (X m) korrelálatlan Y i -vel minden i < k-ra.

Tétel A k(< d)-dimenziós P projekciók közül E( X PX ) kifejezést a v 1,..., v k által feszített altérre vetítő projekció minimalizálja. (Tehát X négyzetes középben vett legjobb k-dimenziós becslésének első k koordinátája a sajátvektorok bázisában az első k főkomponens, a többi pedig 0.) k megválasztása λ 1 +... + λ k λ 1 +... + λ d hányados azt mutatja, hogy az első k főkomponens a teljes variancia hányadrészét magyarázza. Megjegyzés A gyakorlatban egy minta empirikus kovarianciamátrixából indulunk, ennek sajátértékei és sajátvektorai lesznek λ i és v i (i = 1,..., d) becslései.

Faktoranaĺızis Definíció Legyen X egy d-dimenziós véletlen vektor m várható érték vektorral és C kovarianciamátrixszal. A k-faktor modell a következő: X = AY + W + m, ahol A átviteli mátrix vagy faktorsúlymátrix d k-as, az Y közös faktor k-dimenziós véletlen vektor, amelyre E(Y) = 0 és E(YY ) = I k, valamint W egyedi faktor egy d-dimenziós véletlen vektor, amelyre E(W) = 0, E(WW ) = D diagonális mátrix, valamint E(YW ) = 0. A modell paraméterei A és D, feltevése, hogy a faktorkomponensek korrelálatlanok, továbbá a közös faktorok szórásnégyzete 1.

Álĺıtás C = AA + D. (Ezt nevezzük a modell mátrixalakjának.) Bizonyítás X i = k j=1 a i,jy j + W i + m i (1 i d) szórásnégyzete c ii = k j=1 a2 i,j + d i,i, mivel a faktorkomponensek korrelálatlanok. ( k j=1 a2 i,j az X i változó kommunalitása, d i,i az egyedi variancia.) Tétel Adott k < d esetén a k-faktor modellnek pontosan akkor van megoldása, ha van olyan d d-s D nemnegatív elemű diagonális mátrix, hogy C D egy legfeljebb k-adrangú, pozitív szemidefinit. Bizonyítás Ha van megoldás, akkor C D = AA rangja legfeljebb k, mivel A egy d k-as mátrix. Fordítva, ha C D szimmetrikus, rangja r( k), akkor feĺırható AA alakban, ahol A d r-es.

Megjegyzések Ha C D-nek van AA alakú felbontása, akkor mivel ez nem egyértelmű: ha U egy ortogonális mátrix, akkor B = AU -ra AA = BB, sokszor további feltételeket is tesznek A-ra. Közeĺıtő megoldásokat szoktak adni (ML; legkisebb négyzetek módszere; főkomponensanaĺızis módosított változata;...). A faktorsúlyok értelmezése és a faktorok rotációja Cov(X i, Y j ) = E((X i m i )Y j ) = E(( k j=1 a i,jy j + W i )Y j ) = a i,j a faktorsúlyok korrelálatlansága miatt. X i az Y j faktorral akkor áll szoros kapcsolatban, ha a i,j nagy. A faktorok értelmezése szempontjából az a jó, ha minden i-re kevés (esetleg egy) a i,j nagy, a többi kicsi. A rotáció célja olyan U k k-s ortogonális mátrix keresése, amelyre az X = X = A Y + W + m modell, ahol A = AU és Y = U Y, teljesíti a fentieket.

Diszkriminanciaanaĺızis Legyen X változó N(m 1, C) vagy N(m 2, C) eloszlású. Ezt az osztálybatartozást szeretnénk eldönteni a tér egy X 1 X 2 partícionálásával. Legyen f i az i-edik osztályhoz tartozó sűrűségfüggvény. (Általában m i -t és C-t a mintából becsüljük.) Két megközeĺıtést tekintünk. I. Az f 2 (x) dx + X 1 f 1 (x) dx X 2 veszteségfüggvényt minimalizáló partícionálást keresünk. Belátható, hogy az átlagos veszteség akkor minimális, ha x osztálya j, amire m j C 1 x 1 2 m j C 1 m j nagyobb. Ez alapján L(x) = (m 1 m 2 ) C 1 x + c alakú Fisher-féle diszkriminancia-függvényt használjuk: x pontosan akkor tartozik az első osztályba, ha L(x) > 0.

II. Legyen A = (m 1 m 2 )(m 1 m 2 ). Tekintsük a Rayleigh-hányadost: R(v) = v Av v Cv Heurisztika: R maximumhelyének irányában jól tudunk szeparálni. Legyenek C 1 A sajátértékei λ 1... λ d és v 1,..., v d hozzájuk tartozó sajátvektorok a kanonikus főirányok. Belátható, hogy R maximumhelye v 1. Egy L(x) = v 1 x + b alakú diszkriminanciafüggvény segítségével döntünk: x akkor esik az első osztályba, ha L(x) > 0. Megjegyzések A két diszkriminanciafüggvény pozitív konstans faktorban tér el, ugyanazt az osztályozást eredményezik. A szeparálás jóságát a Wilks-féle Λ = (1 + ˆλ 1 ) 1 statisztikával jellemezzük. Ha az osztályok jól szeparálhatók, akkor Λ kicsi.

Logisztikus regresszió Legyen η ismeretlen p paraméterű Bernoulli-változó és x egy d-dimenziós vektor. Tegyük fel, hogy p = p(x), ezt a függést a következő logisztikus regressziós modell (logitmodell) írja le: ln p 1 p = a x + b. Tekintsük egy n elemű mintát. Meghatározzuk â, ˆb ML becsléseket (kihasználva, hogy az x i vektorhoz tartozó n i mintaelem összege binomiális eloszlású n i és p(x i ) paraméterekkel). Ebből kapjuk p becslését: ˆp = 1 1 + e â x ˆb. η értékei szerinti osztálybatartozás előrejelzése ennek segítségével úgy történik, hogy rögzítünk egy 0 < p 0 < 1 értéket, és ˆη = 1, ha ˆp > p 0.

Klaszteranaĺızis Különböző eloszlásból vett minták esetén nem tudjuk, melyik mintaelem melyik osztályba (klaszterbe) tartozik, esetleg az osztályok száma is ismeretlen. Célunk az osztályok meghatározása. Tekintsük az x 1,..., x n realizációt. Tegyük fel, hogy van k klaszter: C 1,..., C k. Legyen x C = 1 C x j C x j a C klaszterközéppontja. Legyen SST = n x i x 2, SSW = k x j C i x j x Ci 2, SSB = k C i x Ci x 2. Most is SST = SSW + SSB. A klasztereket úgy szeretnénk meghatározni, hogy a SSW SSB = SSW SST SSW kifejezést minimalizálják, ami egyenértékű SSW minimalizálásával.

SSW minimumának meghatározása már két klaszter esetén is 2 n 1 1 eset vizsgálatát jelenti az n elemű mintán, ezért heurisztikákat alkalmaznak. A klaszterező eljárásoknak két alapvető fajtája van aszerint, hogy a klaszterek száma ismert-e. k-közép módszer Veszünk k kezdeti klaszterközéppontot, minden mintaelemet ahhoz a klaszterhez soroljuk, amelyik középpontjához közelebb van, majd a középpontokat újraszámítjuk. Függ a kezdeti középpontoktól. Hierarchikus módszerek Vannak a klaszterszámot csökkentő (agglomeratív vagy összevonó) és növelő (divizív vagy felosztó) módszerek. Pl. előbbi esetében kezdetben minden pont külön klaszterbe tartozik, minden lépésben a két legközelebbi klasztert vonjuk össze, míg egy klaszter nem lesz. Függ a klaszterek távolságának definíciójától.

Klaszterek távolsága (d(c i, C j )) Legközelebbi szomszéd (nearest neighbor vagy single linkage): min x y. x C i,y C j Legtávolabbi szomszéd (furthest neighbor vagy complete linkage): max x y. x C i,y C j Átlagos távolság (between-groups linkage vagy average linkage): 1 x y. C i C j x C i,y C j Unió pontjainak átlagos távolsága (within-groups linkage): 1 ) ( Ci + C j 2 x,y C i C j x y. Klaszterközéppontok távolsága (centroid): x Ci x Cj.

Medián távolság: x Ci x Cj, ahol x C a C klaszter súlyozott közepe, amit rekurzívan számolunk a következő módon: ha C klaszter C C unióként jött létre, akkor x C = 1 2 ( x C + x C ). Ward távolság: x C i C j x x Ci C j 2 = C i C j C i + C j x C i x Cj 2. l {i,j} x C l x x Cl 2 (Tehát a Ward módszer azt a két klasztert vonja össze, amelyek összevonásával SSW legkevésbé nő.)

Irodalom Bolla Marianna, Krámli András: i következtetések elmélete, Typotex Fazekas István (szerk.): Bevezetés a matematikai statisztikába, Kossuth Egyetemi Kiadó Móri F. Tamás, Szeidl László, Zempléni András: Matematikai statisztika példatár, ELTE Eötvös Kiadó, Osztényiné Krauczi Éva, Székely László: Valószínűségszámítás és statisztika példatár, Polygon Jegyzettár Viharos László: A sztochasztika alapjai, Polygon Jegyzettár