Bevezetés a matematikai statisztikába

Átírás

1 Bevezetés a matematikai statisztikába Szegedi Tudományegyetem, Bolyai Intézet

2 i alapfogalmak Tekintsünk egy ξ valószínűségi változót. i minta (n elemű minta) ξ 1,..., ξ n fae vv, eloszlásuk megegyezik a ξ háttérváltozó eloszlásával. Ha ξ i változó az x i értéket veszi fel (i = 1,..., n), akkor azt mondjuk, hogy x 1,..., x n a minta realizációja. A matematikai statisztika alapvető feladatai: ξ háttérváltozó eloszlásának, egyéb mutatóinak becslése (pontbecslések, intervallumbecslések), ξ háttérváltozó eloszlására vonatkozó hipotézisek vizsgálata (statisztikai próbák).

3 i alapfogalmak Definíció Legyen f egy n-változós Borel mérhető függvény. A mintaelemek f (ξ 1,..., ξ n ) függvényét statisztikának nevezzük. Alapstatisztikák ξ = ξ ξ n mintaátlag, n min i {ξ i } legkisebb mintaelem, max i {ξ i } legnagyobb mintaelem, max i {ξ i } min i {ξ i } mintaterjedelem, empirikus (tapasztalati) medián: a sorbarendezett mintaelemek közül a középső (vagy ha n páros, a középső kettő átlaga)....

4 Becslések Legyen θ a ξ eloszlásának egy paramétere, ˆθ n := ˆθ(ξ 1,..., ξ n ). Definíció Az ˆθ n statisztika torzítatlan becslése θ-nak, ha a paraméterhalmaz minden θ elemére E(ˆθ n ) = θ. Definíció ˆθ n (n = 1, 2,...) sorozat gyengén konzisztens becslése θ-nak, ha ˆθ n szt θ, n. ˆθ n (n = 1, 2,...) sorozat erősen konzisztens becslése θ-nak, ha ˆθ n mb θ, n.

5 Példa Legyen ξ 1,..., ξ n minta, ahol a ξ háttérváltozónak létezik a σ szórása. Legyen θ = E(ξ) ismeretlen paraméter. Tekintsük a ξ 1 és a ξ statisztikákat. Nyilvánvalóan ξ 1 még gyengén sem konzisztens becslése θ-nak, míg a nagy számok erős törvénye miatt ξ erősen konzisztens becslés. Mindkét statisztika torzítatlan becslése θ-nak: E(ξ 1 ) = E(ξ) = θ, E(ξ) = 1 n E(ξ ξ n ) = 1 n n E(ξ) = θ. D 2 (ξ) = 1 n 2 D 2 (ξ ξ n ) = n n 2 D 2 (ξ) = σ2 n < σ2 = D 2 (ξ 1 ). Vagyis a két torzítatlan becslés közül ξ a hatásosabb.

6 Az eloszlásfüggvény becslése Definíció Legyen k n,x = n I (ξ i < x), ahol I indikátorfüggvény és F n (x) = k n,x n. Az F n függvényt empirikus eloszlásfüggvénynek nevezzük. F n tulajdonságai A minta bármely realizációját tekintve F n monoton nemcsökkenő, balról folytonos, lim x F n (x) = 1 és lim x F n (x) = 0.

7 Álĺıtás Legyen x R rögzített. F n (x) torzítatlan és erősen konzisztens becslése az F (x) eloszlásfüggvénynek. Bizonyítás. k x,n binomiális eloszlású n és F (x) paraméterekkel. Tehát ( ) kx,n E(F n (x)) = E = 1 n n E(k x,n) = 1 nf (x) = F (x). n Az erős konzisztencia nagy számok erős törvényéből közvetlenül következik. Tétel (A matematikai statisztika alaptétele; Glivenko Cantelli) mb sup F n (x) F (x) 0, n. x R

8 A sűrűségfüggvény becslése Definíció I 1, I 2,... páronként diszjunkt (véges hosszúságú) intervallumok, I i = R. Legyen ν k = n I (ξ i I k ), f n (x) = ν k n I k, ha x I k. Az f n függvényt sűrűséghisztogramnak nevezzük. f n tulajdonságai A minta bármely realizációját tekintve f n 0, f n(x) dx = 1. Megjegyzés Általában egyenlő hosszú az intervallumokra osztják R-t.

9 A várható érték becslése Definíció Az E n (ξ) = ξ statisztikát empirikus (tapasztalati) várható értéknek nevezzük. Álĺıtás Ha E(ξ) létezik, E n (ξ) torzítatlan, és ha E( ξ ) <, akkor erősen konzisztens becslése is E(ξ)-nek. Bizonyítás A várható érték additivitása miatt ( ) ξ ξ n E(E n (ξ)) = E = E(ξ 1) E(ξ n ) n n = 1 n ne(ξ). Az álĺıtás második fele éppen a nagy számok erős törvénye.

10 A szórás becslése Definíció Empirikus (tapasztalati) variancia: V n (ξ) = 1 n n (ξ i E n (ξ)) 2 Empirikus (tapasztalati) szórás: D n (ξ) = V n (ξ) Álĺıtás V n (ξ) = 1 n n ξ2 i E 2 n(ξ) = E n (ξ 2 ) E 2 n(ξ). Bizonyítás V n (ξ) = 1 n n ξi 2 2E n (ξ) 1 n = E n (ξ 2 ) E 2 n(ξ). n ξ i + 1 n ne2 n(ξ)

11 Tétel Ha D(ξ) létezik, akkor E(V n (ξ)) = n 1 n D2 (ξ). Bizonyítás ( E(V n (ξ)) = E 1 n n ) 2 ξi 2 1 n n 2 ξ i = 1 n E(ξi 2 ) 1 n n n 2 E(ξi 2 ) + 2 E(ξ i ξ j ) i<j = n 1 n n 2 E(ξi 2 ) 2 n 2 E(ξ i )E(ξ j ) i<j = n 1 n 2 n E(ξ 2 ) 2 n(n 1) E 2 (ξ) n2 2 = n 1 n E(ξ2 ) n 1 n E(ξ)2.

12 Definíció Korrigált empirikus (tapasztalati) variancia: V n(ξ) = n n 1 V n(ξ) = 1 n 1 n ξi 2 n n 1 E2 n(ξ). Korrigált empirikus (tapasztalati) szórás: D n(ξ) = V n(ξ). Következmény V n(ξ) torzítatlan becslése D 2 (ξ)-nek. Megjegyzés Az viszont nem következik ebből, hogy D n(ξ) torzítatlan becslése lenne D(ξ)-nek.

13 Tétel Ha D(ξ) létezik, akkor V n (ξ) és V n(ξ) is erősen konzisztens becslése D 2 (ξ)-nek. Bizonyítás A nagy számok erős törvény alapján valamint E n (ξ) = ξ ξ n n mb E(ξ), n E n (ξ 2 ) = ξ ξ2 n n mb E(ξ 2 ), n. Így V n (ξ) = E n (ξ 2 ) E 2 n(ξ) mb E(ξ 2 ) E 2 (ξ) = D 2 (ξ), n.

14 Kovariancia, korreláció becslése Tekintsük (ξ, η) háttérváltozót és (ξ 1, η 1 ),..., (ξ n, η n ) mintát. Definíció ξ és η empirikus kovarianciája C n (ξ, η) = 1 n n (ξ i E n (ξ))(η i E n (η)). Álĺıtás C n (ξ, η) = 1 n n ξ iη i E n (ξ)e n (η). Bizonyítás ( n C n (ξ, η) = 1 ξ i η i E n (ξ) n = 1 n n η i E n (η) ) n ξ i + ne n (ξ)e n (η) n ξ i η i 2E n (ξ)e n (η) + E n (ξ)e n (η).

15 Definíció ξ és η (Pearson-féle) empirikus korrelációs együtthatója r n (ξ, η) = C n(ξ, η) D n (ξ)d n (η), ha D n(ξ)d n (η) 0, és 0 különben. Álĺıtás r n (ξ, η) 1. Továbbá r n (ξ, η) = 1 pontosan akkor teljesül, ha ξ i, η i pontpárok között lineáris összefüggés van. Bizonyítás A Cauchy-Bunyakovszkij-Schwarz egyenlőtlenség alapján n nc n (ξ, η) ξ i E n (ξ) η i E n (η) n n (ξ i E n (ξ)) 2 (η i E n (η)) 2 = nv n (ξ) nv n (η) = nd n (ξ)d n (η).

16 Megjegyzések C n (ξ, ξ) = V n (ξ). C n (ξ, η) valamint r n (ξ, η) előjele a kapcsolat irányára utal. r n (ξ, η) a kapcsolat szorosságát jelzi. Ha r n (ξ, η) = 1, akkor pozitív, ha r n (ξ, η) = 1, akkor negatív lineáris kapcsolat. Álĺıtás C n (ξ, η) erősen konzisztens becslése C(ξ, η)-nak, valamint r n (ξ, η) erősen konzisztens becslése r(ξ, η)-nak. Bizonyítás A nagy számok erős törvénye alapján egyszerűen adódik: E n (ξη) E n (ξ)e n (η) mb E(ξη) E(ξ)E(η) = C(ξ, η), n, C n (ξ, η) Vn (ξ)v n (η) mb C(ξ, η) D(ξ)D(η), n.

17 Tétel Ha C(ξ, η) létezik, akkor E(C n (ξ, η)) = n 1 C(ξ, η). n Bizonyítás ( ( 1 n n ) ( n )) E(C n (ξ, η)) = E ξ i η i 1 n n 2 ξ i η i = 1 n E(ξ i η i ) 1 n n n 2 E(ξ i η i ) + E(ξ i η j ) i j = n 1 n n 2 E(ξ i η i ) 1 n 2 E(ξ i )E(η j ) i j = n 1 n(n 1) n 2 n E(ξη) n 2 E(ξ)E(η) = n 1 n E(ξη) n 1 n E(ξ)E(η).

18 Maximum-likelihood módszer Legyen θ ismeretlen paraméter, erre szeretnénk becslést kapni. Definíció Legyen ξ diszkrét háttérváltozó, tekintsük az x 1,..., x n realizációt. A hozzá tartozó likelihood-függvény a következő: L(θ) = P θ (ξ 1 = x 1,..., ξ n = x n ) = P θ (ξ = x 1 )... P θ (ξ = x n ). Definíció Legyen ξ folytonos háttérváltozó. Tekintsük a x 1,..., x n realizációt. A hozzá tartozó likelihood-függvény a következő: L(θ) = f θ,ξ1,...,ξ n (x 1,..., x n ) = f θ (x 1 )... f θ (x n ). Definíció A θ paraméter maximum-likelihood becslése (röviden ML becslése) ˆθ statisztika, ha L(ˆθ) = max L(θ, x 1,..., x n ). θ

19 A szorzat maximumhelyének meghatározása helyett sokszor könnyebb egy összeg maximumhelyét megadni, ezért vezetjük be a következő fogalmat. Definíció Tekintsük az x 1,..., x n realizációt, θ paramétert, és a hozzájuk tartozó L(θ) likelihood-függvényt. A log-likelihood függvény l(θ) = ln L(θ). A (természetes alapú) logaritmus függvény monoton növő, ezért l(θ) éppen ott veszi fel szélsőértékeit, ahol L(θ). Megjegyzés ML becslést konkrét realizáció esetén kapunk, ha minden realizációra tekintjük, akkor kapunk becslést θ-ra.

20 Valószínűség ML becslése Legyen A egy esemény p = P(A) valószínűséggel, ahol 0 < p < 1. Tekintsük ξ = I (A) háttérváltozót (A indikátorváltozója), ez Bernoulli-eloszlású p paraméterrel. Tegyük fel, hogy x 1,..., x n, az ebből vett minta realizációja nem csupa 0 vagy csupa 1, és legyen K n (A) = n x i. L(p) = p Kn(A) (1 p) n Kn(A), ha p (0, 1) tehát l(p) = K n (A) ln p + (n K n (A)) ln(1 p) maximumhelyét keressük (0, 1)-en.

21 l(p) a (0, 1)-en kétszer deriválható, így l (ˆp) = K n(a) ˆp l (ˆp) = K n(a) ˆp 2 n K n(a) 1 ˆp = 0, n K n(a) (1 ˆp) 2 < 0 megoldása ˆp = K n (A)/n lesz p ML becslése. Megjegyzések Ha p = 0 vagy 1, akkor l(p) nem értelmezett. Ha a realizáció 1,..., 1, akkor L(p) = p n ha p [0, 1], maximumhelye 1, de nem deriválható 1-ben. (0, 1)-en nincs szélsőértéke L(p)-nek. Hasonló a helyzet 0,..., 0 realizáció esetén, L(p) = (1 p) n ha p [0, 1]. Ha K n (A) a bekövetkezések száma, E(K n (A)/n) = np/n = p.

22 Másik lehetőség p ML becslésére, ha tekintünk egy 0 < p < 1 paraméterű geometriai eloszlású ξ háttérváltozót. Tekintsük az x 1,..., x n N + mintarealizációt. Ekkor L(p) = p(1 p) x p(1 p) xn 1 = p n (1 p) n x i n ( n ) l(p) = n ln p + x i n ln(1 p). l(p) (0, 1)-en kétszer deriválható, így l (ˆp) = ṋ n p x i n = 0, 1 ˆp l (ˆp) = n n ˆp 2 x i n (1 ˆp) 2 < 0 megoldása ˆp = n/ n x i. Belátható, hogy ˆp = n/ n ξ i nem torzítatlan becslése p-nek.

23 Poisson eloszlás paraméterének ML becslése L(λ) = tehát n ( λ x i x i! e λ l(λ) = ) = λ n x i ( n 1 x i!) e nλ, λ > 0. n x i ln λ + c nλ, λ > 0 kétszer deriválható (0, )-en, n l (ˆλ) = x i n = 0, ˆλ l (ˆλ) = n x i ˆλ 2 < 0 megoldása ˆλ = n x i/n, ha n x i 0. Ha n x i = 0, akkor L(λ) = e nλ, ennek nincs szélsőértéke a (0, ) intervallumon, így ekkor λ-nak nincs ML becslése.

24 Exponenciális eloszlás paraméterének ML becslése tehát L(λ) = n ( ) λe λx i = λ n e λ n x i, λ > 0. l(λ) = n ln λ λ kétszer deriválható (0, )-en, n x i, λ > 0 l (ˆλ) = ṋ n λ x i = 0, megoldása ˆλ = n/ n x i. l (ˆλ) = n ˆλ 2 < 0 Belátható, hogy 1/E n (ξ) nem torzítatlan becslése λ-nak.

25 Intervallum jobb végpontjának ML becslése Legyen ξ háttérváltozó egyenletes eloszlású a [0, θ] intervallumon (f (x) = θ 1, ha 0 x θ és 0 különben). { θ L(θ) = n, ha x 1,..., x n θ, 0 különben { θ = n, ha max n x i θ, 0 különben. L(θ) monoton nő, ezért maximumhelye ˆθ = max n x i. Megjegyzések Mivel L(θ)-nak a maximumhelye szakadási pont, deriválással nem lehet meghatározni ˆθ-t. Belátható, hogy E(max n ξ i) = n n+1 θ. Ha a (0, θ) intervallumból vennénk a mintát, akkor nem létezne ML becslés.

26 Intervallum helyének ML becslése Legyen ξ háttérváltozó egyenletes eloszlású a [θ, θ + 1] intervallumon (f (x) = 1, ha θ x θ + 1 és 0 különben). L(θ) = = { 1, ha θ x1,..., x n θ + 1, 0 különben { 1, ha max n x i 1 θ min n x i, 0 különben. L(θ) maximumhelyei a [max n x i 1, min n x i] intervallum pontjai. Megjegyzés Belátható, hogy E(max n ξ i 1) = θ 1/(n + 1), valamint E(min n ξ i) = θ + 1/(n + 1), tehát a kettő átlaga torzítatlan becslés θ-ra.

27 Normális eloszlás paramétereinek ML becslése L(µ, σ) = n ahol µ R és σ > πσ e 1 2σ 2 (x i µ) 2 = ( 2πσ) n e 1 2σ 2 n (x i µ) 2, l(µ, σ) = n ln 2π n ln σ 1 2σ 2 n (x i µ) 2, ami kétszer deriválható. Képezzük a parciális deriváltakat: l µ = 1 n σ 2 (x i µ) = 0 (1) l σ = n σ + 1 σ 3 n (x i µ) 2 = 0, (2) L lehetséges szélsőértékhelyei ezek közös zérushelyei.

28 (1)-ből kapjuk, hogy ˆµ = n x i n = E n (ξ), ezt (2)-be helyettesítve pedig n ˆσ = 1ˆσ 3 n (x i ˆµ) 2 ˆσ 2 = 1 n (x i ˆµ) 2 n ˆσ = 1 n (x i ˆµ) n 2 = D n (ξ). Belátható, hogy (ˆµ, ˆσ) valóban maximumhelye L(µ, σ)-nak.

29 Normális eloszlásból származtatott eloszlások Legyenek ξ 0,..., ξ m+n független, standard normális eloszlású vv-k. Definíció χ 2 = ξ ξ2 n vv n szabadságfokú χ 2 eloszlású F χ 2,n eloszlásfüggvénnyel. ξ 0 n vv n szabadságfokú Student (t) eloszlású ξ ξ2 n Φ n eloszlásfüggvénnyel. n m ξ ξ2 m ξm vv (m, n) szabadságfokú F eloszlású ξ2 m+n F m,n eloszlásfüggvénnyel.

30 Megjegyzések Bizonyos paraméterértékek esetén a χ 2, Student és F eloszlások inverz eloszlásfüggvényeinek néhány értékét statisztikai táblázatok tartalmazzák. A t(n) eloszlás szimmetrikus: ha ξ t(n), akkor ξ t(n). Belátható, hogy ha ξ n t(n) és ξ N(0, 1), akkor ξ n ξ eloszlásban, ha n (vagyis Φ n (x) Φ(x), ha n ). Ha ξ F (n, m), akkor 1/ξ F (m, n). Ebből, ha x > 0, F n,m (x) = P(ξ < x) = P(1/ξ > 1/x) = 1 F m,n (1/x). Ha ξ t(n), akkor ξ 2 F (1, n). Ha ξ χ 2 (m), η χ 2 (n) függetlenek, akkor ξ/m η/n F (m, n).

31 Tétel Legyen ξ 1,..., ξ n egy N(µ, σ 2 ) eloszlásból vett minta. A következők teljesülnek: E n (ξ) N ) (µ, σ2, n n σ 2 V n(ξ) χ 2 (n 1), E n (ξ) és V n (ξ) függetlenek, E n(ξ) µ V n /n t(n 1).

32 Bizonyítás E n (ξ) = n ξ i/n N(nµ/n, nσ 2 /n 2 ) = N(µ, σ 2 /n). Legyen ξ = (ξ 1,..., ξ n ), U egy n n-es ortogonális mátrix, amely első sorának minden eleme 1/ n és legyen η = Uξ. η N(U(µ,... µ), Uσ 2 IU ) = N(( nµ, 0,..., 0), σ 2 I). η 1 = ne n (ξ), így nv n (ξ) = n ξ2 i ne 2 n(ξ) = n i=2 η2 i, mivel n n ηi 2 = η η = ξ U Uξ = ξ ξ = ξi 2, tehát E n (ξ) = η 1 / n és V n (ξ) = n i=2 η2 i n nv n (ξ) σ 2 = és a t eloszlás def. miatt η 2 i σ 2 χ2 (n 1), i=2 n 1(En(ξ) µ) n/σ n i=2 nvn(ξ)/σ2 /n függetlenek. Továbbá = En(ξ) µ V n /n t(n 1).

33 Tétel Legyen ξ 1,..., ξ n1 egy N(µ 1, σ 2 1 ), η 1,..., η n2 egy N(µ 2, σ 2 2 ) eloszlásból vett független minta. A következők teljesülnek: ha σ 1 = σ 2, akkor E n1 (ξ) E n2 (η) (µ 1 µ 2 ) N(0, 1). σ 2 1 n 1 + σ2 2 n 2 E n1 (ξ) E n2 (η) (µ 1 µ 2 ) n1 V n1 (ξ) + n 2 V n2 (η) n 1 n 2 (n 1 + n 2 2) n 1 + n 2 Student eloszlású n 1 + n 2 2 szabadságfokkal, Vn 1 (ξ)σ2 2 Vn 2 (η)σ1 2 F (n 1 1, n 2 1).

34 Bizonyítás vázlat Az előző tétel alapján tehát E n1 (ξ) N(µ 1, σ 2 1/n 1 ) és E n2 (η) N(µ 2, σ 2 2/n 2 ), E n1 (ξ) E n2 (η) N(µ 1 µ 2, σ 2 1/n 1 + σ 2 2/n 2 ), amiből adódik a tétel első része. Szintén az előző tétel miatt (n 1 1)V n 1 (ξ)/σ 2 1 χ 2 (n 1 1), (n 2 1)V n 2 (η)/σ 2 2 χ 2 (n 2 1), (n 1 1)V n 1 (ξ)/σ (n 2 1)V n 2 (η)/σ 2 2 χ 2 (n 1 + n 2 2) amiből a t és F eloszlások definíciója alapján az előző tételhez hasonlóan adódik a további két álĺıtás.

35 Konfidencia intervallumok Legyen θ ismeretlen paraméter. Az intervallumbecslés lényege olyan intervallum konstruálása (statisztikák segítségével), amelybe θ nagy valószínűséggel (általában 0,95 vagy 0,99) beleesik. Definíció Legyen S n < T n két statisztika, amelyre P(S n < θ < T n ) = 1 α. Ekkor azt mondjuk, (S n, T n ) egy 1 α megbízhatósági szintű konfidencia intervallum θ-ra. A konfidencia-intervallum szerkesztése általában Keresünk egy Z n (θ) statisztikát, aminek az eloszlása ismert. Z n (θ)-ra szerkesztünk intervallumot: P(a < Z n (θ) < b) = 1 α, ahol a, b konstansok. A Z n (θ)-ra feĺırt egyenlőtlenségeket átalakítjuk θ-ra feĺırt egyenlőtlenségekké: P(S n (a, b) < θ < T n (a, b)) = 1 α.

36 Konfidencia intervallum normális eloszlás várható értékére Legyen ξ 1,..., ξ n N(µ, σ 2 )-ből vett minta, ahol σ ismert. µ-re keresünk 1 α megbízhatósági szintű konfidencia intervallumot. Tudjuk, hogy E n (ξ) N(µ, σ 2 /n). Szerkesszünk a Z n (µ) = En(ξ) µ σ/ N(0, 1) statisztika köré intervallumot: n P( x α < Z n (µ) < x α ) = P(Z n (µ) < x α ) P(Z n (µ) < x α ) amiből x α = Φ 1 (1 α 2 ). = Φ(x α ) Φ( x α ) = 2Φ(x α ) 1 = 1 α, ( 1 α = P x α < E ) n(ξ) µ σ/ < x α n ) σ σ = P (E n (ξ) x α n < µ < E n (ξ) + x α n. Az intervallum hossza T n S n = 2x α σ/ n 0, ha n.

37 Most nézzük meg azt az esetet, ha σ ismeretlen. Legyen Z n (µ) = E n(ξ) µ t(n 1). V n (ξ)/n A t(n 1) eloszlás szimmetriáját felhasználva a P( x α < Z n (µ) < x α ) = 2Φ n 1 (x α ) 1 = 1 α összefüggésből az előzőhöz hasonlóan adódik x α = Φ 1 n 1 (1 α 2 ). Ebből 1 α = P ( ) x α < E n(ξ) µ V n (ξ)/n < x α ( D = P E n (ξ) x n(ξ) D ) α < µ < E n (ξ) + x n(ξ) α. n n

38 Konfidencia intervallum normális eloszlás szórására Legyen Z n (σ) = nv n (ξ)/σ 2 χ 2 (n 1). Ha a α = F 1 χ 2,n 1 (α/2) és b α = F 1 (1 α/2), χ 2,n 1 ( P(a α < Z n (σ) < b α ) = F χ 2,n 1(b α ) F χ 2,n 1(a α ) = 1 α ) α 2 2. ( 1 α = P a α < nv ) n(ξ) σ 2 < b α = P nv n (ξ) < σ < b α nv n (ξ). a α

39 Konf. intervallum normális eloszlások vé. különbségére Legyenek ξ 1,..., ξ n1 N(µ 1, σ 2 ) és η 1,..., η n2 N(µ 2, σ 2 ) fgn. minták. µ 1 µ 2 -re keresünk konfidencia intervallumot. Legyen Z n1,n 2 (µ 1 µ 2 ) = E n 1 (ξ) E n2 (η) (µ 1 µ 2 ) D t(n 1 + n 2 2), ahol D 2 n 1 + n 2 = (n 1 V n1 (ξ) + n 2 V n2 (η)) n 1 n 2 (n 1 + n 2 2). P( x < Z n1,n 2 < x) = 2Φ n1 +n 2 1(x) 1, így az x α = Φ 1 n 1 +n 2 2 (1 α/2) választással kapjuk: ( 1 α = P x α < E ) n 1 (ξ) E n2 (η) (µ 1 µ 2 ) < x α D = P (E n1 (ξ) E n2 (η) x α D < µ 1 µ 2 < E n1 (ξ) E n2 (η) + x α D ).

40 Konf. intervallum normális eloszlások szóráshányadosára Legyenek ξ 1,..., ξ n1 N(µ 1, σ 2 1 ) és η 1,..., η n2 N(µ 2, σ 2 2 ) fgn. minták. σ 1 /σ 2 -re keresünk konfidencia intervallumot. Legyen Z n1,n 2 (σ 1 /σ 2 ) = V n 1 (ξ) σ 2 2 V n 2 (η) σ 2 1 F (n 1 1, n 2 1). Ha a α = Fn 1 1 1,n 2 1 (α/2) és b α = Fn 1 1 1,n 2 1 (1 α/2), akkor 1 α = F n1 1,n 2 1(b α ) F n1 1,n 2 1(a α ) = ( ) P a α < V n 1 (ξ) σ2 2 Vn 2 (η) σ1 2 < b α ( ) = P Vn 1 (ξ) Vn < σ 1 < 2 (η)b α σ 2 Vn 1 (ξ) Vn 2 (η)a α.

41 Paraméteres próbák Legyen θ a háttéreloszlás egy ismeretlen paramétere a Θ paramétertér egy eleme, továbbá Θ 0 Θ 1 = Θ, Θ 0 Θ 1 =, Θ 0, Θ 1. A H 0 : θ Θ 0, H 1 : θ Θ 1 nullhipotézist és alternatív hipotézist vizsgáljuk. A hipotézisek közötti döntés egy S n tesztstatisztika (próbastatisztika) és egy C(α) kritikus tartomány segítségével történik: pontosan akkor vetjük el H 0 -t, ha S n C(α). A C(α)-t elfogadási tartománynak nevezzük. Ha P H0 (S n C(α)) α, akkor α terjedelmű próbáról beszélünk. α-t nevezik szignifikancia-szintnek is. H 0 általában θ = θ 0 alakú, H 1 pedig θ θ 0 (kétoldali próba), θ < θ 0 vagy θ > θ 0 (egyoldali próba). α-t általában 0,05-nak vagy 0,01-nak, néha 0,1-nek választják.

42 Tévedési lehetőségek: Elsőfajú hiba: H 0 teljesül, de elvetjük. Ennek valószínűsége p 1 = P H0 (S n C(α)) α. Másodfajú hiba: H 0 nem teljesül, de elfogadjuk. Ennek valószínűsége p 2 = P H1 (S n / C(α)). Definíció e n (α, θ) = 1 p 2 = P H1 (S n C(α)) a próba ereje, az e n függvény az erőfüggvény. Definíció Egy próba konzisztens, ha lim n e n (α, θ) = 1. Megjegyzések A kritikus tartomány csökkentésével az elsőfajú hiba csökken, a másodfajú hiba nő, ezért a kétfajta hiba egyszerre nem minimalizálható. A konzisztencia azt jelenti, hogy a mintaelemszám növelésével a másodfajú hiba tetszőlegesen kicsivé tehető.

43 Próbák szerkesztése Általános módszer próbák szerkesztésére Keresünk egy S n statisztikát, aminek ismert az eloszlása, ha H 0 teljesül. Jelölje az eloszlásfüggvényét G. Egyoldali próba esetén meghatározunk egy s α kritikus értéket, amelyre P H0 (S n < s α ) = G(s α ) = 1 α: s α = G 1 (1 α). Kétoldali próba esetén s α (1) és s α (2) kritikus értékeket keresünk, amelyekre P H0 (s α (1) S n < s α (2) ) = G(s α (2) ) G(s α (1) ) = 1 α: s α (1) = G 1 (α/2) és s α (2) = G 1 (1 α/2). Döntés: H 0 -t elfogadjuk, ha egyoldali esetben S n s α, kétoldali esetben s α (1) S n s α (2). Megjegyzés Ha több módon választhatjuk meg S n statisztikát (illetve a kritikus értékeket), akkor válasszuk azt, ahol az erőfüggvény nagyobb.

44 u-próba (µ-próba, Z-próba) Tekintsünk egy N(µ, σ 2 ) eloszlásból vett mintát. Tegyük fel, hogy σ ismert. Rögzített µ 0 esetén vizsgáljuk a következő hipotéziseket: H 0 : µ = µ 0, H 1 : µ µ 0. Tekintsük a következő próbastatisztikát: u = E n(ξ) µ 0 σ/, n ami H 0 teljesülése esetén standard normális eloszlású. Ehhez és α > 0-hoz keressük az u α kritikus értéket úgy, hogy P H0 ( u α u < u α ) = Φ(u α ) Φ( u α ) = 2Φ(u α ) 1 = 1 α legyen amiből u α = Φ 1 (1 α/2) adódik, C(α) = { u > u α }. Döntés: ha u u α, akkor H 0 -t elfogadjuk, különben elvetjük.

45 A hibák valószínűségei: Elsőfajú hiba valószínűsége: p 1 = P H0 ( u > u α ) = 1 P H0 ( u α u u α ) = α. Felhasználva, hogy En(ξ) µ valószínűsége: σ/ n N(0, 1), a másodfajú hiba p 2 = P H1 ( u u α ) ( = P H1 u α E n(ξ) µ 0 σ/ n ( = P H1 u α + µ 0 µ = Φ ( u α + µ 0 µ σ/ n ) u α σ/ n E n(ξ) µ σ/ u α + µ ) 0 µ n σ/ n ) ( Φ u α + µ ) 0 µ σ/. n

46 Álĺıtás Az u-próba konzisztens. Bizonyítás ( e n (α, µ) = 1 p 2 = 1 Φ u α + µ 0 µ σ/ n ) ( + Φ u α + µ 0 µ σ/ n Ha µ > µ 0, akkor µ 0 µ σ/, ha n. Tehát n lim n e n (α, µ) = 1 lim x Φ(x) + lim x Φ(x) = 1. Ha µ 0 < µ, akkor µ 0 µ σ/, ha n. Tehát n lim n e n (α, µ) = 1 lim x Φ(x) + lim x Φ(x) = 1. Megjegyzés A mintaelemszám növelésével a máűsodfajú hiba tetszőlegesen kicsivé tehető konstans α elsőfajú hiba mellett. Könnyen látható, hogy az α terjedelmű u-próba pontosan akkor fogadja el H 0 -t, ha µ 0 benne van az ismert σ esetén µ-re konstruált 1 α megbízhatósági szintű konfidencia intervallumban. ).

47 Egyoldali u-próba Most a következő hipotéziseket vizsgáljuk: A próbastatisztika most is H 0 : µ = µ 0, H 1 : µ > µ 0. u = E n(ξ) µ 0 σ/, n ami H 0 teljesülése esetén standard normális eloszlású. Ehhez és α > 0-hoz keressük az u α kritikus értéket úgy, hogy P H0 (u < u α ) = Φ(u α ) = 1 α legyen amiből u α = Φ 1 (1 α) adódik. Döntés: ha u u α, akkor H 0 -t elfogadjuk, különben elvetjük.

48 Álĺıtás Az egyoldali u-próba konzisztens. Bizonyítás Felhasználva, hogy En(ξ) µ σ/ N(0, 1), a másodfajú hiba n valószínűsége: ( ) En (ξ) µ 0 p 2 = P H1 σ/ u α n ( En (ξ) µ = P H1 σ/ u α + µ ) 0 µ n σ/ n ( = Φ u α + µ ) 0 µ σ/. n Ha µ > µ 0, akkor µ 0 µ σ/, ha n, így n ( e n (α, µ) = 1 p 2 = 1 Φ u α + µ ) 0 µ σ/ 1, ha n. n

49 t-próba Tekintsünk egy N(µ, σ 2 ) eloszlásból vett mintát, ahol σ ismeretlen. H 0 : µ = µ 0, H 1 : µ µ 0. Tekintsük a következő próbastatisztikát: t = E n(ξ) µ 0 V n /n, ami H 0 teljesülése esetén n-1 szabadságfokú Student eloszlású. Ehhez és α > 0-hoz keressük a t α kritikus értéket úgy, hogy P H0 ( t < t α ) = Φ n 1 (t α ) Φ n 1 ( t α ) = 2Φ n 1 (t α ) 1 = 1 α legyen amiből t α = Φ 1 n 1 (1 α/2) adódik. Döntés: ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük.

50 Egyoldali t-próba H 0 : µ = µ 0, H 1 : µ > µ 0 A próbastatisztika most is t = E n(ξ) µ 0 V n /n, ami H 0 teljesülése esetén n-1 szabadságfokú Student eloszlású. Ehhez és α > 0-hoz keressük az t α kritikus értéket úgy, hogy P H0 (t < t α ) = Φ n 1 (t α ) = 1 α legyen amiből t α = Φ 1 n 1 (1 α) adódik. Döntés: ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük.

51 Megjegyzések Belátható, hogy a két- és egyoldali t-próba is konzisztens. Könnyen látható, hogy az α terjedelmű kétoldali t-próba pontosan akkor fogadja el H 0 -t, ha µ 0 benne van az ismeretlen σ esetén µ-re konstruált 1 α megbízhatósági szintű konfidencia intervallumban. t aszimptotikus normalitása miatt nagy minta esetén ugyanazt a kritikus értéket használhatjuk, mint az u-próbánál. Nagy mintaelemszám esetén a centrális határeloszlástétel miatt mind az u-, mind a t-próba tetszőleges eloszlásból vett minta esetén alkalmazható. Az egyoldali u- és t-próbának van H 0 : µ = µ 0, H 1 : µ < µ 0 alternatívákat vizsgáló változata is, ekkor a próbastatisztika helyett annak 1-szeresét használjuk. Általában az egyoldali próbák staisztikája ugyanaz, mint a kétoldali változat, csak az elfogadási és a kritikus tartományt módosítják.

52 Páros t-próba Összetartozó (nem független) minta esetén a különbségváltozóra vonatkozó, ún. önkontrollos vizsgálat alkalmazható. Legyen (ξ, η) olyan vektorváltozó, amely komponenseinek létezik a várható értéke: E(ξ) = µ 1 és E(η) = µ 2, továbbá ν = ξ η normális eloszlású. Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát. A H 0 : µ 1 = µ 2 hipotézist vizsgáljuk. Az eljárás a következő: Képezzük a ν i = ξ i η i változókat, amik függetlenek és normális eloszlásúak µ = µ 1 µ 2 várható értékkel. A ν 1,..., ν n minta segítségével egymintás t-próbával teszteljük a H 0 : µ = 0 nullhipotézist. Ha H 1 : µ 1 µ 2, akkor a kétoldali, ha H 1 : µ 1 > µ 2, akkor az egyoldali változatot alkalmazzuk.

53 Kétmintás t-próba Tekintsük a ξ 1,..., ξ n1 N(µ 1, σ 2 ) és η 1,..., η n2 N(µ 2, σ 2 ) független mintákat. H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2. A próbastatisztika: E n1 (ξ) E n2 (η) t = n1 V n1 (ξ) + n 2 V n2 (η) n 1 n 2 (n 1 + n 2 2), n 1 + n 2 amiről tudjuk, hogy n 1 + n 2 2 szabadságfokú Student eloszlású H 0 teljesülése esetén. A kritikus érték α szinthez t α = Φ 1 n 1 +n 2 2 (1 α/2). Döntés: ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük.

54 Welch-próba Tekintsük a ξ 1,..., ξ n1 N(µ 1, σ 2 1 ) és η 1,..., η n2 N(µ 2, σ 2 2 ) független mintákat. H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2. A próbastatisztika:, V n1 (ξ) n 1 + V n 2 (η) n 2 t = E n 1 (ξ) E n2 (η) ( ) ami közeĺıtőleg df = c 2 1 n (1 c)2 n 2 1 szabadságfokú Student eloszlású H 0 teljesülése esetén, ahol c = V n 1 (ξ)/n 1 V n 1 (ξ)/n 1 + V n 2 (η)/n 2. A kritikus érték α szinthez t α = Φ 1 df (1 α/2). Döntés: ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük.

55 Megjegyzések Belátható, hogy a kétmintás t-próba konzisztens. Könnyen látható, hogy az α terjedelmű kétmintás t-próba pontosan akkor fogadja el a nullhipotézist, ha 0 benne van az ismeretlen szórás esetén µ 1 µ 2 -re konstruált 1 α megbízhatósági szintű konfidencia intervallumban. A kétmintás t-próbának van egyoldali változata is, ahol H 0 : µ 1 = µ 2, H 1 : µ 1 > µ 2, a t próbastatisztika ugyanaz, a kritikus érték t α = Φ 1 n 1 +n 2 2 (1 α), a döntés pedig ha t t α, akkor H 0 -t elfogadjuk, különben elvetjük. A kétmintás t-próba feltétele a szórások egyezése, amit az alábbi F-próbával tesztelünk. Ha a szórások nem egyenlőek, akkor µ 1 µ 2 -re vonatkozó hipotéziseket a Welch-próbával vizsgáljuk.

56 F-próba Tekintsük a ξ 1,..., ξ n1 N(µ 1, σ 2 1 ) és η 1,..., η n2 N(µ 2, σ 2 2 ) független mintákat. H 0 : σ2 1 σ 2 2 A próbastatisztika: = τ 0, H 1 : σ2 1 σ 2 2 F = V n 1 V n 2 τ 0, τ 0. ami n 1 1, n 2 1 szabadságfokú F eloszlású H 0 esetén. A kritikus értékek α szinthez: f 1,α = Fn 1 1 1,n 2 1 (α/2) és f 2,α = Fn 1 1 1,n 2 1 (1 α/2). Döntés: ha f 1,α F f 2,α, akkor H 0 -t elfogadjuk, különben elvetjük.

57 A gyakorlatban az F-próba módosított változatát alkalmazzák, ami azon alapszik, hogy H 0 teljesülése esetén 1/F F (n 2 1, n 1 1), továbbá f 1,α < 1 és f 2,α > 1. Tehát a módosított próbastatisztika { V } F = max n1 Vn, V n 2 τ τ 0 V n 1 A kritikus érték α szinthez { F 1 n F α = 1 1,n 2 1 (1 α/2), ha V n 1 /Vn 2 τ 0, Fn 1 2 1,n 1 1 (1 α/2), ha V n 1 /Vn 2 < τ 0. Akkor fogadjuk el H 0 -t, ha F < F α. Szemléletesen: a mintát úgy választjuk, hogy az eredeti változatban F 1 teljesül, és csak a felső kritikus értékkel hasonĺıtjuk össze. Ez magyarázza, hogy az F táblázatokban csak F 1 m,n(p) értékek 1-hez közeli p-kre vannak feltüntetve.

58 Nemparaméteres próbák Nemparaméteres próbák esetén nem feltételezzük, hogy olyan eloszláscsaládból vesszük a háttérváltozó eloszlását, amely véges sok paraméterrel leírható. Leggyakoribb nemparaméteres tesztek események valószínűségére vonatkozó próbák, eloszlásfüggvények tesztelése, kvantilisekre (általában mediánra) vonatkozó próbák, homogenitásvizsgálatok, függetlenségvizsgálatok, véletlenszerűség tesztelése. Itt csak a legáltalánosabban használt nemparaméteres próbákat (kétoldali változataikat) tekintjük át.

59 χ 2 próbák Valószínűségek tesztelése Legyen A 1,..., A r teljes eseményrendszer, p i > 0 minden i-re és p p r = 1. H 0 : P(A i ) = p i, i = 1,..., r, Végezzünk n független megfigyelést, és jelölje ϕ i az A i bekövetkezéseinek számát. χ 2 = r (ϕ i np i ) 2 H 0 esetén eloszlásban χ 2 (r 1)-hez tart (n ), így a kritikus érték χ 2 α = F 1 (1 α). χ 2,r 1 Döntés: (nagy mintaelemszám esetén) ha χ 2 < χ 2 α, akkor elfogadjuk H 0 -t. np i

60 Tiszta illeszkedésvizsgálat χ 2 próbával Legyen ξ 1,..., ξ n minta ismeretlen F eloszlásfüggvénnyel. H 0 : F (x) = F 0 (x) x R, ahol F 0 egy adott eloszlásfüggvény. Legyenek = x 0 < x 1 <... < x r 1 < x r = osztópontok, valamint A i = {ξ [x i 1, x i )}, i = 1,..., r. P(A i ) = P(x i 1 ξ < x i ) = F (x i ) F (x i 1 ). Legyen p i = F 0 (x i ) F 0 (x i 1 ). A fentiek alapján H 0 maga után vonja az alábbi hipotézist: H 0 : P(A i ) = p i, i = 1,..., r, tehát a feladatot visszavezettük valószínűségek tesztelésére χ 2 próbával.

61 Becsléses illeszkedésvizsgálat χ 2 próbával H 0 : F (x) = F θ1,...,θ k (x) x R, ahol F θ1,...,θ k adott eloszlásfüggvény θ 1,..., θ k ismeretlen paraméterekkel. Vegyük a paraméterek ˆθ 1,..., ˆθ k becsléseit és legyen F 0 = Fˆθ1,...,ˆθ k. Az eljárás ugyanaz, mint a tiszta illeszkedésvizsgálatnál, de itt a próbastatisztika H 0 mellett n 1, n 2 esetén eloszlásban tart χ 2 (r k 1)-hez. Megjegyzések Ha ξ értékkészlete véges: x 1,..., x r, akkor nincs szükség osztópontokra, hanem az A i = {ξ = x i } választással a valószínűségek tesztelését közvetlenül alkalmazhatjuk. Becsléses illeszkedésvizsgálat esetén a szabadságfok most is csökken a becsült paraméterek számával. Jól használható ökölszabály a mintaelemszámra az eddigi χ 2 próbáknál: n > max 1 i r {10/p i }.

62 Homogenitásvizsgálat χ 2 próbával Tekintsünk két mintát: ξ 1,..., ξ n1 és η 1,..., η n2. H 0 : P(ξ < x) = P(η < x) x R. Legyenek most is = x 0 < x 1 <... < x r 1 < x r = osztópontok és µ i az [x i 1, x i ) intervallumba eső első, ν i a második mintabeli elemek száma. r ( χ 2 1 µi = n 1 n 2 ν ) 2 i. µ i + ν i n 1 n 2 ami H 0 esetén n 1, n 2 esetén eloszlásban tart χ 2 (r 1)-hez. Tehát most is χ 2 α = F 1 (1 α). χ 2,r 1 Döntés: ha χ 2 < χ 2 α, akkor elfogadjuk H 0 -t. Megjegyzés Diszkrét véges értékkészletű változók esetén itt sincs szükség az osztópontokra: intervallumokba esés helyett x i értéket keresünk.

63 Függetlenségvizsgálat χ 2 próbával Legyen ξ értékkészlete x 1,..., x r és η-é y 1,..., y s. H 0 : P(ξ = x i, η = y j ) = P(ξ = x i )P(η = y j ), 1 i r, 1 j s, azaz ξ és η függetlenek. Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát. Legyen ν ij az (x i, y j ) gyakorisága a mintában (a ν ij értékeket az ún. kontingenciatáblázat tartalmazza), ν i = s j=1 ν ij és ν j = r ν ij. r s χ 2 (ν ij ν i ν j n = n )2, ν i ν j j=1 ami H 0 mellett n 1, n 2 esetén eloszlásban tart χ 2 ((r 1)(s 1))-hez. Tehát χ 2 α = F 1 (1 α). χ 2,(r 1)(s 1) Döntés: ha χ 2 < χ 2 α, akkor elfogadjuk H 0 -t. Megjegyzés Ennek speciális esete a homogenitásra vonatkozó χ 2 próba.

64 Kolmogorov-Szmirnov próbák Tiszta illeszkedésvizsgálat A próbastatisztika H 0 : P(ξ < x) = F 0 (x) x R. n = sup F n (x) F 0 (x). x R H 0 mellett n n aszimptotikusan Kolmogorov-eloszlású. A kritikus érték k α = K 1 (1 α)/ n. Döntés: elfogadjuk H 0 -t, ha n < k α. Megjegyzések n meghatározásához elég 2n különbséget meghatározni, mivel F 0 monoton növő, F n pedig lépcsős függvény. Egyoldali változatban a próbastatisztika abszolutérték nélküli és közeĺıtőleg Szmirnov-eloszlású.

65 Homogenitásvizsgálat Kolmogorov-Szmirnov próbával H 0 : P(ξ < x) = P(η < x) x R. Tekintsük a ξ 1,..., ξ n1 és η 1,..., η n2 mintákat és a hozzájuk tartozó F n1 és G n2 empirikus eloszlásfüggvényeket. A próbastatisztika H 0 mellett n1 n 2 n 1 +n 2 n1,n 2 n1,n 2 = sup F n1 G n2. x R Tehát k α = n1 +n 2 n 1 n 2 K 1 (1 α). Döntés: elfogadjuk H 0 -t, ha n < k α. közeĺıtőleg Kolmogorov-eloszlású. Az illeszkedésvizsgálat megjegyzései itt is érvényesek.

66 Binomiális teszt Legyen ξ B(p) változó. ahol p 0 (0, 1) adott. H 0 : P(ξ = 1) = p 0, S n = K n ({ξ = 1}) a H 0 mellett binom(n, p 0 ) eloszlású. A kritikus értékek c 1 és c 2, amelyekre éppen c 1 ( ) n P H0 (S n c 1 ) = p0 k (1 p 0 ) n k α k 2, P H0 (S n c 2 ) = k=0 n k=c 2 ( ) n p0 k (1 p 0 ) n k α k 2. S Ha n nagy, CHT miatt n np 0 N(0, 1) közeĺıtőleg, np0 (1 p 0 ) c 1,2 = np 0 ( np 0 (1 p 0 ) Φ 1 1 α ). 2 Döntés: ha c 1 < S n < c 2, akkor H 0 -t elfogadjuk.

67 Egymintás előjelpróba Legyen ξ folytonos eloszlású valószínűségi változó. azaz a p 0 -kvantilis éppen x 0. H 0 : P(ξ < x 0 ) = p 0, Tekintsük az η = I (ξ < x 0 ) valószínűségi változót, amely B(p) eloszlású, ahol p = P(ξ < x 0 ). Alkalmazzuk a H 0 : P(η = 1) = p 0 hipotézis tesztelésére az binomiális tesztet. Itt a tesztstatisztika éppen S n = nf n (x 0 ), ami H 0 mellett binom(n, p 0 ) eloszlású. Megjegyzés: a próba neve x 0 ξ előjelére utal.

68 Medián-próba Az előjelpróba kétmintás változata. ξ 1,..., ξ n1 és η 1,..., η n2 független, folytonos eloszlású minták (n 1 + n 2 páros). H 0 : P(ξ < x) = P(η < x) x R. Vegyük az egyesített minta mediánját és jelölje M n1,n 2 az első mintában a mediánnál kisebb elemek számát. H 0 mellett ( n1 )( n 2 ) k n 1 +n 2 k 2 P(M n1,n 2 = k) = ), k = 0,..., n 1. ( n1 +n 2 n 1 +n 2 2 E(M n1,n 2 ) = n 1 2 és D 2 (M n1,n 2 ) = n 1 n 2 4(n 1 +n 2 +1). Ha n 1 és n 2 nagy, akkor Mn 1,n 2 E(Mn 1,n 2 ) D(M n1,n 2 ) N(0, 1) közeĺıtőleg. Döntés: H 0 -t elfogadjuk, ha < Φ 1 ( 1 α ) 2. Mn 1,n 2 E(Mn 1,n 2 ) D(M n1,n 2 )

69 Wilcoxon-próba Legyen ξ folytonos, a mediánra szimmetrikus eloszlású vv. H 0 : P(ξ < m 0 ) = 1 2. Rendezzük sorba ξ 1 m 0,..., ξ n m 0 mintát és legyen R i rangszám ξ i m 0 sorszáma ebben a rendezett mintában. Legyen T + = i:ξ i >m 0 R i. H 0 mellett kis n esetén T + eloszlásának t(α, n) kvantiliseit táblázat tartalmazza. Nagy n-re T + E(T + ) D(T + ) N(0, 1) közeĺıtőleg, E(T + ) = 1 n 2 i = n(n+1) 4 és D 2 (T + ) = n(n+1)(2n+1) 24. Döntés: H 0 -t elfogadjuk, ha kis n esetén t(α/2, n) < T + < n(n+1) 2 t(α/2, n), nagy n-re T + E(T + ) D(T + ) < Φ 1 (1 α/2).

70 Páros Wilcoxon-próba ξ, η folytonos eloszlásúak. Önkontrollos vizsgálatot alkalmazunk a következő hipotézis vizsgálatára: H 0 : P(ξ < η) = 1 2 Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát. Legyen ν i = ξ i η i, így H 0 : P(ν < 0) = 1 2, amit egymintás Wilcoxon-próbával tesztelhetünk, ha ν eloszlása folytonos és a mediánjára szimmetrikus. Megjegyzések A páros t-próba nemparaméteres alternatívájaként alkalmazzák. Az előjelpróbának is hasonlóan konstruálhatjuk meg a páros változatát, de ott nem kell feltenni ν szimmetriáját.

71 Kétmintás Wilcoxon (Mann-Whitney) próba η i = ξ i, i = 1,..., n 1 és ν j = ξ j + θ, j = n 1 + 1,..., n 1 + n 2 minták, ahol ξ 1,..., ξ n1 +n 2 független, azonos folytonos eloszlású változók. H 0 : θ = 0. Rendezzük sorba az egyesített mintát és legyen R i a η i rangja az egyesített mintában. R = n 1 R i. H 0 mellett kis elemszám esetén R eloszlásának r(α, n1, n 2 ) kvantiliseit táblázat tartalmazza. Nagy elemszámnál R E(R) D(R) N(0, 1) közeĺıtőleg, ahol E(R) = n1(n1+n2+1) 2 és D 2 (R) = n1n2(n1+n2+1) 12. Döntés: H 0 -t elfogadjuk, ha kis elemszám esetén r(α/2, n 1, n 2 ) < R < n 1 (n 1 + n 2 + 1) r(α/2, n 1, n 2 ), nagy elemszámra R E(R) < Φ 1 (1 α/2). D(R)

72 Spearman-féle rangkorreláció Definíció Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát. Legyen R i a ξ i és S i az η i rangszáma. A Spearman-féle rangkorrelációs együttható n ϱ n = (R i R)(S i S) n (R n. i R) 2 (S i S) 2 Tulajdonságok ρ n = n (R i n+1 2 )(S i n+1 2 ) n(n 2 1)/12 = 1 6 n (R i S i ) 2 n(n 2 1). ρ n 1. Ha ρ i = 1, akkor ξ i ξ j implikája η i η j -t, ha ρ i = 1, akkor ξ i ξ j implikálja η i η j -t minden i j-re. Függetlenségteszt H 0 : ξ és η függetlenek. H 0 mellett n 1ρ n N(0, 1) aszimptotikusan. Döntés: ha n 1ρ n < Φ 1 (1 α/2), elfogadjuk H 0 -t.

73 Futamteszt Véletlenszerűség tesztelése I. Adott egy két jelből álló sorozat. H 0 : sorrendjük véletlenszerű. xxxyy xyyyy Az azonos elemekből álló maximális sorozatok a futamok. Az x-ek száma n, az y-oké m, a futamok számát jelölje W. Legyen { 1, ha a k-adik elem futam eleje, I k = 0 különben. H 0 mellett I 1 = 1 és k > 1-re I k Bernoulli-eloszlású paraméterrel, valamint W = n+m I k. nm ( n+m 2 ) H 0 mellett E(W ) = 1 + 2nm n+m és D2 (W ) = 2nm(2nm n m) (n+m) 2 (n+m 1). Ha n és m nagy, akkor W E(W ) D(W ) közeĺıtőleg N(0, 1) eloszlású.

74 II. Vegyünk egy n hosszú 2 jelből állt sorozatot. H 0 : véletlen forrásból származik (fae), x valószínűsége 1/2. Ebben az esetben I 2,..., I n B(1/2) fae., amiből W 1 binom(n 1, 1/2), így E(W ) = n+1 2 és D 2 (W ) = n 1 4. CHT alapján nagy n-re W E(W ) D(W ) Döntés (I-II): H 0 -t elfogadjuk, ha közeĺıtőleg N(0, 1) eloszlású. < Φ 1 ( 1 α ) 2. W E(W ) D(W ) III. H 0 : x 1,..., x n véletlen minta realizációja. Legyen m a medián és alkalmazzuk az II-t a sgn(x 1 m),..., sgn(x n m) előjelsorozatra. Futamteszt homogenitásvizsgálatra (Wald-Wolfowitz) ξ 1,..., ξ n1 és η 1,..., η n2 független, folytonos eloszlású minták. H 0 : P(ξ < x) = P(η < x) x R. Rendezzük az egyesített mintát és ebben a ξ-η jelsorozatra alkalmazzuk I-t.

75 Többváltozós módszerek Ezek a módszerek több változó együttes vizsgálatára vonatkoznak. Alapvető típusaik: többdimenziós eloszlásokra vonatkozó hipotézisvizsgálatok (általában többdimenziós normális eloszlás paramétereire vonatkoznak), varianciaanaĺızisek, klasszifikációs módszerek (diszkrimináló illetve klaszterező eljárások), dimenziócsökkentés,...

76 Egyszempontos varianciaanaĺızis (ANOVA) Tekintsük a ξ i,j N(µ i, σ 2 ), i = 1,..., r, j = 1,..., n i független mintákat. A várható értékek feĺırhatók a következő formában: µ i = µ + a i, ahol µ a várható értékek n i értékekkel súlyozott átlaga, a i pedig az i-edik csoporthatás. azaz minden csoporthatás 0. H 0 : µ 1 =... = µ r, Legyen n = n n r. Képezzük a következő statisztikákat: ξ i = ni j=1 ξ i,j n i, ξ = r ni j=1 ξ i,j. n

77 SSB = SST = r n i (ξ i,j ξ) 2, j=1 r n i (ξ i ξ) 2, SSW = Álĺıtás SST = SSB + SSW. Bizonyítás SST = r n i (ξ i,j ξ i ) 2. j=1 r n i ((ξ i,j ξ i ) + (ξ i ξ)) 2 j=1 = SSW + SSB + 2 = SSW + SSB + 2 r n i (ξ i,j ξ i )(ξ i ξ) j=1 r n i (ξ i ξ) (ξ i,j ξ i ). j=1 } {{ } 0

78 Visszatérve H 0 vizsgálatára: a próbastatisztika F = SSB SSW n r r 1, ami H 0 mellett F (r 1, n r) eloszlású. Tehát a kritikus érték α-hoz F α = Fr 1,n r (1 α). Döntés: ha F < F α, akkor H 0 -t elfogadjuk, különben elvetjük. Megjegyzések ANOVA a kétmintás t-próba általánosítása: könnyen látható, hogy ha r = 2 és 0 = 0, akkor F = t 2, és F α = t 2 α. Itt is feltétel a szórások egyezése, ami az általánosított F -próbával tesztelhető. Ha a szórások nem egyenlőek, akkor ANOVA helyett a többmintás Welch-próbát alkalmazzák. Az ANOVA-t diszkrét és normális eloszlású változó függetlenségének tesztelésére is használják. Van többszempontos varianciaanaĺızis is.

79 Lineáris regresszió Tekintsük a (ξ, η) véletlen vektort. Keressük η-t legjobban közeĺıtő lineáris függvényt, azaz a-t és b-t, amelyre E((η (aξ + b)) 2 ) négyzetes eltérés minimális. E((η aξ b) 2 ) = E((η aξ) 2 ) 2b E(η aξ) + b 2 minimális, ha b = E(η aξ) = E(η) ae(ξ). E((η aξ E(η)+aE(ξ)) 2 ) = D 2 (η)+a 2 D 2 (ξ) 2a Cov(η, ξ), Cov(ξ, η) aminek maximumhelye a = D 2 = r(ξ, η) D(η) (ξ) D(ξ), Cov(ξ, η) amiből b = E(η) + D 2 E(ξ). (ξ) Definíció A fenti paraméterekkel feĺırt y = ax + b egyenes a regressziós egyenes, a, b paraméterek a lineáris regressziós együtthatók. Megjegyzés Ha ξ, η függetlenek, akkor a = r(ξ, η) D(η) D(ξ) = 0.

80 Regressziós egyenes paramétereinek ML becslése Tekintsük a (ξ 1, η 1 ),..., (ξ n, η n ) mintát és az (x 1, y 1 ),..., (x n, y n ) realizációt. Tegyük fel, hogy η = aξ + b + ε, ahol ε N(0, σ 2 ). Célunk a és b paraméterek becslése. Az egyszerűség kedvéért tegyük fel, hogy x i értékek nem véletlen minta realizációi, hanem rögzített értékek, így az η i = ax i + b + ε i modellt kapjuk, ahol ε 1,..., ε n N(0, σ 2 ) függetlenek, eloszlásuk nem függ sem a-tól, sem b-től. Tehát η 1,..., η n függetlenek, η i N(ax i + b, σ 2 ). Jelölje η i sűrűségfüggvényét f i n L(a, b) = f i (y i ) = 1 ( 2πσ) n e 1 n 2σ 2 (y i ax i b) 2. L(a, b) akkor maximális, ha Q(a, b) = n (y i ax i b) 2 minimális (legkisebb négyzetek módszere).

81 Megjegyzés Q(a, b) az (x 1, y 1 ),..., (x n, y n ) pontok együttes négyzetes távolsága az y = ax + b egyenestől. Q(a, b) = n (y i ax i b) 2 mindkét változó szerint deriválható, a deriváltak zérushelyei Q(a, b) lehetséges szélsőértékhelyei. Q a Q b n = 2 x i (y i ax i b) = n x i y i a = 2 = n b xi 2 n (y i ax i b) n y i a n x i nb = 0 n x i = 0

82 A lehetséges szélsőértékhelyek teljesítik a következő egyenlőséget n n x i y i n x i n Q n a Q x i b = 0 ( n n n ) 2 y i â n x i = 0. x 2 i Ebből â = n n x iy i n x n i y i n n x i 2 ( n x i) 2 = n2 C n (ξ, η) n 2 V n (ξ) = r n (ξ, η) D n(η) D n (ξ).

83 â-t beírva Q b = n y i a n x i nb = 0 egyenletbe kapjuk ˆb = n y i n n â x i. n Belátható, hogy (â, ˆb) valóban Q minimumhelye. Definíció Az â, ˆb értékeket becsült lineáris regressziós együtthatóknak, az y = âx + ˆb egyenest becsült lineáris regressziós egyenesnek nevezzük. Megjegyzés A becsült lineáris regressziós egyenest η n+1 érték becslésére használjuk, ha x n+1 adott csak.

84 Varianciaanaĺızis lineáris modellben Tekintsük a η = ax + b + ε, ε N(0, σ 2 ) regressziós modellt és az η 1,..., η n mintát. H 0 : a = 0. Vegyük a regressziós egyenes paramétereinek â, ˆb ML becsléseit és legyen ˆη i = âx i + ˆb. Képezzük a következő négyzetösszegeket: n n n SST = (η i η) 2, SSR = (ˆη i η) 2, SSE = (η i ˆη i ) 2. a próbastatisztika F = SSR (n 2), SSE ami H 0 mellett F (1, n 2) eloszlású. Tehát a kritikus érték α-hoz F α = F1,n 2 1 (1 α). Döntés: ha F < F α, akkor H 0 -t elfogadjuk, különben elvetjük.

85 Álĺıtás SST = SSR + SSE. Bizonyítás n SST = ((η i ˆη i )+(ˆη i η)) 2 = SSR+SSE+2 n (η i ˆη i )(ˆη i η), }{{} 2 n (η i âx i ˆb)(âx i + ˆb η) = â Q a (ˆb η) Q b = 0. Álĺıtás SSR = SST r 2 n (x, η). Bizonyítás n n (η i âx i ˆb) 2 = â 2 (x i x) = rn 2 (x, η) V n(η) V n (x) nv n(x). Következmény SSE = SST (1 r 2 n (x, η)) és SSR SSE = r 2 n (x, η) 1 r 2 n (x, η).

86 Többváltozós regresszió A modell η = a 1 x a r x r + b + ε, ε N(0, σ 2 ). H 0 : a 1 =... = a r = 0. Vesszük a 1,..., a r, b legkisebb négyzetes becsléseit, ˆη i = â 1 x i, â r x i,r + ˆb i és képezzük SST, SSR és SSE négyzetösszegeket. A próbastatisztika most F = SSR SSE n r 1, ami H 0 mellett r F (r, n r 1) eloszlású. Megjegyzések Az x i -k a teljes variancia r 2 n (x, η)-részét magyarázzák. Ha (ξ, η) kétdimenziós normális eloszlású és ξ, η függetlenek, akkor r n 2 n(ξ,η) aszimptotikusan t(n 2) eloszlású. 1 r 2 n (ξ,η) Az általános regressziós modell η = f (ξ) + ε. Általában a nemlineáris regressziót a lineárisra vezetik vissza.

87 Főkomponensanaĺızis Legyen X egy d-dimenziós véletlen vektor m várható érték vektorral és pozitív definit C kovarianciamátrixszal. Cél a változók számának csökkentése minél kevesebb információ vesztésével. C szimmetrikus, spektrálfelbontása C = VΛV, ahol Λ = diag(λ 1,..., λ d ) a C mátrix λ 1... λ d > 0 sajátértékeinek diagonális mátrixa, V oszlopvektorai pedig a hozzá tartozó ortonormált sajátvektorrendszer a megfelelő sorrendben. Definíció A Y = V 1 (X m) = V T (X m) az X főkomponensvektora, Y k-adik komponense (Y k ) a k-adik főkomponens.

88 Álĺıtás Y kovarianciamátrixa Λ. Bizonyítás E(Y) = E(V T (X m)) = V T (E(X) m) = 0, E(YY ) = E(V T (X m)(x m) V) = V T E((X m)(x m) )V = V CV = Λ. Tétel x 1,..., x d ortonormált vektorrendszer. Ekkor k k x i Cx i λ i, k = 1,..., d. Ha x i = v i, i = 1,..., d, akkor egyenlőség teljesül. Következmény Y k szórása maximális az z (X m) alakú vv-k között, amelyre x = 1 és z (X m) korrelálatlan Y i -vel minden i < k-ra.

89 Tétel A k(< d)-dimenziós P projekciók közül E( X PX ) kifejezést a v 1,..., v k által feszített altérre vetítő projekció minimalizálja. (Tehát X négyzetes középben vett legjobb k-dimenziós becslésének első k koordinátája a sajátvektorok bázisában az első k főkomponens, a többi pedig 0.) k megválasztása λ λ k λ λ d hányados azt mutatja, hogy az első k főkomponens a teljes variancia hányadrészét magyarázza. Megjegyzés A gyakorlatban egy minta empirikus kovarianciamátrixából indulunk, ennek sajátértékei és sajátvektorai lesznek λ i és v i (i = 1,..., d) becslései.

90 Faktoranaĺızis Definíció Legyen X egy d-dimenziós véletlen vektor m várható érték vektorral és C kovarianciamátrixszal. A k-faktor modell a következő: X = AY + W + m, ahol A átviteli mátrix vagy faktorsúlymátrix d k-as, az Y közös faktor k-dimenziós véletlen vektor, amelyre E(Y) = 0 és E(YY ) = I k, valamint W egyedi faktor egy d-dimenziós véletlen vektor, amelyre E(W) = 0, E(WW ) = D diagonális mátrix, valamint E(YW ) = 0. A modell paraméterei A és D, feltevése, hogy a faktorkomponensek korrelálatlanok, továbbá a közös faktorok szórásnégyzete 1.

91 Álĺıtás C = AA + D. (Ezt nevezzük a modell mátrixalakjának.) Bizonyítás X i = k j=1 a i,jy j + W i + m i (1 i d) szórásnégyzete c ii = k j=1 a2 i,j + d i,i, mivel a faktorkomponensek korrelálatlanok. ( k j=1 a2 i,j az X i változó kommunalitása, d i,i az egyedi variancia.) Tétel Adott k < d esetén a k-faktor modellnek pontosan akkor van megoldása, ha van olyan d d-s D nemnegatív elemű diagonális mátrix, hogy C D egy legfeljebb k-adrangú, pozitív szemidefinit. Bizonyítás Ha van megoldás, akkor C D = AA rangja legfeljebb k, mivel A egy d k-as mátrix. Fordítva, ha C D szimmetrikus, rangja r( k), akkor feĺırható AA alakban, ahol A d r-es.

92 Megjegyzések Ha C D-nek van AA alakú felbontása, akkor mivel ez nem egyértelmű: ha U egy ortogonális mátrix, akkor B = AU -ra AA = BB, sokszor további feltételeket is tesznek A-ra. Közeĺıtő megoldásokat szoktak adni (ML; legkisebb négyzetek módszere; főkomponensanaĺızis módosított változata;...). A faktorsúlyok értelmezése és a faktorok rotációja Cov(X i, Y j ) = E((X i m i )Y j ) = E(( k j=1 a i,jy j + W i )Y j ) = a i,j a faktorsúlyok korrelálatlansága miatt. X i az Y j faktorral akkor áll szoros kapcsolatban, ha a i,j nagy. A faktorok értelmezése szempontjából az a jó, ha minden i-re kevés (esetleg egy) a i,j nagy, a többi kicsi. A rotáció célja olyan U k k-s ortogonális mátrix keresése, amelyre az X = X = A Y + W + m modell, ahol A = AU és Y = U Y, teljesíti a fentieket.

93 Diszkriminanciaanaĺızis Legyen X változó N(m 1, C) vagy N(m 2, C) eloszlású. Ezt az osztálybatartozást szeretnénk eldönteni a tér egy X 1 X 2 partícionálásával. Legyen f i az i-edik osztályhoz tartozó sűrűségfüggvény. (Általában m i -t és C-t a mintából becsüljük.) Két megközeĺıtést tekintünk. I. Az f 2 (x) dx + X 1 f 1 (x) dx X 2 veszteségfüggvényt minimalizáló partícionálást keresünk. Belátható, hogy az átlagos veszteség akkor minimális, ha x osztálya j, amire m j C 1 x 1 2 m j C 1 m j nagyobb. Ez alapján L(x) = (m 1 m 2 ) C 1 x + c alakú Fisher-féle diszkriminancia-függvényt használjuk: x pontosan akkor tartozik az első osztályba, ha L(x) > 0.

94 II. Legyen A = (m 1 m 2 )(m 1 m 2 ). Tekintsük a Rayleigh-hányadost: R(v) = v Av v Cv Heurisztika: R maximumhelyének irányában jól tudunk szeparálni. Legyenek C 1 A sajátértékei λ 1... λ d és v 1,..., v d hozzájuk tartozó sajátvektorok a kanonikus főirányok. Belátható, hogy R maximumhelye v 1. Egy L(x) = v 1 x + b alakú diszkriminanciafüggvény segítségével döntünk: x akkor esik az első osztályba, ha L(x) > 0. Megjegyzések A két diszkriminanciafüggvény pozitív konstans faktorban tér el, ugyanazt az osztályozást eredményezik. A szeparálás jóságát a Wilks-féle Λ = (1 + ˆλ 1 ) 1 statisztikával jellemezzük. Ha az osztályok jól szeparálhatók, akkor Λ kicsi.

95 Logisztikus regresszió Legyen η ismeretlen p paraméterű Bernoulli-változó és x egy d-dimenziós vektor. Tegyük fel, hogy p = p(x), ezt a függést a következő logisztikus regressziós modell (logitmodell) írja le: ln p 1 p = a x + b. Tekintsük egy n elemű mintát. Meghatározzuk â, ˆb ML becsléseket (kihasználva, hogy az x i vektorhoz tartozó n i mintaelem összege binomiális eloszlású n i és p(x i ) paraméterekkel). Ebből kapjuk p becslését: ˆp = e â x ˆb. η értékei szerinti osztálybatartozás előrejelzése ennek segítségével úgy történik, hogy rögzítünk egy 0 < p 0 < 1 értéket, és ˆη = 1, ha ˆp > p 0.

96 Klaszteranaĺızis Különböző eloszlásból vett minták esetén nem tudjuk, melyik mintaelem melyik osztályba (klaszterbe) tartozik, esetleg az osztályok száma is ismeretlen. Célunk az osztályok meghatározása. Tekintsük az x 1,..., x n realizációt. Tegyük fel, hogy van k klaszter: C 1,..., C k. Legyen x C = 1 C x j C x j a C klaszterközéppontja. Legyen SST = n x i x 2, SSW = k x j C i x j x Ci 2, SSB = k C i x Ci x 2. Most is SST = SSW + SSB. A klasztereket úgy szeretnénk meghatározni, hogy a SSW SSB = SSW SST SSW kifejezést minimalizálják, ami egyenértékű SSW minimalizálásával.

97 SSW minimumának meghatározása már két klaszter esetén is 2 n 1 1 eset vizsgálatát jelenti az n elemű mintán, ezért heurisztikákat alkalmaznak. A klaszterező eljárásoknak két alapvető fajtája van aszerint, hogy a klaszterek száma ismert-e. k-közép módszer Veszünk k kezdeti klaszterközéppontot, minden mintaelemet ahhoz a klaszterhez soroljuk, amelyik középpontjához közelebb van, majd a középpontokat újraszámítjuk. Függ a kezdeti középpontoktól. Hierarchikus módszerek Vannak a klaszterszámot csökkentő (agglomeratív vagy összevonó) és növelő (divizív vagy felosztó) módszerek. Pl. előbbi esetében kezdetben minden pont külön klaszterbe tartozik, minden lépésben a két legközelebbi klasztert vonjuk össze, míg egy klaszter nem lesz. Függ a klaszterek távolságának definíciójától.

98 Klaszterek távolsága (d(c i, C j )) Legközelebbi szomszéd (nearest neighbor vagy single linkage): min x y. x C i,y C j Legtávolabbi szomszéd (furthest neighbor vagy complete linkage): max x y. x C i,y C j Átlagos távolság (between-groups linkage vagy average linkage): 1 x y. C i C j x C i,y C j Unió pontjainak átlagos távolsága (within-groups linkage): 1 ) ( Ci + C j 2 x,y C i C j x y. Klaszterközéppontok távolsága (centroid): x Ci x Cj.

99 Medián távolság: x Ci x Cj, ahol x C a C klaszter súlyozott közepe, amit rekurzívan számolunk a következő módon: ha C klaszter C C unióként jött létre, akkor x C = 1 2 ( x C + x C ). Ward távolság: x C i C j x x Ci C j 2 = C i C j C i + C j x C i x Cj 2. l {i,j} x C l x x Cl 2 (Tehát a Ward módszer azt a két klasztert vonja össze, amelyek összevonásával SSW legkevésbé nő.)

100 Irodalom Bolla Marianna, Krámli András: i következtetések elmélete, Typotex Fazekas István (szerk.): Bevezetés a matematikai statisztikába, Kossuth Egyetemi Kiadó Móri F. Tamás, Szeidl László, Zempléni András: Matematikai statisztika példatár, ELTE Eötvös Kiadó, Osztényiné Krauczi Éva, Székely László: Valószínűségszámítás és statisztika példatár, Polygon Jegyzettár Viharos László: A sztochasztika alapjai, Polygon Jegyzettár