Többváltozós statisztikai módszerek (elektronikus tananyag) Bolla Marianna, Krámli András, Nagy-György Judit



Hasonló dokumentumok
1. Példa. A gamma függvény és a Fubini-tétel.

Abszolút folytonos valószín ségi változó (4. el adás)

Készítette: Fegyverneki Sándor

Valószín ségszámítás és statisztika

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Valószínűségi változók. Várható érték és szórás

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

Gazdasági matematika II. tanmenet

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

Matematikai statisztika szorgalmi feladatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai statisztika feladatsor

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Véletlen bolyongás. Márkus László március 17. Márkus László Véletlen bolyongás március / 31

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

Backhausz Ágnes 1. Bevezetés A valószínűség elemi tulajdonságai... 5

Statisztika elméleti összefoglaló

Valószín ségelmélet. Pap Gyula

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

Gyakorló feladatok I.

Valószín ségelmélet házi feladatok

Valószín ségszámítás és statisztika

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Dr. Karácsony Zsolt. Miskolci Egyetem november

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Biomatematika 2 Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

(1 + (y ) 2 = f(x). Határozzuk meg a rúd alakját, ha a nyomaték eloszlás. (y ) 2 + 2yy = 0,

Véletlen bolyongás. 2. rész. Márkus László jegyzete alapján Tóth Tamás december 10.

A valószínűségszámítás elemei

Vektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Bevezetés. 1. fejezet. Algebrai feladatok. Feladatok

Valószín ségszámítás és statisztika

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Valószínűségszámítás összefoglaló

azonosságot minden 1 i, l n, 1 j k, indexre teljesítő együtthatókkal, amelyekre érvényes a = c (j) i,l l,i

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Gyakorló feladatok a Valószín ségelmélet kurzushoz

Sorozatok és Sorozatok és / 18

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

1. Házi feladat. Határidő: I. Legyen f : R R, f(x) = x 2, valamint. d : R + 0 R+ 0

Valószínűségelmélet. Pap Gyula. Szegedi Tudományegyetem. Szeged, 2016/2017 tanév, I. félév

(!), {z C z z 0 < R} K (K: konv. tart.) lim cn+1

(Independence, dependence, random variables)

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Hadamard-mátrixok Előadó: Hajnal Péter február 23.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

matematikai statisztika október 24.

Valószín ségszámítás. Survey statisztika mesterszak és földtudomány alapszak Backhausz Ágnes 2018/2019.

Mérhetőség, σ-algebrák, Lebesgue Stieltjes-integrál, véletlen változók és eloszlásfüggvényeik

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31

Numerikus módszerek 1.

Taylor-polinomok. 1. Alapfeladatok április Feladat: Írjuk fel az f(x) = e 2x függvény másodfokú Maclaurinpolinomját!

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Biostatisztika. Sz cs Gábor. 2018/19 tavaszi félév. Szegedi Tudományegyetem, Bolyai Intézet

Tantárgy kódja Meghirdetés féléve 3 Kreditpont 4 Összóraszám (elm+gyak) 2+2

Sorozatok, sorok, függvények határértéke és folytonossága Leindler Schipp - Analízis I. könyve + jegyzetek, kidolgozások alapján

Gazdasági matematika II. Tantárgyi útmutató

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

Matematika A2 vizsga mgeoldása június 4.

TANTÁRGYI PROGRAM Matematikai alapok 2. útmutató

Matematikai statisztika

Eloszlások jellemzése. Momentumok. Medián és kvantilis. Karakterisztikus függvény

Vektorok. Wettl Ferenc október 20. Wettl Ferenc Vektorok október / 36

Sztochasztikus folyamatok alapfogalmak

3. Lineáris differenciálegyenletek

Matematika (mesterképzés)

egyetemi jegyzet Meskó Balázs

A mérési eredmény megadása

BIOMATEMATIKA ELŐADÁS

Több valószínűségi változó együttes eloszlása, korreláció

2. SZÉLSŽÉRTÉKSZÁMÍTÁS. 2.1 A széls érték fogalma, létezése

Skalárszorzat, norma, szög, távolság. Dr. Takách Géza NyME FMK Informatikai Intézet takach/ 2005.

Dierenciálhányados, derivált

Konvex optimalizálás feladatok

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

1. hét. 1. Teljesülnek-e az alábbi egyenl½oségek? (a) A n B = B n A. (b) A \ B \ A \ B = A \ B \ A \ B. 2. Fejezzük ki

Fraktálok. Kontrakciók Affin leképezések. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék. TARTALOMJEGYZÉK Kontrakciók Affin transzformációk

A maximum likelihood becslésről

3. Fuzzy aritmetika. Gépi intelligencia I. Fodor János NIMGI1MIEM BMF NIK IMRI

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Gibbs-jelenség viselkedésének vizsgálata egyszer négyszögjel esetén

Átírás:

Többváltozós statisztikai módszerek (elektronikus tananyag) Bolla Marianna, Krámli András, Nagy-György Judit

2

Tartalomjegyzék 1. El ismeretek 1.: valószín sgelmélet 9 1.1. Elméleti háttér............................ 9 1.1.1. Valószín ségelméleti alapismeretek............. 9 1.1.2. Feltételes várható érték................... 12 1.1.3. A normális eloszlásból származtatott eloszlások...... 15 1.1.4. Többváltozós ismeretek................... 18 1.2. Feladatok............................... 20 1.3. Tesztek................................ 28 2. El ismeretek 2.: statisztikai alapok 31 2.1. Elméleti háttér............................ 31 2.1.1. Az egyváltozós statisztika alapfogalmai........... 31 2.1.2. Becsléselmélet......................... 39 2.1.3. Hipotézisvizsgálat...................... 45 2.2. Feladatok............................... 53 2.3. Tesztek................................ 77 3. A többdimenziós normális eloszlás, Wishart eloszlás 81 3.1. Elméleti háttér............................ 81 3.1.1. Többdimenziós normális eloszlás.............. 81 3.1.2. Wishart eloszlás....................... 86 3.2. Feladatok............................... 90 3.3. Tesztek................................ 95 4. Paraméterbecslés és hiptézisvizsgálat többdimenziós normális modellben 99 4.1. Elméleti háttér............................ 99 4.1.1. Paraméterbecslés többdimenziós normális modellben... 99 4.1.2. Hipotézisvizsgálat többdimenziós normális modellben.. 101 4.2. Feladatok............................... 103 4.3. Tesztek................................ 107 5. Lineáris módszerek 1.: f komponensanalízis, faktoranalízis 109 5.1. Elméleti háttér............................ 109 5.1.1. F komponensanalízis..................... 109 3

4 TARTALOMJEGYZÉK 5.1.2. Faktoranalízis......................... 113 5.2. Feladatok............................... 116 5.3. Tesztek................................ 120 6. Lineáris módszerek 2.: regresszióanalízis, a legkisebb négyzetek módszere 121 6.1. Elméleti háttér............................ 121 6.1.1. Regresszióanalízis....................... 121 6.1.2. Legkisebb négyzetek módszere............... 123 6.2. Feladatok............................... 128 6.3. Tesztek................................ 133 7. Lineáris módszerek 3.: Egy- és többszempontos varianciaanalízis 135 7.1. Elméleti háttér............................ 135 7.1.1. Egyszempontos varianciaanalízis.............. 135 7.1.2. Többszempontos varianciaanalízis interakcióval...... 140 7.2. Feladatok............................... 144 7.3. Tesztek................................ 146 8. Kontingenciatáblák elemzése: diszkriminanciaanalízis, korrespondenciaanalízis, informác 8.1. Elméleti háttér............................ 147 8.1.1. Diszkriminanciaanalízis................... 147 8.1.2. Korrespondanciaanalízis................... 153 8.1.3. Információelméleti módszerek................ 156 8.1.4. Az I-vetület numerikus meghatározása.......... 164 8.2. Feladatok............................... 164 8.3. Tesztek................................ 166 9. Klaszteranalízis, többdimenziós skálázás 169 9.1. Elméleti háttér............................ 169 9.1.1. Klaszteranalízis........................ 169 9.1.2. Többdimenziós skálázás................... 172 9.2. Feladatok............................... 173 9.3. Tesztek................................ 173 10.Többváltozós küszöbmodellek, logit, probit 179 10.1. Elméleti háttér............................ 179 10.2. Feladatok............................... 179 10.3. Tesztek................................ 179 11.Randomizált módszerek nagyméret problémákra 181 11.1. Elméleti háttér............................ 181 11.2. Feladatok............................... 182 11.3. Tesztek................................ 182

TARTALOMJEGYZÉK 5 12.Algoritmikus modellek 183 12.1. Elméleti háttér............................ 183 12.1.1. ACE-algoritmus (általánosított regresszióra)........ 183 12.1.2. Jackknife eljárás....................... 187 12.1.3. Bootstrap eljárás....................... 189 12.2. Feladatok............................... 191 12.3. Útmutatások............................. 193 12.4. Végeredmények............................ 193 13.Függelék 195 13.1. Lineáris algebra............................ 195 13.2. Függelék 2: Valószín ségelméleti képletgy jtemény........ 201 13.2.1. Kolmogorov axiómái:..................... 201 13.2.2. Szitaformula:......................... 201 13.2.3. Események függetlensége, feltételes valószín ség...... 201 13.2.4. Valószín ségi változó..................... 202 13.2.5. Valószín ségi változó momentumai:............. 203 13.2.6. A generátorfüggvény:.................... 204 13.2.7. A karakterisztikus függvény:................. 204 13.2.8. Nevezetes diszkrét eloszlások:................ 205 13.2.9. Nevezetes abszolút folytonos eloszlások:.......... 205 13.2.10.Sztochasztikus konvergencia, majdnem biztos konvergencia: 206 13.2.11.Nevezetes összefüggések................... 207 13.2.12.Spektrálel állítási tétel.................... 207

6 TARTALOMJEGYZÉK Annotáció Jelen elektronikus tananyag els sorban alkalmazott matematikus szakos hallgatók számára készült, de mindazok számára hasznos segédanyag, akik valamelyik természettudományi szakot hallgatják, vagy már elvégezték azt, rendelkeznek a középiskolai tanyagot jelent sen nem meghaladó matematikai m veltséggel (a dierenciál- és integrálszámítás elemeivel), munkájuk során szembetalalálják magukat statisztikai problémákkal, és ambícionálják az általuk használt statisztikai programcsomagok mögött álló elmélet alapelveinek megértését. Bevezetés Jelen elektronikus Tananyag célja a többváltozós statisztikai módszerek bemutatása, illusztrálása statikus ábrákkal és animációkkal, valamint számos a megértést segít és ellen rz feladattal. A többváltozós statisztikai módszereket természetesen nem lehet megérteni a matematikai statisztika alapfogalmainak és a valószín ségszámítás elemeinek ismerete nélkül. A tananyag felhsználói munkájának megkönnyítése céljából az el zetes tudnivalókat függelékben valamint részletes fogalom- és képletgy jteményben összefoglaltuk. Az általános statisztikai tudnivalókat is illusztráltuk ábrákkal, és számos e tárgykörbe tartozó feladatot is kit ztünk. A Tananyag összeállítása során szembesültünk azzal a ténnyel, hogy olyan látszólag nyilvánvaló fogalomnak mint pl. a marginális eloszlás kett nél több valószín ségi változó együttes eloszlása esetén az egzakt deniciója már reménytelenül bonyolult. Ilyenkor az ábra sem segít: számpéldákkal illusztráltuk a fogalmat. A többváltozós statisztika klasszikus módszereit (ilyenek a regresszióanalízis, a legkisebb négyzetek módszere, a varianciaanalízis és a diszkriminanciaanalízis) együttesen normális (Gauss) eloszlású valószín ségi változókra dolgozták ki a XX. század els felében. Ezek a módszerek er sen építenek a lineáris algebrának azon eredményeire, amelyek talán látszólagos egyszer ségük miatt kisebb hangsúlyt kapnak a matematikai képzésben, pedig a legkiválóbb matematikusok is komoly munkát fektetnek a lineáris algebra modern módszereinek tankönyvekben való feldolgozására; csak egy példa a sok közül: Lax Péter Abel-díjas matematikus rendkívül élvezetes, és számos új matematikai eredményt tartalmazó, magyarul is olvasható könyvet írt e témakörr l, A Tananyag feladatai között is számos statisztikai eredet, a lineáris algebra segítségével megoldható feladat van. Már itt gyelmeztetjük a felhasználót, hogy ezen feladatok megoldásához fejlett térszemléletre van szükség. A modern módszerek (pl. a klaszteranalízis) inkább épülnek a heurisztikára, noha ezek elméleti megalapozásának is nagy és mély matematikai eszköztárat igényl irodalma van. Éppen emiatt ebben a tárgykörben gyakorlatilag nem lehet vonzó és elemi eszközökkel megoldható feladatokat kit zni.

TARTALOMJEGYZÉK 7 Vannak olyan új módszerek, amelyekkel jelen sorok írója nem tud mit kezdeni, ilyen a gyakoriságtáblák közelítése alacsonyabb rangú mátrixokkal (korrespondenciaanalízis), ugyanis a lineáris algebra módszereit mechanikusan alkalmazva negatív valószín ségeket is kaphatunk eredményként. Ugyanakkor számos statisztikus sikerrel alkalmazza ezt a módszert, mi sem hagyhattuk ki a Tananyagból. Ezzel szemben a gyakoriságtáblák elemzésének információelméleti módszereit, amelyeknek a kidolgozásában nagy szerepe van a magyar matematikusoknak els sorban Csiszár Imrének részletesen ismertetjük, és ebben a tárgykörben feladatokat is kit zünk. Egy másik általunk csak érintett módszer a rendkívül nagyméret mátrixokkal kapcsolatas (spektrálfelbontási) feladatok véletlen kiválasztással történ közelítése. Itt az a probléma, hogy kisméret bemutatható példát nem találtunk. Zárszóként két megjegyzés: 1. A statisztika legnevesebb m vel i, Kolmogorovtól a vezet magyar statisztikusokig egybehangzóan állítják, hogy vakon nem lehet statisztikát csinálni, azaz az adatok kritikus megszemlélése nélkül már értelmes hipotézist sem lehet föltenni. Erre nyújt lehet séget az ún. többdimenziós skálázás, azaz az adatok optimalis beágyazása lehet leg minél kisebb dimenziós euklideszi térbe. 2. Bármilyen látványos is egy elektronikus tananyag, csupán a képerny nézésével és kattintásokkal nem lehet elmélyülni egyetlen tudományágban sem. Az nem várható el egy felhasználótól, hogy az elmélet részleteit megjegyezze, de nem hagyható ki a papírral-ceruzával, ha úgy nem megy kalkulátorral, esetleg formulakezel programok használatával történ aktív részvétel a tanulási folyamatban. Végül néhány szó a Tananyag forrásairól. A közvetlen statisztikai ismeretek forrása a két szerz (Bolla Marianna és Krámli András, A statisztikai következtetések elmélete, Typotex 2005) könyve, valamint az irodalomjegyzékben idézett néhány eredeti folyóiratcikk. Innen csak az alapvet deníciókat és tételeket vettük át, a hangsúly a feladatokon és az illusztációkon van. A feladatok nagy részét a harmadik szerz (Nagy-György Judit) t zte ki a gyakorlatokon. A teljes ábra- és animacióanyagot is készítette. Ezek jelent s része ma már közkinccsé vált eredményeket ilusztrál, néhány bonyolultabb ábra Bolla Marianna javaslatára készült, az eredeti dolgozatok alapján újraszerkesztve. Az el szóhoz tartozik két videó is, az els n látható animáció a GlivenkoCantelli tételt (a matematikai statisztika alaptételét) szemlélteti, a másodikon felrajzolt ábra pedig a MarcsenkoPasztur-tételben szerepl függvényt ábrázolja. Szeged, 2012. december 17. Krámli András

8 TARTALOMJEGYZÉK

1. fejezet El ismeretek 1.: valószín sgelmélet 1.1. Elméleti háttér 1.1.1. Valószín ségelméleti alapismeretek Ebben a paragrafusban a valószín ségelméletkolmogorov-féle felépítését ismertetjük, különös kiemelve a feltéles várható érték Kolmogorov-féle denícióját és annak a statisztikában használatos tulajdonságait. Hangsúlyozzuk, hogy a feltételes várható érték (és a feltételes valószín ség is) valószín ségi változó, amely bizonyos optimum tulajdonsággal rendelkezik. A nem matematikus szakos hallgatóknak elegend annyit tudni az alábbi absztrakt deníciók nagy részér l, hogy léteznek. Az alkalmazó természettudományi hallgatók számára is feltétlenül tudnivaló deníciókat és állításokat *-gal megjelöljük. Mindenek el tt vezessük be a valószín ségimez Kolmogorov féle denícióját. 1. Deníció (Kolmogorov-féle (Ω, A, P) valószín ségi mez ).. (i) Adva van egy nem üres Ω halmaz (eseménytér), Ω elemeit elemi eseményeknek nevezzük, és ω-val jelöljük. (ii) Ki van tüntetve az Ω részhalmazainak egy A algebrája (Ω A, A A Ω \ A A, A A B A A B A.) (iii) A σ-algebra, azaz A k A (k = 1, 2,... ) k=1 A. (iv) minden A A eseményhez hozzá van rendelve egy P(A) nemnegatív szám, az A esemény valószín sége. (v) P(Ω) = 1. (vi) Ha A k A, páronkent egymást kizáró események, akkor P( k=1 ) = k=1 P(A k). 9

10 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET 2. Állítás (szita-formula*). P(A 1 A n ) = n ( 1) k 1 S (n) k=1 k, n k és S (n) k := 1 i 1 < <i k n P(A i1 A ik ). 3. Deníció (események függetlensége*). Az A 1,..., A n események páronként (illetve teljesen) függetlenek, ha minden 1 j < k n párra P(A j A k ) = P(A j ) P(A k ) (illetve minden 1 k n egészre és i 1 < < i k ε n idexsorozatra P(A i1 A ik ) = P(A i1 ) P(A ik )). A teljes függtelenség implikálja a páronkénti függetlenséget. Fordítva ez nem igaz! 4. Deníció (feltételes valószín ség*). ha P(B) > 0. P(A B) := P(A B), P(B) 5. Deníció (teljes eseményrendszer*). A 1,..., A n A, P(A i A j ) = 0, ha P(B) > 0. 6. Állítás (Bayes tétele*). Ha A 1,..., A n teljes eseményrendszer és P(B) > 0, akkor P(B A j ) P(A j ) P(A j B) = n k=1 P(B A k) P(A k ) 7. Deníció (valószín ségi változó*). Az Ω halmazon értelmezett olyan X(ω) valós érték függvény, amelyre {ω : X(ω) x} minden valós x-re esemény. Ha X értékkészlete megszámlálható halmaz, akkor diszkrét valószín ségi változóról beszélünk. 8. Deníció (valószín ségi változók függetlensége*). Az X 1,..., X n valószín ségi változók páronként (illetve teljesen) függetlenek, ha az {X 1 (ω) x 1 },..., {X n (ω) x n } események páronként (illetve teljesen) függetlenek, x 1,..., x n minden értékére. 9. Deníció (valószín ségi változók eloszlásfüggvénye*). Az X valószín ségi változó eloszlásfüggvénye F X (x) := P(X x). F X (x) monoton nemcsökken, jobbról folytonos függvény. lim F X(x) = 0 n lim F X(x) = 1. n (i) Diszkrét eset. Ha az X valószín ségi változó értékkészlete {x 0, x 1,... }, akkor eloszlása: p j := P(x j )

1.1. ELMÉLETI HÁTTÉR 11 (ii) Abszolút folytonos eset. Ha van olyan f(t) függvény amelyre F X (x) = x f(t)dt. Ekkor az f(t) függvényt az X valószín ségi változó s r ségfüggvényének nevezzük. 10. Deníció (valószín ségi változó momentumai, absztrakt deníció). Az X valószín ségi változó várható értéke E(X) := X(ω)dP, ha ez az integrál Ω létezik. Az X valószín ségi változó n-edik momentuma (abszolút) monteuma M n := Ω X(ω)n dp, (:= Ω X(ω) n dp), ha a fenti integrálok léteznek. Ha Ψ(x) tetsz leges Borel-mérhet valós függvény (azaz a {x : Ψ(x) y} halmaz minden y R-re Borel-mérhet ), akkor E(Ψ(X)) := Ω Ψ(X(ω))dP. Az X valószín ségi változó D 2 szórásnégyzete D 2 := E[(X E(X)) 2 ] = E(X 2 ) [E(X)] 2. 11. Deníció (kovariancia, korreláció, absztrakt deníció). Két valószín ségi változó, X és Y kovarianciája: Cov(X, Y ) := E[(X E(X))(Y E(Y ))]. Két valószín ségi változó, X és Y korrelációja: r X,Y := Cov(X, Y ) D(X) D(Y ) 12. Deníció (valószín ségi változó várható értékének kiszámítása*). (i) Diszkrét eset. Ha az X valószín ségi változó értékkészlete {x 0, x 1,... }, akkor várhtó értéke: E(X) := x j P(x j ) = x j p j, j=0 amennyiben a fenti sor abszolút konvergens (ii) Abszolút folytonos eset. Ha az X valószín ségi változó s r ségfüggvénye f(t) akkor várhtó értéke: E(X) := amennyiben a fenti integrál létezik. j=0 xf(x)dx Ha ismerjük a várható érték kiszámítási módját, a magasabb momentumok és szórásnégyzet kiszámítási módja már könnyen adódik: (i) n-edik momentum: M n := E(M n ), (ii) szórásnégyzet: D 2 := E(X 2 ) [E(X)] 2. Hasonlóan számítható ki két valószín ségi változó kovarianciája és korrelációja. Ez természetesen nem azt jelenti, hogy a tényleges számolás elvégzése is könny.

12 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET 1.1.2. Feltételes várható érték A fent ismertetett valószín ségelmélet alapismeretek már elegend ek a feltételes várható érték fogalmának bevezetéséhez, tulajdonságaik, valamint diszkrét és abszolút folytonos esetben kiszámítási módjuk ismertetéséhez. 13. Deníció (egy σ-algebrára nézve vett feltételes várható érték). Az X valószín ségi változónak az A 1 A σ-algebrára nézve akkor vehet az X 1 := E(X A 1 ) feltételes várható értéke, ha E(X) létezik. X 1 -et az alábbi két tulajdonság deniálja. 1. X 1 A 1 -mérhet, azaz minden valós x-re {ω : X 1 x} A 1. 2. Minden A A 1 halmazra E(1 A X) = E(1 A X 1 ) vagy másképpen írva A XdP = A X 1dP, ahol 1 A jelenti az A halmaz indikátorfüggvényét. Bebizonyítható, hogy 1. es 2. feltételek teljesíthet k, és X 1 majdnem biztosan egyértelm. 14. Megjegyzés. Ha A 1 valamely Y valószín ségi változó{y (ω) x} x R nívóhalmazai által generált σ-algebra, akkor van értelme az E(X Y ) feltételes várható értéknek. 15. Állítás. Felsoroljuk a feltételes várható érték alapvet tulajdonságait. 1. A feltételes várható érték vétel lineáris operáció, azaz E((a X + b Y ) A 1 ) = a E(X A 1 ) + b E(Y A 1 ). 2. Ha az Y valószín ségi változó A 1 -mérhet, akkor E(Y X A 1 ) = Y E(X A 1 ). 3. Ha az X valószín ségi változó független Y -tól, akkor 4. Toronyszabály: E(Y ) = E[E(Y X)]. E(X Y ) = E(X). A statisztika egyik alapvet feladata az ún. regresszió, azaz egy Y valószín ségi változó egy X valószín ségi változó valamilyen Borel-mérhet f(x) valós függvényével való optimális közelítése (az optimális szó jelentése különböz esetekben más és más lehet). Az alábbi állítás alapvet jelent sg ennek a célnak a megvalósítása szempontjából. 16. Állítás. Ha létezik E(Y ) és Y mérhet az X valószín ségi változó {X(ω) x} x R nívóhalmazai által generált A x σ-algebrára, akkor akkor van olyan Borel-mérhet t(x) valós függvény, hogy P(Y (ω)) = t(x(ω)) = 1

1.1. ELMÉLETI HÁTTÉR 13 A 16. Állítás egy közvetlen alkalmazása a következ 17. Állítás. Ha E(Y 2 ) <, akkor min E(Y t : t(x))2 = E(Y E(Y X)) 2, ta-mérhet azaz az Y valószín ségi változó legjobb közelítése X Borel-mérhet függvényeivel éppen E(Y X). Most rátérünk a feltételes eloszlás (diszkrét eset), feltételes s r ségfüggvény, valamint a feltételes várható érték kiszámítási módjára. 18. Deníció (feltételes eloszlás). Legyen az X és Y valószín ségi változók értékkészlete x 1,..., x m, illetve y 1,..., y n, együttes eloszlásuk (p ij ), az X, illetve Y perem- (vagy marginális) eloszlásai legyenek p i = n j=1 p ij, illetve p j = m i=1 p ij. Ekkor a feltételes valószín ségdeníciója alapján az Y valószín ségi változó X = x i melletti feltételes eloszlása: p j i = p ij p i, j = 1,..., n. 19. Deníció (feltételes várható érték, diszkrét eset). A fenti jelölésekkel az Y valószín ségi változó X = x i melletti feltételes várható értéke: n E(Y X = x i ) = y j p j i = 1 n y j p ij. p i. j=1 20. Megjegyzés. Vegyük észre, hogy sem a (p j i ) feltételes eloszlás, sem az E(Y X = x i ) feltételes várható érték nem függ az x i konkrét értékt l! 21. Deníció (feltételes s r ségfüggvény). Legyen f(x, y) az X és Y valószín - ségi változók együttes s r ségfüggvénye, f 1 (x) := f(x, y)dy pedig az X valószín ségi változó perem- (vagy marginális) s r sége. Az Y valószín ségi változó X = x feltétel melletti feltételes s r sége: j=1 P(X [x, x + x), Y [y, y + y)) f 2 1 (y x) = lim = x 0 P(X [x, x + x)) y y 0 = lim x 0 y 0 f(x, y) = f 1 (x). P(X [x, x + x), Y [y, y + y)) = x y P(Y [x,x+ x)) x (1.1) Most megfogalmazzuk a Bayes-tételnek a statisztikában rendkívül hasznos, abszolút folytonos eloszlásra érvényes alakját. 22. Tétel (Bayes-tétel). Legyenek X, Y, f(x, y), f 1 (x) és f 2 1 (y x) ugyanazok, mint a fenti denícióban. Ekkor f 1 2 (x y) = f 2 1 (y x)f 1 (x) f 2 1(y x)f 1 (x)dx.

14 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET 23. Deníció (feltételes várható érték, abszolút folytonos eset). A fenti jelölésekkel az Y valószín ségi változó X = x feltétel melletti feltételes várható értéke: E(Y X = x) = y f 2 1 (y x)dx = 1 y f(x, y)dy. (1.2) f 1 (x) Az E(Y X = x) feltételes várható érték ellentétben a diszkrét esettel függ az x értékt l; jelölje ezt a függést t(x). A feltételes várható érték szemléletes jelentése: Az E(Y X) nem más, mint az Y valószín ségi változó integrálközepe az X valószín ségi változó nívóhalmazain. Végül deniáljuk a feltételes szórásnégyzetet, kovarianciát, és az ún. parciális korrelációt. 24. Deníció (feltételes szórásnégyzet). Az Y valószín ségi változó feltételes szórásnégyzete az X valószín ségi változóra nézve: D 2 (Y X) := E[Y E(Y X) 2 X]. 25. Deníció (feltételes kovariancia). Az Y és Z valószín ségi változók feltételes kovarianciája az X valószín ségi változóra nézve: Cov(Y, Z X) := Cov(Y E(Y X), Z E(Z X)). 26. Deníció (parciális korreláció). Az Y és Z valószín ségi változók feltételes kovarianciája az X valószín ségi változóra nézve: r Y,Y X := Cov(Y, Z X) D(Y E(Y X)) D(Z E(Y Z)). Vegyük észre, hogy míg a feltételes szórásnégyzet és a feltételes kovariancia valószín ségi változók, amelyek függenek a feltételt l, a parciális korreláció szám, ami csak r Y,Z -t l, r Y,X -t l és r Z,X -t l függ; igaz az alábbi állítás. 27. Állítás. r Y,Z X := r Y,Z r Y,X r Z,X (1 r 2 Y,X )(1 r2 Z,X ). A parciális korreláció szemléletesen azt a jelenséget írja le, hogy két valószín ségi változó (Y és Z) azért korreláltak er sen, mert mindketten er sen korreláltak egy harmadik valószín ségi változóval, nevezetesen X-szel. A fenti állítás bizonyítása azon az alapvet tényen múlik, hogy két valószín ségi változó kovarianciája két vektor skaláris szorzatának tekinthet, és ha ez a kovariancia zérus, akkor a két valószín ségi változó mint vektor mer leges egymásra.

1.1. ELMÉLETI HÁTTÉR 15 1.1.3. A normális eloszlásból származtatott eloszlások 28. Deníció (normális eloszlás). Az m várható érték és σ 2 szórásnégyzet X valószín ségi változó s r ségfüggvénye f(x) := 1 (x m)2 exp{ }. (1.3) 2πσ 2 A Φ(x) := x f(s)ds eloszlásfügvény nem fejezhet ki elemi függvényekkel. Az m várható érték és σ 2 szórásnégyzet normális eloszlás jelölése: N (m, σ 2 ). Az alábbi ábra mutatja a standard normális eloszláshoz, azaz N (0, 1)-hez tartozó s r ségfüggvényt. 1.1. ábra. ϕ(x) 29. Deníció (n szabadságfokú χ 2 eloszlás). Ha X 1,..., X n független N (m, σ 2 ) valószín ségi változók, az Y n := X 2 1 + + X 2 n valószín ségi változó deníció szerint Y n szabadságfokú centrált χ 2 -eloszlású: Y n χ 2 (n), melynek s r ségfüggvénye f n (x) = xn/2 1 e x/2, ha x > 0. 2 n/2 Γ(n/2) ahol Γ(α) := 0 x α 1 e x. Megjegyezzük, hogy Γ(α+1) = αγ(α), Γ(n) = (n 1)! és Gamma(1/2) = π

16 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET 1. Az χ 2 (n)-eloszlás G(n/2, 1/2) Gamma-eloszlás. 2. A χ 2 (n) eloszlás tetsz leges momentuma meghatározható, a számolás visszavezethet a normális eloszlás páros momentumainak meghatározására: E(Y n ) = n, D 2 (Y n ) = 2n. 3. Ha X N (0, σ 2 ), akkor minden n természetes számra n 1 E(X 2n ) = (2j + 1)σ 2n (1.4) j=0 4. Ha n, Y n eloszlása N (n, 2n)-nel közelíthet. Az alábbi ábrák mutatják az 1, 2, 3, 4, és 5 szabadságfokú χ 2 eloszlásokhoz tartozó s r ségfüggvényeket. 1.2. ábra. χ 2 (1-5) s r ségek 30. Deníció (n szabadságfokú Student-féle eloszlás (t-eloszlás)). Ha X standard normális eloszlású valószín ségi változó, és Y n χ(n) független X-t l, akkor Z n := n X Yn = X Yn /n deníció szerint n szabadsági fokú standard Student-eloszlású valószín ségi változó: Z n t(n) 31. Állítás. A t(n) eloszlás s r ségfüggvénye: g n (z) = 2 π nγ( n 2 ) ( 1 + z2 n 2 ) = 1 Γ( n+1 π n Γ( n 2 ) ) n+1 2 (1 + z2 n 0 ) n+1 2 t n 1 2 e t dt =. (1.5)

1.1. ELMÉLETI HÁTTÉR 17 1.3. ábra. t(1) és t(5) s r ségek Az alábbi ábrák mutatják az 1, és 5 szabadságfokú Student eloszlásokhoz tartozó s r ségfüggvényeket. A s r ségfüggvény (1.5) alakjából leolvasható, hogy a Z n eloszlásban tart a standard normális eloszláshoz, ha n. Ezt az alábbi animáció szemlélteti. Ugyancsak (1.5)-b l látható az is, hogy Z n -nek csak n 1 momentuma véges. Az 1 szabadságfokú t-eloszlás a Cauchy-eloszlás. 32. Deníció ((n, m) szabadságfokú F-eloszlás). Ha X n χ 2 (n) és és Y m χ 2 (m), akkor a Z n,m := valószín ségi változó (n, m) szabadságfokú F -eloszlású: Z n,m F(n, m). X n n Y mm Z n,m változó s r ségfüggvénye f n,m (z) = nγ ( ) n+m 2 mγ ( ) ( n 2 Γ m ) 2 ( n m z) n 2 1 ( 1 + n m z) n+m 2 Az alábbi ábrák mutatják az (1,1), (1,2), (1,3), (1,9), (2,1), (2,2), (2,3), (2,9), (3,1), (3,2), (3,3), (3,9), (9,1), (9,2), (9,3) és (9,9) szabadságfokú F eloszlásokhoz tartozó s r ségfüggvényeket. 33. Deníció (Béta-eloszlás). Ha X 1,..., X n,..., X n+m független N (0, 1)- változók, akkor a n i=1 Z n,m = X2 i n+m i=1 X2 i valószín ségi változó B(n/2, m/2)-eloszlású: Z n,m B(n/2, m/2). A Z n,m változó f Zn,m (z) s r ségfüggvénye f Zm,n (z) = Γ ( ) n+m 2 Γ ( ) ( n 2 Γ m )z n 2 1 (1 z) m 2 1, ha 0 < z < 1. 2.

18 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET. 1.4. ábra. F s r ségek A fenti képletnek akkor is van értelme, ha a kitev ben szerepl n 2 illetve m 2 helyett tetsz leges a illetve b pozitív számok állnak. Ez az (a, b)-rend bétaeloszlás s r ségfüggvénye: f a,b (z) = 1 B(a, b) za 1 (1 z) b 1, ha 0 < z < 1. Vegyük észre, hogy a B(1, 1)-eloszlás megegyezik a [0, 1] intervallumon egyenletes U(0, 1)-eloszlással! 1.1.4. Többváltozós ismeretek Eddig X 1,..., X n független N (θ, σ 2 ) valószín ségi változókat jelentettek. Most kimondunk egy állítást megkönnyíti a normális eloszlású valószín ségi változók függetlenségenek ellen rzését. 34. Állítás. Ha Y 1,..., Y m az X 1,..., X n független N (θ, σ 2 ) valószín ségi változók lineáris kombinációi, akkor Cov(Y i, Y j ) = δ ij maga után vonja az Y 1,..., Y m változók (teljes!) függetlenségét. Most már minden ismeret rendelkezésünkre áll ahhoz, hogy megfogalmazzunk egy, a becsléselméletben és a hipotézisvizsgálatban gyakran használt tételt, ami Lukács Jen tételének speciális esete (l. [21]). 35. Tétel (Lukács Jen ). Legyenek X 1,... X n független N (θ, σ 2 ) valószín ségi változók, legyen továbbá X := 1 n n i=1 X i, Sn 2 := 1 n n 1 i=1 (X i X) 2.

1.1. ELMÉLETI HÁTTÉR 19 1. X N (θ, σ 2 /n), 2. (n 1)S 2 n /σ 2 χ 2 (n 1), 3. X és S 2 n függetlenek. 36. Következmény. Y = n( X θ) S 2 n t(n 1). 37. Tétel. Ha X 1,..., X n független N(0, ϑ) valószín ségi változók, akkor Z := n X n j=1 X2 j és S 2 (X) := n Xj 2 j=1 függetlenek. 38. Következmény. A n X T = S 2 n Student-statisztika is független S 2 -t l, ugyanis egyszer számolással adódik, hogy Z a T monoton függvénye: Z T =. T 2 +n 1 ( X és S n denícióit l. 35. tételben.) A varianciaanalízis alapvet eszköze a következ meglep tétel, amely a 35. tétel általánosításának is tekinthet. 39. Tétel (FisherCochran-tétel). Legyen X = (X 1,..., X n ) T N n (O, I n ) véletlen vektor (komponensei független N (0, 1)-változók) és legyenek a Q = X T I n X = X T X = n i=1 X2 i és a Q j = X T A j X (j = 1,..., k) X-szel és a szimmetrikus, n n-es A j mátrixokkal (j = 1,..., k n) képzett kvadratikus alakok olyanok, hogy rájuk Q = Q 1 + Q 2 + + Q k teljesül. Legyen Q j rangja: rk(a j ) = n j. A Q 1, Q 2,..., Q k kvadratikus alakok pontosan akkor független χ 2 -eloszlásúak n 1, n 2,..., n k szabadságfokkal, ha k n j = n. j=1 A FisherCochran-tétel fontossága miatt kivételesen közöljük annak egy elemi bizonyítását. Az egyik irány a χ 2 -eloszlás denícójanak egyszer következménye, a másik meglep irány az alábbi lineáris algebrai állításból adódik.

20 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET 40. Állítás. Ha az n-dimenziós egységmátrix I n = A 1 + + A k (1.6) alakú, ahol az A 1,..., A k valós szimmetrikus mátrixok és rang(a 1 ) + + rang(a k ) = n, (1.7) akkor ezen mátrixok rang(a 1 ),..., rang(a k ) dimenziós ortogonális alterekre való ortogonális projekciók mátrixai. Az alábbi megjegyzés segít abban, hogy bonyolult számítások elvegzése nélkül is alkalmazzuk a FisherCochran tételt. 41. Megjegyzés. A kvadratikus alakok rangját az alábbi heurisztikus formulával számolhatjuk (Q itt is a kvadratikus alak rövidítése): rang(q) =a Q-ban szerepl független azonos eloszlású valószín ségi változók száma mínuszaz ugyanezen valószín ségi változók alapján függetlenül becsült paraméterek száma. Végül kimondunk egy tételt, ami bizonyos értelemben indokolja, hogy els közelítésben miért veszünk mindig lineáris regressziót. 42. Állítás. Legyenek Y, X 1,..., X n együttesen normális eloszlású valószín ségi változók. Az Ŷ := E(Y X 1,..., X n ) feltételes várható érték az X 1,..., X n valószín ségi változók lineáris függvénye. Mivel a 17. állítás szerint Y feltételes várható értéke az X 1,..., X n valószín ségi változókra éppen a négyzetes középben való legjobb közelítés a fenti állítás szerint ez a közelítés az X 1,..., X n valószín ségi változók lineáris függvénye. 1.2. Feladatok 1. Számítsuk ki a λ paraméter Poisson eloszlás els négy momentumát! Tipp: Alkalmazzuk a momentumoknak a generátorfüggvény deriváltjai alapján történ kiszámítási módját. Válasz: M 1 = λ, M 2 = λ 2 +λ, M 3 = λ 3 +3λ 2 +λ, M 4 = λ 4 +6λ 3 +7λ 2 +λ. 2. Legyen X egy (r, p) paraméter (r > 1) negatív binomiális eloszlású 1 valószín ségi változó. Számítsuk ki E( X 1 ) várható értéket! Tipp: Használjuk a deníciót képletgy jtemény. Válasz: A deníció alapján p r 1. 3. Számoljuk ki az n-edrend λ paraméter Gamma eloszlás k-adik momentumát, ahol k < n. Tipp: deníciót képletgy jtemény. Válasz: A deníció alapján λk (n k 1)! (n 1)!.

1.2. FELADATOK 21 4. Legyenek X, Y független, azonos eloszlású, véges várható érték valószín ségi változók. Határozzuk meg E(X + Y X) és E(X X + Y ) feltételes várható értékeket! Tipp: Alkalmazzuk feltételes várható érték tulajdonságait, és vegyük észre, hogy X és Y szerepe szimmetrikus! Válasz: X + E(Y ) ill. X+Y 2. 5. Legyen X és Y két független, 1/2 paraméter Bernoulli-eloszlású valószín ségi változó. Adjuk meg E(X X + Y ) által generált σ-algebrát és E(X X + Y ) eloszlását! Tipp: X + Y által generált σ-algebrát. Válasz: Z := E(X X + Y ), P (Z = 0) = 1/4, P (Z = 1/2) = 1/2, P (Z = 1) = 1/4. 6. Legyen X nemnegatív valószín ségi változó. Tegyük fel, hogy léteznek az E(X 2 ) és E( 1 X ) várható értékek! (a) Határozzuk meg E(X 2 X)-et! (b) Határozzuk meg E( 1 X X)-et! Tipp: Egy X valószín ségi változó f(x) függvényének feltételes várható értéke X-re f(x), ha ez utóbbi várható értéke létezik. Válasz: (a) X 2, (b) 1 X. 7. Legyen X a [ 1, 1] intervallumon egyenletes eloszlású valószín ségi változó. Határozzuk meg E(X X 2 )-t! Tipp: Használjuk a deníciót és a feltételes várható érték tulajdonságait. Válasz: A deníció alapján: 0. 8. Legyenek X 1, X 2 a [0, 1] intervallumon egyenletes eloszlású független valószín ségi változók, továbbá Y := min{x 1, X 2 }, valamint Z := max{x 1, X 2 }. Határozzuk meg (a) E(Y Z), (b) E(Z Y ), (c) E(X 1 Z) feltételes várható értékeket! Tipp: Használjuk a feltételes várható érték denícióját! Használjuk ki X 1 és X 2 szimmetriáját, valamint azt, hogy X 1 + X 2 = Y + Z! Válasz:

22 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET (a) Z/2, (b) (Y + 1)/2, (c) 3 4 Z. 9. Legyenek X, Y N (0, 1) független valószín ségi változók, továbbá a, b, c R. (a) Milyen eloszlású ax + by + c? (b) Adjuk meg X s r ségfüggvényét! (c) Határozzuk meg X 2 s r ségfüggvényét! Milyen eloszlást követ X 2? (d) Milyen eloszlású X 2 + Y 2? Tipp: (c) Alkalmazzuk a képletgy jtemény valószín ségi változó függvénye eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását. Válasz: (a) N (c, a 2 + b 2 ), 2 (b) 2π exp( x2 ) ha x 0 és 0 egyébként, (c) x 1/2 exp( x/2) 2π, azaz χ 2 (1) 2 (d) χ 2 (2), ami megegyezik a λ = 1/2 paraméter Exp(1/2) exponenciális eloszlással. 10. Legyenek X, Y Exp(λ) független valószín ségi változók. (a) Milyen eloszlású X + Y? (b) Adjuk meg Z = X Y Tipp: s r ségfüggvényét! (a) Alkalmazzuk a képletgy jtemény nevezetes abszolút folytonos eloszlások felsorolásását. (b) Alkalmazzuk a képletgy jtemény 2 valószín ségi változó hányadosának s r ségfüggvényére eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását. Válasz: (a) G(2, λ). (b) 2 (1+z) 2, ha X 0 azaz F(2, 2)

1.2. FELADATOK 23 11. * Legyenek N, X 1, X 2... független valószín ségi változók, ahol N egy p paraméter geometriai eloszlású, X 1, X 2,... pedig λ paraméter exponenciális eloszlásúak. Milyen eloszlású lesz N i=1 X i? Tipp: Alkalmazzuk a képletgy jtemény megfelel formuláit és írjuk be az exponenciális eloszlás karakterisztikus függvényét az 1, 2,... értékkészlet geometriai eloszlás generátorfüggvényébe. Válasz: Exp(pλ) 12. Mi a kapcsolat az alábbi eloszlásseregek között? (a) Bernoulli, binomiális és Poisson; (b) geometriai és negatív binomiális; (c) exponenciális, χ 2 és Gamma; (d) Student és Cauchy. Tipp: Alkalmazzuk a képletgy jteményt, és keressük meg hogy a felsoroltak között melyik eloszlás speciális esete, ill. határesete egy másik eloszlásnak. Válasz: (a) Bernoulli binomiális: a Poisson határesete; (b) geometriai negatív binomiális; (c) exponenciális: χ 2 (2) Gamma; (d) Cauchy: t(1). 13. Legyen X egy (α, λ), Y pedig (β, λ) paraméter Gamma eloszlású, egymástól független valószín ségi változó. Igaz-e, hogy X/Y egy (α, β) paraméter másodfajú Béta eloszlású valószín ségi változó, amely s r ségfüggvénye f(x) = Γ(α + β) Γ(α)Γ(β) x α 1 (x + 1) α+β. Tipp: képletgy jtemény 2 valószín ségi változó hányadosának s r ségfüggvényére eloszlására vonatkozó képletét, valamint a nevezetes abszolút folytonos eloszlások felsorolását. Válasz: Igaz. 14. * Legyen X egy (α, β) paraméter másodfajú Béta eloszlású valószín ségi változó. Igazoljuk, hogy (a) 1 X (b) X 1+X (c) 1 1+X valószín ségi változó (β, α) paraméter másodfajú Béta eloszlású! valószín ségi változó (α, β) paraméter Béta eloszlású! valószín ségi változó (β, α) paraméter Béta eloszlású!

24 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET Tipp: Keressük meg a képletgy jteményben a Fischer-féle F eloszlás képletét, vegyük észre, hogy az n/2 m/2 paraméter másodfajú Béta eloszlású valószín ségi változó az n, m szabadságfokokkal normált χ 2 eloszlású valószín ségi változók hányadosa. Továbbá alkalmazzuk a képletgy jtemény valószín ségi változó függvényének illetve valószín ségi változók hányadosának s r ségére vonatkozó képletet. Válasz: L. Tipp. 15. Legyen X 1,..., X n, X n+1,..., X n+m Exp(λ) független azonos eloszlású valószín ségi változók. (a) Milyen eloszlású n i=1 X i? (b) Igazoljuk, hogy n i=1 Z = X i n+m i=n+1 X i statisztika (n, m) paraméter másodfajú Béta eloszlású! (c) Igazoljuk, hogy Tipp: n i=1 X i 1 n+m i=1 X = i 1 + 1/Z Beta(n, m). (a) Keressük meg a képletgy jteményben a megfelel eloszlásokat. (b) Alkalmazzuk a képletgy jtemény valószín ségi változók hányodosának eloszlására vonatkozó képletét. (c) Alkalmazzuk a képletgy jtemény valószín ségi változók hányodosának eloszlására vonatkozó képletét. Válasz: (a) G(n, λ). (b) L. Tipp. (c) L. Tipp. 16. Mi a kapcsolat a Student, F és Béta eloszlásseregek között? Tipp: Alkalmazzuk a képletgy jteményt, és keressük meg, hogy a felsoroltak között melyik eloszlás speciális esete, ill. melyik eloszláshoz tartozó valószín ségi változó függvénye egy másik eloszláshoz tartozó valószín ségi változónak. Válasz: Ha X t(n), akkor X 2 F(1, n) Ha Z m,n F(m, n), akkor Y = Zm,n 1+Z m,n B(m/2 1, n/2 1)

1.2. FELADATOK 25 17. Legyenek X 1,..., X n Exp(λ) független azonos eloszlású valószín ségi változók. Deniáljuk Y 1,..., Y n valószín ségi változóket a következ módon: Y 1 = X 1, Y 2 = X 1 + X 2,..., Y n 1 = X 1 + + X n 1. (a) Legyen Z = X 1 + +X n. Határozzuk meg az Y 1,..., Y n valószín ségi változók együttes feltételes s r ségfüggvényét a Z = z feltétel mellett. (b) Határozzuk meg az Y 1 /Z,..., Y n 1 /Z valószín ségi változók együttes s r ségfüggvényét! Tipp: (a) Alkalmazzuk a képletgy jtemény valószín ségi változó függvénye eloszlására vonatkozó képletét, kihasznalva, hogy az X és Y valószín ségi változók közötti összefüggés lineáris és a Jakobi determináns értéke 1! (b) Alkalmazzuk az el z alfeladat eredményét! Válasz: (a) 1 (n 1!) zn 1, azaz n 1 darab független azonos eloszlású a [0, z] intervallumon egyenletes eloszlású valószín ségi változó együttes s r ségfüggvénye. (b) n 1 darab független azonos eloszlású a [0, 1] intervallumon egyenletes eloszlású valószín ségi változó együttes s r ségfüggvénye. 18. Legyenek X 1,..., X n N (0, 1) és Y 1,..., Y m N (0, 1) független változók, továbbá T 2 n := X 2 1 +... + X 2 n és T 2 m := Y 2 1 +... + Y 2 m. (a) Alkalmazzuk a képletgy jtemény valószín ségi változó függvénye eloszlására vonatkozó képletét! (b) Alkalmazzuk az el z pont eredményét és a képletgy jteményben található abszolút folytonos eloszlások felsorolását. (c) Alkalmazzuk az el z két pont eredményét és a képletgy jteményben található abszolút folytonos eloszlások felsorolását. (d) Alkalmazzuk a képletgy jteményben található abszolút folytonos eloszlások felsorolását. Tipp: Válasz: 19. Legyen X 1,..., X n+1 N (0, 1) független minta, továbbá legyen Y n := X 2 1 +... + X 2 n. (a) Határozzuk meg X 2 1 s r ségfüggvényét!

26 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET (b) Milyen eloszlású a T 2 n valószín ségi változó? (c) Milyen eloszlású a Z n := Y 1 T 2 n /n valószín ségi változó? (d) Milyen eloszlású a valószín ségi változó? Z n,m := mt 2 n nt 2 m Tipp: (a) Alkalmazzuk a képletgy jtemény egy valószín ségi változó függvénye eloszlásának kiszamítására vonatkozó formuláját. (b) Alkalmazzuk az el z pont eredményét és a képletgy jteményben található abszolút folytonos eloszlások felsorolását. (c) Alkalmazzuk az el z két pont eredményét és a képletgy jteményben található abszolút folytonos eloszlások felsorolását. (d) Alkalmazzuk képletgy jteményben található abszolút folytonos eloszlások felsorolását. Válasz: (a) χ 2 (1) (b) n szabadságfokú Student (t(n)) eloszlású. (c) (n, m) szabadságfokú F eloszlású. 20. Legyen X 1,..., X n+1 N (0, 1) független minta, továbbá legyen Y n = X 2 2 + +X 2 n+1 Milyen eloszlású a Z n = nx 1 Yn valószín ségi változó Tipp: Alkalmazzuk a képletgy jteményben található abszolút folytonos eloszlások felsorolását. Válasz: n szabadságfokú Student (t(n)) eloszlású. 21. Legyenek X n chi 2 (n) és Y m χ 2 (m) független valószín ségi változók. Milyen eloszlású a Z n,m := mx n ny m valószín ségi változó (n/2, m/2) paraméter béta eloszlású! Tipp: Alkalmazzuk a képletgy jteményben a két valószín ségi változó hányadosa eloszlására vonatkozó képletet és az abszolút folytonos eloszlások felsorolását. Válasz: (n/2, m/2)-paraméter béta eloszlású.

1.2. FELADATOK 27 22. Legyen X 1,..., X n+m független standard normális eloszlású változók. Milyen eloszlású a n i=1 Z n,m := X2 i n+m i=1 X2 i valószín ségi változó (n/2, m/2) paraméter béta eloszlású! Tipp: Alkalmazzuk a képletgy jteményben a két valószín ségi változó hányadosa eloszlására vonatkozó képletet és az abszolút folytonos eloszlások felsorolását. Válasz: (n, m)-paraméter F eloszlású. 23. Adjuk meg X n határeloszlását (n ), ha X n egy n szabadságfokú Stundent eloszlású valószín ségi változó! Tipp: Elemi analízis. Válasz: N (0, 1) 24. Adjuk meg X n n n határeloszlását (n ), ha X n egy n szabadságfokú χ 2 eloszlású valószín ségi változó. Tipp: Alkalmazzuk a centrális határeloszlás-tételt! A szórásnégyzet kiszámításához alkalmazzuk a képletgy jteményben a normális eloszlás páros momentumaira adott formulát. Válasz: N (0, 2) 25. Legyen X 1,..., X n N (0, 1) független azonos eloszlású változók, továbbá T := X 2 1 +... + X2 n. (a) Legyen Z 1 := X 1 /T. Bizonyítsuk be, hogy Z 2 1 és T 2 is függetlenek! (b) Legyen Z := X/T. Bizonyítsuk be, hogy Z és T 2 is függetlenek! Tipp: (a) A számoláshoz a Bayes-tételt alkalmazzuk. El ször meghatározzuk a T 2 statisztika f(t y) feltételes s r ségfüggvényét adott Y1 2 = y esetén. Ez nem más, mint a χ 2 (n 1) eloszlás s r ségfüggvénye a t y helyen. Bayes tétele alapján határozzuk meg az Y1 2 valószín ségi változó g(y t) s r ségfüggvényét adott T 2 = t helyen! Vegyük észre, hogy a nevez ben a χ 2 (n 1) és a χ 2 (1) eloszlás s r ségfüggvényeinek a konvolúciója áll, ami a χ 2 (n) eloszlás s r ségfüggvénye. Így adódik a g(y t) = C összefüggés (C normáló tényez ). (t y) n 1 2 1 y 1 2 t n 2 1

28 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET A Z 2 1 tört h(y t) feltételes s r ségfüggvénye adott T 2 = t helyen: h(y t) = t g(ty t) = C (1 y) n 1 2 1 y 1 2, ami éppen a B(1/2, n/2)-eloszlású Z 2 valószín ségi változó feltétel nélküli s r ségfüggvénye. (b) El ször bizonyítsuk be hogy Z 2 és T 2 függetlenek! Vezessünk be új változókat: Y1 2 = n(x) 2, Y2 2,..., Yn 2 valószín ségi változókat úgy, hogy Y1 2,..., Yn 2 független χ 2 (1) eloszlásúak legyenek és az Y1 2,..., Yn 2 = Z1, 2..., Zn 2 egyenl ség teljesüljön. Ez mindig megtehet az Y 2 = n u 2j X j, Y 3 = j=1 n u 3j X j,... Y n = j=1 n u nj X j választással, ahol az u ij valós számok ortonormált és az azonosan 1 sorvektorra ortogonális sorvektorok koordinátái. Ezután alkalmazzuk az el z feladat eredményét Végül a Z 2 és T 2 valószín ségi változók függetlenségb l kovetkeztethetünk Z és T valószín ségi változók függetlenségére, felhasználva hogy a számláló s r ségfüggvénye páros. Válasz: A fenti számolások valójában fölöslegesek, ha gyelembe vesszük a többdimenziós I p kovariancia mátrixú normális eloszlás szimmetriatulajdonságát (l. többdimenziós normális eloszlás) j=1 1.3. Tesztek 1. Határozzuk meg E(1/X X)-et, ha X tetsz leges véletlen változó és a szükséges várható értékek léteznek. (a) Nem feltétlenül létezik. (b) X (c) 1/X (d) 1/X Válasz: (c) 2. Határozzuk meg E(X 2 X)-et, ha X tetsz leges véletlen változó és a szükséges várható értékek léteznek. (a) Nem feltétlenül létezik. (b) X (c) X (d) X 2

1.3. TESZTEK 29 Válasz: (d) 3. Ha X és Y független változók, akkor (ha a szükséges várható értékek léteznek) E(X + Y X) = (a) X + Y. (b) E(X + Y ). (c) E(X) + Y. (d) X + E(Y ). Válasz: (d) 4. Legyenek X 1,..., X n független standard normális eloszlású változók. Milyen eloszlású X 1 +... + X n? (a) standard normális (b) N(0, n) (c) N(0, n 2 ) (d) t(n) Válasz: (b) 5. Legyenek X 1,..., X n független χ 2 (m) eloszlású változók. Milyen eloszlású X 1 +... + X n? (a) F(n,m) (b) F(m,n) (c) χ 2 (mn) (d) χ 2 (n + m) Válasz: (c) 6. Legyenek X 1,..., X n független λ paraméter exponenciális eloszlású változók. Milyen eloszlású X 1 +... + X n? (a) exp(nλ) (b) Gamma(n, λ) (c) Béta(n,λ) (d) másodfajú Béta(n,λ) Válasz: (b) 7. Melyik igaz? (a) A különböz szabadságfokú χ 2 eloszlások családja (röviden χ 2 eloszlássereg) és exponenciális eloszlássereg a különböz α, λ paraméter Gamma eloszlások családja (röviden Gamma eloszlássereg) részei.

30 FEJEZET 1. ELŽISMERETEK 1.: VALÓSZÍN SGELMÉLET (b) A Gamma és χ 2 eloszlásseregek az exponenciális eloszláscsalád részei. (c) Az exponenciális és Gamma eloszlásseregek a χ 2 eloszlássereg részei. (d) Egyik eloszlássereg sem része a többi. Válasz: (a)

2. fejezet El ismeretek 2.: statisztikai alapok 2.1. Elméleti háttér 2.1.1. Az egyváltozós statisztika alapfogalmai Az alábbiakban röviden összefoglaljuk az egyváltozós statisztikai módszereknek a Tananyagban használt alapfogalmait. Az egyváltozós statisztikai feladatokat kissé mesterségesen szokás becsléseleméletre és hipotézisvizsgálatra osztani. Mindkét feladatkörben megkülönböztetnek paraméteres és nemparaméteres módszereket. A Tananyag ezek közül csak a paraméteres módszerek többváltozós analogonjait és más az egyváltozós statisztikában fel sem merül módszereket tárgyal. A Tananyag formálisan nem támaszkodik a rendezett minták elméletére, de a rendezett minták implicit módon szinte minden statisztikai módszerben megjelennek, ezért röviden erre is kitérunk. Alapstatisztikák és rendezett minták Legyen X 1,..., X n független azonos eloszlású n-elem minta. 43. Deníció. Az X = 1 n n i=1 statisztikát mintaátlagnak nevezzük. Ha hangsúlyozni szeretnénk a mintaelemszámot, akkor az X n jelölést használjuk, ha pedig a konkrét realizációkkal számolunk, akkor x-t vagy x n -t írunk. X i 44. Deníció. Az S 2 = 1 n n (X i X) 2 i=1 31

32 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK statisztikát empirikus (tapasztalati) szórásnégyzetnek nevezzük, az S 2 = n n 1 S2 = 1 n 1 n (X i X) 2 statisztikát pedig korrigált empirikus (tapasztalati) szórásnégyzetnek. A fenti mennyiségek gyöke az empirikus (tapasztalati) szórás illetve a korrigált empirikus (tapasztalati) szórás, melyeket S illetve S jelöl. A szórásnégyzet, a második momentum és a várható érték közötti összefüggések az alábbi Álításból (mely a merev testek zikájából jól ismert Steiner-tetel átfogalmazása) következnek 45. Állítás (Steiner-tétel). Az x 1,..., x n R rögzített értékekkel és tetsz leges c R valós számmal teljesül. 1 n n (x i c) 2 = 1 n i=1 i=1 n (x i x) 2 + ( x c) 2 i=1 46. Következmény. A Steiner tételb l c = 0 választással következik, hogy az empirikus szórásnégyzetet a következ képpen is számolhatjuk: S 2 = 1 n n Xi 2 X 2 = X 2 X 2. i=1 47. Deníció. Legyen k rögzített pozitív egész. Az M k = 1 n statisztikát k-adik empirikus (tapasztalati) momentumnak nevezzük, az M c k = 1 n n i=1 X k i n (X i X) k statisztika pedig a k-adik empirikus (tapasztalati) centrális momentum. Nyilván S 2 = M c 2 = M 2 M 2 1. i=1 48. Deníció. Legyen (X, Y ) T 2-dimenziós valószín ségi változó, (X 1, Y 1 ) T,..., (X n, Y n ) T pedig vele azonos eloszlású független azonos eloszlású n-elem minta. Jelölje S X illetve S Y a komponensek empirikus szórását! A C = 1 n n (X i X)(Y i Ȳ ) = 1 n i=1 n X i Y i XȲ i=1

2.1. ELMÉLETI HÁTTÉR 33 statisztikát empirikus (tapasztalati) kovarianciának, az R = C n i=1 = X iy i n XȲ S X S ( n Y i=1 X2 i n X 2) ( n i=1 Y i 2 nȳ 2) statisztikát pedig empirikus (tapasztalati) korrelációnak nevezzük. 49. Deníció. Az X 1,..., X n mintaelemek értékeit nem-csökken sorrendben felvev X 1, X 2,..., X n valószín ségi változókat n-elem rendezett mintának nevezzük, azaz X 1 (ω) X 2 (ω) X n(ω), ω Ω Ω Ω = Ω n. Tehát minden konkrét x 1, x 2,..., x n realizáció esetén ezt az n valós számot kell nagyság szerint nem csökken sorrendbe rendezni, és a nagyság szerint i- ediket x i -gal jelölni. Természetesen az Ω különböz elemeire más és más lesz a mintaelemek sorrendje, és így a rendezés is. Nyilván a rendezett mintaelemek már nem függetlenek egymástól, és nem is azonos eloszlásúak. 50. Deníció. Empirikus mediánon értjük páratlan n (n = 2k + 1) esetén X k+1 -ot, páros n (n = 2k) esetén pedig (X k + X k+1 )/2-t. Ez valójában a középs mintaelem, és amennyiben a realizációból számolt értékét m jelöli, ezzel teljesül a Steiner-tétel L 1 - normában vett megfelel je: 51. Állítás. min c R 1 n n x i c = 1 n i=1 n x i m. A fenti minimumot a minta átlagos abszolút eltérésének is szokták nevezni. A mediánnak több el nye is van a várható értékkel szemben. Olyan eloszlásoknak is létezik a mediánja, amelyeknek a várható értéke nem létezik. A minta mediánja (empirikus medián) az eltolási paraméternek a mintaátlagnál stabilabb becslése, érzeketlen egy-két kiugró adatra. A következ kben egy n-elem minta alapján kívánjuk közelíteni a háttéreloszlást, ezért megkonstruáljuk az ún. empirikus eloszlásfüggvényt, amir l belátjuk, hogy elég nagy n-re jól rekonstruálja az ismeretlen eloszlásfüggvényt, akármi is legyen a véletlen minta. Ezt a tényt fogalmazza meg precízen a Glivenko Cantelli-tétel, melyet a statisztika egyik alaptételének is szoktak tekinteni. 52. Deníció (Empirikus (tapasztalati)). eloszlásfüggvény alatt a következ véletlen függvényt értjük: tetsz leges x R számra legyen n Fn(x) i=1 := I(X i < x) 0, ha x X1, k = n n, ha X k < x X k+1 (k = 1,..., n 1) 1, ha x > Xn. i=1

34 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK Itt I( ) az argumentumban álló esemény indikátorváltozója. Könny látni, hogy az I(X i < x) indikátorváltozók független azonos eloszlású Bernoulli eloszlásúak F (x) paraméterrel, ahol F az X háttérváltozó eloszlásfüggvénye. 2.1. ábra. empirikus eloszlásfüggvény Megjegyezzük, hogy F n az x 1,..., x n realizációra olyan, mint egy Y U(x 1,..., x n ) diszkrét egyenletes eloszlású valószín ségi változó eloszlásfüggvénye. Nyilván E(Y ) = X és D 2 (Y ) = S 2. 53. Tétel (GlivenkoCantelli-tétel). Legyen F (x) az elméleti eloszlásfüggvény és x R rögzített. Akkor E(F n(x)) = F (x), D 2 (F n(x)) = F (x)(1 F (x)), n és lim n F n(x) = F (x), 1 valószín séggel. A tételt animáció is szemlélteti. Rendezett mintaelemek eloszlása és együttes s r sége Legyen most az X háttérváltozó abszolút folytonos eloszlású F eloszlás- és f s r ségfüggvénnyel. A rendezett mintaelemekre X 1 < X 2 < < X n, 1 valószín séggel.

2.1. ELMÉLETI HÁTTÉR 35 El ször határozzuk meg X k F n;k-val jelölt eloszlás-, és f n;k -val jelölt s r ségfüggvényét! Nyilván F n;k (x) = P(Xk < x) = P(legalább k db. mintaelem < x) = n ( ) n n ( ) n = P(pontosan i db. mintaelem < x) = [F (x)] i [1 F (x)] n i i i i=k i=k (2.1) A s r ségfüggvényt nem ennek a deriválásával, hanem más meggondolással lehet egyszer en kiszámolni, a végeredmény: ( ) n 1 f n;k (x) = n [F (x)] k 1 [1 F (x)] n k f(x). (2.2) k 1 Az U[0, 1] egyenletes eloszlásra alkalmazva a (2.1) formulát és (2.2) formula integrálját 0-tól y-ig a következ értékes összefüggést nyerjük: n i=k ( ) ( ) n n 1 y y i (1 y) n i = n i k 1 0 u k 1 (1 u) n k du. Az egyenletes eloszlásból vett 5 elem rendezett minta elemeinek s r ségeit mutatják az alábbi ábrák. 2.2. ábra. 5 elem rendezett minta elemeinek s r ségei A képletgy jtemény alapján láthtó, hogy az egyenletes eloszlásból vett n- elem minta Yk k-adik rendezett mintaeleme B(k, n k + 1) Béta-eloszlású. Ennek alapján meghatározhatók Yk momentumai. Így:

36 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 2.3. ábra. Egyenletes minta hisztogramja, 5 elem rendezett minta 1.,3.,5. elemének hisztogramjai E(Y k ) = E(Y k ) 2 = k n + 1 k(k + 1) (n + 1)(n + 2) D 2 (Yk ) = E(Yk ) 2 E 2 (Yk k(n k + 1) ) = (n + 1) 2 (n + 2) (k = 1,..., n). (2.3) Végül megadjuk akárhány rendezett mintaelem együttes s r ségfüggvényét. Legyenek ezek a mintaelemek: X k 1, X k 2,..., X k r -ét (1 k 1 < k 2 < < k r n). f n;k1,...,k r (x 1,..., x r ) = n! (k 1 1)!(k 2 k 1 1)! (k r k r 1 1)!(n k r )! F (x 1 ) k 1 1 [F (x 2 ) F (x 1 )] k 2 k 1 1 [F (x r ) F (x r 1 )] k r k r 1 1 [1 F (x r )] n kr f(x 1 ) f(x r ), ha x 1 x 2 x r, és nyilván 0 különben. (2.4)

2.1. ELMÉLETI HÁTTÉR 37 Az alábbi szürkeárnyalatos ábra f 5,1,5 -öt mutatja egyenletes eloszlásból vett rendezett minta esetén. 1 0.8 0.6 0.4 0.2 0 2.4. ábra. f 5,1,5 Az r = 1 speciális esetben megkapjuk a (2.2) képletet. Az r = n speciális esetben megkapjuk az összes rendezett mintaelem együttes s r ségfüggvényét. { n!f(x 1 ) f(x n ), ha x 1 x 2 x n f n;1,...,n (x 1,..., x n ) = 0, különben. Az eredmény nem meglep, hiszen az összes rendezett mintaelem együttes eloszlása olyan, mint az összes (független) mintaelem együttes eloszlása azzal a különbséggel, hogy a rendezés miatt az el bbi eloszlás R n -nek az x 1 x 2 x n egyenl tlenség által meghatározott, 1/n! részarányú szimplexére koncentrálódik. Elégségesség, teljesség, exponenciális eloszláscsalád Legyen Ω, AP statisztikai mez, ahol P = {P θ : θ Θ}. Az X 1,..., X n független azonos eloszlású minta egy T (X 1,..., X n ) = T (X) statisztikájában a mintaelemekben rejl a θ paraméterre vonatkozó informaciót s ritjük ösze. 54. Deníció. Likelihood-függvényen értjük a mintaelemek együttes valószín - ség illetve s r ségfüggvényét. Legyen x = (x 1,..., x n ) R n rögzített, és L θ (x) a likelihood-függvény az x helyen. Ha a háttéreloszlás diszkrét p θ valószín ségfüggvényel, akkor L θ (x) = P θ (X = x) = n P θ (X i = x i ) = i=1 ha pedig abszolút folytonos f θ s r ségfüggvénynyel, akkor L θ (x) = n f θ (x i ). i=1 n p θ (x i ), i=1

38 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 55. Deníció. Azt mondjuk, hogy a T (X) statisztika elégséges a θ paraméterre, ha diszkrét esetben a L θ (x), ha T (x) = t, P θ (X = x T (X) = t) = P θ (T (X) = t) (2.5) 0 különben feltételes valószín ség, abszolút folytonos esetben pedig az L θ (x) f θ (x T (X) = t) = f T, ha T (x) = t, θ (t) 0 különben (2.6) feltételes s r ség nem függ θ-tól, θ Θ, ahol fθ T (t) jelöli a T (X) statisztika s r ségfüggvényét a t helyen. A fenti deníció alapján látható, hogy az elegséges statisztika a mintaelemekben rejl a θ paraméterre vonatkozó teljes információt tartalmazza. Felmerül a kérdés: hogyan lehetne megsejteni egy elégséges statisztika alakját? A választ a következ tétel adja meg. 56. Tétel (NeymanFisher faktorizáció). Egy X minta T (X) statisztikája pontosan akkor elégséges, ha létezik olyan g θ (t) (θ Θ, t T (=T értékkészlete)) és h(x) (x X ) mérhet függvény, hogy teljesül minden θ Θ, x X esetén. L θ (x) = g θ (T (x)) h(x) Azaz a likelihood-függvény csak a T statisztikán keresztül függ a paramétert l. Természetesen a teljes minta vagy a rendezett minta is elégséges statisztika, de mi minél egyszer bbet szeretnénk kapni. Ezért bevezetünk a valamilyen paraméterre elégséges statisztikák között egy részben rendezést: azt mondjuk, hogy T 1 a T 2 -nek alárendelt statisztika, ha van olyan mérhet v függvény, hogy T 1 = v(t 2 ). Ezt úgy jelöljük, hogy T 1 T 2, és a T 1 statisztika gazdaságosabb T 2 -nél. Ha T 1 és T 2 kölcsönösen alárendeltek a másiknak, akkor ekvivalenseknek mondjuk ket: T 1 = T 2 (nyilván ekkor v invertálható függvény). 57. Deníció. A T elégséges statisztikát minimális elégséges statisztikának nevezzük, ha alárendelt statisztikája bármely más elégséges statisztikának. 58. Deníció. A T statisztika teljes, ha a E θ (g(t )) = 0, θ Θ összefüggés a g függvényeknek egy elég gazdag (például folytonosan deriválható) osztályára teljesül, akkor ahol P T θ g = 0, P T θ (g = 0) = 1, jelöli a T statisztika által generált mértéket.

2.1. ELMÉLETI HÁTTÉR 39 Ennnek a tulajdonságnak a jelent sége az, hogy, ha a T statisztika elégséges és teljes akkor minimális elegséges. Ugyanakkor ezt a tulajdonságot nehéz elln rizni, de az alább deniált ún. exponenciális eloszláscsaládra teljesül. 59. Deníció. Azt mondjuk, hogy az X háttérváltozó eloszlása tagja az exponenciális eloszláscsaládnak, ha diszkrét esetben a valószín ség-, abszolút folytonos esetben a s r ségfüggvénye a következ alakban állítható el : k c(θ) exp a j (θ) T j (x) h(x), θ Θ. (2.7) j=1 Itt k = dim(θ), c és a j -k véges, mérhet függvények Θ-n, T j -k és h pedig véges, mérhet valós függvények. (A c > 0 ún. súlyfüggvény biztosítja, hogy a vagy 1 legyen). 60. Tétel. Vegyünk egy n-elem X = (X 1,..., X n ) mintát a fenti eloszlásból. Akkor ( n ) n T (X) = T 1 (X i ),..., T k (X i ) (2.8) i=1 elégséges statisztika a θ paraméter-vektorra. Ismeretes, hogy a normális-, exponeciális-, Poisson-, Bernoulli-, geometriai- Γ-eloszlások tagjai az exponenciális eloszláscsaládnak. A negatív binomiális (Pascal), binomiális, polinomiális eloszlások csak rögzített rend esetén azok (csak a valószín ség(ek) a paraméter(ek)). A diszkrét és folytonos egyenletes eloszlások viszont nem tagjai. 2.1.2. Becsléselmélet Pontbecslések, torzítatlanság, hatásosság, konzisztencia Legyen (Ω, A, P) statisztikai mez, ahol P = {P θ : θ Θ}. A θ paramétert vagy annak valamely ψ(θ) függvényét szeretnénk becsülni az X = (X 1,..., X n ) független azonos eloszlású minta alapján konstruált T (X) statisztika segítségével. Jelölje ˆθ ill. ˆψ az így kapott becslést! 61. Deníció (Torzítatlanság). T (X) torzítatlan becslés ψ(θ)-ra, ha i=1 E θ (T (X)) = ψ(θ), θ Θ. Ezt a fogalmat a legegyszer bb példán szemléltetjük. 62. Állítás. X mindig torzítatlan becslés m(θ) = Eθ (X)-re, ha ez véges. 63. Deníció (Aszimptotikus torzítatlanság). A T (X n ) statisztikasorozat aszimptotikusan torzítatlan becslés ψ(θ)-ra, ha lim E θ(t (X n )) = ψ(θ), θ Θ. n

40 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK A szórásnégyzet becslésén szemléltetjük mindkét fogalmat. 64. Állítás. Legyen X 1,..., X n független azonos eloszlású minta egy tetsz leges olyan eloszlásból, melyre minden θ Θ esetén σ 2 (θ) = D 2 θ (X) <. Akkor S n 2 := S 2 n = 1 n n (X i X) 2 = 1 n i=1 n Xi 2 X 2, i=1 n n 1 S2 n pedig torzítatlan becslése a szórásnégyzetnek. Megjegyezzük, hogy az S n 2 becslés torzítatlansága a Steiner-tétel következménye. Hatásosság (eciencia) 65. Deníció. Legyen a T 1 és T 2 statisztika torzítatlan becslés a θ paraméterre, vagy annak valamely ψ(θ) függvényére. Azt mondjuk, hogy T 1 hatásosabb (eciensebb) becslés, mint T 2, ha D 2 θ(t 1 ) D 2 θ(t 2 ), θ Θ, és legalább egy θ 0 Θ esetén (2)-ben < teljesül. 66. Deníció. Egy torzítatlan becslés hatásos (eciens) becslés, ha bármely más torzítatlan becslésnél hatásosabb. A következ tétel azt állítja, hogy amennyiben van hatásos becslés, az egyértelm. 67. Tétel (Egyértelm ségi). Legyen a T 1 és T 2 statisztika egyaránt torzítatlan, hatásos becslés ugyanarra a ψ(θ) paraméterfüggvényre. Akkor P θ (T 1 = T 2 ) = 1, θ Θ. Tételek garantálják, hogy exponenciális eloszláscsalád esetén X a várható érték hatásos becslése. Nem minden eloszláscsalád esetén igaz ez. Az U[0, θ] egyenletes eloszláscsalád esetén például legyen ˆθ Xn legnagyobb rendezett mintaelem n+1 2n -szerese, ez szintén várható érték torzítatlan becslése (l. (18)), és hatásosabb, mint X Konzisztencia A konzisztencia azt jelenti, hogy a meggyelések számának növelésével javul a becslés pontossága. 68. Deníció. A T (X n ) statisztikasorozat gyengén (er sen) konzisztens becslés ψ(θ)-ra, ha minden θ Θ-ra n esetén T (X n ) ψ(θ) sztochasztikusan (1 valószín séggel). A nagy számok er s törvénye maga után vonja az alábbi Állítást. 69. Állítás. Ha X 1,..., X n független azonos eloszlású minta X-re és m(θ) = E θ (X) véges, akkor X n er sen konzisztens becslés m(θ)-ra.

2.1. ELMÉLETI HÁTTÉR 41 Ezt szemlélteti az alábbi animáció. 70. Deníció. A T (X n ) statisztikasorozat a ψ(θ) paraméterfüggvény négyzetes középben konzisztens becslése, ha minden θ Θ-ra E θ (T 2 (X n )) < ( n N) és lim n E θ(t (X n ) ψ(θ)) 2 = 0. 71. Állítás. Ha a T (X n ) statisztikasorozat négyzetes középben konzisztens becslést ad ψ(θ)-ra, akkor a becslés gyengén konzisztens is. A szórásnégyzet becslése konzisztenciájának bizonyításának eszköze az alábbi önmagában is érdekes Állítás. 72. Állítás. és D 2 (S 2 n) = (n 1)[(n 1)M c 4 (n 3)σ 4 ] n 3, D 2 (Sn 2 ) = 1 n ( M4 c n 3 ) n 1 σ4. CramérRao-egyenl tlenség Legyen (Ω, P, P) statisztikai mez, ahol P = {P θ : θ Θ}. Célunk az, hogy a θ paraméterre vagy annak valamely ψ(θ) függvényére konstruált torzítatlan becslések szórásnégyzetére alsó korlátot adjunk. Ha egy torzítatlan becslésre ez a korlát eléretik, akkor biztosak lehetünk abban, hogy hatásos becslésünk van, ami az 67 Tétel alapján egyértelm. Szükségünk lesz a következ, R. A. Fishert l származó fogalomra, l.[ 11]. 73. Deníció. Legyen X = (X 1,..., X n ) független azonos eloszlású minta az X háttérválozó eloszlásából, amely a θ paramétert l függ (θ Θ), itt csak a dim(θ) = 1, Θ konvex esettel foglalkozunk. A fenti minta Fisher-féle információja az mennyiséggel van deniálva, ahol az ún. log-likelihood függvény-t jelöli. I n (θ) = E θ ( θ l θ(x)) 2 0 l θ (x) = ln L θ (x) Az információmennyiségt l elvárjuk, hogy független valószín ségi változók esetén additív legyen. Ez itt nem részletezett regularitási feltételek mellett amelyek fennálnak az exponenciális eloszláscsaládokra, de például az egyenletes eloszláscsaládra nem állnak fenn igaz is. Így a denícióban szerepl független azonos eloszlású valószín ségi változók esetén igaz az I n (θ) = ni 1 (θ).

42 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK Ugyanezen regularitási feltételek mellett igaz az I 1 (θ) egyszer bb kiszámítási módját biztosító ( ) 2 I 1 (θ) = E θ 2 ln L θ(x) összefüggés. A következ állítás illusztrálja azt a tényt, hogy az elégséges statisztika tartalmazza a mintában lév, a paraméterre vonakozó teljes információt. 74. Állítás. Legyen X = (X 1,..., X n ) független azonos eloszlású minta egy θ paramétert l függ eloszlásból (θ Θ), és tegyük fel, hogy I n (θ) <. Akkor tetsz leges T (X) elégséges statisztikára I T (θ) = I n (θ), ahol I T (θ) ugyanúgy számolható a T statisztika valószín ség ill. s r ségfüggvényéb l, mint ahogyan a teljes minta információja a mintaelemek együttes eloszlásából. Miután a CramérRao egyenl tlenségben szerepl valamennyi fogalmat deniáltunk, kimondhatjuk magát a tételt. 75. Tétel (CramérRao-egyenl tlenség). Legyen (Ω, A, P) reguláris statisztikai mez, ahol P = {P θ : θ Θ}, dim(θ) = 1. Legyen X = (X 1,..., X n ) független azonos eloszlású minta a P θ eloszlásból, amir l most tegyük fel, hogy abszolút folytonos. Tegyük fel továbbá, hogy a T (X) statisztika valamely deriválható ψ függvénnyel képzett ψ(θ) paraméterfüggvény torzítatlan becslése, D 2 θ(t ) < +, θ Θ továbbá teljesülnek az alábbi bederiválhatósági feltételek: L θ (x) dx = θ θ L θ(x) dx, és θ T (x)l θ (x) dx = θ Θ T (x) θ L θ(x) dx, θ Θ, ahol n-dimenziós integrálást jelent a likelihood-függvény tartóján. Akkor D 2 θ(t ) (ψ (θ)) 2, θ Θ. I n (θ) Példaként megemlítjük, hogy az N (θ, σ 2 ) normális eloszlásra ismert σ 2 esetén I 1 = σ 2, és a ˆθ = X átlagra az egyenl tlenség helyett egyenl ség áll, azaz eléretik az információs határ, míg az Exp(λ) exponenciális eloszlásra a torzítatlan ˆλ = n 1 n X becslés a következ tétel miatt hatásos, de az információs határ nem éretik el. Ugyanakkor a U(0, θ) egyenletes eloszlás ˆθ = X n (a legnagyobb rendezett mintaelem n + 1 n -szerese)

2.1. ELMÉLETI HÁTTÉR 43 becslés szórásnégyzete 1/n nagyságrend, azaz lényegesen kisebb, mint az információs határ, mert a bederiválhatósági feltételek nem teljesülnek. 76. Tétel (RaoBlackwellKolmogorov-tétel). Legyen (Ω, A, P) statisztikai mez, ahol P = {P θ ; θ Θ}. Legyen X = (X 1,..., X n ) független azonos eloszlású minta valamely P θ eloszlásból. Legyen továbbá (a) T (X) elégséges statisztika, (b) S(X) torzítatlan becslés a ψ(θ) paraméterfüggvényre. Akkor T -nek van olyan U = g(t ) függvénye, amely (1) szintén torzítatlan becslése a ψ(θ) paraméterfüggvénynek: E θ (U) = ψ(θ), θ Θ, (2) U legalább olyan hatásos becslése ψ(θ)-nak, mint S: D 2 θ (U) D2 θ (S), θ Θ. (3) U konstrukciója a következ : U := E θ (S T ) = g(t (X)), θ Θ (ezt nevezzük blackwellizálásnak). A tétel üzenete: a hatásos becsléseket a minimális elégséges statisztika függvényei közt kell keresni. Becslési módszerek A paraméterek (akár többdimenziós paraméterek) becslésére számos ad hoc módszer ismertes, itt csak az ún. maximum-likelihood becslést ismertetjük els sorban azért, mert általánosan alkalmazható, és az általa kapott eredmény közel esik a más becslések (például az ún. Bayes-becslés, vagy a momentum módszeren alapuló becslés) által kapott eredményhez. Legyen (Ω, A, P) statisztikai mez, ahol P = {P θ ; θ Θ} (a paramétertér lehet többdimenziós és legyen konvex). Vegyünk egy X 1,..., X n független azonos eloszlású mintát a P θ eloszlásból (θ ismeretlen). Az x 1,..., x n realizáció birtokában a paraméter becslésének azt a ˆθ-ot fogadjuk el, amely mellett annak a valószín sége, hogy az adott realizációt kapjuk, maximális. Mivel ezt a valószín séget a likelihood-függvény tükrözi, a módszer ezt maximalizálja. A maximumhely csak a realizációtól függ, tehát statisztikát kapunk becslésként. 77. Deníció. Legyen L θ (x) : n-elem mintához tartozó likelihood-függvény. A ˆθ: ˆθ(x 1,..., x n ) statisztikát a θ paraméter maximum likelihood (ML-)becslésének nevezzük, ha ˆθ globális maximumhelye a likelihood-függvénynek, azaz teljesül θ Θ és (x 1,..., x n ) esetén. Lˆθ(x1,...,x n ) (x 1,..., x n ) L θ (x 1,..., x n ) Megjegyzés. Ha létezik is L-nek globális maximuma minden realizáció esetén, az nem biztos, hogy a max. helyek egyértelm ek. Ezesetben választanunk kell a max. helyek között. Áltlános tételek biztosítják, hogy n esetén a különböz maximumhelyek a paraméter θ valódi értékéhez konvergálnak. Tehát a ˆθ n M-L becslés aszimptotikusan torzítatlan, s t n(θ θ n )-nel aszimptotikusan N (01/I 1 (θ )) normális eloszlású, azaz aszimptotikusan eciens.

44 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK Kondencia intervallum szerkesztés Az eddigiekben ún. pontbecslésekkel foglalkoztunk, vagyis a becsülend paramétert v. paraméterfüggvényt a mintaelemekb l képzett egyetlen statisztikával becsültük. Most becslésként egy egész intervallumot melynek határait természetesen statisztikák jelölik ki fogunk használni. A köznapi beszédben úgy fogalmazunk, hogy a ψ(θ) paraméterfüggvény P valószín séggel a T a és T f statisztikák által meghatározott intervallumban van. Természetesen ψ(θ) nem valószín ségi változó. Az alábbi kijelentésnek mégis van értelme Legyen X = (X 1,..., X n ) független azonos eloszlású minta a P θ sokaságból (θ ismeretlen)! 78. Deníció. A (T a (X), T a (X)) statisztikapárral deniált intervallum legalább 1 ε szint kondenciaintervallum a ψ(θ) paraméterfüggvényre, ha P θ (T a (X) < ψ(θ) < T f (X)) 1 ε, (2.9) ahol ε el re adott kis pozitív szám (például ε = 0.05, ε = 0.01, a hozzájuk tartozó szignikanciaszint pedig 95%, 99%). Nem világos, hogy a denícióban szerepl P θ valószín ség milyen paraméterértékhez tartozik. Egyes szerencsés esetekben az (2.9) beli valószín ség nem függ θ-tól. Kondenciaintervallum szerkesztése a normális eloszlás várható értékére ismert szórás esetén Legyen X 1,..., X n N (µ, σ 2 0) független azonos eloszlású minta, ahol σ 2 0 ismert, µ (a várható érték) ismeretlen paraméter. ( X r ε, X+r ε ) szimmetrikus alakban: P µ ( X r ε < µ < X + r ε ) = P µ ( X µ < r ε ) = P µ ( r ε < X µ < r ε ) = ( rε P µ σ 0 / n < X µ σ 0 / n < r ) ( ) ( ) ε σ 0 / rε = Φ n σ 0 / rε Φ n σ 0 /, n ahol Φ( ) standard ) normális eloszlásfüggvény, és r ε -t úgy kell megválasztani, 1 = 1 ε, teljesüljön. Így r ε = Φ 1 (1 ε 2 )σ0 hogy 2Φ ( rε σ 0 / n n. Vegyük észre, hogy a kondenciaintervallum hossza n növelésével és a σ 0 szórás csökkentésével csökken. Ismeretlen szórásnégyzet esetén a a standard normális eloszlást a megfelel szabadságfokú Student-eloszlással helyettesítjük. A fenti két esetben az (2.9) képletben P θ (T a (X) < ψ(θ) < T f (X)) 1 ε valószín ség nem függ θ-tól. Ha a feladatot nem lehet θ-tól független szimmetrikus eloszlás valószín ségeire visszavezetni, akkor monoton nem csökken ψ(θ) függvény esetén a következ k ppen járunk el. El ször önkényesen felbontjuk az (2.9) képletet P θ1 (T a (X) > ψ(θ)) ε/2-re és P θ2 (ψ(θ) > T f (X)) ε/2-re. Szavakban kifejezve, ha ψ(θ 1 ) értékét csökkentjük, a minta θ 1 melletti valószín sége, 1 ε/ fölé n, míg ha ψ(θ 2 ) értékét növeljük, a minta θ 2 melletti valószín sége, ε/2 alá csökken. Az eljárás akkor korrekt, ha a θ a (ε) függvény monoton nem növekv, míg a θ f (ε) függvény monoton nem csökken.

2.1. ELMÉLETI HÁTTÉR 45 A módszert a Poisson-eloszlás λ paraméterére szerkesztett kondencia intervallummal illusztráljuk. Legyen X 1,..., X n ismeretlen λ paraméter Poisson eloszlásból vett független azonos eloszlású minta, ismeretes, hogy az Y = X 1 + + X n összeg elégséges statisztika, és eloszlása nλ paraméter Poisson. Számítsuk ki azt a λ a értéket, amire exp( λ a ) Y λ j a j=0 j! = 1 ε/2, majd azt a λ f értéket, amire exp( λ f ) Y λ j a j=0 j! = ε/2, Nyilván λ csökkentésével a deniáló összeg n, és λ növelésével a deniáló összeg csökken. Az alábbi ábra λ függvényében mutatja exp( λ) Y j=0 λ j! -t. 2.5. ábra. exp( λ) Y j=0 λ j! A [λ a, λ f ] intervallumot tekinthetjük a λ paraméter 1 ε magbízhatósági szint kondencia intervallumának. Ezt az alábbi ábra illusztrálja (a kék terült 1 ε). Az alábbi interakív ábra a binomiális eloszlás p paramétere esetén szemlélteti a fenti eljárást. 2.1.3. Hipotézisvizsgálat A Tananyagban csak ún. paraméteres hipotézisvizsgálatokkal foglalkozunk. Ez tekinthet a paraméterbecslési feladat egy speciális esetének, amikor el zetes információnk van a paraméter lehetséges értékeir l, és csak azt kell eldönteni, hogy melyik érték a valószín bb. Valójában a hipotézisvizsgálat majdnem minden feladatát az egyszer alternatívára vezetjük vissza. Tegyük fel, hogy a Θ paramétertér mindössze két elemb l áll: Θ = {θ 0, θ 1 }. θ = θ 0 hipotézist szokás

46 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 2.6. ábra. Konndencia intervallum a Poisson eloszlás λ paraméterére H 0 -lal jelölni és null-hipotézisnek nevezni, míg a H 1 : θ = θ 1 } az ellen-hipotézis. Mindkét hipotézis lehet összetett is: a Θ paramétertartományt két halmaz diszjunkt uniójára (T heta = T heta 0 cupt heta 1 és T heta 0 T heta 1 = ). Leggyakrabban a null-hipotézis egyszer θ = θ 0, míg az ellenhipotézis θ = θ 0 alakú. Döntésünkkor kétféle hibát követhetünk el: 1. Elvetjük a null-hiptézist, pedig igaz; ezt nevezzük els fajú hibának, mert ennek a valószín sége egyszer nullhipotézis esetén null-hipotézishez tartozó eloszlás alapján kiszámolható. A hipotézisvizsgálat a gyakorlatban legtöbbször úgy történik, hogy keresünk a mintaelemeknek egy olyan függvényét, amelynek eloszlása az egyszer null-hipotézis fennállása esetén ismert. Ez a próbastatisztika. (ha szerencsénk van, az ellen-hipotézishez tartozó paraméterértékekre is ismert) 2. Elfogadjuk a null-hiptézist, pedig nem igaz; ezt nevezzük másodfajú hibának, ennek a valószín sége összetett H 1 hipotézis esetén függ a θ Θ 1 paramétert l. Döntésünk valamely, az X = (X 1,..., X n ) minta alapján lehet determinisztikus, és (diszkrét értékkészlet valószín ségi változók esetén) ún. randomizált. A determinisztikus döntéskor a X mintateret felosztjuk X e elfogadási- és X k kritikus tartományra. X e X k =, X e X k = X. Az els fajú hiba valószín sége egyszer null-hipotézis esetén: P θ0 (X X k ). A hipotézisvizsgálatban a döntést próbának nevezik.

2.1. ELMÉLETI HÁTTÉR 47 A kritikus tartományt leggyakrabban ún. Ψ próbafüggvénnyel deniáljuk: { X X e Ψ(X) = 0, X X k Ψ(X) = 1. El fordulhat, hogy ilyen alakú próbafüggvénnyel még egyszer alternatíva esetén sem lehet minden ε értékére pontosan beállítani az els fajú hibát, s t a mintateret sem lehet két diszjunkt tartományra osztani úgy hogy az els fajú hiba adott ε legyen. Ilyenkor háromérték (randomizált) próbafüggvényt alkalmazunk: Ψ(X) = Ha Ψ(X) = p, akkor a nullhipotézist p valószín séggel elfogadjuk. Ha a null-hipotézis összetett a próba terjedelmér l beszélünk. 79. Deníció. A X k kritikus próba pontos terjedelme: 0, p, 1, sup P θ (X X k ). θ Θ 0 A pontos terjedelem diszkrét eloszlások esetén általában nem érhet el. 80. Deníció. Az X k kritikus tartománnyal értelmezett próba ereje a θ Θ 1 alternatívával szemben: teljesül. β n (θ, ε) = 1 P θ (X X e ) = P θ (X X k ), θ Θ 1 A próbák esetén is deniálható a torzítatlanság, nevezetesen, ha er függvénye az ellen-hipotézishez tartozó paraméterértekre sem kisebb, mint a próba terjedelme. Precízen fogalmazva: 81. Deníció. Az X k kritikus tartománnyal deniált próba legfeljebb ε terjedelm torzítatlan, ha P θ (X X k ) ε, ha θ Θ 0, és P θ (X X k ) ε, ha θ Θ 1. Rögzített terjedelem esetén elvárható, hogy a mintaelemszám növelésével próba másodfajú hibája az ellen-hipotézishez tartozó minden paraméterértékre nullához tartson.

48 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 82. Deníció. Az n elem mintához tartozó X (n) k kritikus tartománnyal deniált próba ε terjedelm konzisztens, ha sup P θ (X n XX (n) k ) = ε, n N θ Θ 0 és lim β n(θ, ε) = lim P θ(x n X (n) n n k ) = 1, θ Θ 1. A hipotézisvizsgálat legalapvet bb tétele az egyszer alternatívára érvényes NeymanPerson-Lemma. 83. Tétel (NeymanPearson-Lemma). A H 0 : θ = θ 0 versus H 1 : θ = θ 1 egyszer alternatívára tetsz leges ε > 0-ra létezik ε terjedelm próba, amelynek másodfajú hibája minimális, amelynek (esetleg randomizált) próbafüggvénye L 0, ha θ1 (X) L θ0 (X) < c, L ψ(x) = p, ha θ1 (X) L θ0 (X) = c, (2.10) L 1, ha θ1 (X) L θ0 (X) > c, ahol a L θj (X) j = 0, 1 és a c = c ε > 0 és p = p ε számokat úgy választjuk meg, hogy a próba terjedelme ε legyen 84. Megjegyzés. Diszkrét eloszlás esetén általában nincs olyan c érték, amire a determinisztikus próba els fajú hibája pontosan ε ezért randomizált próbát alkalmazunk. Természetesen megtehetjük, hogy szigorúak vagyunk és sz kebb kritikus tartományt (kisebb c-t) választunk, vagy a kisebb els fajú hiba el nyosebb, és engedékenyebbek vagyunk. Az elméleti összefoglalóban egyetlen példát mutatunk arra az esetre, amikor a NeymanPearson-lemma alapján próba szerkeszthet. Ez az ún. egymintás u-próba. Legyen X: X 1,..., X n független azonos eloszlású N (θ, 1) eloszlású minta, θ lehetséges értékei θ 0 (null-hipotézis) és θ 1 > θ 0 (ellen-hipotézis). A normális eloszlás s r ségfüggvényének alakjából kiolvasható, hogy a L θ 1 (X) L θ0 (X) c egyenl tlenség pontosan akkor teljesül ha nx c, ahol c -t ugy kell megválasztani, hogy P( nx > c ) = ε teljesüljön. Mivel Mivel nx standard normális eloszlású, c = Φ 1 (1 ε). A megfelel kvantiliseket itt interaktív ábra segítségével határozhatjuk meg. Az er függvény mutatja az u próba konzisztenciáját (az alsó kék vonal az els fajú hibánál, a fels 1-nél van). Az alábbi animáció az u próba konzisztenciáját mutatja. A NeymanPearson-lemma randomizált változata alapján szerkesztend próba a feladatok között szerepel. Végül mutatunk egy általanosan használt módszert, amely számos módszer alapját képezi, és a többváltozós statisztikában más lehet ség híján mindig ezt alkalmazzuk.

2.1. ELMÉLETI HÁTTÉR 49 2.7. ábra. u próba els fajú hibája 2.8. ábra. u próba másodfajú hibája µ függvényében A Likelihood-hányados próba Ez a fajta próba olyan, viszonylag általános esetekben használható, mikor a nullhipotézis azt jelenti, hogy paraméterünk a véges dimenziós, konvex paramétertér

50 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 2.9. ábra. u próba ereje (1 másodfajú hiba) µ függvényében valamely alacsonyabb dimenziós, összefügg részsokaságába esik: H 0 : θ Θ 0 versus H 1 : θ Θ 1, ahol Θ 0 Θ 1 =, Θ 0 Θ 1 = Θ, és a dim(θ 0 ) = r, dim(θ) = k jelöléssel r < k teljesül. Az n-elem minta alapján konstruálandó próbastatisztika: λ n (X) = sup θ Θ 0 L θ (X) sup θ Θ L θ (X). Tényleg statisztikát kapunk (λ n (X) nem függ θ-tól), amely 0 és 1 közötti értékeket vesz fel. 85. Állítás. Bizonyos regularitási feltételek mellett n esetén 2 ln λ n (X) χ 2 (k r) eloszlásban, H 0 fennállása esetén. (l. [3] 3.10 paragrafus) Ezért ε terjedelemhez a kritikus tartomány: X k = {x : λ n (x) λ ε } = {x : 2 ln λ n (x) c ε }, ahol a c ε = 2 ln λ ε > 0 konstans a χ 2 (k r) eloszlás 1 ε kvantilise.

2.1. ELMÉLETI HÁTTÉR 51 A leggyakrabban használt próbák t-próba (Student-próba). Normális eloszlás várható értékének tesztelésére vagy két normális várható érték összehasonlítására használják ismeretlen szórás(ok) esetén. A gyakorlatban kis mintákra alkalmazzák, a normális eloszlást fel kell tenni. Egymintás t-próba. Legyen X N (µ, σ 2 ) háttérváltozó ismeretlen paraméterekkel. A H 0 : µ = µ 0 versus H 1 : µ µ 0 hipotézis vizsgálatára az n elem X 1,..., X n N (µ, σ) független, azonos eloszlású mintából konstruált próbastatisztika: t(x) = X µ 0 n, Sn az 1 ε szignikanciaszinthez konstruált kritikus tartomány pedig X k = {x : t(x) t ε/2 (n 1)}, ahol t ε/2 (n 1) az n 1 szabadságfokú t-eloszlás (1 ε/2)-kvantilise. A t- eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. Null-hipotézisünket 1 ε szinten elfogadjuk, ha a mintarealizációból számolt t(x) < t ε/2 (n 1), és elutasítjuk különben. Kétmintás t-próba. Legyen X N (µ 1, σ 2 ) és Y N (µ 2, σ 2 ) két tetsz leges várható érték, de azonos szórású háttérváltozó. Az összes paraméter ismeretlen. Még ebben a paragrafusban megmutatjuk, hogyan lehet ismeretlen szórások egyenl ségét tesztelni. A H 0 : µ 1 = µ 2 vers. H 1 : µ 1 µ 2 hipotézis vizsgálatára az n 1 elem X 1,..., X n1 N (µ 1, σ 2 ) független, azonos eloszlású és az Y 1,..., Y n2 N (µ 2, σ 2 ) független, azonos eloszlású, egymástól is független mintákból konstruált próbastatisztika: X t(x, Y) = Ȳ n 1 n 2 (n 1 + n 2 2) (n 1 1)SX 2 + (n 2 1)SY 2 n 1 + n 2 az 1 ε szignikanciaszinthez konstruált kritikus tartomány pedig X k = {(x, y) : t(x, y) t ε/2 (n 1 + n 2 2)}, ahol most az n 1 + n 2 2 szabadsági fokú t-eloszlást használjuk. A t-eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. F-próba. Két normális eloszlású változó szórásának összehasonlítására használják. Legyen X N (µ 1, σ 2 1) és Y N (µ 2, σ 2 2) két ismeretlen paraméter, normális eloszlású háttérváltozó. A szórások egyenl ségét szeretnénk tesztelni: H 0 : σ 1 = σ 2 versus H 1 : σ 1 σ 2.

52 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK Az n 1 elem X 1,..., X n1 N (µ 1, σ 2 ) független, azonos eloszlású és az Y 1,..., Y n2 N (µ 2, σ 2 ) független, azonos eloszlású, egymástól is független minták alapján vizsgálódunk. Tudjuk, hogy (n 1 1)SX 2 /σ1 2 χ 2 (n 1 1) és (n 2 1)SY 2 /σ2 2 χ 2 (n 2 1) függetlenek. Leosztva ket külön-kölön a saját szabadsági fokukkal, majd a hányadosukat véve F(n 1, n 2 )-eloszlású valószín ségi változót kapunk, ezt tekinthetjük egyben az (n 1, n 2 ) szabadsági fokú Fisher-eloszlás deníciójának. H 0 fennállása esetén a hányados F (X, Y) = S 2 X SY 2, így ezt a próbastatisztikát vezetjük be. Mivel egy F(f 1, f 2 ) eloszlású valószín ségi változó reciproka F(f 2, f 1 ) eloszlású lesz, az X, Y szereposztást úgy választhatjuk, hogy a konkrét realizáció alapján számolt s 2 X s 2 Y legyen. Ezután 1 ε szinten elutasítjuk H 0 -t, ha F (x, y) F ε/2 (n 1 1, n 2 1), ahol a megfelel szabadsági fokú F -eloszlás (1 ε/2)-kvantilise a kritikus érték. Az F -eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. A következ két próba ún. nemparaméteres próba, az els esetben a H 0 hipotézis az, hogy a minta egy adott diszkrét eloszlást követ, míg a második esetben a H 0 hipotézis az, hogy a minta egy adott folytonos eloszlást követ. χ 2 -próba. Legyen A 1,..., A r teljes eseményrendszer és H 0 : P(A i ) = p i (i = 1,..., r), ahol a p i > 0, r i=1 p i = 1 valószín ségek adottak. Végezzünk n db. meg- gyelést! Jelölje ν 1,..., ν r az A 1,..., A r esemény gyakoriságát ( r i=1 ν i = n)! Akkor H 0 fennállása esetén a (ν 1,..., ν r ) valószín ségi változó polinomiális eloszlású: { n! P H0 (ν 1 = n 1,..., ν r = n r ) = n 1! n r! pn 1 1 pnr r, ha n 1 + + n r = n, 0, különben. próbafüggvény aszimp- A alábbi tétel biztosítja, hogy a az r (ν i np i ) 2 i=1 np i totikusan χ 2 -eloszlású. 86. Tétel. Ha (ν 1,..., ν r ) polinomiális eloszlású n és p 1,..., p r (p i > 0) paraméterekkel (vagyis a (3.1)-beli H 0 fennállása esetén), akkor n esetén eloszlásban. r (ν i np i ) 2 χ 2 (r 1) np i i=1 A χ 2 -eloszlások kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. Megjegyzés. A határeloszlás nem függ a p i értékekt l, csak r-t l. KolmogorovSzmirnov-próba. Ezt a próbát tiszta illeszkedésvizsgálat céljára használjuk olyan esetekben, mikor a háttéreloszlás folytonos. A próbastatisztika konstrukciójánál kihasználjuk a KolmogorovSzmirnov tételkört.

2.2. FELADATOK 53 Egymintás eset (illeszkedésvizsgálat): H 0 : P(X < x) = F (x), x R (F adott folytonos eloszlásfüggvény). H 1 : van olyan x R, P(X < x) F (x). Jelölje F a tapasztalati eloszlást és legyen D n = sup Fn(x) F (x). x R Amennyiben x 1 x n az x = (x 1,..., x n ) mintarealizáció rendezett alakja, akkor D n (x) = max max{ Fn(x i ) F (x i ), Fn(x i + 0) F (x i ) } = i = max max{ i 1 i n F (x i ), i n F (x i ) }. Kolmogorov tétele alapján tudjuk, hogy H 0 fennállása esetén ahol K(z) = lim P( nd n < z) = K(z), z R, n { 0, ha z 0, i= ( 1)i e 2i2 z 2 = 1 2 i=1 ( 1)i 1 e 2i2 z 2, ha z > 0,. A Kolmogorov-eloszlás kvantiliset itt interaktív ábra segítségével tudjuk meghatározni. 2.2. Feladatok 1. Igaz-e, hogy a tapasztalati korreláció mindig 1 és 1 közé esik? Mikor teljesülhet valamelyik egyenl ség? Tipp: Alkalmazzuk a véges dimenzós CauchySchwarz-egyenl tlenséget! Válasz: Igaz. { 1, ha a két minta egymás pozítív számszorosa, 1, ha a két minta egymás negatív számszorosa. 2. Legyen X 1,..., X n független, p paraméter Bernoulli eloszlásból vett statisztikai minta. (a) Milyen eloszlású n i=1 X i? (b) Adjuk meg a k-adik empirikus (tapasztalati) momentum eloszlását!

54 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK (c) Adjuk meg a második empirikus (tapasztalati) centrális momentum eloszlását! Tipp: (a) Elemi számolás. (b) A diszkrét eloszlású valószín ségi változók függvény eloszlásának számolása. (c) Alkalmazzuk az el z 2 pont eredeményét k = 1, 2-re. Válasz: (a) B n (p). (b) Az n k /n, (n 1) k /n,..., 1/n, 0 számok valószín ségei ugyanazok, mint a B n (p) eloszlásban az n, n 1,..., 1, 0 értékek valószín ségei. ( ) 2 ( ) 2 (c) n (n+1) 2n,..., (n+1) 2n számok valószín ségei ugyanazok, mint a B n (p) eloszlásban az n, n 1,..., 1, 0 értékek valószín ségei. 3. Legyen X 1,..., X n független, λ 1,..., λ n paraméter Poisson eloszlásból vett minta. (a) Milyen eloszlású n i=1 X i? (b) Adjuk meg X eloszlását! Tipp: Alkalmazzuk a képletgy jteményt. Válasz: (a) nλ paraméter Poisson. (b) A {0, 1/n, 2/n,... } értékeket ugyanazzal a valószín ségel veszi fel, mint az nλ paraméter Poisson-eloszlás. 4. Legyen X 1,..., X n N (µ, σ 2 ) független minta. Milyen eloszlású X? (Adjuk meg a várható értéket és a szórásnégyzetet is!) Tipp: l. képletgy jtemény. Válasz: N (µ, σ 2 /n). 5. Legyen X 1,..., X n U( 1, 1) független minta. Aszimptotikusan milyen eloszlású n X? Tipp: Számítsuk ki a U( 1, 1) eloszlás els két momentumát és alkalmazzuk a centrális határeloszlás-tételt. Válasz: N (0, 1/3).

2.2. FELADATOK 55 6. Legyen X 1,..., X n független minta f(x) = 1 2 2 x 2 e s r ségfüggvénnyel. Aszimptotikusan milyen eloszlású n X? Tipp: A feladatban szerepl valószín ségi változók várható értéke 0, szórasnégyzetet jelölje σ 2, ez utóbbit az exponenciális eloszlás s r ségfüggvényének és második momentumának ismeretében kiszámíthatjuk. Alkalmazzuk a centrális határeloszlás-tételt. Válasz: Vegyük észre, hogy f(x) a teljes számegyenesen van értelmezve! N (0, 1). 7. Legyen X 1,..., X n független, λ paraméter exponenciális eloszlásból vett minta. Milyen eloszlású X? Tipp: keressük meg a képletgy jteményben a gamma eloszlás s r ségfüggvényét- Válasz: G(n, λ). 8. Számoljuk ki az n-edrend λ paraméter gamma eloszlás k-adik momentumát, ahol k < n. Tipp: Számitsuk ki az X k f(x)dx integrált, ahol f(x) a G(n, λ) 0 eloszlás s r ségfüggvénye. Használjuk ki azt a tényt, hogy x k f(x) G(n k, λ) s r ségfüggvényének konstansszorosa (l.képletgy jtemény abszolút folytonos eloszlások). 9. Válasz: λ k (n 1)...(n k) 10. Legyen X 1 <... < X n a [0, 1] intervallumon egyenletes eloszlásból vett rendezett minta. (a) Igazoljuk, hogy X 1,..., X n nem függetlenek! (b) Igazoljuk, hogy 1 X n,..., 1 X 1 szintén a [0, 1] intervallumon egyenletes eloszlásból vett rendezett minta! (c) Milyen eloszlású Xk+1 X k, ahol 1 k < n? Tipp: (a) Elemi logika. (b) Hivatkozzunk a egyenletes eloszlás szimmetriájára. (c) l. rendezett minta elemeinek együttes s r ségfüggvénye. Válasz: (a) Ha például X 1 = 0, 001, akkor X 2 felveheti a 0,002 értéket, míg ha X 1 = 0, 99, akkor X 2 nem veheti fel a 0,002 értéket, azaz X 2 feltételes eloszlása X 1 -ra nézve függ X 1 értékét l.

56 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK (b) Mivel az egyenletes eloszlás szimmetrikus az 1/2 ponra, 1 X n,..., 1 X 1 szintén egyenletes eloszlásból vett minta, igy a bel le képzett rendezett minta szintén az egyenletes eloszlásból vett rendezett minta. (c) Xk+1 X k valószín ségi változók azonos eloszlású (de nem független!) valószín ségi változók, Xk+1 X k eloszlása azonos az X 1 valószín ségi változóeloszlásával, ami B(1, n) Béta eloszlású. 11. Legyen X 1,..., X n független, az [a, b] intervallumon egyenletes eloszlásból vett minta, X1 <... < Xn pedig a bel le gyártott rendezett minta. Adjuk meg X k eloszlás- és s r ségfüggvényét, valamint várható értékét! Tipp: l. a rendezett minta elemeinek eloszlását. Válasz: Eloszlásfüggvény: n ( ) n G n,k (x) = [F (x)] j [1 F (x)] n j j j=k és a s r ségfüggvény: ( ) n 1 g n,k (x) = n [F (x)] k 1 [1 F (x)] n k F (x), k 1 ahol F az [a, b] intervallumon egyenletes eloszlás eloszlásfüggvénye. A várható érték a+b k 2 n+1. 12. Legyen X 1,..., X n független minta az F (x) = x (0 < x < 1) eloszlásfüggvénnyel. Adjuk meg Xk s r ségfüggvényét! Tipp: Lásd az el z feladat megoldását! Válasz: ( ) n 1 1 [0,1] 1/2 g n,k (x) = n [ x] k 1 [1 x] n k x 1/2 k 1 13. Legyen X1 <... < Xn a [0, 1] intervallumon egyenletes eloszlásból vett rendezett minta, és Y1 <... < Yn az el z t l független, szintén a [0, 1] intervallumon egyenletes eloszlásból vett rendezett minta. Adjuk meg Xk Yk s r ségfüggvényét (1 k n)! Tipp: Két független B(k, n k+1) eloszlású valószín ségi változó különbségének s r sége a kérdés, ami konvolúcióval meghatározható. Figyeljünk az integrálás tartományára! Válasz: 14. Legyen X 1,..., X n a λ paraméter exponenciális eloszlásból vett rendezett minta. (a) Adjuk meg a k-adik (1 k n) mintaelem eloszlás- és s r ségfüggvényét!

2.2. FELADATOK 57 (b) Milyen eloszlású a δ k := Xk+1 X k, ahol 1 k < n? Tipp: (a) Alkalmazzuk a 12 feladatot, F (x) helyébe 1 exp( λx)-et írva. (b) Alkalmazzuk az exponenciális eloszlás örökifjú tulajdonságát. Válasz: (a) ( ) n 1 f n,k (x) = n [F (x)] k 1 [1 F (x)] n k f(x) k 1 ahol F (x) = 1 exp( λx)-et és f(x) = λ exp( λx). (b) δ k Exp[(n k)λ]. 15. Legyen X 1,..., X n független, a (θ 1 2, θ + 1 2 ) intervallumon egyenletes eloszlású minta. Legyen T (X) = X 1 + Xn. 2 Határozzuk meg T (X) g(z) s r ségfüggvényét! Tipp: Lásd A rendezett minták elemeinek együttes s r ségfüggvényér l tanultakat! Ha X és Y valószín ségi változók együttes s r ségfüggvénye f(x, y), akkor a konvolúcióhoz hasonlóan a Z = X + Y valószín ségi változó s r ségfüggvénye: g(z) = f(x, z x)dx Figyeljünk az integrálás tartományára, és használjuk fel azt a tényt, hogy a keresett s r ségfüggvény szimmetrikus θ-ra! Válasz: { n [1 + 2(z θ)] n 1, ha z < θ, g(z) = n/2 [1 2(z θ)] n 1, ha z > θ 16. Igazoljuk, hogy ha n > 1, és X 1 nem elfajult és s r ségfüggvénye valóban függ a paramétert l, akkor T (X) = X 1 semmilyen paraméterre sem elégséges! Tipp: Használjuk fel elégséges statisztika denícióját! Válasz: Legyen két mintánk: X 1 és X 2. A függetlenség miatt kettejük együttes s r ségfüggvényének feltételes s r ségfüggvénye X 1 -re nézve éppen X 2 s r ségfüggvénye, ami természetesen függ a paramétert l. 17. Igazoljuk, hogy a rendezett minta minden paraméterre elégséges statisztika! Tipp: Legyen az X 1,..., Xn független azonos eloszlású valószín ségi változók közös f θ (x) s r ségfüggvénye, ahol θ egy paraméter. Legyenek

58 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK X 1,..., X n a fenti valószín ségi változókból készített rendezett minta elemei. Mutassuk meg hogy az eredeti f(x 1,..., x n ) s r ségfüggvény rekonstruálható a rendezett minta f (x 1,..., x n) s r ségfüggvénye alapján! Válasz: f{x 1,..., x n } = 1 (xπ(1) x π(n) )f (x π(1),..., x π(n) ) ahol π az a permutació ami szerint az aktuális minta rendezetté válik. Emögött az a heurisztikus tény húzódik meg, hogy ha van egy független mintánk valamely F eloszlásból, azt rendezzük, majd a rendezett mintából véletlenszer en visszatevés nélkül kiválásztjuk a mintaelemeket, akkor ismét egy független mintát kapunk ugynabból az F eloszlásból. 18. Legyenek X 1,..., X n független, a [0, θ] intervallumon egyenletes eloszlásból vett minta! Igaz-e, hogy X n a θ paraméterre elégséges statisztika? Tipp: l. képletgy jtemény abszolút folytonos eloszlások és alkalmazzuk a Neyman-Fisher faktorizációt. Válasz: Igen. 19. Tegyük fel, hogy T statisztika torzítatlan becslése θ paraméternek. Tekintsünk egy tetsz leges S statisztikát. Igaz-e, hogy E(T S) is torzítatlan becslése θ-nak? Tipp: Alkalmazzuk feltételes várható érték tulajdonságait, Válasz: Igen, mert E(E(T S)) = E(T ). 20. Legyen X valószín ségi változó, amelynek létezik a szórása. (a) Tegyük fel, hogy ismert az E(X) = θ várható érték. Igazoljuk, hogy S 2 1 = 1 n n i=1 (X i θ) torzítatlan becslése a szórásnégyzetnek! Mit mondhatunk a konzisztenciáról? (b) Az (a) pont segítségével igazoljuk, hogy az S 2 n = 1 n n i=1 (X i X) 2 empirikus szórásnégyzet nem torzítatlan becslése a szórásnégyzetnek! Készítsünk segítségével torzítatlan becslést! Tipp: (a) Közvetlen számolás. Alkalmazzuk a nagy számok törvényét ( keressük meg a képletgy jteményben). (b) Közvetlen számolás. Válasz: (a) Er sen konzisztens. (b) Az S 2 n = 1 n 1 n i=1 (X i X) 2 torzítatlan becslés. 21. Tekintsünk az alábbi eloszlásokból egy n elem mintát! Adjunk elégséges statisztikát az ismeretlen paraméterre!

2.2. FELADATOK 59 (a) p paraméter geometriai eloszlás, (b) (5, p) paraméter B 5 (p) binomiális eloszlás, (c) (3, p) paraméter negatív binomiális eloszlás, (d) G(2, λ), (e) G(α, 2), (f) θ = (α, λ) paraméter Gamma eloszlás, (g) N (µ, 1), (h) N (0, σ 2 ), (i) N (µ, σ 2 ), (j) m szabadságfokú χ 2 eloszlás, (k) θ = (a, b) paraméter Béta eloszlás, (l) [ α, α] intervallumon egyenletes eloszlás. Tipp: l. képletgy jtemény nevezetes eloszlások, továbbá használjuk a Neyman-Fisher faktorizációt (l. elégséges statisztika). Válasz: (a) Pl. X 1 +... + X n, (b) pl. X 1 +... + X n, (c) pl. X 1 +... + X n, (d) pl. X 1 +... + X n, (e) pl. X 1... X n, (f) pl.x 1 +... + X n, X 1... X n, (g) pl. X 1 +... + X n, (h) pl. X 2 1 +... + X 2 n, (i) pl. X 1 +... + X n, X 2 1 +... + X 2 n, (j) pl. X 1 +... + X n, X1 2 +... + Xn, 2 (k) pl. n i=1 X i, n j=1 (1 X j), (l) pl. max{ X1, Xn}. 22. X 1,..., X n független, θ = (r, p) paraméter negatív binomiális eloszlásból vett minta. A θ paraméterre elégséges statisztika-e a mintaátlag? Tipp: l. képletgy jtemény diszkrét eloszlások és Neyman-Fisher faktorizáció (l. elégséges statisztika). Válasz: Nem, itt két paraméterre kell elégséges statisztikát adni! 23. Elégséges statisztika-e θ paraméterre L θ (X) (ahol L θ a likelihood-függvény)? Tipp: Elemi logika. Válasz: Nyilván nem, hiszen benne van a paraméter.

60 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 24. Legyenek X 1,..., X n független, λ paraméter Poisson eloszlású valószín ségi változók. (a) Igaz-e, hogy X elégséges statisztika a λ paraméterre! (b) Adjunk a λ paraméterre a fentit l különböz elégséges statisztikát! Tipp: (a) l. képletgy jtemény diszkrét eloszlások és Neyman-Fisher faktorizáció (b) L. elégséges statisztika tulajdonságait. Válasz: (a) Igaz. (b) Pl. a teljes minta, a rendezett minta, a mintaösszeg és annak invertálható függvényei (utóbbiak a minimális megoldások). 25. Legyen X 1,..., X n λ paraméter exponenciális eloszlásból vett független minta. (a) Igaz-e, hogy n i=1 X i elégséges statisztika a λ paraméterre? (b) Adjunk a λ paraméterre más elégséges statisztikákat! Tipp: (a) Írjuk fel a likelihood függvényt azaz az X 1,..., X n együttes s r ségfüggvényét (l. képletgy jtemény abszolút folytonos eloszlások) (b) L. el z feladat. Válasz: (a) Igaz. (b) Pl. a teljes minta, a rendezett minta, a mintaátlag, a mintaösszeg invertálható függvényei (utóbbiak a minimális megoldások). 26. Legyen X 1,..., X n független, p paraméter geometriai eloszlású minta. (a) Adjuk meg a p paraméter Y maximum likelihood becslését! (b) Alkalmasan transzformálva tegyük Y -t torzitatlan becsléssé! Tipp: (a) Közvetlen számolás. (b) Keressük meg a képletgy jteményben a negatív binomiális eloszlást, és okoskodjunk az E(1/X) kiszámításához hasonló módon, ugyanis a negatív binomiális eloszlás éppolyan általánosítása a geometriai eloszlásnak, mint a gamma eloszlás az exponenciális eloszlásnak.

2.2. FELADATOK 61 Válasz: (a) n Y (b) n 1 Y 1. Vegyük észre, hogy ez a képlet n = 1-re nincs értelmezve! 27. Legyen X 1,..., X n független, a [θ + 1 2, θ 1 2 ] intervallumon egyenletes eloszlású minta. (a) X torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (b) Xn 1 2 torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (c) Igazoljuk, hogy X er sen és Xn 1 2 θ-nak! Tipp: (a) A mintaátlag torzitatlan becslése a várható értéknek. gyengén konzisztens becslései (b) Számítsuk ki az Xn 1 2 valószín ségi változó várható értékjét (l. a rendezett minták-ról szóló paragrafust). (c) Az Y 1 = X és az Y 2 = Xn 1 2 becslések gyenge konzisztenciájának igazolásához számitsuk ki E(Y 1 θ) 2 és E(Y 2 θ) 2 négyzetes rizikókat és alkalmazzuk Csebisev-egyenl tlenséget. Az Y 1 becslés a nagy számok er s törvénye miatt er sen konzisztens, míg az Y 2 négyzetes rizikója kisebb nagyságrend, mint az Y 1 becslésé. ( A szükséges információkat keressük meg a képletgy jteményben és a rendezett minták-ról szóló paragrafusban). Válasz: (a) Igen. (b) Nem, de az Y 2 + 1/(n + 1) már torzítatlan. (c) Az X er s konzisztenciája az Útmutatás alapján nyilvánvaló, míg az Xn 1 2 gyenge konzisztenciája nyilvánvaló az Útmutató alapján (az er s konzisztencia is igaz, de az (egyszer ) bizonyítás eszköze nem szerepel a Tananyagban). 28. Legyen X 1,..., X n független, a [0, θ] intervallumon egyenletes eloszlású minta. (a) Adjunk maximum likelihood becslést θ-ra! (b) Igazoljuk, hogy 2X torzítatlan becslés θ-ra! (c) Mivel a θ/2-re szimmetrikus az eloszlásunk, a medián egybeesik a várható értékkel. Tegyük fel, hogy n páratlan, és készítsünk a tapasztalati medián segítségébel torzítatlan becslést θ-ra!

62 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK (d) X 1 torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (e) X 1 torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (f) X n torzítatlan becslése-e θ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (g) A fenti becslések közül melyik konzisztens? (h) Számítsuk ki és hasonlítsuk össze a fenti torzítatlan becslések szórásnégyzetét! Melyik a leghatásosabb? (i) Teljesül-e az I n (θ) = ni 1 (θ) összefüggés? Teljesül-e minden esetben a Cramér-Rao egyenl tlenség? (j) Igazoljuk, hogy X n elégséges statisztika θ-ra. Segítségével blackwellizáljuk a fenti torzítatlan becsléseket! Tipp: (a) Vigyázzunk, a linelihood-függvény nem mindenütt deriválható! (b) A mintaátlag mindig torzítatlan becslése a várható értéknek, ami itt θ/2. (c) Legyen n = 2k+1, mivel két egymást követ rendezett minta különbségének várható értéke (d) Nyilvánvaló. (e) E(X 1 ) = θ/(n + 1). (f) E(X n)θn/(n + 1) θ 2k+2. (g) Vizsgáljuk meg a szórásnégyzetüket! (h) θ = 1 esetén ismert mindegyik, használjuk ki! (i) A 2X szórásnégyzete θ2 3n, I 1(θ) = 1 θ. 2 (j) A rendezett mintákon alapuló becslésekre alkalmazzuk a következ heurisztikát: E(Xk x n) = k n+1 x n. Ami a 2X-ot illeti, hasonló heurisztika alapján: tetsz leges n-re E(X n Xn) = n 1 2n X n + frac1nxn. Válasz: (a) X n (b) 2X (c) a tapasztalati medián kétszerese (jelölje ezt ˆθ 0,5 ) θ torzitatlan becslése. (d) ˆθ 1 = 2X 1. (e) ˆθ 2 = X 1 (n + 1). (f) ˆθ 3 = X n(n + 1)/n.

2.2. FELADATOK 63 (g) ˆθ 1 (h) ˆθ 2 a leghatásosabb, de a ˆθ 0,5 szórásnégyzetének is ugyanekkora a nagyságrendje ( 2/n 2 ), elég nagy n-re ez is meghaladja az ni 1 (θ) = információs határt. n θ 2 (i) A Cramér-Rao egyenl tlenség n nagy értékeire csak a 2X és a ˆθ 1 -re nem teljesül. (j) Az X n statisztika elégségessége következik a Neyman-Fisher szorzattételb l, gyelembevéve, hogy a likelihood függvény alakja L θ (x) = 1 θ 1 {0 x n θ}. Valamennyi blackwellizált: θ 2 29. Legyen X 1,..., X n független, a [ θ, θ] intervallumon egyenletes eloszlású minta. (a) Adjunk θ-ra torzítatlan becslést X segítségével! (b) Konzisztens-e a fenti becslés? Tipp: (a) Alkalmazzuk a következ heurisztikus meggondolást: az X 1,..., X n független, a [ θ, θ] intervallumon egyenletes eloszlású mintát ugy is kisorsolhatjuk, hogy a [0, θ] intervallumon kisorsolunk az Y 1,..., Y n független mintát, valamint egy t lük és egymástól is független p = 1/2 paraméter ε 1,..., ε n Bernoulli-mintát. Legyen X k (2ε 1)Y k minden k-ra. Ilymódon a feladatot visszavezettük az el z feladat (f) pontjára. (b) Az el z ek alapján nyilvánvaló. Válasz: (a) (b) ˆθ = 2 X (c) Igen. 30. Legyenek X 1, X 2, X 3 rendre N (µ, 1), N (µ, 4), N (µ, 1/4) eloszlású független mintaelemek. (a) Milyen a, b, c értékekre lesz ax 1 + bx 2 + cx 3 torzítatlan becslése µ-nek? (b) Milyen a, b, c választással kapjuk meg a leghatásosabb becslést a torzítatlanok közül? Tipp: A becslés akkor lesz torzitatlan, ha a + b + c = 1. Az optimális becslést akkor kapjuk meg, ha az a, b, c súlyok fordítottan arányosak a valószín ségi változók szórásnégyzeteivel (pl. Lagrange multiplikátor modszerrel igazolható). Válasz: a = 16 273 b = 1 273 c = 256 273

64 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 31. Tekintsük az X 1,..., X n független, θ paraméter Bernoulli eloszlású mintát és számítsuk ki a Fisher-információját! Tekintsük az Y 1,..., Y n független mintát is, amely háttérváltozója θ valószín séggel 1, 1 θ valószín séggel 1 értéket vesz fel. Számítsuk ki ennek is a Fisher-információját és vessük össze az el bb meghatározott információval! Tipp: Jelöljük p θ (x)-szel annak a valószín séggét, hogy X = x. Itt x = 0, x = 1, illetve x = 1, x = 1. Alkalmazzuk Cramér-Rao egyenl tlenség paragrafusban szerepl deníciót: ( θ I 1 (θ) = p θ(0) ) 2 ( θ + p θ(1) ) 2, p θ (0) p θ (1) illetve ( θ I 1 (θ) = p θ( 1) ) 2 ( θ + p θ(1) ) 2, p θ ( 1) p θ (1) Válasz: Mindkét esteben I n (θ) = n θ(1 θ) 32. Legyen X 1,..., X n független, p paraméter Bernoulli eloszlású minta. (a) Adjunk maximum likelihood becslést p-re! (b) Számítsuk ki D 2 p(x)-ot is! Mit mondhatunk a CramérRao-egyenl tlenség alapján? (c) Szeretnénk p-re torzítatlan becslést adni. Mekkora legyen n, ha azt szeretnénk, hogy becslésünk szórása ne haladja meg 0,03-at p bármely értéke esetén sem? Tipp: (a) Az M-L becslés denicióját lásd a Becsléselmélet paragrafusban (b) Közvetlen számolás, az informaciós határt illet en lásd az el z feladatot! (c) Legyen ez a becslés a (ˆp = X). Az el z pontban már kiszámítottuk D 2 p(x)-ot Keressük meg a max 0 p 1 p(1 )p-t Válasz: (a) ˆp = (X). (b) D 2 p(x) = p(1 p) n. A becslés hatásos, a Cramér-Rao egyenl tlenségben itt egyenl ség all. ( 2 (c) A D 2 p(x) maximuma 1 4n Ennek alapján n = 1 0,06). 33. Legyen X 1,..., X n független, λ paraméter exponenciális eloszlású minta. (a) Adjunk maximum likelihood becslést λ-ra!

2.2. FELADATOK 65 (b) Számoljuk ki a minta Fisher-információját! (c) 1/X nem torzítatlan becslése a λ paraméternek. Készítsünk segítségével ˆη torzítatlan becslést és számoljuk ki ˆη szórásnégyzetét! (d) Az X elégséges statisztika segítségével blackwellizáljuk a fenti torzítatlan becslést! (Ismert, hogy az így kapott becslés hatásos becslése λ-nak. Ellentmond-e ez a CramérRao egyenl tlenségnek?) Tipp: (a) Alkalmazzuk a deníciót (l. képletgy jtemény és Becsléselmélet). (b) Alkalmazzuk a Cramér-Rao egyenl tlenség megfelel formuláját. (c) 1/X nem torzítatlan becslése a λ paraméternek. (d) A számoláshoz használjuk a Gamma eloszlást (l. képletgy jtemény), ennek alapján ˆη az 1/X statisztika alkalmas konstanszorosa lesz. (e) Az X Lásd az el bbi észrevételt. Válasz: (a) 1/X. (b) I n (λ) = n λ 2 (c) ˆη = n 1 nx, D2 (ˆη) = λ 2 n 2 (n 1) 2 (n 2) (d) Az ˆη becslés blackwellizáltja önmaga. 34. Legyen X 1,..., X n független, (2, λ) paraméter Gamma eloszlású minta. (a) Adjunk maximum likelihood becslést λ-ra! (b) Adjunk becslést λ-ra a momentumok módszerével! (c) Torzítatlan becslése-e X 1 statisztika a 1/λ-nak? Ha nem, készítsünk segítségével torzítatlan becslést! (d) Torzítatlan becslése-e 1/X 1 statisztika a λ paraméternek? Ha nem, készítsünk segítségével torzítatlan becslést! (e) Torzítatlan becslése-e 1/X statisztika a λ paraméternek? Ha nem, készítsünk segítségével torzítatlan becslést! (f) Igazoljuk, hogy n i=1 X i elégséges statisztika a λ paraméterre! Segítségével blackwellizáljuk a fenti torzítatlan becsléseket! Tipp: Válasz: 35. Legyen X 1,..., X n N (µ, 1) független minta. (a) Igazoljuk, hogy X 1 torzítatlan, de nem konzisztens becslése µ-nek! Mit mondhatunk a CramérRao-egyenl tlenség alapján?

66 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK (b) Számítsuk ki a minta Fisher-információját! Számítsuk ki D 2 µ(x)-ot is! Igazoljuk, hogy X hatásos becslése µ-nek! (c) Torzítatlan becslése-e µ 2 -nek X 1 X 2? Mennyi a szórásnégyzete? Mondhatunke valamit a CramérRao-egyenl tlenség alapján? (d) Torzítatlan becslése-e µ 2 -nek X 2? Ha nem, tegyük azzá, és számítsuk ki a szórásnégyzetét! Tipp: Válasz: 36. Legyen X 1,..., X n N (0, ϑ) (ϑ = σ 2 ) független minta. (a) Adjuk maximum likelihood becslést ϑ-ra! (b) Igazoljuk, hogy S 2 1 = 1 n n i=1 X2 i hatásos becslése σ 2 -nek! (c) Igazoljuk, hogy a korrigált empirikus szórásnégyzet nem hatásos becslése a σ 2 paraméternek! Tipp: (a) Alkalmazzuk a deniciót (l.becsléselmélet) (b) Számítsuk ki a minta ˆϑ-ra vonatkozó Fisher-információját (l. Cramér-Rao egyenl tlenség ). és a ˆϑ M-L becslés szórásnégyzetét (c) Közvetlen számolás. Válasz: (a) S 2 1 = 1 n n i=1 X2 i (b) I n (ϑ) = 1 2ϑ 2, D 2 ( ˆϑ) = 2ϑ 2. 37. Legyen X 1,..., X n független, λ paraméter Poisson eloszlású minta. (a) Vegyük λ maximum likelihood becslését! Minden realizáció mellett létezik-e maximum likelihood becslés? (b) Igazoljuk, hogy a maximum likelihood módszerrel kapott becslés torzítatlan és számítsuk ki a szórásnégyzetét! Mit mondhatunk a Cramér Rao-egyenl tlenség alapján? (c) Igazoljuk, hogy X 1 is torzítatlan becslése λ-nak! Az X elégséges statisztika segítségével blackwellizáljuk az X 1 becslést! (d) Torzítatlan becslése-e λ-nak az empirikus szórásnégyzet? Ha nem, tegyük azzá! Hatásos becslést kapunk-e így? (e) A fenti becslések közül melyik konzisztens? Tipp: (a) Közvetlen számolás.

2.2. FELADATOK 67 (b) Közvetlen számolás; számítsuk ki a minta I n (λ) Fisher-információját. (c) Közvetlen számolás. Alkalmazzuk feltételes várható érték tulajdonságait, és vegyük észre, hogy az X 1,..., X n mintaelemek szerepe szimmetrikus! (d) Vegyük észre, hogy empirikus szórásnégyzet mindig torzítatlan becslése a szórásnégyzetnek. Alkalmazzuk konzisztencia paragrafusban a szóránégyzet becslésére megfogalmazott állítást! (e) Alkalmazzuk az el z részfeladatok eredményeit! Válasz: (a) Igen. (b) Az információs határ eléretik, tehát a M-L becslés hatásos. (c) A mintaátlag (azaz a M-L becslés) lesz a blackwellizált. (d) Igen. A becslés nem lesz hatásos, bár ennek ellen rzése az Útmutatás alapján hosszadalmas, a cáfolathoz elegend λ egyetlen értékére elvégezni a számolást. (e) (c) kivételével mindegyik. 38. Legyen X 1,..., X n Bin(5, p). (a) Vizsgáljuk meg a maximum likelihood és a momentumok módszerével kapott becslések torzítatlanságát és hatásosságát! (b) Számítsuk ki a minta Fisher-információját! Tipp: Válasz: 39. Adjunk becslést a negatív binomiális eloszlás paramétereire momentumok módszerével! Tipp: Válasz: 40. Tekintsük az f a,p (x) = p a p, ha x a, xp+1 0 különben s r ségfüggvény Pareto-eloszlást, ahol a, p > 0 paraméterek. Adjunk maximum likelihood becslést θ = (a, p)-re! Tegyük fel, hogy p > 2. Adjunk becslést θ-ra a momentumok módszerével! Tipp: Válasz:

68 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 41. Tekintsünk egy kételem független, (µ, 1) paraméter Cauchy eloszlású mintát! A (µ, σ) paraméter Cauchy eloszlás s r ségfüggvénye: f µ,σ (x) = σ π(σ 2 + (x µ) 2 ). (a) Adjunk maximum likelihood becslést µ-re az x 1, x 2 realizáció segítségével! (b) Tudunk-e becslést adni momentumok módszerével? Használjuk ki, hogy 1-nél kisebb momentumok is léteznek! Tipp: Válasz: 42. Legyen X 1,..., X n független, [a, b] intervallumon egyenletes eloszlású minta. (a) Adjunk becslést (a, b)-re a momentumok módszerével! (b) Adjunk maximum likelihood becslést (a, b)-re! Tipp: Válasz: 43. Legyen X 1,..., X n N (µ, σ 2 ) független minta. Tudunk-e adni 1 ε megbízhatósági szint kondencia intervallumot σ-ra (a) X µ σ/ n, (b) ns2 n σ 2 (S 2 n = 1 n n i=1 (X i µ) 2 ) segítségével? Tipp: (a) Vizsgáljuk meg milyen statisztika alapján kellene kondencia intervallumot adni! (b) Vizsgáljuk meg milyen statisztika alapján kellene kondencia intervallumot adni! Válasz: X µ σ/ n (a) Nem, mert a statisztika standard normális eloszlású, ebb l egyik paraméterre sem vonhatunk le következtetést. (b) Nem, mert a ns2 n σ statisztika χ 2 (n) eloszlású, ebb l egyik paraméterre 2 sem vonhatunk le következtetést. 44. Egy cukorgyárban kockacukrokat gyártanak. Tegyük fel, hogy a cukrok élhossza közelít leg normális eloszlású. Megmérjük 16 cukor élhosszúságát. Az adatok átlaga 10,06 mm, tapasztalati szórása 0,46 mm. Adjunk 95% megbízhatósági szint kondencia intervallumot µ 3 -re (azaz egy átlagos kockacukor térfogatára)!

2.2. FELADATOK 69 Tipp: Alkalmazzuk a kondencia intervallum paragrafus példáját standard normális eloszlás helyett a t(15) Student eloszlással a kocka élhosszára, majd használjuk fel azt a tényt, hogy az x 3 függvény monoton. Válasz: Táblázatból ismert, hogy ha X t(15), akkor P(X > 2, 12) = 0, 975 így a kocka élére a 10, 06±2, 12 0, 46/4 intevallum 95megbízhatósági szint kondencia intervallum. A térfogatra a [945, 87mm 3, 1093, 94mm 3 ] nem szimmetrikus kondencia intervallumot kapjuk. 45. Legyenek X 1,..., X n N (µ 1, σ 2 ) és Y 1,..., Y m N (µ 2, σ 2 ) független minták. Adjunk 1 ε szint kondencia intervallumot µ 1 µ 2 -re X Y segítségével ((n, m, σ) ismert!) Tipp: várható éeték valószín ségi változó határozzuk meg σ 2 e szórásnegyzetét, majd alkalmazzuk kondencia intervallum paragrafusban kidolgozott példát µ = µ 1 µ 2 -re. Válasz: σe 2 = σ2 1 n + σ2 2 m A kondencia intervallum: X Y ± σ e Φ 1 (1 ε/2) n 46. Legyenek X 1,..., X n N (µ 1, σ1) 2 és Y 1,..., Y m N (µ 2, σ2) 2 független minták. Adjunk 1 ε szint kondencia intervallumot σ 1 /σ 2 -re! Tipp: Tekintsük az n j=1 (X j µ 1 ) 2 η = n m j=1 (Y j µ 2 ) 2 n statisztikát, vegyük észre, hogy σ2 2 σ 2 1 η F (n, m). Jelöljön ξ egy F (n, m) eloszlású valószín ségi változót; keressük meg azt az F 1 (F 2 ) értéket amelyre a P (ξ < F 1 ) = ε/2 (P (ξ > F 2 ) = ε/2) Válasz: A P ( ) argumentumát alkalmas átrendezése a egyenl ségre vezet. P (η/f 2 < σ2 1 σ2 2 ) = ε/2 és σ1 2 σ2 2 < η/f 1 = 1 ε/2 47. Legyen X 1,..., X n független, a [0, θ] intervallumon egyenletes eloszlásból vett minta. Adjunk 1 ε megbízhatósági szint kondencia intervallumot θ-ra (a) X 1 + X 2, (b) X n segítségével! Tipp:

70 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK 2.10. ábra. P (ξ < F 1 ) = ε/2 (P (ξ > F 2 ) = ε/2) (a) Nyilvánvaló, hogy a minta töredékével (X 1 +X 2 ) túlságosan tág kon- dencia intervallumot kapunk. (b) Alsó határnak az maga az Xn megfelel, hiszen θ nem lehet ennél kisebb. A θ f fels határ meghatározásához vegyünk egy 0 < δ < θ számot és vizsgáljuk a P (δ < Xn < θ) = P (θ < Xn + δ) = 1 ε valószín séget. A jobb oldal valószín sége 1 ( ) θ δ n, θ ami egyenl 1 ε-nal. Ebb l δ-ra kapunk egy egyenletet. Oldjuk meg és rendezzük át a középs valószín ség argumentumát. Válasz: (a) Az X 1 + X 2 eset irreleváns. (b) A javasolt számitásokat eredménye: θ f = X n/ε 1/n. 48. Legyen X 1,..., X n független, λ paraméter Poisson eloszlású minta. Adjunk λ-ra 1 ε megbízhatósági szint kondencia intervallumot (a) a Csebisev-egyenl tlenség felhasználásával! (b) a centrális határeloszlás-tétellel! Tipp: (a) A Csebisev-egyenl tlenséget az X λ valószín ségi változóra írjuk fel: P ((X λ) 2 > a 2 ) D2 a 2,

2.2. FELADATOK 71 ahol D 2 = λ/n. Ha a kondencia intervallumot X ± r e p alakban keressük, akkor a fenti egyenl tlenség helyett vegyünk egyenl séget és tegyük fel, hogy D2 a = ε, azaz a = λ 2 nε Ezt az értéket írjuk be az egyenl tlenség jobb oldalába. Így λ-ra kapunk egy másodfokú egyenletet. (b) Lásd a kondencia intervallum pargrafusban az N (µ, σ 2 0) re kidolgozott példát. Itt σ 2 0 = λ, ezért, ha X ± r ε alakban keressük a kondencia intervallumot. Válasz: (a) Az egyenlet két megoldása: λ 1,2 = 2(X + a2 ) ± (2X + a 2 ) 2 4X 2, 2 Ezek lesznek a kondencia határok. (b) r ε = X y lesz, ahol y az (1 y) 2 Φ 1 (1 ε/2)y n másodfokú egyenletnek az a megoldása amelyre r ε 1/ n nagyságrend. 49. Végezzünk el n-szer egy kísérletet, legyen az A esemény bekövetkezéseinek száma K n. Szerkesszünk rá 1 ε megbízhatósági szint kondencia intervallumot p = P(A)-ra n = 10 és n = 10000 esetén is! Tipp: Válasz: 50. Legyen X 1,..., X n független, a (θ 1/2, θ+1/2) intervallumon egyenletes eloszlású minta. Adjunk 1 ε megbízhatósági szint kondencia intervallumot θ-ra T (X) = (X 1 + X n)/2 segítségével! Tipp: Válasz: 51. Legyen X egy egyelem minta, s r ségfüggvénye e θ x, ha x > θ. Szerkesszünk 1 ε megbízhatósági szint kondencia intervallumot a θ paraméterre X segítségével! Tipp: Válasz: 52. Legyen X 1,..., X n független, λ paraméter exponenciális eloszlású minta. (a) Konstruáljunk ε terjedelm próbát λ-ra X 1 segítségével! (b) Konstruáljunk ε terjedelm próbát λ-ra 1/X alapján! (c) A fenti próbák közül melyik konzisztens?

72 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK Tipp: Válasz: 53. Valódi (θ) selejtarányra szeretnénk min ségellen rzést. Vegyünk egy n = 25 elem független Bernoulli-mintát: X 1,..., X n. Konstruáljunk ε = 0, 05 terjedelm (randomizált) próbát a H 0 : θ = θ 0 = 0, 05 és H 1 : θ = θ 1 = 0, 1 választáshoz! Határozzuk meg a másodfajú hibát is. A B(25, 0, 05) (F 0 ) és a B(25, 0, 1) (F 1 ) binomiális eloszlásokról az alábbi adatok ismertek: F 0 (2) = 0, 873 F 0 (3) = 0, 9, 66 P 0 (3) = 0, 093 F 1 (2) = 0, 873 F 1 (3) = 0, 9, 66 P 1 (3) = 0, 093, ahol P 0 (3) ( P 1 (3)) annak a valószín sége, hogy egy B(25, 0, 05) (B(25, 0, 1)) eloszlású valószín ségi változó pontosan a 3 értéket veszi fel. Tipp: Alkalmazzuk a NeymannPearson-lemmát. Vegyük észre, hogy az így konstrált próba kritikus tartománya x > c alakú, ahol x a mintában lev selejtes termékek x száma. Látható, hogy olyan kritikus tartomány nincs, amely pontosan 0,05 terjedelem próbát adna, (F 0 (2) < 0, 95, F 0 (3) > 0, 95), ezért randomizálnunk kell. Keressük meg azt a δ > 0 számot, amelyre F 0 (2) + δp 0 (3) = 0, 95. Döntésünk: ha x > 3 elvetjük a null-hipotézist, ha x = 3 akkor1 δ valószín séggel vetjük el a null-hipotézist. A másodfajú hiba kiszámításához határozzuk meg a B(25, 0, 1) binomiális eloszlás szerinti valószín ségét annak az eseménynek, hogy a null-hipotézst elfogadju, azaz x 2 plusz δ P 1 (3). Válasz: A döntésben szerepl szorzó δ = 0, 828, a másodfajú hiba valószín sége 0,725. 54. Legyen X 1 egy egyelem, p paraméter geometriai eloszlású minta. A H 0 : p = 0,5 versus H 1 : p = 0,9 esetén a mekkora a terjedelme annak a véletlenített próbának, amelynek próbafüggvénye 0 k 3 Ψ(X 1 ) = 0,5 k = 2 1 k = 1 Adjuk meg a másodfajú hiba valószín ségét is! Tipp: Az el z feladathoz hasonló módon járunk el, azzal a könnyebbséggel, hogy itt a próbafüggvény adott és a hibavalószín ségeket kell kiszámítani. (A geometriai

2.2. FELADATOK 73 eloszlás megfelel valószín ségeit l. képletgy jtemény.) Válasz: Terjedelem: 0,375. Másodfajú hiba 0,046. 55. Legyen X 1,..., X n független, λ paraméter exponenciális eloszlású minta. Konstruáljuk meg a H 0 : λ = λ 0 és H 1 : λ = λ 1 > λ 0 egyszer alternatívához tartozó ε terjedelm próbát a Neyman-Pearson alaplemma segítségével! Tipp: Mivel NeymannPearson-lemmában szerepl likelihood hányados az Y = n j=1 X j monoton függvénye (a monotonitás iránya függ λ 0 és λ 1 viszonyátol) a próbafüggvény λ 1 > λ 0 esetben Ψ(Y ) = { 0 Y c 1 Y < c alakú lesz. Ha F G(n, λ 0 ) akkor a c = F 1 (ε) lesz az alkalmas konstans. Válasz: Az Útmutató alapján c értéke konkrét n és λ 0 értékekre kiszámolható, l. ábra. 56. X 1,..., X n N (0, σ 2 ) független minta. Konstruáljuk meg a H 0 : σ = σ 0 és H 1 : σ = σ 1 egyszer alternatívához tartozó ε terjedelm próbát a Neyman-Pearson alaplemma segítségével! Tipp: Mivel NeymannPearson-lemmában szerepl likelihood hányados az Y = n j=1 X2 j monoton függvénye (a monotonitás iránya függ σ 0 és σ 1 viszonyától). Válasz: A próbafüggvény σ 1 > σ 0 esetben { 0 Y c Ψ(Y ) = 1 Y > c alakú lesz. Ha F χ 2 (n) akkor a c = F 1 (1 ε) lesz az alkalmas konstans. 57. Írjuk fel n elem mintára a likelihood-hányados próba λ n (X) statisztikáját, ahol (a) X geom(p) és H 0 : p = p 0 vs H 1 : p p 0. (b) X P oisson(λ) és H 0 : λ = λ 0 vs H 1 : λ λ 0. (c) X exp(λ) és H 0 : λ = λ 0 vs H 1 : λ λ 0. (d) X U(0, θ) és H 0 : θ = θ 0 vs H 1 : θ θ 0. (e) Teljesülnek-e a fenti esetekben a regularitási feltételek?

74 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK Tipp: Az (a), (b), (c) esetekben alkalmazzuk a A hipotézisvizsgalat paragrafusban adott formulát. A számlálóban a likelihood függvénynek az az alakja szerepel, amelyben a paraméter az egyszer null-hipotézishez tartozó érték; nevez ben pedig (ahol a szuprémum szerepel) a likelihood függvénynek az az alakja szerepel, amelyben a paraméter helyett annak M-L becslése áll. A (d) eset külön meggondolást igényel. Válasz: (a) Legyen Y = n j=1 X j, és ˆp = n/y λ n (X) = pn (1 p) Y n ˆp n (1 ˆp) Y n (b) Legyen Y = n j=1 X j, és ˆλ = Y/n λ n (X) = λy e λ ˆλ Y e ˆλ (c) Legyen Y = n j=1 X j, és ˆλ = n/y λ n (X) = λn e nλy ˆλ n e nˆλy (d) Ha X n > θ 0 elvetjük a null-hipotézist, mert egy lehetetlen esemény következett be. Ellenkez esetben λ n (X) = X n θ 0 58. Legyen X 1,..., X n N (µ, σ 2 ) független minta, mindkét paraméter ismeretlen (n elegend en nagy). Legyen H 0 : σ = 1 és H 1 : σ 1. Konstruáljunk ezekhez 0,05 terjedelm likelihood-hányados próbát! Tipp: Válasz: 59. Legyenek X 1,..., X n N (µ 1, σ 2 ) és Y 1,..., Y m N (µ 2, σ 2 ) független minták. (a) Írjuk fel a H 0 : σ = σ 0 és H 1 : σ σ 0 hipotézisekhez konstruált likelihood-hányados próba statisztikáját! (b) Írjuk fel a H 0 : µ 1 = µ 2 és H 1 : µ 1 µ 2 hipotézisekhez konstruált likelihood-hányados próba statisztikáját, ha σ ismert! (c) Írjuk fel a H 0 : µ 1 = µ 2 és H 1 : µ 1 µ 2 hipotézisekhez konstruált likelihood-hányados próba statisztikáját, ha σ ismeretlen! Tipp: Válasz:

2.2. FELADATOK 75 60. Legyen X 1,..., X n N (µ, σ 2 ) független minta. Tekintsük a H 0 : σ = σ 0 és H 1 : σ > σ 0 hipotéziseket, és azt a próbát, amelyre X k = {x : ns 2 n/σ 2 0 > c} (S 2 n = 1 n n i=1 (X i X) 2 az empirikus szórásnégyzet). Torzítatlan-e az adott próba? Tipp: Keressük meg a képletgy jteményben a χ 2 eloszlás s r ségfüggvényét, és alkalmazzuk az y = σx helyettesítést: f Y (x) = xn/2 1 e x/(2/σ) (σ2) n/2 Γ(n/2), y 0. Vizsgáljuk meg, hogy a próba ereje hova tart, ha σ! Válasz: Nem. 61. Igaz-e, hogy az ε terjedelm (kétoldali) u-próba pontosan akkor fogadja el a nullhipotézist, ha µ 0 benne van az X segítségével µ-re szerkesztett 1 ε szint kondencia-intervallumban? Tipp: Írjuk fel az elfogadási tartomány és alakítsuk át! Válasz: Igaz. 62. Legyen X 1,..., X n N (µ, σ 2 0) független minta, (σ 0 ismert). Legyen H 0 : µ = µ 0 és H 1 : µ µ 0. Konstruáljunk ezekhez 0,05 terjedelm likelihoodhányados próbát! Vessük össze a kapott próbát az u-próbával (két- és egyoldali változatával is)! Tipp: Válasz: 63. Legyen (X 1, Y 1 ),... (X n, Y n ) N (m, C), ahol ( m σ 2 = (µ 1, µ 2 ) és C = 1 0 0 σ2 2 ). Tegyük fel, hogy a szórások ismertek. Szerkesszünk H 0 : µ 1 = µ 2 versus H 1 : µ 1 µ 2 hipotézisekre (a) kétmintás u-próbát! (b) Alkalmazzunk önkontrollos vizsgálatot! Tipp: Mindkét esetben az X Y valószín ségi változó σ 2 e szórásnégyzetét kell meghatározni. Válasz: A próbastatisztika a standard normális eloszlású X Y /σ e. (a) A kétmintás u-próbánál σ 2 e = σ2 1 n 1 + σ2 2 n 2. (b) Az önkontrollos vizsgálatnál σ 2 e = σ2 1 n + σ2 2 n.

76 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK A két próbafüggvény azonos, mert n = n 1 = n 2. 64. Legyen X 1,..., X n N (µ, σ 2 ) független minta. Tekintsük a H 0 : µ = µ 0 versus H 1 : µ µ 0 (a szórásnégyzet ismeretlen) t-próba statisztikáját: t(x) = X µ 0 S n/ n (a) Igazoljuk, hogy a likelihood-hányados próbához tartozó statisztika λ n (X) = ( n j=1 (X j X) 2 n j=1 (X j µ 0 ) 2 ) n/2 alakú. (b) Igazoljuk, hogy λ n (X) = ( 1 1 + t2 (X) n 1 ) n/2. (c) Mutassuk meg, hogy ez azt jelenti, hogy a fenti likelihood-hányados próba a t-próba kétoldali változatával ekvivalens! Tipp: A hipotézisvizsgálat paragrafusban keressük meg a likelihood-hányados próba szerkesztésének módját. Itt a paramétertér 2 dimenziós: Θ = {(µ, σ 2 ) : µ R, σ 2 > 0}, a 0-hipotézis által kijelölt 1-dimenziós részsokaság pedig Θ 0 = {(µ 0, σ 2 ) : σ 2 > 0}. Az X = (X 1,..., X n ) független, azonos eloszlású minta alapján felírjuk az L µ,σ 2(X) = ( 1 ( 2πσ) exp 1 n 2σ 2 ) n (X i µ) 2 likelihood-függvényt, majd vesszük ennek szuprémumát a Θ illetve a Θ 0 halmazon: sup L µ,σ 2(X) = (µ,σ 2 ) Θ ( = i=1 1 ( ( 2π 1 n i=1 (X i X) 2) exp n/2 n n 2π n i=1 (X i X) 2 ) n/2 e n 2, n i=1 (X i X) ) 2 2 ( 1 n n i=1 (X i X) 2) =

2.3. TESZTEK 77 sup L µ,σ 2(X) = (µ,σ 2 ) Θ 0 ( = 1 ( ( 2π 1 n i=1 (X i µ 0 ) 2) exp n/2 n n 2π n i=1 (X i µ 0 ) 2 ) n/2 e n 2, ) n i=1 (X i µ 0 ) 2 2 ( 1 n n i=1 (X i µ 0 ) 2) = A fenti számolásból nyilvanvalóan adódik (a), és egyszer algebrai átalakításokkal (b). Válasz: Az Útmutatóban (a) és (b) megoldása már szerepel, a (c) abból következik, hogy likelihood-hányados próba statisztika monoton függvénye a kétoldali t-próba statisztikájának. 65. Határozzuk meg az egyoldali u-próba er függvényét! Igazoljuk, hogy a próba torzítatlan és konzisztens is! Hogyan változik a próba ereje, ha (a) ε, (b) θ θ 0, (c) n n? Tipp: Válasz: 66. Tekintsük az (X 1, Y 1 ),..., (X n, Y n ) mintát és az r sp Spearman-féle rangkorrelációs együtthatót. (a) Igazoljuk, hogy r sp 1 és egyenl ség pontosan akkor teljesül, ha minden i j párra X i X j az Y i Y j, illetve Y i Y j relációt vonja maga után (r sp el jelének megfelel en). (b) Igazoljuk, hogy ha a háttérváltozók függetlenek, akkor E(r sp ) = 0. Tipp: Válasz: 67. Legyen X 1, X 2,... exp(λ) független azonos eloszlású minta. Adjunk a H 0 : λ = λ 0 vs. H 1 : λ = λ 1 egyszer alternatíva eldöntésére szekvenciális eljárást (ε 1 els fajú és ε 2 másodfajú hibával)! Adjuk meg a várható lépésszámokat! Tipp: Válasz: 2.3. Tesztek 1. Milyen eloszlású a λ paraméter exponenciális eloszlásból vett n elem rendezett minta els eleme? (a) exp(nλ)

78 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK (b) exp(λ/n) (c) Gamma(n, λ) (d) Béta(1, n) Válasz: (a) 2. Tekintsünk egy N(m, σ 2 ) vett mintát, legyen X a mintaátlag. Igaz-e, hogy X elégséges statisztika (m, σ 2 ) paraméternek? (a) igen, a Neyman-Fisher faktorizáció miatt (b) igen, mivel torzítatlan becslése a várható értéknek (c) nem, mert két paraméterre nem lehet megadni elégséges statisztikát (d) nem, mert a mintának a mintaátlagra vett feltételes eloszlása µ-t l független, de σ 2 -t l nem. Válasz: (d) 3. Az alábbiak közül melyik az exponenciális eloszlás várható értékére elégséges statisztika? (a) X n (b) X n/2 +X n/2 (c) X 1... X n (d) X 1 +... + X n Válasz: (d) 4. Tekintsünk egy n elem N(m, σ 2 ) eloszlásból vett mintát. Milyen becslése σ 2 -nek ( n i=1 X2 i X2 )/(n + 1)? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, a Cramér-Rao egyenl tlenség alapján hatásos, er sen konzisztens. (d) Torzítatlan, de a Cramér-Rao egyenl tlenség alapján nem hatásos, er sen konzisztens. Válasz: (a) 5. Tekintsünk egy n elem N(0, σ 2 ) eloszlásból vett mintát. Milyen becslése σ 2 -nek ( n i=1 X2 i )/n? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, a Cramér-Rao egyenl tlenség alapján hatásos, er sen konzisztens.

2.3. TESZTEK 79 (d) Torzítatlan, de a Cramér-Rao egyenl tlenség alapján nem hatásos, er sen konzisztens. Válasz: (c) 6. Tekintsünk egy n elem U(0, θ) eloszlásból vett mintát. Milyen becslése θ-nak a maximum likelihood becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, gyengén konzisztens. (d) Torzítatlan, nem hatásos, gyengén konzisztens. Válasz: (a) 7. Tekintsünk egy n elem Poisson(λ) eloszlásból vett mintát. Milyen becslése λ-nak a momentumok módszerével vett becslés? (a) Nem torzítatlan, de aszimptotikusan torzítatlan, er sen konzisztens. (b) Nem torzítatlan, de aszimptotikusan torzítatlan, gyengén sem konzisztens. (c) Torzítatlan, hatásos, er sen konzisztens. (d) Torzítatlan, nem hatásos, er sen konzisztens. Válasz: (c) 8. Mi a kapcsolat a normális eloszlás várható értékére ismeretlen szórás esetén adott kondenciaintervallumnak és a t-próba között? (a) A t-próba elfogadja a nullhipotézist, ha tesztelt érték a kondenciaintervallumba esik. (b) A t-próba elfogadja a nullhipotézist, ha X a kondenciaintervallumba esik. (c) A t-próba elutasítja a nullhipotézist, ha tesztelt érték a kondenciaintervallumba esik. (d) A t-próba elutasítja a nullhipotézist, ha X a kondenciaintervallumba esik. Válasz: (a) 9. Létezik-e az exponenciális eloszlás paraméterére vonatkozó, H 0 : λ = λ 0 és H 1 : λ = λ 1 hipotéziseket tesztel ε terjedelm leger sebb próba (ε > 0 tetsz leges)? (a) Nem, mert 1/X nem torzítatlan becslése λ-nak. (b) Igen, a likelihood-hányados próba ilyen. (c) Igen, a Neyman-Pearson alaplemma alapján.

80 FEJEZET 2. ELŽISMERETEK 2.: STATISZTIKAI ALAPOK (d) Igen, a Wald-féle szekvenciális eljárás ilyet ad. Válasz: (c) 10. Mennyi az ε terjedelm egymintás, egyoldali u-próba másodfajú hibája? (a) 1 ε (b) 1/ε (c) β n (mε) = 1 Φ(u ε (µ µ 0 )/(σ 0 / n)) (d) 1 β n (mε) = Φ(u ε (µ µ 0 )/(σ 0 / n)) Válasz: (d) 11. Az egymintás egyoldali u-próba (a) torzítatlan és konzisztens. (b) nem torzítatlan de konzisztens. (c) torzítatlan de nem konzisztens. (d) nem torzítatlan és nem konzisztens. Válasz: (a) 12. Alkalmazható-e a t próba ismert szórás esetén? (a) Igen. (b) Csak normális eloszlású kis minta esetén. (c) Csak normális eloszlású nagy minta esetén. (d) Nem, mert az ismeretlen szórás feltétel, ismert szórás esetén csak az u próbát alkalmazhatjuk. Válasz: (a) 13. Mikor használhatjuk a χ 2 próbákat? (a) Mindig. (b) Diszkrét háttérváltozó esetén mindig, folytonos háttérváltozó diszkretizálása esetén csak nagy mintaelemszám mellett. (c) Az illeszkedévizsgálatra vonatkozó χ 2 próbát mindig, a többit csak nagy mintaelemszám esetén. (d) Csak nagy mintaelemszám esetén (mindegyiket, minden háttérváltozó esetén). Válasz: (a)

3. fejezet A többdimenziós normális eloszlás, Wishart eloszlás 3.1. Elméleti háttér 3.1.1. Többdimenziós normális eloszlás A p-dimenziós, nem-elfajult normális eloszlást az p-dimenziós standard normális eloszlás lineáris transzformáltjaként vezetjük be. 87. Deníció. Azt mondjuk, hogy az Y véletlen vektor p-dimenziós standard normális eloszlású, ha komponensei 1-dimenziós standard normális eloszlásúak és függetlenek. Erre az Y N p (0, I p ) jelölést használjuk, utalva arra, hogy a p-dimenziós Y véletlen vektor várható érték vektora a 0 vektor, kovarianciamátrixa pedig I p (ezek az eloszlás paraméterei). Y s r ségfüggvénye a függetlenség miatt a komponensek s r ségfüggvényeinek szorzata, azaz p g(y) = ϕ(y i ) = 1 p e ( p i=1 y2 i )/2 1 = 2 e y /2, 2π (2π) p/2 i=1 ahol ϕ jelöli a standard normális s r ségfüggvényt (Gauss-görbét), az y = (y 1,..., y p ) T vektor pedig az együttes s r ségfüggvény argumentuma. Alkalmazzuk most a fenti Y-ra az X = AY + m (3.1) lineáris transzformációt, ahol A p p-s nem-szinguláris mátrix, m pedig p- dimenziós vektor. Könny látni, hogy X várható érték vektora m, kovarianciamátrixa pedig: C = E(X m)(x m) T = E(AY)(AY) T = = E(AYY T A T ) = AE(YY T )A T = AI n A T = AA T, 81

82FEJEZET 3. A TÖBBDIMENZIÓS NORMÁLIS ELOSZLÁS, WISHART ELOSZLÁS ahol a vektorok oszlopvektorok, egy vektor várható értéke a komponensek várható értékeib l álló vektor, egy mátrix várható értéke pedig az elemeinek a várható értékeib l álló mátrix. 88. Deníció. Az Y N p (0, I p ) többdimenziós standard normális eloszlású véletlen vektor-ból a fenti (invertálható) lineáris transzformációval kapott X véletlen vektort nem-elfajult többdimenziós normális eloszlásúnak nevezzük, és ennek kifejezésére röviden az X N p (m, C) formulát használjuk. A nem-elfajult p-dimenziós normális eloszlású X véletlen vektor eloszlásának paraméterei tehát a p dimenzió, az m várható érték vektor és a C kovarianciamátrix. A p p-s, szimmetrikus, pozitív denit C mátrix elemei: c ij = c ji az X i és X j komponensek kovarianciája (i j), c ii pedig X i szórásnégyzete (varianciája). A kovarianciamátrixra a D 2 X jelölést fogjuk használni. Az azonosan 1 f diagonálisú kovarianciamátrixok geomteriai struktúráját az alábbi ábra, animáció és interaktív animáció személteti. 3.1. ábra. elliptop Ha A-ról kikötjük, hogy négyzetes és nem-szinguláris mátrix, akkor a C = AA T kovarianciamátrix pozitív denit. Megjegyezzük, hogy szinguláris A mátrixszal végrehajtva 3.1 transzformációt, szinguláris, pozitív szemidenit C-hez jutunk. Ilyen esetekben C rangja is kisebb lesz, mint p, ekkor elfajult többdimenziós normális eloszlás ról beszélünk. A továbbiakban, hacsak külön nem mondjuk, akkor mindig a nem-elfajult esetre gondolunk.