Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

Hasonló dokumentumok
Statisztika 1. zárthelyi dolgozat március 21.

Statisztika 1. zárthelyi dolgozat március 18.

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Matematikai statisztika

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

BIOMATEMATIKA ELŐADÁS

Matematikai statisztika gyakorlat 2018/2019 II. félév

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

Statisztika gyakorlat Geológus szakirány

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

Statisztika (jegyzet)

Mo= argmax f(x), ha X abszolút folytonos; Mo= argmax P (X = x i ), ha X diszkrét.

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Leíró és matematikai statisztika gyakorlat 2018/2019 II. félév

Valószín ségszámítás és statisztika

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

Matematika B4 I. gyakorlat

Segédanyag a Leíró és matematikai statisztika tantárgyhoz március 28.

A statisztika részei. Példa:

VII. A határozatlan esetek kiküszöbölése

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

1. előadás: Bevezetés. Irodalom. Számonkérés. Cél. Matematikai statisztika előadás survey statisztika MA szakosoknak. A matematikai statisztika tárgya

6. feladatsor. Statisztika december 6. és 8.

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Normális eloszlás paramétereire vonatkozó próbák

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

Komputer statisztika

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

A matematikai statisztika elemei

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

(d) x 6 3x 2 2 = 0, (e) x + x 2 = 1 x, (f) 2x x 1 = 8, 2(x 1) a 1

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

(A TÁMOP /2/A/KMR számú projekt keretében írt egyetemi jegyzetrészlet):

Segédanyag a Leíró és matematikai statisztika tantárgyhoz március 1.

3. SOROZATOK. ( n N) a n+1 < a n. Egy sorozatot (szigorúan) monotonnak mondunk, ha (szigorúan) monoton növekvő vagy csökkenő.

Statisztika október 27.

Statisztika Elıadások letölthetık a címrıl

Gyakorló feladatok II.

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Statisztikai programcsomagok

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli tételek. Készítette: Szántó Ádám Tavaszi félév

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Tudjuk, hogy az optimumot az ún. regressziós görbe szolgáltatja, melynek egyenlete:

Matematika I. 9. előadás

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli beugró kérdések. Készítette: Szántó Ádám Tavaszi félév

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

V. Deriválható függvények

ALGEBRA. egyenlet megoldásait, ha tudjuk, hogy egész számok, továbbá p + q = 198.

Kutatói pályára felkészítı modul

Innen. 2. Az. s n = 1 + q + q q n 1 = 1 qn. és q n 0 akkor és csak akkor, ha q < 1. a a n végtelen sor konvergenciáján nem változtat az, ha

Debreceni Egyetem, Közgazdaság- és Gazdaságtudományi Kar. Feladatok a Gazdasági matematika I. tárgy gyakorlataihoz. Halmazelmélet

Statisztikai hipotézisvizsgálatok

A tárgy címe: ANALÍZIS 1 A-B-C (2+2). 1. gyakorlat

véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

VÉLETLENÍTETT ALGORITMUSOK. 1.ea.

18. Differenciálszámítás

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

Nevezetes sorozat-határértékek

Rudas Tamás: A hibahatár a becsült mennyiség függvényében a mért pártpreferenciák téves értelmezésének egyik forrása

Valószín ségszámítás és statisztika

Bevezetés a hipotézisvizsgálatokba

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Bootstrap (Efron, 1979)

Matematikai statisztika

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis vizsgálatok

10.M ALGEBRA < <

Tartalom. Kezdeti szimulációs technikák. Tipikus kérdések. A bootstrap módszer. Bevezetés A független, azonos eloszlású eset:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

1. A radioaktivitás statisztikus jellege

Számsorozatok. 1. Alapfeladatok december 22. sorozat határértékét, ha. 1. Feladat: Határozzuk meg az a n = 3n2 + 7n 5n létezik.

Sorozatok október 15. Határozza meg a következ sorozatok határértékeit!

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

2. fejezet. Számsorozatok, számsorok

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

A függvénysorozatok olyanok, mint a valós számsorozatok, csak éppen a tagjai nem valós számok,

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:


Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

Abszolút folytonos valószín ségi változó (4. el adás)

Dr. Karácsony Zsolt. Miskolci Egyetem november

SZÁMELMÉLET. Vasile Berinde, Filippo Spagnolo

KÍSÉRLETTERVEZÉS ÉS ÉRTÉKELÉS A MIKROBIOLÓGIAI GYAKORLATBAN

ANALÍZIS I. TÉTELBIZONYÍTÁSOK ÍRÁSBELI VIZSGÁRA

Átírás:

Statisztika Földtudomáy szak, geológus szakiráy, 015/016. taév tavaszi félév Backhausz Áges (ELTE TTK Valószíűségelméleti és Statisztika Taszék)1 Tartalomjegyzék 1. Bevezetés 3 1.1. Példa: az adatok elemzése.................... 3 1.. Példa: hisztogram......................... 4. Alapstatisztikák 4.1. Példa: alapstatisztikák...................... 6.. Redezett mita......................... 7.3. Mediá............................... 7.4. Példa: az átlag és a mediá összehasolítása.......... 8.5. Tapasztalati eloszlásfüggvéy.................. 10.6. Kvatilisek............................. 11.7. Példa: boxplot.......................... 1.8. Tapasztalati mometumok.................... 14 3. Statisztikai mező 15 4. A statisztika alaptétele 16 5. Becslések és tulajdoságaik 18 5.1. Torzítatlaság és hatásosság................... 18 5.. Aszimptotikus torzítatlaság és kozisztecia......... 0 1 Kérdések, módosítási javaslatok, javítaivalók eseté: ages@cs.elte.hu 1

6. Elégséges statisztikák 1 7. Maximumlikelihood-módszer 1 8. Mometummódszer 9. Kofideciaitervallumok 3 10.Hipotézisvizsgálat 5 10.1. A próbák jósága.......................... 6 10.. Neyma Pearso-lemma..................... 6 11.A ormális eloszlásra voatkozó próbák 7 11.1. Egymitás u-próba........................ 7 11.. Kétmitás u-próba........................ 8 11.3. Egymitás t-próba........................ 8 11.4. Kétmitás t-próba........................ 9 11.5. F -próba.............................. 30 1.χ -próbák 31 1.1. Illeszkedésvizsgálat........................ 31 1.. Becsléses illeszkedésvizsgálat................... 3 1.3. Függetleségvizsgálat....................... 33 1.4. Homogeitásvizsgálat....................... 34 13.Lieáris modell 35 13.1. Az egyees meredeksége..................... 38 13.. Előrejelzés............................. 38

1. Bevezetés Célok: mérési eredméyek, kísérletekből származó adatok alapjá az adatok elemzése; a mért meyiség vagy abból származtatott más meyiségek becslése; hipotézisek elleőrzése vagy cáfolata; múltbeli adatok alapjá a jövőbeli folyamatok előrejelzése. Alkalmazási területek: élő és élettele természettudomáyok, társadalomtudomáyok: kísérleti eredméyek értelmezése idősorok, véletle folyamatok előrejelzése a természettudomáyokba vagy gazdaságtudomáyba; biztosítás és pézügyi matematika. 1.1. Példa: az adatok elemzése A Dua vízállása az elmúlt húsz apba (016. alakult (cetiméterbe mérve): jauár) Budapestél így 106 133 171 05 18 11 189 164 148 135 16 10 113 111 10 99 13 158 180 186 A feti adatsort mitáak evezzük. A mitaelemek száma, vagyis a mita agysága: = 0. A legkisebb mitaelem 99, a legagyobb 18. A mita terjedelme a legagyobb és legkisebb mitelem külöbsége: 18 99 = 119. A mitaelemek átlaga 149,9. A mita mediája (a agyság szeriti sorredbe két középső mitaelem átlaga): 141,5. A korrigált tapasztalati szórás: 38,55 (defiíció később). 3

A vízállás 5 apo volt 115 cm-él kevesebb (a apok egyegyedé), és 3 apo haladta meg a métert (a apok 15%-á). A legagyobb vísszitemelkedés 38 cetiméter volt (a. és 3. ap között), a legagyobb csökkeés 5 cm (a 7. és 8. ap között). Az átlag agyobb a mediáál. 1.. Példa: hisztogram Az adatok ábrázolásáak egy lehetséges módja hisztogram készítése. Választuk egy itervallumot, mely magába foglalja a mérési adatokat. Az itervallumot egyelő agyságú részekre osztjuk. Az így kapott kisebb itervallumok midegyikéhez hozzáredeljük az abba eső mitaelemek számát (gyakoriságát), és ezt ábrázoljuk. 1. ábra. A Dua vízállása húsz apo keresztül, éjfélkor (016. jauár). Alapstatisztikák Mita (sample): X 1,..., X (ezek valószíűségi változók). A mita elemszáma (size). Miimum: a legkisebb mitaelem, azaz mi(x 1, X,..., X ). Maximum: a legagyobb mitaelem, azaz max(x 1, X,..., X ). 4

. ábra. A Dua vízállásáról kapott húszelemű mitából készített hisztogram Terjedelem (rage): a legagyobb és legkisebb mitaelem külöbsége, azaz max(x 1, X,..., X ) mi(x 1, X,..., X ). Módusz (mode): az a mitaelem, amelyik leggyakrabba fordul elő. Átlag/mitaátlag (mea): X = X 1 + X +... + X. Tapasztalati szóráségyzet (ucorrected variace): s = 1 [ (X k X ) ]. k=1 Tapasztalati szórás (ucorrected stadard deviatio): s = 1 [ (X k X ) ]. k=1 Korrigált tapasztalati szóráségyzet (variace, var): s = 1 [ (X k X ) ]. 1 k=1 5

Korrigált tapasztalati szórás (stadard deviatio, sd): s = 1 [ (X k X ) ]. 1 k=1 Szórási együttható (coefficiet of variatio [cv] / relative stadard deviatio [rsd]): c v = s X..1. állítás (A tapasztalati szóráségyzet másik alakja). A tapasztalati szóráségyzet így is kiszámítható: s = 1 [ k=1 X k ] X. Bizoyítás. Átredezéssel kapjuk, hogy (X k X) = k=1 = [ X k X k X + X ] = Xk X X + X = k=1 Xk X. k=1 k=1 Ebből adódik, hogy s = 1 [ ] (X k X) = 1 [ k=1 k=1 X k ] X, a tapasztalati szóráségyzet defiíciója alapjá..1. Példa: alapstatisztikák Továbbra is a Dua vízállásáról kapott mitát haszáljuk (cm): 106 133 171 05 18 11 189 164 148 135 16 10 113 111 10 99 13 158 180 186 6

mitaelemszám: = 0 mita: X 1 = 106, X = 133,..., X 10 = 135,..., X 0 = 186. átlag: X = 149, 9 tapasztalati szóráségyzet: s = 141, 09 tapasztalati szórás: s = 37, 58 korrigált tapasztalati szóráségyzet: s = 1486, 411 korrigált tapasztalati szórás: s = 38, 55 szórási együttható: c v = 0, 571... Redezett mita Redezett mita: állítjuk. Jelölés: a mitaelemeket agyság szerit övekvő sorredbe (X 1, X,..., X ). Vagyis {X 1, X,..., X } = {X 1, X,..., X } és X 1 X... X. A miimum X 1, a maximum X. A k. legkisebb mitaelem X k. Példa: a vízállásról kapott húszelemű mita redezett mitája: 99 10 106 111 113 10 13 16 133 135 148 158 164 171 180 186 189 05 11 18 X 1 = 99, X = 10, X 3 = 106,..., X 6 = 10,..., X 10 = 135 X 11 = 148,..., X 14 = 171,..., X 0 = 18..3. Mediá Tekitsük az elemű (X 1, X,..., X ) mitát... defiíció. Ha páratla: a redezett mita középső elemét, azaz X(+1)/ -t a mita mediájáak evezzük. Ha páros: a redezett mita /. és / + 1. eleméek átlagát, azaz a X / + X /+1 7

meyiséget a mita mediájáak evezzük. Megjegyzés: páros eseté a teljes [ X /, X /+1] itervallumot (vagy aak bármely elemét) is a mita mediájáak lehet hívi. Példa: a vízállásról kapott húszelemű mita mediája: 1 (X 10 + X11) = 1 (135 + 148) = 141, 5..4. Példa: az átlag és a mediá összehasolítása Normális eloszlás 3. ábra. Az 500 elemű, ormális eloszlású mita hisztogramja 500 elemű függetle mita: X 1, X,..., X 500 függetleek, eloszlásuk ormális eloszlás m = 1 várható értékkel és σ = 1 szórással Mi. 1st Qu. Media Mea 3rd Qu. Max. -1.4870 0.333 0.9688 0.9599 1.530 4.4000 Expoeciális eloszlás 500 elemű függetle mita: Y 1, Y,..., Y 500 függetleek, eloszlásuk expoeciális eloszlás b = 1 paraméterrel. E(Y k ) = 1 és D(Y k ) = 1 mide k = 1,,..., 500-ra. 8

4. ábra. Az 500 elemű, expoeciális eloszlású mita hisztogramja Mi. 1st Qu. Media Mea 3rd Qu. Max. 0.00136 0.8700 0.637300 0.984900 1.349000 5.895000 A ormális eloszlás esetébe ics agy külöbség az átlagra és a mediára kapott értékek között, míg az expoeciális eloszlás eseté jeletős eltérés látszik (a várható érték és a szórás is midkét esetbe 1 volt, ebbe ics külöbség). Az m = 1 várható értékű és σ = 1 szórású ormális eloszlás sűrűségfüggvéye szimmetrikus az 1 körül: f(t) = 1 ( ) (t 1) exp (t R). π Az 1 paraméterű expoeciális eloszlás sűrűségfüggvéye em ilye: { exp( t), ha t > 0; g(t) = 0, ha t < 0. Ha a sűrűségfüggvéy szimmetrikus, akkor az átlag és a mediá általába közelebb esik egymáshoz, mit ha em érvéyes a szimmetria. Ezért ha az adatok semmilye szimmetriát em mutatak, gyakra a mediát tütetik fel. Szimmetrikus esetbe ikább az átlagot haszálják. 9

.5. Tapasztalati eloszlásfüggvéy Kérdés. Meyi aak valószíűsége, hogy 017. jauár 15-é a Dua vízállása 00 cm alatt marad? Mit tuduk erről modai az adatok alapjá? Legye X tetszőleges valószíűségi változó. Eek eloszlásfüggvéye az az F : R [0, 1] függvéy, melyre mide t R-re. F (t) = P(X t).3. defiíció (Tapasztalati eloszlásfüggvéy). Legyeek X 1, X,..., X valószíűségi változók. Eek a mitáak az eloszlásfüggvéye az az ˆF : R [0, 1] függvéy, melyre ˆF (t) = t-él kisebb mitaelemek száma = 1 I(X k t). k=1 Itt I(X k t) értéke 1, ha X k t teljesül (azaz a k. mitaelem legfeljebb t), és 0 külöbe. Tehát midet-re megadjuk a t-él em agyobb mitaelemek aráyát a mitába. 5. ábra. A Dua vízállásáról kapott húszelemű mita tapasztalati eloszlásfüggvéye Például, a korábbi redezett mitát tekitve a Dua vízállásáról: 10

99 10 106 111 113 10 13 16 133 135 148 158 164 171 180 186 189 05 11 18 A vízállás egy apo volt legfeljebb 100 cm, hat apo volt legfeljebb 10 cm, tizekét apo volt legfeljebb 160 cm, és tizehét apo volt legfeljebb 00 cm. Tehát: ˆF (100) = 1/0 = 0, 05; ˆF (10) = 6/0 = 0, 3; ˆF (160) = 1/0 = 0, 6; ˆF (00) = 17/0 = 0, 85..6. Kvatilisek Kérdés. Olya magas gátat szereték építei, hogy agyjából húszévete kerüljö csak sor árvízi védekezésre. Potosabba, aak valószíűsége, hogy egy adott évbe a legmagasabb vízállás legfeljebb 1/0 valószíűséggel emelkedje a gát szitje fölé. Ha redelkezésre állak az egyes évek legmagasabb vízállásai, ez alapjá milye magasra kellee építeük a gátat? Legye X valószíűségi változó, melyek eloszlásfüggvéye F : F (t) = P(X t) (t R). Legye z [0, 1] adott szám. Ekkor az F eloszlásfüggvéy z-kvatilise: q z = mi{t : F (t) z}. Ha F szigorúa mooto övő, akkor q z = F 1 (z)..4. defiíció (Tapasztalati kvatilis). Legye X 1, X,..., X mita, és z [0, 1] adott szám. Ekkor a mita tapasztalati z-kvatilise a tapasztalati eloszlásfüggvéy z-kvatilise, vagyis: ˆq z = mi{t : ˆF (t) z}..5. defiíció (Tapasztalati kvartilisek.). A z = 1/4-hez tartozó 1/4- kvatilist a mita első kvartiliséek evezzük, és Q 1 -gyel jelöljük. A z = 3/4- hez tartozó 3/4-kvatilist a mita harmadik kvartiliséek evezzük, és Q 3 - mal jelöljük. 11

Például, szité a korábbi, vízállásra voatkozó mitát tekitve legye először z = 0, 5. Azt a legkisebb szitet keressük, amire igaz, hogy a mitaelemek fele kisebb ála. Ez a agyság szeriti sorredbe a 10. mitaelem lesz, tehát q 0,5 = 135, a két középső mitaelem közül a kisebb. Első kvartilis. A példába tekitsük az első kvartilist: z = 1/4. A legkisebb olya szitet keressük, amiél a mitaelemek egyede kisebb vagy egyelő. Mivel húsz elemű a mita, ez a agyság szeriti sorba az ötödik mitaelem lesz: Q 1 = q 1/4 = X 5 = 113. Harmadik kvartilis. Most azt a legkisebb szitet keressük, amiél a mitaelemek 3/4-e kisebb vagy egyelő. Ez a tizeötödik lesz a agyság szeriti sorba: Q 3 = q 3/4 = X 15 = 180. További kvatilisek. Például z = 0, az, amiél az elemek egyötöde kisebb: q 0, = X 4 = 111. Az a szit, amiél a mitaelem z = 0, 95 része kisebb (vagyis amit a mitaelemek 5%-a halad meg): q 0,95 = X 19 = 11. Kvatilisek számítása iterpolációval. A fet megadott defiíció helyett az alábbit is szokták haszáli. Ilyekor a kvatilis em a mitaelemek egyike, haem a agyság szeriti sorredbe két szomszédos mitaelem lieáris kombiációja. 1. elemű mita z-kvatilisét szereték meghatározi.. Legye m = ( + 1)z az ( + 1)z egészrésze, u = {( + 1)z} pedig ugyaeek a törtrésze. 3. A módosított defiíció értelmébe a tapasztalati z-kvatilis: q z = X m + u(x m+1 X m), ahol X k a agyság szeriti sorredbe a k. legkisebb mitaelem..7. Példa: boxplot A mitaelemek ábrázolásáak (és külööse más mitákkal való összehasolításáak) egy szokásos módja a boxplot készítése, melyhez a mita bizoyos kvatiliseit kell kiszámítai. 1

6. ábra. A Dua vízállásáról kapott húszelemű mita boxplotja. 7. ábra. Forrás: theasweris7.com 13

A boxplot készítéséhez szükséges adatok, és ezek értékei a vízállásra voatkozó mitába: miimum: a legkisebb mitaelem (99); első kvartilis: a z = 1/4-hez tartozó kvatilis (118,); mediá: a középső mitaelem, vagy a két középső mitaelem átlaga (141,5); harmadik kvartilis: a z = 3/4-hez tartozó kvatilis (181,5); maximum: a legagyobb mitaelem (18). terjedelem: a maximum és miimum külöbsége. Az egyes dobozok az első kvartilistől a harmadik kvartilisig tartaak. A középvoal helye a mediá. A voalak felölelhetik a teljes terjedelmet. Azok az adatok, melyek valamelyik iráyba messzebb esek a mediától, mit az első és harmadik kvartilis közötti távolság másfélszerese, gyakra külö pottal kerülek ábrázolásra (ilyekor a voalak az utolsó olya adatál érek véget, ami még belül va a másfélszeres távolságo)..8. Tapasztalati mometumok Legye továbbra is X 1, X,..., X a mita..6. defiíció. Legye k 1 egész. Ekkor a mita k. tapasztalati mometuma (kth sample momet) a mitaelemek k. hatváyaiak átlaga: 1 Xj k. j=1 Ekkor a mita k. cetrált tapasztalati mometuma (kth sample cetral momet): m k = 1 (X j X) k. j=1.7. defiíció. A tapasztalati ferdeség (sample skewess) két szokásos defiíciója: γ = m 1 3 j=1 = (X j X) 3 s 3 j=1 (X j X ) ). 3/ ( 1 1 14

γ 1 = ( 1)( ) m3 s 3 = ( 1)( ) ( ) 3 Xj X. Vegyük észre, hogy a defiíciók csak az -től függő szorzótéyezőbe külöbözek. Heurisztika: ha az adatok hisztogramja agyjából szimmetrikus (a mediá körül), akkor a tapasztali ferdeség értéke a ullához közeli..8. defiíció. A lapultság (sample kurtosis) egy lehetséges defiíciója: κ = m 4 j=1 3 = (X j X) 4 m ( j=1 (X j X ) ) 3. j=1 s Ha Y ormális eloszlású valószíűségi változó, akkor E(Y 4 )/E(Y ) = 3, ezzel hasolítják össze a mitából kapott értéket. Ha olya eloszlásból veszük mitát, melyek sűrűségfüggvéye közel va a ormális eloszlás sűrűségfüggvéyéhez, ulla közeli lapultságra számíthatuk. Pozitív lapultság meredekebb (abszolút értékbe agyobb deriválttal redelkező), egatív lapultság kevésbé meredek sűrűségfüggvéyre utalhat. 3. Statisztikai mező 3.1. defiíció. Az (Ω, A, P) hármast statisztikai mezőek evezzük, ha mide P P-re (Ω, A, P) Kolmogorov-féle valószíűségi mező. Vagyis: ugyaazo az alaphalmazo (elemi eseméyek halmazá és az eseméyek halmazá) több valószíűségi mérték adott. Frekvetista megközelítés: a mita egyetle P-hez tartozó valószíűségi mezőből származik, és erről a P-ről szereték miél többet megtudi. (Ettől eltérő például a bayes-i módszerek alkalmazása, amiről em fog szó esi.) 3.. defiíció. Ha valamilye Θ R q halmazra a P halmaz felírható {P ϑ : ϑ Θ} alakba, akkor paraméteres statisztikai problémáról beszélhetük. Ilyekor a Θ halmazt paramétertérek evezzük. 3.3. defiíció ([1]). Legye (Ω, A, P) statisztikai mező. Egy X = (X 1, X,..., X ) : Ω H R 15

valószíűségi vektorváltozót ( elemű) mitáak evezük. Itt H a mitatér, a mita elemszáma vagy agysága. Az X i koordiáták a mita elemei. Azt modjuk, hogy a mita függetle, ha az X 1, X,..., X valószíűségi változók függetleek. A mitatére megadott T : H R k függvéyt, illetve a T = T (X) valószíűségi változót (k-dimeziós) statisztikáak evezzük. Példa. X 1, X,..., X 0 a Dua vízállására fet megadott 0 elemű adatsor. Ekkor = 0, a mitatér pedig legye H = [0, 000] 0 R 0, beépítve, hogy a vízállás em lehet egatív vagy (modjuk) 000-él agyobb. Legye T : H R az a függvéy, mely H mide eleméhez hozzáredeli a koordiátáiak átlagát. Ekkor k = 1, és a statisztika: T (X) = X 1 + X +... + X 0. Vagyis ebbe az esetbe a mitaátlag (mit valószíűségi változó) lesz a statisztika. (Viszot a mita em függetle.) További példák statisztikára: korrigált tapasztalati szórás: T (X 1,..., X ) = s = 1 1 miimum és maximum (ilyekor k = ): (X k X) ; k=1 T (X 1,..., X ) = (mi(x 1,..., X ), max(x 1,..., X )); terjedelem: T (X 1,..., X ) = mi(x 1,..., X ) max(x 1,..., X )); mediá; redezett mita (ilyekor k = ): T (X 1,..., X ) = (X 1, X,..., X ). 4. A statisztika alaptétele 4.1. tétel (Gliveko, [1]). Legyeek X 1, X,..., X függetle azoos eloszlású valószíűségi változók, melyek közös eloszlásfüggvéye F. Ekkor az 16

ˆF tapasztalati eloszlásfüggvéyekből álló sorozat 1 valószíűséggel egyeletese tart F -hez, azaz ( P lim ˆF (t) F (t) ) = 0 = 1. sup t R 8. ábra. Stadard ormális eloszlás eloszlásfüggvéye és belőle vett 100 elemű mita tapasztalati eloszlásfüggvéye Eek a statisztikai mezőkre voatkozó következméyét így fogalmazhatjuk meg. Tegyük fel, hogy X 1, X,... függetle valószíűségi változók. Ekkor mide 1-re (X 1, X,..., X ) függetle mita, amiből kiszámíthatjuk az ˆF (t) tapasztalati eloszlásfüggvéyt: ˆF (t) = t-él em agyobb mitaelemek száma = 1 I(X k t). k=1 Másrészt ha az P valószíűség a statisztikai mezőbe az P egy tetszőleges eleme, akkor F (t) = P(X 1 t) = P(X t) =... = P(X t). Ilyekor eszerit a P szerit egy valószíűséggel teljesül, hogy a tapasztalati eloszlásfüggvéy és az igazi F eloszlásfüggvéy közötti legagyobb 17

távolság ullához tart. (Tehát mide P P-re igaz, hogy a tapasztalati eloszlásfüggvéy az ahhoz a P-hez tartozó F -hez kovergál.) A agy számok erős törvéye szerit (ismét felhaszálva a mita függetleségére voatkozó feltevést) az alábbi összefüggés teljesül mide rögzített t R-re: ( P lim ˆF (t) F (t) ) = 0 = 1. A statisztika alaptétele eél erősebbet állít: mide -re kiválaszthatuk egy tetszőleges t potot, ahol a külöbséget kiolvassuk, és így is ullához tartó sorozatot kapuk. 5. Becslések és tulajdoságaik Legye (Ω, A, P) statisztikai mező, ahol P = {P ϑ : ϑ Θ) valamely Θ halmazzal (ezt paramétertérek evezzük). Legye továbbá ψ : Θ R függvéy. Cél: olya T statisztika keresése, amire a T (X) valószíűségi változó és a ψ(ϑ) érték valamilye értelembe közel esik a P ϑ valószíűség mellett. Ezt mide ϑ Θ-ra szereték. 5.1. Torzítatlaság és hatásosság E ϑ azt jeleti, hogy a (Ω, A, P ϑ ) valószíűségi mezőbe számoluk várható értéket. A D ϑ szóráségyzetet és a D ϑ szórást hasolóképpe defiiálhatjuk. 5.1. defiíció (Torzítatlaság). A T : H R statisztika torzítatla becslés ψ-re, ha mide ϑ Θ-ra E ϑ (T (X 1,..., X )) = ψ(ϑ). A T statisztika torzítása a b T (ϑ) = E ϑ (T (X 1,..., X )) ψ(ϑ) függvéy. 5.. állítás (A várható érték torzítatla becslése). Legye X 1,..., X függetle azoos eloszlású mita. Legye ψ(ϑ) = E ϑ (X 1 ), azaz a mitáak a P ϑ eloszlás szeriti várható értéke. Ekkor a T (X 1,..., X ) = X statisztika, vagyis a mitaátlag torzítatla becslés ψ-re. Bizoyítás. A várható érték tulajdoságai alapjá ( ) X1 +... + X E ϑ (T (X 1,..., X )) = E ϑ = 1 Eϑ (X 1 ) +... + E ϑ (X ) [ ]. 18

Most felhaszálva, hogy az X 1,..., X valószíűségi változók azoos eloszlásúak, vagyis a várható értékük is azoos: E ϑ (T (X 1,..., X )) = 1 [ E ϑ(x 1 )] = E ϑ (X 1 ) = ψ(ϑ). Vagyis a mitaátlag torzítatla függvéye a várható értékek. 5.3. állítás (A szóráségyzet torzítatla becslése). X 1,..., X függetle azoos eloszlású mita. Legye ψ(ϑ) = Dϑ (X 1), azaz a mitáak a P ϑ eloszlás szeriti szóráségyzete. Ekkor a T (X 1,..., X ) = s statisztika, vagyis a korrigált tapasztalati szóráségyzet torzítatla becslés ψ-re. Bizoyítás. A.1. állítás bizoyításáak első egyelősége szerit s = 1 s = [ [ ] ] 1 Xk X = 1 [ ] Xk 1 1 1 X. k=1 Felhaszálva a szóráségyzet defiícióját, és hogy a valószíűségi változók azoos eloszlásúak: ( ) E ϑ Xk = E ϑ (Xk) = E ϑ (X1) = [D ϑ(x 1 ) + E ϑ (X 1 ) ]. k=1 k=1 Másrészt, az összegre botásál felhaszálva, hogy a valószíűségi változók függetleek: ( ) Dϑ(X) = Dϑ X1 +... + X = 1 D ϑ(x 1 +... + X ) = 1 D ϑ(x k ) = = 1 D ϑ(x 1 ) = 1 D ϑ(x 1 ). Az X mitaátlag várható értékét az előző állítás szerit ismerjük, ez E ϑ (X 1 ). Így, a mitaátlagra alkalmazva a szóráségyzet defiícióját: k=1 k=1 E ϑ ( X ) = D ϑ (X ) + E ϑ (X) = 1 D ϑ(x 1 ) + E ϑ (X 1 ). Midezeket összerakva: E ϑ (s ) = [ D 1 ϑ (X 1 )+E ϑ (X 1 ) ] 1 [ ] 1 D ϑ(x 1 )+E ϑ (X 1 ) = Dϑ(X 1 ). Azaz a korrigált tapasztalati szóráségyzet a szóráségyzet torzítatla becslése. 19

5.4. defiíció (Hatásosság). Legyeek T 1, T torzítatla becslései a paraméter ψ(ϑ) függvéyéek. Azt modjuk, hogy T 1 hatásosabb T -él, ha D ϑ (T 1) D ϑ (T ) teljesül mide ϑ Θ-ra. A T 1 becslés hatásos ψ(ϑ)-ra, ha ψ(ϑ) mide torzítatla becsléséél hatásosabb (és ő maga is torzítatla). Előfordul, hogy két torzítatla becslés közül egyik sem hatásosabb a másikál, azaz va két külöböző ϑ, amelyikél eltér, hogy melyikek kisebb a szórása a P ϑ mérték szerit. Nem midig létezik hatásos becslés, viszot ha létezik, akkor léyegébe egyértelmű (potosabba, ha T 1 és T hatásos becslések ψ(ϑ)-ra, akkor 1 valószíűséggel megegyezek). 5.5. állítás. Legye (X 1,..., X ) függetle azoos eloszlású mita véges szórású eloszlásból. Ekkor ψ(ϑ) = E ϑ (X i )-re a mitaátlag hatásosabb mide j=1 c jx j alakú becslésél, ahol 0 c j és j=1 c j = 1. Az állítás a számtai és égyzetes közepek közötti egyelőtleségből adódik. Ugyaakkor a mitaátlag em mide esetbe hatásos becslése a várható értékek, csak a lieáris kombiációkál hatásosabb. 5.. Aszimptotikus torzítatlaság és kozisztecia Tekithetjük statisztikák egy sorozatát úgy, hogy az. statisztika az első mérési adattól függ. Például: X 1, X,... mérési eredméyek, és T = 1 (X 1 +... + X ) az első mérésből kapott adat átlaga. 5.6. defiíció. [1] A T = T (X 1,..., X ) aszimptotikusa torzítatla becsléssorozat ψ(ϑ)-ra, ha mide ϑ Θ-ra E ϑ (T (X 1,..., X )) ψ(ϑ) ( ). 5.7. defiíció. [1] A T = T (X 1,..., X ) kozisztes becsléssorozat ψ(ϑ)- ra, ha mide ϑ Θ-ra (T (X 1,..., X )) ψ(ϑ) eseté sztochasztikusa, azaz mide ϑ Θ és ε > 0-ra teljesül, hogy ( P ϑ T ψ(ϑ) > ε ) 0 ( ). 0

A agy számok gyege törvéye alapjá a ψ(ϑ) = E ϑ (X 1 ) függvéyre a T = X 1+...+X becsléssorozat kozisztes. Sőt a agy számok erős törvéye alapjá T ψ(ϑ) 1 valószíűséggel is teljesül mide ϑ Θ-ra eseté. 6. Elégséges statisztikák 6.1. defiíció (Diszkrét eset, [1]). Legye X = (X 1, X,..., X ) diszkrét mita (azaz tegyük fel, hogy a H mitatér véges vagy megszámlálhatóa végtele). A T (X) statisztika elégséges, ha mide x H, t T (H) párra igaz, hogy a P ϑ (X = x T (X) = t)) feltételes valószíűség em függ ϑ-tól. 6.. defiíció (Abszolút folytoos eset, [1]). Legye X függetle mita. Tegyük fel, hogy az X = (X 1,..., X ) mita eloszlása abszolút folytoos, együttes sűrűségfüggvéye f,ϑ. A T : H R statisztika elégséges, ha az együttes sűrűségfüggvéy felírható f,ϑ (y 1,..., y ) = h(y 1,..., y ) g ϑ (T (y 1,..., y )) alakba mide ϑ Θ-ra, valamely h és g ϑ függvéyekre. Függetle azoos eloszlású mita eseté a redezett mita (az adatok sorbaredezésével kapott adatsor) elégséges statisztika. 7. Maximumlikelihood-módszer 7.1. defiíció (Likelihood-függvéy). Legye Y 1,..., Y mita. Ha ezek abszolút folytoosak, és Y j sűrűségfüggvéye (a P ϑ -re voatkozóa) f j,ϑ, akkor a mita likelihood-függvéye: L,ϑ (t 1,..., t ) = f j,ϑ (t j ) j=1 (t 1,..., t R). Ha a mita diszkrét, akkor a mita likelihood-függvéye: L,ϑ (k 1,..., k ) = P j,ϑ (Y j = k j ) j=1 ((k 1,..., k ) H). 1

7.. defiíció (Maximum-likelihood becslés). A ϑ maximumlikelihoodbecslése (ML-becslése) az X 1,..., X mitából ˆϑ, ha ˆϑ maximalizálja a ϑ L,ϑ (X 1,..., X ) függvéyt, ahol L,ϑ a mita likelihood-függvéye. Azaz, ha L, ˆϑ(X 1,..., X ) L,ϑ (X 1,..., X ) mide ϑ Θ-ra. A maximumlikelihood-becslés tulajdoságai Nem mide statisztikai mező létezik ML-becslés. Az ML-becslés em feltétleül egyértelmű. Ha létezik ML-becslés, T pedig elégséges statisztika, akkor az MLbecslés felírható h(t (X 1,..., X )) alakba valamely h függvéyre. A ψ(ϑ) függvéy ML-becslése ψ( ˆϑ), ahol ˆϑ ML-becslés ϑ-ra. Megfelelő feltételek (erős regularitási feltételek mellett) az ML-becslés aszimpotikusa torzítatla, és aszimptotikusa ormális eloszlású, azaz ( ˆϑ ϑ) ormális eloszláshoz kovergál eloszlásba eseté (a P ϑ valószíűségre voatkozóa). Az alábbi egyelet a maximumlikelihood-egyelet: ϑ l L,ϑ(X 1,..., X ) = 0. Megfelelő feltételek mellett az ML-becslés a maximumlikelihood-egyelet megoldása (ha az ML-becslés em számítható ki, de az egyelet megoldható, gyakra az egyelet megoldásával helyettesítik az MLbecslést). 8. Mometummódszer Legye X 1,..., X függetle azoos eloszlású mita, (Ω, A, P) pedig statisztikai mező, P = {P ϑ : ϑ Θ}. Bizoyos esetekbe alkalmazható az alábbi eljárás. 1. Az eloszlás k. mometuma: µ k,ϑ = E ϑ (X k 1 ).. Legye ˆµ k = 1 j=1 Xk j az eloszlás k. tapasztalati mometuma.

3. Írjuk fel az alábbi egyeleteket a legkisebb olya k-ig, amire igaz, hogy az egyeletredszer egyértelműe meghatározza ϑ-t: E ϑ (X 1 ) = 1 X j ; E ϑ (X 1) = 1... E ϑ (X k 1 ) = 1 j=1 Xj ; j=1 Xj k. 4. A ϑ mometummódszerrel kapott becslése az a ˆϑ, ami megoldása a feti egyeletredszerek. A mometummódszerrel kapott becslés em biztos, hogy létezik, és em biztos, hogy egyértelmű. j=1 9. Kofideciaitervallumok Legye X = (X 1,..., X ) függetle azoos eloszlású mita, (Ω, A, P) pedig statisztikai mező, P = {P ϑ : ϑ Θ}, és tegyük fel, hogy ϑ valós paraméter, vagyis Θ R. 9.1. defiíció. Azt modjuk, hogy a (T 1 (X), T (X)) itervallum legalább 1 α megbízhatósági szitű kofideciaitervallum ϑ-ra, ha mide ϑ R eseté teljesül, hogy P ϑ (T 1 (X) < ϑ < T (X)) 1 α. A kofideciaitervallum megbízhatósági szitje: if ϑ Θ {P ϑ (ϑ (T 1, T ))}. A várható értékre ormális eloszlás eseté tuduk köye kofideciaitervallumot adi. (A cetrális határeloszlástétel alapjá agy mitaelemszám eseté alkalmazható lehet a ormális eloszlással való közelítés.) A következő jelölést fogjuk haszáli: ha q [0, 1], akkor u q = Φ 1 (q), ahol Φ a stadard ormális eloszlás eloszlásfüggvéye. Vagyis, ha Z stadard ormális eloszlású valószíűségi változó, akkor q = P(Z u q ) = 1 π uq 3 e s / ds.

9.. állítás (Kofideciaitervallum a várható értékre, ismert szórás). Tegyük fel, hogy X 1,..., X függetle azoos eloszlású ormális eloszlású valószíűségi változók, melyek szórása, σ ismert. Kétoldali kofideciaitervallum: Ekkor a ( (T 1, T ) = X u 1 α σ, X + u 1 α ) σ itervallum 1 α megbízhatósági szitű kofideciaitervallum az eloszlás várható értékére. Egyoldali kofideciaitervallumok 1 α megbízhatósági szittel, jobbról, illetve balról: ( σ, X + u 1 α ); ( X u 1 α ) σ,. 9.3. defiíció (t-eloszlás). Legyeek Z 0, Z 1,..., Z függetle stadard ormális eloszlású valószíűségi változók. Ekkor a Y = Z 0 Z 1 +... + Z valószíűségi változó eloszlását szabadsági fokú t-eloszlásak evezzük. Legye t (q) a q-kvatilise, vagyis az a szám, melyre az alábbi teljesül: ( ) Z 0 q = P(Y t (q)) = P t (q). Z 1 +... + Z 9.4. állítás (Kofideciaitervallum a várható értékre, ismeretle szórás). Tegyük fel, hogy X 1,..., X függetle azoos eloszlású ormális eloszlású valószíűségi változók (sem a várható értékük, sem a szórásuk em ismert). Kétoldali kofideciaitervallum: Ekkor a ( (T 1, T ) = (X t 1 1 α ) s (, X + t 1 1 α ) ) s itervallum 1 α megbízhatósági szitű kofideciaitervallum az eloszlás várható értékére. Egyoldali kofideciaitervallumok 1 α megbízhatósági szittel, jobbról, illetve balról: ( ( ) s s, X + t 1 (1 α) ); X t 1 (1 α),. 4

10. Hipotézisvizsgálat A hipotézisvizsgálat fő kérdései: lehet-e egy előzetes feltételezést (ullhipotézist) cáfoli az adatok alapjá? Meyire tér el a mita a ullhipotézis eseté várható tapasztalati eloszlástól? 10.1. defiíció. Legye (Ω, A, P) paraméteres statisztikai mező, azaz P = {P ϑ : ϑ Θ} valamilye Θ paramétertérrel. A paraméterteret botsuk fel két diszjukt halmaz uiójára: Θ = Θ 0 Θ 1, ahol tehát Θ 0 Θ 1 =. Nullhipotézis. H 0 : ϑ Θ 0. Ellehipotézis. H 1 : ϑ Θ 1. A mita X = (X 1,..., X ), a mitatér legye B (vagyis (X 1,..., X ) a B R halmaz egy véletle eleme). A mitateret is felbotjuk két diszjukt halmaz uiójára: B = B 0 B 1, ahol B 0 B 1 =. Elfogadási tartomáy: B 0. Ha (X 1,..., X ) B 0, akkor H 0 -t elfogadjuk. Elutasítási (kritikus) tartomáy: B 1. Ha (X 1,..., X ) B 1, akkor H 0 -t elutasítjuk. A dötés értelmezése: ha H 0 -t elutasítottuk, az adatok statisztikai bizoyítékot szolgáltattak arra, hogy H 0 em igaz. Ha H 0 -t elfogadjuk: az adatok alapjá em tudjuk H 0 -t cáfoli, de arra sics bizoyíték, hogy igaz lee. 10.. defiíció. Elsőfajú hibát vétük, ha H 0 igaz, és elutasítjuk. A próba terjedelme: α = sup ϑ Θ 0 P ϑ (X B 1 ). Másodfajú hibát vétük, ha H 0 em igaz, és elfogadjuk. A próba erőfüggvéye az alábbi β : Θ 1 [0, 1] függvéy: β(ϑ) = P ϑ (X B 1 ) (ϑ Θ 1 ). p-érték: a legagyobb olya terjedelem, ami mellett H 0 -t elfogadjuk. 5

10.1. A próbák jósága 10.3. defiíció. A próba torzítatla, ha erőfüggvéye legalább akkora, mit a terjedelme: β(ϑ) α mide ϑ Θ 1 -re. A (B 0, B 1 ) próba egyeletese erősebb, mit a (B 0, B 1) próba, ha P ϑ (X B 1 ) P ϑ (X B 1) mide ϑ Θ 1 -re. A ( B () 0, B () ) 1 kozisztes próbasorozat, ha α α mide -re és lim β (ϑ) = 1 mide ϑ Θ 1 -re. Itt α az. próbához tartozó terjedelmet, β pedig a hozzá tartozó erőfüggvéyt jeleti. 10.. Neyma Pearso-lemma Tegyük fel, hogy a ullhipotézis és az ellehipotézis is egyetle paraméterhez tartozik, vagyis: H 0 : ϑ = ϑ 0 ; H 1 : ϑ = ϑ 1. Legye ϑ 0 mellett a mita likelihood-függvéye L (0, x), míg ϑ 1 mellett L (1, x). Rögzítsük egy c pozitív számot és γ [0, 1]-t, és végezzük a következő eljárást (egy véletleített próbát): ha L(1,X) L (0,X) > c, akkor elutasítjuk H 0-t; ha L(1,X) L (0,X) = c, akkor sorsolást végzük (a mitától függetleül), és γ valószíűséggel elutasítjuk H 0 -t, külöbe elfogadjuk; ha L(1,X) L (0,X) > c, akkor elfogadjuk H 0-t. 10.4. tétel (Neyma Pearso-lemma). (i) Ha adott 0 < α 1 és a feti H 0 és H 1 egyszerű hipotézisek, akkor létezik olya c és γ, hogy a feti véletleített próba terjedelme potosa α. (ii) Ha adott c és γ: a feti véletleített próba egyeletese erősebb mide olya próbáál, melyek terjedelme em agyobb a feti véletleített próba terjedelméél. 6

11. A ormális eloszlásra voatkozó próbák Az alábbi próbák egyeletese legerősebb próbák a megegyező terjedelmű próbák közül az adott feladatokba. 11.1. Egymitás u-próba Az u-próba a ormális eloszlás várható értékére voatkozik, ha az eloszlás szórása ismert. Legyeek tehát X 1, X,..., X függetle ormális eloszlású valószíűségi változók m várható értékkel és σ szórással, ahol m ismeretle paraméter, σ ismert. Nullhipotézisre több lehetőség va (az m 0 érték adott): H 0 : m = m 0, vagy H 0 : m m 0, vagy H 0 : m m 0. A próbastatisztika, ami alapjá a dötést hozzuk: u = X m 0 σ. Ezt egy úgyevezett kritikus értékkel hasolítjuk össze, és ez alapjá fogadjuk el vagy utasítjuk el a ullhipotézist. A H 0 hipotézis mellett az u statisztika stadard ormális eloszlású. Emlékeztetőül: ha q [0, 1], akkor u q = Φ 1 (q), ahol Φ a stadard ormális eloszlás eloszlásfüggvéye. Kétoldali ellehipotézis: H 0 : m = m 0 ; H 1 : m m 0. Ha u > u 1 α/, akkor elvetjük a ullhipotézist, külöbe elfogadjuk. A p-érték ilyekor Φ( u ). Egyoldali ellehipotézis, balról: H 0 : m m 0 ; H 1 : m > m 0. Ha u > u 1 α, akkor elvetjük a ullhipotézist, külöbe elfogadjuk. A p-érték ilyekor 1 Φ(u). Egyoldali ellehipotézis, jobbról: H 0 : m m 0 ; H 1 : m < m 0. Ha u < u 1 α, akkor elvetjük a ullhipotézist, külöbe elfogadjuk. A p-érték ilyekor Φ(u). 7

11.. Kétmitás u-próba Legyeek most X 1, X,..., X 1, Y 1,..., Y függetle ormális eloszlású valószíűségi változók, ahol X i N(m 1, σ 1), Y i N(m, σ ). Itt m 1, m ismeretle paraméterek, σ 1, σ ismertek. A próbastatisztika, ami alapjá a dötést hozzuk: u = X Y σ 1 / 1 + σ /. A H 0 : m 1 = m hipotézis mellett az u statisztika stadard ormális eloszlású. Kétoldali ellehipotézis: H 0 : m 1 = m ; H 1 : m 1 m. Ha u > u 1 α/, akkor elvetjük a ullhipotézist, külöbe elfogadjuk. Egyoldali ellehipotézis, balról: H 0 : m 1 m ; H 1 : m 1 > m. Ha u > u 1 α, akkor elvetjük a ullhipotézist, külöbe elfogadjuk. Egyoldali ellehipotézis, jobbról: H 0 : m 1 m ; H 1 : m 1 < m. Ha u < u 1 α, akkor elvetjük a ullhipotézist, külöbe elfogadjuk. 11.3. Egymitás t-próba A t-próba a ormális eloszlás várható értékére voatkozik, ha az eloszlás szórása ismeretle. Legyeek tehát X 1, X,..., X függetle ormális eloszlású valószíűségi változók m várható értékkel és σ szórással, ahol m és σ is ismeretle paraméter. Nullhipotézisre több lehetőség va (az m 0 érték adott): H 0 : m = m 0, vagy H 0 : m m 0, vagy H 0 : m m 0. A próbastatisztika, ami alapjá a dötést hozzuk: t = X m 0 s, ahol s 1 = 1 j=1 (X j X). A H 0 : m = m 0 hipotézis mellett a t statisztika 1 szabadsági fokú t-eloszlású. Emlékeztetőül: legye t (q) a 8

q-kvatilise, vagyis az a szám, melyre az alábbi teljesül: ( ) Z 0 q = P(Y t (q)) = P t (q), Z 1 +... + Z ahol Z 0, Z 1,..., Z függetle stadard ormális eloszlásúak. Kétoldali ellehipotézis: H 0 : m = m 0 ; H 1 : m m 0. Ha t > t 1 (1 α/), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. Egyoldali ellehipotézis, balról: H 0 : m m 0 ; H 1 : m > m 0. Ha t > t m 1 (1 α), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. Egyoldali ellehipotézis, jobbról: H 0 : m m 0 ; H 1 : m < m 0. Ha t < t 1 (1 α), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. 11.4. Kétmitás t-próba Legyeek most X 1, X,..., X 1, Y 1,..., Y függetle ormális eloszlású, azoos szórású valószíűségi változók, ahol X i N(m 1, σ ), Y i N(m, σ ). Itt m 1, m, σ ismeretle paraméterek. A próbastatisztika, ami alapjá a dötést hozzuk: X Y t = (1 1)s 1 (X) + ( 1)s (Y ) 1 ( 1 + ). 1 + A H 0 : m 1 = m hipotézis mellett a t statisztika 1 + szabadsági fokú t-eloszlású. Kétoldali ellehipotézis: H 0 : m 1 = m ; H 1 : m 1 m. Ha t > t 1 + (1 α/), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. 9

Egyoldali ellehipotézis, balról: H 0 : m 1 m ; H 1 : m 1 > m. Ha t > t 1 + (1 α), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. Egyoldali ellehipotézis, jobbról: H 0 : m 1 m ; H 1 : m 1 < m. Ha t < t 1 + (1 α), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. Feltételeztük, hogy a két mita szórása megegyezik. Ezt (a kétmitás t- próba elvégzése előtt) gyakra az alábbi F -próbával elleőrzik. Ha a két szórás szigifikása eltér, más módszerekre lehet szükség. 11.5. F -próba Az F -próba függetle ormális eloszlású miták szórását hasolítja össze. Legyeek most X 1, X,..., X 1, Y 1,..., Y függetle ormális eloszlású valószíűségi változók, ahol X i N(m 1, σ 1), Y i N(m, σ ). Itt m 1, m, σ 1, σ ismeretle paraméterek. A próbastatisztika, ami alapjá a dötést hozzuk: F = s 1. s A H 0 : m 1 = m hipotézis mellett a F statisztika d 1 = 1 1 és d = 1 szabadsági fokokkal. Az F -eloszlás defiíciója: ha U 1,..., U d1, V 1,..., V d függetle stadard ormális eloszlású valószíűségi változók, akkor az alábbi háyados F -eloszlású d 1 és d szabadsági fokokkal: d (U1 + U +... + Ud 1 ) d 1 (V1 + V +... + Vd ). Legye F d1,d (q) az F -eloszlás q-kvatilise, vagyis az a szám, melyre q = P(W F d1,d (q)) teljesül, ha a W valószíűségi változó eloszlása F -eloszlás d 1 és d szabadsági fokokkal. Kétoldali ellehipotézis: H 0 : σ 1 = σ ; H 1 : σ 1 σ. Ha F > F d1,d (1 α/) vagy F < F d1,d (α/), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. 30

Egyoldali ellehipotézis, balról: H 0 : σ 1 σ ; H 1 : σ 1 > σ. Ha F > F d1,d (1 α), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. Egyoldali ellehipotézis, jobbról: H 0 : σ 1 σ ; H 1 : σ 1 < σ. Ha F < F d1,d (α), akkor elvetjük a ullhipotézist, külöbe elfogadjuk. 1. χ -próbák 1.1. Illeszkedésvizsgálat Legye A 1, A,..., A r teljes eseméyredszer, p 1, p,..., p r pedig olya emegatív számok, melyek összege 1. H 0 : P(A i ) = p i mide i = 1,,..., r-re. H 1 : P(A i ) p i valamelyik i = 1,,..., r-re. függetle megfigyelést végzük, jelölje N i, hogy háyszor következett be A i. Ha va olya N i, mely 4-él kevesebb: éháy eseméyt össze kell vouk, hogy a próbát alkalmazhassuk (vagyis A i és A j helyett A i A j -t és p 1 + p -t tekitjük). Számítsuk ki az alábbi meyiséget: T = r i=1 (N i p i ) p i. χ -próba: H 0 -t elfogadjuk, ha T kisebb az f = r 1 szabadsági fokú, α terjedelmű χ -próba c kritikus értékéél. A c kritikus értéket így defiiálhatjuk: P(Z 1 + Z +... + Z f < c) = 1 α), ahol Z 1,..., Z f függetle stadard ormális eloszlású valószíűségi változók. Példa: r = 6, dobókockával dobuk, A i : a dobás értéke i. Legye p 1 = p =... = p 6 = 1/6, vagyis a ullhipotézis az, hogy szabályos a dobókocka. A próba terjedelméek α = 0, 05-öt választjuk. = 100 dobásból az alábbi értékek adódtak: érték 1 3 4 5 6 gyakoriság 1 11 0 11 15 31

Chi-squared test for give probabilities data: kocka1 X-squared = 7.5, df = 5, p-value = 0.1847 Ekkor T = 7, 5 < c = 11, 1, tehát elfogadjuk azt a ullhipotézist, hogy a dobókocka szabályos. A p-érték 0, 1847 > 0, 05, tehát ics szigifikás eltérés a szabályossághoz képest. (Mide szám legalább 4-szer előfordult, em kell a beosztáso módosítai.) Ha ezerszer dobuk, és az alábbi eredméyek adódak: érték 1 3 4 5 6 gyakoriság 191 154 140 184 156 175 Chi-squared test for give probabilities data: kocka X-squared = 11.684, df = 5, p-value = 0.03938 Továbbra is α = 0, 05 terjedelem mellett számolva: T = 11, 684 > c = 11, 1, tehát elutasítjuk a ullhipotézist, statisztikai bizoyítékuk va arra, hogy a dobókocka em szabályos. A p-érték 0, 03938 < 0, 05, szigifikás eltérés va a szabályossághoz képest. 1.. Becsléses illeszkedésvizsgálat Továbbra is A 1, A,..., A r teljes eseméyredszer, elemű függetle miták va, és N i jelöli, hogy a háyszor következik be A i. Mide s S R d -re adottak p 1 (s), p (s),..., p r (s) emegatív számok, melyek összege 1. H 0 : va olya s S, melyre P(A i ) = p i (s) mide r = 1,,..., r-re. H 1 : ics olya s S, melyre P(A i ) = p i (s) mide r = 1,,..., r-re teljesüle. Az s paramétervektor (d dimeziós) maximumlikelihood-becslése legye ŝ, és legye ˆp i = p i (ŝ). Számítsuk ki az alábbi meyiséget: T = r i=1 (N i ˆp i ) ˆp i. Legye f = r d 1. A H 0 -t α terjedelem mellett elfogadjuk, ha T < c, ahol c az f szabadsági fokú kritikus értéke α terjedelem mellett. H 0-3

t elutasítjuk, ha T > c, ilyekor a mita szigifikása eltér az S által megadott eloszláscsaládtól. Példa. Az egy futballmérkőzése lőtt gólok száma a világbajokság 95 mérkőzésé: gólok száma 0 1 3 4 5 6 7 8 mérkőzések száma 3 37 0 11 1 0 0 1 Poisso-esetbe az s paraméter maximumlikelihood-becslése: ŝ = X = 0 3 + 1 37 + 0 + 3 11 + 4 + 5 1 + 8 1 95 = 1, 379. Mivel vaak olya osztályok, ahova 4-él kevesebb megfigyelés esik, a beosztást módosítjuk: gólok száma 0 1 3 4 mérkőzések száma 3 37 0 11 4 Poisso(ˆp)-eloszlás 3,9 3,99,75 10,46 4,88 H 0 : az eloszlás Poisso-eloszlásból származik, valamely s > 0 paraméterrel (most d = 1). H 1 : az eloszlás em Poisso-eloszlás. Ebbe az esetbe T = 1, 04, f = 5 1 1 = 3, a kritikus érték 7, 81. Tehát T < c, elfogadjuk, hogy a mita Poisso-eloszlásból származik. 1.3. Függetleségvizsgálat Két szempot szerit soroljuk osztályokba a megfigyeléseket. Az első szempot szerit r osztály va: A 1,..., A r. A második szempot szerit s osztály va: B 1,..., B s. H 0 : a két szempot függetle egymástól, azaz P(A i B j ) = P(A i ) P(B j ) mide i, j-re. H 1 : a ullhipotézis em igaz, a két szempot összefügg. Jelölje N ij azt, hogy háy olya megfigyelés va, melyre A i és B j teljesül. Legye továbbá N i = s j=1 N ij (azaz az A i gyakorisága); N j = r i=1 N ij (azaz B j gyakorisága); pedig az összes megfigyelés száma. Ekkor a próbastatisztika: ( r s Nij N ) i N j T =. i=1 j=1 33 N i N j

A szabadsági fok f = (r 1)(s 1). Legye c az f szabadsági fokú χ - próba kritikus értéke α terjedelem mellett. A próba: ha T < c (azaz a p-érték agyobb a terjedelmél), akkor elfogadjuk H 0 -t, em találtuk szigifikás összefüggést a szempotok között. Ha T > c (azaz a p-érték kisebb a terjedelemél), akkor elutasítjuk H 0 -t, az adatok szigifikás összefüggést mutatak. Ha r = s =, a próbastatisztika az alábbi egyszerűbb alakra hozható: T = ( N 11 N N 1 N 1 ) N 1 N N 1 N. 1.4. Homogeitásvizsgálat Legyeek X, Y valószíűségi változók. A valós számok halmazát botsuk fel diszjukt halmazok uiójára: A 1,..., A r. H 0 : az X és Y valószíűségi változók eloszlása megegyezik, azaz P(X A i ) = P(Y A i ) mide i = 1,,..., r-re. H 1 : az X és Y valószíűségi változók eloszlás eltérő, azaz va legalább egy i, melyre P(X A i ) P(Y A i ). Legye X 1,..., X, Y 1,..., Y m függetle mita úgy, hogy X 1,..., X eloszlása X eloszlása, Y 1,..., Y eloszlása Y eloszlása. Legye N i az A i gyakorisága az X mitába (azaz háyszor fordul elő, hogy X k az A i -be esik, és M i az A i gyakorisága az Y mitába. A próbastatisztika: T = r i=1 ) M i m m. N i + M i ( Ni A szabadsági fok: f = r 1. Legye c az f szabadsági fokú χ -próba kritikus értéke α terjedelem mellett. A próba: ha T < c (azaz a p-érték agyobb a terjedelmél), akkor elfogadjuk H 0 -t, em találtuk szigifikás eltérést az eloszlások között. Ha T > c (azaz a p-érték kisebb a terjedelemél), akkor elutasítjuk H 0 -t, az adatok szigifikás eltérést mutatak az eloszlások között. 34

13. Lieáris modell 13.1. állítás (Lieáris regresszió). Legyeek (x 1, y 1 ), (x, y ),..., (x, y ) adott számpárok. Azokat az a és b együtthatókat keressük, melyre a h = 1 [y i (ax i + b)] i=1 meyiség miimális. Eek megoldása: â = i=1 (x i x)(y i y) k=1 (x k x) ; ˆb = y âx. Példa: a CFC-1 gáz kocetrációja az Atarktiszo (a gáz gyártását 1996- ba tiltották be). év 1990 199 1994 1996 1998 kocetráció (ppm) 195 16 44 60 84 Call: 9. ábra. A CFC-1 (freo) gáz kocetrációja az Atarktiszo és az adatokra illesztett egyees 35

lm(formula = cc ev, data = f1) Residuals: 1 3 4 5 0.4 1.6 4..0 0. Coefficiets: Estimate Std. Error t value Pr(> t ) (Itercept).189e + 04 8.991e + 0 4.35 0.00015 *** ev 1.110e + 01 4.509e 01 4.6 0.000147 *** --- Sigif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual stadard error:.85 o 3 degrees of freedom Multiple R-squared: 0.9951, Adjusted R-squared: 0.9934 F-statistic: 606 o 1 ad 3 DF, p-value: 0.000147 13.. defiíció (Lieáris modell). Legyeek X 1, X,..., X, Y 1,..., Y valószíűségi változók, és tegyük fel, hogy valamely a, b valós számokra Y i = ax i + b + ε i, ahol ε 1,..., ε függetle N(0, σ ) eloszlású valószíűségi változók. Az így kapott (X i, Y i ) párok együttes eloszlását lieáris modellek evezzük. Az X i valószíűségi változókat magyarázó változókak, az ε i valószíűségi változókat hibáak szokták evezi. 13.3. állítás (Becslések a lieáris modellbe). A lieáris modellbe az a, b együtthatók ML-likelihood becslése a következőképpe írható: i=1 â = (X i X)(Y i Y ) k=1 (X ; ˆb = Y âx. k X) Továbbá, ezek a becslések torzítatla becslései az a és b paraméterekek. A hiba szórásáak becslése (ez torzítatla becslés σ-ra): ˆσ = 1 (Y i âx i ˆb). A becslések szórása: D(â) = σ j=1 (X j X) ; j=1 D(ˆb) = σ 1 + X j=1 (X j X). 36

13.4. állítás (Előrejelzés a lieáris modellbe). Legye x adott szám. A lieáris modellből kapott előrejelzés az Y véletle folyamat x potba felvett értékére: âx + ˆb. Az előrejelzés szórása: D(âx + ˆb) 1 = σ + (x X) j=1 (X j X). 10. ábra. A CFC-11 és CFC-1 (freo) gáz kocetrációja (forrás: elte.promt.hu) Az előrejelzés szórásáak becslésekor a σ értéket gyakra ˆσ-val helyettesítik. A teljes igadozás (total sum of squares): j=1 (Y j Y ). Reziduális égyzetösszeg (residual sum of squares): (Y j âx j ˆb) = j=1 [ i=1 (X i X)(Y i Y ) ] k=1 (X k X). 13.5. defiíció. A megmagyarázott igadozás részaráya (coefficiet of determiatio): R = [ i=1 (X i X)(Y i Y ) ] [ k=1 (X k X) ][ k=1 (Y k Y ) ]. Az R értéke 0 és 1 közé esik. Értelmezés: miél közelebb va 1-hez, aál ikább jó közelítést ad a lieáris modell. Ugyaakkor R érzékey a kiugró értékekre. 37

13.1. Az egyees meredeksége A lieáris tag együtthatójára voatkozó hipotézisvizsgálati feladat a következő: H 0 : a = 0 H 1 : a 0, vagy H 1 : a > 0 vagy H 1 : a < 0. A ullhipotézis mellett az alábbi meyiség szabadsági fokú t-eloszlású: ( ) i=1 t = â (X i X) i=1 (Y i âx i ˆb). Tehát α terjedelem mellett az alábbi próbát végezhetjük (a defiíciók a 11.3. részbe szerepeltek). Kétoldali ellehipotézis, H 1 : a 0. Ha t > t (1 α/), akkor elutasítjuk H 0 -t (az együttható szigifikása eltér 0-tól), külöbe elfogadjuk. Egyoldali ellehipotézis, H 1 : a > 0. Ha t > t (1 α), akkor elutasítjuk H 0 -t (az együttható szigifikása agyobb 0-ál), külöbe elfogadjuk. Kétoldali ellehipotézis, H 1 : a < 0. Ha t < t (α), akkor elutasítjuk H 0 -t (az együttható szigifikása kisebb 0-ál), külöbe elfogadjuk. 1 α megbízhatósági szitű kofideciaitervallum a-ra: ( ˆσ â t (1 α) i=1 (X i X), â + t ˆσ (1 α) ). i=1 (X i X) 13.. Előrejelzés Ahogya korábba láttuk, az x potba az előrejelzett érték becslése â x +ˆb. 1 α megbízhatósági szitű kofideciaitervallum ax +b-re, azaz az x -ba felvett érték várható értékére: ( âx + ˆb 1 ± t (1 α) ˆσ + (x X) ). i=1 (X i X) 38

1 α megbízhatósági szitű kofideciaitervallum ax + b + ɛ(x )-ra, azaz az x -ba felvett értékre: ( âx + ˆb ± t (1 α) ˆσ 1 + 1 + (x X) ). i=1 (X i X) A kostas tagról azt tudhatjuk, hogy a b = 0 ullhipotézis eseté a t = ˆb i=1 (X i X). ˆσ j=1 X j Ez alapjá szité lehet hipotézisvizsgálatot végezi az a együttható esetéhez hasolóa. 39

Hivatkozások [1] Csiszár Villő: Statisztika jegyzet. 009. http://www.cs.elte.hu/ villo/esti/stat.pdf [] Móri-Szeidl-Zempléi: Matematikai statisztika példatár. ELTE Eötvös Kiadó, 1997. [3] Joh C. Davis: Statistics ad data aalysis i geology. Wiley, 00. [4] E. H. Isaaks ad R. M. Srivastava: Applied geostatistics. Oxford Uiversity Press, 1989. 40