æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Hasonló dokumentumok
Statisztika 1. zárthelyi dolgozat március 21.

Tudjuk, hogy az optimumot az ún. regressziós görbe szolgáltatja, melynek egyenlete:

BIOMATEMATIKA ELŐADÁS

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Statisztika 1. zárthelyi dolgozat március 18.

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

Matematika B4 I. gyakorlat

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

A matematikai statisztika elemei

kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

VII. A határozatlan esetek kiküszöbölése

Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

Matematikai statisztika

Matematikai statisztika gyakorlat 2018/2019 II. félév

6. feladatsor. Statisztika december 6. és 8.

3. SOROZATOK. ( n N) a n+1 < a n. Egy sorozatot (szigorúan) monotonnak mondunk, ha (szigorúan) monoton növekvő vagy csökkenő.

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

Statisztika (jegyzet)

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

Mo= argmax f(x), ha X abszolút folytonos; Mo= argmax P (X = x i ), ha X diszkrét.

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Komputer statisztika

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

(A TÁMOP /2/A/KMR számú projekt keretében írt egyetemi jegyzetrészlet):

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Leíró és matematikai statisztika gyakorlat 2018/2019 II. félév

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

V. Deriválható függvények

1. A radioaktivitás statisztikus jellege

Matematika I. 9. előadás

A tárgy címe: ANALÍZIS 1 A-B-C (2+2). 1. gyakorlat

Statisztikai hipotézisvizsgálatok

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

Statisztika gyakorlat Geológus szakirány

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

Empirikus szórásnégyzet

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli beugró kérdések. Készítette: Szántó Ádám Tavaszi félév

Nevezetes sorozat-határértékek

Gyakorló feladatok II.

3.1. A Poisson-eloszlás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Tartalom. Kezdeti szimulációs technikák. Tipikus kérdések. A bootstrap módszer. Bevezetés A független, azonos eloszlású eset:

Matematikai játékok. Svetoslav Bilchev, Emiliya Velikova

Segédanyag a Leíró és matematikai statisztika tantárgyhoz március 28.

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

A függvénysorozatok olyanok, mint a valós számsorozatok, csak éppen a tagjai nem valós számok,

ANALÍZIS I. TÉTELBIZONYÍTÁSOK ÍRÁSBELI VIZSGÁRA

Innen. 2. Az. s n = 1 + q + q q n 1 = 1 qn. és q n 0 akkor és csak akkor, ha q < 1. a a n végtelen sor konvergenciáján nem változtat az, ha


Bootstrap (Efron, 1979)

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

VÉLETLENÍTETT ALGORITMUSOK. 1.ea.

Wiener-folyamatok definiciója. A funkcionális centrális határeloszlástétel. Norbert Wienerre, a második pedig egy Brown nevű XIX. században élt angol

1. előadás: Bevezetés. Irodalom. Számonkérés. Cél. Matematikai statisztika előadás survey statisztika MA szakosoknak. A matematikai statisztika tárgya

Egy lehetséges tételsor megoldásokkal

Kalkulus gyakorlat - Megoldásvázlatok

ALGEBRA. egyenlet megoldásait, ha tudjuk, hogy egész számok, továbbá p + q = 198.

10.M ALGEBRA < <

1 n. 8abc (a + b) (b + c) (a + c) 8 27 (a + b + c)3. (1 a) 5 (1 + a)(1 + 2a) n + 1

Debreceni Egyetem, Közgazdaság- és Gazdaságtudományi Kar. Feladatok a Gazdasági matematika I. tárgy gyakorlataihoz. Halmazelmélet

4. Test feletti egyhatározatlanú polinomok. Klasszikus algebra előadás NE KEVERJÜK A POLINOMOT A POLINOMFÜGGVÉNNYEL!!!

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

Kalkulus II., második házi feladat

Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

FELADATOK A KALKULUS C. TÁRGYHOZ

Matematikai statisztika gyakorlat Programtervez informatikus alapszak, A szakirány 2018/2019 tavaszi félév Megoldások, végeredmények

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

NUMERIKUS SOROK II. Ebben a részben kizárólag a konvergencia vizsgálatával foglalkozunk.

18. Differenciálszámítás

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Játékszabályok. a keresett valószín ség:

Feladatok és megoldások a 11. heti gyakorlathoz

Lajkó Károly Kalkulus I. példatár mobidiák könyvtár

A maximum likelihood becslésről

Statisztika október 27.

Debreceni Egyetem. Kalkulus példatár. Gselmann Eszter

Statisztika elméleti összefoglaló

1. Adatok közelítése. Bevezetés. 1-1 A közelítő függvény

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli tételek. Készítette: Szántó Ádám Tavaszi félév

Matematikai statisztika

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Statisztikai programcsomagok

1. Sajátérték és sajátvektor

Függvényhatárérték-számítás

Rudas Tamás: A hibahatár a becsült mennyiség függvényében a mért pártpreferenciák téves értelmezésének egyik forrása

Valószín ségszámítás és statisztika

Kutatói pályára felkészítı modul

Átírás:

æ MATEMATIKAI STATISZTIKA Dr. Bolla Mariaa, Matematika Itézet, Sztochasztika Taszék Leíró statisztika Ω, A, P) statisztikai mező, ahol a P mértékcsalád olya P eloszlásokból áll, melyekkel Ω, A, P) valószíűségi mezőt alkot. A probléma éppe a megfelelő eloszlás kiválasztása. Általába paraméteres a mező: P = {P θ : θ Θ}, ahol Θ R k a paramétertér. Vizsgálódásaik középpotjába egy X valószíűségi változó áll pl. az egyetemista fiúk testmagassága, a taszékre délelőtt 10 és 10:30 közt befutó telefohívások száma), melyek potos P eloszlását em ismerjük, csak ayit tuduk, hogy P P. Itt az első példába P a ormális, a másodikba pedig a Poisso eloszláscsalád, azaz problémák paraméteres. Céluk a paraméterek becslése, esetleg hipotézisek vizsgálata pl. igaz-e, hogy az egyetemista fiúk testmagasságáak várható értéke modjuk 175 cm, vagy szigifikása külöbözik-e ez a 10 évvel ezelőtti egyetemistákétól). Midehhez megfigyeléseket végzük, azaz mitát veszük. Statisztikai mita alatt értjük függetle, azoos eloszlású valószíűségi változók egy X 1, X 2,..., X véges sorozatát, ahol az X i valószíűségi változók eloszlása megegyezik az X háttérváltozóéval. Az X 1,..., X mitát rövide jelölje X, azaz X = X 1,..., X ) -dimeziós, függetle kompoesű véletle vektor vektor értékű valószíűségi változó), egy kokrét kimeetelt pedig jelöljö x = x 1,..., x ), ezt a mita realizációjáak evezzük. A mitaelemek egy T = TX) = TX 1,..., X ) mérhető függvéyét statisztikáak hívjuk. Egy statisztikába iformációt tömörítük. Az lesz majd a jó statisztika, mely em veszít léyeges iformációt a tömörítés által. Bevezetjük a következő alapstatisztikákat. Legye X 1,..., X függetle azoos eloszlású -elemű mita. Defiíció. Az X = 1 X i statisztikát mitaátlagak evezzük. Ha hagsúlyozi szereték a mitaelemszámot, akkor az X jelölést haszáljuk, ha pedig a kokrét realizációkkal számoluk, akkor x-t vagy x -t íruk. Steier-tétel. Az x 1,..., x R rögzített értékekkel és tetszőleges c R valós számmal 1 x i c) 2 = 1 x i x) 2 + x c) 2 teljesül. 1

2 Defiíció. Az S 2 = 1 X i X) 2 statisztikát empirikus tapasztalati) szóráségyzetek evezzük, az S 2 = 1 S2 = 1 1 X i X) 2 statisztikát pedig korrigált empirikus tapasztalati) szóráségyzetek. A feti meyiségek gyöke az empirikus tapasztalati) szórás illetve a korrigált empirikus tapasztalati) szórás, melyeket S illetve S jelöl. Ha hagsúlyozi szereték a mitaelemszámot, akkor az S 2 illetve S 2 jelölést haszáljuk, ha pedig a kokrét realizációkkal számoluk, akkor s 2 -t vagy s 2 -t íruk. Következméy. A Steier tételből c = 0 választással következik, hogy az empirikus szóráségyzetet a következőképpe is számolhatjuk: S 2 = 1 Xi 2 X 2 = X 2 X 2. Defiíció. A X /S meyiséget a mitaátlag stadardizált hibájáak stadard error of mea = S.E.M.) evezzük. Pozitív mita eseté az S/ X meyiséget szórási együtthatóak hívják. Mérések esetébe ez utóbbi a relatív hibát jeleti. Defiíció. Legye k rögzített pozitív egész. Az M k = 1 X k i statisztikát k-adik empirikus tapasztalati) mometumak evezzük, az M c k = 1 X i X) k statisztika pedig a k-adik empirikus tapasztalati) cetrális mometum. Nyilvá S 2 = M c 2 = M 2 M 2 1. Defiíció. Az M c 3 /Mc 2 )3/2 valószíűségi változó a ferdeség skewess), az M c 4 /Mc 2 )2 3 valószíűségi változó pedig a lapultság curtosis). Előbbi az eloszlás szimmetriáját fejezi ki szimmetrikus eloszlásokál elméleti értéke 0), utóbbi a sűrűségfüggvéy laposságát méri a stadard ormális eloszlás lapultsága zérus).

Defiíció. Legye X, Y ) T 2-dimeziós valószíűségi változó, X 1, Y 1 ) T,..., X, Y ) T pedig vele azoos eloszlású függetle azoos eloszlású -elemű mita. Jelölje S X illetve S Y a kompoesek empirikus szórását! A 3 C = 1 X i X)Y i Ȳ ) = 1 X i Y i XȲ statisztikát empirikus tapasztalati) kovariaciáak, az R = C S X S Y = X iy i XȲ X2 i X 2) Y i 2 Ȳ 2) statisztikát pedig empirikus tapasztalati) korrelációak evezzük. Defiíció. Az X 1,..., X mitaelemek értékeit em-csökkeő sorredbe felvevő X 1 X 2 X valószíűségi változókat -elemű redezett mitáak evezzük, így a redezett mitaelemek sem em függetleek, sem em azoos eloszlásúak. Tehát mide kotrét x 1, x 2,..., x realizáció eseté ezt az valós számot kell agyság szerit em csökkeő sorredbe redezi, és a agyság szerit i-ediket x i -gal jelöli. Természetese a szorzattér külöböző elemeire más és más lesz a mitaelemek sorredje, és így a redezés is. Defiíció. Az X X 1 statisztikát mitaterjedelemek rage) evezzük. Defiíció. Empirikus tapasztalati) mediá alatt értjük páratla = 2k + 1) eseté X k+1 -ot, páros = 2k) eseté pedig X k + X k+1 )/2-t. Ez valójába a középső mitaelem, és ameyibe a realizációból számolt értékét m jelöli, ezzel teljesül a Steier-tétel L 1 - ormába vett megfelelője: Állítás. mi c R 1 x i c = 1 x i m. A feti miimumot a mita átlagos abszolút eltéréséek is szokták evezi. A következőkbe egy -elemű mita alapjá kívájuk közelítei a háttéreloszlást, ezért megkostruáljuk az ú. empirikus eloszlásfüggvéyt, amiről belátjuk, hogy elég agy -re jól rekostruálja az ismeretle eloszlásfüggvéyt, akármi is legye a véletle mita. Ezt a téyt fogalmazza meg precíze a Gliveko Catelli-tétel, melyet a statisztika egyik alaptételéek is szoktak tekitei. Defiíció. Empirikus tapasztalati) eloszlásfüggvéy alatt a következő véletle függvéyt értjük: tetszőleges x R számra legye F x) := IX i < x) = 0, ha x X 1, k, ha X k < x X k+1 k = 1,..., 1) 1, ha x > X.

4 Itt I ) az argumetumba álló eseméy idikátorváltozója. Köyű láti, hogy az IX i < x) idikátorváltozók függetle azoos eloszlásúak Beroulli eloszlásúak Fx) paraméterrel, ahol F az X háttérváltozó eloszlásfüggvéye). Megjegyezzük, hogy F az x 1,..., x realizációra olya, mit egy Y Ux 1,..., x ) diszkrét egyeletes eloszlású valószíűségi változó eloszlásfüggvéye. Nyilvá EY ) = X és D 2 Y ) = S 2. Állítás. Legye Fx) az elméleti eloszlásfüggvéy és x R rögzített. Akkor EF x)) = Fx), D2 F Fx)1 Fx)) x)) =, és lim F x) = Fx), 1 valószíűséggel. A következő tétel eél még erősebb állítást fogalmaz meg: esté az empirikus eloszlásfüggvéyek F sorozata emcsak rögzített x-re, haem az egész valós számegyeese egyeletese is tart F-hez, 1 valószíűséggel. Gliveko Catelli tétel. eseté sup F x) Fx) 0, 1 valószíűséggel. x R A tétel a mitavétele alapuló eljárások jogosságát támasztja alá. Ameyibe abszolút folytoos az eloszlásuk, az elméleti sűrűségfüggvéyt is közelítei szereték. A tapasztalati eloszlásfüggvéy bármilye jól közelíti is a feti tétel értelmébe az elméletit, mégiscsak egy szakaszokét kostas függvéy, így deriváltja em adhat a problémára megoldást. Szokták az empirikus eloszlásfüggvéyt ú. magfüggvéy segítségével simítai, amely már folytoos, sőt differeciálható lesz és deriváltja jól közelíti az elméleti sűrűséget magfüggvéyes becslők): ˆf x) := d dx F x) mx y) dy, ahol az m magfüggvéy egy kellőe sima valószíűségi sűrűségfüggvéy. A feti kovolúció tulajdoképpe azt jeleti, hogy az eredeti valószíűségi változókra egy zaj rakódik rá. Most csak egy egyszerűbb kostrukciót mutatuk be. elemű mitákhoz osszuk fel a számegyeest a h hosszúságú j diszjukt itervallumokra, és jelölje ν j a j -be eső mitaelemek számát! Defiíció. Az f x) = ν j h, x j összefüggéssel defiiált függvéyt a mita sűrűséghisztogramjáak evezzük. Mivel a mitaelemek befoglalhatók egy véges itervallumba, yilvá eze kívül f x) = 0 lesz, és eze belül véges sok külöböző f x) érték alakul ki. A sűrűséghisztogram

5 is szakaszokét kostas függvéy, és az alatta levő összterület 1. Belátható, hogy ameyibe x a valódi f sűrűségfüggvéy folytoossági potja és olya módo, hogy még lim h = 0 és lim h = is teljesül, akkor lim f x) = fx), 1 valószíűséggel. Pl. ha miták az [a, b] itervallumba foglalható be és h = b a)/, akkor a feltétel em teljesül, viszot h = b a)/ 1 α, 0 < α < 1 eseté teljesül.) A Gliveko Catelli tétel arról szól, hogy az empirikus eloszlásfüggvéy 1 valószíűséggel majdem mide realizációra) az egész számegyeese egyeletese tart az elméleti eloszlásfüggvéyhez. Tehát kellő számú mitát véve tetszőleges potossággal közelítei tudjuk a valódi eloszlásfüggvéyt. De adott potossághoz vajo háy elemű mitát kell veük? A kovergecia sebességére voatkozóa újabb tételeket foguk kimodai. Ezek azt jelzik, hogy kísérlet kb. 1/ agyságredű közelítéshez elegedő. Legye a háttéreloszlás F eloszlásfüggvéye folytoos, F pedig jelölje az - elemű mitához tartozó empirikus eloszlásfüggvéyt. Akkor Tétel Szmirov). ) lim P sup Fx) Fx)) < z = Sz), z R, x R ahol { 0, ha z 0, Sz) = 1 e 2z2, ha z > 0, az ú. Szmirov-eloszlásfüggvéy Tétel Kolmogorov). ahol Kz) = ) sup lim P Fx) Fx) < z = Kz), z R, x R { 0, ha z 0, i= 1)i e 2i2 z 2 = 1 2 1)i 1 e 2i2 z 2, ha z > 0, az ú. Kolmogorov-eloszlásfüggvéy. Legye most az X illetve Y háttérváltozó em feltétleül ismert) eloszlásfüggvéye a folytoos F illetve G függvéy, F illetve G m pedig jelölje az -elemű X 1,..., X illetve az m-elemű Y 1,..., Y m, egymástól is függetle mitákhoz tartozó empirikus eloszlásfüggvéyeket. Tegyük fel továbbá, hogy Fx) = Gx), x R. Akkor Tétel Szmirov). ) m lim P,m + m sup Fx) G mx)) < z = Sz), z R. x R

6 Tétel Szmirov). ) m lim P,m + m sup F x) G m x) < z = Kz), z R. x R A Kolmogorov Szmirov tételeket haszáli fogjuk a hipotézisvizsgálatba aak eldötésére, hogy miták egy adott F eloszlásfüggvéyű eloszlásból származike, vagy pedig két mita származhat-e ugyaabból az eloszlásból. Vegyük észre, hogy a határeloszlások függetleek a valódi háttéreloszlástól, így ú. em-paraméteres próbák defiiálhatók segítségükkel. Most az ú. jó statisztika fogalmát potosítjuk. Defiíció. Likelihood-függvéy alatt értjük a mitaelemek együttes valószíűség illetve sűrűségfüggvéyét. Legye x = x 1,..., x ) R rögzített, és L θ x) a likelihood-függvéy az x helye. Ha a háttéreloszlás diszkrét p θ valószíűségfüggvéyel, akkor L θ x) = P θ X = x) = P θ X i = x i ) = p θ x i ), ha pedig abszolút folytoos f θ sűrűségfüggvéyyel, akkor L θ x) = f θ x i ). Vagyis a likelihood-függvéy az x helye diszkrét esetbe aak a valószíűségét adja, hogy a realizáció éppe x, abszolút folytoos esetbe pedig aak a valószíűségével aráyos, hogy a realizáció x kis köryezetébe esik. Neyma Fisher Faktorizációs Tétel. Egy X mita TX) statisztikája potosa akkor elégséges, ha létezik olya g θ t) θ Θ, t T =T értékkészlete)) és hx) x X) mérhető függvéy, hogy teljesül mide θ Θ, x X eseté. L θ x) = g θ Tx)) hx) Azaz a likelihood-függvéy csak a T statisztiká keresztül függ a paramétertől. Keressük elégséges statisztikákat a faktorizációs tétel alapjá! 1. Példa: Legye X 1,..., X Pλ) függetle azoos eloszlású! λ x i L λ x) = x i! e λ = λ P ) x i e λ) 1 = g λ x i! így X i elégséges statisztika, és yilvá X is az. 2. Példa: Legye X 1,..., X Expλ) függetle azoos eloszlású! L λ x) = λe λx i = λ e λ P x i, x i ) hx),

ami megfelel g λ Tx))-ek, és hx) = 1. Ezért X i elégséges statisztika, és X is az. Nyilvá egy elégséges statisztika ivertálható függvéye is elégséges lesz. Nézzük most példákat többdimeziós paramétertér eseté elégséges statisztikára ilyekor persze a statisztika is többdimeziós). 3. Példa: Legye X 1,..., X Nµ, σ 2 ) függetle azoos eloszlású! Itt θ = µ, σ 2 ). L θ x) = = 1 2πσ) exp 1 2σ 2 1 2πσ) exp 1 2σ 2 ) x i µ) 2 = [ ]) x i x) 2 + x µ) 2, ami megfelel g θ Tx))-ek a TX) = X, S 2 ) elégséges statisztikapárral, hx) = 1. Nyilvá az X, S 2 ) statisztikapár, vagy a X i, X2 i ) statisztikapár is elégséges lesz. 4. Példa: Legye X 1,..., X U[a, b] függetle azoos eloszlású! Itt θ = a, b). L θ x) = f θ x i ) = { 1 b a), ha x 1,..., x [a, b] 0, külöbe. Azaz L θ x) = b a) Ix 1 a, x b) = g θx 1, x ) és hx) = 1 választással a faktorizáció teljesül. Ezért az X1, X ) pár elégséges statisztikát ad az a, b) paraméterpárra. Defiíció. A T elégséges statisztikát miimális elégséges statisztikáak evezzük, ha függvéye bármely más elégséges statisztikáak. Ez a legtömörebb, és ekvivalecia erejéig már egyertelmű. 7

8 BECSLÉSELMÉLET Legye Ω, A, P) paraméteres statisztikai mező, ahol P = {P θ : θ Θ}. A θ paramétert vagy aak valamely ψθ) függvéyét szereték becsüli az X = X 1,..., X ) függetle azoos eloszlású mita alapjá kostruált TX) statisztika segítségével. Jelölje ˆθ ill. ˆψ az így kapott becslést! Egy becslés jóságát külöböző kritériumokkal mérjük. Ezekről, továbbá arról lesz szó, mikor található legjobb becslés, és övekedésével hogya javul a becslés. Defiíció. TX) torzítatla becslés ψθ)-ra, ha E θ TX)) = ψθ), θ Θ. Állítás. X midig torzítatla becslés mθ) = Eθ X)-re, ha ez véges. Bizoyítás. Vegyük az X 1,..., X függetle azoos eloszlású mitát! Feltettük, hogy a közös várható érték létezik: E θ X i ) = mθ), i = 1,...,. Így E θ X ) = 1 E θ X i ) = mθ), θ Θ. Köyű láti, hogy a mitaelemek bármely kovex lieáris kombiációja is torzítatla becslés a feti véges várható értékre, tehát a torzítatlaság ömagába még em teszi egyértelművé a becslést. A feti állításból következik, hogy a B p) biomiális eloszlás p paraméterére rögzített eseté a relatív gyakoriság torzítatla becslés, ugyais Y B p) előáll Y = X i alakba, ahol X 1,..., X Ip) függetle azoos eloszlású Beroulli-változók p várható értékkel, X = Y/ pedig a relatív gyakoriság. A torzítatlaságál gyegébb követelméy a következő: Defiíció. A TX ) statisztikasorozat aszimptotikusa torzítatla becslés ψθ)-ra, ha lim E θtx )) = ψθ), θ Θ. Állítás. Legye X 1,..., X függetle azoos eloszlású mita egy tetszőleges olya eloszlásból, melyre mide θ Θ eseté σ 2 θ) = D 2 θ X) <. Akkor S2 aszimptotikusa torzítatla, S 2 pedig torzítatla becslése a szóráségyzetek. Céluk az, hogy a torzítatla becslések között miél kisebb szórásúakat találjuk. Defiíció. Legye a T 1 és T 2 statisztika torzítatla becslés a θ paraméterre, vagy aak valamely ψθ) függvéyére. Azt modjuk, hogy T 1 hatásosabb efficiesebb) becslés, mit T 2, ha D 2 θt 1 ) D 2 θt 2 ), θ Θ, és legalább egy θ 0 Θ eseté 2)-be < teljesül. Egy torzítatla becslés hatásos efficies) becslés, ha bármely más torzítatla becslésél hatásosabb.

Hatásos becslés em midig létezik, de ha va hatásos becslés, az egyértelmű. Tételek alapjá majd el tudjuk dötei egy torzítatla becslésről, hogy hatásos-e, éháy esetbe pedig garatáli tudjuk hatásos becslés létezését. A kozisztecia azt jeleti, hogy a megfigyelések számáak övelésével javul a becslés potossága. Defiíció. A TX ) statisztikasorozat gyegé/erőse) kozisztes becslés ψθ)- ra, ha mide θ Θ-ra eseté TX ) ψθ) valószíűségbe/1 val.séggel. Állítás. Ha X 1,..., X függetle azoos eloszlású mita X-re és mθ) = E θ X) létezik, akkor akkor X gyegé és erőse is) kozisztes becslés mθ)-ra. Az állítás em más, mit a agy számok gyege és erős törvéye. Legye Ω, A, P) paraméteres statisztikai mező, ahol P = {P θ : θ Θ}. Céluk az, hogy a θ paraméterre vagy aak valamely ψθ) függvéyére kostruált torzítatla becslések szóráségyzetére alsó korlátot adjuk. Ha egy torzítatla becslésre ez a korlát eléretik, akkor biztosak lehetük abba, hogy hatásos becslésük va, ami 1 val.séggel egyértelmű. Szükségük lesz a következő, R. A. Fishertől származó fogalomra. Defiíció. Legye X = X 1,..., X ) függetle azoos eloszlású mita az X háttérválozó eloszlásából, amely a θ paramétertől függ θ Θ), itt csak a dimθ) = 1, Θ kovex esettel foglalkozuk. A feti mita Fisher-féle iformációja az meyiséggel va defiiálva. I θ) = E θ θ ll θx)) 2 0 Tétel Cramér Rao-egyelőtleség). Legye Ω, A, P) paraméteres statisztiaki mező, ahol P = {P θ : θ Θ}, dimθ) = 1. Legye X = X 1,..., X ) függetle azoos eloszlású mita a P θ eloszlásból, amiről most tegyük fel, hogy abszolút folytoos. Tegyük fel továbbá, hogy a TX) statisztika valamely deriválható ψ függvéyel képzett ψθ) paraméterfüggvéy torzítatla becslése, D 2 θt) < +, θ Θ továbbá teljesülek az alábbi bederiválhatósági feltételek: L θ x) dx = θ θ L θx) dx, és θ Tx)L θ x) dx = θ Θ Tx) θ L θx) dx, θ Θ, ahol -dimeziós itegrálást jelet a likelihood-függvéytartójá. Akkor D 2 θ T) ψ θ)) 2, θ Θ. I θ) A következő tétel arról szól, hogya lehet egy torzítatla becslés hatásosságát javítai egy elégséges statisztika segít ségével. 9

10 Rao Blackwell Kolmogorov Tétel. Legye Ω, A, P) paraméteres statisztikai mező, ahol P = {P θ ; θ Θ}. Legye X = X 1,..., X ) függetle azoos eloszlású mita valamely P θ eloszlásból. Legye továbbá a) TX) elégséges statisztika, b) SX) torzítatla becslés a ψθ) paraméterfüggvéyre. Akkor T-ek va olya U = gt) függvéye, amely 1) szité torzítatla becslése a ψθ) paraméterfüggvéyek: E θ U) = ψθ), θ Θ, 2) U legalább olya hatásos becslése ψθ)-ak, mit S: D 2 θ U) D2 θ S), θ Θ. 3) U kostrukciója a következő: U := E θ S T) = gtx)), θ Θ ezt evezzük blackwellizálásak ). A tétel üzeete: a hatásos becsléseket a miimális elégséges statisztika függvéyei közt kell keresi. Becslési módszerek Maximum likelihood elv Legye Ω, A, P) domiált statisztikai mező, ahol P = {P θ ; θ Θ} a paramétertér lehet többdimeziós és legye kovex). Vegyük egy X 1,..., X függetle azoos eloszlású mitát a P θ eloszlásból θ ismeretle). Az x 1,..., x realizáció birtokába a paraméter becsléséek azt a ˆθ-ot fogadjuk el, amely mellett aak a valószíűsége, hogy az adott realizációt kapjuk, maximális. Mivel ezt a valószíűséget a likelihoodfüggvéy tükrözi, a módszer ezt maximalizálja. A maximumhely csak a realizációtól függ, tehát statisztikát kapuk becsléskét. Defiíció. Legye L θ x) : X Θ R + egy -elemű mitához tartozó likelihoodfüggvéy, tfh. L a szorzattére mérhető. A ˆθ : X Θ statisztikát a θ paraméter maximum likelihood ML-)becsléséek evezzük, ha ˆθ globális maximumhelye a likelihood-függvéyek, azaz Lˆθx1,...,x ) x 1,..., x ) L θ x 1,..., x ) teljesül θ Θ és x 1,..., x ) X eseté. Ameyibe Θ kovex, yílt halmaz és L differeciálható θ szerit, akkor a globális max. helyet a stacioárius potok közt keressük. Ilyekor az L θ x) likelihood-függvéy helyett az l θ x) = ll θ x) loglikelihood-függvéyt deriválják θ szerit, ugyais a log-függvéy mootoitása miatt a két függvéy lokális max. helyei megegyezek. Több paraméter eseté parciális deriváltakat veszük. Ezutá elleőrizzük, hogy téyleg lokális maximumot kaptuk-e, és kiválasztjuk a globálisat. 1. Példa: Legye X 1,..., X Pλ) függetle azoos eloszlású! [ ] λ x i l λ x) = l x i! e λ = lλ x i lx i! λ, melyek λ szeriti deriválásával a l λ x) λ = 1 λ x i = 0

likelihood-egyelet adódik, melyek megoldása ˆλ = x. Eze a helye a loglikelihoodfüggvéy λ szeriti második deriváltja egatív, így téyleg lokális maximumhelyet kapuk, ami egybe globális maximumhely is. Tehát a TX) = X statisztika a λ paraméter ML-becslése. 2. Példa: Legye X 1,..., X Expλ) függetle azoos eloszlású! l λ x) = l [ λe λx i ] = lλ λ x i, melyek λ szeriti deriválásával a likelihood-egyelet adódik, melyek megoldása ˆλ = 1/ x. Eze a helye a loglikelihood-függvéy λ szeriti második deriváltja egatív, így téyleg lokális maximumhelyet kapuk, ami egybe globális maximumhely is. Tehát a TX) = 1/ X statisztika a λ paraméter ML-becslése. 3. Példa: Legye X 1,..., X Nµ, σ 2 ) függetle azoos eloszlású, θ = µ, σ 2 ). l θ x) = l 1 e x i µ) 2πσ 2 2σ 2 = [ l 2πσ 2 ) x i µ) 2 ] = 2σ 2 x i µ) 2. = 2 l2π) + lσ2 ) 1 2σ 2 l θ x) µ = 1 2σ 2 2x i µ) 1) = 0 = ˆµ = x. l θ x) = 1 σ 2 2 σ + 1 2 2σ 2 ) 2 x i µ) 2 = 0. Mivel a ˆµ = x szélsőértékhely em függ a σ 2 paramétertől, ezért ˆµ = x-ot a második egyeletbe helyettesítve ˆσ 2 = S 2 adódik, ami torzított, de aszimptotikusa torzítatla becslése a szóráségyzetek. Most vizsgáljuk meg a második deriváltakból álló Hesse-mátrixot a stacioárius x, s 2 ) helye: H = s 2 0 0 2s 2 )2 ez egatív defiit, tehát téyleg lokális maximumhelyet kaptuk, ami a paramétertertomáy yitott volta miatt egybe globális maximumhely is. 4. Példa: Legye X 1,..., X U[a, b] függetle azoos eloszlású! Itt θ = a, b). Az ) 1 L θ x) = Ia x 1 b a, b x ) likelihood-függvéy yilvá csak akkor külöbözik 0-tól, ha az a x 1 és b x feltételek teljesülek. Ilye feltételek mellett viszot az 1/b a) téyező a lehető legrövidebb [a, b] itervallum választása eseté lesz maximális, azaz az itervallum ráhúzódik a mitára. Tehát â,ˆb) = X 1, X ) lesz a paraméterpár ML-becslése., 11

12 Mometumok módszere A módszert általába több paraméter együttes becslésére haszálják. Legye X 1,..., X függetle azoos eloszlású mita egy P θ eloszlásból, θ = θ 1,..., θ k ). Válasszuk k db. mometumot általába az első k-t), amelyek a θ 1,..., θ k paramétereket már egyértelműe meghatározzák: m j = E θ X j ) = g j θ 1,..., θ k ), j = 1,..., k. Tfh. a g 1,..., g k ) : R k R k leképezések létezik iverze, jelölje ezt h 1,..., h k ) : R k R k, ahol tehát h i m 1,..., m k ) = θ i. Defiíció. A feti jelölésekkel θ i mometum becslése alatt a ˆθ i = h i ˆm 1,..., ˆm k ), i = 1,..., k statisztikát értjük, ahol ˆm j = 1 a mita j-edik empirikus mometuma. X j i Legkisebb égyzetes becslések, regresszió Az alapprobléma a következő: Az X, Y v.v. együttes eloszlásáak ismeretébe közelítei szereték Y -t X mérhető t fv.-ével legkisebb égyzetes értelembe: EY tx)) 2 mi. t be. Tudjuk, hogy az optimumot az ú. regressziós görbe szolgáltatja, melyek egyelete: t opt x) = EY X = x), azaz Y feltételes várható értéke a X = x feltétel mellett. Ameyibe X, Y együttes eloszlása 2-dimeziós ormális, a regressziós görbe egyees lesz. Egyéb esetekbe is szokták a a legkisebb égyzetes értelembe legjobb lieáris közelítést keresi, külööse ha az elméleti együttes eloszlás em ismert, csak egy 2-dimeziós mita áll redelkezésükre. 1. Elméleti megoldás Tegyük fel, hogy az X, Y v.v.-k általába ismeretle) együttes eloszlása abszolút folytoos, továbbá a változók első, második és vegyes második mometumai létezek, ezeket külö jelöljük is: EX) = m 1, EY ) = m 2, D 2 X) = σ1 2, D2 Y ) = σ2 2, CovX, Y ) = c, CorrX, Y ) = r, feltehető, hogy σ 1 > 0. Keressük az lx) = ax + b regressziós egyeest, mellyel ha, b) = EY lx)) 2 = EY ax b) 2 mi. a, b be. Ez egy kétváltozós szélsőérték feladat, a stacioárius megoldás az alábbi egyeletredszerből kapható: h = 2E[Y ax b)x] = 0 a h = 2E[Y ax b] = 0 b

13 ui. a feti feltételek mellett a paraméter szeriti deriválás és az itegrálást jelető várható érték képzés felcserélhető), vagy ami ezzel ekvivales: a EX 2 ) + b EX) = EXY ) a EX) + b = EY ). Az ismeretleek a és b, az együtthatómátrix: H = ) EX 2 ) EX), EX) 1 melyek determiása: H = EX 2 ) E 2 X) = σ 2 1 > 0, így a Cramer-szabállyal: a = EXY ) EX) EY ) σ 2 1 = c σ 2 1 = rσ 1σ 2 σ 2 1 = r σ 2 σ 1, b = EY ) aex) = m 2 c σ1 2 m 1. A másodredű deriváltakat tartalmazó Hesse-mátrix szité H, eek midkét főmiora pozitív, így a feti a, b valóba lokális miimumot szolgáltat, ami a tartomáyok yíltsága, és a differeciálhatósági feltételek teljesülése miatt globális miimumot is ad. A regressziós egyees egyelete tehát: y = ax + b = c σ1 2 x m 1 ) + m 2, vagy még köyebbe megjegyezhető formába: y m 2 σ 2 = r x m 1 σ 1. Az is látható, hogy a kovariacia korreláció) előjele adja meg a regressziós egyees iráytageséek előjelét. Néháy szó a regresszió =visszatérés) fogalom jeletéséről. Sir Fracis Galto brit orvos a XIX. század második felébe szülő gyerek testmagasság kapcsolatát vizsgálta. Feltételezte, hogy σ 1 = σ 2 = σ. Akkor a gyerek testmagassága Y ) a szülő testmagasságával X) a következőképpe predikálható lieárisa: Y = m 2 + rx m 1 ), ahol r az X és Y közti korrelációt jelöli. Ha r < 1, akkor yilvá Y m 2 < X m 1. Ebből látható, hogy az r > 0 esetbe: ameyibe a szülő az átlagál magasabb, a gyerek is az lesz, de az utód magassága kevesebbel múlja felül az átlagot, mit a szülőé. Hasolóa, ha a szülő az átlagál alacsoyabb, a gyerek is az lesz, de az utód magassága kevesebbel va alatta az átlagak, mit a szülőé. Az átlagtól való abszolút eltérésre egatív korreláció eseté is hasoló modható.)

14 Ezt a jeleséget evezte el Galto az átlaghoz való visszatérés ek, latiul regresszióak. 2. A regressziós együtthatók becslése mitából Legye most X 1, Y 1 ),..., X, Y ) i.i.d. mita az X, Y ) háttérváltozóra. A feti modell a, b együtthatóit becsüljük a legkisebb égyzetek módszerével: ha, b) = Y i ax i b) 2 mi. a, b be. Miutá az a, b szeriti parciális deriváltakat 0-val tesszük egyelővé, a következő egyeletredszert kapjuk: a Xi 2 + b X i = X i Y i a X i + b = Y i. A Cramer-szabály itt is alkalmazható, hisze feltehető, hogy az együtthatómátrix determiása 2 SX 2 > 0. Teljese hasoló számolással, mit az 1. részbe kijö, hogy â = C SX 2 = R S Y, ˆb = Ȳ â S X = Ȳ RS Y X, X S X ahol S X ill. S Y jelöli X ill. Y korrigálatla) empírikus szórását, C ill. R pedig az X és Y közti empírikus kovariaciát ill. korrelációt jelöli. Mivel az egyeletredszer megoldásakor ugyaazokat a lépéseket követjük el, mit az 1. részbe, em meglepő, hogy a és b becsléséél az elméleti első és második mometumok helyébe a mitából számolt empírikus mometumok lépek, azaz mometum becslést kapuk. Megjegyezzük, hogy lieáris regresszióra vezethetők vissza a következő approximációs feladatok: a. Y ae bx ly la + bx b. Y ax b ly la + b lx c. Y 1/aX + b) 1/Y ax + b Mitából becslésél a. esetbe az X i, ly i ), b. esetbe az lx i, ly i ), c. esetbe az X i, 1/Y i ) i = 1,..., ) 2-dimeziós mitáko hajtjuk végre a 2. részbe leírt lieáris regressziót, és a végé éha még a becsült paramétert is traszformáli kell. Poliomiális regresszió r-edfokú poliomiális regresszióál keressük az Y a r X r + + a 1 X + a 0 közelítést legkisebb égyzetes értelembe: EY a r X r a 1 X a 0 ) 2 mi. a i kbe. Az a r,..., a 1, a 0 együtthatók meghatározásához deriváljuk célfv.-üket midegyik együttható szerit parciálisa. A deriváltakat 0-val egyelővé téve r + 1 db.

lieáris egyeletből álló egyeletredszert kapuk, mely megoldható Cramerszabállyal. A megoldásokba 2r redig jöek be mometumok ezek létezését fel kell tei). Ameyibe 2-dimeziós mita alapjá szereték becsüli az együtthatókat, a becslésekbe a megfelelő empírikus mometumok jöek be 2r redig). Megjegyezzük, hogy itt az r 1 egész szám értékét előre meg kell adi, bár egyes programcsomagokba elég a szóbajöhető maximális r-t megadi, és automatikusa megtörtéik az eél alacsoyabb fokú poliomokhoz való illesztés is az illeszkedés szigifikaciájáak vizsgálatával együtt, ha a felhaszáló kéri. Az r = 1 eset a lieáris regresszió.) Itervallumbecslések Az eddigiekbe ú. potbecslésekkel foglalkoztuk, vagyis a becsüledő paramétert v. paraméterfüggvéyt a mitaelemekből képzett egyetle statisztikával becsültük. Most becsléskét egy egész itervallumot melyek határait természetese statisztikák jelölik ki foguk haszáli. A módszer egybe átvezet beüket a hipotézisvizsgálatok elméletébe. Legye Ω, A, P) paraméteres statisztikai mező, ahol P = {P θ ; θ Θ}, dim Θ) = 1! Legye továbbá X = X 1,..., X ) függetle azoos eloszlású mita a P θ sokaságból θ ismeretle)! Defiíció. A T 1 X), T 2 X)) statisztikapárral defiiált itervallum legalább 1 ε szitű kofideciaitervallum a ψθ) paraméterfüggvéyre, ha P θ T 1 X) < ψθ) < T 2 X)) 1 ε, θ Θ, ahol ε előre adott kis pozitív szám például ε = 0.05, ε = 0.01, a hozzájuk tartozó szigifikaciaszit pedig 95%, 99%). Abszolút folytoos eloszlásokál egyelőség is elérhető, ekkor értelemszerűe potosa 1 ε szitű kofideciaitervallumról beszélük. Diszkrét eloszlásokál em midig érhető el az egyelőség. 1. Példa: Kofideciaitervallum szerkesztése a ormális eloszlás várható értékére ismert szórás eseté Legye X 1,..., X Nµ, σ 2 0 ) függetle azoos eloszlású mita, ahol σ2 0 ismert, µ a várható érték) ismeretle paraméter. Tudjuk, hogy X torzítatla, erőse kozisztes és hatásos potbecslés µ-re. Keressük µ-re 1 ε szitű kofideciaitervallumot az X r ε, X + r ε ) szimmetrikus alakba: azaz P µ X r ε < µ < X + r ε ) = P µ X µ < r ε ) = P µ r ε < X µ < r ε ) = rε P µ σ 0 / < X µ σ 0 / < r ) ) ) ε σ 0 / rε = Φ σ 0 / rε Φ σ 0 / = ) rε = 2Φ σ 0 / 1 = 1 ε, ) rε Φ σ 0 / = 1 ε 2, ahoa a stadard ormális eloszlás 1 ε/2 kvatilisére az u ε/2 = Φ 1 1 ε ) 2 15

16 jelölést haszálva adódik, hogy r ε = u ε/2σ 0. Tehát a keresett 1 ε szitű kofideciaitervallum: X u ) ε/2σ 0 u ε/2 σ 0, X + lesz. Vegyük észre, hogy a kofideciaitervallum hossza övelésével és a σ 0 szórás csökketésével csökke, ha viszot ezeket tartjuk kostas szite, akkor a szigifikaciaszit övelésével ε csökkeésével) ő lévé a stadard ormális eloszlásfüggvéy, Φ, és iverze is szigorúa mooto övő függvéyek). Azaz a mitaelemszám övelésével és a szórás csökkeésével potosabba be tudjuk határoli a várható értéket, viszot agyobb biztoság csak a potosság rovására érhető el. Ismeretle szórás eseté ez em alkalmazható, a számolásokhoz bevezetük éhéy fogalmat. Defiíció. Legyeek X 1,..., X N0, 1) függetle azoos eloszlású valószíűségi változók! Az X = X2 i valószíűségi változó eloszlását szabadsági fokú cetrális) χ 2 -eloszlásak evezzük, és χ 2 )-el jelöljük. Az I.3. paragrafusba meghatároztuk a χ 2 )-eloszlás sűrűségfüggvéyét, továbbá láttuk, hogy Megjegyzések: - EX) = és D 2 X) = 2. - A defiícióból következik, hogy függetle, 1,..., r szabadsági fokú χ 2 -eloszlású valószíűségi változók összege χ 2 -eloszlású lesz 1 + + r szabadsági fokkal. - Ha elég agy, akkor a cetrális határeloszlás tétel értelmébe a χ 2 )-eloszlás ormális eloszlással közelíthető az 5.4)-beli paraméterekkel. Defiíció. Legyeek Y N0, 1) és X χ 2 ) függetle valószíűségi változók. Az Y X/ t) valószíűségi változót szabadsági fokú t-eloszlásúak vagy Studet-eloszlásúak) evezzük, és a feti módo jelöljük. A t)-eloszlás g -el jelölt sűrűségfüggvéye egy páros függvéy, ami eseté a stadard Gauss-görbéhez tart. Eloszlásfüggvéyére G x) = 1 G x). Állítás Lukács Tétel). Legye X 1,..., X Nµ, σ 2 ) függetle azoos eloszlású! Akkor 1) X Nµ, σ 2 /), 2) S 2 /σ2 χ 2 1), 3) X és S 2 függetleek.

Nyilvávaló, hogy 2) és 3) helyett a következő ekvivales állítások haszálhatók: 2 ) 1)S 2 /σ 2 χ 2 1), 3 ) X és S 2 függetleek. 2. Példa: Kofideciaitervallum szerkesztése a ormális eloszlás várható értékére ismeretle szórás eseté Legye X 1,..., X Nµ, σ 2 ) függetle azoos eloszlású mita, ahol a σ szórás és a µ várható érték is ismeretle. Szerkesszük X r ε, X + r ε ) alakú szimmetrikus), 1 ε szitű kofideciaitervallumot µ-re! Az 5.1. Állításból következik, hogy az X µ 1)S N0, 1) és 2 χ 2 1) σ σ 2 statisztikák egymástól függetleek. Alkalmazzuk a t-eloszlás 5.5) defiícióját: 17 Ekkor egyrészt X µ σ 1)S 2 σ / 1) 2 = X µ t 1). S P µ,σ 2 X r ε < µ < X + r ε ) = P µ,σ 2 X µ < r ε ) = = P µ,σ 2 r ε < X µ < r ε ) = rε = P µ,σ 2 < X ) µ r ε < = 1 ε, S S S másrészt pedig a t-eloszlás eloszlásfüggvéyére tett megjegyzés miatt P µ,σ 2 t ε/2 1) < X ) µ < tε/2 1) = 1 ε, S ahol a t 1)-eloszlás 1 ε/2 kvatilisére a jelölést vezetjük be. t ε/2 1) = G 1 1 1 ε ) 2 A feti képletek összevetésével így a kofideciaitervallum sugarára r ε = t ε/2 1) S adódik. Tehát a keresett 1 ε szitű kofideciaitervallum: X t ε/2 1) S t ε/2 1) S, X ) +. Vegyük észre, hogy a kofideciaitervallum hossza aál kisebb, miél agyobb az mitaelemszám és miél kisebb az S korrigált empirikus szórás, továbbá miél alacsoyabb szigifikaciaszitet biztoságot) akaruk eléri. Mivel a szórás ritká ismert, ez a képlet t ε/2 1) helyett u ε/2 -el ismeretle szórás eseté is alkalmazható, ha agy 30), hisze ekkor a korrigált empirikus szórás agy potossággal becsli a valódit.

18 HIPOTÉZISVIZSGÁLAT Az alapproblémát a következő példá érzékeltetem. Vásárlói paaszok érkezek, hogy egy élelmiszerboltba az 1 kg-os feliratú cukros zacskóba valójába kevesebb va. Szereték korrekt módo kivizsgáli az ügyet. Kiszálluk az üzletbe, megmérük véletleszerűe kiválasztott zacskót, X 1,..., X a mita. Legye = 25, és a realizációba azt találjuk, hogy átlaguk 0.98 kg. Mit tegyük? Az eltérést okozhatja a véletle is, hisze az 1 kg várható értékű, ormális eloszlású mitaelemek eltérhetek a várható értéktől. A következőképpe godolkozuk: az ártatlaság vélelme alapjá tegyük fel, hogy em csalak, vagyis a ormális eloszlású háttérváltozó várható értéke valóba 1 kg. Szerkesszük például 95%-os kofideciaitervallumot a várható értékre a mita alapjá! Ameyibe az 1kg hipotetikus várható érték icse bee ebbe az itervallumba, akkor két eset lehetséges: - Mivel az esetek 95%-ába a várható érték bee va ebbe az itervallumba, a véletle folytá lehet, hogy mégiscsak bekövetkezett az az 5% valószíűségű eseméy, hogy icse bee. - Nem igaz eredeti elképzelésük, hogy 1 kg a várható érték. Nagyo kis okuk va azt hii, hogy bekövetkezett egy 5% valószíűségű eseméy, ikább az utóbbi mellett voksoluk, hogy em 1 kg a várható érték. Azaz 95%-os biztosággal úgy dötük, hogy csaltak. Ellekező esetbe, ha az 1 kg bee va a kofideciaitervalluba, viszot 95%-os biztosággal úgy dötük, hogy em csaltak. Lehet, hogy hibása dötöttük. Úgy is döthettük hibása, hogy felmetettük a boltot a vád alól, holott az igaz volt. Vizsgáljuk meg a hibás dötések valószíűségét! Fogalmazzuk meg a feladatot a következőképpe: a H 0 ú. ull-hipotézis és a H 1 alteratív hipotézis elle-hipotézis) közt szereték dötei. Esetükbe az X Nµ, σ0 2 ) háttérváltozó ismeretle µ várható értékére voatkozak a hipotézisek a σ 0 szórást most ismertek vesszük). H 0 : µ = µ 0 = 1 kg), H 1 : µ µ 0. Valójába itt a H 1 : µ < µ 0 alteratívát kellee ikább vizsgáli, ezt egyoldali elle-hipotézisek evezzük, és később tárgyaljuk.) A dötést az X 1,..., X függetle azoos eloszlású mita, illetve az ebből számolt u = X µ 0 σ 0 statisztika alapjá hozzuk. Ettől függetleül választuk egy 1 ε szigifikaciaszitet esetükbe ε = 0.05), és ehhez meghatározzuk az u ε/2 = Φ 1 1 ε ) 2 ú kritikus értéket. A kofideciaitervallumokál taultuk, hogy ez a stadard ormális eloszlás 1 ε/2 kvatilise. Azt is láttuk, hogy P µ0 µ 0 X u ε/2σ 0, X + u ε/2 σ 0 )) = P µ0 u < uε/2 ) = 1 ε.

Tehát H 0 feállása eseté µ 0 1 ε valószíűséggel bee va a feti, X körüli, szimmetrikus kofideciaitervallumba. Ezzel ekvivales, hogy X stadardizáltjáak, az u valószíűségi változóak az abszolút értéke kisebb, mit az u ε/2 kritikus érték. Ezért az ú. u-próba a következő lépésekből áll: 1. A mitából kiszámoljuk az u próbastatisztikát. 2. Az adott 1 ε szigifikacia-szithez táblázat alapjá meghatározzuk az u ε/2 küszöbértéket. 3. Dötük: ha u < u ε/2, akkor 1 ε szite elfogadjuk H 0 -t, az u u ε/2 esetbe pedig elutasítjuk azt. Utóbbi esetbe azt modjuk, hogy a cukroszacskók tömege 1 ε)100%-os szite szigifikása eltér az 1 kg-tól. Példákba: x = 0.98, µ 0 = 1, = 25 és legye σ 0 = 0.05. Ekkor u = 2. Mivel 95%-os szigifikaciaszitél ε = 0.05 és u ε/2 = 1.96, ezért 95%-os biztosággal el kell utasítauk a ull-hipotézist, azaz megállapítjuk, hogy csaltak. 99%-os biztoság mellett ezt már em tudjuk megtei, ugyais akkor ε = 0.01 és u ε/2 = 2.58, ezért 99%-os biztosággal el kell fogaduk a ull-hipotézist. Ez em meglepő, hisze az itervallumbecslésekél megállapítottuk, hogy a szigifikaciaszit övelése öveli a kofideciaitervallum szélességét a mitaelemszám övelése viszot csökketi azt). Azt modhatjuk tehát, hogy 95%-os biztosággal állíthatjuk, hogy csaltak, de 99%-os biztosággal már em állíthatjuk ugyaezt. Azaz a boltot elsőfoko elítélik, de egy szigorúbb bíróság másodfoko felmeti a vád alól. A szigorúság a vádlott érdekeit képviseli: miél kisebbé akarják tei aak valószíűségégét másodfoko ez 0.01, hogy ártatlaul elítéljék.) A stadard ormális eloszlásfüggvéy táblázatából kikereshető, hogy ε = 0.0456 eseté lee u ε/2 = 2, azaz ez lee az a legkisebb ε, ami mellett már, illetve 95.44% lee az a legagyobb biztoság, ami mellett még el tudák utasítai a ull-hipotézist. Dötésükkor kétfajta hiba is felléphet: I. fajú hiba: H 0 feáll, mégis elutasítom. II. fajú hiba: H 0 em áll fe, mégis elfogadom. A feti példába I. fajú hibát követük el, ha elítéljük az ártatlat, és II. fajút, ha felmetjük a bűöst.) Jelölje p 1 illetve p 2 az I. illetve II. fajú hiba valószíűségét. Nyilvá p 1 = P µ0 u uε/2 ) = ε, így ezt a fajta hibát urali tudom a szigifikaciaszit megválasztásával. A másodfajú hiba azoba függ a valódi µ µ 0 paraméterértéktől: p 2 = P µ u < uε/2 ), továbbá függ ε-tól és a mitaelemszámtól is. Be lehet láti, hogy a β µ, ε) = 1 p 2 = P µ u uε/2 ) ú. erőfüggvéy aál agyobb, miél ikább eltávolodik µ a hipotetikus µ 0 -tól, miél agyobb, illetve miél agyobb ε. Az I. és II. fajú hiba tehát elletétes 19

20 mozgású. A gyakorlat döti el, meyire érdemes kicsiek választai az uralható I. fajú hibát. Mivel csak az elsőfajú hiba uralható, a másodfajú változása pedig vele elletétes, előbbit em érdemes túlságosa leszorítai. Az is egy megoldás, hogy a H 0, H 1 szereposztást választjuk meg úgy, hogy a másodfajú hiba elkövetése e legye fatális, az első fajú hibáé legye a súlyosabb vétség, eek valószíűségét viszot tetszőlegese kicsivé tudjuk tei kellőképpe magas szigifikaciaszit választásával. Például gyógyszer-hatásvizsgálatál legye H 0 : a gyógyszer hatástala vagy káros, H 1 : a gyógyszer hatásos. Ilyekor az uralhatatla másodfajú hiba azt jeleti, hogy egy hatásos gyógyszert em vezetek be, mert hatástalaak vagy károsak miősítjük, ami azért em okoz fatális problémákat. Az elsőfajú hiba hogy hatásosak miősítük és bevezetük egy hatástala, etá káros készítméyt valószíűsége viszot kellőe kicsivé tehető, például legye ε = 0.001, így eek bekövetkezése agyo valószíűtle. Általába is, az orvosi gyakorlatba a ull-hipotézis gyakra a pejoratív verziót tartalmazza: icse hatása egy kezelések, egy kliikai mérések ics diagosztizáló hatása, stb., tehát örülük, ha ezt el tudjuk utasítai miél magasabb szite. Ezt külööse em-paraméteres próbákál tudjuk megtei. Más szituációba paraméteres próbákál) viszot ikább agyak választjuk az elsőfajú hibát. Például egy szigorúa rögzített méretű alkatrész gyártásakor gyakra előfordul, hogy a gyártóberedezés kopása miatt a várható érték megváltozik a szórás kicsi). Miőségelleőrzést végzük arra voatkozóa, hogy az alkatrésze megfelel-e a szabváyak. Ekkor a H 0 : a várható érték megegyezik a szabváy mérettel, H 1 : em egyezik meg hipotézisek közötti választásál viszoylag agy ε-t kell választauk, ha szigorúak akaruk lei: vállaljuk, hogy selejtek miősítük egy jó alkatrészt is, semmit véletleül rosszat építsük be. Elterjedt az a gyakorlat, hogy em adjuk meg előre ε-t, haem ézzük, hogy mi az a legkisebb ε, amelyre 1 ε szigifikacia-szite már el tudjuk utasítai a ullhipotézist. A felhaszáló aztá eldöti, elég-e eki ekkora szigifikacia a programcsomagok ezt a küszöb-ε-t írják ki, és éha ezt evezik szigifikaciáak). Amúgy, ha egy próba kozisztes, kellőe agy mitaelemszám eseté a másodfajú hiba tetszőlegese kicsivé tehető, így ilyekor yugodta magasra választhatjuk a szigifikaciaszitet. Statisztikai próbák általáos elméletéről csak ayit, hogy általába a mitateret kell felosztauk egy elfogadási és egy kritikus tartomáyra valamely statisztia kvatilis-értékei alapjá) úgy, hogy az I. fajú hiba vagy azok maximuma, ameyyibe ull-hipotézisük összetett) adott ε legye. Elég általáos kostrukciók létezek erre a felosztásra, melyek adott ε mellett az erőfüggvéyt maximalizálják az ellehipotézis bármely feállása eseté. A leggyakrabba haszált paraméteres és emparaméteres próbákat az órá kiosztott táblázatba foglaltuk össze. Paraméteres próbákál a hipotézis a paraméterre

voatkozik, míg a emparaméteres próbák olya kérdéseket vizsgálak, hogy két mita azoos eloszlásból származik-e, függetle-e, stb. A táblázatba szereplő χ 2 -próba mellett a Kolmogorov-Szmirov tételeke alapuló Kolmogorov-Szmirov próbák is haszálhatók. Vegyük észre, hogy a statisztikai próbák léyege: találuk egy statisztikát, melyek eloszlása megadható a ull-hipotézis feállása eseté. Ezutá megézzük, hogy a mitából kiszámolt eze statisztika értéke meyire tipikus ilye eloszlás eseté. Ha em az, akkor elutasítjuk, külöbe pedig elfogadjuk a ull-hipotézist. 21 Ajálott irodalom - Bolla Mariaa, Krámli Adrás: Statisztikai következtetések elmélete. Typotex, Budapest, 2005. - Reima József: Valószíűségelmélet és matematikai statisztika mérökökek. Taköyvkiadó, Budapest, 1992.