Biometria. Gergó Lajos 2012.

Hasonló dokumentumok
Valószínűségi változók. Várható érték és szórás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

A valószínűségszámítás elemei

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

egyetemi jegyzet Meskó Balázs

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

BIOMATEMATIKA ELŐADÁS

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

[Biomatematika 2] Orvosi biometria

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Biomatematika 2 Orvosi biometria

Bevezetés a hipotézisvizsgálatokba

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Statisztika elméleti összefoglaló

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Hipotézis vizsgálatok

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

Készítette: Fegyverneki Sándor

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Statisztika Elıadások letölthetık a címrıl

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Nemparaméteres próbák

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Abszolút folytonos valószín ségi változó (4. el adás)

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

A valószínűségszámítás elemei

Valószínűségszámítás összefoglaló

Adatok statisztikai értékelésének főbb lehetőségei

Dr. Karácsony Zsolt. Miskolci Egyetem november

[Biomatematika 2] Orvosi biometria

Normális eloszlás paramétereire vonatkozó próbák

Való szí nű sé gi va ltózó, sű rű sé gfű ggvé ny, élószla sfű ggvé ny

A mérési eredmény megadása

Matematikai geodéziai számítások 6.

[Biomatematika 2] Orvosi biometria

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

A leíró statisztikák

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Hipotézis vizsgálatok

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

(Independence, dependence, random variables)

1. Példa. A gamma függvény és a Fubini-tétel.

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

y ij = µ + α i + e ij

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Matematikai geodéziai számítások 6.

Biostatisztika Összefoglalás

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Biometria az orvosi gyakorlatban. Számítógépes döntéstámogatás

6. Függvények. 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban?

1. tétel. Valószínűségszámítás vizsga Frissült: január 19. Valószínűségi mező, véletlen tömegjelenség.

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Varianciaanalízis 4/24/12

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Egyenletek, egyenlőtlenségek VII.

A Statisztika alapjai

Gyakorló feladatok I.

Biostatisztika VIII. Mátyus László. 19 October

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Kettőnél több csoport vizsgálata. Makara B. Gábor

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Eloszlás-független módszerek 13. elıadás ( lecke)

Gazdasági matematika II. vizsgadolgozat, megoldással,

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

2. A ξ valószín ségi változó eloszlásfüggvénye a következ : x 4 81 F (x) = x 4 ha 3 < x 0 különben

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Megoldások

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Normális eloszlás tesztje

3. Egy szabályos dobókockával háromszor dobunk egymás után. Legyen A az az esemény, hogy

Függvények Megoldások

Jármőtervezés és vizsgálat I. VALÓSZÍNŐSÉGSZÁMÍTÁSI ALAPFOGALMAK Dr. Márialigeti János

Számelmélet Megoldások

Gazdasági matematika II. tanmenet

Átírás:

Biometria Gergó Lajos 2012.

Tartalomjegyzék 1. Valószínűségszámítási bevezető 4 1.1. Bevezető példák, definíciók................. 4 1.2. Valószínűségi változó.................... 6 1.2.1. Normális eloszlású valószínűségi változó..... 11 2. Statisztikai módszerek 14 2.1. Gyakorisági- és sűrűséghisztogram............. 15 2.2. Várható érték és szórás becslése.............. 16 2.3. Regresszió, korreláció.................... 21 2.4. Nevezetes eloszlások a statisztikában........... 24 2.4.1. t-eloszlás....................... 24 2.4.2. F-eloszlás...................... 26 2.4.3. χ 2 -eloszlás...................... 28 2.5. Becslések........................... 29 2.5.1. Pontbecslések.................... 29 2.5.2. Intervallum becslések................ 30 2.6. Statisztikai hipotézisvizsgálat............... 32 2.7. Próbák............................ 34 2.7.1. Korrelációs t-próba................. 34 2.7.2. Egymintás t-próba................. 36 2.7.3. F-próba....................... 38 2.7.4. Kétmintás t-próba................. 39 2.7.5. Variancia-analízis.................. 41 2.7.6. χ 2 -próbák...................... 44 2

TARTALOMJEGYZÉK 3 3. Diszkrét eloszlások 48 3.1. Poisson-eloszlás....................... 48 3.2. Binomiális-eloszlás..................... 49 3.3. Hipergeometrikus-eloszlás................. 50 3.4. Példák............................ 51 4. Statisztikai táblázatok 52

1. fejezet Valószínűségszámítási bevezető 1.1. Bevezető példák, definíciók Az első fejezetben szeretnénk megismertetni az olvasókat a valószínűségszámítás alapjaival, leginkább egyszerű példákon keresztül. A terjedelem korlátai miatt nem tehetünk mindig pontos kijelentéseket, de törekszünk a lehető legprecízebb definíciókra, tételkimondásokra. Akkor tekintsük is az első példánkat, ami az egy darab dobókockával történő dobást írja le. Egy kísérlet lehetséges kimeneteleinek halmazát a valószínűségszámításban eseménytérnek nevezik és általában az Ω (görög nagy omega) betűvel jelölik. Esetünkben ez Ω = {1,2,3,4,5,6} Az Ω halmaz tetszőleges részhalmazát eseménynek nevezzük, tekintsünk erre is példákat. 1. A 1 : 6-ost dobok, halmazjelöléssel: A 1 = {6} Ω 2. A 2 : prímszámot dobok, A 2 = {2,3,5} Ω 3. A 3 : legalább kettest dobok, A 3 = {2,3,4,5,6} Ω 4. A 4 : páros számot dobok, A 4 = {2,4,6} Ω 4

1.1 Bevezető példák, definíciók 5 Az egy elemet tartalmazó eseményeket elemi eseményeknek nevezzük. Példáink közül az A 1 egy elemi esemény, a többi példánk viszont nem elemi esemény. Létezik még két kiemelt, külön nevet kapó esemény, ezek pedig a lehetetlen esemény ( ), valamint a biztos esemény (Ω). Egyszerűen látható, hogy események uniója, metszete, különbsége, és (Ω-ra vonatkozó) komplementere is esemény lesz. Ezek jelölésére a valószínűségszámítás területén általában a következőket használják (unió),, vagy (metszet), \ (különbség), A (A esemény komplementere). Láthatjuk, hogy a metszetet szorzásjellel szokás jelölni, aminek oka, hogy független események valószínűsége egyenlő az események valószínűségeinek szorzatával. Az események definíciója után térjünk rá a valószínűség definíciójára. Egy esemény valószínűségének meghatározásakor az eseményhez egy számot rendelünk a [0, 1] intervallumból. Ez tulajdonképpen egy P, az események halmazán értelmezett függvény segítségével történik. A függvény eseményhez rendelt értéke lesz az adott esemény valószínűsége. A függvénynek bizonyos tulajdonságokkal rendelkeznie kell, hogy valószínűségről beszélhessünk. Egy példa az ilyen tulajdonságok rögzítésére a Kolmogorov-féle axiómarendszer 1. 0 P (A) 1, azaz a valószínűség egy 0 és 1 közötti érték; 2. P ( ) = 0, azaz a lehetetlen esemény valószínűsége 0; 3. P (Ω) = 1, a biztos eseményé pedig 1; 4. A B = P (A B) = P (A)+P (B), azaz ha A és B egymást kizáró események, akkor a két esemény uniójának valószínűsége megegyezik az események valószínűségeinek összegével; ( n ) 5. A i A j = (i j) P A i = n P (A i ), azaz a 4. feltétel véges sok, egymást kizáró eseményre is alkalmazható. Ennek egy n további fontos esete, amikor A i = Ω, azaz az A i események

6 1. Valószínűségszámítási bevezető ( n ) teljes eseményrendszert alkotnak, és ekkor P A i = 1. Megjegyeznénk, hogy természetesen nem csak a Kolmogorov-féle valószínűség létezik, vannak sokkal bonyolultabbak is, de ez az egyik legelterjedtebb modell, mi ezt fogjuk használni a továbbiakban. Példaképpen nézzük a már említett, kockadobáshoz tartozó eseményeket, és valószínűségeiket: P(A 1 ) = 1 6, P(A 2) = 3 6 = 1 2, P(A 3) = 5 6, P(A 4) = 3 6 = 1 2. Most térjünk át egy kicsit bonyolultabb példára, tekintsük azt, amikor két különböző dobókockával (piros, kék) dobunk. Ekkor Ω = {(1,1),(1,2),...,(1,6),(2,1),...,(2,6),...,(6,6)} az eseménytér, Ω = 36. Megjegyeznénk, hogy fontos az a feltétel, hogy különböző kockákkal dobtunk, mert ebben az esetben - úgymond- számít a sorrend, míg ha egyformák lennének a kockák, akkor nem, és bonyolultabb lenne a modell. Példák eseményekre 1. A 1 : legalább 11 a két dobott szám összege, A 1 = {(5,6),(6,5),(6,6)} Ω,P(A 1 ) = 1 12 2. A 2 : a két dobott számból legalább egy 1-es van, A 2 = {(1,1),(1,2),...,(1,6),(2,1),(3,1),...,(6,1)} Ω,P(A 2 ) = 11 36 3. A 3 : a két dobott szám között pontosan egy 1-es van, A 3 = {(1,2),(1,3),...,(1,6),(2,1),(3,1),...,(6,1)} Ω,P(A 3 ) = 5 18 4. A 4 : dupla 1-est dobtunk, A 4 = {(1,1)} Ω,P(A 4 ) = 1 36 1.2. Valószínűségi változó E két példa után megpróbáljuk definiálni a valószínűségi változót, ám mivel a bevezetőben is említettük, hogy nem egy matematikailag tökéletesen precíz mű elkészítése a célunk, hanem a tanulmányok során

1.2 Valószínűségi változó 7 elsajátítandó tananyag könnyű megértését segítő jegyzet, ezért csak bizonyos szemléletes definíciót nyújtunk. Tehát legyen ξ (görög betű, ejtsd: kszí) egy valószínűségi változó, erről mondjunk egyelőre annyit, hogy bizonyos szempontból mér valamit, értékeit egy rögzített halmazból veheti fel. A szemléletes definícióhoz mutassunk példákat 1. ξ 1 valószínűségi változó: méri egy kockadobás eredményét 2. ξ 2 valószínűségi változó: méri két kockával történő dobás esetén a dobott számok összegét 3. ξ 3 valószínűségi változó: méri egy embercsoport testmagasságát 4. ξ 4 valószínűségi változó: méri egy embercsoport testhőmérsékletét 5. ξ 5 valószínűségi változó: méri valamely termék súlyát Precízebben fogalmazva a valószínűségi változó az eseménytéren értelmezett függvény, mely minden egyes eseményhez egy számot rendel. 1.1. Definíció. Egy ξ valószínűségi változót diszkrét eloszlású valószínűségi változónak nevezünk, ha megszámlálható (véges, vagy megszámlálhatóan végtelen) számú értéket vehet fel, különben folytonos eloszlásúnak nevezzük. A példákban említett valószínűségi változók közül ξ 1 és ξ 2 diszkrét eloszlásúak, ξ 1 lehetséges értékei: 1,2,3,4,5,6, míg ξ 2 lehetséges értékei: 2,3,4,...,12. ξ 3,ξ 4,ξ 5 valószínűségi változók pedig folytonos eloszlásúak, lehetséges értékeiket egy adott intervallumból vehetik fel. 1.2. Definíció. Egy ξ valószínűségi változó eloszlásfüggvényén az alábbi F : R [0,1] függvényt értjük, ahol definíció szerint. F(x) = P(ξ < x) 1.3. Megjegyzés. F monoton növekedő függvény.

8 1. Valószínűségszámítási bevezető 1.4. Megjegyzés. Ha ξ diszkrét eloszlású valószínűségi változó, lehetséges értékei: x 1,x 2,..., akkor F(x) = x i <xp(ξ = x i ) alakban számítható. Folytonos eloszlású valószínűségi változók esetén gyakran létezik egy úgynevezett sűrűségfüggvény (f : R [0, + )), amely segítségével felírható az eloszlásfüggvény F(x) = x f(t)dt alakban. 1.5. Megjegyzés. + f(t) dt = 1 egyenlőségnek minden sűrűségfüggvény esetén teljesülnie kell. 1. Példa Vizsgáljuk meg megint az egy kockával történő dobást, de most ebben az általánosabb tárgyalásmódban, azaz legyen ξ valószínűségi változó a kockadobás eredménye. Ekkor a lehetséges értékei: 1, 2, 3, 4, 5, 6. Nézzük meg az eloszlásfüggvényét, amelyet könnyen megkaphatunk az 1.4 megjegyzésbeli képlet alkalmazásával: F(x) = 0, ha x 1, F(x) = 1, ha 1 < x 2, 6. F(x) = 5, ha 5 < x 6, 6 F(x) = 1, ha x > 6.

1.2 Valószínűségi változó 9 2. Példa ξ valószínűségi változó méri az óra két mutatója által közrezárt kisebbik szöget, 0 ξ π a lehetséges értékek. Ekkor az eloszlásfüggvény megadható x, ha x [0,π] π F(x) = P(ξ < x) = 0, ha x < 0 1, ha x > π alakban, valamint ebben az esetben megadható a valószínűségi változó sűrűségfüggvénye is 1, ha x [0,π] f(x) = π 0, különben formában. Továbbá ellenőrizhető, hogy a sűrűségfüggvény, és az eloszlásfüggvény közti összefüggés fennáll, azaz teljesül az F(x) = x f(t) dt egyenlőség. 1.6. Definíció (Várható érték). A ξ valószínűségi változó várható értékén a következő számot értjük M(ξ) = µ = i x i P(ξ = x i ) diszkrét esetben, míg folytonos esetben az M(ξ) = µ = + xf(x)dx számot.

10 1. Valószínűségszámítási bevezető 1.7. Definíció (Szórásnégyzet). A ξ valószínűségi változó szórásnégyzete (varianciája) a D 2 (ξ) = M ( (ξ µ) 2) = M ( ξ 2) (M(ξ)) 2 mennyiség. Diszkrét esetben számítható (x i µ) 2 P(ξ = x i ) formában, folytonos esetben pedig alakban. i + (x µ) 2 f(x)dx 1.8. Definíció (Szórás). A ξ valószínűségi változó szórása (standard eltérése) a σ = M ( (ξ µ) 2) = D 2 (ξ) = D(ξ) mennyiség. 1. Példa Vizsgáljuk meg egy kockadobás várható értékét µ = 6 x i P(ξ = x i ) = i 1 6 = 7 2, i ehhez két megjegyzést fűznénk, mint látjuk, a várható érték nem feltétlenül a lehetséges értékek közül való (három és felet nem tudunk dobni), viszont várható, hogy sok dobás átlaga közel lesz ehhez az értékhez, tehát ilyen szempontból mégis egy olyan mérőszámot fejez ki, mint amit a neve sugall. 2. Példa Nézzük meg, mit tudunk mondani az óramutatós példánál ξ várható értékéről µ = + xf(x)dx = π 0 x 1 π dx = π 2, tehát azt kaptuk, hogy a közrezárt szög várhatóan derékszög.

1.2 Valószínűségi változó 11 1.2.1. Normális eloszlású valószínűségi változó A továbbiakban egy nagyon fontos folytonos eloszlású valószínűségi változóval fogunk foglalkozni részletesebben, mégpedig a normális eloszlású valószínűségi változóval. 1.9. Definíció. A ξ valószínűségi változó normális eloszlású, ha sűrűségfüggvénye f(x) = 1 2πσ e (x µ)2 2σ 2, (x R) alakban adott. F(x) = 1 x 2πσ e (t µ)2 2σ 2 dt, (x R) alakban számítható az eloszlásfüggvénye, viszont sajnos ezt zárt alakban nem lehet kifejezni. A következő ábrán a µ = 2.5, σ = 1.5 paraméterekkel rendelkező normális eloszláshoz tartozó sűrűségfüggvényt szemléltetjük. 0.3 f(x) 2 1 1 2 3 4 5 6 7 µ σ µ µ+σ Látható, hogy a normális eloszlású változók sűrűségfüggvénye egy haranggörbe lesz, amelynek maximuma van a µ pontban, valamint inflexiós

12 1. Valószínűségszámítási bevezető pontjai vannak a µ±σ pontokban, továbbá természetesen ± -ben 0 a határértéke. Kiszámítható, hogy ezen eloszlás szerinti valószínűségi változó várható értéke pontosan a paraméterként megadott µ, míg szórása szintén a paraméterként adott σ lesz. 1.10. Definíció. Normális eloszlás esetén a µ = 0, σ = 1 esetnek külön neve van, az ilyen valószínűségi változót standard normális eloszlású valószínűségi változónak nevezzük. Sűrűségfüggvénye f(x) = 1 e x2 2 2π alakban adott. Standard normális eloszlás esetén az eloszlásfüggvényt nem F-fel, hanem Φ-vel jelölik és alakban számíthatóak az értékei. Φ(x) = 1 x 2π e t2 2 dt 1.11. Megjegyzés. Ez a Φ függvény a valószínűségszámítás területén nagyon komoly szerepet játszik, sok helyen kerül elő, és mivel elég bonyolult a képlete, általában minden könyvben megtalálhatóak táblázatolva az értékei, egy elég sűrű felosztáson véve. Viszont a sűrűségfüggvény szimmetrikus a 0-ra, ezért természetesen csak x > 0 esetben szokták táblázatolni a függvényértékeket, ugyanis a szimmetria tulajdonság felhasználásával kiszámítható Φ( x) = 1 Φ(x) alakban tetszőleges helyen a helyettesítési értéke. 1.12. Megjegyzés. Ha ξ (µ, σ) paraméterű normális eloszlású ξ µ valószínűségi változó, akkor egy standard normális eloszlású σ valószínűségi változót fog megadni. Tehát tetszőleges normális eloszlású változót vissza tudunk vezetni standard normálisra, és így használhatjuk a táblázatolt értékeket. Példaként határozzunk meg három, speciális valószínűségértéket.

1.2 Valószínűségi változó 13 P( ξ µ > σ) 0.32, P( ξ µ > 2σ) 0.05, P( ξ µ > 3σ) 0.002. Innen látható például, hogy körülbelül 68% valószínűséggel a(µ σ, µ+σ) intervallumba esik a változó értéke. Végül szemléltetésképpen rajzoljuk fel a standard normális eloszláshoz tartozó sűrűségfüggvény grafikonját is, azaz amikor µ = 0, σ = 1. 0.4 f(x) 68% 3 2 1 1 2 3 Esetünkben a változó 68%-os valószínűséggel a [ 1, 1] intervallumba esik, továbbá a [ 2, 2] intervallumba már 95% valószínűséggel esik bele, végül szinte teljesen biztos, hogy a [ 3, 3] intervallumba bele fog esni a változónk felvett értéke, egészen pontosan ez a valószínűség 99.8%, de ez látszik az ábránkon is, mert a sűrűségfüggvény 3-nál és 3-nál már erősen közelít a 0-hoz. A pontos értékekhez lapozzunk a jegyzet 53. oldalára, ahol megtaláljuk a Φ függvény táblázatát.

2. fejezet Statisztikai módszerek A rövid valószínűségszámítási bevezető után most szeretnénk bemutatni az alapvető statisztikai módszereket, definíciókat, természetesen példákkal illusztrálva. Első lépésben tisztázzuk, hogy mi is a statisztika feladata. Tegyük fel, hogy adott egy konkrét valószínűségi változó (konkrét mérés), a statisztika során ezt szeretnénk jobban megismerni, jellemezni bizonyos kívánt szempontok alapján. A következő kérdés az lehetne, hogy milyen módon, mi alapján szeretnénk, tudjuk ezt megtenni. A válasz egyszerű, nem ismerjük a valószínűségi változó tulajdonságait, csak véges sok adat (mérés) áll rendelkezésünkre, és ebből szeretnénk minél többet megtudni a valószínűségi változóról. A rendelkezésre álló adatokat mintának nevezik a statisztikában. Ezen minta elemeit a x 1,x 2,...,x n betűkkel jelöljük, n-et a minta méretének, vagy elemszámának nevezzük. 2.1. Definíció (Statisztikai következtetés). Statisztikai következtetésnek hívjuk, amikor egy ismeretlen paraméterű, de ismert eloszlású (pl. normális) valószínűségi változó paraméterére következtetünk egy adott minta alapján. A gyakorlatban ezt arra használhatjuk, hogy egy populáción, vagy populációkon vett mérések, megfigyelések alapján teszünk következtetéseket a populációra vonatkozóan. 14

2.1 Gyakorisági- és sűrűséghisztogram 15 2.1. Gyakorisági- és sűrűséghisztogram Legyen adott x 1,x 2,...,x n minta, ahol a minta mérete, n legyen nagy (50-100). Rendezzük a mintát, és jelöljük ennek az elemeit a = x 1,x 2,...,x n 1,x n = b, tehát a jelölje a legkisebb, míg b a legnagyobb mintaelemet. Ezek után osszuk fel az [a, b] intervallumot r egyenlő részre az y k = a + b a k (k = 0,1,...,r) osztópontokkal. A gyakorlatban r r értéke általában 5-14 között helyezkedik el. Jelölje ezek után f k az [y k 1,y k ) intervallumba eső mintaelemek számát. Ezek alapján már definiálhatjuk egy intervallum relatív gyakoriságát a hányadossal. q k = f k n 2.2. Definíció. Egy x 1,x 2,...,x n mintához tartozó grafikont gyakorisági hisztogramnak nevezünk, ha az [y k 1,y k ) intervallumokon rendre f az k y k y k 1 értékeket veszi fel (egyébként pedig 0-t). Ellenőrizhető, hogy ilyenkor a grafikon által bezárt terület pontosan a minta mérete, azaz n lesz, ugyanis n f k n T = (y k y k 1 ) = f k = n. y k y k 1 k=1 2.3. Definíció. Egy x 1,x 2,...,x n mintához tartozó grafikont sűrűséghisztogramnak nevezünk, ha az [y k 1,y k ) intervallumokon q rendre a k y k y k 1 értékeket veszi fel (egyébként pedig 0-t). Ekkor a grafikon által közrezárt terület pedig 1-gyel lesz egyenlő, ami az előzőek alapján nagyon egyszerűen látható. A sűsűségi hisztogram jól közelíti a sűrűségfüggvényt, ha n nagy, így ha kiválasztunk tetszőleges α, β értékeket (a α < β b), akkor a P(α ξ < β) valószínűségre jó közelítést tudunk adni a sűrűséghisztogram [α, β] intervallum feletti területével. Tehát ha egy h (szakaszonként állandó) függvényként tekintünk a sűrűségi hisztogramra, akkor P(α ξ < β) β α k=1 h(x) dx

16 2. Statisztikai módszerek összefüggést tudjuk felírni. 2.4. Megjegyzés. Mivel egy konkrét α érték feletti terület 0 (mivel az intervallum hossza ilyenkor 0), ezért mindig csak intervallumba esés valószínűségéről szokás beszélni. A könnyebb megértés elősegítésére nézzük a következő mintát a sűrűséghisztogramra vonatkozóan. q 3 y 3 y 2 q 3 q n 2 q 2 q n 1 q 1 y 0 y 1 y 2 y 3 y n 3 y n 2 y n 1 q n y n Az ábrán a téglapok belsejében szereplő q k értékek az adott téglalap területét mutatják. Tudjuk, hogy ezen területek összege pedig 1-et ad ki. 2.2. Várható érték és szórás becslése Ebben a részben adott egy µ várható értékű, σ szórású ξ valószínűségi változó, de mi nem ismerjük sem µ, sem σ értékét, ezekre szeretnénk becslést kapni, szintén egy statisztikai minta segítségével.

2.2 Várható érték és szórás becslése 17 2.5. Definíció (Mintaátlag). Az n x = 1 n x i számot a minta átlagának nevezzük. Erről a mennyiségről elmondhatjuk, hogy jól közelíti a várható értéket, tehát x µ. 2.6. Definíció (Variancia). Az s 2 x = 1 n 1 n (x i x) 2 számot pedig a minta varianciájának nevezzük. Ekkor s x σ, azaz a minta varianciájának négyzetgyöke jól becsli a ξ valószínűségi változó szórását. Az s x mennyiséget tapasztalati szórásnak nevezzük. 2.7. Megjegyzés. Néha könnyebb számolnunk, ha x i minta helyett egy y i mintával dolgozunk, amire teljesül, hogy y i = x i A ( i = 1,2,...,n, tetszőleges, alkalmas A R értékkel). Vizsgáljuk is meg a megjegyzésben említett esetet bővebben. Először tekintsük az y i minta átlagát, n n n y = 1 n y i = 1 n (x i A) = 1 n x i A = x A, tehát ha minden elemet A-val eltolunk, akkor a minta átlaga is A-val tolódik el. Ezek után nézzük meg, mi történik a tapasztalati varianciával, s 2 y = 1 n 1 n (y i y) 2 = 1 n 1 = 1 n 1 n (x i A (x A)) 2 = n (x i x) 2 = s 2 x, tehát azt kaptuk, hogy az eltolás valóban nem változtat a tapasztalati szóráson, tehát ha kényelmesebb, akkor valóban számolhatunk az y i mintával.

18 2. Statisztikai módszerek Példa Számítsuk ki az x 1 = 55,x 2 = 52,x 3 = 56 minta átlagát, és varianciáját! ebből s 2 x = 1 2 x = 55+52+56 3 = 163 3, [ ( 55 163 ) 2 +( 52 163 ) 2 +( 56 163 ) ] 2 3 3 3 lenne, de ez elég bonyolult kifejezés, inkább használjuk fel az előző megjegyzésben említetteket. Legyen y i = x i 52, így a minta: y 1 = 3,y 2 = 0,y 3 = 4, a mintaátlag pedig y = 7. Ezek után nézzük meg 3 az y i minta varianciáját, amiről tudjuk, hogy megegyezik az x i minta varianciájával: [ ( s 2 x = s 2 y = 1 3 7 ) 2 +( 0 7 2 ( + 4 2 3 3) 7 ) ] 2 = 3 [ (2 = 1 ) 2 + 2 3 ( ) 2 7 + 3 ( ) ] 2 5 = 4+49+25 3 18 = 39 9 4.3 2.8. Megjegyzés. Tanácsként megemlítenénk, hogy a mintaátlagot, és a minta varianciáját is 1 tizedesjeggyel pontosabban számítsuk, mint ahogyan az adatok megadásra kerültek, természetesen kerekítéssel. A továbbiakban ismerkedjünk meg két hibafogalommal. 2.9. Definíció (Minta hibája). Egy x 1,x 2,...,x n minta hibáján az adatoknak az x átlagtól való eltérését nevezzük. Ezt az s x szórás méri. Ezek alapján, mint említettük, a hibát az s x mennyiséggel mérhetjük. Egy N (µ, σ) eloszlású változó esetén a 2s x mennyiséggel adható egy 95% megbízhatóságú becslés, ez az úgynevezett hibakorlát, valamint a 3s x mennyiséggel adható egy 99.8% megbízhatóságú becslés, amit pedig biztos hibakorlátnak szokás nevezni.

2.2 Várható érték és szórás becslése 19 2.10. Definíció (Az átlag hibája). Egy x 1,x 2,...,x n mintára vonatkozó x átlag szórását standard hibának nevezzük, és így jelölhetjük, számíthatjuk ki: s x = s x, n ahol n a megszokott módon a minta elemszámát jelöli. Példa Egerek testhőmérsékletét mérték, ebből készítettek egy 15 elemű mintát, az alábbi értékekkel (x 1,x 2,...,x 15 ): 36.8, 36.2, 37.1, 36.7, 36.9, 37.0, 36.9, 37.4, 36.9, 36.6, 36.7, 36.1, 36.8, 36.4, 37.0 C Határozzuk meg a minta átlagát, tapasztalati szórását, szórásnégyzetét, a standard hibát, valamint adjuk meg a biztos hibakorlátot is, majd ellenőrizzük, hogy mit kaptunk. Megoldás: A számítások során a megfelelő számú tizedesjegyig kerekítünk, viszont a kényelmesség, és átláthatóság miatt egyenlőségjellel írjuk le a megoldásokat. A minta átlaga A minta szórásnégyzete x = 1 15 s 2 x = 1 14 Ebből a minta szórása 15 15 x i = 36.77 (x i x) 2 = 0.115 s x = s 2 x = 0.34 A standard hiba s x = s x n = 0.09 A biztos hibakorlát pedig egyszerűen adódik 3s x = 1.02

20 2. Statisztikai módszerek formában. Ezek után vegyük észre, hogy miért is nevezik biztos hibakorlátnak ezt a mennyiséget. Ehhez nézzük meg, hogy a 15 mintaelemből mennyi esik bele az [x 3s x,x+3s x ] intervallumba. Első lépésben határozzuk meg ezt az intervallumot, ami nem más, mint [35.75, 37.79]. Innen már látszik, hogy az összes mintaelem ebben az intervallumban helyezkedik el. 2.11. Definíció (Metodikai hiba). Ebben az esetben párhuzamos méréseket végzünk, rendre n 1,n 2,...,n k elemű mintákat készítve: x (1) 1,x (1) 2,...,x (1) n 1 x (2) 1,x(2) 2,...,x(2) n 2. x (k) 1,x(k) 2,...,x(k) n k Ezen adatokból kiszámítjuk a Q x (1),Q x (2),...,Q x (k) értékeket a következő módon: n j ( ) 2 Q x (i) = x (i) j x (i) j=1 Ebből kapjuk az úgynevezett metodikai hibát alakban. k Q x (j) s m = j=1 k (n j 1) j=1 A metodikai hiba tulajdonképpen a módszernek, eljárásnak a hibáját adja meg.

2.3 Regresszió, korreláció 21 2.12. Definíció (Relatív szórás). Egy minta átlagának (x), valamint szórásának (s x ) felhasználásávaldefiniálható az úgynevezett relatív szórás módon. V = s x x 100% A relatív szórás, mint mérőszám akkor lehet segítségünkre, amikor méréseket szeretnénk összehasonlítani. 2.3. Regresszió, korreláció Az átlagra, és szórásra vonatkozó különböző definíciók, becslések, példák után térjünk át a következő témakörre, ami nem más, mint a regresszió, korreláció. Ezek közül is először ismerkedjünk meg a regresszió fogalmával. A regresszió feladatában azzal foglalkozunk, hogy két adott valószínűségi változó között van-e valamiféle kapcsolat, egy bizonyos függvényen keresztül. Pl. ξ = f(η), ahol f egy tetszőleges függvény. Mi csak a lineáris regresszióval fogunk részletesebben foglalkozni. 2.13. Definíció (Regressziós egyenes). Legyen adott két minta ξ : x 1,x 2,...,x n η : y 1,y 2,...,y n Ekkor az (x i,y i ) (i = 1,2,...,n) pontokra a legkisebb négyzetek módszerével illesztett egyenest regressziós egyenesnek nevezzük. A definícióban említett egyenes egyenlete y = ax+b alakban adott, és tudjuk, hogy a megoldás nem lesz más, mint a = n n x i y i y n x i x 2 i x n, x i

22 2. Statisztikai módszerek b = y ax Tekintsük a következő jelöléseket: n n Q xy = x i y i y x i = Q x = n (x i x)(y i y) (2.1) n n x 2 i x x i, (2.2) amely jelölések majd fontos szerepet fognak játszani a kovariancia, és korreláció definiálása során. 2.14. Megjegyzés. A metodikai hibánál definiált Q x mérőszám megegyezik az itt említettekkel, csak kissé más formában írtuk fel. Ezekkel a jelöléseket felhasználva alakban kapjuk a megoldást. a = Q xy Q x, b = y ax 2.15. Megjegyzés. A legkisebb négyzetek módszere bármilyen elrendeződésű pontokra felírja a feltételeknek megfelelő egyenest, tehát az eljárás sikeressége semmit nem jelent a két változó közötti lineáris kapcsolat tekintetében. Ezek után rá is térünk a már említett kovariancia definíciójára. 2.16. Definíció (Kovariancia, korreláció). Adott két minta x 1,x 2,...,x n és y 1,y 2,...,y n. A két mintára vonatkozó kovariancián (együttes ingadozáson) az s xy = Q xy n 1 mennyiséget értjük. A két minta korrelációs együtthatója pedig alakban adódik. r = s xy s x s y = Q xy Qx Q y

2.3 Regresszió, korreláció 23 2.17. Megjegyzés. Megmutatható, hogy r 1. 2.18. Megjegyzés. Vegyük észre, hogy a lineáris regresszió során kapott a, valamint az s xy és az r mennyiségek számlálója rendre Q xy, nevezőik pedig pozitívak, így az előjelük szintén megegyezik, és csakis Q xy előjelétől függ. 2.19. Megjegyzés. Ha r = 0, akkor azt mondjuk, hogy a két minta korrelálatlan. Továbbá r > 0 esetén pozitív korrelációról, míg r < 0 esetén negatív korrelációról beszélhetünk. Ha r 1, akkor igen erős a korreláció (összefüggés) a két minta között. 2.20. Megjegyzés. Ha két normális valószínűségi változó korrelálatlan, azaz r = 0, akkor függetlenek is. Példa Adott a következő két minta: x i : 5, 3, 1,1,3 y i : 8,10,9,12,11 Határozzuk meg a regressziós egyenest, és a korrelációs együtthatót! Ezek meghatározásához szükségünk lesz Q xy,q x,q y értékeire. Q xy = 5 x i y i y 5 x i = 30 10( 5) = 16 Q x = 5 x 2 i x 5 x i = 45 ( 1)( 5) = 40 Továbbá Q y = 5 5 yi 2 y y i = 510 10 50 = 10 a = Q xy Q x = 16 40 = 0.4 b = y ax = 10 0.4( 1) = 10.4

24 2. Statisztikai módszerek Ezek alapján megadható a regressziós egyenesünk egyenlete alakban. A korrelációs együttható pedig r = Q xy = Qx Q y y = 0.4x+10.4 16 40 10 = 4 5 = 0.8 módon adódik. Ezek után térjünk rá megint egy új témakörre, ami inkább a valószínűségszámítási bevezetőhöz tartozik, ugyanakkor legtöbbször csak a statisztikák készítésénél használják, ezért mi is itt említjük meg. 2.4. Nevezetes eloszlások a statisztikában Három különböző, a statisztikában sokat használt eloszlást fogunk megemlíteni, ezek a t-eloszlás, az F-eloszlás, valamint a χ 2 -eloszlás (khínégyzet). Továbbá bemutatjuk az ezen eloszlásokhoz tartozó táblázatok használatát is. 2.4.1. t-eloszlás Legyen adott egy (µ,σ)-normális eloszlású valószínűségi változó által meghatározott x 1,x 2,...,x n minta. Ezek alapján kiszámítjuk az x és az s x értékeket. Ekkor az x µ s x n 1 szabadságfokú, t-eloszlású lesz. A t-eloszlás eloszlásfüggvénye nem állítható elő explicit formában, de hasonlóan a standard normális eloszlás esetéhez, a kívánt értékeket egy táblázatból kikereshetjük magunknak. A t-eloszláshoz tartozó táblázat megtalálható az 54. oldalon. A használatához nézzünk egy rövid ismertetést, leírást, majd egy példát. A táblázat első oszlopból olvasható le a kívánt szabadsági fok, ez alapján ki tudjuk választani a keresett értékünk sorát, majd az első

2.4 Nevezetes eloszlások a statisztikában 25 sorban szereplő valószínűségek alapján meghatározhatjuk a keresett értéknek az oszlopát is, ilyen módon pedig már rendelkezésünkre is fog állni a kívánt érték. Példa Legyen n = 3, a kívánt valószínűség 0.05, ekkor n 1 = 2 sort, és a 0.05 értékhez tartozó oszlopot kell néznünk, így a keresett értékünk a 4.303 lesz. Ennek jelentése nem más, mint P ( t > 4.303) = 0.05, azaz ez a bizonyos t-eloszlású változó 0.05 valószínűséggel esik a [ 4.303, 4.303] intervallumon kívülre. Nézzünk egy ábrát a t-eloszláshoz tartozó sűrűségfüggvényről. Az ábra az 5 szabadságfokú t-eloszlást szemlélteti. 0.4 4 3 t p 2 1 t p 1 2 3 4 Tudjuk, hogy egy sűrűségfüggvény integrálja a számegyenes felett mindig 1-et kell adjon. Az itt jelölt t p küszöbszám azt adja meg, hogy a 0 körül mekkora környezetben kell vennünk az integrált, hogy 1 p értéket kapjunk, azaz hogy a változó pontosan 1 p valószínűséggel essen a [ t p,t p ] intervallumba. Ebből viszont következik, hogy annak a valószínűsége, hogy ezen kívül esik, pontosan p lesz, ez pedig nem mást fejez ki, mint amit az előző példánknál felírtunk. Megjegyeznénk, hogy mi minden esetben ezt a verzióját fogjuk használni a t-táblázatnak, amit kétoldali vizsgálatnak szokás nevezni, ugyanis, mint az ábrán is látható, mindkét oldalon egyenlő részeket

26 2. Statisztikai módszerek veszünk a számegyenesből. Ugyanakkor létezik egyoldali vizsgálat is a t-eloszlásra, ennek jelentése, hogy a valószínűségen belül nem az abszolút értéket, hanem a konkrét értéket vizsgáljuk, és arra szeretnénk bal-, vagy jobboldali becslést kapni. Továbbá megjegyeznénk, hogy a kétoldali küszöbértékekből egyszerűen kiszámíthatóak az egyoldali vizsgálathoz szükséges küszöbértékek, egészen pontosan a p valószínűségű egyoldali vizsgálathoz tartozó t p érték megegyezik a kétoldali megegyező szabadságfokkal rendelkező t 2p értékkel. 2.4.2. F-eloszlás Legyenek adottak egy(µ, σ)-normális eloszlású valószínűségi változó által meghatározott x 1,x 2,...,x n és y 1,y 2,...,y m minták. Ekkor az s 2 x s 2 y F-eloszlású lesz n 1,m 1 szabadságfokokkal. A továbbiakban válasszuk úgy a törtet, hogy s 2 x s 2 y > 1 teljesüljön, azaz ha nem teljesül, akkor cseréljük meg a két mintát. Az F-eloszláshoz tartozó értékeket szintén egy táblázatban találhatjuk meg, mégpedig az 55. oldaltól kezdődően. A használathoz itt is adunk egy kis leírást, majd egy konkrét példával még világosabbá tesszük az alkalmazást. Először is, állapítsuk meg a nevező szabadságfokát, ami jelöléseink szerint m 1. Keressük meg azt az oldalt, ahol ezen szabadságfok szerepel a táblázat első oszlopában. Ez kijelöl nekünk két táblázatban 5-5 sort. Ezek után nézzük meg a számláló szabadságfokát is, ami jelöléseinkkel n 1 lesz. Ezt az értéket keressük ki a megfelelő táblázat első sorából, így már csak 5 lehetőség maradt meg. Ezek után vegyük figyelembe a kívánt valószínűséget, amit a táblázat 2. oszlopában találunk, és máris megkaptuk a keresett értékünket.

2.4 Nevezetes eloszlások a statisztikában 27 Példa Legyen n = 21, m = 13, a kívánt megbízhatóság pedig 0.01, ekkor a nevező szabadságfoka m 1 = 12 lesz, azaz a szóbajöhető 8 oldalnyi táblázatból számunkra már csak az 57. és 58. oldalon található két táblázat lesz fontos, azoknak is a 12-es szabadságfokhoz tartozó 5-5 sora. Ezek után nézzük a számláló szabadságfokát, ez n 1 = 20 lesz, amivel már csak az 58. oldalon szereplő táblázatrészt kell néznünk. Végül felhasználjuk a kívánt valószínűséget is, ami esetünkben 0.01, azaz 1% volt, így a keresett értékünk a 3.86 lett. Ennek jelentése pedig a következő: ( ) s 2 P x > 3.86 = 0.01, (2.3) s 2 y azaz ez a bizonyos F-eloszlású valószínűségi változó 1% valószínűséggel vesz fel 3.86-nál nagyobb értéket. Az általános esethez még egy ábrát is beszúrnánk, hogy az a t p küszöbindex valójában mit jelent. 0.6 0.5 0.4 0.3 0.2 0.1 0.1 1 2 t p 3 4 Az ábrán az 5, 2 szabadsági fokokhoz tartozó F-eloszlás sűrűségfüggvénye látható, amiről tudjuk, hogy integrálja a számegyenesen 1-et ad. A t p küszöbérték azt adja meg, hogy honnantól kezdve kell integrálnunk, hogy pontosan p legyen a fennmaradó [t p,+ ) intervallum felett vett integrál. Azt pedig tudjuk, hogy a sűrűségfüggvény integrálja egy intervallum felett pontosan azt adja meg, hogy a változó milyen valószínűséggel esik az intervallumba, esetünkben

28 2. Statisztikai módszerek a [t p,+ ) intervallumba, ami pedig nem mást jelent, mint a 2.3 pontban leírt valószínűség. 2.4.3. χ 2 -eloszlás Adott egy (µ, σ) paraméterű normális eloszlású változóból származó x 1,x 2,...,x n minta. Ekkor n ( xi x σ ) 2 n 1 szabadságfokú χ 2 -eloszlású lesz. A χ 2 -eloszlás táblázata a 63. oldalon található. Mivel használata megegyezik a t-táblázatéval, itt csak egy rövid példát említünk meg. Példa Legyen ismét n = 3, a kívánt valószínűség pedig 0.05. Ebben az esetben szintén az n 1 = 2 értékhez tartozó sort, és a 0.05 értékhez tartozó oszlopot kell néznünk, így a keresett értékünk a 5.991 lesz. Látjuk, hogy a használat során ugyanazt kellett tennünk valóban, mint a t-eloszlás esetében, viszont jelentésben van eltérés a kettő között. Mégpedig a példában említettek jelentése a következő: ( n ( ) 2 xi x P > 5.991) = 0.05, σ azaz ez a bizonyos χ 2 -eloszlású, nemnegatív valószínűségi változó 0.05 valószínűséggel vesz fel 5.991-nél nagyobb értéket. Nézzükmegaχ 2 -eloszlásnakisasűrűségfüggvényét, mégpedigamikor a szabadságfok értéke 3.

2.5 Becslések 29 0.3 0.2 0.1 1 2 3 4 5 t p 6 7 8 Lényegében itt is ugyanazt látjuk a grafikonon, mint amit az F- eloszlásnál láthattunk, a sűrűségfüggvény természetesen nem egyezik meg az ottanival, de a szemléletes jelentés megegyezik. Amit észrevehetünk az ábrán, hogy ez a sűrűségfüggvény elég kis értékeket vesz fel a 0 közelében is, és így a küszöbértékekre picit nagyobb értékeket kaphatunk, mint amit az F-eloszlásnál láthattunk. Ezek után térjünk rá a konkrét statisztikai módszerek tárgyalására. 2.5. Becslések 2.5.1. Pontbecslések A pontbecslések során a valószínűségi változó egy paraméterének becslését szeretnénk megkapni egy bizonyos értékkel. Az ilyen típusú becslésekről az előzőekben már volt szó, csak az ismétlés kedvéért röviden megemlítjük. x µ, azaz a mintaátlaggal becsültük a várható értéket, s 2 x σ 2, azaz a tapasztalati szórásnégyzettel becsültük az elméleti szórásnégyzetet, valamint ha ezt így konkrétan nem is mondtuk

30 2. Statisztikai módszerek ki, a tapasztalati korrelációs együtthatóval becsülhetjük az elméleti korrelációs együtthatót (r ρ). Mivel ezeket a módszereket ott részletesebben tárgyaltuk, lépjünk is tovább. 2.5.2. Intervallum becslések Az intervallum becslések során a paraméterre egy úgynevezett megbízhatósági intervallumot adunk meg, ami azt jelenti, hogy megadunk egy intervallumot, amibe adott valószínűséggel esik a keresett ismeretlen paraméter. Várható érték intervallum becslése. Adott egy (µ, σ) paraméterű normális eloszlásból származó x 1,x 2,...,x n minta, ekkor mint tudjuk x µ s x n-1 szabadságfokú t-eloszlású lesz. Ekkor a t-eloszlás táblázatát felhasználva n 1 és 1 p ismeretében keressük ki a megfelelő értéket, legyen ez t p. Láttuk, hogy ennek a jelentése nem más, mint ( ) x µ P > t p = 1 p, s x ezzel ekvivalens állításként már megkapjuk a kívánt formát, mégpedig a következőek szerint. Nézzük meg, hogy az abszolútértékes kifejezés 1 p valószínűséggel nagyobb, mint t p, ám ekkor teljesül az is, hogy p valószínűséggel kisebb, mint t p. Írjuk is fel ezt. ( ) x µ P < t p = p, itt ha kibontjuk az abszolút értéket, akkor ( P t p < x µ ) < t p = p s x s x

2.5 Becslések 31 alakot kapjuk, amiben minden ismert, csak a keresett µ nem. Ha átrendezzük P ( x t p s x < µ < x+t p s x ) = p, majd a valószínűséghez tartozó zárójeleken belül tovább alakítással P (x t p s x < µ < x+t p s x ) = p, amivel pontosan egy p megbízhatóságú intervallumbecslését kaptuk a várható értéknek. Példa Adottak a következők: x = 3,s x = 6,n = 9, határozzuk meg a 95%-os megbízhatósági intervallumot a várható értékre vonatkozóan. A megoldáshoz szükségünk lesz a táblázatból t p értékére, valamint még szükséges s x ismerete is, viszont ezt kiszámíthatjuk a tanult módon s x = s x n = 6 3 = 2, míg a táblázatból kikeresett t p = 2.306 kapjuk. Innen az előzőek szerint 3 2 2.306 < µ < 3+2 2.306, tehát a várható érték 95% valószínűséggel a[ 1.612, 7.612] intervallumba esik. Példa Nézzünk egy, a gyakorlathoz közelebb álló példát is. Tabletták hatóanyagtartalmának a vizsgálatát végezzük el, és a következő 9 értéket kapjuk mg-ban mérve 25.6, 25.3, 24.1, 25.3, 25, 24.7, 25.3, 24.4, 25.6 Adjunk 90%, majd 99%-os megbízhatósági intervallumot a várható értékre. Amegoldáshozelőször szükségünklesz x éss x értékére. Ezek akövetkezők lesznek: x = 25.033

32 2. Statisztikai módszerek s x = 0.529 s x = 0.529 = 0.176 3 Továbbá tudjuk, hogy 9 elemű a minta, tehát a szabadsági fokunk 8 lesz. Először nézzük a 90%-os megbízhatósági intervallumot, azaz amikor p értéke 0.9 lesz. t p meghatározásához a táblázatban a 8-as értékhez tartozó sorban kell keresni, és 1 p = 0.1-hez tartozó oszlopban. Itt azt találjuk, hogy t p = 1.86, így a 90%-os megbízhatósági intervallumra 25.033 1.86 0.176 < µ < 25.033+1.86 0.176 adódik, azaz µ 90%-os valószínűséggel a [24.71, 25.36] intervallumba esik. Nézzük meg, mi a helyzet a 99%-os megbízhatósági intervallummal. Itt már nem részletezzük a számításokat, ebben az esetben t p = 3.355, így a megbízhatósági intervallum pedig a [24.44, 25.62] intervallum lesz. Láthatjuk, hogy ugyan szélesebb intervallumot kaptunk ebben az esetben, viszont ez az intervallum megbízhatóbb becslést ad a várható értékre vonatkozóan. 2.6. Statisztikai hipotézisvizsgálat Ebben az alfejezetben, mint a cím is mutatja, a hipotézisvizsgálattal fogunk foglalkozni. A vizsgálat lényege, hogy megfogalmazunk egy állítást egy valószínűségi változóval kapcsolatban, ezt fogjuk hipotézisnek nevezni, majd egy statisztikai próbával ellenőrizzük az állításunkat, és az eredmények alapján vagy elfogadjuk, vagy elvetjük a hipotézist. Nézzük meg, hogy mik a leggyakoribb hipotézisek: Létrejön-e valamilyen megváltozás (pl. gyógyszer hatására) Van-e különbség (pl. férfi és nő között) Van-e kapcsolat (pl. kor és vérnyomás között) A megfogalmazott hipotézisünket, állításunkat nullhipotézisnek nevezzük, és H 0 -lal jelöljük. Példák H 0 : M(ξ) = a

2.6 Statisztikai hipotézisvizsgálat 33 H 0 : M(ξ) = M(η) H 0 : D(ξ) = D(η) A hipotézisvizsgálat lépései. Először is feltesszük, hogy adott egy x 1,x 2,...,x n mintánk az adott hipotézishez. Ebből a mintából készítünk egy statisztikai változót(legyen ez st), aminek ismert az eloszlása(feltéve, hogy H 0 igaz). Ezek után megadunk egy valószínűséget, ez lesz az úgynevezett szignifikancia szint, amilyen bizonyossággal szeretnénk elvégezni a hipotézisvizsgálatot, ez legtöbbször 5%, de lehet 1%-os is, sőt ha nagyon megbízható vizsgálatra lenne szükség, akkor akár 0.1%-ot is vehetünk. Ezek után ismét a megfelelő táblázatra lesz szükségünk, ahonnan is kikeressük a megfelelő t p értéket, majd a következőt tesszük: st t p esetén elfogadjuk a nullhipotézist, st > t p esetén pedig elvetjük. Ennek kapcsán egy új fogalom kerülhet bevezetésre, mégpedig a hiba fogalma. A hipotézisvizsgálat során két különböző típusú, úgynevezett statisztikai hibáról beszélhetünk, az elsőfajú, illetve a másodfajú hibáról. 2.21. Definíció (Elsőfajú statisztikai hiba). Elsőfajú hibáról akkor beszélünk, ha a nullhipotézisünk ugyan igaz, viszont mi a számítások alapján mégis elvetjük. Az elsőfajú hiba valószínűsége pontosan megegyezik a szignifikancia szinttel. 2.22. Definíció (Másodfajú statisztikai hiba). Másodfajú hibáról pedig akkor beszélünk, ha a nullhipotézisünk nem áll fenn, viszont a számítások alapján mégis elfogadjuk. Az alapok megemlítése után térjünk rá a konkrét hipotézisvizsgálati eljárásokra, a statisztikai próbákra.

34 2. Statisztikai módszerek 2.7. Próbák 2.7.1. Korrelációs t-próba A korrelációs t-próba alkalmazása során arra a kérdésre keressük a választ, hogy vajon két normális eloszlású változó független-e egymástól. Ennek eldöntésére természetesen rendelkezésünkre áll a két változóból származó x 1,x 2,...,x n és y 1,y 2,...,y n minta. A nullhipotézisünk, hogy a két változó független, azaz H 0 : ρ = 0 A próbához természetesen szükség lesz egy szignifikancia szintre, első lépésben megválasztjuk ezt. Majd kiszámítjuk az r tapasztalati korrelációs együtthatót, és ebből elkészítjük a t = n 2 r 1 r 2 statisztikát, amely n-2 szabadságfokú, t-eloszlású lesz, amennyiben H 0 igaz. Majd a már megszokott módon a t-eloszláshoz tartozó táblázatból kikeressük a megfelelő t p értéket, és megvizsgáljuk, hogy vajon t < t p feltétel teljesül-e. Amennyiben igen, akkor elfogadjuk a nullhipotézist, ellenkező esetben pedig elvetjük, az adott szignifikancia szint mellett. Ebben az esetben szokás azt is mondani, hogy szignifikáns (azaz H 0 nem igaz), illetve nem szignifikáns (H 0 igaz) a kapcsolat. Példa Adott a következő két minta: x : 0.1, 0.2, 0.3, 0.4, 0.5, 0.8, 1 y : 40, 3, 0, 18, 4, 22, 25 Vizsgáljuk meg a két változó kapcsolatát. Először számítsuk ki a korrelációs együtthatót, majd végezzük el a korrelációs t-próbát is! Első lépésben számítsuk is ki a tapasztalati korrelációs együtthatót r = Q xy Qx Q y

2.7 Próbák 35 alapján. Ehhez határozzuk meg Q x,q y,q xy értékeit a 22. oldalon található 2.1 és 2.2 képletek alapján. A könnyebb átláthatóság kedvéért foglaljuk táblázatba a szükséges adatokat. x i y i x i y i 0.1 40 4 x 2 i 0.2 3 0.6 0.3 0 0 0.4 18 7.2 0.5 4 2 0.8 22 17.6 1 25 25 3.3 4 34 2.19 Továbbá x = 3.3 7, y = 4 7, így Q x = 2.19 3.32 7 = 0.6343 Q y = 3058 4 4 7 = 3055.7 Q xy = 34 3.3 4 7 = 35.8857 Innen már megkaphatjuk a keresett korrelációs együttható értékét r = 35.8857 0.6343 3055.7 = 0.815 módon. Ebből azt láthatjuk, hogy r 1, tehát erősnek látszik a korreláció a két változó között. Nézzük meg, hogy a korrelációs t-próba milyen eredményt szolgáltat nekünk. t = 0.815 5 = 3.146 1 0.664

36 2. Statisztikai módszerek Most lapozzunk a t-eloszláshoz tartozó táblázatunkhoz, az 54. oldalra, és keressük ki az 5%-os szignifikancia szinthez tartozó 5 szabadsági fokkal rendelkező küszöbértéket. Azt találjuk, hogy t p = 2.571, majd nézzük meg, hogy t t p teljesül-e. Azt kapjuk, hogy nem, így elvetjük a nullhipotézisünket, tehát elvetjük, hogy független lenne a két változó, vagy a másik szóhasználatunkkal élve szignifikáns a kapcsolat a két változó között. Térjünk rá a következő próbánkra, ami nem más, mint az egymintás t-próba. 2.7.2. Egymintás t-próba Az egymintás t-próbát arra használhatjuk, hogy megállapítsuk, vajon egy bizonyos beavatkozás hatására megváltozik-e egy adott tulajdonság. Vizsgálhatjuk például egy gyógyszer hatásosságát, testhőmérséklet, vérnyomás szempontjából. Alkalmazása. Méréseinket egy n elemű, N (µ, σ) eloszlású változóból származó mintán végezzük. Adottak a beavatkozás előtti mért értékek (e i ), valamint a beavatkozás utániak (u i ), ezekből kiszámítjuk a különbséget, megváltozást (x i = u i e i ), és ezt fogjuk a mintának tekinteni. Ezek után a nullhipotézisünk állítása, hogy a várható érték 0, azaz H 0 : µ = 0, a beavatkozásnak nincs hatása, x az adott mintán csak véletlenül lett 0-tól különböző. A eljárások, számítások pedig a következőek szerint zajlanak le. Először is kiszámítjuk a t = x s x statisztikát, amely n 1 szabadságfokú t-eloszlású lesz, amennyiben H 0 igaz.

2.7 Próbák 37 Majd ismét a t-eloszláshoz tartozó táblázatból kikeressük a megfelelő szignifikancia szinthez tartozó t p küszöbértéket, és megvizsgáljuk, hogy teljesül-e a t t p összefüggés. Amennyiben igen, akkor H 0 nullhipotézist elfogadjuk, különben pedig elvetjük. 2.23. Megjegyzés. Figyeljünk, mit is jelent ebben az esetben, ha elfogadjuk a nullhipotézisünket. Ez azt jelenti, hogy 0 a várható érték, tehát várhatóan nem történik változás a gyógyszer hatására, ha elvetjük a nullhipotézist, az jelenti azt, hogy hatásos a gyógyszer. Szokás élni a szignifikáns a változás szóhasználattal is ebben az esetben. Példa Lázcsillapító hatását vizsgáljuk lázas betegeken, a táblázatban e i az i. beteg láza a gyógyszer bevétele előtt, u i az utána mért érték, x i pedig az eltérés a két érték között. e i u i x i x 2 i 38.4 37.6 0.8 38.5 37.8 0.7 39.8 37.8 2 38.3 38.4 0.1 39.2 37.3 1.9 38.4 38.8 0.4 38.5 37.1 1.4 39.1 38.4 0.7 7 11.36 Amire még szükségünk lesz, az x = 7 8 = 0.875, valamint s x, amit kiszámíthatunk a szokásos módon s 2 x = 0.748 segítségével módon. s x = 0.748 8 = 0.3057

38 2. Statisztikai módszerek Ezek után már nincs más, mint kiszámítani a t statisztikát t = 0.875 0.3057 = 2.862, majd keressük ki a 7 szabadsági fokhoz, és 5%-os szignifikancia szinthez tartozó küszöbértéket a t-eloszlás táblázatából. Ott azt találjuk, hogy t p = 2.365. Ezek után vizsgáljuk meg, hogy t t p teljesül-e. Nem teljesül, így elvetjük a nullhipotézist, tehát szignifikáns a változás, azaz hatásos a gyógyszer. 2.7.3. F-próba Az F-próba segítségével azt tudjuk ellenőrizni, hogy két normális eloszlású változónak megegyezik-e a szórása. Azaz H 0 : σ 1 = σ 2 lesz a nullhipotézisünk ebben az esetben. Alkalmazása. Adott a két mintánk: x 1,x 2,...,x n és y 1,y 2,...,y m. Ezekből kiszámítjuk az s 2 x és s2 y varianciákat, és elkészítjük az F = s2 x s 2 y statisztikát. Fontos, hogy itt is úgy válasszuk meg a törtet, hogy nagyobb legyen, mint 1. Az így kapott statisztika n 1,m 1 szabadságfokokkal rendelkező F-eloszlású lesz. Megválasztunk egy kívánt szignifikancia szintet, legyen ez p, majd kikeressük az F-eloszlás táblázatából a megfelelő szabadsági fokok mellett, és p 2 valószínűséghez tartozó küszöbértéket, ez legyen tp 2. Amennyiben F t p, akkor elfogadjuk a nullhipotézist, különben 2 pedig elvetjük. Példa Adott a következő minta 63,65,63,63,67,65,

2.7 Próbák 39 továbbá tudjuk, hogy van egy másik mintánk, amely m = 10 elemű, és a varianciája s 2 y = 16. Hasonlítsuk össze a két minta szórását 5%-os szinten! Ehhez csak s 2 x értékére lesz szükségünk, ehhez használjuk fel a 2.2 fejezetben leírt trükköt, és a minta elemeiből vonjunk ki 63-at, így az új mintánk 0,2,0,0,4,2 lesz. Könnyen kiszámítható, hogy x = 4 a mintaátlag. 3 Ebből s 2 x = 1 ( 3 16 5 9 +2 4 9 + 64 ) = 1 9 5 120 9 = 8 3, így már ki tudjuk számítani a statisztikát F = s y = 16 8 = 6. s x 3 Ezek után keressük ki az F-eloszlás táblázatából (55 62 oldal) a 9,5 szabadsági fokokhoz, és p = 2.5%-os szinthez tartozó értéket 2 t p 2 = 6.68, mivel 6 < 6.68, ezért elfogadjuk a nullhipotézist, és azt mondjuk, hogy a szórások közötti eltérés nem szignifikáns. 2.24. Megjegyzés. Láthatjuk, hogy a számítások során megcseréltük a két mintát, és az x került a nevezőbe, míg y a számlálóba, ennek oka, hogy a törtnek 1-nél nagyobbnak kell lennie. Természetesen a szabadsági fokokat is meg kell cserélni ilyenkor, azért is lett a példában (9,5) az (5,9) helyett. 2.7.4. Kétmintás t-próba Ezzel a próbával két csoport közötti, bizonyos tulajdonság szerinti különbözőségét lehet vizsgálni, feltéve, hogy a minták normális eloszlásúak, függetlenek, és azonos szórással rendelkeznek. Ezt a különbözőséget, vagy éppen azonosságot a várható értékek segítségével

40 2. Statisztikai módszerek fogjuk megállapítani, így a nullhipotézisünk is a várható értékekre vonatkozik H 0 : M(ξ) = M(η), tehát a nullhipotézisünk, hogy megegyeznek a várható értékek, nincs különbség a két csoport között az adott tulajdonság szempontjából. Alkalmazása. Mindenekelőtt adott két minta x 1,x 2,...,x n és y 1,y 2,...,y m, valamint egy kívánt szignifikancia szint, p. Ezekből kiszámítjuk az Qx +Q y s m = n+m 2 közös szórást, majd ebből a t = x y s m 1 n + 1 m statisztikát, amely n + m 2 szabadságfokú t-eloszlású lesz. Ezek utánmegkeressük a táblázatbanat p értéket, majdamegszokott módon döntünk. Amennyiben t t p, akkor elfogadjuk H 0 hipotézist, ebben az esetben azt mondhatjuk, hogy nem szignifikáns a különbség, ellenkező esetben pedig elutasítjuk, és azt mondjuk, hogy szignifikáns a különbség. Példa 8 dohányzó, és 8 nem dohányzó nő bizonyos tulajdonságát vizsgáljuk, és a következőket kapjuk n = 8 m = 8 x = 3.402 y = 6.804 Q x = 28 Q y = 98 s x = 2 s y = 3.742 s x = 0.707 s y = 1.323 t-próbával döntsük el, van-e különbség a két csoport között, azaz a két elméleti várható érték eltér-e egymástól. Mindezt tegyük 5%-os szignifikancia szint mellett.

2.7 Próbák 41 Első lépésben számítsuk ki a metodikai hibát s m = 28+98 14 = 9 = 3, majd ennek segítségével már egyszerűen megkaphatjuk a statisztikát t = 3.402 6.804 3 1 8 + 1 8 = 3.402 3 2 = 2.268, ezek után a t-eloszlás táblázatából keressük ki a megfelelő szignifikancia szinthez, és a 14 szabadsági fokhoz tartozó értéket t p = 2.145, elvégezve az összehasonlítást, azt kapjuk, hogy t > t p, így elutasítjuk a nullhipotézist, tehát azt kapjuk, hogy a két csoport között szignifikáns a különbség. 2.7.5. Variancia-analízis A variancia-analízissel arra keressük a választ, hogy vajon két változó független-e egymástól, vagy sem. Megjegyeznénk, hogy ezt már vizsgáltuk a korrelációs t-próbával is, azonban itt mások lesznek az alkalmazhatósági feltételeink, valamint mindig jól jön, ha egy dolgot nem csak egy módszerrel tudunk megvizsgálni, hanem többféle eljárásunk is van rá. Az alkalmazhatósághoz elég, hogy az egyik változónk (η) normális eloszlású legyen. A nullhipotézis formában adott. H 0 : a két változó független

42 2. Statisztikai módszerek Alkalmazása. Választunk egy szignifikancia szintet, legyen ez esetünkben p = 5%. Ezután kiszámítjuk a következőket Q r := Q2 xy Q x, majd ebből valamint s 2 r := Q r Q h := Q y Q r, s 2 h := Q h n 2, ahol n az első minta elemszáma. Ezen adatokból elkészítjük az F = s2 r s 2 h statisztikát, amely H 0 fennállása esetén 1,n 2 szabadságfokú F- eloszlású lesz. Megkeressük az adott szignifikancia szinthez tartozó t p értéket, és amennyiben F t p, akkor elfogadjuk a nullhipotézist, különben pedig elutasítjuk. 2.25. Megjegyzés. Vigyázzunk, hogy az F-próbával ellentétben itt nem -höz, hanem a p-hez tartozó értéket keressük ki a táblázatból! p 2 2.26. Megjegyzés. Természetesen itt is élhetünk a szokásos szóhasználattal, miszerint szignifikáns a kapcsolat, illetve nem szignifikáns a kapcsolat a két változó között. Példa Adottak a következők n = 12, Q x = 5, Q y = 50, Q xy = 10, p = 0.05 a kérdés az, hogy vajon a két minta között van-e összefüggés. Vizsgáljuk meg ezt az állítást korrelációs t-próbával, és a variancia-analízis eszközeivel is!

2.7 Próbák 43 Először tekintsük a t-próbát, amihez szükségünk lesz a korrelációs hányados meghatározására ebből t = 10 r = Q xy 10 = Qx Q y 5, 10 5 1 10 25 = 10 15 = 2.582 A táblázatból kikeresve a megfelelő értéket, azt kapjuk, hogy t p = 2.228, így elutasítjuk a két változó függetlenségét, tehát azt kaptuk, hogy szignifikáns a különbség. Nézzük, mit ad a variancia-analízis. Vegyük sorban a számításokat: Q r = Q2 xy Q x = 100 5 = 20 s2 r = 20, Q h = Q y Q r = 50 20 = 30 s 2 h = 3, ebből pedig F = 20 3 = 6.667 lesz a statisztikánk. Ez (1, 10) szabadság fokú F-eloszlású lesz, így a táblázatból kikeresve a megfelelő értéket kapjuk, hogy t p = 4.96, mivel F > t p, így elvetjük a nullhipotézist. Tehát ebben az esetben is azt kaptuk, hogy szignifikáns a függés. 2.27. Megjegyzés. A két módszer lényegében ugyanazt adja, sőt lehet tudni azt is, hogy t 2 = F összefüggés fennáll, amit akár ellenőrzésre is lehet használni. Nézzük is meg ezt az összefüggést a példánkban: t 2 = 100 15 = 20 3 = F,

44 2. Statisztikai módszerek itt valóban teljesült. De nézzük meg, általában miért igaz ez az összefüggés. Ehhez kicsit alakítgassuk a t 2 kifejezést. t 2 r 2 = (n 2) 1 r = (n 2) r 2 r 2 Q y = (n 2), 2 1 Q2 xy Q xq y Q y Q2 xy Q x itt használjuk fel, hogy r 2 Q y = Q r azt kapjuk, hogy Q r t 2 = (n 2) = (n 2) Q r = s2 r Q y Q r Q h s 2 h = F, amivel beláttuk az állításunkat. 2.7.6. χ 2 -próbák A χ 2 -próba általában nem számszerű adatokra vonatkozó próbát jelent. Nézzük is sorra a különböző használati lehetőségeit. Két csoport összehasonlítása bizonyos szempontból Ebben az esetben adott két csoport (A és B), valamint egy tulajdonság, ami alapján össze kívánjuk hasonlítani a két csoportot. Ehhez adott egy úgynevezett négymezős táblázat, a következő formában tulajdonság: + tulajdonság: - A a b a+b B c d c+d a+c b+d a+b+c+d = n ahol a, b, c, d nem mérési adatokat jelentenek, hanem darabszámokat. Ebben az esetben nagyon fontos, hogy a használhatóságnak van egy feltétele, miszerint min(a+b,c+d) min(a+c,b+d) > 5n feltételnek teljesülnie kell, egyébként sajnos nem használható a módszer. Ebben az esetben a nullhipotézisünk, hogy nincs különbség a két csoport között az adott tulajdonság szempontjából.