Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat



Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

KÖVETKEZTETŐ STATISZTIKA

Statisztika Elıadások letölthetık a címrıl

Variancia-analízis (VA)

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Variancia-analízis (folytatás)

Hipotézis vizsgálatok

[Biomatematika 2] Orvosi biometria

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Korreláció és Regresszió

y ij = µ + α i + e ij

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Hipotézis vizsgálatok

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Bevezetés a hipotézisvizsgálatokba

Biometria gyakorló feladatok BsC hallgatók számára

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Eloszlás-független módszerek 13. elıadás ( lecke)

Statisztika elméleti összefoglaló

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

4. A méréses ellenırzı kártyák szerkesztése

Több valószínűségi változó együttes eloszlása, korreláció

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

egyetemi jegyzet Meskó Balázs

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Nemparaméteres próbák

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Normális eloszlás tesztje

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Többváltozós lineáris regressziós modell feltételeinek

Adatok statisztikai értékelésének főbb lehetőségei

Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Statisztikai becslés

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Statisztikai módszerek 7. gyakorlat

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Kísérlettervezés alapfogalmak

A maximum likelihood becslésről

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

6. Előadás. Vereb György, DE OEC BSI, október 12.

Normális eloszlás paramétereire vonatkozó próbák

Kettőnél több csoport vizsgálata. Makara B. Gábor

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Korreláció és lineáris regresszió

A Statisztika alapjai

[Biomatematika 2] Orvosi biometria

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

[Biomatematika 2] Orvosi biometria

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Biostatisztika Összefoglalás

Biomatematika 2 Orvosi biometria

Biostatisztika Összefoglalás

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Lineáris regressziószámítás 1. - kétváltozós eset

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Variancia-analízis (folytatás)

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Biostatisztika VIII. Mátyus László. 19 October

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1

Dr. Karácsony Zsolt. Miskolci Egyetem november

Matematikai statisztika szorgalmi feladatok

0,1 P(X=1) = p p p(1-p) Egy p vszgő esemény bekövetkezik-e.

Átírás:

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata

Paraméter becslés és konfidencia intervallum Paraméterbecslés(1) Az alapsokaság valamely θ paraméterét (lehet ez µ, σ, ρ, regressziós állandók, stb.) minta alapján becsüljük. A becsült érték, a mintaelemek valamely T(X 1, X 2,,X n ) függvénye. E függvényt igyekezni kell úgy választani, hogy várható értéke θ legyen (torzítatlanság) és szórása a lehetı legkisebb legyen.

Paraméterbecslés(2) Ha pl. θ az alapsokaságban egy A tulajdonság relatív gyakorisága, θ = p =P(A), akkor a mintabeli relatív gyakoriság (f/n) torzítatlan becslése p -nek, hiszen E(f/n) = p. Ugyanígy, a mintaátlag az alapsokaság µ átlagának torzítatlan becslése, hiszen E( X ) = µ Továbbá s 2 torzítatlan becslése σ 2 -nek Megmutatható, hogy mindhárom minimális szórású a lehetséges becslések között.

Paraméterbecslés(3) A becslési elvek (kritériumok) közül a két leggyakrabban alkalmazottat említjük: a legkisebb négyzetek elvét (LN) és a legnagyobb valószínőség elvét (ML, maximum likelihood). 1. A legkisebb négyzetek elvét használjuk többek között regressziós paraméterek meghatározásánál. Ha az alapsokaságban pl. lineáris összefüggést feltételezünk két ismérv, X és Y között, Y =α + βx akkor a paramétereket az yi- (a+bxi) eltérések négyzetösszegének minimálásával becsüljük, itt xi, yi az i-dik mintaelemnél kapott két ismérvérték, α = a ; β = b

2. A maximum likelihood becslési elv lényege: θ becsléseként azt a értéket fogadjuk el, amely mellett a kapott (realizált) minta esélye a lehetı legnagyobb. Például a sokasági relatív gyakoriság (valószínőség) ML-becslése a mintabeli relatív gyakoriság: p =f/n, a mintabeli relatív gyakoriság.

Konfidencia-intervallum (megbízhatósági határok) Egy sokasági paraméter becsült értéke még hibával terhelt, amit a szórása jelez. A becsült értékbıl az alapsokaság tényleges paraméterértéke csak hibahatáron belül állapítható meg. Ezt a célt szolgálja a konfidencia-intervallum (alsó határa L (lower), felsı határa U (upper)). A θ paraméter pl. 95%-os konfidencia-intervalluma (L,U) egy olyan számköz, amely 95%-os valószínőséggel lefedi a valódi θ paramétert:

Elsı példaként képezzünk 95%-os konfidencia intervallumot egy N(µ, σ) eloszlású X sokaság µ várható értékére, legyen σ ismert. σ Ekkor =1,96, un. hibahatár jelöléssel a sokasági n átlag (µ) 95% biztonsággal L = mintaátlag és U = mintaátlag + közé esik. Ha a szórás nem ismert, azt a mintából becsült szórással (s-sel) helyettesítjük és 1,96 helyett megfelelı t értéket írunk (ld. késıbb).

Második példaként az alapsokaságbeli ismeretlen relatív gyakoriságra (p) keressünk konfidencia intervallumot. Legyen r=f/n a mintabeli relatív gyakoriság Ha a mintanagyság (n) legalább 10, p-nek a 95% -os konfidencia határai (L,U) jó közelítéssel - az alábbi, p -ben másodfokú egyenlet két gyöke n(r p) 2 = 3,84p(1 p)

Statisztikai következtetés: Hipotézis vizsgálat, statisztikai próbák A hipotézisvizsgálat elve (1) A statisztikai hipotézisvizsgálat arra irányul, hogy az alapsokaság(ok)ra vonatkozóan megfogalmazott feltevéseket minta alapján ellenırizzük, elfogadjuk, vagy elvessük. A kísérlet (megfigyelés) elıtt kérdéseket fogalmazunk meg az alapsokaságra vonatkozóan, majd ezeket formálisan hipotézisekbe öntjük:

A hipotézisvizsgálat elve (2) Bármi is az igazolni kívánt hipotézis, elıször meg kell fogalmaznunk a H 0, u.n. null-hipotézist A null-hipotézist mindig tagadó értelemben fogalmazzuk: a kezelésnek nincs hatása, két alapsokaság átlaga nem különbözik, két ismérv nem korrelál, stb. A H 0 munkahipotézishez u.n. ellenhipotézist csatolunk, H 1, ez általában a H 0 egyszerő tagadása, néha viszont az ellenhipotézis valamely irányú egyenlıtlenséget fejez ki, pl. µ 2 >µ 1 (a 2.sokaság átlaga nagyobb az 1.sokaság átlagánál) /ld. késıbb: egy- illetve kétoldali próba/

KÖSZÖNÖM TÜRELMÜKET

8. lecke Hipotézis vizsgálat folyamata a mintavételtıl Elsı és második fajta hiba Egy- és kétoldali próba

A hipotézisvizsgálat elve (3) A hipotézisvizsgálathoz mintát veszünk, adatokat kapunk Az ellenhipotézist is figyelembe véve, kiszámítjuk a kapott- és annál szélsıségesebb minták együttes esélyét (P), ha a null-hipotézis igaz Ha ez az esély (P) túl kicsi, elutasítjuk a H 0 hipotézist és elfogadjuk a H 1 hipotézist Ha P elég nagy, akkor elfogadjuk a H 0 hipotézist Azt, hogy mely P értéket tekintjük elég kicsinek, a kutató dönti el a vizsgált kérdéstıl függıen. Konvencionális értékei α = 5%(=0,05) vagy 1%(=0,01) vagy 0,1%(=0,001). α neve: szignifikancia szint Szignifikanciáról beszélünk, ha elutasítjuk a H 0 -t, de hozzá kell tennünk, hogy mely α hibaszinten

A hipotézisvizsgálat elve (4): döntési hibák Mivel a minta estetleges, a statisztikai döntés nem abszolút érvényő, hibás lehet, erre utal a szignifikáns jelzı a statisztikai tévedés két fajtája: az elsı- és a másodfajú hiba. Tévedhetünk úgy, hogy az alapsokaságban H0 igaz, mégis elutasítjuk, ennek esélye α (elsı fajta hiba), és úgy is, hogy a hamis nullhipotézist elfogadjuk (második fajta hiba), ennek esélye β, értéke függ attól, hogy H0 helyett pontosan mi igaz

A hipotézisvizsgálat elve (5): Modell-példa Vizsgáljuk egy kistelepülésen az újszülöttek között a fiú:leány arányt. a H 0 null-hipotézis: a fiú:lány arány 50:50% A minta: a település szülıotthonában adott hónapban 1 leány és 7 fiú születik (n=8) A P esély itt egyszerő valószínőségszámítási meggondolással közvetlenül számítható A) egyoldali próba Ha az ellenhipotézis (H 1 ) az, hogy a településen több fiú születik mint lány (egyoldali ellenhipotézis), akkor a mintánál szélsıségesebb csak az az eset, hogy mind a 8 újszülött fiú, azaz P = P(0 vagy 1 leány)

A modell-példa folytatása A leányok száma a mintában Binomiális eloszlású n=8 és p=0,5 paraméterekkel, eszerint P = P(0 vagy 1 leány) = 0,5 8 + 8 0,5 8 = 0,035 = 3,5% - mivel 3,5% < 5%, a H 0 hipotézist α = 5%-os szignifikancia szinten elutasítjuk és a H 1 hipotézist fogaduk el: a településen szignifikánsan több fiú születik, mint leány

A modell-példa folytatása B) kétoldali próba Ha az ellenhipotézis (H 1 ) az, hogy a településen nem 50%:50% az újszülöttek fiú:leány aránya (kétoldali ellenhipotézis), - akkor figyelembe kell venni a legfeljebb egy fiú esetet is, így P = P(0 vagy 1 leány) + P(0 vagy 1 fiú) = 2 0,035 = 0,07 = 7% Mivel P>5%, elfogadjuk a fele fiú, fele leány hipotézist

Hipotézisvizsgálat (6) a P hiba-esély kiszámítása ritkán megy közvetlenül általában a mintaelemekbıl elıször képezünk egy alkalmas függvényt (próba függvény, statisztika, ST(.)) e statisztika (mint véletlen változó) eloszlása H 0 fennállásának feltételezésével meghatározható kiszámoljuk az ST statisztikát a kapott mintára, majd - az ellenhipotézist is figyelembe véve - megállapítjuk annak esélyét, hogy H 0 fennállása estén ST legalább olyan szélsıséges érték,mint amit a mintából számoltunk, ez P az eljárásokra szoftverek állnak rendelkezésre

Hipotézisvizsgálat (7): példa Illusztrálásként vizsgáljuk egy bizonyos kezelés hatását n mintaegyeden. Az i-edik egyeden a jelzıérték legyen a kezelés elıtt x 0i, utána x 1i, a növekmény x i = x 1i - x 0i Tegyük fel, hogy {x i } az N(0,σ) eloszlású alapsokaság egy reprezentációja Az ismeretlen σ szórást az x i =adatokból becsüljük, s A kezelés hatástalan volta esetén az X=X 1 -X 0 v.változó várható értéke µ=0, ez a H0. H0 fennállása esetén a t = X s 0 n statisztika n-1 szabadságfokú t-eloszlású v. változó

Hipotézisvizsgálat (8): a példa folytatása Kiszámítva a t-értéket a mintából és a számított értéket összehasonlítva a t- táblázatbeli α-szintő kritikus értékkel, megítélhetjük a kezelés-hatás szignifikanciáját Legyen például n=20, és t=1,9. Mivel a táblázatbeli érték kétoldali próba esetén (azaz H 1 : µ 0) α= 5%-os szinten 2,09, és ennél 1,9 kisebb, elfogadjuk a H 0 hipotézist ( az eltérés nem szignifikáns!), Ha viszont az ellenhipotézis H 1 : µ>0 (azaz jó okunk van arra, hogy pozitív kezeléshatást feltételezzünk), akkor egyoldali próbát alkalmazunk, elfogadjuk a H 1 :hipotézist, mert t táblázatbeli értéke α= 5%-nál 1,78, ennél 1,9 nagyobb, a kezelés hatása tehát szignifikáns

Ellenırzı gyakorlatok Vegyünk fel legalább n=10 elemő pozitív mintát (adatot). Számoljuk ki e minta jellemzıit (átlagok, átlagos eltérés, szórás, az átlag hibája, relatív szórás). Rakjuk nagysági sorrendbe az 2 átlagokat. Ellenırizzük a 2 x x = x n x egyenlıséget. ( ) ( ) 2 Legyen x1>0 és x2=x3=.=xn=0. Mutassuk meg, hogy ez esetben s 2 =n( x) 2. Egy n=25 elemő mintában f=10 egyed rendelkezik egy A tulajdonsággal. Adjuk meg a mintabeli relatív gyakoriságot és ennek hibáját (szórását). Egy diszkrét kvantitatív ismérv lehetséges értékei 0, 1, 2. Ezek részaránya az alapsokaságban p0=0,20=20%, p1=0,30=30%, i p2=0,5=50%. Számoljuk ki az ismérv várható értékét és szórását. i

Ellenırzı gyakorlatok (folytatás) Írjuk fel az n=2, p=0,6 paraméterő binomiális eloszlás p0, p1, p2 tagjait. Mennyi µ és σ? Egy N(12;2) eloszlású alapsokaság egyedeinek hány %-a esik a (8;12) intervallumba? ( Φ( 1 ) = 0, 841 ) Legyenek X1, X2,,Xn azonos eloszlású független v.-változók µ és σ paraméterekkel, továbbá c1, c2,, cn konstansok, melyek összege 1. Igazoljuk, hogy az Y= c 1 X 1 + c 2 X 2 + +c n X n súlyozott átlag várható értéke µ, varianciája σ 2 c i2. Számoljuk ki a normális eloszlású v. változóµvárható értékének 95%-os megbízhatósági intervallumát, ha n = 10 elemő mintából x = 5 és s=2. Adjunk az alapsokaság valamely p arányára 95%-os konfidencia intervallumot, ha n=10 mintagyedbıl a relatív gyakoriság r=0,4

KÖSZÖNÖM TÜRELMÜKET