Egymintás próbák σ s μ m Alapkérdés: A populáció egy adott <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? <átlag> egymintás t-próba <medián> Wilcoxon-féle előjeles rang-próba <szórás> (χ2 próba) <eloszlás> illeszkedésvizsgálat (χ2 próba) <arány> binomiális próba
Egymintás t-próba μ m Alapkérdés: A populáció átlaga (μ) megegyezik-e egy adott referencia értékkel ( μ0 )? Tesztelendő hipotézis 14.4 cm A kecskebékák átlagos lábhossza 14.4 cm?
Kísérlet Mintavétel Mérés, adatok jellemzése Azonosító lábhossz Béka 1: Béka 2: Béka 3: Béka 4: x1 x2 x3 x4 Átlag, szórás, medián. 1 mintát veszünk KÉRDÉS: μ=14.4? 2x2 néha 5!!!
Példa: Brehm állatok világában akadtunk arra az adatra, hogy a kecskebéka átlagos lábhossza 14.4 cm. Vajon igaz-e ez az állítás 5%-os szignifikancia szinten, a következő minta alapján? X := {14.53, 12.77, 15.90, 15.95, 13.24, 14.82, 13.11, 13.90, 13.78,...} n=250
Példa: Brehm állatok világában akadtunk arra az adatra, hogy a kecskebéka átlagos lábhossza 14.4 cm. Vajon igaz-e ez az állítás 5%-os szignifikancia szinten, a következő minta alapján? X := {14.53, 12.77, 15.90, 15.95, 13.24, 14.82, 13.11, 13.90, 13.78,...} n=250 14.4 cm : Hipotetikus érték Egymintás t-próba
Példa: Brehm állatok világában akadtunk arra az adatra, hogy a kecskebéka átlagos lábhossza 14.4 cm. Vajon igaz-e ez az állítás 5%-os szignifikancia szinten, a következő minta alapján? X := {14.53, 12.77, 15.90, 15.95, 13.24, 14.82, 13.11, 13.90, 13.78,...} n=250 Kétoldalú egymintás tpróba
A hipotézisvizsgálat számolásának menete Példa: Brehm állatok világában akadtunk arra az adatra, hogy a kecskebéka átlagos lábhossza 14.4 cm. Vajon igaz-e ez az állítás 5%-os szignifikancia szinten, a következő minta alapján? X := {14.53, 12.77, 15.90, 15.95, 13.24, 14.82, 13.11, 13.90, 13.78,...} n=250 H 0 :μ=14.4 cm H A :μ 14.4 cm
Példa: Brehm állatok világában akadtunk arra az adatra, hogy a kecskebéka átlagos lábhossza 14.4 cm. Vajon igaz-e ez az állítás 5%-os szignifikancia szinten, a következő minta alapján? X := {14.53, 12.77, 15.90, 15.95, 13.24, 14.82, 13.11, 13.90, 13.78,...} n=250 2.5% 95% 2.5%
Példa: Brehm állatok világában akadtunk arra az adatra, hogy a kecskebéka átlagos lábhossza 14.4 cm. Vajon igaz-e ez az állítás 5%-os szignifikancia szinten, a következő minta alapján? X := {14.53, 12.77, 15.90, 15.95, 13.24, 14.82, 13.11, 13.90, 13.78,...} n=250
A próba előfeltételei 1) Normális eloszlású valószínűségi változó
QQ (quantile-quantile plot) ábra: grafikus normalitás vizsgálat Valójában egy illeszkedésvizsgálat (lásd később) gyors, egyszerű és megbízható kis elemszámú minta esetén is működik Elve: n elemű mintát nagyság szerint sorba rendezzük, akkor az i-edik elem értéke a hipotetikus eloszlás i/n kvantilise közelében lesz. Ábrázoljuk ezt a koordináta rendszerben: x tengelyen a hipotetikus eloszlás i/n-edik quantilisét/percentilisét (qi), az y tengelyen pedig a tapasztalati eloszlás i/n-edik quantilise/percentilise, azaz a rendezett minta i-edik elemét ábrázoljuk (yi). Ha két eloszlás azonos akkor pontok y = x egyenesre esnek.
QQ (quantile-quantile plot) ábra: grafikus normalitás vizsgálat Vizsgált eloszlás QQ ábra QQ ábra i/n*100 percentilis i/n*100 percentilis N(0,1)
Hipotézis vizsgálatok a normalitás igazolására 2 1) Khi (χ ) próba illeszkedés vizsgálathoz 2 Bármilyen eloszlás tesztelhető ezzel módszerrel Lásd később 2) Shapiro-Wilk teszt Számolása bonyolult H : a minta normál eloszlást követ, ha p < a akkor H0-t elvetjük! 0 χ 3) Ferdeség és csúcsosság A ferdeség és csúcsosság képletei úgy lettek meghatározva, hogy normál eloszlás esetén 0-t adjanak Intervallum becslésen alapul 4) Kolmogorov-Smirnov (KS) teszt Kisebb minta esetén is alkalmazható (n < 100) Az eloszlásfüggvényekből számol. A próba statisztika értéke az elméleti és tapasztalati eloszlásfüggvény legnagyobb eltérése H : a minta normál eloszlást követ, ha p < a akkor H0-t elvetjük! 0
A próba előfeltételei 1) Normális eloszlású valószínűségi változó 2) A szórását nem ismerjük, ezért a mintából becsüljük x =13.98 s x= 250 (x i x ) 2 i=1 n 1 =1.69
Az egymintás t-próba kézzel 1) Próbastatisztika (a szignifikancia, df: n-1 szabadságfok) x μ x μ ^t = = SE x sx n a/2 1-a x =13.98 s x =1.69 μ=14.4 ^t = 13.98 14.4 = 3.93 1.69 250 a/2 ^t = 3.93 tk 0 t krit =? t krit = t krit =? 1 2 1
Az egymintás t-próba kézzel (folytatás) 2) Kritikus értékek kikeresése ttáblázatból (a szignifikancia értéknél, n-1 szabadságfoknál): tkrit= 1.969 qt(c(0.025,0.975),df=249)
Az egymintás t-próba R-ben x read.csv(file.choose(),hea der=t,dec=.,sep= ; ) VAGY x c(14.53, 12.77, 15.90, 15.95, 13.24, 14.82, 13.11, 13.90, 13.78, ) t=(mean(x)-14.4)/ (sd(x)/sqrt(length(x)))= -3.89 pvalue=pt(t,df=249)*2=0.0001 247 Kétoldalú próba Szimmetrikus eloszlás
Az egymintás t-próba R-ben t.test(x,alternative="two.s ided",mu=14.4,conf.level=0. 95) One Sample t-test data: x t = -3.8981, df = 249, pvalue = 0.0001247 alternative hypothesis: true mean is not equal to 14.4 95 percent confidence interval: 13.77250 14.19375 sample estimates: mean of x 13.98312
Döntés a / 2 a / 2 p=p ( ^t <t krit ) t ^t = 3.93-1.969 1) Kézi alapján ^t = 3.93 tkrit1=tkrit2= 1.969 1.969 számolás ^t <t krit <t krit 1 2) Gépi számolás alapján Szignifikanciaszint (a) = 0.05 2 p<a p-value = 0.0001247 H0-t elvetjük, azaz a békalábak nem 14.4 cm-esek (p = 0.0001)!
Az egymintás t-próba előfeltételeinek megsértése 1) Nem normális eloszlású valószínűségi változó Wilcoxonféle előjeles rang-próba 2) A varianciát nem a mintából becsüljük egymintás mintás zpróba
Megjegyzések 1) 2) H 0 :μ=14.4 cm H 0 :μ μ 0=0 cm H A :μ 14.4 cm H A :μ μ0 0 cm t-próba t-próba (Johnson- és Gayen-próba) t-próba
Egymintás t-próba helyett konfidenciaintervallum számítás μ x x x x x μ H0 C 1,2= x ±t (a, n 1) sx n x μ H0
Egymintás t-próba helyett konfidenciaintervallum számítás sx 1.969 1.69 C 1,2 = x ±t (a, n 1) =13.98± n 250 C 1,2 =13.98±0.21=[13.77,14.19] C 1,2 =[13.77,14.19] 14.4=μ One Sample t-test data: x t = -3.8981, df = 249, p-value = 0.0001247 alternative hypothesis: true mean is not equal to 14.4 95 percent confidence interval: 13.77250 14.19375 sample estimates: mean of x 13.98312 x μ H0
Egymintás χ2-próba s σ Alapkérdés: A populáció variancája (σ2) megegyezik-e egy adott referencia variancia (σ02) értékkel? Tesztelendő hipotézis 14.4 cm A kecskebékák átlagos lábhossza 14.4 cm, varianciája kisebb mint 3.5 cm2?
Példa: Brehm állatok világában akadtunk arra az adatra, hogy a kecskebéka átlagos lábhossza 14.4 cm, szórása 1.871 cm. Vajon igaz-e, az állítás 5%os szignifikancia szinten, hogy a minta varianciája kisebb mint 3.5 cm2? X:= {13.06, 13.70, 14.45, 14.68, 14.42, 11.44, 11.18,...} n=250 Egyoldalú egymintás χ2 próba variancia tesztelésre H 0 : σ 2 3.5 cm H A :σ 2 <3.5 cm H0 H0
Illeszkedésvizsgálat (χ2-próba) Alapkérdés: A populáció eloszlása megegyezik-e egy hipotetikus eloszlással? Példa: Hangyaleső tölcsérek eloszlásának vizsgálata
Példa: A hangyalesők a laza szerkezetű talajba ássák hangyafogó tölcséreiket. A Hortobágy területén 112 db 40x40 cm-es mintavételi egységben számolták össze a hangyaleső tölcséreket. Az eredményeket az alábbi táblázat tartalmazza. Vizsgáljuk meg 3%-os szignifikancia szinten, hogy a tölcsérek a talajban véletlenszerűen helyezkednek el? db/40x40 0 1 2 3 4 5 6 db 47 23 19 12 8 3 0 112 Illeszkedésvizsgálat Poissoneloszlásra χ2 próbával H 0 : a populáció Poisson eloszlású H A :a populáció nem Poisson eloszlású
Példa: A hangyalesők a laza szerkezetű talajba ássák hangyafogó tölcséreket. A Hortobágy területén 112 db 40x40 cm-es mintavételi egységben számolták össze a hangyaleső tölcséreket. Az eredményeket az alábbi táblázat tartalmazza. Vizsgáljuk meg 3%-os szignifikancia szinten, hogy a tölcsérek a talajban véletlenszerűen helyezkednek el? db/40x40 0 1 2 3 4 5 6 db 47 23 19 12 8 3 0 112 Poisson-eloszlás i λ λ pi = e i! i=0..6? becsülni kell a mintából, azaz becsléses illeszkedésvizsgálat
db/40x40 0 1 2 3 4 5 6 db 47 23 19 12 8 3 0 112 λ=átlagos elemszám a cellákban n λ=e(vart )= pi megfigyelt i i=0..6 i=0 i λ λ pi = e i! db/40x4 0 0 1 2 Várt (db) 30.9 39.8 25.6 3 4 5 6 10.9 3.5 0.9 0.4 112 megfigyelt χ2 próba várt
db/40x4 0 0 Várt (db) 30.9 1 39.8 2 25.6 3 4 5 6 10.9 3.5 0.9 0.4 112 megfigyelt χ2 próba várt Összetett hipotézis: H0: P(X=0) = 30.9/112, P(x=1) = 39.8/112, P(x=2) = 25.6/112..P(X>5) = 0.4/112 HA: P(X=0) 30.9/112, P(x=1) 39.8/112, P(x=2) 25.6/112.. P(X>5) 0.4/112 H 0 : a populáció Poisson eloszlású H A :a populáció nem Poisson eloszlású
Előfeltételek 1) a hipotetikus eloszlás mindegyik kategóriájában legalább egy elem legyen 2) 5-nél kevesebb elem a hipotetikus eloszlás kategóriáinak maximum 20%-ban legyen csak Nem-paraméteres próba
Előfeltételek 1) a hipotetikus eloszlás mindegyik kategóriájában legalább egy elem legyen 2) 5-nél kevesebb elem a hipotetikus eloszlás kategóriáinak maximum 20%-ban legyen csak db/40x40 0 1 2 3 4 5 6 Megfigyelt (db) 47 23 19 12 8 3 0 Várt (db) 30.9 10.9 3.5 0.9 0.4 db/40x40 0 1 2 3 4-6 Megfigyelt (db) 47 23 19 12 11 112 Várt (db) 30.9 39.8 25.6 10.9 4.8 112 39.8 25.6 112 112
Próbastatisztika kézzel db/40x40 0 1 2 3 4-6 Megfigyelt (db) 47 23 19 12 11 112 Várt (db) 30.9 39.8 25.6 10.9 4.8 112 2 (tapasztalati elméleti ) 2 i i χ = elméletii i=1 2 χ =27.95 g df=n-1-s, ahol s = a becsült paraméterek száma χ 2krit =?
Próbastatisztika kézzel (folytatás) A kritikus értékek kikeresése χ2táblázatból (a szignifikancia értéknél, n-1-s szabadságifoknál): χ2krit=8.95 0.97 qchisq(0.97,df=3,lower.tail=t)= 8.9473
Próbastatisztika R-ben x read.csv(file.choose(),header=t,d ec=.,sep= ; ) VAGY x<-c(47,23,19,12,8,3,0) Lambda<-(sum((0:6)*x))/sum(x) p c(dpois(0:6, lambda = Lambda)) v<-sum(x)*p newx=c(x[1:4],sum(x[5:7])) newv=c(v[1:4],sum(v[5:7])) s=1 chisq.test(x=newx, p=newv/sum(newv))) Chi-squared test for given probabilities data: newx X-squared = 25.971, df = 4, pbecslés! value = 3.207e-05 pchisq(25.971,df=length(n ewv)-2, lower.tail = FALSE) = 9.671*10-6
Döntés P(X>x)=9.671*10-6 a/2 2 Χ 0.97, 3, krit =8.95 1-a H0 1) Kézi alapján ^ =25.971 Χ20.03,3 H0 Χ3 számolás ^ =25.971 Χ 0.03,3 Χ 2 0.97,3 2 ^ < Χ3 2) Gépi számolás alapján Szignifikanciaszint (a) = 0.03 p-érték = 9.671*10-6 p<a H0-t elvetjük (p < 0.0001), azaz a vizsgált eloszlás nem Poisson típusú!
Megjegyzések 1) Ha s (becsült illeszkedésvizsgálat paraméterek száma) = 0 tiszta 2) Folytonos (pl. normális) eloszlásokra is lehet χ2 próbát végezni, de nagyszámú adat kell, hozzá, és diszkretizálni kell az adatokat. A diszkrét egységekbe eső adatokat kell a hipotetikus eloszlás megfelelő diszkrét kategóriájával összehasonlítani (a két diszkretizáció ugyanolyan módon készül). diszkretizáció 1 2 3 4 kategóriák
Gyakorlatra Olvasni TK: 195-196, 203, 206-213. Gyakorlat http://plantsys.elte.hu/drupal/hu/oktatas/biometria Feladatsorok: Egymintás t-próba Illeszkedésvizsgálat
QQ ábra (Z sd x )+ x qnorm(i/n, mean = 0, sd = 1) * sd(data) + mean(data) qqnorm(data) qqline(data, col =, lwd =, lty = )
Egymintás t-próba t.test(x, alternative = "two.sided", mu = 0, conf.level = 0.95) Opciók: x: adatsor (numerikus vektor) alternative: egy-, vagy kétoldali-e a próba mu: a hipotetikus érték conf.level: a 1-szignifikancia szint (a)
Illeszkedésvizsgálat χ -próbával 2 x<-c(47,23,19,12,8,3,0) adatok Lambda<-(sum((0:6)*x))/sum(x) paraméterbecslés xhat=sum(((newx-newv)^2)/newv próbastatisztika p c(dpois(0:6, Lambda)) hipotetikus értékek valószínűsége lambda = v<-sum(x)*p hipotetikus értékek newx=c(x[1:4],sum(x[5:7])) newv=c(v[1:4],sum(v[5:7])) S=1 adatok korrekciója és becsült paraméterek száma szf=length(newx)-1-s szabadságfok pvalue=pchisq(xhat, df=sz, lower.tail=f) p-érték