Biostatisztika VIII Mátyus László 19 October 2010 1
Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben. A standard normális eloszlás nem kezeli ezt a további bizonytalanságot, ezért egy módosított standard normális eloszlást, a t eloszlást vezetjük be. 2
Student t eloszás William Sealy Gosset (1876-1937) fedezte fel Gosset a Guinness Sörgyárban dolgozott és nem publikálhatta tudományos eredményét. Student álnéven közölte munkáját (a statisztika diákja volt). 3
Ha n nagyon nagy, akkor s jó becslést szolgáltat σ ra és az ahhoz tartozó t eloszlások nagyon közel vannak a standard normális eloszláshoz. A t eloszlás kisebb minta nagyság esetén szélesebb, ami azt tükrözi, hogy a σ becslése s alapján kevésbe pontos. 4
t eloszlás A t hasonlít a standard normális eloszlásra, de szélesebb. Sok t eloszlás van (egy család). Mindegyik t eloszláshoz különböző szabadságfok (df) tartozik. Ahogy df nő, t egyre inkább hasonlít a standard normális eloszlásra. 5
t táblázat A t táblázatok különböznek a standard normális eloszlás táblázatától Mindegyik sorhoz egy szabadságságfok (df) tartozik. Az oszlopokban a kumulált valószínűségeket találjuk. 6
t táblázat A táblázatban a 97,5 percentilishez 9 df esetén a 2,26 érték található Grafikusan lásd jobbra Jelölés: t df,kum. val. t 9,.975 = 2,26 7
Egy példa: diabéteszes betegek súlya Kérdés: Milyen mértékben túlsúlyosak a cukorbetegek? Mérjük meg az ideális testsúly %-ában 18 diabéteszes testsúlyát. Az adatpontok (aktuális testsúly) (ideális testsúly) 100% Adatok {107, 119, 99, 114, 120, 104, 88, 114, 124, 116, 101, 121, 152, 100, 125, 114, 95, 117} Számítás Minta átlag (x vonás ) = 112,778 Minta standard deviációja (s) = 14,424 8
Egy mintás t próba Feltételek: Egyszerű véletlen minta Normális eloszlású populáció vagy nagy elemszám (n). s -t s alapján becsüljük. 9
A folyamat (lépések) (A) Null hipotézis és alternatív hipotézisek (B) a (előre meghatározott szint) (C) Teszt statisztika t stat (D) A t stat értéket p valószínűség értékké alakítjuk táblázat vagy számítógép segítségével. 10
Példa: diabéteszes betegek súlya Állítás a cukorbetegek túlsúlyosak Az adatok az ideális testsúly %-ban n = 18 Minta átlag (x vonás ) = 112,778 A minta standard deviációja (s) = 14,424 11
A: Diabéteszes súly Állítás a cukorbetegek túlsúlyosak Konvertáljuk az állítást null hipotézissé A cukorbetegek nem túlsúlyosak Nem túlsúlyos = 100 ideális testsúly Ezért, H 0 : µ = 100 Keressünk érveket H 0 ellen Alternatív hipotézis lehet H 1 : µ 100 (két oldalú) H 1 : µ > 100 (egy oldalú, jobb) H 1 : µ < 100 (egy oldalú, bal) 12
A P-érték annak a valószínűsége, ha H 0 igaz, akkor egy véletlenszerűen vett minta olyan eredményt hoz, ami a H a irányába mutat. A P-értéket a megfelelő görbe alatti terület kiszámításával kapjuk meg, egy vagy két oldalas esetben a H a -tól függően. Egy oldali x 0 t s n Két oldali 13
B: Diabéteszes súly a értékét rögzítjük. A gyakorlatban általában dinamikusan értelmezzük. 14
C: Diabéteszes súly Az x átlag értékét (x vonás ) t stat tá konvertáljuk 0 SEM x 0 tstat ahol df n 1 SEM a populáció átlaga, ha a null hipotézis igaz a középérték közepes hibája t stat megmondja, hogy hány standard hibányira van a mintaátlag a populáció feltételezett átlagától. s n 15
C ( Diabéteszes súly ) t SEM stat s 14, 424 3,400 n 18 x 112, 778 100 SEM 3,400 0 df n 1 18 1 17 3,76 t stat megmondja, hogy a mintaátlag 3,76 standard hibányira van a populáció feltételezett átlagától (t 17 ) 16
D: Konvertáljuk t stat ot p értékké Számítógépes program táblázat (közelítés) t n-1 az x átlag standardizált hibája Határozzuk meg a valószínűségeket Fejezzük ki p-t egyenlőtlenség formájában 17
D: Diabéteszes súly Rajzoljunk egy t függvényt és jelöljük be a µ-t és a SEM-et Jelöljük x átlag ot és a t stat ot a görbén Használjuk a táblázatot a terület meghatározására Példa: t stat = 3,76 a t 17 soron a 3,65 (t 17,.999 ) és a 3,97 (t 17,.9995 ) közés esik Egy oldalú p kisebb mint 0,001 és több mint 0,0005 Két oldalú p kisebb mint 0,002 és több mint 0,001 A pontos érték (p) két oldalú próbára 0,0016 (számítógép) 18
A p érték értelmezése Kis p érv H 0 ellen Az előző példa alapján, p =0,0016 szignifikáns érv H 0 ellen. A konklúzió: a cukorbetegek túlsúlyosak. 19
Kétféle két mintás probléma Önkontrollos Az egyik minta minden adatához tartozik egy adat a másik mintában. Független minták Az egyik minta elemei nem kapcsolódnak a másik minta elemeihez. Két független csoport 20
Példák önkontrollos mintára Teszt előtti - teszt utáni párok Azonos párok 21
Független minták 22
Egy példa: oatbran.sav Adatok: low density lipoprotein ( rossz cholesterol ) mg/dl Két hét cornflake diéta LDL cholesterol Kimosási periódus Két hét oatbran diéta LDL cholesterol Randomizálás, a minta fele CORNFLK-kel kezd, a másik fele OATBRAN-nal utána cross-over Mindegyik CORNFLK pontnak van egy OATBRAN megfelelője ÖNKONTROLLOS MINTA személy CORNFLK OATBRAN ---- ------- ------- 1 4,61 3,84 2 6,42 5,57 3 5,40 5,85 4 4,54 4,80 5 3,98 3,68 6 3,82 2,96 7 5,01 4,41 8 4,34 3,72 9 3,80 3,49 10 4,56 3,84 11 5,35 5,26 12 3,89 3,73 13 2,25 1,84 14 4,24 4,14
Minta átlagok Számítsuk ki a statisztikákat Kézzel TI-30XIIS számológéppel SPSS-sel A fenti példa Mean LDL, CORNFLK (xvonás 1 ) = 4,444 Mean LDL, OATBRAN (xvonás 2 ) = 4,081 24
Számítsuk ki az átlagos eltérést DELTA Legyen DELTA = CORNFLK - OATBRAN A kivonás sorrendje nem befolyásolja az eredményt (de következetesnek kell lenni) ID CORNFLK OATBRAN DELTA ---- ------- ------- ----- 1 4,61 3,84 0,77 2 6,42 5,57 0,85 3 5,40 5,85-0,45 14 4,24 4,14 0,10 A pozitív érték csökkenést jelent oatbran esetén 25
DELTA statisztikája DELTA értékek: 0,77, 0,85, -0,45, -0,26, 0,30, 0,86, 0,60, 0,62, 0,31, 0,72, 0,09, 0,16, 0,41, 0,10 Leíró statisztika n = 14 X átlag,d = 0,3629 s d = 0,4060 oatbran diéta esetén az LDL csökkenés átlagosan 0,363 mg/dl, a standard deviáció 0,406 mg/dl. 26
Szignifikancia teszt Ugyanaz mint az átlagra vonatkozó teszt, csak itt a különbség, DELTA, a teszt alapja. Az átlagos különbség szignifikáns? H 0 : µ d = µ 0 vs. H 1 : µ d µ 0 megjegyzés: a p értékek a gyakorlatban majdnem mindig két oldalasak µ 0 az önkontrollos tesztben általában 0 ( nincs különbség ) H 0 : µ d = 0 vs. H 1 : µ d 0 27
Teszt statisztika x d 0 stat, 1 t df n SEM x bar,d = 0,3629 (számított) SEM d = 0,1085 (számított) µ 0 = 0 (a null hipotézisből) n = 14 t stat df x 0,3629 0 0,1085 d 0 SEM d n 1 14 1 13 3,34 A t stat érték megmondja, hogy a megfigyelt minta 3,34 standard hibányival tér el a feltételezett átlagtól. 28
Konvertáljuk a t stat ot p értékké & értelmezzük t stat = 3,34 13 df mellett t táblázat két oldalú p 0,01 és 0,002 között van t stat = 3,34 with 13 df komputer p = 0,005 Ha H 0 igaz, akkor 0,005 (0,5%) a valószínűsége, hogy ilyen értéket kapjunk így érvünk van H 0 ellen és H a mellett. A megfigyelt különbség szignifikáns 29
F- próba Lehetséges két populáció szórását is összehasonlítani Ha s 12 és s 22 két független minta szórásnégyzete, ahol n 1 és n 2 a minta elemszáma akkor az F statisztika F = s 12 / s 2 2 F eloszlást követ n 1 1 és n 2 1 szabadságfokkal, ha H 0 : σ 1 = σ 2 igaz. 30
F eloszlás Az F eloszlás nem szimmetrikus és negatív értékek esetén nem értelmezhető. Az F sűrűségfüggvénye 1-nél vesz fel maximális értéket, amikor a két populáció standard deviációja azonos. Az 1-től távoli F értékek bármely irányban arra utalnak, hogy a két standard deviáció nem azonos. F Dfszámláló : n1 1 Df : n I nevező 2 31
df szám = n 1 1 p F df nev = n 2 1