25 KULLANCSLÁRVA vizsgálata: Erős hideg hatására nézzük a túlélést. Eredmény: 6 elpusztult, 9 élve maradt Hipotézis: a pajzs hosszának variabilitása egy általános genetikai variabilitást tükröz, míg az életben maradtaknál a variabilitás kisebb. Számoljunk varianciát a teljes mintára és az életben maradottakra, s utána F próba?? F = 3. De: A két variancia nem független becslés. Az eloszlás nem normális. Paraméteres nem megy Nem-paraméteres próba sincs Úgy tűnik: nincs teszt. Monte Carlo módszerek Statisztikai próbát szeretnénk végrehajtani akkor is, ha. A tesztelt statisztika eloszlása ismeretlen v. nem standard 2. A kérdéses változó eloszlása ismeretlen. 3. A függetlenség nem teljesül Vagyis az adatok valamilyen okból nem tesztelhetők semmilyen ismert módszerrel. Alapfeltevés: vö. szerencsejátékok!! A kapott eredmény egy, az egyenlően valószínű összes lehetséges eredményből Felírjuk az összes lehetséges kimenetelt, és megnézzük, ennek alapján a kapott eredmény nagyon valószínűtlen-e. Vagy: kombinatorikus megfontolások. H p > α, akkor elfogadjuk a H 0 -t. Ha p α, akkor a H et fogadjuk el. Ha az összes lehetséges kimenetel nem írható fel, v. nincsenek kombinatorikus megfontolások sem. Véletlenszerűen előállítunk nagyszámú eredményt, és az így kapott szimulált eloszlás alapján döntjük el a hipotézist.
. Eakt v. aiomatikus randomizációs próbák a) R. A. Fisher esete Murial Bristollal: 8 csésze teából 4-be először a teát, a másik négybe először a tejet töltötték. Felismeri-e Ms. Bristol, hogy az összekevert 8 csésze tejes teából melyik miképpen készült? Eredmény: 3-at felismert a 4 tejet először csészéből, 3-at felismert a 4 teát először csészéből. Kérdés: véletlen-e ez a felismerési arány, azaz: H 0 = véletlenül is eltalálhat ennyit H = nem véletlen, ez az eredmény igen kis valószínűségű, tehát Ms. Bristol igenis felismeri a sorrendet. Megoldás: nézzük meg, mennyire valószínű, hogy 6 vagy ennél több találata van. 4 4 3 3 6 p( 3,3) = =, p(4,4) = 8 70 4 70 vagyis 7/70 = 0.243 b) Egy lisztbogár fajban több generáción át vizsgáljuk a mutánsok számának változását a szülőkhöz képest. Megvizsgáltuk a 2-8, és a 8-28. generációt Eredmény: a vad típus csökken, a mutáns nő: 2, 3, 4, 5, 6, 7, 20, azaz 8 esetben más változás: 8 9, 2, 22, 23, 24, 25, 26, 27, 28 azaz 0 esetben Kérdés: volt-e változás a két generációsor, a korai és késői között a tendenciában? 8 Az első típusú változásra a lehetséges esetek száma = 8 8! 0!8! = 43758 Kedvező esetek azok, ahol 7 korai és egy késői van, azaz minden korai és a féle késői közül valamelyik: p(7,) = /43758 = 0,00025 Hozzá kell adni a még kisebb valószínűségeket: esetleg a 0 korai és 8 késői: = 65 p = 65/ 43758 = 0,037 8 ez azonban nagyobb. p(7,)<<0,05 van különbség
2. Mintavételezéses randomizációs próbák Összes lehetőség nem felírható, a valószínűségi megfontolások se mennek A kullancsos példában: 25 = 9 25! 9! 6! > 2000000 Ez túl sok, hogy mindet végigvegyük, és kiszámítsuk az F értéket. Elég egy véletlen minta belőle, pl. 500 véletlen kiválasztás. f 5% 4 5 6 7 8 9 0 Kapcsolat a ismert tesztekkel Aranysakál állkapocs hossz: Null hipotézis: nincs különbség. Átlagok: male: 3. 4, female: 08.6. Átlagok eltérése: 4.8, t = 3.48 Számoljuk ki a két statisztikát 5000 randomizációval. A kapott eredmény előfordulás, azaz P 0.0022 (A t esetében a tábl. alapján P = 0.0026)
Egyéb számítógép-intenzív módszerek ) Jackknife Egy statisztikát úgy becslünk, hogy egy-egy megfigyelés kihagyásával számolunk, ez gyakran csökkenti a TORZÍTÁST. Pl. Az átlag esete = n i= i / n Ha a j-edik értéket kivesszük, akkor j n = i= A két egyenletből kapjuk i j /( n ) j = n ( n ) j persze ez csak az átlagra adja vissza!! Általános eset: Van egy becslésünk a teljes mintára, θ, és a j eset elhanyagolásával θ j. Pszeudo-értékek kiszámítása: θ * j = nθ - (n ) θ -j Jackknife becslés az n darab pszeudo-érték alapján * θ = n j= θ / n * j Példa: Q/n a variancia torzított becslése, a Q/(n-) a torzítatlan. Ha a Q/n becslőfüggvényt a jackknife módszerrel elemezzük, vagyis θ* j = n [Q/n] - (n ) [Q/n] -j Akkor a θ* j pszeudo-értékek átlaga a torzítatlan becslést adja, vagyis Q/(n-)-et.
Ökológiai példa: Egy terület fajszámát akarjuk megállapítani, n darab mintavételi egységet elhelyezve. Lesz olyan faj, amit nem találunk meg, az n kvadrát alapján megállapított fajszám tehát alulbecsül. kvadrátok fajok * n S = S + f n A fajszám jackknife becslése a fenti táblázatra: S* = [ 6 *(0*4 9*4) + (0*4 9*2) + 3*(0*4 9*3) ] / 0 = 8.5 Ha nincsenek csak kvadrátban talált fajok, akkor? 2. Bootstrap Pl. a torzítás mértéke állapítható meg ezzel a módszerrel. Lényege: az n elemű mintát az adott valószínűségi változó eloszlása legjobb jelzésének tekintjük, amelyben minden előfordulás egyformán valószínű. Vagyis a valódi populációt a minta jól közelíti. Vizsgáljuk a θ paramétert. Vegyünk sok n elemű mintát ebből a mintából, visszatevéssel, s számítsuk ki a bootstrap becslést, azaz a sok mintából származó értékek átlagát. Aranysakál példa: B. Efron Legyen D a két minta átlagának különbsége. Készítsünk 5000 bootstrap mintát külön-külön, s számítsuk ki a különbségeket. A bootstrap becslés 4.82. Az eredeti becslés: 4.8 kis különbség van.
3. A jackknife és a bootstrap alkalmazása filogenetikai rekonstrukcióban Mennyire befolyásolja a fa alakját a kiválasztott génszekvencia. Bootstrap százalékok a törzsfán.