Biometria: Statisztikai módszerek alkalmazása a biológiában Statisztika alkalmazási területei: Adatok ellenőrzése, értelmezése, ábrázolása, Jellemző paraméterek származtatása Valószínűség hozzárendelése elemi eseményekhez, objektumok tulajdonságaihoz, lehetséges mérési kimenetekhez Hipotézis tesztelés, állítások valóságtartalmának megállapítása, modell jóságának vizsgálata Váltózók összefüggéseinek vizsgálata Kísérlettervezés Vizsgálatunk tárgya: (többféle interpretáció) Kísérletek kimenetele = objektumok tulajdonságai. Elemi esemény, Elemi esemény kimenetele Milyen típusú lehet egy statisztikai változó? (objektum tulajdonsága, kísérlet kimenetele): Nominális (nincs rendezettség) Ordinális (rendezett, de nincs kivonás) Intervallum (számok az összes műveletekkel) Abszolút (van 0, kezdőpont) Teljes rendszer: az összes objektum, amivel foglalkozunk. Lehet végtelen elemszámú, pld. egy kísérletet végtelen sokszot el lehet végezni. Reprezentetív minta: Valamely statisztikai vizsgálat tárgyát képező elemek összességét statisztikai sokaságnak nevezzük. Legtöbbször a vizsgálatot úgy végzik, hogy reprezentatív mintát alkotnak, azaz a vizsgálat számára fontos megkülönböztető ismérvek segítségével véletlenszerüen egy kisebb részhalmazt választanak ki. Ilyenkor a kapott eredményeket becslésnek kell tekinteni, és meg kell határozni a lehetséges hiba mértékét. A minta vizsgálatának eredményéből következtetünk a sokaságra, a minta vétele tehát az eredmények értéke szempontjából elsőrendűen fontos. A minta legyen (a) reprezentatív, összetételében képviselje helyesen a sokaságot, amelyből vették, (b) véletlen, a mintaelemek kerüljenek egymástól függetlenül, egyenlõ valószínűséggel a mintába, (c) elégséges méretű, elegendően nagy ahhoz, hogy a minta alapján levont következtetések kellően valószínűek legyenek. Hibakeresés nagy táblázatokban: Kiugró adatok keresése (gépelési hiba? De ellenőrizni kell) Az adatok direkt ábrázolása vagy szórás számítás Valószínűség hozzárendelése lehetséges kimenetelekhez: Elvégzünk egy mérést (vagy megállapítjuk egy objektum egy tulajdonságát) ennek van valamilyen kimenetele. Megállapítható a lehetséges kimenetelek halmaza. Kérdés: mi a valószínűsége annak, hogy ha még egyszer elvégezzük a mérést (vagy egy véletlenszerűen kiválasztott
objektumnak megnézzük az adott tulajdonságát) akkor az egy adott értéket vesz fel, vagy egy adott intervallumba esik? Ez a valószínűség mindig tetszőleges pontossággal megadható. Hogyan mérjük (becsüljük ezt a valószínűséget?) Sokszor elvégezzük a mérést és gyakoriság hisztogramot készítünk (Hányszor esett a mérési eredmény egy adott tartományba? Hányszor kaptunk egy adott értéket?). Relatív gyakoriság: gyakoriság értékek osztva a mérések számával. Állítás: amint a mérések száma tart a végtelenhez, a relatív gyakoriság tart az adott kimenetel előfordulási valószínűségéhez. Vagyis egy esemény előfordulási valószínűsége tetszőleges pontossággal mérhető.
Könnyebség: Ha a változó intevallum vagy abszolút típusú, akkor nagyon gyakran megállapítható az eloszlás sűrűségfüggvénye (egy függvény illeszthető a relatív gyakoriság hisztogramra) a következő tulajdonságokkal:. Sürüségfüggvény: 1) Egy adott intervallumban a sűrűségfüggvény alatti terület megadja annak a valószínűségét, hogy egy adott kimenetel abba az intervallumba esik. 2) A sűrűségfügg vény alatti terület a teljes lehetséges kimeneteli tartományban 1. Normál eloszlás: Egy kitüntetett sűrűségfüggvény, mely sokszor alkalmazható és két paraméterrel (átlag, szórás) megadható. Gyakran alkalmazható lsd. A központi határeloszlás-tétel. Tulajdonságai: egy csúcsa van, szimmetrikus, jellegzetes haranggörbe alak (lapultság, ferdeség =0)
Átlag: legvalószínűbb érték (a csúcs helye) Szórás: az eloszlás kiterjedését jellemzi. Az átleg közelében 1x szóráson belül van az adatok 68.2%-a Ha nem illeszthető normál eloszlás az adatokra (nem-parametrikus eset, ordinális változókra is), akkor a mediánnal és percentile-okkal jellemezhető az eloszlás. Medián: A lehetséges kimenetelek fele kisebb, fele nagyobb, mint a medián. X.-percentile: Az adatok x %-a kisebb, 100-x %-a nagyobb nála. Lehetséges kimenetelek valószínűségének ábrázolása parametrikus esetben átlag+szórás, nem parametrikus esetben boxplot mediánnal és 50. percentile-kal.
Standardizált normál eloszlás: 0 átlagú, 1-es szórású normál eloszlás Mérés kimenetelének valószínűségének számítása normál eloszlás esetén: Táblázat alapján (integrálra nincs zárt alak).
Ha a normál eloszlás átlagát és szórását n mérésből becsüljük, akkor f=n-1 szabadsági fokú t-eloszlást használunk a valószínűségek kiszámításához. N mérés átlagainak átlaga és szórása: átlag nem változik, szórás négyzetgyök(n)-ed részére csökken Hipotézis tesztelés: Általában két csoport átlagának összehasonlítására. H1(eredeti) hipotézis: x1átlag<> < > x2átlag H0 (alternatív) hipotézis: x1átlag=x2átlag ==>A két csoport összevonható, abból kiszámítható a mért adatok valószínűsége. Ha p<0.05 (szignifikancia szint) H0-t elvetjük, H1-t elfogadjuk. Ha nem, H0-t nem tudjuk elvetni, vagyis H1-t nem tudjuk elfogadni. Parametrikus vs. non-parametrikus tesztek: Ha a valószínűségi változó normál eloszlású (ez feltételezi, hogy legalább intervallum típusú) akkor parametrikus teszteket használunk, ha nem akkor nem-parametrikus teszteket használunk hipotézistesztelésre.
Modell jóságának tesztje:
NYUGAT-MAGYARORSZÁGI EGYETEM SAVARIA EGYETEMI KÖZPONT TERMÉSZETTUDOMÁNYI ÉS MŰSZAKI KAR BIOLÓGIA INTÉZET ÁLLATÖKOLÓGIAI VIZSGÁLATOK (gyakorlat)
É 2 3 2 1 4 5 6 7 ÖSSZEÁLLÍTOTTA: GYURÁCZ JÓZSEF, SZINETÁR CSABA Az 1., 2., 3. fejezetek Lengyel Szabolcs (Debreceni Egyetem) munkája alapján SZOMBATHELY 2009
1. A biológiai vizsgálatok általános menete Modellezés Megfigyelés, elővizsgálat Kérdésfeltevés Hipotézis Predikció Adatgyűjtés Értékelés 1.1. Megfigyelés vagy elővizsgálat tárgya: folyamat vagy mintázat lépték-függő Mit figyelünk meg? lényeges és ténylegesen létező folyamatok vagy mintázatok 1.2. Kérdésfeltevés a jó kérdés: - lényegi (esszenciális) - nem túl általános, de nem is túl specifikus - egyszerű kérdő mondat - világos, logikusan következő az ökológia két alapvető kérdéstípusa: - referenciális jellegű deviációs alapkérdések: - Hol? Mikor? Mennyi? LEÍRÓ vizsgálatok - kauzális jellegű kényszerfeltételi alapkérdések: - Miért?, Hogyan? HIPOTÉZIS-TESZTELŐ vizsgálatok 1.3. A hipotézis háttérmagyarázat, feltevés A gondolatmenet 1. jelenség megfigyelése
2. az összes, egymást kölcsönösen kizáró hipotézis megfogalmazása 3. mindegyik hipotézisre vizsgálat 4. az(oka)t a hipotézis(eke)t, melye(ke)t nem tudunk megcáfolni, igaz -nak fogadjuk el A jó természettudományos hipotézisek: - megcáfolhatóak - egymást kölcsönösen kizáróak - belőlük egy vagy több predikció vezethető le - egyszerűen vannak fogalmazva Az alkalmazás korlátai: - igazi háttérmagyarázat nem szerepel a hipotézisek között - tér- és/vagy időbeli korlátok - a háttérmagyarázatok nem egymást kölcsönösen kizárók, egyszerre több háttérmagyarázat is érvényes lehet - háttérmagyarázatok függnek egymástól - a hipotéziseket nem lehet cáfolni, csak valószínűségekkel jellemezni Tanulság - megcáfolható hipotézisek - minden lehetséges hipotézist vegyünk sorra - MI A KÉRDÉS?, MI A HIPOTÉZIS? 1.4. Predikció állítás, mely: - a hipotézisből logikusan következik - statisztikailag tesztelhető - Melyik változó fontos a rendszerben? biológiai tartalom - Mely változókat és hogyan hasonlítunk össze? statisztikai tartalom - biológiai hipotézis = háttérmagyarázat - statisztikai hipotézis: két állítás - nullhipotézis, H0: egyik mennyiség = másik mennyiség - alternatív hipotézis, HA: egyik másik statisztikai tesztek működése: x y H0: x = y HA: x > y adatok teszt-statisztika számítása (képlet) p-érték (szignifikancia-szint H0 támogatottsága)
ha p értéke nagy (> 5%) H0 támogatottsága magas tapasztalt különbség csak a véletlen műve ha p < 5% H0 támogatottsága alacsony különbség nem csak a véletlen műve, hanem lényeges (szignifikáns) HA-t fogadjuk el
1.5. Adatgyűjtés lépései: 1. Fontos változók azonosítása 2. Mintavételi módszer kiválasztása 3. Szükséges mintanagyság meghatározása 4. Mintavétel 5. Adatok rendszerezése, feldolgozásra előkészítése 1.5.1. A változók kiválasztása változó(k): mért mennyiség(ek) típusai: - folytonos vagy diszkrét - nominális, ordinális, intervallum- vagy arányskálán mérhető Skála Nominális Ordinális Intervallum Arány Definíció kvalitatív, nevekből áll nincs rangsor kvalitatív, rangsor lehetséges értékek közti távolság tetszőleges kvantitatív, rangsor, értékek közti különbség mutatja a távolságot önkényes nulla pont arányok nem értelmezhetők kvantitatív, rangsor, értékek közti intervallum mutatja a távolságot valódi nullapont arányok értelmezhetőek Hány változót mérjünk? o mindent mérjünk o ne mérjünk semmit 1.5.2. A mintavételi módszer kiválasztása mérésnél figyelembe kell venni: - skála-függés - mérési hiba specifikumok: ld. később Példák ivar, betegség agresszivitás: erős, közepes, gyenge hőmérséklet ( C), IQ testsúly, magasság, életkor
1.5.3. A mintavétel ha nem tudunk minden objektumot mérni statisztikai populáció: az összes vizsgálati objektum, melyre eredményeink vonatkoztathatóak ( biológiai populáció!) pontosan tisztázandó!!! minta: a populációnak az a része, melyet valóságban is mérünk o statisztikai minta (mérések adathalmaz) o fizikai minta (pl. talajminta) mintavételi egység: amin a mérés fizikailag történik a mintavétel alapszabályai: 1. RANDOMIZÁCIÓ (VÉLETLENSZERŰ VÁLASZTÁS) - cél: a statisztikai populáció tagjai egyenlő eséllyel kerülhessenek a mintába - torz a minta, ha bizonyos egyedek - nagyobb valószínűséggel kerülnek a mintába, mint mások - bekerülése befolyásolja más egyedek bekerülését - a reprezentativitás legfőbb biztosítéka - használható zavaró tényezők, tendenciák hatásának kiszűrésére (pl.: napszakos, évszakos v. térbeli különbségek) - randomizálás menete: Pl.: hét békából három kiválasztása: 1. békák megszámozása (1-7): 2. random számok táblázata (részlet):... 81940 06428... 3. minta meghatározása: 1., 4., 6. 2. ADATPONTOK FÜGGETLENSÉGE - mintavétel egység statisztikai populáció egyede - következmény: o egyik egység mintába kerülését a másik egység mintába kerülése nem befolyásolja o nincs kapcsolat az egyes mintavételi egységek között Pl.: kísérleti patkányok agresszivitása: - verekedőseket választjuk - véletlenszerűen választunk
3. STANDARDIZÁLÁS - egy változó bizonyos szinten való tartása - pl. napszakos, évszakos, térbeli stb. különbségek kiiktatására - zavaró tényezők: - standard szinten tartás (érvényesség, kivitelezhetőség ) - randomizálás előre tisztázni kell! 4. ISMÉTELT MÉRÉS - egy mérés nem mérés ismételt mérés statisztikai minta - mérés hibája becsülhető - mérés pontossága: - precizitás: ismételt mérések közelsége - akkurátusság: mért és valós érték közelsége - ismételhetőség: - saját kutatásunkon belül, időben és térben - más kutatások számára, időben és térben Miért elengedhetetlenül FONTOS a fenti szabályokat betartani? - ha nincs randomizálás: torz minta tendencia furcsa eredmények - ha az adatok nem függetlenek: elnagyolt mintaelemszám lényeges (szignifikáns) különbséget kaphatunk ott, ahol valójában nincs 1.5.4. Mintanagyság meghatározása 18 négy módszer : - tapasztalat - statisztikai teszt erősségének meghatározásával (ld. később) - faj-minta görbe alapján: Kumulatív Fajok Új fajok Kumulatív terület (m2) száma száma fajszám 20 3 3 3 40 4 2 5 60 5 1 6 80 3 2 8 100 4 3 11 120 4 1 12 140 4 2 14 160 3 0 14 180 5 1 15 200 4 0 15 16 14 12 Kumulatív fajszám 10 8 6 4 2
- a mért paraméter változási görbéje alapján: Testtömeg (g) 1 2 3 4 5 6 7 8 9 10 10,9 6,7 4,9 14,7 12,3 3,9 11,7 7,7 7,3 10,9 Kumulatív átlagos testtömeg 10,9 8,8 7,5 9,3 9,9 8,9 9,3 9,1 8,9 9,1 12 11 Kumulatív átlagos testtömeg (g) Minta száma 10 9 8 1.5.5. Adatok összerendezése és számítógépre vitele ne az eredeti adathordozókkal dolgozzunk (másolatok) 7 adatok számítógépre vitele, tárolása (+ biztonsági másolatok) 1.6. Értékelés 6 statisztikai módszerek: 1 2 3 o az adatok kvantitatív leírására és összegzésére o következtetések levonására o adatokban levő különbségek és tendenciák objektív értékelésére kétféle megközelítés: - exploratív elemzés: - adatok felderítése, ábrázolása - leíró statisztikák számítása: átlag, medián, szórás, variancia, konfidencia intervallum stb. - konfirmatív ( megerősítő ) elemzés: - predikciók, különbségek, tendenciák vizsgálata statisztikai tesztek általános működése: mindig a nullhipotézist (H0-t) teszteljük, pl.: két minta átlagának összehasonlítása x 1. H0: x = y y HA: x > y 4 5 Min
2. adatok teszt-statisztika p (valószínűség) 3. p: szignifikancia-szint, H0 támogatottsága, a döntéshozatal alapja, kritikus értéke: 0,05 ha p > 0.05 H0-t elfogadjuk ha p < 0.05 H0-t elvetjük H0-t megtartjuk H0-t elvetjük H0 igaz jó döntés elsőfajú hiba: H0 hamis másodfajú hiba: jó döntés (elsőfajú hiba valószínűsége) p (szignifikancia-szint) a teszt menete: - kézzel: követni a receptkönyveket - komputerrel: 1. adatbevitel, adatrendezés, előkészítés 2. adatfile statisztikai program 3. a teszt meghatározása, program futtatása 4. eredmények vizsgálata és interpretálása Mitől függ, hogy egy különbség szignifikáns? - szórástól - mintaelemszámtól (ha, akkor a szórás ) - statisztikai próba érzékenységétől statisztikai tesztek két nagy csoportja: - parametrikus próbák: - populációs átlag becslése alapfeltétel a normál eloszlás és a varianciák homogenitása - érzékenyebbek - nemparametrikus próbák: - nem becsülnek paramétereket kevesebb feltétel - kevésbé érzékenyek minden statisztikai próba feltétele: - a random mintavétel - az adatpontok függetlensége statisztikai tesztek típusai: - átlagok összehasonlítására - két vagy több változó közötti kapcsolat vizsgálatára - eloszlások, gyakoriságok összehasonlítására, illeszkedésvizsgálat Alapvető biológiai megközelítések: megfigyelés (nincs beavatkozás) * kísérlet (beavatkozás, manipuláció) *
modellezés (logikai absztrakció) evolúciós összehasonlítás (több faj, általános tendenciák) 2. A MEGFIGYELÉS MÓDSZER 2.1. A megfigyelés megfigyelés a legáltalánosabb értelemben nem történik beavatkozás a rendszerbe, nem kontrollálunk egy tényezőt sem, pusztán adatgyűjtés történik hagyományos, gyakori, könnyen kivitelezhető megfigyelés vagy kísérlet? Példa: hegyi kecske és fafaj elterjedése Szempont Manipuláció Kezelés Kutatói irányítás Független változó Függő változó Statisztikai elemzés Elemzés módja Ok-okozati viszony Magyarázó erő Prediktív erő,költségigény Munkaigény Megfigyeléses módszer Nincs Nincs Minimális Kecskék száma - folytonos Facsemeték száma - folytonos Kevésbé érzékeny tesztek Korrelációanalízis Nem állapítható meg Kicsi Minimális Kicsi Kicsi belső érvényesség és külső érvényesség 2.2. A megfigyeléses módszer néhány jellemzője a mintavétel alapvető szabályai érvényesek (randomizáció, függetlenség, standardizálás, ismételhetőség stb.) mintavételi stratégia (kutatási terv) kidolgozása, megvitatása, átdolgozása munkaterv meg kell előznie az aktuális adatgyűjtést! adatgyűjtés megfigyeléssel: - legyen időnk a tervezésre és a terepen előre nem látható akadályozó tényezőkre is - ne legyenek prekoncepcióink, legyünk elfogulatlanok - felejtsük el a tervet, a bizonyítani kívánt hipotézist speciális mintavételi módszerek: ld. később 2.3. A megfigyeléses módszer az ökológiában hazai, egyed feletti szerveződési szintekkel foglalkozó biológia részei:
- szünfenobiológia: LEÍRÓ jellegű, megfigyeléses megközelítés (fenológia, chorológia, etológia) - (másik terület): OK-OKOZATI összefüggések, kísérletes módszerek (ökológia, viselkedésbiológia)