Kísérlettervezési alapfogalmak Tényező, faktor factor független változó, ható tényező (kezelés, gyógyszer, hőmérséklet, stb.) aminek hatását a kísérletben vizsgálni vagy összehasonlítani kívánjuk. Megfigyelési egység experimental unit az az egység a kísérletben, amelyre egy bizonyos kezelést vagy kezeléskombinációt alkalmazunk (sejtkultúra, gyümölcsfa, parcella, stb.). Célváltozó vagy kimeneti változó outcome variable, response variable olyan megfigyelhető vagy mérhető változó, amely alkalmas a tényezők hatásának mérésére (a megfigyelési egység állapotának, kezelésre adott válaszának jellemzésére). Lehet bináris (0/1, pl. túlélés) vagy számszerű (termésátlag, minőség-pontszám, stb.). Egy kísérletben több célváltozó is lehet, ekkor ki kell jelölni egy elsődlegest. Milyen szempontok szerint válasszunk kimeneti változót? - legyen jól definiált ( anyag és módszer -szerű leírás) - legyen a rendelkezésre álló eszközökkel kellő pontossággal mérhető - minél kevesebb szubjektív torzítást tartalmazzon Ismétlés replication ugyanazt a kezelést (kezeléskombinációt) általában több megfigyelési egységen szokták alkalmazni. Ennek az az értelme, hogy - csökkentsék annak az esélyét, hogy a kísérlet egyes megfigyelési egységek kiesése (elhullás, sikertelen mérés, stb.) miatt értékelhetetlenné válik, - kiderüljön, mekkora a kezelésre adott válasz szóródása populációban, - az eredmények a populációra általánosíthatók legyenek, - növekedjék a vizsgálat pontossága. Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 1
Párhuzamos elrendezésről parallel design beszélünk, ha a kísérletben két csoport (kezelt-kontroll), esetleg több csoport összehasonlításából kívánunk következtetéseket levonni a kezelés(ek) hatására nézve. A csoportok a populációból vett véletlen minták, lehetnek függetlenek independent samples, vagy párosítottak matched/paired/dependent samples, de minden megfigyelési egység csak egy csoportba van besorolva (vö. ismételt mérések és crossover elrendezés). Kontroll control a nem kezelt csoport, amihez a kezelteket hasonlítjuk, vagy a standard kezelést kapott csoport, amihez az új, kiértékelendő kezelést kapottakat hasonlítjuk. A történeti kontroll historical control (korábbi adatok kontrollként való felhasználása) sok hibalehetőséget rejt magában (populációk, fajták, technológiai eljárások időbeli változása). Célpopuláció target population és vizsgált populáció sampled population a célpopuláció az a populáció, amelyre a vizsgálat eredményeit alkalmazni kívánjuk, a vizsgált populáció pedig az a populáció, amelyből az elemzés alapjául szolgáló véletlen mintát vettük. Ha e két populáció nem azonos, akkor a kapott eredmény érvényessége megkérdőjelezhető. Fontos követelmények a kísérletekkel szemben: - világos és specifikus kérdéseket tegyenek fel, - adjanak minél pontosabb választ a feltett kérdésekre, - reprodukálhatók legyenek. A reprodukálhatóság és az általánosíthatóság gyakran egymásnak ellentmondó követelmények. Például egy kísérletet végezhetünk egy bizonyos beltenyésztett egértörzzsel vagy genotipikusan heterogén mintával. Homogén mintát választva a reprodukálhatóság javul, de az általánosíthatóság romlik, heterogén mintával pedig fordítva. Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 2
A szükséges mintaelemszám meghatározása Az mindenképpen nevetséges, ha egy betegség prevalenciájára adott 90%-os konfidencia-intervallum mondjuk 1%-tól 73%-ig tart, de hogy milyen széles konfidenciaintervallummal lehetünk elégedettek, azt az adott vizsgálat pontossági követelményei szabják meg. A prevalenciára vonatkozó konfidencia-intervallum szélességét több dolog befolyásolja. Annál keskenyebb lesz az intervallum, - minél kisebb megbízhatósági szintet követelünk meg (90% alá menni persze megint csak nevetséges), - minél jobb, pontosabb eljárást alkalmazunk a konfidenciaintervallum konstrukciójára, - minél nagyobb mintával dolgozunk, - minél távolabb esik az 50%-tól (bármelyik irányban) a prevalencia (de persze ezt nem áll módunkban befolyásolni). Számítsuk ki, mekkora minta szükséges ahhoz, hogy mondjuk egy, a prevalenciára adott 95%-os intervallum szélessége a 10%-ot ne haladja meg (mint például 26% - 36%). A számítások követhetősége kedvéért most használjuk a konfidencia-intervallum konstrukciójára a legegyszerűbb eljárást. Ezzel a 95%-os intervallum: p p(1 p) 1.96... n p(1 p) p+ 1.96, n ahol p a mintabeli prevalenciát, n pedig a mintaelemszámot jelöli. Az intervallum szélessége innen a gyök alatti kifejezés szorozva 3.92-vel. Azt szeretnénk, hogy ez legfeljebb 10% legyen, azaz 3.92 p ( 1 p) n 0.1 Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 3
A p-t megsaccolva, majd az egyenlőtlenséget n-re megoldva kapjuk a mintaelemszámot. Például ha p = 0.3 körüli értékre számítunk, akkor n 325 adódik, azaz legalább 325 elemű mintára van szükség. Mindig legyen szó akár átlagértékről, akár relatív rizikóról, vagy bármi másról ugyanígy, a szóban forgó konfidenciaintervallum számítási képletéből kiindulva határozhatjuk meg a szükséges mintaelemszámot. Persze mindig lesz olyan paraméter, amelyet ehhez meg kell saccolni (mint az előbb a pt), mert tőle is függ az intervallum szélessége. Példak: Mekkora minta szükséges, hogy a broiler csirkék súlyára vonatkozó 95%-os konfidencia-intervallum szélessége legfeljebb 0.10 kg legyen? Az egyszerűség kedvéért tegyük fel, hogy a testsúly normális eloszlást követ. Ekkor az átlagra adott konfidencia-intervallum képlete a jól ismert σ x 1.96... n σ x+ 1.96, n ahol x a mintaátlag, σ a szórás (SD), n pedig a mintaelemszám. Az intervallum szélessége akkor lesz legfeljebb 0.10 kg, ha σ 3.92 0.10 n Most a σ-t kell megsaccolni például irodalmi adatokból, vagy az eddig ismert legnagyobb és legkisebb csirke súlyából (±3SD) ahhoz, hogy az egyenlőtlenséget n-re meg tudjuk oldani. Ha pedig nincs képlet, mert például a konfidencia-intervallumot számítógépes program számolja... Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 4
Ha nem konfidencia-intervallumhoz, hanem hipotézisvizsgálathoz szeretnénk meghatározni a szükséges mintaelemszámot, akkor a figyelembe veendő tényezők - az elsőfajú hiba megengedhető szintje, α (a megbízhatósági szint szerepét veszi át), - a legkisebb különbség, amit a teszttel még szeretnénk kimutatni, d (az intervallum szélességének szerepét veszi át), - a másodfajú hiba megengedhető szintje, β, - az ellenhipotézis típusa (egy- vagy kétoldali-e), és itt is mindig van(nak) megsaccolni való paraméter(ek). Aki nem akar a fentihez hasonló (sőt rendszerint még bonyolultabb) egyenletek megoldásával foglalkozni, az a szükséges mintaelemszám meghatározására használhat számítógépes programokat (STATGRAPHICS, CADEMO), vagy tanácsot kérhet egy statisztikustól. Régi könyvekben találhatunk táblázatokat vagy nomogramokat is. Ha a megsaccolnivalókról sem saját tapasztalatunk nincs, sem az irodalomban sem találunk semmit, akkor szokás előkísérletet végezni. Bonyolultabb elemzéseknél több "megsaccolnivaló" van. ANOVA-nál például más-más a minimálisan szükséges mintaelemszám attól függően, hogy milyen ellenhipotézist szeretnénk adott (1 β) erővel kimutatni. Pl. négy csoport esetén: Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 5
Mintavételezési módszerek Mintavétel a populáció egy részének kiválasztása (nem az egész populációt vizsgáljuk) Cél: a populáció jellemzőinek, paramétereinek becslése: o egy betegség jelen van vagy nincs; o átlag, szórás becslése, stb. változók kapcsolatának meghatározása, következtetések levonása a populácóra vonatkozóan. Cél: Olyan minta választása, amely: jól reprezentálja a populációt; a becslések elfogadható pontosságúak (precision) és hitelesek (accuracy). Ideális helyzet: van egy mintavételi keret sampling frame (a mintavételi egységek teljes listája) a célpopulációról. Ekkor a vizsgált populáció study population megegyezik a célpopulációval. Gyakran nem ez a helyzet. Pl. nem lehet felsorolni a célpopuláció összes egyedét és így a vizsgált populáció nem reprezentálja a célpopulációt. A validitást veszélyezteti. Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 6
Hogyan befolyásolhatja a mintavétel az eredményeket? A mérési hibákat kétféleképpen szoktuk osztályozni: véletlen, szisztematikus. Kis minta nagy véletlen hiba A minta nem reprezentatív nagy szisztematikus hiba A mintaelemszám növelésével a szisztematikus hibát nem lehet csökkenteni! Mintavételi módszerek: 1. nem véletlen mintavétel; 2. egyszerű véletlen mintavétel; 3. szisztematikus véletlen mintavétel; 4. rétegezett véletlen mintavétel; 5. klaszter mintavétel 6. többlépcsős mintavétel. Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 7
1. Nem véletlen mintavétel A véletlennek nincs szerepe a minta kiválasztásában. Általában a vizsgáló számára könnyen hozzáférhető egyedekből áll a minta. Gyakran torzított eredményekhez vezet. 2. Egyszerű véletlen mintavétel A mintaelemek véletlen módon vannak kiválasztva. (Kalapból kihúzás, random számtáblázatok, random szám generálással, stb.) A reprezentativitást nem biztosítja, de a statisztikai módszerekhez használható mintákat lehet így produkálni. 3. Szisztematikus véletlen mintavétel A mintaelemeket szabályos lépésközzel választjuk ki a mintavételi keretből. Az első elemet véletlenszerűen választjuk. Biztosítani lehet azt, hogy a mintaelemek lefedjék az egész vizsgált populációt. Torzítás léphet fel, ha a mintavételi keretet szisztematikusan hozták létre (Például, egy vágóhídon mindig csak a csütörtöki állatokat vizsgálják. Lehet olyan gazda, aki sosem küldi csütörtökön a vágóhídra az állatait.) Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 8
4. Rétegezett véletlen mintavétel A rétegezés azt jelenti, hogy a mintavételi keretet rétegekre (csoportokra) bontjuk a mintavétel előtt. Utána minden rétegen belül vagy egyszerű vagy, szisztematikus véletlen mintavételt végzünk. Akkor célszerű rétegezni, ha a célpopuláció heterogén a célváltozó szempontjából. (Például a szeropoziztivitás nő az életkorral. Homogén rétegek létrehozásával robusztusabb becsléseket kaphatunk.) Előny: különböző nagyságú mintákat vehetünk rétegenként. (Ha különböző a variabilitás rétegenként, akkor a nagyobb varianciájú rétegből többet választva, pontosabb becsléseket kaphatunk.) Hátrány: tudnunk kell, hogy melyik egyed melyik réteghez tartozik. Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 9
3. Klaszter mintavétel Klaszter mintavételnél az állatok klasztereit (csoportjait) választjuk ki véletlenszerűen. Az egy klaszterben lévő összes állatot vizsgáljuk. A klasztereket bármelyik korábban említett módszerrel kiválaszthatjuk. Használhatjuk ezt a módszert akkor is, ha az állatok nincsenek egyesével regisztrálva a mintavételi keretben, de a klaszterek igen. Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 10
4. Többlépcsős mintavétel. Ez az előző módszer bonyolultabb változata, mert itt a klasztereken belül nem vizsgáljuk az összes egyedet, hanem onnan is mintát veszünk. Előny: különböző méretű mintákat lehet venni az egyes klaszterekből (variabilitás külünböző, vagy különböző költséggel vizsgálhatók). Példa: kiválasztunk n 1 gazdaságot, a gazdaságonként n 2 almot, és almonként n 3 malacot. A teljes mintaméret így: n 1 n 2 n 3 Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 11
Transzformálás Milyen problémák esetén segíthet az adatok transzformálása? 1. (Hiba) varianciák nem egyeznek; 2. Nem normális (hiba) eloszlás; 3. Kezelések hatása nem additív. Pl. ha arányokkal dolgozunk, a kezelés hatása nem additív: 2% 3% (+1%), de 25% 28%, és nem (25+1)%, vagy gyakoriságok esetén a kezelés hatása: 10 20 de 100 200 és nem 110. Az előbbi esetben az arcsin, a második esetben a log transzformáció segíthet. Általában: Azok a transzformációk, amelyek a 3. problémát megoldják, az első kettőn is segítenek. FONTOS! Az eredményeket transzformáljuk vissza! Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 12
Ferde eloszlások normálissá transzformálása - jobbra ferde eloszlás: gyök- vagy a logaritmus-transzformáció 20 10 0 x, 3 x,... logx 20 10 0 - balra ferdeség eloszlás: hatvány- vagy exponenciális függvény 20 10 x 2 x 3,,... 20 10 0 x e 0 - más esetekben másfajta transzformációk (pl. arcus sinus) - de a sikerre nincs garancia, van olyan eset is, amikor az eloszlást semmilyen transzformáció sem képes normálissá tenni, mint például a következő ábrán 20 10 0 Transzformációra szükség lehet más miatt is, például ha az értékek szóródása az értékek nagyságától függ (szóráskiegyenlítés), vagy ha két változó között a kapcsolat nem lineáris (linearizálás). Figyelem! Előfordulhat, hogy az eredeti adatok biológiailag jól interpretálhatók, a transzformált adatoknak viszont már nem tudunk biológiai jelentést tulajdonítani. Ilyenkor inkább ne transzformáljunk. Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 13
Példák transzformációkra A logaritmus transzformáció : Y = lg( Y+1) - ha s 2 > x, vagy ha az eloszlás ferde. A környezetben aggregálódott organizmusok gyakoriságának eloszlása tipikusan nem normális, a log transzformációval normalizálható. A negatív binomiális illetve logaritmikus eloszlású változók transzformálhatók jól. A négyzetgyök transzformáció: Y = Y Poisson eloszlású gyakoriságokra (véletlenül elhelyezkedő objektumok) alkalmazható ( s x ). A nagyobb értékeket jobban lecsökkenti, mint a kisebbeket. Az arcsin, vagy anguláris transzformáció: Y = arcsin p, ahol p arány. Arányokra alkalmazható. Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 14
Ne transzformáljunk gondolkodás nélkül! (A disznó és transzformáltjai...) Biostatisztika és kísérlettervezés Harnos Andrea, Reiczigel Jenő, 2006 15