Kutatástervezés 1. rész, Hahn István 1. óra Adattípusok 1. A leggyakoribb változók osztályozása. A bináris változók jelentősége 3. Borításbecslés bináris mintavételi módszerrel 4. A leíró statisztika alapjai. óra Statisztika 1. Néhány jelentős eloszlás. Döntéshozó statisztikák 3. óra Kísérletek tervezése 1. Ismétlésszám. Randomizáció, kísérleti elrendezések 3. Hibás tervezések, hibás következtetések 4. óra Hallgatói beszámolók 1. ZH. Témaismertetések kísérlettervezési és kiértékelési szempontból Ezt a témát célszerű továbbvinnetek!
Kutatástervezés. rész, Pásztor Erzsébet Feladat az első alkalomra: Hogyan alakul át a tudományos munka? Mi lesz az én szerepem? - 300-400 szavas reflexió a kötelező olvasmányra (Human Genome Project: Twenty-five years of big biology) saját google dokumentumba, szerkesztésre megosztva: lizpasztor@gmail.com 1. óra A kutatómunka természete 1. Hogyan alakul át a tudományos munka? Egyéni és csoport teljesítmény. Magányos zseni és kooperatív problémamegoldó.. MsC és PhD: hasonlóságok és különbözőségek, MsC és PhD követelmények 3. A kutatás folyamata: a témaválasztástól a publikációig 4. A témaválasztás folyamata,t émagenerálás analógiák, relevancia fák és morfológiai analízis segítségével 5. A potenciális témák értékelése. óra Irodalmazás, kapcsolattartás 1. Hogyan legyünk naprakészek: források, kutatói hálózatok, blogok. Elektronikusan elérhető szakirodalom 3. Keresés kulcsszavakkal és citációk alapján: a szakirodalom feltérképezése 4. Saját bibliográfia felállítása 5. Hogyan olvassunk és mit dokumentáljunk? 3. óra Tervezés és végrehajtás 1. Miért van szükség a tervezésre?. Hálótervek készítése 3. Elkerülhető és elkerülhetetlen problémák a végrehajtás során 4. A témavezetővel való kapcsolattartás módjairól 5. A szükséges pozitív hozzáállásról 4. óra Milyen lesz az én szakdolgozatom? 1. Cím. Irodalmazás, témaelemzés 3. Alkalmazott módszerek 4. Adatbázis, elemzés 5. Diszkusszió 6. Összefoglaló (absztrakt)
Kutatástervezés 3. rész, Miklósi Ádám Felkészülés az előző héten Feladat: Téma absztraktjának beküldése (doc), Előadás elküldése (ppt) amiklosi6@gmail.com 1. óra 1. 10 perces előadás saját témából ppt + kérdések. Absztraktírás átbeszélése 3. Cikk, mint a kutatói munka alapja 4. HÁZI: Absztrakt javítása 5. HÁZI: 1 kézirat feldolgozása előadásra (ppt). óra 1. Kutatói munka: együttműködés és verseny. Egyéb kutatói tevékenységek, karrier 3. Hogyan (miért) bírálunk cikket 4. Házi: 1 kézirat bírálatának elkészítése 3. óra 1. 10 perces előadás a kéziratból ppt + kérdések. Pályázatírás szempontjai 3. Házi: Pályázat írása, és bírálata 4. Óra 1. Pályázat bemutatása, bírálatok megbeszélése
Változótípusok Skála Definíció Példák Nominális 1.kvalitatív, nevekből áll.nincs rangsor ivar, betegség, fajnév, cselekvési típus, prezencia-abszencia adatok Ordinális Intervallum Arány/ hányados 1.kvalitatív, rangsor lehetséges.értékek közti távolság tetszőleges 1.kvantitatív, rangsor, értékek közti különbség mutatja a távolságot.önkényes nulla pont 3.arányok nem értelmezhetők 1.kvantitatív, rangsor, értékek közti intervallum mutatja a távolságot.valódi nullapont 3.arányok értelmezhetőek agresszivitás: erős, közepes, gyenge, borítás skálák, W-értékek, rangok C hőmérséklet, IQ testsúly, magasság, életkor, mért értékek A megkülönböztetés fontos: kváziátlagok a statisztikában általában mérhető és megállapítható változókat különböztetnek meg. Közöttük egyirányú konverzió lehetséges folytonos vagy diszkrét közöttük átmenet: Simon Levin statisztikus véleménye (termésszám-terméssúly) bináris (előnyei-hátrányai) - borításbecslés
Klonális növekedési formák: Falanx Az egyed fogalma nehezen értelmezhető, terepen nem számolható. Egyedszám helyett használható: -Hajtásszám -Biomassza -Borítás Gerilla
Tömegesség megadása: borításbecslés bináris értékek sorozatával Belátható, hogy a kis négyzetekből akár válogathatunk is pl. véletlenszerűen, kevésbé pontos eredményhez ez is elég lehet. Elvileg járható út, terepen nem alkalmazható időigényes volta miatt. DE! Ezen alapul a digitális képek kiértékelése!
Cover Monitoring Assistant (CMA) Program
1 3 4 5 6 7 8 9 10 Feladat: pontok kijelölésével próbáld megbecsülni, hogy a piros (nyomtatva fekete) foltok a négyzet hány százalékát foglalják el! A lap oldalán tízesével írjál 0-t vagy 1-et, 10x10-et, és számold ki az 1 /összes hányadost tízesével! Készíts ábrát, ahol a az elemszám függvényében ábrázolod a hányadost!
Fehér: 4% piros 58%
arány Van-e értelme önmagában egy bináris adatsornak? Vízigény megoszlás egy szigetközi területen 100 90 80 70 60 50 40 30 0 10 0 1 3 4 5 6 7 8 9 10 11 W Fajszámok alapján borítások alapján
A matematikai statisztika elemei illetve ezek felelevenítése David B. Allison, Andrew W. Brown, Brandon J. George, Kathryn A. Kaiser Reproducibility: A tragedy of errors Nature, 03 February 016 To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of. Sir Ronald Aylmer Fisher (1890 196) angol statisztikus és biológus
Ezért: A rendelkezésre álló információk alapján (szakirodalom, saját elővizsgálatok) nagyon alaposan meg kell tervezni a kísérlet összes körülményét beleértve azt is, hogy a kapott eredményeket milyen statisztikai eljárással fogjuk kiértékelni. Ez meghatározhat jó néhány kísérleti beállítást (mintaelemszám, kontroll vagy kontrollok(!) milyensége, adatsorok függetlensége, figyelembe vehető változók száma, stb.). A kísérletre fordítandó forrásoknak legalább 10%-a kísérlet megtervezésére fordítódjon. Mivel a kiértékeléshez használandó statisztika meghatározza kísérleti elrendezést, ezért időben fordítva a statisztikával kezdünk.
STATISZTIKAI ALAPFOGALMAK: Átlag, szórás Legyenek valamely n elemű populáció egy x változójának mért vagy számított értékei: x, 1 x,..., x n x x 1 x... n x n. i1 (s.d.) s n x i n 1 x Számtani átlag szórás A biológiai minták variabilitása nagy
Módusz A leggyakrabban előforduló érték. Középérték további mutatói: Medián A sorba rendezett adatok középső értéke. Ha n páratlan, akkor az értékek közül a nagyság szerint rendezett sorban a középső, ha n páros, akkor a két középső érték számtani közepe. Fentiek bármilyen szám-jellegű adatsornál alkalmazhatók. Lentiek arányskála esetén alkalmazhatók. Számtani átlag Mértani átlag Az alapadatok szorzatának annyiadik gyöke, ahány adat van. Harmonikus átlag A reciprok adatok átlagának reciproka. Ezek egybeesnek? Ritka kivételtől eltekintve nem. Az eltérés mértéke az eloszlás ferdeségétől függ. Kváziátlag: ordinális változókból számolt átlag
Szóródási tendencia további mutatói: Terjedelem A legnagyobb és a legkisebb érték közötti különbség. Szórás A várható értéktől való eltérés várható értéke dimenziója az eredeti Variancia A szórás négyzete. - számításokhoz Variációs együttható dimenzió nélküli szám V s x, Megadás: az alapadatoknál eggyel több értékes jegyre
Egyszerű esetek: Pénz, kocka Bonyolult esetek: más (dobómalac) Valószínűségek megadása A priori a posteriori A nagy számok törvénye A nagy számok törvénye a valószínűségszámítás egyik alapvető tétele. A törvény azt mondja ki, hogy egy kísérletet sokszor elvégezve az eredmények átlaga egyre közelebb lesz a várható értékhez (v.ö. borításbecslés). Nem jelenti ugyanakkor azt, hogy az esélyek kiegyenlítődnek Kapcsolata a mintavételi elemszámmal
Egy rövid tűt egy vonalas lapra leejtve, mi a valószínűsége annak, hogy az keresztezni fog egy vonalat? - vetette fel a kérdést George Louis Leclerc, Buffon grófja 1777-ben. Legyen a szakaszok (tűk) hossza L= 49 mm, a vonalak egymástól való távolsága d = 60 mm. Georges-Louis Leclerc (1707 1788), Buffon grófja francia természettudós
Ha L d, annak a valószínűsége, hogy a leejtett L hosszúságú tű metszi valamelyik vonalat: * L p = * d SZÁMOLÁS!
Pi= 3,14159653589793384664338379508841971693993751058097494459307816406860899868034 85341170679814808651383066470938446095505831753594081848111745084107019385110 555964469489549303819644881097566593344618475648337867831657101909145648566934603 48610454366481339360760491417374587006606315588174881509096895409171536436789 590360011330530548804665138414695194151160943305770365759591953091861173819361179310 51185480744637996749567351885757489179381830119491983367336440656643086013949463 954737190701798609437077053917176931767538467481846766940513000568171456356087 78577134757789609173637178714684409014953430146549585371050797968958935401995611 1901960864034418159813697374771309960518707113499999983797804995105973173816096318 5950445945534690830645308533446850356193118817101000313783875886587533083814061 7177669147303598534904875546873115956863883537875937519577818577805317168066130019 787661119590916401989687931456087586405600775893457039807456078560345634060137576 147856141305761437756713456745614785380395713947613510561056710643107563476748136807 39761456345103457961345716457164570647061345701405614759013456943567501571451459071634573 68901839987901835787379733899738990109733738087165178391817 3839998990197367715416930387673810961483907498701699930919345613 45790613450976134507614509154740561304561403566190651079561906150795617095601795610795614 906417900387934893478193471985697851734071437905601956013401849804048910144015161565616 905468153448343434343434343434343434343434586159185091486901345681405891534091568906056 10346109456104561508610596190456134859063149086514068134589078343141349343.
Szegélyhatás a mintavételi egységeknél Transzektbe/kvadrátba esés valószínűségének megadása ismert alakú foltok esetében.
Egyenletes eloszlás érme, kocka Binomiális eloszlás Valószínűségek megadása számításokkal lehetséges kimenetel, egyik bekövetkezési valószínűsége p, a másiké q, p+q=1. Annak valószínűsége, hogy n db kiválasztáskor éppen k esetben következik be a p valószínűségű esemény: p k *(1-p) n-k a lehetséges sorozatok száma (ismétléses permutáció) n!/((k!*(n-k)!) P k n k k nk * p (1 p) Az eloszlásnak két paramétere van, n és p. Ez végtelen mintákra vonatkozik, egy egyszerűbb véges urnamodell analóg kérdése
Egy urnában levő N darab golyó közül M piros, és visszatevés nélkül kiválasztunk n darabot, mi a valószínűsége annak, hogy a mintában éppen k darab piros golyó lesz? Az eloszlás hipergeometrikus, ha n és s elég nagy, az eloszlás jól közelíthető a binomiálissal. Ha M tart a végtelenhez, akkor a a hipergeometrikus eloszlással számolt valószínűség tart a binomiálissal számolthoz. Olyan esetekben használatis, ahol a a kiválasztott elem a vizsgálat során elhasználódik, azaz nem lehet visszatevéses mintavételnek tekinteni.
Tételezzük fel, hogy p nagyon kicsi, de n tart a végtelenhez úgy, hogy szorzatuk konstans: n*p= Poisson eloszlás: annak a valószínűsége, hogy éppen k-szor következik be az esemény: P(k)=(( k )/k!)*e - Az eloszlásnak egy paramétere van,, ami egyben az eloszlás várható értékét és varianciáját is adja. Annak a valószínűsége, hogy egy t-vel jellemezhető intervallumra (pl. szakasz, terület, térfogat, idő) éppen k darab eset jut: P(kt)=(( kt )/k!)*e -t A mintavételezés egyik referencia-eloszlása, ezzel lehet leírni a térbeli és az időbeli véletlen folyamatokat.
A véletlen a térben (itt síkban) Három pontmintázat típus: szabályos véletlenszerű csoportosulásos eloszlás (distribution) diszperzió/szétszórtság? (dispersion)
Helyi feladat: véletlen pontmintázat előállítása Helyi feladat: véletlen számsor előállítása Írjatok 1 és 100 között (a szélső értékek is beleértendők) száz egész számot, törekedve a véletlenszerűségre. Értékelés (nem helyi): Ábrázoljátok oszlopdiagrammon 1. Az 1-10, 11-0, 1-30, stb. tartományba eső számok darabszámát.. Az 1,, 3, stb. végződésű számok darabszámát. 3. Csináljatok egy ezen adatokból 1-1 összesített diagrammpárt!
A megszokott 10-es számrendszer rányomja bélyegét az eredményekre:
(Csak előrevéve:) The twenty commonest censusing sins William J. Sutherland School of Biological Sciences, University of East Anglia
1. NOT SAMPLING RANDOMLY. It is very satisfying to sample rarities or rich patches but it ruins the exercise. One common error is just to visit the beat sites and use the data to estimate population size.. COLLECTING FAR MORE SAMPLES THAN CAN POSSIBLY BE ANALYSED. This is a waste of time and may raise ethical and conservation issues. 3. CHANGING THE METHODOLOGY IN MONITORING. Unless there is a careful comparison of the different methods, changing the methodology prevents comparisons between years. 4. COUNTING THE SAME INDIVIDUAL IN TWO LOCATIONS AND COUNTING IT AS TWO INDIVIDUALS. 5. NOT KNOWING YOUR SPECIES. Knowing your species is essential for considering biases and understanding the data. 6. NOT HAVING CONTROLS IN MANAGEMENT EXPERIMENTS. This is the greatest problem in interpreting the consequences of management. 7. NOT STORING INFORMATION WHERE IT CAN BE RETRIEVED IN THE FUTURE. The new warden of a national nature reserve in England could find out from old work programmes the days on which his predecessor had counted a rare orchid but could find no record of the actual numbers!
Számítógépes algoritmusak Igazi véletlenszám generátorok: Radioaktív bomlás alapján
kísérleti elrendezések Randomizáció Véletlen számok és mintázatok problematikája - cél: a statisztikai populáció tagjai egyenlő eséllyel kerülhessenek a mintába - használható zavaró tényezők, tendenciák hatásának kiszűrésére - a reprezentativitás legfőbb biztosítéka pontosság és precizitás statisztikus hiba és szisztematikus hiba
- torz minta: - bizonyos egyedek nagyobb valószínűséggel kerülnek a mintába - bizonyos egyedek bekerülése befolyásolja más egyedek bekerülését - Példa: botanika-kvadrát Térbeli autokorreláció Tobler amerikai geográfus első törvénye: Minden mindennel összefügg, de a közelebbi dolgok erősebben hatnak egymásra. Azaz várhatóan az egymáshoz közel levő helyek jobban hasonlítanak egymásra, mint a távoliak. Időben is: a holnapi időjárás legnagyobb valószínűséggel olyan, mint a mai. ál-ismétlés, pseudo-replication A véletlenszerűség igen gyakran statisztikai követelmény Haphazard (találomra, vaktában) mintavétel Problémái, szisztematikus és szemiszisztematikus mintavétel
Szemiszisztematikus (helytelen) neve térben rétegezett elrendezés
Sziklagyepek a képen ördögszántás
Kísérleti elrendezések a véletlenszerűség biztosítására véletlen blokkelrendezés: az ismétlések blokkokba vannak osztva úgy, hogy a blokkok minél homogénebbek legyenek előny: egyszerű hátrány: tízféle vagy több kezelésnél nehezen biztosítható a blokkon belüli homogenitás ekkor jobb a tökéletlen, azaz a blokkon belüli homogenitás érdekében lemondanak arról, hogy minden blokkban minden kezelés benne legyen példa 1. parcellakísérlet gradiens mentén példa. laborkísérlet időben: pl. vérszérum elemzés box: Ali fotoszintézis vizsgálatai: napi és évi ciklus
Latin-négyzet Az elnevezés Eulertől származik, aki latin betűket használt szimbólumokként Matematikai elmélete van. Régen a misztikában, jelenleg a kísérlettervezésben és a kódolásban alkalmazzák. ha a kezelések száma egyenlő az ismétlésszámmal, soronként és oszloponként 1-1 lehet. mágikus és szupermágikus latin négyzetek latin tégla a kezelésszám (1-8) az ismétlésszám (4) egész számú többszöröse kell legyen 5 8 6 3 4 7 1 6 7 8 5 1 3 4 4 1 7 3 8 5 6 1 3 5 4 6 7 8
Normális eloszlás (család) paraméter: A várható érték (m) és a szórás (σ) sűrűségfüggvény A görbék magasságai azért különbözőek, hogy a görbe alatti terület 1 legyen (teljes valószínűség). Centrális határeloszlás tétel: Független valószínűségi változók összege aszimptotikusan normális eloszlású, ha az összeghez képest kicsik azaz ha sok eloszlás szuperponálódik. Galton deszka
A normális eloszlás (és vizsgálata) a biológiában nagyon gyakori: - Egy-egy tulajdonságot sok genetikai és környezeti tényező határoz meg - Gyakran vizsgálunk olyan jelenséget, amit sok körülmény határoz meg -A mérési/becslési hibák általában normális eloszlásúak - Egyes statisztikai próbák megkövetelik az adatsorok normális eloszlását Standard normális eloszlás Az adatsor minden egye eleméből kivonjuk az adatsor átlagát, és elosztjuk a szórásával. Az eredmény eloszlás normális marad, de átlaga=0, szórása=1.
Hipotézisvizsgálatok Nullhipotézis Populáció, minta. Elméleti és tapasztalati középértékek és szóródási mutatók. Szabadsági fok A döntéshozó statisztikai próbák eredménye nem egy egyértelmű ítélet, hanem annak a valószínűsége, hogy egy nullhipotézis igaz avagy hamis. ÉRTÉKELÉSE KUTATÓI FELADAT, ALAPVETŐEN NEM AUTOMATIKUS. Konfidenciaintervallumok Azt az intervallumot, amelyik egy ismeretlen értéket (középérték, medián, szórás, variációs együttható, relatív gyakoriság, stb.) egy meghatározott valószínűséggel tartalmaz, megbízhatósági tartománynak vagy konfidencia-intervallumnak nevezzük.
Szignifikanciaszint általában 5% (p<0,05) első- és másodfajú hiba. Elsőfajú: elvetjük a nullhipotézist, pedig igaz. Mértéke ismert. Másodfajú: megtartjuk a nullhipotézist, pedig hamis. Mértéke ismeretlen. Nullhipotézis: az alany nem terhes. Mennyire lehet automatikasan igazodni az 5%--os határhoz? Minél jelentősebb egy felfedezés, annál erősebb alátámasztás kell. Nem életidegen a változó határ? (szerencsejáték csalás esélye)
próbák ereje Egymintás t-próba Kétmintás t-próba F-próba Maximális F, vagy Bartlett-próba Egyszempontos varianaciaanalízis elve
A t-eloszlás táblázata és az egymintás t-próba próbastatisztikája 1. Kiszámolom az adatokból t értékét.. A szabadsági fok ismeretében 3. kikeresem az adott sorban azt az értéket, amit a t meghalad. 4. A táblázat vízszintes fejlécén megnézem a valószínűségi értéket.
Magyar tudomány cikk Science cikk
Kétmintás t-próba 1 1 1 1 1 1 1 1 n n s n s n n n n n Y Y 1 1 1 n s n s Y Y A kapott próbastatisztika n 1 +n - szabadsági fokú t-eloszlású Ha a minták függetlenek, normális eloszlásúak és szórásaik nem különböznek szignifikánsan, tekinthetjük egyetlen minta két részének. Ez alapján a magasabb elemszám miatt jobb becslését adhatjuk a szórásnak.
A t-próba feltételei: Egymintás esetben: a valószínűségi változók normális eloszlásúak a mintaelemek függetlenek Kétmintás esetben ezeken felül: a két valószínűségi változó szórása azonos
Welsch-próba Ha a két minta varianciája nem azonos, a próbastatisztika: d= Y 1 s n 1 1 Y s n Ha a null-hipotézis igaz a próbastatisztika közelítőleg t-eloszlású a szabadsági fok függ a varianciák közötti különbségtől is Nem paraméteres: Mann-Whitney próba
F-próba Két variancia összehasonlítása a mintából kapott becslések alapján Követelmény: normális eloszlás. F= s s 1 Mindig a nagyobbat kell a kisebbel osztani. Maximális F, Bartlett-próba
Egyszempontos varianciaanalízis elvi vázlata Alapja egyetlen F-próba, ami az átlagok eltérésére karakterisztikus csoportok közötti varianciát veti össze a random ingadozást leíró csoportokon belüli varianciával. Kezeléstípusok a b c d e f g Alapadatok átlagok varianciák Belső- és külső varianciák elemszámmal súlyozott sorozatának összevetése EGYETLEN F-próbával. Nem paraméteres: Kruskal-Wallis próba
Khi-négyzet próbával végezhető szignifikanciavizsgálatok: Homogenitásvizsgálat Összefüggésvizsgálat Illeszkedésvizsgálat fertőzött Nem fertőzött Összesen Hím 18 0 Nőstény 6 4 30 Összesen 4 6 50
A Khi eloszlás táblázata Aggregációs index pl. a helyi feladat eredményének szignifikanciavizsgálatához.
1 1 1 1 1 1 1 1 1 1 n i i n i i n i i n i i n i i n i i n i i i y n y x n x y x n y x r Lineáris korreláció és regresszió Korreláltság, korrelálatlanság Legkisebb négyzetek módszere r = Cov(xy)/SQRT(var(x)*var(y))
A becslésre fordított idő érdemben nem befolyásolta az elért pontosságot (r~0.)
Interpoláció és extrapoláció Konfidencia-intervallumok
Oksági összefüggést takar-e? függő és független változó: MINDIG!!! utánagondolni A vagyonosabb embereknek drágább autója van. példa 1. sajtó: a sokat TV-ző gyerekek nehezebben olvasnak példa. talajnedvesség: a nedvesebb talajban több a gyökér, és a több gyökér jobban kiszárítja a talajt Pszeudokorreláció - látszatösszefüggés búza-rozs termésmennyiség gólyafészek - születésszám kökény megcsípte a dér
ZH-minta feladatok Megadandó az alkalmazandó statisztikai próba neve, elvégzésének feltétele vagy feltételei, továbbá, ha a kérdés eldöntésére többféle eljárás is alkalmas, akkor ezeknek mi a rangsora. Utóbbi alatt azt értem, hogy melyik lenne a legjobb, de ha az nem végezhető valami miatt, akkor mi lenne a következő, stb. 1. A Szerencsejáték Rt. Honlapjáról letölthetők az eddigi lottóhúzások néhány statisztikája, pl. az, hogy melyik számot hányszor húzták ki eddig összesen. Hogyan lehetne megvizsgálni, nem volt-e esetleg csalás, azaz nem szerepeltek-e egyes számok az elvárhatónál szignifikánsan többször vagy kevesebbszer?. Egy cég új reagenst kínál, amelyről azt állítja, hogy az eddig forgalmazottnál hatékonyabban növeli egy oldat vezetőképességét (teljesen mindegy, hogy miért és hogyan, ). Milyen módszerrel (vagy módszerekkel!!!) lehet eldönteni, hogy igaz-e az állítás? 3. Egy vállalkozó olyan segédanyagot forgalmaz, mely (állítása szerint) növeli a búza terméseredményét. Milyen módszerrel (vagy módszerekkel!!!) lehet eldönteni, hogy igaz-e az állítás? 4. Kutyafajták termetét akarjuk összehasonlítani. Tételezzük fel, hogy létezik egy szempontrendszer, melynek segítségével 0-től 4-ig osztályozni lehet a megvizsgált állatokat: 0 - mini, 1 - kicsi, - közepes - 3 nagy, 4 - hatalmas. Nyolc kiválasztott fajta 366 példányának eredményéből milyen statisztikai próbával lehet a fajták között meglevő méretkülönbség meglétét kimutatni avagy elvetni?