Az evolúció az adatok mögött

Hasonló dokumentumok
Filogenetikai analízis. Törzsfák szerkesztése

Problémák és megoldások a bioinformatikában. Válogatott fejezetek a bioinformatikából. Gyimesi Gergely, február 25.

Gyakorlati bioinformatika

A tárgy címe: Bioinformatika

Least Squares becslés

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Bevezetés a hipotézisvizsgálatokba

Adatok statisztikai értékelésének főbb lehetőségei

KÖZELÍTŐ INFERENCIA II.

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Számítógépes döntéstámogatás. Genetikus algoritmusok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

MOLEKULÁRIS FILOGENETIKAI ELEMZÉSEK EGY DISZKRÉT MATEMATIKAI

Loss Distribution Approach

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

Modellkiválasztás és struktúrák tanulása

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

MOLEKULÁRIS FILOGENETIKAI ELEMZÉSEK EGY DISZKRÉT MATEMATIKAI

KÖZELÍTŐ INFERENCIA II.

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Evolúciós fák és szekvenciaillesztések Bayes-statisztikai Markov lánc Monte Carlo mintavételezése

Hipotézis vizsgálatok

Mérés és modellezés 1

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Monte Carlo módszerek

Dr. habil. Maróti György

Kutatásmódszertan és prezentációkészítés

A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában

A maximum likelihood becslésről

A humán mitokondriális genom: Evolúció, mutációk, polimorfizmusok, populációs vonatkozások. Egyed Balázs ELTE Genetikai Tanszék

A XXI. SZÁZADRA BECSÜLT KLIMATIKUS TENDENCIÁK VÁRHATÓ HATÁSA A LEFOLYÁS SZÉLSŐSÉGEIRE A FELSŐ-TISZA VÍZGYŰJTŐJÉN

Probabilisztikus modellek II: Inferencia. Nagy Dávid

IBNR számítási módszerek áttekintése

Mérés és modellezés Méréstechnika VM, GM, MM 1

Megerősítéses tanulás 7. előadás

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Biológiai rendszerek modellellenőrzése bayesi megközelítésben

Adaptív dinamikus szegmentálás idősorok indexeléséhez

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Az éghajlati modellek eredményeinek alkalmazhatósága hatásvizsgálatokban

Rekonstrukciós eljárások. Orvosi képdiagnosztika 2017 ősz

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Intelligens adatelemzés

MŰSZAKKIOSZTÁSI PROBLÉMÁK A KÖZÖSSÉGI KÖZLEKEDÉSBEN

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

7 SAROKVÁGÁS TESZTÉRTÉK NÉLKÜL

Közösség detektálás gráfokban

Bemenet modellezése II.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Méréselmélet MI BSc 1

Györffyné Jahnke Gizella 1 - Smidla József 2

Mesterséges Intelligencia MI

Biomatematika 13. Varianciaanaĺızis (ANOVA)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

6. Előadás. Vereb György, DE OEC BSI, október 12.

Genomátrendeződések. Miklós István. Rényi Intézet, összintézeti szeminárium, március 13.

Normális eloszlás tesztje

Modell alapú tesztelés mobil környezetben

Osztott jáva programok automatikus tesztelése. Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Minősítéses mérőrendszerek képességvizsgálata

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Kísérlettervezés alapfogalmak

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Willi Hennig ( )

Az első számjegyek Benford törvénye

Adatelemzési eljárások az idegrendszer kutatásban Somogyvári Zoltán

y ij = µ + α i + e ij

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Diszkréten mintavételezett függvények

Mesterséges Intelligencia I.

Parametrikus tervezés

8.3. AZ ASIC TESZTELÉSE

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Probabilisztikus modellek V: Struktúra tanulás. Nagy Dávid

A NIMROD SZUPERGÉNCSALÁD EVOLÚCIÓJA

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

nem kezelt 1.29, 1.60, 2.27, 1.31, 1.81, 2.21 kezelt 0.96, 1.14, 1.59

Az új mértékadó árvízszintek meghatározásának módszertani összegzése

Eredmények kiértékelése

Korreláció és lineáris regresszió

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Képrekonstrukció 9. előadás

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

ACM Snake. Orvosi képdiagnosztika 11. előadás első fele

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Matematikai statisztika szorgalmi feladatok

[Biomatematika 2] Orvosi biometria

Inferencia. ADOTTAK:! generatív modell: például: DAG + prior(ok) + likelihood(ok) P(X 1,X 2,,X n ) megfigyelések: D = {X i = x i, X j = x j, }

Több valószínűségi változó együttes eloszlása, korreláció

Mire jó a modellalkotás? Jelenségek megmagyarázásának eszköze.

Lineáris regressziós modellek 1

Átírás:

Filogenetika Az evolúció az adatok mögött Ortutay Csaba, PhD 2013 április 9

Miről lesz ma szó? Nukleotid szubsztitúciós modellek Távolság alapú módszerek UPGMA Neighbor joining Modell alapú filogenetika Maximum likelihood Bayesian inference Kiegészítő módszerek Fák gyökerének meghatározása Konszenzus fák Adat keverés (bootstrapping) 2

A modell fogalma a filogenetikában Parszimónia Fa-topológia Távolság alapú módszerek Nukleotid szubsztitúciós modellek (mutációs ráták + bázisfrekvenciák) Modell alapú filogenetika (ML + Bayes) Fa-topológia + ághosszak Nukleotid szubsztitúciós modellek (mutációs ráták + bázisfrekvenciák) Egyéb paraméterek (pozíciók variabilitása)

A mutációk telítődnek

Nukleotid szubsztitúciós modellek DNS szintű evolúció Szilárd matematikai alapok Egyes modellek különbözőképpen veszik figyelembe Nukleotid frekvenciákat 1/4 Adatokban mért Modellel becsült Mutációs rátákat Uniform Tranzíciók/transzverziók Időfüggetlen/függő

Jukes-Cantor modell JC69 modell (Jukes és Cantor, 1969) Egységes (1/4) bázisfrekvencia Egyetlen mutációs ráta: μ

A JC modell tulajdonságai

A JC modell tulajdonságai

További modellek K80 model (Kimura, 1980) Tranzíciók és transzverziók HKY model (Hasegawa, Kishino és Yano 1985) Egyedi bázisfrekvenciák Gyakran használt ML-hez T92 model (Tamura 1992) GC tartalom TN93 model (Tamura és Nei 1993) Több féle mutációs ráta + Egyedi bázisfrekvenciák Általános időreverzibilis model (Generalised timereversible GTR) Összes lehetséges mutációs ráta külön kezelve

Különféle szubsztitúciós modellek kapcsolatai

Szubsztitúciós modellek használata Távolság alapú módszerekben szekvenciatávolságok számolására Modell kiválasztása: kevesebb paraméter, kevesebb zaj: JC vagy K80 Modell alapú filogenetikában a szekvencia evolúció modellezésére Modellt illeszteni kell az adatokhoz A szükséges legkevesebb paramétert kell használni

Távolság alapú filogenetika Az alap megközelítés 1. Karakterek szelekciója/szekvenciák illesztése 2. Köztes távolság mátrix generálása 3. Fa gyártása a távolság mátrixból

Két szekvencia/gén/faj távolsága 0.3 0.1 c a 0.05 0.03 b a b c a - 0.08 0.45 b 0.08-0.43 c 0.45 0.43 -

Egyszerű távolság mátrix létrehozása Archeop teryx Allosa urus Tricer atops A 1 1 1 1 B 0 0 0 1 C 0 0 0 1 D 0 0 0 1 E 1 1 1 0 F 1 1 0 Archeo 0 G 1 3 3 pteryx 3 Allosaur us Plateosaurus Plateosaurus Tricerat ops Különböző karakterek száma Metrikák Nukleotid szubsztitúciós modellek Modell variánsok Aminosav szubsztitúciós mátrixok PAM vs BLOSUM Archeo pteryx Allosaur us Plateosaurus Tricerat ops - 2 3 7 2-1 5 2.24 1-4 3 2.24 2 -

Aminosav szubsztitúciós mátrixok Az aminosavak kémiai (töltés, polaritás) és fizikai struktúrális tulajdonságok alapján Karlin és Ghandour (1985, PNAS 82:8597) A genetikai kód és a kémiai tulajdonságok alapján Dooloittle (Feng et al., 1985 J. Mol. Evol. 21: 112) Empirikus mátrixok PAM & BLOSUM

PAM vs. BLOSUM mátrixok PAM BLOSUM Explicit evolúciós modellek (valódi fák) alapján parszimónia Teljes hosszú szekvenciák illesztése résekkel Csak PAM1 számolt, a többi mátrix ennek extrapolációja Nincs mögötte evolúciós modell Szekvencia részletek résmentes illesztése Különféle mátrixok különböző mértékben hasonló fehérje csoportból számoltak

Hogyan lesz a távolság mátrixból fa? Számos matematikai lehetőség Clustering Leggyakoribb módszerek UPGMA Least squares (LS) Minimum evolution (ME) Neighbor Joining (NJ) Számos fejlettebb módszerhez kiindulási fa

UPGMA mint módszer Unweighted Pair Group Method with Arithmetic mean Átlagos kapcsoltásg modell Egyszerű klaszterező módszer Gyökeres fát ad! Tie (ütközés): Több egyforma távolság a mátrixban Maga az algoritmus nem kezeli A megoldás implementáció függő Egyelő mutációs rátát feltételez az adatokon

UPGMA fa Archeoptery x Ar Al Pl Tr - 2 3 7 Allosaurus - 1 5 Plateosaurus - 4 Triceratops - (Ar,(Pl,Al)) Tr (Ar,(Pl,Al)) - 5.3 Tr - Ar (Pl,Al) Tr Ar - 2.5 7 (Pl,Al) - 4.5 Tr - Newick formula (Tr,(Ar,(Pl,Al))) Triceratops Archeopteryx Plateosaurus Allosaurus

Neighbour-joining Mohó (Greedy) algoritmus A helyi optimumok megvalósításával próbálja megtalálni a globális optimumot Csillag alakú fából indul ki Lépésenként két taxont kapcsol össze Gyökértelen fát hoz létre Nem feltételez egyforma mutációs rátát Gyors és hatékony módszer Számos nagyon hasonló implementáció

Modell alapú filogenetika Maximum likelihood Bayesian inference Mi a valószínűsége, hogy a megfigyelt adatokat (D) látjuk, ha adott modell (T) igaz? Mekkora a valószínűsége annak, hogy adott modell igaz, ha az adatok adottak? Pr(D T) Pr(T D)

Maximum likelihood és filogenetika Az adatok az analízis előtt Illesztett nukleotid szekvenciák Modell az evolúciós folyamatokra Nukleotid szubsztitúciós modell Fa/fák Egyéb paraméterek Az eredmények az analízis után Fák a likelihood értékekkel (kisebb jobb) Ághosszak

Alapvető működés Mi a valószínűsége, hogy adott fa és modell esetén a megadott szekvenciaillesztést kapjuk meg? Heurisztikus faépítés/keresés Fa módosítása NJ fa Fa Pontozás Legjobbak kiválasztása

Ághosszak valószínűsége L=3x10-5 L=5.59x10-5

Változó és nem változó pozíciók További paraméterek a modellek bonyolításához Nem változó (konzervált) pozíciók Funkcionális helyek (enzim aktív centrumok) Arányuk becsülhető: ML Az egyes pozíciók variablilitása Genom különböző régiói különböző mértékű szelekciós kényszer alatt álnak Gamma distribution Az eloszlás paraméter (α) definiálja

Modell llesztése az adatokhoz 12 12 10 10 8 8 6 6 4 4 2 2 0 12 0 2 4 6 8 10 0 12 0 2 4 6 8 10 10 10 8 8 6 6 4 4 2 2 0 0 2 4 6 8 10 0 0 2 4 6 8 10

Hogyan döntsünk a modellek közöt? Csak semmi tippelés, elő a statisztikával! Iteratív likelihood ratio test Induljunk a legegyszerűbb modellel Bonyolítsuk lépésenként Az egyszerűbb és a bonyolulabb modellel számoljunk ML-t A nullhipotézisünk: nincs különbség Végezzünk χ 2 próbát ennek tesztelésére Ha szignifikáns a különbség, vessük el a nullhipotézist Ismételjük addig, amíg új paraméter már nem javítja a modell illeszkedését

Bayesian inference of phylogeny Bayesian inference Nagyon régi módszer a statisztikában Felsenstein 1968-ban javasolta filogenetikára Csupán 2000 körül elég erősz számítógép az implementációhoz Hatékony numerikus megoldás matematikai alapon Quick & dirty megoldás Elméleti alapja rendkívül vitatott Nagyon népszerű

Valószínűségek Posterior probability a posteriori Probability of a model The same as in ML! Prior probability a priori D A bemeneti adat θ A tesztelt modell: fa + evolúciós model

Bayes alapú filogenetika algorimikus vonatkozásai Markov chain Monte Carlo módszer MCMC A valószínűségi eloszlások okos mintavételezése Előre becsli a paraméterek eloszlását Két párhuzamos becsléssor Nincs előre meghatározott vége a futtatásnak A kutató állítja meg, amikor már elegendően konvergálnak az egyes futtatások

MrBayes Evolúciós modellt előre meg kell adni Nucleotide substitution model Pozíciók variabilitását meg kell becsülni ML-hez hasonló evolúciós modellt vár Bázisfrekvenciák Mutációs ráta mátrix Fa topológia Ághosszak Ha nincs a priori becslésünk, az adatokból is meg tudja becsülni

Mikor használjunk modell alapú filogenetikát? Nukleotid szekvencia adatok Néhány: ML Sok/hosszú szekvenciák: Bayes Ha van ismeretünk a szekvencia evolúcióról Ha szükségünk van a felhasznált paraméterekre Ha sok idő áll rendelkezésre Ha statisztikákkal kell alátámasztanunk az eredményeket

Miről lesz ma szó? Nukleotid szubsztitúciós modellek Távolság alapú módszerek UPGMA Neighbor joining Modell alapú filogenetika Maximum likelihood Bayesian inference Kiegészítő módszerek Fák gyökerének meghatározása Konszenzus fák Adat keverés (bootstrapping) 34

Fák gyökerének meghatározása a középpont módszer

Fák gyökerének meghatározása Outgroup módszer

Több fa konszenzusa Fák különböző módszerekkel ugyanarra az adatbemenetre Több azonos értékű eredményfa Többféle adatforrás ugyanazon fajokra Nukleotid/fehérje fa Zajos adatok A hangsúly a topológián Ághosszak elvesznek! Strict consensus Semistrict consensus Majority rule Választható küszöbérték: Miben közös több fa? 50-100%

Konszenzus módszerek

És ha nem ugyanazon taxonok vannak a fákon? Fák összehasonlítása különbző forrásokból Referencia fa az irodalomból Nem minden genomból van orthológ Legnagyobb közös fa Amiben az összes fa egyetért Legkisebb bennfoglaló fa Ha összerakjuk a részfákat Software: PhySIC_IST

Szuperfák Scornavacca C., Berry V., Lefort V., Douzery E.J.P. and Ranwez V. BMC Bioinformatics. 2008, Oct 4;9:413

Adat újra-mintavételezési módszeek Pszeudo-mintákat generál Nemparaméteres bootstrap véletlenszerű pozíció válogatás ismétlődéssel Jackknife az adatok véletlenszerű 50%ának kizárása Fa geerálása a pszeudo-mintákra Konszenzus fa generálása 50% majority rule Csak topológia! Az ághosszakat újra kell becsülni

Bootstrap értékek interpretálása A belső elágazásokhoz Megismételhetőség 1-FDR Adatok mennyire támogatják Meg kell adni: Replikációk számát A filogenetikai módszert

Bayesian posterior valószínűségek és a bootstrap értékek

Egy jól megtervezett filogenetikai analízis A szekvenciák kiválasztása Rerezentatív minta Outgroup Szekvenciák illesztése A bemeneti adatok (adatfájl) összeállítása Külső információ hozzáadása Stepmatrices Információ az egyes pozíciókról Topológiai kényszerek Nem szekvencia információk

Egy jól megtervezett filogenetikai analízis a filogenetikai módszer Távolság alapú módszer Maximum likelihood Parszimónia Sok szekvencia Gyors fa kell Fehérje szekvencia Sok nem szekvencia informácó Kevés (nem több, mint 20) nukleotid szekvencia Bayesian inference Sok/hosszú nukleotid szekvencia

Egy jól megtervezett filogenetikai analízis Fagenerálás Van a priori fánk, amit használhatunk? Generáljuk a fákat? Az összes fát kiértékeljük (kevesebb, mint 10 szekvencia) Heurisztika

Egy jól megtervezett filogenetikai analízis Az eredmények kiértékelése: megbízható a fám? Bootstrap/posterior értékek Konszenzus fák Megválaszolja az eredmény a biológiai kérdést?