Filogenetika Az evolúció az adatok mögött Ortutay Csaba, PhD 2013 április 9
Miről lesz ma szó? Nukleotid szubsztitúciós modellek Távolság alapú módszerek UPGMA Neighbor joining Modell alapú filogenetika Maximum likelihood Bayesian inference Kiegészítő módszerek Fák gyökerének meghatározása Konszenzus fák Adat keverés (bootstrapping) 2
A modell fogalma a filogenetikában Parszimónia Fa-topológia Távolság alapú módszerek Nukleotid szubsztitúciós modellek (mutációs ráták + bázisfrekvenciák) Modell alapú filogenetika (ML + Bayes) Fa-topológia + ághosszak Nukleotid szubsztitúciós modellek (mutációs ráták + bázisfrekvenciák) Egyéb paraméterek (pozíciók variabilitása)
A mutációk telítődnek
Nukleotid szubsztitúciós modellek DNS szintű evolúció Szilárd matematikai alapok Egyes modellek különbözőképpen veszik figyelembe Nukleotid frekvenciákat 1/4 Adatokban mért Modellel becsült Mutációs rátákat Uniform Tranzíciók/transzverziók Időfüggetlen/függő
Jukes-Cantor modell JC69 modell (Jukes és Cantor, 1969) Egységes (1/4) bázisfrekvencia Egyetlen mutációs ráta: μ
A JC modell tulajdonságai
A JC modell tulajdonságai
További modellek K80 model (Kimura, 1980) Tranzíciók és transzverziók HKY model (Hasegawa, Kishino és Yano 1985) Egyedi bázisfrekvenciák Gyakran használt ML-hez T92 model (Tamura 1992) GC tartalom TN93 model (Tamura és Nei 1993) Több féle mutációs ráta + Egyedi bázisfrekvenciák Általános időreverzibilis model (Generalised timereversible GTR) Összes lehetséges mutációs ráta külön kezelve
Különféle szubsztitúciós modellek kapcsolatai
Szubsztitúciós modellek használata Távolság alapú módszerekben szekvenciatávolságok számolására Modell kiválasztása: kevesebb paraméter, kevesebb zaj: JC vagy K80 Modell alapú filogenetikában a szekvencia evolúció modellezésére Modellt illeszteni kell az adatokhoz A szükséges legkevesebb paramétert kell használni
Távolság alapú filogenetika Az alap megközelítés 1. Karakterek szelekciója/szekvenciák illesztése 2. Köztes távolság mátrix generálása 3. Fa gyártása a távolság mátrixból
Két szekvencia/gén/faj távolsága 0.3 0.1 c a 0.05 0.03 b a b c a - 0.08 0.45 b 0.08-0.43 c 0.45 0.43 -
Egyszerű távolság mátrix létrehozása Archeop teryx Allosa urus Tricer atops A 1 1 1 1 B 0 0 0 1 C 0 0 0 1 D 0 0 0 1 E 1 1 1 0 F 1 1 0 Archeo 0 G 1 3 3 pteryx 3 Allosaur us Plateosaurus Plateosaurus Tricerat ops Különböző karakterek száma Metrikák Nukleotid szubsztitúciós modellek Modell variánsok Aminosav szubsztitúciós mátrixok PAM vs BLOSUM Archeo pteryx Allosaur us Plateosaurus Tricerat ops - 2 3 7 2-1 5 2.24 1-4 3 2.24 2 -
Aminosav szubsztitúciós mátrixok Az aminosavak kémiai (töltés, polaritás) és fizikai struktúrális tulajdonságok alapján Karlin és Ghandour (1985, PNAS 82:8597) A genetikai kód és a kémiai tulajdonságok alapján Dooloittle (Feng et al., 1985 J. Mol. Evol. 21: 112) Empirikus mátrixok PAM & BLOSUM
PAM vs. BLOSUM mátrixok PAM BLOSUM Explicit evolúciós modellek (valódi fák) alapján parszimónia Teljes hosszú szekvenciák illesztése résekkel Csak PAM1 számolt, a többi mátrix ennek extrapolációja Nincs mögötte evolúciós modell Szekvencia részletek résmentes illesztése Különféle mátrixok különböző mértékben hasonló fehérje csoportból számoltak
Hogyan lesz a távolság mátrixból fa? Számos matematikai lehetőség Clustering Leggyakoribb módszerek UPGMA Least squares (LS) Minimum evolution (ME) Neighbor Joining (NJ) Számos fejlettebb módszerhez kiindulási fa
UPGMA mint módszer Unweighted Pair Group Method with Arithmetic mean Átlagos kapcsoltásg modell Egyszerű klaszterező módszer Gyökeres fát ad! Tie (ütközés): Több egyforma távolság a mátrixban Maga az algoritmus nem kezeli A megoldás implementáció függő Egyelő mutációs rátát feltételez az adatokon
UPGMA fa Archeoptery x Ar Al Pl Tr - 2 3 7 Allosaurus - 1 5 Plateosaurus - 4 Triceratops - (Ar,(Pl,Al)) Tr (Ar,(Pl,Al)) - 5.3 Tr - Ar (Pl,Al) Tr Ar - 2.5 7 (Pl,Al) - 4.5 Tr - Newick formula (Tr,(Ar,(Pl,Al))) Triceratops Archeopteryx Plateosaurus Allosaurus
Neighbour-joining Mohó (Greedy) algoritmus A helyi optimumok megvalósításával próbálja megtalálni a globális optimumot Csillag alakú fából indul ki Lépésenként két taxont kapcsol össze Gyökértelen fát hoz létre Nem feltételez egyforma mutációs rátát Gyors és hatékony módszer Számos nagyon hasonló implementáció
Modell alapú filogenetika Maximum likelihood Bayesian inference Mi a valószínűsége, hogy a megfigyelt adatokat (D) látjuk, ha adott modell (T) igaz? Mekkora a valószínűsége annak, hogy adott modell igaz, ha az adatok adottak? Pr(D T) Pr(T D)
Maximum likelihood és filogenetika Az adatok az analízis előtt Illesztett nukleotid szekvenciák Modell az evolúciós folyamatokra Nukleotid szubsztitúciós modell Fa/fák Egyéb paraméterek Az eredmények az analízis után Fák a likelihood értékekkel (kisebb jobb) Ághosszak
Alapvető működés Mi a valószínűsége, hogy adott fa és modell esetén a megadott szekvenciaillesztést kapjuk meg? Heurisztikus faépítés/keresés Fa módosítása NJ fa Fa Pontozás Legjobbak kiválasztása
Ághosszak valószínűsége L=3x10-5 L=5.59x10-5
Változó és nem változó pozíciók További paraméterek a modellek bonyolításához Nem változó (konzervált) pozíciók Funkcionális helyek (enzim aktív centrumok) Arányuk becsülhető: ML Az egyes pozíciók variablilitása Genom különböző régiói különböző mértékű szelekciós kényszer alatt álnak Gamma distribution Az eloszlás paraméter (α) definiálja
Modell llesztése az adatokhoz 12 12 10 10 8 8 6 6 4 4 2 2 0 12 0 2 4 6 8 10 0 12 0 2 4 6 8 10 10 10 8 8 6 6 4 4 2 2 0 0 2 4 6 8 10 0 0 2 4 6 8 10
Hogyan döntsünk a modellek közöt? Csak semmi tippelés, elő a statisztikával! Iteratív likelihood ratio test Induljunk a legegyszerűbb modellel Bonyolítsuk lépésenként Az egyszerűbb és a bonyolulabb modellel számoljunk ML-t A nullhipotézisünk: nincs különbség Végezzünk χ 2 próbát ennek tesztelésére Ha szignifikáns a különbség, vessük el a nullhipotézist Ismételjük addig, amíg új paraméter már nem javítja a modell illeszkedését
Bayesian inference of phylogeny Bayesian inference Nagyon régi módszer a statisztikában Felsenstein 1968-ban javasolta filogenetikára Csupán 2000 körül elég erősz számítógép az implementációhoz Hatékony numerikus megoldás matematikai alapon Quick & dirty megoldás Elméleti alapja rendkívül vitatott Nagyon népszerű
Valószínűségek Posterior probability a posteriori Probability of a model The same as in ML! Prior probability a priori D A bemeneti adat θ A tesztelt modell: fa + evolúciós model
Bayes alapú filogenetika algorimikus vonatkozásai Markov chain Monte Carlo módszer MCMC A valószínűségi eloszlások okos mintavételezése Előre becsli a paraméterek eloszlását Két párhuzamos becsléssor Nincs előre meghatározott vége a futtatásnak A kutató állítja meg, amikor már elegendően konvergálnak az egyes futtatások
MrBayes Evolúciós modellt előre meg kell adni Nucleotide substitution model Pozíciók variabilitását meg kell becsülni ML-hez hasonló evolúciós modellt vár Bázisfrekvenciák Mutációs ráta mátrix Fa topológia Ághosszak Ha nincs a priori becslésünk, az adatokból is meg tudja becsülni
Mikor használjunk modell alapú filogenetikát? Nukleotid szekvencia adatok Néhány: ML Sok/hosszú szekvenciák: Bayes Ha van ismeretünk a szekvencia evolúcióról Ha szükségünk van a felhasznált paraméterekre Ha sok idő áll rendelkezésre Ha statisztikákkal kell alátámasztanunk az eredményeket
Miről lesz ma szó? Nukleotid szubsztitúciós modellek Távolság alapú módszerek UPGMA Neighbor joining Modell alapú filogenetika Maximum likelihood Bayesian inference Kiegészítő módszerek Fák gyökerének meghatározása Konszenzus fák Adat keverés (bootstrapping) 34
Fák gyökerének meghatározása a középpont módszer
Fák gyökerének meghatározása Outgroup módszer
Több fa konszenzusa Fák különböző módszerekkel ugyanarra az adatbemenetre Több azonos értékű eredményfa Többféle adatforrás ugyanazon fajokra Nukleotid/fehérje fa Zajos adatok A hangsúly a topológián Ághosszak elvesznek! Strict consensus Semistrict consensus Majority rule Választható küszöbérték: Miben közös több fa? 50-100%
Konszenzus módszerek
És ha nem ugyanazon taxonok vannak a fákon? Fák összehasonlítása különbző forrásokból Referencia fa az irodalomból Nem minden genomból van orthológ Legnagyobb közös fa Amiben az összes fa egyetért Legkisebb bennfoglaló fa Ha összerakjuk a részfákat Software: PhySIC_IST
Szuperfák Scornavacca C., Berry V., Lefort V., Douzery E.J.P. and Ranwez V. BMC Bioinformatics. 2008, Oct 4;9:413
Adat újra-mintavételezési módszeek Pszeudo-mintákat generál Nemparaméteres bootstrap véletlenszerű pozíció válogatás ismétlődéssel Jackknife az adatok véletlenszerű 50%ának kizárása Fa geerálása a pszeudo-mintákra Konszenzus fa generálása 50% majority rule Csak topológia! Az ághosszakat újra kell becsülni
Bootstrap értékek interpretálása A belső elágazásokhoz Megismételhetőség 1-FDR Adatok mennyire támogatják Meg kell adni: Replikációk számát A filogenetikai módszert
Bayesian posterior valószínűségek és a bootstrap értékek
Egy jól megtervezett filogenetikai analízis A szekvenciák kiválasztása Rerezentatív minta Outgroup Szekvenciák illesztése A bemeneti adatok (adatfájl) összeállítása Külső információ hozzáadása Stepmatrices Információ az egyes pozíciókról Topológiai kényszerek Nem szekvencia információk
Egy jól megtervezett filogenetikai analízis a filogenetikai módszer Távolság alapú módszer Maximum likelihood Parszimónia Sok szekvencia Gyors fa kell Fehérje szekvencia Sok nem szekvencia informácó Kevés (nem több, mint 20) nukleotid szekvencia Bayesian inference Sok/hosszú nukleotid szekvencia
Egy jól megtervezett filogenetikai analízis Fagenerálás Van a priori fánk, amit használhatunk? Generáljuk a fákat? Az összes fát kiértékeljük (kevesebb, mint 10 szekvencia) Heurisztika
Egy jól megtervezett filogenetikai analízis Az eredmények kiértékelése: megbízható a fám? Bootstrap/posterior értékek Konszenzus fák Megválaszolja az eredmény a biológiai kérdést?