Populációgenetikai szoftverek ismertetése, alkalmazása populációk összehasonlítására Tanszéki Szeminárium 2011.11.03. Kovács Szilvia
Populációgenetikai szoftverek Egyszerű mutatók, genetikai távolságok kiszámítására (Ho, He, HWE, LE, AMOVA, Mantel test stb.): Széles körben használt: Arlequin Excel makrók: Genalex, Ms Tools Mikroszatellitákra: Haploid adatokra: DnaSp(haplotípus, nukleotid diverzitás) Genetikai távolságok vizualizálása: Genetic Studio R csomagok: HardyWeinberg, ade4, pegas, ape, vegan,..
Populációgenetikai szoftverek Individual based módszerek Structure Baps Térbeli modellek is: Tess Geneland
Arlequin http://cmpg.unibe.ch/software/arlequin3 Hátránya: bonyolult input file
HWE és LE A Hardy Weinberg-törvénya genetika egyik törvénye. Kimondja, hogy egy populáción belül nemzedékről nemzedékre a relatív allélgyakoriság változatlan marad. p + q = 1 p² + 2pq + q² = 1 Kapcsoltsági egyensúly: a vizsgált markereknek egymástól függetlenül kell öröklődniük és az egyes allélok sem lehetnek kapcsoltak
Arlequin AMOVA φ ST értékek kiszámítása, haploidadatokra F ST és permutált értékek a (populációk közötti haplotípusokból)
Arlequin AMOVA F ST értékek kiszámítása, diploid adatokra F ST és permutált értékek a (populációk közötti genotípusokból)
Arlequin AMOVA F IS értékek kiszámítása F ST és permutált értékek az (egyedek között, a populációkon belül)
Páronkénti F ST és φ ST értékek Carpathian B Thrakia Macedonia Anatolia Caucasus Carpahian B Thrakia 0.046*** 0.219*** Macedonia 0.038*** 0.292*** 0.085*** 0.182*** Anatolia 0.018*** 0.297*** 0.003 0.036 0.020* 0.172** Caucasus 0.065*** 0.025 0.141*** 0.167*** 0.078*** 0.224*** 0.075*** 0.191***
Genetic studio távolságok nincs térbeli modell Nei's genetic Distance among region Table 3: Pair-wise matrix of genetic distances calculated among the stratum variable region. AZ BG CB MAC TUR UKR 0.0000 0.2056 0.1250 0.1528 0.1667 0.1130 AZ 0.2056 0.0000 0.0739 0.1440 0.0412 0.1526 BG 0.1250 0.0739 0.0000 0.0807 0.0718 0.0945 CB 0.1528 0.1440 0.0807 0.0000 0.1124 0.1887 MAC 0.1667 0.0412 0.0718 0.1124 0.0000 0.1583 TUR 0.1130 0.1526 0.0945 0.1887 0.1583 0.0000
Geneticstudio Gráf: populációkat köti össze genetikai távolságok alapján:
Geneland http://www2.imm.dtu.dk/~gigu/geneland/ Feladat: genetikai adatok alapján besorolja az egyedeket meghatározott mennyiségű populációkba Feltétel: a populációkban a lókuszok között Hardy- Weinberg equilibrium és linkage equilibrium van Több modellel dolgozik, a legnépszerűbb modell az adatok térbeli koordinátáit is használja R library(geneland) Geneland.GUI()
Input file 1. file: genitípusok: nincs fejléc Haploid(haploidélőlények vagy mt) egész számok L oszlopban Mikroszatellita SNP-k Diploid, kodomináns: egész számok 2L oszlopban Mikroszatellita SNP-k Domináns: egész számok L oszlopban (0-1 AFLP) 2. file: térbeli koordináták síkvetületű!!!! 2 oszlopban: x, y 3. file: egyedazonosítók: 1 oszlop
Output Becslés a HWLE lévő genetikai populációk számára Térkép az egyes genetikai populációk elhelyezkedéséről Minden egyedre megadja, hogy melyik becsült genetikai populációba lett besorolva A térkép minden pixelére megadja, hogy melyik becsült genetikai populációba lett besorolva A pixelek számát beállíthatjuk a jobb felbontás érdekében További lehetőségek: páronkénti F st -kkiszámítása, F is kiszámítása
Modellek K: a populációk száma (ezt keressük) Uniform eloszlása van 0 és a felhasználó által megadott Kmax között Populációs besorolás minden egyedre és minden pixelre
Mixturemodell Diploid adatokra Az adatsor minden egyede (n) besorolható (K) HWLEben lévő genetikai populációkba (L) lókusz alapján f klj a gyakorisága a k-adikgenetikai populációban az l lókuszjalléljának, p i az i-edikegyed populációs tagságának valószínűsége Az i-edik egyed l-edik lókusznak genotípusa: A modell likelihood-ja:, ha (homozigóta), egyébként 0 (heterozigóta)
Mixturemodell Haploid adatokra Az allél gyakoriságok és a populációs besorolások alapján a genotípusok multinomiáliseloszlásúak Linkage equilibrium a feltétele
Uncorrelatedmodell Az allél gyakoriságok a keresett genetikai populációkban ismeretlenek Ismeretlenként szerepelnek a számításban (nem ezek értékét keressük) Minden genetikai populációra és lókuszrakiszámolt egyenletek vektorai egybe vannak foglalva (f kl1, f klj ) f klj- nekdirichleteloszlást feltételezve: A modell likelihood-ja: Ez a valószínűség nem függ f klj aktuális értékétől és mindig ugyanazt a prior probability-t adja minden allél frekvenciára
Correlatedmodell Az allélgyakoriságok hasonlóak az egyes genetikai populációkban (pl.: a ritka allélok minden populációban ritkák) Korrelációval fejezhető ki a f klj és f k lj között (k és k különböző genetikai populációk) A modellben van egy gyakoriság megadva az ős populációra: f Alj, melynek szintén Dirichleteloszlása van Egy vektorban meg vannak adva az egyes genetikai populációk drift (genetikai sodródás) paraméterei (d 1...d K ) f kl f A, d nekdirichleteloszlása van
Correlatedmodell Allél gyakoriságok korrelációja a genetikai populációk között: Driftparaméter d k [0,1] priorja béta eloszlású Ez a modell könnyebben mutat ki különbséget a genetikai populációk között Instabilabb, ezért először használjuk az uncorrelatedmodellt és utána nézzük meg, hogy a correleted hogyan módosítja azt
Non-spatialmodell p: a valószínűsége annak hogy az adott populációba tartozik az egyed, ez minden egyedre minden genetikai populációra (K) ki van számolva p=(c 1...c n ), ahol A modell likelihood-ja: 100 egyed, két genetikai populációt feltételezve:
Spatialmodell Térbeli mintázatot feltételez, valamilyen barriermegléte miatt a génáramlás limitált az egyes populációk között A program a Poisson-Voronoitessellation modell-t használja Feltételezi, hogy van mismeretlen számú poligonunk, ami kb. lefedi a térbeli populációs mintázatot A poligonok középpontjai: u 1...u m és minden poligonhoz tartozik egy genetikai populáció a K- ból (különböző színnel vannak jelölve a populációk)
Poisson-Voronoitessellation modell A poligonok száma poisson eloszlást követ paraméterei: mdb független középpont u 1...u m uniform eloszlással minden u i pont meghatároz egy V i ponthalmazt a térben, ami közel van u-hezés i minden más ponttól távol (u 1...u m )- ben, V i lesz az i-edikcella a Voronoitessellatioban A pontokhoz (u 1...u m ) és a ponthalmazokhoz (V i... V m ) hozzárendel egy genetikai populációt {1,...,K} ból, amik különböző színnel jelennek meg A színek/genetikai populációk valószínűségi eloszlásokból vannak mintázza, ami uniform eloszlású:
Poisson-Voronoitessellation modell
Spatialmodell 100 egyed 2 genetikai populációban, ahol a genetikai populációk egy vagy több térbeli poligonból állnak össze
Poisson-Voronoitessellation modell Genetikai populációk száma: 2 Poligonok száma: 5
100 egyed 2 genetikai populációban (K=2) 10 poligon (m=10) A genetikai populáció térbeli területe (D) pár poligon uniójából áll össze a poligonok középpontjai: u i az első ábrán láthatóak
Null-allél modell Diploid adatok esetében feltételezzük a HWLE-ot a populációkban Ha túl sok null-allél van a mintában torzíthatja a modellt, sérül a HWLE MCMC-fv.ben: filter.na=true, EstimateFreqNA Null-allél: sikertelen PCR az adott lókuszra, adott allélra 0-val van kódolva Informatív lehet, ha mutáció miatt nem épül be a primer Viszont, ha mi rontottuk el a PCR-takkor inkább legyen hiányzó adat: miss.loc-al kódolva Ha csak pár helyen hiányzik vigyázzunk vele: mert ha nullmodellt használunk azokat az egyedeket, amiknél hiányzik a lókusz, nagyon hasonlónak veszi!!!
Coordinatesuncertaintymodell 1. az egyedek helyhez kötöttek, mégis a koordináták csak bizonyos pontossággal lettek felvéve 2. az egyedek helyhez kötöttek és a detektált elmozdulásuk a megfigyelési eseményhez köthető 3. ha az egyedek mozgás körzete (homerange-e) nem elhanyagolható a vizsgálati terület nagyságához képest 4. ha több egyednek ugyanaz a koordinátája (mivel kerülhetnek különböző populációkba immigránsok detektálása) Megfigyelt koordináta az összege a valós koordinátának és egy random zajnak Az MCMC fv-ben: delta.coord>0
Admixturemodell Az egyedek leszármazása kevert Ennek a modellnek a likelihood-jahasonló a Structure modelljéhez q= (q ik ) mátrix, ahol q ik megmutatja, hogy az i- edikegyed genomjának hányad része származik a k-adik klaszterből (genetikai populációból) diploid genotípus esetén a modell likelihoodja: Haploid:
Admixturemodell Az admixturearányt kifejező minden vektor q ik = q(ik)k=1,...,k Dirichlet-eloszlástkövet d ik az i-edikegyed távolsága a k-adik klasztertől (0, ha a k-adikgenetikai populációban lett mintázva)
Admixturemodell Várható értéke: Ha K=2 klaszter és létezik a hibrid zóna és i- edikegyed a klaszter 1-hez tartozik (d i1 =0):
Admixture model A várt admixturearányok térbeli változása K=2 genetikai populáció estén: piros: q i1, zöld: q i2 szigmoid görbék
Geneland modellek stochastikus ---> determinisztikus függés...> admixture Poisson- Voronoi tesselation Admixture Correlated
Algoritmus MCMC varnpop=true popok ismeretlenek ezeket szimuláljuk npopmax=10 max10 pop van spatial modell correlatedmodell-el kombinálva 100 000 MCMC iteráció Minden 100-dik lesz elmentve összesen 1000 Ha n=100-300 és L=10-30, akkor 100 000 iterációra és 100 thinningre van szükségünk munkakönyvtár
Algoritmus PostProcess Végső becsléseket és térképeket készíti el: nxdom, nydom: a vizsgálati terület horizontális és vertikális felbontása pixelekben 200 mentett iteráció
Eredmény 1 Genetikai populációk száma, itt K=2
Eredmény 2 Posterior populációs besorolása az egyedeknek
Eredmény 3 Tessalatio-s ábrák
Eredmény 4 F-statisztikák
Különböző modellek outputjainak összehasonlítása Az átlagos posteriorprobabilitásalapján csak ugyanolyan beállításokkal futott modelleket lehet összehasonlítani (pl. Ugyanaz a modell beállítás különböző K értékekre) Megnézhetjük, hogy konvergál-e az MCMC Amely modellhez a vizsgálati alanyunk jobban illik Priori: infoa diszperziójáról, génáramlásról, barrierekről Posteriori: genetikai popok száma (K) illeszkedik a térbeli mintázatra (pl.: nincsenek fals populációk)
Structure http://pritch.bsd.uchicago.edu/structure.html Geneland-hez hasonlóan egyedi alapú modellek Térbeli koordinátákat nem használja 4 fajta modell az egyedek leszármazása szerint: 1. mixture modell: egy adott egyed egy pop-ból származik 2. admixturemodell: minden egyed genomjában van a K darab genetikai populációéból valamennyi 3. linkagemodell: olyan mint az admixturemodell, csak bizonyos lókuszok bizonyos populációkból együtt jönnek 4. informatív priorú modellek: a minták származási helyét használja POPLOC, vagy valamilyen infotaz egyedekről USEPOPINFO
Allélgyakoriság 2 modellje 1. uncorrelatedmodell: az allélgyakoriságok függetlenek minden populációban és egy λ paraméterű eloszlásból származnak (default: λ=1) 2. correlatedmodell: P A többdimenziós vektort használ, mely tartalmazza az allélgyakoriságait egy hipotetikus ős populációnak A Kgenetikai populációban egymástól független genetikai sodródás (drift) ment végbe: F 1,F 2,...,F K P A priorja Dirichleteloszlású:
Correlatedmodell Lókusztólfüggetlenül az allélgyakoriság priorja a k genetikai populációban: F k priorja gamma eloszlású (default: mean: 0.01, sd: 0,05)
K-becslése Futás: Burnin10 000-100 000 bőven elég Ennél több kell a Pr(X K) pontos becsléséhez MCMC t lefuttathatjuk az egyes K-kra többször is, hogy megnézzük milyen konzisztens lesz a becslés Eredmény: LnProbof Data ~ lnpr(x K) Legnagyobb értékhez tartozó K-t választjuk
K-becslése Vigyázat!!! K-nagyon függ a futások számától Függhet a kiválasztott modelltől, a használt modellt úgy válasszuk, hogy illeszkedjen az adatainkra, sajnos sok választási lehetőség van: mixture-admixture Uncorrelated-correlated Van prior info a popokról- nincs prior info
K-becslése Általában a plato kezdetét fogadják el K becslésénél Lehetnek fantom populációk is, ábrákon ellenőrizzük -3700 X-tengelyen az előre definiált populációink egyedei vannak (input file-ban megadjuk) Színek: különböző genetikai populációk Az ábra megmutatja, hogy milyen valószínűséggel tartoznak az egyedek a becsült genetikai populációkba Ln Pr (X K) -3800-3900 -4000 Itt K=4 volt, mégis a 4. pop-ba (kék) nem tartozik egy egyed sem 1 2 3 4 K
3 becsült genetikai populáció szétválása K-nagyon függ a futások számától
3 becsült genetikai populáció szétválása K-nagyon függ a futások számától
3 becsült genetikai populáció szétválása K-nagyon függ a futások számától
3 becsült genetikai populáció szétválása K-nagyon függ a futások számától