Populációgenetikai szoftverek ismertetése, alkalmazása populációk összehasonlítására

Hasonló dokumentumok
Populációgenetikai. alapok

A Hardy-Weinberg egyensúly. 2. gyakorlat

A Hardy Weinberg-modell gyakorlati alkalmazása

Least Squares becslés

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Szelekció. Szelekció. A szelekció típusai. Az allélgyakoriságok változása 3/4/2013

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Good-Turing lefedés. Lang Zsolt

Hátterükben egyetlen gén áll, melynek általában számottevő a viselkedésre gyakorolt hatása, öröklési mintázata jellegzetes.

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Mesterséges Intelligencia MI

Regressziós vizsgálatok

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Likelihood, deviancia, Akaike-féle információs kritérium

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Adatok statisztikai értékelésének főbb lehetőségei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többgénes jellegek. 1. Klasszikus (poligénes) mennyiségi jellegek. 2.Szinte minden jelleg több gén irányítása alatt áll

DNS viszgálatok, számítási módszerek

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Nincs öntermékenyítés, de a véges méret miatt a párosodó egyedek bizonyos valószínűséggel rokonok, ezért kerül egy

Számítógépes döntéstámogatás. Genetikus algoritmusok

Biostatisztika VIII. Mátyus László. 19 October

Hipotézis vizsgálatok

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Matematikai geodéziai számítások 10.

Saj at ert ek-probl em ak febru ar 26.

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

7. Régió alapú szegmentálás

Régebbi Matek M1 zh-k. sztochasztikus folyamatokkal kapcsolatos feladatai.

Kettőnél több csoport vizsgálata. Makara B. Gábor

Statisztikai módszerek a skálafüggetlen hálózatok

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Közösség detektálás gráfokban

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika

Egy mezofil lomberdei faj, a szártalan kankalin (Primula vulgaris Huds.) európai léptékű filogeográfiája, különös tekintettel a Kárpát-medencére

Adatelemzési eljárások az idegrendszer kutatásban Somogyvári Zoltán

Domináns-recesszív öröklődésmenet

Gráfelmélet/Diszkrét Matematika MSc hallgatók számára. Párosítások

Normális eloszlás tesztje

Sztochasztikus folyamatok alapfogalmak

IBM SPSS Modeler 18.2 Újdonságok

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

A genetikai sodródás

A magyar populáció genetikai elemzése nemi kromoszómális markerek alapján

Matematika A2 vizsga mgeoldása június 4.

Izgalmas újdonságok a klaszteranalízisben

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

A távérzékelt felvételek tematikus kiértékelésének lépései

Normális eloszlás paramétereire vonatkozó próbák

A mérési eredmény megadása

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

Információ megjelenítés Számítógépes ábrázolás. Dr. Iványi Péter

Principal Component Analysis

Segítség az outputok értelmezéséhez

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

JÁTÉKELMÉLETTEL KAPCSOLATOS FELADATOK

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Képrekonstrukció 9. előadás

Mitokondriális DNS és mikroszatellita polimorfizmusok igazságügyi genetikai aspektusú vizsgálata a magyar népességben

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Robotok inverz geometriája

Robotika. Relatív helymeghatározás Odometria

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Populációgenetika és evolúció

Lineáris regressziós modellek 1

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Modellkiválasztás és struktúrák tanulása

Hidden Markov Model. March 12, 2013

egyetemi jegyzet Meskó Balázs

Matematikai geodéziai számítások 9.

Sodródás Evolúció neutrális elmélete

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Dekonvolúció a mikroszkópiában. Barna László MTA Kísérleti Orvostudományi Kutatóintézet Nikon-KOKI képalkotó Központ

Logisztikus regresszió

KÖZELÍTŐ INFERENCIA II.

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

6. Előadás. Vereb György, DE OEC BSI, október 12.

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Mérnökgeodéziai hálózatok feldolgozása

EGY ABLAK - GEOMETRIAI PROBLÉMA

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

A PKU azért nem hal ki, mert gyógyítják, és ezzel növelik a mutáns allél gyakoriságát a Huntington kór pedig azért marad fenn, mert csak későn derül

MATEMATIKA HETI 5 ÓRA. IDŐPONT: június 8.

Mátrixhatvány-vektor szorzatok hatékony számítása

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Megoldások

Nagy András. Feladatok a koordináta-geometria, egyenesek témaköréhez 11. osztály 2010.

Átírás:

Populációgenetikai szoftverek ismertetése, alkalmazása populációk összehasonlítására Tanszéki Szeminárium 2011.11.03. Kovács Szilvia

Populációgenetikai szoftverek Egyszerű mutatók, genetikai távolságok kiszámítására (Ho, He, HWE, LE, AMOVA, Mantel test stb.): Széles körben használt: Arlequin Excel makrók: Genalex, Ms Tools Mikroszatellitákra: Haploid adatokra: DnaSp(haplotípus, nukleotid diverzitás) Genetikai távolságok vizualizálása: Genetic Studio R csomagok: HardyWeinberg, ade4, pegas, ape, vegan,..

Populációgenetikai szoftverek Individual based módszerek Structure Baps Térbeli modellek is: Tess Geneland

Arlequin http://cmpg.unibe.ch/software/arlequin3 Hátránya: bonyolult input file

HWE és LE A Hardy Weinberg-törvénya genetika egyik törvénye. Kimondja, hogy egy populáción belül nemzedékről nemzedékre a relatív allélgyakoriság változatlan marad. p + q = 1 p² + 2pq + q² = 1 Kapcsoltsági egyensúly: a vizsgált markereknek egymástól függetlenül kell öröklődniük és az egyes allélok sem lehetnek kapcsoltak

Arlequin AMOVA φ ST értékek kiszámítása, haploidadatokra F ST és permutált értékek a (populációk közötti haplotípusokból)

Arlequin AMOVA F ST értékek kiszámítása, diploid adatokra F ST és permutált értékek a (populációk közötti genotípusokból)

Arlequin AMOVA F IS értékek kiszámítása F ST és permutált értékek az (egyedek között, a populációkon belül)

Páronkénti F ST és φ ST értékek Carpathian B Thrakia Macedonia Anatolia Caucasus Carpahian B Thrakia 0.046*** 0.219*** Macedonia 0.038*** 0.292*** 0.085*** 0.182*** Anatolia 0.018*** 0.297*** 0.003 0.036 0.020* 0.172** Caucasus 0.065*** 0.025 0.141*** 0.167*** 0.078*** 0.224*** 0.075*** 0.191***

Genetic studio távolságok nincs térbeli modell Nei's genetic Distance among region Table 3: Pair-wise matrix of genetic distances calculated among the stratum variable region. AZ BG CB MAC TUR UKR 0.0000 0.2056 0.1250 0.1528 0.1667 0.1130 AZ 0.2056 0.0000 0.0739 0.1440 0.0412 0.1526 BG 0.1250 0.0739 0.0000 0.0807 0.0718 0.0945 CB 0.1528 0.1440 0.0807 0.0000 0.1124 0.1887 MAC 0.1667 0.0412 0.0718 0.1124 0.0000 0.1583 TUR 0.1130 0.1526 0.0945 0.1887 0.1583 0.0000

Geneticstudio Gráf: populációkat köti össze genetikai távolságok alapján:

Geneland http://www2.imm.dtu.dk/~gigu/geneland/ Feladat: genetikai adatok alapján besorolja az egyedeket meghatározott mennyiségű populációkba Feltétel: a populációkban a lókuszok között Hardy- Weinberg equilibrium és linkage equilibrium van Több modellel dolgozik, a legnépszerűbb modell az adatok térbeli koordinátáit is használja R library(geneland) Geneland.GUI()

Input file 1. file: genitípusok: nincs fejléc Haploid(haploidélőlények vagy mt) egész számok L oszlopban Mikroszatellita SNP-k Diploid, kodomináns: egész számok 2L oszlopban Mikroszatellita SNP-k Domináns: egész számok L oszlopban (0-1 AFLP) 2. file: térbeli koordináták síkvetületű!!!! 2 oszlopban: x, y 3. file: egyedazonosítók: 1 oszlop

Output Becslés a HWLE lévő genetikai populációk számára Térkép az egyes genetikai populációk elhelyezkedéséről Minden egyedre megadja, hogy melyik becsült genetikai populációba lett besorolva A térkép minden pixelére megadja, hogy melyik becsült genetikai populációba lett besorolva A pixelek számát beállíthatjuk a jobb felbontás érdekében További lehetőségek: páronkénti F st -kkiszámítása, F is kiszámítása

Modellek K: a populációk száma (ezt keressük) Uniform eloszlása van 0 és a felhasználó által megadott Kmax között Populációs besorolás minden egyedre és minden pixelre

Mixturemodell Diploid adatokra Az adatsor minden egyede (n) besorolható (K) HWLEben lévő genetikai populációkba (L) lókusz alapján f klj a gyakorisága a k-adikgenetikai populációban az l lókuszjalléljának, p i az i-edikegyed populációs tagságának valószínűsége Az i-edik egyed l-edik lókusznak genotípusa: A modell likelihood-ja:, ha (homozigóta), egyébként 0 (heterozigóta)

Mixturemodell Haploid adatokra Az allél gyakoriságok és a populációs besorolások alapján a genotípusok multinomiáliseloszlásúak Linkage equilibrium a feltétele

Uncorrelatedmodell Az allél gyakoriságok a keresett genetikai populációkban ismeretlenek Ismeretlenként szerepelnek a számításban (nem ezek értékét keressük) Minden genetikai populációra és lókuszrakiszámolt egyenletek vektorai egybe vannak foglalva (f kl1, f klj ) f klj- nekdirichleteloszlást feltételezve: A modell likelihood-ja: Ez a valószínűség nem függ f klj aktuális értékétől és mindig ugyanazt a prior probability-t adja minden allél frekvenciára

Correlatedmodell Az allélgyakoriságok hasonlóak az egyes genetikai populációkban (pl.: a ritka allélok minden populációban ritkák) Korrelációval fejezhető ki a f klj és f k lj között (k és k különböző genetikai populációk) A modellben van egy gyakoriság megadva az ős populációra: f Alj, melynek szintén Dirichleteloszlása van Egy vektorban meg vannak adva az egyes genetikai populációk drift (genetikai sodródás) paraméterei (d 1...d K ) f kl f A, d nekdirichleteloszlása van

Correlatedmodell Allél gyakoriságok korrelációja a genetikai populációk között: Driftparaméter d k [0,1] priorja béta eloszlású Ez a modell könnyebben mutat ki különbséget a genetikai populációk között Instabilabb, ezért először használjuk az uncorrelatedmodellt és utána nézzük meg, hogy a correleted hogyan módosítja azt

Non-spatialmodell p: a valószínűsége annak hogy az adott populációba tartozik az egyed, ez minden egyedre minden genetikai populációra (K) ki van számolva p=(c 1...c n ), ahol A modell likelihood-ja: 100 egyed, két genetikai populációt feltételezve:

Spatialmodell Térbeli mintázatot feltételez, valamilyen barriermegléte miatt a génáramlás limitált az egyes populációk között A program a Poisson-Voronoitessellation modell-t használja Feltételezi, hogy van mismeretlen számú poligonunk, ami kb. lefedi a térbeli populációs mintázatot A poligonok középpontjai: u 1...u m és minden poligonhoz tartozik egy genetikai populáció a K- ból (különböző színnel vannak jelölve a populációk)

Poisson-Voronoitessellation modell A poligonok száma poisson eloszlást követ paraméterei: mdb független középpont u 1...u m uniform eloszlással minden u i pont meghatároz egy V i ponthalmazt a térben, ami közel van u-hezés i minden más ponttól távol (u 1...u m )- ben, V i lesz az i-edikcella a Voronoitessellatioban A pontokhoz (u 1...u m ) és a ponthalmazokhoz (V i... V m ) hozzárendel egy genetikai populációt {1,...,K} ból, amik különböző színnel jelennek meg A színek/genetikai populációk valószínűségi eloszlásokból vannak mintázza, ami uniform eloszlású:

Poisson-Voronoitessellation modell

Spatialmodell 100 egyed 2 genetikai populációban, ahol a genetikai populációk egy vagy több térbeli poligonból állnak össze

Poisson-Voronoitessellation modell Genetikai populációk száma: 2 Poligonok száma: 5

100 egyed 2 genetikai populációban (K=2) 10 poligon (m=10) A genetikai populáció térbeli területe (D) pár poligon uniójából áll össze a poligonok középpontjai: u i az első ábrán láthatóak

Null-allél modell Diploid adatok esetében feltételezzük a HWLE-ot a populációkban Ha túl sok null-allél van a mintában torzíthatja a modellt, sérül a HWLE MCMC-fv.ben: filter.na=true, EstimateFreqNA Null-allél: sikertelen PCR az adott lókuszra, adott allélra 0-val van kódolva Informatív lehet, ha mutáció miatt nem épül be a primer Viszont, ha mi rontottuk el a PCR-takkor inkább legyen hiányzó adat: miss.loc-al kódolva Ha csak pár helyen hiányzik vigyázzunk vele: mert ha nullmodellt használunk azokat az egyedeket, amiknél hiányzik a lókusz, nagyon hasonlónak veszi!!!

Coordinatesuncertaintymodell 1. az egyedek helyhez kötöttek, mégis a koordináták csak bizonyos pontossággal lettek felvéve 2. az egyedek helyhez kötöttek és a detektált elmozdulásuk a megfigyelési eseményhez köthető 3. ha az egyedek mozgás körzete (homerange-e) nem elhanyagolható a vizsgálati terület nagyságához képest 4. ha több egyednek ugyanaz a koordinátája (mivel kerülhetnek különböző populációkba immigránsok detektálása) Megfigyelt koordináta az összege a valós koordinátának és egy random zajnak Az MCMC fv-ben: delta.coord>0

Admixturemodell Az egyedek leszármazása kevert Ennek a modellnek a likelihood-jahasonló a Structure modelljéhez q= (q ik ) mátrix, ahol q ik megmutatja, hogy az i- edikegyed genomjának hányad része származik a k-adik klaszterből (genetikai populációból) diploid genotípus esetén a modell likelihoodja: Haploid:

Admixturemodell Az admixturearányt kifejező minden vektor q ik = q(ik)k=1,...,k Dirichlet-eloszlástkövet d ik az i-edikegyed távolsága a k-adik klasztertől (0, ha a k-adikgenetikai populációban lett mintázva)

Admixturemodell Várható értéke: Ha K=2 klaszter és létezik a hibrid zóna és i- edikegyed a klaszter 1-hez tartozik (d i1 =0):

Admixture model A várt admixturearányok térbeli változása K=2 genetikai populáció estén: piros: q i1, zöld: q i2 szigmoid görbék

Geneland modellek stochastikus ---> determinisztikus függés...> admixture Poisson- Voronoi tesselation Admixture Correlated

Algoritmus MCMC varnpop=true popok ismeretlenek ezeket szimuláljuk npopmax=10 max10 pop van spatial modell correlatedmodell-el kombinálva 100 000 MCMC iteráció Minden 100-dik lesz elmentve összesen 1000 Ha n=100-300 és L=10-30, akkor 100 000 iterációra és 100 thinningre van szükségünk munkakönyvtár

Algoritmus PostProcess Végső becsléseket és térképeket készíti el: nxdom, nydom: a vizsgálati terület horizontális és vertikális felbontása pixelekben 200 mentett iteráció

Eredmény 1 Genetikai populációk száma, itt K=2

Eredmény 2 Posterior populációs besorolása az egyedeknek

Eredmény 3 Tessalatio-s ábrák

Eredmény 4 F-statisztikák

Különböző modellek outputjainak összehasonlítása Az átlagos posteriorprobabilitásalapján csak ugyanolyan beállításokkal futott modelleket lehet összehasonlítani (pl. Ugyanaz a modell beállítás különböző K értékekre) Megnézhetjük, hogy konvergál-e az MCMC Amely modellhez a vizsgálati alanyunk jobban illik Priori: infoa diszperziójáról, génáramlásról, barrierekről Posteriori: genetikai popok száma (K) illeszkedik a térbeli mintázatra (pl.: nincsenek fals populációk)

Structure http://pritch.bsd.uchicago.edu/structure.html Geneland-hez hasonlóan egyedi alapú modellek Térbeli koordinátákat nem használja 4 fajta modell az egyedek leszármazása szerint: 1. mixture modell: egy adott egyed egy pop-ból származik 2. admixturemodell: minden egyed genomjában van a K darab genetikai populációéból valamennyi 3. linkagemodell: olyan mint az admixturemodell, csak bizonyos lókuszok bizonyos populációkból együtt jönnek 4. informatív priorú modellek: a minták származási helyét használja POPLOC, vagy valamilyen infotaz egyedekről USEPOPINFO

Allélgyakoriság 2 modellje 1. uncorrelatedmodell: az allélgyakoriságok függetlenek minden populációban és egy λ paraméterű eloszlásból származnak (default: λ=1) 2. correlatedmodell: P A többdimenziós vektort használ, mely tartalmazza az allélgyakoriságait egy hipotetikus ős populációnak A Kgenetikai populációban egymástól független genetikai sodródás (drift) ment végbe: F 1,F 2,...,F K P A priorja Dirichleteloszlású:

Correlatedmodell Lókusztólfüggetlenül az allélgyakoriság priorja a k genetikai populációban: F k priorja gamma eloszlású (default: mean: 0.01, sd: 0,05)

K-becslése Futás: Burnin10 000-100 000 bőven elég Ennél több kell a Pr(X K) pontos becsléséhez MCMC t lefuttathatjuk az egyes K-kra többször is, hogy megnézzük milyen konzisztens lesz a becslés Eredmény: LnProbof Data ~ lnpr(x K) Legnagyobb értékhez tartozó K-t választjuk

K-becslése Vigyázat!!! K-nagyon függ a futások számától Függhet a kiválasztott modelltől, a használt modellt úgy válasszuk, hogy illeszkedjen az adatainkra, sajnos sok választási lehetőség van: mixture-admixture Uncorrelated-correlated Van prior info a popokról- nincs prior info

K-becslése Általában a plato kezdetét fogadják el K becslésénél Lehetnek fantom populációk is, ábrákon ellenőrizzük -3700 X-tengelyen az előre definiált populációink egyedei vannak (input file-ban megadjuk) Színek: különböző genetikai populációk Az ábra megmutatja, hogy milyen valószínűséggel tartoznak az egyedek a becsült genetikai populációkba Ln Pr (X K) -3800-3900 -4000 Itt K=4 volt, mégis a 4. pop-ba (kék) nem tartozik egy egyed sem 1 2 3 4 K

3 becsült genetikai populáció szétválása K-nagyon függ a futások számától

3 becsült genetikai populáció szétválása K-nagyon függ a futások számától

3 becsült genetikai populáció szétválása K-nagyon függ a futások számától

3 becsült genetikai populáció szétválása K-nagyon függ a futások számától