Bioinformatika és genomanalízis az orvostudományban Integrált biológiai adatbázisok Cserző Miklós 2018
A mai előadás A genom annotálás jelentősége Genome Reference Consortium Gene Ontology Az ensembl pipeline Lekérdezés a web-felületen keresztül Az osztott annotációs rendszer (DAS) A BioMart felület használata Adatelérés FTP-portálon Bioinformatika és genomanalízis az orvostudományban - 6 2
Miért annotálunk genomot? A szekvenálás gyors és olcsó Az adatok kisérletes igazolása viszont drága Az élőlények származástani rokonságban állnak egymással Az egyik élő rendszerben megszerzett kisérletes adatot fel lehet használni egy rokon esetében is Ezzel időt, pénzt, fáradtságot lehet megtakarítani Bioinformatika és genomanalízis az orvostudományban - 6 3
Genom Reference Consortium A nagy genom szekvenálások nemzetközi összefogással mennek Nemcsak egyetlen egyed genomja érdekes Kell egy referencia az egyes fajokra A fajon belüli eltéréseket ehhez viszonyítjuk Honlap: http://www.ncbi.nlm.nih.gov/projects/genom e/assembly/grc/index.shtml Bioinformatika és genomanalízis az orvostudományban - 6 4
Bioinformatika és genomanalízis az orvostudományban - 6 5
Bioinformatika és genomanalízis az orvostudományban - 6 6
Bioinformatika és genomanalízis az orvostudományban - 6 7
Bioinformatika és genomanalízis az orvostudományban - 6 8
Mivel annotáljunk? Gene Ontology Consortium Zárt annotációs szótár egy bizottság dönt, mi kerülhet bele Cél: a gének pontos és teljes leírása Követelmény: a leírás legyen koherens, általános és gépi feldolgozásra alkalmas Bioinformatika és genomanalízis az orvostudományban - 6 9
A megvalósítás Besorolás három szempont szerint: Folyamat (biological_process) Sejtalkotó (cellular_component) Működés (molecular_function) Három viszony: is_a part_of regulates Bioinformatika és genomanalízis az orvostudományban - 6 10
A módszer 12 modell-lény és egy népes szakértői csapat Elsődleges forrás: közvetlen kisérletes adatok Másodlagos forrás: homológ fehérjék annotációja Azt is jelzik, ha nincs adat Honlap: http://www.geneontology.org/ Bioinformatika és genomanalízis az orvostudományban - 6 11
Bioinformatika és genomanalízis az orvostudományban - 6 12
Bioinformatika és genomanalízis az orvostudományban - 6 13
Bioinformatika és genomanalízis az orvostudományban - 6 14
Bioinformatika és genomanalízis az orvostudományban - 6 15
Bioinformatika és genomanalízis az orvostudományban - 6 16
Bioinformatika és genomanalízis az orvostudományban - 6 17
Bioinformatika és genomanalízis az orvostudományban - 6 18
Bioinformatika és genomanalízis az orvostudományban - 6 19
Bioinformatika és genomanalízis az orvostudományban - 6 20
Bioinformatika és genomanalízis az orvostudományban - 6 21
Bioinformatika és genomanalízis az orvostudományban - 6 22
Bioinformatika és genomanalízis az orvostudományban - 6 23
Bioinformatika és genomanalízis az orvostudományban - 6 24
Bioinformatika és genomanalízis az orvostudományban - 6 25
Bioinformatika és genomanalízis az orvostudományban - 6 26
Bioinformatika és genomanalízis az orvostudományban - 6 27
Bioinformatika és genomanalízis az orvostudományban - 6 28
Az ENSEMBL analízis pipeline Az automatikus genomi annotáció a cél A kézi annotáció lassú és szubjektív A gépi gyors és konzisztens A legtöbb felhasználandó eszköz már kész Bemenő adatokbázisok: ENA, cdns, UniProt, EST A pipe-line megfelelő sorrendben meghívja a programokat és az eredményt adatbázisba rendezi Bioinformatika és genomanalízis az orvostudományban - 6 32
A megvalósítás A pipeline moduláris szerkezetű Runnable és RunnableDB Ezek egy bizonyos feladatot végeznek Hierarchikus RuleManager Ez osztja ki a feladatokat és ellenőrzi az eredményt A számítások computer farm -on mennek ~1000 node, közös adatbázist ér el Bioinformatika és genomanalízis az orvostudományban - 6 33
Bioinformatika és genomanalízis az orvostudományban - 6 34
Bioinformatika és genomanalízis az orvostudományban - 6 35
Bioinformatika és genomanalízis az orvostudományban - 6 36
Bioinformatika és genomanalízis az orvostudományban - 6 37
Automatic Gene Annotation Sytem Része az ENSEMBL pipeline-nak Célja: Fehérje kódoló és RNS gének azonosítása Exon-intron szerkezetük feltérképezése Annotálása fehérje, cdns és EST adatbázisok alapján A rendszer szabadon elérhető és használható Bioinformatika és genomanalízis az orvostudományban - 6 38
Az eljárás raw compute Lépések: RepeatMasker nagy számban előforduló szakaszok azonosítása Genescan fehérje kódoló gének keresése trnsscan RNS gének keresése eponine transcripciós start-helyek keresése BLAST fehérjék keresése homológia alapján A feldolgozás clone és contig szinten folyik Először gyors keresés aztán pontosítás Bioinformatika és genomanalízis az orvostudományban - 6 39
Kombinált módszerek Az Ab initio génpredikció hasznos, de nem megbízható Genescan túl sok gént talál, viszont rövid exonokat hajlamos elveszíteni BLAST kereséssel meg kell támogatni az eredményt A BLAST viszont nem alkalmas exon-intron szerkezet megadására Bioinformatika és genomanalízis az orvostudományban - 6 40
Transzkript modellek Az adatbázis kiválasztása kulcsfontosságú A saját faj adatbázisa az elsődleges Más fajok adatbázisát is felhasználják a saját adat hiányában, de csak másodlagosan Ez áll a fehérje és cdns adatokra is Így transzkript modelleket jósolunk először A két modell biztosan nem esik egybe a nemtranszlált régiók miatt (UTR) Bioinformatika és genomanalízis az orvostudományban - 6 41
Pmatch Gyorsan talál meg 100%-os egyezéseket A fehérje darabjainak egy szálon kell lenni A daraboknak jó sorrendben kell lenni A fehérje 25%-t legalább meg kell találni Egy fehérjéből a legjobb találatot megtartjuk Meg a továbbiakat is, ha csak 2% a különbség Bioinformatika és genomanalízis az orvostudományban - 6 42
genewise A pmatch jelentősen lecsökkenti a vizsgálandó szegmensek hosszát Utána genewise fehérje szintű illesztés splice-helyekkel és frame eltolással Viszont elég lassú miniseq: a megtalált nyers exonokat megtoldjuk 200 bázissal mindkét irányba Ez kezelhető méretűvé csökkenti a szekvenci hosszát Bioinformatika és genomanalízis az orvostudományban - 6 43
További finomítás Az eljárást megismételjük más fajokból származó fehérjékkel Csak az új találatokkal foglalkozunk A cdns adatbázis saját fajhoz tartozó részét illesztjük a genomra (exonerate) A találatokat rangsoroljuk és kiválogatjuk A génszerkezetet kiegészítjük az UTR szakaszokkal Bioinformatika és genomanalízis az orvostudományban - 6 44
Végső modell (GeneBuilder) 1. Az egymással átfedő helyzetben lévő génmodelleket közös klaszterbe soroljuk 2. A közös exonnal rendelkező modelleket közös gén-klaszterekbe soroljuk 3. A nagyon nagy klasztereket megszűrjük és csak a legjobb 10-et tartjuk meg (ritka eset) 4. Ismét klaszterezzük a géneket, ha az előző lépés új klasztereket hozott volna létre Bioinformatika és genomanalízis az orvostudományban - 6 45
Bioinformatika és genomanalízis az orvostudományban - 6 46
Bioinformatika és genomanalízis az orvostudományban - 6 47
Bioinformatika és genomanalízis az orvostudományban - 6 48
Az ENSEMBL felület Honlap: http://www.ensembl.org/index.html Közel 200 élőlény többségében gerinces Ingyenesen elérhető, folyamatosan fejlesztik Közös Európai fenntartású kezdeményezés Több módon is elérhetők az adatok: Web, BioMart, FTP Adatok feltöltése is lehetséges Bioinformatika és genomanalízis az orvostudományban - 6 49
Bioinformatika és genomanalízis az orvostudományban - 6 50
Bioinformatika és genomanalízis az orvostudományban - 6 51
Bioinformatika és genomanalízis az orvostudományban - 6 52
Bioinformatika és genomanalízis az orvostudományban - 6 53
Bioinformatika és genomanalízis az orvostudományban - 6 54
Bioinformatika és genomanalízis az orvostudományban - 6 55
Bioinformatika és genomanalízis az orvostudományban - 6 56
Bioinformatika és genomanalízis az orvostudományban - 6 57
Bioinformatika és genomanalízis az orvostudományban - 6 58
Bioinformatika és genomanalízis az orvostudományban - 6 59
Bioinformatika és genomanalízis az orvostudományban - 6 60
Bioinformatika és genomanalízis az orvostudományban - 6 61
Bioinformatika és genomanalízis az orvostudományban - 6 62
Bioinformatika és genomanalízis az orvostudományban - 6 63
Bioinformatika és genomanalízis az orvostudományban - 6 64
Bioinformatika és genomanalízis az orvostudományban - 6 65
Bioinformatika és genomanalízis az orvostudományban - 6 66
Bioinformatika és genomanalízis az orvostudományban - 6 67
Bioinformatika és genomanalízis az orvostudományban - 6 68
Bioinformatika és genomanalízis az orvostudományban - 6 69
Bioinformatika és genomanalízis az orvostudományban - 6 70
Bioinformatika és genomanalízis az orvostudományban - 6 71
Bioinformatika és genomanalízis az orvostudományban - 6 72
Bioinformatika és genomanalízis az orvostudományban - 6 73
Bioinformatika és genomanalízis az orvostudományban - 6 74
Bioinformatika és genomanalízis az orvostudományban - 6 75
Bioinformatika és genomanalízis az orvostudományban - 6 76
Bioinformatika és genomanalízis az orvostudományban - 6 77
Az osztott annotációs rendszer (DAS) Célja: Saját adatok feltüntetése az ENSEMBL felületen Adatok megosztása együttműködők közt Feltöltéshez használható egy külön fül a felületen A formátum kötött, alapvetően szöveges (ld. Help ) ENSEMBL regisztráció és belépés segít Bioinformatika és genomanalízis az orvostudományban - 6 78
Bioinformatika és genomanalízis az orvostudományban - 6 79
Bioinformatika és genomanalízis az orvostudományban - 6 80
Bioinformatika és genomanalízis az orvostudományban - 6 81
Kapcsolódó eszközök BLAST/BLAT BioMart Adatletöltési lehetőségek Bioinformatika és genomanalízis az orvostudományban - 6 82
Bioinformatika és genomanalízis az orvostudományban - 6 83
Bioinformatika és genomanalízis az orvostudományban - 6 84
Bioinformatika és genomanalízis az orvostudományban - 6 85
Bioinformatika és genomanalízis az orvostudományban - 6 86
Bioinformatika és genomanalízis az orvostudományban - 6 87
Tömeges lekérdezés BioMart rendszer Web-felületen át elérhető Az adattartalom azonos az interaktív felületem megjelenítettel Szöveges eredményt ad Nagy adattömeget fogunk kapni eredményül Bioinformatika és genomanalízis az orvostudományban - 6 88
Bioinformatika és genomanalízis az orvostudományban - 6 89
Bioinformatika és genomanalízis az orvostudományban - 6 90
Bioinformatika és genomanalízis az orvostudományban - 6 91
Bioinformatika és genomanalízis az orvostudományban - 6 92
Bioinformatika és genomanalízis az orvostudományban - 6 93
Bioinformatika és genomanalízis az orvostudományban - 6 94
Bioinformatika és genomanalízis az orvostudományban - 6 95
Bioinformatika és genomanalízis az orvostudományban - 6 96
Bioinformatika és genomanalízis az orvostudományban - 6 97
Bioinformatika és genomanalízis az orvostudományban - 6 98
Bioinformatika és genomanalízis az orvostudományban - 6 99
Bioinformatika és genomanalízis az orvostudományban - 6 100
Bioinformatika és genomanalízis az orvostudományban - 6 101
Bioinformatika és genomanalízis az orvostudományban - 6 102
A teljes adatbázis letöltése FTP (File Transfer Protocol) Az összes faj összes adata ami az ENSEMBLben van Szekvencia adatok Teljes változatban Részben feldolgozva Annotációs adatok Bioinformatika és genomanalízis az orvostudományban - 6 103
Bioinformatika és genomanalízis az orvostudományban - 6 104
Bioinformatika és genomanalízis az orvostudományban - 6 105
Bioinformatika és genomanalízis az orvostudományban - 6 106
Bioinformatika és genomanalízis az orvostudományban - 6 107
Bioinformatika és genomanalízis az orvostudományban - 6 108
Bioinformatika és genomanalízis az orvostudományban - 6 109
Bioinformatika és genomanalízis az orvostudományban - 6 110
Mit tanultunk ma? Az integrált adatbázisok nagyon hatékony eszközök Rugalmasak és könnyen használhatók Az adatbázisok egymástól függenek ez veszélyes lehet A tökéletes adatbázis a bioinformatika végső célja Bioinformatika és genomanalízis az orvostudományban - 6 111
Feladat 6. Keresd meg a neked legérdekesebb fehérjét vagy gént valamelyik ENSEMBL genomban és próbálj megtudni minnél többet róla. Bioinformatika és genomanalízis az orvostudományban - 6 112