Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Hasonló dokumentumok
Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bevezetés. Cserző Miklós 2018

A tárgy címe: Bioinformatika

TÁJÉKOZTATÓ az OTH Szakrendszeri Információs Rendszer használatához a veszélyes anyagokkal veszélyes keverékkel történő tevékenység bejelentése esetén

Fentrol.hu - Üzemeltetési tapasztalatok

Klímagáz képesítések megszerzésének ismertetése

Bakteriális identifikáció 16S rrns gén szekvencia alapján

Egy új DNS motívum típus in silico jellemzése és szerepe a génszabályozásban Zárójelentés - OTKA # PD73575, BIOIN Cserző Miklós

A vezetői jelentésrendszer alapjai. Információs igények, irányítás, informatikai támogatás

Bevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Biomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bioinformatikai modellek. Cserző Miklós 2017

Területi elemzések. Budapest, április

Taninform KIR kapcsolat

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

Változás a középfokú felvételi eljárásban

OTP ADLAK Adómentes Lakáshitel-támogatási Szolgáltatáscsomag

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

ÚJ GENERÁCIÓS SZEKVENÁLÁS

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

Dropbox - online fájltárolás és megosztás

KÖZBESZERZÉSI ADATBÁZIS (KBA) A KBT. NOVEMBER 1-JEI VÁLTOZÁSAI

Csődfigyelő. Figyelje Ön is gazdasági partnerit!

Gyakran ismételt kérdések

Visszamenőleges konverzió támogatása informatikai eszközökkel. Simon András

1. óra: A területi adatbázis elkészítése, területi szintek

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

TÁJÉKOZTATÓ az OTH Szakrendszeri Információs Rendszerbe (OSZIR) történő regisztráció és belépés menetéről belföldi partner nevében

E-Kataszteri rendszer ismertető

Tartalomszolgáltatási Tájékoztató

A szamóca érése során izolált Spiral és Spermidin-szintáz gén jellemzése. Kiss Erzsébet Kovács László

OpenOffice.org mint fejlesztési platform

TÉMAKÖRÖK. Ősi RNS világ BEVEZETÉS. RNS-ek tradicionális szerepben

CareLink Personal telepítési útmutató. Első lépések a CareLink Personal adatfeltöltéshez

CSAPATÖSSZEÁLLÍTÁS MEGADÁSA. Segédlet a felület használatához. Online adatnyilvántartó rendszer

Felhasználói kézikönyv. ÜFT szolgáltatás. Magyar Nemzeti Bank

A Zotero hivatkozáskezelő program bemutatása. Mátyás Melinda

Spóroljunk az adminisztráción Számlázás okosan (nem okosba) egyszerűen és gyorsan

1. hét. Neptun kód. Összesen. Név

A tankönyvvé nyilvánítás folyamatát elektronikusan támogató rendszer az OKÉV számára

Human genome project

Hungaropharma Zrt. WEB Áruház felhasználói útmutató. Tartalomjegyzék

ALKALMAZÁSOK ISMERTETÉSE

Felhasználói kézikönyv

Összefoglalás első fejezete

Bioinformatika 2 6. előadás

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

A kromoszómák kialakulása előtt a DNS állomány megkettőződik. A két azonos információ tartalmú DNS egymás mellé rendeződik és egy kromoszómát alkot.

A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

NAK Nonprofit Kft. Pályázati Tanácsadó Hálózat rendszere. Budapest, augusztus 15.

*Ezen felületet kell kitölteni saját fiók létrehozásáho z

Kromoszómák, Gének centromer

Regisztrációs segédlet A roma közösségekben dolgozó védőnők. munkafeltételeinek javítása elnevezésű norvég projekt keretében

A Statisztikai adatszolgáltatás menüpont alatt végezhető el az adatlap kitöltése. 3 Statisztikai adatszolgáltatás menetének részletes bemutatása

e-tanúsítás, felhasználói leírás a nyilvánosság számára

Lele Zsolt. MTA Kísérleti Orvostudományi Kutatóintézet

SYNLAB ONLINE LELETPORTÁL FELHASZNÁLÓI ÚTMUTATÓ A SYNLAB HUNGARY KFT. PARTNEREI SZÁMÁRA

AZ OFI SZEREPE ÉS FELADATAI A PEDAGÓGUSOK SZAKMAI MUNKÁJÁNAK TÁMOGATÁSÁBAN

INFORMÁCIÓÁTADÁSI SZABÁLYZAT

Az információs műveltség fejlesztése A könyvtárak szemléletváltása és feladatai a 21. században

Ungváry Rudolf: Relex Relációkat és lexikai egységeket kezelő névtérszerkesztő a weben

Az orvosi biotechnológiai mesterképzés megfeleltetése az Európai Unió új társadalmi kihívásainak a Pécsi Tudományegyetemen és a Debreceni Egyetemen

APPENTUM PRO-DEVELOPERS COMPANY

RTD-CORROCONT Az alacsonyfrekvenciás anyagvizsgálatok gyakorlati tapasztalatai

ÁSZF 1. melléklet. GST-Max Kereskedelmi és Szolgáltató Kft Budapest, Völgy utca 32/b. részéről

AUT INVENIAM VIAM, AUT FACIAM

Tájékoztató az elektronikus ügyintézésről

KÖFOP VEKOP- 16. VERSENYKÉPES KÖZSZOLGÁLAT SZEMÉLYZETI UTÁNPÓTLÁSÁNAK STRATÉGIAI TÁMOGATÁSA

Fre User Report 12 Ingyenes levelező használati szokások és attitűdök Magyarországon

Magyar Kereskedelmi és Iparkamara HelpDesk rendszer. Felhasználói útmutató

A jelen fejlesztéssel párhuzamosan bővült az Adatbázis kapcsolat ablak információtartalma.

A genetikai lelet értelmezése monogénes betegségekben

Az Országos szakértői névjegyzék elektronikus felületének kezelése. felhasználói leírás

EGYSZERŰSÍTJÜK AZ IRODAI MUNKÁT.

REGISZTRÁCIÓ RÉGEBBI TANFOLYAMON RÉSZT VETT HALLGATÓK BEJELENTKEZÉS UTÁN JELENTKEZÉS TANFOLYAMRA GYAKRAN ISMÉTELT KÉRDÉSEK

АZ ISKOLAI KÖNYVTÁR ELEKTRONIKUS KATALÓGUSÁNAK FELHASZNÁLÓI UTASÍTÁSA - SZIRÉN ADATBÁZISÁNAK KERESÉSE

DNS-szekvencia meghatározás

RÉSZLETEZŐ OKIRAT (1) a NAH /2017 nyilvántartási számú akkreditált státuszhoz

Linux Linux rendszeren a Wine segédprogram segítségével telepíthető az Adobe Digital Editions.

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.

Közlemények kézi felvitele

Minta weboldal. 8 Keresés. A helyi közösségek saját weboldalainak arculati megkötései és elrendezési javaslata.

MIDRA. A Miskolci Egyetem repozitóriuma. Espán Edina. Miskolci Egyetem Könyvtár, Levéltár, Múzeum. Networkshop 2012, Veszprém

Példa az E-felvételi használatára. A következőkben bemutatjuk az E-felvételin keresztül történő jelentkezés lépéseit.

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Expressziós microarray. Dr. Győrffy Balázs

Médiaajánlat

Webleltár rendszer. Készítette: ABACOM Kft november. Abacom Kft.

NightHawk AccessControl

Tisztelt Ügyfelünk! Változások a 6-os verzióhoz képest:

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények

I. A sejttől a génekig

Átírás:

Bioinformatika és genomanalízis az orvostudományban Integrált biológiai adatbázisok Cserző Miklós 2018

A mai előadás A genom annotálás jelentősége Genome Reference Consortium Gene Ontology Az ensembl pipeline Lekérdezés a web-felületen keresztül Az osztott annotációs rendszer (DAS) A BioMart felület használata Adatelérés FTP-portálon Bioinformatika és genomanalízis az orvostudományban - 6 2

Miért annotálunk genomot? A szekvenálás gyors és olcsó Az adatok kisérletes igazolása viszont drága Az élőlények származástani rokonságban állnak egymással Az egyik élő rendszerben megszerzett kisérletes adatot fel lehet használni egy rokon esetében is Ezzel időt, pénzt, fáradtságot lehet megtakarítani Bioinformatika és genomanalízis az orvostudományban - 6 3

Genom Reference Consortium A nagy genom szekvenálások nemzetközi összefogással mennek Nemcsak egyetlen egyed genomja érdekes Kell egy referencia az egyes fajokra A fajon belüli eltéréseket ehhez viszonyítjuk Honlap: http://www.ncbi.nlm.nih.gov/projects/genom e/assembly/grc/index.shtml Bioinformatika és genomanalízis az orvostudományban - 6 4

Bioinformatika és genomanalízis az orvostudományban - 6 5

Bioinformatika és genomanalízis az orvostudományban - 6 6

Bioinformatika és genomanalízis az orvostudományban - 6 7

Bioinformatika és genomanalízis az orvostudományban - 6 8

Mivel annotáljunk? Gene Ontology Consortium Zárt annotációs szótár egy bizottság dönt, mi kerülhet bele Cél: a gének pontos és teljes leírása Követelmény: a leírás legyen koherens, általános és gépi feldolgozásra alkalmas Bioinformatika és genomanalízis az orvostudományban - 6 9

A megvalósítás Besorolás három szempont szerint: Folyamat (biological_process) Sejtalkotó (cellular_component) Működés (molecular_function) Három viszony: is_a part_of regulates Bioinformatika és genomanalízis az orvostudományban - 6 10

A módszer 12 modell-lény és egy népes szakértői csapat Elsődleges forrás: közvetlen kisérletes adatok Másodlagos forrás: homológ fehérjék annotációja Azt is jelzik, ha nincs adat Honlap: http://www.geneontology.org/ Bioinformatika és genomanalízis az orvostudományban - 6 11

Bioinformatika és genomanalízis az orvostudományban - 6 12

Bioinformatika és genomanalízis az orvostudományban - 6 13

Bioinformatika és genomanalízis az orvostudományban - 6 14

Bioinformatika és genomanalízis az orvostudományban - 6 15

Bioinformatika és genomanalízis az orvostudományban - 6 16

Bioinformatika és genomanalízis az orvostudományban - 6 17

Bioinformatika és genomanalízis az orvostudományban - 6 18

Bioinformatika és genomanalízis az orvostudományban - 6 19

Bioinformatika és genomanalízis az orvostudományban - 6 20

Bioinformatika és genomanalízis az orvostudományban - 6 21

Bioinformatika és genomanalízis az orvostudományban - 6 22

Bioinformatika és genomanalízis az orvostudományban - 6 23

Bioinformatika és genomanalízis az orvostudományban - 6 24

Bioinformatika és genomanalízis az orvostudományban - 6 25

Bioinformatika és genomanalízis az orvostudományban - 6 26

Bioinformatika és genomanalízis az orvostudományban - 6 27

Bioinformatika és genomanalízis az orvostudományban - 6 28

Az ENSEMBL analízis pipeline Az automatikus genomi annotáció a cél A kézi annotáció lassú és szubjektív A gépi gyors és konzisztens A legtöbb felhasználandó eszköz már kész Bemenő adatokbázisok: ENA, cdns, UniProt, EST A pipe-line megfelelő sorrendben meghívja a programokat és az eredményt adatbázisba rendezi Bioinformatika és genomanalízis az orvostudományban - 6 32

A megvalósítás A pipeline moduláris szerkezetű Runnable és RunnableDB Ezek egy bizonyos feladatot végeznek Hierarchikus RuleManager Ez osztja ki a feladatokat és ellenőrzi az eredményt A számítások computer farm -on mennek ~1000 node, közös adatbázist ér el Bioinformatika és genomanalízis az orvostudományban - 6 33

Bioinformatika és genomanalízis az orvostudományban - 6 34

Bioinformatika és genomanalízis az orvostudományban - 6 35

Bioinformatika és genomanalízis az orvostudományban - 6 36

Bioinformatika és genomanalízis az orvostudományban - 6 37

Automatic Gene Annotation Sytem Része az ENSEMBL pipeline-nak Célja: Fehérje kódoló és RNS gének azonosítása Exon-intron szerkezetük feltérképezése Annotálása fehérje, cdns és EST adatbázisok alapján A rendszer szabadon elérhető és használható Bioinformatika és genomanalízis az orvostudományban - 6 38

Az eljárás raw compute Lépések: RepeatMasker nagy számban előforduló szakaszok azonosítása Genescan fehérje kódoló gének keresése trnsscan RNS gének keresése eponine transcripciós start-helyek keresése BLAST fehérjék keresése homológia alapján A feldolgozás clone és contig szinten folyik Először gyors keresés aztán pontosítás Bioinformatika és genomanalízis az orvostudományban - 6 39

Kombinált módszerek Az Ab initio génpredikció hasznos, de nem megbízható Genescan túl sok gént talál, viszont rövid exonokat hajlamos elveszíteni BLAST kereséssel meg kell támogatni az eredményt A BLAST viszont nem alkalmas exon-intron szerkezet megadására Bioinformatika és genomanalízis az orvostudományban - 6 40

Transzkript modellek Az adatbázis kiválasztása kulcsfontosságú A saját faj adatbázisa az elsődleges Más fajok adatbázisát is felhasználják a saját adat hiányában, de csak másodlagosan Ez áll a fehérje és cdns adatokra is Így transzkript modelleket jósolunk először A két modell biztosan nem esik egybe a nemtranszlált régiók miatt (UTR) Bioinformatika és genomanalízis az orvostudományban - 6 41

Pmatch Gyorsan talál meg 100%-os egyezéseket A fehérje darabjainak egy szálon kell lenni A daraboknak jó sorrendben kell lenni A fehérje 25%-t legalább meg kell találni Egy fehérjéből a legjobb találatot megtartjuk Meg a továbbiakat is, ha csak 2% a különbség Bioinformatika és genomanalízis az orvostudományban - 6 42

genewise A pmatch jelentősen lecsökkenti a vizsgálandó szegmensek hosszát Utána genewise fehérje szintű illesztés splice-helyekkel és frame eltolással Viszont elég lassú miniseq: a megtalált nyers exonokat megtoldjuk 200 bázissal mindkét irányba Ez kezelhető méretűvé csökkenti a szekvenci hosszát Bioinformatika és genomanalízis az orvostudományban - 6 43

További finomítás Az eljárást megismételjük más fajokból származó fehérjékkel Csak az új találatokkal foglalkozunk A cdns adatbázis saját fajhoz tartozó részét illesztjük a genomra (exonerate) A találatokat rangsoroljuk és kiválogatjuk A génszerkezetet kiegészítjük az UTR szakaszokkal Bioinformatika és genomanalízis az orvostudományban - 6 44

Végső modell (GeneBuilder) 1. Az egymással átfedő helyzetben lévő génmodelleket közös klaszterbe soroljuk 2. A közös exonnal rendelkező modelleket közös gén-klaszterekbe soroljuk 3. A nagyon nagy klasztereket megszűrjük és csak a legjobb 10-et tartjuk meg (ritka eset) 4. Ismét klaszterezzük a géneket, ha az előző lépés új klasztereket hozott volna létre Bioinformatika és genomanalízis az orvostudományban - 6 45

Bioinformatika és genomanalízis az orvostudományban - 6 46

Bioinformatika és genomanalízis az orvostudományban - 6 47

Bioinformatika és genomanalízis az orvostudományban - 6 48

Az ENSEMBL felület Honlap: http://www.ensembl.org/index.html Közel 200 élőlény többségében gerinces Ingyenesen elérhető, folyamatosan fejlesztik Közös Európai fenntartású kezdeményezés Több módon is elérhetők az adatok: Web, BioMart, FTP Adatok feltöltése is lehetséges Bioinformatika és genomanalízis az orvostudományban - 6 49

Bioinformatika és genomanalízis az orvostudományban - 6 50

Bioinformatika és genomanalízis az orvostudományban - 6 51

Bioinformatika és genomanalízis az orvostudományban - 6 52

Bioinformatika és genomanalízis az orvostudományban - 6 53

Bioinformatika és genomanalízis az orvostudományban - 6 54

Bioinformatika és genomanalízis az orvostudományban - 6 55

Bioinformatika és genomanalízis az orvostudományban - 6 56

Bioinformatika és genomanalízis az orvostudományban - 6 57

Bioinformatika és genomanalízis az orvostudományban - 6 58

Bioinformatika és genomanalízis az orvostudományban - 6 59

Bioinformatika és genomanalízis az orvostudományban - 6 60

Bioinformatika és genomanalízis az orvostudományban - 6 61

Bioinformatika és genomanalízis az orvostudományban - 6 62

Bioinformatika és genomanalízis az orvostudományban - 6 63

Bioinformatika és genomanalízis az orvostudományban - 6 64

Bioinformatika és genomanalízis az orvostudományban - 6 65

Bioinformatika és genomanalízis az orvostudományban - 6 66

Bioinformatika és genomanalízis az orvostudományban - 6 67

Bioinformatika és genomanalízis az orvostudományban - 6 68

Bioinformatika és genomanalízis az orvostudományban - 6 69

Bioinformatika és genomanalízis az orvostudományban - 6 70

Bioinformatika és genomanalízis az orvostudományban - 6 71

Bioinformatika és genomanalízis az orvostudományban - 6 72

Bioinformatika és genomanalízis az orvostudományban - 6 73

Bioinformatika és genomanalízis az orvostudományban - 6 74

Bioinformatika és genomanalízis az orvostudományban - 6 75

Bioinformatika és genomanalízis az orvostudományban - 6 76

Bioinformatika és genomanalízis az orvostudományban - 6 77

Az osztott annotációs rendszer (DAS) Célja: Saját adatok feltüntetése az ENSEMBL felületen Adatok megosztása együttműködők közt Feltöltéshez használható egy külön fül a felületen A formátum kötött, alapvetően szöveges (ld. Help ) ENSEMBL regisztráció és belépés segít Bioinformatika és genomanalízis az orvostudományban - 6 78

Bioinformatika és genomanalízis az orvostudományban - 6 79

Bioinformatika és genomanalízis az orvostudományban - 6 80

Bioinformatika és genomanalízis az orvostudományban - 6 81

Kapcsolódó eszközök BLAST/BLAT BioMart Adatletöltési lehetőségek Bioinformatika és genomanalízis az orvostudományban - 6 82

Bioinformatika és genomanalízis az orvostudományban - 6 83

Bioinformatika és genomanalízis az orvostudományban - 6 84

Bioinformatika és genomanalízis az orvostudományban - 6 85

Bioinformatika és genomanalízis az orvostudományban - 6 86

Bioinformatika és genomanalízis az orvostudományban - 6 87

Tömeges lekérdezés BioMart rendszer Web-felületen át elérhető Az adattartalom azonos az interaktív felületem megjelenítettel Szöveges eredményt ad Nagy adattömeget fogunk kapni eredményül Bioinformatika és genomanalízis az orvostudományban - 6 88

Bioinformatika és genomanalízis az orvostudományban - 6 89

Bioinformatika és genomanalízis az orvostudományban - 6 90

Bioinformatika és genomanalízis az orvostudományban - 6 91

Bioinformatika és genomanalízis az orvostudományban - 6 92

Bioinformatika és genomanalízis az orvostudományban - 6 93

Bioinformatika és genomanalízis az orvostudományban - 6 94

Bioinformatika és genomanalízis az orvostudományban - 6 95

Bioinformatika és genomanalízis az orvostudományban - 6 96

Bioinformatika és genomanalízis az orvostudományban - 6 97

Bioinformatika és genomanalízis az orvostudományban - 6 98

Bioinformatika és genomanalízis az orvostudományban - 6 99

Bioinformatika és genomanalízis az orvostudományban - 6 100

Bioinformatika és genomanalízis az orvostudományban - 6 101

Bioinformatika és genomanalízis az orvostudományban - 6 102

A teljes adatbázis letöltése FTP (File Transfer Protocol) Az összes faj összes adata ami az ENSEMBLben van Szekvencia adatok Teljes változatban Részben feldolgozva Annotációs adatok Bioinformatika és genomanalízis az orvostudományban - 6 103

Bioinformatika és genomanalízis az orvostudományban - 6 104

Bioinformatika és genomanalízis az orvostudományban - 6 105

Bioinformatika és genomanalízis az orvostudományban - 6 106

Bioinformatika és genomanalízis az orvostudományban - 6 107

Bioinformatika és genomanalízis az orvostudományban - 6 108

Bioinformatika és genomanalízis az orvostudományban - 6 109

Bioinformatika és genomanalízis az orvostudományban - 6 110

Mit tanultunk ma? Az integrált adatbázisok nagyon hatékony eszközök Rugalmasak és könnyen használhatók Az adatbázisok egymástól függenek ez veszélyes lehet A tökéletes adatbázis a bioinformatika végső célja Bioinformatika és genomanalízis az orvostudományban - 6 111

Feladat 6. Keresd meg a neked legérdekesebb fehérjét vagy gént valamelyik ENSEMBL genomban és próbálj megtudni minnél többet róla. Bioinformatika és genomanalízis az orvostudományban - 6 112