Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Hasonló dokumentumok
Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

A tárgy címe: Bioinformatika

Bioinformatika 2 4. előadás

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bevezetés. Cserző Miklós 2018

Bakteriális identifikáció 16S rrns gén szekvencia alapján

Human genome project

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bioinformatikai modellek. Cserző Miklós 2017

TDK lehetőségek az MTA TTK Enzimológiai Intézetben

NÖVÉNYI GENOMIKA JÓRI BALÁZS

Bevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék

Hálózati modellek alkalmazása a molekuláris biológia néhány problémájára. Doktori (PhD) értekezés tézisei. Ágoston Vilmos

e-tanúsítás, felhasználói leírás a nyilvánosság számára

Bioinformatika 2 6. előadás

Ismerkedés az Office 2007 felhasználói felületével

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

Gyakorlati bioinformatika

2. Ismert térszerkezetű transzmembrán fehérjék adatbázisa: a PDBTM adatbázis. 3. A transzmembrán fehérje topológiai adatbázis, a TOPDB szerver

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May

Network front-end. Horváth Gábor. Kovács Róbert. ELTE Informatikai Igazgatóság

Szövegszerkesztés. Microsoft Office Word 2010

Molekuláris biológiai eljárások alkalmazása a GMO analitikában és az élelmiszerbiztonság területén

TEMATIKA Biokémia és molekuláris biológia IB kurzus (bb5t1301)

TERC V.I.P. hardverkulcs regisztráció

H N S A d a t K a p c s o l a t

12/4/2014. Genetika 7-8 ea. DNS szerkezete, replikáció és a rekombináció Hershey & Chase 1953!!!

Vezető Partner Szeminárium IMIR

Féléves feladat. Vezetéknév Keresztnév

Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola

Genetikai panel kialakítása a hazai tejhasznú szarvasmarha állományok hasznos élettartamának növelésére

REGISZTRÁCIÓ RÉGEBBI TANFOLYAMON RÉSZT VETT HALLGATÓK BEJELENTKEZÉS UTÁN JELENTKEZÉS TANFOLYAMRA GYAKRAN ISMÉTELT KÉRDÉSEK

NÖVÉNYÉLETTAN. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

A T sejt receptor (TCR) heterodimer

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

(1) A T sejtek aktiválása (2) Az ön reaktív T sejtek toleranciája. α lánc. β lánc. V α. V β. C β. C α.

Tisztelt Felhasználók!

Búza tartalékfehérjék mozgásának követése a transzgénikus rizs endospermium sejtjeiben

BISNODE ADATBÁZIS SZOLGÁLTATÁSOK

Adóhátralék kezelés egyszerűen. Telepítési útmutató. A program futtatásához Windows XP, Windows 7, 8 operációs rendszer szükséges.

transzláció DNS RNS Fehérje A fehérjék jelenléte nélkülözhetetlen minden sejt számára: enzimek, szerkezeti fehérjék, transzportfehérjék

A relációs adatbáziskezelés szabványos nyelve Két fő csoportba sorolhatók az utasításai

9. Képaláírás, kereszthivatkozás, tárgymutató és jegyzékek

KKK2.0 Regisztráció. A regisztráció teljes folyamata: 1. Ügyfél kommunikációs jogosultságának regisztrálása a NAV vámszerveinél.

Automatikus EKÁER bejelentő program

Elektronikus számla. First Businesspost Kft. Jakabos Árpád ügyvezető igazgató

Látható, hogy egy bank van rögzítve, az is a helyes adatok nélkül!

TÁRGYTEMATIKA RÖGZÍTÉSE A NEPTUN RENDSZERBEN

avagy az ipari alkalmazhatóság kérdése biotechnológiai tárgyú szabadalmi bejelentéseknél Dr. Győrffy Béla, Egis Nyrt., Budapest

13. Fájlformátumok. Schulcz Róbert Madarassy László 13. Fájlformátumok v

SZOLGÁLTATÓI NYILVÁNTARTÁSI RENDSZER FELHASZNÁLÓI KÉZIKÖNYV

Klímagáz képesítések megszerzésének ismertetése

Molekuláris evolúció második gyakorlat

TelepülésTár V

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.

ÚJ GENERÁCIÓS SZEKVENÁLÁS

SABLONOZÓ KERETRENDSZER

Élő webes alkalmazások rendszerfelügyelete cím- és tartalomteszteléssel

SC Kérdés. SC Kérdés. SC Kérdés

<Insert Picture Here> Migráció MS Access-ről Oracle Application Express-re

Playlist.hu Kiadói kézikönyv

Elektronikus aláírás ellenőrzése PDF formátumú e-számlán

A MOLEKULÁRIS BIOLÓGIA ISMERETÁBRÁZOLÁSI PROBLÉMÁI

Projekt és folyamat alapú dokumentum kezelés. az Alfresco rendszer használatával

Adóhátralék kezelés egyszerűen. Használati útmutató

1. hét. Neptun kód. Összesen. Név

1. GYIK (Gyakran Ismételt Kérdések) ÉV rajzok ellenőrzésének lépései Jelszó problémák Kapcsolattartók fájlfeltöltése...

A preventív vakcináció lényege :

Molekuláris biológiai adatbázisok és adatbázis keresések. Barta Endre Tóth Gábor MBK Bioinformatikai Csoport

Haladó irodai számítógépes képzés tematika

Felhasználói segédlet a PubMed adatbázis használatához. Publikációk keresése, letöltése valamint importja

Szoftver-mérés. Szoftver metrikák. Szoftver mérés

Útmutató a Domus elektronikus pályázati rendszerben történő pályázáshoz.

DKÜ ZRT. A Portál rendszer felületének általános bemutatása. Felhasználói útmutató. Támogatott böngészők. Felületek felépítése. Információs kártyák

A géntechnológiát megalapozó felfedezések

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

FELHASZNÁLÓI KÉZIKÖNYV

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Proteomika alapfogalmak, módszerek, példák a proteomika alkalmazására

Humán genom variációk single nucleotide polymorphism (SNP)

Vezető Kedvezményezetti Szeminárium IMIR

Megoldás. Feladat 1. Statikus teszt Specifikáció felülvizsgálat

Cafeteria - KIRA interfész

A mai el!adás témája: Miklós István Állapot Emisszió Útvonal Legvalószín!bb útvonal (Viterbi path) Szuboptimális útvonal

A könyvek cédulakatalógusának retrospektív konverziója az Országos Széchényi Könyvtárban

Web harvesztelés. Automatikus módszerekkel

Az ErdaGIS térinformatikai keretrendszer

ujszo.com árjegyzék Érvényes től Kedvezményes CPT ár Gate 1000x *160x600 3x40 kb

Csináljunk az adatból információt! A Lone-Soft listázó keretrendszerrel

Adatbázis-kezelés Access XP-vel. Tanmenet

Topjob.hu médiaajánlat

Átfogó megoldás a számlafolyamatok felgyorsításához ELO DocXtractor. Laczkó Kristóf ELO Digital Office Kft. Bálint András Prognax Kft.

Útmutató szivárgásvizsgálat-köteles berendezéseket érintő csoportos műveletekhez

BIOINFORMATIKA Ungvári Ildikó

Több oldalas dokumentum készítése. MS Word 2010 szövegszerkesztővel

A tankönyvvé nyilvánítás folyamatát elektronikusan támogató rendszer az OKÉV számára

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

trns-ek identitásvizsgálata új, in silico módszerrel

Ingyenes DDNS beállítása MAZi DVR/NVR/IP eszközökön

Átírás:

Bioinformatika és genomanalízis az orvostudományban Biológiai adatbázisok Cserző Miklós 2018

A mai előadás Mi az adatbázis A biológia kapcsolata az adatbázisokkal Az adatbázisok típusai Adatbázis formátumok, adatbázisok szerkezete Néhány fontos biológiai adatbázis Hibák az adatbázisokban Bioinformatika és genomanalízis az orvostudományban - 2. 2

Mi az adatbázis Nyers adat információ Adatbázis struktúrált információ A struktúrának köszönhetően Kereshető Rendezhető Szűrhető Bioinformatika és genomanalízis az orvostudományban - 2. 3

A biológia és az adatbázisok A XVIII. század világutazók kora Rengeteg új faj felfedezése, leírása Rendszer nékül áttekinthetetlen az adattömeg Carl von Linne rendszertana Bioinformatika és genomanalízis az orvostudományban - 2. 4

A molekuláris biológia központi dogmája DNS az információt a szekvenciájában tárolja RNS az információt közvetíti Fehérje a szekvenciális információ végső megjelenése, az információt használja Bioinformatika és genomanalízis az orvostudományban - 2. 5

Szekvencia adatbázisok Rengeteg megszekvenált genom Többsége virális és bakteriális Eukarióták közül is több száz Gerincesek Ízeltlábúak Növények Bioinformatika és genomanalízis az orvostudományban - 2. 6

Bioinformatika és genomanalízis az orvostudományban - 2. 7

Bioinformatika és genomanalízis az orvostudományban - 2. 8

Bioinformatika és genomanalízis az orvostudományban - 2. 9

Bioinformatika és genomanalízis az orvostudományban - 2. 10

Biológiai adatbázisok fajtái Tartalom szerint: Elsődleges közvetlen, kisérletes adatok Származtatott az előbbiek feldolgozása Elérés szerint: Szabad elérésű nemzetközi konzorciumok Előfizetéses üzleti alapú Magán gyógyszergyári, belső használatra Integrált adatbázisok Irodalmi adatbázis Bioinformatika és genomanalízis az orvostudományban - 2. 11

Adatbázisok elérése Internet első számú forrás Régebben nyomtatásban, mágnes-szalagon és CDn Sok szaklapnak van adatbázis szekciója Nucleic Acid Research januári száma Database Oxford University Press Az adatbázisokat rendszeresen frissítik Új adatbázisokat hoznak létre Bioinformatika és genomanalízis az orvostudományban - 2. 12

Adatbázisok felépítése Az adatbázisok bejegyzésekből állnak (record) A bejegyzések mezőkre oszlanak (field) A mezők sorrendje meghatározott A mezők tartalma szintén Excell táblázat szerű, vagy sablon, vagy űrlap Bioinformatika és genomanalízis az orvostudományban - 2. 13

Adatbázis formátumok MS Word is NOT a database format!!! (EBI: FAQ) Az adatbázisok tipikusan egyszerű szöveg formátumúak (.txt MS Word vagy notepad ) Közvetlenül is olvashatók, de nem feltétlenül ebben a formában kerülnek felhasználásra Sok alkalmazás néhány szabványos formátumban várja a bemenő adatokat Bioinformatika és genomanalízis az orvostudományban - 2. 14

A FASTA formátum Bejegyzés=szekvencia Első karakter: ; : komment, kerüld > : címsor, utána azonosító A többi a szekvencia maga 120 karakternél ne legyen hosszabb sor * -gal végződik, vagy a következő címsorral Bioinformatika és genomanalízis az orvostudományban - 2. 15

A nukleinsav adatbázis International Nucleotide Sequence Database Collaboration: ENA, NCBI, DDBJ Elsődleges adatbázis, ingyenes Közös formátum Közös azonosító kódrendszer Csak az egyik helyre kell beküldeni a többi automatikusan szinkronizál Honlap: http://www.ebi.ac.uk/ena/home Bioinformatika és genomanalízis az orvostudományban - 2. 16

EMBL formátum Mező azonosító A mező tartalma: Bioinformatika és genomanalízis az orvostudományban - 2. 17

Tulajdonságok: A szekvencia: Itt a vége: Bioinformatika és genomanalízis az orvostudományban - 2. 18

GeneBank formátum Kicsit más formátum Könnyű átalakítani A teljes leírás: http://www.insdc.org/documents/feature_table.html Bioinformatika és genomanalízis az orvostudományban - 2. 19

Bioinformatika és genomanalízis az orvostudományban - 2. 20

Bioinformatika és genomanalízis az orvostudományban - 2. 21

Bioinformatika és genomanalízis az orvostudományban - 2. 22

UniProt adatbázis Konzorcium üzemelteti: A fehérjékkel kapcsolatos információk fő forrása Az adatbázis nem homogén: SwissProt: egyedileg annotált és ellenőrzött TrEMBL: automatikusan annotált adatok Ingyenesen elérhető: http://www.uniprot.org/ Bioinformatika és genomanalízis az orvostudományban - 2. 23

Bioinformatika és genomanalízis az orvostudományban - 2. 24

A legfrissebb változat adatai Swiss-Prot TrEMBL sequences 558.125 124.797.108 amino acids 200.328.830 42.025.199.451 references 261.298 new 136 5.177.933 update 86 670 revised 117.352 16.500.700 Bioinformatika és genomanalízis az orvostudományban - 2. 25

Mennyire biztos? Evidence: Swiss-Prot TrEMBL protein level 98.924 (17.7% ) 144.459 (0.12%) transcript level 57.281 (10.3%) 1.162.753 (0.93%) from homology 386.442 (69.2%) 30.704.463 (24.60%) predicted 13.611 (2.4%) 92.785.433 (74.35%) uncertain 1.867 (0.3%) 0 (0%) Bioinformatika és genomanalízis az orvostudományban - 2. 26

Az adatbázis gyarapodása SwissProt: TrEMBL: Bioinformatika és genomanalízis az orvostudományban - 2. 27

Bioinformatika és genomanalízis az orvostudományban - 2. 28

A fehérjék megoszlása: Bioinformatika és genomanalízis az orvostudományban - 2. 29

A fehérjék hosszának eloszlása: Bioinformatika és genomanalízis az orvostudományban - 2. 30

Az adsatbázis formátuma: Bioinformatika és genomanalízis az orvostudományban - 2. 31

SZÜNET Bioinformatika és genomanalízis az orvostudományban - 2. 32

PDB adatbázis Nemzetközi konzorcium üzemeltetei Ingyenesen elérhető: http://www.rcsb.org/pdb/home/home.do Elsődleges térszerkezeti adatbázis Bioinformatika és genomanalízis az orvostudományban - 2. 33

Bioinformatika és genomanalízis az orvostudományban - 2. 34

Bioinformatika és genomanalízis az orvostudományban - 2. 35

Bioinformatika és genomanalízis az orvostudományban - 2. 36

Bioinformatika és genomanalízis az orvostudományban - 2. 37

Bioinformatika és genomanalízis az orvostudományban - 2. 38

Bioinformatika és genomanalízis az orvostudományban - 2. 39

Bioinformatika és genomanalízis az orvostudományban - 2. 40

Bioinformatika és genomanalízis az orvostudományban - 2. 41

Bioinformatika és genomanalízis az orvostudományban - 2. 42

Bioinformatika és genomanalízis az orvostudományban - 2. 43

PubMed adatbázis Az NCBI szolgáltatja az adatbázist Az elérés ingyenes: http://www.ncbi.nlm.nih.gov/pubmed A tudományos közlemények fő forrása Integrált adatbázis: a felületen keresztül fehérje és nukleinsav adatbázisok is elérhetők Bioinformatika és genomanalízis az orvostudományban - 2. 44

Bioinformatika és genomanalízis az orvostudományban - 2. 45

Bioinformatika és genomanalízis az orvostudományban - 2. 46

Bioinformatika és genomanalízis az orvostudományban - 2. 47

Bioinformatika és genomanalízis az orvostudományban - 2. 48

Bioinformatika és genomanalízis az orvostudományban - 2. 49

Hibák az adatbázisban Az adatbázisok felhasználják egymás adatait Ha egy hiba bekerül nem tudni, milyen további hibákat eredményez Ördögi körök veszélye A hibákat kezelni kell: Rendszeres frissítések A frissítés előtti állapot is látszik az új mellett Az adatokat nem lehet kritika nélkül elfogadni Bioinformatika és genomanalízis az orvostudományban - 2. 50

A hibák eredete: Kisérleti technikából eredő hiba Az adatok hosszú idő óta gyűlnek Közben változik a technika Változik a megbízhatóság Hibás predikció A másodlagos adatbázisok predikción alapulnak 99%-os hatékonyság az emberi genom esetén 250 gént hibásan annotálunk! Hiányos tudás Aki keres az talál. pl. cispro Bioinformatika és genomanalízis az orvostudományban - 2. 51

Lehetséges megoldás Emberi beavatkozás teljesen reménytelen Túl sok az adat és vannak emberi hibák is Kollektív bölcsesség wikipédia Kiegyenlíti a hibákat, de új problémákat generál A meglévő predikciós módszerek javítása Igen lassú és körülményes Külön hibajavító ellenőrző módszerek kidolgozása Hibajavítás szakértői rendszerrel Bioinformatika és genomanalízis az orvostudományban - 2. 52

A MisPred adatbázis Patthy László nevéhez fűződik Elérhető: http://mispred.com/ Elve: a fehérje annotáció különböző elemei közt van-e konfliktus? 1. Extracelluláris domén van, de nincs szignál peptid 2. Extracelluláris és citoplaznatikus domén van, de nincs transzmembrán szakasz 3. Nukleáris és extracelluláris domén is van 4. Domén méret jelentős eltérése a család többi tagjához képest 5. Egy gén csak egy kromoszómán lehet jelen Bioinformatika és genomanalízis az orvostudományban - 2. 53

Bioinformatika és genomanalízis az orvostudományban - 2. 54

Bioinformatika és genomanalízis az orvostudományban - 2. 55

Bioinformatika és genomanalízis az orvostudományban - 2. 56

Mit tanultunk ma? Az adatbázis struktúrált információ Bejegyzésekből és mezőkből áll Formátuma kötött De azért rugalmas is Az adatok hibásak lehetnek kritikával használjuk Bioinformatika és genomanalízis az orvostudományban - 2. 57

Feladat 2. Tervezzünk adatbázisformátumot, amely alkalmas a budapesti kávézók (fagyizók, italmérések,...) nyilvántartására. Tárgymező: Kurzus Feladat 2. Bioinformatika és genomanalízis az orvostudományban - 2. 58