Bioinformatika és genomanalízis az orvostudományban Biológiai adatbázisok Cserző Miklós 2018
A mai előadás Mi az adatbázis A biológia kapcsolata az adatbázisokkal Az adatbázisok típusai Adatbázis formátumok, adatbázisok szerkezete Néhány fontos biológiai adatbázis Hibák az adatbázisokban Bioinformatika és genomanalízis az orvostudományban - 2. 2
Mi az adatbázis Nyers adat információ Adatbázis struktúrált információ A struktúrának köszönhetően Kereshető Rendezhető Szűrhető Bioinformatika és genomanalízis az orvostudományban - 2. 3
A biológia és az adatbázisok A XVIII. század világutazók kora Rengeteg új faj felfedezése, leírása Rendszer nékül áttekinthetetlen az adattömeg Carl von Linne rendszertana Bioinformatika és genomanalízis az orvostudományban - 2. 4
A molekuláris biológia központi dogmája DNS az információt a szekvenciájában tárolja RNS az információt közvetíti Fehérje a szekvenciális információ végső megjelenése, az információt használja Bioinformatika és genomanalízis az orvostudományban - 2. 5
Szekvencia adatbázisok Rengeteg megszekvenált genom Többsége virális és bakteriális Eukarióták közül is több száz Gerincesek Ízeltlábúak Növények Bioinformatika és genomanalízis az orvostudományban - 2. 6
Bioinformatika és genomanalízis az orvostudományban - 2. 7
Bioinformatika és genomanalízis az orvostudományban - 2. 8
Bioinformatika és genomanalízis az orvostudományban - 2. 9
Bioinformatika és genomanalízis az orvostudományban - 2. 10
Biológiai adatbázisok fajtái Tartalom szerint: Elsődleges közvetlen, kisérletes adatok Származtatott az előbbiek feldolgozása Elérés szerint: Szabad elérésű nemzetközi konzorciumok Előfizetéses üzleti alapú Magán gyógyszergyári, belső használatra Integrált adatbázisok Irodalmi adatbázis Bioinformatika és genomanalízis az orvostudományban - 2. 11
Adatbázisok elérése Internet első számú forrás Régebben nyomtatásban, mágnes-szalagon és CDn Sok szaklapnak van adatbázis szekciója Nucleic Acid Research januári száma Database Oxford University Press Az adatbázisokat rendszeresen frissítik Új adatbázisokat hoznak létre Bioinformatika és genomanalízis az orvostudományban - 2. 12
Adatbázisok felépítése Az adatbázisok bejegyzésekből állnak (record) A bejegyzések mezőkre oszlanak (field) A mezők sorrendje meghatározott A mezők tartalma szintén Excell táblázat szerű, vagy sablon, vagy űrlap Bioinformatika és genomanalízis az orvostudományban - 2. 13
Adatbázis formátumok MS Word is NOT a database format!!! (EBI: FAQ) Az adatbázisok tipikusan egyszerű szöveg formátumúak (.txt MS Word vagy notepad ) Közvetlenül is olvashatók, de nem feltétlenül ebben a formában kerülnek felhasználásra Sok alkalmazás néhány szabványos formátumban várja a bemenő adatokat Bioinformatika és genomanalízis az orvostudományban - 2. 14
A FASTA formátum Bejegyzés=szekvencia Első karakter: ; : komment, kerüld > : címsor, utána azonosító A többi a szekvencia maga 120 karakternél ne legyen hosszabb sor * -gal végződik, vagy a következő címsorral Bioinformatika és genomanalízis az orvostudományban - 2. 15
A nukleinsav adatbázis International Nucleotide Sequence Database Collaboration: ENA, NCBI, DDBJ Elsődleges adatbázis, ingyenes Közös formátum Közös azonosító kódrendszer Csak az egyik helyre kell beküldeni a többi automatikusan szinkronizál Honlap: http://www.ebi.ac.uk/ena/home Bioinformatika és genomanalízis az orvostudományban - 2. 16
EMBL formátum Mező azonosító A mező tartalma: Bioinformatika és genomanalízis az orvostudományban - 2. 17
Tulajdonságok: A szekvencia: Itt a vége: Bioinformatika és genomanalízis az orvostudományban - 2. 18
GeneBank formátum Kicsit más formátum Könnyű átalakítani A teljes leírás: http://www.insdc.org/documents/feature_table.html Bioinformatika és genomanalízis az orvostudományban - 2. 19
Bioinformatika és genomanalízis az orvostudományban - 2. 20
Bioinformatika és genomanalízis az orvostudományban - 2. 21
Bioinformatika és genomanalízis az orvostudományban - 2. 22
UniProt adatbázis Konzorcium üzemelteti: A fehérjékkel kapcsolatos információk fő forrása Az adatbázis nem homogén: SwissProt: egyedileg annotált és ellenőrzött TrEMBL: automatikusan annotált adatok Ingyenesen elérhető: http://www.uniprot.org/ Bioinformatika és genomanalízis az orvostudományban - 2. 23
Bioinformatika és genomanalízis az orvostudományban - 2. 24
A legfrissebb változat adatai Swiss-Prot TrEMBL sequences 558.125 124.797.108 amino acids 200.328.830 42.025.199.451 references 261.298 new 136 5.177.933 update 86 670 revised 117.352 16.500.700 Bioinformatika és genomanalízis az orvostudományban - 2. 25
Mennyire biztos? Evidence: Swiss-Prot TrEMBL protein level 98.924 (17.7% ) 144.459 (0.12%) transcript level 57.281 (10.3%) 1.162.753 (0.93%) from homology 386.442 (69.2%) 30.704.463 (24.60%) predicted 13.611 (2.4%) 92.785.433 (74.35%) uncertain 1.867 (0.3%) 0 (0%) Bioinformatika és genomanalízis az orvostudományban - 2. 26
Az adatbázis gyarapodása SwissProt: TrEMBL: Bioinformatika és genomanalízis az orvostudományban - 2. 27
Bioinformatika és genomanalízis az orvostudományban - 2. 28
A fehérjék megoszlása: Bioinformatika és genomanalízis az orvostudományban - 2. 29
A fehérjék hosszának eloszlása: Bioinformatika és genomanalízis az orvostudományban - 2. 30
Az adsatbázis formátuma: Bioinformatika és genomanalízis az orvostudományban - 2. 31
SZÜNET Bioinformatika és genomanalízis az orvostudományban - 2. 32
PDB adatbázis Nemzetközi konzorcium üzemeltetei Ingyenesen elérhető: http://www.rcsb.org/pdb/home/home.do Elsődleges térszerkezeti adatbázis Bioinformatika és genomanalízis az orvostudományban - 2. 33
Bioinformatika és genomanalízis az orvostudományban - 2. 34
Bioinformatika és genomanalízis az orvostudományban - 2. 35
Bioinformatika és genomanalízis az orvostudományban - 2. 36
Bioinformatika és genomanalízis az orvostudományban - 2. 37
Bioinformatika és genomanalízis az orvostudományban - 2. 38
Bioinformatika és genomanalízis az orvostudományban - 2. 39
Bioinformatika és genomanalízis az orvostudományban - 2. 40
Bioinformatika és genomanalízis az orvostudományban - 2. 41
Bioinformatika és genomanalízis az orvostudományban - 2. 42
Bioinformatika és genomanalízis az orvostudományban - 2. 43
PubMed adatbázis Az NCBI szolgáltatja az adatbázist Az elérés ingyenes: http://www.ncbi.nlm.nih.gov/pubmed A tudományos közlemények fő forrása Integrált adatbázis: a felületen keresztül fehérje és nukleinsav adatbázisok is elérhetők Bioinformatika és genomanalízis az orvostudományban - 2. 44
Bioinformatika és genomanalízis az orvostudományban - 2. 45
Bioinformatika és genomanalízis az orvostudományban - 2. 46
Bioinformatika és genomanalízis az orvostudományban - 2. 47
Bioinformatika és genomanalízis az orvostudományban - 2. 48
Bioinformatika és genomanalízis az orvostudományban - 2. 49
Hibák az adatbázisban Az adatbázisok felhasználják egymás adatait Ha egy hiba bekerül nem tudni, milyen további hibákat eredményez Ördögi körök veszélye A hibákat kezelni kell: Rendszeres frissítések A frissítés előtti állapot is látszik az új mellett Az adatokat nem lehet kritika nélkül elfogadni Bioinformatika és genomanalízis az orvostudományban - 2. 50
A hibák eredete: Kisérleti technikából eredő hiba Az adatok hosszú idő óta gyűlnek Közben változik a technika Változik a megbízhatóság Hibás predikció A másodlagos adatbázisok predikción alapulnak 99%-os hatékonyság az emberi genom esetén 250 gént hibásan annotálunk! Hiányos tudás Aki keres az talál. pl. cispro Bioinformatika és genomanalízis az orvostudományban - 2. 51
Lehetséges megoldás Emberi beavatkozás teljesen reménytelen Túl sok az adat és vannak emberi hibák is Kollektív bölcsesség wikipédia Kiegyenlíti a hibákat, de új problémákat generál A meglévő predikciós módszerek javítása Igen lassú és körülményes Külön hibajavító ellenőrző módszerek kidolgozása Hibajavítás szakértői rendszerrel Bioinformatika és genomanalízis az orvostudományban - 2. 52
A MisPred adatbázis Patthy László nevéhez fűződik Elérhető: http://mispred.com/ Elve: a fehérje annotáció különböző elemei közt van-e konfliktus? 1. Extracelluláris domén van, de nincs szignál peptid 2. Extracelluláris és citoplaznatikus domén van, de nincs transzmembrán szakasz 3. Nukleáris és extracelluláris domén is van 4. Domén méret jelentős eltérése a család többi tagjához képest 5. Egy gén csak egy kromoszómán lehet jelen Bioinformatika és genomanalízis az orvostudományban - 2. 53
Bioinformatika és genomanalízis az orvostudományban - 2. 54
Bioinformatika és genomanalízis az orvostudományban - 2. 55
Bioinformatika és genomanalízis az orvostudományban - 2. 56
Mit tanultunk ma? Az adatbázis struktúrált információ Bejegyzésekből és mezőkből áll Formátuma kötött De azért rugalmas is Az adatok hibásak lehetnek kritikával használjuk Bioinformatika és genomanalízis az orvostudományban - 2. 57
Feladat 2. Tervezzünk adatbázisformátumot, amely alkalmas a budapesti kávézók (fagyizók, italmérések,...) nyilvántartására. Tárgymező: Kurzus Feladat 2. Bioinformatika és genomanalízis az orvostudományban - 2. 58