Bioinformatika 2 4. előadás

Hasonló dokumentumok
5. Másodlagos adatbázisok

A tárgy címe: Bioinformatika

Bioinformatika előad

Bioinformatika 2 6. előadás

Bioinformatika 2 2. előadás

Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Bevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék

Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis

Bioinformatika 2 5. előadás

8. A fehérjék térszerkezetének jóslása

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.

Bioinformatika előadás

Bioinformatika előad

A fehérjék térszerkezetének jóslása

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

Bioinformatika előadás

BIOMOLEKULÁK KÉMIÁJA. Novák-Nyitrai-Hazai

Mai témák. Fehérjék dinamikájának jelentősége. Számítógépes modellezés jelentősége

A nukleinsavak polimer vegyületek. Mint polimerek, monomerekből épülnek fel, melyeket nukleotidoknak nevezünk.

Bioinformatika 2 10.el

9. Képaláírás, kereszthivatkozás, tárgymutató és jegyzékek

Fehérjék szerkezetének predikciója, szerkezeti adatok felhasználása adatbázisok segítségével, a számítógépes molekuladinamikai modellezés alapjai

3. Páronkénti szekvencia összerendezés

BIOINFORMATIKA Ungvári Ildikó

Több oxigéntartalmú funkciós csoportot tartalmazó vegyületek

Molekuláris biológiai adatbázisok és adatbázis keresések. Barta Endre Tóth Gábor MBK Bioinformatikai Csoport

Etológia Emelt A viselkedés mérése. Miklósi Ádám egyetemi tanár ELTE TTK Etológia Tanszék 2018

Fehérjék rövid bevezetés

TEMATIKA Biokémia és molekuláris biológia IB kurzus (bb5t1301)

NÖVÉNYI GENOMIKA JÓRI BALÁZS

Bioinformatika előadás

Grafikonok automatikus elemzése

BIOGÉN ELEMEK Azok a kémiai elemek, amelyek az élőlények számára létfontosságúak

TDK lehetőségek az MTA TTK Enzimológiai Intézetben

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bioinformatikai modellek. Cserző Miklós 2017

KUTATÁSMÓDSZERTAN 4. ELŐADÁS. A minta és mintavétel

Fehérjeszerkezet, és tekeredés

transzláció DNS RNS Fehérje A fehérjék jelenléte nélkülözhetetlen minden sejt számára: enzimek, szerkezeti fehérjék, transzportfehérjék

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Gyakorlati bioinformatika

Területi elemzések. Budapest, április

Szerkesztette: Vizkievicz András

7. Fehérjeszekvenciák és térszerkezetek analízise.

Közösség detektálás gráfokban

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017

Fehérjeszerkezet, és tekeredés. Futó Kinga

ALKÍMIA MA Az anyagról mai szemmel, a régiek megszállottságával.

A nukleinsavak polimer vegyületek. Mint polimerek, monomerekből épülnek fel, melyeket nukleotidoknak nevezünk.

Informatikai alapismeretek Földtudományi BSC számára

Követelmény az 5. évfolyamon félévkor matematikából

Bánsághi Anna 2014 Bánsághi Anna 1 of 31

Farmakológus szakasszisztens Farmakológus szakasszisztens 2/34

Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal. A genetikus algoritmus működése. Az élet információ tárolói

Least Squares becslés

Nukleinsavak építőkövei

Kvalitatív elemzésen alapuló reakciómechanizmus meghatározás

Technológiai-üzemeltetési stratégiák csoportosítása hisztorikus idsorok szimbolikus epizód reprezentációján alapulva

Hamisítás, kalózkodás a szellemi tulajdon vizein Budapest, november 20. Magyar Szabadalmi Hivatal

3. Sejtalkotó molekulák III.

A bioenergetika a biokémiai folyamatok során lezajló energiaváltozásokkal foglalkozik.

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

3. Sejtalkotó molekulák III. Fehérjék, enzimműködés, fehérjeszintézis (transzkripció, transzláció, poszt szintetikus módosítások)

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

A minimális sejt. Avagy hogyan alkalmazzuk a biológia több területét egy kérdés megválaszolására

számított mező, számított tétel

BASH script programozás II. Vezérlési szerkezetek

Összeállította Horváth László egyetemi tanár

Bio-nanorendszerek. Vonderviszt Ferenc. Pannon Egyetem Nanotechnológia Tanszék

2. Ismert térszerkezetű transzmembrán fehérjék adatbázisa: a PDBTM adatbázis. 3. A transzmembrán fehérje topológiai adatbázis, a TOPDB szerver

NUKLEINSAVAK. Nukleinsav: az élő szervezetek sejtmagvában és a citoplazmában található, az átöröklésben szerepet játszó, nagy molekulájú anyag

Struktúra nélküli adatszerkezetek

Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és elemzése DIPLOMAMUNKA

Hálózat hidraulikai modell integrálása a Soproni Vízmű Zrt. térinformatikai rendszerébe

Tartalomjegyzék. Köszönetnyilvánítás. 1. Az alapok 1

(Diszkrét idejű Markov-láncok állapotainak

Online tartalmak konzorciumi beszerzése

Bioinformatika 2 1. előadás

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May

Hidden Markov Model. March 12, 2013

A fehérjék térszerkezetének jóslása (Szilágyi András, MTA Enzimológiai Intézete)

Antigén, Antigén prezentáció

Számítógépes döntéstámogatás. Döntések fuzzy környezetben Közelítő következtetések

Intelligens adatelemzés

A fehérjék hierarchikus szerkezete

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Grid felhasználás: alkalmazott matematika

Az AHL szabályzórendszer génjei. Doktori disszertáció tézisei. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Termék modell. Definíció:

Követelmény a 7. évfolyamon félévkor matematikából

A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.

Az informatika kulcsfogalmai

Biomolekulák nanomechanikája A biomolekuláris rugalmasság alapjai

Matematika. 1. osztály. 2. osztály

A tanári mesterszak pedagógiai - pszichológiai egysége

A biomassza energetikai hasznosítása és a DANUBIOM projektötlet. Kohlheb Norbert Szent István Egyetem Bioeuparks tréning 2015.December 8.

,:/ " \ OH OH OH / \ O / H / H HO-CH, O, CH CH - OH ,\ / "CH - ~(H CH,-OH \OH. ,-\ ce/luló z 5zer.~ezere

Átírás:

4. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat 2018.09.24.

Biológiai adatbázisok Felhasználó Keresõprogram BLAST Biológiai adatbázisok Primer adatbázisok Szerkezeti adatbázisok Szekvencia adatbázisok Protein Protein Nukleinsav PDB SwissProt GenBank TrEMBL DDBJ PIR EMBL Szekunder adatbázisok SCOP CATH PFAM BLOCKS PROSITE Integrált adatbázisok INTERPRO 2 2018.09.24.

Másodlagos adatbázisok A másodlagos szekvencia adatbázisok az elsődleges (azaz szekvenciákat tartalmazó) adatbázisokból létrehozott szekvenciamintázat adatbázisok. Az elsődleges adatbázisok szekvenciáiból többszörös szekvencia összerendezések segítségével felismerhetővé válnak a konzerválódott régiók, a motívumok. A motívumok összessége az ujjlenyomat. Egy motívum alapján készíthető reguláris kifejezés, vagy gyakorisági mátrix (ebből súlyozott gyakorisági mátrix képezhető). 3 2018.09.24.

Származtatott adatbázisok Származtatott adatbázis Elsődleges vagy másodlagos forrása Tartalma PROSITE SwissProt Reguláris kifejezések (mintázatok) Profiles (PROSITE része) SwissProt Súlyozott mátrixok (profilolok) PRINTS SwissProt + TrEMBL Összerendezett motívumok (ujjlenyomatok) Pfam SwissProt Rejtett Markov modellek (HMM ek) BLOCKS* PROSITE / PRINTS Összerendezett motívumok (blokkok) emotif* BLOCKS / PRINTS "Fuzzy" reguláris kifejezések (mintázatok) * Szekunder adatbázisból származtatott harmadlagos adatbázis 4 2018.09.24.

Származtatott adatbázisok csoportosítása 5 2018.09.24.

{ Alkalmazásuk paradigmája Hasonló szekvencia - Hasonló szerkezet - Hasonló funkció Hasonló szekvencia Homológia ++ +/- +/- Hasonló szerkezet Paralógia Ortológia Hasonló funkció? + Bioinformatika alapfeladata: új szekvencia -> a fehérje funkciója, szerkezeti család, stb. Keresőprogramok (FASTA, BLAST, PSI BLAST, stb.) -> homológia felismerésére jók, de fontosabb az ortológia felismerése (a homológ lehet az ortológ paralógja is, ez kevésbé hasznosítható) Másodlagos adatbázisok (többnyire azonos funkciójú fehérjék szekvenciáiból származnak) az ortológia felismerését segítik. 6 2018.09.24.

PROSITE Reguláris kifejezések Négy protein összerendezése ADLGAVFALCDRYFQ SDVGPRSCFCERFYQ ADLGRTQNRCDRYYQ ADIGQPHSLCERYFQ [AS] D [IVL] G x4 {PG} C [DE] R [FY]2 Q Szabványos IUPAC egybetűs aminosav jelek Az egyes pozíciókat kötőjelek választják el Egy aminosav jel: teljesen konzerválódott pozíció (pl. G ) Szögletes zárójel: a megadott aminosavak valamelyike (pl. [AS]) Kapcsos zárójel: Bármelyik aminosav, kivéve a megadottakat (pl. {PG}) x: Bármelyik aminosav Szám: ismétlődés. (pl. [FY]2, x4) x(2,4): x 2 szer, 3 szor vagy 4 szer. 7 2018.09.24.

PROSITE Reguláris kifejezések Példa: H-x-[LIVM]-{P}-x(0,2)-G-x(4)-W H-C-I-N--G-YFRA-W A szekvencia megfelel 8 2018.09.24.

PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az adott fehérjecsalád biológiai funkciója szempontjából fontosak, pl.: Enzimek katalítikus helyei Prosztetikus csoportok kötőhelyei (hem, piridoxál-foszfát, biotin, stb.) Fémionok kötésében fontos aminosavak Diszulfid-hidakat kialakító ciszteinek Különböző molekulákat (ADP/ATP, GDP/GTP, kalcium, DNS, stb.) megkötő helyek Más proteineket megkötő helyek Egy motívumos adatbázis, a SwissProt összerendelések alapján, kézzel, szakértők által kísérleti és irodalmi adatok alapján elkészítve. A kifejezések jóságát gondosan ellenőrzik. Alapos, megbízható dokumentáció. 9 2018.09.24.

PROSITE Mintázat állomány 10 2018.09.24.

PROSITE Dokumentációs állomány 11 2018.09.24.

PROSITE Dokumentációs állomány 12 2018.09.24.

PROSITE - Keresés 13 2018.09.24.

PRINTS Ujjlenyomatok A PRINTS tartalma A fehérjecsaládokra jellemző "ujjlenyomatok": összerendezések hézagmentes, konzerválódott szakaszainak ("motívumok") halmazai A PRINTS készítése Kiinduló adatbázis: SWISSPROT+TrEMBL Egy fehérjecsalád néhány szekvenciájával manuális többszörös összerendezést készítenek Megállapítják a konzerválódott régiók helyét (főleg vizuálisan), ezek a motívumok (kezdeti motívumhalmaz) Mindegyik motívumból gyakorisági mátrixot származtatnak. A gyakorisági mátrix segítségével keresést végeznek (SwissProt+TrEMBL); bármely szekvencia illeszkedése a motívumhoz pontozható a gyakorisági mátrix segítségével A legjobb találatokat hozzáveszik és hozzárendezik a kezdeti motívumhoz, újabb gyakorisági mátrixot számítanak Az eljárást iteratívan ismétlik, amíg már nem lehet több szekvenciát hozzávenni a motívumhoz. 14 2018.09.24.

PRINTS - Állományok Az iterációk utáni motívumhalmaz diagnosztikus ereje nagyobb (jobban "diagnosztizálható" vele egy új szekvenciának az adott fehérjecsaláddal való homológiája). Több mint 1500 ujjlenyomatban 10000 feletti motívumot tartalmaz a PRINTS PRINTS állományok Keresztreferenciák Irodalmi hivatkozások Dokumentáció (bőséges) Az ujjlenyomat diagnosztikus erejét mutató statisztikai adatok A valódi pozitív találatot adó fehérjék felsorolása Kezdeti (iteráció előtti) motívumkészletek (pozícióval és az előző motívumtól mért távolsággal) Végső (iterációk utáni) motívumkészletek 15 2018.09.24.

PRINTS - Adatbázis 16 2018.09.24.

BLOCKS Blokkok BLOCKS állományok Régebbi mátrix alapú megközelítés, SwissProt adatbázisból származtatva BLOCKS keresés (megszűnt, ma már fejlettebb módszerek elérhetőek) Kulcsszó, leírás, stb. szerint Egy szekvencia összehasonlítása a BLOCKS szal (a súlyozott gyakorisági mátrix segítségével): -> Egyező blokkokat mutatja, E értékkel. A talált blokkok ún. logó ja (aminosavgyakoriságok betűméretre konvertálva) megjeleníthető, pl.: 17 2018.09.24.

Profilok Prosite, Pfam A profilok összerendezett szekvenciákból származtatott, a teljes szekvenciát leíró matematikai objektumok. Két fajtájuk van: Súlymátrixok: súlyozott gyakorisági mátrixok (mint a BLOCKS nál), kiegészítve pozíciófüggő gap opening és gap extension penalty kkel (azaz a mátrix soraiban 22 szám van: 20 aminosav és 2 gap penalty). A PROSITE ban ilyennel írják le azokat a fehérjecsaládokat, amelyekre nem találnak jó reguláris kifejezést. Rejtett Markov modellek (Hidden Markov Model, HMM): Olyan valószínűségi modell, amely szekvenciákat "generál": tkp. lineáris lánc, amely egyezés (Match, M), beszúrás (insertion, I) és törlés (deletion, D) állapotokból áll, az ezek átmeneteit jellemző számadatokkal. 18 2018.09.24.

Hidden Markov modellek (HMM) A rejtett Markov modell (angolul hidden Markov model, röviden HMM) egy képzeletbeli gép, amely szekvenciákat generál. A gépnek véges sok állapota van, és ezek között lépked. Minden egyes állapotában vagy minden egyes állapotváltáskor kibocsáthat egy szekvencia elemet (tehát aminosavat vagy nukleotidot), ezekből áll össze a gép által generált szekvencia. 19 2018.09.24.

Hidden Markov modellek (HMM) A körök és a négyzetek a gép állapotait, az összekötő nyilak az egyes állapotok között lehetséges átmeneteket reprezentálják. Az M és az I állapotok ún. "kibocsátó" állapotok, tehát amikor a gép ezekben az állapotokban van, akkor kibocsát magából egy szekvenciaelemet (aminosavat vagy nukleotidot). A D állapotok nem kibocsátó állapotok. Mindegyik M és I állapothoz tartozik egy táblázat, amely megmondja, hogy az adott állapotban a 20 aminosav, ill. a 4 nukleotid közül melyiket milyen valószínűséggel bocsátja ki a gép (tehát a táblázat 20 vagy 4 számot tartalmaz). A HMM nek további paraméterei az egyes állapotok közötti átmenetek valószínűségei, tehát az állapotdiagramon lévő, az egyes állapotokat összekötő nyilak mindegyikéhez tartozik egy valószínűségérték. A HMM rendszerint annyi M, I és D állapotot tartalmaz, amilyen hosszú szekvenciát tipikusan generál. A fenti ábrán látható HMM például 5 M állapotot tartalmaz, tehát amennyiben működése során nem megy át sem I, sem D állapoton, akkor 5 aminosavból vagy nukleotidból álló szekvenciát generál. 20 2018.09.24.

Hidden Markov modellek (HMM) Ha van egy rokon szekvenciákat tartalmazó szekvenciahalmazunk, akkor ennek az elemzésével, az egyes pozíciókban található aminosavak gyakorisága és egyebek alapján definiálni lehet egy olyan HMM et, amely a kiinduló szekvenciahalmazhoz hasonló szekvenciákat generál. A HMM felépítése, az állapotdiagram általában már eleve adott, a szekvenciahalmaz elemzésével pedig meghatározhatjuk az M és az I állapotokban az egyes aminosavak, ill. nukleotidok kibocsátásának valószínűségeit, valamint a gép egyes állapotai közötti átmenetek valószínűségeit. A Pfam adatbázis ezeket a paramétereket (pontosabban a számítások megkönnyítése végett a valószínűségek logaritmusát) tartalmazza minden egyes fehérjecsaládra. Ha tehát a rokon szekvenciákat tartalmazó halmaz alapján definiáltunk egy HMM et, akkor ezt a bizonyos szekvenciacsaládot jól leíró modellhez jutunk, amely képes további, a kiinduló szekvenciahalmazban lévő szekvenciákhoz hasonló szekvenciákat generálni. A szekvencia analízisnél azonban a HMM nek nem ez a képessége fontos, hanem az, hogy a HMM segítségével meg lehet határozni egy új szekvenciáról, hogy azt milyen valószínűséggel generálhatja az adott HMM. Ha ez nagy valószínűségérték, akkor a vizsgált, új szekvencia is beletartozik abba a szekvenciacsaládba, amelyből a HMM megkonstruálása során kiindultunk. 21 2018.09.24.

Profilok Prosite, Pfam PROSITE profilállomány Alap paraméterek: különböző átmenetek (pl. MI: Match Insertion) pontszámai M: Match (egyezés) állapotok, paraméterekkel (súlymátrix elemei) I: Inszerció állapotok, paraméterekkel Pfam állományok Leíró állomány: Családok leírásai (szekvenciák felsorolása) HMM állomány: A HMM et adja meg. Pfam A: Jól dokumentált családok, Pfam B: rosszul dokumentált, automatikusan generált családok. Keresés profiladatbázisokban Szekvencia összehasonlítása a profilokkal (különféle programok, szerverek) 22 2018.09.24.

Integrált másodlagos adatbázis: INTERPRO A legjobban dokumentált másodlagos adatbázisok (PROSITE, PRINTS) integrálása egyéb másodlagos adatbázisokkal (Pfam, PRODOM, stb.). Több ezer fehérjecsalád 23 2018.09.24.

Integrált másodlagos adatbázis: INTERPRO 24 2018.09.24.

Integrált másodlagos adatbázis: INTERPRO Bioinformatics - 25 Proteomics 2018.09.24.

Integrált biológiai adatbázis NCBI 26 2018.09.24.

Integrált biológiai adatbázis NCBI 27 2018.09.24.

Integrált biológiai adatbázis NCBI Structure 28 2018.09.24.

Integrált biológiai adatbázis NCBI PubMed 29 2018.09.24.