Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bioinformatikai modellek. Cserző Miklós 2017

Hasonló dokumentumok
Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017

Bioinformatika 2 6. előadás

7. Fehérjeszekvenciák és térszerkezetek analízise.

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Adatok statisztikai értékelésének főbb lehetőségei

Elválasztástechnikai és bioinformatikai kutatások. Dr. Harangi János DE, TTK, Biokémiai Tanszék

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

2. Ismert térszerkezetű transzmembrán fehérjék adatbázisa: a PDBTM adatbázis. 3. A transzmembrán fehérje topológiai adatbázis, a TOPDB szerver

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Bioinformatika 2 4. előadás

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Neurális hálózatok bemutató

A fehérjék térszerkezetének jóslása (Szilágyi András, MTA Enzimológiai Intézete)

Markov-láncok stacionárius eloszlása

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

TDK lehetőségek az MTA TTK Enzimológiai Intézetben

(1) A T sejtek aktiválása (2) Az ön reaktív T sejtek toleranciája. α lánc. β lánc. V α. V β. C β. C α.

Kettőnél több csoport vizsgálata. Makara B. Gábor

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Költségbecslési módszerek a szerszámgyártásban. Tartalom. CEE-Product Groups. Költségbecslés. A költségbecslés szerepe. Dr.

10. Genomika 2. Microarrayek és típusaik

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

A tárgy címe: Bioinformatika

Fehérjeszerkezet, és tekeredés

Gépi tanulás és Mintafelismerés

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Molekuláris biológiai eljárások alkalmazása a GMO analitikában és az élelmiszerbiztonság területén

Az élő sejt fizikai Biológiája:

Szénhidrátkémiai kutatások bioinformatikai esetek. Dr. Harangi János DE, TTK, Biokémiai Tanszék

A fehérjék szerkezeti hierarchiája. Fehérje-szerkezetek! Klasszikus szerkezet-funkció paradigma. szekvencia. funkció. szerkezet! Myoglobin.

A fehérjék térszerkezetének jóslása

Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Mély neuronhálók alkalmazása és optimalizálása

8. A fehérjék térszerkezetének jóslása

Mesterséges Intelligencia MI

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

A felszínközeli szélsebesség XXI. században várható változása az ALADIN-Climate regionális éghajlati modell alapján

Intelligens beágyazott rendszer üvegházak irányításában

A vérképző rendszerben ionizáló sugárzás által okozott mutációk kialakulásának numerikus modellezése

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Biomatematika 2 Orvosi biometria

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bevezetés. Cserző Miklós 2018

NGB_IN040_1 SZIMULÁCIÓS TECHNIKÁK dr. Pozna Claudio Radu, Horváth Ernő

Bioinformatika előad

A klímamodellek eredményei mint a hatásvizsgálatok kiindulási adatai

Méréselmélet MI BSc 1

Szezonális kiigazítás az NFSZ regisztrált álláskeresők idősorain. Készítette: Multiráció Kft.

FEHÉRJÉK A MÁGNESEKBEN. Bodor Andrea ELTE, Szerkezeti Kémiai és Biológiai Laboratórium. Alkímia Ma, Budapest,

Mesterséges Intelligencia Elektronikus Almanach. MI Almanach projektismertetı rendezvény április 29., BME, I. ép., IB.017., 9h-12h.

[Biomatematika 2] Orvosi biometria

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Az éghajlati modellek eredményeinek alkalmazhatósága hatásvizsgálatokban

Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal. A genetikus algoritmus működése. Az élet információ tárolói

GCF 1.1 Gas Consumption Forecast

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

Intelligens adatelemzés

Least Squares becslés

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Hidden Markov Model. March 12, 2013

Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis

TANMENETJAVASLAT. Dr. Korányi Erzsébet MATEMATIKA. tankönyv ötödikeseknek. címû tankönyvéhez

Modellkiválasztás és struktúrák tanulása

társadalomtudományokban

BIOMATEMATIKA ELŐADÁS

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

Biomatematika 2 Orvosi biometria

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Fehérjék rövid bevezetés

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

12. előadás - Markov-láncok I.

Bioinformatika 2 5. előadás

VÁLLALATGAZDASÁGTAN II. Döntési Alapfogalmak

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Számelmélet I.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Akusztikai tervezés a geometriai akusztika módszereivel

Összefoglalás és gyakorlás

Több valószínűségi változó együttes eloszlása, korreláció

A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla

Mérési struktúrák

Biomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

transzláció DNS RNS Fehérje A fehérjék jelenléte nélkülözhetetlen minden sejt számára: enzimek, szerkezeti fehérjék, transzportfehérjék

Digitális hangszintmérő

avagy az ipari alkalmazhatóság kérdése biotechnológiai tárgyú szabadalmi bejelentéseknél Dr. Győrffy Béla, Egis Nyrt., Budapest

Bioinformatika előadás

Hibadetektáló rendszer légtechnikai berendezések számára

2. Hozzárendelt azonosítók alapján

Elektronikus kereskedelem. Automatikus azonosító rendszerek

Átírás:

Bioinformatika és genomanalízis az orvostudományban Bioinformatikai modellek Cserző Miklós 2017

A mai előadás A predikció jelentősége a biológiában Egyszerű statisztikai modellek Kyte-Doolittle hidrofóbicitás skála Chou Fasman szerkezet predikció Nem-annyira-egyszerű modellek Rejtett Markov modell Neurális háló SVM modell Bioinformatika és genomanalízis az orvostudományban - 7 2

Predikció Van sok adatunk Feltételezünk valamilyen szabályszerűséget a rendszerben Következtetünk ezekre Modellt építünk ezek alapján Kipróbáljuk a modellt Olyan rendszerek viselkedését jósoljuk meg, amelyekre nincs közvetlen adatunk Bioinformatika és genomanalízis az orvostudományban - 7 3

A hidrofóbicitás A fehérje folding hajtóereje A sejten belüli elhelyezkedés szempontjából kitüntetett membrán fehérjék A sejt és környezete közti jeltovábbításban kitüntetett szerep Ezen keresztül nagy gyógyászati jeletőséggel bír Bioinformatika és genomanalízis az orvostudományban - 7 4

Kyte-Doolittle modell Az egyes aminósavak hidrofóbicitása adott Ez egy additív mennyiség Ha a szekvenciában sok hidrofób aminósav van egy helyen koncentráva az egész fragmens hidrofób lesz A hidrofób részek az első számú jelöltek a transzmembrán szakaszok azonosítására Bioinformatika és genomanalízis az orvostudományban - 7 5

Aminósavak tulajdonságai Bioinformatika és genomanalízis az orvostudományban - 7 6

Bioinformatika és genomanalízis az orvostudományban - 7 7

A hidrofóbicitásról Nagy számú és sokfajta mikroszkópikus erő makroszkópikus eredője Meg lehet mérni fizikai-kémiai módszerekkel Többféle képpen is. Pl. megoszlási hányadoson keresztül Mi legyen Az oldószer? Mi legyen a minta? Bioinformatika és genomanalízis az orvostudományban - 7 8

A számítás menete h 1 + h 2 + h 3 + h 4 + h 5 + h 6 + h 7 = H 1-7 /W h 2 + h 3 + h 4 + h 5 + h 6 + h 7 + h 8 = H 2-8 /W Átlagos hidrifóbicitás h 3 + h 4 + h 5 + h 6 + h 7 + h 8 + h 9 = H 3-9 /W Csúszó ablak Hidrofóbicitás profil Bioinformatika és genomanalízis az orvostudományban - 7 9

Kiértékelés Paraméterek: skála, ablak, levágás Predikci ó Kisérlet Bioinformatika és genomanalízis az orvostudományban - 7 10

Korrekciós lehetőségek Szegmens Predikci ó Kisérlet Hamis pozitív Hamis negatív Aminósav Hamis negatív Hamis pozitív Szabályok Túl szűk csúcs Túl szűk rés Bioinformatika és genomanalízis az orvostudományban - 7 11

Korrekciós hibák A hibaforrások: Túl kevés kisérletes adat Pontatlan kisérletes adatok Transzmembrán fehérjék esetén mindkét problémával találkozunk TM fehérjék érzékenyek Nehéz kisérletezni velük Így kevés és pontatlan adatunk van Bioinformatika és genomanalízis az orvostudományban - 7 12

Limitált proteolízis Specifikus proteázok Csak bizonyos szekvenmciáknál hasítanak Ilyenek vagy vannak a fehérjében vagy nem Vagy elérhetők vagy nem Bioinformatika és genomanalízis az orvostudományban - 7 13

Jelölés Specifikus festékek Bizonyos aminósavakat megjelölnek kovalens kötésekkel Ilyenek vagy vannak a fehérjében vagy nem Vagy elérhetők vagy nem Bioinformatika és genomanalízis az orvostudományban - 7 14

Fúziós fehérje A fehérjét megtoldjuk egy riporter fehérjével Ez egy specifikus reagenssel jelet ad Az eredeti fehérjéből egyre nagyobb darabokat vagunk le a toldás előtt Ha a reagens és a riporter a membrán azonos oldalán van jelet kapunk Bioinformatika és genomanalízis az orvostudományban - 7 15

A közös probléma Nagyon körülményes a kisérlet Csak kivételes esetben működik Nem ad pontos eredményt Inkább csak egy predikció eredményével ér fel Bioinformatika és genomanalízis az orvostudományban - 7 16

A Chou Fasman predikció A fehérjék másodlagos szerkezetét próbálja megjósolni Négy állású modellt alkalmaz: α-helix, β- redő, γ-hurok és a maradék Megoldott fehérje szerkezetek alapján számolt szerkezet képző hajlamot használ Az elv hasonlít a K-D TM predikcióra, csak négy profil alapján készít predikciót Bioinformatika és genomanalízis az orvostudományban - 7 17

A modell x aminósav α helix képző hajlama : x gyakorisága helixben v.s. nem-helixben C-F paraméterek: p(x) α =f(x) α /f(x) α A többi szerkezeti elemre analóg módon számolt paraméter Ezek alapján predikciós profilt készítünk A csúcsok jelentik a szerkezeti elelmek magjait Ezeket addig szélesítjük, míg beleütközünk a következő szerkezeti elembe Bioinformatika és genomanalízis az orvostudományban - 7 18

Bioinformatika és genomanalízis az orvostudományban - 7 19

A modell kalibrálása lehetséges definíciók Ramachandran plot Szerkezeti definíció Bioinformatika és genomanalízis az orvostudományban - 7 20

Problémák Már a szerkezeti elemek azonosítása sem egyételmű Az adatbázis nagyon kicsi volt az eredeti módszer kidolgozásakor kb. 3500 aminósav A modell felbontása alacsony Figyelmen kívül hagy további szerkezeti elemeket Bioinformatika és genomanalízis az orvostudományban - 7 21

Tanulság A K-D és C-F módszer nagyon egyszerű, de pontatlan A modell paramétereit optimalizálni kell kisérletes adatok felhasználásával Kerülni kell a modell túlillesztését Pontatlan adatokra alapozott rendszer szükségszerűen pontatlan Ha egy módszer egyszerű mindenki használni fogja, akkor is, ha megbízhatatlan Ne használjuk ezeket a predikciókat!!! Bioinformatika és genomanalízis az orvostudományban - 7 22

Markov lánc, Markov modell Van egy rendszerünk A rendszer véges számú állapotot vehet fel állapottér A rendszer az állapottér egyik pontjából a másikba adott valószínűséggel jut át AAEEAAEEAAAAEEAAEAAAAAEEE AAEEAAEAEAEAAEAAAEEAAEAAA Bioinformatika és genomanalízis az orvostudományban - 7 23

Milyen az idő ma? Az időjárás paraméterei: hőmérséklet légnyomás páratartalom szélirány szélerősség Bioinformatika és genomanalízis az orvostudományban - 7 24

És holnap? Ugyan olyan, mint ma 60%-ban helyes jóslat Melegebb vagy hidegebb? Egy kicsivel lehetséges Sokkal talán, de ez ritkább A többi paraméterre is hasonló megfontolást alkalmazunk Bioinformatika és genomanalízis az orvostudományban - 7 25

Bioinformatika és genomanalízis az orvostudományban - 7 26

Mi van a befektetésekkel? A tőzsdén forognak az értékpapírok A papírok értéke változik Az egyik drágul, a másik veszít az értékéből Ha meg tudom jósolni a jövőbeli árfolyamokat, akkor jól járok A papírok értéke rövid távon inkább kicsit változik, a nagy változás ritka Eléggé hasonlít az időjárásra... Bioinformatika és genomanalízis az orvostudományban - 7 27

Bioinformatika és genomanalízis az orvostudományban - 7 28

Lehetséges modell Mindkét folyamatban vannak közös staitsztikus elemek A jelen állapot ismert A folytonos paramétereket kerekíteni kell Az adott állapot megváltozása kismértékben - valószínű nagymértékben - valószínűtlen A ritán és a soha két különböző dolog!!! Rövid távra könnyebb jósolni Ne tőzsdézzünk és hordjunk magunkkal esernyőt! Bioinformatika és genomanalízis az orvostudományban - 7 29

Rejtett Markov modell Markov modell egy rejtett réteggel megtoldva Az állapotokat nem érzékeljük közvetlenül Csak az eredményt látjuk Bioinformatika és genomanalízis az orvostudományban - 7 30

Javított időjárás modell Hiányoznak további adatok: Magaslégkör állapota Tengeráramlások adatai Ezeket nem tudjuk mérni Kell még az évszak is A tapasztalt helyi időjárás ezek következménye A rejtett Markov modell jobb lehet Bioinformatika és genomanalízis az orvostudományban - 7 31

HMM alapú bioinformatika A Markov lánc eredetileg a rendszer időbeli viselkedését irja le A biológiában a szekvencia az érdekes fehérje vagy nukleinsav A szekvencia egy nem ismert tulajdonságát modellezzük, aminek egy megnyilvánulása az adott szekvencia Pl. http://www.enzim.hu/hmmtop/ Bioinformatika és genomanalízis az orvostudományban - 7 32

Bioinformatika és genomanalízis az orvostudományban - 7 33

Bioinformatika és genomanalízis az orvostudományban - 7 34

A modell A modell 5 állapotot különböztet meg Tartalmaz terjedelmi korlátot is A szerver több mint 15 éve üzemel Azóta sem találtak ki ennél jobbat Bioinformatika és genomanalízis az orvostudományban - 7 35

A teljes leírás "G.E Tusnády and I. Simon (1998) Principles Governing Amino Acid Composition of Integral Membrane Proteins: Applications to Topology Prediction." J. Mol. Biol. 283, 489-506 Bioinformatika és genomanalízis az orvostudományban - 7 36

GeneWise páros HMM Kell egy modell a Az exon/intron szerkezet becslésére DNS fehérje fordításra A fehérje lefordított fehérje összehasonlításra Bioinformatika és genomanalízis az orvostudományban - 7 37

Bioinformatika és genomanalízis az orvostudományban - 7 38

Referencia GeneWise and Genomewise, Ewan Birney, Michele Clamp and Richard Durbin, Genome Res. 2004 14: 988-995 Bioinformatika és genomanalízis az orvostudományban - 7 39

A modellek paraméterei A HMM nem használható a belső paraméterei nélkül Állapot-átmenet valószínűség Kimeneti valószínűség Ezeket meg kell tanítani a modellnek Nincs általános megoldás, csak közelítő A modellt visszafelé kell működtetni Ehhez kell a tanuló készlet Ilyent már láttunk K-D és C-F módszer Bioinformatika és genomanalízis az orvostudományban - 7 40

Sok HMM alapú módszer van Szekvencia motívum keresés Génszerkezet predikció Fehérje szerkezet predikció Többszörös szekvencia-illesztés Szerkezeti motívum keresés És még sok más... Bioinformatika és genomanalízis az orvostudományban - 7 41

Neurális hálózat Biológiai eredetű statisztikai modell A modell egységei rétegekben állnak Az egység az előző rétegből kapja a bemenetét És a következő réteg egységeinek adja tovább A csatolás súlyozott Bioinformatika és genomanalízis az orvostudományban - 7 42

Az elrendezés A rétegek száma lehet több is A rétegek mérete eltérhet A modellt tanítani kell Hasonló feladatokat old meg, mint a HMM A 90-s években igen népszerű volt Mostanában kevesebbet használják Bioinformatika és genomanalízis az orvostudományban - 7 43

Javított időjárás előrejelzés Tudjuk, milyen az idő Budapesten ma Tudjuk a mai időt Bécsben Krakkóban Kievben Belgrádban Milyen lesz az idő holnap Budapesten? Bioinformatika és genomanalízis az orvostudományban - 7 44

Support Vector Machine Van két ponthalmazunk a síkon Keressük azt az egyenest, amely elválasztja egymástól a két halmazt És a lehető legszélesebb elválasztósávot hagy Bioinformatika és genomanalízis az orvostudományban - 7 45

Vektorgeometriai megközelítés Térből van 1D egy koordináta 2D x,y koordináta 3D x,y,z X Y Sőt több... N koordináta vektor A vektorgeometria egy régi, jól ismert és egyszerű tudomány X Z Y Bioinformatika és genomanalízis az orvostudományban - 7 46

SVM a biológiában A modell használatához kell egy tanító adatsor Egy pontsor A tulajdonsággal Egy pontsor B tulajdonsággal Ez alapján kalibráljuk a modellt A további pontokról el tudjuk dönteni, hogy az A vagy B halmazba tartoznak-e Bioinformatika és genomanalízis az orvostudományban - 7 47

Megjegyzések A modell eredeti formájában csak két halmaz felismerésére alkalmas A biológiában szekvenciáink vannak és nem vektoraink A szekvenciát át kell alakítani vektorokká Meg kell találni a monomerek számszerűsíthető tulajdonságait A modell igen népszerű mostanában Bioinformatika és genomanalízis az orvostudományban - 7 48

SVM alapú szerkezet predikció C-F szerű módszer SVM alapon A modell felbontása: helix / nem helix Honnan veszünk számszerű adatokat? AAindex adatbázis Egyes aminósavakat nem elég vizsgálni X aminósav vektora mindig egy pontba mutat, akár helixben van, akár nem Figyelembe kell venni a környezetet is X aminósav vektora más környezetben más lesz Bioinformatika és genomanalízis az orvostudományban - 7 49

A lehetőségek Az AAindex kb. 500 skálát tartalmaz nem kell mind A környezet mekkora részét vegyük figyelembe? ablakméret Milyen súllyal vegyük figyelembe a környezetet? Milyen módon vegyük figyelembe? Nem reménytelen ügy, de jobb lesz-e így? Bioinformatika és genomanalízis az orvostudományban - 7 50

Mit nyerhetünk egy új modellel C-F szerkezet képző hajlam 1D Csúszóablakos összegzés A paraméterek optimalizásása kisérletes eredmények alapján SVM Vektorleírás ND Szekvenciális környezet figyelembe vétele Súlyozás A modell tanítása kisérletes eredmények alapján Bioinformatika és genomanalízis az orvostudományban - 7 51

Mit tanultunk ma? A statisztikus modellek: nagyon elterjedtek a bioinformatikában többnyire egyszerű elvekre épülnek tartalmaznak belső paramétereket ezeket kalibrálni kell Végő soron a kisérletes adatok minőségén múlik a modell jósága Bioinformatika és genomanalízis az orvostudományban - 7 52

Feladat 7. A nevedből képzett fehérje szekvencia C-F predikció alapján inkább helix vagy redő szerkezetű-e? Bioinformatika és genomanalízis az orvostudományban - 7 53