Gyakorlati bioinformatika Szekvenciaillesztés PhD kurzus 2. Szekvenciaillesztés Bagossi Péter Fajtái: - egyszer ill. többszörös illesztés - globális ill. lokális illesztés Alkalmazása: - adatbázisokban való keresés - szekvenciák összehasonlítása - szerkezet/funkció jóslása Algoritmusok: - Smith-Waterman - Pearson-Lipman - Needleman-Wunsch Programok: - FASTA - BLAST - ClustalW Pontozási rendszereket - PAM - BLOSUM - Overington Szekvenciaillesztés HIV proteinázok egyszer illesztése A hasonlóság egy megfigyelhet, mérhet mennyiség pl. pontszám, százalék), a homológia pedig az ebbl levont minségi következtetést jelenti, azaz hogy a két gén/fehérje közös evoluciós családfáról származik. Egy adott illesztéshez számolható egy adott pontszám, azonban fontos annak meghatározása, hogy ez a pontszám elég magas-e ahhoz, hogy bizonyítsa a homológiát. Az E érték annak az eseménynek a valószínségét mutatja, hogy az adatbázisban való keresés során véletlenül kapunk azonos nagyságú pontszámot, és nagysága függ az adott szekvencia hosszától, a hasonlóságtól és az adatbázis nagyságától. HIV- HIV-2 HIV- HIV-2 PQITLWQRPLVTIRIGGQLKEALLDTGADDTVLEEMNLPGKWKPKMIGGIGGFIKVRQY PQFSLWKRPVVTAHIEGQPVEVLLDTGADDSIVAGIELGNNYSPKIVGGIGGFINTKEY ** ** ** ** * ** * ******** * ** ******* * DQIPVEICGHKAIGTVLVGPTPVNIIGRNLLTQIGCTLNF KNVEIEVLNKKVRATIMTGDTPINIFGRNILTALGMSLNL * * * * ** ** *** ** * ** Retrovirális proteinázok többszörös illesztése Retrovirális proteinázok szerkezeti illesztése HIV- PQITLW..QRPLVTIRIG...GQLKEALLDTGADDTVLEE..MN...LPGKWK..PKMIGGIGGFIKVRQY HIV-2 PQFSLW..KRPVVTAHIE...GQPVEVLLDTGADDSIVAG..IE...LGNNYS..PKIVGGIGGFINTKEY SIV PQFSLW..RRPVVTAHIE...GQPVEVLLDTGADDSIVTG..IE...LGPHYT..PKIVGGIGGFINTKEY EIAV VTYNLE..KRPTTIVLIN...DTPLNVLLDTGADTSVLTTAHYNRLKYRGRKYQ..GTGIGGVGGNVETFST FIV -TTTTLE..KRPEILIFVN...GYPIKFLLDTGADITILNRRDFQ.VKN.SIENG..RQNMIGVGGGKRGTNY RSV LAMTMEHKDRPLVRVILTNTGSHPVKQRSVYITALLDSGADITIISEEDWP...TDWPVMEAANPQIHGIGGGIPMRKS ** *** *** * ** HIV-.DQIPVEICG...HKAIGTVLVG...PTPVNIIGRNLLTQIGCTLNF.. HIV-2.KNVEIEVLN...KKVRATIMTG...DTPINIFGRNILTALGMSLNL.. SIV.KNVEIEVLG...KRIKGTIMTG...DTPINIFGRNILTALGMSLNL.. EIAV.P.VTIKKKG...RHIKTRMLVA...DIPVTILGRDILQDLGAKLVL.. FIV.INVHLEIRDENYKT.QCIFGNVCVLEDNSLIQPLLGRDNMIKFNIRLVMAQ RSV RDMIELGVINRDGSLERPLLLFPAVA...MVRGSILGRDCLQGLGLRLTNL. **
Szekvenciaillesztés 2 3 Globális illesztés 2 3 2 3 BLAST Lokális illesztés 2 3 4 2 2 2 4 3 4 2 2
Clustal-W Clustal-X http://bips.u-strasbg.fr/fr/documentation/clustalx/ 3
FASTA formátum PIR formátum 4
Gombák D. klockeri N. crassa C. krusei sütéleszt Molekuláris evolúció Madarak pingvin Emlsök tyúk Kétéltek kecskebéka Rovarok moly tehén kutya ló nyúl légy kenguru ponty pekingi kacsa galamb tekns tonhal macskacápa angolna búza Hüllk Halak Növények bab szezám ricinus napraforgó A természetes mutációs változások szimulálhatóak két vagy több szekvencia olyan illesztésével, amelyben a változtatások számát amely egyik szekvenciát átalakítja a másikká) minimalizálták. A filogenetikai fa ennek a függvénynek a grafikus megjelenítése, amelyben a mutációk száma arányos az egyes ágak hosszúságával. gypsy-dm:0.4506, gypsy-dv:0.630) :0.2933, bfv:0.2969, efv:0.9698) :0.03334, ffv:0.24583) :0.03729, hfv:0.02698, sfvcpz:0.02902) :0.09724, sfv:0.09470, sfv3:0.09884) :0.02884) :0.4790) :0.6035, ty3:0.4323) :0.0274, ty-at:0.3865, PHYLIP PHYLogeny Inference Package, consists of 35 programs. protpars: protein parsimony dollop: Dollo and polymorphism parsimony dnapars: DNA sequence parsimony dolpenny: Dollo and polymorphism branch and bound parsimony dnapenny: DNA parsimony branch and bound dolmove: Dollo and polymorphism interactive parsimony dnamove: interactive DNA parsimony clique: 0/ characters compatibility method dnacomp: DNA compatibility factor: Character recoding program dnaml: DNA maximum likelihood drawgram: Rooted tree drawing program dnamlk: DNA maximum likelihood with clock drawtree: Unrooted tree drawing program proml: Protein sequence maximum likelihood consense: Consensus tree program promlk: Protein sequence maximum likelihood with clock treedist: Tree distance program dnainvar: DNA invariants retree: interactive tree rearrangement program dnadist: DNA distance protdist: Protein sequence distance restdist: Restriction sites and fragments distances restml: Restriction sites maximum likelihood seqboot: Bootstrapping/Jackknifing fitch: Fitch-Margoliash distance matrix method kitsch: Fitch-Margoliash distance matrix with clock neighbor: Neighbor-Joining and UPGMA method contml: Maximum likelihood continuous characters and gene frequencies contrast: Contrast method gendist: Genetic distance pars: Unordered multistate parsimony mix: Mixed method parsimony penny: Branch and bound mixed method parsimony move: Interactive mixed method parsimony PHYLIP drawgram: rooted tree drawing program drawtree: unrooted tree drawing program 5
2. Gyakorlati feladat Töltsd le az adatbázisból az általad korábban választott humán gén - egér, sertés és csirke homológját, majd: - illesszd össze a nukleotid szekvenciákat ClustalW) - a szekvenciákat fordítsd le fehérje szintre Expasy) - illesszd össze a fehérje szekvenciákat ClustalW) - a fehérje szekvenciákat fordítsd vissza DNS szintre Expasy) - hasonlítsd össze az eredeti és a visszafordított DNS szekvenciát ClustalW) - készitsd el a gén és a fehérje filogenetikai fáját és hasonlítsd össze ket ClustalW, Phylip) Az egybeszerkesztett dokumentumot email-ben küld el a peter@indi.biochem.dote.hu cimre! 6