Comparaison deux à deux

Hasonló dokumentumok
Induction: Circuit équivalent

Kétnyelvű általános szótár használható. A rendelkezésre álló idő 40 perc.

THESE. Pour obtenir le grade de DOCTEUR DE L UNIVERSITE DE TOURS. Discipline : Sciences de la vie Par. Fabrice BÉNÉDET. Soutenance le 23 juillet 1999

GÉPI HANG ÉRTÉSE. A hanganyag írott változata:

FÖLDRAJZ FRANCIA NYELVEN

MATEMATIKA FRANCIA NYELVEN

Présentation du fascicule 4: Topométrie

Evaluation du site bitrix24.hu

Caractérisation de promoteurs et expression du gène bla KPC-2

Festival de la Francophonie Concours «dis-moi dix mots à la folie!»

Probl me J1 - Le trident

Notion de probabilité. Ce que veut dire : «la probabilité d obtenir PILE en lançant une pièce non truquée est 1 2» ;

Les régions de la Hongrie. Budapest

KÖZGAZDASÁGI- MARKETING ALAPISMERETEK FRANCIA NYELVEN

Termékismertető. Wilo-Sevio AIR,

Analyse de Séquences Macromoléculaires 2 (ASM2)

CLUSTALW Multiple Sequence Alignment

SZITUÁCIÓK ÉS SZÓKINCS AKTIVÁTOR FEJEZET

ÍRÁSBELI ÉRETTSÉGI TÉMAKÖRÖK FRANCIA NYELVBŐL KÖZÉPSZINT

MATEMATIKA Francia nyelven MATHEMATIQUES

ASSOCIATION DES ETUDIANTS EN LANGUES, LETTRES ET CIVILISATIONS DE LYON III

MATEMATIKA FRANCIA NYELVEN

Jacques Roubaud: Versek

MATEMATIKA FRANCIA NYELVEN

Francia C nyelvi programkövetelmény. A javaslattevő alapadatai. A nyelvi képzésre vonatkozó adatok

GLQ3205 Géophysique appliquée 2. Méthodes EM: Introduction. Plan du cours

MATEMATIKA FRANCIA NYELVEN MATHEMATIQUES


Méthodes Électriques: Résistivité Électrique

Indoor wireless headphones

MATEMATIKA FRANCIA NYELVEN MATHEMATIQUES

MATEMATIKA FRANCIA NYELVEN

Probabilités et informatique I Aléatoire et machine

Devoir de vacances Février-Mars 2015

HOGYAN MONDHATJUK KI ISTENT? METODOLÓGIAI KÍSÉRLET

MATEMATIKA FRANCIA NYELVEN

SZABÓ JÓZSEF Espace Gard

FRANCIA NYELV ÉVFOLYAM Heti óraszám: 1 óra

MATEMATIKA FRANCIA NYELVEN

Méthodes Électriques: Tomographie électrique

FÖLDRAJZ FRANCIA NYELVEN KÖZÉPSZINTŰ ÍRÁSBELI VIZSGA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

MATEMATIKA FRANCIA NYELVEN

MATEMATIKA FRANCIA NYELVEN

10. évfolyam FRANCIA nyelv. Javítási-értékelési útmutató

Magyarországi Evangélikus Egyház Sztehlo Gábor Evangélikus Óvoda, Általános Iskola és Gimnázium

MATEMATIKA FRANCIA NYELVEN

A8-0176/54. A Bizottság által javasolt szöveg. Indokolás

KÖZGAZDASÁGI- MARKETING ALAPISMERETEK FRANCIA NYELVEN

Vizsgaszabályzat Francia nyelv 7-12.osztály

Supplemental Information. Investigation of Penicillin Binding Protein. (PBP)-like Peptide Cyclase and Hydrolase

FÖLDRAJZ FRANCIA NYELVEN

first base of sequence is at -32 with respect to the ATG of start site of At1g10010 start site of At1g10010

Exercice 1. Propriété : une fonction f dérivable sur un intervalle I est croissante si et seulement si f ' 0.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

A FRANCIA NYELVI OSZTÁLYOZÓ VIZSGA KÖVETELMÉNYEI

KÖZGAZDASÁGI ALAPISMERETEK (ELMÉLETI GAZDASÁGTAN) FRANCIA NYELVEN

Mesdames, Messieurs, chers parents, chers enfants,

Construction of a cube given with its centre and a sideline

Méthodes sismiques 2: Sismique réfraction

MATEMATIKA FRANCIA NYELVEN

Szia! / Jó napot! (attól függően, hogy magázod vagy tegezed az adott személyt)

Francia C számú

Supporting Information

Helyi tanterv a Francia nyelv, mint 2. idegen nyelv tantárgyhoz a évfolyam számára

TARTALOMJEGYZÉK (Table des matières)

Le français, c est facile! Szókincsvadász

FRANCIA NYELV HELYI TANTERVE

Agglomération de Chalon-sur-Saône

Osztályozó vizsga 2013/2014-es tanév első félév Hegedűs Klára. 9. sáv (heti 3 óra)

Exercices 30 / corrigé

KÖZGAZDASÁGI- MARKETING ALAPISMERETEK FRANCIA NYELVEN

Nyelvtani szerkezetek

Francia Nyelvtan Világosan. 10. lecke

A tanévi. Országos Középiskolai Tanulmányi Verseny. első (iskolai) fordulójának. javítási-értékelési útmutatója

Megbeszélés Abdelmalek Sellal úrral, az algériai kormány miniszterelnökével

MATEMATIKA FRANCIA NYELVEN MATHEMATIQUES

Supporting Information

MATEMATIKA FRANCIA NYELVEN


FRANCIA NYELV JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

ö ö ö ö ö ő ú ü ő ö ü ő ú ő ő ő ö ő ö ü ű ö ü ő ú ő ő ő ű ű ö ő ő ü

KÖZÉPSZINTŰ ÍRÁSBELI VIZSGA

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

A 2014/2015. tanévi Országos Középiskolai Tanulmányi Verseny első forduló FRANCIA NYELV I. KATEGÓRIA. Javítási-értékelési útmutató NYELVI TESZT

MATEMATIKA FRANCIA NYELVEN

Mr. Adam Smith Smith's Plastics 8 Crossfield Road Selly Oak Birmingham West Midlands B29 1WQ

Az AKCS-munkacsoport szeptember 16-i ülésén jóváhagyta ezt a szöveget.

MATEMATIKA FRANCIA NYELVEN MATHEMATIQUES

MATEMATIKA FRANCIA NYELVEN

Nan Wang, Qingming Dong, Jingjing Li, Rohit K. Jangra, Meiyun Fan, Allan R. Brasier, Stanley M. Lemon, Lawrence M. Pfeffer, Kui Li


Dr. habil. Simonffy Zsuzsanna Pécsi Tudományegyetem webhelyen lett közzétéve (

Bevándorlás Dokumentumok

Széchenyi István Egyetem

Balázs Jánosnál a konnektor terminus fel sem bukkan. Vele nagyjából egy időben viszont Nagy Ferenc pontos definíciót próbál adni:

A Gunnebo magatartási kódexe

MELLÉKLETEK. a következőhöz: A BIZOTTSÁG (EU).../... FELHATALMAZÁSON ALAPULÓ RENDELETE

KÖZÉPSZINTŰ ÍRÁSBELI VIZSGA



Átírás:

omparaison deux à deux JS Varré IUP GenPro jeanstephane.varre@lifl.fr http://www.lifl.fr/~varre JS Varré (IUP GenPro) omparaison deux à deux année 20072008 1 / 33

Exemple 1 heat shock protein beta 9 homme : MQRVGNFSN ESRVSRPS VGLERNRV MPVRLLRDS PQEDNDH RDGFQMKLD 60 HGFPEELVV QVDGQWLMV GQQQLDVRDP ERVSYRMSQK VHRKMLPSNL SPML 120 PSGQLWVRGQ VLLPEQ GPSPRLGSL GSKSNLR 159 souris : MQRVGSSFS GQREPGENRV SRPSVL ERNQVLPV RLLRDEVQGN GEQPSFQIK 60 VDQGFPED LVVRIDGQNL VGQRQHES NDPSRGRYRM EQSVHRQMQL PPLDPM 120 SLPSGHLW LRGQNKLPP PEQGQSQK PRRGGPKSSL QNESVKNP 168 JS Varré (IUP GenPro) omparaison deux à deux année 20072008 2 / 33

Exemple 1 heat shock protein beta 9 homme : MQRVGNFSN ESRVSRPS VGLERNRV MPVRLLRDS PQEDNDH RDGFQMKLD 60 HGFPEELVV QVDGQWLMV GQQQLDVRDP ERVSYRMSQK VHRKMLPSNL SPML 120 PSGQLWVRGQ VLLPEQ GPSPRLGSL GSKSNLR 159 souris : MQRVGSSFS GQREPGENRV SRPSVL ERNQVLPV RLLRDEVQGN GEQPSFQIK 60 VDQGFPED LVVRIDGQNL VGQRQHES NDPSRGRYRM EQSVHRQMQL PPLDPM 120 SLPSGHLW LRGQNKLPP PEQGQSQK PRRGGPKSSL QNESVKNP 168 JS Varré (IUP GenPro) omparaison deux à deux année 20072008 2 / 33

Exemple 1 heat shock protein beta 9 homme : MQRVGNFSN ESRVSRPS VGLERNRV MPVRLLRDS PQEDNDH RDGFQMKLD 60 HGFPEELVV QVDGQWLMV GQQQLDVRDP ERVSYRMSQK VHRKMLPSNL SPML 120 PSGQLWVRGQ VLLPEQ GPSPRLGSL GSKSNLR 159 souris : MQRVGSSFS GQREPGENRV SRPSVL ERNQVLPV RLLRDEVQGN GEQPSFQIK 60 VDQGFPED LVVRIDGQNL VGQRQHES NDPSRGRYRM EQSVHRQMQL PPLDPM 120 SLPSGHLW LRGQNKLPP PEQGQSQK PRRGGPKSSL QNESVKNP 168 human mouse 1 MQRVGNFSNESRVSRPSVGLERNRVMPVRLLRDSPQ ::. :. : :.. 1 MQRVGSSFSGQREPGENRVSRPSVLERNQVLPVRLLRDEV human 45 EDNDHRDGFQMKLDHGFPEELVVQVDGQWLMVGQQQLDVRDPERVS :....:.. : :. : ::.. :.:..... mouse 48 QGNGEQPSFQIKVDQGFPEDLVVRIDGQNLVGQRQHESNDPSRGR human 95 YRMSQKVHRKMLPSNLSPMLPSGQLWVRGQVLLPEQG.. :...... :...... mouse 98 YRMEQSVHRQMQLPPLDPMSLPSGHLWLRGQNKLPPPEQGQ human 144 SPRLGSLGSKSNLR 159.. :... mouse 148 SQKPRRGGPKSSLQNESVKNP 168 similarité globale, alignement global JS Varré (IUP GenPro) omparaison deux à deux année 20072008 2 / 33

Exemple 2 peptidyl trn hydrolase E008779.1 12901 GGGGGGGGGGGG 13201 GGGGGGGGGGGGGGGG............. e.coli 1 gtgacgattaaattgattgtcggcctggcgaacccc 287 tggatctgcctcctggcgtcgccaaatttaaattgggcggtggccatggt E008779.1 12951 GGGGGGGGGGGGGGGGGG 13251 GGGGGGGGGGG................. e.coli 37 ggtgctgaatacgccgcaacgcgacataatgctggtgcctggttcgttga 337 ggtcacaatggactgaaagacatcatcagtaaattgggtaataaccctaa E008779.1 13001 GGGGGGGGGGGGGGGG 13301 GGGGGGGGGGG............. e.coli 87 cttactggcagagcgtttgcgcgctccgctgcgcgaagaggctaaattct 387 ctttcaccgtttacgcatcggaatcggtcatccgggcgataaaaataaag E008779.1 13051 GGGGGGGGGGGGGGG 13351 GGGGGGGGGG...................... e.coli 137 ttggttatacttcgcgagtcactcttggaggcgaagatgtccgcctgtta 437 ttgtcggttttgtgttaggcaaaccgcctgttagtgaacagaagttaatt E008779.1 13101 GGGGGGGGGGGGG 13401 GGGGGGGGGGGGGGGGG................... e.coli 187 gtcccgactacatttatgaatctcagcggcaaagccgttgcggcgatggc 487 gatgaagccattgacgaagcggcgcgttgtactgaaatgtggtttacaga E008779.1 13151 GGGGGGGGGGGG 13451 GGGGGGGGGGGG.................. e.coli 237 cagttttttccgcattaatccggacgaaattctggtggcccacgacgaac 537 tggcttgaccaaagcaacgaaccgattgcacgcctttaaagcgcaataa similarité globale sur une partie, alignement semiglobal JS Varré (IUP GenPro) omparaison deux à deux année 20072008 3 / 33

Exemple 3 : domaine conservé 110 120 HEN1_H PDKKLSKIEILRLIYISY :..::.:.::..:. :... HES5_M PNSKLEKDILEMVSYLKH 60 70 simlarité sur une souspartie, alignement local JS Varré (IUP GenPro) omparaison deux à deux année 20072008 4 / 33

Pourquoi comparer des séquences? quelques problèmes rassembler un ensemble de fragments d DN séquencés (fragment assembly) recherche d homologie (entre gènes) trouver des régions similaires (domaines protéiques) identifier les positions introns/exons (compraison d un gène à son RNm) JS Varré (IUP GenPro) omparaison deux à deux année 20072008 5 / 33

Dotplot un outil graphique pour la comparaison principe mettre les séquences le long des axes d une matrice mettre un point là où il y a un match une diagonale (une suite de points en diagonale) une région similaire JS Varré (IUP GenPro) omparaison deux à deux année 20072008 6 / 33

Dotplot exemple match (identité) mismatch G G G G G G JS Varré (IUP GenPro) omparaison deux à deux année 20072008 7 / 33

Dotplot problème de bruit JS Varré (IUP GenPro) omparaison deux à deux année 20072008 8 / 33

Dotplot Filtrage blocs d identité (FS) idée : ne représenter que des fenêtres exactes et de longueur fixe exemple de programme : dottup très sélectif et peu sensible JS Varré (IUP GenPro) omparaison deux à deux année 20072008 9 / 33

Dotplot Filtrage blocs d identité (FS) idée : ne représenter que des fenêtres exactes et de longueur fixe exemple de programme : dottup très sélectif et peu sensible blocs de similarité avec un seuil de score (Maizel & Lenk 1981) idée : ne représenter que des fenêtres possédant un score supérieur à un seuil exemple de programme : dotmatcher bonne sélectivité et bonne sensibilité JS Varré (IUP GenPro) omparaison deux à deux année 20072008 9 / 33

Dotplot Filtrage blocs d identité (FS) idée : ne représenter que des fenêtres exactes et de longueur fixe exemple de programme : dottup très sélectif et peu sensible blocs de similarité avec un seuil de score (Maizel & Lenk 1981) idée : ne représenter que des fenêtres possédant un score supérieur à un seuil exemple de programme : dotmatcher bonne sélectivité et bonne sensibilité filtrer les blocs pour éliminer ceux qui se chevauchent idée : observez la ressemblance globale exemple de programme : dotpath JS Varré (IUP GenPro) omparaison deux à deux année 20072008 9 / 33

Dotplot Filtrage blocs d identité (FS) idée : ne représenter que des fenêtres exactes et de longueur fixe exemple de programme : dottup très sélectif et peu sensible blocs de similarité avec un seuil de score (Maizel & Lenk 1981) idée : ne représenter que des fenêtres possédant un score supérieur à un seuil exemple de programme : dotmatcher bonne sélectivité et bonne sensibilité filtrer les blocs pour éliminer ceux qui se chevauchent idée : observez la ressemblance globale exemple de programme : dotpath accorder un poids physicochimique aux matchs (Staden 1982) variation de l intensité, ne pas se contenter de et prise en compte des propriétés des acides aminés JS Varré (IUP GenPro) omparaison deux à deux année 20072008 9 / 33

Dotplot : taille des mots et seuil taille 10 et 20, seuil de 1% à 100% 1 match 50% 80% 100% JS Varré (IUP GenPro) omparaison deux à deux année 20072008 10 / 33

Dotplot : dotpath dotpath finds all matches of size wordsize or greater between two sequences. It then reduces the matches found to the minimal set of long matches that do not overlap. his is a way of finding the (nearly) optimal path aligning two sequences. It is not the true optimal path as produced by the algorithms used in water or needle, but for very closely related sequences it will produce the same result and will work well with very long sequences JS Varré (IUP GenPro) omparaison deux à deux année 20072008 11 / 33

Dotplot : repérer des similarités locales horizontalement : séquence nucléaire du gène de l actine de muscle de Pisaster ochraceus verticalement : cdn de ce même gène JS Varré (IUP GenPro) omparaison deux à deux année 20072008 12 / 33

Dotplot : repérer des similarités locales horizontalement : séquence nucléaire du gène de l actine de muscle de Pisaster ochraceus verticalement : cdn de ce même gène JS Varré (IUP GenPro) omparaison deux à deux année 20072008 12 / 33

Dotplot : repérer des répétitions protéine ribosomale S1 de Escherichia oli sur ellemême JS Varré (IUP GenPro) omparaison deux à deux année 20072008 13 / 33

Dotplot : repérer des répétitions protéine ribosomale S1 de Escherichia oli sur ellemême JS Varré (IUP GenPro) omparaison deux à deux année 20072008 13 / 33

Dotplot : repérer des répétitions protéine ribosomale S1 de Escherichia oli sur ellemême JS Varré (IUP GenPro) omparaison deux à deux année 20072008 13 / 33

Dotplot : avantages et inconvénients les plus: simple très informatif les moins: interprétation pas de mesure objective identification pas de méthode de détection automatique besoin d une mesure quantitative de similarité JS Varré (IUP GenPro) omparaison deux à deux année 20072008 14 / 33

lignement données: une paire de séquences (DN / protéine) une schéma de score : comment compter ce qui se ressemble? JS Varré (IUP GenPro) omparaison deux à deux année 20072008 15 / 33

lignement données: une paire de séquences (DN / protéine) une schéma de score : comment compter ce qui se ressemble? but: déterminer le degré de similarité (meilleur score) montrer la similarité (meilleur alignement) JS Varré (IUP GenPro) omparaison deux à deux année 20072008 15 / 33

lignement données: une paire de séquences (DN / protéine) une schéma de score : comment compter ce qui se ressemble? but: déterminer le degré de similarité (meilleur score) montrer la similarité (meilleur alignement) décrit la ressemblance grâce à 3 opérations (mutations ponctuelles) insertion délétion identité/substitution JS Varré (IUP GenPro) omparaison deux à deux année 20072008 15 / 33

lignement données: une paire de séquences (DN / protéine) une schéma de score : comment compter ce qui se ressemble? but: déterminer le degré de similarité (meilleur score) montrer la similarité (meilleur alignement) décrit la ressemblance grâce à 3 opérations (mutations ponctuelles) insertion délétion identité/substitution mesure la ressemblance en donnant un poids à chacune des opérations JS Varré (IUP GenPro) omparaison deux à deux année 20072008 15 / 33

lignement données: une paire de séquences (DN / protéine) une schéma de score : comment compter ce qui se ressemble? but: déterminer le degré de similarité (meilleur score) montrer la similarité (meilleur alignement) décrit la ressemblance grâce à 3 opérations (mutations ponctuelles) insertion délétion identité/substitution mesure la ressemblance en donnant un poids à chacune des opérations 3 types d alignement global match sur les séquences complètes local match sur des sousséquences semiglobal chevauchements JS Varré (IUP GenPro) omparaison deux à deux année 20072008 15 / 33

omposantes d un schéma de scores score (ou poids) pour une identité/substitution : matrice s de similarité s(a, b) = score d alignement des caractères a et b 2 0 0 0 0 2 0 0 0 0 2 0 0 0 0 2 JS Varré (IUP GenPro) omparaison deux à deux année 20072008 16 / 33

omposantes d un schéma de scores score (ou poids) pour une identité/substitution : matrice s de similarité s(a, b) = score d alignement des caractères a et b indel (insertion/délétion) : score unitaire : 2 par exemple 2 0 0 0 0 2 0 0 0 0 2 0 0 0 0 2 le score de l alignement est la somme des scores des événements élémentaires JS Varré (IUP GenPro) omparaison deux à deux année 20072008 16 / 33

omposantes d un schéma de scores score (ou poids) pour une identité/substitution : matrice s de similarité s(a, b) = score d alignement des caractères a et b indel (insertion/délétion) : score unitaire : 2 par exemple 2 0 0 0 0 2 0 0 0 0 2 0 0 0 0 2 le score de l alignement est la somme des scores des événements élémentaires exemple : G G G G 2 2 2 2 2 2 2 0 2 2 0 = 10 JS Varré (IUP GenPro) omparaison deux à deux année 20072008 16 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et une suite de couples de lettres en suivant les fleches en donne un alignement JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et une suite de couples de lettres en suivant les fleches en donne un alignement JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et une suite de couples de lettres en suivant les fleches en donne un alignement JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

omment calculer le meilleur alignement? prenons 2 séquences de longueur n toutes les deux alignement de longueur maximale 2n exemple avec et une suite de couples de lettres en suivant les fleches en donne un alignement JS Varré (IUP GenPro) omparaison deux à deux année 20072008 17 / 33

Difficulté du problème nombre max d alignements (séq. de lg n) ( 2n n ) = (2n)! (n!) 2 22n 2πn pour deux séquences de longueur 100 : 2.10 57 alignements grâce à la représentation en tableau : complexité en temps et en espace O(n 2 ) (proportionnel au produit de la longueur des séquences) pour deux séquences de longueur 100 : 10000 opérations JS Varré (IUP GenPro) omparaison deux à deux année 20072008 18 / 33

lignement local Smith & Waterman, 1981 évaluation d une ressemblance locale entre deux séquences recherche de la région de plus forte similarité alignement global G G G G G alignement local G G G G G G G les séquences présentent une similarité que l alignement global ne révèle pas JS Varré (IUP GenPro) omparaison deux à deux année 20072008 19 / 33

lignement semiglobal GGGGG GGGG GGGGG GGGG l alignement global préfère le 1er alignement JS Varré (IUP GenPro) omparaison deux à deux année 20072008 20 / 33

lignement semiglobal Principe ne pénalise pas les gaps aux extrémités sinon, similaire à l alignement local permet de détecter des similarités de ce type: JS Varré (IUP GenPro) omparaison deux à deux année 20072008 21 / 33

Pénalité associée aux gaps fonctions de gaps différentes algorithmes différents la plus simple fonction linéaire : g l fonctions plus réalistes : fonctions affines : o + e l o : pénalité d ouverture de gap e : pénalité d extension de gap fonctions logarithmiques JS Varré (IUP GenPro) omparaison deux à deux année 20072008 22 / 33

Différents alignements possibles GOP: Gap Open Penalty GEP: Gap Extension Penalty GOP 0 1 1 1 GEP 0 0 0.1 1 l1 GGggaG gggcg (7 matches, 1 gap of 1 bp, 1 gap of 2 bp) l2 l3 l4 GGGgaaG gggcg (7 matches, 1 gap of 1 bp, 1 gap of 2 bp) GGggaG gggcg (7 matches, 1 gap of 3 bp) GGgGaaG gggcg (7 matches, 3 gaps of 1 bp) JS Varré (IUP GenPro) omparaison deux à deux année 20072008 23 / 33

omment bien choisir? peu de connaissance a priori spécificité aux données valeurs typiques pour une fonction de gap affine 0.5 < o < 5.0 0.05 < e < 1.0 poids naturels (horne, Kishino & Felsenstein, 1991) estimation de la vraisemblance que les deux séquences proviennent du même ancêtre JS Varré (IUP GenPro) omparaison deux à deux année 20072008 24 / 33

Evaluer la qualité d un alignement? G G G G G G G G G G G G G G G G G G G G G G G JS Varré (IUP GenPro) omparaison deux à deux année 20072008 25 / 33

Quelques principes informels robustesse aux paramètres choisis pour le calcul du score On peut douter d un alignement si de faibles changements (environ 10%) dans l établissement des pénalités d insertiondélétion modifient sensiblement cet alignement. fréquence des indels On peut douter d un alignement s il nécessite plus d une insertion en moyenne pour 20 acides aminés. deux séquences nucléiques d au moins 100 bases et identiques à 50% n ont pas forcément de relation biologique. des séquences protéiques de 100 résidus ou plus, possèdant au moins 25% d identité entre elles ont certainement un ancêtre commun (Doolittle, 1990 PDB). JS Varré (IUP GenPro) omparaison deux à deux année 20072008 26 / 33

Le pourcentage d identité % d identite 100 80 60 40 20 0 0 dépend de la composition en bases, ou acides aminés dépend de la longueur des séquences % id vs. longueur 100 200 300 400 Longueur du meilleur alignement local 500 % d identite 100 90 80 70 60 50 40 30 20 10 0 Une fausse bonne idée % id vs. score 20 40 60 80 Score du meilleur alignement local 100 JS Varré (IUP GenPro) omparaison deux à deux année 20072008 27 / 33

pproche empirique test de la robustesse du score S : score de l alignement entre U et V méthode 1. Génération de 100 (200, 1000,...) permutations de V (même longueur, même composition) 2. lignements avec U 3. Distribution des scores d alignement Où se situe S dans cette distribution? JS Varré (IUP GenPro) omparaison deux à deux année 20072008 28 / 33

Exemple lignement local pour GGG et GGG G G G G G score du meilleur alignement local : 16 score sw 0 0 : 4 138 :================================== 8 166 :========================================= 12 146 :==================================== 16 33 :========= 20 7 :== 24 8 :== 28 2 : 32 0 : 36 0 : 40 0 : 44 0 : 500 séquences aléatoires 48 0 : JS Varré (IUP GenPro) omparaison deux à deux année 20072008 29 / 33

Exemple Human alpha haemoglobin (141 aa) vs. Human myoglobin (153 aa) VLSPDKNVKWGKVGHGEYGELERMFLSFPKYFPHFDLSHGSQVKGHGKKVDLNVHVDDMPNLSL ::.. :..::::.:...:.:.: :.:. :.:. :.:.:...:...: ::.:.::.........: GLSDGEWQLVLNVWGKVEDIPGHGQEVLIRLFKGHPELEKFDKFKHLKSEDEMKSEDLKKHGVLLGGILKKKGHHEEIKPL SDLHHKLRVDPVNFKLLSHLLVLHLPEFPVHSLDKFLSVSVLSKYR.. :: :.....:.:...:... :..:...: :.....:.:. QSHKHKIPVKYLEFISEIIQVLQSKHPGDFGDQGMNKLELFRKDMSNYKELGFQG hicken lysozyme (129 aa) vs. Bovine ribonuclease (124 aa) KVFGRELMKRHGLDNYRGYSLGNWVKFESNFNQNRNDGSDYGILQINSRWWNDGRPGSRNLNIPSLLSSD :. ::..:..:..... :...:. :............. :........ :..:...: KEKFERQHMDSSSSSSNYNQMMKSRNLKDRKPVNFVHESLDVQVSQKNVKNGQNYQSYSMSID ISVNKKIVSDGDGMNWVWRNRKGDVQWIRGRL.....:.....: :.:..... REGSSKYPNYKQNKHIIVEGNPYVPVHFDSV JS Varré (IUP GenPro) omparaison deux à deux année 20072008 30 / 33

PRSS sur les globin < 20 0 0: 22 0 0: one = represents 1 library sequences 24 0 0: 26 0 0: 28 0 0: 30 1 1:* 32 3 3:==* 34 9 7:======*== 36 25 15:==============*========== 38 37 25:========================*============ 40 29 34:============================= * 42 33 42:================================= * 44 51 46:=============================================*===== 46 41 47:========================================= * 48 32 45:================================ * 50 51 41:========================================*========== 52 31 36:=============================== * 54 24 31:======================== * 56 30 26:=========================*==== 58 18 21:================== * 60 24 17:================*======= 62 19 14:=============*===== 64 4 11:==== * 66 10 9:========*= 68 5 7:===== * 70 4 5:====* 72 7 4:===*=== 74 3 3:==* 76 2 3:==* 78 3 2:=*= 80 1 2:=* 82 0 1:* 84 1 1:* 86 0 1:* 88 1 1:* 90 0 0: unshuffled sw score: 177 92 1 0:= For 500 sequences, a score >= 177 is expected 3.096e06 times 94 0 0: JS Varré (IUP GenPro) omparaison deux à deux année 20072008 31 / 33

PRSS poulet/bovin < 20 0 0: 22 0 0: one = represents 1 library sequences 24 0 0: 26 0 0: 28 0 0: 30 0 1:* 32 3 3:==* 34 9 7:======*== 36 17 15:==============*== 38 24 25:========================* 40 35 34:=================================*= 42 44 42:=========================================*== 44 57 46:=============================================*=========== 46 50 47:==============================================*=== 48 44 45:============================================* 50 45 41:========================================*==== 52 25 36:========================= * 54 28 31:============================ * 56 20 26:==================== * 58 24 21:====================*=== 60 17 17:================* 62 10 14:========== * 64 8 11:======== * 66 10 9:========*= 68 3 7:=== * 70 6 5:====*= 72 6 4:===*== 74 2 3:==* 76 2 3:==* 78 2 2:=* 80 5 2:=*=== 82 1 1:* 84 0 1:* 86 2 1:*= 88 0 1:* 90 0 0: 92 0 0: unshuffled sw score: 43 94 1 0:= For 500 sequences, a score >= 43 is expected 267.1 times 96 0 0: JS Varré (IUP GenPro) omparaison deux à deux année 20072008 32 / 33

pproche statistique Definition (Evalue) Nombre de fois attendu de trouver un alignement de score supérieur à S par hasard quand on aligne une séquence de longueur n avec une séquence de longueur m. décrit le bruit aléatoire qui existe lorsque on aligne des séquences croit de manière proportionnelle en fonction de n et de m décroit de manière exponentielle en fonction du score S plus la Evalue est proche de 0, plus la similarité est significative JS Varré (IUP GenPro) omparaison deux à deux année 20072008 33 / 33