Analyse de Séquences Macromoléculaires 2 (ASM2) Janvier 2009 Durée 2h - Documents interdits Les réponses peuvent êtres fournies en français ou en anglais. /2 /2,5 /2,5 /3 Première partie (10 points) 1) Un alignement multiple de serine/thréonine kinases a été construit par CLUSTALX. Résumez les principales étapes de l algorithme. 2) Une région de cet alignement est présenté page 2. Précisez les sous-groupes que l on peut distinguer dans cet alignement. Justifiez votre choix et indiquez 2 résidus discriminants pour chacun des groupes. 3) Proposez un motif caractéristique de la famille de protéines présentée. Quelle étape supplémentaire est nécessaire pour s assurer de la qualité d un motif? 4) Si l on désire rechercher tous les membres (même éloignés) de cette famille de protéines, est-il préférable d utiliser un motif ou un profil? Justifiez et détaillez votre réponse. Indiquez le nom d un programme permettant d effectuer la recherche par profil. Deuxième partie (10 points) Un alignement multiple a été construit à partir de séquences de protéines bactériennes impliquées dans la résistance à la méticilline. La région N-terminale de l alignement est présentée page 3. /2 /1,5 /1,5 /1,5 /1,5 /2 1. Selon vous, existe-t-il des erreurs de séquences dans cet alignement? Si oui, précisez lesquelles et justifiez votre réponse? 2. Deux arbres ont été construits à partir de l alignement (page 5). Etes-vous d accord avec le positionnement de la racine dans ces arbres (justifiez votre réponse)? 3. Quelles sont les principales différences entre les 2 arbres? Comment les expliquez-vous? 4. Pourquoi est-on parfois amené à utiliser des méthodes de correction de distances en phylogénie? 5. Pourquoi la méthode UPGMA est-elle très peu utilisée en phylogénie? 6. A quoi servent les valeurs de bootstrap en phylogénie? Comment sont-elles calculées? 1
seq1 : seq2 : seq3 : seq4 : seq5 : seq6 : seq7 : seq8 : seq9 : seq10 : seq11 : seq12 : seq13 : seq14 : seq15 : seq16 : seq17 : seq18 : 10 20 30 40 50 60 70 80 90 YEPKEILGRGVSSVVRRCIHK-----------------PTSQEYAVKVIDVTGGGSFSPEEVRELREATLKEVDILRKVSG--HPNIIQL YEPKEILGRGVSSVVRRCIHK-----------------PTCKEYAVKIIDVTGGGSFSAEEVQELREATLKEVDILRKVSG--HPNIIQL YDPKDIIGRGVSSVVRRCVHR-----------------ATGDEFAVKIMEVS-AERLSLEQLEEVRDATRREMHILRQVAG--HPHIITL YDPKDVIGRGVSSVVRRCVHR-----------------ATGHEFAVKIMEVT-AERLSPEQLEEVREATRRETHILRQVAG--HPHIITL YEPKEILGRGISSTVRRCIEK-----------------ETGKEFAAKIIDLGATTESGETNPYHMLEATRQEISILRQVMG--HPYIIDL YEPKEILGVGVSSTVRRCINR-----------------NTRQEYAVKIIDIIGNDDILAE---DLVNVTHNEINILRRVSS--RAHIIEL FERIKTLGTGSFGRVMLVKHK-----------------ETGNHFAMKILDKQKVVKL------KQIEHTLNEKRILQAVNF---PFLVKL YITRAVLGNGSFGTVMLVREK-----------------SGKNYYAAKMMSKEDLVRL------KQVAHVHNEKHVLNAARF---PFLIYL FVLLKVLGKGNFGKVILSKSK-----------------NTDRLCAIKVLKKDNIIQN------HDIESARAEKKVFLLATKTKHPFLTNL FDLLKVIGKGSFGKVMQVRKK-----------------DTQKIYALKALRKAYIVSK------CEVTHTLAERTVLARVDC---PFIVPL FELLKVLGQGSFGKVFLVKKISGS--------------DARQLYAMKVLKKATLKVR------DRVR-TKMERDILVEVNH---PFIVKL FSVHRIIGRGGFGEVYGCRKA-----------------DTGKMYAMKCLDKKRIKMK------QGETLALNERIMLSLVSTGDCPFIVCM YKVGRRIGEGSFGVIFEGTNLLN-----------------NQQVAIKFEPRR--SDA------PQLRDEYRTYKLLAGCTG--IPNVYYF YAVGPKIGEGSFGVIFEGENILHSCQAQTGSKRDSSIIMANEPVAIKFEPRH--SDA------PQLRDEFRAYRILNGCVG--IPHAYYF YRLGRKIGSGSFGDIYLGANIAS-----------------GEEVAIKLECVK--TKH------PQLHIESKFYKMMQGGVG--IPSIKWC FRIGRKIGSGSFGDIYHGTNLIS-----------------GEEVAIKLESIR--SRH------PQLDYESRVYRYLSGGVG--IPFIRWF YRVIRKIGSGSFGDIYLGMSIQS-----------------GEEVAIKMESAH--ARH------PQLLYEAKLYRILSGGVG--FPRIRHH YKLVREIGFGSFGHVYLAIDLTN-----------------HEQVAVKLESEN--TRQ------PRLLHEKELYNFLQGGVG--IPQIRWY seq1 : seq2 : seq3 : seq4 : seq5 : seq6 : seq7 : seq8 : seq9 : seq10 : seq11 : seq12 : seq13 : seq14 : seq15 : seq16 : seq17 : seq18 : 100 110 120 130 140 150 160 170 180 KDTYETNTFFFLVFDLMKR--GELFDYLTEKVTLSEKETRKIMRALLEVICTLHKLNIVHRDLKPENILLDDN----------------- KDTYETNTFFFLVFDLMKK--GELFDYLTEKVTLSEKETRKIMRALLEVICALHKLNIVHRDLKPENILLDDD----------------- IDSYESSSFMFLVFDLMRK--GELFDYLTEKVALSEKETRSIMRSLLEAVSFLHANNIVHRDLKPENILLDDN----------------- IDSYESSSFMFLVFDLMRK--GELFDYLTEKVALSEKETRSIMRSLLEAVSFLHANNIVHRDLKPENILLDDN----------------- QDVFESDAFVFLVFELCPK--GELFDYLTSVVTLSEKKTRTIMRQIFEGVEYIHAKSIVHRDLKPENILLDEN----------------- VDVFETSTFFFLIFEILRK--GELFDYLTEVVKFSERQTRTTMRDLLEAVLFLHDNKIIHRDLKPENILLNDD----------------- EYSFKDNSNLYMVMEYVPG--GEMFSHLRRIGRFSEPHARFYAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQ----------------- VDSTKCFDYLYLILPLVNG--GELESYHRRVRKFNEKHARFYAAQVALALEYMHKMHLMYRDLKPENILLDQR----------------- YCSFQTENRIYFAMEFIGG--GDLMWHVQNQ-RLSVRRAKFYAAEVLLALKYFHDNGVIYRDLKLENILLTPE----------------- KFSFQSPEKLYLVLAFING--GELFYHLQHEGRFSLARSRFYIAELLCALDSLHKLDVIYRDLKPENILLDYQ----------------- HYAFQTEGKLYLILDFLRG--GDLFTRLSKEVMFTEEDVKFYLAELALALDHLHSLGIIYRDLKPENILLDEE----------------- SYAFHTPDKLSFILDLMNG--GDLHYHLSQHGVFSEADMRFYAAEIILGLEHMHNRFVVYRDLKPANILLDEH----------------- G---QEGLHNVLVIDLLGPSLEDLLDLCG--RKFSVKTVAMAAKQMLARVQSIHEKSLVYRDIKPDNFLIGR----------------PN G---QEGMHNILIIDLLGPSLEDLFEWCG--RKFSVKTTCMVAKQMIDRVRAIHDHDLIYRDIKPDNFLISQYQRISPEGKVIKSCASSS G---AEGDYNVMVMELLGPSLEDLFNFCS--RKFSLKTVLLLADQMISRIEYIHSKNFIHRDVKPDNFLMGL------------------ G---REGEYNAMVIDLLGPSLEDLFNYCH--RRFSFKTVIMLALQMFCRIQYIHGRSFIHRDIKPDNFLMGV------------------ G---KEKNFNTLVMDLLGPSLEDLFNFCT--RHFTIKTVLMLVDQMIGRLEYIHLKCFIHRDIKPDNFLMGI------------------ G---QETDYNVLVMDLLGPSLEDLFNFCS--RRFSMKTVLMLADQMISRIEYVHSRNLIHRDIKPDNFLMGT------------------ seq1 : seq2 : seq3 : seq4 : seq5 : seq6 : seq7 : seq8 : seq9 : seq10 : seq11 : seq12 : seq13 : seq14 : seq15 : seq16 : seq17 : seq18 : 190 200 210 220 230 240 250 260 ----MNIKLTDFGFSCQLEPGE--------RLREVCGTPSYLAPEIIECSMNEDHPGYGKEVDMWSTGVIMYTLLAGSPPFWH ----MNIKLTDFGFSCQLDPGE--------KLREVCGTPSYLAPEIIECSMNDNHPGYGKEVDMWSTGVIMYTLLAGSPPFWH ----MQIRLSDFGFSCHLEAGE--------KLRELCGTPGYLAPEILKCSMDETHPGYGKEVDLWACGVILFTLLAGSPPFWH ----MQIRLSDFGFSCHLEPGE--------KLRELCGTPGYLAPEILKCSMDETHPGYGKEVDLWACGVILFTLLAGSPPFWH ----HNVKITDFGFAKQLQEGE--------KLTNLCGTPGYLAPETLKCNMFEGSPGYSQEVDIWACGVIMFTLLVGCPPFWH ----LKLHLSDFGFAIELDDGE--------YLKELCGTPGYMSPEMLKCTVDPRHPGYRHEVDMWACGVVMYTLLAGVPPFWH ----GYIQVTDFGFAKR--VKG--------RTWTLCGTPEYLAPEIILS------KGYNKAVDWWALGVLIYEMAAGYPPFFA ----GYIKITDFGETKR--VDG--------RTSTLCGTPEYLAPEIVQL------RPYNKSVDWWAFGILVYEFVAGRSPFAI ----GHIKIADYGLCKDEMWYGN-------RTSTFCGTPEFMAPEILKE------QEYTKAVDWWAFGVLLYQMLLCQSPFSG ----GHIALCDFGLCKLNMKDND-------KTDTFCGTPEYLAPEILLG------QGYTKTVDWWTLGILLYEMMTGLPPYYD ----GHIKLTDFGLSKESIDHEK-------KAYSFCGTVEYMAPEVVNR------RGHTQSADWWSFGVLMFEMLTGTLPFQG ----GHVRISDLGLACD--FSKK-------KPHASVGTHGYMAPEVLQKG-----VAYDSSADWFSLGCMLFKLLRGHSPFRQ SKNANMIYVVDFGMVKFYRDPVTKQHIPYREKKNLSGTARYMSINTHLG------REQSRRDDLEALGHVFMYFLRGSLPWQG NNDPNLIYMVDFGMAKQYRDPRTKQHIPYRERKSLSGTARYMSINTHFG------REQSRRDDLESLGHVFFYFLRGSLPWQG GKKGNLVYIIDFGLAKKYRDARTHQHIPYRENKNLTGTARYASINTHLG------IEQSRRDDLESLGYVLMYFNLGSLPWQG GRRGSTVHVIDFGLSKKYRDFNTHRHIPYRENKSLTGTARYASVNTHLG------IEQSRRDDLESLGYVLIYFCKGSLPWQG GRHCNKLFLIDFGLAKKFRDPHTRHHIVYREDKNLTGTARYASINAHLG------IEQSRRDDMESLGYVMMYFNRGVLPWQG GPQWKKLFLVDFGLAKKYRDNRTGQHIPHRSGKSFIGTPFCASISAHLG------IEQSRRDDMESIGYVLMYFNRGSLPWQG Conservation : 100 % identity 80 % 60 %
3
Arbre 2
Architectures et Fonctions du Vivant Année 2009/2010 Session : décembre UE Génomique comparative et Modélisation des systèmes biologiques Durée : 2h Documents interdits Responsable : O. Lecompte L usage des téléphones portables est interdit pendant toute la durée des épreuves, y compris lors de la préparation des épreuves orales. Les appareils doivent impérativement être éteints pendant les épreuves. Ils ne peuvent donc pas être utilisés comme chronomètre ou calculatrice. Aucune calculatrice n est autorisée pendant toute la durée de l épreuve. Première partie (3 points) 1) Quels sont les grandes étapes de l alignement multiple progressif? 1.5 pts 2) Dans quel(s) cas, DbClustal est-il beaucoup plus performant que ClustalX? Justifiez votre réponse. 1.5 pts Deuxième partie (6 points) 1) Quel est l intérêt de psi-blast par rapport à blastp? Même question par rapport à une recherche par motif? 2.5 pts 2) Une protéine de fonction inconnue (650 aa) est soumise à une recherche psi-blast. 3.5 pts La représentation schématique de la 1 ère itération vous est présentée ci-dessous ainsi que deux des alignements obtenus (cf page suivante). a) Que vous indique la représentation schématique? b) Selon vous, comment vont évoluer les scores respectifs des protéines MTMR2_DANRE et TAF3_HUMAN à la 2ème itération? Justifiez votre réponse.
>sp A0JMK5.2 MTMR2_DANRE RecName: Full=Myotubularin-related protein 2 Length=620 Score = 35.8 bits (81), Expect = 0.80, Method: Compositional matrix adjust. Identities = 20/65 (30%), Positives = 34/65 (52%), Gaps = 6/65 (9%) Query 324 SGLLVHCISGWDRTPLFISLLRLSLWADGLIHTSLKPTEILYLTVAYDWFLFGHMLVDRL 383 + ++VHC GWDRT SL + L + + +++ +IL V +W FGH R+ Sbjct 387 TSVVVHCSDGWDRTAQLTSLALIMLDSH---YRTIRGFQIL---VEKEWLSFGHRFQQRV 440 Query 384 SKGEE 388 G++ Sbjct 441 GHGDK 445 >sp Q5VWG9.1 TAF3_HUMAN RecName: Full=Transcription initiation factor TFIID subunit 3; Length=929 Score = 33.1 bits (74), Expect = 6.1, Method: Compositional matrix adjust. Identities = 21/69 (30%), Positives = 35/69 (50%), Gaps = 11/69 (15%) Query 513 SSSSSSNHSDNFFRMGSSPLEVPKPRSVDHPLPGSSLSTDYGSWQMVTGCGSIQERAVLH 572 ++ +S ++NF + GS+PL PL G + S+D SW M + +A L Sbjct 432 TTPKASTSANNFTKSGSTPL----------PLSGGTSSSD-NSWTMDASIDEVVRKAKLG 480 Query 573 TDSSLPFSF 581 T S++P +F Sbjct 481 TPSNMPPNF 489 Troisième partie (11 points) Deux arbres phylogénétiques ont été construits à partir d un alignement multiple global. Figure 1: Neighbor-joining, observed divergence, global gap removal Figure 2 : Neighbor-Joining, observed divergence, pairwise gap removal 1) Les longueurs de branche des séquences FAB1_YEAST, Q9XID_ARATH, Q9XTF8_CAEEL, FYV1_HUMAN sont très différentes entre les arbres 1 et 2. Interprétez ces différences. Que pouvez-vous déduire sur ces 4 séquences? 3 pts 2) Une région de l alignement utilisé pour construire les arbres est présentée (figure 3). Quel arbre correspond le mieux à cette région? Détaillez et justifiez votre réponse. 1.5 pts 3) Disposez-vous de suffisamment d informations pour affirmer que : 1.5 pts - FYV1_HUMAN et PI51A_HUMAN sont des paralogues? - Q8QG81_XENLA et PI52A_HUMAN sont des orthologues? 4) A quoi servent les méthodes de correction de distance? Si l on considère l arbre 1 par exemple et que l on appliquait une méthode de correction des distances, comment évoluerait, la longueur de la branche menant à : 1.5 pts - Q8QG81_XENLA? - Q9BL73_CAEEL? 5) Que représentent les nombres entourés dans les arbres présentés? A quoi servent-ils?1.5 pts 6) Résumez le principe du maximum de vraisemblance en phylogénie. 2 pts 6
Figure 1
Figure 2 Figure 3 q9xtf8_cae : fyv1_human : q9xid0_ara : fab1_yeast : q9bl73_cae : pi52a_huma : q8qg81_xen : mss4_yeast : q5kp92_cry : q4p7v4_ust : its3_schpo : pi5k3_arat : pi5k2_arat : q9w1y2_dro : o01759_cae : pi51a_huma : q503i3_bra : --ELILGIVDYMRTYTWDKKLESWVKIVAIPGAHL----PTILSPEMYCARFSEAIDSYFPVV --ELVVGIIDYIRTFTWDKKLEMVVKSTGILGGQGKM--PTVVSPELYRTRFCEAMDKYFLMV --ELVCGIIDYLRQYTWDKQLETWVKSSLVVPKNVQ---PTVISPIDYKTRFRKFMKTHFLCV --TLTVGIIDFIRTFTWDKKLESWVKEKGLVGGASVIKQPTVVTPRQYKKRFREAMERYILMV NLIYFIGLVDILTYYGVKKRSATAAKTVKYGSDAEN---ISTVKPEQYAKRLVEFVSRALN-- KEVYFMAIIDILTHYDVKKKAATAAKTVKHGAGAE----ISTVNPEQYSKRFLDFIGHILT-- KEVYFMAIIDILTPYDVKKKAATAAKTVKHGAGAE----ISTVNPEQYSKRFIEFMSNILM-- DLIYYVGIIDFLTNYSTMKKLEHFWRSLRHDTKL-----VSAIPPRDYANRFYEFIEDSVDPL DTIYYLGVIDICTPYSTLKKIEHFWKSMTEDRHT-----ISCVDPVFYGQRFYNFLRSVMRGG HMIYYLGVIDLFTPYTTVKRGEHIWKGLTQNRHM-----ISSVPPKEYGQRFFDFLCSVVTGG NFIFYIGIIDLLTKYSTVKRVEHLWKGINHSDSV-----ISAVPPAEYASRFYKFVESSIKPT EVILYFGVIDILQDYDTTKKLEHAYKSLHADPAS-----ISAVDPKLYSRRFRDFINKIFIED EVVLYFGIIDILQDYDTSKKIEHAYKSLQADPAS-----ISAVDPKLYSRRFRDFISRIFIED RLLLYIGIIDILQSYRTKKKLEHTFKSIIHDGET-----VSVCRPSFYAQRFQNFMAKTVFRK RLVLYLGIIDILQNYRTLKKMEHTWKAILHDGDT-----ISVHNPNFYASRFLTFMTEKVFKK RLLLYIGIIDILQSYRTVKKLEHSWKALVHDGDT-----VSVHRPGFYAERFQRFMCNTVFKK RLLVFIGIIDILQSYRTVKKLEHSWKALLHDGDT-----VSVHRPSFYADRFQKFMCSTVFRK