Bevezetésabioinformatikába 2009 2010őszifélév,biológiaBSC,levelezőképzés BálintBalázs (balintb@brc.hu) http://biotech.szbk.u szeged.hu/
Információakurzusról I.elméletialapok(azévvégivizsgaanyaga) II.azelméletirészheztartozógyakorlatimunka(nemszámonkért) (szakirodalmazás,adatbázis bányászatszekvenciahomológia keresés,fehérjetérszerkezetvizsgálat,stb.) Vizsga:írásban,tesztek/rövidválasztigénylőkérdések
Abioinformatikadefiníciója informatika biológia hardverek,szoftverek megválaszolandókérdés, biológiaiadat Bioinformatika:biológiaiadatokszámítógépesanalízise.
Centrális dogma és a bioinformatika főbb területei a molekuláris biológiában Gén genomika DNS transzkripció, RNS szerkesztés RNS transzkriptomika degradáció transzláció, poszttranszlációs módosítás proteomika fehérje degradáció biokémiai aktivitás metabolikus útvonalak metabolomika
adnsafőbiológiaiinformációhordozó F. Griffith 1925-1928 Avery 1944 Streptococcus pneumoniae a transzformáló anyag DNS proteáz RNáz DNáz abaktériummódosítható(transzformálható) egér meghal egér meghal egér túlél
Hershey és Chase 1952 1.,Escherichiacoli tfertőztekradioaktívanjelöltt2fággal adnsp32 vel,afehérjeburoks35 teljelölve (adns bennincss,afehérjébennincsp) 2.,Abaktériumhoztapadtkiürültfágburkokat rázássalleválasztották 3.,Abaktériumokatésaszabaddávált fágburkokatcentrifugálássalelkülönítették felülúszó,(s35fág fehérje) baktériumpellet,p32 (fágdns)
DNSszerkezete(1953) "Nemkerülteelafigyelmünketaz,hogyazáltalunkfeltételezettpárosítási szabályegymásolásimechanizmustissugallagenetikaianyagszámára." JamesWatsonésFrancisCrick
DNSreplikáció RNSszintézis(transzkripció)
Fehérjeszintézis(transzláció)
Azuniverzálisgenetikaikód Másodikkarakter Els ő karakter Harmadikkarakter DNS:ATG RNS:AUG AS:Metionin
Hogyannyerjükkiaszekvenciainformációt? Fehérje DNS Könnyentisztítható Nehezebbentisztítható Stabil Számosinstabilfehérjelétezik Könnyebben,szekvenálható Aközvetlenfehérjeszekvenálás igennehézfeladat AszekvenciainformációkatzömmelDNSmolekulárólnyerik,amiket azutánszámítógéppel(insilico)fehérjeszekvenciárafordítanak.
ADNSinformációtartalmánakmegismerése akezdetkezdete P s t I ( 1) V a r ia t io n 1 V a r ia t io n 2 V a r ia t io n 3 M is c F e a t u r e 2 V a r ia t io n 4 C D S 4 A pali (4780) A v a I ( 16 3 ) C D S 5 R e p O r ig in 1 C D S 6 m R N A 2 p h i- x - 1 7 4 M is c F e a t u r e 1 C D S 7 5386 bp C D S 8 C D S 9 FrederickSanger C D S 1 1 m R N A 1 C D S 1 0 azelsőpublikáltteljesgenom(1977) kb.5000nukleotid(!)
Sanger félednsszekvenáláselve P P P P P P P láncterminációddgtpjelenlétében P termékkeverék
Sanger félednsszekvenáláselve ddgtp ddttp ddatp ddctp P P P P P P P P P P P P P P P zseb poliakrilamidgél futtatásiránya:
Egyigaziszekvenálólétra Szekvencia: 5 tcaactttgtcggcttgagaaagacctgggatctgggtat... Atechnológiakorlátai: emberpróbáló,extrémmunkaigényeseljárás igenkicsileolvasásihossz atermékekdetektálásap32izotópsegítségével
ASanger félednsszekvenálásautomatizálása Anégyféledideoxynukleotidanalógegyreakcióbanadva mindanégyddntpegyedifluoreszcensfestékkeljelölve atermékekméretszerintielválasztásakapillárisoszlopon adetektorelőttelhaladófestékek sorrendje=>bázissorrend teljesenautomatizáltberendezés ~600 1000nukleotidhosszúDNSdarabokolvashatóak szekvenogram:festékintenzitásokváltozásaazidőben
1995Haemophilusinfluenzaegenomszekvencia Shotgunmódszer DNS tisztítás darabolás futtatás ideálisméretűdarabok (1,5 2kb)kinyerése midenklónból plazmidtisztítás inszert szekvenálása aplazmidok bejuttatása E.coli ba contigassembly agenomifragmentek plazmidokbaligálása
ASanger szekvenálásraalapozottshotgunmódszerkorlátai Könyvtárkészítésszükséges munkaigényes,időigényes,költségesfolyamat egyenetlenlefedettség,agazdára(e.coli)toxikusrégiókteljesenkimaradnak agazdagenomnyomokbanszennyeződéskéntmegjelenhet különbözőprojektekközöttikereszt szennyeződéskönnyenelőfordulhat Alacsonyáteresztőképesség azújszálszintéziseésabázissorrendmeghatározásakülönlépés kapilláriselektroforézislépésszükséges kevéssépárhuzamosítható(max96kapilláris/berendezés) magasköltség/szekvenálásireakció
Újgenerációsszekvenálásitechnológiák Roche454FLX IlluminaSolexa ABISolid Nincsszükséghagyományosgenomikönyvtárra KözvetlenülatisztítottgenomiDNSkerülagépbe AgDNS tfizikailagtörik,afragmentekethordozóhozrögzítik,majdpcr segítségévelfelsokszorozzák Óriásiátereszőképesség nagyfokúpárhuzamosítás:akártöbbmilliószekvenálásireakcióegyszerre azújszálszintéziseésanukleotidsorrendmeghatározásaegyidejűlegtörténik kisebbköltség/szekvenálásireakció
Elkészültgenomszekvenciákstatisztikája2009 Bakteriálisgenom 1001(714*) Eukariótagenomok 74(22*) Caenorhabditiselegans(talajlakófonalféreg) Ecetmuslica(Drosophilamelanogaster) Egér(Musmusculus) Ember(Homosapiens) Kutya(Canislupusfamiliaris) Lúdfű(Arabidopsisthaliana) Méh(Apismellifera) Patkány(Rattusnorvegicus) Rizs(Oryzasativa) Sertés(Susscrofa) Szarvasmarha(Bostaurus) Szőlő(Vitisvinifera) *2008 asadat
Összefogásanukleinsavadatbankokközött http://www.ncbi.nih.gov NIH USA NCBI GenBan k EMBL CIB DDBJ NIG Japan http://www.ebi.ac.uk/embl EBI EMBL Europe http://www.ddbj.nig.ac.jp NIH:NationalInstituteofHealth >NCBI:NationalCenterforBiotechnologyInformation >GenBank NIG:NationalInstituteofGenetics >CIB:CenterofInformationBiology >DDBJ EMBL:EuropeanMolecularBiologyLaboratory >EBI >EuropeanBioinformaticsInstitute >EMBL
Miazadatbázis? számítógépesfájlstrukturáltadattartalommal szabványosítottadatszerkezet gyorsösszetettkeresésekvégezhetőek /indexelés/ rendszeresenfrissített,naprakész /újkiadások/ kapcsolatokmásadatbázisokfelé /kereszthivatkozások/ Megfelelőszoftverekkellenek,melyekkel adatlekérdezés,adatfrissítés,adattörlés,adathozzáadásvégezhető
Hogyanépülfelegyadatbank? szabványosítás,szabványosítás,szabványosítás Feladat: adatoktárolása:jóldokumentáltszekvenciaformátumban anyersszekvenciákonkívültovábbifontoskiegészítőinformációkat tároljon(szekvencialeírása,eredete,típusa,hossza,stb.stb.) lehessenkeresniezekbena"kiegészítő"információkban kereshetőlegyenaszekvencia akutatókújszekvenciákatküldhessenekbeazadatbankba legyenlehetőségahibajavításra(update) nelegyenredundáns minélinkábbautomatizáltlegyen Adatbázisok
Azadatbázisoktípusai Elsődlegesadatbázisok Akísérletezőkeredetielküldöttadatai Közvetlenkísérletieredményekettartalmaznak Pl.GeneBank,GEO(génexpressziósadatbank) Származtatottadatbázisok Elsődlegesadatokanalízisévelnyerttöbbletinformációkattárol Hivatkozásokazelsődlegesadatbáziseredetibejegyzéseire Néhánypélda: RefSNP(pontmutációadatbank) CDD(konzerváltdomainadatbázis), PFAM(fehérjecsaládokadatbázisa)
AGeneBankadatbázis 1979 benalapítva(losalamos). 1992ótaazNCBIgondozza(Bethesda). azadatbázissajátszekvenciaformátumaagenebank szekvenciainformáció szekvenciákhozkapcsolódóegyébinformációk,annotációk kereszthivatkozásokmásadatbankokkapcsolódóbejegyzéseire azadatbázisdivíziókraosztott: PRIfőemlősszekvenciák ROD rágcsálókszekvenciái PLNnővényi,gombaésalga BCT bakteriális EST expresszáltszekvenciadarabkák(cdns) ENV környezetimintákbólnyertszekvenciák PAT szabadalmakhozkapcsolódószekvenciák ~taxonómia szekvenciajellege
AGeneBankadatbázisgyarapodása 2009október 120 100 90 80 70 80 60 40 20 0 1980 60 Nukleotid (milliárdbp) 50 Szekvencia (milliódb) 40 30 20 10 0 1980 1985 1985 1990 1990 1995 1995 2000 2000 2005 2005 2010 Töretlen,közelexponenciálisnövekedés 2010 2015
EgyGeneBankbejegyzés LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL MEDLINE PUBMED REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REMARK COMMENT AF062069 3808 bp mrna linear INV 23-OCT-2002 Limulus polyphemus myosin III mrna, complete cds. AF062069 AF062069.2 GI:7144484. Limulus polyphemus (Atlantic horseshoe crab) Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. 1 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. A myosin III from Limulus eyes is a clock-regulated phosphoprotein J. Neurosci. 18 (12), 4548-4559 (1998) 98279067 9614231 2 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. Direct Submission Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA 3 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. Direct Submission Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA Sequence update by submitter On Mar 2, 2000 this sequence version replaced gi:3132700.
EgyGeneBankbejegyzés lókusz LOCUS AF062069 3808 bp mrna linear INV 23-OCT-2002 DEFINITION Limulus polyphemus mrna, complete LOCUS AF062069 3808myosin bp III mrna linear cds.inv 23-OCT-2002 ACCESSION AF062069 VERSION AF062069.2 GI:7144484 KEYWORDS. SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231 REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700. Hossz Lókusz név Molekula típus Divízió Módosítás Dátum
AGeneBankazonosítók LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM AF062069 3808 bp mrna linear INV 23-OCT-2002 Limulus polyphemus myosin III mrna, complete cds. AF062069 AF062069.2 GI:7144484. Limulus polyphemus (Atlantic horseshoe crab) Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. 1 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. A myosin III from Limulus eyes is a clock-regulated phosphoprotein J. Neurosci. 18 (12), 4548-4559 (1998) 98279067 9614231 2 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. Direct Submission Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA 3 (bases 1 to 3808) Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. Direct Submission Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA Sequence update by submitter On Mar 2, 2000 this sequence version replaced gi:3132700. ACCESSION VERSION REFERENCE AUTHORS TITLE JOURNAL MEDLINE PUBMED REFERENCE AUTHORS TITLE JOURNAL REFERENCE AUTHORS TITLE JOURNAL REMARK COMMENT AF062069 AF062069.2 GI:7144484 Egyedi azonosító (fix) GB azonosító (változhat!)
GeneBankaszekvenciaeredete(Atlantitőrfarkú) LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM AF062069 3808 bp mrna linear INV 23-OCT-2002 Limulus polyphemus myosin III mrna, complete cds. AF062069 AF062069.2 GI:7144484. Limulus polyphemus (Atlantic horseshoe crab) Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. SOURCE Limulus polyphemus (Atlantic horseshoe crab) REFERENCE 1 (bases 1 to 3808) ORGANISM Limulus polyphemus AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Eukaryota; Greenberg,R.M. and Metazoa; Smith,W.C.Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) MEDLINE 98279067 PUBMED 9614231 REFERENCE 2 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700. NCBI Taxonómia
GeneBankreferenciák LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM AF062069 3808 bp mrna linear INV 23-OCT-2002 Limulus polyphemus myosin III mrna, complete cds. AF062069 AF062069.2 GI:7144484. Limulus polyphemus (Atlantic horseshoe crab) Limulus polyphemus Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata; Xiphosura; Limulidae; Limulus. REFERENCE 1 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein REFERENCE 1 (bases 1 to 3808) JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., MEDLINE 98279067 PUBMED 9614231Greenberg,R.M. and Smith,W.C. A myosin III from Limulus eyes is a clock-regulated REFERENCETITLE 2 (bases 1 to 3808) phosphoprotein AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998) Greenberg,R.M. and Smith,W.C. TITLE MEDLINE Direct 98279067 Submission PUBMED 9614231 JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REFERENCE 3 (bases 1 to 3808) AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C. TITLE Direct Submission JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA REMARK Sequence update by submitter COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700. szakirodalom kereszthivatkozás
AGeneBanktulajdonságtábla FEATURES source CDS Location/Qualifiers 1..3808 /organism="limulus polyphemus" /db_xref="taxon:6850" /tissue_type="lateral eye" 258..3302 /note="n-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA" /codon_start=1 /product="myosin III" /protein_id="aac16332.2" /db_xref="gi:7144485" /translation="meykcisehlpfetlpdpgdrfevqelvgtgtyatvysaidkqa NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ 1201 a 689 c 782 g 1136 t /protein_id="aac16332.2" /db_xref="gi:7144485" fehérje adatbank kereszthivatkozás BASE COUNT ORIGIN 1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3781 aagatacagt aactagggaa aaaaaaaa //
AGeneBank(GenePept)bejegyzésFASTAformátumban >gi 7144484 gb AF062069.2 Limulus polyphemus myosin III mrna, complete cds TCGACATCTGTGGTCGCTTTTTTTAGTAATAAAAAATTGTATTATGACGTCCTATC TGTTGTTGTGTTACACAGGTACATATTAATAACAGGTAGCTAACGTACTTATATAT ACATATATATAATTGGTCTGTTACTTTCAGTTACTCCCTGACTTGTGATCCTACTTG TTGCTGTGTTATACAGGTATATATCACTAAAACAGACTGCTAACGTGCATATATTT ATATATGTGTAGCTTTGTTAATGCTTTAACATGGAGTATAAGTGTATCAGTGAACA TTTACCATTTGAGACTCTGCCTGATCCAGGTGATCGGTTTGAAGTACAAGAACTCG TTGGAACAGGAACTTATGCTACCGTATACTCAGCGATTGATAAGCAAGCAAACAA GAAGGTAGCGCTGAAGATTATAGGACACATTGCGGAAAATCTACTTGATATCGAA ACTGAATATCGTATTTATAAAGCTGTCAATGGAATCAGTTTTTCCCCGAATTCCGT GGTGCTTTCTTCAAGCGTGGGGAACGAGAATCTGACAATGAGTATGGCTGGGAAT TGAGTTTCTGGAAGAAGGGACAGCAGCTGACTTGCTTGCAACACACAGAAGGTTT GGAATTCACTTGAAGAAGACTTGATTGCTTTAATAATCAAGGAGGTTGTACGAGC TGTGCAGTACTTACATGAAAACAGCATTATCCACAGAGATATTCGTGCTGCCAAT ATAATGTTTTCTAAAGAGGGATATGTCAAATTAATTGACTTTGGTCTTTCTGCTTC AGTAAAGAACACGAACGGCAAAGCACAGTCTTCTGTGGGCTCCCCCTATTGGATG GCTCCTGAGGTGATATCCTGTGACTGTCTTCAAGAACCTTATAACTACACATGTGA CGTTTGGTCTATGGAATAACTGCTATAGAATTAGCAGACACAGTGCCCTCACTTA GCGATATTCATGCTTTAGCGCCATGTTTCGGATTAACAGAAATCCTCCCCCTAGTG TTAAGAGGGAAACACGCTGGTCAGAAACATTGAAAGATTTTATCAGCGAATGTTT GGTGAAAAATCCCGAATATCGACCGTGTATCCAAGAAATTCCCCAACACCCATTTT T...
Továbbiszekvenciaformátumok ID SQ EMBL // nameless standard; DNA; UNC; 457 BP. Sequence 457 BP; GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC TTCGTGAAAG GCAGCCCGAA GACGATGGCC ATCCACACGA CGTGAATGAA CCGCGCCCTC GCGGTTTTTC \\\ AATGATCGAA AGGGAATCGG CAACTTGAGT GGAGTCAGTC nameless_1 TTCGTTGCCT CGGACCTGCA TCCCTTTGGG ENTRY AGATGCTTCA GAGAGCAAGG nameless_1 TTGATTGCGC 475 bases ATACAGATGC TITLE TCGGTTCGCG ACGGCCTGCG TGAGGATACC SEQUENCE CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC GGGACACTAG 5 10 15 20 AGTGTCCACT GGGCAGCGGG 1 M S R CAGGGTCTCC T V T I E P VCCCGGGA T R I E G H A R I T L Q nameless_1 PIR GCG 31 D A K F H L T Q F R G F E K F C E G R P 61 T C G I C P V S H V L A S N K A C D H L 91 K L R R I I N L A Q L T Q S H A L S F F 121 W D S D P V S R N I F G V M R Q D P A L 151 G Q T I I E T L G G K K I H P T W V V P 181 K R D A M L K L I P E G L E I A K R T Y 211 K D E A N H F G S Q P T M F L S L V S P Length: 457 241 L R L K D A QNov G R I15, L E 2004 D M V P 10:24 P H E Y 271 F S Y M K F P Y Y K P H G Y P N G I Y R CGGCCAGGCA AAGAAGAGCG CGACGAATGG 301 D A C G T P Y A D V A L A E F H M L Q E 331 H Y A R L V E I I Y A L ECCAACCATGC M M E R L L K ATTCCTCCGT ACCCCATGCC 361 A R A R S N R Y E G I G V A E A P R G I ATCACCACGA GCAGCCCGAA 391 G L I T W V N L I I A T GGACGATGGCC H N N L A M N 421 V D G N N L Q E G M L N R V E A V I R C CCGCGCCCTC CATGCGGTCC GCGGTTTTTC 451 A F G E M P L A I E L K D A T G R V V D nameless_1 1 GGCGAAGATT 51 CCATGGCTGT 101 TTCGTGAAAG 151 CGTGAATGAA 201 AGGGAATCGG /// CAACTTGAGT 251 AGATGCTTCA GAGAGCAAGG 301 ATACAGATGC TCGGTTCGCG 351 CGGTTCCAGT CCGTGCGACG 401 GGGACACTAG CCAACCGGGC 451 CCCGGGA GGAGTCAGTC TTCGTTGCCT ACGGCCTGCG ACCATTAATA AGTGTCCACT ATATCAGGAG CGGACCTGCA TTGATTGCGC AGGCGCTCCA GGGCAGCGGG CCATGGCTGT ATCACCACGA CATGCGGTCC ATATCAGGAG TCACCCAACC CGGTTCCAGT CCAACCGGGC 25 30 L G D A G E V E Y R E M P A L T A R L S V S I P P T G E H L S S P D L L L G A K D G I R L R Q I G G V S E P L T Q E A F F K T L V P K F K G H L E H Y D G F E Check: R L I G E7178 A V E D.. V G P L A R L N N V GAGCATGTAG S G P I A S S F H Y D P T I L D A R V R GAGTCAAACC L M H H Y R I D D E ATCCACACGA Q S I R Q V A D A Y F D P C L S C A S H AATGATCGAA T L R R G TCCCTTTGGG TCACCCAACC TGAGGATACC CAGTTCCCGC CAGGGTCTCC 60 120 180 240 300 360 420 457
Konverziókülönféleszekvenciaformátumokközött Akülönféleszekvenciaformátumokkönnyenátkonvertálhatóakegymásba Seqret programazembosscsomagból http://cbi.labri.fr/outils/pise/seqret.html helyilegtelepítettváltozattal (Bio)perlscriptsegítségével EBIReadSeqportálján
Másodikrész
Szekvenciaevolúció AlegtöbbDNSpolimeráznagyonhűenmásol. (AzE.coliDNSpolimerázanagyjábólegyhibátvéttízmilliónukleotidonként) Elegendőhosszúidőalattszámospontmutáció Kromoszómaátrendeződésselhirtelen,nagyobbváltozások(inszerció,deléció) történhetnek ADNS(vagyfehérje)szekvenciaösszehasonlításávalevolúciósrokonságifokis kimutatható: rdnsszekvenciaelemzésalapjánfelállítottuniverzálistörzsfa
Változásokaszekvenciákban A T C C T A T T C A C A G A T A A T C C A C A G A T A A T C C G A T T A A C A G A T A A T C C G A T T A A C A G A T A pontmutációk inszerció/deléció A T C C C C A A T A C A G A T A A T C C T A T T G GC A G A T A inverzió
Szekvenciaevolúció Homológszekvenciák: hasonlóak közösősrevezethetőekvissza Analógszekvenciák: hasonlóságközösevolúciósősnélkül leszármazott#2 leszármazott#1 (rombusz) (téglalap) közösős (paralelogramma) ortológ:ahomológfehérjékkétkülönfajbantalálhatók,afunkcióáltalábanazonos Pl.szarvasmarhainzulin emberiinzulin paralóg:ahomológfehérjékugyanazonfajbantalálhatók(általábannemteljesen azonosfunkció) Pl.emberihemoglobinAéshemoglobinBláncok
Homológiakeresésahőskorban:Dotplot zaj AkétszekvenciaazXilletveYtengelyrekerül MindenXpozíciótmindenYpozícióvalösszehasonlítunk Aholegyezésvan,odaegypontotteszünk Azközösrégiókátlósvonalkéntjelennekmeg
Homológiakeresés:szekvenciaillesztés Nukleinsavvagyfehérjeszekvenciákegymáshozrendezése Nagyonsokillesztéslehetséges Melyikalegjobb?Valóshasonlóságotmutat?Tényleghomológakétszekvencia? Azillesztésekkiértékeléséhezpontozásirendszerszükséges Szekvencia1 Szekvencia2 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
Homológiakeresés:pontozás actaccagttcatttgatacttctcaaa Szekvencia1 taccattaccgtgttaactgaaaggacttaaagact Szekvencia2 Negatívértékbüntetiazeltéréseket: A T C G A 5-4 -4-4 T -4 5-4 -4 C -4-4 G -4-4 -4 5-4 5 Illeszkedik:5 Nemilleszkedik:19 Score:5x5+19x( 4)= 51
ADNSpontozásirendszerhibája CCTCCTTTGT 5 5 5 5 5 5 5 5 5 5 Pont=50 CCTCCTTTGT Pro A A T C 5-4 -4-4 T -4 5-4 -4 G 4-4 Leu G 5-4 C -4-4 -4 5 CCTCCTTTGG 5 5 5 5 5 4 5 5 4 5 Pont=32 CCTCCCTTAG Pro Leu Nemveszifigyelembe,hogyegyaminosavattöbbkodoniskódolhat(némamutációk)
Fehérjepontozásirendszer aháttér Azaminosavaknakkülönbözőfizikai kémiaitulajdonságaikvannak, ezekbefolyásoljákakicserélhetőségüket Példáulavalin(V)ésazizoleucin(I)kicserélhetőegymásra alifás L hidrofób P C S+S I M V pici A kicsi G CSH S K E D T F Y W H R aromás N Q pozitív poláris töltött A:alanin,R:arginin,N:aszparagin,D:aszparaginsav,C:cisztein,Q:glutamin,E:glutaminsav,G:glicerin, H:hisztidin,I:izoleucin,L:leucin,K:lizin,M:metionin,F:fenilalanin,P:prolin,S:serin,T:treonin, W:triptofán,Y:tirozin
Fehérjepontozásirendszerek(mátrixok) pontszámotrendelazösszeslehetségesaminosav aminosavcseréhez fehérjeszekvenciáktöbbszörösillesztésénekvizsgálatábólszármazóadatok Blossum62 esmátrix
Szekvenciaillesztés:globálisvagylokális Globálisillesztés:ateljesszekvenciátigyekszikoptimálisanelrendezni Σ 50pont Lokális:alegnagyobbjólilleszkedőközösszakasztkeresimeg Σ 55pont Természetesenakétmódszereltérőillesztéstad
BLAST:BasicLocalAlignmentTool BLAST:egyszerűlokálisszekvenciaillesztőeszköz azncbiportálonhozzáférhető:http://blast.ncbi.nlm.nih.gov/blast.cgi igengyors,igenelterjedt alkalmasnagyméretűszekvenciaadatbázisokbantörténőhomológiakeresésre programvariációk: szekvencia adatbázis program nukleotid nukleotid blastn fehérje fehérje blastp transzlált nukleotid fehérje blastx fehérje transzlált nukleotid tblastn transzlált nukleotid transzlált nukleotid tblastn
BLAST:BasicLocalAlignmentTool keresett szekvencia (query) Választhatófehérjeblastadatbankok: melyik adatbankban keressen nr ismétlődéstőlmentes,~genepept refseq jóljellemzett,felülvizsgáltadatok(ncbi) swissprot jóljellemzett,felülvizsgáltadatok(swissinstitute) pat szabadalmakhozkacspolódószekvenciák pdb ismert3d smodellelrendelkezőszekvenciák env környezetiszekvenálásokeredményei
Keresésfolyamatban... Becsülthátralévőidő(minimum)
Eredmények... Fajokszerintrendezve találatok Pontszám színkód
Eredmények... találatneve+hivatkozás találatleírása Eérték megengedettcsere azonosaminosavak deléció(gap) nemmegengedettcsere
Milyeninformációkatkaphatunkfehérjeszekvenciák vizsgálatával Afőkérdés:miazadottfehérjepontosszerepe,funkciója? Segítt easzekvenciaismereteafunkciómeghatározásában?
Fehérjeaminosavsorrendmeghatározzaatérszerkezetet Anfinsen,1961 UreahatásáraazRNázkicsapódik,(harmadlagostérszerkezeteelvész) AzureaeltávolításautánazRNázkülsősegítségnélkülvisszanyerteatérszerkezetét, ésazaktivitását! katalitikuszseb diszulfidhidak hidrofiloldalláncok hidrofóbmag
Fehérjeszekvenciaanalízisrévénfunkciójóslás Hasonlószekvenciakereséseadatbázisban,ismertfunkcióval Hasonlószekvenciakereséseadatbázisban,ismerttérszerkezettel Ismertfunkcióvalbíródomain ekazonosításaazismeretlenszekvencián Funkciójóslás Pusztánszekvenciaanalízisselafehérjefunkciójátnemlehetmegállapítani Abioinformatikaivizsgálatokötleteket,kiindulópontotadnakakísérletes munkához
ProteinDataBank Kísérletesenmeghatározottháromdimenziósfehérjeszerkezetimodellek http://www.rcsb.org/pdb/home/home.do
KeresésaPDBadatbázisban
CDDkonzerváltdomainadatbank Domain:afehérjénbelülirészegység,amelyjóldefiniáltstrukturálisvagyfunkcióbeli szerepettöltbe.egyfehérjénbelülgyakrantöbbdomainttalálunk,amelyek együttesenjárulnakhozzáafehérjeműködéséhez http://www.ncbi.nlm.nih.gov/structure/cdd/cdd.shtml
CDDkonzerváltdomainadatbanktalálat azonosítottaktívközpont,szubsztrátkötőhelyek azonosítottdomain ek
NCBIportál azinformációözöne
Entrez:azNCBIintegráltkeresőmotorja OMIM PubMed PubMedCentral 3DDomains Journals Structure Books CDD/CDART Entrez Protein Taxonomy Genome GEO/GDS UniSTS UniGene Nucleotide PopSet SNP
Szakirodalmiadatbázis:Pubmed közel5300tudományosfolyóiratcikkeinekösszefoglalóibankereshetünk aszabadonletölthetőteljescikkekrehivatkozás
Szakirodalmiadatbázis:Pubmed amegtaláltösszefoglalómunkákat(reviewarticle)különiskilistázhatjuk
Szakirodalmiadatbázis:Pubmed különféleikonokjelzik,hogyamegtaláltteljescikkhozzáférhető e ingyenes hozzáférés
PubmedCentral 500szabadon,elektronikusanelérhetőfolyóirat
Mapviewer interaktívgenetikaitérképekazelkészültésafolyamatbanlévőgenomprojektekhez
Mapviewer Kulcsszavaskeresés találatokakromoszómákon
HumángenetikaiadatbázisOMIM Örökletesbetegségekkelkapcsolatosinformációk
Rendszertaniadatbázis(taxonómia)
Szabadonolvashatókönyvek:NCBIBooks
Szabadonolvashatókönyvek:NCBIBooks Berg,JeremyM.;Tymoczko,JohnL.;andStryer,Lubert. NewYork:W.H.FreemanandCo.;c2002 Biochemistry Cooper,GeoffreyM. Sunderland(MA):SinauerAssociates,Inc.;c2000 TheCell AMolecularApproach Gilbert,ScottF. Sunderland(MA):SinauerAssociates,Inc.;c2000 DevelopmentalBiology Janeway,CharlesA.;Travers,Paul;Walport,Mark;Shlomchik,Mark NewYorkandLondon:GarlandScience;c2001 Immunobiology Lodish,Harvey;Berk,Arnold;Zipursky,S.Lawrence; Matsudaira,Paul;Baltimore,David;Darnell,JamesE. NewYork:W.H.Freeman&Co.;c1999 MolecularCellBiology Coffin,JohnM.;Hughes,StephenH.;Varmus,HaroldE. Plainview(NY):ColdSpringHarborLaboratoryPress;c1997 Retroviruses
Egyébhasznosadatbankok:BRENDAenzimadatbázis Átfogóadatgyűjteményenzimekről azenzimhelyeametabolikushálózatban azenzimáltalkatalizáltreakciókleírása előforduláskülönféleélőlényekben,irodalmihivatkozások aktivitásadatok,enzimkinetikaiadatok optimálishőmérséklet,phadatok gátlószerekhatása http://www.brenda enzymes.org/
KEGGanyagcsereútvonaladatbázis http://www.genome.jp/kegg/