Szekvencia összehasonlítások II. Bioinformatika és genom analízis az orvostudományban (AOGENBIG_1M)



Hasonló dokumentumok
discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

Bioinformatics: Blending. Biology and Computer Science

SOLiD Technology. library preparation & Sequencing Chemistry (sequencing by ligation!) Imaging and analysis. Application specific sample preparation

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

Széchenyi István Egyetem

Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Supporting Information

Gyakorlati bioinformatika

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May

CLUSTALW Multiple Sequence Alignment

A tárgy címe: Bioinformatika

8. A fehérjék térszerkezetének jóslása

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Trinucleotide Repeat Diseases: CRISPR Cas9 PacBio no PCR Sequencing MFMER slide-1

A fehérjék térszerkezetének jóslása

Mapping Sequencing Reads to a Reference Genome

10. Genomika 2. Microarrayek és típusaik

Bioinformatika 2 4. előadás

tccattaattcgacagaccagagttaaataatccttgtatgccattgtgatcacatctacagttcagattttgtatttca

Correlation & Linear Regression in SPSS

Human genome project

Fehérjék rövid bevezetés

1. Gyakorlat: Telepítés: Windows Server 2008 R2 Enterprise, Core, Windows 7

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

117. AA Megoldó Alfréd AA 117.

A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Bakteriális identifikáció 16S rrns gén szekvencia alapján

A100F DIGITÁLIS HÚSKEMÉNYSÉGMÉRŐ KÉSZÜLÉK

SQLServer. SQLServer konfigurációk

Tuplet Tool Hangjegycsoport eszköz

Számítógépes Hálózatok GY 8.hét

Operációs Rendszerek II. labor. 2. alkalom

Genome 373: Hidden Markov Models I. Doug Fowler

Using the CW-Net in a user defined IP network

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

Expression analysis of PIN genes in root tips and nodules of Lotus japonicus

Molekuláris evolúció második gyakorlat

On The Number Of Slim Semimodular Lattices

Bioinformatika gyakorlat csilabusz

Supplementary Table 1. Cystometric parameters in sham-operated wild type and Trpv4 -/- rats during saline infusion and

Az indexelés újdonságai Oracle Database 12c R1 és 12c R2

Hogyan használja az OROS online pótalkatrész jegyzéket?

T-helper Type 2 driven Inflammation Defines Major Subphenotypes of Asthma

Adattípusok. Max. 2GByte

Tulajdonságalapú tesztelés

Adattípusok. Max. 2GByte

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Bioinformatika 2 2. előadás

Proxer 7 Manager szoftver felhasználói leírás

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Construction of a cube given with its centre and a sideline

16F628A megszakítás kezelése

Flowering time. Col C24 Cvi C24xCol C24xCvi ColxCvi

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Adatbázis-kezelés ODBC driverrel

Supplementary materials to: Whole-mount single molecule FISH method for zebrafish embryo

FOSS4G-CEE Prágra, 2012 május. Márta Gergely Sándor Csaba

SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN

Supporting Information

USER MANUAL Guest user

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Klaszterezés, 2. rész

Searching in an Unsorted Database

Szoftverminőségbiztosítás

Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant március 23.

DNS-szekvencia meghatározás

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017

Szálkezelés. Melyik az a hívás, amelynek megtörténtekor már biztosak lehetünk a deadlock kialakulásában?

Problémák és megoldások a bioinformatikában. Válogatott fejezetek a bioinformatikából. Gyimesi Gergely, február 25.

(NGB_TA024_1) MÉRÉSI JEGYZŐKÖNYV

first base of sequence is at -32 with respect to the ATG of start site of At1g10010 start site of At1g10010

FATERMÉSI FOK MEGHATÁROZÁSA AZ EGÉSZÁLLOMÁNY ÁTLAGNÖVEDÉKE ALAPJÁN

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Személyes adatváltoztatási formanyomtatvány- Magyarország / Personal Data Change Form - Hungary

Bevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Az Open Data jogi háttere. Dr. Telek Eszter

Cluster Analysis. Potyó László

WCF, Entity Framework, ASP.NET, WPF 1. WCF service-t (adatbázissal Entity Framework) 2. ASP.NET kliens 3. WPF kliens

Internetes keresés. Dr. Nyéki Lajos 2019

Vállalati kockázatkezelés jelentősége

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

Performance Modeling of Intelligent Car Parking Systems

Create & validate a signature

SQL*Plus. Felhasználók: SYS: rendszergazda SCOTT: demonstrációs adatbázis, táblái: EMP (dolgozó), DEPT (osztály) "közönséges" felhasználók

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

Excel vagy Given-When-Then? Vagy mindkettő?

ELTE SAP Excellence Center Oktatóanyag 1

Supplementary Figure 1

KELER KSZF Zrt. bankgarancia-befogadási kondíciói. Hatályos: július 8.

Programozás C nyelven (3. ELŐADÁS) Sapientia EMTE

11. Gyakorlat: Certificate Authority (CA), FTP site-ok

Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika

Dobzhansky: In Biology nothing makes sense except in the light of Evolution.

3. Páronkénti szekvencia összerendezés

Miben különbözünk az egértől? Szabályozás a molekuláris biológiában

1. Ismerkedés a Hyper-V-vel, virtuális gépek telepítése és konfigurálása

Smalltalk 2. Készítette: Szabó Éva

Átírás:

Szekvencia összehasonlítások II. Bioinformatika és genom analízis az orvostudományban (AOGENBIG_1M) Miklós István SOTE, 21. október 28. DNS-szekvenciák összeszerelése Ún. shot-gun szekvenálással lehet teljes genomot szekvenálni Egy darab DNS szekvenálásánál 2-5 bázis hosszú darabokat kapunk (egy menetben ekkorát lehet szekvenálni, újabban azért max. 1-et is) Szekvenálási hibák: kb. 5% (hibás bázisok; kimaradt/tévesen beszúrt bázisok: ún. fantom INDEL-ek) Emiatt mindkét szálat többször meg kell szekvenálni a megbízhatóság végett A teljes szekvenciát a darabokból kell összeszerelni és konszenzust konstruálni: A mai el!adás témája: Kontigok összeállítása Hasonlósági keresések adatbázisokban! BLAST programcsalád! ISS! Rejtett Markov modellek Hasonlósági keres!k összehasonlítása A fals pozitív találatok okai, és kisz"résük Szekvenciaösszehasonlítások genomikai alkalmazásai! A Homophila project, a gyümölcslégy mint genomikai modell DNS-szekvenciák összeszerelése AACCGTTTACGAAACCAGGTGC AACCGTTTACGAAACCAGGTGCGCGCCCGCGGGAAT AACCGTTTACGAACCCAGGTGC (konszenzus:) AACCGTTTACGAAaCCAGGTGCGCGCGCGcGGGAATCCTAAAAA CGCGCGCGCGGGAATCCTAAAAA TGCGCGCGCGAGGGAATCCTAAAAA Kisbetûk: kisebb megbízhatóság Összeszerelés: különféle programokkal, pl. TIGR http://www.tigr.org/software/assembler/ Szabad szoftver, azaz forráskód ingyen letölthet! Next Generation Sequencing Fluoreszcencián alapuló szekvenálási technika Automatikusan több ezer/tízezer szekvenálás párhuzamosan Rövid readek régebben 25-3 hosszú ma már százas/többszázas readek Speciális programok, referenciához illesztés Assembler:

Referenciához illesztve, csak a különbségeket, mint lényegi információt eltárolva, betömörítve, a végeredmény egy 4 Mbyte-os file!

A primerek szükséges tulajdonságai: Primer3-Whitehead http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi Kb 2 hosszúságú Specifikus legyen a targetre, ne legyenek kompetitív köt!helyek Hatékony amplifikáció! 3 komplementáció pontos legyen! Ne legyen lokális térszerkezet! Ne tudjanon a két primer egymással bázispárosodni! A kísérleti körülményeknek megfelel!ek legyenek (olvad asi h!mérséklet, sókoncentráció, stb) Az optimális primer sok feltételnek kell, hogy eleget tegyen! számítógépes tervezés Sequence Id: Primer3-Whitehead A string to identify your output. E.g. 5,2 requires primers to surround the 2 bases at positions 5 and 51. Or mark the source sequence with [ and ]: Targets: 1141,1 e.g....atct[cccc]tcat.. means that primers must flank the central CCCC. Excluded Regions: E.g. 41,7 68,3 forbids selection of primers in the 7 bases starting at 41 and the 3 bases at 68. Or mark the source sequence with < and >: e.g....atct<cccc>tcat.. forbids primers in the central CCCC. Product Size Ranges 851-1 Click here to specify the min, opt, and max product sizes only if you absolutely must. Using them is too slow (and too computationally intensive for our server). Number To Return: 5 Max 3' Stability: 9. Max Mispriming: 12. Pair Max Mispriming: 24. General Primer Picking Conditions Primer3-Whitehead Primer Size Min: 15 Opt: 2 Max: 35 Primer Tm Min: 57. Opt: 6. Max: 63. Max Tm Difference: 1. Product Tm Min: Opt: Max: Primer GC% Min: 2. Opt: Max: 8. Max Self Max 3' Self Complementarity: 8. Complementarity: Max #N's: 5 Max Poly-X: 5 Inside Target Penalty: Outside Target Penalty: Set Inside Target Penalty to allow primers inside a target. First Base Index: 1 CG Clamp: Annealing Oligo 5. Salt Concentration: Concentration: 3. 5. (Not the concentration of oligos in the reaction mix but of those annealing to template.) Liberal Base Show Debuging Info Do not treat ambiguity codes in libraries as consensus Primer3-Whitehead Other Per-Sequence Inputs Included Region: Start Codon Position: Sequence Quality E.g. 2,4: only pick primers in the 4 base region starting at position 2. Or use { and } in the source sequence to mark the 2,15 beginning and end of the included region: e.g. in ATC{TTC...TCT}AT the included region is TTC...TCT. Primer3-Whitehead output WARNING: Numbers in input sequence were deleted. Using mispriming library humrep_and_simple.txt Using 1-based sequence positions OLIGO start len tm gc% any 3' rep seq LEFT PRIMER 54 21 59.72 47.62 6. 2. 11. ccatttgtagatggagcttcg RIGHT PRIMER 158 2 59.79 4. 2. 1. 11. tggatggtttggtgttttga SEQUENCE SIZE: 312 INCLUDED REGION SIZE: 15 PRODUCT SIZE: 969, PAIR ANY COMPL: 4., PAIR 3' COMPL: 1. TARGETS (start, len)*: 1141,1 1 ttatgggcgaacgacgggaattgaacccgcgcatggtggattcacaatccactgccttga... 61 tccacttggctacatccgccccctcgcctacttacattccgtttttacattatttaaatt Min Sequence Quality: Min End Sequence Quality: Sequence Quality Range Min: Sequence Quality Range Max: kizárt rész

.45.4.35.3.25.2.15.1.5 Primer3-Whitehead output 481 gaaaatgattattgctcctttcttttcaaaacctcctatagactaggccaggatcttatc > 541 catttgtagatggagcttcgatagcagctaggtctagagggaagttgtgagcattacgtt >>>>>>>>>>>>>>>>>>>> További találatok: ADDITIONAL OLIGOS Primer3-Whitehead output start len tm gc% any 3' rep seq 1 LEFT PRIMER 618 21 59.52 47.62 4.. 1. ccaaggttagcacggttaatg RIGHT PRIMER 158 2 59.79 4. 2. 1. 11. tggatggtttggtgttttga PRODUCT SIZE: 891, PAIR ANY COMPL: 4., PAIR 3' COMPL:. 5 primer kötése 3 primer kötése 2 LEFT PRIMER 54 21 59.72 47.62 6. 2. 11. ccatttgtagatggagcttcg RIGHT PRIMER 1443 2 59.55 5. 3. 2. 12. tcattgctgctcctccagta PRODUCT SIZE: 94, PAIR ANY COMPL: 5., PAIR 3' COMPL: 2. Stb. 1441 tgaaggcaataataaatacagaagttgccgtcaataaggtagggatcatcaaaacaccaa <<<<<<<<<<<< 151 accatccaatgtaaagacggttttcagtgctagttatccagttacagaagcgaccccata <<<<<<<<... Statisztika a vizsgált esetekr!l Statistics con too in in no tm tm high high high high sid many tar excl bad GC too too any 3' lib poly end ered Ns get reg GC% clamp low high compl compl sim X stab ok Left 1225 279 4311 2931 16 58 38 71 45 1945 Right 6283 28 232 2754 1 64 1116 Pair Stats: considered 2346, unacceptable product size 2327, high any compl 2, high end compl 1, ok 16 primer3 release 1. Hasonlósági keresések Az alapkérdés: mely szekvenciákhoz hasonlít egy adott szekvencia? Mivel távoli homológok is érdekelnek, csak lokális illesztéseket nézek A pontos szekvenciaillesztés nem érdekel, a bizonytalan régiókat kidobálhatom Hatalmas adatbázisból keresek Online, szerveroldali er!forrás, sokan használják Következmény: heurisztikus algoritmus kell, a standard szekvenciailleszt! algoritmusok túl lassúak Szeretnénk gyors statisztikai elemzést, megválaszolandó a kérdést: mely találatokban bízhatunk meg A BLAST programcsalád Basic Local Alignment Search Tool Altschul et al. (199) J. Mol. Biol. A legtöbbet idézett bioinformatikai témájú cikk Altschul et al. (1997) Gapped BLAST and PSI BLAST Nucl. Acid Res. Alapötlet: seed-eket keres. Ezek rövid egzakt egyezések A seedeket kiterjeszti, amíg a hasonlósági pontozás növelhet! A BLAST résmentes illesztéseket keres, Gapped BLAST olyan szekvenciaillesztéseket is keres, amelyekben rések is vannak. A PSI BLAST-ról részletesebben kés!bb Statisztikai elemzést is ad Hipotézisvizsgálat H hipotézis: az adataimban semmi összefüggés nincs H 1 (alternatív) hipotézis: H nem igaz Ha H igaz, az adatokból legyártott statisztika valamilyen eloszlást követ. A H hipotézist elfogadjuk, ha a kapott érték nem extrém az eloszlásban Hipotézisvizsgálat és a BLAST A BLAST statisztikája a lokális szekvenciaillesztés pontozása, legyen ez S A BLAST nem közvetlenül ezt adja vissza, hanem két értéket számol ebb!l p érték: Megadja, hogy mi a valószín"sége annak, hogy random szekvenciák BLASTolása esetén S-t, vagy ennél nagyobb értéket kapunk E érték: extrém érték Megadja, hogy ha ugyanakkora méret" random query szekvenciát ugyanakkora méret" random szekvenciákból álló adatbázissal BLAST-olunk össze, mekkora az S-t vagy ennél nagyobb pontozást adó lokális illesztések számának a várható értéke

A BLAST programcsalád http://www.ncbi.nlm.nih.gov/blast/ Nucleotide Quickly search for highly similar sequences (megablast) Quickly search for divergent sequences (discontiguous megablast) Nucleotide-nucleotide BLAST (blastn) Search for short, nearly exact matches Search trace archives with megablast or discontiguous megablast Protein Protein-protein BLAST (blastp) Position-specific iterated and pattern-hit initiated BLAST (PSI- and PHI-BLAST) Search for short, nearly exact matches Search the conserved domain database (rpsblast) Protein homology by domain architecture (cdart) Translated A BLAST programcsalád Translated query vs. protein database (blastx) Protein query vs. translated database (tblastn) Translated query vs. translated database (tblastx) Genomes Human, mouse, rat, chimp, cow, pig, dog, sheep, cat Chicken, puffer fish, zebrafish Environmental samples Malaria Insects, nematodes, plants, fungi, microbial genomes, other eukaryotic genomes Special Search for gene expression data (GEO BLAST) Align two sequences (bl2seq) Screen for vector contamination (VecScreen) Immunoglobin BLAST (IgBlast) SNP BLAST Options for advanced blasting Nucleotide Protein Translations Retrieve results for an RID Limit by entrez query or select from: All organisms Choose filter Low complexity Human repeats Mask for lookup table only Mask lower case taaatcggaccaaaccggtttactaatgggatgccctaatacggtacaaaagtttgct Search Set subsequence From: To: nr Choose database Expect Word Size Other advanced 1 11 Now: or BLASTn parancssori utasítások Program Advanced Options -G Cost to open gap [Integer] default = 5 for nucleotides 11 proteins -E Cost to extend gap [Integer] default = 2 nucleotides 1 proteins -q Penalty for nucleotide mismatch [Integer] default = -3 -r reward for nucleotide match [Integer] default = 1 -e expect value [Real] default = 1 -W wordsize [Integer] default = 11 nucleotides 3 proteins -y Dropoff (X) for blast extensions in bits (default if zero) default = 2 for blastn 7 for other programs -X X dropoff value for gapped alignment (in bits) default = 15 for al programs except for blastn for which it does not apply -Z final X dropoff value for gapped alignment (in bits) 5 for blastn 25 for other programs > gi 76559634 emb Z44.2 CHNTXX Nicotiana tabacum chloroplast genome DNA Length=155943 Score = 117 bits (59), Expect = 3e-24 Identities = 59/59 (1%), Gaps = /59 (%) Strand=Plus/Plus Query 1 TAAATCGGACCAAACCGGTTTACTAATGGGATGCCCTAATACGGTACAAAAGTTTGCTT 59 Sbjct 2461 TAAATCGGACCAAACCGGTTTACTAATGGGATGCCCTAATACGGTACAAAAGTTTGCTT 2519 > gi 77799536 dbj AB237912.1 Nicotiana sylvestris chloroplast DNA, complete sequence Length=155941 Score = 117 bits (59), Expect = 3e-24 Identities = 59/59 (1%), Gaps = /59 (%) Strand=Plus/Plus Query 1 TAAATCGGACCAAACCGGTTTACTAATGGGATGCCCTAATACGGTACAAAAGTTTGCTT 59 Sbjct 2461 TAAATCGGACCAAACCGGTTTACTAATGGGATGCCCTAATACGGTACAAAAGTTTGCTT 2519 Stb.

Többszörös lokális keresések Távoli homológokat lehetetlen páronkénti lokális kereséssel megtalálni, mert a hasonlósági pontozásukra akkora értéket kapunk, amekkora értéket random szekvenciák összehasonlítására is kaphatunk Lehetséges megoldások ISS: Intermediate sequence search PSI BLAST: Position specific iterative BLAST Rejtett Markov modellek PSI BLAST (i) A query szekvenciához hasonló szekvenciákat keres ki az adatbázisból Gapped BLAST-tal és egy pontozómátrixszal, pl BLOSUM62 (ii) Összeilleszti azokat a szekvenciákat, amelyeknek az E értéke egy adott szám alatt van (E M ) (iii) Egy pozícióspecifikus pontozómátrixot készít (iv) Újabb Gapped BLAST, de most a (iii) pontban legyártott pontozómátrixot használjuk (v) A jó találatokból újabb többszörös illesztés, újabb keresés (vi) Adott iterációig (j) folytatjuk az eljárást, vagy amíg nem kapunk további találatokat Irodalomban javasolt értékek: E M =.5 j = 2 Rejtett Markov Modellek (HMMs) A bioinformatikában az egyik leggyakrabban használt sztochasztikus modell. Egy képzeletbeli gép, amely szekvenciákat generál. A gépnek véges sok állapota van, és ezek között lépked. Minden egyes állapotában kibocsáthat egy karaktert (aminosav vagy nukleotid), ezekb!l áll össze a gép által generált szekvencia. Attól rejtett, hogy a szemlél! csak a kibocsátott szekvenciát látja, az az utat, amin a gép végiglépkedett, nem. Az állapotok modellezik a biológiai szekvencia egyes pozícióját, a kibocsátott karakterek összetétele ennek megfelel!. A feladat az, hogy a szekvenciát illesszük a rejtett Markov modellhez, azaz keressük meg a valószín"síthet! kibocsájtási utat Lehet többszörös szekvenciaillesztést csinálni ún. profile rejtett Markov modellekkel, ekkor minden szekvenciát hozzáillesztjük a HMM-hez, ezen keresztül egymáshoz Profile-HMMs A profile HMM-eknek alapvet!en háromféle állapota van: M (match, azaz egyezés), I (insert) és D (delete); ezeken kívül szokás még kiinduló- és végállapotokat és egyéb speciális állapotokat is definiálni. Pl: Nagyon hasonló a PSI-BLAST-hoz, de statisztikailag jobb Hasonlósági keres!k összehasonlítása A feladat ugyanaz, mint a szekvenciaillesztések összehasonlításánál, kell valami referenciaadatbázis, ahol tudjuk a megoldásokat Erre használható a SCOP adatbázis (Structural Classification of Proteins) http://scop.mrc-lmb.cam.ac.uk/scop/ Domain-eket csoportosít: kis fehérjék önálló domain-ek, a nagyokat domain-enként elemzi Hasonló domainek családokba vannak rendezve, ezek közötti evolúciós kapcsolat szinte biztos A családok tovább csoportosítva szupercsaládokba, ezek közötti evolúciós kapcsolat valószín" A szupercsaládok gomolyag-osztályokba vannak csoportosítva (fold classification) Egy gomolyag-osztályba tartozó fehérjék másodlagos térszerkezeti elemei ugyanolyan sorrendben követik egymást. Szinte biztos, hogy evolúciósan nem rokonok Hasonlósági keres!k összehasonlítása Park et al. (1998) J. Mol. Biol. A SCOP-ból létrehoztak egy referenciaadatbázist, a PDB4-J-t. Ebben csak távoli homológok szerepelnek, melyekre hasonlósága kisebb, mint 4%, összesen 935 szekvencia A lehetséges 436645 párból csak 296 olyan volt, amelyek homológok voltak Öt metódust hasonlítottak össze: GAP-BLAST, FASTA, ISS, PSI-BLAST és SAM-T98 (egy profile rejtett Markov modell)

Hasonlósági keres!k összehasonlítása Hasonlósági keres!k összehasonlítása True positives False positives A módszerek a hibás találatokban térnek el nagyon A fals pozitív találatok okai és kisz"résük Véletlen. Adott módszer esetén nem lehet semmit sem tenni ellene, tovább kell fejleszteni Közös domain egyezése fehérjék esetében. A közös domain nem jelent szükségképpen funkcionális egyezést vagy homológiát! Vektorszennyezés. Nukleinsav szekvenciák esetén az adatbázisba beküldött szekvencia tartalmazhat egy vektort. Repetitív elemek: Gyakran el!forduló elemek Eukarióta genomokban. Pl. transzpozábilis elemek, Alu-szekvenciák, poliglutamin CAG repeat, stb.! Külön adatbázisuk van, RepBase! Kisz"résük ún. repeat-maskerek-kel, mint pl. Censor, RepeatMasker Censor, példa http://www.girinst.org/censor/ Bemenõ szekvencia: humán kreatin kináz génjének részlete > HUMCKMM1 GGATCCTTCCTCCTTGGCCTCCCAAAGTGCTGGGATTACAGGTGTGAGCCACTGCACCTGGCCTATTACCCTTCTCAGGCTCTGGAGTCCATCCTTCTGCTCTGTCTCCCTCAGTTCAAT TGTTTTTTGTTTTTTGTTTTTTTTTTAGACACAGTCTCGCTCTGTCACCAAGGCTGGAGTGCAGCAGTGCGATCACAGCTCACCGCAGCCTCACCTCCCAGGCTCAAGTGATCCTCCCAT CTCGGCCTCTGAGTAGCTGAGACTATAGGTGTGTCCACATGTCCGGCTAATTTTTGTATTTTTAGTAGAGACAGGGTTTCACCGCGTTGGCCAGGGTGGTCTTGAACTCCTGAGCTCAAG CAATCCTCCTGCCTCAGCCTCCTTGTTTTGATTTTTAGATCCCACAAATAACTTGTGATGTTTGTCTTTCTATACCTGGTTCATTTAACATTTTCTTTTTCTTTTCTTTTCTTTTTTTTT TTTTTTGTGAGACTGAGTCTTGCTCTGTCACTCAGGCTGGAGGGCAATGGTGCATCTCAGCTCACTGCAACCTCCACCTCCTAGGTTCAAGCAATTCTTATGCCTCAGCCTCCTGGCTAG CTGGGATTACAGGCGTGTGTCACCATGCCAGGCTAATTTTTGTACTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTTGAACTCCTGGCCTCAAGTGATCCACCCGCCT CCGCCTCTGCCTCCCAAAGTGCTGGGATTACGGGCCTGAGCCACTGTGCCCGGCCCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA CENSOR futtatás eredménye: Megtalált repetitív elemek: kezdet vég elem neve humckmm1 2 63 Alu-Jb 1 62 c humckmm1 67 119 L1MA2 697 751 c humckmm1 138 382 Alu-Jb 42 29 c humckmm1 383 449 L1MA2 623 696 c humckmm1 451 48 (TTTTC) 5 33 d humckmm1 481 775 Alu-Sz 1 29 c A repetitív elemektõl megtisztított szekvencia (a törölt részek kiikszelve): GXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTATXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT TGTTTTTTGTTTTTTGTXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA RepeatMasker http://www.repeatmasker.org/cgi-bin/webrepeatmasker Leterhelt szerver, a beküldött szekvenciák sorbanállásra kerülnek Az eredmények tar.gz tömörítéssel tölthet!ek le! Standard linux/unix operációs szervereken! Windows nem tudja kezelni, külön program kell rá, pl. WinRar, http://www.rarlab.com/, de ez nem ingyenes Homológiakeresés az orvosi genomikában Humán betegséggének homológjainak megkeresése modellorganizmusokban! Egér! Gyümölcslégy! C. elegans! Éleszt!! stb. A funkció ismert lehet a modellorganizmusban, amelyr!l következtetni tudunk az emberben betöltött szerepre Ha funkció nem ismert, akkor a modellben könyebben vizsgálható mert:! Könnyebb a fenntartása, mint egy sejtkultúrának! Mutagenezis, szelektálás nagyméret", rövid generációs idej" populációkban! Kevésbé redundáns biokémiai rendszer

Mikor melyik modellt használjuk? Mitokondriális betegségeknél, sejt-autonóm géneknél éleszt!t Számos konzervatív gén meg!rizte funkcióját mind a Vertebrata és Invertebrata vonalon, ezekre (meglep!en) jó a gyümölcslégy Nyílvánvalóan vannak gerinces, ill. eml!s specifikus gének, amelyek csak egérben vizsgálhatóak, mint pl:! Négykamrás szív kialakításáért felel!s gének! Tejelválasztásért felel!s gének! Vázrendszer kialakításáért felel!s gének Nyílvánvaló feltétel, hogy az adott génnek az adott modellorganizmusban legyen funkcionális homológ párja, ehhez els! lépés a szekvenciális homológia kimutatása A Homophila adatbázis http://superfly.ucsd.edu/homophila/ 21-ben indult, folyamatosan frissül Az OMIM adatbázisban lev! géneket BLAST-olja össze a Drosophila melanogaster genommal A cél egy olyan adatbázis létrehozása, amely tartalmazza az ismert humán betegséggéneket és a gyümölcslégyben található homológjaikat Információt tartalmaz a Drosophila homlógok patológiájáról is A humán betegséggének kb. 75%-ának van homológja a gyümölcslégyben. (E < 1-1 ) A 239 ismert humán génb!l kb. 7 az, amelyik meggy!z!en azonos (E < 1-1 ) Homlóg gének a Homophila adatbázisban (Példák) Fejl!dési rendellenességek Rendelkezett: Bilaterális közös!s Polydaktylia Idegrendszeri betegségek Parkinson kór Altzheimer kór Huntington kór Tumor betegségek 6-8 szegmentb!l álló testtel Jól definiált idegrendszerrel Izomzattal Számos függelékkel Fényérzékel! szervvel Számos genetikai mechanizmus konzerválódott annak ellenére, hogy látványos morfológiai különbségek vannak Melanoma Retinoblastoma Regulációt szabályozó gének, pl. TWIST gén Szignál transzdukció, pl. Notch Emberben a gerinc kialakulásában van szerepe

Szignál transzdukció, pl. Notch CAG repeat okozta neurális betegségek Drosoplhilában a szárny erezettségében Kontrol szem, amely humán HSP7 fehérjét expresszál (GMR vezérelt, specifikusan a szemben expresszálódik) CAG repeat okozta neurális betegségek Degenerált szem, amely egy 78 glutaminból álló repeat szekvenciát tartalmazó mutáns MJDTr-Q78 expresszál További perspektívák Multigénes betegségek vizsgálata! Az emberben nagyfokú linkage disequilibrium lehet! Gyümölcslégyben gyors szelektálás lehetséges Genetikai szemantika! Az egyes vezérlési szerkezetek egymásravetítése két genomban! Genom hálózat modellezése CAG repeat okozta neurális betegségek A megfelel! humán chaperonnal való ko-expresszió nem okoz káros elváltozást Irodalomjegyzék Altschul et al. (199) Basic local alignment search tool. J. Mol. Biol. 215:43-41. Altschul et al. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucl. Asid Res. 25:3389-342. Park et al. (1998) Sequence comparison using multiple sequences detect three times as many remote homologues as pairwise methods. J. Mol. Biol. 284:121-121. Reiter et al. (21) A systematic analysis of Human disease-associated gene sequences in Drosophila melanogaster. Genome Research 11:1114-1125 Bier, E (25) Drosophyla, the golden bug, emerges as a tool for human genetics. Nature Reviews Genetics 6:9-23.