Bioinformatika 2 2. előadás

Hasonló dokumentumok
3. Páronkénti szekvencia összerendezés

Bioinformatika 2 4. előadás

Bioinformatika előad

A tárgy címe: Bioinformatika

Bioinformatika 2 6. előadás

3. Sejtalkotó molekulák III.

Gyakorlati bioinformatika

A fehérjék hierarchikus szerkezete

Bevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék

A genetikai lelet értelmezése monogénes betegségekben

Több oxigéntartalmú funkciós csoportot tartalmazó vegyületek

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

5. Másodlagos adatbázisok

Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Bioinformatika előadás

INFORMATIKA EMELT SZINT%

Bioinformatika 2 5. előadás

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

Bakteriális identifikáció 16S rrns gén szekvencia alapján

Problémák és megoldások a bioinformatikában. Válogatott fejezetek a bioinformatikából. Gyimesi Gergely, február 25.

BIOINFORMATIKA Ungvári Ildikó

Etológia Emelt A viselkedés mérése. Miklósi Ádám egyetemi tanár ELTE TTK Etológia Tanszék 2018

Bioinformatika előadás

A MOLEKULÁRIS BIOLÓGIA ISMERETÁBRÁZOLÁSI PROBLÉMÁI

A fehérjék hierarchikus szerkezete

Bioinformatika előadás

Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis

3. Sejtalkotó molekulák III. Fehérjék, enzimműködés, fehérjeszintézis (transzkripció, transzláció, poszt szintetikus módosítások)

A fehérjék térszerkezetének jóslása

A sejtek élete. 5. Robotoló törpék és óriások Az aminosavak és fehérjék R C NH 2. C COOH 5.1. A fehérjeépítőaminosavak általános

Közösség detektálás gráfokban

MEDICINÁLIS ALAPISMERETEK AZ ÉLŐ SZERVEZETEK KÉMIAI ÉPÍTŐKÖVEI AZ AMINOSAVAK ÉS FEHÉRJÉK 1. kulcsszó cím: Aminosavak

Assignment problem Hozzárendelési feladat (Szállítási feladat speciális esete)

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May

A Szállítási feladat megoldása

8. A fehérjék térszerkezetének jóslása

Bioinformatika 2 1. előadás

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Bioinformatika 2 10.el

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

Bioinformatika előad

Mai témák. Fehérjék dinamikájának jelentősége. Számítógépes modellezés jelentősége

Algoritmuselmélet 2. előadás

TAKARMÁNYOZÁSTAN. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

Citrátkör, terminális oxidáció, oxidatív foszforiláció

A tejfehérje és a fehérjeellátás

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A fehérjék szerkezete és az azt meghatározó kölcsönhatások

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Technológiai-üzemeltetési stratégiák csoportosítása hisztorikus idsorok szimbolikus epizód reprezentációján alapulva

A fehérjék hierarchikus szerkezete. Szerkezeti hierarchia. A fehérjék építőkövei az aminosavak. Fehérjék felosztása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

y ij = µ + α i + e ij

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

A fehérjék harmadlagos vagy térszerkezete. Még a globuláris fehérjék térszerkezete is sokféle lehet.

A humán mitokondriális genom: Evolúció, mutációk, polimorfizmusok, populációs vonatkozások. Egyed Balázs ELTE Genetikai Tanszék

Biomolekuláris nanotechnológia. Vonderviszt Ferenc PE MÜKKI Bio-Nanorendszerek Laboratórium

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

TDK lehetőségek az MTA TTK Enzimológiai Intézetben

Fehérjék szerkezetének predikciója, szerkezeti adatok felhasználása adatbázisok segítségével, a számítógépes molekuladinamikai modellezés alapjai

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

2. Visszalépéses stratégia

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztikai alapfogalmak

Adatok statisztikai értékelésének főbb lehetőségei

Tartalom Keresés és rendezés. Vektoralgoritmusok. 1. fejezet. Keresés adatvektorban. A programozás alapjai I.


A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.

Keresés és rendezés. A programozás alapjai I. Hálózati Rendszerek és Szolgáltatások Tanszék Farkas Balázs, Fiala Péter, Vitéz András, Zsóka Zoltán

Grafikonok automatikus elemzése

FEHÉRJÉK A MÁGNESEKBEN. Bodor Andrea ELTE, Szerkezeti Kémiai és Biológiai Laboratórium. Alkímia Ma, Budapest,

Szekvenciákat tartalmazó adatmátrixok rendezése kemometriai módszerrel

3. Egyenletek, egyenletrendszerek, egyenlőtlenségek

Algoritmusok bonyolultsága

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Rendszámfelismerő rendszerek

Az aminosav anyagcsere orvosi vonatkozásai Csősz Éva

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Nemzeti Akkreditáló Testület. SZŰKÍTETT RÉSZLETEZŐ OKIRAT (2) a NAT /2012 nyilvántartási számú akkreditált státuszhoz

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Enzimek. Enzimek! IUBMB: szisztematikus nevek. Enzimek jellemzése! acetilkolin-észteráz! legalább 10 nagyságrend gyorsulás. szubsztrát-specificitás

Biostatisztika VIII. Mátyus László. 19 October

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

[Biomatematika 2] Orvosi biometria

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László)

Lele Zsolt. MTA Kísérleti Orvostudományi Kutatóintézet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bioinformatika 2 1. előad

Kettőnél több csoport vizsgálata. Makara B. Gábor

2. Visszalépéses keresés

A Microsoft OFFICE. EXCEL táblázatkezelő. program alapjai as verzió használatával

Programozási módszertan. Dinamikus programozás: A leghosszabb közös részsorozat

Fehérjék rövid bevezetés

Programozás alapjai 9. előadás. Wagner György Általános Informatikai Tanszék

Informatikai alapismeretek Földtudományi BSC számára

Algoritmusok és adatszerkezetek gyakorlat 07

Átírás:

2. előadás Prof. Poppe László BME Szerves Kémia és Technológia Tsz. Bioinformatika proteomika Előadás és gyakorlat 2018.09.10.

N.M. Luscombe, D. Greenbaum, M. Gerstein: International Medical Informatics Association Yearbook, 2001, 83-100. A bioinformatikai tér 2 2018.09.10.

A. Kremer,R. Schneider, G.C. Terstappen, Biosci. Rep., 2005, 25, 95-106 A proteomikai összefügések kérdései 3 2018.09.10.

Bioinformatikai adatbázisok Adatbázisok: DNS szekvenciák: génazonosítás és génszerkezet; Genomadatbázisok, genomtérképek; Génexpressziós adatok; Fehérjék: fehérje szekvenciák, fehérje szekvencia minták, Térszerkezeti adatbázisok, Proteom analízis; Enzim adatbázis, Metabolizmus adatbázisok; Molekuláris kölcsönhatások: fehérje-fehérje, ligandum adatbázisok, gyógyszeradatbázisok 1. Nukleinsav szekvencia adatbázisok - Elsődleges DNS szekvencia adatbázisok - Specializált adatbázisok 2. Fehérje szekvencia adatbázisok - Elsődleges fehérje szekvencia adatbázisok - Másodlagos és harmadlagos (szekvencia mintázat) adatbázisok - Összetett fehérje szekvencia adatbázisok 3. Térszerkezeti adatbázisok 4. Fehérjecsaládok adatbázisai - Klaszterezés - Szekvenciacsaládok adatbázisai - Szerkezeti családok adatbázisai 4 2018.09.10.

Szekvenciaanalízis A bioinformatika legfontosabb eljárása: új (ismeretlen szerkezetû/funkciójú fehérjéhez tartozó) szekvenciához hasonló keresáse a már ismert szerkezetű / funkciójú fehérjék szekvenciái között. Szekvenciák összerendezése (vagy illesztése) (alignment): Szekvenciaazonosság: az összerendezésben az azonos aminosavpárok százalékos aránya A szekvenciaazonosság csökkenésével a funkció/szerkezet átvihetősége csökken 5 2018.09.10.

Szekvenciaanalízis Páronkénti összehasonlítás 6 2018.09.10.

Szekvenciaanalízis problémái Az ortológia és a paralógia kérdése: Új szekvenciák elemzésénél kérdéses, hogy a funkcionális információ mennyire alkalmazható az új fehérjére (hasonló szekvencia egy másik szervezetben lehet az ortológ paralógja közös eredet, de az evolúció során kialakuló új funkció a másik szervezetbéli fehérjének). Ez az automatikus funkció hozzárendelést sokszor megtéveszti (vigyázzunk az automatikus hozzárendeléseket tartalmazó adatbázisokkal)! A moduláris fehérjék esetében a szekvenciahasonlóság sokszor csak a szekvencia egy részére vonatkozik. 7 2018.09.10.

Moduláris fehérjék Modulok: cserélhető építőelemként szerepelő fehérjedomének (pl. alább az A membránfehérje egy modulja a B fehérjébe béépülve új szerkezetet alakít ki) Az evolúció során a modulok funkciója változhat más-más fehérje részeként => szekvencia hasonlóság, de eltérő funkció 8 2018.09.10.

Szekvenciaanalízis problémái Akár nagy szekvencia és szerkezeti hasonlóság esetén is teljesen eltérő lehet a funkció. Pl.: a nagyon hasonló térszerkezetű laktalbumin és lizozim között 50%-os a szekvencia azonosság, ám a két fehérje teljesen más funkciójú ( laktalbumin: laktóz szintáz szabályozófehérje; lizozim: baktérium sejtfalát emésztő hidroláz) laktalbumin lizozim => Az ismert funkciójú fehérjék szekvenciái alapján a nem jellemzett szekvenciák kb. egyharmadának nem lehet a funkciójára következtetni 9 2018.09.10.

Szekvenciaanalízis problémái A szekvencia összehasonlítás két vagy több szekvencia szignifikánsan hasonló zónáinak megtalálását jelenti. A fő probléma annak eldöntése, mi is a szignifikáns ha biológiai szekvenciákról beszélünk. A legtöbb célra számos különböző megközelítés létezik. 10 2018.09.10.

Nukleinsav szekvencia adatbázisok Elsődleges DNS szekvencia adatbázisok (International Nucleotide Sequence Database Collaboration http://www.insdc.org/) DDBJ (Japán, DNA Data Base of Japan - National Institute of Genetics) ENA/EBI (Európa, European Bioinformatics Institute) NCBI (GenBank, USA, National Center for Biotechnology Information) Szekvenciaadatok gyűjtése: kutatóktól közvetlenül irodalomi adatokból szabadalmakból genomszekvenálási projektekből 11 2018.09.10.

Szekvenciaanalízis problémái Kezdjünk egy egyszerű szekvencia-párral (a függőleges vonalak az egyezést jelentik): Egy konzervált régió látszik. Van-e jobb egyezés? Csúsztassuk el a két szekvenciát! A konzervált régió nagyobb. A konzervált régió nagyobb. Van-e jobb egyezés? Iktassunk be hézagokat! A konzervált régió még nagyobb. 12 2018.09.10.

Szekvenciaanalízis problémái Iktassunk be hézagokat! A konzervált régió még nagyobb. Akár teljes azonosságot érhetünk el az összerendezés során, ha korlát nélkül hézagokat (törléseket) szúrunk be!! => korlátot kell állítani. A két szekvencia között kis azonosság látszik: A helyzet drámaian változik, ha az alsó láncot vízszintesen tükrözzük (5 és 3 végek felcserélése) => Az összefüggéseket számítógéppel kell elemezni 13 2018.09.10.

Azonossági mátrixok Hézagok korlátlan beszúrásának biológiailag nincs értelme. A hézagok létrehozását korlátozni kell - ez büntetőpontokkal oldható meg: - Új hézag beszúrásakor: (gap opening penalty) - Meglevő hézag növelésekor: (gap extension penalty) Ha szekvencia összerendeléskor csak az azonosságokat vesszük figyelembe a pontozásnál, akkor egységmátrixot használunk: Nukleotid egységmátrix 14 2018.09.10.

Azonossági mátrixok Protein egységmátrix Az egységmátrixok ritka mátrixok. Mivel a teljes egyezést veszik figyelembe egyenlő súllyal, hasonlósági keresésnél nem kedvezõek,. 15 2018.09.10.

Aminosav hasonlósági mátrixok Biológiai jelentéssel bíró összerendezésnél eltérő aminosavak is kerülnek egymás alá, nem mindegy tehát, hogy mi mire cserélődik: Lazább aminosav hasonlósági mátrixokra is szükség van. Ezekben az aminosavak hasonlóságát pontozzák. Hátrány: nő a "zaj" (több hibás találat nem rokon fehérjékkel) Mivel a jel/zaj arány a hasonlósági mátrixtól függ, a jó aminosav hasonlósági mátrixok megalkotása önálló kutatási terület. Hasonlósági mátrix készíthető statisztikai alapon (pl. mutációs gyakoriságok) vagy az aminosavak fizikai kémiai tulajdonságai alapján. A két leggyakoribb mátrixot (PAM ill. BLOSUM) mutációs statisztikák segítségével készítették. Az összerendezés során hasonlósági mátrix felhasználásával az azonosság mellett hasonlósági érték is számítható (pl. a hasonlósági % a pozitív hasonlósági pontszámú aminosavpárok %-a) 16 2018.09.10.

Dayhoff féle PAM mátrixok Dr. Margaret Oakley Dayhoff és mtsai: A 70 es években ismert, kézzel összerendezett, >85% azonosságú szekvenciák normalized probabilities multiplied by 10000 összehasonlításából aminosavcserék valószínűségét számították. Hydrophilic Amino Acids Sulfhydryl Aliphatic Basic Aromatic Special Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18 R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1 N 4 1 9822 36 0 4 6 6 21 3 1 13 0 1 2 20 9 1 4 1 D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1 C 1 1 0 0 9973 0 0 0 1 1 0 0 0 0 1 5 1 0 3 2 Q 3 9 4 5 0 9876 27 1 23 1 3 6 4 0 6 2 2 0 0 1 E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2 G 21 1 12 11 1 3 7 9935 1 0 1 2 1 1 3 21 3 0 0 5 H 1 8 18 3 1 20 1 0 9912 0 1 1 0 2 3 1 1 1 4 1 I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33 L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15 K 2 37 25 6 0 12 7 2 2 4 1 9926 20 0 3 8 11 0 1 1 M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4 F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0 P 13 5 2 1 1 8 3 2 5 1 2 2 1 1 9926 12 4 0 0 2 S 28 11 34 7 11 4 6 16 2 2 1 7 4 3 17 9840 38 5 2 2 T 22 2 13 4 1 3 2 2 1 11 2 8 6 1 5 32 9871 0 2 9 W 0 2 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 9976 1 0 Y 1 0 3 0 3 0 1 0 4 1 1 0 0 21 0 1 1 2 9945 1 V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 2 9901 17 2018.09.10.

Dayhoff féle PAM mátrixok PAM Accepted Point Mutation (olyan mutáció, amely nem érinti negatívan a fehérje fittségét ) PAM egyúttal az evolúciós távolság mértékegysége is: 1 PAM az az evolúciós távolság (~ időtartam), amely két, eredetileg megegyező szekvencia között pontmutációkkal 1% eltérést hoz létre. "relatedness odds matrix" (rokonsági esély mátrixa): Az XY aminosavcsere valószínûsége adott idő alatt (PAM ban mérve) számítható, osztva az X és az Y aminosav gyakoriságával > Két szekvencia összehasonlításakor a PAM mátrixokat az egymást követő pozíciókra össze kell szorozni "log odds" mátrix > a szorzás helyett egyszerûbb a logaritmusokat összeadni 18 2018.09.10.

Log odds" mátrix (250 PAM) Pozitív értékek: konzervatív cserék, negatív értékek: valószínűtlen cserék. Az aminosavak tulajdonságaik szerint csoportosítva vannak felsorolva, ezért az átló közelében 19 2018.09.10. a pontszámok nagyobbak

Log odds" mátrix (250 PAM) PAM 1: 1 elfogadott mutáció per 100 aminosav; PAM 250: 250 elfogadott mutáció per 100 aminosav PAM 250: 20% azonosság PAM 120: 40% azonosság PAM 80: 50% azonosság PAM 60: 60% azonosság A PAM 250 mátrixot gyakran használják, mivel ez a kritikus kb. 20% szekvencia azonosságnak felel meg (1 PAM időtartam: 1% eltérést okozó pontmutáció, 250 PAM idő alatt kb. 80% nyi eltérést okozó pontmutáció). PAM mátrixok hátránya: - viszonylag kis számú, kézzel összerendezett szekvenciából származnak az adatokat - >85% azonosságú szekvenciapárokból ered, kisebb azonosságokra csak extrapoláció 20 2018.09.10.

Henikoff és Henikoff (PNAS 1992, 89, 10915-10919) BLOSUM mátrixok A fehérjecsaládok többszörösen összerendezett szekvenciablokkjait tartalmazó BLOCKS adatbázison alapul. A szekvenciákból szekvenciahasonlóság alapján csoportokat, klasztereket képeznek (pl. a >62% azonosságot mutató szekvenciák egy csoportba kerülnek). Az azonosság mértéke alapján különböző klaszterek képezhetőek (80%, 60%, 40%, stb.). A klaszterekben megtalálható szekvenciák alapján aminosav helyettesítési mátrixokat számolnak (=> BLOSUM 80, BLOSUM 60, BLOSUM 40, stb. mátrixok); Gyakran alkalmazzák a BLOSUM 62 mátrixot (összevethető a PAM 250-el). A BLOSUM mátrixok biológiailag általában helyesebb összerendezéseket adnak, mint a PAM mátrixok. 21 2018.09.10.

A BLOSUM 62 mátrix 22 2018.09.10.

A PAM és BLOSUM mátrixok A BLOSUM és a PAM mátrixok eltérő aminosavcseréket preferálnak: a + preferált csere jelek másutt vannak az PAM 250 (a) és BLOSUM 62 (b) összerendelésekben. Pl.: 23 2018.09.10.

Statisztikai szignifikancia Mivel elegendő hézag beszúrásával gyakorlatilag bármely két szekvencia összerendezhető => szükséges a jóság számszerűsítésére A megbízhatőságot jellemző statisztikai paraméterek, pl. P érték: a globális szekvenciaösszevetés során annak a valószínűsége, hogy az adott összerendezés a véletlen eredménye. A kis értékek jók. E érték (expected frequency - várható gyakoriság): az adatbázisban történő keresés során a véletlennek tulajdonítható találatok száma. A kisebb értékek jobbak. 24 2018.09.10.

Dotplot elemzés A Dotplot elemzés áttekintést ad a lehetséges összerendelésekről. Aminosavak/nukleotidok egyezése/hasonlósága esetén a megfelelő helyen egy pont (vagy X) van. Az ideális eset: két azonos szekvencia 1. Szekvencia 2. Szekvencia T A T C G A A G T A T A T C G A A G T A A szekvencia minden betűjét összerendezzük a másik szekvencia minden betűjével A dotplot egy átlót mutat Más találatok is vannak Csak zaj vagy értelmük is lehet? 25 2018.09.10.

Dotplot elemzés Hasonló szekvenciák (rokon fajok lizozimjei) Távoli, de rokon szekvenciák (lizozim és alfa laktalbumin): 26 2018.09.10.

Lokális és globális hasonlóság Lokális hasonlóság: hasonlóság csupán egyes régiókban figyelhető meg Globális hasonlóság: a hasonlóság a szekvencia teljes hossza mentén észlelhető Globális hasonlóság: hézagos ha a szekvenciák túl különbözőek Az összerendezés jósága nem értelmezhető abszolút értelemben, a különböző matematikai modelleket más más biológiai szempontokat figyelembe véve dolgozták ki. A hasonlóság keresésekor a lokális hasonlóságot célszerű keresni - a fehérjék gyakran moduláris felépítésűek => a funkció szempontjából fontos helyek gyakran rövidebb szakaszok - a lokális keresés gyorsabb 27 2018.09.10.

Needleman SB, Wunsch CD. J Mol Biol 1970, 48(3), 443-453. Globális összerendezés Needleman Wunsch algoritmus Needleman, Wunsch 1970 (+ további fejlesztések): A dinamikus programozás első alkalmazása biológiai szekvenciák összevetésére. Két szekvencia maximális egyezését keressük, lehetséges deleciókkal. Gap penalty érvényesül. Dotplotból kiindulva felírunk egy mátrixot - Ezután a jobb alsó sarokból indulva, jobbról balra és lentről felfelé haladva mindegyik cella tartalmához hozzáadjuk három érték közül a legnagyobbat. A három érték: 1. a cellától jobbra és lefelé eső cella tartalma 2. az eggyel lejjebbi sor és legalább kettővel jobbra lévő oszlop elemeinek gap penaltyvel csökkentett értékeinek maximuma 3. az eggyel jobbra lévő oszlop és legalább kettővel lejjebbi sor elemeinek gap penaltyvel csökkentett értékeinek maximuma A rekurzív algoritmust megfelelő hasonlósági mátrixokkal (pl. PAM, BLOSUM) alkalmazva jó minőségú optimális összrendezések nyerhetők (maximális pontszám a hasonlóságokat és a gap penaltyket figyelembe véve) 28 2018.09.10.

Smith TF, Waterman MS J Mol Biol 1981, 147, 195 197. Lokális összerendezés Smith Waterman algoritmus Smith, Waterman 1981 (+ további fejlesztések): A Needleman, Wunsch 1970 algoritmushoz hasonlóan dinamikus programozási alkalmazás a biológiai szekvenciák összevetésére, amely rövid, lokálisan hasonló régiókat is megtalál. Két fő eltérés a Needleman, Wunsch 1970 algoritmushoz képest: 1. A különbözõ (ill. nem hasonló) aminosavak párosítását negatív pontszámmal kell pontozni (és nem nullával) 2. A mátrix kitöltésénél negatív értéket nem engedünk meg; ha negatív érték jönne ki, helyette 0 t írunk be. A mátrix mindegyik cellája egy lehetséges lokális összerendezés végpontja (jobb szélső eleme), az ehhez tartozó maximális hasonlósági pontszámot írjuk a cellába. 29 2018.09.10.

Gyors algoritmusok A Needleman Wunsch vagy Smith Waterman algoritmusok alaposak, de nagy mennyiségú szekvenciához nem elég gyorsak => a hatékony kereséshez gyors algoritmusok kellenek => FASTA, BLAST: rövid, azonos/hasonló szakaszok kereséséből indulnak ki E vagy P értéket adnak. Paraméterek változtathatóak (pl. gap penalty, ez a szelektivitást és az érzékenységet befolyásolja). A szelektivitás (a valódi homológok megtalálása) és az érzékenység (távoli homológok megtalálása) általában egymás rovására változnak. 30 2018.09.10.

Lipman DJ, Pearson WR. Science 1985, 227(4693), 1435-1441. FASTA algoritmus Kiindulópont: rövid, azonos, k hosszúságú "szavakat" (k tuple) keres a két szekvencia között. (Fehérjék: k=1 2, DNS: k=4 6) Elegendő számú egyezésnél dinamikus programozással (Smith Waterman) összerendezést számít 31 2018.09.10.

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ J Mol Biol 1990, 215(3), 403 410. BLAST algoritmus Altschul és mtsai (1990 + későbbi bővítések, finomítások): Basic Local Alignment Search Tool, or BLAST: igen hatékonyan implementálható, párhuzamosítható és nagyon gyors Kiindulópont: adott hosszúságú, adott értéknél magasabb hasonlósági pontszámú szegmenspárokat (HSP, High Scoring Pair) nem pedig azonosságot keres a két szekvencia között. Találat esetén ezeket beállított paraméterek eléréséig mindkét irányba növeli. Gap nélküli összerendezéseket szolgáltat, ezért gyakran több szegmenspárt is megad Gapped BLAST (Altschul et al. 1997): Csak egy szegmenspárt keres, aztán azt nyújtja mindkét irányba dinamikus programozással. 3 szor gyorsabb a gap nélküli BLAST nál. PSI BLAST: még érzékenyebb, többszörös összerendezéseket használ Magic-BLAST (NCBI, 2016): új generációs RNS és DNS BLAST (WGS adatokhoz) 32 2018.09.10.