Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK
Fehérjét kódol? Tulajdonságai? -Hol lokalizálódik? -Oldható? -3D szerkezete? -Accession #? -Annotációja elérhető? Már benne van az adatbázisokban? PCReztél,klónoztál egy gént, szekvencia a kezedben Egyéb információ? -Expresszió? -Mutációk? Vannak konzervált szakaszai? Illesztések? Domének? Funkciója? Vannak hasonló szekvenciák? -azonosság mértéke? % -Géncsalád/fehérjecsalád? Rokonsági kapcsolatok? -Törzsfa
NUKLEOTID SZEKVENCIA ADATBÁZISOK NCBI Genbank (USA) DDBJ (DNA DataBase of Japan) European nucleotide archive EBI TGI Gene Index Project Genom adatbázisok
FEHÉRJE ADATBÁZISOK - Swissprot manuálisan annotált, ellenőrzött - A Swissprotba még be nem került szekvenciák, fordítás alapján készült, szoftveresen annotált, nem ellenőrzött! - 3D szerkezetek alapján létrehozott szekvenciák PIR Protein Information Resource (UniProt konzorcium tagja)
SPECIALIZÁLT ADATBÁZISOK Faj, szövetspecifikus, szignál transzdukciós útvonal specifikus, stb ESTs Expressed Sequence Tag Gene Expression Omnibus (NCBI) Drosophila adatbázis TRANSFAC Transzkripciós faktor adatbázis Rfam RNS családok adatbázisa
Hogyan is kezdődött? Margaret Oakley Dayhoff : Az első fehérje adatbázis (1965) Az első program a szekvenciák illesztésére
Biológiai adatokat elérni, elemezni, tárolni, annotálni, vizuálisan elemezni Mi kellett ehhez? Jó számítógép Tároló kapacitás Megfelelő algoritmusok Valami megfelelő formátum Egymással összefüggő adatbázisok
Notepad, a barátunk TXT = fasta, genbank, xml, aln, nwk, cff
fasta formátum > Jellel kezdődik, mögötte bármilyen az adattal kapcsolatos információ jöhet, majd a szekvencia új sorban, általában 60-80 nukelotidos sorokba betördelve Lehet nukleotid és lehet peptid szekvencia is! Tömör, lényegre törő Számos alkalmazás bemeneti adata Mi magunk is tudunk fasta fileokat gyártani
GenBank formátum Sok információt (ANNOTÁCIÓT) tartalmaz Nukleotid/Fehérje fastahoz képest kevésbé használják Előfordulhat, hogy pont az annotációra van szükségünk! Pl. referenciák, dns vagy mrns? milyen fajból? milyen szövetből?
Accession # A DNS vagy fehérje adat egyedi azonosítója Adott adatbázisra vonatkozik minden adatbázis más azonosító Lehetnek változatai Nem feltétlenül jelent unikális szekvencia információt pl.: ugyanazt a gént többen megtalálták, más-más azonosítóval jelölik Gén index (gi) egyedi azonosító és leginkább az NCBI használja, irodalomban szinte soha nem használjuk
Annotáció Minden amit arról a biológiai adatról tudnunk kell GenBank formátum Mi ez? Honnan származik #1? Publikáció? Honnan származik #2? faj molekula típusa fajta kromoszóma szövet fejlődési állapot mérete neve Szekvenciával kapcsolatos infók UniProt Q43659 Szekvencia
TrEMBL
Kereszt referenciák Milyen azonosítóval találjuk meg más adatbankokban? Ugyanaz a gén -sok fajtában -több kópiában Van róla szerkezet infó Melyik fehérje család? Milyen domének/funkció
Protein FAMilies Újabb és újabb infók (újabb fajokban, fajtákban azonos szekvencia, további publikációk, újabb információk (pl. promoter, szignál peptid)!
Hogyan kereshetünk a szekvencia adatbázisokban? Szabadszavas keresés gén neve (pl. Glu-A1x) fehérje család neve (pl. HMW glutenin) tovább szűkíthető pl. complete /partial seq pl. csak T. aestivumban Szekvencia alapján PCR szekvenálás- kromatogram-szekvencia
Szabadszavas keresés pl. NCBI Pl.: Grain softness protein Irodalom Egészségügyi vonatkozások Taxonómiai infók NUKLEOTID Expresszió Primerek
Szabadszavas keresés pl. NCBI Genom szintű információk Milyen genomokban? SNP variabilitás? gdna, cdna klóntárak? Gén szintű adatok Homológok? Expressziós profilok? FEHÉRJE ADATOK Konzerváltság? Domainek, funkció? Rokon fehérjék? Szerkezet? Milyen szabályozási útvonalakban vesz részt?
Nagyon sok találat lehet! Érdemes szűrni!
Keresés hasonlóság alapján Kell hozzá egy vagy több szekvencia (QUERY), amit egy másik szekvenciához, vagy egy adatbázis adataihoz hasonlítunk (SUBJECT) Kell hozzá egy megfelelő algoritmus (pl. BLAST, FASTA stb.) A keresés gyors és elég szenzitív kell legyen FASTA két szekvenciát hasonlít össze, hasonló nukleotid szekvenciák összehasonlítása esetében jobb, mint a BLAST BLAST jóval gyorsabb, általában véve hasonlóan érzékeny algoritmus - lokálisan illeszt - eredmény adott szempontok alapján értékelve (pl. score, e- value) - beállítható paraméterek (wordsize, gap cost, match scores, treshholds, stb) Wordsize - BLAST-nál protein wordsize min. 3 DNS min. 11
Variációk FASTA: FASTX: TFASTA: nukleotid/nukleotid vagy fehérje/fehérje Lefordított DNS-t fehérjéhez Fehérjét lefordított DNS-hez BLASTN: BLASTP: BLASTX: TBLASTN: TBLASTX: nukelotid / nukleotid adatbázis fehérje / fehérje adatbázis 6-frame fordított DNS / fehérje adatbázis fehérje / 6-frame fordított DNS adatbázis 6-frame fordított DNS / 6-frame fordított DNS adatbázis
Illesztés
Lokális vagy globális
Dilemma: DNS vagy fehérje adatbázisban keressünk? Attól függ!!! Mi a cél? (Pl. PCR primer tervezés, akkor DNS) Mi a biológiai kérdés? (pl. expresszált legyen? ) Melyikkel pontosabb? Melyikkel veszítünk kevesebb adatot? Hasonlóság alapján Melyiket??? Nukelotid szekvencia A, C, G, T nem kódoló Fehérje aminosav szint fehérje funkciója?
Dilemma: DNS vagy fehérje adatbázisban keressünk? Először fehérje szinten, utána nukleinsav szinten Mennyire átlátható, ha két nukleotid szekvenciát hasonlítunk össze? 3 x az aminosavak száma és csak A, C, T, G akár több ezer betű Mennyire pontos? Például egy 50%-os szekvencia azonosság sok vagy kevés? Jelenthet jó, de jelenthet rossz illesztést is! Ha lefordítjuk a nukelotid szekvenciát veszíthetünk információt? Degenerált kodontábla (egy aminosavat több kód is jellemezhet) Nagyon eltérő DNS szekvencia kódolhat hasonló fehérjét, hasonló DNS kódolhat nagyon eltérő funkciójú fehérjét
Konzerváltság fehérje szinten erősebb! DNS szinten jóval gyakoribb a mutáció, de ez nem feltétlen jelent változást fehérje szinten Domainek jelentősége Fehérjék funkciója, foglalkozása (Gene Ontology, GO terms)
Pár tipp a szekvencia adatbázisok használatához Használd a legfrissebb adatbázis verziókat. Elsőként BLASTolj! Utána jöhetnek a finomabb módszerek (FASTA, ) FASTA esetén mindkét szálon keress! Ha egy mód van rá fordítsd le nukleotidból aminosav sorenddé Mind a hat transzlációs keretet használd! E < 0.05 statisztikailag szignifikáns, általában biológiailag is értelmes eredmény. Ha a szekvenciád sok ismétlődő szakaszt tartalmaz készíts egy olyan szekvencia változatot, amiből ezeket törlöd és így ismételd meg a szekvencia keresést!
Hogy tudjuk elmenteni a találatokat? Fasta formátumban Igényeinknek megfelelően szűrt keresés után Akár több szekvnciát egyszerre Ne használj Word-öt a szekvenciák mentéséhez, szerkesztéséhez!!! A Word formáz, felesleges karaktereket szúr be!!! Nem tudod fasta formátumban menteni! Notepad stb. Táblázatos jellegű adatokat (pl. blast találati listáját) csv formátumban
Genomok genom projektek, genomböngészők Virális RNS genom bakteriofág MS2 (Fiers, 1976) Phi X174 Phage genom az első DNS genom (Sanger, 1977) Első baktérium genom- H. influenzae (1995) Első eukarióta genom S. cerevisiae (1995) Első növény Arabidopsis thaliana (2000) kétszikűek modell növénye Első egyszikű Oryza sativa (2002) Humán genom (2003) Jelentős technológiai fejlődés
Genomok mérete kódoló vs. nem kódoló Plant Genome Composition: Junk vs. Genes Arabidopsis Moss Rice Tomato Soy Canola Potato Human repetitive junk DNA (C. Guze 2005) Grass Corn Wheat valuable genespace
Miért kell nekünk ennyi (növényi) genomot szekvenálni? Új gének azonosítása Promoterek / génexpresszió szabályozása Génexpressziós vizsgálatok (qrt PCR, microarray, RNAseq) Metabolikus és szabályozási útvonalak mi, mikor, hol, miért, mit csinál? signalling Környezeti változások abiotikus (pl. fagy, hő, szárazság, só ) biotikus (kártevők ) Fejlődés biológiai ismeretek Nagyobb terméshozam, stabilitás Táplálkozástani vonatkozások Rokonsági kapcsolatok (pl. ha megvan a rizs szekvenciája, sokat elárul a búzáról is)
A hexaploid búza genomjának szekvenálása - A nagy kihívás International Wheat Genome Sequencing Consortium (www.wheatgenome.org) AA, BB, DD 3 pár genom Genomonként 7 kromoszóma Mérete 4 x humán genom Rengeteg a repetitív szakasz
Genom browserek
Genom browserek
Genom browser Rengeteg információ vizuális megjelenítés szükséges Vonalzó szerű kromoszóma ábrázolás, zoomolható Gének tulajdonságok a genomhoz illesztve
Genom browserek Kereshető Gén szerkezete irányultsága, 3 és 5 UTR, promoter, exon/intron) Hasonló szekvenciák kereshetőek Ortológok és paralógok Gén, transzkript, fehérje információk Expressziós adatok elérhetőek (EST szekvenciák ugyanúgy illesztve) pl. melyik szövetben termelődik?
Genom szinténiák Teljes genomok egymáshoz illeszthetőek Konzervált kromoszóma szakaszok, lókuszok stb Evolúciós elemzések
Hátradőlhetünk? Egy szekvenált genom = egy fajta genomját jelenti pl. búza Chinese Spring nevű fajta -ez egy nem termesztett fajta - minősége nem jó állatorvosi ló Amire kíváncsiak lennénk: a termesztett fajták hasznos tulajdonságokra nézve mekkora a változatosság? mi az ami meg is nyilvánul (fehérje expresszió) Megéri-e új és új fajtákat teljes egészében megszekvenálni? - NEM!!! csak amire kíváncsiak vagyunk NGS projectek, SNP analízis Humán genom 1000 genomes egyedi orvoslás
juhasz.angela@agrar.mta.hu MTA Agrártudományi Kutatóközpont Mezőgazdasági Intézet Alkalmazott Genomikai Osztály