Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

Hasonló dokumentumok
Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

A tárgy címe: Bioinformatika

Gyakorlati bioinformatika

Human genome project

Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola

BIOINFORMATIKA Ungvári Ildikó

NÖVÉNYI GENOMIKA JÓRI BALÁZS

I. A sejttől a génekig

A szamóca érése során izolált Spiral és Spermidin-szintáz gén jellemzése. Kiss Erzsébet Kovács László

Bioinformatika 2 4. előadás

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017

10. Genomika 2. Microarrayek és típusaik

Hazai méhészeti genomikai és genetikai vizsgálatok

Fehérjék rövid bevezetés

Conserved ortholog set (COS) markerek térképezése Aegilops kromoszómákon

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

Génkifejeződési vizsgálatok. Kocsy Gábor

Genetikai panel kialakítása a hazai tejhasznú szarvasmarha állományok hasznos élettartamának növelésére

Kromoszómák, Gének centromer

Bioinformatika 2 2. előadás

Human Genome Project, évvel a tervezett befezés előtt The race is over, victory for Craig Venter. The genome is mapped* - now what?

Bevezetés a bioinformatikába. Harangi János DE, TEK, TTK Biokémiai Tanszék

Fehérje expressziós rendszerek. Gyógyszerészi Biotechnológia

Bioinformatika gyakorlat csilabusz

A DNS szerkezete. Genom kromoszóma gén DNS genotípus - allél. Pontos méretek Watson genomja. J. D. Watson F. H. C. Crick. 2 nm C G.

Összefoglalás első fejezete

Bioinformatika előadás

DNS-szekvencia meghatározás

TEMATIKA Biokémia és molekuláris biológia IB kurzus (bb5t1301)

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bevezetés. Cserző Miklós 2018

Molekuláris evolúció második gyakorlat

MTA ATK Mezőgazdasági Intézete, Alkalmazott Genomikai Osztály, Martonvásár

Genetika. Tartárgyi adatlap: tantárgy adatai

A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.

Az X kromoszóma inaktívációja. A kromatin szerkezet befolyásolja a génexpressziót

transzláció DNS RNS Fehérje A fehérjék jelenléte nélkülözhetetlen minden sejt számára: enzimek, szerkezeti fehérjék, transzportfehérjék

Az orvosi biotechnológiai mesterképzés megfeleltetése az Európai Unió új társadalmi kihívásainak a Pécsi Tudományegyetemen és a Debreceni Egyetemen

TÉMAKÖRÖK. Ősi RNS világ BEVEZETÉS. RNS-ek tradicionális szerepben

Bioinformatika 2 10.el

A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet

Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Doktori (Ph.D.) értekezés. Készítette: Sebestyén Endre

ADATBÁNYÁSZAT I. ÉS OMICS

Molekuláris biológiai eljárások alkalmazása a GMO analitikában és az élelmiszerbiztonság területén

A minimális sejt. Avagy hogyan alkalmazzuk a biológia több területét egy kérdés megválaszolására

A humán mitokondriális genom: Evolúció, mutációk, polimorfizmusok, populációs vonatkozások. Egyed Balázs ELTE Genetikai Tanszék

Bioinformatika előadás

A genetikai lelet értelmezése monogénes betegségekben

Mangalica specifikus DNS alapú módszer kifejlesztés és validálása a MANGFOOD projekt keretében

A termesztett búza diploid őseinek molekuláris citogenetikai elemzése: pachytén- és fiber-fish.

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May

Molekuláris genetikai vizsgáló. módszerek az immundefektusok. diagnosztikájában

Bakteriális identifikáció 16S rrns gén szekvencia alapján

Biomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással

A bioinformatika gyökerei

A Multi Locus Sequence Typing (MLST) alkalmazhatósága az élelmiszermikrobiológiában

DNS replikáció. DNS RNS Polipeptid Amino terminus. Karboxi terminus. Templát szál

Szekvencia összehasonlítások II. Bioinformatika és genom analízis az orvostudományban (AOGENBIG_1M)

10. CSI. A molekuláris biológiai technikák alkalmazásai

A búzaszem fejlődésében szerepet játszó gének azonosítása bioinformatikai és molekuláris módszerekkel. Doktori (Ph.D.) értekezés SZŰCS ATTILA

A C. elegans TRA-1/GLI/Ci szex-determinációs faktor célgénjeinek meghatározása és analízise. Doktori értekezés tézisei.

A géntechnológiát megalapozó felfedezések

A doktori értekezés tézisei. A növényi NRP fehérjék lehetséges szerepe a hiszton defoszforiláció szabályozásában, és a hőstressz válaszban.

NÖVÉNYGENETIKA. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

TDK lehetőségek az MTA TTK Enzimológiai Intézetben

Új temékek az UD-GenoMed Kft. kínálatában!

7. SOKFÉLESÉG. Sokféleség

13. RNS szintézis és splicing

PROGRAMFÜZET. "GENETIKAI MŰHELYEK MAGYARORSZÁGON" XIII. Minikonferencia SZEPTEMBER 12.

A fehérjék térszerkezetének jóslása (Szilágyi András, MTA Enzimológiai Intézete)

Humán genom variációk single nucleotide polymorphism (SNP)

Transzgénikus növények alkalmazása a funkcionális genomikai kutatásokban

Az AHL szabályzórendszer génjei. Doktori disszertáció tézisei. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar

A genomikai oktatás helyzete a Debreceni Egyetemen

A bakteriális kommunikáció és kooperáció génjeinek elhelyezkedése ismert genomokban.

HAPMAP Nemzetközi HapMap Projekt. SNP GWA Haplotípus: egy kromoszóma szegmensen lévő SNP mintázat

A mutáns fenotípushoz szorosan kapcsolt markerek (1N1R és U212D) segítségével BAC (Bacterial Artifical Chromosome) klónokat azonosítottunk egy másik

avagy az ipari alkalmazhatóság kérdése biotechnológiai tárgyú szabadalmi bejelentéseknél Dr. Győrffy Béla, Egis Nyrt., Budapest

Enumerációs-alapú diád predikciós algoritmus alkalmazása növényi promóterek analízisében. Cserháti Mátyás

NANOTECHNOLOGIA 6. előadás

A replikáció mechanizmusa

Az Ig génátrendeződés

Bioinformatika előadás

Molekuláris biológiai adatbázisok és adatbázis keresések. Barta Endre Tóth Gábor MBK Bioinformatikai Csoport

Biológus MSc. Molekuláris biológiai alapismeretek

Az ADA2b adaptor fehérjéket tartalmazó hiszton acetiltranszferáz komplexek szerepének vizsgálata Drosophila melanogaster-ben

Többgénes jellegek. 1. Klasszikus (poligénes) mennyiségi jellegek. 2.Szinte minden jelleg több gén irányítása alatt áll

NUKLEINSAVAK. Nukleinsav: az élő szervezetek sejtmagvában és a citoplazmában található, az átöröklésben szerepet játszó, nagy molekulájú anyag

A géntechnológia genetikai alapjai (I./3.)

ÚJ GENERÁCIÓS SZEKVENÁLÁS

nyekkel kapcsolatos szabályoz lyozás Központi Budapest BME 2009

A felgyorsult fehérje körforgás szerepe a transzlációs hibákkal szembeni alkalmazkodási folyamatokban

PROKARIÓTA GENOMOK ÖSSZEHASONLÍTÓ ANALÍZISE BIOINFORMATIKAI MÓDSZEREKKEL. Doktori (Ph.D.) értekezés tézisei. Kassainé Jáger Edit Andrea

Új genetikai stratégia kidolgozása az Arabidopsis stressz válaszát szabályzó gének azonosítására

GENOMIKA TÖBBFÉLE MAKROMOLEKULA VIZSGÁLATA EGYIDŐBEN

AZ ALACSONY HŐMÉRSÉKLET HATÁSÁRA BEKÖVETKEZŐ REDOX ÉS GÉNEXPRESSZIÓS VÁLTOZÁSOK GABONAFÉLÉKBEN

1. A genomika alapjai - A humán genom Genomika

SOLiD Technology. library preparation & Sequencing Chemistry (sequencing by ligation!) Imaging and analysis. Application specific sample preparation

Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal

Molekuláris biológiai módszerek m. hibridizációs s technikák

Átírás:

Juhász Angéla MTA ATK MI Alkalmazott Genomikai Osztály SZEKVENCIA ADATBÁZISOK

Fehérjét kódol? Tulajdonságai? -Hol lokalizálódik? -Oldható? -3D szerkezete? -Accession #? -Annotációja elérhető? Már benne van az adatbázisokban? PCReztél,klónoztál egy gént, szekvencia a kezedben Egyéb információ? -Expresszió? -Mutációk? Vannak konzervált szakaszai? Illesztések? Domének? Funkciója? Vannak hasonló szekvenciák? -azonosság mértéke? % -Géncsalád/fehérjecsalád? Rokonsági kapcsolatok? -Törzsfa

NUKLEOTID SZEKVENCIA ADATBÁZISOK NCBI Genbank (USA) DDBJ (DNA DataBase of Japan) European nucleotide archive EBI TGI Gene Index Project Genom adatbázisok

FEHÉRJE ADATBÁZISOK - Swissprot manuálisan annotált, ellenőrzött - A Swissprotba még be nem került szekvenciák, fordítás alapján készült, szoftveresen annotált, nem ellenőrzött! - 3D szerkezetek alapján létrehozott szekvenciák PIR Protein Information Resource (UniProt konzorcium tagja)

SPECIALIZÁLT ADATBÁZISOK Faj, szövetspecifikus, szignál transzdukciós útvonal specifikus, stb ESTs Expressed Sequence Tag Gene Expression Omnibus (NCBI) Drosophila adatbázis TRANSFAC Transzkripciós faktor adatbázis Rfam RNS családok adatbázisa

Hogyan is kezdődött? Margaret Oakley Dayhoff : Az első fehérje adatbázis (1965) Az első program a szekvenciák illesztésére

Biológiai adatokat elérni, elemezni, tárolni, annotálni, vizuálisan elemezni Mi kellett ehhez? Jó számítógép Tároló kapacitás Megfelelő algoritmusok Valami megfelelő formátum Egymással összefüggő adatbázisok

Notepad, a barátunk TXT = fasta, genbank, xml, aln, nwk, cff

fasta formátum > Jellel kezdődik, mögötte bármilyen az adattal kapcsolatos információ jöhet, majd a szekvencia új sorban, általában 60-80 nukelotidos sorokba betördelve Lehet nukleotid és lehet peptid szekvencia is! Tömör, lényegre törő Számos alkalmazás bemeneti adata Mi magunk is tudunk fasta fileokat gyártani

GenBank formátum Sok információt (ANNOTÁCIÓT) tartalmaz Nukleotid/Fehérje fastahoz képest kevésbé használják Előfordulhat, hogy pont az annotációra van szükségünk! Pl. referenciák, dns vagy mrns? milyen fajból? milyen szövetből?

Accession # A DNS vagy fehérje adat egyedi azonosítója Adott adatbázisra vonatkozik minden adatbázis más azonosító Lehetnek változatai Nem feltétlenül jelent unikális szekvencia információt pl.: ugyanazt a gént többen megtalálták, más-más azonosítóval jelölik Gén index (gi) egyedi azonosító és leginkább az NCBI használja, irodalomban szinte soha nem használjuk

Annotáció Minden amit arról a biológiai adatról tudnunk kell GenBank formátum Mi ez? Honnan származik #1? Publikáció? Honnan származik #2? faj molekula típusa fajta kromoszóma szövet fejlődési állapot mérete neve Szekvenciával kapcsolatos infók UniProt Q43659 Szekvencia

TrEMBL

Kereszt referenciák Milyen azonosítóval találjuk meg más adatbankokban? Ugyanaz a gén -sok fajtában -több kópiában Van róla szerkezet infó Melyik fehérje család? Milyen domének/funkció

Protein FAMilies Újabb és újabb infók (újabb fajokban, fajtákban azonos szekvencia, további publikációk, újabb információk (pl. promoter, szignál peptid)!

Hogyan kereshetünk a szekvencia adatbázisokban? Szabadszavas keresés gén neve (pl. Glu-A1x) fehérje család neve (pl. HMW glutenin) tovább szűkíthető pl. complete /partial seq pl. csak T. aestivumban Szekvencia alapján PCR szekvenálás- kromatogram-szekvencia

Szabadszavas keresés pl. NCBI Pl.: Grain softness protein Irodalom Egészségügyi vonatkozások Taxonómiai infók NUKLEOTID Expresszió Primerek

Szabadszavas keresés pl. NCBI Genom szintű információk Milyen genomokban? SNP variabilitás? gdna, cdna klóntárak? Gén szintű adatok Homológok? Expressziós profilok? FEHÉRJE ADATOK Konzerváltság? Domainek, funkció? Rokon fehérjék? Szerkezet? Milyen szabályozási útvonalakban vesz részt?

Nagyon sok találat lehet! Érdemes szűrni!

Keresés hasonlóság alapján Kell hozzá egy vagy több szekvencia (QUERY), amit egy másik szekvenciához, vagy egy adatbázis adataihoz hasonlítunk (SUBJECT) Kell hozzá egy megfelelő algoritmus (pl. BLAST, FASTA stb.) A keresés gyors és elég szenzitív kell legyen FASTA két szekvenciát hasonlít össze, hasonló nukleotid szekvenciák összehasonlítása esetében jobb, mint a BLAST BLAST jóval gyorsabb, általában véve hasonlóan érzékeny algoritmus - lokálisan illeszt - eredmény adott szempontok alapján értékelve (pl. score, e- value) - beállítható paraméterek (wordsize, gap cost, match scores, treshholds, stb) Wordsize - BLAST-nál protein wordsize min. 3 DNS min. 11

Variációk FASTA: FASTX: TFASTA: nukleotid/nukleotid vagy fehérje/fehérje Lefordított DNS-t fehérjéhez Fehérjét lefordított DNS-hez BLASTN: BLASTP: BLASTX: TBLASTN: TBLASTX: nukelotid / nukleotid adatbázis fehérje / fehérje adatbázis 6-frame fordított DNS / fehérje adatbázis fehérje / 6-frame fordított DNS adatbázis 6-frame fordított DNS / 6-frame fordított DNS adatbázis

Illesztés

Lokális vagy globális

Dilemma: DNS vagy fehérje adatbázisban keressünk? Attól függ!!! Mi a cél? (Pl. PCR primer tervezés, akkor DNS) Mi a biológiai kérdés? (pl. expresszált legyen? ) Melyikkel pontosabb? Melyikkel veszítünk kevesebb adatot? Hasonlóság alapján Melyiket??? Nukelotid szekvencia A, C, G, T nem kódoló Fehérje aminosav szint fehérje funkciója?

Dilemma: DNS vagy fehérje adatbázisban keressünk? Először fehérje szinten, utána nukleinsav szinten Mennyire átlátható, ha két nukleotid szekvenciát hasonlítunk össze? 3 x az aminosavak száma és csak A, C, T, G akár több ezer betű Mennyire pontos? Például egy 50%-os szekvencia azonosság sok vagy kevés? Jelenthet jó, de jelenthet rossz illesztést is! Ha lefordítjuk a nukelotid szekvenciát veszíthetünk információt? Degenerált kodontábla (egy aminosavat több kód is jellemezhet) Nagyon eltérő DNS szekvencia kódolhat hasonló fehérjét, hasonló DNS kódolhat nagyon eltérő funkciójú fehérjét

Konzerváltság fehérje szinten erősebb! DNS szinten jóval gyakoribb a mutáció, de ez nem feltétlen jelent változást fehérje szinten Domainek jelentősége Fehérjék funkciója, foglalkozása (Gene Ontology, GO terms)

Pár tipp a szekvencia adatbázisok használatához Használd a legfrissebb adatbázis verziókat. Elsőként BLASTolj! Utána jöhetnek a finomabb módszerek (FASTA, ) FASTA esetén mindkét szálon keress! Ha egy mód van rá fordítsd le nukleotidból aminosav sorenddé Mind a hat transzlációs keretet használd! E < 0.05 statisztikailag szignifikáns, általában biológiailag is értelmes eredmény. Ha a szekvenciád sok ismétlődő szakaszt tartalmaz készíts egy olyan szekvencia változatot, amiből ezeket törlöd és így ismételd meg a szekvencia keresést!

Hogy tudjuk elmenteni a találatokat? Fasta formátumban Igényeinknek megfelelően szűrt keresés után Akár több szekvnciát egyszerre Ne használj Word-öt a szekvenciák mentéséhez, szerkesztéséhez!!! A Word formáz, felesleges karaktereket szúr be!!! Nem tudod fasta formátumban menteni! Notepad stb. Táblázatos jellegű adatokat (pl. blast találati listáját) csv formátumban

Genomok genom projektek, genomböngészők Virális RNS genom bakteriofág MS2 (Fiers, 1976) Phi X174 Phage genom az első DNS genom (Sanger, 1977) Első baktérium genom- H. influenzae (1995) Első eukarióta genom S. cerevisiae (1995) Első növény Arabidopsis thaliana (2000) kétszikűek modell növénye Első egyszikű Oryza sativa (2002) Humán genom (2003) Jelentős technológiai fejlődés

Genomok mérete kódoló vs. nem kódoló Plant Genome Composition: Junk vs. Genes Arabidopsis Moss Rice Tomato Soy Canola Potato Human repetitive junk DNA (C. Guze 2005) Grass Corn Wheat valuable genespace

Miért kell nekünk ennyi (növényi) genomot szekvenálni? Új gének azonosítása Promoterek / génexpresszió szabályozása Génexpressziós vizsgálatok (qrt PCR, microarray, RNAseq) Metabolikus és szabályozási útvonalak mi, mikor, hol, miért, mit csinál? signalling Környezeti változások abiotikus (pl. fagy, hő, szárazság, só ) biotikus (kártevők ) Fejlődés biológiai ismeretek Nagyobb terméshozam, stabilitás Táplálkozástani vonatkozások Rokonsági kapcsolatok (pl. ha megvan a rizs szekvenciája, sokat elárul a búzáról is)

A hexaploid búza genomjának szekvenálása - A nagy kihívás International Wheat Genome Sequencing Consortium (www.wheatgenome.org) AA, BB, DD 3 pár genom Genomonként 7 kromoszóma Mérete 4 x humán genom Rengeteg a repetitív szakasz

Genom browserek

Genom browserek

Genom browser Rengeteg információ vizuális megjelenítés szükséges Vonalzó szerű kromoszóma ábrázolás, zoomolható Gének tulajdonságok a genomhoz illesztve

Genom browserek Kereshető Gén szerkezete irányultsága, 3 és 5 UTR, promoter, exon/intron) Hasonló szekvenciák kereshetőek Ortológok és paralógok Gén, transzkript, fehérje információk Expressziós adatok elérhetőek (EST szekvenciák ugyanúgy illesztve) pl. melyik szövetben termelődik?

Genom szinténiák Teljes genomok egymáshoz illeszthetőek Konzervált kromoszóma szakaszok, lókuszok stb Evolúciós elemzések

Hátradőlhetünk? Egy szekvenált genom = egy fajta genomját jelenti pl. búza Chinese Spring nevű fajta -ez egy nem termesztett fajta - minősége nem jó állatorvosi ló Amire kíváncsiak lennénk: a termesztett fajták hasznos tulajdonságokra nézve mekkora a változatosság? mi az ami meg is nyilvánul (fehérje expresszió) Megéri-e új és új fajtákat teljes egészében megszekvenálni? - NEM!!! csak amire kíváncsiak vagyunk NGS projectek, SNP analízis Humán genom 1000 genomes egyedi orvoslás

juhasz.angela@agrar.mta.hu MTA Agrártudományi Kutatóközpont Mezőgazdasági Intézet Alkalmazott Genomikai Osztály