trns-ek identitásvizsgálata új, in silico módszerrel

Hasonló dokumentumok
trns-ek identitásvizsgálata új, in silico módszerrel

transzláció DNS RNS Fehérje A fehérjék jelenléte nélkülözhetetlen minden sejt számára: enzimek, szerkezeti fehérjék, transzportfehérjék

Transzláció. Szintetikus folyamatok Energiájának 90%-a

MOLEKULÁRIS FILOGENETIKAI ELEMZÉSEK EGY DISZKRÉT MATEMATIKAI

Biológus MSc. Molekuláris biológiai alapismeretek

Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Hálózati modellek alkalmazása a molekuláris biológia néhány problémájára. Doktori (PhD) értekezés tézisei. Ágoston Vilmos

NUKLEINSAVAK. Nukleinsav: az élő szervezetek sejtmagvában és a citoplazmában található, az átöröklésben szerepet játszó, nagy molekulájú anyag

TRANSZLÁCIÓ és fehérje transzport Hogyan lesz a DNS-ben kódolt információból fehérje? A DNS felszínén az aminosavak sorba állnak?

Operációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

1. Az informatika alapjai (vezetője: Dr. Dömösi Pál, DSc, egyetemi tanár) Kredit

Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

15. Fehérjeszintézis: transzláció. Fehérje lebontás (proteolízis)

RNS-ek. 1. Az ősi RNS Világ: - az élet hajnalán. 2. Egy már ismert RNS Világ: - a fehérjeszintézis ben résztvevő RNS-ek

A programozás alapjai előadás. Amiről szólesz: A tárgy címe: A programozás alapjai

3. Sejtalkotó molekulák III.

Bioinformatika előad

10. Genomika 2. Microarrayek és típusaik

Összeállította Horváth László egyetemi tanár

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Italianisztikai irodalom- és mővelıdéstörténet doktori program Programvezetı: Szkárosi Endre

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Programtervező informatikus BSc 2018, Szoftverfejlesztő specializáció ajánlott tantervi háló. Törzsanyag. Konzultáció Kredit

A TRANSZLÁCIÓ Hogyan lesz a DNS-ben kódolt információból fehérje? A DNS felszínén az aminosavak sorba állnak?

Óbudai Egyetem Neumann János Informatikai Kar. Intelligens Mérnöki Rendszerek Intézet

10. modul: FÜGGVÉNYEK, FÜGGVÉNYTULAJDONSÁGOK

2. Ismert térszerkezetű transzmembrán fehérjék adatbázisa: a PDBTM adatbázis. 3. A transzmembrán fehérje topológiai adatbázis, a TOPDB szerver

Az MNB statisztikai mérlege a júliusi előzetes adatok alapján

Miskolci Egyetem GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR. Osztályozási fák, durva halmazok és alkalmazásaik. PhD értekezés

Felhő használata mindennapi alkalmazások futtatására. Németh Zsolt MTA SZTAKI

Előfeltétel: legalább elégséges jegy Diszkrét matematika II. (GEMAK122B) tárgyból

A tárgy címe: Bioinformatika

escience Regionális Egyetemi sközpont

A Jövő Internet elméleti alapjai. Vaszil György Debreceni Egyetem, Informatikai Kar

Számítási intelligencia

DNS replikáció. DNS RNS Polipeptid Amino terminus. Karboxi terminus. Templát szál

A Wigner FK részvétele a VIRGO projektben

TÉRINFORMATIKAI ALGORITMUSOK

Tanulmányok, végzettségek: Tanulmányok:

Elemi matematika szakkör

A replikáció mechanizmusa

Módszertani hozzájárulás a Szegénység

1. gyakorlat. Mesterséges Intelligencia 2.

Összetett programozási tételek Rendezések Keresések PT egymásra építése. 10. előadás. Programozás-elmélet. Programozás-elmélet 10.

Követelmény a 7. évfolyamon félévkor matematikából

Összefoglalók Kémia BSc 2012/2013 I. félév

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

5. előadás. Programozás-elmélet. Programozás-elmélet 5. előadás

Fehérje szintézis 2. TRANSZLÁCIÓ Molekuláris biológia kurzus 7. hét. Kun Lídia Genetikai, Sejt- és immunbiológiai Intézet

CAD Rendszerek I. Sajátosság alapú tervezés - Szinkron modellezés

Végeselemes analízisen alapuló méretezési elvek az Eurocode 3 alapján. Dr. Dunai László egyetemi tanár BME, Hidak és Szerkezetek Tanszéke

Gyakorlati bioinformatika

Geoelektromos tomográfia alkalmazása a kőbányászatban

TEMATIKA Biokémia és molekuláris biológia IB kurzus (bb5t1301)

A TANTÁRGY ADATLAPJA

Adatok statisztikai értékelésének főbb lehetőségei

Programkonstrukciók A programkonstrukciók programfüggvényei Levezetési szabályok. 6. előadás. Programozás-elmélet. Programozás-elmélet 6.

A maximum likelihood becslésről

A genetikai lelet értelmezése monogénes betegségekben

Módszer köztes tárolókat nem tartalmazó szakaszos működésű rendszerek ütemezésére

A Debreceni Egyetem Intézményfejlesztési Terve

3. Sejtalkotó molekulák III. Fehérjék, enzimműködés, fehérjeszintézis (transzkripció, transzláció, poszt szintetikus módosítások)

Oktatási segédlet 2014

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

IK Algoritmusok és Alkalmazásaik Tsz, TTK Operációkutatás Tsz. A LEMON C++ gráf optimalizálási könyvtár használata

I. A sejttől a génekig

A DOE (design of experiment) mint a hat szigma folyamat eszköze

SSADM Dokumentáció Adatbázis Alapú Rendszerek

Prímszámok statisztikai analízise

A pozicionális elit összetétele digitalizált választási jegyzőkönyvekben

Gerinces és növényi ortológ promóter adatbázisok fejlesztése és elemzése. Eötvös Loránd Tudományegyetem Természettudományi Kar Biológia Doktori Iskola

13. RNS szintézis és splicing

RE 1. Relációk Függvények. A diákon megjelenő szövegek és képek csak a szerző (Kocsis Imre, DE MFK) engedélyével használhatók fel!

Kurzuskód Kurzus címe, típusa (ea, sz, gy, lab, konz stb.) Tárgyfelelős Előfeltétel (kurzus kódja) típusa

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Kvalitatív elemzésen alapuló reakciómechanizmus meghatározás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatmanipuláció, transzformáció, szelekció SPSS-ben

A minimális sejt. Avagy hogyan alkalmazzuk a biológia több területét egy kérdés megválaszolására

MEDICINÁLIS ALAPISMERETEK AZ ÉLŐ SZERVEZETEK KÉMIAI ÉPÍTŐKÖVEI AZ AMINOSAVAK ÉS FEHÉRJÉK 1. kulcsszó cím: Aminosavak

Gépi tanulás és Mintafelismerés

Bevezetés az informatikába

A fehérjék térszerkezetének jóslása (Szilágyi András, MTA Enzimológiai Intézete)

Logika es sz am ıt aselm elet I. r esz Logika 1/36

Tájékoztatás a 4- éves doktori tanulmányok komplex vizsgájáról: a jelentkezésre és a vizsga lebonyolítására vonatkozó információk

Opponensi vélemény. címmel benyújtott akadémiai doktori értekezéséről

Least Squares becslés

I. A DIGITÁLIS ÁRAMKÖRÖK ELMÉLETI ALAPJAI

Nemlineáris optimalizálási problémák párhuzamos megoldása grafikus processzorok felhasználásával

A C. elegans TRA-1/GLI/Ci szex-determinációs faktor célgénjeinek meghatározása és analízise. Doktori értekezés tézisei.

a01t24 - Összesített hallgatói adatok a félévre

Dr. Ábrahám István * A BOLOGNAI FOLYAMAT ÉS A TANKÖNYVEK

Tűzoltási technikák műszaki és gazdasági hatékonysága összetevőinek vizsgálata Halassy Gábor*, Dr. Restás Ágoston**

Grafikonok automatikus elemzése

A nukleinsavak polimer vegyületek. Mint polimerek, monomerekből épülnek fel, melyeket nukleotidoknak nevezünk.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Nagy András. Feladatok a logaritmus témaköréhez 11. osztály 2010.

Hidraulikus hálózatok robusztusságának növelése

Intelligens adatelemzés

Átírás:

trns-ek identitásvizsgálata új, in silico módszerrel Doktori (PhD) értekezés tézisei Szenes Áron Témavezetők: Dr. Pál Gábor docens és Dr. Jakó Éena tudományos főmunkatárs Eötvös Loránd Tudományegyetem Biológia Doktori Iskola Vezetője: Prof. Dr. Erdei Anna, az MTA levelező tagja Szerkezeti Biokémia Doktori Program Vezetője: Prof. Dr. Gráf László, az MTA rendes tagja 2012.

Bevezetés A teljes élővilágban a fehérjeszintézis egyik kulcsmozzanata a trns aminoacil-trns szintetáz kapcsolata. Helyes molekuláris felismerés szükséges ahhoz, hogy a megfelelő trns-hez a megfelelő aminosav kapcsolódjon, ezáltal a genomi információ hiba nélkül fejeződjön ki a fehérjében. A trns-szintetáz kapcsolatát sok tekintetben feltárták már, azonban sok kérdés megválaszolatlan maradt. Ebben a kapcsolatban szerepet játszó, kiemelt pozíciók az identitáselemek, amelyeket számtalan kísérleti és számítógépes módszerrel igyekeztek feltárni az évek során. A számítógépes módszerekhez először genomi szekvenciákra volt szükség, amelyekből trns-detektáló algoritmusok segítségével kellett meghatározni a tdns szekvenciákat, amelyekből az elmúlt években számtalan adatbázis készült. Számítógépes, funkcionális annotációkra és az identitáselemek in silico meghatározásában már a korábban értek el eredményeket. A másodlagos szerkezetet feltáró algoritmusok és az ezeket használó, közelmúltban fejlesztett adatbázisokban szereplő, másodlagos szerkezeti elemek alapján illesztett trns-szekvenciák lehetővé tették újabb predikciós módszerek alkalmazását az identitás meghatározásában. Az információsteória felhasználása is új lehetőségeket nyitott meg nem csak a trns szekvenciák vizualizációjában, hanem a determinánsok és antideterminánsok predikciójában is Az aars-okat két osztályba sorolhatjuk szekvenciájuk és térszerkezetük különbözősége alapján. Ezen különbségeknek feltehetően evolúciós okai vannak, amelyek az élővilág mindhárom nagy csoportjában megfigyelhetőek. A szintetázok felosztását követve, annak analógiájára, az általuk aminosavval feltöltött trns-eket is besorolhatjuk osztályokba. A trns-szintetáz kapcsolat a legtöbb esetben erősen specifikus, ezért feltételezhetjük, hogy egyfajta koevolúciós folyamat során a trns szekvenciákban is megmaradt a nyoma annak, hogy melyik osztályba tartozik a szintetáza. Az irodalomban eddig ismert adatok szerint azonban ilyen osztályspecifikus szekvenciaelemek nem léteztek. 1

Célkitűzések Egy új, Jakó Éena által fejlesztett új, diszkrét matematikai megközelítésen alapuló osztályozó módszerrel megdönthetjük-e azt a régi dogmát, miszerint a trns-ek szekvenciális alapon nem választhatóak ketté a nekik megfelelő, adott aminoacil-trns szintetáz osztályuk szerint? Ha igen, akkor erre más, Shannon-entrópián alapuló módszer (a function sequence logo ) is képes-e? A végső cél az, hogy tovább növeljük saját eljárásaink hatékonyságát úgy, hogy esetleg új, eddig nem ismert identitáselemekre is javaslatokat lehessen tenni. 2

Módszerek Programok, programnyelvek és adatbázisok A szekvenciák feldolgozásához Unix/Linux shell srcipt -ek készültek, valamit több esetben az Emboss programcsomag segítségével történtek. A bonyolultabb feladatokhoz Perl, Python illetve Java programok készültek, a statisztikai analízisek elkészítése és ábrázolása P programnyelven történt. A trns és tdns szekvenciák az alábbi adatbázisokból származnak: trnadb, trnadb-ce, SPLITSdb illetve Christian Marck trnomics adatbázisából. A szekvencia logo -k a Makelogo programmal készültek, amely megtalálható a Delila programcsomagban, a function logo -k a trnalogofun programmal készültek. Az Extended Consensus Partition (ECP) A Jakó Éena által fejlesztett ECP módszer működését az alábbi lépésekkel írhatjuk le: i) Két, többszörösen illesztett szekvenciahalmazból indulunk ki. Az első halmaz a tanuló halmaz, amely tartalmazza mind az I. mind a II. osztályból származó, illesztett szekvenciákat, egymástól elkülönítve. A második halmaz egy kevert halmaz, amely mindkét osztályból tartalmaz szekvenciákat, de nincsen megjelölve, hogy melyikből. ii) Az ECP számítása az I. és II. osztályból származó tanuló halmaz alapján: a) Össze kell gyűjteni azokat a pozíciókat, ahol az egyes osztályhoz zartozó szekvenciák ugyanazt a nukleotidot tartalmazzák. Ezek a nukleotidok az I. illetve a II. osztály strictly present ; elemei. b) Meg kell adni minden pozícióra azokat a nukleotidokat, amelyeket az egyes osztályhoz zartozó szekvenciák egyike sem tartalmazza. Ezek a nukleotidok az I. illetve a II. osztály strictly absent ; elemei. iii) Az osztályozás a) A kevert adathalmaz minden egyes szekvenciájában egy szekvencia akkor és csak akkor tartozik az adott osztályba, ha: 1. minden egyes strictly present elem megtalálható benne; és 2. minden egyes strictly absent elem hiányzik belőle. 3

Módszerfejlesztés: az AEV Az ECP azon egyik osztályhoz tartozó strictly absent elemeit, amelyeket a másik osztály az adott pozícióban tartalmazza, diszkrimináló elemeknek (DE) nevezzük. A továbbfejlesztett ECP analízis során a minden egyes aminosavspecifitású tdns szekvenciacsoportot minden egyes, tőle különböző aminosavspecifitású tdns szekvenciacsoporttal összehasoníltva meghatározhatók azok a diszkrimináló elemeket, amelyek arra az aminosavspecifitás csoportra jellemzőek. Az átlagos kizárási érték ( average excluding value AEV) a DE-k átlaga egy pozícióban. A fentiek matematikai formalizálásához bevezetjük az Y változót. Az Y elemei nukleotidbázisok, tehát Y χ ahol χ = {A, T, C, G}. A változó egyes Y j ik állapota nem más, mint az a bázis, amelyet egy adott i aminosav-identitás (i = 1..., N, N = 20) j-edik pozíciójában (j = 1,..., L, L = 96 0-tól a 73-as pozícióig) az identitáshoz tartozó k-adik szekvencia (k = 1..., M i ) tartalmaz. M i fajonként és aminosav-identitásonként változik. Bevezethetjük tehát azon bázisok halmazát, amelyek egy i identitás j-edik pozíciójában találhatóak: datok és a Y j i := {Y j ik k = 1..., M i} (1) Az i aminosav-identitás diszkrimináló elemei (DE) az l aminosavval szemben (szintén: l = 1..., N, N = 20) a j pozícióban: A j il := ( χ \ Y j i ) Y j l (2) Az átlagos kizárási érték (AEV) számításához a vizsgált j pozícióban defniáljuk az alábbi függvényt: R ( A j il ) := 1, ha A j il 0, ha A j il = (3) Végül a függvény kapott értékeit minden identitás esetén minden identitással szemben összegezzük (tehát összeadjuk azokat az eseteket, amikor találtunk diszkrimináló elemeket a pozícióban), illetve elosztjuk az aminosavak számával: amely érték nem más, mint az AEV. n j = 1 N N N R ( A j ) il i=1 i=1 i l (4) 4

Eredmények 1. Statisztikai módszerekkel igazolást nyert, hogy az osztályok szekvencia-alapú szétválasztására az ECP hatékonyabb az eddigi megközelítéseknél. 2. 50 faj (13 ősbaktérium, 30 baktérium és 7 eukarióta) I. és II. osztályú tdns szekvenciáján elvégezve az ECP analízist, az eddigi módszerekkel nem feltárható, osztályspecifikus DEket sikerült meghatározni: a) Két, az egész élővilágban általános olyan DE van, amely az I. osztályra jellemző, és amelynek segítségével elkülöníti magát a II. osztálytól: az antikodon középső pozíciója, ahol G35 (az összes fajban) illetve a diszkriminátor bázis, ahol C73 (47 fajban) a DE. b) Az élővilágra általános DE-t nem tartalmaz a II. osztály. Azonban jellemző az 1 72 párra a C G vagy az A T illetve mind a két féle pár (M K), mint DE. c) A G hiánya a 35. pozícióban erősen jellemző, karakterisztikus elem az I osztályban. 3. Az I. és a II. osztály inverse function logo -i reprodukálják az ECP analízis eredményeit. 4. Az egyes pozíciók AEV értékei korrelálnak az eddig publikált identitáselemek számával: az ECP algoritmus képes arra, hogy elkülönítse az identitásoknak megfelelő funkcionális csoportokat. 5. Az algoritmussal feltárhatók olyan pozíciók, amelyek magas AEV értékkel rendelkeznek, emellett még nem írtak le rajtuk ismert identitáselemet. Ezek a pozíciók feltehetően eddig nem ismert identitáselemeket tartalmaznak: a) Escherichia coli trns Trp T31:A39 b) élesztő trns Met T31:T39 c) élesztő trns Ile T30:G40 d) élesztő trns Asp G30:T40 (Ebben az esetben szerkezeti bizpnyíték is van.) Megjegyzések az eredményekhez 1. Az analízis tdns szekvenciákon történt, ezért nem tudja figyelembe venni a trns szekvenciák poszt-transzkripcionális módosításait. 5

2. A diszkrimináló elemek (DE) nem csak az identiás kialakításában lehetnek meghatározóak, hanem egyéb más trns funkciókban is. Egy nukleotid osztály- vagy identitásspecifikus hiánya eredményezhet olyan tulajdonságot, amely a szerkezeti stabilitáshoz, poszttranszkripcionális módosításhoz, riboszóma vagy elongációs faktor kötéshez szükséges egy trns molekulán (néhány példát említve a trns összetett funkciói közül). 3. Az analízis szűrt adatbázisokon készült. A szűrés első szempontja az volt, hogy csak megfelelően funkcionáló trns-ek legyenek benne: ennek szempontjait a már ismert, minden trns-re jellemző nukleotidok jelentették. A másik szempontot a már publikált identitáselemek. Statisztikai módszerekkel bizonyítást nyert azonban, hogy az adatok ilyen szűrése az AEV alapvető karakterisztikáját nem befolyásolják: az eljárás a szűrés elhagyásával is azt eredményezi, hogy a magas AEV értékek zömmel ismert, tehát valódi identitáselemeket hordozó pozíciókon jelennek meg (mint például a diszkriminátor bázis illetve az antikodon tripletje). 4. Az eredményeket azzal a fenntartással kell kezelni, hogy azok akkor nyernek majd igazán értelmet, ha a kísérleti munkák alátámasztják relevanciájukat. 6

A közlemény alapjául szolgáló publikációk Áron Szenes, Gábor Pál: Mapping Hidden Potential Identity Elements by Computing the Average Discriminating Power of Individual trna Positions. DNA Res. 2012 Mar 5. doi: 10.1093/dnares/dss008 Éena Jakó, Péter Ittzés, Áron Szenes, Ádám Kun, Eörs Szathmáry, Gábor Pál: In silico detection of trna sequence features characteristic to aminoacyl-trna synthetase class membership. Nucleic Acids Res. 2007;35(16):5593-609. 7