Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és elemzése DIPLOMAMUNKA



Hasonló dokumentumok
8. A fehérjék térszerkezetének jóslása

A fehérjék térszerkezetének jóslása

Bioinformatics: Blending. Biology and Computer Science

A replikáció mechanizmusa

A fehérjék térszerkezetének jóslása (Szilágyi András, MTA Enzimológiai Intézete)

ERD14: egy funkcionálisan rendezetlen dehidrin fehérje szerkezeti és funkcionális jellemzése

Mai témák. Fehérjék dinamikájának jelentősége. Számítógépes modellezés jelentősége

A proteomika új tudománya és alkalmazása a rákdiagnosztikában

A Margit híd pillérszobrának 3D-s digitális alakzatrekonstrukciója Nagy Zoltán 1 Túri Zoltán 2

NYOMÁSOS ÖNTÉS KÖZBEN ÉBREDŐ NYOMÁSVISZONYOK MÉRÉTECHNOLÓGIAI TERVEZÉSE DEVELOPMENT OF CAVITY PRESSURE MEASUREMENT FOR HIGH PRESURE DIE CASTING

Mapping Sequencing Reads to a Reference Genome

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Genomadatbázisok Ld. Entrez Genome: Összes ismert genom, hierarchikus szervezésben (kromoszóma, térképek, gének, stb.)

Fehérjék rövid bevezetés

EN United in diversity EN A8-0206/419. Amendment

Genome 373: Hidden Markov Models I. Doug Fowler

STUDENT LOGBOOK. 1 week general practice course for the 6 th year medical students SEMMELWEIS EGYETEM. Name of the student:

A Caskin1 állványfehérje vizsgálata

HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE

IT KOCKÁZATOK, ELEMZÉSÜK, KEZELÉSÜK

Proteomkutatás egy új tudományág születése

A DEBRECENI MÉRNÖK INFORMATIKUS KÉPZÉS TAPASZTALATAIRÓL. Kuki Attila Debreceni Egyetem, Informatikai Kar. Összefoglaló

KÉPI INFORMÁCIÓK KEZELHETŐSÉGE. Forczek Erzsébet SZTE ÁOK Orvosi Informatikai Intézet. Összefoglaló

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA

Supporting Information

Hazai méhészeti genomikai és genetikai vizsgálatok

A STRATÉGIAALKOTÁS FOLYAMATA

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Fehérjeszerkezet, fehérjetekeredés

A távmunka és a távdolgozók jellemzői

Mapping out MAPK interactors

Fehérjék szerkezetének predikciója, szerkezeti adatok felhasználása adatbázisok segítségével, a számítógépes molekuladinamikai modellezés alapjai

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

FATERMÉSI FOK MEGHATÁROZÁSA AZ EGÉSZÁLLOMÁNY ÁTLAGNÖVEDÉKE ALAPJÁN

University of Bristol - Explore Bristol Research

A géntechnológia genetikai alapjai (I./3.)

Construction of a cube given with its centre and a sideline

T Á J É K O Z T A T Ó. A 1108INT számú nyomtatvány a webcímen a Letöltések Nyomtatványkitöltő programok fülön érhető el.

Budapesti Műszaki és Gazdaságtudományi Egyetem Építőmérnöki Kar

A HUMÁN GENOM PROJEKT Sasvári-Székely Mária* Semmelweis Egyetem, Orvosi Vegytani, Molekuláris Biológiai és Pathobiokémiai Intézet

MŰSZAKI TUDOMÁNY AZ ÉSZAK-ALFÖLDI RÉGIÓBAN 2010

A PILÓTA NÉLKÜLI LÉGIJÁRMŰVEK ALKALMAZÁSÁNAK HUMÁN ASPEKTUSBÓL TÖRTÉNŐ VIZSGÁLATA 2 A TÉMA KUTATÁSÁNAK INDOKOLTSÁGA 3

10. Genomika 2. Microarrayek és típusaik

Using the CW-Net in a user defined IP network

ERKI KATALIN* A felsőoktatás, mint versenypiac elemzése a Porter-modell alapján

Anyagmérnöki Tudományok, 37. kötet, 1. szám (2012), pp

SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN

Vasúti kocsik vázszerkezetének a felhasználhatósága kisebb nyílások áthidalására helyi érdek8 közúti utakon

Erdészettudományi Közlemények

SZAKÁLL SÁNDOR, ÁsVÁNY- És kőzettan ALAPJAI

Jövő Internet - kutatások az elmélettől az alkalmazásig. Eredménykommunikációs kiadvány

A SZEMCSEALAK ALAPJÁN TÖRTÉNŐ SZÉTVÁLASZTÁS JELENTŐSÉGE FÉMTARTALMÚ HULLADÉKOK FELDOLGOZÁSA SORÁN

OPERÁCIÓKUTATÁS, AZ ELFELEDETT TUDOMÁNY A LOGISZTIKÁBAN (A LOGISZTIKAI CÉL ELÉRÉSÉNEK ÉRDEKÉBEN)

AZ ERDÕ NÖVEKEDÉSÉNEK VIZSGÁLATA TÉRINFORMATIKAI ÉS FOTOGRAMMETRIAI MÓDSZEREKKEL KARSZTOS MINTATERÜLETEN

A MOLEKULÁRIS BIOLÓGIA ISMERETÁBRÁZOLÁSI PROBLÉMÁI

1. Bevezetés. 2. Anyag és módszer

Utolsó frissítés / Last update: február Szerkesztő / Editor: Csatlós Árpádné

A transzgénikus (GM) fajták fogyasztásának élelmiszer-biztonsági kockázatai

A TÖBBSZÖR JUBILÁLÓ 50 ÉVES NYÍREGYHÁZI FŐISKOLA

A PROBLÉMAMEGOLDÓ GONDOLKODÁS HELYE AZ ADATBÁZISKEZELÉS OKTATÁSÁBAN. Kupcsikné Fitus Ilona, Selmeci István SZÁMALK Zrt.

MEZŐGAZDASÁGI ÖSSZEÍRÁSOK MAGYARORSZÁGON,

A nukleinsavak polimer vegyületek. Mint polimerek, monomerekből épülnek fel, melyeket nukleotidoknak nevezünk.

A BCE Entz Ferenc Könyvtár és Levéltár a diplomaszerzéssel és a doktori eljárással kapcsolatos dokumentumok kezelésének szabályzata

On The Number Of Slim Semimodular Lattices

Márkaépítés a YouTube-on

Manuscript Title: Identification of a thermostable fungal lytic polysaccharide monooxygenase and

A minimális sejt. Avagy hogyan alkalmazzuk a biológia több területét egy kérdés megválaszolására

A szárazmegmunkálás folyamatjellemzőinek és a megmunkált felület minőségének vizsgálata keményesztergálásnál

Doktori munka. Solymosi József: NUKLEÁRIS KÖRNYEZETELLENŐRZŐ MÉRŐRENDSZEREK. Alkotás leírása

TopologyMaster Pro v0.93 Haszna lati utası ta s

A Kutatás-fejlesztési Minősítési Eljárás Módszertani Útmutatója

A KELET-BORSODI HELVÉTI BARNAKŐSZÉNTELEPEK TANI VIZSGÁLATA

A doktori értekezés tézisei. A növényi NRP fehérjék lehetséges szerepe a hiszton defoszforiláció szabályozásában, és a hőstressz válaszban.

Kádár István 1 Dr. Nagy László 1 1 Budapesti Műszaki és Gazdaságtudományi Egyetem,

Utolsó frissítés / Last update: Szeptember / September Szerkesztő / Editor: Csatlós Árpádné

A TANTÁRGY ADATLAPJA

Fotogrammetria és Térinformatika Tanszék, BME 2. Hidak és Szerkezetek Tanszék, BME 3. Piline Kft. lézerszkenneléses eljárás milyen módon támogathatja

A CAN mint ipari kommunikációs protokoll CAN as industrial communication protocol

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

EMTP, EGY ÚJ LEVELEZÕ PROTOKOLL ÉS IMPLEMENTÁCIÓJA

ANGOL NYELVI SZINTFELMÉRŐ 2013 A CSOPORT. on of for from in by with up to at

Kutatói tájékoztató Útmutató a KSH kutatószobai környezetében folyó kutatómunkához

HIDEGEN HENGERELT ALUMÍNIUM SZALAG LENCSÉSSÉGÉNEK VIZSGÁLATA INVESTIGATION OF CROWN OF COLD ROLLED ALUMINIUM STRIP

Bioinformatika 2 4. előadás

BOLTOZATOS VASÚTI HIDAK REHABILITÁCIÓJA REHABILITATION OF RAILWAY ARCH BRIDGES

APÁKGYERMEKGONDOZÁSI SZABADSÁGON-AVAGY EGY NEM HAGYOMÁNYOS ÉLETHELYZET MEGÍTÉLÉSE A FÉRFIAKSZEMSZÖGÉBŐL

CA Clarity PPM. Portfóliókezelés Forgatókönyv útmutató. Release

A humán tripszinogén 4 expressziója és eloszlási mintázata az emberi agyban

már mindenben úgy kell eljárnunk, mint bármilyen viaszveszejtéses öntés esetén. A kapott öntvény kidolgozásánál még mindig van lehetőségünk

KÜLSÕ CÉGEK TÁMOGATÁSÁVAL MEGVALÓSÍTOTT, 4GL ÉS CASE ESZKÖZÖKRE ALAPOZOTT KÉPZÉS A SZÉCHENYI ISTVÁN FÕISKOLÁN

Kokoly Zsolt. Az audiovizuális médiaszolgáltatók feletti területi joghatóság kérdése az Európai Unió médiaszabályozásában. A doktori értekezés tézisei

A FIZIKUS SZEREPE A DAGANATOS BETEGEK GYÓGYÍTÁSÁBAN

Honlapkoncepció. Miskolc város hivatalos honlapjához

A KÖRNYEZETI INNOVÁCIÓK MOZGATÓRUGÓI A HAZAI FELDOLGOZÓIPARBAN EGY VÁLLALATI FELMÉRÉS TANULSÁGAI

ANGOL NYELV Helyi tanterv

Supporting Information

ACÉLSZERKEZETŰ KISHIDAK TERVEZÉSE DESIGN OF SHORT SPAN STEEL BRIDGES

SZET GYAK1: Követelmények ellenőrzése

ÜVEGSZÁL ERŐSÍTÉSŰ KOMPOZIT FÚRÁSÁNAK VIZSGÁLATA GYORSACÉL ÉS KEMÉNYFÉM SZERSZÁMMAL DRILLING OF GLASS-FIBER-REINFORCED COMPOSITE BY HSS AND CARBIDE

Tananyagfejlesztés: Új képzések bevezetéséhez szükséges intézményi és vállalati szervezetfejlesztési módszertani feladatok

Átírás:

Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és elemzése DIPLOMAMUNKA Készítette: Kiss-Tóth Annamária Infobionika MSc Témavezető: dr. Gáspári Zoltán Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 2014 1

2

PÁZMÁNY PÉTER KATOLIKUS EGYETEM INFORMÁCIÓS TECHNOLÓGIAI ÉS BIONIKAI KAR DIPLOMATERV-TÉMABEJELENTŐ Név: Kiss-Tóth Annamária Tagozat: nappali Szak: Info-bionika MSc (IMNI-IB) Témavezető neve: A dolgozat címe: Gáspári Zoltán Nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és elemzése A dolgozat témája Az úgynevezett de novo fehérjék korábban nem kódoló DNS-szakaszok átírásával és lefordításával létrejövő fehérjék. Mai tudásunk szerint ilyen fehérjék folyamatosan keletkeznek, az emberré válás során is létrejött több ilyen fehérje. A már átíródó szakaszok, azaz a nem kódoló RNS-ek génjei potenciálisan viszonylag könnyen adhatnak életet új fehérjekódoló géneknek. A megcélzott vizsgálat célja ismert nem kódoló RNS-ekről potenciálisan keletkező fehérjék azonosítása és azok részletes jellemzése térszerkezeti predikciókkal. Feladatok: Tekintse át a de novo fehérjekeletkezés irodalmát, különös tekintettel a nem kódoló RNS-ekre vonatkozó esetekre! Bioinformatikai eszközökkel keressen olyan fehérjéket, amelyek egyes kiválasztott RNS-molekulák (pl. riboszomális RNS-ek, SRP RNS stb.) egyes szakaszainak megfelelhetnek! Ellenőrizze a találatokat génpredikciós algoritmusokkal! Elemezze a kapott fehérjéket szerkezetpredikciós eljárásokkal, és kritikusan elemezze az egyes feltételezhető génkeletkezési események relevanciáját! Adjon általános értékelést a jelenség feltételezhető gyakoriságáról! 3

4

Nyilatkozat Alulírott Kiss-Tóth Annamária, a Pázmány Péter Katolikus Egyetem Információs Technológiai Karának hallgatója kijelentem, hogy ezt a diplomamunkát meg nem engedett segítség nélkül, saját magam készítettem, és a diplomamunkában csak a megadott forrásokat használtam fel. Minden olyan részt, melyet szó szerint, vagy azonos értelemben, de átfogalmazva más forrásból átvettem, egyértelműen a forrás megadásával megjelöltem. Ezt a diplomamunkát más szakon még nem nyújtottam be. 2014. május 20. Kiss-Tóth Annamária 5

TARTALOMJEGYZÉK TARTALOMJEGYZÉK TARTALMI ÖSSZEFOGLALÓ ABSTRACT 1. BEVEZETÉS 2. CÉLKITŰZÉSEK 3. ELMÉLETI BEVEZETŐ 3.1. De novo fehérjék képződése 3.2. 23S rrns, 16S rrns 3.3. Alu szekvenciák 3.4. FLJ33706 [Homo sapiens] fehérje 4. MÓDSZEREK 4.1. Nukleotidszekvenciák lefordítása (EMBOSS Transeq) 4.2. Hasonlóságkeresés (BLAST) 4.3. Gén predikció, kódoló régiók azonosítása (Glimmer) 4.4. Promoter régiók keresése (BPROM, Neural Network Promoter Prediction) 4.5. Rendezetlenség-vizsgálat (IUPred) 4.6. Aggregáció (TANGO-WALTZ) 4.7. Transzmembrán régiók jóslása (PHOBIUS) 4.8. Domének keresése (SBASE) 4.9. Coiled coil szerkezetek keresése (COILS, MARCOIL, MULTICOIL) 4.10. Fehérjén belüli motívumok keresése (PROSITE) 4.11. Rokon fehérjecsaládok keresése (Pfam) 4.12. Szignálpeptid keresése (SignalP) 4.13. Teljes háromdimenziós fehérjeszerkezet jóslása (I-TASSER) 4.14. Szerkezeti illesztés (MAMMOTH) 4.15. Szerkezeti predikciók helyességének ellenőrzése (MisPred) 5. A FELADAT MEGVALÓSÍTÁSA 5.1. 16S rrns és 23S rrns lefordítása és hasonló, nem hipotetikus fehérjék keresése (EMBOSS, BLAST, Glimmer, promoter keresés) 5.2. Alu szekvencia lefordítása és hasonló fehérjék keresése (EMBOSS, BLAST) 5.3. Kísérletileg bizonyított de novo fehérje vizsgálata 5.4. A fehérjekódoló szekvenciák vizsgálata, szekvenciaillesztés (BLAST) 5.5. A fehérjék szerkezeti tulajdonságainak megjósolása 6 8 10 12 14 16 16 17 17 18 20 20 20 20 21 21 21 22 22 23 23 23 23 24 25 25 27 27 27 27 28 28 6

6. EREDMÉNYEK 6.1. A részletes vizsgálatokba bevont fehérjék adatainak összefoglalása 6.2. A fehérjekódoló szekvenciák szekvenciaillesztése 6.3. A kódoló szekvenciák helyzete a megfelelő nukleinsavakban 6.4. Az egyes fehérjék térszerkezetének vizsgálata 6.4.1. Ribosomal protein S10 [Medicago truncatula] [XP_003588337.1] 6.4.2. hcg2031845 [Homo sapiens] [EAX06532.1] 6.4.3. LAMA5 protein [Homo sapiens] [AAH85017.1] 6.4.4. FLJ33706 [Homo sapiens] [EAW76366.1] 6.5. Az I-TASSER segítségével kapott háromdimenziós szerkezetek vizsgálata 7. EREDMÉNYEK ÉRTÉKELÉSE ÖSSZEFOGLALÁS IRODALOMJEGYZÉK KÖSZÖNETNYILVÁNÍTÁS 8. FÜGGELÉK 30 30 31 34 35 38 40 41 43 43 45 47 48 49 50 7

TARTALMI ÖSSZEFOGLALÓ Diplomamunkám témája a nem kódoló RNS-ekből potenciálisan keletkező de novo fehérjék azonosítása és szerkezeti preferenciáinak vizsgálata. Először alapos irodalomkutatást végeztem mind a de novo fehérjékről, a kiindulásként szolgáló 16S- és 23S rrns-ekről, az Alu szekvenciákról, mind pedig az általam a vizsgálatok során használandó bioinformatikai programokról, módszerekről. Ezt számos tudományos cikk és internetes forrás segítségével hajtottam végre. Ezután a potenciális de novo fehérjéket a már említett módszerekkel azonosítottam, szerkezeti tulajdonságaikat vizsgáltam, és az ilyen módon kapott eredményekből következtetéseket vontam le. A fehérjeazonosításokat és szerkezeti vizsgálatokat több lépésben végeztem. Először EMBOSS Transeq segítségével 6 frame-ben lefordítottam a 16S rrns, a 23S rrns és az általam választott Alu szekvenciákat. Ezután BLAST algoritmussal hasonló fehérjéket kerestem, és a legjobb, annotált találatokkal dolgoztam tovább. A 16S rrns-ből és a 23S rrns-ből származtatott fehérjék esetében ezeket a fehérjéket az NCBI adatbázisban visszakerestem, és innen kimásoltam az őket kódoló nukleotidszekvenciákat. Glimmer génpredikciós szerverrel megerősítettem, hogy valóban kódolószekvenciáknak tekinthetők-e. Ahol a Glimmer pozitív eredményt hozott ki, azokkal a fehérjékkel dolgoztam tovább. Ezekhez hozzávettem a 6 Alu szekvenciából lefordított fehérjéhez 6 leghasonlóbb annotált fehérjét, valamint egy az irodalomból vett ténylegesen létező de novo fehérjét, és ezen fehérjék tulajdonságait vizsgáltam részletesebben (összesen 15 fehérje). A vizsgált tulajdonságok a következők: rendezetlenség-vizsgálat (IUPred szerver segítségével), aggregáció-vizsgálat (TANGO-WALTZ algoritmus segítségével), domének azonosítása (elsősorban SBASE segítségével, de más módszerekkel is, mint például Pfam), transzmembrán régiók azonosítása (PHOBIUS szerver segítségével), lehetséges coiled coil struktúrák azonosítása (több módszerrel is, mint COILS, MULTICOIL és MARCOIL), fehérjén belüli motívumok vizsgálata (PROSITE szerver segítségével), rokon fehérjecsaládok meghatározása (Pfam adatbázis segítségével), szignálpeptidek keresése (elsősorban SignalP segítségével, de PHOBIUS szerverrel is), a teljes fehérje háromdimenziós szerkezetének megjóslása (I-TASSER szerver segítségével), és az I-TASSER által megjósolt háromdimenziós potenciális modellek többszörös térszerkezeti illesztése (MAMMOTH szerver segítségével). A szerkezeti tulajdonságok vizsgálatának segítségével igyekeztem bizonyítani, hogy ezek a fehérjék valóban előfordulnak a természetben. 8

Ezen felül a potenciális de novo fehérjék kódolószekvenciáit is vizsgáltam BLAST algoritmust használva. Ezeket a kódoló szekvenciákat a megfelelő 16S rrns-hez, 23S rrns-hez vagy az Alu szekvenciához illesztettem. A szekvenciaillesztéssel azt próbáltam meghatározni, hogy vajon csak a fehérjék hasonlítanak-e nagy mértékben egymáshoz, vagy az őket kódoló nukleinsavak is. Diplomamunkám készítése során nem csak a vizsgált fehérjékről megállapított információk jelentettek újdonságot, de számos új, a vizsgálatokhoz szükséges bioinformatikai módszert és algoritmus ismertem meg. 9

ABSTRACT The topic of my thesis is identifying potentially existing de novo proteins from non-coding RNAs and examining their structural preferences. First and foremost, I thoroughly researched de novo proteins, 16S rrna, 23S rrna and Alu sequences and the bioinformatics programs and methods I was going to use during the examinations. To achieve this, I read a number of available articles published in scientific journals as well as sought out several online sources. Next, I identified the potential de novo proteins by the methods mentioned above, and studied their structural properties. From these results conclusions could be drawn. The protein identifications and structural examinations were carried out in several steps. First, using EMBOSS Transeq server, I translated the 16S rrna, 23S rrna, and chosen Alu sequences in all six frames. Then, with the help of BLAST algorithm I identified similar annotated proteins and selected the best hits. After this, I obtained the coding sequences of the proteins derived from 16S rrna and 23S rrna from the NCBI database. Then I submitted these sequences in the Glimmer gen prediction server, which confirmed whether these sequences could indeed be responsible for protein coding. In several cases Glimmer gave a positive outcome, and I worked with these proteins further. To these proteins I added the six best BLAST hits for the six Alu translations and one truly existing de novo protein from literature (this means 15 proteins total). Next, I examined the structural properties of these proteins. These properties include: prediction of intrinsically unstructured proteins (with the help of IUPred server), prediction of aggregated regions in the protein sequences (with the help of TANGO-WALTZ algorithm), identification of domains (mostly with the help of SBASE, but can be confirmed with other methods such as Pfam), identification of the transmembrane regions (with the help of PHOBIUS server), identification of potential coiled-coil structures (using several different methods such as COILS, MULTICOIL and MARCOIL) identification of structural motifs within the proteins (with the help of PROSITE server), identification of protein families (with the help of Pfam database), identification of signal peptides (mostly using SignalP server, but PHOBIUS server can confirm as well), prediction of the three-dimensional structure of the whole protein (with the help of I-TASSER server), multiple structural alignment of the threedimensional models previously predicted with I-TASSER (with the help of MAMMOTH server). With the help of these structural properties I tried prove these proteins really do exist in nature. 10

In addition to the proteins, I also examined the coding nucleotide sequences of these proteins using BLAST. I did a pairwise sequence alignment for these coding sequences and the original 16S rrna, 23S rrna or Alu sequences their proteins were derived from. I wanted to determine if these sequences match as well as the proteins themselves. During the completion of my thesis not only did I uncover information about the properties of these potential de novo proteins, but also learned about the use of quite a few new bioinformatics methods and algorithms. 11

1. BEVEZETÉS Az úgynevezett de novo fehérjék korábban nem kódoló DNS szakaszok átírásával és lefordításával létrejövő fehérjék. Mai tudásunk szerint ilyen fehérjék folyamatosan keletkeznek, az emberré válás során is létrejött több ilyen fehérje. A DNS szakaszokról átíródó RNS molekulák nagy része nem kódoló RNS, mely szabályzó vagy katalitikus funkciót is betölthet. A szabályzó RNS-ek további vizsgálata izgalmas új kutatásterület. Az RNS-ek másik csoportját alkotják a kódoló RNS-ek, melyek transzláció során fordítódnak le fehérjékre. Ezeket nevezzük messenger RNS-eknek. A jelenlegi kutatások alapján tudjuk, hogy a humán genom mintegy 75 százalékáról végbe megy transzkripció, tehát valamilyen sejttípusban, illetve fejlődési stádiumban átíródik. Feltételezhető, hogy a nem kódoló RNS-ek génjei viszonylag könnyen adhatnak életet új fehérjekódoló géneknek, hiszen ezek esetében már csupán a lefordításra kell alkalmassá válniuk. Ezen de novo gének meghatározása megkísérelhető a genomok összehasonlító elemzésével. Génpredikciós eljárások segítségével meg lehet jósolni egy tetszőleges DNS szakaszról, hogy aktív fehérjekódoló génnek felel-e meg. Ha a DNS szekvencia olyan pozíciójában kapunk pozitív találatot, melyben a rokon fajoknál nem, akkor potenciális de novo fehérjéről beszélhetünk. Ennek a fehérjének tényleges természetbeli előfordulását azonban laboratóriumi kísérletekkel érdemes ellenőrizni, hogy a kétféle módszer megerősítse egymást. Mi lehet ezen fehérjék gyakorlati jelentősége? A de novo fehérjék nincsenek jelen nagy mennyiségben a szervezetben, hiszen a kódolásukért felelős szabályozó régiók nem válnak könnyedén optimálissá. Ugyanakkor a de novo fehérjék csak akkor maradhatnak fenn evolúciósan, ha az egyednek valamilyen haszna származik létezésükből. Amennyiben hatásuk káros, ez hosszabb távon az élőlény pusztulásához vezet. Az is előfordulhat (bár kis valószínűséggel), hogy kifejezetten kedvezően befolyásolnak valamilyen sejtbeli folyamatot. Ekkor öröklődéssel továbbvihetők az utódokba, és funkciójuk hatékonyabb betöltése érdekében a jövőben módosulhatnak is. Az általam végzett vizsgálatok során ilyen de novo fehérjék tényleges létezését igyekszem kritikus vizsgálat alá vetni. Kiválasztottam két tipikus, nem fehérjekódoló RNS-t, a bakteriális riboszóma 16S és 23S rrns szekvenciáit, valamint az eukarióta szignálfelismerő részecske 7SL RNS-ével rokonságot mutató genomi ismétlődést, az úgynevezett Alu szekvenciákat (ezen belül is az Alu-Sx alcsaládot). Első lépésben ezekből keletkezett potenciális de novo fehérjéket kerestem, majd ezen fehérjéket alapos, elsősorban térszerkezeti predikciókon 12

alapuló vizsgálatnak vetettem alá. Ezeknek a vizsgálatoknak az eredményeiből esetlegesen megerősíthetem a de novo fehérjék tényleges előfordulását, és következtethetek létezésük gyakoriságára. [1] 13

2. CÉLKITŰZÉSEK Diplomamunkám célkitűzései a következők: 1. A de novo fehérjék, a 16S rrns, a 23S rrns és az Alu szekvenciák elméleti hátterének elsajátítása az irodalomból. 2. Az ezekből a nukleinsavszekvenciákból lefordított fehérjeszekvenciák vizsgálata, hasonló fehérjék azonosítása bioinformatikai módszerekkel. 3. A fehérjekódoló szekvenciák vizsgálata bioinformatikai módszerekkel, szekvenciaillesztés a megfelelő nukleinsavakkal. A kódoló szekvenciákban promoter régiók azonosítása. 4. A fehérjék szerkezeti tulajdonságainak vizsgálata. Ilyen tulajdonságok például: rendezetlenség-vizsgálat aggregáció-vizsgálat coiled-coil szerkezetek vizsgálata transzmembrán régiók vizsgálata domének keresése fehérjén belüli motívumok vizsgálata rokon fehérjecsaládok vizsgálata szignálpeptidek keresése háromdimenziós fehérjeszerkezet vizsgálata térszerkezeti illesztés 5. A tulajdonságok vizsgálata alapján a potenciális fehérjék közül a ténylegesen létező de novo fehérjék azonosításának megkísérlése, az eredményekből általános következtetések levonása. 6. A tulajdonságok vizsgálatához használt bioinformatikai módszerek, programok használatának elsajátítása. Ilyenek többek között: EMBOSS Transeq (nukleinsavak lefordítása) Glimmer (génpredikció) BPROM, Neural Network Promoter Prediction (promoter régiók keresése) BLAST (szekvenciaillesztés) IUPred (rendezetlenség-vizsgálat) TANGO-WALTZ algoritmus (aggregáció-vizsgálat) SBASE (domének azonosítása) COILS, MARCOIL, MULTICOIL (coiled coil szerkezetek azonosítása) PHOBIUS (transzmembránrégiók jóslása) PROSITE (fehérjén belüli motívumok keresése) 14

SignalP (szignálpeptidek keresése) Pfam (rokon fehérjecsaládok azonosítása) I-TASSER (háromdimenziós térszerkezeti vizsgálat) MAMMOTH (tészerkezeti szekvenciaillesztés) MisPred (predikciók ellenőrzése) 15

3. ELMÉLETI BEVEZETŐ 3.1. De novo fehérjék képződése A de novo fehérjék az úgynevezett rokontalan, árva fehérjék (orphan proteins) egy csoportját alkotják, ahol a rokontalanság oka az, hogy az evolúciós közelmúltban jöttek létre korábban fehérjét nem kódoló DNS-szakaszokból. Bár ennek elméleti lehetőségét már korán felvetették, csak az utóbbi években sikerült ilyen fehérjék meglétét megbízhatóan igazolni. Az emberi genomban legalább három olyan fehérje található, amely nagymajmokban nem kódoló régiónak megfelelő DNS-szakaszról fejeződik ki. A de novo fehérjék képződésének első lépése, hogy a megfelelő szakasz RNS-re átíródjon, azaz megtörténjen a transzkripció. A képződött RNS-nek alkalmasnak kell lennie arra, hogy a transzlációs apparátus lefordítsa. 3.1. ábra A fehérjekódoló gének működése, fehérjeszintézis mechanizmusa [1] E lépésenkénti mechanizmus miatt a nem fehérjekódoló RNS-ek génjei elvileg könnyebben adhatnak életet de novo fehérjéknek. Ezen megfontolásból kiindulva több olyan fehérjekódoló gént is feltérképeztek főemlősökben, amelyek ún. hosszú, nem kódoló RNS-ek génjeiből alakulhattak ki. Jelen munkában annak lehetőségét vizsgálom meg, hogy riboszomális RNS-ek génjei részt vehettek-e ilyen mechanizmusokban, azaz tudok-e olyan eseteket azonosítani, ahol az rrns gének teljes vagy részleges duplikációja után a keletkező új gének szert tehettek fehérjekódoló képességre. [1] 16

3.2. 23S rrns, 16S rrns A 23S rrns a bakteriális riboszóma nagy alegységének része, az Escherichia coli baktériumban 2904 nukleotidból áll. A riboszomális peptidil-transzferáz aktív centrum ezen RNS V doménjében helyezkedik el. Ez a domén elsősorban azon antibiotikumok kötőhelye, melyek gátolják a transzlációt. A transzlációt más helyeken is gátolni tudják antibiotikumok (pontosabban elrontani), például a kis alegység kodonleolvasó mechanizmusába való beavatkozással. A 16S rrns a bakteriális riboszóma kis alegységének egy komponense, 1542 nukleotid hosszúságú (E. coli-ban). Funkciója a dekódolás, azaz a trns-mrns felismerés koordinálása, a transzláció hűségének biztosítása. [2, 3] 3.2. ábra A riboszóma háromdimenziós modelljei (a sötétkék részek jelölik a kis alegységet, sötétpiros részek a nagy alegységet) [4] 3.3. Alu szekvenciák Az Alu szekvenciák rövid, elszórt elemek (SINE, Short Interspersed Nuclear Elements), melyek megközelítőleg 300 nukleotid hosszúságúak. Több, mint 1 millió Alu szekvencia található a humán genomban. Annak ellenére, hogy genetikailag első körben funkció nélkülinek tekinthetőek, a legutóbbi eredmények arra utalnak, hogy az Alu elemek komoly evolúciós hatással rendelkeznek, befolyásolják a génstruktúrákat, ez által a fehérjeszekvenciákat, splicing motívumokat és a génkifejeződési mintázatokat. [5, 6] 17

3.3. ábra Alu alcsaládok konszenzus szekvenciái [6] Vizsgálataimba bevonásukat az indokolta, hogy szekvenciális rokonságot mutatnak a szignálfelismerő részecske (signal recongition particle, SRP) RNS-komponensével, valamint átíródott RNS-formái génszabályozási folyamatokban vesznek részt. Mindezen felül ismertek olyan fehérjekódoló gének, amelyek kialakításában részt vesznek. 3.4. FLJ33706 [Homo sapiens] fehérje Az emberben található FLJ33706 de novo fehérje az azonos nevű FLJ33706 de novo gén terméke. Ezen gén több szempontból is jelentősnek tűnik a szervezetben. Elsősorban összefüggésbe hozható a nikotin függőséggel. Az általa kódolt FLJ33706 de novo fehérje pedig elsősorban az agyban expresszálódik, és az Alzheimer kórban szenvedő betegek agyában megnövekedett mennyiségben mutatták ki. Ebből arra következhetünk, hogy esetleg szerepet játszhat ennek a pusztító betegségnek a kialakulásában. A gén jelen formájának kialakulásában Alu szekvenciák részvételét is valószínűsítették a kutatók. Ezen fehérje tényleges létezését sikerült laboratóriumi módszerekkel is igazolni. Szerkezeti predikciós vizsgálatokon keresztül ezt én is megpróbálom megerősíteni. [1, 7] 18

3.4. ábra Az FLJ33706 de novo gén szerkezete [7] 19

4. MÓDSZEREK 4.1. Nukleotidszekvenciák lefordítása (EMBOSS Transeq) Az EMBOSS Transeq online szerver egy nukleotidszekvencia (DNS vagy RNS) lefordítását végzi fehérjeszekvenciá(k)ra. Egy nukleinsavból összesen 6 frame-ben lehet 6 különböző fehérjeszekvenciát kapni (3 forward frame, 3 reverse frame), az EMBOSS Transeq segítségével ezeket a szekvenciákat tudjuk meghatározni. [8] 4.2. Hasonlóságkeresés (BLAST) A BLAST (Basic Local Alignment Search Tool) egy olyan bioinformatikai algoritmus, melynek segítségével különböző szekvenciákat hasonlítunk össze, lokális hasonlóságokat keresve. Leggyakoribb alkalmazásában egy tetszőleges szekvenciát bemenetként megadva az algoritmus összehasonlítja azt egy sok szekvenciából álló adatbázissal, és abban olyan szekvenciákat azonosít, melyek hasonlítanak rá egy bizonyos küszöb felett. A BLAST algoritmusnak többféle megvalósítása létezik, ilyenek például a protein-protein BLAST (fehérjeszekvenciák összehasonlítása), nukleotid-nukleotid BLAST (nukleotidszekvenciák összehasonlítása), vagy PSI BLAST (position-specific iterative BLAST), mely a távolabbi fehérjeevolúciós kapcsolatok felderítésére használható. A vizsgálatok során a protein-protein BLAST-ot (blastp) használtam. Ezen felül mindegyik BLAST alkalmazásánál többféle adatbázis választható. Fehérjeadatbázisokra példa a non-redundant protein (nr) adatbázis, az Uniprot/Swissprot, vagy a Protein Data Bank. [9] 4.3. Gén predikció, kódoló régiók azonosítása (Glimmer) A gén predikció fogalma alatt azt értjük, hogy egy genomban megjósoljuk azokat a szakaszokat, melyek a fehérjekódoló géneket tartalmazzák. Prokariótákban nincsenek, illetve igen ritkák a génen belüli nem kódoló szakaszok (intronok), tehát a prokarióták génjei folytatólagosak. A Glimmer (Gene Locator and Interpolated Markov ModelER) kifejezetten olyan program, melyet baktériumok és vírusok génjeinek meghatározására fejlesztettek ki, alapja az interpolált Markov modell. Az eddig megvizsgált prokarióta genomok legnagyobb részének (49 %) annotációja Glimmer-rel történt, ezt követi mindössze 12 százalékkal a Genemark.hmm, mely szintén Markov modellre épül. [10, 11] 20

4.4. Promoter régiók keresése (BPROM, Neural Network Promoter Prediction) A promoterek olyan szakaszok a DNS-ben, melyek egy konkrét gén transzkripciójának elindításáért felelősek, a transzkripciós starthelyeket határozzák meg. Helyileg közvetlenül a gének előtt helyezkednek el. A prokarióták és az eukarióták közötti különbségek miatt a két csoportra külön promoter adatbázisok és keresőprogramok léteznek. Prokariótákra a BPROMot, eukariótákra a Neural Network Promoter Prediction-t használtam. [12, 13, 14, 15] 4.5. Rendezetlenség-vizsgálat (IUPred) Az IUPred olyan program, mely egy fehérje rendezetlen szakaszainak jóslására használható. A rendezetlen fehérjék/fehérjeszakaszok olyan szekvenciák, melyeknek nincs stabil, jól definiált térbeli struktúrája natív körülmények között, hanem szerkezetük sok, egymásba alakuló konformációs állapot dinamikus egyensúlyaként jellemezhető. A módszer alapja, hogy a globuláris fehérjék a szerkezet kialakítása során számos aminosavaminosav kölcsönhatást létesítenek, ezek energiája ellensúlyozza a feltekeredés során bekövetkező entrópiacsökkenést. A rendezetlen fehérjék nem képesek ilyen megfelelő mennyiségű és erősségű - kölcsönhatások kialakítására. A program egy beadott szekvencia esetén ezeket a páronkénti energiákat becsüli meg és adja össze, minden egyes aminosavra, majd a végeredményt átalakítja egy 0 és 1 közötti számmá (0: teljes rendezettség, 1: teljes rendezetlenség). Alapesetben 0,5-nél nagyobb szám esetén az aminosav rendezetlennek tekinthető. Az IUPred-ben egy szekvenciát háromféleképpen lehet vizsgálni, mindhárom némileg eltérő paramétereket használ. A long disorder funkció a hosszabb (legalább 30 aminosavból álló) rendezetlen szakaszokat határozza meg, a short disorder rövidebb rendezetlen szekvenciákat is keres, amelyeket az előző funkció figyelmen kívül hagy, a structured regions (rendezett régiók) segítségével pedig a folyamatosan rendezett régiókat keressük, amelyek a gyakorlatban a fehérje globuláris doménjeivel egyeznek meg. [16, 17] 4.6. Aggregáció (TANGO-WALTZ) A fehérje-aggregáció az a jelenség, mely során a helytelenül feltekeredett fehérjék összetapadnak. A fehérje-aggregátumok a jelenlegi ismereteink szerint gyakran toxikusak, számos betegség kialakulásában játszanak fontos szerepet, mint az Alzheimer-kór, Parkinsonkór és a prion betegségek. A fehérjék aggregációs hajlamát többek között a TANGO-WALTZ algoritmus segítségével vizsgálhatjuk. Ez két különböző algoritmus (TANGO és WALTZ) kombinációja. A TANGO 21

algoritmus volt az elsőként kifejlesztett aggregációt jósló algoritmus. A beadott fehérjeszekvencia belső aggregációra való hajlamát vizsgálja, és kimenetként olyan szakaszokat ad vissza, melyek intermolekuláris béta-lemezek kialakításával erősen hajlamosak fehérje aggregátumok kialakítására. Ennél jelentősen újabb a WALTZ algoritmus, mely az amyloid aggregátumok létrehozására hajlamos régiókat határozza meg a fehérjékben. Ez azért jelentős, mert az amyloid aggregátumokat tartják felelősnek számos súlyos betegség kialakulásért, többek között a prion betegségért is. Ezzel az algoritmussal számos fontos aggregálódó fehérjeszakaszt azonosítottak már a tudósok, melyek nagy részének létezését már kísérleti úton is ellenőrizték. [18, 19] 4.7. Transzmembrán régiók jóslása (PHOBIUS) A transzmembrán domén általában egy transzmembrán fehérje egyetlen transzmembrán alfahélixét jelenti. Tágabb értelemben viszont bármilyen háromdimenziós fehérjestruktúrát jelölhet, mely termodinamikailag stabil a membránban. Ez lehet egyetlen alfa-hélix, több alfahélix stabil komplexe, transzmemebrán béta-lemez, vagy valamilyen más stabil szerkezet. Egy transzmembrán hélix általában körülbelül 20 aminosav hosszúságú. A fehérjék potenciális transzmembrán régióinak meghatározását a PHOBIUS szerverrel végeztem. Ez megjósolja a transzmembrán hélixek és szignálpeptidek elhelyezkedését (ha előfordulnak) a fehérjében, és a találat jóságának valószínűségét. [20, 21] 4.8. Domének keresése (SBASE) Definíciója szerint a domén a fehérjelánc térszerkezeti, feltekeredési és funkcionális egysége. Szekvenciája jellegzetes konzerváltsági mintázatot mutat. Számos fehérje több szerkezeti doménből tevődik össze. Ezen felül egy domén több különböző fehérjében is megjelenhet, amikor ez különböző kontextusban (más domének környezetében) történik, akkor modulokról beszélünk (ekkor a domén, azaz modul önálló evolúciós egység is. A domének így a molekuláris evolúció építőkövei is lehetnek, mely során rekombinálódhatnak különböző elrendezésekben, hogy különböző funkciójú fehérjék jöjjenek létre. Egy domén hossza változó lehet, rendszerint 25 és 500 aminosav között mozog, átlagosan nagyjából 160 aminosavra tehető. Az SBASE olyan doménkönyvtár, melynek segítségével egy tetszőleges szekvenciában meghatározható a benne található domének neve, és elhelyezkedése. A doménkeresés alapja egy, a már ismert doméneket tartalmazó adatbázis, és a hasonlóság keresés (BLAST). Az SBASE fő jellegzetessége, hogy egy-egy doméntípus sokféle képviselőjét is tartalmazza, 22

miáltal az adott család kevésbé jellegzetes tagjai is azonosíthatóvá válnak egyszerű BLAST keresés segítségével. [22, 23] 4.9. Coiled coil szerkezetek keresése (COILS, MARCOIL, MULTICOIL) A coiled coil egy jellegzetes motívum, ahol 2-7 alfa-hélix van összetekercselve, mint egy kötél szálai (dimerek és trimerek a leggyakoribb típusok). Egyéb, több hélixet tartalmazó motívumoktól a hélixek közötti jellegzetes oldallánc-oldallánc kölcsönhatás különbözteti meg (ún. 'knobs-into-holes packing'). A megfelelő szekvenciák jellegzetes, általában hét aminosavas (heptád) ismétlődéseket tartalmaznak, a predikciós programok ezen motívum felismerésén alapulnak. Számos coiled coil szerkezetet tartalmazó fehérje részt vesz olyan fontos biológiai funkciókban, mint például a génexpresszió szabályozása (transzkripciós faktorok). Ezen szerkezetek jóslását 3 különböző, más-más elméleti megfontolásokon alapuló program segítségével végeztem, ezek a COILS, MARCOIL és a MULTICOIL. [24] 4.10. Fehérjén belüli motívumok keresése (PROSITE) Fehérjék esetében, a szekvencia motívum egy aminosav-szekvencia minta, amely széles körben elterjedt, és feltételezhető, hogy valamilyen biológiai jelentősége van. Tágabb értelemben a domének is ilyen szekvenciális mintának felelnek meg, a mintázatok köre azonban ennél lényegesen tágabb, számos funkcionális hely rendelkezik jellegzetes mintázattal. Munkám során a PROSITE adatbázis és kereső segítségével azonosítottam a fehérjékben található szekvenciamotívumokat. [25] 4.11. Rokon fehérjecsaládok keresése (Pfam) A Pfam fehérjecsaládok adatbázisa, mely azok annotációját is tartalmazza. Fehérjecsalád alatt evolúciósan rokon fehérjék egy csoportját értjük, ez gyakran szinonim a géncsaláddal is. Minden családhoz elérhető az oda tartozó fehérjék többszörös szekvenciaillesztése is, mely alapján HMM (Hidden Markov Model) profilokat hoztak létre. Ezek a HMM profilok távolabbi rokon szekvenciák azonosítására is felhasználhatóak. [26, 27] 4.12. Szignálpeptid keresése (SignalP) Általánosságban a szignálszekvenciák a fehérjék olyan szakaszai, amelyek a sejten belüli lokalizáció meghatározásáért felelősek, és a fehérje valamelyik terminálisán vagy akár a 23

belsejében is előfordulhat, Szűkebb értelemben véve a szignálpeptid egyes fehérjék N- terminálisának azon szakasza, amely az adott fehérje membránba épülését/szekrécióját irányítja. A transzmembrán fehérjék azonosításához kapcsolódóan lehetséges szignálpeptideket a SignalP és a PHOBIUS szerver segítségével is kerestem. [28] 4.13. Teljes háromdimenziós fehérjeszerkezet jóslása (I-TASSER) Az I-TASSER szerver segítségével elsősorban egy fehérje háromdimenziós szerkezeti modelljét tudjuk megjósolni. Jelenleg ez az egyik legjobban teljesítő predikciós eljárás erre a célra. Ezen felül megállapítható belőle például az is, hogy a Protein Data Bank-ben található fehérjék közül melyek struktúrája hasonlít legjobban a jósolt szerkezethez, valamint szerkezeti analógiák alapján a szerver funkcionális hozzárendelést is jósol. Az I-TASSER szerver működésének mechanizmusát az alábbi ábra szemlélteti: 4.13. ábra I-TASSER működése [29] 1. Első lépésben a felhasználó egy fehérjeszekvenciát ad be. Ebből a szerver először megpróbál illeszkedő fehérje templátokat keresni a PDB könyvtárban úgynevezett felfűzési ( threading ) algoritmusok konszenzusának segítségével (LOMETS: locally installed metathreading approach). 24

2. A második lépesben a templátok folytonos részleteit a szerver újrailleszti teljes modellé egy Monte Carlo-alapú eljárás segítségével. Abban az esetben, ha valamelyik fehérjerészlethez nem talál megfelelő templátot, az I-TASSER saját maga épít egy szerkezetet ab initio modellezéssel. Ezek után klaszterezés során határozhatók meg az legalacsonyabb energiatartalmú állapotok a SPICKER eljárás segítségével. 3. A harmadik lépésben a szerver ismét összerakja a fragmenseket, ezúttal a klaszter centroidokból kiindulva. Az ismétlés megismétlésének célja, hogy finomítsa a modellek globális topológiáját. Ezek után ismét a legalacsonyabb energiájú állapotok lesznek kiválasztva. A végső atomi modelleket a REMO algoritmus segítségével határozza meg, melynek során a hidrogénkötés-hálózat optimalizációjával kapjuk meg a megfelelő atomi adatokat. 4. A fehérje biológiai funkciójának meghatározásához az I-TASSER összehasonlítja a kapott háromdimenziós modelleket 3 független adatbázis tartalmával (EC classification, GO vocabulary, ligand-binding sites). Ebből kapjuk a végeredményt a legjobb szerkezeti hasonlóság és a legjobb funkcionális hasonlóság együtteseként. [29] 4.14. Térszerkezeti illesztés (MAMMOTH) Fehérjék térszerkezetének illesztésével a térben egymásnak megfelelő pozíciókat tudjuk azonosítani a szekvenciára való tekintet nélkül. Mivel a fehérjék térszerkezete általában konzerváltabb, mint a szekvencia, az azonosított térszerkezeti hasonlóságot szekvenciális megfelelés hiányában is a homológia, azaz közös leszármazás jelének szokás tekinteni. Hasonló szerkezet, különösen lokálisan, azonban kialakulhat evolúciósan függetlenül is két fehérje között konvergens evolúció révén, a szerkezeti analógia felismerése ilyenkor a funkcionális hozzárendelésben jelent segítséget. A megfelelő fehérjék többszörös szerkezeti illesztésének végrehajtására a MAMMOTH-mult szervert használtam. [30] 4.15. Szerkezeti predikciók helyességének ellenőrzése (MisPred) A MisPred szerver segítségével a szerkezeti predikciók helyességét ellenőrizhetjük. A MisPred adatbázis olyan fehérjeszekvenciák halmaza, melyek valamilyen oknál fogva helytelenül lettek prediktálva. Ezen az adatbázison belül kereshet a felhasználó a benne lévő fehérjék között, vagy egy tetszőleges fehérjeszekvenciát analizálhat a MisPred pipeline segítségével. Ennek segítségével eldönthető, hogy a vizsgált szekvencia ellentmond-e valamilyen alapvető szerkezetre vonatkozó szabálynak. 25

Ilyen ellentmondásra példák: Konfliktus a fehérjében a citoplazmatikus és extracelluláris Pfam-A domének jelenléte, és a transzmembrán szegmens hiánya között. Nukleáris és extracelluláris Pfam-A domének egyszerre történő előfordulása egy multidomén fehérjében. [31] 26

5. A FELADAT MEGVALÓSÍTÁSA 5.1. 16S rrns és 23S rrns lefordítása és hasonló, nem hipotetikus fehérjék keresése (EMBOSS, BLAST, Glimmer, promoter keresés) Első lépésben letöltöttem az NCBI adatbázisból az E. coli 16S rrns és a 23S rrns szekvenciát, majd ezeket EMBOSS Transeq segítségével lefordítottam mind a 6 frame-ben: így 12 szekvenciát kaptam. A 12 szekvenciához BLAST segítségével hasonló, annotált fehérjéket kerestem (protein-protein BLAST, non-redundant protein database kiválasztása). A találatok közül ezután azokat válogattam ki, melyek esetében a hasonlóság legalább 70%, és a fehérje az annotáció alapján nem hipotetikus, tehát (elvileg) valóban létezik. Ezeknek a fehérjéknek visszakerestem a kódoló szekvenciáit (+ 500 bázispárt még hozzátettem a START kodon előtti és a STOP kodon utáni szakaszokból) NCBI-ban és a Glimmer génpredikciós szoftverrel ellenőriztem, hogy ezen szekvenciák megfelelő szakaszai valóban kódoló régióknak tekinthetők-e. Ahol ez teljesült, azokat a szekvenciát kiválogattam. Ezek alkotják a későbbiekben vizsgált fehérjék első csoportját (8 fehérje). Erre a 8 fehérjére a prokarióta és eukarióta promoter régiókat azonosító adatbázisokban még azt is vizsgáltam, hogy vajon a kódoló régiók várható szakaszain valóban jósolnak-e promotereket. Pozitív eredmény esetén ezek a vizsgálatok esetlegesen tovább erősíthetik a nem hipotetikus fehérjék tényleges létezését. [8, 12, 14, 15, 32, 33] 5.2. Alu szekvencia lefordítása és hasonló fehérjék keresése (EMBOSS, BLAST) Egy létező Alu szekvencia konszenzusát is lefordítottam EMBOSS Transeq segítségével 6 frame-ben (Alu-Sx alcsalád). A 6 fehérjeszekvenciát szintén BLAST-tal vizsgáltam, és mindegyikhez kiválasztottam a legjobban hasonló nem hipotetikus fehérjét. Ezek alkotják a későbbiekben vizsgálandó fehérjék második csoportját (6 fehérje). [8, 32] 5.3. Kísérletileg bizonyított de novo fehérje vizsgálata A vizsgált fehérjék utolsó csoportját egy darab olyan de novo fehérje alkotja, melynek tényleges létezését laboratóriumi kísérletekkel is bizonyították. Ezt egy cikkből választottam (A human-specific de novo protein-coding gene associated with human brain functions, 27

Chuan-Yun Li et al., 2010), neve FLJ33706 (Homo sapiens). Az NCBI adatbázis ezt a fehérjét hipotetikusként tünteti fel, pontos neve hypothetical protein FLJ33706, partial (Homo sapiens). [7] 5.4. A fehérjekódoló szekvenciák vizsgálata, szekvenciaillesztés (BLAST) A fehérjekódoló nukleotidszekvenciákat az NCBI adatbázisból való kikeresés után vizsgáltam. BLAST segítségével az eredeti RNS/Alu szekvenciával szekvenciaillesztést végeztem. Ezek után a kódoló szekvenciák elhelyezkedését vizsgáltam a teljes 16S rrns/23s rrns/alu szekvenciákban. Ennek segítségével megállapítottam, hogy a kódoló szekvenciák az eredeti nukleinsavak mely részleteihez hasonlítanak. Ebbe a vizsgálatba nem tartozik bele a FLJ33706 fehérje kódoló szekvenciája, hiszen itt nincs milyen szülő RNS-szekvenciával illesztést végezni. [32] 5.5. A fehérjék szerkezeti tulajdonságainak megjósolása A 15 fehérje rendezetlenségét az IUPred szerverrel prediktáltam, long disorder funkcióval. A fehérjék aggregációs hajlamát a TANGO és WALTZ algoritmusokkal vizsgáltam. 4 féle beállítással dolgoztam: best overall performance, high sensitivity, high specificity és custom. A transzmembrán régiók és a szignálpeptidek létezését, valamint létezésük jóságának valószínűségét a PHOBIUS szerverrel jósoltam. A fehérjékben szignálpeptideket is kerestem, ehhez elsősorban a SignalP szervert vettem igénybe (a PHOBIUS is azonosít szignálpeptideket, a két módszer megerősítheti egymást). A fehérjékben található coiled coil szerkezetek lehetséges létezését 3 féle szerverrel is vizsgáltam: COILS, MARCOIL, MULTICOIL. A fehérjékben doméneket SBASE segítségével kerestem. Az SBASE szerver viszonylagos érzékenysége miatt itt a valóságban nem létező domének meghatározását is vártam, azaz viszonylag magas 'hamis pozitív' rátára számítottam. A szekvencián belüli lehetséges motívumokat a PROSITE szerverrel vizsgáltam. Ezek a motívumok lehetnek teljesen függetlenek, vagy az azonosított domének részei. A fehérjékhez rokon fehérjecsaládokat a Pfam adatbázisban kerestem. A fentiekben meghatározott szerkezeti predikciók helyességét a MISPRED szerverrel ellenőriztem. Abban az esetben, ha a MISPRED ellentmondást hoz ki, a fenti vizsgálati eredmények érvénytelennek tekinthetők, vagy legalábbis erős fenntartásokkal kezelendők. 28

Ezek után a 15 fehérjét I-TASSER-ben vizsgáltam. Az I-TASSER szerver segítségével térszerkezetet jósoltam és a Protein Data Bank-ben a jóslásokból kapotthoz hasonló szerkezetű fehérjéket kerestem. Az egyes fehérjékhez I-TASSER-ben kapott 5 szerkezeti modellre többszörös szerkezeti illesztést végeztem MAMMOTH-mult szerver segítségével. Azt vizsgáltam, hogy az egyes jósolt szerkezeti modellek mennyire hasonlítanak egymásra. Ahol relatív hasonlóságot tudtam megállapítani, ott közös doméneket kerestem PRIDE2 szerverrel. Ahol létezett közös domén, ott ezt a domént összehasonlítottam ismert szerkezetű doménekkel, hogy található-e egyezés. [17, 19, 23, 27, 34, 35, 36, 37, 38, 39, 40, 41] 29

6. EREDMÉNYEK 6.1. A részletes vizsgálatokba bevont fehérjék adatainak összefoglalása Az általam vizsgált 15 fehérje néhány fontos adatát a BLAST kimenetek alapján az alábbi táblázatban foglaltam össze (NCBI azonosító, szekvenciahossz, azonosság mértéke, E érték): 23S rrns-ből fordított fehérjeszekvenciákhoz hasonló fehérjék azonosító hossz azonosság (BLAST, %) E érték (BLAST) cell wall-associated hydrolase [Burkholderia multivorans ATCC 17616] cell wall-associated hydrolase [Vibrio cholerae 2740-80] IS1 transposase InsAB, partial [Escherichia coli ONT:H33 str. C48/93] leucine rich protein [Escherichia sp. 3_2_53FAA] BAG46932.1 234 75 2,00E-91 ZP_01677406.1 144 88 2,00E-73 ZP_23985828.1 80 95 2,00E-41 ZP_04532939.1 56 98 2,00E-26 16S rrns-ből fordított fehérjeszekvenciákhoz hasonló fehérjék azonosító hossz azonosság (BLAST, %) E érték (BLAST) ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67] ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67] AAX66568.1 106 99 8,00E-43 AAX67927.1 106 97 4,00E-65 30

orf120a (mitochondrion) [Brassica oleracea] ribosomal protein S10 [Medicago truncatula] YP_004927505.1 120 89 6,1 XP_003588337.1 1152 69 1,00E-18 Alu szekvenciából fordított fehérjékhez hasonló fehérjék azonosító hossz azonosság (BLAST, %) E érték (BLAST) hcg2000782 [Homo sapiens] EAX04538.1 106 85 3,00E-18 FLJ10385 [Homo sapiens] CAG47041.1 118 73 2,00E-24 hcg2040615 [Homo sapiens] EAW63194.1 106 56 2,00E-19 hcg2023281 [Homo sapiens] EAW76711.1 108 80 3,00E-30 hcg2031845 [Homo sapiens] EAX06532.1 111 70 7,00E-23 LAMA5 protein [Homo sapiens] AAH85017.1 561 87 7,00E-28 Kísérletileg ellenőrzött de novo fehérje azonosító hossz azonosság (BLAST, %) E érték (BLAST) FLJ33706 [Homo sapiens] EAW76366.1 200 - - 6.1. táblázat A részletes vizsgálatokra kiválasztott fehérjék összefoglalása 6.2. A fehérjekódoló szekvenciák szekvenciaillesztése Az NCBI-ból kiszedett fehérjekódoló szekvenciákra szekvenciaillesztést futtattam a BLAST szerver align two sequences opciójával. A 16S rrns-ből származtatott fehérjékhez tartozó nukleotidszekvenciákat a 16S rrns-sel illesztettem, a 23S rrns-ből származtatottakat a 23S rrns-sel, az Alu szekvenciák fordításából kapott fehérjékhez tartozó nukleotidszekvenciákat pedig a kiindulási Alu szekvenciával illesztettem. A szekvenciaillesztéssel azt próbáltam meghatározni, hogy az RNS-ek és Alu szekvenciákból fordított fehérjékhez hasonló fehérjéket kódoló szakaszok hasonlítanak-e a kiindulásként választott nukleinsavakra, vagy a hasonlóság csupán a lefordított fehérjeszekvenciák szintjén áll fenn, így akár véletlenszerű is lehet. 31

A vizsgálat során minden esetben valamilyen fokú hasonlóságot találtam a megfelelő 2 szekvencia között. A kétféle riboszomális RNS esetében a hasonlóság nagyon nagyfokú, az Alu szekvenciánál a hasonlóság viszont csak részleges. Az alábbi táblázat a hasonlóságok mértékeit foglalja össze: azonosság gap E érték cell wall-associated hydrolase [Burkholderia multivorans ATCC 17616] [BAG46932.1] cell wall-associated hydrolase [Vibrio cholerae 2740-80] [ZP_01677406.1] IS1 transposase InsAB, partial [Escherichia coli ONT:H33 str. C48/93] [ZP_23985828.1] leucine rich protein [Escherichia sp. 3_2_53FAA] [ZP_04532939.1] ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67] [AAX66568.1] ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67] (csak a név ua.) [AAX67927.1] orf120a (mitochondrion) [Brassica oleracea] [YP_004927505.1] 607/704(86%) 2/704(0%) 0 231/285(81%) 11/285(3%) 2,00E-59 237/244(97%) 0/244(0%) 3,00E-119 171/171(100%) 0/171(0%) 2,00E-90 307/321 (96%) 8/321 (2%) 3,00E-148 317/321(99%) 0/321(0%) 4,00E-167 49/51(96%) 0/51(0%) 2,00E-20 ribosomal protein S10 [Medicago truncatula] [XP_003588337.1] 231/285(81%) 11/285(3%) 2,00E-59 hcg2000782 [Homo sapiens] [EAX04538.1] 125/189(66%) 1/189(0%) 8,00E-11 0FLJ10385 [Homo sapiens] [CAG47041.1] 123/181(68%) 5/181(2%) 6,00E-13 hcg2040615 [Homo sapiens] [EAW63194.1] hcg2023281 [Homo sapiens] [EAW76711.1] 158/227(70%) 3/227(1%) 7,00E-24 118/173(68%) 4/173(2%) 8,00E-11 32

hcg2031845 [Homo sapiens] [EAX06532.1] 115/163(71%) 3/163(1%) 2,00E-17 LAMA5 protein [Homo sapiens] [AAH85017.1] 140/195(72%) 2/195(1%) 3,00E-24 6.2. táblázat A kódolószekvenciák hasonlóságának mértéke a megfelelő nukleotidszekvenciához Az alábbi ábrákon a BLAST-tal kapott szekvenciaillesztésekre láthatók példák: 1. Nagyfokú hasonlóság: 6.2.1. ábra A talált leucine rich protein kódoló szekvenciájának illesztése E. coli 23S rrns-sel 6.2.2. ábra A talált IS1 transposase InsAB, partial fehérjekódoló szekvenciájának illesztése E. coli 23S rrns-sel 33

2. Részleges hasonlóság: 6.2.3. ábra A talált hcg2000782 illesztése az Alu szekvenciával 6.2.4. ábra A talált 0FLJ10385 illesztése az Alu szekvenciával 6.3. A kódoló szekvenciák helyzete a megfelelő nukleinsavakban 6.3.1. ábra A 16S rrns-hez hasonlító kódoló szekvenciák viszonya a teljes 16S rrns szekvenciájához 34

6.3.2. ábra A 23S rrns-hez hasonlító kódoló szekvenciák viszonya a teljes 23S rrns szekvenciájához 6.3.3. ábra Az Alu szekvenciához hasonlító kódoló szekvenciák viszonya a teljes Alu szekvenciához 6.4. Az egyes fehérjék térszerkezetének vizsgálata A fehérjék térbeli szerkezeti preferenciáit az előző fejezetben már ismertetett pontok szerint vizsgáltam. Az alábbi táblázatban a kapott eredményeket foglalom össze. Ahol valamelyik vizsgált tulajdonság előfordult, vagy esetleg érdekes eredményt találtam, azt a táblázatban szürke színnel jelöltem. Az összes alábbi megállapítás a MISPRED szerverrel ellenőrizve lett, mely nem talált rosszul prediktált szerkezetet egyetlen fehérje esetében sem. Ugyanakkor, mint azt lentebb kifejtem, ez nem jelenti azt, hogy az általam kapott predikciós eredmények között egyik esetben sincs ellentmondás. 35

23S rrns-ből fordított fehérjeszekvenciákhoz hasonló fehérjék rendezetlenség Pfam PROSITE SBASE szignálpeptid transzmembrán régió aggregáció coiled coil I-TASSER cell wall-associated hydrolase [Burkholderia multivorans ATCC 17616] [BAG46932.1] cell wall-associated hydrolase [Vibrio cholerae 2740-80] [ZP_01677406.1] IS1 transposase InsAB, partial [Escherichia coli ONT:H33 str. C48/93] [ZP_23985828.1] leucine rich protein [Escherichia sp. 3_2_53FAA] [ZP_04532939.1] - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 23S rrns-ből fordított fehérjeszekvenciákhoz hasonló fehérjék ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67] [AAX66568.1] ORF16-lacZ fusion protein [Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67] [AAX67927.1] - - - - - - - - + - - - - - - - - - 36

orf120a (mitochondrion) [Brassica oleracea] [YP_004927505.1] ribosomal protein S10 [Medicago truncatula] [XP_003588337.1] - - - - - - - - - - + - + - + - - - Alu szekvenciából fordított fehérjékhez hasonló fehérjék hcg2000782 [Homo sapiens] [EAX04538.1] - - - - - - - - - 0FLJ10385 [Homo sapiens] [CAG47041.1] - - - - - - - - - hcg2040615 [Homo sapiens] [EAW63194.1] - - - - - - - - - hcg2023281 [Homo sapiens] [EAW76711.1] - - - - - - - - - hcg2031845 [Homo sapiens] [EAX06532.1] + + + - - + - - - LAMA5 protein [Homo sapiens] [AAH85017.1] - + - + + - - - - Kísérletileg ellenőrzött de novo fehérje FLJ33706 [Homo sapiens] - - - - - - - - - 6.4. táblázat A szerkezetvizsgálatok összesített eredménye 37

A rendezetlenségi profilokra nem lehet általánosítást mondani. A 15 fehérje között egyaránt vannak olyanok, melyek majdnem végig teljesen rendezettek, és olyanok is melyeknek egyenlő arányban vannak rendezetlen és rendezett szakaszai is. Egyetlen fehérje esetében találtam szokatlan eredményt (hcg2031845 [Homo sapiens]), ezt a táblázatban jelöltem, és alább kitérek rá. A továbbiakban egyesével tárgyalom azokat a fehérjéket, melyeknél valamilyen tulajdonság előfordult. A 8 RNS molekulából származtatott fehérje közül 7 esetben semmilyen tulajdonságot nem tudtam bizonyosan kimutatni egyetlen vizsgált módszerrel sem, csak a ribosomal protein S10 [Medicago truncatula] esetében kaptam pozitív eredményt. 6.4.1. Ribosomal protein S10 [Medicago truncatula] [XP_003588337.1] Ezen fehérjénél a Pfam adatbázis azonosít egy rokon fehérjecsaládot, ez a Ribosomal S10 fehérjecsalád (ez az eredmény nem meglepő). Ez arra utal, hogy ilyen domén található a fehérjében (ezt az SBASE is megerősíti). A PHOBIUS szerver pedig meghatároz egy valószínűsíthető transzmembrán régiót, mely az alábbi ábrán látható (a régió pirossal van karikázva). Ez az eredmény azonban ellentmondásban van azzal, amit az irodalomból tudunk a riboszomális fehérjékről, ezek ugyanis rendszerint a sejt belsejében találhatók, nem a sejtmembránban. 6.4.1.1. ábra Ribosomal protein S10 [Medicago truncatula] fehérjében lévő transzmembrán régiók 38

Az alábbi ábrán a rendezetlenségi profil és a fehérjén belül az SBASE által azonosított domének elhelyezkedése együtt látható, valamint az, hogy melyik szakasz fordítódott a 23S rrns-hez hasonló kódoló szekvenciából. Ennél a fehérjénél a kódoló szekvencia több részlete több 23S rrns részlethez hasonlít (ezt a kódoló szekvenciák és a megfelelő nukleinsavak szekvenciaillesztéséből valószínűsítettem), így a fehérjének is több részlete származhat a 23S rrns-ből, illetve az egyes, hasonlónak talált részek közötti szakaszok mutációkkal eltávolodhattak az eredeti szekvenciától. A rendezetlenségi profil grafikonját Excel-ben készítettem. A rendezetlenség értékének a domének területén az aminosavak többségére 0,5 alatt kellene lennie, de az alábbi ábrán is látható, hogy ez nem mindig teljesül. Azokon a szakaszokon, ahol 0,5 feletti értékeket látunk, ott nagy valószínűséggel a valóságban nincs domén, akkor sem, ha az SBASE megjósol egyet. 6.4.1.2. ábra Ribosomal protein S10 [Medicago truncatula] rendezetlensége, doménei, és a hozzá tartozó 23S rrns szekvenciarészletek Az Alu szekvenciából származtatott fehérjék közül 4 esetben nem tudtam semmilyen tulajdonságot kimutatni (hcg2000782 [Homo sapiens] [EAX04538.1], 0FLJ10385 [Homo sapiens] [CAG47041.1], hcg2040615 [Homo sapiens] [EAW63194.1], hcg2023281 [Homo sapiens] [EAW76711.1]), a másik 2 fehérjét a továbbiakban tárgyalom. 39

6.4.2. hcg2031845 [Homo sapiens] [EAX06532.1] Ezen fehérjénél a Pfam adatbázisban 1 Pfam-A rokon fehérjecsaládot találtam: ez a GVQW putative binding domain (48-95 pozíciók között). Ez a rokoncsalád a GVQW putative binding domain, ez arra utal, hogy ebben a fehérjében egy ilyen domén található. Ezt az SBASE azonban nem támasztja alá, természetesen lehetséges, hogy azért, mert ezt a doméntípust nem tartalmazza a hozzárendelt háttéradatbázis. A PHOBIUS szerverrel 2 transzmembrán régiót azonosítottam, melyet az alábbi ábra is mutat: 6.4.2.1. ábra hcg2023281 [Homo sapiens] fehérjében lévő transzmembrán régiók Ennél a fehérjénél kaptam az egyetlen, meglehetősen szokatlan rendezetlenségi profilt is. A szekvencia teljes egésze nagyon nagyfokú rendezettséget mutat, jelentős részében az egyes aminosavakhoz tartozó rendezetlenségi érték erősen közelít a nullához (a legalacsonyabb a 0.0007 a 30. pozícióban). Ez a szokatlan profil az alábbi ábrán is látható: 6.4.2.2. ábra hcg2031845 [Homo sapiens] rendezetlenségi profilja 40

Az alábbi ábrán a rendezetlenségi profil és a fehérjén belül az SBASE által azonosított domének elhelyezkedése együtt látható, valamint az, hogy melyik szakasz fordítódott az Alu szekvenciához hasonló kódoló szekvenciából. A rendezetlenségi profil grafikonját Excel-ben készítettem. 6.4.2.3. ábra hcg2031845 [Homo sapiens] rendezetlensége, doménei, és a hozzá tartozó Alu szekvenciarészlet 6.4.3. LAMA5 protein [Homo sapiens] [AAH85017.1] Ezen fehérjénél a Pfam adatbázis 4 Pfam-A rokon fehérjecsaládot találtam (2 különbözőt), ezek a Laminin N-terminal (Domain VI) (45-298 pozíciók között), Laminin EGF (Domains III and V) (300-356 pozíciók között), Laminin EGF (Domains III and V) (359-426 pozíciók között), és a Laminin EGF (Domains III and V) (429-479 pozíciók között). Ezen 4 domén tényleges létezését megerősíti az SBASE is. Az SBASE által kapott kimenet: ID AAH85017.1 LAMA5 protein [Homo sapiens] STANDARD; PRT; 561 AA AC unknown; DE DOMAIN ARCHITECTURE PREDICTED BY SBASE SVM KW FT DOMAIN 45 298 Laminin, N-terminal - like domain; FT DOMAIN 300 356 EGF-like, laminin - like domain; FT DOMAIN 359 426 EGF-like, laminin - like domain; FT DOMAIN 429 473 EGF-like, laminin - like domain; FT DOMAIN 498 525 Regulator of chromosome condensation, RCC1 - like domain; FT DOMAIN 542 556 PAXNEB - like domain; 41