Tusnády E. Gábor. Sztochasztikus modellek a fehérjekutatásban. Doktori (Ph.D.) értekezés. ELTE TTK Szerkezeti Biokémia Program



Hasonló dokumentumok
A fehérjék szerkezeti hierarchiája. Fehérje-szerkezetek! Klasszikus szerkezet-funkció paradigma. szekvencia. funkció. szerkezet! Myoglobin.

TDK lehetőségek az MTA TTK Enzimológiai Intézetben

2. Ismert térszerkezetű transzmembrán fehérjék adatbázisa: a PDBTM adatbázis. 3. A transzmembrán fehérje topológiai adatbázis, a TOPDB szerver

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Transzporterek vizsgálata lipidmembránokban Sarkadi Balázs MTA-SE Molekuláris Biofizikai Kutatócsoport, MTA-TTK Budapest

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

transzláció DNS RNS Fehérje A fehérjék jelenléte nélkülözhetetlen minden sejt számára: enzimek, szerkezeti fehérjék, transzportfehérjék

Bioinformatika és genomanalízis az orvostudományban. Biológiai adatbázisok. Cserző Miklós 2018

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

NÖVÉNYGENETIKA. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Fehérjeszerkezet, és tekeredés

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A tárgy címe: Bioinformatika

FEHÉRJÉK A MÁGNESEKBEN. Bodor Andrea ELTE, Szerkezeti Kémiai és Biológiai Laboratórium. Alkímia Ma, Budapest,

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Natív antigének felismerése. B sejt receptorok, immunglobulinok

y ij = µ + α i + e ij

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

A fehérjék térszerkezetének jóslása

Kettőnél több csoport vizsgálata. Makara B. Gábor

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Szekvenciaelemzés. Cserző Miklós 2017

Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis

A nukleinsavak polimer vegyületek. Mint polimerek, monomerekből épülnek fel, melyeket nukleotidoknak nevezünk.

7. Fehérjeszekvenciák és térszerkezetek analízise.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Al-Mg-Si háromalkotós egyensúlyi fázisdiagram közelítő számítása

Membrántranszport. Gyógyszerész előadás Dr. Barkó Szilvia

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

A mérési eredmény megadása

Cserző Miklós Bioinformatika és genomanalízis az orvostudományban. Integrált biológiai adatbázisok

Bioinformatika 2 6. előadás

MedInProt Szinergia IV. program. Szerkezetvizsgáló módszer a rendezetlen fehérjék szerkezetének és kölcsönhatásainak jellemzésére

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Semmelweis Egyetem / Élettani Intézet / Budapest. Bioinformatika és genomanalízis az orvostudományban. Bioinformatikai modellek. Cserző Miklós 2017

[Biomatematika 2] Orvosi biometria

Balatoni albedó(?)mérések

Hemoglobin - myoglobin. Konzultációs e-tananyag Szikla Károly

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

Diszkréten mintavételezett függvények

A matematikai feladatok és megoldások konvenciói

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Flagellin alapú filamentáris nanoszerkezetek létrehozása

A T sejt receptor (TCR) heterodimer

Adatszerkezetek. Nevezetes algoritmusok (Keresések, rendezések)

Mérési hibák

1b. Fehérje transzport

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

(1) A T sejtek aktiválása (2) Az ön reaktív T sejtek toleranciája. α lánc. β lánc. V α. V β. C β. C α.

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

Markov modellek

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai

Molekuláris biológiai eljárások alkalmazása a GMO analitikában és az élelmiszerbiztonság területén

8. A fehérjék térszerkezetének jóslása

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

A mérés. A mérés célja a mérendő mennyiség valódi értékének meghatározása. Ez a valóságban azt jelenti, hogy erre kell

NUKLEINSAVAK. Nukleinsav: az élő szervezetek sejtmagvában és a citoplazmában található, az átöröklésben szerepet játszó, nagy molekulájú anyag

BIOFIZIKA I OZMÓZIS Bugyi Beáta (PTE ÁOK Biofizikai Intézet) OZMÓZIS

Thomson-modell (puding-modell)

A XXI. SZÁZADRA BECSÜLT KLIMATIKUS TENDENCIÁK VÁRHATÓ HATÁSA A LEFOLYÁS SZÉLSŐSÉGEIRE A FELSŐ-TISZA VÍZGYŰJTŐJÉN

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Tömbök kezelése. Példa: Vonalkód ellenőrzőjegyének kiszámítása

Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László)

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

Biofizika szeminárium. Diffúzió, ozmózis

sejt működés jovo.notebook March 13, 2018

Elektromiográfia (Dinamometria) A motoros egységek toborzása, az izomfáradás vizsgálata A mérési adatok elemzése és értékelése

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Rendezések. Sergyán Szabolcs Óbudai Egyetem Neumann János Informatikai Kar október 24.

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Két kevéssé ismert humán ABCG fehérje expressziója és funkcionális vizsgálata: ABCG1 és ABCG4 jellemzése

Bioinformatika 2 4. előadás

Biomatematika 2 Orvosi biometria

A tananyag felépítése: A BIOLÓGIA ALAPJAI. I. Prokarióták és eukarióták. Az eukarióta sejt. Pécs Miklós: A biológia alapjai

I. VEKTOROK, MÁTRIXOK

Problémás regressziók

6. AZ EREDMÉNYEK ÉRTELMEZÉSE

Mikroszkóp vizsgálata Folyadék törésmutatójának mérése

OZMÓZIS. BIOFIZIKA I Október 25. Bugyi Beáta PTE ÁOK Biofizikai Intézet

A genetikai lelet értelmezése monogénes betegségekben

Területi statisztikai elemzések

BÍRÁLAT. Kállay Mihály Automatizált módszerek a kvantumkémiában című MTA doktori értekezéséről.

Mérési adatok illesztése, korreláció, regresszió

Gyógyszerrezisztenciát okozó fehérjék vizsgálata

Méréselmélet MI BSc 1

Mérési struktúrák

Víz. Az élő anyag szerkezeti egységei. A vízmolekula szerkezete. Olyan mindennapi, hogy fel sem tűnik, milyen különleges

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Átírás:

Tusnády E. Gábor Sztochasztikus modellek a fehérjekutatásban Doktori (Ph.D.) értekezés ELTE TTK Szerkezeti Biokémia Program Témavezető: Dr. Simon István Készült: a Magyar Tudományos kadémia Szegedi Biológiai Központjának Enzimológiai Intézetében Budapest 1999

Tartalomjegyzék TRTLOMJEGYZÉK 1. Bevezetés 4 2. Irodalmi áttekintés 6 2.1. z aminosav szekvenciák jellemzése....................... 6 2.1.1. szekvenciák rendezettsége....................... 6 2.1.2. Hasonlósági mátrixok.......................... 7 2.2. Transzmembrán fehérjék............................. 9 2.2.1. z integráns membránfehérjék általános felépítése........... 9 2.2.2. Transzmembránhélix predikciók..................... 11 2.2.3. z BC transzporter család és az MRP rokon fehérjék......... 13 2.3. Statisztikai eljárások a fehérje kutatásban.................... 15 2.3.1. Dinamikus programozási eljárások.................... 15 2.3.2. Rejtett Markov eljárások......................... 16 3. Célkitűzések 18 4. Felhasznált módszerek és eszközök 20 4.1. datbázisok, felhasznált adatok......................... 20 4.1.1. Szekvencia adatbázisok......................... 20 4.1.2. Transzmembrán fehérjék topológia adatai................ 20 4.2. függetlenségi divergencia........................... 22 4.2.1. divergencia definíciója......................... 22 4.2.2. divergencia használata aminosav hasonlóságok becslésére...... 23 4.3. Transzmembrán fehérjék topológiájának becslése................ 24 4.3.1. becsléshez használt rejtett Markov modell.............. 24 4.3.2. becslés menete............................. 26 4.3.3. modell paraméterei........................... 28 4.3.4. becslés pontosságának mérése..................... 29 4.4. Programok, egyéb predikciós eljárások...................... 29 5. Eredmények 31 5.1. z aminosavak kicserélhetősége a függetlenségi divergencia alapján...... 31 5.2. z MRP rokon fehérjék és membrántopológiájuk................ 37 5.3. Transzmembrán fehérjék topológiájának becslése................ 41 5.3.1. rejtett Markov modell......................... 41 1

TRTLOMJEGYZÉK 5.3.2. predikció pontossága.......................... 46 5.3.3. predikciós módszerek összehasonlítása................ 47 5.3.4. hipotézis igazolása........................... 51 6. Összefoglalás 53 7. Hivatkozások 56 8. z értekezés alapjául szolgáló közlemények jegyzéke 62 9. Egyéb közlemények jegyzéke 62 10. Köszönetnyilvánítás 63 11. Függelék 64 11.1. Diszkrét Markov folyamatok........................... 64 11.2. diszkrét Markov folyamatok kiterjesztése................... 66 11.3. rejtett Markov modell elemei.......................... 67 11.4. rejtett Markov modell három alapfeladata................... 68 11.4.1. z első feladat megoldása........................ 69 11.4.2. második feladat megoldása...................... 70 11.4.3. harmadik feladat megoldása...................... 71 2

ÁBRÁK JEGYZÉKE Ábrák jegyzéke 1. Szekvencia és térszerkezeti adatbázisok mérete................. 4 2. transzmembrán fehérjék három alaptípusa................... 10 3. Bináris aminosav hasonlósági fák (I)....................... 31 4. Bináris aminosav hasonlósági fák (II)...................... 32 5. Bináris aminosav hasonlósági fák (III)...................... 33 6. z MRP1 és CFTR szekvenciaillesztett hidrofóbicitási görbéje......... 38 7. z MRP alcsalád................................. 40 8. transzmembránhélixek közötti szekvenciadarabok hosszúságának eloszlása. 42 9. transzmembrán fehérjék tipikus szerkezeti elemei............... 43 10. transzmembránhélix predikcióhoz használt rejtett Markov modell architektúrája 44 11. Elsőrendű diszkrét Markov modell........................ 64 12. rejtett Markov modell............................. 66 13. forward-backward algoritmus......................... 69 14. rejtett Markov modell paramétereinek újrabecslése.............. 71 Táblázatok jegyzéke 1. PIR (34.0) adatbázis szűrése.......................... 20 2. Transzmembránhélix topológia becslő programok URL címei.......... 30 3. z aminosavak távolság mátrixa......................... 34 4. z aminosav hasonlósági mátrixok korrelációja................. 36 5. transzmembránhélix predikció pontossága................... 46 6. Különböző topológia becslő eljárások pontossága................ 48 3

Bevezetés 1. Bevezetés z élő szervezetek legérdekesebb makromolekulái a fehérjék, amelyek néhány építőelemet felhasználva a legváltozatosabb szerkezeteket spontán módon képesek kialakítani. z építőkövek az aminosavak a fehérjékben láncszerűen kapcsolódnak össze, és az aminosavaknak a láncban való sorrendjének megadása elegendő a fehérje teljes szerkezetének és működésének megadásához. Ezt az információt az élőlények genomjában a DNS molekulák tárolják, amelyről bonyolult szabályozási rendszereken keresztül szintetizálódnak a fehérjék. hatvanas évek elején nfinsen most már klasszikusnak mondható kísérletével megmutatta, hogy a fehérjék polipeptidlánca spontán módon képes felcsavarodni, azaz a fehérjére jellemző háromdimenziós szerkezetet kialakítani. Kutatók ezreit foglalkoztatja azóta a kérdés, hogyan megy végbe ez a folyamat, valamint, hogy az aminosav sorrend mi módon határozza meg a térszerkezetet. fehérjék háromdimenziós szerkeze- tének kísérleti meghatározása lényegesen 10 7 10 6 GENBNK (nukleotid) SWISS-PROT (fehérje) PDB (térszerkezet) nehezebb feladat, mint az aminosavak sorrendjének meghatározása. Ez utóbbi az automatizált DNS szekvenálás révén rutinfeladattá vált, és mostanra annyira felgyorsult, hogy ma már néhány alacsonyabb rendű élőlény teljes genomiális DNS-ének bázissorrendje ismertté vált. térszerkezet és az aminosav sorrend meghatározás ne- Darab 10 5 10 4 10 3 10 2 1980 1985 1990 1995 2000 Évek 1. ábra. szekvencia és térszerkezeti adatbázisokban levő fehérjék számának változása az évek függvényében hézsége közötti különbség eredményeképpen a szekvencia adatbankok mérete meszsze meghaladja a térszerkezeti adatokat tartalmazó adatbankok méretét, és a kettő különbsége évről évre exponenciálisan nő (1. ábra). szekvencia adatbázisok rohamos növekedésével lehetőség nyílt az aminosav szekvenciák statisztikai vizsgálatára. z első statisztikai eljárások a 70-es évek közepén jelentek meg, és már ezek a vizsgálatok is utaltak arra, hogy az aminosavak nem rendezetlen, véletlen módon következnek egymás után a szekvenciában. szekvencia és a térszerkezet közötti összefüggések feltárására több statisztikai eljárás látott napvilágot, ezek közül a legtöbb a szekvencia és a másodlagos szerkezet közötti kapcsolatot vizsgálta. Napjainkban egyre több olyan eljárást dolgoznak ki, amelyek önállóan tanulják meg a szekvenciákban rejlő szabályokat, és ezáltal a fehérjék egyes térszerkezeti tulajdonságait képesek predikálni 1. 1 z angol prediction szó az Országh szótár szerint jóslást, jövendölést jelent. Mivel el szeretném kerülni a magyar kifejezések okkult jelentését, ezért meghagyom predikció-nak, vagy a becslés szóval fordítom. 4

Bevezetés z aminosav szekvenciák vizsgálata két szintet érint. Egyrészt az eredményeket az ismert szekvenciájú, de ismeretlen tulajdonságú fehérjék szerkezet predikciójához használhatjuk fel, másrészt a statisztikai vizsgálatok célja a fehérjékre általánosan jellemző tulajdonságok feltárása, végső soron a háromdimenziós kód megfejtése. vizsgálatok során célszerű figyelembe venni a fehérje szerkezet kialakulásakor szerepet játszó, illetve a szerkezet fenntartásához szükséges kölcsönhatásokat, amelyeket alapvetően két osztályba sorolhatunk: az aminosavak közötti és az aminosavak és környezetük közötti kölcsönhatásokra. z egyes aminosavaknak a fehérjén belül valamely más aminosavval való kölcsönhatása létrejöhet a szekvenciában közeli aminosavak között (rövidtávú kölcsönhatás), vagy szekvenciálisan távoli, de térben közeli aminosavak között (hosszútávú kölcsönhatás). dolgozat első részében azt vizsgáltam, hogy a rövidtávú kölcsönhatások miatt kialakuló rendezettséget hogyan mérhetjük, illetve ennek alapján mely aminosavak cserélhetők ki a szekvenciában a szerkezet megváltozása nélkül. dolgozat következő részében egy konkrét fehérje esetében, az BC (TP Binding Casette) transzporterek családjába tartozó MRP1 (Multidrug Resistance-associated Protein) fehérjén mutatom meg a szekvencia vizsgálatok gyakorlati életben való felhasználását, és a kísérletek tervezéséhez való fontos hozzájárulását. Ezek a vizsgálatok irányították a figyelmemet az értekezés harmadik részében leírt transzmembrán fehérjék szerkezetének kialakításában fontos szerepet játszó tényezők kutatására, amely során a kölcsönhatások előbb említett második csoportja, a fehérje molekula és környezete között levő kölcsönhatások kerültek előtérbe. fehérje szekvenciák statisztikai vizsgálatai során ilyen kölcsönhatásokat eddig még nem vettek figyelembe. z aminosav szekvenciákat tekinthetjük időbeli folyamatoknak, ahol az idő az aminosavaknak a fehérje N-terminálisától számított sorszámának felel meg, ezért csak diszkrét, egységnyi értékeket vehet fel, az aminosavak pedig az adott időponthoz tartozó megfigyelést jelentik. Ebben az értelemben a szekvenciák sztochasztikusnak tekinthetők, ezért a statisztikusok által használt sztochasztikus modellek felhasználhatók a szekvencia vizsgálatoknál. Így bevezettem a vizsgálatok során a bioinformatika területén eddig még nem használt függetlenségi divergencia használatát, valamint megmutattam, hogyan alkalmazhatjuk a szekvenciák illesztésénél és a fehérjék térszerkezetének felismerésénél használt speciális eljárást a rejtett Markov modellt a transzmembrán fehérjék topológiájának becslésére. dolgozatban leírt eredmények egy része mivel az alkalmazott matematikai eljárásokat eddig még nem használták a szekvencia vizsgálatokban metodikai jellegű. Mivel el akartam kerülni a biokémikus szemszögéből száraz statisztikai módszerek leírását az eredmények ismertetése során, ezeket az általam kifejlesztett, tehát új eredménynek tekinthető eljárásokat a Módszerek című fejezetben írtam le (4.2.1., 4.2.2., 4.3.1. és 4.3.2. fejezet). rejtett Markov modell megértéséhez és használatához szükséges általános leírás a Függelékben található. 5

2. Irodalmi áttekintés Irodalmi áttekintés 2.1. z aminosav szekvenciák jellemzése 2.1.1. szekvenciák rendezettsége természetes fehérjék aminosav szekvenciáit vizsgálva az egyik legfontosabb kérdés annak tisztázása, hogy az aminosavak a szekvenciákban véletlen sorrendben követik-e egymást, vagy valamilyen általánosan érvényes szabályok határozzák meg sorrendjüket. fehérjék a biológiai rendszerben és in vitro körülmények között is a másodpercek törtrésze alatt képesek kialakítani háromdimenziós szerkezetüket. feltekeredésnek ( folding ) még nem tisztázott minden részlete, annyit azonban már lehet tudni, hogy a két legfontosabb hajtóerő a hidrofób aminosav oldalláncok kizárása a víz számára hozzáférhető térrészből, illetve a szekvenciában közel levő aminosav oldalláncok közötti kölcsönhatások (Sali és mtsi., 1994; Dill és mtsi., 1995; Fersht, 1997; Baldwin és Rose, 1999a, 1999b). feltekeredés során kialakuló globuláris szerkezetben a fehérje belsejében többnyire apoláris, hidrofób aminosav oldalláncok találhatók, a fehérje felszínén pedig a poláris, hidrofil oldalláncok. zt is kimutatták, hogy a térszerkezetben az atomok pakoltsága, a fehérje sűrűsége majdnem olyan nagy, mint egyes molekulakristályok sűrűsége. Ezek alapján feltételezhető, hogy a biológiai fehérjék tulajdonságaival rendelkező polipeptidláncot tetszőleges aminosav szekvencia nem képes biztosítani. rendezettséget kétféleképpen jellemezhetjük. Egyrészt vizsgálhatjuk az aminosavak sorrendjét a szekvenciákban (rövidtávú kölcsönhatások), másrészt vizsgálhatjuk az aminosavak, illetve szekvenciadarabok térbeli egymás mellé kerülését a kialakult térszerkezetben (hosszútávú kölcsönhatások). Ez utóbbiban megmutatkozó rendezettséget felhasználták a cisztein aminosavak oxidációs állapotának a becsléséhez pusztán a szekvencia alapján (Fiser és mtsi., 1992), illetve a térben közel álló aminosavak egy speciális csoportját melyek valószínűleg fontos szerepet játszanak a fehérjék stabilitásában, a stabilitás centrumokat az aminosavak térbeli egymás mellé kerülésének nem véletlen jellege miatt fel lehet ismerni a szekvencia alapján (Gugolya és mtsi., 1997; Dosztányi és mtsi., 1997; Dosztányi és Simon, 1999). szekvencia mentén való rendezettséget először a szekvenciában közel levő aminosav párok vizsgálatával mutatták ki (Vonderviszt és mtsi., 1986). z aminosavak párpreferenciáinak távolság függésének vizsgálata alapján megállapították, hogy a rendezettség mértéke a szekvenciában egymástól tíz aminosavra álló aminosavak esetén már a véletlen esetben várt értékre esik (Cserző és Simon, 1989). z információs elméletben használt entrópia segítségével szintén igazolták az aminosav szekvenciák nem véletlen jellegét (Pincus és Singer, 1996), valamint az entrópia mérésével különbséget lehetett találni a genomokban levő ténylegesen fehérjét kódoló 6

z aminosav szekvenciák jellemzése és az olyan hosszabb, stop kodont nem tartalmazó nukleotid szekvencia darabok (ORF, Open Reading Frame) között, amelyekről fehérje nem íródik át (Rani és mtsi., 1995). z aminosavak valamilyen bináris fizikai-kémiai paramétereit felhasználva (pl. poláris-apoláris) a szekvenciában levő periodicitások jól kimutathatók, és azoknak a térszerkezet különböző elemeivel való korrelációját is megállapították (West és Hecht, 1995). szekvenciákban található periodicitások vizsgálatával Rackovsky (1998) a szekvenciák nem véletlen jellegén túlmenően kapcsolatot tudott kimutatni a periodicitás és a térszerkezet szimmetriája között. 2.1.2. Hasonlósági mátrixok z aminosav szekvenciák összehasonlítása a molekuláris biológia egyik alap-, és igen általánosan elterjedt feladata. Szükség van erre egy új fehérje szekvenciájának meghatározása után a szekvenciálisan rokon fehérjék adatbázisokban való keresésénél, és ezzel az új fehérje funkciójának és szerkezetének felderítésénél, továbbá a szekvenciák rendszerezésénél, a fehérjék családokba való sorolásánál, stb. szekvencia összehasonlítás alapfeladata a szekvenciák illesztése ( alignment ), amely eljárást a 2.3.1. fejezetben részletesen ismertetek. z eljárás lényege az, hogy ha definiáljuk az aminosavak egymással való kicserélődésének mértékét, más szóval az aminosavak hasonlóságát vagy távolságát ( score matrix ), akkor a szekvenciákat úgy illesztjük össze, hogy az aminosav hasonlóságok összege az összerendezett szekvenciák mentén maximális legyen (Needleman és Wunsch, 1970). Nagy hasonlóságot mutató szekvenciák esetén (> ¼±) majdnem mindegy, hogy az aminosavak hasonlóságát hogyan definiáljuk. lacsonyabb szekvenciális hasonlóság esetében azonban az illesztés nagymértékben függ az alkalmazott hasonlósági mátrixtól (Risler és mtsi., 1988). z egyes illesztések pontosságát ismert térszerkezetű fehérjék esetében tudjuk ellenőrizni. fehérjék térszerkezetét egymásra illesztve úgy, hogy a megfelelő atomok térbeli koordinátái távolságának négyzetösszege ( rms value: root mean square ) minimális legyen (Greer, 1981), pontosan megmondható, hogy a szekvencia illesztésben melyik aminosavnak melyik felel meg. z elmúlt harminc év alatt több tucat aminosav hasonlósági mátrixot állítottak elő. Ezeket alapvetően három csoportba sorolhatjuk: (i) szekvenciális hasonlóságot mutató fehérjék illesztésén alapuló hasonlósági mátrixok, (ii) térszerkezeti hasonlóságot mutató fehérjék vizsgálatából adódó mátrixok, (iii) az aminosavak fizikai kémiai tulajdonságainak összevetésén alapuló hasonlósági mátrixok. z első aminosav hasonlósági mátrix az aminosavak genetikai kódjainak távolságán alapult (Fitch, 1966; Fitch és Margoliash, 1967), amelyben két aminosav hasonlóságát az egyik aminosav kodonjának a másik aminosav kodonjára való cseréhez szükséges minimális nukleotid mutációk számával mérték. Ez azonban helytelen következtetésekre vezethet, hiszen a konkrét fehérjékben bekövetkezett mutációk hatása a fehérje működésének megvál- 7

z aminosav szekvenciák jellemzése tozásában jelentkezik, és nem a DNS-ben. Éppen ezért ezt a fajta hasonlósági mátrixot csak közeli rokon szekvenciák esetében használhatjuk biztonsággal. Dayhoff és mtsi. (1968) alkalmazták először a szekvenciálisan hasonló aminosavak illesztésén alapuló eljárást az aminosav rokonságok megállapítására. z általuk javasolt PM mátrix(ok) ( PM: accepted point mutation ) (Dayhoff és mtsi., 1968, 1978) használata teljesen általánossá vált a szekvencia analízissel foglalkozók körében. Eljárásuk lényege az, hogy a nagy hasonlóságot mutató szekvenciák összerendezése után a szekvencia illesztés egy-egy pontjában levő aminosavak kicserélődését számolják, majd ezeket az értékeket egy elsőrendű Markov folyamatot feltételezve extrapolálják a kisebb hasonlóság esetén várt értékekre (nagyobb evolúciós távolságra). z extrapoláció jogosságát számosan megkérdőjelezték (Risler és mtsi., 1988; George és mtsi., 1990). Ennek az eljárásnak és általában a szekvencia illesztésen alapuló eljárásoknak a másik hibája, hogy a statisztikához használt szekvenciaillesztés önmaga determinálja, hogy melyik aminosav melyikkel lesz hasonló. További hátránya, hogy a térszerkezetileg nem releváns pozíciókban levő és a szerkezet konzervativitásában fontos szerepet játszó aminosavcseréket ugyanolyan súllyal veszi figyelembe (Risler és mtsi., 1988). PM mátrixokat ½fehérjecsaládban megfigyelt½ ¾aminosavcsere alapján számolták, amely számolást 1992-ben ismételtek meg a teljes (¾ Swiss-Prot adatbázist használva, több mint 23000 fehérje szekvenciáját figyelembe véve (Bairoch és Boeckmann, 1991; Jones és mtsi., 1992). z ismert térszerkezetű fehérjék vizsgálata alapján már a hatvanas évek közepén felvetették, hogy a térszerkezet konzervatívabb, mint az aminosav szekvencia, azaz egymással nagyon kis szekvenciális hasonlóságot mutató fehérjéknek ¼±) nagyon gyakran ugyanaz a térszerkezete (Perutz és mtsi., 1965). Ezt a feltevést a későbbi megfigyelések alátámasztották, és mára teljesen elfogadottá vált. térszerkezeti adatok birtokában tehát a kis szekvenciális hasonlóságot mutató rokon szekvenciákban vizsgálhatjuk az aminosavak kicserélődésének mértékét. McLachan (1971) készített először térszerkezeti adatokon nyugvó kicserélődési mátrixot, vizsgálata 16 fehérjecsalád elemzésén alapult. Risler és mtsi. (1988) 32 fehérje térszerkezetének illesztése után vizsgálta az aminosavak kicserélődését, de csak azokban a pozíciókban, amely aminosavak «atomjainak távolsága az illesztésben½ ¾Å-nál közelebb volt. Így a fehérjék felszíni hurkaiban levő a szerkezet stabilitásában és fenntartásában nem releváns aminosavcseréket nem vették figyelembe a hasonlóságok megállapításánál. z aminosavak fizikai-kémiai paramétereit felhasználva készített mutációs mátrixok nagyobb hasonlóságott mutattak a Dayhoff féle PM mátrixokkal, mint a genetikai pontmutációs mátrixok (Grantham, 1974). z immunoglobulinok hipervariábilis szakaszainak és az abnormális hemoglobinok vizsgálatával azt is sikerült kimutatni, hogy a fizikai-kémiai paraméterek konzervativitása csak azokban a pozíciókban várható, amelyek a szerkezet fenntartásáért felelő- 8

Transzmembrán fehérjék sek (Miyata és mtsi., 1979). z irodalomban számos hasonlósági mátrixot találunk, amelyek az alkalmazott fizikai-kémiai paraméterekben különböznek egymástól, illetve abban, hogy ezekből az adatokból hogyan származtatták a hasonlóságokat. leggyakrabban használt paraméterek a következők: az aminosavak polaritása, mérete, hidrofóbicitása, másodlagos szerkezet képző potenciálja (Grantham, 1974; Miyata és mtsi., 1979; Pongor, 1987; Rao, 1987). Ezeken a módszereken kívül számos egyedi eljárás is napvilágot látott. Levin és mtsi. (1986) a másodlagos szerkezeti elemek predikciójához fejlesztett ki egy mátrixot, amellyel a predikció hatékonyságát sikerült ¼±fölé vinni. z egymással nagy hasonlóságot mutató szekvencia blokkok felhasználásával (Henikoff és Henikoff, 1992), illetve szekvencia és térszerkezeti adatok vegyes alkalmazásával (Henikoff és Henikoff, 1993) is készítettek hasonlósági mátrixokat, amelyek közül az utóbbi szintén az egyik leggyakrabban alkalmazott hasonlósági mátrix. Tüdős és mtsi. (1990) először használtak teljes adatbázist felhasználó, nem szekvencia illesztésen alapuló eljárást a hasonlóságok megállapítására. 2.2. Transzmembrán fehérjék 2.2.1. z integráns membránfehérjék általános felépítése z egyes sejtek és a sejteken belül az egyes térrészek féligáteresztő hártyával vannak körülvéve, amelyek biztosítják a környezettől való elválasztást. kettős lipidrétegen kisebb apoláris molekulák könnyen átjutnak diffúzióval, de a membrán az ionok és nagyobb molekulák számára átjárhatatlan. nagyobb molekulák transzportja, illetve diffúziója csak segítséggel mehet végbe, a kettős lipidrétegbe ágyazott fehérjemolekulák révén. z integráns membránfehérjék felelősek a legtöbb vegyület transzportjáért, a sejtek közötti komunikációért, az immunrendszer helyes működéséért, az ideg-ideg és ideg-izom kapcsolatok kialakításáért, a szervezet számára káros anyagok sejtekből való szelektív kipumpálásáért. membránfehérjék polipeptidlánca a membránon egyszer, vagy többször fűződik át. membránon áthaladó rész mindig rendezett, vagy«-hélix szerkezetű, vagy -szál. Ennek az a magyarázata, hogy az apoláris kettős lipidrétegben a szabad hidrogénhíd akceptor és donor atomok jelenléte kedvezőtlen, és a peptidgerinc amino- (donor) és karboxil- (akceptor) csoportja folytonosan csak akkor lekötött, ha szerkezete«-hélix, vagy ha több -szál alkot egy -hordót (2. ábra). z utóbbi esetben a membránba való beépülés előtt a teljes hordónak össze kell szerelődnie, míg az«-hélixek esetében az egyes hélixek egyesével is beépülhetnek a membránba (Booth és Curran, 1999). Ez lehet az oka annak, hogy az integráns memránfehérjék túlnyomó többségében a membránt átszelő szakasz«-hélix szerkezetű, míg a -hordó csak néhány bakteriális fehérjére, a baktériumok sejtfalában levő porinokra jellemző. 9

Transzmembrán fehérjék Külso oldal B C Belso oldal 2. ábra. transzmembrán fehérjék három alaptípusa., -hordó; B, rendezetlen«-csokor; C,«-hélixek gyűrű alakú elrendezésben membránok átlagos vastagsága ¼- ¼Å, amit½ -¾ aminosavból álló - menetű«-hélix ér át. Bár alig néhány transzmembrán fehérje szerkezete ismert atomi felbontásban, azokban a transzmembránhélixek többnyire a membrán síkjára merőlegesen helyezkednek el. receptor molekulákban a membránhélixek szorosan pakoltak, míg a csatorna és transzporter fehérjékben gyűrűt alkotnak (2. ábra). Érdemes megjegyezni, hogy amíg a prolin a globuláris fehérjékben levő«-hélixben szinte egyáltalán nem fordul elő, addig számos transzmembrán«-hélix közepén megtalálható és ezen a helyen konzervativitása is nagyobb, mint a globuláris fehérjékben (von Heijne, 1991; Woolfson és mtsi., 1991; Jones és mtsi., 1994a; Jacob és mtsi., 1999). z ionokat, poláris vegyületeket transzportáló és áteresztő fehérjék belső részének polárisnak kell lennie, ami a prolin beépítésével oldható meg úgy, hogy a csatorna belső átmérője a legkisebb mértékben csökkenjen, ugyanakkor poláris legyen. prolin aminocsoportja ugyanis nem képes hidrogénhíd kötésre, így a szekvenciában négy aminosavval előrébb levő aminosav gerinc karbonilcsoportja szabad marad, és ez biztosítja a csatorna polaritását. szerin és treonin szintén gyakrabban fordul elő a transzmembránhélixekben, mint a globuláris fehérjék«-hélixeiben, ami a kialakuló speciális hidrogénhíd szerkezettel magyarázható. Ezeknek az aminosavaknak az oldallánca«-hélix szerkezetben ugyanis visszahajlik a peptidgerincre, egy nem szabályos, három centrumú hidrogénhíd kötést alakítva ki (Gray és Matthews, 1984). 10

Transzmembrán fehérjék membránok minden tekintetben aszimmetrikusak. Különbözik az ionok, a kis molekulák, valamint a fehérjék koncentrációja a membrán két oldalán, aminek eredményeképpen potenciálkülönbség alakul ki az elválasztott térrészek között. Ugyancsak eltér a membránt alkotó kettős lipidréteg összetétele a membrán külső és belső rétege között (Bergelson és Barsukov, 1977; Rothman és Lenard, 1977). plazmamembránban levő fehérjék extracelluláris tér felé levő részeken glikozilálódhatnak megfelelő szekvenciális környezetben levő szerin és aszparagin oldalláncokon. 2.2.2. Transzmembránhélix predikciók z apoláris lipidréteggel kölcsönható aminosav oldalláncok nagy részének szintén apolárisnak kell lennie, és így a szekvencia alapján a membránt átszelő peptidszakaszok megkereshetők a szekvencia mentén az aminosavak valamilyen átlagos hidrofóbicitásának meghatározásával. Ezen az elven alapultak az első transzmembránhélix predikciók (Kyte és Doolittle, 1982; Eisenberg és mtsi., 1984; Engelman és mtsi., 1986; Cornette és mtsi., 1987; Esposti és mtsi., 1990; Ponnuswamy és Gromiha, 1993; Gromiha és Ponnuswamy, 1995), amelyek egymástól abban térnek el, hogyan határozták meg az aminosavak hidrofóbicitását és azt hogyan átlagolták a szekvencia mentén. z aminosavak hidrofóbicitása közvetlenül nem mérhető, és az a környezettől is függ (Ponnuswamy és Gromiha, 1993). z oldalláncok hidrofóbicitásának meghatározására a következő eljárásokat dolgozták ki: (i) az aminosavak oktanol és víz közötti egyensúlya alapján a Gibbs-féle szabadentalpia változás meghatározásával (Kyte és Doolittle, 1982; Eisenberg és mtsi., 1984), (ii) az egyes atomcsoportok számított hidrofób és hidrofil kölcsönhatásainak különbségéből, szintén az oktanolt és vizet tekintve oldószerként (Engelman és mtsi., 1986), (iii) a globuláris fehérjék belsejében található adott aminosav környezetében levő aminosavak átlagos hidrofóbicitása alapján (Ponnuswamy és Gromiha, 1993), illetve (iv) a bizonyított transzmembrán«-hélixek statisztikai vizsgálatával, az aminosavak gyakoriságának meghatározásával az«-hélixekben, illetve a teljes fehérjében (Esposti és mtsi., 1990). Egyes hidrofóbicitási skáláknak a predikciókban való pontossága azonban nemcsak a skálától függ, hanem a becsült fehérjétől is. Egyes skálák például a nem csatorna tipusú fehérjék szerkezetét nagy pontossággal képesek becsülni, ugyanakkor aktív transzporter fehérjék szerkezetét sokkal pontatlanabbul, más skálák pedig fordítva (Esposti és mtsi., 1990; Crimi és Esposti, 1991). Ez azt jelenti, hogy a transzmembrán fehérjéket nem lehet egységesen kezelni, egy adott hidrofóbicitási skálával vagy paraméter készlettel leírni, azokban különböző tulajdonságú«-hélixek találhatók. z egyes predikciós eljárások abban is különböznek, hogy a hidrofóbicitásokat hogyan (pl. súlyozott-súlyozatlan átlag) és mekkora szekvenciadarab alapján átlagolják, hol húzzák meg azt a határértéket, ami alapján különbséget tesznek a transzmembrán és a nem 11

Transzmembrán fehérjék transzmembrán szakaszok között. hidrofóbicitási görbék vizsgálatán nyugvó predikciók hátránya, hogy a globuláris fehérjék belső apoláris részeit nem tudják megkülönböztetni az apoláris transzmembrán szakaszoktól, és ezért túlbecsülik a transzmembrán szakaszok jelenlétét, valamint csak a membránt átszelő régiók aminosav összetételét vizsgálják, és így nem használják ki a szekvencia más részeiben rejlő információt. predikciók pontossága e két hiányosság figyelembevételével javítható volt. Egyrészt a hidrofóbicitási momentum bevezetésével különbséget lehet tenni a globuláris amfipatikus«-hélixek és a transzmembránhélixek között (Eisenberg és mtsi., 1984), másrészt felhasználták azt a megfigyelést, hogy az aszimmetrikus lipideloszlás eredményeképpen a transzmembrán hélixek közötti rövidebb citoszolikus hurkokban általában több pozitívan töltött aminosav található, mint az extra-citoszolikus hurkokban (belül-pozitív szabály, positive-inside rule ) (Sipos és von Heijne, 1993; van Klompenburg és mtsi., 1997). predikciók pontosságának további növelése az egyre több bizonyított topológiájú transzmembrán fehérje statisztikai vizsgálatával volt elérhető. Jones és mtsi. (1994b) mutatták meg először, hogy nemcsak a pozitívan töltött aminosavak gyakorisága tér el a membrán két oldalán levő hurkokban, hanem mind a 20 aminosav gyakoriságában látható különbség, Sipos és von Heijne (1993) pedig kimutatták, hogy a transzmembrán régión belüli szakaszokon is változik az egyes aminosavak gyakorisága, az apoláris aminosavak közül az apoláris aromás aminosavak gyakoribbak a lipidréteg széleinél, míg az alifás oldalláncú aminosavak a membrán közepe felé gyakoriabbak. transzmembrán fehérjék szekvenciáit ezeknek a térrészeknek megfelelően öt részre bontva, Jones és mtsi. (1994b) olyan predikciós eljárást dolgoztak ki (az eljárásuk neve MEMST), amelyben az egyes térrészeknek megfelelő aminosav gyakoriságokat maximalizálták egy dinamikus programozási eljárás segítségével. predikció pontossága felülmúlta a hidrofóbicitási profil analízisen alapuló predikciók pontosságát. predikció során felhasznált információ mennyiségének hatása a pontosságra jól látható Persson és rgos (1994) munkáján, akik csak két térszerkezeti részt különböztettek meg (transzmembránhélixek közepe és széle), viszont nem egy fehérje szekvenciája alapján végezték a becslést, hanem többszörösen illesztett rokon szekvenciák felhasználásával. z általuk készített predikció pontossága összemérhető volt a MEMST eljárás pontosságával. Szintén többszörösen illesztett szekvenciákat használ Rost és mtsi. (1996) által kidolgozott mesterséges idegháló ( artificial neural network ) szimuláción alapuló becslő eljárás, amelynek hatékonysága az irodalomban az addigi legjobb volt. Ezeken az eljárásokon kívül számos más transzmembrán szegmenseket és topológiát becslő eljárás látott napvilágot, melyek közül Cserző és mtsi. (1994,1997) által készített eljárást érdemes kiemelni. z általuk készített speciális pont-mátrixok segítségével ugyanis több olyan fehérje szerkezetét sikerült pontosan becsülni, amelyeket korábban nem tudtak helyesen predi- 12

Transzmembrán fehérjék kálni. Eljárásuk lényege, hogy az aminosavak párpreferenciái alapján képzett mutációs mátrixokat használva két szekvencia illesztésénél, az illesztéshez készült pont-mátrixok sűrűsége a transzmembránhélixek helyén sokkal nagyobb, mint a szekvencia többi részén, még akkor is, ha szekvenciálisan nem hasonló transzmembrán fehérjék szekvenciáit hasonlítják össze. Ezt az eredményt azzal magyarázhatjuk, hogy bár a transzmembránhélixek esetében a szekvencia konzervativitása általában nagyon alacsony, a hélixek aminosav összetétele azonban konzervatív. predikciós eljárásokkal kapcsolatban fontos megjegyezni két dolgot. z egyik, hogy nem áll rendelkezésünkre olyan adatbázis, amelyben a transzmembránhélixek pontos elhelyezkedése a szekvencián belül helyesen, megbízható kísérleti adatokra támaszkodva lenne megadva. Swiss-Prot szekvencia adatbázis ugyan tartalmazza a transzmembrán fehérjék topológiáját meghatározó adatokat, azonban nagyon sok esetben helytelenül. Ennek az az oka, hogy a fehérjék szekvenciájának meghatározásakor végzett első szekvencia vizsgálatok eredményeit sokszor kísérleti tényként fogadják el. Így például az emberi MRP1 fehérje (lásd következő fejezet) esetében a hidrofóbicitási görbe analízisén alapuló predikció eredménye került az adatbázisba, amelyet egyetlen kísérleti adattal sem támasztottak alá a szerzők. Sajnos, ezeket a hibákat később sem javítják ki, így az adatbázisban a hibák egyre halmozottabban vannak jelen. másik oka az adatok pontatlanságának, hogy a membránt átszelő szakaszok kísérletesen nehezen tanulmányozhatók. Ezeket röntgendiffrakció segítségével határozhatjuk meg pontosan, azonban a membránfehérjék kristályosítása szinte lehetetlen feladat, és emiatt nagyon kevés (kb. 10) membrán fehérje szerkezete ismert atomi felbontásban. Molekuláris biológiai eszközöket felhasználva (fúziós fehérjék készítése, epitóp inzerció, glikozilációs helyek beépítése...) a kapott eredmények sokszor ellentmondóak, nehezen értelmezhetők, és csak indirekt bizonyítékokat szolgáltatnak. Például egy vizsgált fehérje szekvenciájába beépített epitóp segítségével csak azt mondhatjuk meg, hogy a kérdéses szakasz a sejten kívül helyezkedik-e el vagy belül, s nem a membránt átszelő rész pontos határait. 2.2.3. z BC transzporter család és az MRP rokon fehérjék transzmembrán fehérjék csatorna típusú transzporterek csoportjába tartoznak az BC (TP Binding Casette) transzporter család fehérjéi, amelyek a prokarióta egysejtűektől az élesztőkön át az emberig szinte valamennyi fajban megtalálhatók (Higgins, 1992). Ebbe a családba számos, az orvostudomány számára fontos fehérje tartozik, mint például a cisztikus fibrózis transzmembrán regulátor (CFTR), amelynek mutációja okozza a cisztikus fibrózist (Riordan és mtsi., 1989), az antigének prezentációjában szerepet játszó peptid transzporterek, a TP-ok (Spies és mtsi., 1990), valamint a rákos betegek kemoterápiájának kudarcát okozó fehérjék, a multidrog rezisztencia fehérje (MDR1) és a multidrog rezisztenciához társuló fehérje (MRP1) 13

Transzmembrán fehérjék (Chen és mtsi., 1986; Cole és mtsi., 1992). Valamennyi, e családba tartozó fehérje az TP hidrolízisekor felszabaduló energiát használja a transzport energiaigényének fedezésére. z eukarióta BC transzporterek többsége két homológ molekulafélből áll, amelyek egy transzmembrándomént és egy nukleotid kötő domént tartalmaznak. két transzmembrándomén valószínűleg együtt alakítja ki a transzport funkció biztosításához szükséges csatornát, míg a két nukleotid domén az TP hidrolízisét végzi. z TP kötésében és hidrolízisében szerepet játszó Walker és B szekvencia motívumok (Walker és mtsi., 1982), valamint az TP hidrolízisét a transzporttal összekötő konformációs változásokban résztvevő, un. BC signature régió valamennyi BC transzporter fehérje nukleotid kötő doménjében megtalálható. z egyes fehérjéket ez utóbbi szekvencia motívum megléte alapján sorolják az BC családba (Shyamala és mtsi., 1991; Croop, 1993). kilencvenes évek közepéig számos BC transzporter topológiáját vizsgálták, és ezek legtöbbje azt mutatta, hogy a két transzmembrándoménban 6-6 transzmembránhélix található. Ezt a topológiát a maltóz és az oligopeptid bakteriális permeázok estében alkalikus foszfatázzal és -laktamázzal fuzionált fehérjék vizsgálatával támasztották alá (Pearce és mtsi., 1992; Dassa és Muir, 1993), az egér MDR3 esetében a beépített epitópok lokalizációját határozták meg (Kast és mtsi., 1995, 1996), a humán CFTR szekvenciájába glikolizációs helyek inszerciójával, és a képződött fehérje glikoziláltsága alapján határozták meg a topológiát (Chang és mtsi., 1994). humán MDR1 vizsgálatánál olyan funkcióját megőrzött fehérjét állítottak elő, amely nem tartalmazott ciszteint, majd ezen a cisztein nélküli fehérjén egyesével számos aminosavat ciszteinre cseréltek, és a ciszteinek lokalizációját membránpermeábilis és impermeábilis tiol reagensek segítségével határozták meg (Loo és Clarke, 1995). z MRP1 szekvenciájának meghatározását követően több olyan fehérjét találtak, amelyek szekvenciájuk alapján a MRP1-hez álltak legközelebb az BC családon belül. Ezek között található a májsejtek apikális membránjában elhelyezkedő kanalikuláris multispecifikus organikus anion transzporter (cmot, vagy MRP2), aminek hibás müködése okozza a Dubin-Johnson szindrómát, a krónikus konjugált hiperbilirubinémiát (Jansen és mtsi., 1995; Paulusma és mtsi., 1996), a szulfonilurea receptor (SUR1, SUR2), amely az TP függőã csatornák reguláló alegysége és defektusa a csatorna inaktiválódása folytán krónikus inzulin szekrécióhoz vezet (hiperinzulinémiás hipoglikémia) (guilar-bryan és mtsi., 1995; Inagaki és mtsi., 1996; Bryan és guilar-bryan, 1997). z emberen kívül számos más fajban is meghatároztak az MRP1-hez hasonló fehérjéket. Nyúlban és patkányban az MRP2-vel megegyező fehérjét írtak le (van Kuijck és mtsi., 1996), Caenorhabditis elegans-ban 4 MRP1 rokon szekvenciát találtak (Wilson és mtsi., 1994; Broeks és mtsi., 1996), az élesztő genom szekvenálásakor a már korábban megismert YCF1 (yeast cadmium resistance protein) (Szczypka és mtsi., 1994) mellett további 4 MRP1 rokon szekvenciát határoztak meg (Decottignies és Goffeau, 1996). MRP1-hez hasonló 14

Statisztikai eljárások a fehérje kutatásban szekvenciájú fehérjét találtak növényekben is (rabidobsis thaliana) (Lu és mtsi., 1997; Marin és mtsi., 1998), ami mutatja a fehérje igen széleskörű elterjedését az élővilágban. z eddig vizsgálatok alapján az MRP1 rokon fehérjék képesek organikus anionokat transzportálni, vagy valamilyen anionos vegyülettel kölcsönhatni. z MRP1 a hidrofób rákellenes gyógyszereket glutationnal kotranszportálva távolítja el a sejtekből (Leier és mtsi., 1994), az MRP2 a konjugált epesók transzportjában vesz részt (Jedlitschky és mtsi., 1997), az YCF1 fehérje a kadmiumot glutation konjugátum formában transzportálja (Li és mtsi., 1996). Ezek alapján várható, hogy valamennyi MRP1 rokon fehérje szerkezete hasonló. 2.3. Statisztikai eljárások a fehérje kutatásban 2.3.1. Dinamikus programozási eljárások z aminosav szekvenciák vizsgálatánál legelterjedtebben használt eljárások alapja az un. dinamikus programozási eljárás. dinamikus programozás akkor használható, ha az adott probléma rekurzív módon felbontható kettő vagy több kisebb feladatra. Például, ha meg kell mondanunk, hogy városból B városba hogyan juthatunk el a legrövidebb úton, akkor a feladat dinamikus programozáson alapuló megoldása, hogy ha C és D városok és B között találhatók, hogy megkeressük a legrövidebb -ból C-be és C-ből B-be menő utat, valamint a legrövidebb -ból D-be és D-ből B-be vezető utat, és e kettő lehetséges út közül a kiválasztjuk a rövidebbet. szekvenciák globális illesztéséhez ( alignment ) Needleman és Wunch (1970) használt először dinamikus programozáson alapuló eljárást, amit Smith és Waterman (1981) módosított a lokális hasonlóságok kimutatására. z illesztés készítése során először az aminosavak közötti hasonlóságokat ( score ) kell megadni, amely lehet az egység mátrix, vagy a 2.1.2. fejezetben leírt hasonlósági mátrixok valamelyike. z illesztés lényege, hogy a két szekvenciát úgy rendezzük egymáshoz, hogy az azonos pozícióban levő aminosavak hasonlóságainak összege maximális legyen. Mivel ez a feladat a lehetséges összerendezések csillagászati száma miatt nem oldható meg direkt kereséssel, ezért szükséges a dinamikus programozási eljárás alkalmazása. Mindkét algoritmus lényege, hogy a feladatot rekurzív módon visszavezeti egyre kisebb feladatokra, és azoknak megoldása után oldja meg a nagyobb feladatot. Tehát, ha azæéså hosszúságú szekvenciákban levő½ Ò-ig és½ Ñ-ig tartó részszekvenciák maximális pontszámot adó összerendezését ismerjük, akkor ennek alapján az½ Ò ½-ig és½ Ñ ½-ig tartó részszekvenciák összerendezéséhez az½ Ò,½ Ñ; az½ Ü,½ Ñ(½ Ü Ò) és az½ Ò,½ Ý(½ Ý Ñ) esetek közül kell kiválasztani a legnagyobb pontszámot adó összerendezést. gyakorlati kivitelezés során ezt úgy oldják meg, hogy egyæ Å-es mátrixot töltenek fel a maximálist pontszámot adó összerendezés értékeivel (tehát a mátrix eleme az 15

Statisztikai eljárások a fehérje kutatásban ½,½ részszekvenciák összerendezése során kapható maximális pontszámmal egyenlő), majd ezen a mátrixon visszafele lépegetve megadható a két szekvencia összerendezése. Több szekvencia esetében ezt a feladatot ilyen módon nem tudjuk megoldani, mert az illesztés során használt mátrix mérete meghaladja a mai számítógépek kapacitását (ha a szekvenciák számañés átlagos hosszukæ, akkor egyæñelemű mátrix szükséges). Emiatt a többszörös szekvenciaillesztésekre többféle heurisztikus módszert dolgoztak ki, melyek általában a szekvenciák párosával való összehasonlításán alapulnak (Feng és Doolittle, 1987; Barton, 1994; Higgins, 1994; Wishart és mtsi., 1994). dinamikus programozási eljárások másik nagy alkalmazási területe a szekvenciák vizsgálata során a rejtett Markov modell használata, amelyben a modellnek a megfigyelési sorozathoz való illesztésénél alkalmazott Baum-Welch algoritmus, illetve a legjobb állapot sorozat megkereséséhez használt eljárás, a Viterbi algoritmus alkalmazza ezt a programozási eljárást (Rabiner, 1989). rejtett Markov modell alkalmazásait a következő fejezetben írom le, az eljárás matematikai részleteit a Módszerek-ben (4.3.1. fejezet), illetve a Függelékben ismertetem. 2.3.2. Rejtett Markov eljárások sztochasztikus modellek alkalmazása a bioinformatika területén az elmúlt néhány évben ugrásszerűen nőtt meg. z egyik első modellt Churchill (1989) írta le, amelyben a különböző mitokondriális és kromoszómális DNS szekvenciák és fragmentek nagy változásokat mutató nukleotid összetételét modellezte rejtett Markov modell segítségével. Rejtett Markov modellt szekvencia motívumok felismerésére először DNS-ben levő fehérjekötő régiók, promóter helyek felismerésére dolgoztak ki. Mivel ezekben a régiókban a nukleotidok alig néhány pozícióban konzerváltak, valamint a konzervált pozíciók egymástól és az RNS szintézis indító helyétől való távolsága variábilis, a feladat megoldására különösen alkalmas a rejtett Markov modell, amelyben az EM ( Expectation-Maximization, vagy Expectation-Modification ) algoritmus segítségével a nem ismert távolságok és nukleotid eloszlások ismert szekvenciák segítségével megtaníthatók (Lawrence és Reilly, 1990; Cardon és Stormo, 1992). szekvencia illesztésekre és motívumok felismerésére a modell egy speciálisan erre a célra kidolgozott architektúra révén vált alkalmassá (Baldi és mtsi., 1994; Krogh és mtsi., 1994a). z eljárás két nagy előnye a hagyományos szekvencia illesztésekkel szemben, hogy számítási igénye a szekvenciák számával nem exponenciálisan, hanem csak lineárisan nő, valamint, hogy az aminosavak közötti hasonlóságokat nem kell előre megadni, sőt az eljárás képes az adott fehérje családra jellemző kicserélődések között a szekvencia különböző pontjain különbséget tenni, és ezáltal a térszerkezet szempontjából fontos és nem fontos szekvenciadarabokat megkülönböztetni. tanítás során kapott modellt a szekvencia profil eljárásokkal hasonló módon felhasználhatjuk az 16

Statisztikai eljárások a fehérje kutatásban adatbázisokban levő homológ szekvenciák keresésére (Hughey és Krogh, 1996), amely eljárás pontosságát a nagyon alacsony szekvenciális hasonlóságot mutató, de rokon fehérjék felismerését a Dirichlet keverék alkalmazásával tovább lehetett fokozni (Sjölander és mtsi., 1996). rejtett Markov modell eljárások másik nagy alkalmazási területe a gének lokalizálása a genomokban. Ehhez olyan architektúrájú modellt készítettek, amely a kódoló régiók felismerése mellett figyelembe veszi az adott élőlény kodon használatát, egyes szekvenálási hibákat automatikusan ki tud javítani (pl. frameshift-et okozó nukleotid inzerciót vagy deléciót), valamint különbséget tud tenni a rövidebb és hosszabb intergenikus régiók között, és számos intergenikus repetitív szekvenciát képes felismerni (Krogh és mtsi., 1994b; Borodovsky és mtsi., 1995; Lukashin és Borodovsky, 1998). szekvencia illesztésekhez használt modell segítségével nemcsak az egyes szekvencia motívumokat ismerhetjük fel, hanem a fehérjék másodlagos szerkezeti osztályokba való besorolását is elvégezhetjük (Francesco és mtsi., 1997). Ezekben a modellekben a rejtett állapotokhoz nem rendeltek valamilyen konkrét megfigyelhető fizikai tulajdonságot, míg a génfelismeréshez használt modellben a rejtett állapotokhoz hozzárendelhetjük pl. a kódoló vagy nem kódoló régiókat. rejtett állapotokhoz az egyes másodlagos térszerkezeti elemeket rendelve és a megfelelő architektúrát kialakítva olyan eljárásokat is kidolgoztak, amelyek a fehérjék másodlagos szerkezetét becsülték (Stultz és mtsi., 1993; White és mtsi., 1993). becslés pontossága alacsonyabb volt a már ismert másodlagos szerkezet becslő eljárások pontosságánál, de megmutatták a rejtett Markov modellnek egy általánosabb használatát. rejtett Markov modell szerkezete, architektúrája (a rejtett állapotok száma és a közöttük levő lehetséges átmenetek) szinte tetszőleges lehet, és emiatt a legkülönbözöbb biológiai problémák leírására alkalmazható az architektúra megfelelő megválasztásával. 17

3. Célkitűzések Célkitűzések z aminosav szekvenciák vizsgálata, a rokon fehérjék családokba sorolása szekvencia illesztések segítségével történik. z illesztéshez definiálni kell az aminosavak közötti hasonlóságok mértékét, amelyet vagy a rokon szekvenciák statisztikai analízisével határoznak meg, vagy az aminosavak fizikai-kémiai tulajdonságai alapján, vagy az ismert térszerkezetű fehérjék vizsgálata alapján. z első esetben az illesztésnél használt hasonlósági mátrix determinálja a készítendő hasonlósági mátrixot. Ezt a hibát úgy próbálják kiküszöbölni, hogy csak nagy szekvenciális hasonlóságot mutató fehérjék szekvenciáit illesztik az identitás mátrixot felhasználva, ekkor azonban a kisebb hasonlóságokra való extrapoláció kérdőjelezhető meg. fizikai-kémiai paraméterek használata során nem tudjuk, hogy a fehérje térszerkezetének stabilitásához az egyes tulajdonságok milyen mértékben járulnak hozzá, míg a térszerkezeti adatok használatakor a vizsgálatok nagyon kis számú minta statisztikáján alapulnak, és ezért kevésbé megbízhatók. Ezen okok miatt célul tűztem ki az aminosavak közötti hasonlóságok meghatározására egy olyan eljárás kidolgozását, amely nagyszámú szekvencia adaton nyugszik, ugyanakkor mentes a szekvencia illesztésekből fakadó tautológiától, és képes meghatározni az aminosavaknak a fehérjeszerkezet építése és fenntartása szempontjából fontos tulajdonságait. Intézetünk ktív Transzporter Fehérje kutatócsoportja, illetve az Országos Haematológiai és Immunológiai Intézet Membrán kutatócsoportja két olyan fehérjének a kutatásában vesz részt, amelyek az esetek nagy többségében a daganatos megbetegedések kemoterápiás kezelésének kudarcát okozzák. E két fehérje a multidrog rezisztencia fehérje (MDR1) és a multidrog rezisztenciához társuló fehérje (MRP1), amelyek megnövekedett kifejeződése okozza a sejtek széleskörű drog rezisztenciáját. Mindkét fehérje az BC transzporterek családjába tartozik, amely család eukarióta tagjainak többsége két homológ egy transzmembrán és egy nukleotidkötő domént tartalmazó molekulafélből áll. családba tartozó fehérjék topológiai vizsgálata azt mutatta, hogy a a transzmembrándoménok 6-6 transzmembránhélixből állnak. z MRP1 szekvenciájának meghatározásakor azonban a szerzők azt javasolták, hogy az MRP1 fehérjét ettől eltérő membrántopológia jellemez, az N-terminális transzmembrándoménban szerintük 8 transzmembránhélix van, míg a C-terminális felé esőben 4. fenti két kutatócsoporttal együttműködve célul tűztük ki az MRP1 jól megalapozott membrántopológiai modelljének kidolgozását. Ezzel párhuzamosan arra is kíváncsiak voltunk, hogy az BC családon belül milyen más hasonló szerkezetű fehérjék találhatók, és azok milyen szekvenciális viszonyban állnak az MRP1-gyel. 18

Célkitűzések Általánosan elfogadott, hogy a membránt átszelő szekvenciadarabok felismerése a szekvencia alapján könnyebb feladat, mint a globuláris fehérjék másodlagos szerkezeti részeinek a becslése, és ezt az irodalomban található becslő eljárások a másodlagos szerkezet becsléséhez viszonyítva nagy pontossága is alátámasztja. Bár ezek a becslő eljárások egyes aminosavaknak a topológia kialakításában betöltött szerepét is megmutatták, a transzmembrán fehérjék topológiáját elsősorban meghatározó alapelvet nem ismerjük. z Irodalmi áttekintésben ismertetett munkák alapján egyértelművé vált, hogy a transzmembrán fehérjék egyes térszerkezeti részei különböző fizikai-kémiai környezetben találhatók. z aminosavak affinitása az egyes térrészekhez különböző, amit a transzmembrán fehérjéknek ezekben a régióiban levő szekvenciadarabjainak az aminosav összetételeiben megmutatkozó különbségeik jól mutatnak. különböző membránokban levő fehérjék összetétele, valamint az a tény, hogy egyes fehérjék topológiája egy adott paraméter sereget használva jól becsülhető, míg mások más paraméterekkel írhatók le, azt mutatják, hogy nem az egyes térrészekben levő szegmensek aminosav összetételeinek abszolut értéke határozza meg a fehérjék topológiáját, hanem feltételezésem szerint az, hogy az egyes térrészekben levő szegmensek aminosav összetételeinek különbsége maximális legyen, és így a maximális különbséget adó felbontást megkeresve a fehérje topológiája a szekvencia alapján megadható. Ezért célul tűztem ki egy olyan transzmembrán fehérjék topológiáját becslő eljárás kidolgozását, amellyel megkereshetjük ezt a maximális aminosav összetételbeli különbséget adó felbontást a fehérjékben és ezáltal igazolhatjuk az előbbi feltételezést. 19