A fehérjehálózatok vizsgálatának matematikai módszereiről Grolmusz Vince Köszönet: Iván Gábor ELTE Matematikai Intézet Protein Információs Technológia Csoport & URATIM Kft.
Néhány vélemény szerint: A jelenlegi egy-egy fehérjét vagy egy receptort tekintø vagy támadó terápiás eljárásokból túl sok új eredményt nem lehet kihozni. Sok betegség komplex, sok biokémiai folyamatot érint, sok fehérjével van kapcsolatban. Pl. depresszió: nem feleløs érte egyetlen fehérje. Molekuláris mechanizmus nincs felderítve, marker sincs.
Több fehérje együttes hatását kell nézni! Rendszerbiológia, Proteomika, (metabolomika, genomika, stb.) Vigyázat! Nagy veszélye van annak, hogy (nem túl értelmes) általánosságokat mondjunk. Karl Popper: Az az állítás tudományos, amelyet elvileg lehetne cáfolni. Pl. Nehéz az élet! Minden mindennel összefügg nem tudományos állítások. Az Antarktisz jégtömege nøvekszik tudományos állítás (pontosabban: mikor, mihez képest )
Proteomikai technikák széles körű elterjedése Hatalmas mennyiségű mérési adat és fehérjehálózat Az eredmények kézzel, ránézéssel nem értékelhetők ki Gyors, hibatűrő, biológiailag verifikált kiértékelési eljárásokra van szükség
Hálózatok- gráfok Matematikailag a hálózatok gráfok. Gráf: G(V,E) V: csúcsok, E élek halmaza Gráfelmélet: magyar matematikusok igen sokat tettek benne: König Dénes, König Gyula, Egervári Jenø, Turán Pál, Erdøs Pál, Rényi Alfréd, Lovász László,. Milyen problémák lehetnek itt? Legrövidebb út-leghosszabb út; színezések, párosítások, stb.
Itt és most nagy hálózatokban a fontos csúcsok megtalálására szeretnénk koncentrálni. Egy csúcs lehet fontos: 1. önmagában, a teljes hálózatban, 2. vagy néhány más csúcshoz képest A 2. típusú kérdés a biológiában például proteomikai mérések kiértékelésénél merül fel: Ha néhány fehérje koncentrációja megváltozik egy folyamatban, akkor szeretnénk tudni, hogy mely más fehérjék vannak ezekkel szoros kapcsolatban. A cél: fontos csúcsok megtalálása fehérjehálózatokban
Ha nem a saját méréseinket használjuk, hol találunk fehérjehálózatokat? MINT (UniRoma): 112 957 él, 29 587 fehérje, csak kisérleti DIP (UCLA): 57 683 él, 20 728 fehérje HPRD (Johns Hopkins): 38 806 él, 27 801 fehérje, humán IntAct (EMBL-EBI): 195 719 él, 59 017 fehérje KEGG (Kyoto Univ.) metabolikus hálózatok Generált hálózatok: nascent.pitgroup.org, nem csak modell organizmusokra (részletek: poszter-szekció P6-02) A cél: fontos csúcsok megtalálása fehérjehálózatokban
Milyen hálózatokat tekintünk? Fizikai interakciós hálózatok: Csúcsok: fehérjék, élek: két fehérje éllel van összekötve, ha köztük interakció van: mért {TAP, Y2H, ko-immunoprecitipáció vagy egyéb}, jósolt Irányítatlan gráfok: A cél: fontos csúcsok megtalálása fehérjehálózatokban
Milyen hálózatokat tekintünk? Metabolikus hálózatokat: Csúcsok: reakciók, élek az A-ból B-be: ha van az A reakciónak olyan terméke, amelyet a B használ fel. A B Az éleket lehet a fluxussal is címkézni. Példa: Az Mtb mikolsav pathway-e A cél: fontos csúcsok megtalálása fehérjehálózatokban
A hálózatokat a matematikában gráfoknak hívják Konkrét, nagy gráfok struktúrájának gyakorlati vizsgálatához a WWW web-gráfjának tanulmányozása vezetett a 90-es évek közepén és végén; A cél a fontos csúcsok kiszűrése volt a web-gráfból: ez azért volt érdekes, mert amikor valaki rákeres egy web-keresőben (pl. Google) egy kifejezésre, akkor a fontos találatokat akarja látni az elsők közt. Sokszor azonban több millió találat van... A cél: fontos csúcsok megtalálása fehérjehálózatokban
Web-gráf: csúcsok: a web oldalai élek: A B, ha az A oldal hivatkozik B-re; DEF 1:Fontos oldal azaz fontos csúcs: amelyre sokan hivatkoznak,azaz magas a be-foka: be-fok=4 Sok alkalmazás; scientometria: hivatkozások száma, impakt faktor hátránya: nem veszi figyelembe a hivatkozók minőségét, ezért befolyásolható A cél: fontos csúcsok megtalálása fehérjehálózatokban
DEF 2: Fontos oldal azaz fontos csúcs: amelyre sok fontos csúcs hivatkozik... Mint definíció, ez így persze rossz. De könnyen lehet egy iteratív algoritmust csinálni belőle: az elején mindenkinek adok egy egységnyi fontosságot, aztán ezt (pongyolán fogalmazva) a csúcsok átörökítik azokra a csúcsokra, akikre mutatnak, és ezt ismételjük, amíg egy stabilizálódott határ-eloszláshoz nem jutunk (ez legtöbbször létezik). Könnyen, gyorsan számolható, általában gyorsan konvergál. Ennek az eljárásnak a hibatűrését és robusztusságát lehet egy új ötlettel növelni. Ezt véletlen bolyongással lehet jól elmondani. A cél: fontos csúcsok megtalálása fehérjehálózatokban
Elindítunk egy sétáló embert a gráfon: ha egy csúcsba ér, akkor egyenletes valószínűséggel valamely kimenő élen megy tovább, vagy egy c valószínűséggel teleportál, egy véletlenül kiválasztott csúcsba: Pl. c=0.2 8/50 Egy csúcs fontossága az a valószínűség, amellyel ott tartózkodunk (pontosabban a határeloszlás)
Ezt használta az első időkben a Google (Brin & Page 1998), tehát csak a linkek struktúrájából osztályozott). Előnyei: Aránylag nehéz mesterségesen befolyásolni (WWW) Hibatűrő (Biológiai felhasználások) PageRang vektorok különbségének normája A megváltozott csúcsok PageRangjainak összege c a teleportálási valószínűség, c=0.2-re ez 8 Ha a fontos csúcsoknál kevés hiba van, akkor ez hibatűrő!
Irányítatlan gráfokban (ilyenek a fizikai interakciókat leíró gráfok) a PageRang arányos a fokszámmal, azaz felesleges használni. De! Metabolikus gráfokban érdemes, hiszen azok irányítottak; sőt, a fluxust is figyelembe lehet venni: az élválasztási valószínűségeket lehet vele súlyozni. Érdemes nézni azt is, hogy mely csúcsok kapnak a be-fokuknál nagyobb/kisebb PageRangot. Példa: Az Mtb mikolsav-szintézis gráfja
PageRang relativizált változata: a perszonalizált PageRang 1-(c+d) vsz. c vsz-el teleportál egyenletesen; d vsz-el a kiválasztott csúcsokba Azért nevezték perszonalizáltnak, mert a web egyes felhasználóinak személyes érdeklődését is figyelembe lehet venni a csúcsok fontosságának kiszámolásánál.
A perszonalizált PageRank néhány tulajdonsága: A biológiai hálózatok jelenlegi méreteire könnyen, gyorsan számolható; hibatűrő, Jól használható irányítatlan, fizikai interakciós hálózatokra is óriási hálózatokra (több millió csúcstól) jó közelítő algoritmusok vannak a gyors kiszámítására is (így pl. www, vagy az agy hálózatára is használható {Fogaras, Rácz}).
Miért hangsúlyozzuk a kiértékelő módszer hibatűrését? Proteomikai mérések erősen laborfüggő eredményeket szolgálatnak gyakran; Pl. 2006-ban a Nature ugyanazon számában jelent meg Gavin et al. és Krogan et al. két cikke az élesztő (S. cerevisiae) teljes interaktómjáról; nagy különbségek voltak a két csoport eredményei között. Értelmes kiértékeléshez jelentősen hibatűrő eljárások kellenek, különben értéktelen eredményeket kapunk.
Miért nem sima távolságot nézünk? Mert nem hibatűrő.
Az alábbiakban Gavin et al. legnagyobb élesztő-fehérje komplexét tekintjük; véletlenül kiválasztunk belőle néhány fehérjét; ezekre perszonalizálunk; azt nézzük, hogy mennyire húzza be a PageRang a többi csúcsot:
A perszonalizált PageRang biológiai alkalmazásai - 1
A perszonalizált PageRang biológiai alkalmazásai - 1
Alkalmazás proteomikai adatok analízisére Forgber et al (PlosOne 2009. ápr.) melanoma páciensek vérszérumában az alábbi fehérjék megnövekedett szintjét találta: Enolase 1: P06733 Calumenin: O43852 HSP70 protein B: P08107 2,4-dienoyl-CoA reductase: Q9NUI1 Aldolase A: P04075 Fumarate hydratase: P07954 Aldose reductase: P15121 HSP70 protein 9B: Q96EY1 Aconitase 2: P21399 hnrnp1: P26599 VCP: P55072 LDH H: P07195 LAP3: Q944P7 UniProt accession numbers A perszonalizált PageRang biológiai alkalmazásai - 2
Tekintettük a HPRD-ben megtalálható humán interaktomot (38 806 él, 27 801 fehérje); perszonalizáltunk az előző oldalon látható mérési eredményekre megnéztük a legnagyobb perszonalizált PageRangú csúcsokat: A perszonalizált PageRang biológiai alkalmazásai - 2
2356 csúcs, 13694 él, 2 sugarú környezet
Köszönöm a figyelmet!