Kinázgátlók szerkezet-hatás összefüggései

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Kinázgátlók szerkezet-hatás összefüggései"

Átírás

1 Kinázgátlók szerkezet-hatás összefüggései Doktori értekezés Szántai-Kis Csaba Semmelweis Egyetem Gyógyszertudományok Doktori Iskola Témavezető: Hivatalos bírálók: Dr. Őrfi László egyetemi docens, Ph.D. Dr. Héberger Károly tud. tanácsadó, D.Sc. Dr. Molnár László osztályvezető-h., Ph.D. Szigorlati bizottság elnöke: Dr. Takácsné ovák Krisztina egyetemi tanár, D.Sc. Szigorlati bizottság tagjai: Dr. Idei Miklós tudományos tanácsadó, D.Sc. Dr. Keserű György Miklós főosztályvezető-h., D.Sc. Budapest 2007

2 TARTALMJEGYZÉK TARTALMJEGYZÉK...1 RÖVIDÍTÉSEK JEGYZÉKE BEVEZETÉS IRDALMI ÁTTEKITÉS Számítógéppel támogatott gyógyszertervezési módszerek (CADD) Célmolekula 3D szerkezetén alapuló tervezés Ligandumok szerkezetén alapuló tervezés Adatbázisbányászat és hasonlósági keresés Farmakofór modellezés és lekérdezés QSAR Klasszikus vagy 2D-QSAR D-QSAR ECD ajánlások a QSAR modellek validálására [24] Jól meghatározott körülmények között vizsgált kölcsönhatás Defined endpoint Egyértelmű modellezési algoritmus Unambiguous algorithm Meghatározott alkalmazhatósági tartomány A Defined domain of applicability Alkalmas mértékrendszer az illesztésének, robusztusságnak, becslőképességnek meghatározására An appropriate measures of goodness-of-fit, robustness and predictivity A hatásmechanizmus magyarázata, ha lehetséges Mechanistic interpretation, if possible Kinázok CÉLKITŰZÉSEK MÓDSZEREK FELHASZÁLT SZFTVEREK Concord Molecular perating Environment (ME) Dragon Plus Microsoft Excel ISIS/Base CHED PHP-MySQL DET4W ELEKTRIKUS KÖYVTÁR ÉS SZERKEZETI-HATÁSTAI ADATBÁZIS Elektronikus könyvtár Szerkezeti-hatástani adatbázis Hatástani adatok típusai Hatástani adatokat egységesítő algoritmus QSAR MDELLEZÉS Bemenő adatok hibaforrásai Bemenő adatok kigyűjtése, előkészítése Molekulamodellezés Molekulaleírók és számításuk Ellenőrzési módszerek (validálás) Belső ellenőrzés - Internal Validation Külső ellenőrzés - External validation Becslőképesség ellenőrzésére használt statisztikai mérőszámok Modelloptimalizálás változó-kiválasztás Molekulaleírók becslőképessége Előszűrő módszerek D statisztika D statisztika Automatikus változó-kiválasztási algoritmusok

3 Szekvenciális algoritmus - SA Genetikus algoritmus - GA Molekulaleíró kombináció bank - MKB Függvényillesztő módszerek MLR Többszörös lineáris regresszió (Multiple Linear Regression) [64] PLS Részleges legkisebb négyzetek módszere (Partial Least Squares) [59] A Mesterséges ideghálózatok (Artificial eural etwork) IMAP ESSZÉ PTIMALIZÁLÁS Elméleti háttér IMAP esszé általános menete Esszék statisztikai jellemzői IMAP esszé optimalizálás TESZTELEDŐ VEGYÜLETEK LGISZTIKÁJA EREDMÉYEK ÉS MEGBESZÉLÉS ELEKTRIKUS KÖYVTÁR ÉS SZERKEZETI-HATÁSTAI ADATBÁZIS Megbeszélés KÜLSŐ ELLEŐRZŐHALMAZ KIVÁLASZTÁSA Megbeszélés KIÁZGÁTLÓK QSAR MDELLEZÉSE EGFR gátlás modell Megbeszélés Akt1 gátlás modell Akt1 szakirodalmi modell Megbeszélés Akt1 szakirodalmi modell gátlási% hatóértékek nélkül Megbeszélés Akt1 modell szakirodalmi és belső adatok alapján Megbeszélés Akt1 modell gátlási% hatóértékeket nem tartalmazó szakirodalmi és belső adatok alapján Megbeszélés Akt1 modellezés eredményeinek megbeszélése PDGFRβ gátlás modell Megbeszélés CDK4 gátlás modell Megbeszélés RCK-II gátlás modell Megbeszélés ESSZÉ FEJLESZTÉS, AYAGLGISZTIKA Akt1 IMAP esszé beállítás S1 Kezdeti paraméterek meghatározása S2 IMAP kötő oldat optimalizálás S3 kináz puffer optimalizálás S4 ATP K m, app meghatározás S5 Reakcióidő és kináz koncentráció meghatározása S6 ptimalizált esszé validálása ismert inhibitorokkal Megbeszélés Kimérés alkalmazás Megbeszélés KÖVETKEZTETÉSEK ÖSSZEFGLALÁS SUMMARY IRDALMJEGYZÉK SAJÁT PUBLIKÁCIÓK JEGYZÉKE KÖSZÖETYILVÁÍTÁS

4 RÖVIDÍTÉSEK JEGYZÉKE 2PL: 2 Parameter Logistic, 2 paraméteres logisztikus (formula) 3PLFB: 3 Parameter Logistic Fixed Bottom, 3 paraméteres logisztikus (formula) alsó plató rögzített az elméleti minimum értékhez 3PLFT: 3 Parameter Logistic Fixed Top, 3 paraméteres logisztikus (formula) felső plató rögzített az elméleti minimum értékhez 4PL: 4 Parameter Logistic, 4 paraméteres logisztikus (formula) 5-FAM: 5-Carboxyfluorescein, 5-Karboxifluoreszcein AD: Applicability Domain, alkalmazhatósági tartomány A: Artificial eural etwork, mesterséges ideghálózat ATP: Adenozin trifoszfát AV: average, átlag BP: Back Propagation, (hiba) visszafuttatás CADD: Computer Assisted Drug Design, számítógéppel támogatott gyógyszerfejlesztés CDK: Cyclin Dependent Kinase, ciklin függő kináz CDK4: Cyclin Dependent Kinase 4, ciklin függő kináz 4 CoMFA: Comparative Molecular Field Analysis CoMMA: Comparative Molecular Moment Analysis CoMSIA: Comparative Molecular Similarity Analysis CSV: Comma Separated Value; vesszővel elválasztott fájlformátum DDE: Dynamic Data Exchange, dinamikus adatcsere DMS: Dimetil-szulfoxid DSGA: Deep Search Genetic Algorithm, alaposabb genetikus algoritmus EGFR: Epidermal Growth Factor Receptor; epidermális növekedési faktor receptor ELISA: Enzyme-Linked ImmunoSorbent Assay, enzim kapcsolt immunszorbens esszé EV: External Validation, külső ellenőrzés/ellenőrző EVS: External Validation Set, külső ellenőrző halmaz FP: fluoreszcencia polarizáció 3

5 GA: Genetic Algorithm, genetikus algoritmus HEPES: 4-(2-hidroxietil)-1-piperazinetánszulfonsav HPLC-MS: High-performance Liquid Chromatography-Mass spectrometry HTML: HyperText Markup Language, hipertext jelölő nyelv HTS: High Throughput Screening, nagy áteresztőképességű tesztelés IC 50 : Inhibitory Concentration 50%; gátlási koncentráció 50%-os értéke IGF1R: Insulin-like Growth Factor I Receptor; inzulin-szerű növekedési faktor receptor 1 IMAP: Immobilized Metal Assay for Phosphochemicals, immobilizált fémion esszé a foszfortartalmú vegyületek kimutatására IR: Infrared, infravörös ISIS: Integrated Scientific Information System ITK: ismételt tanulás/kiértékelés JCAMP: Joint Committee on Atomic and Molecular Physical Data, IR, MR, MS spektrumokat tároló fájlformátum, ami tartalmazhat egyéb adatmezőket is K i : Egyensúlyi inhibitor disszociációs konstans K m : Michaelis-Menten konstans LKM: Legkisebb négyzetek módszere LLS: Liquid Library Stock, oldat vegyülettár Log: dolgozatomban ez jelölés a tízes alapú logaritmust jelöli L: Leave ne ut, egyszerre egyet kihagyó ellenőrzés MES: 2-(-morfolino)-etánszulfonsav MKB: Molekulaleíró kombináció bank MLR: Multiple Linear Regression, többszörös lineáris regresszió MD d = a 3DET4W szoftverben egy modellen belüli egy adott molekulaleíró fontosságát jelző mennyiség, a modell matematikai szerkezetéből származó tényező. ML fájl: Az MDL Information System Inc. által fejlesztett fájlformátum ML2: Sybyl (Tripos) szerkezettároló fájlformátuma MPS: 3-(-morfolino)-propánszulfonsav MS: Mass spectrometry, tömegspektroszkópia MTS: Medium Throughput Screening, közepes áteresztőképességű tesztelés 4

6 DL: ormal Distribution Likeness, normál eloszláshoz való hasonlóság MR: uclear Magnetic Resonance, magmágneses rezonancia ECD: rganization for Economic Co-operation and Development, Gazdasági Együttműködés és Fejlesztés Szervezete PAS: Predictive Ability Scoring, molekulaleíró becslőképessége PC: Personal Computer, személyi számítógép PDF: Portable Data Format, platformfüggetlen dokumentumformátum PDGFR: Platelet Derived Growth Factor Receptor, vérlemezke eredetű növekedési faktor receptor PHP: PHP Hypertext Preprocessor, PHP hypertext előfeldolgozó nyelv pic50: Az IC 50 érték tízes alapú logaritmusának mínusz egyszerese PLS: Partial Least Square, részleges legkisebb négyzetek módszere P: Perimeter riented, kerületi kiválasztás Q 2 : Cross-validated correlation coefficient, keresztkorrelációs együttható QSAR: Quantitative Structure-Activity Relationship, kvantitatív szerkezet-hatás összefüggés QSPR: Quantitative Structure-Property Relationship, kvantitatív szerkezettulajdonság összefüggés RRS: Repeated Randomly Split, ismételt véletlen felosztás RS: Random Selection, véletlen kiválasztás RTE: Repeated Trainings/Evaluations SA: Sequential Algorithm, szekvenciális algoritmus SD: Standard Deviation, szórás SDEP: Standard Deviation of Error of Prediction; a becslés standard hibája SDF: Structure Definition File; szerkezetleíró fájlformátum SEE: Standard Error of Estimate, reziduális szórás (a mérési adatok az illesztett függvénytől való eltérésének szórása) SMI: SMILES kódokat tároló fájlformátum SMILES: Simplified Molecular Input Line Entry Specification SQL: Structured Query Language; strukturált adatlekérdező programnyelv SSTE: Scout Scan Trial & Error, gyors szekvenciális molekulaleíró kiválasztó algoritmus 5

7 STE: Sequential Trial & Error, szekvenciális molekulaleíró kiválasztó algoritmus Tris: 2-amino-2-(hidroximetil)-1,3-propándiol US: Uniformly Distributed, egyenletes kiválasztás VEGFR: Vascular Endothelial Growth Factor Receptor; érendotél növekedési faktor receptor VS: Virtual Screening, virtuális szűrés VSS: Variable Subset Selection, (független) változó-kiválasztás, molekulaleíró kiválasztás WS: Work Set, munkahalmaz wwpdb: Worldwide Protein Data Bank, világméretű fehérje adatbázis XLS: Excel Sheet, Microsoft Excel alapvető fájlformátuma XYD file: a 3DET4W szoftver alapvető fájlformátuma, ami tartalmazza a molekulaleírókat és a hatóértékeket 6

8 1. BEVEZETÉS apjainkra a humán genom projekt befejezésének és a molekuláris biológiai módszerek fejlődésének köszönhetően egyre több betegségben azonosították a patológiás folyamatokat okozó célmolekulákat. Az azonosított és validált célmolekulákra már csak gyógyszert kell fejleszteni és a betegség gyógyíthatóvá válik, azonban az elmúlt években megfigyelhető folyamat, hogy világszerte egyre kevesebb originális gyógyszer került bevezetésre. A fejlesztési költségek növekedése miatt egyre nagyobb szükség van hatékonyabb gyógyszerkutatási és fejlesztési módszerekre. A gyógyszerkutatás felfedező fázisában ahol a cél egy hatásos és optimális farmakokinetikájú vezérmolekula előállítása a módszerek fejlesztésének egyik fő iránya olyan esszérendszerek megalkotása, amelyekkel nagymennyiségű vegyületet gyorsan és hatékonyan lehet tesztelni. A kifejlesztett technikák közül leginkább a fluoreszcencián alapuló mérési rendszereket alkalmazzák a közepes/nagy áteresztőképességű tesztelések (MTS/HTS) módszereiként. Jelenleg ezek az esszérendszerek szolgáltatják a biológiai adatok túlnyomó többségét a gyógyszerkutatás felfedező fázisában, melyek feldolgozása külön tudományággá nőtte ki magát. A módszerek fejlesztésének másik fontos iránya a gyógyszerhatással kapcsolatos folyamatok számítógéppel támogatott modellezése. Az elkészített számítógépes modellekkel egyrészt lehet értelmezni a ligandumok/hatóanyagok és a célmolekula közötti kölcsönhatásokat, másrészt a szintetizálandó és tesztelendő molekulák számát lehet csökkenteni, az utóbbi folyamatot virtuális szűrésnek (VS) nevezik. A számítógéppel támogatott gyógyszertervezés (CADD) egyik fontos ága a kvantitatív szerkezet-hatás összefüggések (QSAR) módszere, ami akkor is alkalmazható, amikor a célmolekula 3D szerkezete kísérletesen nem határozható meg. Mai tudásunk szerint a molekuláris pathomechanizmusok nagy része sejten belüli jelátviteli folyamatok zavaraira vezethető vissza. A jelátviteli folyamatok kulcsszereplői a protein kinázok, ezért kiemelten indokolt a legmodernebb gyógyszerkutatási módszerek alkalmazása a kinázgátlók fejlesztésére. 7

9 1.1. Irodalmi áttekintés Ebben a fejezetben röviden áttekintem a számítógéppel támogatott gyógyszertervezési módszerek, a QSAR és a kinázok szakirodalmát Számítógéppel támogatott gyógyszertervezési módszerek (CADD) A CADD módszereit két nagy csoportra lehet felosztani: a célmolekula 3D szerkezetén alapuló tervezés, valamint a ligandumok szerkezetén alapuló tervezés, ez esetben a célmolekulán ható kismolekulák szolgálnak alapul a tervezéshez. A gyógyszertervezés felfedező fázisában használt molekula- vagy gyógyszertervezési módszereket és felhasználásukat az 1. ábra mutatja be. 1. ábra Gyógyszertervezési módszerek a gyógyszerfejlesztés felfedező fázisában [1]. Doktori munkámban alkalmazott kvantitatív szerkezet-hatás összefüggések (Quantitative Structure Activity Relationships, QSAR) módszere a ligandum alapú tervezés csoportjába tartozik, így a célmolekula 3D szerkezetén alapuló módszereket csak röviden mutatom be Célmolekula 3D szerkezetén alapuló tervezés A szerkezet alapú tervezés alapját tulajdonképpen P. Ehrlich alapozta meg, amikor kijelentette Corpora non agunt nisi fixata vagyis az anyag nem hat, hacsak nem kötődött. Ehrlich a receptort zárhoz, a kötődő molekulát (ligandumot) kulcshoz hasonlította [2, 3]. A biológiai hatás a célmolekula és a ligandum (hatóanyag) közötti 8

10 molekuláris felismerési folyamat eredménye, ebből következően a racionális megközelítés esetén szükséges a folyamat minőségi és mennyiségi leírása [4, 5]. A szerkezet alapú tervezés első lépése a célmolekula/célfehérje szerkezetének előkészítése. A későbbi VS-hez a dokkoláshoz nagy felbontású szerkezetre van szükség. Ennek meghatározása kétféle módon történhet: 1) Kísérleti úton: röntgen diffrakcióval vagy MR segítségével lehet meghatározni a szerkezetet. Jelenleg az összes ismert fehérjének kb. 1-2%-ának van kísérletesen meghatározva a 3D szerkezete [6]. 2) Amennyiben a kísérletes meghatározás nem kivitelezhető, homológia modellezéssel is elő lehet állítani a szükséges 3D szerkezetet. Úgy becsülik, hogy az ismert fehérjék szekvenciáinak 56%-ára van lehetőség homológia modelleket generálni, azonban ezek minősége és felhasználhatósága a szűrővizsgálatokhoz korlátozott [4, 6]. A jelenlegi nagy átbocsátóképességű módszerek nem képesek kezelni a teljes fehérje szerkezetét, kezdeti feltételként igénylik az aktív hely megadását. Az aktív hely meghatározása történhet kísérleti úton: irányított mutációval (site directed mutagenesis), fehérje-ligandum komplex együttes kristályosítással; MR segítségével; valamint elméleti módszerekkel, olyan algoritmusokkal amelyek a fehérjék felszíni üregeit érzékelik, de az azonosítás történhet fiziko-kémiai, geometriai molekulaleírók segítségével is [4]. Következő lépés a ligandum dokkolása a fehérje aktív helyére. A korai dokkoló algoritmusok a ligandumokat merev testként kezelték, manapság azonban az algoritmusok képesek figyelembe venni a ligandumok flexibilitását is. A ligandum és az aktív hely közötti létrejövő kölcsönhatásokat számszerűen jellemezni a kötődési szabadentalpia számításával lehet. A virtuális szűrés során a nagyszámú ligandum kötődési szabadentalpiája elfogadható időtartam alatt csak becsléssel határozható meg, erre szolgálnak a kiértékelő függvények (scoring function). A kiértékelő függvényeknek három csoportja van: erőtér alapú, empirikus és tudásbázis alapú. Univerzálisan alkalmazható kiértékelő függvény ma nem létezik, a becslések pontosságának javítására a különböző kiértékelő függvényeket kombinációban is szokták alkalmazni, amit konszenzus pontozásnak neveznek [4]. A szerkezet alapú tervezésnek mára számos sikeres alkalmazása ismert [4, 7, 8]. A módszer segítséget nyújt a vezérmolekula azonosításának folyamatában a HTS és a 9

11 ligandum alapú tervezés mellett. Korlátai: 1) a fehérje flexibilitás kezelése a dokkoló algoritmusokban, 2) értékelő függvények teljesítőképessége, 3) az informatika fejlődésével növekvő egyre olcsóbb számítási kapacitás ellenére még továbbra is jelentős hardveres és szoftveres beruházást igényelnek, 4) a fehérjéhez való kötődés szükséges, de nem elégséges feltétele a biológiai válasznak Ligandumok szerkezetén alapuló tervezés Számos esetben a célmolekula 3D szerkezetén alapuló tervezés eszközei nem alkalmasak vezérmolekula azonosításra és optimalizálásra, mivel a 3D szerkezetet nem lehet meghatározni vagy homológia alapján modellezni pl. a membrán receptorok esetében, amelyeket nagyon nehéz kristályosítani. Ilyen esetekben a ligandumok szerkezetén alapuló tervezés eszközeit lehet igénybe venni. Ezek a módszerek alapvetően az adott célmolekulán hatásos kismolekulák szerkezetéből indulnak ki [9]. A módszereket három csoportra lehet bontani: adatbázisbányászat és hasonlósági keresés, farmakofór modellezés, QSAR módszerek. Az előző két módszert az alábbi két alfejezetben rövidebben fejtem ki, a QSAR módszerek bemutatásával az alfejezet foglalkozik Adatbázisbányászat és hasonlósági keresés Az adatbázisbányászat célja, hogy az adatokból nem triviális módon, implicit, előzőleg ismeretlen és potenciálisan hasznos információkat nyerjen ki. Az adatbázisbányászat felhasználja a gépi tanulás, a statisztika és az adatábrázolás módszereit, hogy a megtalálja és könnyen értelmezhetővé tegye az adatokban lévő információt. Az adatbázisbányászat segítséget nyújt a nagymennyiségű HTS adat értelmezésére és megjelenítésére. [10] A hasonlósági keresés azon a feltételezésen alapszik, hogy hasonló szerkezetű molekuláknak hasonló hatása van. Ez általában igaz, azonban vannak kivételek is, amikor kis szerkezeti módosítások különböző hatásokat mutatnak [11, 12, 13]. Fontos megjegyezni, hogy a (kémiai) hasonlóság relatív, alapvetően meghatározza a hasonlóság mérésére használt mértékrendszer. A hasonlósági keresés pl. a vállalati és kereskedelmi kémiai adatbázisokból történik. A keresőfeltétel lehet: ismert hatásos molekulák, referenciamolekulák, természetes ligandumok, kofaktorok, hasonló szerkezetű/funkciójú fehérjék ligandumai. A hasonlósági keresés folyamatában a 10

12 keresőfeltételben szereplő molekulát összevetik az adatbázis molekuláival és kiszámítják a hasonlóság mértéket [1, 14] Farmakofór modellezés és lekérdezés A farmakofór térbeli és elektrosztatikus tulajdonságok összessége, amelyek szükségesek egy adott célmolekulával az optimális szupramolekuláris kölcsönhatások kialakulásához, valamint a biológiai válasz kiváltásához vagy gátlásához. A farmakofór nem egy tényleges molekula vagy funkciós csoportok összessége, hanem csupán egy absztrakt koncepció. A farmakofórt az aktív molekulák legnagyobb közös nevezőjének lehet tekinteni. Farmakofór molekulaleírók: H-kötést, hidrofób és elektrosztatikus kölcsönhatást létesíteni képes zónák, amelyeket atomok, gyűrűcentrumok és virtuális pontok határoznak meg [15]. A farmakofór modell az adott célmolekulára vonatkozóan releváns farmakofór molekulaleírókat és a közöttük lévő geometriai megkötések összességét tartalmazza. A farmakofór modelleken alapuló virtuális szűrés úgy történik, hogy szerkezeti adatbázisokból a modell alapján kiválasztják a megfelelő vegyületeket/ konformereket QSAR A QSAR történetének pontos kiindulópontját nem ismerjük, alapjai megközelítőleg 100 éven keresztül alakultak ki, az 1860-as évektől 1960-as évekig ban A. Crum Brown és T. Fraser alkaloidok biológiai hatását tanulmányozták bázikus nitrogénjük metilálása előtt és után. Jelentős különbséget találtak a bázikus nitrogén és a kvaterner -metil származékok között, a megfigyelésekből a következő konklúziót vonták le: a Φ fiziológiai hatás a C kémiai összetétel függvénye (1. egyenlet) [3, 16]. Φ = f(c) 1. egyenlet Ma több ismeret áll rendelkezésre a gyógyszerek kémiai és biológiai sajátosságairól, mint a XIX. században, azonban az 1. egyenlet eredeti formájában nem alkalmazható, csak a biológiai hatásban történt változást ( Φ) lehet korreláltatni a kémiai módosításokkal ( C) (2. egyenlet). Φ = f( C) 2. egyenlet 11

13 A XIX. század fordulóján egymástól függetlenül H. H. Meyer és C. E. verton a narkózis mechanizmusának vizsgálata közben fedezték fel, hogy a semleges szerves vegyületek toxicitása és az olaj/víz fázisok közötti megoszlási hányadosuk között kapcsolat van [3, 17, 18]. Az 1930-as években vizsgálatok kezdődtek, hogy milyen összefüggés van a kémiai szerkezetek és a reakciósebességi, egyensúlyi állandó között. Az egyik legkiemelkedőbb L. P. Hammett munkája volt [3, 19] as években nagy előrelépés történt C. Hansch, T. Fujita valamint S. M. Free Jr., J. W. Wilson munkásságának köszönhetően, tulajdonképpen elindult az, amit ma klasszikus szerkezet-hatás összefüggéseknek neveznek [3, 20]. Hansch megfigyelte hogy az oktanol/víz megoszlási hányados logaritmusa additív fiziko-kémiai tulajdonság, és a következő levezetést alkotta meg az aromás vegyületek lipofilitásának becslésére (3. egyenlet). log P R-X log P R-H = π X 3. egyenlet π = az X szubsztituens lipofilitás hozzájárulása a hidrogénhez, mint szubsztituenshez képest. A π érték szinte kizárólagosan oktanol/víz rendszerre vonatkozik. C. Hansch és T. Fujita további hozzájárulása a QSAR kialakulásához az volt, hogy a biológiai hatás leírására több fiziko-kémia paramétert kombináltak egy egyenletben (4. egyenlet). log 1/C = aπ +bσ+...+const. 4. egyenlet C = moláris koncentráció, ami valamilyen biológiai hatást vált ki π = lipofilitás hozzájárulás σ = elektronikus Hammett konstans Ezzel a módszerrel amit Hansch analízisnek neveztek el - számos in-vitro mért biológiai hatást tudtak modellezni [3, 20]. Hansch munkásságától függetlenül Free és Wilson 1964-ben publikáltak egy másik módszert a biológiai hatás modellezésére. Ma leginkább az 5. egyenlet formájában használják [3, 21]. 12

14 log 1/C = Σa i + µ 5. egyenlet a i = az egyes szubsztituenseknek csoport-hozzájárulási értéke a biológiai hatáshoz µ = referenciaanyag számított biológiai hatása, ami általában a szubsztituálatlan származék A Hansch analízis megjelenésének idejében még csak néhány molekulaleíró létezett. A későbbiek során egyre több és több molekulaleírót publikáltak, fejlesztettek ki pl. kvantumkémiai, topológiai, térbeli, kötés kapcsolati, elektrotopológiai molekulaleírók [3]. A jelenleg használatos több ezer molekulaleíróról jó összefoglalást ad R. Todeschini, Handbook of Molecular Descriptors című könyve [22]. J. Topliss már 1972-ben rámutatott arra, hogy nemcsak a modellben felhasznált molekulaleírók nagy száma, hanem a kipróbálandó molekulaleírók nagy száma is nagyon megnöveli a véletlen korreláció esélyét [3, 23]. A QSAR modellezésben az egyik kulcskérdéssé a független változókiválasztás (Variable Subset Selection, VSS) vált disszertációmban a változókiválasztás fogalma minden esetben a molekulaleírók, vagyis független változók kiválasztására vonatkozik. agyszámú molekulaleíró esetén változó-kiválasztásra célszerű globális optimum kereső módszereket használni. Ilyenek pl. genetikus algoritmus, Monte-Carlo szimuláció, szimulált megeresztés (simulated annealing) vagy tabu keresés [3]. A VSS-t illesztési statisztikák által irányítani nem célravezető, mivel egy jól illesztő modell meg még nem biztos, hogy jól is becsül. Ma már a legelfogadottabb módszer egy QSAR modell előrejelző képességének megállapítására a külső ellenőrzés, vagyis olyan molekulák mért értékeinek becslése, amelyeket nem használnak fel a modellezés során. Fontos azt is megadni, hogy milyen hatókörben alkalmazható az adott modell. A QSAR modellezés során a másik kulcskérdéssé tehát a modellek megbízhatóságának és becslőképességnek meghatározása vált. A téma fontosságára utal, hogy a Gazdasági Együttműködés és Fejlesztés Szervezete, az ECD külön szakértői csoportot hozott létre ennek vizsgálatára és irányelvek meghatározására, a témával bővebben a alfejezet foglakozik [24]. 13

15 A QSAR modellezést két nagyobb csoportra lehet bontani: klasszikus vagy 2D QSAR és 3D QSAR. Az alapelvek mindkét esetben azonosak, vagyis olyan matematikai összefüggések azonosítása, amelyek kvantitatívan összekapcsolják a kémiai szerkezetet leíró független változókat a biológiai hatással. Az összefüggések keresése a legváltozatosabb regressziós és mintázatfelismerő technikákkal történhet Klasszikus vagy 2D-QSAR Eredetileg klasszikus QSAR modelleknek nevezték az olyan molekulaleírókból előállított modelleket, amelyek kiszámításához csak a molekulák 2D szerkezetét, illetve résszerkezetét vették alapul. Ma ez az elnevezés kissé megtévesztő lehet, mivel jelenleg számos olyan klasszikus QSAR számításokban felhasznált molekulaleíró kiszámítható, amihez a molekula 3D szerkezete szükséges. A szerkezet és a hatás közötti összefüggéseket lineáris és nemlineáris statisztikai módszerekkel vizsgálják. Doktori munkám során a klasszikus QSAR eszközeit használtam, amelyek részletes tárgyalása a Módszerek fejezetben található D-QSAR Mivel a munkám során nem használtam fel a 3D-QSAR eszközeit, így csak rövid áttekintést adok a témában. A klasszikus QSAR gyengeségének tartják, hogy nem képes figyelembe venni a molekulák három dimenziós tulajdonságait pl. elhanyagolja a különböző konformerek vagy enantiomerek közötti különbséget; ezért a 3D-QSAR hatékonyabb módszer és jobb eredményeket szolgáltathat. Ez a feltételezés azonban nem minden esetben állja meg a helyét [25], valamint már megjelentek 3D szerkezeten alapuló, klasszikus QSARben használt molekulaleírók is. A legismertebb 3D-QSAR módszer a CoMFA (Comparative Molecular Field Analysis) elődje. A CoMFA analízis során egy próba-atom vagy molekula segítségével feltérképezik a vizsgálatba bevont molekulák sztérikus és elektrosztatikus mezőit. A kölcsönhatási energiákat az egyes rácspontokon meghatározzák, majd az így létrejött molekulaleírók és a hatás között PLS segítségével állítják elő a QSAR modellt. Az egyik kritikus pont a CoMFA analízis során a molekulák helyes egymásra helyezése, kis különbségek nagy változásokat okozhatnak a QSAR modellben. A másik kritikus pont a 14

16 bioaktív konformáció azonosítása [26, 27]. A CoMFA sikere után számos 3D-QSAR módszert fejlesztettek ki, amelyek részben kiegészítik a CoMFA-t, részben orvosolják hiányosságait pl. CoMMA, CoMSIA ECD ajánlások a QSAR modellek validálására [24] Jól meghatározott körülmények között vizsgált kölcsönhatás Defined endpoint A vizsgált kölcsönhatás lehet kémiai szerkezetek által okozott bármilyen megmérhető és modellezhető fiziko-kémiai, biológiai vagy környezeti paraméter. Ez az alapelv biztosítja a modell által becslendő kölcsönhatás átláthatóságát, mivel egy adott kölcsönhatást különböző mérési módszerekkel és körülmények között lehet meghatározni. Ideális esetben a QSAR modellek homogén adathalmazból készülnek, ahol a mérés egy adott protokoll szerint történt. Ez a gyakorlatban ritkán valósítható meg, rendszerint a különböző forrásból származó eredményeket kombinálni szokták. Mért kölcsönhatások lehetnek: enzim gátló hatás, vízoldhatóság (LogK w ), oktanol-víz megoszlási hányados (LogP), stb Egyértelmű modellezési algoritmus Unambiguous algorithm Ez az alapelv biztosítja, hogy a modellezési algoritmus leírása átlátható legyen. Az eredmények mások által is reprodukálhatóak legyenek, valamint a felhasználók megérthessék, hogy a becslés hogyan történt. Az algoritmus ebben az értelemben a vizsgált kölcsönhatás és a kémiai szerkezeteket leíró molekulaleírók közötti kapcsolatot megadó matematikai modell vagy tudásbázis alapú szabályrendszer. A legtöbb modellezési algoritmus egyértelmű statisztikai módszereken alapul. A kereskedelmi szoftverek algoritmusai nem mindig nyilvánosak. Az algoritmusok egyértelmű leírása nem feltétlenül jelenti az algoritmus működéséhez szükséges matematikai, statisztikai módszerek részletekbe menő ismertetését Meghatározott alkalmazhatósági tartomány A Defined domain of applicability A QSAR összefüggések leegyszerűsített modellek, ezért csak megszorításokkal képes megbízható előrejelzést adni a kémiai szerkezetre, fiziko-kémiai paraméterekre és hatásmechanizmusra vonatkozóan. Egy QSAR modell alkalmazhatósági tartománya (Applicability Domain, AD) az a kémiai- és hatástani tér, ahol a modell adott 15

17 megbízhatósággal képes előrejelzéseket adni. Az AD-n kívül eső becsléseket kevésbé megbízhatónak kell tekinteni A modell statisztikai mérőszámai illesztési képesség, robusztusság, előrejelző képesség csak akkor értelmezhetők helyesen, ha olyan molekulákra alkalmazzák, amelyek belül esnek az alkalmazhatósági tartományon. Fontos megjegyezni, hogy még a jól definiált AD-n belül eső becslések sem feltétlenül megbízhatóak, mivel a definiált szerkezeti, fiziko-kémiai tartományon belül eső molekulák teljesen más módon is kifejthetik a hatásukat Alkalmas mértékrendszer az illesztésének, robusztusságnak, becslőképességnek meghatározására An appropriate measures of goodness-of-fit, robustness and predictivity Ez az alapelv hangsúlyozza, hogy statisztikai módszerekkel ellenőrizni kell mind a modell teljesítőképességét a tanulóhalmazon (illesztő-képesség, robusztusság), mind becslőképességét egy külső halmazon. A becslésnek nincs olyan abszolút mérőszáma, ami minden célra megfelelne. A téma részletes kifejtését a és alfejezet tartalmazza. Disszertációmban egy modell robusztussága azt jelenti, hogy a tanulóhalmaz molekuláinak megváltozására mennyire változnak a modell paraméterei és ebből következően a modell belső becslőképessége. Minél robusztusabb egy modell, annál kevésbé befolyásolja a tanulóhalmaz változásai a paramétereket és a becslést. A robusztusság belső ellenőrzés statisztikai mérőszámaival jellemezhető, pl. SDEP belső, Q 2 belső A hatásmechanizmus magyarázata, ha lehetséges Mechanistic interpretation, if possible A QSAR modellezésben alkalmazott statisztikai módszerek, amelyek megteremtik a kémiai szerkezet és hatás közötti kapcsolatot, nem helyettesíthetik a már meglévő kémiai, biológiai ismereteket. Amennyiben sikerül igazolni, hogy a QSAR modell konzisztens más alapvető természettudományos folyamatokkal, növeli a modell átláthatóságát és a becslések megbízhatóságát. 16

18 Kinázok Kinázoknak nevezik a foszforilációs enzimeket. Legkiemelkedőbb jelentőségűek a protein kinázok, amelyek az ATP γ-foszfátcsoportjának fehérjékre vagy peptidekre történő átvitelét segítik elő. Ezt a foszforilálódási folyamatot tekintik a jelátvitel fő mechanizmusának. A sejtfelszíni receptorokon keresztül érkező extracelluláris jelek különböző fehérje foszforilációs kaszkádok közvetítésével jutnak el a sejtmagba. Az elmúlt évek kutatási eredményei alapján kimutatható, hogy a molekuláris patomechanizmusok nagy része intra- és intercelluláris kommunikációs folyamatok zavaraival állnak összefüggésben. A jelátviteli folyamatok sérülésének következtében különböző kórképek alakulhatnak ki pl. a daganatos, gyulladásos megbetegedések illetve az érelmeszesedés [27]. Az onkogének legtöbbje protein kinázokat kódol. Eddig ~ 530 protein kinázt írtak le a szakirodalomban. A protein kinázokat alapvetően két nagy csoportra lehet bontani: tirozin és szerin/treonin kinázok. Ezeket a csoportokat tovább lehet bontani receptor és nem-receptor protein kinázokra (1. táblázat). 1. táblázat Protein kinázok csoportosítása és néhány fontosabb képviselőjük. Munkám során a vastagon szedett kinázok gátlásnak modellezésével foglalkoztam. Receptor tirozin kinázok Receptor szerin/treonin kinázok Epidermális növekedési faktor receptor (EGFR) Transzformáló növekedési faktor receptor (TGF) Fibroblaszt növekedési faktor receptor (FGFR) em-receptor szerin/treonin kinázok Érendotél növekedési faktor receptor (VEGFR) camp-függő protein kináz (PKA) Vérlemezke eredetű növekedési faktor receptor Foszfoinozitol-3-kináz (PI3K) (PDGFRβ) Hepatocita növekedési faktor receptor (c-met, Aurora kinázok (pl. Aurora A) HGFR) Kolónia stimuláló faktor receptor (CSFR) Ciklin-függő kinázok (pl. CDK1, CDK2, CDK4) Ideg növekedési faktor receptor (GFR) Mitogén-aktivált protein kinázok (pl.erk, p38) Inzulin-szerű növekedési faktor receptor (IGFR) Protein kináz-c (PKC) Inzulin receptor (InsR) Janus kináz család (Jak) em-receptor tirozin kinázok IκB kináz család (B sejtek kappa könnyű lánc gén enhanszerének inhibitora) Rous szarkóma vírus protein (Src) és családja pl. Rapamicin emlős célmolekulája (mtor) Limfocita specifikus protein tirozin kináz (Lck), proto-onkogén protein tirozin kináz fyn (Fyn) Abelson patkány leukémia vírus v-abl onkogén Rho-függő protein kináz (RCK) homológ (Abl), BCR-Abl fúziós kináz C-terminális Src kináz (CSK) Protein kináz B (PKB/Akt) A receptor protein kinázok katalitikus doménjének és a nem-receptor kinázok szerkezeti felépítése hasonló: egy kisebb -terminális lebenyből és egy nagyobb C- terminális lebenyből áll, a két lebeny egy hajlékony hurokkal van összekötve, a kináz 17

19 aktív helye a két lebeny határfelületén található. Ezt a területet szokták zsanér (hinge) régiónak is nevezni. Az -terminális lebeny elsősorban β-redőzőtt lemez másodlagos szerkezeti elemeket tartalmaz, a C-terminálist viszont főleg α-hélixek alkotják (2. ábra). 2. ábra A c-abl kináz szerkezete (wwpdb kód: 1IEP) az STI-571 (Gleevec ) inhibitorral kristályosítva. Az aktív hely a két szubsztrát ATP: foszfát donor, protein vagy peptid: foszfát akceptor részére fenntartott kötőhelyekből áll. Az aktív hely egyik kulcsfontosságú eleme az aktiváló hurok, amely foszforilációs mechanizmusok alapján a katalitikus aktivitást kontrollálja [28]. Habár a protein kináz inhibitorok fejlesztése már az 1980-as évek végén elkezdődött, az azonos katalitikus mechanizmus, a nagymértékű szekvencia azonosság, az egyforma protein hajtogatódási topológia, és az ATP, mint közös foszfátdonor miatt, sokáig azt feltételezték, hogy a protein kinázokra nem lehet gyógyszert fejleszteni [27]. Különösen az ATP kötőhelyen ható inhibitorok kifejlesztésének lehetőséget vetették el. Az 1990-es évek közepén a Parke-Davis Pharmaceutical Research kutatócégnek sikerült egy szelektív és nagyon hatásos (K i = 5 pm) ATP kompetitív EGFR inhibitort kifejleszteniük (PD ) [28, 29]. Ez az eredmény bebizonyította, hogy mégis lehetséges ATP kompetitív inhibitorokat tervezni, sőt a mai napig a klinikai gyakorlatba bevezetett kismolekulás kináz inhibitorok ATP kompetitív módon hatnak. Későbbi vizsgálatok során kiderült, hogy a protein kinázok ATP kötőhelyének (3. ábra) nagymértékű hasonlósága ellenére, a kötőhelyhez közeli régiók térszerkezete lehetőséget nyújt a szelektív gátlószerek kifejlesztésére [30]. 18

20 3. ábra Kináz ATP kötőhely felépítése [31]. Gyógyszertervezési szempontból az ATP zseb öt régióra bontható [27, 30, 31]: 1. Adenin régió: minden ATP kompetitív inhibitor kötődik ehhez a hidrofób régióhoz és hidrogénhíd kötések segítségével kerül kölcsönhatásba a zsanér régióval 2. Cukor zseb: Ez a terület hidrofil jellegű, ezért a kináz inhibitorok vízoldhatóságát növelő csoportokat lehet ide tervezni. Az egyes kinázokban ez a régió nagyon eltérő lehet, így az inhibitorok szelektivitásának növelésére is kihasználható. 3. Hidrofób hátsó zseb: Ez a zseb az ATP -6 nitrogénjének irányába terjeszkedik ki, az ATP kötődésében nem játszik szerepet. Az inhibitorok affinitásának és szelektivitásának növelésére kihasználható. A régió hozzáférhetőségét két kapuőr aminosav szabályozza. 4. Hidrofób csatorna: az ATP kötődése során nem használja ezt a térrészt, emiatt ki lehet használni az inhibitorok affinitásának és szelektivitásának növelésére. 5. Foszfát kötő régió: Ez a terület hidrofil és nagymértékben elérhető az oldószerek számára, így tervezési szempontból a legkevésbé érdekes. A klinikai gyakorlatban 2001 óta használnak kináz inhibitorokat, ekkor vezette be a ovartis gyógyszergyár Glivec (Gleevec) nevű termékét krónikus mieloid leukémia (CML) gyógyítására [30]. Ez a lépés végleg igazolta, hogy lehetséges kináz enzimek ellen gátlószereket tervezni. 19

21 2. CÉLKITŰZÉSEK Munkám során elsődleges célul tűztük ki kvantitatív szerkezet-hatás összefüggés (QSAR) modellek készítését validált kináz célmolekulákon ható gátlószerek szerkezete és hatástani adatai alapján. Célul tűztük ki EGFR, Akt1, PDGFRβ, CDK4, RCK-II kinázok gátlását jellemző QSAR modellek készítését. Megbízható QSAR modellek készítéséhez szükséges egy felhasználóbarát adatbázis, amiből könnyen kikereshetők a szakirodalmi, szerkezeti és hatástani adatok. Így első lépésként egy kinázokra és gátlószereikre fókuszáló elektronikus könyvtár elkészítését terveztük. Következő lépésként az elektronikus könyvtár alapján egy szerkezeti-hatástani adatbázis elkészítését és feltöltését terveztük. További célul tűztük ki olyan megbízható eredményeket szolgáltató biokémiai tesztelési rendszer kialakítását, amivel a racionális hatóanyagtervezéshez új adatokat szolgáltathatunk, ill. amellyel egyidejűleg ellenőrizni lehet az elkészített QSAR modellekkel végzett virtuális szűrések eredményeit. A potenciális gátlószerek vizsgálatára egy fluoreszcencia polarizáción alapuló módszer IMAP beállítását terveztük. További célunk volt a biokémia teszteléseknél általánosan használt oldat vegyülettár anyagkimérését elősegítő szoftver fejlesztése. 20

22 3. MÓDSZEREK 3.1. Felhasznált szoftverek Concord A Concord a Tripos cég Sybyl programcsomagjában található szoftver, amely jó minőségű közelítő 3D szerkezetek gyors, interaktív vagy automatikus előállítására szolgáló eszköz. A 2D szerkezetek kötéskapcsolati információit atomi koordinátákká alakítja át. A 2D szerkezet alapján szabályrendszer segítségével egy kezdeti 3D szerkezetet állít elő, majd opcionálisan energiaminimalizálást hajt végre azon. A Concord Unix rendszer alatt fut, így használata Windows operációs rendszert futtató gépekről kényelmetlenebb [32, 33] Molecular perating Environment (ME) A ME a Chemical Computing Group által fejlesztett, számítógéppel támogatott gyógyszertervezés különböző technikáit összefoglaló programcsomag. A ME-nak van Windows-os változta is, és futtatható kötegelt (batch) üzemmódban, amivel hatékonyan automatizálható. Többféle szerkezeti fájlformátumot kezel. A munkám során két modult használtam belőle: 2D->3D konverzióra a molekulamechanikai modult és a molekulaleíró számoló modult. A ME 473 db 2D, 3D molekulaleírót képes alapállapotban kiszámítani, de a beépített programozási nyelv segítségével bármilyen molekulaleíró kiszámítása megvalósítható [34] Dragon Plus 4.1 A Milano Chemometrics and QSAR Research Group által fejlesztett molekulaleíró számoló program, 1612 db 0D, 1D, 2D, 3D molekulaleírót tud kiszámítani. Ez a szoftver is képes kötegelt (batch) üzemmódban futni, amivel automatizálni lehet a számításokat és nagy mennyiségű molekulára molekulaleírót számítani. Különböző fájlformátumokat elfogad bemenő szerkezeti adatként pl. SDF, ML2, SMI [35] Microsoft Excel A Microsoft cég táblázatkezelő szoftvere, az egyik legjobban elterjedt alkalmazás a kategóriájában. Számos beépített függvényével alapvető statisztikai, adatrendszerezési, pénzügyi feladatot lehet elvégezni, de akár IC 50 görbeillesztésre is 21

23 lehet használni [36]. A beépített programozási lehetőséggel VBA Visual Basic for Application az alapfüggvények területén kívül eső feladatokat is meg lehet oldani ISIS/Base Az MDL Information Systems, Inc gondozásában megjelenő Microsoft Windows alatt futó lokális kémiai adatbázis-kezelő program. Hierarchikus és síkszerkezetű (flat) felépítésű adatbázisok készíthetők vele. 2D és 3D kémiai szerkezetek és a hozzájuk kapcsolódó szöveges és numerikus adatok tárolására tervezték. Az elkészített adatbázisban szerkezet, részszerkezet, reakciók és az egyéb adatok szerint is lehet keresni, a logikai operátorok a keresés hatékonyságát növelik. A szerkezeteket és egyéb adatokat szöveges (SDF, RDF, ML fájl) és XLS formátumba lehet exportálni CHED A CHED a TimTec LLC cég Microsoft Windows alatt futó kémiai adatbáziskezelő programja. 2D és 3D kémiai szerkezetek és a hozzájuk kapcsolódó szöveges és numerikus adatok, spektrumok tárolására tervezték. Az elkészített adatbázisban lehet szerkezet, részszerkezet és az egyéb adatok szerint keresni. A szoftver beépülő moduljaival lehet szintézis tervezést, diverzitás analízist, kombinatorikus könyvtár tervezést végezni. A szerkezeteket és egyéb adatok szöveges (SDF, ML, JCAMP fájl) és XLS formátumba exportálhatók. Munkám során a CHED szoftver segítségével végeztem el a QSAR modellezéshez összeállított adatbázisok diverzitás analízisét. Az analízis a következő módon zajlik [37]: 1. A CHED az adatbázisban lévő minden egyes molekulát szerkezeti fragmensekre bont, majd ezeket egy belső adatbázisban tárolja. 2. A belső adatbázisban tárolt n darab fragmens alapján n dimenziós bitvektorokat képez minden egyes molekulára, ahol 1: a molekula tartalmazza a kérdéses fragmenst, 0: a molekula nem tartalmazza a kérdéses fragmenst. 3. A CHED két molekula (k, m) kémia különbözőségét a bitvektorok koszinusz koefficiense alapján határozza meg (6. egyenlet). A molekula párok különbözőségi értékeiből épül fel az adott adatbázis D különbözőségi mátrixa. 22

24 d = 1 6. egyenlet k i i * mi ki * m i i i d = különbözőség k i = k molekula bitvektorának i-edik eleme m i = m molekula bitvektorának i-edik eleme 4. Egy adatbázis diverzitása a D különbözőségi mátrix nem diagonális elemeinek összege osztva a nem diagonális elemek számával. (7. egyenlet) = di, j diverzitás p * ( p 1) 7. egyenlet d i,j = különbözőségi mátrix egy eleme, i j p = molekulák száma A CHED súgójának ajánlása alapján egy adatbázis diverzitása nagy ha az adatbázisra számított diverzitás 0,8-0,9 között van, kicsi ha számított diverzitás 0,5-0,6 körül van PHP-MySQL PHP (PHP: Hypertext Preprocessor) egy nyílt forráskódú, általános célú programozási nyelv, HTML-be ágyazási lehetőségekkel. A kódokat a szerveren futtatja, így a programozók dinamikus weboldalakat készíthetnek, amelyek adatbázisokkal vannak kapcsolatban. A PHP többek között a MySQL, PostgreSQL, racle, Informix, Solid, InterBase adatbázis szervereket támogatja. MySQL egy relációs adatbázis-kezelő rendszer, amelyben strukturált lekérdező nyelv (SQL, Structured Query) segítségével lehet kereséseket végezni, adatokat módosítani és feldolgozni DET4W A 3DET4W kutatócsoportunk által fejlesztett Windows operációs rendszeren futó QSAR célszoftverünk. Kutatómunkám során a szoftver béta tesztelésben vettem részt, valamint javaslatokat tettem új beépítendő funkciókra pl. Y-randomizálás alkalmazása a véletlen korreláció ellenőrzésére, molekulaleíró kombináció bank (MKB) 23

25 alkalmazása. Alapelve, hogy a statisztikai elemzéseket becslés orientáltan végzi, sem a változó-kiválasztásban, sem a modellkiválasztásban nem használja az illesztési statisztikákat. A szoftver fő funkciói: 1) molekulaleírók manuális előszűrése, 2) automatikus változó-kiválasztás: szekvenciális vagy genetikus algoritmussal, 3) lineáris (MLR, PLS) és nemlineáris (A) függvényillesztés, 4) belső és külső ellenőrzések, 5) véletlen korreláció tesztelése Y-randomizálással, 6) QSAR modell alapú virtuális szűrés. Az ismeretlen hatóértékű molekulák becslése virtuális szűrése előtt a végső modellt illeszteni szoktuk a teljes bemenő adathalmazra. A 3DET4W az alkalmazhatósági tartományt a modellben felhasznált molekulaleírók bemenő adathalmazbeli tartományaként értelmezi. A funkciók részletes bemutatását a Módszerek fejezet további alfejezeti tárgyalják. Munkám során a QSAR modellezési feladatok végrehajtására a 3DET4W programot használtam [38, 39, 40]. A program működését a 4. ábra szemlélteti. 4. ábra A 3DET4W szoftver működésének folyamatábrája. Az szoftver bemeneti fájlformátuma ún. XYD fájl, ami a molekulaleírókat és a biológiai adatokat tartalmazza. Ezt az adatmátrixot lehet manuális előszűrő módszerekkel csökkenteni, az előszűrt adatokat célszerű szétosztani munka és külső ellenőrző halmazokra. A következő lépés a munkahalmazon elvégzett belső ellenőrzések, az illesztés módszerének és a változó-kiválasztás típusának beállítása. Modelloptimalizálás során képződő jól becslő modellek molekulaleírói az MKBben gyűlnek, ebből nagyszámú véletlen felezéssel választjuk ki a legrobusztusabb modellt, amit külső ellenőrzéssel és véletlen korrelációs teszttel lehet tovább ellenőrizni. A külsőleg ellenőrzött és nem véletlen korreláló molekulaleírókat tartalmazó modellel lehet a virtuális szűrést végrehajtani. 24

26 3.2. Elektronikus könyvtár és szerkezeti-hatástani adatbázis A QSAR modellezés első lépése a szükséges bemenő adatok összegyűjtése, rendszerezése az e célra készített adatbázisokban. Az adatbázisban tárolt adatok három csoportra bonthatók: publikációs adatok, szerkezeti adatok, hatástani/biológiai adatok. Kereskedelmi forgalomban több használható szoftver elérhető a publikációs és a szerkezeti-hatástani adatok tárolására. Első próbálkozásként a publikációkat Reference Manager adatbázisban tároltuk, azonban ez nem felelt meg céljainknak, mivel minden egyes felhasználó számítógépére fel kellett telepíteni, nem lehetett a dokumentumokat PDF fájlban tárolni, nehézkes volt a karbantartása. A szerkezeti-hatástani adatok összegyűjtésére és tárolására kezdetben ISIS/Base adatbázist használtunk. Ez a rendszer sem felelt meg számunkra, mivel nem lehetett egyszerre több felhasználónak elérnie, minden számítógépre telepíteni kellett és az adatbevitel során számos redundáns adat került bele. Adataink integrált tárolására kifejlesztettünk egy PHP-MySQL adatbázist, amely standard adatbeviteli módokat tartalmaz és egyszerűen elérhető internet böngésző segítségével, ami az általánosan elterjedt operációs rendszerekben alapszoftverként szerepel. Az adatbázisunk beviteli felülete, megjelenítése HTML alapú. A HTML önmagában statikus programnyelv, ezért az űrlapok adatainak feltöltése az adatbázisba, valamint az adatbázis különböző lekérdezésekre adott válaszainak megjelenítése PHP segítségével történik. Az adatbázis rendszerünk Linux operációs rendszeren fut Elektronikus könyvtár Elektronikus könyvtárunk alapját néhány száz cikkből álló, papírformában meglévő gyűjtemény képezte, a további gyűjtés online elérhető adatbázisokból történt. A kereséshez általában a kinase és inhibitor kulcsszavakat, egyes esetekben a kináz saját nevét pl. EGFR, Lck, PDGFR használtam. A felhasznált adatbázisok a következők voltak: VID Medline, Science Direct, ISI Web of Science, PubMed, Beilstein nline. Publikációnak tekintjük a következő dokumentumtípusokat: folyóiratok, szabadalom, internetes dokumentum, könyvfejezet, személyes közlés, előadások. A beviteli űrlapot manuálisan vagy importálással lehet kitölteni. 25

27 ábra). A publikációs adatok bevitelére egy standard beviteli formát használunk (5. 5. ábra Az elektronikus könyvtár egy rekordja. Az adott publikáció rekordjához az eredeti közlemény elektronikus (PDF) formáját is csatoljuk. A teljes adatbázis szöveges keresése megoldott. Az elektronikus könyvtárból tetszőlegesen lehet exportálni a mezőket, ezáltal gyorsan elő lehet állítani a modellezésben felhasznált cikkek referencia adatait az adott folyóirat által megkövetelt módon Szerkezeti-hatástani adatbázis Az egyes publikációkhoz felelősöket lehet rendelni, akik a hatástani/biológiai és szerkezeti adatok kinyerést végzik. A hatástani/biológiai és szerkezeti adatbevitelre először két külső program (Excel-ISIS/Base) által előállított fájlpárokat használtunk. A hatástani adatokat publikációnként egy CSV fájl tartalmazta, a szerkezeti adatokat egy SDF fájl. Habár ezt az adatbeviteli lehetőséget meghagytuk mivel sok hibalehetőséget rejtett magában kifejlesztettünk egy teljesen HTML alapú beviteli formát. A szerkezetberajzoláshoz a JME Molecular Editor -t használjuk [41], ez egy Java alapú HTML-be ágyazható program. A grafikusan berajzolt szerkezetek az adatbázisban SMILES kód formájában tárolódnak. A hatástani adatok bevitele ugyanezen a HTML űrlapon keresztül történik (6. ábra). 26

28 6. ábra Szerkezeti és hatástani/biológiai adatok bevitele. A hatástani adatok bevitelére is standard beviteli formát használunk, ahol lehetséges legördülő listákkal, amelyek használata csökkenti a hibás, redundáns adatbevitelt Hatástani adatok típusai Vegyületek hatékonyságát különböző típusú hatástani/biológiai mérőszámokkal lehet jellemezni, pl. K i, IC 50, pic 50, gátlási %, fennmaradó aktivitás %. A legmegfelelőbb és legmegbízhatóbb mérőszám a K i érték lenne (8. egyenlet), amely az inhibitor egyensúlyi disszociációs konstansa kompetitív gátlás esetén. K i = 8. egyenlet [ E][ I ] [ EI ] K i = egyensúlyi disszociációs konstans [E] = egyensúlyi szabad enzim koncentráció [I] = egyensúlyi szabad inhibitor koncentráció [EI] = egyensúlyi enzim-inhibitor komplex koncentráció A munkám során feltételeztem, hogy a modellezésben felhasznált molekulák kompetitív gátlószerek vagy az adatok kigyűjtésénél törekedtem rá, hogy ilyen kinetikájú vegyületeket válogassak ki. Feltételezésemet arra alapoztam, hogy a klinikai gyakorlatban alkalmazott gyógyszervegyületek nagy részére kompetitív gátlószer [42]. A K i meghatározása igényli a legtöbb ráfordítást, így a legritkábban megadott adat a publikációkban. 27

29 A következő mérőszám az IC 50, amely definíciója: 1. Az az inhibitor koncentráció, ami 50%-os enzim aktivitás csökkenéshez szükséges (abszolút IC 50 ). 2. Az az inhibitor koncentráció, ami az illesztett görbe felső és alsó platója által meghatározott tartomány felénél lévő enzimaktivitásnál számítható ki (relatív IC 50 ). A legkevésbé megfelelő és megbízható érték a vegyületek egy adott koncentrációjánál mért enzimaktivitás változásának százalékban megadott értéke, vagyis a gátlási % vagy fennmaradó aktivitás % Hatástani adatokat egységesítő algoritmus A szerkezeti-hatástani adatbázist nemcsak a QSAR modellezők használják, hanem a vegyészek is, akik gyors, kvalitatív szerkezet-hatás összefüggéseket úgy szoktak felállítani, hogy az adott célmolekulán mért molekulákat hatóértékeik alapján sorba rendezik. Ha egy adott célmolekulára több különböző típusú hatástani adat van, csak típusonkénti csoportokra bontással lehet a listákat előállítani, ezért kidolgoztunk a legelterjedtebb értékekre egy egységesítő algoritmust. Az algoritmus a különböző típusú értékeket először pic 50 -re alakítja át. Ha egy szerkezetre, ugyanazon a célponton több mérést is elvégeztek, akkor a számított pic 50 értékek átlagát vesz. Ezt az új, egységesített mennyiséget cpic 50 értéknek nevezzük. A pic 50 számítása a következő egyenletek alapján történik a különböző hatástani mérőszám típusokból (9. egyenlet, 10. egyenlet, 11. egyenlet): Gátlási % (=100-fennmaradó aktivitás %) esetén logit transzformációt használunk a %-os értékek átalakítására, majd a kapott értéket a vegyület koncentrációjával korrigáljuk [43, 44]. logit y m =log [(y m -c 1 )/(c 2 -y m )] 9. egyenlet y m = gátlási % c 1 = legkisebb mérési viszonyítási pont %-ban kifejezve c 2 = legnagyobb mérési viszonyítási pont %-ban kifejezve 28

30 pic 50 =-log(c)+ logit y m 10. egyenlet C = vegyület koncentrációja [mol/dm 3 ] IC 50 esetén a pic 50 érték az alábbi egyenlet alapján számítható. pic 50 =-log(ic 50 ) 11. egyenlet IC 50 = gátlási koncentráció 50%-os értéke [mol/dm 3 ] K i esetén a számítás első lépése, hogy a K i értéket IC 50 értékké alakítjuk át a kompetitív gátlásra alkalmazható Cheng-Prusoff egyenlet segítségével (12. egyenlet). IC 50, 12. egyenlet kompetitív = Ki + K K i m [ S] K i = Egyensúlyi inhibitor disszosziációs konstans [mol/dm 3 ] K m = Michaelis-Menten konstans [mol/dm 3 ] [S] = Egyensúlyi szubsztrát koncentráció [mol/dm 3 ] Ha feltételezzük, hogy a kísérletben a szubsztrát pl. ATP koncentrációja megegyezett a K m értékével, a 13. egyenletet kapjuk. IC * 50, kompetitív = 2 K i 13. egyenlet K i = Egyensúlyi inhibitor disszosziációs konstans [mol/dm 3 ] A gátlószer kinetikáját és a kísérleti szubsztrát koncentrációt sok esetben nem lehet a publikációkból egyértelműen leellenőrizni, azonban egy durva összehasonlításhoz megfelelő. A második lépés, hogy az IC 50 értéket a 11. egyenlet segítségével pic 50 értékké alakítjuk. Az adatbázisból tetszőleges módon készíthetünk kigyűjtéseket és számos fájlformátumban exportálható a hatástani/biológiai és szerkezeti adat pl. XLS, SDF, CSV. 29

31 3.3. QSAR modellezés Bemenő adatok hibaforrásai Modellezés előtt érdemes minél többet megtudni a kémiai és biológiai adatok minőségéről és hibájáról, mivel jó becslőképességgel rendelkező QSAR modellek készítéséhez megbízható adatok szükségesek. A publikációkban lévő vegyületek tisztaságát ritkán adják meg. Feltételeztem, hogy nagytisztaságú vegyületekből készültek a hatástani vizsgálatok, tehát a hatást az ábrázolt szerkezet okozta. Saját vegyülettárunkban az anyagok HPLC-MS-el meghatározott tisztasága nagyobb, mint 90%. A biológiai/hatástani tesztelésekhez a por formájú vegyületekből először oldatokat kell készíteni. Az oldatok koncentrációjának megadásánál is felmerülhet hiba, ami elsősorban a tömegmérés a szokásos 1 mg körüli tömeg kimérése esetén ~ 0,05 mg az eltérés ill. a hígítás hibájából adódik. A koncentráció különbségből származó eltérés viszont a biológiai mérések hibájához viszonyítva elhanyagolható. Gyakorlati tapasztalat, hogy a sejtes esszék nagyobb hibával terheltek, mint a biokémiai esszék. Ennek oka, hogy a sejtes rendszer bonyolultabb, és több számunkra véletlen folyamat befolyásolhatja a mérést. Ezért célszerűbb elsősorban biokémiai méréseket használni bemenő függő változóként. Egy adott vegyületre vonatkozó biokémiai, biológiai adatok (pl. IC 50 ) függnek az enzim kinetikai paramétereitől. Például ATP kompetitív kinetikájú kinázgátló vegyületek esetén a gátlási % és az ebből származtatott IC 50 értékek lineárisan függenek az [ATP]/K m ATP hányadostól (7. ábra). Ez tovább bonyolítja a különböző protokollal mért adatok összevethetőségét IC 50 érték változása a [ATP]/KmATP függvényében (kompetitív gátlás) y = x + 1 R 2 = 1 IC [ATP]/KmATP 7. ábra IC 50 értékek függése az [ATP]/K m ATP hányadostól, K i =1 nm. 30

32 Lehetőség szerint meg kell vizsgálni a biológiai adatok hibáját. S. Wold és munkatársai szerint ha a modell reziduális szórása (SEE) kisebb, mint a hatástani/biológia adatok kísérleti hibája, akkor a modell túlillesztett [24, 45]. Ha nem állapítható meg a biológiai adtok mérési hibája, akkor ökölszabályként figyelembe lehet venni a következőket biokémiai, enzimatikus esszék esetében: egy adott vegyületre azonos laboratóriumban, azonos módszerrel mért IC 50 értékek közötti ± kétszeres különbség elfogadható, logaritmusosan kifejezve ± 0,30 egység. Különböző laboratóriumok között, esetleg eltérő kísérleti módszerekkel ± háromszoros különbség, azaz ± 0,48 log egység még elfogadható kísérleti hiba [46, 47, 48] Bemenő adatok kigyűjtése, előkészítése Szerkezeti-hatástani adatbázisunkból célmolekulánként kigyűjthetjük a modellezéshez szükséges kémia szerkezeteket és a hozzájuk tartozó hatástani adatokat. Az ideális hatástani/biológiai adatok azok lennének, amelyeket egyféle protokollal, ugyanabban a laboratóriumban, ugyanazok az emberek mérnek, azonban ezek a feltételek egyszerre elég ritkán teljesülnek [49]. Ezen ismeretek alapján lehet összeállítani olyan bemeneti adathalmazt még ha az előbb említett ideális feltételek nem is teljesülnek ami alapján jó modelleket lehet készíteni. A modellezés során alkalmazott matematikai, statisztikai módszerek számszerűsíthető értékeket kezelnek, viszont sok esetben egy vegyület hatástani elsősorban IC 50, EC 50 értékét nem lehet meghatározni az adott biológiai mérési körülmények között. Ennek két leggyakoribb oka: 1) a vegyület oldhatatlansága az esszében használt pufferben, 2) az esszében vizsgálandó célfehérje, enzim koncentrációjának minimális értéke, amivel még megbízhatóan detektálható a reakció. Az első esetben nagyobb, mint (>) a második esetben, amely ritkábban fordul elő kisebb, mint (<) értékeket szoktak közölni. Az ilyen típusú értékek felhasználása a modellezésben nincs megoldva. Ha önkényesen egy adott számértéket rendelnénk pl. nagyobb, mint értékekhez, két problémával kellene szembenézni: 1) a szerkezet és hatás közötti összefüggés felborulhat, 2) valószínűleg eltorzítaná a mért adatok eloszlását, ami a statisztikai módszerek alkalmazhatóságát kérdőjelezné meg. Ennek következménye, hogy vegyületcsaládok maradhatnak ki a modellezésből. 31

33 A szerkezeti-hatástani adatbázisunkból egy adott célmolekulára kigyűjtött szűrt listából egyesével kizárhatunk olyan kilógó adatokat, amelyek nem felelnek meg a kívánalmaknak. Külön problémát jelent, hogy egy célmolekulának többféle szinonim neve is lehet. Ennek kiküszöbölésére készítettünk egy olyan táblázatot, ahol a célmolekulák hierarchikusan vannak rendszerezve a szinonim elnevezésükkel. Az általam használt kritériumok az adatok kigyűjtésénél a következők voltak: biokémiai nem sejtes esszékből származzon a biológiai adat, rekombináns enzimmel vagy tisztított fehérjével történjen a mérés, nagyobb részben IC 50 legyen a mért adat típusa, nem számszerűsíthető értékek nagyobb, mint, kisebb, mint eltávolítása, vegyületek gátlási kinetikájuk alapján szét legyenek válogatva, ha lehetséges. Ezekkel a kritériumokkal némileg szemben hat, hogy minél nagyobb kémiai teret szeretnénk lefedi a modellezésre használt vegyületekkel, hogy minél nagyobb legyen a modell alkalmazhatósági tartománya; valamint a QSAR modellezés alapvetően statisztikai módszer, amihez szükséges egy minimális elemszámot biztosítani. Modellezés előtt célszerű a hatástani/biológiai adatok eloszlását megvizsgálni. Jó modelleket egyenletes vagy Gauss eloszlású adatokból lehet készíteni, ezért az adatelőkészítésnél a hatástani adatokat tízes alapú logaritmusuk mínusz egyszeresévé alakítják át pl. IC 50 értéket pic 50 értékké. Fontos, hogy a hatástani adatok terjedelme a kísérleti hiba legalább 2-3-szorosa legyen. A normalitást lehet ellenőrizni statisztikai próbákkal pl. Shapiro-Wilk féle W-teszt, az egyenletes eloszlást pedig, pl. információs entrópia alapján. Egy egyszerű hisztogram ábrával azonban szemmel is eldönthetjük hogy megfelel-e az eloszlás a modellezéshez Molekulamodellezés Háromdimenziós molekulaleírók használatához szükséges a molekulák 3D szerkezetének kiszámítása. Molekulamodellezésre két eszközt használtam, mindkét programmal kielégítően gyorsan lehet 3D szerkezeteket generálni. A két szoftver nem globális energiaminimalizált, és nem is bioaktív konformációjú 3D szerkezeteket állít 32

34 elő. Tapasztalataim szerint egyik szoftver sem képes egy adott 2D szerkezetből többszöri elindításra ugyanazt a szerkezetet megtalálni. Ez hátrány, mivel az eltérő 3D szerkezetből eltérő 3D molekulaleírók számolhatók. Ezt a problémát valamennyire lehet azzal ellensúlyozni, ha a szerkezeteket és a hozzájuk kiszámított molekulaleírókat adatbázisban tároljuk, és modellezés vagy virtuális szűrés az adatbázisban tárolt adatokkal történik. Annak ellenére, hogy a 3D molekulaleírók több információt hordoznak a szerkezetekre vonatkozón, az előbb említett okok miatt, munkám során néhány kivételtől eltekintve törekedtem arra, hogy elsősorban 2D szerkezetből számítható molekulaleírókat használjak fel Molekulaleírók és számításuk A kémiai szerkezet nem korreláltatható közvetlen módon a biológiai hatással, fiziko-kémiai tulajdonságokkal, mivel a kémiai szerkezetek nem illeszthetők bele közvetlenül a modellezési folyamatba. A legtöbb QSAR modellezésre alkalmazott módszer bemenő adatként azonos hosszúságú numerikus tulajdonságvektorokat igényel az összes molekulára. Ezt a problémát a molekulaleírók úgy oldják fel, hogy átalakítják a szerkezeteket jól meghatározott számértékek halmazaivá [25]. Roberto Todeschini szerint A molekulaleíró matematikai-logikai műveletek végeredménye, amely a molekulaszerkezetben kódolt kémia információt jól felhasználható számokká alakít át, vagy egy standardizált kísérlet eredménye [50]. A molekulaleírókat többféle módon szokták csoportosítani. Legkézenfekvőbbnek tűnne a számított molekulaleíró alapjául szolgáló kémiai szerkezet dimenziója alapján történő csoportosítás, vagyis a 2D szerkezetből 2D QSAR molekulaleírók, a 3D szerkezetből 3D QSAR molekulaleírók számíthatók. Ezek az elnevezések azonban félrevezetők lennének, mint a bevezetőben már említésre került. Egyes szerzők, pl. Roberto Todeschini az alapvetően 2D szerkezetből is számítható molekulaleírókat tovább bontják 0D, 1D molekulaleíró csoportokra, és 3D molekulaleíró csoportba sorolja azokat, amelyekhez szükséges 3D szerkezet. Más szerzők, pl. Jorge Gálvez vagy a ME szoftver készítői a 0D, 1D molekulaleíró csoportokat is a 2D molekulaleíró csoportba sorolják [25]. Kereskedelmi forgalomban számos molekulaleíró számító szoftver kapható. A számításokhoz három szoftvert használtam: ME molekulaleíró számoló modulja, Dragon Plus 4.1, valamint kollegáim 33

35 által programozott hisztogram típusú molekulaleírókat [51]. A használt molekulaleírók csoportosítását a 2. táblázat és a 3. táblázat tartalmazza. 2. táblázat 0D, 1D, 2D molekulaleírók csoportosítása [22, 34, 35, 51, 52]. Dimenziószám 0D 1D 2D Leíró csoport konstitúciós (a konnektivitástól és a konformációtól független) molekulaleírók funkciós csoportok száma Ghose-Crippen féle (atom-centered) fragmensek sajátérték alapú leírók topológiai molekulaleírók, molekuláris gráfok alapján számított utak és séták száma BCUT leírók Gálvez topológiai töltés indexek 2D autokorrelációk kapcsolódási indexek információs indexek hisztogram molekulaleírók él-szomszédossági indexek MACCS kulcsok VSA molekulaleírók részleges töltés molekulaleírók farmakofór tulajdonság molekulaleírók Példák, magyarázat molekulatömeg, átlagos molekulatömeg, különböző atom- és kötéstípusok előfordulási száma a molekulában, különböző atomi tulajdonságok (pl. atomi polarizálhatóság) összege/átlaga a molekulában, stb. különböző funkciós csoportok (pl. -CH, -H 2 stb.) előfordulási száma a molekulában a Ghose-Crippen által definiált 120 atom-centered fragmens előfordulási száma a molekulában a molekuláris gráfból származtatott mátrixok sajátértékeiből számolt molekulaleírók molekulák gráfjából számolt indexek hidrogénnel ellátott molekuláris gráfok alapján számított szomszédossági mátrixokból származtatott molekulaleírók topológiai töltés index fiziko-kémiai tulajdonságokkal súlyozott térbeli autokorrelációk a molekuláris gráf éleinek fokából számolt molekulaleírók a molekula információtartalmából számolt leírók különböző atomtípusok közötti távolságok eloszlása molekuláris gráfok él-szomszédossági mátrixából származtatott molekulaleírók molekula ujjlenyomat molekulaleírók 2D szerkezetből számított felületi molekulaleírók pl. + részleges töltések összege, teljes poláris vdw felszín H-híd akceptor atomok száma, hidrofób atomok száma 34

36 3. táblázat 3D és egyéb molekulaleírók csoportosítása [22, 34, 35, 51, 52]. Dimenziószám 3D Leíró csoport Randic-féle molekuláris profilok geometriai molekulaleírók RDF (sugárirányú eloszlási függvény) molekulaleírók 3D-MoRSE molekulaleírók (elektrondiffrakción alapuló 3D molekulaábrázolás) WHIM molekulaleírók GETAWAY leírók potenciális energia leírók térfogati és felszíni leírók konformáció-függő töltés leírók regressziós modellekkel számolt molekuláris tulajdonságok töltés molekulaleírók Példák, magyarázat atomok közötti geometriai távolságokból származtatott molekulaleírók különböző, konformációfüggő molekulaleírók (pl. a geometriai távolságok összege bizonyos atomtípusok között) különböző atomok közötti távolságokon alapuló radiális bázisfüggvényekkel számolt leírók Gasteiger-féle 3D molekulaleírók atomi koordináták kovariancia mátrixának 3 főkomponenséből számolt molekulaleírók Todeschini-féle molekula hatásmátrixból számított molekulaleírók pl. a potenciális energia elektrosztatikus komponense pl. vízmolekula által elérhető felszín pl. hidrofób atomok vízmolekula által elérhető felszíne pl. molekuláris refrakció, poláris felület, Moriguchi logp a molekula töltésviszonyait jellemző molekulaleírók Az eredmények fejezetben bemutatott modellek molekulaleíróinak a hisztogramm típusúak kivételével magyarra fordítására nem vállalkoztam, így a legtöbb molekulaleíró elnevezése angol. 35

37 Ellenőrzési módszerek (validálás) A modellek minőségét belső és külső ellenőrzéssel lehet megállapítani. A 8. ábra illusztrálja a rendelkezésre álló adathalmaz X-Y mátrix javasolt felosztását a QSAR modellezéshez. A belső és külső ellenőrzés kiegészítik egymást. Belső ellenőrzéssel lehet megállapítani egy modell robusztusságát, a külső ellenőrzés pedig a valós becslőképességre ad információt. 8. ábra Külső és belső ellenőrzés folyamatábrája [24] Belső ellenőrzés - Internal Validation A belső ellenőrzés folyamán a munkahalmazt különböző módszerekkel részhalmazokra osztják, majd ezeket a halmazokat felhasználva megállapítják az adott modell illesztő képességét, robusztusságát, becslőképességét. A belső ellenőrzés módszereit fel lehet használni modelloptimalizálás eredményeként kapott végső modell ellenőrzésére, valamint a modelloptimalizálás során változó-kiválasztásra. Már a molekulaleíró kiválasztás fázisában fontos törekedni arra, hogy inkább a modell becslőképessége legyen jó, mintsem illesztő-képessége. A legelterjedtebb belső ellenőrző technikák a bootstrap ellenőrzés, keresztellenőrzés, ismételt véletlen felosztás, Y-randomizálás. Munkám során az utóbbi két módszer alkalmaztam, így csak ezeket ismertetem részletesebben. A 3DET4W belső ellenőrző módszereinek alapja az ismételt tanulás/kiértékelés (ITK, Repeated Trainings/Evaluations, RTE), amely során a 36

38 munkahalmazt ismételten tanuló halmazra és kiértékelő halmazra osztja. A tanulóhalmazon történik adott molekulaleíró kombinációval az illesztés, a kiértékelő halmaz pedig a modell belső becslőképességének megállapítására szolgál. Ismételt véletlen felosztás (Repeated Randomly Split, RRS): A módszer a munkahalmazt ismételten és véletlenszerűen két egymást kizáró részhalmazra osztja, egy tanulóhalmazra és egy kiértékelő halmazra. A statisztikai eredmények függnek a felosztástól, így a megbízható eredményekhez többször ismételt felosztásokat szoktak végezni. Munkám során a felosztásokat leggyakrabban a munkahalmaz véletlen felezésével állítottam elő. Y-randomizálás (Y permutáció) módszerével meg lehet állapítani, hogy a modell által leírt összefüggés csak a véletlen következménye, vagy valóságos az összefüggés, valamint a modell robusztusságára is ad információt. A módszer lényege, hogy előállítanak olyan halmazokat, ahol a hatástani adatokat (függő változók) véletlenszerűen felcserélik, miközben a molekulaleírókat (független változók) változatlanul hagyják. A tesztelni kívánt modellt illesztik mindkét halmazra. Az illesztést vagy becslést jellemző statisztikai mérőszámokat összevetik egymással, ha szignifikáns a különbség, akkor nincs véletlen korreláció. Az eljárást általában többször megismétlik. A 3DET4W a következőképpen végzi az Y-randomizálást: az összekevert Y értékű és a nem összekevert, eredeti Y értékű halmazon nagyszámú tipikusan 1024 véletlen felezést hajt végre, majd a kérdéses modellt illeszti az egyes tanulóhalmazokra és becsli a hozzátartozó kiértékelő halmazokat. Minden egyes felosztásra kiszámítja választott statisztikai mérőszámot, végül pedig az összekevert és az eredeti Y adatokon számított mérőszámok eloszlásait hasonlítja össze χ 2 statisztika és kétmintás z-próba segítségével. A nullhipotézis az, hogy a két eloszlás egyforma, vagyis a modell ugyanúgy becsli a véletlen adatokat, mint valódiakat. Ha a két eloszlás között adott α szinten szignifikáns eltérés van, akkor a modell tartalmaz összefüggést az adott hatásra vonatkozóan. A kiértékelést α = 0,001 szinten szoktuk végezni. Ezen a két statisztikai próbán kívül a 3DET4W megadja a két 37

39 eloszláshoz tartozó Z értékeket, ezt a mérőszámot a HTS esszék jellemzéséből kölcsönöztük [53]. Az eredeti cikkben Zhang és munkatársai szerint, ha a Z értéke nulla alatt van, akkor az esszé elméleti minimális és maximális jelszintjeinek eloszlásai normális eloszlást feltételezve egymásba érnek, ezért az esszé használhatatlan. QSAR modellek véletlen korrelációjának jellemzésére a nulla Z értéket választottam kritikus értéknek. A kétmintás z-próba és a Z statisztika kiszámításakor feltételezzük a mérőszámok normális eloszlását a központi határeloszlás tétele alapján. A 3DET4W a következőképpen számítja Z értéket (14. egyenlet): 3SDo riginal + 3SDscrambled Z' = 1 original scrambled 14. egyenlet original = az eredeti halmazon végzett véletlen felezésekkel kapott statisztikai mérőszám eloszlásának átlaga scrambled = az összekevert halmazon végzett véletlen felezésekkel kapott statisztikai mérőszám eloszlásának átlaga SD original = az eredeti halmazon végzett véletlen felezésekkel kapott statisztikai mérőszám eloszlásának szórása SD scrambled = az összekevert halmazon végzett véletlen felezésekkel kapott statisztikai mérőszám eloszlásának szórása A 3DET4W változó-kiválasztásra VSS és a molekulaleíró kombináció bankból (MKB) történő legrobusztusabb molekulaleíró kombináció kiválasztásra használja a belső ellenőrzés módszereit. A véletlen korrelációs tesztet általában a külső ellenőrzés után szoktuk elvégezni az előszűrt bemenő halmazon Külső ellenőrzés - External validation Elméletileg nem lehet egy QSAR modell becslőképességét abszolút módon megadni, mivel nagymértékben függ az alkalmazott statisztikai eljárástól és a kiválasztott teszthalmaztól. Jelenleg a külső ellenőrzés az a módszer, amivel egy QSAR modell valós becslőképességéről többé-kevésbé képet lehet alkotni. Ehhez olyan 38

40 adathalmazra van szükség, ami nem vesz részt a modelloptimalizálás folyamatában (8. ábra). Külső ellenőrző halmazt kétféleképpen lehet előállítani: 1) a QSAR modellezéshez összegyűjtött adatokból egy részt elválasztanak erre a célra, 2) újonnan letesztelt molekulákat használnak fel. Gyakorlatban nehezebb új kísérleti adatokhoz jutni, ezért általában a rendelkezésre álló adathalmazt osztják fel különböző módszerekkel munkahalmazra és külső ellenőrző halmazra. A szétválasztás módja befolyásolja a statisztikai jellemzőket. A különböző megoldásokkal számos értekezés foglalkozik [24, 54, 55]. A szétválasztás kivitelezhető véletlenszerűen, csoportelemzéssel (cluster analysis), kísérlet-tervezés módszereivel. A külső ellenőrzést kiegészítő eljárásnak kell tekinteni a belső ellenőrzés mellett, mivel egy modell, ami külső halmazon jó becslőképességet mutat fontos, hogy robusztus is legyen. A 3DET4W-ben háromféleképpen lehet kiválasztani a külső ellenőrző halmaz pontjait. A kiválasztás történhet véletlenszerűen (RS, Random Selection), egyenletesen kiválasztva (UD, Uniformly Distributed) vagy ú.n. kerületi kiválasztással (P, Perimeter riented [54]. Az egyenletes felosztásnál a 3DET4W a duplex algoritmus [56] alapján hozza létre a két halmazt, majd ezekben az adatpontok cserélgetésével a minimax algoritmussal [57] maximalizálja a pontok közötti minimális távolságokat. A kerületi kiválasztás algoritmusa kikeresi az adott molekulaleíró térben a legnagyobb euklédeszi távolságra lévő molekula párokat, a párok közül az egyiket a külső ellenőrző halmazba, a másikat a munkahalmazba teszi. Feltételezésünk szerint az ily módon kiválasztott ellenőrző halmaz tudja modellezni a virtuális szűrésre használt molekulák halmazát oly módon, hogy a modell jobban extrapolációra kényszerül. Ezt a kiválasztási módszert tapasztalataim szerint csak nagy molekulaszám esetén célszerű használni Becslőképesség ellenőrzésére használt statisztikai mérőszámok A QSAR modellezésben használt statisztikai mérőszámokról meg kell jegyezni, hogy definícióik eltérhetnek egyes programokban [58], valamint az egyes elnevezések más definíciókat takarhatnak. Például a Q 2 definíciójában az y kiszámítása történhet az összes rendelkezésre álló mért értékből, vagyis a munkahalmazból (Tripos PLS, GLPE) vagy csak a tanulóhalmazban használt mért értékekből (3DET4W). Az SDEP kiszámítása történhet a kiértékelő halmaz (3DET4W) számossága vagy a 39

41 tanulóhalmaz [24] számossága alapján is. Az alábbiakban ismertetem a 3DET4W által használt statisztikai paramétereket és definíciójukat. Q 2 (R 2 CV, r 2 PRESS) a becslésben megmagyarázott variancia mértékét jelenti. Kiszámítása a 15. egyenlet alapján történik. ( i yi yˆ i / i ) 2 Q = 1 2 ( y y) 15. egyenlet y i = y i / i i i i-edik molekula mért adata 2 ˆ = i-edik molekula modell által számított adata (a modell az i-edik molekula nélkül készül) y = az illesztésben felhasznált molekulák mért adatainak átlaga, belső ellenőrzés esetén az aktuális tanulóhalmaz átlaga, külső ellenőrzés esetén a munkahalmaz átlaga. Ha egy modell Q 2 értéke nulla, az azt jelenti, hogy a modell becslőképessége megegyezik a legegyszerűbb modellel. Ha a Q 2 érték negatív, akkor rosszabb, ha pozitív a Q 2 érték akkor, jobb a modell becslőképessége a legegyszerűbb modellnél. A legegyszerűbb modell az, ha az aktuális munkahalmaz átlagát használnánk minden ismeretlen hatóértékű molekula becslésére. SDEP ( Standard Deviation of Error of Prediction ) a becslés hibájának szórása. Kiszámítása a 16. egyenlet alapján történik. SDEP = 16. egyenlet y i = y i / i ( y yˆ ) i i n 2 i / i i-edik molekula mért adata ˆ = i-edik molekula modell által számított adata (a modell az i-edik molekula nélkül készül) n = az aktuális kiértékelő vagy külső ellenőrző halmaz molekuláinak száma Spearman-féle rangkorreláció (r s ) a modell által számított és a mért adatok rangsora közötti összefüggés mértéke. Kiszámítása a 17. egyenlet alapján történik. 40

42 r s 6 = egyenlet y ri = y ri / i n i= 1 ( y n 3 ri y n 2 ri / i ) i-edik molekula mért adatának rangja ˆ = i-edik molekula modell által számított adatának rangja (a modell az i-edik molekula nélkül készül) n = az aktuális kiértékelő vagy külső ellenőrző halmaz molekuláinak száma Felső25%(TP25%) és Alsó25%(BTTM25%). Kifejezik, hogy a modell az ellenőrző halmaz felső illetve az alsó kvartilisből hány százalékot sorol be helyesen a megfelelő kvartilisbe Modelloptimalizálás változó-kiválasztás Tapasztalati összefüggések keresése közben mindig felmerül a molekulaleírók közötti választás kényszere, mivel minél kevesebb molekulaleíróval praktikus leírni a jelenséget. Emellett csak a lényeges molekulaleírókat (független változókat) érdemes szerepeltetni, amivel a zaj hatását és a véletlen korreláció esélyét lehet csökkenteni. Elvben egyszerű a változók kiválasztása: a molekulaleírókat az összes lehetséges módon a modellbe be kell léptetni, és minden modell esetén ki kell számítani a függő változókat, azután valamilyen statisztikai mérőszám alapján a végső modellt ki kell választani. Ez a módszer az összes lehetséges regressziós egyenlet módszere ( all possible regression ), ez a gyakorlatban nem járható út, ha nagyszámú molekulaleíró között kell válogatni, elsősorban a kombinatorikus robbanás miatt. A molekulaleíró kiválasztás (független változó-kiválasztás) tulajdonképpen optimalizálási feladat, amelyhez rendszerint sokváltozós szélsőérték kereső módszereket alkalmaznak [59]. Ebben a részfejezetben bemutatom a 3DET4W szoftverünk molekulaleíró kiválasztásra és függvényillesztésre használt módszereit Molekulaleírók becslőképessége A változó-kiválasztás folyamatában a deszkriptorok adott algoritmus szerinti válogatása a becslőképességük Predictive Ability Scoring, PAS alapján is történik. Egy molekulaleíró PAS értéke megegyezik adott modell és adott ITK ismételt 41

43 tanulás/kiértékelés ciklus esetén a hozzájárulási (CTR d,r ) tagok összegének 0-1 közé skálázott értékével (18. egyenlet). A skálázás a legnagyobb PAS érték abszolút értéke alapján történik. A hozzájárulás érték két tényező szorzata egy adott ITK felosztásra, az egyik tényező a modell matematikai szerkezetéből adódik (MD d ), a másik a modell becslőképességéből származó súlyozott paraméter (PRED d ) (19. egyenlet). A MD d érték kiszámítható a VSS ciklusán kívül is bármilyen modellre, így ezt az értéket fel lehet használni egy adott modellen belüli molekulaleírók fontosságának meghatározására. R PAS d = CTR d 18. egyenlet CTR 19. egyenlet r= 1, r CTR d,r = ITK egy adott lépésében a d molekulaleíró hozzájárulási értéke R = ITK ismétlések száma d, r = MD d PRED d MD d = a modell matematikai szerkezetéből származó tényező, adott molekulaleíró és ITK egy adott lépés esetében PRED d = ITK egy adott lépésében a modell becslőképességéből származó súlyozott paraméter Többszörös lineáris regressziós MLR modell esetében a MD d értéket 20. egyenlet szerint lehet kiszámítani: MD = d c d 20. egyenlet σ d c d = az MLR megoldási vektor adott molekulaleíróhoz tartozó koefficiensének abszolút értéke σ d = az adott molekulaleíró szórása Részleges legkisebb négyzetek módszerén PLS alapuló modell esetében a MD d értéket a 21. egyenlet szerint lehet kiszámítani: MD = d s d 21. egyenlet σ d 42

44 s d = a PLS megoldás MLR ekvivalens mátrix formájának adott molekulaleíróhoz tartozó koefficiensének abszolút értéke σ d = az adott molekulaleíró szórása Mesterséges ideghálózat A technikán alapuló modell esetében a MD d értéket a 22. egyenlet szerint lehet kiszámítani MD d = f d 22. egyenlet f d = a molekulaleíró, mint bemeneti neuronhoz tartozó súlyfaktor, amely a következő módon képződik. A bemeneti réteg elé helyezett extra réteg segítségével a bemeneti molekulaleírók abszolút értékét fokozatosan nullára csökkenti az algoritmus. Eközben a hiba visszafuttatásos back propagation, BP algoritmus helyreállítja a molekulaleírók szerepét, ennek eredményképpen a nem fontos molekulaleírókat következmények nélkül nullára lehet csökkenteni, míg a fontos molekulaleírók szorzóját a fontosságukkal arányosan növeli meg a BP algoritmus. Az veszi figyelembe, majd a f d érték számítása a korrekciós súlyfaktorok abszolút értékét algoritmus [60, 61]. Az A estén számított legnagyobb abszolút értékűre van skálázva az szórás, mivel a molekulaleírók - 1 és + 1 közé vannak skálázva. MD d értékben nem szerepel a A PRED d az optimalizálandó statisztikai mérőszám 0-1 közé skálázott értéke, az ITK egy adott felosztásának becslőképességét jellemzi. Kiszámítását Q 2, SDEP és rangkorreláció esetén a 23. egyenlet, a 24. egyenlet és a 25. egyenlet adja meg. TP25% és BTTM25% értékek önmagukban adják a PRED d értéket, nem szükséges skálázni őket. PRED 23. egyenlet ( 1) = Q2 d e PRED d = e 24. egyenlet PRED SDEP D D = adott ITK felosztás kiértékelő halmazának Y értékeinek terjedelme d 25. egyenlet = s 0,5* r + 0,5 43

45 Előszűrő módszerek Az előszűrő módszerekkel modell illesztés nélkül lehet a molekulaleírókat kiválasztani, számukat csökkenteni. A QSAR modellezésben jellemző, hogy viszonylag kevés számú molekulára, akár több ezer molekulaleírót számítanak ki. agyszámú molekulaleíróból kiindulva a fejlett VSS módszerek gyors számítógépeken is lassan végeznék el feladatukat. Ezenkívül nagy a valószínűsége, hogy a molekulaleírók nagyon korrelálnak egymással. Így az előszűrő technikák meggyorsíthatják a modellezés folyamatát, valamint csökkenthetik a X mátrixban felhalmozott felesleges információ mennyiségét. Az előszűrő módszerek lehetnek korreláció alapúak és információs elmélet alapúak. A vizsgálat történhet kizárólagosan a független változókat dimenziójában (X-X) vagy a független és függő változók (X-Y) korrelációjának tekintetében is D statisztika Ezen előszűrések alkalmazásakor csak a molekulaleírók X mátrixát veszi figyelembe a szoftver. Konstans molekulaleírók eltávolítása: Az adott adathalmazra konstans molekulaleírók a biológiai hatásról semmilyen statisztikailag elemezhető információt nem hordoznak, sőt numerikus instabilitást okozhatnak. Korrelált molekulaleírók eltávolítása: Egymással kollineáris R 2 ~ 1 molekulaleíró párok közül célszerű eltávolítani az egyiket, mivel redundáns információt tartalmaznak. A biológiai hatás szempontjából fontos molekulaleíró kollineáris lehet más molekulaleírókkal a rosszul megtervezett adathalmazokban pl. homológ sorok. A kollinearitás a MLR módszert is nagyon instabillá teszi [49]. A 3DET4W algoritmusa kiszámítja két normalizált molekulaleíró vektor skaláris szorzatát és a felhasználó által beállított E szorzatértéknél nagyobb értékkel rendelkező molekulaleíró párok közül az egyiket véletlenszerűen eldobja. A dolgozatomban szereplő összes esetben a beállított E érték 0,999 volt. Molekulaleírók eloszlásának hasonlósága a normál eloszláshoz: A normál eloszláshoz való hasonlóság ormal Distribution Likeness ellenőrzésére az alábbi képleletet használja a 3DET4W (27. egyenlet). 44

46 Első lépésként az algoritmus c db cellára osztja fel az adattartományt (26. egyenlet). Ezáltal egy c osztályt tartalmazó diszkrét eloszlás jön létre. n c = total egyenlet c = cellaszám DL = 27. egyenlet 1 2 ln(1 + χ + g 1 + g 2 ) χ = A vizsgált adatokból képzett diszkrét eloszlás, valamint az adatok átlagára és szórására illesztett hipotetikus normál eloszlásból képzett 2 diszkrét eloszlás összehasonlításából számított χ érték. g 1 = az eloszlás lapultsága (kurtosis) g 2 = az eloszlás ferdesége (skewness) Információtartalom szerinti szűrés: A Shannon féle információs entrópia elvét felhasználva a molekulaleírókat sorba lehet rendezni, majd a kevés információtartalmúak eltávolíthatók. Az algoritmus itt is először létrehozza a c osztályt tartalmazó diszkrét eloszlást (26. egyenlet), majd kiszámítja az egyes cellák előfordulási arányait (p i ) (28. egyenlet). ni p i = n total 28. egyenlet p i = előfordulási arány n i = adott cellában található molekulák száma n total = összes molekulaszám Az algoritmus a H információs entrópiát a 29. egyenlet alapján kiszámítja, majd skálázza a 0-100% közé. H = p i ln( p i ) 29. egyenlet Az információs entrópia 0 értéket vesz fel, ha a az összes molekula egyetlen cellában van benne, vagyis a molekulaleíró konstans. Maximális 45

47 az érteke akkor, ha minden cellába ugyanannyi molekula esik, azaz eloszlás egyenletes [62] D statisztika A 2D statisztikai modul a molekulaleírók sorba rendezésénél figyelembe veszi a hatástani adatokat is. Determinációs együttható szerinti szűrés: a szoftver kiszámítja a kérdéses molekulaleíró és a hatás között fennálló determinációs együttható R 2 értékét és sorba rendezi a molekulaleírókat. Az R 2 megmutatja hogy az x változó a y varianciájának hány százalékáért felelős (30. egyenlet) 2 r = s s 2 y' 2 y 30. egyenlet 2 s y' = y varianciájának az a része, amit az x megmagyaráz 2 s y = y teljes varianciája χ 2 statisztika szerinti szűrés: A 3DET4W minden egyes x-y párra kialakít egy p p dimenziós táblázatot és ide elhelyezi az egyes objektumokat (molekulákat). A p értéke a c összcellaszámhoz (26. egyenlet) legközelebb eső négyzetszám négyzetgyöke, ezáltal átlagosan minden cellába legalább 5 molekula kerülhet. Ezzel a módszerrel előáll egy p p dimenziós kontingenciatábla, amire a szoftver kiszámítja a χ 2 statisztikát, majd skálázza a maximális χ 2 értékre és sorba rendezi a molekulaleírókat Automatikus változó-kiválasztási algoritmusok Az automatikus módszerek használata megkönnyíti, felgyorsítja és hatékonyabbá teszi a molekulaleíró kiválasztást. A 3DET4W szoftverbe implementált algoritmus többszörös iterációval ki- és bekapcsolja az egyes molekulaleírókat. Minden kiválasztott molekulaleíró kombinációra lefut egy ismétléses tanulás/kiértékelés ITK ciklus, azaz minden adatfelosztásra kiszámítja az adott molekulaleíró kombináció koefficienseit az aktuális tanulóhalmazon a kiválasztott illesztési módszernek megfelelően majd megbecsli az aktuális kiértékelő halmaz molekuláira vonatkozó hatóértékeket, és kiszámítja az optimalizálandó statisztikai mérőszámot pl. Q 2, SDEP. A felosztások 46

48 áltagos mérőszáma alapján dönt, hogy az adott molekulaleíró kombinációra az MKB-be kerüljön-e vagy eldobásra. Az átlagos mérőszám és a modell koefficiensei alapján kiszámítja az egyes molekulaleírók PAS értékeit, majd kialakítja a következő tesztelendő molekulaleíró kombinációt Szekvenciális algoritmus - SA A 3DETW szekvenciális molekulaleíró kiválasztó algoritmusa a lépésenkénti lineáris regresszió módszerének általánosított változata. Az első modell egy molekulaleírót tartalmaz, majd folyamatosan kapcsolódnak be a további molekulaleírók. Ha az adott kombináció jobb ITK statisztikát produkál, mint az előző, akkor a molekulaleíró hozzáadódik az aktuális kombinációhoz. Miután az ITK statisztika további molekulaleíró hozzáadásával nem javítható, az algoritmus megpróbálja eltávolítani a molekulaleírókat kezdve a legkisebb PAS értékűekkel. A gyorsabb és egyszerűbb módszer Scout Scan Trial & Error, SSTE az eltávolítást minden molekulaleíróra egyszer próbálja ki. Az alaposabb algoritmus Sequential Trial & Error, STE addig fut, amíg egy olyan modellt nem talál, amelynek optimalizálandó mérőszáma nem javul sem egy molekulaleíró hozzáadásával a nem használt halmazból sem egy, sem két molekulaleíró elvételével. A páronkénti eltávolítás kissé enyhít a szekvenciális algoritmusok azon problémáját, hogy lokális optimumba jussanak Genetikus algoritmus - GA A genetikus algoritmus globális optimalizáló módszer, ahol az optimalizálandó probléma általánosságban genetikai leírásban kerül tárgyalásra. A kezdeti állapotban az algoritmus egy véletlen populációt állít elő, amely az adott probléma lehetséges megoldásait reprezentálja. A populáció tagjait kromoszómák írják le, ahol a gének az optimalizálandó probléma változóinak felelnek meg [4]. A QSAR modellezés esetében a kromoszómák bináris vektorok, amelyekben a 0-1 érték az adott molekulaleíró kibekapcsolt állapotát jelenti. Az aktuálisan kiértékelendő molekulaleíró kombináció az 1- es állapotú génekből áll elő. A kromoszómák generációkat alkotnak, azaz kiértékelendő modellek csoportját. A következő generációba kerülés esélye az adott modell optimalizálandó statisztikai mérőszámának függvénye. Az előző generáció kromoszómái csak részben töltik fel az új generációt, a további kromoszómák az 47

49 előzőekből képződnek genetikából átvett és logikai transzformációk eredményeképpen. A 3DET4W GA moduljában a generációkban lévő kromoszómák száma az adott munkahalmaz molekuláinak számával arányos. Kétféle algoritmus közül lehet választani a gyorsabb Genetic Algorithm, GA esetében kisebb a generációk tagszáma, a lassabb és alaposabb módszer Deep Search Genetic Algorithm, DSGA nagyobb tagszámú generációkat használ. Az szoftver az első generációt véletlenszerűen állítja elő, úgy, hogy az összes molekulaleíróinak p=0,5 valószínűsége van a bekapcsolódásra. Ezt a folyamatot addig folytatjuk, amíg egy előre rögzített generációszámot elérünk. Az új generációkba való kerülés elitizmuson alapszik, azaz előző 2n tagszámú generációból n legoptimálisabb átlagos statisztikai mérőszámmal rendelkező fog továbbkerülni. Az új generáció feltöltésére használt véletlenszerűen kiválasztott transzformációk a következők lehetnek 1) genetikai: pontmutáció, keresztezés 2) logikai: ÉS (AD), VAGY (R), EM (T), KIZÁRÓ VAGY (XR). A pontmutáció valószínűsége a korai generációkban kisebb a többi transzformációhoz képest, a későbbi generációk során az egyéb transzformációk valószínűsége csökken és a pontmutációé nő. Ez a technika elősegíti, hogy a késői generációkban ne változzanak túl nagyot a jól becslő modellek molekulaleíró kombinációja, mivel feltehetően ekkor már csak a modell finomítására van szükség. A PAS érték a pontmutáció esetén tölt be fontos szerepet, ugyanis a különböző molekulaleíró kombinációkban szereplő molekulaleírók PAS értékei összeadódnak, ami arányos a pontmutációban való bekapcsolódásuk esélyével. A GA akkor áll le, ha eléri az előre definiált maximális generációszámot, vagy ha egy előre megadott generációszám után sem jelenik meg jobban becslő modell Molekulaleíró kombináció bank - MKB Robusztus modellt adó molekulaleíró kombinációhoz úgy lehet jutni, ha az ismételt tanulás/kiértékelés ITK iterációinak számát nagyra állítjuk, azaz sok felosztás történik egy adott munkahalmazra. Ily módon, azonban nagyon meghosszabbodik a változó-kiválasztás VSS időtartama. A 3DET4W-ben a VSS során általában kisszámú iterációval végezzük az ITK-t, viszont az optimalizálandó statisztikai mérőszám átlagos skálázott értékét legalább elérő modellek molekulaleíró kombinációit egy ún. molekulaleíró kombináció bankba (MKB) gyűjtjük. Ebbe többféle 48

50 statisztikai mérőszám alapján optimalizált modellek molekulaleírói is kerülhetnek, ezért az összevethetőség kedvéért a mérőszámokat 0-1 érték közé skálázza a 3DET4W. A bekerülési határértéket a felhasználó adja meg, amit tapasztalataim szerint 0,4-0,5 között érdemes beállítani. A MKB-ből nagyszámú iterációval végzett ITK-val lehet a legrobusztusabb modellt adó molekulaleíró kombinációt kiválasztani. Egy adott MKB legrobusztusabb molekulaleíró kombinációja az, amelyik a legnagyobb átlagos statisztikai mérőszámot éri el a kiválasztás során. A modelloptimalizálás végső modellje a legrobosztusabb molekulaleírók a munkahalmaz összes elemére illesztett változata. Ezzel a modellel történik a külső ellenőrzés és a véletlen korrelációs (Y-randomizálás) teszt [63] Függvényillesztő módszerek A természettudományos folyamatok elméleti levezetéssel igazolt függvénykapcsolat használatával történő leírására ritkán van lehetőség (pl. Bouguer- Lambert-Beer törvény). Elméleti levezetés hiányában korreláció analízissel vagy regresszió analízissel lehet a kapcsolatot megállapítani két mennyiség között. A korreláció általában két mennyiség olyan függése egymástól, aminek valószínűségi jellege van. Amennyiben nem elégséges az együttváltozás meglétét vagy hiányát megállapító vizsgálat, hanem valamilyen egyenlettel megfogalmazható összefüggésre van szükség, regresszió-analízist kell végezni. Regresszió-analízis során a paraméterbecslés az elsődleges feladat, ezekhez különböző paraméterbecslő modelleket használnak [64] MLR Többszörös lineáris regresszió (Multiple Linear Regression) [64] Áltanosságban a lineáris regresszió a független változók X [ K] mátrixa és a függő változó(k) Y [ M] mátrixa között fennálló összefüggést adja meg, ahol = objektumok, molekulák száma, K = molekulaleírók száma (független változók), M = biológiai hatások (függő változók) száma. Ha K = 1 akkor egyváltozós lineáris regressziónak nevezik az összefüggést. Biológia problémákban általában az M = 1, ebben az esetben a regresszió a 31. egyenletnek megfelelően írható fel [65]. y = Xb + u 31. egyenlet y = a hatástani/biológia adatok [ 1] elemű oszlopvektora 49

51 X = molekulaleírók [ K] elemű mátrixa b = regressziós paraméter [K 1] elemű vektora u = a hatástani/biológia adatok (függő változó) [ 1] elemű reziduális vagy hibavektora Lineáris regresszió paramétereinek becslésére leggyakrabban a legkisebb négyzetek módszerét LKM, rdinary Least Squares, LS szokták alkalmazni [66], azaz a reziduális uˆ = y Xb vektorváltozó önmagával végzett skaláris szorzatát kell minimalizálni. Az ( X T X ) 1 X T mátrixot kalap, angolul hat mátrixnak nevezik, mivel megadja az y becslését. T min uˆ uˆ bˆ bˆ 32. egyenlet LKM = ( X T X ) 1 X T y A LKM-nek használatához bizonyos feltételeknek teljesülését meg kell vizsgálni [67]. 1. Linearitási feltétel: a modell paramétereiben lineáris. 2. Autokorrelálatlansági feltétel: E[u i, u j ] = 0, ha i j, azaz a különböző megfigyelésekhez tartozó reziduális változók korrelálatlanok. 3. Torzítatlansági feltétel: u i reziduális változók 0 várható értékűek. 4. Lineáris függetlenségi feltétel: x k változók lineárisan függetlenek. 5. Kiegyenlítő eljárás szükségessége feltétel: x k változók száma kisebb, mint a megfigyelések száma, azaz > K. Ha = K, akkor egy megoldás létezik. Ha < K, akkor végtelen sok megoldás létezik. 6. Független változók hibamentességére vonatkozó feltétel: x k molekulaleírók nem sztochasztikusak, azaz tetszőleges értékre hibamentesen beállíthatók. 7. Homoszkedaszticitási feltétel: E[u i, u j ] = σ 2, ha i j, azaz a szórások minden megfigyelésnél azonosak. 8. ormalitási feltétel: az u vektor u i elemei egymástól független, Gauss eloszlású valószínűségi változók. 50

52 Igazolható, hogy ha az első hat feltétel teljesül, az LKM becslő torzítatlan becslését adja a paramétereknek. Ha a hetedik feltétel is teljesül, akkor az LKM becslő a torzítatlan becslők közül minimális varianciával rendelkező becslést ad. Ha a nyolcadik feltétel is teljesül, a becsléseket lehet statisztikailag pl. F, t próbával jellemezni. Az ( X T X ) mátrixot kovarianciamátrixnak (C) is szokták nevezni. A 32. egyenlet csak akkor oldható meg, ha C mátrixot lehet invertálni. A Moore-Penrose általánosított mátrix inverz (pszeudoinverz) segítségével a 32. egyenlet formálisan mindig megoldható (33. egyenlet). bˆ + T = C X y = ( X X ) 33. egyenlet T + C + : pszeudoinverz X T y Az is igazolható, hogy a 33. egyenlet helyett elég a következő egyenletet megoldani: bˆ = X + y 34. egyenlet A 33. egyenlet és 34. egyenlet csak formális megoldást szolgáltat a regressziós feladatra, az X + mátrixot konkrétan meg kell határozni. Az általános inverz konkrét meghatározására többféle módszer létezik. A PCR-t és a PLS-t olyan módszereknek lehet tekinteni, amelyek konkrét X + mátrixot állítanak elő, bár különböző becsléseket adnak a bˆ -re. A 3DET4W-be implementált MLR modul a megoldásvektort a Moore-Penrose általánosított mátrix inverz segítségével számolja ki, így tetszőleges dimenziójú mátrixokra lehet alkalmazni az LKM-t. Abban az esetben, ha > K, azaz több a molekula, mint a molekulaleíró, akkor a klasszikus LKM megoldást szolgáltatja. Ha < K, azaz a molekulaleírók száma nagyobb, mint a mért adatoké, akkor a végtelen sok megoldás közül azt a megoldást adja vissza, amelynek a legkisebb a Frobenius normája [68]. Az m sorú n oszlopú A mátrix Frobenius normája A megegyezik elemei F abszolút értékeinek a, négyzetösszegének négyzetgyökével (35. egyenlet). i j m A F = a i 35. egyenlet n i= 1 j= 1, j 2 51

53 PLS Részleges legkisebb négyzetek módszere (Partial Least Squares) [59] PLS olyan módszer, amely hatékonyan képes kezelni olyan regressziós problémákat, ahol a molekulaleírók száma több, mint a megfigyelések (hatástani adatok) száma, ilyen esetekben a molekulaleírók gyakran kollineárisak. A PLS képes kezelni bizonyos mennyiségű kb. 10% hiányzó változót is. A PLS olyan esetekben is használható, amikor nem egy hatástani adatokból álló y vektort kell számítani, hanem pl. hatásprofilokat, spektrumokat, vagyis egy Y mátrixot. A PLS úgy adja meg a függvénykapcsolatot az X molekulaleíró mátrix és az Y hatástani adatok mátrixa között, hogy az X mátrixot T mátrixba, az Y mátrixot U mátrixba vetíti, majd megkeresi az összefüggést a T mátrix t l és az U mátrix u l oszlopvektorai között [69]. A PLS matematikailag egy mátrixtranszformáció, amelyben a molekulaleírók X adatmátrixát három mátrix szorzatára bontják. X T Q V T = L L L K 36. egyenlet L = X mátrix rangja Q = T T XV T = XVQ -1 A 34. egyenletnek megfelelő X + általánosított inverzt a 37. egyenlet adja meg. Ha L = akkor bˆ PLS = bˆ LKM, vagyis, ha a PLS rejtett változóinak/komponenseinek száma megegyezik a molekulaleírók számával, akkor a PLS modell megegyezik az MLR (LKM) modellel. X + = VQ 37. egyenlet 1 T T A paraméterek PLS becslése (38. egyenlet, 39. egyenlet) ˆ 1 PLS = VQ b K 38. egyenlet T T y y = biológiai hatások vektora L 52

54 bˆ PLS 39. egyenlet T = ( U U ) U = TQ 1 U T y y = biológiai hatások vektora Az X mátrix kifejezhető az alábbi egyenlettel (40. egyenlet), ahol U oszlopai a PLS koordináták, V T sorai, vagyis V oszlopai pedig a PLS bázisvektorai X = UV T 40. egyenlet A PLS modell másik megközelítése [70], ha magyarázó változók X mátrixát és a hatások Y mátrixát két-két mátrix szorzatára bontjuk a 41. egyenletnek és a 42. egyenletnek megfelelően. Ezeket az egyenleteket külső összefüggéseknek nevezik. Az egy mátrixhoz tartozó rejtett változók/komponensek korrelálatlanok, azaz a mátrix oszlopai ortogonálisak. A PLS tehát összegzi a x k változókat L db t l ortogonális rejtett változóba, ezek alkotják a T [ L] mátrixot. Az összegzés az X mátrix projekciója egy L dimenziós hipersíkba, ily módon jó közelítése az X-nek. Ha több biológiai hatást számítanak, azaz M>1 akkor a PLS egyidejűleg összegzi az Y mátrixot L db u l ortogonális rejtett változóba. X = T P, K T, L L, K 41. egyenlet Y, M = U V T, L L, M 42. egyenlet + + E, K F, M K = molekulaleírók száma = molekulák/ megfigyelések száma M = biológiai hatások (függő változók) száma E = X-re vonatkoztatott reziduális hibatag F = Y-ra vonatkoztatott reziduális hibatag T = molekulaleírók rejtett változóinak mátrixa (scores) U = biológiai hatások (függő változók) rejtett változóinak mátrixa (scores) P = T mátrixhoz tartozó együtthatómátrix (loadings) V = V mátrixhoz tartozó együtthatómátrix (loadings) A két adatmátrix rejtett változóin keresztül megvalósuló függvénykapcsolatot a 43. egyenlet írja le, amit belső összefüggésnek neveznek. A függvénykapcsolat lehetne 53

55 nemlineáris is, sőt ki is dolgoztak erre eljárásokat, azonban az 1990-es évek végére az újabb nemlineáris módszerek pl. a mesterséges ideghálózatok módszere szinte teljesen kiszorította a nemlineáris PLS-t. u = q t + h, l l, l, l 43. egyenlet, L, l u l = Y l-edik rejtett változója t l = X l-edik rejtett változója q ll = a számítandó l-edik regressziós együttható h l = l-edik hibatag A 43. egyenlet mátrixformában is fel lehet írni (44. egyenlet). U = T Q + H, L L, L 44. egyenlet, L A 42. egyenletből és 44. egyenletből a következő egyenlet alapján lehet kiszámítani az Y-t. Y, M = T 45. egyenlet QV T, L L, L L, M + F, K A Mesterséges ideghálózatok (Artificial eural etwork) 1986-ban robbant be a tudományos köztudatba a mesterséges ideghálózatok nevű nemlineáris közelítő eljárás. Ezzel a módszerrel lehetővé vált az olyan sokváltozós folyamatok matematikai modellezése, melyeknek elméleti háttere nem tisztázott, viszont elegendő empirikus tapasztalat és mérési eredmény állt rendelkezésre, valamint a függő és független változók között nemlineáris összefüggések állnak fenn [71]. 9. ábra mesterséges idegsejt-egység. A mesterséges ideghálózatok modell neuronokból épülnek fel (9. ábra), amelyek utánozzák a természetes neuronok négy alapvető funkcióját: bemenetek fogadása 54

56 dendritek, bemenetek feldolgozása szóma, bemenetek kimenetté alakítása axon, kapcsolatok létrehozása szinapszisok. A kapcsolódási helyek működését egy módosítható hatékonysági tényező, a súly fejezi ki. A mesterséges neuronok kimenő jelét egyetlen szám fejezi ki, amely az idegsejt aktivitásának mértékét jelöli. A modell idegsejt-egységek egyetlen kimenő jellé alakítják át a beérkező impulzusok összességét, és azt továbbítják a többi egység felé [71]. Az átalakítás két lépésből áll 1. Minden beérkező jel (x 0 x n ) a hozzá tartozó szinapszis hatékonysága szerinti súllyal (w 0 w n ) szorzódik, majd a súlyozott értékek összeadásával kialakul az eredő bemeneti érték (input, I) a 46. egyenlet alapján, ahol w ji a j-edik és az i-edik egység közötti összeköttetés súlya, x i az i-edik beérkező jel értéke. I = Σ w i ji 46. egyenlet x i 2. Második lépésben a modell-egység a megfelelő átalakító függvény segítségével kiszámítja a kimenti jel (output) értékét (47. egyenlet) [71]. y i = f(i) 47. egyenlet Egy A viselkedését a modell egységek kapcsolódási módja, a súlytényezők valamint az átalakító függvény határozza meg. A neuronok kapcsolódási módja az egymásra gyakorolt hatásukat határozza meg, a szinapszisokhoz rendelt súlyok pedig a befolyás erősségét. A mesterséges ideghálózatok legfőbb tulajdonsága az alkalmazkodási, tanulási képesség, ez tulajdonképpen olyan paraméter(súly) vektorok keresését jelenti, amelyekkel a hálózat valamely függvény minél jobb közelítésére lesz képes. Az A-ek mesterséges neuronok csoportosulása, ami legtöbb esetben rétegekben jelenik meg, a létrejött rétegek egymáshoz kapcsolódnak. Rétegek közötti kapcsolatok lehetnek: 1) teljesen összekapcsolt ( fully connected ), amikor minden neuron az első rétegen hozzá van kapcsolva a második réteg minden neuronjához, 2) részelegesen összekapcsolt ( partially connected ), amikor az első réteg neuronjai nem az összes második rétegen lévő neuronhoz vannak hozzákapcsolva, 3) előre adagolás ( feed forward ) esetén az első réteg neuronjai a kimenetüket a második rétegnek küldik, azonban nincs semmiféle visszacsatolás a második rétegtől, 4) kétirányú kapcsolat ( bi-directional ) esetén a második réteg neuronjainak kimeneti 55

57 értékei visszacsatolnak az első réteg neuronjaihoz [71,72]. A mesterséges ideghálózatokat lehet tanító algoritmusaik szerint csoportosítani: 1) felügyelt (ellenőrzött) tanítású hálózat, 2) nem felügyelt (nem ellenőrzött) tanítású hálózat, 3) analitikus tanítású hálózat Felügyelt tanulású hálózatok Munkám során csak felügyelt tanulású hálózattal dolgoztam, így ezzel részletesebben foglakozom. A hálózat háromféle egységből, illetve annak rétegeiből épülhet fel. A bemeneti egységek rétege a rejtett egységek rétegével áll kapcsolatban, a rejtett réteg pedig a kimeneti egységek rétegével. Mesterséges idegsejtekből tetszőleges elrendezésű hálózat építhető fel. A leggyakrabban használt felügyelt tanítású mesterséges ideghálózatok három vagy négy réteggel rendelkeznek (10. ábra). 10. ábra Háromrétegű, előre adagoló, felügyelt mesterséges hálózat [40]. A bementi egységek rétege a hálózatba táplált nyers információnak felel meg QSAR modellezés esetében ezek a molekulaleírók. A rejtett réteg neuronjainak tevékenységét a bemeneti egységek működése, valamint a két réteg közötti összeköttetésekhez rendelt súlyok határozzák meg. A kimeneti egységek tevékenységét a rejtett réteg neuronjai, valamint a rejtett és kimeneti réteg közötti kapcsolatok súlyai határozzák meg. A 47. egyenletben szereplő átalakító függvény lehet: szigmoid, tangens hiperbolikusz, lépcsős vagy valamilyen lineáris függvény. Kémiai problémákra leggyakrabban a szigmoid vagy tangens hiperbolikusz (48. egyenlet) függvényt szokták alkalmazni, ahol I a bemenő jelek súlyozott összege, a az ún. erősítés. e e e + e I / a I / a f ( I) = I / a I / a 48. egyenlet 56

58 Az A illesztés során az X 0 bemeneti mátrixhoz olyan W súlymátrix keresése a cél, ami legpontosabban adja vissza az ismert Y 0 kimeneti mátrixot. lyan W súlymátrix, ami minden x 0,n -t y 0,n -be visz át általában nem létezik, viszont egy vagy több olyan W található ami a 49. egyenletben leírt hibafüggvényt minimalizálja. E = Y0 F( W, X 0 ) 49. egyenlet A felügyelt ideghálózatok leggyakrabban használt tanítási módszere a hiba visszafuttatásos ( back-propagation ) algoritmus [73]. Az algoritmus működéséhez példákra van szükség, amivel az A betanítása történik. A hiba visszafuttatásos algoritmus alkalmazása esetén, a betanítás során minden egyes kapcsolat súlytényezőjét annak arányában kell változtatni, amilyen mértékben ez a módosítás a hiba csökkenésére kihat. A rejtett réteg(ek)ben lévő csomópontok számát előre nem lehet megadni, ha túl kevés, akkor az illeszkedés rossz lesz, ha túl nagy, akkor túlillesztés következik be. A csomópontok számát vagy a felhasználó állítja be, vagy a szoftver határozza meg próbálgatással. A 3DET4W programban implementált A jellemzői: három rétegű, előre adagoló, teljesen összekötött, hiba visszafuttatásos tanító algoritmus, a rejtett rétegben tangens hiperbolikusz átalakító függvény van. Az ilyen felépítésű hálózatok képesek illeszteni szinte bármilyen nem-lineáris hiperfelszínt az általános közelítés tétele alapján ( universal approximation theorem ). A tétel kimondja, hogy a teljesen összekapcsolt, háromrétegű, előre adagoló mesterséges ideghálózatok, nemlineáris átalakító függvénnyel képesek tetszőleges pontossággal közelíteni bármilyen függvényt, amely véges számú szakadást tartalmaz [60, 74]. A szoftverbe implementált A a számítás egyszerűsítése végett a tanulási fázis alatt mind a molekulaleírókat bemenő réteg mind a hatástani adatokat kimenő réteg - 1 és + 1 közé skálázza. A 3DET4W a neurális hálózatot mindig konvergenciáig futtatja [75], ennek felgyorsítására az újabb szoftververziók a Levenberg-Marquardt algoritmust használják. A Levenberg- Marquardt algoritmus egy iteratív módszer, amivel olyan függvények minimumát lehet megtalálni, amelyek nem-lineáris függvények négyzetösszegeként vannak kifejezve [76]. 57

59 3.4. IMAP esszé optimalizálás 2005-ben lehetőségem nyílt 2,5 hónapot eltölteni a müncheni Axxima Pharmaceuticals AG, Assay Development and Screening laborjában. Itt elsajátíthattam az alapelveket és betekintést kaptam arról, hogyan zajlik a HTS esszéfejlesztés és tesztelés IMAP módszerrel, egy kinázokkal foglalkozó közepes biotechnológiai cégnél. Hazatérésem után a kutatócsoportunkban lehetőségem nyílt arra, hogy az ott megismert IMAP technológia alapján megszervezzem a biokémiai esszék beállítását kináz enzimekre, valamint a vegyületek tesztelését kialakítsam Elméleti háttér Az IMAP technológia alapelve, hogy nanorészecskékhez koordinációs komplexszel rögzített (immobilizált) fémionokhoz (M III ) megfelelően nagy só koncentráció (ionerősség) esetén nagy affinitással kötődik a foszfát csoport. Az IMAP kötő reagens komplexet képez a kináz által katalizált reakció során a peptid szubsztrátra kötődő foszfát csoporttal. A szubsztrátok fluoreszcens festékkel vannak megjelölve. Az általunk használt peptid szubsztrátokon 5-karboxifluoreszcein (5-FAM) jelzés van. A kötődés lecsökkenti a jelölt peptid szubsztrát molekuláris mozgását, ami a mért fluoreszcencia polarizáció (FP) értékének növekedésével detektálható. Ez az eljárás ellentétben az ellenanyag alapú kináz esszékkel a szubsztrát peptid megválasztásának nagyobb szabadsága miatt a kinázok szélesebb körének a tesztelésére alkalmas, elsősorban a szerin/treonin kinázok területén. Az IMAP kötő oldat kétféle gyári pufferből áll, és ebben a pufferben van feloldva IMAP kötő reagens megfelelő hígításban. 58

60 11. ábra IMAP esszé működési elve IMAP esszé általános menete 1. jelzett szubsztrátot és ATP-t tartalmazó oldat pipettázás 2. tesztelendő vegyület pipettázás 3. kináz pipettázás 4. kináz inkubációs idő 5. IMAP kötő oldat pipettázás 6. IMAP inkubációs idő 7. FP mérés (Ex: nm, Em: nm) Esszék statisztikai jellemzői A futtatott esszéket az alábbi statisztikai mérőszámokkal jellemezzük: 1. S: jelkülönbség: a minimum kontroll/háttér átlagos polarizációs értéke (nincs kináz), és a maximum kontroll átlagos polarizációs értéke (nincs inhibitor) közötti különbség. Az optimalizálás során a jelkülönbséget 100 mp körüli értékre szoktuk beállítani. 2. S/B: jel/háttér: a átlagos maximum jelszint és átlagos minimum jelszint/háttér aránya. Problémája, hogy nem tartalmaz információt a szórásról. (Minél nagyobb annál jobb.) 3. S/: jel/zaj arány (50. egyenlet) Megadja, hogy a jel mennyire tér el a háttértől. 59

61 max jel min S / = SD 50. egyenlet min jel jel max jel min jel = elméleti maximális jelszint (nincs inhibitor) átlagos értéke = elméleti minimális jelszint/háttér (nincs kináz) átlagos értéke SD min jel = elméleti minimális jelszint/háttér szórása 4. Z : Zhang és munkatársai által bevezetett HTS esszék statisztikai mérőszáma [53] (51. egyenlet). 3SD Z' = 1 max 51. egyenlet max jel jel + 3SD min min jel jel max jel min jel = elméleti maximális jelszint (nincs inhibitor) átlagos értéke = elméleti minimális jelszint/háttér (nincs kináz) átlagos értéke SD max jel SD min jel = elméleti maximális jelszint/háttér szórása = elméleti minimális jelszint/háttér szórása IMAP esszé optimalizálás A optimalizálás hat lépésből áll. Minden egyes lépés egy előre meghatározott kísérlet. Az általános protokoll kitöltetlen Excel fájlokból, ún. sablonokból áll, amit az adott kináznak megfelelően kell kitölteni, ekkor jön létre az adott optimalizáló lépésre és kinázra vonatkozó speciális protokoll. Minden sablonon vannak kötelezően kitöltendő mezők, pl. kináz neve, stock koncentrációja és szabadon változtatható mezők, pl. legnagyobb kináz koncentráció, ATP koncentráció. A Excel sablon függvényei a kitöltés után automatikusan kiszámítják a pipettázandó mennyiségeket, amivel tulajdonképpen elkészül a kísérleti protokoll. Minimum kontrollként: nincs kináz vagy IMAP először. Az IMAP először minimum kontrollként való ellenőrzése információt szolgáltat a gyöngyökhöz való aspecifikus kötődésről. Aspecifikusan kötődhet: 1) nem foszforilált 5FAM-szubsztrát, elsősorban akkor ha sok negatívan töltött aminosavat tartalmaz, 2) nagy koncentrációban van jelen az ATP. Az IMAP először jel optimális esetben kb. 60

62 megegyezik a nincs kináz jellel. Maximum kontrollként azokat a reakcióedényeket használjuk, ahová nem adunk inhibitort. Az optimalizálás kis térfogatú (35 µl), fekete, polisztirol, 384 lyukú mikrolemezen történik (Corning 3676) történik. Az esszé végtérfogata 8 µl. A fluoreszcencia polarizáció (FP) mérését a Molecular Devices Analyst GT készülékével végezzük. ptimalizáló lépések: 1. S1 - Kezdeti paraméterek meghatározása 2. S2 - IMAP kötő oldat optimalizálás 3. S3 - kináz puffer optimalizálás 4. S4 - ATP K m, app meghatározás 5. S5 - Reakcióidő és kináz koncentráció meghatározása 6. S6 - ptimalizált esszé validálása ismert inhibitorokkal 3.5. Tesztelendő vegyületek logisztikája A tesztelendő vegyületek logisztikája az egyik kulcsfontosságú eleme egy jól működő tesztelő részlegnek. A vegyület-mintakezelés a gyógyszerkutatás minden fázisában fontos, hogy megbízható adatokhoz jussunk. Megfelelően megtervezett útvonalon kell haladni a vegyületeknek a különböző fázisok között, valamint a minták kezelésére vonatkozóan protokollokat kell lefektetni. A vegyületlogisztikai részlegnek szorosan kell csatlakoznia a vállalati adatbázishoz. A vegyületek a kutatási folyamatokban különböző halmazállapotokban és formátumokban léteznek. Ezek nyomon követése az adatbázisban kiemelkedő fontosságú. A nyomkövetésre ma a legelterjedtebb módszer a vonalkódok használata. Az általunk használt logisztikai rendszerben először a vegyületeket szilárd (por) formában tároljuk és regisztráljuk az adatbázisban. A vegyületek könnyebb kezelhetősége miatt később praktikusabb oldatban tárolni azokat. Az oldásra használt oldószer a legtöbb esetben 100% DMS. Annak ellenére, hogy folyadék fázisban könnyebben bomolhatnak a vegyületek és eltarthatóságuk rövidebb, jelenleg a legtöbb 61

63 gyógyszergyárban folyamatos minőségellenőrzés mellett ilyen módon is tárolják a vegyületeket. Az oldat vegyülettárunkat (LLS, Liquid Library Stock) a Micronic BV által forgalmazott 2D vonalkóddal ellátott mintatartó csövekben tároljuk, a csövek 96-lyukú tárolókban helyezkednek el, a csőtárolókat szintén vonalkóddal látjuk el. A 2D vonalkódok beolvasására és azonosításra két lehetőség van, az egyik egy lapolvasóval összekapcsolt azonosító szoftver, ami a 96-lyukú csőtárolókat egyszerre képes beolvasni, a másik lehetőség egy részben általam tervezett egyedi csőbeolvasó. Ez tulajdonképpen egy kereskedelmi forgalomban kapható Dalatogic Gryphon D432E vonalkódolvasó és a köré épített henger alakú váz, amelynek a tetején kialakított nyílásba lehet helyezni egyesével a 2D vonalkódos csöveket. Az LLS-ból készülhetnek el tesztelésre a vegyületeket tartalmazó lemezek vagy egyéb céllal történő kimérések. Az egyik legkritikusabb lépés az oldat vegyülettár készítésekor a szilárd anyagok kimérése a 2D csövekbe, mivel ezután a cső 2D vonalkódja alapján történik az azonosításuk. Ennek a folyamatnak lebonyolítására készítettem egy számítógéppel felügyelt kimérő berendezést. A berendezés három egységből áll: egy standard PC, amin fut a mérést felügyelő alkalmazás, az előbb említett egyedi 2D csőbeolvasó és egy Sartorius CP225D mérleg. A felügyelő Microsoft Excel alkalmazás DDE kapcsolaton keresztül meghívja a Tal Technologies Inc. Software Wedge for Windows alkalmazását, amely a PC soros kapuin keresztül kommunikál a vonalkódolvasóval és a mérleggel. 62

64 4. EREDMÉYEK ÉS MEGBESZÉLÉS 4.1. Elektronikus könyvtár és szerkezeti-hatástani adatbázis Részt vettem a kinázok területére fókuszáló elektronikus könyvtárunk megtervezésében és feltöltésében, ami jelenleg 3157 publikációt tartalmaz, ezek közül kb. 500 publikáció feltöltését végeztem el. Adatbázisunkban a következő keresési lehetőségek adottak: gyorskeresés (publikáció címe, szerzők, megjelenés éve, első oldal száma szerint) vagy teljes szövegű keresés. Egy publikáció meghatározott mezői tetszőleges formában exportálhatók referenciaként pl. cím, szerzők neve, folyóirat címe, kiadási év, stb. Az adatbázisunkban lévő átlagosan nagyobb, mint öt cpic 50 értékkel rendelkező molekulák diverzitása a CHED szoftver számítása alapján 0,803. Részt vettem a kinázok területére fókuszáló szerkezeti-hatástani adatbázisunk megtervezésében és feltöltésében, ami jelenleg adatrekordot tartalmaz, kb adatrekord feltöltését és több száz ellenőrzését végeztem el Megbeszélés Az elektronikus könyvtárunk jól felépített, könnyen bővíthető, jól kereshető, jól exportálható, ezért alkalmas az összegyűjtött szakirodalom hatékony keresésre, a referenciák különböző módon való kinyerhetőségével pedig segítséget nyújt cikkírásnál. A szerkezeti-hatástani adatbázis képes kiszolgálni a vegyészek igényeit a racionális hatóanyag-tervezéshez, egyszerűbb kvalitatív szerkezet hatás összefüggések felállításához, emellett QSAR modellezéshez is könnyedén lehet adatokat kigyűjteni belőle Külső ellenőrzőhalmaz kiválasztása Ebben a részfejezetben bemutatott eredmények 2003-ban a Molecular Diversity folyóiratban jelentek meg [54]. A QSAR modellek virtuális szűrésre való felhasználhatóságának megállapítására szolgáló egyik módszer a külső ellenőrzés. Fontos, hogy a külső ellenőrző halmaz megfelelő módon legyen kiválasztva. A közlemény alapját képező számításban megvizsgáltuk, hogy a szoftverünk által ismert háromféle külső ellenőrző halmaz 63

65 kiválasztási módszer hogyan befolyásolja a modellezés eredményét. A vizsgálat elvégzéséhez az akkor rendelkezésünkre álló legnagyobb és jól modellezhető adathalmazt választottuk: 1381 molekulát és hozzátartozó vízoldhatóság adatot [77]. A molekulákra kiszámítottam 891 db 0D, 1D, 2D Dragon 4.1 molekulaleírót, majd a konstans értékek és kollineáris molekulaleírók eltávolítása után, további 1D és 2D szűréssekkel 98 darabra csökkentettem a molekulaleírók számát. Az így előállt mátrix volt a kiindulási alaphalmaz. Ezt a halmazt véletlenszerűen kétfelé osztottam, ez a felosztás háromféle arányban történt meg: 2,5%-97,5%, 5%-95%, 10%-90%. A kisebbik halmaz lett a modellkészítő halmaz, a nagyobb pedig az ún. kémiai univerzum halmaz. Ebben a számításban egy adott modellkészítő halmaz tulajdonképpen megfelel a 4. ábrán bemutatott bemenő adathalmaznak. Az egyes felosztásokhoz tartozó modellkészítő halmazokat tovább osztottam munkahalmazra és külső ellenőrző halmazra. A felosztás (75%-25%) háromféleképpen történt meg: véletlenszerűen (RS), egyenletesen kiválasztva (UD) vagy ú.n. kerületi kiválasztással (P). A modell optimalizálást PLS módszerrel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám az SDEP volt. A számítások során a 0,6 átlagos skálázott SDEP értéknél jobban becslő modellek molekulaleíróit a modellkészítő halmaz felosztásaiként és külső ellenőrző halmazonként MKB-kbe gyűjtöttem, azaz az összes VSS lefutása után végén 9 MKB volt. A MKB-kből a végső modell kiválasztása a különböző módon kiválasztott külső ellenőrző halmazokkal történt, oly módon hogy az adott MKB minden molekulaleíró kombinációját illesztette a szoftver a munkahalmazra, majd megbecsülte a külső ellenőrző halmazt. A legkisebb SDEP értékkel rendelkező végső modellel pedig megbecsültem a kémiai univerzum halmazt és kiszámítottam az SDEP kémiai univerzum értékeket. A számítás folyamatábráját a 12. ábra szemlélteti. A számítások eredményeit a 13. ábra és a 4. táblázat foglalja össze. 64

66 12. ábra Külső ellenőrző halmaz kiválasztásának módját meghatározó számítás folyamatábrája Átlag SDEP P RS UD Külső ellenőrző halmaz kiválasztási módszer MBS 2.5% MBS 5% MBS 10% 13. ábra A két számítási folyamat kémia univerzum becslésének átlagos SDEP értékének változása a különböző kiválasztási módszerek szerint. MBS: modellkészítő halmaz, P: kerületi kiválasztás, RS: véletlen kiválasztás, UD: egyenletes kiválasztás. 65

67 4. táblázat A különböző módon kiválasztott külső ellenőrző halmazok becslésének SDEP értékei kémiai univerzum halmazokon. MBS mérete EVS kiválasztási módszer 2.5% 5% 10% P RS UD P RS UD P RS UD a SDEP b SDEP Átlagos SDEP Megbeszélés A 13. ábrán látható, hogy a különböző módokon készített külső ellenőrző halmazok által kiválasztott végső modellek SDEP kémiai univerzum értékei között nincs túl nagy különbség. Megállapítható azonban, hogy a 97,5%-2,5%-os felosztás esetében a kerületi kiválasztással (P) előállított ellenőrző halmazon a legkisebb becslési hibával rendelkező modellel lehetett a kémiai univerzum molekuláit a legkisebb hibával becsülni. A 95%-5%-os, 90%-10%-os esetekben a modellkészítő halmaz már valószínűleg nagyon hasonló volt a kémiai univerzum halmazokhoz, így nem P alapján történt kiválasztás adta a legjobb eredményt. A számítás eredményeit a későbbiekben több más modell alapján újraértékelve a modellkészítő halmazok számosságától függően a véletlen kiválasztás adta a legegyenletesebb eredményt, így a további számításaimban ezt a kiválasztást használtam Kinázgátlók QSAR modellezése Modellezési tapasztalataim alapján ha a külső ellenőrzés Q 2 értéke 0,4, valamint SDEP értéke 0,8-1,4 között van, akkor a modell megbízhatóan használható az alkalmazhatósági tartományon belül lévő ismeretlen molekulák becslésére, feltéve, ha a modell nem véletlen korreláció eredménye. A modellekben felhasznált molekulaleírók közül némelyeknek fizikai-kémiai jelentése, némelyeknek topológiai jelentése van, azonban számos molekulaleíróinak nincs könnyen megfogható értelme, ezek ú.n. absztrakt molekulaleírók. Jelenleg a QSAR modellezés egyik hiányossága ezeknek a molekulaleíróknak az interpretálása és ábrázolása, valamint új molekulák tervezésében való alkalmazhatóságuk. 66

68 EGFR gátlás modell Ebben a részfejezetben bemutatott eredmények 2006-ban a Current Medicinal Chemistry folyóiratban jelentek meg [63]. Az EGF receptor túlzott mértékű expressziója (overexpression) és/vagy pontmutációja a kináz doménban részt vesz a karcinogenzeis különböző folyamataiban pl. sejtproliferáció, apoptózis gátlás, angiogenezis, sejtmotilitás változás és metasztázis képzés. Valószínűsíthetően az EGFR rendellenes működése által okozott betegségek: vastagbélrák, nem-kissejtes tüdő tumor, glioblasztóma multiform, különböző szilárd tumorok [78]. Szerkezeti-hatástani adatbázisunkból kigyűjtöttük az EGFR kinázra vonatkozó adatokat, majd a következő szűrőfeltételeket alkalmaztam: a hatástani adat típusa IC 50 legyen, az EGF receptor A431-es sejtvonalból legyen izolálva, ne tartalmazzon autofoszforilációs méréseket, csak számszerűsíthető értékkel megadott hatástani adatokat tartalmazzon. Ezekkel a feltételekkel 623 különböző molekulát és hozzátartozó IC 50 adatot gyűjtöttem ki [63]. Az kigyűjtött molekulák halmazának diverzitása a CHED szoftver számítása alapján 0,691. A molekulákat tizennyolc alapváz köré csoportosítottuk, tizenhét szerkezetet nem lehetett az általunk meghatározott alapvázak köré csoportosítani (14. ábra). 67

69 (A) R1 R2 R1 4 R3 R1 5 R1 S R3 S R5 6 S R2 I(9) R4 II(20) 7 R2 III(69) R2 R3 R4 H R5 R2 R2 R3 R1 R2 R6 A B A H R4 B C R7 D R1 C R1 H R8 R5 H R3 V(317) R4 VI(83) VII(22) 3 2 R2 H R2 R2 S H R1 H R1 R1 2 2 R3 H R1 R3 R2 XIII(6) IX(3) R2 H Cl XIV(4) X(4) Tyrphostins XVII(5) Cl H H R1 R2 S XV(4) XI(18) S H XVII(21) R1 R2 R1 H R3 R4 R1 Y X R1 R2 S R1 R2 XVI(3) R1 R3 R2 H H IV(4) R3 VIII(5) H XII(9) R4 H R2 R4 R5 R3 R5 R4 (B) H H H H H H H H H H H S S S H H S H H H S H H H 2 H S H Br H H H H Cl H H H H Cl H H S Br H H H H H ábra (A) A modellezés során felhasznált EGFR gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. (B) A modellezés során felhasznált EGFR gátló vegyületek, amelyeket nem lehetett az általunk meghatározott alapvázakhoz rendelni. Az IC 50 értékeket pic 50 -né alakítottam át, a többszörösen előforduló molekulák esetében a pic 50 értékek átlagát vettem. A pic 50 értékek 8,8 log egységnyi tartományt fogtak át, eloszlásukat a 15. ábra szemlélteti. 68

70 15. ábra EGFR adatok pic 50 értékeinek eloszlása és statisztikai jellemzői db 0D, 1D, 2D, 3D molekulaleírót számítottam ki a Dragon 4.1 segítségével. A molekulák 3D szerkezetét a Concord program segítségével állítottam elő. A modellezés további lépéseit a 3DET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. A modellezés a cikkben bemutatott becslés orientált QSAR modellezés folyamata szerint zajlott (16. ábra). 16. ábra Becslés orientált QSAR modellezés folyamatábrája. 69

71 Az előszűrt bemenő XYD fájlt véletlenszerűen három részre bontottam: DsA (208 adatpont), DsB (208 adatpont), DsC (207 adatpont). Ugyanazon vegyületre közölt értékek legnagyobb pic 50 különbsége alapján 2,2 az EV várható Q 2 értékének 0,5 körül kell lennie, ezt választottam küszöbértéknek. A küszöbérték meghatározása a cikkben közölt tapasztalati szabály alapján történt, amit számos QSAR/QSPR modell és hibával mesterségesen megterhelt adatok numerikus modellezése alapján vezettünk le (52. egyenlet). 2 2 U Q EV 1 D 52. egyenlet U = Y adatok maximális bizonytalansága. Ha ismert a kísérleti adatok szórása, akkor az U megegyezik kétszeres szórással. Ha nem, akkor önkényesen kell megválasztani pl. a vegyületek különböző mérései közötti legnagyobb különbség. D = Y adatok tartománya A modelloptimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q 2 volt. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit függvényillesztő módszerenként és munkahalmazonként MKB-kbe gyűjtöttem. Az egyes MKB-kből kiválasztott végső/legrobusztusabb modell az volt, amelyik a legnagyobb átlagos Q 2 értéket adta az adott munkahalmazon 512 véletlen felezéssel végrehajtott ITK-val. Az A módszer esetében nem történt molekulaleíró kiválasztás, mivel az A algoritmusunk akkori lassúsága miatt a modellt a legrobusztusabb MLR és PLS modellek molekulaleíróinak egyesítésével létrejött munkahalmazon történt A illesztéssel készítettem. Az DsAB halmazon illesztett A modell neuron számát próbálgatással állapítottam meg úgy, hogy a DsC halmazon végzett külső ellenőrzés Q 2 értéke a legnagyobb legyen. A DsA halmazokon készített modellek DsB halmazon történt külső ellenőrzésének eredményei nem érték el a választott küszöbértéket. Az összevonás után létrejött DsAB munkahalmazon a fentebb leírtak szerint végeztem a modellezést. Sajnálatos módon a cikk írásakor a szoftver külső ellenőrzés, Q 2 statisztika számoló moduljában hiba volt, amit a jelen disszertáció írásakor vettem észre. A hibát kijavítottuk és újraszámítottam a Q 2 értékeket, majd elküldtük az újságnak a javított 70

72 adatokat. A hibát az okozta, hogy a 15. egyenlet nevezőjének számításához a szoftvermodul nem a mért hatástani adatok y vektorát, hanem a modell által számított hatástani adatok ŷ vektorát kapta meg. Az újraszámított Q 2 értékek megerősítik a DsAB halmazon kiválasztott végső PLS modell virtuális szűrésre való alkalmasságát. A disszertáció ezeket a javított értékeket tartalmazza. A végső modellek jellemzőit és statisztikai eredményeit a 5. táblázat foglalja össze. A DsAB halmazon kiválasztott végső modelleket véletlen korrelációs próbának Y randomizálásnak vetettem alá, az eredményeket az 6. táblázat mutatja be. 5. táblázat Az adott WS-en kiválasztott végső MLR, PLS EGFR modellek, valamint az előzetes A modellek jellemzői és statisztikai eredményei. Illesztési módszer WS Molekulaleírók száma PLS komp./ neuronok száma WS illesztés R 2 WS illesztés SEE EV DsB Q 2 EV DsB SDEP EV DsC Q 2 EV DsC SDEP MLR DsA 26-0,7508 0,8019 0,5622 1, MLR DsAB 73-0,7848 0, ,5855 1,0081 PLS DsA ,7288 0,8366 0,5640 1, PLS DsAB ,7614 0, ,6077 0,9807 A DsA ,8917 0,5286 0,3363 1, A DsAB ,8648 0, ,5641 1,0338 Az EV helyes Q 2 értékeit figyelembe véve, már a DsA halmazon kiválasztott végső MLR és PLS modellek a DsB halmazon történt külső ellenőrzésének Q 2 értékei is elérik az 52. egyenlet meghatározott küszöbértéket. Ha a 16. ábra alapján, további külső ellenőrzést végeztem a DsC halmazzal a statisztikai eredmények romlottak az MLR (Q 2 DsC = 0,3781; SDEP DsC =1,2362) és a PLS modell esetében is (Q 2 DsC = 0,3791; SDEP DsC =1,2352). 6. táblázat A DsAB halmazon kiválasztott végső MLR, PLS és A EGFR modellek Q 2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjeinek eredményei. A tesztek az összes 623 molekula bevonásával történtek, 1024 (MLR,PLS) /512 (A) véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q 2 eredeti AV/SD: az eredeti Y adatok Q 2 eloszlásának átlaga és szórása. Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke MLR Q 2 / χ 2 0, MLR Q 2 / z 0,001-3,29 256,73 MLR Q 2 /Z ,53 MLR SDEP / χ 2 0, MLR SDEP / z 0,001-3,29 277,46 MLR SDEP / Z ,54 PLS Q 2 / χ 2 0, ,00 PLS Q 2 / z 0,001-3,29 333,76 Q 2 eredeti AV/SD 0,61/ 0,04-0,64/ 0,03 71

73 Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke PLS Q 2 /Z ,63 PLS SDEP / χ 2 0, ,00 PLS SDEP / z 0,001-3,29 389,86 PLS SDEP / Z ,66 A Q 2 / χ 2 0, , A Q 2 / z 0,001-3,29 197,46 A Q 2 /Z ,55 A SDEP / χ 2 0, , ,00 A SDEP / z 0,001-3,29 209,91 A SDEP / Z ,56 Q 2 eredeti AV/SD - 0,63/ 0,03 A 17. ábrán a DsAB halmazon kiválasztott végső PLS modell illesztésének és a DsC halmazon való külső ellenőrzésének grafikus eredménye látható, a 18. ábra a véletlen korrelációs teszt eredményének grafikus ábrázolását mutatja be, a 7. táblázat a modell molekulaleíróit sorolja fel. - (A) (B) 17. ábra (A) A DsAB halmazon kiválasztott végső PLS EGFR modell illesztése a DsAB-n. (B) A DsAB halmazon kiválasztott végső PLS EGFR modell külső ellenőrzésének eredménye a DsC-n. 72

74 (A) (B) 18. ábra (A) A DsAB halmazon kiválasztott végső PLS EGFR modell Q 2 -re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A DsAB halmazon kiválasztott végső PLS EGFR modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 7. táblázat A DsAB halmazon kiválasztott végső PLS EGFR modell molekulaleírói MD d értékük alapján sorba rendezve. A MD d értékek a DsAB halmazon való illesztés alapján lettek számítva. Molekulaleíró MD d Molekulaleíró neve[22,35] kód R7m+ 100 R maximal autocorrelation of lag 7 / weighted by atomic masses JGI mean topological charge index of order5 R5v R maximal autocorrelation of lag 5 / weighted by atomic van der Waals volumes R8v R maximal autocorrelation of lag 8 / weighted by atomic van der Waals volumes R3e R maximal autocorrelation of lag 3 / weighted by atomic Sanderson electronegativities X4Av 17.7 average valence connectivity index chi-4 X3Av 16.1 average valence connectivity index chi-3 HATS8u 15.1 leverage-weighted autocorrelation of lag 8 / unweighted R3v R maximal autocorrelation of lag 3 / weighted by atomic van der Waals volumes Gu 14.1 G total symmetry index / unweighted BIC bond information content (neighborhood symmetry of 0-order) R7v R maximal autocorrelation of lag 7 / weighted by atomic van der Waals volumes R3p R maximal autocorrelation of lag 3 / weighted by atomic polarizabilities RDF080e 11.3 Radial Distribution Function / weighted by atomic Sanderson electronegativities SIC2 9.9 structural information content (neighborhood symmetry of 2-order) R7p+ 9.1 R maximal autocorrelation of lag 7 / weighted by atomic polarizabilities GATS2p 8.2 Geary autocorrelation - lag 2 / weighted by atomic polarizabilities Mor04v 7.6 3D-MoRSE - signal 04 / weighted by atomic van der Waals volumes ncah 7.3 number of unsubstituted aromatic C(sp2) JGT 6.9 global topological charge index HATS0p 5.9 leverage-weighted autocorrelation of lag 0 / weighted by atomic polarizabilities RDF010u 5.9 Radial Distribution Function / unweighted MSD 5.4 mean square distance index (Balaban) Mor18p 5.4 3D-MoRSE - signal 18 / weighted by atomic polarizabilities 73

75 Molekulaleíró MD d Molekulaleíró neve[22,35] kód BEHe4 5.3 highest eigenvalue n. 4 of Burden matrix / weighted by atomic Sanderson electronegativities RCI 5.1 Jug RC index Mor26u 5.1 3D-MoRSE - signal 26 / unweighted DISPp 5 d CMMA2 value / weighted by atomic polarizabilities R2u+ 5 R maximal autocorrelation of lag 2 / unweighted ASP 4.7 Asphericity E3v 4.4 3rd component accessibility directional WHIM index / weighted by atomic van der Waals volumes GATS4e 4 Geary autocorrelation - lag 4 / weighted by atomic Sanderson electronegativities BELe4 3.9 lowest eigenvalue n. 4 of Burden matrix / weighted by atomic Sanderson electronegativities GGI3 3.8 topological charge index of order 3 SPAM 3.8 average span R RDF035e 3.7 Radial Distribution Function / weighted by atomic Sanderson electronegativities IC1 3.6 information content index (neighborhood symmetry of 1-order) GATS6p 3.6 Geary autocorrelation - lag 6 / weighted by atomic polarizabilities PW2 3.5 path/walk 2 - Randic shape index IC5 3.4 information content index (neighborhood symmetry of 5-order) CIC1 3.1 complementary information content (neighborhood symmetry of 1-order) RDF020e 3 Radial Distribution Function / weighted by atomic Sanderson electronegativities ESpm12d 2.9 Spectral moment 12 from edge adj. matrix weighted by dipole moments EEig03x 2.9 Eigenvalue 03 from edge adj. Matrix weighted by edge degrees Mor30u 2.9 3D-MoRSE - signal 30 / unweighted ATS2e 2.8 Broto-Moreau autocorrelation of a topological structure - lag 2 / weighted by atomic Sanderson electronegativities R3e 2.8 R autocorrelation of lag 3 / weighted by atomic Sanderson electronegativities IC3 2.5 information content index (neighborhood symmetry of 3-order) itk 2.4 R total index / unweighted R3u 2.3 R autocorrelation of lag 3 / unweighted RB 1.7 number of rotatable bonds BEHm1 1.5 highest eigenvalue n. 1 of Burden matrix / weighted by atomic masses Ar-H-Al A DsAB halmazon kiválasztott végső PLS modellel megbecsültem a vegyülettárunkban lévő benzo-tieno-pirimidin származékok EGFR gátló hatását (19. ábra), amelyeket kollégáim a Mycobacterium tuberculosis egyik szerin/treonin protein kináza (PknG) ellen terveztek. Ar S 19. ábra Benzo-tieno-pirimidin alapváz. 74

76 A származékok PknG kinázon hatástalanok voltak, azonban EGFR aktivitást mutattak. A legnagyobb gátlást elért tizenhárom vegyületeknek meghatározták az IC 50 értékét is, ezeket összevetettük a becsült EGFR gátlással. A becslés előtt illesztettem a modellt a bemenő halmaz összes 623 molekulájára. A becsült és a mért EGFR pic 50 értékek korrelációját a 20. ábra mutatja be. A benzo-tieno-pirimidin részszerkezet nem található meg a modellkészítésre használt halmazban, a tieno-pirimidin részszerkezetre egy előfordulás van. Ennek ellenére a becsült származékok molekulaleírói nem estek kívül a modellben felhasznált molekulaleírók bemenő adathalmazbeli tartományából. 20. ábra A végső PLS EGFR modellel megbecsült 13 benzotieno-pirimidin származék becsült és mért pic 50 értékeinek összehasonlítása, a bemenő adathalmaz összes molekulájára történt illesztéshez képest. Piros kör: bemenő adathalmaz 623 molekulája, neonzöld teli négyzet: 13 benzo-tienopirimidin származék Megbeszélés A DsA halmazon kiválasztott végső MLR és PLS modellek külső ellenőrzésének akkor rosszul számított Q 2 értékei a DsB halmazon a modellezés előtt becsült Q 2 küszöbérték (0,5) alatt voltak. Az összevont DsAB halmazon kiválasztott PLS modell DsC külső ellenőrző halmazon elért Q 2 értéke a legnagyobb (0,61), SDEP értéke a legkisebb (0,98) volt, ezt az eredményt a legkevesebb molekulaleíróval érte el. A DsC halmazon való külső ellenőrzésen kielégítő eredményt nyújtott az A modell, 75

77 azonban a három végső modell közül a leggyengébbet: a Q 2 értéke (0,56) a legkisebb, az SDEP értéke (1,03) a legnagyobb volt. Az A modell azonban nem teljesen összevethető a lineáris modellekkel, mivel nem történt változó-kiválasztás. Az MLR modell DsC halmazon való külső ellenőrzésen kielégítő eredményt nyújtott (Q 2 DsC = 0,56; SDEP DsC = 1,01), de több molekulaleírót tartalmazott, mint a PLS modell. A DsAB halmazon kiválasztott végső modelleket vizsgáltam véletlen korrelációs teszttel. A Q 2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve, a kétmintás z-próba és a χ 2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ 2 értékei mindhárom végső modell és mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték, vagyis az eloszlások nem fedtek át; továbbá a Z értékei Q 2 és SDEP esetén is nulla felett voltak. Ezek alapján megállapítható, hogy a modellek nem a molekulaleírók véletlen korrelációjának eredményei. A végső modellek az eredeti Y adatok halmazán végzett 1024/512 véletlen felezéssel képzett Q 2 eloszlásainak átlagai 0,61 és 0,64 között voltak. Az eloszlások szórása az átlagokhoz képest is kicsi (0,03-0,04) volt, így a Q 2 érték még háromszoros szórással számítva sem érte el a nullát. Ebből az következik, hogy a végső modellek a teljes bemenő adathalmazon robusztus, és minden felosztásra határozottan jobb becslést adnak, mint a pic 50 értékek átlagából képzett legegyszerűbb modell (Q 2 =0). A végső modellek jó becslőképességének elérésében szerepet játszott a nagyszámú molekula (623) és a közepes diverzitás (0,69), a pic 50 értékek megfelelő eloszlása és széles tartománya (8,8 log egység). A DsAB halmazon kiválasztott végső modellek mindegyike elérte a tapasztalati határt és a becsült küszöbértéket. Ezek közül a PLS modellt választottam ki, amit virtuális szűrésre lehet használni, mivel a legkevesebb molekulaleíróval, a legjobb statisztikai eredményeket érte el. Ez a modell 53 molekulaleírót és 42 PLS komponenst tartalmazott. A Curr. Med. Chem. cikkben a rosszul számított Q 2 értékek ellenére is a végső PLS modell bizonyult a legjobbnak. Az A modellt csak előzetes eredményként közöltük. A végső MLR modell DsC halmazon történt külső ellenőrzésének eredményei (Q 2 DsC = 0,52; SDEP DsC = 1,01) körülbelül azonosak voltak a végső PLS modell 76

78 eredményeivel (Q 2 DsC = 0,52; SDEP DsC = 0,98), azonban az utóbbi kevesebb molekulaleírót tartalmazott. A DsA halmazon kiválasztott végső MLR és PLS modellek rosszabb becslőképessége a DsC halmazon, a halmazok véletlen felosztásával magyarázható. Az 52. egyenlet által meghatározott küszöbérték kiszámításánál ugyanazon vegyületre közölt hatóértékek legnagyobb pic 50 különbsége valószínűleg kiugró érték, így nem lehet a teljes bemenő adathalmaz hibájaként felhasználni. Ha az EGFR gátlás modellezése esetén az öt legnagyobb különbséggel rendelkező vegyület pic 50 értékének átlagát (1,91) vennénk, akkor a képlet alapján az EV Q 2 küszöbértéke: 0,566 lenne. Ha a tíz legnagyobb különbséggel rendelkező vegyület pic 50 értékének átlagát vennénk (1,38), akkor a képlet alapján az EV Q 2 küszöbértéke: 0,686 lenne. A modellkészítés után tesztelt benzo-tieno-pirimidin származékok becslésének jó eredménye egy újabb bizonyíték, hogy a modell további virtuális szűrésekre alkalmas. A származékok benne vannak a modell AD-jében, a modell interpolált. Az interpoláció ellenére a származékok alapváza nem található meg a modellépítésre felhasznált molekulák adatbázisában sőt, a kevésbé komplex tieno-pirimidin részszerkezetet is csak egy molekula tartalmazta Akt1 gátlás modell Az Akt (Protein kináz B) kináz a szerin/treonin kinázok családjába tartozó enzim, kulcsfontosságú szerepet játszik az anti-apoptotikus folyamatokban. Az Akt túlműködése bekövetkezhet a tumor szupresszor PTE inaktiválódásától. Az Akt felelős olyan jelátviteli útvonalak fenntartásáért, amelyek leszabályozzák az apoptotikus útvonalakat és így hozzájárul a tumor progressziójához. Prosztatarák sejtvonalak és más humán tumoros szövetekben összefüggést figyeltek meg a kemoterápiára adott rezisztencia és az Akt aktiválódása között. Az Akt gátlása önmagában vagy kemoterápiával kombináltan a rákos sejtek programozott sejthalálát idézte elő, ami által csökkent a tumornövekedés és a kemoterápiára adott rezisztencia [79]. A következő alfejezetekben bemutatott Akt1 modellekben a következő modellezési lépések azonosak voltak. Minden esetben a bemenő szerkezetekre 891 db 0D, 1D, 2D Dragon 4.1 molekulaleírót és 427 db 2D ME molekulaleírót számítottam 77

79 ki. A molekulaleírók számításai után a modellezés további lépéseit a 3DET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit függvényillesztő módszerenként MKB-kbe gyűjtöttem. Az egyes MKB-kből kiválasztott végső/legrobusztusabb modellek azok voltak, amelyek a legnagyobb átlagos Q 2 értéket adták az adott munkahalmaz 256 véletlen felezésével végrehajtott ITK-val. Az összegyűjtött Akt1 szerkezeti és hatástani adatokat több bemenő adathalmazra válogattam szét: 1) szakirodalmi adatok, 2) szakirodalmi adatok gátlási% hatóértékek nélkül, 3) szakirodalmi és belső vállalati egyesített adatok, 4) szakirodalmi és belső vállalati egyesített adatok gátlási% hatóértékek nélkül. Az egyes bemenő adathalmazokból kiindulva végeztem a modellezéseket. A modellezések eredményei alapján megállapítható, hogy 1) egyesíthetőek-e a szakirodalmi és a belső vállalati adatok, 2) a rosszabb minőségű gátlási% hatóértékek és a hozzájuk tartozó szerkezetek bevonása hogyan befolyásolja a modellezést? Akt1 szakirodalmi modell Szerkezeti-hatástani adatbázisunkból kigyűjtöttem az Akt1 kinázra vonatkozó adatokat, majd a következő szűrőfeltételeket alkalmaztam: a hatástani adat típusa IC 50 vagy gátlási% legyen, Akt1 enzim rekombináns technológiával legyen előállítva, a gátlószerek feltételezhetően ATP kompetitívek legyenek. Ezekkel a feltételekkel 279 különböző molekulát és hozzátartozó mérési adatot gyűjtöttem ki [79-92]. A kigyűjtött szerkezetek diverzitása a CHED szoftver számítása alapján 0,536. A molekulákat hét alapváz köré csoportosítottam, hat molekulát nem lehetett az általam meghatározott alapvázak köré csoportosítani (21. ábra). 78

80 (A) R H 2 H R H S R1 [,,C,S] I(155) II(35) III(54) R H [S,] R H [,,C] Ar Cl R1 V (8) H H VI (7) IV (11) R2 (B) Cl H H H H H H H S S S S S R H H 2 VII (3) H 21. (A) A modellezés során felhasznált szakirodalmi Akt1 gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. (B) A modellezés során felhasznált szakirodalmi Akt1 gátló vegyületek, amelyeket nem lehetett az általam meghatározott alapvázakhoz rendelni. Az IC 50 és gátlási % értékeket pic 50 -né alakítottam át, a többszörösen előforduló molekulák esetében a pic 50 értékek átlagát vettem. A pic 50 értékek 6,98 log egységnyi tartományt fogtak át, eloszlásukat a 22. ábra mutatja be. 22. ábra Szakirodalmi Akt1 adatok pic 50 értékeinek eloszlása és statisztikai jellemzői. Az előszűrt bemenő XYD fájlt véletlenszerűen három részre bontottam: TA i (93 adatpont), TB i (93 adatpont), TC i (93 adatpont). Ugyanazon vegyületre közölt hatóértékek legnagyobb pic 50 különbsége (1,42) alapján az 52. egyenlet segítségével kiszámított Q 2 küszöbérték: 0,59. A modell optimalizálást MLR és PLS illesztési módszerekkel végeztem, VSS-re szekvenciális és genetikus algoritmusokat használtam, az optimalizálandó mérőszám a 79

81 Q 2 volt. A TA i halmazon kiválasztott végső modellek külső ellenőrzése a TB i halmazon történt, amelyen sem az MLR-rel, sem a PLS-sel készült végső modell nem érte el a kitűzött küszöbértéket. A TA i és TB i halmaz egyesítésével létrejött TABi halmazon a modellezést a fentebb leírtak szerint végeztem, a végső modelleket a TCi halmazon ellenőriztem. Az A módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a TAB i halmaz a végső MLR modell molekulaleírói által meghatározott részhalmazán A illesztést végeztem három neuronnal. A TAB i halmazon illesztett A modell neuron számát próbálgatással állapítottam meg úgy, hogy a TC i,ex halmazon végzett külső ellenőrzés Q 2 értéke a legnagyobb legyen. A külső ellenőrzések során az egyik molekula lineáris módszerekkel becsült pic50 értéke negatív volt. Megvizsgáltam a szerkezetet, amely annyira speciális volt, hogy még az alapvázra sem volt több példa az egész adatbázisban, így kivettem a TCi halmazból (23. ábra) a hozzá tartozó molekulaleírókat és pic50 értéket. Az így létrejött TC i,ex halmazon újra elvégeztem a külső ellenőrzéseket. S S S S S 23. ábra TC i külső ellenőrző halmazból kizárt vegyület. A végső modellek jellemzőit és statisztikai eredményeit a 8. és 9. táblázat foglalja össze. A TAB i halmazon kiválasztott végső modelleket véletlen korrelációs próbának Y randomizálásnak vetettem alá, az eredményeket a 10. táblázat mutatja be. 8. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és illesztési statisztikai eredményei. PLS Molekulaleírók illesztés illesztés WS WS Illesztési komp./ WS módszer neuronok száma R 2 SEE száma MLR TA i 2-0,3638 2,4667 MLR TAB i 9-0,4945 1,0649 PLS TA i 3 1 0,3569 1,5097 PLS TAB i ,7036 0,8153 A TAB i 9 2 0,5481 1,

82 9. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és becslési statisztikai eredményei. PLS Molekulaleírók TB,i EV TB,i EV TC,i EV TC,i EV TCi,ex EV TCi,ex Illesztési komp./ EV WS módszer neuronok Q 2 SDEP Q 2 SDEP Q 2 SDEP száma száma MLR TA i ,8508 2, MLR TAB i ,2853 1,1422 0,3928 1,0487 PLS TA i 3 1 0,1203 1, PLS TAB i ,1154 1,2713 0,2413 1,1723 A TAB i ,3445 1,0938 0,3568 1, táblázat A TAB i halmazon kiválasztott végső MLR, PLS és A Akt1 modellek Q 2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjeinek eredményei. A tesztek az összes 278 molekula bevonásával történtek, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q 2 eredeti AV/SD: az eredeti Y adatok Q 2 eloszlásának átlaga és szórása. Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke MLR Q 2 / χ 2 0, MLR Q 2 / z 0,001-3,29 227,86 MLR Q 2 /Z ,42 MLR SDEP / χ 2 0, MLR SDEP / z 0,001-3,29 203,37 MLR SDEP / Z ,34 PLS Q 2 / χ 2 0, PLS Q 2 / z 0,001-3,29 85,2 PLS Q 2 /Z ,36 PLS SDEP / χ 2 0, ,67 PLS SDEP / z 0,001-3,29 121,14 PLS SDEP / Z ,12 A Q 2 / χ 2 0, A Q 2 / z 0,001-3,29 160,50 A Q 2 /Z ,16 A SDEP / χ 2 0, A SDEP / z 0,001-3,29 154,41 A SDEP / Z ,13 Q 2 eredeti AV/SD 0,43/ 0,05-0,47/ 0,07-0,41/ 0,06 A 24. ábrán a TAB i halmazon kiválasztott végső MLR modell illesztésének és a TC i,ex halmazon való külső ellenőrzésének grafikus eredménye látható, a 25. ábra a véletlen korrelációs teszt eredményének grafikus ábrázolását mutatja be, a 11. táblázat a modell molekulaleíróit sorolja fel. - 81

83 (A) (B) 24. ábra (A) A TAB i halmazon kiválasztott végső MLR Akt1 modell illesztése a TAB i -n. (B) A TAB i halmazon kiválasztott végső MLR Akt1 modell külső ellenőrzésének eredménye a TC i,ex -n. (A) (B) 25. ábra (A) A TAB i halmazon kiválasztott végső MLR Akt1 modell Q 2 -re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A TAB i halmazon kiválasztott végső MLR Akt1 modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 11. táblázat A TAB i halmazon kiválasztott végső szakirodalmi MLR Akt1 modell molekulaleírói MD d értékük alapján sorba rendezve. A MD d értékek a TAB i halmazon való illesztés alapján lettek számítva. Molekulaleíró MD d Molekulaleíró neve [22, 35] kód BELe7 100 lowest eigenvalue n. 7 of Burden matrix / weighted by atomic Sanderson electronegativities CET 99.9 centralization CIC complementary information content (neighborhood symmetry of 3-order) MACCS(165) 75.6 # ring atoms CIC complementary information content (neighborhood symmetry of 5-order) MATS8e 30.2 Moran autocorrelation - lag 8 / weighted by atomic Sanderson electronegativities MATS5e 27.7 Moran autocorrelation - lag 5 / weighted by atomic Sanderson electronegativities MATS5m 25.8 Moran autocorrelation - lag 5 / weighted by atomic masses ks_aa 13 Kier Atom Type E-state Sum (aa) 82

84 Megbeszélés A szakirodalmi adatok molekulaleírót és pic 50 értékeit tartalmazó halmazt véletlenszerűen három részre osztottam, az első modellezésre használt halmaz a TA i volt. Ezen a halmazon kiválasztott végső MLR és PLS modellek külső ellenőrzésének Q 2 értékei mind a modellezés előtt becsült Q 2 küszöbérték (0,59), mind az általam megszabott tapasztalati határ (0,4) alatt voltak. Az összevont TAB i halmazon kiválasztott végső modelleknek jobb statisztikai eredményeik voltak, mint a TA i halmazon kiválasztottaknak. A kilógó (23. ábra) molekula leíróinak és pic 50 értékeinek TC i halmazból való eltávolításával mindkét lineáris végső modell esetében az SDEP és Q 2 is ~ 0,1 értéket javultak. A TC i,ex halmazon végzett külső ellenőrzés Q 2 értékei (MLR Q 2 TCi,ex = 0,39; PLS Q 2 TCi,ex = 0,24; A Q 2 TCi,ex = 0,36) azonban még így sem érték el a küszöbértéket és a tapasztalati határt, az SDEP értékek beleestek a tapasztalati tartományba (MLR SDEP TCi,ex = 1,05; PLS SDEP TCi,ex = 1,17; A SDEP TCi,ex = 1,07). A TAB i halmazon kiválasztott végső modelleket vizsgáltam véletlen korrelációs teszttel. A Q 2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve, a kétmintás z-próba és a χ 2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A végső MLR és A modell esetében a χ 2 értékei mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték, vagyis az eloszlások nem fedtek át; továbbá az MLR és az A modell esetében mind a Q 2, mind az SDEP eloszlásra vonatkozó Z értékei nulla felett voltak. A PLS esetében a Q 2 eloszlások nem fedtek át, azonban az SDEP eloszlások kissé átfedtek; továbbá mindkét statisztikai mérőszám eloszlása esetén a Z értékei nulla alatt voltak, ez azzal magyarázható, hogy az összekevert adatok eloszlása kissé nyújtott, így nagyobb a szórása. Ezek alapján megállapítható, hogy a végső MLR és A modellek nem a molekulaleírók véletlen korrelációjának eredményei. A végső PLS modell esetében pedig feltételezhető, hogy a modell nem véletlen korreláció. A végső modellek az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett Q 2 eloszlásainak átlagai 0,41 és 0,47 között voltak. Az eloszlások szórása 0,05-0,07, így a Q 2 érték még háromszoros szórással számítva sem éri el a nullát. Ebből az következik, hogy a végső modellek a 278 molekulát tartalmazó adathalmazon robusztus, és minden felosztásra határozottan jobb becslést adnak, mint a pic 50 értékek 83

85 átlagából képzett legegyszerűbb modell (Q 2 =0). A végső modellek közepes becslőképességének okai lehetnek, hogy csak 2D molekulaleírókon alapul, esetleg más molekulaleírókon alapuló nemlineáris kapcsolat áll fenn a szerkezetek és a hatás között. Bár a TAB i halmazon kiválasztott végső modellek közül egyik nem érte el a tapasztalati Q 2 határt, sem a becsült küszöbértéket; az MLR modellt lehetne virtuális szűrésre használni, mert negyedannyi molekulaleíróval, jobb statisztikai eredményeket ért el, mint a végső PLS modell. Az MLR modell molekulaleíróira illesztett A modell jobban illesztette a TAB i adatait, azonban gyengébb becslési és véletlen korrelációs statisztikai eredményeket ért el. Az MLR a modell 9 molekulaleírót tartalmazott Akt1 szakirodalmi modell gátlási% hatóértékek nélkül A kigyűjtött Akt1 szakirodalmi adatokból eltávolítottam a gátlási% hatóértékeket és azokat a molekulákat, amelyek csak gátlási% hatóértéket tartalmaztak, majd újra kiszámítottam a pic 50 értékeket. Az így létrejött adatbázis 237 különböző molekulát tartalmazott a hozzátartozó pic 50 értékkel együtt. A szerkezetek diverzitása a CHED szoftver számítása alapján 0,499-re csökkent. A logaritmált biológiai adatok tartománya 5,87 log egységnyire csökkent. A molekulaleírók számítása után az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WS i(ni) (munkahalmaz): 177 adatpont; EVS i(ni) (külső ellenőrző halmaz): 60 adatpont. A modelloptimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q 2 volt. Az A módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a WS i(ni) halmaz a végső PLS modell molekulaleírói által meghatározott részhalmazán A illesztést végeztem három neuronnal. A WS i(ni) halmazon illesztett A modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVS i(ni) halmazon végzett külső ellenőrzés Q 2 értéke a legnagyobb legyen. A kiválasztott végső lineáris modellek EVS i(ni) halmazon történt külső ellenőrzése során az egyik molekula becsült pic 50 értéke negatív volt. A kilógó molekula szintén a 23. ábrán bemutatott volt, az EVS i(ni) halmazból kivettem a hozzátartozó molekulaleírókat és pic 50 értéket. Az így létrejött EVS i(ni),ex halmazzal újra elvégeztem a külső ellenőrzést. 84

86 össze. A végső modellek jellemzőit és statisztikai eredményeit a 12. táblázat foglalja 12. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és statisztikai eredményei. Illesztési módszer WS Molekula -leírók száma PLS komp./ neuronok száma WS illesztés R 2 WS illesztés SEE EV Q 2 EVSi(ni) EV SDEP EVSi(ni) EV Q 2 EVSi(ni),ex EV SDEP EVSi(ni),ex MLR WS i(ni) 63-0,7705 0,6488-1,1503 1,9712-0,0881 1,3856 PLS WS i(ni) ,3816 1,2457-0,3014 1,5335-0,0995 1,3928 A WS i(ni) ,5630 0,8955 0,3924 1,0479 0,3678 1, Megbeszélés Megvizsgáltam, hogy a szakirodalmi adatok modellezhetősége hogyan változik, ha eltávolítom a gátlási% hatóértékeket, valamint azokat a molekulákat, amelyek csak gátlási% hatóértéket tartalmaztak. A WS i(ni) halmazon kiválasztott végső MLR és PLS modellek EVS i(ni) halmazon való külső ellenőrzése során kiderült, hogy a TC i halmazból kilógó molekula ebben a halmazban is megtalálható és nagyon rontotta az eredményeket. A molekula leíróinak és pic 50 értékének eltávolításával az EVS i(ni),ex halmazon kapott Q 2 és SDEP értékek javultak (MLR Q 2 EVSi(ni),ex = -0,09, SDEP EVSi(ni),ex = 1,39; PLS Q 2 EVSi(ni),ex = -0,10, SDEP EVSi(ni),ex = 1,39). A végső PLS modell molekulaleíróira illesztett A modell a kilógó molekulát is viszonylag jól becsülte (A Q 2 EVSi(ni)= 0,39; SDEP EVSi(ni) = 1,05), sőt eltávolításával rosszabbodtak a becslés statisztikái. Habár a teljes bemenő adathalmaz csak IC 50 értékeket tartalmazott és csak 15%-al kevesebb molekula adatát tartalmazta, nem sikerült jobban becslő modellt találni, mint a gátlási% hatóértékekből számított pic 50 értékeket is tartalmazó szakirodalmi adathalmaz esetében. Az A modell is csak körülbelül azonos statisztikai eredményeket ért el, mint a TAB i halmazon kiválasztott végső MLR modell Akt1 modell szakirodalmi és belső adatok alapján A kinázokra fókuszált vegyülettárunkból [93] származó molekulákra voltak belső vállalati (in-house) mérési eredményeink is, amelyet egyik kooperációs partnerünk mért. A fejezetben tárgyalt Akt1 IMAP esszével mért eredményeink ekkor még nem álltak rendelkezésünkre. Azt feltételeztem, ha a belső adatokat hozzákeverem a már meglévő szakirodalmi adatokhoz, jobb modellt tudok majd készíteni, valamint ezzel növekedne az Akt1 modell alkalmazhatósági tartománya is. A szakirodalmi 85

87 adatokhoz hasonlóan a belső adatokra is ugyanazokat a szűrőfeltételeket alkalmaztam. Ily módon 440 különböző molekulát és hozzátartozó IC 50 vagy gátlási% hatóértéket tartalmazó belső adatokból álló adatbázist kaptam. Az IC 50 és gátlási% hatóértékeket pic 50 né alakítottam át, a többszörösen előforduló molekulák esetében a pic 50 értékek átlagát vettem. A modellezés előtt a 3DET4W segítségével a két bemenő adatmátrixot egyesítettem és az így előállt mátrixból [ ] kezdtem el a modellezést. Az egyesített adatmátrix szerkezeteinek diverzitása a CHED szoftver számítása alapján 0,786. A molekulákat negyvenkét alapváz köré csoportosítottam, tizenkilenc molekulát nem lehetett az általam meghatározott alapvázak köré csoportosítani, valamint harminc molekulának nem adtam meg az alapvázát sem szabadalmi okok miatt (26. ábra, 27. ábra). Az egyesített, logaritmizált biológiai adatok 7,31 log egységnyi tartományt fogtak át, eloszlásukat a 28. ábra mutatja be. 86

88 R H R H R3 H R S R H [S,] R1 [,,C] Ar H 2 R1 Cl H H [,C] R2 H IV (11) V (8) I(155) II(42) III(23) VI (7) R1 R R3 R1 R1 R3 R1 H R2 R2 R2 R4 R2 H 2 H XI (14) IX (34) X (65) R2 R3 R1 R3 S VIII (14) VII (3) R4 R1 R2 R2 H R2 R1 XVI (13) R1 R3 R1 R2 S R2 R1 R3 XVII (7) XIII (43) XIV (14) H XV (18) H R5 R1 R4 R2 R1 R4 R5 XII (10) R3 R2 R3 R2 R1 R3 R3 R1 R2 R3 H XXII (6) R2 XX (5) XXI (19) XXIII (5) XIX (8) R R1 R2 R1 Ar XVIII (16) R1 R2 Ar 2 Ar 1 [,] H H H H R R H Ar 2 H 2 XXVII (7) XXVIII (6) H XXIX (9) H H XXV (12) XXIV(4) XXVI (10) XXVI (7) R1 R1 H H R7 R2 R3 R2 H R2 [S,,,C] R2 R6 H S [,,C] R3 R3 H R3 H R4 R5 XXXIII(4) XXXIV(4) XXX(25) R1 R1 XXXI(6) H XXXII(4) XXXV(12) R8 R2 R2 R1 R7 R1 R1 R2 S R2 R6 R S R3 H S XL(2) R2 XXXIX(3) R3 R5 R1 XXXVIII(3) R1 R4 H S XXXVI(3) XXXVII(2) H H 2 R XLI(5) 26. ábra A modellezés során felhasznált szakirodalomból és belső vállalati mérésekből származó Akt1 gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. XLII(2) H H H S H S S S S H H H H H H H 2 S H Br H H H H H H 2 H 2 Cl H S H H H S H H H H H H H H H H H H H H H H H H H H H H H H 2 H H H H 27. ábra A modellezés során felhasznált szakirodalomból és belső vállalati mérésekből származó Akt1 gátló vegyületek, amelyeket nem lehetett az általam meghatározott alapvázakhoz rendelni. 87

89 28. ábra A szakirodalmi és belső Akt1 adatok pic 50 értékeinek eloszlása és statisztikai jellemzői. A két adathalmaz egyesítése előtt a szakirodalmi bemenő adathalmaz 278 molekulájára illesztett modellel megbecsültem a belső molekulák Akt1 gátló hatását. Először az összes 440 belső vállalti molekula gátló hatását (29. A. ábra) becsültem meg, majd csak azt a 187 molekuláét (29. B. ábra), amelyek benne voltak az alkalmazhatósági tartományban (AD). (A) (B) 29. ábra A végső szakirodalmi Akt1 modellel megbecsült belső vállalati molekulák becsült és mért pic 50 értékeinek összehasonlítása, a bemenő adathalmaz 278 molekulájára történt illesztéshez képest. (A) Az összes 440 belső vállalati molekula becslése: piros kör: illesztés a 278 molekulán; neonzöld négyzet: AD-n belül lévő molekulák (187); kék négyzet: AD-n kívül eső molekulák (253). A Q 2, SDEP érték a teljes 440 molekulára vonatkozik. (B) Az AD-n belül lévő 187 belső vállalati molekulák becslése: piros kör: illesztés a 278 molekulán; neonzöld négyzet: AD-n belül lévő molekulák. 88

90 A egyesítés után az előszűrt bemenő XYD fájlt véletlenszerűen három részre bontottam: TA i+b (240 adatpont), TB i+b (240 adatpont), TC i+b (239 adatpont). Ugyanazon vegyületre közölt értékek legnagyobb pic 50 különbsége (1,42) alapján az 52. egyenlet segítségével kiszámított Q 2 küszöbérték: 0,61. Az első munkahalmaz a TA i+b volt, ezen a halmazon MLR és PLS módszerekkel, szekvenciális és genetikus algoritmus szerint végeztem az optimalizálást. Az optimalizálandó mérőszám a Q 2 volt. A TA i+b halmazon kiválasztott végső modellek külső ellenőrzése a TB i+b halmazon történt. Az MLR modell külső ellenőrzése során az egyik molekula becsült pic 50 értéke negatív volt. Megvizsgáltam a szerkezetet, amin két hattagú gyűrűs cukorrész volt az alapvázhoz kapcsolva (30. ábra), ezért a TB i+b halmazból eltávolítottam a hozzátartozó molekulaleírókat és pic 50 értéket. Az így létrejött TB i+b,ex halmazzal újra elvégeztem a külső ellenőrzéseket. 30. ábra TB külső ellenőrző halmazból kizárt molekula. Q 2 A TB i+b,ex halmazon végzett külső ellenőrzés eredményei sem érték el a választott küszöbértéket, így egyesítettem a TA i+b és a TB i+b halmazt. A modellezést az előzőekben leírtak szerint végeztem. A TAB i+b halmazon optimalizált modelleket a TC i+b halmazon ellenőriztem. Az A módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a TAB i+b halmaz a végső PLS modell molekulaleírói által meghatározott részhalmazán A illesztést végeztem három neuronnal. A TAB i+b halmazon illesztett A modell neuron számát próbálgatással állapítottam meg úgy, hogy a TC i+b,ex halmazon végzett külső ellenőrzés Q 2 értéke a legnagyobb legyen. Mindhárom TAB i+b halmazon kiválasztott végső modell TC i+b halmazon való külső ellenőrzése során ugyanannak a két molekula Akt1 gátlóhatás becslésének (31. ábra) nagyon nagy volt a hibája a hiba négyzetének négyzetgyöke három és négy között volt. A két molekula leíróit és pic 50 értékeit eltávolítottam a TC i+b halmazból és az így létrejött TC i+b,ex halmazzal újra elvégeztem a külső ellenőrzést. 89

91 31. ábra A TC i+b külső ellenőrző halmazból kizárt molekulák A végső modellek jellemzőit és statisztikai eredményeit a 13., 14. és 15. táblázat foglalja össze. A TAB i+b halmazon kiválasztott végső modelleket véletlen korrelációs próbának Y randomizálásnak vetettem alá, az eredményeket a 16. táblázat mutatja be. 13. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és illesztési statisztikai eredményei. PLS Molekulaleírók illesztés illesztés WS WS Illesztési komp./ WS módszer neuronok száma R 2 SEE száma/ MLR TA i+b 59-0,7557 0,6619 MLR TAB i+b 72-0,7078 0,7171 PLS TA i+b ,5912 0,886 PLS TAB i+b ,6318 0,805 A TAB i+b ,6967 0, táblázat A TA i+b halmazon kiválasztott végső MLR, PLS Akt1 modellek jellemzői és becslési statisztikai eredményei a TB i+b, TB i+b,ex halmazokon. Molekulaleírók komp. TBi+b EV TBi+b EV TBi+b,ex EV TBi+b,ex PLS Illesztési EV WS módszer Q 2 SDEP Q 2 SDEP száma száma MLR TA i+b 59-0,2653 1,1278 0,4193 1,0038 PLS TA i+b ,3462 1,0683 0,3452 1, táblázat A TAB i+b halmazon kiválasztott végső MLR, PLS, A Akt1 modellek jellemzői és becslési statisztikai eredményei a TC i+b, TC i+b,ex halmazokon. PLS Molekulaleírók TCi+b EV TCi+b EV TCi+b,ex EV TCi+b,ex Illesztési komp./ EV WS módszer neuronok Q 2 SDEP Q 2 SDEP száma száma MLR TAB i+b 72-0,5147 0,9339 0,5502 0,8955 PLS TAB i+b ,5335 0,9156 0,5655 0,8866 A TAB i+b ,5908 0,8575 0,6499 0, táblázat A TAB i+b halmazon kiválasztott végső MLR, PLS és A Akt1 modellek Q 2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjeinek eredményei. A tesztek az összes 717 molekula bevonásával történtek, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q 2 eredeti AV/SD: az eredeti Y adatok Q 2 eloszlásának átlaga és szórása. Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke MLR Q 2 / χ 2 0, MLR Q 2 / z 0,001-3,29 279,37 MLR Q 2 /Z ,54 MLR SDEP / χ 2 0, MLR SDEP / z 0,001-3,29 304,95 MLR SDEP / Z ,5744 Q 2 eredeti AV/SD 0,54/ 0,04-90

92 Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke PLS Q 2 / χ 2 0, PLS Q 2 / z 0,001-3,29 373,94 PLS Q 2 /Z ,65 PLS SDEP / χ 2 0, PLS SDEP / z 0,001-3,29 315,99 PLS SDEP / Z ,58 A Q 2 / χ 2 0, A Q 2 / z 0,001-3,29 266,55 A Q 2 /Z ,5 A SDEP / χ 2 0, A SDEP / z 0,001-3,29 280,92 A SDEP / Z ,52 Q 2 eredeti AV/SD 0,58/ 0,03-0,59/ 0,05 A 32. ábrán a TAB i+b halmazon kiválasztott végső PLS és A modellek illesztésének és a TC i+b,ex halmazon való külső ellenőrzésének grafikus eredményei láthatók, a 34. ábra és a 34. ábra a véletlen korrelációs tesztek eredményeinek grafikus ábrázolását mutatja be, a 17. táblázat modellek molekulaleíróit sorolja fel. (A) (B) - (C) (D) 32. ábra A TAB i+b halmazon kiválasztott végső Akt1 modellek illesztései a TAB i+b halmazon és külső ellenőrzéseik eredménye az TC i+b,ex halmazon. (A) A végső PLS modell illesztése. (B) A végső PLS modell külső ellenőrzése. (C) A végső A modell illesztése. (D) A végső A modell külső ellenőrzése. 91

93 (A) (B) 33. ábra (A) A TAB i+b halmazon kiválasztott végső PLS Akt1 modell Q 2 -re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A TAB i+b halmazon kiválasztott végső PLS Akt1 modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. (A) (B) 34. ábra (A) A TAB i+b halmazon kiválasztott végső A Akt1 modell Q 2 -re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A TAB i+b halmazon kiválasztott végső A Akt1 modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 17. táblázat A TAB i+b halmazon kiválasztott végső Akt1 A és PLS modellek molekulaleírói az A modell MD d értékei alapján sorba rendezve. A MD d értékek a TAB i+b halmazon való illesztés alapján lettek számítva. Molekulaleíró MD d MD d Molekulaleíró neve [22,35] kód A PLS chi1v_c Carbon valence connectivity index (order 1) D/Dr distance/detour ring index of order 6 MLGP Moriguchi octanol-water partition coeff. (logp) EEig14r Eigenvalue 14 from edge adj. matrix weighted by resonance integrals GGI topological charge index of order 2 AMW average molecular weight SMR_VSA Sum of vi such that Ri is in (0.39,0.44] ZM2V second Zagreb index by valence vertex degrees CSI eccentric connectivity index 92

94 Molekulaleíró MD d MD d Molekulaleíró neve [22,35] kód A PLS EEig15r Eigenvalue 15 from edge adj. matrix weighted by resonance integrals Whetv Wiener-type index from van der Waals weighted distance matrix GATS1m Geary autocorrelation - lag 1 / weighted by atomic masses BELe lowest eigenvalue n. 7 of Burden matrix / weighted by atomic Sanderson electronegativities ESpm01d Spectral moment 01 from edge adj. matrix weighted by dipole moments TPSA Polar surface area calculated using group contributions PEE_VSA_F Fractional polar van der Waals surface area PL MATS1v Moran autocorrelation - lag 1 / weighted by atomic van der Waals volumes TI second Mohar index TI2 SIC structural information content (neighborhood symmetry of 1- order) EEig09x Eigenvalue 09 from edge adj. matrix weighted by edge degrees PEE_VSA_P Total negative polar van der Waals surface area EG JGI mean topological charge index of order6 MATS2e Moran autocorrelation - lag 2 / weighted by atomic Sanderson electronegativities MATS3e Moran autocorrelation - lag 3 / weighted by atomic Sanderson electronegativities BLI Kier benzene-likeliness index EEig07x Eigenvalue 07 from edge adj. matrix weighted by edge degrees GATS3v Geary autocorrelation - lag 3 / weighted by atomic van der Waals volumes MACCS(165) # ring atoms H H attached to C3(sp3) / C2(sp2) / C3(sp2) / C3(sp) PHI Kier flexibility index SlogP Log of the octanol/water partition coefficient (including implicit hydrogens). EEig09r Eigenvalue 09 from edge adj. matrix weighted by resonance integrals MATS2p Moran autocorrelation - lag 2 / weighted by atomic polarizabilities JGI mean topological charge index of order9 logp(o/w) Log of the octanol/water partition coefficient SMR_VSA Sum of vi such that Ri is in (0.26,0.35] GGI topological charge index of order 5 VDistEq Distance matrix descriptor Kier Second kappa shape index MATS4v Moran autocorrelation - lag 4 / weighted by atomic van der Waals volumes MATS3m Moran autocorrelation - lag 3 / weighted by atomic masses diameter Largest value in the distance matrix 93

95 Megbeszélés Akt1 kináz gátlásra voltak belső vállalati eredményeink is, azt feltételeztem, hogy az adatok egyesítésével jobb, de legalábbis tágabb alkalmazhatóságai tartománnyal rendelkező modelleket készíthetek. Az adatok egyesítése előtt meg szerettem volna győződni a TAB i halmazon kiválasztott végső szakirodalmi Akt1 MLR modell becslőképességéről, ezért ezzel a modellel megbecsültem a 440 belső vállalati adat Akt1 gátló hatását. A becslés nagy hibája (SDEP = 2,04) és negatív Q 2 értéke (-0,24) jelezte, hogy a modell nem képes jól becsülni a belső adatokat. Az AD-n belül lévő molekulák pic 50 értékének becslése jobb volt (SDEP = 1,47), azonban ez az érték is felette volt a szakirodalmi modell külső ellenőrzésén kapott SDEP értékének (1,05), sőt a legszerencsétlenebb véletlen felosztással kapott SDEP értéknek (~1,25) is (29. B. ábra). Ezek alapján indokolt volt, hogy a szakirodalmi és belső adatokat egyesítsem. Az egyesítés után véletlenszerűen három részre osztottam a szakirodalmi és belső adatok molekulaleíróinak és pic 50 értékeinek halmazát, az első modellezésre használt halmaz a TA i+b volt. Ezen a halmazon kiválasztott végső MLR és PLS modellek külső ellenőrzésének Q 2 értékei még a kilógó molekula leíróinak és pic 50 értékének eltávolítása után is a modellezés előtt becsült Q 2 küszöbérték (0,61) alatt voltak. Az összevont TAB i+b halmazon kiválasztott végső modelleknek jobb statisztikai eredményeik voltak a TC i+b halmazon való külső ellenőrzés során, mint a TA i+b halmazon kiválasztottaknak a TB i+b halmazon. A külső ellenőrzés Q 2 értékei nagyobbak (MLR Q 2 TCi+b = 0,51; PLS Q 2 TCi+b = 0,53) az SDEP értékei kisebbek (MLR SDEP TCi+b = 0,93; PLS SDEP TCi+b = 0,92) voltak. A külső ellenőrzések diagrammján enyhe jobbirányú görbület figyelhető meg (32. B. ábra), ami nemlineáris összefüggés meglétét valószínűsíti, ezért a TAB i+b halmazon kiválasztott végső PLS modell molekulaleíróira A illesztést végeztem. Az elkészült modell TC i+b halmazon való külső ellenőrzésen jobb eredményt adott, mint a lineáris módszerek (Q 2 TCi+b = 0,59, SDEP TCi+b = 0,86). A külső ellenőrzések során megfigyeltem, hogy két molekula becslésének nagy hibája volt, ez különösen az A modell esetén volt szembetűnő, ezért a két molekula leíróit és pic 50 értékeit eltávolítottam és az így létrejött TC i+b,ex halmazzal újra elvégeztem a külső ellenőrzéseket. Mind a Q 2 értékei (MLR Q 2 TCi+b,ex = 0,55; PLS Q 2 TCi+b,ex = 0,57; A Q 2 TCi+b,ex = 0,65), mind az SDEP értékei (MLR SDEP TCi+b,ex 0,90; PLS SDEP TCi+b,ex = 0,89; A SDEP TCi+b,ex = 0,79) mindhárom 94

96 végső modell esetben javultak, bár a legnagyobb javulás az A modell esetében történt. A TAB i+b halmazon kiválasztott végső modelleket vizsgáltam véletlen korrelációs teszttel. A Q 2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve, a kétmintás z-próba és a χ 2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ 2 értékei mindhárom végső modell és mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték, vagyis az eloszlások nem fedtek át; továbbá minden végső modell esetében a Z értékei Q 2 és SDEP esetén is nulla felett voltak. Ezek alapján megállapítható, hogy a modellek nem a molekulaleírók véletlen korrelációjának eredményei. A végső modellek az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett Q 2 eloszlásainak átlagai 0,54 és 0,59 között voltak. Az eloszlások szórása az átlagokhoz képest is kicsi (0,03-0,05), így a Q 2 érték még háromszoros szórással számítva sem éri el a nullát. Ebből az következik, hogy a végső modellek a 717 molekulát tartalmazó bemenő adathalmazon robusztus, és minden felosztásra határozottan jobb becslést adnak, mint a pic 50 értékek átlagából képzett legegyszerűbb modell (Q 2 =0). A modellezéshez használt bemenő adathalmaz 56%-a tartalmazott a szerkezetekhez kizárólag gátlási% hatóértékből számított pic 50 értéket, valamint a pic 50 értékek eloszlása kevésbé hasonlított a normál eloszláshoz, mint a szakirodalmi hatóértékek pic 50 eloszlása. A TAB i+b halmazon kiválasztott végső modellek azonban jobb becslőképességgel rendelkeztek, mint a szakirodalmi adatokon kiválasztott végső modellek. Ennek elérésében szerepet játszott: a nagy molekulaszám (717) és nagy diverzitás (0,79) a legnagyobb a disszertációban bemutatottak közül és a pic 50 értékek megfelelő eloszlása és széles tartománya (7,31 log egység). A TAB i+b halmazon kiválasztott végső modellek mindegyike elérte a tapasztalati Q 2 határt, a becsült küszöbértéket csak az A modell. Az A modell SDEP értéke (SDEP TCi+b,ex = 0,79) kívül esett a tapasztalati tartományon (0,8-1,4), azonban az Y randomizálás jó statisztikai eredményei azt mutatták, hogy a modell nem véletlen korreláció. A három modell közül az A-t választottam ki, amit virtuális szűrésre lehet használni. Habár az A modell esetében nem történt VSS, viszont a legkevesebb molekulaleíróval, a legjobb statisztikai eredményeket ért el. A 32. ábrán látható, hogy a 95

97 végső PLS a modell molekulaleíróival az A modell jobban illesztette a TAB i+b adatait, valamint jobban is becsülte a TC i+b,ex adatait. Ez a modell 42 molekulaleírót és 3 neuront tartalmazott Akt1 modell gátlási% hatóértékeket nem tartalmazó szakirodalmi és belső adatok alapján Az egyesített szakirodalmi és belső adatokból eltávolítottam a gátlási% hatóértékeket és azokat a molekulákat, amelyek csak gátlási% hatóértéket tartalmaztak, majd újra kiszámítottam a pic 50 értékeket. Az így létrejött adatbázis 318 különböző molekulát tartalmazott a hozzátartozó pic 50 értékkel együtt. A szerkezetek diverzitása a CHED szoftver számítása alapján 0,664-re csökkent. A logaritmizált biológiai adatok tartománya 5,87 log egységnyire csökkent. Az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WS i+b(ni) (munkahalmaz): 212 adatpont; EVS i+b(ni) (külső ellenőrző halmaz): 106 adatpont. A modelloptimalizálást MLR, PLS és A illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q 2 volt. Az A módszer esetében nem történt molekulaleíró kiválasztás, a modellt a legrobusztusabb MLR modell molekulaleíróit tartalmazó halmazon történt A illesztéssel készítettem. A WS i+b(ni) halmazon illesztett A modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVS i+b(ni),ex halmazon végzett külső ellenőrzés Q 2 értéke a legnagyobb legyen. A végső MLR modell EVS i+b(ni) halmazon történt külső ellenőrzés során egy molekula (35. ábra) Akt1 gátlóhatás becslésének nagy volt a hibája a hiba abszolút értéke 5,42 volt. A molekula leíróit és pic 50 értékét eltávolítottam és az így létrejött EVS i+b(ni),ex halmazzal újra elvégeztem a külső ellenőrzéseket. A végső modellek jellemzőit és statisztikai eredményeit a 18. táblázat foglalja össze. H H 35. ábra Az EVS i+b(ni) külső ellenőrző halmazból kizárt molekula 96

98 18. táblázat Az adott WS-en kiválasztott végső Akt1 modellek jellemzői és statisztikai eredményei. Illesztési módszer WS Molekula -leírók száma PLS komp. száma WS illesztés R 2 WS illesztés SEE EV Q 2 EVSi+b(ni) EV SDEP EVSi+b(ni) EV Q 2 EV SDEP EVSi+b(ni),ex EVSi+b(ni),ex MLR WS i+b(ni) 61-0,7496 0,6449 0,2321 1,2213 0,3674 1,107 PLS WS i+b(ni) ,424 1,4306-0,0713 1,4425-0,0835 1,4487 A WS i+b(ni) ,7804 0,604 0,1307 1,2995 0,4116 1, Megbeszélés A szakirodalmi adatokhoz hasonlóan megvizsgáltam, hogy az egyesített adatok modellezhetősége hogyan változik, ha eltávolítom a gátlási% hatóértékeket, valamint azokat a molekulákat, amelyek csak gátlási% hatóértéket tartalmaztak. A WS i+b(ni) halmazon kiválasztott végső modellek EVS i+b(ni) halmazon való külső ellenőrzése során kiderült, hogy egy molekula gátlóhatás becslésének nagy volt a hibája. A molekula leíróinak és pic 50 értékének eltávolításával az EVS i+b(ni),ex halmazon kapott Q 2 és SDEP értékek javultak (MLR Q 2 EVSi+b(ni) = 0,37, SDEP EVSi+b(ni) = 1,12; PLS Q 2 EVSi+b(ni)= -0,08, SDEP EVSi+b(ni) = 1,45; A Q 2 EVSi+b(ni) = 0,41, SDEP EVSi+b(ni) = 1,07), azonban ezek az értékek is rosszabbak voltak mint az egyesített szakirodalmi és belső adatokon készített modellek esetében. A teljes bemenő adathalmaz csak IC 50 értékeket tartalmazott, azonban 44%-al kevesebb szerkezetet az egyesített szakirodalmi és belső adatokhoz képest, a viszonylag sok (318) szerkezetnek közepes diverzitása volt (0,66). A modellezés során azonban nem sikerült jobban becslő modellt találni, mint a gátlási% hatóértékeket is tartalmazó szakirodalmi és belső egyesített adathalmaz esetén Akt1 modellezés eredményeinek megbeszélése A négy adathalmazon készített modellezésből megállapítható, hogy a szakirodalmi adatok és a belső vállalati adatok egyesítésével jobb becslőképességű modelleket lehet készíteni. Továbbá megállapítható, hogy a rosszabb minőségű gátlási% hatóérték felhasználásával nem jobb becslőképességű modelleket lehetett készíteni. Az összes elkészült Akt1 gátlás modell közül a szakirodalmi és belső vállalati adatokból képzett TAB i+b adathalmazon kiválasztott végső PLS modell molekulaleíróira illesztett A modell ért el a legjobb statisztikai eredményeket. Így ezt a modellt választottam ki, amit virtuális szűrésre lehet használni. 97

99 PDGFRβ gátlás modell A PDGFR aktiváló mutációi kontrollálatlan sejtszaporodást eredményeznek és elősegítik a tumor véredények fennmaradását. A PDGFR túlműködése más proliferatív megbetegedésekben is szerepet játszik, pl. atherosclerosis, restenosis, transzplantátum kilökődés [78, 94]. Szerkezeti-hatástani adatbázisunkból kigyűjtöttem az PDGFRβ kinázra vonatkozó adatokat, majd a következő szűrőfeltételeket alkalmaztam: a hatástani adat típusa IC 50 legyen, PDGFRβ enzim rekombináns technológiával legyen előállítva, ne tartalmazzon autofoszforilációs méréseket, csak számszerűsíthető értékkel megadott hatástani adatokat tartalmazzon. Ezekkel a feltételekkel 154 különböző molekulát és hozzátartozó IC 50 adatot gyűjtöttem ki [94-103]. Az kigyűjtött molekulák diverzitása a CHED szoftver számítása alapján 0,486. A molekulákat négy alapváz köré csoportosítottam, öt szerkezetet nem lehetett az általam meghatározott alapvázak köré csoportosítani (36. ábra). (A) R I(63) Ar R H II(22) Cl Cl (B) F H Br R1 H III(55) Ar H R2 H R1 IV(9) H R2 H S S H H 36. ábra (A) A modellezés során felhasznált PDGFRβ gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. (B) A modellezés során felhasznált PDGFRβ gátló vegyületek, amelyeket nem lehetett az általam meghatározott alapvázakhoz rendelni. Az IC 50 értékeket pic 50 -né alakítottam át, a többszörösen előforduló molekulák esetében pic 50 értékek átlagát vettem. A pic 50 értékek 2,84 log egységnyi tartományt fogtak át, eloszlásukat a 37. ábra mutatja be. 98

100 37. ábra PDGFRβ adatok pic 50 értékeinek eloszlása és statisztikai jellemzői db 0D, 1D, 2D, 3D Dragon 4.1 molekulaleírót és 8431 db saját fejlesztésű 3D hisztogram molekulaleírót számítottam ki. A molekulák 3D szerkezetét a Concord program segítségével állítottam elő. A modellezés további lépéseit a 3DET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. Az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WS i (munkahalmaz): 115 adatpont; EVS i (külső ellenőrző halmaz): 39 adatpont. A modell optimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q 2 volt. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit függvényillesztő módszerenként MKB-kbe gyűjtöttem. Az egyes MKB-kből kiválasztott végső/legrobusztusabb modell az volt, amelyik a legnagyobb átlagos Q 2 értéket adta a munkahalmaz 256 véletlen felezésével végrehajtott ITK-val. Az A módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a WS i halmaz a végső MLR modell molekulaleírói által meghatározott részhalmazán A illesztést végeztem két neuronnal. A WS i halmazon illesztett A modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVS i halmazon végzett külső ellenőrzés Q 2 értéke a legnagyobb legyen. 99

101 A végső modellek jellemzőit és statisztikai eredményeit a 19. táblázat foglalja össze. A végső modelleket véletlen korrelációs próbának Y randomizálásnak vetettem alá, az eredményeket a 20. táblázat mutatja be. 19. táblázat Az adott WS-en kiválasztott végső PDGFRβ modellek jellemzői és statisztikai eredményei. WS: munkahalmaz. PLS Molekulaleírók illesztés illesztés EV Q 2 EV WS WS Illesztési komp./ WS módszer neuronok száma R 2 EVS SDEP SEE EVS száma MLR WS i 17-0,6571 0,4257 0,3916 0,5512 PLS WS i ,7113 0,3906 0,3831 0,555 A WS i ,3744 0,4152 0,4930 0, táblázat A WS i halmazon kiválasztott végső MLR, PLS és A PDGFRβ modellek Q 2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjeinek eredményei. A tesztek az összes 154 molekula bevonásával történtek, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q 2 eredeti AV/SD: az eredeti Y adatok Q 2 eloszlásának átlaga és szórása. Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke MLR Q 2 / χ 2 0, ,8 MLR Q 2 / z 0,001-3,29 118,66 MLR Q 2 /Z ,10 MLR SDEP / χ 2 0, ,62 MLR SDEP / z 0,001-3,29 87,63 MLR SDEP / Z ,53 PLS Q 2 / χ 2 0, ,2 PLS Q 2 / z 0,001-3,29 80,50 PLS Q 2 /Z ,59 PLS SDEP / χ 2 0, ,67 PLS SDEP / z 0,001-3,29 100,37 PLS SDEP / Z ,32 A Q 2 / χ 2 0, ,50 A Q 2 / z 0,001-3,29 93,08 A Q 2 /Z ,41 A SDEP / χ 2 0, ,47 A SDEP / z 0,001-3,29 110,29 A SDEP / Z ,22 Q 2 eredeti AV/SD 0,44/ 0,09-0,33/ 0,14-0,37/ 0,13 A 38. ábrán a WS i halmazon kiválasztott végső MLR modell illesztésének és az EVS i halmazon való külső ellenőrzésének grafikus eredménye látható, a 39. ábra a véletlen korrelációs tesztek eredményeinek grafikus ábrázolását mutatja be, a 21. táblázat a modell molekulaleíróit sorolja fel

102 (A) (B) 38. (A) A WS i halmazon kiválasztott végső MLR PDGFRβ modell illesztése a WS i -n (B) A WS i halmazon kiválasztott végső MLR PDGFRβ modell külső ellenőrzésének eredménye a EVS i -n. (A) (B) 39. ábra (A) A végső MLR PDGFRβ modell Q 2 -re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A végső MLR PDGFRβ modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 21. táblázat A WS i halmazon kiválasztott végső MLR PDGFRβ modell molekulaleírói MD d értékük alapján sorba rendezve. A MD d értékek a WS i halmazon való illesztés alapján lettek számítva. Molekulaleíró kód MD d Molekulaleíró neve[22,35,51] RDSQ 100 reciprocal distance squared Randic-type index 2_H_C.2_ D hisztogram:13 kötésre lévő H - sp 2 C atomtípusok száma 2_C.2_H.c_ D hisztogram:13 kötésre lévő sp 2 C - CH atomtípusok száma 3_Any_C_ D hisztogram:8 Å-re lévő bármely atomtípus - C atomtípusok száma 3_C_C.2_ D hisztogram:5 Å-re lévő C-sp 2 C atomtípusok száma 2_Any_C.ar_ D hisztogram:6 kötésre lévő bármely atomtípus - aromás C atomtípusok száma VEv eigenvector coefficient sum from van der Waals weighted distance matrix 3_H_C.2_8 23 3D hisztogram: 8 Å-re lévő H - sp 2 C atomtípusok száma 3_Any_C.2_ D hisztogram:3 Å-re lévő bármely atomtípus - sp 2 C atomtípusok száma 2_C_C.ar_ D hisztogram:7 kötésre lévő C - aromás C atomtípusok száma Xindex 20.1 Balaban X index 3_Hev_Het_ D hisztogram:13 Å-re lévő bármely nehézatom - bármely heteroatom 101

103 Molekulaleíró kód MD d Molekulaleíró neve[22,35,51] (,,S,P) atomtípusok száma ESpm04r 10.7 Spectral moment 04 from edge adj. matrix weighted by resonance integrals 3 C.ar_ D hisztogram:6 Å-re lévő - aromás C atomtípusok száma 2_C_C.2_ D hisztogram:6 kötésre lévő C-sp 2 C atomtípusok száma H1u 5.4 H autocorrelation of lag 1 / unweighted PJI D Petitjean shape index Megbeszélés Mindkét végső lineáris modell külső ellenőrzésének Q 2 értéke alatta van a tapasztalati határnak (MLR Q 2 EVSi = 0,39; PLS Q 2 EVSi = 0,38), az A modell meghaladta ezt a határt (A Q 2 EVSi = 0,49). Az EV SDEP értékei nem estek bele a megszabott tapasztalati tartományba (MLR SDEP EVSi = 0,55; PLS SDEP EVSi = 0,56; A SDEP EVSi = 0,50). A WS i -n való illesztés SEE értékei (MLR SEE = 0,43; PLS SEE = 0,39; A SEE = 0,42) is kisebbek, mint az enzimatikus esszék átlagos hibája (0,5). A végső modellek Q 2 eredményeit értékelve a kétmintás z-próba és a χ 2 és SDEP mérőszámra elvégzett Y-randomizálás statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ 2 értékei mindhárom végső modell és mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális értékhez közel voltak, de nem érték el, vagyis az eloszlások kismértékben átfedtek. A Z értékek mindhárom modell és mindkét mérőszám esetében nulla alatt voltak. Ezek alapján megállapítható, hogy a modellek molekulaleírói közül néhány véletlenszerűen korrelál a hatással. A végső modellek az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett Q 2 eloszlásainak átlagai kisebbek voltak, mint a virtuális szűrésre kiválasztott EGFR vagy Akt1 modellek esetében (MLR Q 2 orig,av = 0,44; PLS Q 2 orig,av = 0,33; A Q 2 orig,av = 0,37), valamint az eloszlások szórása nagyobb (MLR Q 2 orig,sd = 0,09; PLS Q 2 orig,sd = 0,14; A Q 2 orig,sd = 0,13). Ebből az következik, hogy bár a végső modellek a teljes bemenő adathalmazon a legtöbb felosztásra jobb becslést adnak, mint a pic 50 értékek átlagából képzett legegyszerűbb modell (Q 2 =0), de az átlaghoz tartozó viszonylag nagy szórás jelzi, hogy számos érték közel van a nullához, illetve néhány érték nulla alatt van. Ezt az MLR modell esetében a 39. ábra is szemlélteti, a PLS és A modellek esetében több Q 2 érték van nulla alatt. 102

104 A végső modellek majdnem elérik a külső ellenőrzésen a tapasztalati Q 2 értéket (0,4). A túl kicsi SEE és SDEP értékek viszont azt mutatják, hogy a modell már valószínűleg a kísérleti hibát is leírja. A nulla alatti Z érték pedig valószínűsíti a molekulaleírók véletlen korrelációját. Egy másik magyarázata a rossz Z értékeknek és az eloszlások egymásba csúszásának, hogy a bemenő pic 50 értékek tartománya csak 2,84 log egység és bemenő adatok szerkezeteinek túl kicsi a diverzitása a legkisebb a disszertációban bemutatottak közül így az Y adatok összekeverése után számos szerkezetileg hasonló molekula hasonló pic 50 értéket kaphatott az eredetihez képest. A végső A modell adta a legnagyobb Q 2 értéket és a legkisebb SDEP értéket a külső ellenőrzésen, azonban az eredeti Y adatok Q 2 eloszlásának átlaga kisebb, mint az MLR modell esetében, vagyis a modell nem annyira robosztus. A nagy Q 2 érték az EVn inkább egy szerencsés véletlen felosztásnak és az A hatékony illesztő képességének köszönhető. Egyik végső modell sem használható fel megbízhatóan virtuális szűrésre. A modell nem megfelelő becslőképességének okai lehetnek: a viszonylag kevés molekulaszám, az kicsi diverzitás és a pic 50 értékek szűk tartománya. Az új modellezés előtt mindenképpen további mérési eredmények összegyűjtése szükséges CDK4 gátlás modell A ciklin függő kinázok (CDK) hibás működése alapvetően a sejtciklus szabályozás folyamatának sérülésében jelentkezik. A CDK4 enzim aktivitásának gátlása leállítja a rákos sejtek ciklusát a G0/G1 fázisban és nem engedi az S fázisba lépni, így osztódni sem tud a rákos sejt [104]. Szerkezeti-hatástani adatbázisunkból kigyűjtöttem a CDK4 kinázra vonatkozó adatokat, majd a következő szűrőfeltételeket alkalmaztam: a hatástani adat típusa IC 50 legyen, CDK4 enzim rekombináns technológiával legyen előállítva, csak számszerűsíthető értékkel megadott biológiai adatokat tartalmazzon. Ezekkel a feltételekkel 186 különböző molekulát és hozzátartozó IC 50 adatot gyűjtöttem ki [ ]. Az kigyűjtött molekulák diverzitása a CHED szoftver számítása alapján 0,733. A molekulákat tizennégy alapváz köré csoportosítottam, hét molekulát nem lehetett az általam meghatározott alapvázak köré csoportosítani (40. ábra). 103

105 R1 (A) R1 R1 S R2 I(49) R3 R2 IV(8) H H R2 VII( 5) H R2 R3 R1 II(13) V(6) R3 R VIII(4) R1 H [H,F,Cl,Br] R1 H 2 H IX(9) III(57) H R2 R2 R1 R1 H VI(4) H R2 X(7) R3 H H R2 (B) Br H H + H H H H 2 S H H H H 2 S H H H H H XI(8) R R1 R2 XII(6) H H R1 XIII(2) R H R1 XIV(2) H R2 H H H 2 H ábra (A) A modellezés során felhasznált CDK4 gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. (B) A modellezés során felhasznált CDK4 gátló vegyületek, amelyeket nem lehetett az általam meghatározott alapvázakhoz rendelni. Az IC 50 értékeket pic 50 -né alakítottam át, a többszörösen előforduló molekulák esetében a pic 50 értékek átlagát vettem. A pic 50 értékek 6,16 log egységnyi tartományt fogtak át, eloszlásukat a 41. ábra mutatja be. 41. ábra CDK4 adatok pic 50 értékeinek eloszlása és statisztikai jellemzői. 891 db 0D, 1D, 2D Dragon 4.1 molekulaleírót, 427 db 2D ME molekulaleírót és 4353 db saját fejlesztésű 2D hisztogram molekulaleírót számítottam ki. A modellezés további lépéseit a 3DET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek 104

106 segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. Az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WS i (munkahalmaz): 139 adatpont; EVS i (külső ellenőrző halmaz): 47 adatpont. A modell optimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q 2 volt. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit függvényillesztő módszerenként MKB-kbe gyűjtöttem. Az egyes MKB-kből kiválasztott végső/legrobusztusabb modell az volt, amelyik a legnagyobb átlagos Q 2 értéket adta a munkahalmaz 256 véletlen felezésével végrehajtott ITK-val. Az A módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a WS i halmaz a végső MLR modell molekulaleírói által meghatározott részhalmazán A illesztést végeztem két neuronnal. A WS i halmazon illesztett A modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVS i halmazon végzett külső ellenőrzés Q 2 értéke a legnagyobb legyen. A végső modellek jellemzőit és statisztikai eredményeit a 22. táblázat foglalja össze. A végső modelleket véletlen korrelációs próbának Y randomizálásnak vetettem alá, eredményeket a 23. táblázat mutatja be. 22. táblázat Az adott WS-en kiválasztott végső CDK4 modell jellemzői és statisztikai eredményei. Molekulaleírók neuronok illesztés illesztés EV Q 2 EV PLS komp./ WS WS Illesztési WS módszer száma száma R 2 EVSi SDEP SEE EVSi MLR WS i 21-0,9053 0,4213 0,6979 0,7706 PLS WS i ,7555 0,6769 0,6502 0,8293 A WS i ,9046 0,4228 0,7096 0, táblázat A WS i halmazon kiválasztott végső MLR, PLS és A CDK4 modellek Q 2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjének eredményei. A teszt az összes 186 molekula bevonásával történt, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q 2 eredeti AV/SD: az eredeti Y adatok Q 2 eloszlásának átlaga és szórása. Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke MLR Q 2 / χ 2 0, MLR Q 2 / z 0,001-3,29 201,18 MLR Q 2 /Z ,44 MLR SDEP / χ 2 0, MLR SDEP / z 0,001-3,29 268,15 MLR SDEP / Z ,53 PLS Q 2 / χ 2 0, PLS Q 2 / z 0,001-3,29 217,36 PLS Q 2 /Z ,43 PLS SDEP / χ 2 0, PLS SDEP / z 0,001-3,29 223,07 Q 2 eredeti AV/SD 0,80/ 0,04-0,67/ 0,04-105

107 Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke PLS SDEP / Z ,41 A Q 2 / χ 2 0, A Q 2 / z 0,001-3,29 143,07 A Q 2 /Z ,22 A SDEP / χ 2 0, A SDEP / z 0,001-3,29 240,27 A SDEP / Z ,46 Q 2 eredeti AV/SD 0,77/ 0,05 A 42. ábrán a WS i halmazon kiválasztott végső MLR modell illesztésének és az EVS i halmazon való külső ellenőrzésének grafikus eredménye látható, a 43. ábra a véletlen korrelációs teszt eredményének grafikus ábrázolását mutatja be, a 24. táblázat a modell molekulaleíróit sorolja fel. (A) (B) ábra (A) A WS i halmazon kiválasztott végső MLR CDK4 modell illesztése a WS i -n (B) A WS i halmazon kiválasztott végső MLR CDK4 modell külső ellenőrzésének eredménye a EVS i -n. (A) (B) 43. ábra (A) A végső MLR CDK4 modell Q 2 -re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A végső MLR CDK4 modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok. 106

108 24. táblázat A végső MLR CDK4 modell molekulaleírói MD d értékük alapján sorba rendezve. A MD d értékek a WS i halmazon való illesztés alapján lettek számítva. Molekulaleíró kód MD d Molekulaleíró neve[22,35,51] 2_Hev_H.n_ D hisztogram:7 kötésre lévő nehézatom - H atomtípusok száma 2_Hev_C.2_ D hisztogram:10 kötésre lévő nehézatom - sp 2 C atomtípusok száma 2_Hev_H.na_ D hisztogram:7 kötésre lévő nehézatom - H (nem amid ) atomtípusok száma 2_C_C.2_ D hisztogram: 9 kötésre lévő C - sp 2 C atomtípusok száma EEig13x Eigenvalue 13 from edge adj. matrix weighted by edge degrees 2_H.c_H.na_ D hisztogram:8 kötésre lévő CH- H (nem amid ) atomtípusok száma 2_Hev_H.n_ D hisztogram:3 kötésre lévő nehézatom - H atomtípusok száma 2_C_.pl3_ D hisztogram: 6 kötésre lévő C 2 atomtípusok száma ESpm02d Spectral moment 02 from edge adj. matrix weighted by dipole moments 2_Any_H.c_ D hisztogram: 16 kötésre lévő bármely atom CH atomtípusok száma GGI topological charge index of order 2 2_H_.2o_ D hisztogram: 5 kötésre lévő H - sp 2 atomtípusok száma 2_C.ar_H.d_ D hisztogram: 8 kötésre lévő aromás C hidrogénhíd kötés donor H atomtípusok száma EEig10x Eigenvalue 10 from edge adj. Matrix weighted by edge degrees 2_Hev_.pl3_ D hisztogram: 2 kötésre lévő nehézatom 2 atomtípusok száma 2_Hev_C.ar_ D hisztogram: 12 kötésre lévő nehézatom aromás C atomtípusok száma 2 C.ar_ D hisztogram: 5 kötésre lévő aromás C atomtípusok száma 2_H_.ar6_ D hisztogram: 4 kötésre lévő H hattagú gyűrűben lévő aromás atomtípusok száma 2_Hev_H_ D hisztogram: 13 kötésre lévő nehézatom H atomtípusok száma 2_Hev_H.d_ D hisztogram: 7 kötésre lévő nehézatom hidrogénhíd kötés donor H atomtípusok száma PEE_VSA Sum of vi where qi is in the range [-0.05,0.00) 107

109 Megbeszélés Mindhárom végső modell külső ellenőrzésének Q 2 értéke felül van a tapasztalati határon (MLR Q 2 EVSi = 0,70; PLS Q 2 EVSi = 0,65; A Q 2 EVSi = 0,71). Az EV SDEP értékek az MLR (SDEP EVSi = 0,77) és az A (SDEP EVSi = 0,76) modellek esetében kívül estek a tapasztalati tartományon, sőt a WS i -n való illesztés SEE érték (MLR SEE = 0,42; A SEE = 0,42) is kisebbek, mint 0,5, tehát feltételezhető, hogy a modellek véletlen korreláció eredményei. A végső modellek Q 2 és SDEP mérőszámra elvégzett Y-randomizálás eredményeit értékelve a kétmintás z-próba és a χ 2 statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ 2 értékei mindhárom végső modell és mindkét mérőszám esetében az adott szabadságfokhoz tartozó maximális érték, vagyis az eloszlások nem fedtek át A Z értékek mindhárom modell és mindkét mérőszám esetében nulla felett voltak. Ezek alapján megállapítható, hogy a modellek nem a molekulaleírók véletlen korrelációjának eredményei. A végső modellek az eredeti Y adatok halmazán végzett 1024 véletlen felezéssel képzett Q 2 eloszlásainak átlagai 0,67 és 0,80 között voltak. Az eloszlások szórása az átlagokhoz képest is kicsi (0,04-0,05), így a Q 2 érték még háromszoros szórással számítva sem éri el a nullát. Ebből az következik, hogy a végső modellek a 186 molekulát tartalmazó bemenő adathalmazon robusztus, és minden felosztásra határozottan jobb becslést adnak, mint a pic 50 értékek átlagából képzett legegyszerűbb modell (Q 2 =0). Az EGFR (623) vagy Akt1 (717) gátlás modellezésében felhasznált molekulák számához képest kisebb elemszám (186) ellenére a végső CDK4 modelleknek jó a becslőképességük. Ennek elérésében szerepet játszott a molekulák viszonylag nagy diverzitása (0,73), a pic 50 értékek megfelelő eloszlása és széles tartománya (6,16 log egység). A végső modellek közül az MLR és az A modellek jobb statisztikai eredményeket adtak, mint a PLS modell. A két modell Y randomizálás teszten adott jó statisztikai értékei azt mutatták, hogy a modellek nem véletlen korreláció eredményei. A kettő közül az A modell jobban illesztette a WS i halmazt, valamint jobb 108

110 eredményeket ért el a külső ellenőrzésen, azonban mégis az MLR modellt választottam, amit lehet virtuális szűrésre használni, mivel nagyobb volt a teljes bemenő halmazon végzett véletlen felezésekkel kapott Q 2 értékek átlaga (MLR Q 2 orig,av = 0,80), mint az A modell esetében (A Q 2 orig,av = 0,77), azaz az MLR modell robusztusabb modell. Ez a modell 21 molekulaleírót tartalmazott RCK-II gátlás modell A Rho kináz (RCK) a szerin/treonin kinázok családjába tartozik. Két izoformáját írták le eddig: RCK-I (p160 RCK, RKβ) és RCK-II (RKα). A két izoforma között 60%-os az aminosav szekvencia azonosság, az -terminális domén aminosav szekvenciája 90%-ban azonos. A fasudil nevű RCK inhibitort számos helyen alkalmazzák klinikai terápiás gyakorlatban pl. stabil angina, akut iszkémiás stroke, agyi érgörcs kezelésére. A RCK enzim gátlása számos preklinikai modellen is hatást mutat pl. erektilis diszfunkció, glaukóma, szklerózis multiplex, gerincvelő sérülés, glióma, nem-kissejtes tüdőrák [78, 122]. Szerkezeti-hatástani adatbázisunkból kigyűjtöttem a RCK-II kinázra vonatkozó adatokat, amelyek nem a szakirodalomból származtak, hanem belső vállalati adatok. A mérést az egyik kooperációs partnerünk végezte. A mérés rekombináns enzimen történt. 40 különböző molekulát és hozzátartozó számszerűsíthető értékkel rendelkező IC 50 adatot gyűjtöttem ki. Az kigyűjtött molekulák diverzitása a CHED szoftver számítása alapján 0,712. A molekulákat 9 alapváz köré csoportosítottam (44. ábra). Ar R S H R R1 R2 I(10) II(11) III(6) H R S H VI(2) VII(2) VIII(2) R4 R3 H R R1 [C,] 44. ábra A modellezés során felhasznált RCK-II gátló vegyületek alapvázai. Zárójelben az adott alapvázhoz tartozó molekulák darabszáma látható. R Az IC 50 értékeket pic 50 -né alakítottam át, a többszörösen előforduló molekulák esetében a pic 50 értékek átlagát vettem. A pic 50 értékek 2,4 log egységnyi tartományt fogtak át, eloszlásukat a 45. ábra mutatja be. IV(3) IX(1) V(3) R2 R3 109

111 45. ábra RCK-II adatok pic 50 értékeinek eloszlása és statisztikai jellemzői. 891 db 0D, 1D, 2D Dragon 4.1 molekulaleírót, 427 db 2D ME molekulaleírót és 2919 db saját fejlesztésű 2D hisztogram molekulaleírót számítottam ki. A modellezés további lépéseit a 3DET4W szoftverrel végeztem. A bemenő XYD fájl konstans és kollineáris molekulaleíróit eltávolítottam, majd az 1D és 2D előszűrő módszerek segítségével néhány százra szűkítettem a bemenő molekulaleíró számot. Az előszűrt bemenő XYD fájlt véletlenszerűen két részre bontottam: WS b (munkahalmaz): 30 adatpont; EVS b (külső ellenőrző halmaz): 10 adatpont. A modell optimalizálást MLR és PLS illesztési módszerekkel végeztem, változó kiválasztásra GA-t használtam, az optimalizálandó mérőszám a Q 2 volt. A VSS során a beállított határértéknél jobban becslő modellek molekulaleíróit függvényillesztő módszerenként MKB-kbe gyűjtöttem. Az egyes MKB-kből kiválasztott végső/legrobusztusabb modell az volt, amelyik a legnagyobb átlagos Q 2 értéket adta a munkahalmaz 256 véletlen felezésével végrehajtott ITK-val. Az A módszer esetében nem történt molekulaleíró kiválasztás. A modellt úgy készítettem, hogy a WS b halmaz a végső PLS modell molekulaleírói által meghatározott részhalmazán A illesztést végeztem két neuronnal. A WS b halmazon illesztett A modell neuron számát próbálgatással állapítottam meg úgy, hogy az EVS b halmazon végzett külső ellenőrzés Q 2 értéke a legnagyobb legyen. A végső modellek jellemzőit és statisztikai eredményeit a 25. táblázat foglalja össze. A végső modelleket véletlen korrelációs próbának Y randomizálásnak vetettem alá, eredményeket a 26. táblázat mutatja be. 110

112 25. táblázat Az adott WS-en kiválasztott végső RCK-II modell jellemzői és statisztikai eredményei. Molekulaleírók neuronok illesztés illesztés EV Q 2 EV PLS komp./ WS WS Illesztési WS módszer száma száma R 2 EVSb SDEP SEE EVSb MLR WS b 6-0,6906 0,3382-0,2204 0,5970 PLS WS b ,8337 0,2301 0,4045 0,4130 A WS b ,9607 0,1121-0,1800 0, táblázat A WS b halmazon kiválasztott végső MLR, PLS és A RCK-II modellek Q 2 és SDEP mérőszámra vonatkozó véletlen korrelációs tesztjének eredményei. A teszt az összes 40 molekula bevonásával történt, 1024 véletlen felezéssel végrehajtott ITK-val. SzF: szabadsági fok. Q 2 eredeti AV/SD: az eredeti Y adatok Q 2 eloszlásának átlaga és szórása. Modell Tesztelt mérőszám /Teszt típusa p SzF Krit. érték Teszt értéke MLR Q 2 / χ 2 0, ,19 MLR Q 2 / z 0,001-3,29 44,81 MLR Q 2 /Z ,67 MLR SDEP / χ 2 0, ,78 MLR SDEP / z 0,001-3,29 62,54 MLR SDEP / Z ,12 PLS Q 2 / χ 2 0, ,90 PLS Q 2 / z 0,001-3,29 30,07 PLS Q 2 /Z ,06 PLS SDEP / χ 2 0, ,02 PLS SDEP / z 0,001-3,29 55,15 PLS SDEP / Z ,32 A Q 2 / χ 2 0, ,7 A Q 2 / z 0,001-3,29 28,48 A Q 2 /Z ,02 A SDEP / χ 2 0, ,28 A SDEP / z 0,001-3,29 45,23 A SDEP / Z ,79 Q 2 eredeti AV/SD 0,09/ 0,38-0,36/ 0, ,04/ 0,68 A 46. ábrán a WS b halmazon kiválasztott végső PLS modell illesztésének és az EVS b halmazon való külső ellenőrzésének grafikus eredménye látható, a 47. ábra a véletlen korrelációs teszt eredményének grafikus ábrázolását mutatja be

113 (A) (B) 46. ábra (A) A WS b halmazon kiválasztott végső PLS RCK-II modell illesztése a WS b -n (B) A WS b halmazon kiválasztott végső PLS RCK-II modell külső ellenőrzésének eredménye a EVS b -n. (A) (B) 47. ábra (A) A végső PLS RCK-II modell Q 2 -re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (jobb): eredeti Y adatok, piros hisztogram (bal): összekevert Y adatok. (B) A végső PLS RCK-II modell SDEP-re vonatkozó véletlen korrelációs tesztje. Zöld hisztogram (bal): eredeti Y adatok, piros hisztogram (jobb): összekevert Y adatok Megbeszélés A végső modellek közül csak PLS modell Q 2 értéke van a tapasztalati határ felett (PLS Q 2 EVSb = 0,40). Az EV SDEP értékei nem estek bele a megszabott tapasztalati tartományba (MLR SDEP EVSb = 0,60; PLS SDEP EVSb = 0,41; A SDEP EVSb = 0,58). A WS b -n való illesztés SEE értékei (MLR SEE = 0,43; PLS SEE = 0,39; A SEE = 0,42) is kisebbek, mint az enzimatikus esszék átlagos hibája (0,5), tehát feltételezhető, hogy a modellek véletlen korreláció eredményei. A végső modellek Q 2 eredményeit értékelve a kétmintás z-próba és a χ 2 és SDEP mérőszámra elvégzett Y-randomizálás statisztika szignifikáns eltérést mutatott, így elvetettem a nullhipotézist. A χ 2 értékei mindhárom végső modell és 112

Kináz gátló molekulák szerkezet - hatás/tulajdonság. összefüggéseinek vizsgálata számított és mért. paraméterek alapján, és alkalmazásuk a

Kináz gátló molekulák szerkezet - hatás/tulajdonság. összefüggéseinek vizsgálata számított és mért. paraméterek alapján, és alkalmazásuk a Kináz gátló molekulák szerkezet - hatás/tulajdonság összefüggéseinek vizsgálata számított és mért paraméterek alapján, és alkalmazásuk a gyógyszertervezésben és a gyógyszerfejlesztésben PhD doktori disszertáció

Részletesebben

Kinázgátlók szerkezet-hatás összefüggései

Kinázgátlók szerkezet-hatás összefüggései Kinázgátlók szerkezet-hatás összefüggései Doktori tézisek Szántai-Kis Csaba Semmelweis Egyetem Gyógyszertudományok Doktori Iskola Témavezető: Hivatalos bírálók: Dr. Őrfi László egyetemi docens, Ph.D. Dr.

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Al-Mg-Si háromalkotós egyensúlyi fázisdiagram közelítő számítása

Al-Mg-Si háromalkotós egyensúlyi fázisdiagram közelítő számítása l--si háromalkotós egyensúlyi fázisdiagram közelítő számítása evezetés Farkas János 1, Dr. Roósz ndrás 1 doktorandusz, tanszékvezető egyetemi tanár Miskolci Egyetem nyag- és Kohómérnöki Kar Fémtani Tanszék

Részletesebben

Mérési adatok illesztése, korreláció, regresszió

Mérési adatok illesztése, korreláció, regresszió Mérési adatok illesztése, korreláció, regresszió Korreláció, regresszió Két változó mennyiség közötti kapcsolatot vizsgálunk. Kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában,

Részletesebben

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László A kockázat alapú felülvizsgálati és karbantartási stratégia alkalmazása a MOL Rt.-nél megvalósuló Statikus Készülékek Állapot-felügyeleti Rendszerének kialakításában II. rész: a rendszer felülvizsgálati

Részletesebben

Felhő használata mindennapi alkalmazások futtatására. Németh Zsolt MTA SZTAKI

Felhő használata mindennapi alkalmazások futtatására. Németh Zsolt MTA SZTAKI Felhő használata mindennapi alkalmazások futtatására Németh Zsolt MTA SZTAKI Legyőzni a maláriát 45 másodpercenként meghal egy gyerek maláriában Évente 216 millió ember fertőződik meg és 650000 meghal

Részletesebben

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu Számonkérés 2 Papíros (90 perces) zh az utolsó gyakorlaton. Segédanyag nem használható Tematika 1. félév 3 Óra Dátum Gyakorlat 1. 2010.09.28.

Részletesebben

Adatbázis rendszerek. dr. Siki Zoltán

Adatbázis rendszerek. dr. Siki Zoltán Adatbázis rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati személyzeti

Részletesebben

TDK lehetőségek az MTA TTK Enzimológiai Intézetben

TDK lehetőségek az MTA TTK Enzimológiai Intézetben TDK lehetőségek az MTA TTK Enzimológiai Intézetben Vértessy G. Beáta egyetemi tanár TDK mind 1-3 helyezettek OTDK Pro Scientia különdíj 1 második díj Diákjaink Eredményei Zsűri különdíj 2 első díj OTDK

Részletesebben

Internet alkamazások Készítette: Methos L. Müller Készült: 2010

Internet alkamazások Készítette: Methos L. Müller Készült: 2010 Internet alkamazások Készítette: Methos L. Müller Készült: 2010 Tartalomjegyzék - Tartalomkezelő rendszerek Miért jó a CMS alapú website? CMS rendszerek - Mi szükséges ezen CMS-ekhez? - Információ építészet

Részletesebben

Mérési hibák 2006.10.04. 1

Mérési hibák 2006.10.04. 1 Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség

Részletesebben

Koós Dorián 9.B INFORMATIKA

Koós Dorián 9.B INFORMATIKA 9.B INFORMATIKA Számítástechnika rövid története. Az elektronikus számítógép kifejlesztése. A Neumann-elv. Információ és adat. A jel. A jelek fajtái (analóg- és digitális jel). Jelhalmazok adatmennyisége.

Részletesebben

Adatbázis, adatbázis-kezelő

Adatbázis, adatbázis-kezelő Adatbázisok I. rész Adatbázis, adatbázis-kezelő Adatbázis: Nagy adathalmaz Közvetlenül elérhető háttértárolón (pl. merevlemez) Jól szervezett Osztott Adatbázis-kezelő szoftver hozzáadás, lekérdezés, módosítás,

Részletesebben

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

Inczédy György Középiskola, Szakiskola és Kollégium Nyíregyháza, Árok u. 53. TANMENET. Informatika szakmacsoport

Inczédy György Középiskola, Szakiskola és Kollégium Nyíregyháza, Árok u. 53. TANMENET. Informatika szakmacsoport TANMENET Informatika szakmacsoport Programozási gyakorlatok III. tantárgy 12. évfolyam A osztály 2013/2014 tanév Heti óraszám: Éves óraszám: 3 óra 96 óra Készítette: Szikszai Gusztáv tanár Ellenőrizte:.

Részletesebben

CancerGrid - Grid alkalmazása rákellenes hatóanyagok keresésének felgyorsítására

CancerGrid - Grid alkalmazása rákellenes hatóanyagok keresésének felgyorsítására CancerGrid - Grid alkalmazása rákellenes hatóanyagok keresésének felgyorsítására Kovács József smith@sztaki.hu MTA SZTAKI Networkshop, Debrecen 2010 Tartalom A CancerGrid projekt Főbb adatai/célja Rövid

Részletesebben

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás A feladatok megoldásához használandó adatállományok: potzh és potolando (weboldalon találhatók) Az állományok kiterjesztése sas7bdat,

Részletesebben

Közoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató

Közoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató Közoktatási Statisztika Tájékoztató 2012/2013 Tartalomjegyzék 1. Technikai információk... 2 2. Publikus felület... 2 2.1 Bejelentkezés... 2 2.2 Összesítés... 3 2.2.1 Statisztikai tábla megtekintése...

Részletesebben

SZERKEZET ALAPÚ VIRTUÁLIS SZŰRŐVIZSGÁLATOK A GYÓGYSZERKUTATÁS KORAI FÁZISÁBAN

SZERKEZET ALAPÚ VIRTUÁLIS SZŰRŐVIZSGÁLATOK A GYÓGYSZERKUTATÁS KORAI FÁZISÁBAN Ph.D. ÉRTEKEZÉS TÉZISEI Polgár Tímea SZERKEZET ALAPÚ VIRTUÁLIS SZŰRŐVIZSGÁLATOK A GYÓGYSZERKUTATÁS KORAI FÁZISÁBAN Témavezető: Dr. Keserű György Miklós az MTA doktora Richter Gedeon Rt. 2006. 1. Bevezetés

Részletesebben

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat. Súgó Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat. A lekérdező rendszer a Hírközlési Szolgáltatások és Interfész bejelentések, valamint az

Részletesebben

II./3.3.2 fejezet:. A daganatok célzott kezelése

II./3.3.2 fejezet:. A daganatok célzott kezelése II./3.3.2 fejezet:. A daganatok célzott kezelése Kopper László A fejezet célja, hogy megismerje a hallgató a célzott terápiák lehetőségeit és a fejlesztés lényeges lépéseit. A fejezet teljesítését követően

Részletesebben

Tudásmenedzsment és gyógyszerinnováció

Tudásmenedzsment és gyógyszerinnováció Tudásmenedzsment és gyógyszerinnováció Ipari szükségletek / elvárások Dr. Bátori Sándor Sanofi-aventis Innovatív Gyógyszerek Kutatása, MAGYOSZ, 2009.01.07. Alapvető együttm ttműködések Hosszútávú elhatározás:

Részletesebben

INFORMATIKAI ALAPISMERETEK

INFORMATIKAI ALAPISMERETEK Informatikai alapismeretek középszint 0621 ÉRETTSÉGI VIZSGA 2007. május 25. INFORMATIKAI ALAPISMERETEK KÖZÉPSZINTŰ ÍRÁSBELI ÉRETTSÉGI VIZSGA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ OKTATÁSI ÉS KULTURÁLIS MINISZTÉRIUM

Részletesebben

TERC V.I.P. hardverkulcs regisztráció

TERC V.I.P. hardverkulcs regisztráció TERC V.I.P. hardverkulcs regisztráció 2014. második félévétől kezdődően a TERC V.I.P. költségvetés-készítő program hardverkulcsát regisztrálniuk kell a felhasználóknak azon a számítógépen, melyeken futtatni

Részletesebben

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Networkshop, 2008 Márc. 17 19., Dunaújváros Holl Erdődi: Fejlett kereső... 1 Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Holl András Erdődi Péter MTA Konkoly Thege Miklós

Részletesebben

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

A tízezer mérföldes utazás is egyetlen lépéssel kezdődik. "A tízezert mérföldes utazás is egyetlen lépéssel kezdődik dik." A BINB INSYS Előadók: Kornafeld Ádám SYS PROJEKT Ádám MTA SZTAKI kadam@sztaki.hu Kovács Attila ELTE IK attila@compalg.inf.elte.hu Társszerzők:

Részletesebben

A pedagógiai kutatás metodológiai alapjai. Dr. Nyéki Lajos 2015

A pedagógiai kutatás metodológiai alapjai. Dr. Nyéki Lajos 2015 A pedagógiai kutatás metodológiai alapjai Dr. Nyéki Lajos 2015 A pedagógiai kutatás jellemző sajátosságai A pedagógiai kutatás célja a személyiség fejlődése, fejlesztése során érvényesülő törvényszerűségek,

Részletesebben

Adatbázis rendszerek 7. előadás State of the art

Adatbázis rendszerek 7. előadás State of the art Adatbázis rendszerek 7. előadás State of the art Molnár Bence Szerkesztette: Koppányi Zoltán Osztott adatbázisok Osztott rendszerek Mi is ez? Mi teszi lehetővé? Nagy sebességű hálózat Egyre olcsóbb, és

Részletesebben

A PET szerepe a gyógyszerfejlesztésben. Berecz Roland DE KK Pszichiátriai Tanszék

A PET szerepe a gyógyszerfejlesztésben. Berecz Roland DE KK Pszichiátriai Tanszék A PET szerepe a gyógyszerfejlesztésben Berecz Roland DE KK Pszichiátriai Tanszék Gyógyszerfejlesztés Felfedezés gyógyszertár : 10-15 év Kb. 1 millárd USD/gyógyszer (beleszámolva a sikertelen fejlesztéseket)

Részletesebben

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv? BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv? Készítették: Névery Tibor és Széll Ildikó PPKE I. évf. kiadói szerkesztő hallgatók, közösen 1 BEVEZETŐ Az elektronikus könyv valamilyen

Részletesebben

PHP-MySQL. Adatbázisok gyakorlat

PHP-MySQL. Adatbázisok gyakorlat PHP-MySQL Adatbázisok gyakorlat Weboldalak és adatbázisok Az eddigiek során megismertük, hogyan lehet a PHP segítségével dinamikus weblapokat készíteni. A dinamikus weboldalak az esetek többségében valamilyen

Részletesebben

S atisztika 2. előadás

S atisztika 2. előadás Statisztika 2. előadás 4. lépés Terepmunka vagy adatgyűjtés Kutatási módszerek osztályozása Kutatási módszer Feltáró kutatás Következtető kutatás Leíró kutatás Ok-okozati kutatás Keresztmetszeti kutatás

Részletesebben

Informatikai alapismeretek Földtudományi BSC számára

Informatikai alapismeretek Földtudományi BSC számára Informatikai alapismeretek Földtudományi BSC számára 2010-2011 Őszi félév Heizlerné Bakonyi Viktória HBV@ludens.elte.hu Titkosítás,hitelesítés Szimmetrikus DES 56 bites kulcs (kb. 1000 év) felcserél, helyettesít

Részletesebben

Microsoft Excel 2010

Microsoft Excel 2010 Microsoft Excel 2010 Milyen feladatok végrehajtására használatosak a táblázatkezelők? Táblázatok létrehozására, és azok formai kialakítására A táblázat adatainak kiértékelésére Diagramok készítésére Adatbázisok,

Részletesebben

Dózis-válasz görbe A dózis válasz kapcsolat ábrázolása a legáltalánosabb módja annak, hogy bemutassunk eredményeket a tudományban vagy a klinikai

Dózis-válasz görbe A dózis válasz kapcsolat ábrázolása a legáltalánosabb módja annak, hogy bemutassunk eredményeket a tudományban vagy a klinikai Dózis-válasz görbe A dózis válasz kapcsolat ábrázolása a legáltalánosabb módja annak, hogy bemutassunk eredményeket a tudományban vagy a klinikai gyakorlatban. Például egy kísérletben növekvő mennyiségű

Részletesebben

Intelligens biztonsági megoldások. Távfelügyelet

Intelligens biztonsági megoldások. Távfelügyelet Intelligens biztonsági megoldások A riasztást fogadó távfelügyeleti központok felelősek a felügyelt helyszínekről érkező információ hatékony feldolgozásáért, és a bejövő eseményekhez tartozó azonnali intézkedésekért.

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények 1. sz. melléklet MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS A) Műszaki követelmények A körkereső szoftvernek (a továbbiakban Szoftver) az alábbi követelményeknek kell megfelelnie

Részletesebben

Verifikáció és validáció Általános bevezető

Verifikáció és validáció Általános bevezető Verifikáció és validáció Általános bevezető Általános Verifikáció és validáció verification and validation - V&V: ellenőrző és elemző folyamatok amelyek biztosítják, hogy a szoftver megfelel a specifikációjának

Részletesebben

1. fejezet Bevezetés a web programozásába (Balássy György munkája)... 11 Az internet működése... 11

1. fejezet Bevezetés a web programozásába (Balássy György munkája)... 11 Az internet működése... 11 Tartalomjegyzék 1. fejezet Bevezetés a web programozásába (Balássy György munkája)... 11 Az internet működése... 11 Géptől gépig... 11 Számok a gépeknek... 13 Nevek az embereknek... 14 Programok egymás

Részletesebben

Peltier-elemek vizsgálata

Peltier-elemek vizsgálata Peltier-elemek vizsgálata Mérés helyszíne: Vegyész labor Mérés időpontja: 2012.02.20. 17:00-20:00 Mérés végrehatói: Budai Csaba Sánta Botond I. Seebeck együttható közvetlen kimérése Az adott P-N átmenetre

Részletesebben

FANUC Robotics Roboguide

FANUC Robotics Roboguide FANUC Robotics Roboguide 2010. február 9. Mi Mi az az a ROBOGUIDE Robot rendszer animációs eszköz ROBOGUIDE is an off-line eszköz a robot rendszer beállításához és karbantartásához ROBOGUIDE is an on-line

Részletesebben

INFORMATIKAI ALAPISMERETEK

INFORMATIKAI ALAPISMERETEK ÉRETTSÉGI VIZSGA 2005. május 20. INFORMATIKAI ALAPISMERETEK KÖZÉPSZINTŰ ÉRETTSÉGI VIZSGA Az írásbeli vizsga időtartama: 180 perc JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ OKTATÁSI MINISZTÉRIUM Megoldási útmutató I.

Részletesebben

Vonalkód olvasó rendszer. Specifikáció Vonalkód olvasó rendszer SoftMaster Kft. [1]

Vonalkód olvasó rendszer. Specifikáció Vonalkód olvasó rendszer SoftMaster Kft. [1] Specifikáció Vonalkód olvasó rendszer SoftMaster Kft. [1] T a r t a l o m j e g y z é k 1 Bevezetés... 3 1.1 A rendszer rövid leírása... 3 1.2 A dokumentum célja... 3 1.3 A rendszer komponensei... 3 1.4

Részletesebben

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI MÉRÉSI EREDMÉYEK POTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI. A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk

Részletesebben

A Clipper evolúciója

A Clipper evolúciója A Clipper evolúciója Ismét itt a nyár, a szabadságolások, és ismét dupla számmal jelentkezünk. Egy könnyedebb nyári tartalom érdekében, ebben a számban összefoglaljuk, mi történik a verzióváltáskor. A

Részletesebben

DETERMINATION OF SHEAR STRENGTH OF SOLID WASTES BASED ON CPT TEST RESULTS

DETERMINATION OF SHEAR STRENGTH OF SOLID WASTES BASED ON CPT TEST RESULTS Műszaki Földtudományi Közlemények, 83. kötet, 1. szám (2012), pp. 271 276. HULLADÉKOK TEHERBÍRÁSÁNAK MEGHATÁROZÁSA CPT-EREDMÉNYEK ALAPJÁN DETERMINATION OF SHEAR STRENGTH OF SOLID WASTES BASED ON CPT TEST

Részletesebben

TeIR. EUROSTAT adatlekérdező. (Használati útmutató) Budapest, 2005. május 19.

TeIR. EUROSTAT adatlekérdező. (Használati útmutató) Budapest, 2005. május 19. TeIR EUROSTAT adatlekérdező (Használati útmutató) Budapest, 2005. május 19. 2005. május 19. TeIR EUROSTAT adatlekérdező Használati útmutató 2/7 Tartalomjegyzék 1. AZ ESZKÖZ SZEREPE... 3 2. AZ EUROSTAT

Részletesebben

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Orvosi laboratóriumi technikai asszisztens szakképesítés. 2446-06 Műszer és méréstechnika modul. 1.

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Orvosi laboratóriumi technikai asszisztens szakképesítés. 2446-06 Műszer és méréstechnika modul. 1. Emberi Erőforrások Minisztériuma Korlátozott terjesztésű! Érvényességi idő: az írásbeli vizsgatevékenység befejezésének időpontjáig A minősítő neve: Rauh Edit A minősítő beosztása: mb. főigazgató-helyettes

Részletesebben

Modell alapú tesztelés mobil környezetben

Modell alapú tesztelés mobil környezetben Modell alapú tesztelés mobil környezetben Micskei Zoltán Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék A terület behatárolása Testing is an activity performed

Részletesebben

Az értékelés során következtetést fogalmazhatunk meg a

Az értékelés során következtetést fogalmazhatunk meg a Az értékelés során következtetést fogalmazhatunk meg a a tanuló teljesítményére, a tanulási folyamatra, a célokra és követelményekre a szülők teljesítményére, a tanulási folyamatra, a célokra és követelményekre

Részletesebben

vbar (Vemsoft banki BAR rendszer)

vbar (Vemsoft banki BAR rendszer) vbar (Vemsoft banki BAR rendszer) BAR bemutatása 1994. július 1-jétől kezdte meg működését a Központi Adós- és Hitelinformációs Rendszer, azóta is használt rövidített nevén a BAR, amely kezdetben kizárólag

Részletesebben

Fotoszenzibilizátorok felhalmozódásának nyomonkövetése és mennyiségi

Fotoszenzibilizátorok felhalmozódásának nyomonkövetése és mennyiségi Ph.D. Értekezés Tézisei Fotoszenzibilizátorok felhalmozódásának nyomonkövetése és mennyiségi szerkezet hatás összefüggései Vanyúr Rozália Témavezető: Dr. Héberger Károly Konzulens: Dr. Jakus Judit MTA

Részletesebben

Neurális hálózatok bemutató

Neurális hálózatok bemutató Neurális hálózatok bemutató Füvesi Viktor Miskolci Egyetem Alkalmazott Földtudományi Kutatóintézet Miért? Vannak feladatok amelyeket az agy gyorsabban hajt végre mint a konvencionális számítógépek. Pl.:

Részletesebben

Enabling and Capitalising of Urban Technologies

Enabling and Capitalising of Urban Technologies PILOT TEVÉKENYSÉG Pilot tevékenység neve Laborok megvalósítása a Pinkafeld Campuson Projektirányító / Projekt partner Burgenland GmbH Főiskola Motiváció és Célok / Célcsoport A legjelentősebb villamos

Részletesebben

Tartalom. Konfiguráció menedzsment bevezetési tapasztalatok. Bevezetés. Tipikus konfigurációs adatbázis kialakítási projekt. Adatbázis szerkezet

Tartalom. Konfiguráció menedzsment bevezetési tapasztalatok. Bevezetés. Tipikus konfigurációs adatbázis kialakítási projekt. Adatbázis szerkezet Konfiguráció menedzsment bevezetési tapasztalatok Vinczellér Gábor AAM Technologies Kft. Tartalom 2 Bevezetés Tipikus konfigurációs adatbázis kialakítási projekt Adatbázis szerkezet Adatbázis feltöltés

Részletesebben

IK Algoritmusok és Alkalmazásaik Tsz, TTK Operációkutatás Tsz. A LEMON C++ gráf optimalizálási könyvtár használata

IK Algoritmusok és Alkalmazásaik Tsz, TTK Operációkutatás Tsz. A LEMON C++ gráf optimalizálási könyvtár használata IKP-9010 Számítógépes számelmélet 1. EA IK Komputeralgebra Tsz. IKP-9011 Számítógépes számelmélet 2. EA IK Komputeralgebra Tsz. IKP-9021 Java technológiák IK Prog. Nyelv és Ford.programok Tsz. IKP-9030

Részletesebben

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

Intelligens partner rendszer virtuális kórházi osztály megvalósításához Intelligens partner rendszer virtuális kórházi osztály megvalósításához 1. Célkitűzések A pályázat célja egy virtuális immunológiai osztály kialakítása, amelynek segítségével a különböző betegségekkel

Részletesebben

Projekt beszámoló. NEWSIT News basedearlywarning System forintradaytrading: Hír alapú Korai Figyelmeztető Rendszer Napon belüli Kereskedéshez

Projekt beszámoló. NEWSIT News basedearlywarning System forintradaytrading: Hír alapú Korai Figyelmeztető Rendszer Napon belüli Kereskedéshez Projekt beszámoló Projekt azonosítója: Projektgazda neve: Projekt címe: DAOP-1.3.1-12-2012-0080 Pénzügyi Innovációs Iroda Kft. NEWSIT News basedearlywarning System forintradaytrading: Hír alapú Korai Figyelmeztető

Részletesebben

2. Ismert térszerkezetű transzmembrán fehérjék adatbázisa: a PDBTM adatbázis. 3. A transzmembrán fehérje topológiai adatbázis, a TOPDB szerver

2. Ismert térszerkezetű transzmembrán fehérjék adatbázisa: a PDBTM adatbázis. 3. A transzmembrán fehérje topológiai adatbázis, a TOPDB szerver A 2005 és 2007 között megvalósított project célja transzmembrán fehérjék vizsgálata és az ehhez szükséges eljárások kifejlesztése volt. Ez utóbbi magába foglalta új adatbázisok és szerkezet becslő módszerek

Részletesebben

Molekuláris biológiai eljárások alkalmazása a GMO analitikában és az élelmiszerbiztonság területén

Molekuláris biológiai eljárások alkalmazása a GMO analitikában és az élelmiszerbiztonság területén Molekuláris biológiai eljárások alkalmazása a GMO analitikában és az élelmiszerbiztonság területén Dr. Dallmann Klára A molekuláris biológia célja az élőlények és sejtek működésének molekuláris szintű

Részletesebben

SuliStat felhasználói dokumentáció

SuliStat felhasználói dokumentáció SuliStat felhasználói dokumentáció A jelen dokumentáció által tárgyalt program képes egy iskola tanulmányi adataiból statisztikákat készíteni. Osztály illetve iskola szintű statisztika készítésére van

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

A sejtfelszíni receptorok három fő kategóriája

A sejtfelszíni receptorok három fő kategóriája A sejtfelszíni receptorok három fő kategóriája 1. Saját enzimaktivitás nélküli receptorok 1a. G proteinhez kapcsolt pl. adrenalin, szerotonin, glukagon, bradikinin receptorok 1b. Tirozin kinázhoz kapcsolt

Részletesebben

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba Hibaforrások Hiba A feladatok megoldása során különféle hibaforrásokkal találkozunk: Modellhiba, amikor a valóságnak egy közelítését használjuk a feladat matematikai alakjának felírásához. (Pl. egy fizikai

Részletesebben

Zimbra levelező rendszer

Zimbra levelező rendszer Zimbra levelező rendszer Budapest, 2011. január 11. Tartalomjegyzék Tartalomjegyzék... 2 Dokumentum információ... 3 Változások... 3 Bevezetés... 4 Funkciók... 5 Email... 5 Társalgás, nézetek, és keresés...

Részletesebben

INFORMATIKAI ALAPISMERETEK

INFORMATIKAI ALAPISMERETEK Informatikai alapismeretek középszint 0721 ÉRETTSÉGI VIZSGA 2007. október 24. INFORMATIKAI ALAPISMERETEK KÖZÉPSZINTŰ ÍRÁSBELI ÉRETTSÉGI VIZSGA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ OKTATÁSI ÉS KULTURÁLIS MINISZTÉRIUM

Részletesebben

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015 A mérés problémája a pedagógiában Dr. Nyéki Lajos 2015 A mérés fogalma Mérésen olyan tevékenységet értünk, amelynek eredményeként a vizsgált jelenség számszerűen jellemezhetővé, más hasonló jelenségekkel

Részletesebben

Microsoft Access alapok

Microsoft Access alapok Microsoft Access alapok Képzési program Cím: 1027 Budapest, Csalogány utca 23. (a) A tanfolyam célja (a képzés során megszerezhető kompetencia) A tanfolyamot azoknak ajánljuk, akik már jártasságát szereztek

Részletesebben

Programtervezés. Dr. Iványi Péter

Programtervezés. Dr. Iványi Péter Programtervezés Dr. Iványi Péter 1 A programozás lépései 2 Feladat meghatározás Feladat kiírás Mik az input adatok A megoldáshoz szükséges idő és költség Gyorsan, jót, olcsón 3 Feladat megfogalmazása Egyértelmű

Részletesebben

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás Petőfi Irodalmi Múzeum A Digitális Irodalmi Akadémia megújuló rendszere technológiaváltás II. Partnerek, feladatok Petőfi Irodalmi Múzeum Megrendelő, szakmai vezetés, kontroll Konzorcium MTA SZTAKI Internet

Részletesebben

A FileZilla program beállítása az első belépés alkalmával

A FileZilla program beállítása az első belépés alkalmával 6. A záróvizsga-jegyzőkönyv készítése A záróvizsga-jegyzőkönyveketa Karok többsége a jegyzőkönyvkészítésre Dr. Tánczos László által kifejlesztett Access alkalmazás használatával készíti el. A záróvizsga-jegyzőkönyv

Részletesebben

Java I. A Java programozási nyelv

Java I. A Java programozási nyelv Java I. A Java programozási nyelv története,, alapvető jellemzői Miskolci Egyetem Általános Informatikai Tanszék Utolsó módosítás: 2007. 02. 12. Java I.: Történet, jellemzők, JDK JAVA1 / 1 Egy kis történelem

Részletesebben

Döntéselőkészítés. I. előadás. Döntéselőkészítés. Előadó: Dr. Égertné dr. Molnár Éva. Informatika Tanszék A 602 szoba

Döntéselőkészítés. I. előadás. Döntéselőkészítés. Előadó: Dr. Égertné dr. Molnár Éva. Informatika Tanszék A 602 szoba I. előadás Előadó: Dr. Égertné dr. Molnár Éva Informatika Tanszék A 602 szoba Tárggyal kapcsolatos anyagok megtalálhatók: http://www.sze.hu/~egertne Konzultációs idő: (páros tan. hét) csütörtök 10-11 30

Részletesebben

Készítette: Enisz Krisztián, Lugossy Balázs, Speiser Ferenc, Ughy Gergely 2010.11.29. 1

Készítette: Enisz Krisztián, Lugossy Balázs, Speiser Ferenc, Ughy Gergely 2010.11.29. 1 Készítette: Enisz Krisztián, Lugossy Balázs, Speiser Ferenc, Ughy Gergely 2010.11.29. 1 /17 Tartalomjegyzék A térinformatikáról általánosságban Célok Felhasznált eszközök Fejlesztés lépései Adatbázis Grafikus

Részletesebben

1. tétel. A kommunikáció információelméleti modellje. Analóg és digitális mennyiségek. Az információ fogalma, egységei. Informatika érettségi (diák)

1. tétel. A kommunikáció információelméleti modellje. Analóg és digitális mennyiségek. Az információ fogalma, egységei. Informatika érettségi (diák) 1. tétel A kommunikáció információelméleti modellje. Analóg és digitális mennyiségek. Az információ fogalma, egységei Ismertesse a kommunikáció általános modelljét! Mutassa be egy példán a kommunikációs

Részletesebben

Internet programozása. 1. előadás

Internet programozása. 1. előadás Internet programozása 1. előadás Áttekintés 1. Mi a PHP? 2. A PHP fejlődése 3. A PHP 4 újdonságai 4. Miért pont PHP? 5. A programfejlesztés eszközei 1. Mi a PHP? Egy makrókészlet volt, amely személyes

Részletesebben

Rubin SPIRIT TEST. Rubin firmware-ek és hardverek tesztelése esettanulmány V1.0. Készítette: Hajnali Krisztián Jóváhagyta: Varga József

Rubin SPIRIT TEST. Rubin firmware-ek és hardverek tesztelése esettanulmány V1.0. Készítette: Hajnali Krisztián Jóváhagyta: Varga József Rubin firmware-ek és hardverek tesztelése esettanulmány V1.0 Készítette: Hajnali Krisztián Jóváhagyta: Varga József Rubin Informatikai Zrt. 1149 Budapest, Egressy út 17-21. telefon: +361 469 4020; fax:

Részletesebben

Számítógéppel segített folyamatmodellezés p. 1/20

Számítógéppel segített folyamatmodellezés p. 1/20 Számítógéppel segített folyamatmodellezés Piglerné Lakner Rozália Számítástudomány Alkalmazása Tanszék Pannon Egyetem Számítógéppel segített folyamatmodellezés p. 1/20 Tartalom Modellező rendszerektől

Részletesebben

Adatbázis rendszerek 6.. 6. 1.1. Definíciók:

Adatbázis rendszerek 6.. 6. 1.1. Definíciók: Adatbázis Rendszerek Budapesti Műszaki és Gazdaságtudományi Egyetem Fotogrammetria és Térinformatika 6.1. Egyed relációs modell lényegi jellemzői 6.2. Egyed relációs ábrázolás 6.3. Az egyedtípus 6.4. A

Részletesebben

Modellkiválasztás és struktúrák tanulása

Modellkiválasztás és struktúrák tanulása Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális

Részletesebben

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás? Bevezetés Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések Forráskód Hibajegyzék p2p.wrox.com xiii xiii xiv xiv xvi xvii xviii

Részletesebben

Fotódokumentáció. Projektazonosító: KMOP-1.1.1-08/1-2008-0049

Fotódokumentáció. Projektazonosító: KMOP-1.1.1-08/1-2008-0049 Fotódokumentáció Projektazonosító: KMOP-1.1.1-08/1-2008-0049 Laborkísérletekhez használt reaktorrendszer előkészítése A laborkísérletek elvégzéséhez szükséges volt egy kisméretű FCR (food chain reactor

Részletesebben

TRIPSZIN TISZTÍTÁSA AFFINITÁS KROMATOGRÁFIA SEGÍTSÉGÉVEL

TRIPSZIN TISZTÍTÁSA AFFINITÁS KROMATOGRÁFIA SEGÍTSÉGÉVEL TRIPSZIN TISZTÍTÁSA AFFINITÁS KROMATOGRÁFIA SEGÍTSÉGÉVEL Az egyes biomolekulák izolálása kulcsfontosságú a biológiai szerepük tisztázásához. Az affinitás kromatográfia egyszerűsége, reprodukálhatósága

Részletesebben

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával * Pannon Egyetem, M szaki Informatikai Kar, Számítástudomány

Részletesebben

IP Thermo for Windows

IP Thermo for Windows IP Thermo for Windows (2 db szenzorig ingyenes!) Klímafelügyelő és naplózó szoftver Az IP Thermo klímafelügyelő és naplózó szoftver szobák, épületek, irodák, szállodák teljes körű hőmérsékleti felügyeletére,

Részletesebben

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I. : Intelligens Rendszerek Gyakorlata Neurális hálózatok I. dr. Kutor László http://mobil.nik.bmf.hu/tantargyak/ir2.html IRG 3/1 Trend osztályozás Pnndemo.exe IRG 3/2 Hangulat azonosítás Happy.exe IRG 3/3

Részletesebben

Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal. A genetikus algoritmus működése. Az élet információ tárolói

Intelligens Rendszerek Elmélete. Párhuzamos keresés genetikus algoritmusokkal. A genetikus algoritmus működése. Az élet információ tárolói Intelligens Rendszerek Elmélete dr. Kutor László Párhuzamos keresés genetikus algoritmusokkal http://mobil.nik.bmf.hu/tantargyak/ire.html login: ire jelszó: IRE07 IRE 5/ Természetes és mesterséges genetikus

Részletesebben

Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis

Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis. Fehérjeszerkezet analízis Szerkezet Protein Data Bank (PDB) http://www.rcsb.org/pdb ~ 35 701 szerkezet közepes felbontás 1552 szerkezet d 1.5 Å 160 szerkezet d 1.0 Å 10 szerkezet d 0.8 Å (atomi felbontás) E globális minimum? funkció

Részletesebben

Az MS Access adatbázis-kezelő program

Az MS Access adatbázis-kezelő program Az adatbázis-kezelő program A tananyagban az alapfogalmak és a tervezési megoldások megismerése után a gyakorlatban is elkészítünk (számítógépes) adatbázisokat. A számítógépes adatbázisok létrehozásához,

Részletesebben

Projekt beszámoló. Könyvelési Szakértői Rendszer Kifejlesztése Repetitív Könyvelési Feladatok Szabályalapú Feldolgozására

Projekt beszámoló. Könyvelési Szakértői Rendszer Kifejlesztése Repetitív Könyvelési Feladatok Szabályalapú Feldolgozására Projekt beszámoló Projekt azonosítója: Projektgazda neve: Projekt címe: DAOP-1.3.1-12-2012-0081 Számviteli Innovációs Iroda Kft. Könyvelési Szakértői Rendszer Kifejlesztése Repetitív Könyvelési Feladatok

Részletesebben

Átfogó megoldás a számlafolyamatok felgyorsításához ELO DocXtractor. Laczkó Kristóf ELO Digital Office Kft. Bálint András Prognax Kft.

Átfogó megoldás a számlafolyamatok felgyorsításához ELO DocXtractor. Laczkó Kristóf ELO Digital Office Kft. Bálint András Prognax Kft. Átfogó megoldás a számlafolyamatok felgyorsításához ELO DocXtractor Laczkó Kristóf ELO Digital Office Kft. Bálint András Prognax Kft. Áttekintés Struktúrált és egyéb Információk bármely forrásból dokumentumok

Részletesebben

Immunológiai módszerek a klinikai kutatásban

Immunológiai módszerek a klinikai kutatásban Immunológiai módszerek a klinikai kutatásban 3. előadás Az immunrendszer molekuláris elemei: antigén, ellenanyag, Ig osztályok Az antigén meghatározása Detre László: antitest generátor - Régi meghatározás:

Részletesebben

Gyógyszer-élelmiszer kölcsönhatások

Gyógyszer-élelmiszer kölcsönhatások Gyógyszer-élelmiszer kölcsönhatások Dietetikus MSc. képzés Dr. Horváth Péter Semmelweis Egyetem Gyógyszerészi Kémiai Intézet TEMATIKA Bevezetés Alapfogalmak Gyógyszerhatás kialakulása Gyógyszerek tulajdonságait

Részletesebben

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK Boross István MNL Veszprém Megyei Levéltára Juhász Zoltán Pannon Egyetem Budapest Főváros Levéltára, 2014. május 6. MÓDSZERTANI

Részletesebben

Programozás alapjai Bevezetés

Programozás alapjai Bevezetés Programozás alapjai Bevezetés Miskolci Egyetem Általános Informatikai Tanszék Programozás alapjai Bevezetés SWF1 / 1 Tartalom A gépi kódú programozás és hátrányai A magas szintÿ programozási nyelv fogalma

Részletesebben

Tudásalapú információ integráció

Tudásalapú információ integráció Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás

Részletesebben

Az áramlási citométer és sejtszorter felépítése és működése, diagnosztikai alkalmazásai

Az áramlási citométer és sejtszorter felépítése és működése, diagnosztikai alkalmazásai Az áramlási citométer és sejtszorter felépítése és működése, diagnosztikai alkalmazásai Az áramlási citométer és sejtszorter felépítése és működése Kereskedelmi forgalomban kapható készülékek 1 Fogalmak

Részletesebben