Fizikai és kémiai tulajdonságok számolása

Hasonló dokumentumok
Példák kémiai adat-típusokra

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Lineáris regresszió. Statisztika I., 4. alkalom

Regresszió. Fő cél: jóslás Történhet:

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Minősítéses mérőrendszerek képességvizsgálata

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

4 2 lapultsági együttható =

A multikritériumos elemzés célja, alkalmazási területe, adat-transzformációs eljárások, az osztályozási eljárások lényege

A sokaság/minta eloszlásának jellemzése

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Korreláció-számítás. 1. előadás. Döntéselőkészítés módszertana. Dr.

Ötvözetek mágneses tulajdonságú fázisainak vizsgálata a hiperbolikus modell alkalmazásával

Dr. Ratkó István. Matematikai módszerek orvosi alkalmazásai Magyar Tudomány Napja. Gábor Dénes Főiskola

Elektrokémia 03. Cellareakció potenciálja, elektródreakció potenciálja, Nernst-egyenlet. Láng Győző

VARIANCIAANALÍZIS (szóráselemzés, ANOVA)

Molekuláris dinamika: elméleti potenciálfelületek

10. Alakzatok és minták detektálása

Méréselmélet: 5. előadás,

METROLÓGIA ÉS HIBASZÁMíTÁS

Kísérlettervezési alapfogalmak:

Tanult nem paraméteres próbák, és hogy milyen probléma megoldására szolgálnak.

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Regresszió-számítás. 2. előadás. Kvantitatív statisztikai módszerek. Dr.

IDA ELŐADÁS I. Bolgár Bence október 17.

Statisztika feladatok

ADATREDUKCIÓ I. Középértékek

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

OLS regresszió - ismétlés Mikroökonometria, 1. hét Bíró Anikó A tantárgy tartalma

ADATREDUKCIÓ I. Középértékek

Adatelemzés és adatbányászat MSc

ADATREDUKCIÓ I. Középértékek

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Gyakorló feladatok a Kísérletek tervezése és értékelése c. tárgyból Lineáris regresszió, ismétlés nélküli mérések

Az entrópia statisztikus értelmezése

Laboratóriumi kontrollkártya használata Tananyag. Készítette: Muránszky Géza vegyészmérnök Oktató: Lőrinc Anna minőségirányítási előadó

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Adatsorok jellegadó értékei

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

Az elektromos kölcsönhatás

Support Vector Machines

SZÁMOLÁSI FELADATOK. 2. Mekkora egy klíma teljesítménytényező maximális értéke, ha a szobában 20 C-ot akarunk elérni és kint 35 C van?

KOMBINATORIKA ELŐADÁS osztatlan matematika tanár hallgatók számára. Szita formula

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Régió alapú szegmentálás. Digitális képelemzés alapvető algoritmusai. 2. példa: Elfogadható eredmények. 1. példa: Jó eredmények. Csetverikov Dmitrij

Szerven belül egyenetlen dóziseloszlások és az LNT-modell

A m becslése. A s becslése. A (tapasztalati) szórás. n m. A minta és a populáció kapcsolata. x i átlag

ξ y = (EXCEL-ben: ÁTLAG)

MATEMATIKAI STATISZTIKA KISFELADAT. Feladatlap

VÁROS- ÉS INGATLANGAZDASÁGTAN

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

7. Mágneses szuszceptibilitás mérése

Indirekt térfogat-vizualizáció. Fourier térfogat-vizualizáció. Tomográfiás rekonstrukció. Radon-transzformáció. A Fourier vetítő sík tétel

Nemlineáris függvények illesztésének néhány kérdése

Statisztika I. 3. előadás. Előadó: Dr. Ertsey Imre

Regresszió és korreláció

Mőanyagok felhasználása - szerkezeti. Mőanyagok felhasználása - technológiai. A faiparban felhasznált polimerek

Integrált rendszerek n é v; dátum

Biológiai anyagok hatásának értékelése, ha közvetlen fizikai vagy kémiai analízis nem alkalmazható.

2 Wigner Fizikai Kutatóintézet augusztus / 17

Max-stabilis folyamatok. 6. előadás, március 29. Smith (1990) konstrukciója. Példák

PhD értekezés. Gyarmati József

Komplex szénhidrogénelegyek modellezése folytonos termodinamikával

Alapvető elektrokémiai definíciók

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

3515, Miskolc-Egyetemváros

Egyenáramú szervomotor modellezése

(eseményalgebra) (halmazalgebra) (kijelentéskalkulus)

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Szárítás során kialakuló hővezetés számítása Excel VBA makróval

A Ga-Bi OLVADÉK TERMODINAMIKAI OPTIMALIZÁLÁSA

I. A közlekedési hálózatok jellemzői II. A közlekedési szükségletek jellemzői III. Analitikus forgalom-előrebecslési modell

Regresszió és korreláció

Pénzügyi menedzsment

Békefi Zoltán. Közlekedési létesítmények élettartamra vonatkozó hatékonyság vizsgálati módszereinek fejlesztése. PhD Disszertáció

FILMHANG RESTAURÁLÁS: A NEMLINEÁRIS KOMPENZÁLÁS

Algoritmusok és adatszerkezetek gyakorlat 09 Rendezések

Extrém-érték elemzés. Extrém-érték eloszlások. Megjegyzések. A normálhatóság feltétele. Extrém-érték modellezés

Fizika labor zh szept. 29.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Kinetika. Általános Kémia, kinetika Dia: 1 /53

Feltételezzük, hogy a reaktáns koncentrációjának csökkenése felírható

TÉRBELI STATISZTIKAI VIZSGÁLATOK, ÁTLAGOS JELLEMZŐK ÉS TENDENCIÁK MAGYARORSZÁGON. Bihari Zita, OMSZ Éghajlati Elemző Osztály OMSZ

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

) ( s 2 2. ^t = (n x 1)s n (s x+s y ) x +(n y 1)s y n x+n y. +n y 2 n x. n y df = n x + n y 2. n x. s x. + s 2. df = d kritikus.

1 Y t = X tmod(n) azaz periodikusan kiterjesztjük a mintát. 3 Adott b blokkméretre készítsünk N =mb (N N)

Kidolgozott feladatok a nemparaméteres statisztika témaköréből

Biostatisztika e-book Dr. Dinya Elek

Reakciókinetika. Általános Kémia, kinetika Dia: 1 /53

Komplex regionális elemzés és fejlesztés tanév DE Népegészségügyi Iskola Egészségpolitika tervezés és finanszírozás MSc

Nemparaméteres eljárások

Fuzzy rendszerek. A fuzzy halmaz és a fuzzy logika

4 Approximációs algoritmusok szorzatalakú hálózatok esetén

A neurális hálózatok alapjai

Elektrokémia 03. (Biologia BSc )

Véletlenszám generátorok. 6. előadás

Darupályák ellenőrző mérése

Példa: Egy üzletlánc boltjainak forgalmára vonatkozó adatok október hó: (adott a vastagon szedett!) S i g i z i g i z i

ÁLTALÁNOS STATISZTIKA

Átírás:

Fzka és kéma tulajdonságok számolása Objektum: molekula vagy molekulák rendszere Egy lehetséges csoportosítás: Addtvtáson alapuló becslések Molekulamechanka számolások Kvantumkéma számolások 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 1

Addtvtáson alapuló becslések Feltevés: a számunkra érdekes tulajdonság a felépítő atomok/csoportok megfelelő jellemzőből egyszerűen, addtív séma szernt számolható + 2 X S X Y S Y X S Y Az egyenlet két oldalán található molekulák adott tulajdonságanak összege megegyezk [S: váz (skeleton)] Atom tulajdonságok addtvtása (nulladrendű közelítés): X X + Y Y 2 X Y Kötések tulajdonságanak addtvtása (elsőrendű közelítés): X CH 2 X + Y CH 2 Y 2 X CH 2 Y Csoportok tulajdonságanak addtvtása (másodrendű közelítés): X CH 2 CH 2 X + Y CH 2 CH 2 Y 2 X CH 2 CH 2 Y 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 2

Addtvtáson alapuló becslések Mlyen tulajdonságok becsülhetőek lyen módon? molekulatömeg (!) móltérfogat damágneses szuszceptbltás parachor molárs hőkapactás képződéshő / atomzácós hő... = N Pm p = 1 P m a molekulárs tulajdonság, N az atomok száma, p az -edk atom tulajdonsága Mnden atomtípushoz smernünk kell a megfelelő értéket! 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 3

Benson: csoportokon alapuló séma: Addtvtáson alapuló becslések példa: 3 séma szénhdrogének atomzácós hőjének számolására C-(C)(H) 3, C-(C) 2 (H) 2, C-(C) 3 (H), C-(C) 4 Ladler: módosított kötésaddtvtás séma, a C-H kötéseket dfferencálja: E(C-H) p, E(C-H) s, E(C-H) t (első-, másod-, és harmadrendű szenekhez kapcsolódó H) Allen: a szénvázhoz tartozó kötésaddtvtás kegészítése két elemmel: G(CCC) és D(CCC): három C egymás után / ugyanazon szénatomhoz kapcsoltan C C CH 3 CH 2 C C C C CH C C C C C A három séma egyformán szabatos (accurate)! C-(C)(H) 3 = 0,5E(C-C) + 3E(C-H) p = 0,5B(C-C) + 3B(C-H) C-(C) 2 (H) 2 = E(C-C) + 2E(C-H) s = B(C-C) + 2B(C-H) + G(CCC) C-(C) 3 (H) = 1,5E(C-C) + E(C-H) t = 1,5B(C-C) + B(C-H) + 3G(CCC) + D(CCC) C-(C) 4 = 2E(C-C) = 2B(C-C) + 6G(CCC) + 4D(CCC) 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 4

Addtvtáson alapuló becslések gyűrűk fgyelembevétele Ha a szerkezetben vannak gyűrűk, az nagymértékben befolyásolhatja a becsülendő értékeket A gyűrűk stablzálhatnak vagy destablzálhatnak Az addtvtás sémákban plusz tagokat kell használn a gyűrűk hatásának fgyelembevételéhez Példa: háromtagú gyűrűk feszülés energá O N H S 115.6 kj/mol 111.9 kj/mol 115.2 kj/mol 73.6 kj/mol Stablzácó: aromás rendszerekben jelentős 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 5

Addtvtáson alapuló becslések töltéseloszlás számolása: a PEOE modell 1975-ös fejlesztés (Johann Gasteger) sokmllós adatbázsokon ma s használják gyorsasága matt PEOE: Partal Equalzaton of Orbtal Electronegatvtes A Mullken-féle elektronegatvtás: Fontos az adott vegyértékállapothoz tartozó értékek használata! A PEOE-ben használt képlet: Ahol Q az adott atom töltése, a koeffcenseket az adott elektronpálya semleges, anonos és katonos onzácós potencálja és elektronaffntása alapján lehet megkapn χ v = 2 1 ( I + E ) χv = av + bvq + v v c v I v : onzácós potencál E v : elektronaffntás (adott vegyértékállapotra) Q 2 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 6

Addtvtáson alapuló becslések töltéseloszlás számolása: a PEOE modell Kötések kalakulásakor az elektronpályák elektronegatvtása elvleg kegyenlítődk A molekulában azonban az elektronegatvtások megváltoznak PEOE: teratív eljárás (lépés száma: n) mnden atomra (): mnden párra (j): q j : töltéskülönbség a kötés mentén d n : attenuácós faktor (d=1/2, az nduktív effektus mnden kötéssel felére-harmadára csökken) χ v+ : a poztív állapot elektronegatvtása 6 terácós lépés általában elegendő A maradék (rezduáls) elektronegatvtás jól írja le az nduktív effektust χ v = a + b Q + c v χ v χ v Q 2 χ < qj n > + 1 = ( v ) ( v jv ) q j = q j = + q Q q Q j < n> < n> = Q j + Q j < n> < n> d n 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 7

Addtvtáson alapuló becslések kéma eltolódások becslése Tpkus becslés: analóg a táblázatos számolásokkal, az alap eltolódáshoz hozzáadogatjuk a szomszédos csoportokból eredő korrekcós tagokat (pl. ChemOffce) Egy gazán nehéz probléma: fehérjék kéma eltolódásának becslése A térszerkezet befolyása döntő SHIFTX program: δ calc : számolt eltolódás δ col : alapérték ( random col δ RC : aromás köráramok hatása δ EF : elektrosztatkus hatások δ HB : hdrogénkötések hatása δ HS : lokáls konformácótól való függés = + δ calc δcol δrc + δef + δhb + δ HS 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 8

QSAR Jelentés: Quanttatve/Qualtatve Structure-Actvty Relatonshp (mennység/mnőség szerkezet-hatás összefüggés) Név-változatok: QSPR: Quanttatve/Qualtatve Structure-Property Relatonshp SAR, SPR (Q) S A/P R Lényeg ugyanaz: modell építése analógák és nem elmélet alapján. Quanttatve: cél a predkcó Qualtatve: cél a megértés Felhasznált anyagok: Kalász Adrán PhD dolgozata Hugo Kubny előadása ChemAxon Screen (http://www.kubny.de/lectures.html) (http://www.chemaxon.com/conf/screen.ppt) 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 9

2009. áprls 16. QSAR Történet - Hammet egyenletek (~1950), pl. reakcók egyensúly állandójára: log ( K x K0 ) = σ x Y Az Y referenca reakcó esetében meghatározhatók az x szubszttuensekre a konstansok, pl. aromás vegyületekre. 0 ndex a szubszttuálatlan vegyületet jelent, majd az egyenletek általánosíthatók egyéb (Z) reakcókra s: log ( K x K0 ) = ρzσ x Z A Hammet egyenleteket reakcósebességre s alkalmazzák, a szubszttuens konstansok bzonyos mértékű addtvtása s megfgyelhető. Tanulság: Elmélet megalapozás nélkül s kalakítható jól működő mennység összefüggés valamely deszkrptor (szubszttuens állandó) és tulajdonság (reakcósebesség) között. ELTE Kéma Intézet, Szerves Kéma Tanszék 10

QSAR Történet A Hansch analízs (~1960) eredetleg lpoflctással fejez k kapcsolatot: log 1 ( C ) = a log P + b ahol C az adott választ teljesítő koncentrácó, P pedg az oktanol-víz megoszlás hányados. Bevezethető egy π, logp alapú új szubszttuens állandó s: log ( Px P0 ) = π x melyet a Hammet σ-val kombnálva jobb korrelácót értek el: log Z ( 1 C ) = k1π + k2σ + k3 ahol a k értékek az adott vegyületcsoportra llesztett paraméterek. Ebben az esetben s a deszkrptorok (a szubszttuens állandók) önmagukban s származtatott mennységek. 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 11

QSAR Történet A Free-Wlson analízs (~1960) azt használja fel, hogy az adott molekulában () egy adott csoport (X) az adott pozícóban (j) megtalálható-e: log 1 ( C ) a X + = µ ahol C az adott választ teljesítő koncentrácó, X j pedg 1, ha X szubszttuens az molekulában megtalálható a j-k pozícóban, egyébként 0, µ a szubszttuálatlan alapvegyület kísérlet aktvtása, a j -k llesztett paraméterek, az adott szubszttúcó hozzájárulását fejezk k. A Free-Wlson analízs teknthető a modern QSAR módszerek előfutárának. Az X j deszkrptorok előállításához nncs szükség egyébre, csak a molekulák képletére, az összefüggés kzárólag a kérdéses aktvtások (1/C ) megmérésével felállítható. j j 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 12

QSAR A feladatok - A cél (összefüggés feltárása, predkcó) és preferencák (kívánt pontosság, vzsgálandó molekulák száma) meghatározása. - A vzsgált tulajdonság, aktvtás becsléséhez megfelelő deszkrptorok kválasztása. - Adatelőkészítés, adatok valdálása - Modellépítés, összefüggés felállítása - A modell valdálása - Alkalmazás, alkalmazhatóság vzsgálata 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 13

QSAR A cél - Összefüggés feltárásához a deszkrptorok (független változók) és a vzsgált tulajdonság (függő változó) között kapcsolatot egyenletek vagy vzuálsan értékelhető modell formájában kell megadn. - Ha csak predkcó a cél a modell szemléletessége nem szempont. - A modell előállításának, alkalmazásának költsége, pontossága megfelelőek-e. 3D QSAR HTS (Hgh Throughput Screenng) 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 14

QSAR A deszkrptorok - Lehetőleg a molekulák szerkezetének (topológájának) smeretében automatkusan és olcsón kszámíthatók legyenek. - Ne legyen túl sok deszkrptor (vagy ld. adatelőkészítés). - A deszkrptorok és függő változók nem megfelelő skálázása, származtatása furcsa eredményre, félrevezető modellre vezethet. - Ha a deszkrptorok kísérlet adatok, azok hbájának, megbízhatóságának ellenőrzése. 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 15

2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 16

2009. áprls 16. QSAR Adatok előkészítése - Előkészítés: ld. Adatbázs1/6-11. - Fgyelembe kell venn az adatok előkészítésekor, hogy a leendő modell a lehető legegyszerűbb (pl. lneárs összefüggés) legyen (Occam borotvája). - Ha túl sok a felhasználható jellemző (feature), ll. leíró (pl. spektrumok, grd-ek) kevés látszólagos (latent) változó, pontszám (score, v ) bevezetése megfelelő súlyfaktorokkal (loadng, b j ): t v A x t deszkrptorok X soraban találhatók. j = b kj x k ; Automatzálható főkomponens-analízs alapú bázs-transzformácóval. - Látszólagos vektorok bázs-transzformácóval való előállításához elég egy jól meghatározott metrka (távolság defnícó), az eredet deszkrptor nem s kell hogy vektor jellegű legyen! v = B x; ELTE Kéma Intézet, Szerves Kéma Tanszék V = XB 17

D scaledasymmetrc, Tanmoto ( x, y) Parametrzed metrcs = 1 α ( x s mn( x, y )) + ( 1 α)( y s mn( x, y )) + s mn( x, y ) s mn( x, y ) α [ 0,1] asymmetry factor s N scalng factor D weghted, asymmetrc Eucldean α w [ 0,1] [ 0,1] 2009. áprls 16. ( x, y) = wα x < y asymmetry factor weghts 2 ( x y ) + w ( 1 α )( x y ) 2 x y ELTE Kéma Intézet, Szerves Kéma Tanszék 18

2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 19

2009. áprls 16. QSAR Modellalkotó mnták vzsgálata Az n mnta k pontszám (score) vektora (X n sora) által kfeszített altér projektora (vetítő mátrx, PP = P) előállítható a következő módon: H = ( t ) 1 t X X X X A H (angol Hat, azaz kalap) mátrx dagonáls eleme az adott mntának a modellre várható befolyását jelzk (leverage), 1/n és 1 között értékeket felvéve. Mnél nagyob a h dagonáls elem értéke, annál függetlenebb az adott mnta és érdemes felhasználn a modell építéséhez. Ennek megfelelően, ha csökkenten akarjuk a modell építéséhez felhasználandó tanító halmazt (tranng set) érdemes a ks befolyással bíró mntákat eltávolítan, ezekre várhatóan nterpolácóval tud majd a modell becslést végezn. Ha a modell tartalmaz kugróan nagy befolyással rendelkező mntákat akkor a modell valdálása során várhatóan rossz keresztvaldálás eredmények mellett jó predkcót mutathat. ELTE Kéma Intézet, Szerves Kéma Tanszék 20

2009. áprls 16. QSAR Modellépítés, összefüggés felállítása - Ha lehetséges törekedjünk lneárs modell felépítésére: - Matematka, statsztka háttér jól megalapozott - Kevés paraméter - A buktatók elkerülésére nagy mennységű tapasztalat, tesztadat áll rendelkezésre (tanulj mások kárán) - Kész programcsomagok állnak rendelkezésre - A független változók (x) és a vzsgált tulajdonságok (y) közt lneárs kapcsolat, korrelácó megléte könnyen vzsgálható: r = ( x x)( y y) ( ) 2 x x ( y y) r a Pearson korrelácós koeffcens, az x és y változó vektorok var(x) és var(y) varancára, ll. szórására normált cov(x,y) covarancája. ELTE Kéma Intézet, Szerves Kéma Tanszék 2 21

2009. áprls 16. QSAR Lneárs korrelácó Az r (Pearson) korrelácós koeffcens, az x és y változó vektorok var(x) és var(y) varancára, pontosabban szórására normált cov(x,y) covarancája: cov var r = x ( x, y) ( ) x s c x xy s = y s = = 2 x c = xy = A felső vonal (pl. ) a megfelelő változó átlaga, r pedg -1 és +1 között értéket vehet fel, ±1 tökéletes korrelácót jelent, a 0 közel érték csak a lneárs korrelácó hányát mutatja. Centrált adatok esetén az átlagok eltűnnek r a két vektor szögének kosznusza. ELTE Kéma Intézet, Szerves Kéma Tanszék ( )( ) ( ) x x n 1 x n 1 2 x y ( x x)( y y) y ( ) 2 x x ( y y) 2 22

2009. áprls 16. A Pearson-féle korrelácós koeffcens kapcsolata a lneárs regresszóval Lneárs regresszó (legksebb négyzetek módszere, method of least squares): c ( ( ( )) ) ( ( ) ) xy b = 2 y a + bx = 2 mn mn y yˆ 2 sx a = y ahol yˆ az y érték becslése lneárs regresszóval. Ez alapján a Pearson-féle korrelácós együttható négyzete a következő alakban s megadható: r ( y ) y ( y y) = 1 2 2 ˆ Ez az alak csak a függő változókat és becslésüket tartalmazza, ezért általánosan a becslés, a modell jóságának jelzésére használjuk és r 2 alatt nem(!) a Pearson-féle r négyzetét értjük. ELTE Kéma Intézet, Szerves Kéma Tanszék 2 bx 23

QSAR Többváltozós lneárs regresszó (MLR) A centrálás(!) után kapott pontszámok (score, x) és a vzsgált, szntén centrált tulajdonság-, ll. aktvtás-értékek (y) között az a- ban szereplő súlyfaktorokkal (loadng) kfejezve a következő függvénykapcsolatot tételezzük fel: y = a t x Ha n mntához tartozó k pontszám -hoz építjük a modellt, a n k méretű score-mátrx (X) defnálásával, a kísérletleg meghatározott n tulajdonság-értéket (y) a következő egyenlettel közelíthetjük: y = Xa X y = ( t ) XX y = a Amennyben az adatok előkészítése főkomponens analízst és megfelelő bázstranszformácót s magában foglalt, X mátrx nvertálható, egyébként a jobb oldal formulát, általánosított nverzzel használhatjuk az a súlyfaktorok kszámítására. Ekkor megspórolhatunk egy bázstranszformácót (PCA regresson). a X 1 t 1 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 24

súlyfaktorokat, mnden lépésben kválasztva a következő legjobban korreláló score vektort: l = 0, ~ y = y ha kválasztjuk azt az eddg nem szereplő t, ahol a ~ y QSAR Részleges legksebb négyzetek módszere (Partal Least Squares, PLS) A legtöbb leírás az adatelőkészítés (bázstranszformácó) beolvasztásával bonyolítja el a módszer smertetését, ezért egyszerűbb leírást adunk és feltételezzük a megfelelő adatelőkészítést, centrálást. A PLS eljárás nem adható meg zárt alakban, mert lépésenként számítja k a ~ t y ~ y l y t l l y ksebb a lmtnél vagy mnden score vektort felhasználtunk, vége t x ~ yl = t xx ~ 1 = yl ax, l = + 1 l+ l t x ~ yl t x x ~ t y ~ y l y~l l maxmáls x ~ y l+ 1 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 25

- A PLS manapság az egyk legelterjedtebben használt llesztés eljárás. - Sok pontszám (score) használatakor gyakorlatlag tökéletes lleszkedést produkálhat ezért érdemes megfelelő körültekntéssel használn. - A paraméterek száma a megállás krtérumként s megadható, de előnyösebb a ksszámú paramétert az adatok előkészítésekor dmenzószám csökkentő bázstranszformácóval (PCA) elérn. - A PLS regresszó eredménye: formában adható meg. QSAR Részleges legksebb négyzetek módszere (Partal Least Squares, PLS) y ˆ = Xa 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 26

2009. áprls 16. QSAR A modell belső ellenőrzése - r 2 kszámítása a modellben felhasznált (tranng set) tulajdonság, aktvtás adatok becslésére. - Mnden egyes mntára kszámítjuk a predkcót úgy, hogy előtte kvesszük az llető molekulát (mntát) a modellből és így kapott predkcóra számítjuk k az r 2 értéket, amt általában q 2 tel jelölnek (Leave-One-Out q 2, LOO). - Több mntát s khagyunk csoportokban, véletlenszerűen vagy szsztematkusan és a predkcókra q 2 et számolunk (Leave- Many-Out q 2, LMO). - Bootstrap: Az n mntából smétlés megengedésével választunk k mnta-n-eseket melyekre pl. q 2 LOO átlagot számolunk. A bootstrap átlag és az eredet érték eltérése statsztka torzításról ad felvlágosítást és a regresszós együttható(k) konfdenca ntervallumának becslésére s használható. ELTE Kéma Intézet, Szerves Kéma Tanszék 27

QSAR A modell belső ellenőrzése - Jackknfe: ugyanaz mnt a bootstrap eljárás, de egy-egy mntát bztosan khagyunk a modellből. - Randomzácós teszt: A tanító molekulákhoz rendelt tulajdonság, ll. aktvtás értékeket véletlenszerűen összekeverjük és újraépítjük a modellt. Ha a modell statsztka jellemző nem romlanak lényeges mértékben el kell vetnünk a modellt. - F-próba: A modell szgnfkancáját vzsgálhatjuk a statsztka próbával (p az llesztésben szereplő paraméterek száma, n a mnták száma): 2 ( yˆ y) / p F = 2 yˆ y / n p ( ) 1 Ebben az esetben, ha F> F p,n-p-1,α, az α konfdenca ntervallumhoz tartozó érték, a predkcó szórása szgnfkánsan ksebb mnt a nullbecslés -ből adódó szórás. 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 28

QSAR A modell külső ellenőrzése - Teszt1 halmaz: Előfordulhat, hogy a modell építése során a tanító halmazból (tranng set) khagyunk mntákat, melyek a végső modellben nem vesznek részt. Az ezekre számított predktív r 2 lényegesen jobb becslését adja a modell predkcós erejének, mnt pl. q 2 LOO. - Teszt2 halmaz: A modell predkcós képességének gaz ellenőrzése olyan adatokkal vzsgálható legjobban, melyek egyáltalán nem vettek részt a modellépítés folyamatában. Érdemes azonban megjegyezn, hogy a QSAR modellektől nem várható el hatékony extrapolácó, ezért érdemes predkcó esetén az extrapolácó várható mértékét s megvzsgáln (pl. Hat-mátrx). - Kubny paradoxon: Jó statsztka adatok produkálására tanított modellek nagyon rossz predkcós tulajdonságokkal s bírhatnak. 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 29

2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 30

2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 31

2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 32

2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 33

2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 34

2009. áprls 16. QSAR Problémák - Hbás bológa adatok - A bológa adatok rossz skálázása - Különböző laborokból származó adatok (eltérő szsztematkus hba) - Különböző módú kötődés - Különböző hatásmechanzmus (pl. toxctás!) - Túl kevés rendelkezésre álló adat - Túl sok egyedülálló pont - Ksmértékű kéma változatosság - Blokkosodott adatok - Tulajdonság/aktvtás ksmértékű varancája - Szsztematkus vagy túl nagy mérés hba - Kugró pontok (outlers) - Rossz modellválasztás (TXK) ELTE Kéma Intézet, Szerves Kéma Tanszék 35

QSAR Van még gond - Nem megfelelő deszkrptorok - Túl sok deszkrptor - a modellválasztáskor - a modellben - Deszkrptorok skálázása (pl. CoMFA) - Kezelés nélkül mátrx szngulartás - Változók khagyása, melyek csak a többvel együtt szgnfkánsak - Model nem szgnfkáns (F-teszt) - Deszkrptorok nem szgnfkánsak (t-teszt) - Nncs kvaltatív modell - Nncs ok-okozat összefüggés - Predkcó túl nagy extrapolácóval - Ellenőrzés hánya - Rossz eljárás használata ellenőrzésre (TXK) 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 36

QSAR 3D QSAR (CoMFA, 1988) - Összehasonlító molekula-mező elemzés (Comparatve Molecular Feld Analyss) - Hasonló dverztású trénng/teszt halmaz - 3D szerkezetek(ek) generálása az összes vzsgálandó molekulára (predkcónál s) - Molekulák megfelelő átfedés szabályanak kalakítása (közös aktív rész) - Molekulák összeforgatása a megfelelő közös orentácó eléréséhez. - Molekulák dobozba llesztése - Tulajdonságok kszámítása a grd pontokban (az összes molekulára tulajdonságonként) - Bázstranszformácó (latent varables) - PLS, tulajdonság-súlyok meghatározása - Predkcó - Thanks Kubny (TXK) 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 37

QSAR 3D QSAR (CoMFA, 1988) - Összehasonlító molekula-mező elemzés (Comparatve Molecular Feld Analyss) - Hasonló dverztású trénng/teszt halmaz - 3D szerkezetek(ek) generálása az összes vzsgálandó molekulára (predkcónál s) - Molekulák megfelelő átfedés szabályanak kalakítása (közös aktív rész) - Molekulák összeforgatás a megfelelő orentácó eléréséhez. - Molekulák dobozba llesztése - Tulajdonságok kszámítása a grd pontokban (az összes molekulára tulajdonságonként) - Bázstranszformácó (latent varables) - PLS, tulajdonság-súlyok meghatározása - Pedkcó - Thanks Kubny (TXK) 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 38

QSAR és 3D QSAR Free-Wlson analízs + Egyszerű módszer, legtöbbször egyetlen megoldás + A szubszttuens effektusok tsztán szétválnak + Segíthet Hansch-modell felállításában + Hansch-modellel kombnálható - Legalább két pozícóban szükséges kéma változatosság - Túl sok paraméter, kevés szabadság fok - Szűk modell, nncs extrapolácó Hansch analízs + Aktvtásokat fzka-kéma paraméterekkel korreláltatja + Lehetséges az extrapolácó - Származékokra használható csak - Aromás szuszttuensek változtatásával működk legnkább - Csak 2D (topológa) szerkezet nformácót használ - Több megoldás s lehetséges - Sok változó, véletlen korrelácó esélye nagy. - Nagymérvű extrapolácó esetén nagy lehet a hba 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 39

QSAR és 3D QSAR 3D QSAR + Lgandumok 3D szerkezetét vesz fgyelembe + Széleskörű mntahalmazra alkalmazható + Többféle tulajdonságot s fgyelembe vehet (elektrosztatkus, sztérkus, hdrogénkötés donor/akceptor, stb.) + Képes előnyös és hátrányos pozícók 3D feltérképezése - A boaktív konformácó megtalálása bzonytalan! - Különböző kötődés módokból adódhat bzonytalanság - Levágás problémák (CoMSIA részben megoldotta) - Változókválasztás töredezett kontúr felületeket eredményez - Nagy esélye van a véletlen korrelácónak - Kzárólag n vtro adatokra alkalmazható? 2009. áprls 16. PFLR-3D-QSAR: http://ptanc.chem.elte.hu/pflr, http://ptanc.chem.elte.hu/pflr/examples/ Farkas, O.; Jakl, I.; Kalasz, A.; Gabor, I. Parameter-free lnear relatonshp (PFLR) and ts applcaton to 3D QSAR. J. Math. Chem. 2008, n press (on-lne elérhető). ELTE Kéma Intézet, Szerves Kéma Tanszék (TXK) 40

QSAR? Mnden modell rossz, de néhány használható. All Models Are Wrong But Some Are Useful. George E. P. Box, 1979 (TXK) 2009. áprls 16. ELTE Kéma Intézet, Szerves Kéma Tanszék 41