N1==1 InhI=1/108/c1-2-5-9-7-4-8-10(9)6-3-1/h1-8 ELTE Kémiai Intézet, 2008. 1 Összegképlet (pl. ill-féle rendezéssel:,, abc...) Triviális név / szisztematikus név Szerkezeti képlet (sztereokémia?) Atomok térbeli pozíciói Molekulafelszín Egyértelműség és egyediség (reprezentáció vegyület) Reprodukálhatóság (szabályok) élszerűség ELTE Kémiai Intézet, 2008. 2 1/ 1
Felszín 3D szerkezet 2D szerkezet benzol Nevezéktan ELTE Kémiai Intézet, 2008. 3 Elemek és szervetlen vegyületek 128 - I 53 3 protonok és neutronok száma protonok száma Vegyjel töltés atomok száma S 2 Na 2 [Sn() 4 ] ELTE Kémiai Intézet, 2008. 4 1/ 2
Egysoros leírások (line notations) Triviális név / szisztematikus név (!) WLN (Wiswesser Line Notation) RSDAL (Representation of rganic Structures Description Arranged Linearly) SMILES (Simplified Molecular Input Line Entry System) SLN (SYBYL Line Notation) InhI (IUPA International hemical Identifier) ELTE Kémiai Intézet, 2008. 5 Szisztematikus név 1892: Genfi nevezéktan 1922: IUPA ommission on Nomenclature of rganic hemistry Név szerkezet egyértelmű Szerkezet név nem mindig Szerkezet név konvertálás programokkal lehetséges (hemffice, AD hemsketch, XN Marvin, ) 2 N N benzamidine 2 N 2-Amino-3-phenyl-propionic acid ELTE Kémiai Intézet, 2008. 6 1/ 3
SMILES: alapok 1986, David Weininger Az atomokat vegyjelük reprezentálja idrogénatomok impliciten (szabad vegyértékeket telítik) Szomszédos atomok egymás mellett Kettős és hármas kötések jele: = és # Elágazások jelzése zárójelekkel Aromás rendszerek: sp 2 -es atomok kisbetűs vegyjellel, váltakozó (-/=) kötések Gyűrűk leírásához az összekötendő atomok számot kapnak Részletes szabályok: http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html Gyakorlás után gyorsabban lehet szerkezeteket így begépelni, mint berajzolni! ELTE Kémiai Intézet, 2008. 7 SMILES: egyszerű példák bután [2][2] deutérium-oxid == széndioxid (=) ecetsav # etin [N4+] ammóniumion N() trimetilamin N()(=) alanin 11 ciklohexán c1ccccc1 benzol ELTE Kémiai Intézet, 2008. 8 1/ 4
SMILES bővebben A vegyértékmodell absztrakciója Szemantikailag jól definiált (egyértelmű jelentése van önmagában) Ún. LR-1 nyelvtan, igen hatékonyan, az olvasás folyamatában feldolgozható Nincs preferált helyes atomsorrend, pl. és is jó Egyszerűen (reális számításidő alatt) egységesíthető, azaz az egymásnak megfelelő reprezentációk ugyanazon egységes formára hozhatók Véges számú elemből áll Ugyanakkor nincs elvi hosszúsági korlát (a gyakorlatban a SMILES-t használó programokban van, 20000-80000 karakter körül) Nincs elvi korlát az egymásba ágyazott elágazások számára sem (a gyakorlatban ez 10-50, ez legtöbbször bőven elegendő) Könnyen kiterjeszthető, fejleszthető ELTE Kémiai Intézet, 2008. 9 SMILES bővebben B,, N,, P, S, F, l, Br, I: amennyiben a szokásos vegyértékük van, írhatók zárójel nélkül Atomok jelölése: egy- kétbetűs vegyjellel (a második mindig kisbetű) sp 2 -hibridálapotú atomok esetében kisbetűs vegyjelet használunk A csillag ( * ) jel zéró tömegszámú, nem definiált atomot jelent Egymás után írt atomok között a megfelelő (alapértelmezett) kötés van Elágazások jelzése zárójelezéssel, kötések feltüntethetőek, többszörös és egymásba ágyazott elágazások megengedettek Gyűrűk: egy kötést elvágva lineáris molekulánk marad, melyet a fenti szabályokkal le tudunk írni, a hiányzó kötést külön jelöljük az érintett atomoknak azonos számokat adva Egy atomon több gyűrű is záródhat a szükséges, kétjegyű számokat is használhatunk ( % jellel bevezetve, de erre még a 60 -nál sincs szükség!) ELTE Kémiai Intézet, 2008. 10 1/ 5
SMILES bővebben Elkülönült entitások jelzése:. (pont) Figyelem! Ez azt jelenti, hogy a két oldalán álló atom nincs egymással kötésben (nulladrendű kötés)! Aromás molekulák: kisbetűs vegyjelek ( ha egyértelmű, explicit kiírt egyes és kettős kötések) A SMILES a ückel-szabályt (4n+2) alkalmazza Tautoméria ábrázolása explicit (egyszerre egy tautomer leírása) Egységesített (anonical) SMILES: Pl., (), (), 1.1 Viszonylag új gráfelméleti eljárás, amely ezt exponenciálisnál rövidebb idő alatt oldja meg Ún. hashing eljárásokhoz kiválóan használható, minden szerkezethez egyedi azonosító készíthető, amellyel azonnal visszakérdezhetőek az adatbázisban az adott molekulához tartozó adatok ELTE Kémiai Intézet, 2008. 11 SMILES: atomok [S] S l [-] [-1] [Fe+2] [Fe++] [235U] [*+2] elemi kén hidrogén-szulfid hidrogén-klorid metán hidroxidion vas(ii)ion Urán-235 ismeretlen kation Alapértelmezés: tömeg nem meghatározott, töltés 0, hidrogének száma 0 A kén legkisebb normál vegyértéke 2 A klór legkisebb normál vegyértéke 1 A szén legkisebb normál vegyértéke 4 Töltésszám hiányában a töltés egységnyi ( + = +1, - = -1 ) A töltésjel ismételhető ( ++ = +2 ) A vegyjel előtti szám tömegszámként értelmezett Egy +2 töltésű, ismeretlen atomszámú ion ELTE Kémiai Intézet, 2008. 12 1/ 6
SMILES: kötések - = = #N N# = cc == cccc etán formaldehid hidrogén-cianid etén butadién hidrogénperoxid Szomszédos alifás atomok között az alapértelmezés az egyszeres kötés A kettős kötés jele =, atomsorrend nem számít A hármas kötés jele # (jobb híján) Rendesen az etén =, de nem aromás sp 2 atomok között az alapértelmezett kötés lehet kettős (különböző programok máshogyan értelmezik!) De! itt az ellenpélda, a butadiént rendesen == nek írjuk A szabályok nem csak szénatomokra vonatkoznak! ELTE Kémiai Intézet, 2008. 13 SMILES: elágazások ()(=) izobutánsav A kötések szükség esetén az elágazáson belülre tehetők F(F)F (F)(F)F F F F fluoroform Egy atomhoz több elágazás is kapcsolódhat, az atomok sorrendje nem számít =l(=)(=)[-] l(=)(=)(=)[.] l - perklorátion Még több elágazás ((=)) 2-propilpentánsav Az elágazások egymásba ágyazhatóak ELTE Kémiai Intézet, 2008. 14 1/ 7
SMILES: gyűrűk 11 1=1 1=1 c1cc2ccccc2cc1 c12c(cccc1)cccc2 ciklohexán ciklohexén naftalin a nincs külön jelezve, a gyűrűzáródáshoz az alapértelmezett kötéstípus ugyanaz, mint bármilyen más kötés esetében A gyűrűt záró kötést többféleképpen is megadhatjuk, de egyértelműnek kell lennie! Egy atomon több gyűrű is záródhat c1ccccc1c2ccccc2 c1cccc1c1ccccc1 bifenil A gyűrűzáráshoz használt számok újra felhasználhatóak ELTE Kémiai Intézet, 2008. 15 SMILES: gyűrűk 12 3 25 5 3 4 1 4 Kubán 1234154325 A linearizált kubán molekulájában két olyan szénatom is van, amelyen két gyűrű záródik, és minden atomon záródik legalább egy gyűrű ELTE Kémiai Intézet, 2008. 16 1/ 8
SMILES: elkülönült entitások [Na+].[l-] nátrium-klorid A pont elkülönülést (a kovalens kötés explicit hiányát) jelent [Na+].[-]c1ccccc1 c1cc([-].[na+])ccc1 - Na + nátrum-fenolát A pontnak mindig a két nem kötött atom között kell lennie, nem elég a két entitásnak megfelelő SMILES-t egyszerűen ponttal összerakni! 1.2.12 elyes, de lehetőség szerint kerülendő etanol ELTE Kémiai Intézet, 2008. 17 SMILES: aromás rendszerek c1ccccc1 1===1 benzol ciklohexatrién = benzol 6=4n+2 közös π-elektron n1ccccc1 N1===1 N piridin A normál aromás n olyan, mint a piridin nitrogénje [n]1cccc1 N1==1 [c-]1cccc1 [-]1==1 N - 1--pirrol ciklopentadienil anion A pirrol nitrogénjét [n] jelöli, két π-elektron tartozik hozzá A negatív töltést okozó plusz elektronnal van meg a 6 c1cc2cccccc2c1 1=2===2=1 azulén 3+2+5=10=4n+2 ELTE Kémiai Intézet, 2008. 18 1/ 9
SMILES: tautoméria =c1[n]ccc1 N 2-piridon c1ncccc1 N 2-piridinol ELTE Kémiai Intézet, 2008. 19 SLN (SYBYL Line Notation) A Tripos cég fejleszti, elsősorban az ő alkalmazásaik használják Igen hasonlít a SMILES-ra De: hidrogénatomok expliciten Aromaticitás a kötések tulajdonsága Gyűrűk jelzése : az egyik atomot megcímkézzük (teszőleges szám, []) Gyűrűzáródás jelzése: @ karakterrel Adatbázisokhoz, (fragmens)keresésekhez, adatcseréhez stb. ELTE Kémiai Intézet, 2008. 20 1/ 10
SLN (SYBYL Line Notation) összevetés a SMILES-szal SMILES = [Na+].[-] (=) 11 o1cccc1 név metán hangyasav nátrium-hidroxid ecetsav ciklohexán furán SLN 4 (=) Na. 3(=) [15]222222@15 [6]:::::@6 ELTE Kémiai Intézet, 2008. 21 InhI (International hemical Identifier) A IUPA 2001-ben indította el a kidolgozását A kidolgozásban részt vett a NIST (National Institute of Standards and Technology) A cél egy valóban egységes és általánosan használható azonosító kidolgozása volt Eredmény: szabadon hozzáférhető (forráskód szinten is) alkalmazás, mely az ember számára már nem olyan könnyen olvasható formátumot készít A kémiai szerkezeteket 5 ún. rétegben (layers) írja le: konnektivitás, tautoméria, izotópösszetétel, sztereokémia, elektronikus szerkezet Az InhI algoritmusnak 3 fő lépése van normalizálás (redundáns információk eltávolítása) kanonizálás (egyértelmű atomazonosítók hozzárendelése) szerializálás (karakterlánc hozzárendelése) Ma már számos adatbázis használja, több program támogatja (pl. hemsketch) ivatalos oldal: http://www.iupac.org/inchi (ingyenes program + API forráskód) ELTE Kémiai Intézet, 2008. 22 1/ 11
InhI (International hemical Identifier) InhI=1/762/c8-7(9)6-4-2-1-3-5-6/h1-5,(,8,9) benzoesav összegképlet konnektivitás hidrogének Az egyes rétegek és alrétegek azonosítását a / jel és az utána álló karakter biztosítja A legelső karakter az InhI verziószám L-glutaminsav (szelektíven 13 -jelölt) + 3 N 13 InhI=1/59N4/c6-3(5(9)10)1-2-4(7)8/h3,1-2,62,(,7,8)(,9,10)/p+1/t3-/m0/s1/i4+1 ELTE Kémiai Intézet, 2008. 23 InhI (International hemical Identifier) A fő réteg A ill-sorrendnek megfelelő összegképlet előtt csak / van Az atomok sorszámának megállapításához az InhI a képleteket először normalizálja (azaz a molekula egyszeres kötésekből alkotott vázát állítja elő), az ekvivalens atomokat egymás utáni számokkal látja el: ELTE Kémiai Intézet, 2008. 24 1/ 12
InhI (International hemical Identifier) A konnektivitás alréteg (/c) Az atomok sorszáma az összegképletben való sorrendjükből származik (kivéve a hidrogéneket, amelyek alapesetben nem kapnak sorszámot): pl. 36 esetében a szénatom az 1-3., az oxigén a 4. sorszámot kapja Elágazások jelzése zárójelezéssel Gyűrűk esetében az újabb kapcsolódás explicit jelzése az atomszám újbóli feltüntetésével A hidrogén alréteg (/h) Az atomsorszámok után fel van tüntetve, hány tartozik hozzájuk (az egyes szám nincs kiírva) A mobilis hidrogének külön, zárójelben vannak feltüntetve, a számuk után az őket (potenciálisan) hordozó atomok sorszáma áll InhI=1/77N/c8-7(9)6-4-2-1-3-5-6/h1-5,(2,8,9) N 2 ELTE Kémiai Intézet, 2008. 25 1/ 13