Szótáralapú kémiai NE-felismer rendszer



Hasonló dokumentumok
Különírás-egybeírás automatikusan

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Magyar nyelvű néprajzi keresőrendszer

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

ÜGYVITELI ALAPISMERETEK

Operációs rendszerek. 11. gyakorlat. AWK - szintaxis, vezérlési szerkezetek UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Bevezetés a játékelméletbe Kétszemélyes zérusösszegű mátrixjáték, optimális stratégia

A HunOr magyar-orosz párhuzamos korpusz

3. modul - Szövegszerkesztés

Ajánlott elemi feladatok az AAO tárgyhoz 41 feladat

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK

Nyelvészeti problémák a szabadalmak feldolgozásában

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Programozási segédlet

Tipikus hibák a szövegszerkesztésben. Dr. Nyéki Lajos 2017

3. modul - Szövegszerkesztés

M/74. közismereti informatika írásbeli (teszt) érettségi vizsgához

ELEMI BÁZISTRANSZFORMÁCIÓ LÉPÉSEI 2.NEHEZÍTETT VÁLTOZAT 2.a) Paramétert nem tartalmazó eset

Láncolt lista. az itt adott nevet csak a struct deklaráción belül használjuk

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

SZE INFORMATIKAI KÉZÉS 1

Útmutató. duplum befoglaló művek összevonásához

Operációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Kétszemélyes négyes sor játék

Az RDC támogatási webhely elérése

Komplex feliratok készítése Maplex-el. Beke Dániel

Eötvös Loránd Tudományegyetem Tanító- és Óvóképző Kar. Útmutató a szakdolgozat szerkesztéséhez

4. Javítás és jegyzetek

Térinformatikai DGPS NTRIP vétel és feldolgozás

Igekötős szerkezetek a magyarban

az adatbevitel szabályozása, alapok

Operációs rendszerek gyak.

Többnyelv dokumentum nyelvének megállapítása

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

9. Tétel Els - és másodfokú egyenl tlenségek. Pozitív számok nevezetes közepei, ezek felhasználása széls érték-feladatok megoldásában

A szoftver-folyamat. Szoftver életciklus modellek. Szoftver-technológia I. Irodalom

A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):

A DITAL honlap kezelése (

Flex tutorial. Dévai Gergely

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Az ECDL vizsgapéldatár megújítása, nemzetközi követelmények és frissítés. Ziegler Tünde

Gábor Dénes Számítástechnikai Emlékverseny 2012/2013 Alkalmazói kategória, II. korcsoport 2. forduló

KIVONAT. Szeged Megyei Jogú Város Közgyűlésének február 10. napján tartott ülésének jegyzőkönyvéből HATÁROZAT

Playlist.hu Kiadói kézikönyv

1. feladat: A decimális kódokat az ASCII kódtábla alapján kódold vissza karakterekké és megkapod a megoldást! Kitől van az idézet?

MTMT2. Konzultáció 2017 március 16

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

A VIZSGA LEÍRÁSA KÖZÉPSZINT VIZSGA. Írásbeli vizsga

Írásjelek helyes szedése. Szabó Csaba. Mondatvégi írásjelek. Központozás. Kötőjelfélék. Szabó Csaba november 18.

Ujjszámlálás Matlab segítségével

Publikációk és idéző közlemények duplum vizsgálata és kezelése

OEP Gregorics Tibor: Minta dokumentáció a 3. házi feladathoz 1. Feladat. Elemzés 1

BASH script programozás II. Vezérlési szerkezetek

dr.xlsx A programról Szövegműveletekhez használható függvények

Szeged Megyei Jogú Város Gazdasági Alpolgármestere 6745 Szeged, Pf. 473.

A PiFast program használata. Nagy Lajos

Programozási nyelvek II. JAVA

Tisztelt Ügyfelünk! Ezúton szeretnénk tájékoztatni, hogy a következő modulokból került fel frissítés az internetre:

élőfej és élőláb távolsága a lapszéltől (0,5 cm)

Minta felvételi feladatsor programozásból

A szoftverrel kapcsolatos elvárásaikat a cég fontos emberei így fogalmazták meg:

Bevezetés. Párhuzamos vetítés és tulajdonságai

Megjegyzés: A programnak tartalmaznia kell legalább egy felhasználói alprogramot. Példa:

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Kaszás Tímea: Corvina OPAC az SZTE Mez gazdasági Könyvtárában

SystemDiagnostics. Magyar

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

1. A BIZTOSÍTÁSI FEDEZET TÁRGYA

Kálmán Tibor sportreferens Egészségügyi és Szociális Bizottság, Kulturális és Sport Bizottság

PF1K bizonylatok kezelése ERA rendezések felhasználói dokumentum Lezárva:

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA. (51) Int. Cl.: H02H 9/08 ( )

T I T - M T T. Hevesy György Kémiaverseny. A megyei forduló feladatlapja. 7. osztály. A versenyz jeligéje:... Megye:...

Keressük a Magyar Tudományos Akadémia Kémiai Kutatóközpontot

KITÖLTÉSI ÚTMUTATÓ. Határidők kifizetők, foglalkoztatók és kijelölt munkáltatók részére egységesen

KTI Közlekedéstudományi Intézet Nonprofit Kft. Vasúti Vizsgaközpont

A 2017/2018 tanévi Országos Középiskolai Tanulmányi Verseny első fordulójának feladatai. INFORMATIKA II. (programozás) kategória

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Szentesi kistérség kulturális operatív programja (2010/2011)

Foglalkoztatási és Szociális Adatbázis működési koncepciója, tapasztalatai

Programzás I gyakorlat

Magyar nyelvtan tanmenet 4. osztály

A MAGYAR KÖZTÁRSASÁG NEVÉBEN!

Adatbázis rendszerek. 4. előadás Redundancia, normalizálás

Angol szótár V

Megoldások 9. osztály

43/1999. (III. 3.) Korm. rendelet. az egészségügyi szolgáltatások Egészségbiztosítási Alapból történ ő finanszírozásának részletes szabályairól

Analízis elo adások. Vajda István szeptember 10. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

Komplex számok trigonometrikus alakja

SZERVEZETI ÉS MŰKÖDÉSI SZABÁLYZATA

Tájékoztató. Használható segédeszköz: -

Szkriptnyelvek. 1. UNIX shell

Informatika tagozat osztályozóvizsga követelményei

DuneHD.hu. Kompatibilis médialejátszók: Dune HD Center Dune BD Prime Dune HD Base 2.0 Dune HD Base 3.0 Dune BD Prime 3.0

TÁJÉKOZTATÓ. az OTH Kémiai Biztonsági Szakrendszerébe (OSZIR) történő bejelentés menetéről Veszélyes keverék bejelentés

INFORMATIKAI ALAPISMERETEK

NORMALIZÁLÁS. Funkcionális függés Redundancia 1NF, 2NF, 3NF

Lineáris algebra Gyakorló feladatok

Átírás:

Szeged, 2010. december 2 3. 379 Szótáralapú kémiai NE-felismer rendszer Nyilas Sándor, Németh Gábor, Almási Attila Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged, Árpád tér 2. {nyilasster, nemeth.gabor3, vizipal}@gmail.com Kivonat: A MASZEKER projekt szabadalmakon futó szemantikus keresrendszer kifejlesztését célozta meg, melynek az orvostudományi és kémiai szabadalmak esetében egyik lényegi lépése a kémiai névelemek felismerése. Ehhez szükség volt egy szótárfájl létrehozására, mivel a névelemeket jelöl program nem elemzi szemantikusan a mondatok szavait, és nem az alapján dönt, hogy melyik szó kémiai névelem és melyik nem. A szótárfájl, amely soronként elkülönített szavakból áll, tartalmazza a kémiai névelemeket. Ennek a szótárfájlnak a rendszeres frissítése és karbantartása szükséges ahhoz, hogy a program minden kémiai névelemet fel tudjon ismerni. 1 A szótárfájl elállításáról A kémiai vegyületneveket tartalmazó szótárfájlt az Environmental Chemistry oldalról 1 gyjtöttük ki, mely soronként egy vegyületnevet és egy tabulátorral elválasztott egy- vagy kétjegy elfordulási számot tartalmaz, amelyet eddig figyelmen kívül hagytunk. 1.1 Az eredeti szótárfájl A szótárfájlból több névelem (NE) is hiányzott (pl. sodium), ezért szükség volt a szólista bvítésére. Mivel más kémiai névelem-adatbázis nem állt rendelkezésünkre, de feltételeztük, hogy az összetett kémiai NE-k tartalmazzák a hiányzó, elemibb NEket (pl. a (9-Octadecenoic acid (Z)-, iron(3+) salt) tartalmazza az iron-t), ezért az összetett NE-k felbontása mellett döntöttünk. Ehhez szükség volt egy bvítmény létrehozására, melyet az alábbiak szerint hajtottunk végre: az eredeti szótárfájlról két másolatot készítettünk, melyeken a következ változtatásokat hajtottuk végre: kis- és nagybetket nem megkülönböztetve ábécérendbe rendeztük az NE-ket, minden sor végérl a tabulátort és az utána szerepl számot töröltük, az 1. másolatban minden nem szám- és betkaraktert kicseréltünk szóköz karakterre, az összes szóközt sortörésre cseréltük, s az így kapott szavakat a következ algoritmussal szrtük: a tördelésnél keletkezett felesleges szavak közül kivettük a duplikátumokat; a könnyebb kezelhetség kedvéért a dupla sortöréseket is töröltük; 1 http://environmentalchemistry.com/yogi/chemicals/

380 VII. Magyar Számítógépes Nyelvészeti Konferencia az 1. másolatot hozzáadtuk a 2.-hoz, majd újból szrtük a dupla sortöréseket és a duplikátumokat; a 2. másolatból a felesleges szavakat kézileg eltávolítottuk. E 2. másolatot a beillesztést követen az els verziójú szótárfájlnak tekintjük. Mivel a program nem tett különbséget a rövidítéseknél a kis- és nagybetk között, helytelenül került feljelölésre az at mint prepozíció és helyesen az At mint Astatine. A hiba kiküszöbölése érdekében a szótárfájlt kettévágtuk a legfeljebb három, illetve az annál több karakterbl álló szavakra. Ezentúl két lista létezik, melyeket együttesen nevezünk szótárfájlnak. Az els listafájlt (három és annál kevesebb karakterbl álló szavak), kis- és nagybett megkülönböztetve, a másikat (háromnál több karakterekbl álló NE-k) továbbra is kis- és nagybett nem megkülönböztetve vizsgáljuk. A két listafájl jelenleg 81959 vegyületnevet tartalmaz. 2 A program mködése A szótárfájlt és a vizsgált szabadalmat betöltjük a programba, majd megvizsgáljuk, hogy a szótárfájlból soronként betöltött NE-k megtalálhatók-e a vizsgált szabadalomban. Az eredmények javításához feszít-szr szabályrendszert alkalmazunk. 2.1 Feszítés Mikor a szó átadódik a feszít algoritmusnak, már biztosak lehetünk abban, hogy vegyületnevet találtunk. Elször a kezd-, majd a záróindex értékét változtatja a kód, értelemszeren a kezdindexet csökkentve, a záróindexet pedig növelve azért, hogy a vegyületnév-töredék indexeit ráfeszítse az egész vegyületnévre. A folyamat akkor áll meg, ha a program megfelel karakterpárt talál. Ezek a karakterpárok a vegyületnév elejét vagy végét jelzik. Ha egy szó után szünet van, és a következ karakter valamilyen bet vagy szám, akkor ott a vége a vegyületnévnek. Ugyanez igaz a szó elejével kapcsolatban is. Ezen kívül a következ kritériumok esetében áll meg a feszítés, és dönt úgy, hogy a vegyületnévnek az adott helyen eleje vagy vége van: eleje: <bármilyen karakter és/vagy szám> és szóköz <írásjelek (,.!? ( stb...)> és szóköz <sorvége, kocsivissza, \0 jelek> és szóköz pontosvessz

Szeged, 2010. december 2 3. 381 vége: szóköz és <bármilyen karakter és/vagy szám> szóköz és <írásjelek (,.!? ) stb...)> <szóköz, írásjelek> és <sorvége, kocsivissza, \0 jelek> 2.2 Szrés Mikor a feszítés befejezdik, átadja a találatok kezd- és végindexeinek listáját a szr algoritmusnak, mely azért felel, hogy a találatok közül mindig csak a legbvebb legyen feljelölve (pl. csak a (Threitol 1,4-bis (methanesulfonate)) és ne a Threitol és methanesulfonate külön-külön), ezért egy algoritmussal a kezd és az ahhoz tartozó végindexeket rendezi. Ezután a program addig hasonlítja össze a találatokat, ameddig a szr már nem változtat a találati listán. A szr egyik funkciója az, hogy megvizsgálja, hogy az n-edik találatnak a k kezdpontjához és v végpontjához képest hol helyezkedik el az n+1-edik találatnak a k2 kezdpontja és a v2 végpontja. A sorba rendezés miatt alapfeltevés, hogy k<k2: ha v<k2, akkor nem változik ha v>=k2, de v<=v2, akkor v-t egyenlvé tesszük v2-vel és az n+1 találatot töröljük ha v>=k2, de v>v2, akkor v megtartja az értékét, és az n+1 találatot töröljük. Ha két találat közt csak egy karakter távolság van, akkor a kettt egynek veszi, és megkapja a két találat legkisebb kezdértéket és a legnagyobb végértéket. 3 A névelemek annotációja során felmerült problémákról A figénypontokban szerepl NE-ket három csoportba rendeztük: 1) kémiai elemek (nitrogén), elemcsoportok (halogének), vegyületek (Na 2 O) stb.; 2) általános anyagnevek (só), vegyületfajták (szénhidrát) stb.; 3) konkrét betegségek (Alzheimer-kór), betegségcsoportok (immunhiányos betegségek) és tünetek (másnaposság). Néhány gyakoribb hibatípus [1]: A program nem különíti el a NE-k fnévi és jelzi használatát: pl. antibiotic az angolban fnév és melléknév is lehet; fnévi használatban jelöltük csak. Az elforduló helyesírási hibák miatt a program nem megfelelen szegmentál bizonyos elemeket: pl. alkarylamino, fluoro, chloro, bromo iodo and trifluoromethyl két, egyébként külön jelölend NE-t egynek vett; az annotáció a szándékolt tartalomnak megfelelen történt. Szófaji problémák: 1. water-soluble, wax-like kifejezések a magyarban nem NE-k nem jelöltük; 2. carboxylic, enantiomeric jelzk nem jelöltük; 3. O-glycosidically határozószó nem jelöltük.

382 VII. Magyar Számítógépes Nyelvészeti Konferencia 4 Eredmények A névelem-felismer program találati pontossága a fejlesztésekkel rohamosan ntt. Ezt egy segédrendszerrel teszteltük, amely összehasonlította a kézzel annotált 313 dokumentumot az automatikusan feljelöltekkel. A két feljelölés között jelents számbeli különbség mutatkozott: pl. a salt a kézi feljelölés alapján 17, a gépi feljelölés szerint pedig 43 alkalommal fordul el NE-ként. Eddig négy különböz programverzió készült, a negyedik még tesztfázisban van. verzió 0.1: szrés és feszítés nélkül a program a tesztelés során csak ~ 6,5%-ot ért el. A programban nem volt szrési rendszer: a gépi megjelölés jóval több, mint a kézi, mert összetettebb vegyületnevek esetén az elemibb NE is feljelölésre kerültek, és az is annotációnak számított. verzió 0.2: a szrrendszer beiktatása után már 70%-os teljesítményt ért el a program. A gépi annotációk száma számotteven kisebb volt, mint a kézzel feljelölteké. Szükség volt a szótárfájl bvítésére és egyben szrésére is, mert még ~ 2000 feljelölés fölösleges, illetve helytelen volt. verzió 0.3: a szótárfájl bvítése és szrése után az F-mérték 90.13%-ra javult. verzió 0.4: finomítottunk az annotálási elveken és három kategóriát vettünk fel: speciális NE-k, általános NE-k, betegségek (l. 3. fejezet). A tesztanyagban a kézzel jelölt annotációkat a fentieknek megfelelen módosítottuk. A szabályrendszer átalakítására nem volt szükség, csupán a program beolvasási és osztályba sorolási rendszerén kellett változtatni. Az NE-k és betegségek megkülönböztetése érdekében a szótárfájlt a korábbi kett helyett négyfelé vágtuk, majd beillesztettük a programba a négy fájl beolvasását. Amikor a program egy NE-t felismer, feljelöli, és besorolja a megfelel osztályba. Az, hogy melyik osztályba kerül egy NE, kizárólag attól függ, hogy a kifejezés melyik szótárfájlból származik. A betegségek szótárfájlt bvíteni kell egy másik adatbázis 2 segítségével. A kézi jelölés módosítása után az F- mérték 95.25%-ra javult. 1. táblázat verzió 0.1 verzió 0.2 verzió 0.3 verzió 0.4 Gépi NE-k száma 17 779 9 799 11 407 10 373 Kézi NE-k száma 10 874 10 874 10 874 11 355 Helyes NE-k száma: 932 7 306 10 041 10 348 Precision / Recall: 8.57 / 5.24 67.18 / 74.56 92.33 / 88.02 91.13 / 99.75 F: 6.50 70.68 90.13 95.25 2 http://www.who.int/classifications/icd/en/

Szeged, 2010. december 2 3. 383 Köszönetnyilvánítás A kutatást részben a MASZEKER kódnev projekt keretében az NKTH támogatta. Bibliográfia 1. Vincze V., Nagy Á., Klausz Á., Almási A., Kiss M.: Nyelvészeti problémák a szabadalmak feldolgozásában. In: Tanács A., Vincze V. (szerk.): VII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Szegedi Tudományegyetem (2010) 168 179