Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Hasonló dokumentumok
Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

YANG ZIJIAN GYŐZŐ 杨子剑

Igekötős szerkezetek a magyarban

Ismeretlen kifejezések és a szófaji egyértelm sítés

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Az ember, a korpusz és a számítógép *

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

A Hunglish Korpusz és szótár

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

Lexikon és nyelvtechnológia Földesi András /

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

DOKTORI DISSZERTÁCIÓ

TÁVOKTATÁSI TANANYAGOK FEJLESZTÉSÉNEK MÓDSZERTANI KÉRDÉSEI

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

SZAKMAI ÖNÉLETRAJZ Farkas Judit

műszaki tudomány doktora 1992 Beosztás: stratégiai tanácsadó, tudományos tanácsadó Munkahelyek: Nokia -Hungary kft Veszprémi Egyetem

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Összeállította Horváth László egyetemi tanár

Autóipari beágyazott rendszerek Dr. Balogh, András

Emlékeztető az Informatika Doktori Iskola Tanácsának üléséről

MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

Tájékoztatás a 4- éves doktori tanulmányok komplex vizsgájáról: a jelentkezésre és a vizsga lebonyolítására vonatkozó információk

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

TANTÁRGYI ADATLAP I. TANTÁRGYLEÍRÁS

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Szoftver-technológia II. Szoftver újrafelhasználás. (Software reuse) Irodalom

Január 7. hétfő. I. Beszédtechnológia, fonológia

Funkciópont elemzés: elmélet és gyakorlat

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Történet John Little (1970) (Management Science cikk)

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Bevezetés az informatikába

SZOFTVERFEJLESZTÉS. Földtudományi mérnöki mesterszak / Geoinformatikus-mérnöki szakirány. 2017/18 II. félév. A kurzus ebben a félévben nem indult

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Nyelv-ész-gép Új technológiák az információs társadalomban

Körkép a lakossági felhasználók fogyasztásának készülékszintű becsléséről (NILM)

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Nyelvi hálózatok és a mentális lexikon

Smart Strategic Planner

Gépi tanulás és Mintafelismerés

Cloud Akkreditációs Szolgáltatás indítása CLAKK projekt. Kozlovszky Miklós, Németh Zsolt, Lovas Róbert 9. LPDS MTA SZTAKI Tudományos nap

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai. Kiezer Tamás

Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra

Méréselmélet MI BSc 1

Élpont osztályozáson alapuló robusztus tekintetkövetés

Mérés és modellezés 1

Lexikális behelyettesítés magyarul

Objektum Vezérelt Szoftverek Analízise

Optikai karakterfelismerés

Mi is volt ez? és hogy is volt ez?

"A tízezer mérföldes utazás is egyetlen lépéssel kezdődik."

A TANTÁRGY ADATLAPJA

Publikációk. Könyvek, könyvfejezetek:

MTA TANTÁRGY-PEDAGÓGIAI KUTATÁSI PROGRAM

ALAPÍTÁSI ENGEDÉLYT KAPOTT KÖNYVTÁRI KÉPZÉSI PROGRAMOK

A magyar létige problémái a számítógépes nyelvi elemzésben

! $ $ % &" " '(!" # )( & $ * "$+," *-. &'#0$(0*" &! # & 0$ $-!#& "! "$ "( ). $ *"*/! $ * *"!%.$ :;!<7= $ # ( / /!. /! # *!!$ * -.+ "&**! $.

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED

Visszacsatolt (mély) neurális hálózatok

A nyelvtechnológia alapjai

Különírás-egybeírás automatikusan

Minőségbiztosítási Terv

Kommunikatív nyelvi tesztek kritériumai 1

3D - geometriai modellezés, alakzatrekonstrukció, nyomtatás

SZENZORFÚZIÓS ELJÁRÁSOK KIDOLGOZÁSA AUTONÓM JÁRMŰVEK PÁLYAKÖVETÉSÉRE ÉS IRÁNYÍTÁSÁRA

Webes alkalmazások fejlesztése Bevezetés. Célkitűzés, tematika, követelmények. A.NET Core keretrendszer

Számítsuk ki a nyelvet! Matematika, fizika és algoritmusok a nyelvben

CV - Dr. Nagy Enikõ. Informatika tanár, Eötvös Loránd Tudományegyetem Informatikai Kar, 2005.

A plágiumkeresés dilemmái és megoldásai. Nagy István Monguz Kft. Networkshop 2016

Szoftver újrafelhasználás

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

VALÓS HULLÁMFRONT ELŐÁLLÍTÁSA A SZÁMÍTÓGÉPES ÉS A DIGITÁLIS HOLOGRÁFIÁBAN PhD tézisfüzet

TÁJÉKOZTATÁS A DOKTORI KÉPZÉSRŐL (a évről) Egyetemünkön működő doktori iskolák tudományágak szerinti felsorolása:

VI. Magyar Földrajzi Konferencia

Mérés és modellezés Méréstechnika VM, GM, MM 1

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Geoelektromos tomográfia alkalmazása a kőbányászatban

Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0. A Wolfram Alpha tudásgép.

Abari Kálmán publikációs jegyzéke

Ember-gép interfész. 1. gyakorlat. Csapó Tamás szeptember 16.

Szakmai önéletrajz. Főbb tevékenységek elméleti nyelvészeti kutatások alkalmával asszisztensi feladatok ellátása

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Kutatócsoportok értékelése a WFK-ban, tervezet (5. változat, )

Mikroökonómia NGB_AK005_1

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Acélszerkezetek fenntarthatóságának felértékelése

Koós Dorián 9.B INFORMATIKA

Miskolci Egyetem GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR. Osztályozási fák, durva halmazok és alkalmazásaik. PhD értekezés

Új alapokon az egészségügyi informatika

Tisztelettel meghívjuk Tóthné Aszalai Anett: Dadogó gyermek és anyja interakciójának vizsgálata című doktori disszertációjának műhelyvitájára.

KÉPZÉSI PROGRAM. GAZDASÁGI INFORMATIKUS OKJ azonosító: Szolnok

ALKALMAZÁS KERETRENDSZER

Algoritmusok és adatszerkezetek II.

Átírás:

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar Doktori Disszertáció Tézisei Recski Gábor Számítógépes módszerek a szemantikában Nyelvtudományi Doktori Iskola Tolcsvai Nagy Gábor MHAS Elméleti Nyelvészet Doktori Program Bánréti Zoltán CSc. A bizottság tagjai: Kiefer Ferenc MHAS (elnök) Rebrus Péter PhD. (titkár) Vincze Veronika PhD. Alberti Gábor DSc. Komlósy András CSc. Témavezető: Kornai András DSc. Budapest, 2016

Bevezetés Az értekezés bemutatja a 4lang szoftvercsomagot, mely automatikusan állít elő 4lang-stílusú szemantikai reprezentációkat nyers angol és magyar szövegből, egynyelvű szótárak feldolgozása által pedig új definíciós gráfokat is épít. A disszertáció bemutat egy-egy, szó- ill. mondatpárok szemantikai hasonlóságát mérő rendszert is, melyek 4lang reprezentációkat is használnak, egyikük pedig a 4lang definíciók segítségével éri el a jelenleg ismert legjobb eredményt a SimLex adaton, mely a szóhasonlóságot mérő rendszerek összehasonlításának legnépszerűbb terepe. Ez a füzet felsorolja az értekezés téziseit, rövidesen ismerteti a teljes mű felépítését, tisztázza a társszerzők szerepét minden alrendszer esetében, online elérhetőséget ad valamennyi szoftverhez, végül pedig röviden összefoglalja a tézisek tartalmát. Tézisek Az értekezésben ismertetett legfőbb új eredmények az alábbiak: (T1) Az angol és magyar nyers szövegből 4lang szemantikai reprezentációt előállító text_to_4lang eszköz (T2) Az angol és magyar egynyelvű szótárak bejegyzéseiből 4lang definíciós gráfokat előállító dict_to_4lang eszköz (T3) Angol mondatpárok hasonlóságának mérésére szolgáló, a dict_to_4lang által épített definíciós gráfokat is felhasználó rendszer (T4) Az angol szópárok hasonlóságát a jelenleg ismert legnagyobb pontossággal közelítő, a 4lang gráfokból kinyert jegyeket is hasznosító eljárás A disszertáció felépítése A 2. fejezet rövid összefoglalását adja a szójelentés néhány jelentős elméletének, különös tekintettel azok nyelvtechnológiai alkalmazásaira. A 3. fejezet áttekinti a jelentésmodellezésre szolgáló 4lang formalizmust, de részletesen nem tárgyalja annak elméleti hátterét, mivel az nem a jelen értekezés tézise, hanem féltucat kutató közös munkájának eredménye (Kornai et al., 2015). A 4. fejezet mutatja be a nyers szöveget 4lang reprezentációra képező dep_to_4lang eszközt, az 5. fejezet pedig ennek egy kiemelten fontos alkalmazásával, az egynyelvű szótárak definícióiból fogalmi szótárakat építő dict_to_4lang rendszerrel foglalkozik. A 6. fejezet a 4lang szoftvercsomag további alkalmazásait mutatja be, így többek között egy-egy, angol mondat- ill. szópárok szemantikai hasonlóságát mérő, gépi tanuláson alapuló rendszert, melyek közül utóbbi a ma legelterjedtebb SimLex adaton kiértékelve a feladatra ismert legpontosabb algoritmusnak bizonyul (Recski & Ács, 2015). A fejezet végül röviden megemlít egy kísérleti keretrendszert (Nemeskey et al., 2013), mely 4lang reprezentációk segítségével old meg egyszerű gépi megértési feladatokat. A 7. fejezet bemutatja a kb. 3000 soros 4lang kódbázist és röviden leírja az egyes modulok felépítését. Ez a fejezet egyben 1

Rendszer Forráskód Fő publikáció 4lang github.com/kornai/4lang (Recski, 2016) pymachine github.com/kornai/pymachine semeval github.com/juditacs/semeval (Recski & Ács, 2015) 4lang github.com/recski/wordsim (Recski et al., 2016) 1. táblázat. Az értekezésben bemutatott szoftverek a szoftvercsomag dokumentációjaként is szolgál. Az értekezés utolsó, 8. fejezete a 4lang rendszer jövőbeli alkalmazására vonatkozó terveinkről szól. Együttműködések A 3. fejezetben bemutatott 4lang elmélet az MTA Matematikai Nyelvészeti Kutatócsoport volt és jelenlegi tagjainak (Ács Judit, Borbély Gábor, Kornai András, Makrai Márton, Nemeskey Dávid, Pajkossy Katalin, Zséder Attila) közös eredménye. A 4. és 5. fejezetekben ismertetett rendszerek a szerző önálló fejlesztései, az alábbi két kivétellel: a gráfexpanziót végző függvény (5.3. fejezet) Borbély Gáborral közös fejlesztés, a Collins szótárt feldolgozó modul pedig Bolevácz Attila munkája. A 6.1. fejezetben bemutatott Semeval rendszer Ács Judittal, a 6.2-ben tárgyalt wordsim rendszer Iklódi Eszterrel (BME Automatizálási és Alkalmazott Informatikai Tanszék) közös munka eredménye, utóbbinak gépi tanulási komponense Pajkossy Katalin fejlesztései alapján készült. A 6.3. fejezetben említett kisérleti rendszer implementációjában a szerzőn kívül Nemeskey Dávid és Zséder Attila vett részt. Szoftver A disszertációban bemutatott valamennyi szoftver az MIT licenc szerint szabadon letölthető, az egyes hivatkozásokat a 1. táblázat tartalmazza. A text_to_4lang (T1) és dict_to_4lang (T2) eszközök a 4lang könyvtár részei, egyes függőségek a pymachine csomagban találhatók. A 4lang kódbázis az értekezés leadásakor aktuális változatát a recski_thesis branch rögzíti. A mondathasonlóságot mérő rendszer (T3) forrása a semeval repozitóriumban található, a szóhasonlóságot mérő rendszert (T4) a wordsim csomag tartalmazza. Ezen eszközök valamennyi külső függősége nyílt forráskódú és különböző licencek alatt szabadon letölthető. 2

(T1) Az angol és magyar nyers szövegből 4lang szemantikai reprezentációt előállító text_to_4lang eszköz A text_to_4lang modul a 4lang könyvtár részeként nyers szöveget képez 4lang jelentésreprezentációkra oly módon, hogy a bemeneten sztenderd függőségi elemzőket (dependency parser) futtat, az azok kimenetében szereplő relációkat pedig 4lang részgráfoknak felelteti meg. Egyes speciális szerkezeteket (pl. koordináció, kopuláris mondatok) a dependenciarelációkat utófeldolgozó ad-hoc szabályok kezelik. Noha a végső kimenet minőségének jelenleg határt szab, hogy csak a külső mondattani elemzők által is kezelt mintákat képesek feldolgozni, a text_to_4lang egyszerűbb mondatok és frázisok esetében mégis nagy pontosságú szemantikai reprezentációkat készít, melyek alapjául szolgálnak a disszertációban bemutatott valamennyi alkalmazásnak. (T2) Az angol és magyar egynyelvű szótárak bejegyzéseiből 4lang definíciós gráfokat előállító dict_to_4lang eszköz A 4lang könyvtár dict_to_4lang modulja egynyelvű szótárak bejegyzései alapján 4lang definíciós gráfokat épít. A dict_to_4lang a text_to_4lang eszközre támaszkodik, de annak funkcionalitását több, az egyes bemenettípusokra (3 angol és 2 magyar szótár) specifikus feldolgozási lépéssel terjeszti ki. A kimeneten végzett kézi kiértékelés alapján a dict_to_4lang magas pontosságú reprezentációkat készít az angol szavak több mint 80, a magyar szavak több mint 60 százaléka esetében. Mivel a definíciós gráfok így csaknem valamennyi angol és magyar szóhoz elkészíthetők, lehetővé válik a gráfok expanziója, melynek során az egyes gráfok kibővülnek az azokban szereplő fogalmak definícióival, így minden szó jelentése visszavezethető alapfogalmak tetszőlegesen szűk halmazára. 3

(T3) Angol mondatpárok hasonlóságának mérésére szolgáló, a dict_to_4lang által épített definíciós gráfokat is felhasználó rendszer Az angol mondatpárok szemnatikai hasonlóságának mérésére szolgáló eszközünk alapja egy korábban több Semeval versenyen sikerrel alkalmazott architektúra, mely a mondatok hasonlóságát a szóhasonlóságra vezeti vissza. Rendszerünk képes több szóhasonlósági metrikát kombinálni, így a hagyományos módszereket kiegészíti 4lang definciós gráfok párjai fölött definiált hasonlósági jegyekkel is, melyek egyrészt a definíciók közös részgráfjait jellemzik, másrészt néhány, a szemantikai hasonlóságra jellemző szabályszerűséget tárnak fel. Legjobban teljesítő rendszerünk a 2015-ös versenyadaton 0.78-as Pearson-korrelációt ért el, ezzel a 78 résztvevő rendszer közül a 12. helyen végzett. (T4) Az angol szópárok hasonlóságát a jelenleg ismert legnagyobb pontossággal közelítő, a 4lang gráfokból kinyert jegyeket is hasznosító eljárás Az angol szópárok jelentésbeli hasonlóságát mérő wordsim rendszer éri el a humán annotátorokkal mért legmagasabb korrelációt a kiértékelésre leggyakrabban használt SimLex adaton. Modellünk sikerrel kombinál több disztibucionális jelentésmodellt, a WordNet-ből kinyert jegyeket, valamint a 4lang-gráfok felett definiált jegyeket (utóbbiaknak egy részét a (T3)-ban bemutatott rendszer is használta). A kizárólag vektor-alapú módszereket kombináló konfigurációnk is jobban teljesít, mint valamennyi korábban publikált rendszer, azonban azt is megmutatjuk, hogy a 4lang-alapú jegyek további jelentős, a WordNet-jegyeknél jóval nagyobb javulást eredményeznek. A legmagasabb, 0.76-os korrelációs pontszám jóval meghaladja a humán annotátorok között átlagosan mért 0.67-es értéket, továbbá megközelíti az egy-egy annotátor a többi annotátor pontszámainak átlagával mért korrelációját is (0.78), mely arra enged következtetni, hogy rendszerünk ezen az adathalmazon megközelítette az emberi teljesítményt. 4

Hivatkozások Kornai, A., Ács, J., Makrai, M., Nemeskey, D. M., Pajkossy, K., & Recski, G. (2015). Competence in lexical semantics. In Proceedings of the Fourth Joint Conference on Lexical and Computational Semantics (*SEM 2015) (pp. 165 175). Denver, Colorado: Association for Computational Linguistics. Nemeskey, D., Recski, G., Makrai, M., Zséder, A., & Kornai, A. (2013). Spreading activation in language understanding. In Proceedings of the 9th International Conference on Computer Science and Information Technologies (CSIT 2013) (pp. 140 143). Yerevan, Armenia: Springer. Recski, G. (2016). Building concept graphs from monolingual dictionary entries. In N. Calzolari et al. (Eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož, Slovenia: European Language Resources Association (ELRA). Recski, G., & Ács, J. (2015). MathLingBudapest: Concept networks for semantic similarity. In Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015) (pp. 543 547). Denver, Colorado: Association for Computational Linguistics. Recski, G., Iklódi, E., Pajkossy, K., & Kornai, A. (2016). Measuring semantic similarity of words using concept networks. In Proceedings of the 1st Workshop on Representation Learning for NLP (pp. 193 200). Berlin, Germany: Association for Computational Linguistics. 5