Kulcsszókinyerés magyar nyelv tudományos publikációkból



Hasonló dokumentumok
Ismeretlen kifejezések és a szófaji egyértelm sítés

Online kérd íves felmérés a Gazdálkodás olvasóinak és szerz inek körében

Eötvös Loránd Tudományegyetem Tanító- és Óvóképző Kar. Útmutató a szakdolgozat szerkesztéséhez

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Hallgatói szemmel: a HÖK. A Politológus Műhely közvélemény-kutatásának eredményei

ODR használói elégedettségmérés 2009.

Pszichometria Szemináriumi dolgozat

A Wikipédia felhasználása az absztrakt címkézési feladatban

A magyar nyelv Ausztriában és Szlovéniában.

Intézményi helyzetelemzések módszertani leírása, eljárásrendje, Bevezetési útmutatók a Szakképzési Önértékelési Modell (SZÖM) alkalmazásához - 1/94 -

J/55. B E S Z Á M O L Ó

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Vasúti infrastruktúragazdálkodás kontrolling bázisú döntéselőkészítő rendszerek alkalmazásával

Gépi tanulás a gyakorlatban. Bevezetés

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

A KORMÁNYZÓHELYETTESI INTÉZMÉNY TÖRTÉNETE ( )

Regressziószámítás alkalmazása kistérségi adatokon

emberi kivonatolás Lengyelné dr. Molnár Tünde

Szakmai beszámoló és elemzés a békéltető testületek évi tevékenységéről

Pályázati útmutató. Szent-Györgyi Albert Hazahívó Ösztöndíj tapasztalt kutatóknak (Konvergencia program)

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

Számítógép használat gazdálkodástani végzettséggel a munkahelyen

Javaslat AZ EURÓPAI PARLAMENT ÉS A TANÁCS RENDELETE

Matematikai és matematikai statisztikai alapismeretek

Romániai magyar autonómiakoncepciók. Az 1989 és 2006 között kidolgozott törvénytervezetek

Tevékenység szemléletű tervezés magyarországi felsőoktatási intézmények pályázataiban

KÉPZŐ INTÉZMÉNYEK ÉS KÉPZÉSEK KIVÁLASZTÁSÁNAK

Kaszás Tímea: Corvina OPAC az SZTE Mez gazdasági Könyvtárában

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

A szakképző iskolát végzettek iránti kereslet és kínálat várható alakulása 2011

A szakdolgozat készítésének folyamata, tartalmi és formai követelményei

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Szakdolgozat GYIK. Mi az a vázlat?

Igekötős szerkezetek a magyarban

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Bevezető. KÁROLY Krisztina FELVINCZI Katalin

A Mensa alapszabálya

KUTATÁS, FEJLESZTÉS, PÁLYÁZATOK ÉS PROGRAMOK A FELSŐOKTATÁSBAN AZ OKTATÁSI MINISZTÉRIUM FELSŐOKTATÁS-FEJLESZTÉSI ÉS TUDOMÁNYOS ÜGYEK FŐOSZTÁLYÁNAK

A könyvtár új útjai KONFERENCIÁK

A kamara ahol a gazdaság terem. Beszámoló a Tolna Megyei Kereskedelmi és Iparkamara évi tevékenységéről

A tényleges életfogytig tartó szabadságvesztés-büntetésre ítéltek longitudinális vizsgálata

Dr. Fehér Péter Dr. Szabó Zoltán. Budapesti Corvinus Egyetem Információrendszerek tanszék

Hivatkozás hagyományos és elektronikus forrásokra

Elemzések a gazdasági és társadalompolitikai döntések előkészítéséhez július. Budapest, április

Projekt: ÁROP-1.A Gyöngyös Város Önkormányzatának szervezetfejlesztése

3 Szüdi János: A magasabb iskolai évfolyamba lépés feltételei. 16 Varga Aranka: A gyermekvédelmi gondoskodásban élők inklúziójának esélyei

AZ ELIDEGENITÉS FOGALMA A KÁNONJOGBAN

I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE

Társadalmi szükségletek szociális védelmi rendszerek

J/ A Magyar Köztársaság legfőbb ügyészének. országgyűlési beszámolója. az ügyészség évi tevékenységéről

Dr. Saxné Dr. Andor Ágnes Márta. Immateriális javak a számviteli gyakorlatban

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

A munkaügyi ellenőrzés tapasztalatai (2015. III. negyedév)

A Közbeszerzési Döntőbizottság (a továbbiakban: Döntőbizottság) a Közbeszerzési Hatóság nevében meghozta az alábbi. V É G Z É S-t.

Új alapokon az egészségügyi informatika

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

ÖSSZEFOGLALÓ JELENTÉS

RÖVID ÁTTEKINTÉS PROF. EM. DR. KOVACSICS JÓZSEF SZAKIRODALMI MUNKÁSSÁGÁRÓL

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Szótáralapú kémiai NE-felismer rendszer

A tudás alapú társadalom iskolája

3. Állapítsa meg, hogy 1 db. KÖNYV 5. kötete és annak egyes részei szerzői jogvédelem alatt állnak-e.

A SZERENCSI KISTÉRSÉG

Szeged Megyei Jogú Város Smart City Jövőképe

A munkaügyi ellenőrzés tapasztalatai (2015. I. félév)

a tankönyvvé, pedagógus-kézikönyvvé nyilvánítás, a tankönyvtámogatás, valamint az iskolai tankönyvellátás rendjéről

Bírálat Petrik Péter "Spektroellipszometria a mikroelektronikai rétegminősítésben" című MTA doktori értekezéséről.

Személynév-egyértelm sítés a magyar weben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

INFORMÁLNI, INTEGRÁLNI, INSPIRÁLNI

OPTIJUS ONLINE KÉZIKÖNYV

A NŐK GAZDASÁGI AKTIVITÁSA ÉS FOGLALKOZTATOTTSÁGA*

Honlap szerkesztés Google Tudós alkalmazásával

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Háztartás Monitor. A kutatás dokumentációja

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

J/9457. B E S Z Á M O L Ó

Útközben Hírlevél. 1. Az együttműködés dimenziói. Az nyolcadik szám tartalmából:

Ingatlanvagyon értékelés

a Magyar Nemzeti Bank 5/2015. (V. 05.) számú ajánlásáról.

tekintettel az Európai Közösséget létrehozó szerződésre és különösen annak 161. cikkére, tekintettel a Bizottság javaslatára,

(Min ségirányítási eljárás) 4. sz. verzió. A kiadás dátuma: március 3. Prof. Dr. Rudas Imre rektor

Budapest április

Miben fejlődne szívesen?

A pályakezdő szakmunkások munkaerő-piaci helyzete 2012

AZ EURÓPAI KÖZÖSSÉGEK BIZOTTSÁGA

Integrált ügyviteli rendszer: Kettős könyvelés modul

A Közbeszerzési Döntőbizottság (a továbbiakban: Döntőbizottság) a Közbeszerzési Hatóság nevében meghozta az alábbi. H A T Á R O Z A T - ot.

oda egy nagy adatbázisba: az eszközök nincsenek egy koncentrált helyre begyűjtve, azaz minden egyes eszközt külön-külön kell megszerezni egy

Éves JlentésÉ. Nemzeti Adó- és Vámhivatal Központi Hivatala Pénzmosás Elleni Információs Iroda FÉLÉVÉS TÁJÉKOZTATÓ 2014.

A MARKETINGSZAKEMBEREK KÉPZÉSE. A kritikai marketingelmélet és az oktatás

Teszt elemzési beszámoló

A Közbeszerzési Dönt bizottság (a továbbiakban: Dönt bizottság) meghozta az alábbi. V É G Z É S - t.

A Szerzői Jogi Szakértő Testület szakvéleményei

Legkiemelkedőbb Üzleti Adományozó Kutatási jelentés a Magyar Adományozói Fórum részére október 10.

Munkaerő-piaci elemző tanulmány

KASZPER dokumentáció Támogatott számla RITEK ZRt (12111) TÁMOGATOTT BEJÖVŐ SZÁMLA ÉRKEZTETÉSE, MÓDOSÍTÁSA, NYOMTATÁSA

FELHASZNÁLÓI LEÍRÁS a DIMSQL Integrált Számviteli Rendszer Készlet moduljának használatához

Vizuális tervgazdálkodás

Wikipédia - a közösségi tudás

Mély neuronhálók alkalmazása és optimalizálása

Átírás:

Szeged, 2010. december 2 3. 47 Kulcsszókinyerés magyar nyelv tudományos publikációkból Berend Gábor 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport, 6720 Szeged, Árpád tér 2. berendg@inf.u-szeged.hu 2 SZTE-MTA Mesterséges Intelligencia Kutatócsoport, 6720 Szeged, Tisza Lajos körút 103. rfarkas@inf.u-szeged.hu Kivonat: A szöveges dokumentumokból történ kulcsszókinyerés számos alkalmazási területen hasznosítható, a katalogizáló és kivonatoló rendszerekt l kezdve egészen az információ-visszakeres módszerekig. Különösen igaz mindez a tudásalapú társadalom sajátosságaiból adódóan a tudományos publikációkra: [1] szerint a 2006-ban megjelen publikációk száma meghaladta az 1,3 milliót; [8] szerint pedig az elkészült tudományos munkák közel 50%-a olvasatlanul marad. A publikációk számának folyamatos és markáns növekedése miatt feldolgozásuk mára csupán automatikus eszközök segítségével képzelhet el. Jelen cikk az els magyar nyelv tudományos publikációkra kidolgozott kulcsszókinyer rendszert mutatja be. 1 Bevezetés Kulcsszavak alatt az egyes dokumentumok tartalmát tömören és jól reprezentáló fogalmakat értjük, az automatikus kulcsszókinyerés alapfeladata pedig ezen fogalmak egy halmazának számítógépes meghatározása a dokumentum tartalma alapján. Habár a tudományos publikációk hatékony feldolgozhatóságához ezek szerz ik által történ megadása hasznos lenne, legtöbb esetben mégsem találkozhatunk a cikkekhez rendelt kulcsszavakkal. Jelen cikkben bemutatjuk az els automatikus kulcsszókinyer rendszert, amelyet magyar nyelv tudományos publikációkra dolgoztunk ki. Tanított modellünk és rendszerünk kipróbálható és elérhet a Creative Commons licenc alatt a www.inf.u-szeged.hu/rgai/kpe url-r l. A szöveges dokumentumokból történ kulcsszókinyerés felhasználhatósága széles körökre terjed ki a katalogizáló és kivonatoló rendszerekt l kezdve egészen az információ-visszakeres alkalmazásokig. Különösen igaz mindez a tudás alapú társadalom sajátosságaiból adódóan a tudományos publikációkra: Björk és társai [1] szerint a csupán 2006-ban megjelen publikációk száma meghaladta az 1,3 milliót; Taleb [8] szerint pedig az elkészült tudományos munkák közel 50%-a olvasatlanul marad. A publikációk számának folyamatos és markáns növekedésének fényében feldolgozásuk mára csupán automatikus eszközök segítségével képzelhet el.

48 VII. Magyar Számítógépes Nyelvészeti Konferencia Kulcsszókinyer rendszerünk eredményességének teszteléséhez két eltér témájú (politika- és neveléstudományi), szerz i kulcsszavakkal ellátott cikkeket tartalmazó újságra támaszkodva építettünk adatbázist. Az így el álló adatbázis segítségével a korábbi kulcsszókinyeréssel foglalkozó munkák többségéhez hasonlóan [4, 7, 9] mi is felügyelt tanulási feladatot fogalmaztunk meg, ahol a cél a szerz i kulcsszavak szövegb l történ kinyerése volt. Munkánk során az eddigi a feladat angol nyelven történ megvalósítására kialakított jellemz készletet b vítettük ki, illetve adaptáltuk a magyar nyelv sajátosságaihoz alkalmazkodva. Az egyes cikkekb l kinyert kulcsszavak meghatározását ezen kib vített jellemz készlet segítségével, a bel lük lehetségesnek tartott frázisok kulcsszóként való viselkedésének poszteriori valószín ségének (különböz modellek szerint történ ) kiszámítását alapul véve hajtottuk végre. A keresztvalidáció során tapasztalt eredmények alapján kijelenthet, hogy az angol nyelvre szánt megközelítések a megfelel átalakítások után magyar nyelvre is átültethet k, a jellemz készlet kiterjesztésével pedig további javulások érhet k el az eredményekben. 2 Kapcsolódó munkák A kulcsszógenerálást végz tanuló algoritmusokat a bennük használt felügyelet mértékén túl m ködési alapelvük alapján különböztethetjük meg. A két nagy irányzat a kulcsszóajánlás és a kulcsszókinyerés. A kulcsszóajánló rendszerek m ködési elve, hogy egy szóban forgó dokumentum címkéinek meghatározásához az adott dokumentumhoz bizonyos szempontok alapján hasonló dokumentum kulcsszavai közül választ. Az ilyen eljárások el nye, hogy a hasonló dokumentumból vett kulcsszó nem feltétlen van jelen a vizsgált dokumentumban, vagyis támogatja az absztrakt (a vizsgált dokumentum szövegében ténylegesen el nem forduló) kulcsszavak generálását. Ugyanakkor az efféle eljárások hátránya is épp abból ered, hogy az ajánlott kulcsszavak a hasonló dokumentumok kulcsszavai közül kerülnek ki, vagyis csak a dokumentumhalmaz szintjén legalább egy alkalommal kulcsszóként definiált kifejezések kinyerésére képes, a kulcsszavak dinamikájához nem tud alkalmazkodni. A kulcsszókinyer módszerek az el bbiekkel ellentétben az aktuálisan vizsgált dokumentum szövegéb l nyerik ki a kulcszavakat, olyan módon, hogy egy alkalmasan választott stratégia mellett legenerálják a dokumentum összes potenciális kulcsszójelöltjét, majd ezeket egy gépi tanulási modell alapján rangsorolják, a rangsor els elemeit pedig kulcsszóként kezelik. Ebben az esetben már nem áll fenn az a megszorítás, hogy egy tanítóhalmazbeli dokumentum tényleges kulcsszavai között szerepelnie kelljen a kulcsszójelölteknek, tehát az ebbe a csoportba tartozó algoritmusok képesek alkalmazkodni a kulcsszavak id beli változásához. Ugyanakkor az is elmondható, hogy mivel a kulcsszójelöltek egyt l egyig a dokumentum szövege alapján lettek generálva, így olyan kulcsszavak kinyerésére, amelyek a dokumentum szövegében nem voltak leírva, az ilyen eljárások önmagukban nem képesek, ráadásul ha a cél egy teljes dokumentumhalmaz felkulcsszavazása, a szinonimák és szemantikailag hasonló kulcsszavak egységes kezelésének is külön figyelmet kell szentelnünk.

Szeged, 2010. december 2 3. 49 A kulcsszavak meghatározásának egyik leggyakoribb célja a tudományos publikációk kulcsszavakkal való ellátása, az idei évben a SemEval konferencia egy versenyt is hirdetett a témában [5]. Ezen felül számos publikáció jelent már meg a kulcsszavazás témakörén belül speciálisan az angol nyelv tudományos publikációk kulcsszavazásával foglalkozva. [4] webes keresésekkel igyekezett pontosabb eredményekre jutni, míg [7] a tudományos cikkek strukturáltságát és a bennük szerepl rövidítések fontosságát hangsúlyozta. 3 Módszertan Az automatikus címkézés magyar nyelvre való adaptálásához felügyelt tanítás mellett végrehajtott kulcsszókinyerési módszertant alkalmaztunk. Tanuló algoritmusnak a generatív logisztikus regressziót választottuk a kulcsszójelöltek poszteriori valószín ségének meghatározására. Ebben a fejezetben részletesen bemutatjuk a jellemz tér építését megel z el feldolgozó lépéseket, valamint magát a jellemz teret. 3.1 El feldolgozás Az el feldolgozás magában foglalta a nem hasznos dokumentumrészek elhagyását, a fejezethatárok meghatározását, valamint a kulcsszójelöltek és velük kapcsolatos statisztikák kigy jtését. A PDF formában fellelhet publikációk feldolgozásának els lépése a szöveges tartalmuk kinyerésére irányult, melyhez a szabadon elérhet PDFBox 1 konvertert használtunk. Következ lépésként a szöveg megtisztítását hajtottuk végre: az egyes dokumentumon belül túl gyakran el forduló szövegrészeket mint amilyenek a fejlécben található szövegek egyszer en eltávolítottuk a feldolgozandó szövegek közül, ily módon megtisztítva szövegeinket a fölöslegesen mondatközbe beékel d szövegekt l. Más jelleg megközelítést igényelt a táblázatok tartalmának kezelése, melyek szintén képesek mondatok belsejébe beékel dni a PDF konvertálása során. Ezeket a tartalmakat a sorok (token- és karakter-) hosszára számított statisztikákat és reguláris kifejezéseket alkalmazva lehetett eredményesen eltávolítani a folyó szövegb l. A következ feladat az el álló nyers szövegek nyelvi elemzése volt. A nyelvi elemzést a magyarlanccal [10] végeztük el, amely egyúttal a lemmatizálásért is felel s volt. A szövegre irányuló el feldolgozó lépések végeztével tehát el álltak a dokumentumok tisztított, szöveges részeinek szófaji kódokkal ellátott verziói. Ezt követ en lettek meghatározva a kulcsszójelöltek az egyes dokumentumokra. Kulcsszójelöltként kezeltük azokat az 1 és 4 tokenhossz közötti kifejezéseket, melyek melléknevekb l és f nevekb l álltak csupán, és se nem kezd dtek stopszóval, se nem végz dtek stopszóval vagy melléknévvel. 1 http://pdfbox.apache.org/

50 VII. Magyar Számítógépes Nyelvészeti Konferencia 3.2 Jellemz tér A jellemz tér kidolgozása során a hagyományos jellemz k beépítésén túl új jellemz k hozzáadott értékét is megvizsgáltuk. [9] az egyes kulcsszójelölteket azok tf-idf mértékével, valamint a dokumentumbeli els el fordulásuk relatív pozíciójával jellemezte. Cikkük megjelenése óta ezekre tekint a kulcsszókinyeréssel foglalkozó irodalom standard jellemz kként. Munkájuk egy kiterjesztésében [6] már felhasználták a kulcsszójelöltek tokenszámát is a kifejezések kulcsszóként való el fordulásának leírására. A fenti jellemz k továbbiak mellett a mi rendszerünkben is szerepet kaptak. [7] angol nyelv számítástudományi publikációkon megmutatta, hogy a rövidítések feltérképezése segítségünkre lehet a kulcsszavak meghatározására. Ezért mi úgy jártunk el, hogy kigy jtöttük a publikációk szövegeib l az összes olyan tokent, amely több nagybet s karaktert tartalmazott, mint kisbet st, egy-egy több token hosszú kulcsszójelölt esetében pedig döntést hoztunk, hogy az kiterjesztése lehet-e az t tartalmazó dokumentum valamelyik rövidítésének, oly módon, hogy ugyanazzal a bet vel kezd dnek, majd pedig ugyanabban a sorrendben fordulnak benne el egyazon rövidítés bet i. A kulcsszójelöltek dokumentumbeli elhelyezkedését az els el fordulás relatív pozícióján túl a pozíciókban mutatkozó szórás értéke alapján is vizsgáltuk. Miután vettük egy kulcsszójelölt összes dokumentumbeli el fordulását, egyszer en kiszámítottuk azok értékeiben jelentkez szórás nagyságát, és ezt az értéket adtuk meg a kérdéses kulcsszóaspiránsnak az adott jellemz re nézve. Egy másik statisztikai módszerrel számított jellemz a PMI (Pointwise Mutual Information) [2] volt, amely a több tokenb l álló kifejezések alkotóelemeinek együttes el fordulási gyakoriságának mértékét vizsgálni. A mér szám csak akkor adott 1 értéket, ha a kifejezés minden egyes tokenje kizárólag egymást követve fordult el a dokumentumon belül, valószín vé téve ezáltal, hogy egy többszavas kifejezéssel van dolgunk. A pozíciókkal kapcsolatos tulajdonságokat a tokenpozíciókon kívül szekcióbeli elhelyezkedésre is alkalmaztuk. Hasonlóan az els el fordulás tokenhossz függvényében történ relatív meghatározásához, kiszámítottuk a szekciók arányában egy kulcsszójelölt relatív pozícióját. Ezen túl, hasonlóan a tf-idf mértékhez, kiszámításra került minden kulcsszóaspiránshoz egy sf-isf (szekciófrekvencia invertált szekvenciafrekvencia) érték is, sf-isf(t i, d j ) = sf(t i, d j ) * isf(t i ) (1) alapján, amelyb l sf(t i, d j ) azt mutatja meg, hogy a j-edik dokumentum szekcióinak milyen arányában van jelen a t i kifejezés, isf(t i ) pedig azt határozza meg, hogy a korpuszban lév összes szekció mekkora részében szerepel t i kifejezés. A jellemz k egy másik fontos részhalmaza a kulcsszójelöltek nyelvi elemzéséb l származó információkat használta föl. A szófaji kódokért felel s nominális jellemz az adott kulcsszójelölt szófaji kódjának sorozatát tartalmazta, a magyar pártfejl dés kifejezés esetében értéke melléknév+f név volt. A szófajok egyszer nyilvántartásán túl egy másik jellemz a kulcsszójelölt összes el fordulási formáján belül annak az arányát írta le, hogy mekkora valószín séggel szerepelt a kifejezésben f név. Ezeken túlmen en jellemz ként tekintettünk arra is, hogy az adott kulcsszóaspiráns hány elemet tartalmazott egy el re definiált magyar nyelv stopszólistáról. A motiváció

Szeged, 2010. december 2 3. 51 ezen jellemz használata mögött az volt, hogy magas értéke egy kifejezés kulcsszóként való viselkedés ellen szólhat. Fontosnak éreztük azt a tényt is egy kulcsszójelölttel kapcsolatban, hogy az azt tartalmazó mondatok közül mennyi esetében fordult el hivatkozás. Az ez alapján a statisztika alapján számított bináris jellemz igaz értéket vett fel, ha a kulcsszóaspiráns dokumentumában legalább egy olyan mondat szerepelt, amely mind a kulcsszójelöltet, mind pedig legalább egy hivatkozást tartalmazott. Egy további, a dokumentum szerkesztéséb l nyerhet információ volt számunkra, hogy egy-egy kulcsszójelölt szerepelt-e a publikáció címében, avagy legalább egy fejezet f címében. A kulcsszójelöltekkel kapcsolatban fölhasználtuk azon információkat is, hogy más tanító adatbázisbeli dokumentumon az adott kifejezés szerepelt-e kulcsszóként, illetve, hogy a magyar nyelv Wikipédián található-e azonos névvel szócikk. Végül egy kifejezés kulcsszóként való szereplését egy dokumentumban nagymértékben meghatározza, hogy milyen igék társaságában szerepel együtt, azaz hogy milyen kontextusban szerepel. Éppen ezért a tanítás folyamán legy jtöttük a tanítóhalmazban szerepl igéket és azok gyakoriságát, majd a tanítódokumentumok méretének függvényében meghatározott küszöbszámnál többször el forduló igékre szorítkozva folytattuk vizsgálódásainkat. Egy kulcsszójelölt esetében megvizsgáltuk, hogy melyek azok a tanítóhalmazon legalább százszor szerepl igék, amelyekkel a saját dokumentumában együtt el fordultak, majd azon igéknek megfeleltethet jellemz ket, ahol ez a mennyiség 0-tól különböz volt, egyenl vé tettük az együttes el fordulásuk számával. 4 Adatbázisok A felügyelt tanulás végrehajtásához, valamint a kiértékelés könnyebbé tételéhez kulcsszavakkal ellátott magyar nyelv online folyóiratokat gy jtöttünk össze. A feladat nehezebbnek bizonyult, mint azt els re gondoltuk, hiszen sok publikációs forrás nem tartalmaz kulcsszavakat, mi több, a kulcsszavakat tartalmazók közül több sem volt végül alkalmas a feldolgozásra, azok többnyelv sége (angol-magyar) vagy a PDF-dokumentumok min ségbeli hiányosságai miatt. Végül méréseinket a Politikatudományi Szemle 2 archívumán, valamint a Magyar Neveléstudományi Konferencia 2009-es konferenciakiadványa 3 alapján hajtottuk végre. A Politikatudományi Szemle szerkeszt sége a 2007-es évfolyammal kezd d en vezette be részlegesen a megjelent cikkek kulcsszavazását, így adathalmazunkat az ez id alatt megjelent, kulcsszavakkal bíró cikkeik képezték. A PDF-dokumentumok tartalmát sima szöveges fájlba konvertáló eszköz a 86 kulcsszavazott publikáció esetében 6 alkalommal nem járt sikerrel szerkesztési hibáknak köszönhet en, így legvégül 80 dokumentum képezte vizsgálódásunk tárgyát. A teljes dokumentumhalmazhoz 351 kulcsszó lett hozzárendelve összesen 412 alkalommal, ami átlagosan 5,15 kulcsszót jelent dokumentumonként. A kulcsszavak között 79 absztrakt kulcsszó volt, ami azt jelenti, hogy ennyi esetben volt egy kifeje- 2 http://www.poltudszemle.hu/archivum,7.html 3 http://www.nevelestudomany.hu/onk2009/

52 VII. Magyar Számítógépes Nyelvészeti Konferencia zés úgy megadva kulcsszónak, hogy a publikáció szövegében nincsen megemlítve maga a kifejezés. Az ilyen esetek az összes kulcsszó 19,17% tették ki tehát, méghozzá úgy, hogy az összes absztrakt kulcsszó egyedi volt abban az értelemben, hogy nem volt olyan kulcsszó, amely egynél többször fordult volna el absztrakt min ségében (nem absztraktként ett l még többször is el fordulhatott). A 80 dokumentumból öszszesen 146508 kulcsszójelöltet generált rendszerünk, ami dokumentum szinten átlagosan 1831,35 kulcsszóaspiránst jelent. Generatív modellünk feladata minden dokumentumra ezeknek a jelölteknek a rangsorolása volt. 1. táblázat: A leggyakoribb politikatudományi kulcsszavak listája. Kulcsszó El fordulási gyakoriság Absztrakt el fordulás pártok 5 0 politikai kommunikáció 5 0 politikatudomány 5 0 kormányzás 4 0 média 4 0 2. táblázat: Példa absztrakt kulcsszavakra. Kulcsszó El fordulási gyakoriság Absztrakt el fordulás nacionalizmus 2 1 választói magatartás 2 1 kormányzat min sége 1 1 komparativisztika 1 1 témakisajátítás 1 1 A neveléstudománnyal foglalkozó konferenciakiadvány a 2009-es Magyar Neveléstudományi Konferenciára elfogadott publikációk absztraktjait tartalmazta, de a szerz k által meghatározott szabad szavas kulcsszavakat nem minden esetben (a témakörök megjelölése általános volt, de azok használata nem lett volna megfelel számunkra). A kiadványban végül 19 darab kulcsszavazott tartalmi összefoglaló volt található, melyekhez összesen 63 egyedi kulcsszó volt rendelve, ami átlagosan 3,32 szerz i kulcsszót jelent dokumentumonként. A cikkek szerz i által meghatározott kulcsszavak közül 19 volt jelen absztrakt min ségben, a politikatudományosénál magasabb, 25,4%-os absztraktkulcsszó-arányt eredményezve mindezzel. A neveléstudománnyal foglalkozó dokumentumok esetében a rendszerünk által generált kulcsszójelöltek száma 3169 volt, ami átlagosan 166,79 kifejezést jelent dokumentumokként. 5 Kísérletek A kiértékelés során keresztvalidációt alkalmaztunk mindkét korpusz esetében. A kiértékelések között egyaránt végrehajtottunk szigorú egyezésen alapulót, valamint a kulcsszavak speciális természetére való tekintettel emberi ellen rzést is. Mindezen

Szeged, 2010. december 2 3. 53 felül az emberi ellen rzés megbízhatóságának tesztelésére megvizsgáltuk az annotátorok közötti egyetértés szintjét is. 5.1 Annotátorok közötti egyezés A kézi kiértékelést két nyelvész egymástól függetlenül végezte. Feladatuk az volt, hogy egy dokumentum automatikus kulcsszavazásának bírálatakor döntést hozzanak egyrészr l az eredeti szerz i kulcsszavak automatikus kulcsszavakkal való lefedettségér l, valamint az automatikus kulcsszavaknak az adott dokumentum témájába vágóságáról, azaz pontosságukról. Az annotációk közötti egyezés mértékét a politikatudományi témájú publikációk esetében egy baseline, illetve a végs módszerre is teszteltük, a neveléstudományi cikkek esetében pedig a kiterjesztett jellemz teret használó modell kiértékelését mértük. Fontos kiemelnünk, hogy ezen mérések során a két független annotátor az automatikus rendszer által kinyert kulcsszavakról hozott döntéseket, így ezen döntések egymáshoz való hasonlóságának vizsgálatán keresztül a számukra kit zött feladat jól definiáltságát állt módunkban megvizsgálni. Az annotátorok közötti egyetértés jellemzését az azonos módon megítélt kulcsszavak arányán túl -mértékkel [3] is elvégeztük, mely egy olyan statisztikai mutató, amely a tapasztalt egyezési szintet megpróbálja korrigálni a véletlennek köszönhet egyezéssel. A -mérték értéke -1 és 1 között mozog, -1-et akkor veszi föl, ha az annotátorok jelölései teljes ellentétben állnak egymással, 1 értéke pedig akkor lesz, ha tökéletes összhang tapasztalható az annotátorok között. Általánosságban, a 0,4 és 0,6 közötti érték egyezéseket közepes szint knek, a 0,6 és 0,8 értékek között mozgókat kielégít nek, a 0,8 és 1,0 közöttieket pedig közel tökéletes egyezés ként szokás jellemezni. 3. táblázat: Annotátorok közötti egyetértés. Egyezés -mérték Baseline fedés (politikatudomány) 90,42% 0,7689 Baseline precízió (politikatudomány) 81,68% 0,55411 Végs fedés (politikatudomány) 85,92% 0,7223 Végs precízió (politikatudomány) 81,92% 0,6256 Végs fedés (neveléstudomány) 92,06% 0,8382 Végs precízió (neveléstudomány) 91,10% 0,7206 5.2 Rendszereredmények A szigorú egyezés alatt az automatikusan kinyert kulcsszavak és az eredeti szerz i kulcsszavak szótöveinek egyezését követeltük meg az elfogadáshoz. Ebben az esetben csak a szerz i kulcsszavakhoz mért pontos egyezés (fedés) mérésére volt lehet ség, a kizárólag az automatikus kulcsszavak között szerepl, a cikk témáját különben jól összegz kifejezések nem kerültek elfogadásra.

54 VII. Magyar Számítógépes Nyelvészeti Konferencia Éppen ezért az emberi kiértékelést is szükségesnek éreztük, hiszen könnyen el fordulhatott, hogy az eredeti kulcsszavak jelentéstartalmát lefed, de attól eltér formában álló kifejezést nyert ki rendszerünk, ám ilyen esetekben a szigorú egyezésen alapuló kiértékelés hibás kifejezésként kezelte az egyébként szemantikája alapján elfogadható kifejezéseket is. A szigorú, valamint a megenged bb, emberi kiértékelést figyelembe vev rendszereredmények a 4., illetve az 5. táblázatban olvashatók. Baseline módszerünk jellemz tere a standard módszert követte, azaz az egyes kifejezéseket az azt tartalmazó dokumentum alapján számított tf-idf mértékkel és dokumentumon belüli legkorábbi el fordulásának relatív pozíciójával jellemezte. 4. táblázat: A szigorú kiértékelés eredményei. Rendszer Fedés Baseline (politikatudomány) 13,02% Teljes jellemz tér (politikatudomány) 31,07% Teljes jellemz tér (neveléstudomány) 30,16% 5. táblázat: Kézi kiértékelés eredményei. Rendszer Pontosság Fedés F-mérték Baseline (politikatudomány) 36,79% 33,91% 0,3529 Teljes jellemz tér (politikatudomány) 49,76% 54,12% 0,5185 Teljes jellemz tér (neveléstudomány) 24,15% 46,03% 0,3168 6 Diszkusszió Dolgozatunkban magyar nyelv tudományos publikációk eltér területein (politikaés neveléstudomány) m köd képes kulcsszókinyer rendszert mutattunk be, amely eredményei a baseline rendszert jelent sen meghaladták, valamint az idei évben angol nyelv tudományos publikációkra meghirdetett hasonló témájú verseny végeredményeit összegz cikk [5] eredményeivel összehasonlítható eredményeket produkált a szigorú kiértékelés alkalmazása mellett. A 4. táblázat eredményeib l kit nik az is, hogy a szigorú kiértékelés esetében (fedés) hasonló eredmények születtek mind a politikatudományi, mind pedig a neveléstudományi cikkek esetében. A 30% körül mozgó eredmények kapcsán fontos megjegyezni, hogy a két korpuszon belüli absztraktcímke-eloszlásoknak köszönhet en a szigorú egyezéssel elérhet eredmények maximális értékei 80,83%, illetve 74,6% voltak a politikatudományi, illetve a neveléstudományi cikkekre nézve. Ha az eredményeket az 5. táblázatban látható emberi kiértékelés szintjén vetjük össze, akkor már eltérés tapasztalható els sorban pontosság tekintetében a két korpuszon elért eredményességet illet en. A politikatudományi publikációk esetében tapasztalható jobb eredmények annak tudhatók be, hogy azok esetében a teljes cikk szövege rendelkezésre állt a kulcsszavak meghatározása során, míg a neveléstudományi dokumentumok között kizárólag a teljes publikációk absztraktjait tudtuk használni, jellemz terünknek pedig a hosszabb dokumentumok (több információ) kedveznek.

Szeged, 2010. december 2 3. 55 Az annotátorok kiértékelései közötti egyezés elemzése is érdekességeket mutat. A 3. táblázatból kiolvasható, hogy a fedéssel kapcsolatos döntéseket minden esetben jóval nagyobb összhang mellett voltak képesek meghatározni, mint az automatikus kulcsszavak helyességére irányuló döntéseket. Az eltér típusú jelölésekben mutatkozó különbségeken túl megfigyelhet volt még az is, hogy a jobb min ség automatikus címkézést nagyobb annotátorok közötti egyetértés is kísérte, hiszen ekkor a több jó kulcsszó miatt vélhet en kevesebb kérdéses szituációban kellett dönteniük az annotáció során. Jöv beli munkaként fontosnak érezzük kulcsszókinyer rendszerünk kiterjesztését abban a tekintetben, hogy a dokumentum szövegében le nem írt (absztrakt) kulcsszavak meghatározására is képes legyen, valamint a továbbiakban a korpuszszint kohézió (kulcsszavak normalizálása) szem el tt tartásával is szeretnénk foglalkozni. Köszönetnyilvánítás A cikk szerz i köszönettel tartoznak a kulcsszavak annotációját végz nyelvészeknek, Vincze Veronikának és Almási Attilának. A kutatást részben a TEXTREND kódnev projekt keretében az NKTH támogatta. Bibliográfia 1. Björk, B-C., Roos, A., Lauri, M.: Scientific journal publishing: yearly volume and open access availability. Information Research, ISSN 1368-1613, Vol. 14, No. 1 (2009) 2. Church, K.W., Hanks, P.: Word association norms, mutual information and lexicography. In: Proceedings of the 27th Annual Conference of the ACL. ACL, New Brunswick, NJ. (1989) 76 83 3. Cohen, J. A.: A coefficient of agreement for nominal scales. Educational and Psychological Measurement Vol. 20 No. 1 (1960) 37 46 4. Frank, E., Paynter, G. W., Witten, I. H., Gutwin, C., Nevill-Manning, C, G.: Domain- Specific Keyphrase Extraction. In: Proceedings of the 16 th International Joint Conference on Artificial Intelligence (IJCAI99) (1999) 668 673 5. Kim, S. N., Medelyan, O., Kan, M-Y., Baldwin, T.: SemEval-2010 task 5: Automatic keyphrase extraction from scientific articles. In: Proceedings of the Fifth International Workshop on Semantic Evaluations (SemEval-2010) (2010) 6. Medelyan, O., Witten, I H.: Thesaurus based automatic keyphrase indexing. In: Proceedings of the 6th ACM/IEEE-CS joint conference on Digital Libraries (2006) 296 297 7. Nguyen, T. D., Kan, M-Y.: Keyphrase extraction in scientific publications. In: Proceedings of International Conference on Asian Digital Libraries (ICADL07) (2007) 317 326 8. Taleb, N. N.: The Black Swan, Chapter 7. ISBN: 1400063515 (2007) 9. Witten, I. H., Paynter, G. W., Frank, E., Gutwin, C., Nevill-Manning, C, G.: Kea: Practical Automatic Keyphrase Extraction. In: ACM DL (1999) 254 255 10.Zsibrita J., Nagy I., Farkas R.: Magyar nyelvi elemz modulok az UIMA keretrendszerhez. In: VI. Magyar Számítógépes Nyelvészeti Konferencia (2009) 394 395