Magyar nyelv webes szövegek számítógépes feldolgozása

Hasonló dokumentumok
Ismeretlen kifejezések és a szófaji egyértelm sítés

Morfológiai újítások a Szeged Korpusz 2.5-ben

Igekötős szerkezetek a magyarban

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

MSD-KR harmonizáció a Szeged Treebank 2.5-ben

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Magyar nyelvű néprajzi keresőrendszer

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

HunLearner: a magyar nyelv nyelvtanulói korpusza

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

1.ábra: A Beszédmester nyitóképe

Az enyhe kognitív zavar automatikus azonosítása beszédátiratok alapján

Különírás-egybeírás automatikusan

Javában taggelünk.

MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

YANG ZIJIAN GYŐZŐ 杨子剑

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Magyar nyelv. 5. évfolyam

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Helyi tanterv a nyelvi előkészítő évfolyamos képzés számára

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

Többnyelv dokumentum nyelvének megállapítása

Optikai karakterfelismerés

Számítógép használat gazdálkodástani végzettséggel a munkahelyen

Kiss Krisztina: Közösségi tartalomszolgáltatás a Pécsi Tudományegyetem Benedek Ferenc Jogtudományi és Közgazdaságtudományi Szakkönyvtárában

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

A nem önkormányzati fenntartásban működő médiumok Szentes városában.

Személynév-egyértelm sítés a magyar weben

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

SZERKEZETEK REHABILITÁCIÓJÁT MEGELŐZŐ DIAGNOSZTIKAI VIZSGÁLATOK

PEDAGÓGUSOK ÉS AZ IKT KOMPETENCIATERÜLET

Bevezető. KÁROLY Krisztina FELVINCZI Katalin

Helyi tanterv. Szakiskolát végzettek középiskolája. Közismeret

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

Szakmai beszámoló és elemzés a békéltető testületek évi tevékenységéről

ZÁRÓ TANULMÁNY a "FoglalkoztaTárs társ a foglalkoztatásban" kiemelt projekt (TÁMOP / ) keretében

Online kérd íves felmérés a Gazdálkodás olvasóinak és szerz inek körében

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Az olvasási képesség fejlõdése és fejlesztése Gondolatok az olvasásról és az olvasástanításról egy tanulmánykötet kapcsán

1. feladat: A decimális kódokat az ASCII kódtábla alapján kódold vissza karakterekké és megkapod a megoldást! Kitől van az idézet?

4. évfolyam 6. évfolyam 8. évfolyam 10. évfolyam 12. évfolyam

magyar nyelvű szövegekben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

21. szám 124. évfolyam július 3. TARTALOM. Utasítások 48/2009. (VII. 3. MÁV Ért. 21.) VIG számú

Milyen a még jobb Humor?

Soroksár Kommunikációs- és médiastratégiája

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven

HELYI TANTERV. ANGOL NYELV Tantárgy óraszámokra. Érvényes: 2013/2014 tanévtől. Készítette:

Külső oldal: Hírek menü

KÖRNYEZETISMERET 284 KÖRNYEZETISMERET 1 4. ÉVFOLYAM

Internet penetráció és internet használat - NRC letölthető elemzés -

A HunOr magyar-orosz párhuzamos korpusz

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A mai problémákra mai megoldások kellenek.

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

MEGHÍVÓ. Infokommunikációs technológiák és a jövő társadalma (FuturICT.hu) TÁMOP C-11/1/KONV

JÁSZAPÁTI VÁROS ÖNKORMÁNYZATÁNAK SZERVEZETFEJLESZTÉSE

A tudás alapú társadalom iskolája

Angol nyelvű összetett kifejezések automatikus azonosítása i

Tevékenység szemléletű tervezés magyarországi felsőoktatási intézmények pályázataiban

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

OTP Táncháztalálkozó Promóció Játékszabályzat és Részvételi feltételek

Kommunikatív nyelvi tesztek kritériumai 1

Stratégiai és üzleti döntéstámogatás közösségi médiaelemzéssel

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

TÁJÉKOZTATÓ A PEDAGÓGIAI ASSZISZTENS BA KÉPZÉS SZAKIRÁNYAIRÓL

Diplomamunkák, szakdolgozatok és Önálló labor dokumentációk formai és tartalmi követelményei

Akilencvenes évek elejétõl a magyar gazdaság és társadalom gyors átrendezõdésen. tanulmány

Nem kellett volna inkább disztingválni? dr. Rigó Mihály okl. erdımérnök okl. építımérnök ny. mérnök

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Tisztelt Nevelők, Pedagógusok!

Kálmán Tibor sportreferens Egészségügyi és Szociális Bizottság, Kulturális és Sport Bizottság

Beszédfelismerés, beszédmegértés

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)

Egy általános célú morfológiai annotáció kiterjesztése

Mit jelent az igazán biztonságos ajtó?

Bánhalmi Árpád * Bakos Viktor ** MIÉRT BUKNAK MEG STATISZTIKÁBÓL A JÓ MATEKOSOK?

Digitális kultúra, avagy hová lett az informatika az új NAT-ban? Farkas Csaba

A könyvtár új útjai KONFERENCIÁK

Hátrányos helyzet és az egészségi állapot közötti összefüggések az egyes életkorokban

13. évfolyam 4. KÜLÖNSZÁM augusztus 29. ORSZÁGOS EPIDEMIOLÓGIAI KÖZPONT. Epinfo TÁJÉKOZTATÓ

A kutatásról. A kutatást augusztus 1. és augusztus 14. között végeztük.

A magyar létige problémái a számítógépes nyelvi elemzésben

SAJÓSZENTPÉTERI KÖZPONTI NAPKÖZI

VÁLTOZTATÁSMENEDZSMENT A HAZAI GYAKORLATBAN

INFORMATIKA Emelt szint

Hivatali Tájékoztató. Tartalom V. ÉVFOLYAM ÉVI 1. SZÁM

PÉCS MEGYEI JOGÚ VÁROS ÖNKORMÁNYZATA KÖZGYŰLÉSÉNEK MÁRCIUS 05-I ÜLÉSÉRE

Útmutató. a szakdolgozat elkészítéséhez. Szegedi Tudományegyetem Egészségtudományi és Szociális Képzési Kar

Magyar C nyelvi programkövetelmény

1.2 A Weboldal célja a 2016-os Márton Áron emlékévvel kapcsolatos információk, események és egyéb tartalmak megjelenítése.

SZOLNOKI FŐISKOLA Ú T M U T A T Ó

Szenczi Beáta AZ OLVASÁSI MOTIVÁCIÓ VIZSGÁLATA 8 14 ÉVES TANULÓK KÖRÉBEN

Konkurencia figyelés a közösségi média támogatásával.

Átírás:

Szeged, 2014. január 16 17. 327 Magyar nyelv webes szövegek számítógépes feldolgozása Varga Viktor 1, Wieszner Vilmos 1, Hangya Viktor 1, Vincze Veronika 2, Farkas Richárd 1 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport {viktor.varga.1991,vilmos.wieszner,hangyav}@gmail.com, rfarkas@inf.u-szeged.hu 2 MTA-SZTE Mesterséges Intelligencia Kutatócsoport vinczev@inf.u-szeged.hu Kivonat: Cikkünkben bemutatjuk a magyar nyelv webes szövegek elemzésével kapcsolatos nehézségeket, els sorban Facebook-bejegyzésekre és kommentekre támaszkodva, valamint tárgyaljuk ezeknek lehetséges javítási módjait. A webes szövegek elemzése a bel lük kinyerhet információ miatt fontos, azonban a szabályos szövegeken tanult elemz k nem képesek hatékonyan feldolgozni ezeket. A megoldást az eddigi angolra alkalmazott, illetve a magyar nyelv sajátosságaira finomhangolt módszerek hozhatják meg. 1 Bevezetés Az emberek életének évr l-évre egyre nagyobb részében van jelen az internet, f ként a rajta átáramló kommunikáció (gondoljunk csak a Twitterre vagy a Facebookra). Nagy mennyiség adat jön létre a felhasználók egymással való kommunikációja folytán, és ez sok számítógépes nyelvészeti alkalmazás számára hasznos lehet, például az információ- és véleménykinyerésnél. Az utóbbi id ben ezért jelent s fontosságra tett szert a webes szövegek, f ként az ún. közösségimédia-szövegek (felhasználók által írt szövegek: blogok, állapotjelentések, chatbeszélgetések, kommentek) feldolgozása. A közösségimédia-szövegekkel (social media texts) és azok elemzésével foglalkozó kutatások ugyanakkor rávilágítottak, hogy nagy nehézséget okoz ezen szövegek ún. nem sztenderd nyelvhasználata, jelent sen lecsökkenti a meglév, szabályos szövegen (mint amilyen a Szeged Korpusz [1] is) tanult elemz k hatékonyságát. Az ezzel kapcsolatos kutatások legnagyobb része angol nyelvre született ([2, 3, 4]) és ezeknek magyarra való alkalmazása mint az a sztenderd szövegek elemzésénél is megállapítható nem hozna tökéletes eredményt. A magyar és az angol nyelv közötti morfológiai és szintaktikai különbségek ugyanis más megközelítést, más típusú szabályok bevezetését követelik meg. Az alapvet lépések hasonlóak, normalizálni, standardszer vé kell a szöveget, ennek kivitelezése több módon történhet. Cikkünk célja, hogy összefoglaljuk a közösségimédia-szövegek elemzésével kapcsolatos (els sorban a Facebook-kommentekb l és -posztokból álló tesztkorpuszon végzett) eredményeket, f bb hibakategóriákat és lehetséges megoldási módjaikat.

328 X. Magyar Számítógépes Nyelvészeti Konferencia 2 Problémák A webes, azon belül a közösségimédia-szövegek nagy részének alapvet jellemz je, hogy írásbeli formájuk ellenére beszélt nyelvi sajátosságokat mutatnak. A szituációval ez könnyedén magyarázható: a szóbeli kommunikáció valósidej ségét (online) és multimodalitását egyszerre törekszik megtartani, így többek között az élmény (vagy vélemény) megosztásának gyorsasága és az érzelemkifejezés jelent s szerepet játszik a szövegekben, a hibák nagy része is ezeknek tudható be. A gyorsaságot ugyanis a bevitelb l adódóan a gépelés gyorsításával lehet el segíteni: többek között ékezetek mell zésével (ugyse /úgyse/, hat /hát/, lehet egy hulye kerdesem?), központozás és nagybet k hanyagolásával, rövidítésekkel (h, sztem, lécci), egybeírással (nemtom, énis), valamint többnyire nem szándékoltan félregépeléssel (mindegyekinek /mindegyiknek/). A hétköznapi szóbeli kommunikációban elengedhetetlen érzelemkifejezés megnyilvánulhat a nagybet használatban, a bet - és központozáshalmozásban (jóóó, lehet ezekkel dolgozni???), és az emotikonok használatában. Egyéb zajok a hezitáció explicitté tétele (, khm), a nyelvi kreativitás termékeinek, illetve angol szavaknak és rövidítéseknek (cool, wtf, pls) a használata. Mindezek egyénenként és regiszterenként, illetve környezetenként változnak. Az általános jellemz kön kívül megállapítható, hogy a hibák szempontjából a közösségimédia-szöveg sem homogén kategória, az elemz k számára vannak könynyebben (blogok, Facebook-állapotjelentések) és nehezebben feldolgozható szövegek (kommentek, chat, mikroblogos bejegyzések). A blogok nagy részére jellemz a helyesírási szabályok lehet ség és képesség szerinti betartása, így ezekkel jobban boldogulnak, mint a beszélt nyelvre inkább hasonlító (akár több résztvev s) chatszövegnél, ahol a mondatra szegmentálás is problémát okoz az írásjelek és nagybet k következetlen használata miatt. Következ lépésben a tesztkorpuszt (150 Facebook státuszüzenet és 350 komment) a magyarlanc morfológiai és szintaktikai elemz vel [6] leelemeztük, majd kézzel részletes hibaellen rzést végeztünk, ezután a hibákat a fentebb megállapított kategóriákba soroltuk. A különböz morfológiai hibakategóriák a nyers szövegben az 1. ábrán látható arányban fordultak el. A számok a hibásan kódolt (X kódú, azaz le nem elemzett, illetve hibás szófaji kóddal ellátott) szóalakokat jelzik. Az adatok azt mutatják, hogy az elemz a legtöbb hibát webcímek és egyéb kisz rhet elemek miatt ejtette, a következ leggyakoribb a tokenizálással (szavak egybe- és különírása és egyéb szóközhiány), majd az ékezetekkel kapcsolatos hibák. Mint várható volt, az ismeretlen, de létez szavak (a diagramon ismeretlen, idegen, tulajdonnév, rövidítések, kontextus címszavak alatt) miatt történ hibák is jelent s számúak, valamint az elírás és a bet halmozás is gyakori jelenség. A hibák természetesen halmozottan is el fordulhattak, az összetett hibákat a megfelel hibakategóriákba külön-külön soroltuk be.

Szeged, 2014. január 16 17. 329 1. ábra: Morfológiai hibatípusok gyakorisága. Látszik tehát, hogy a fentebb említett jelenségek a tokenizálásban és az automatikus morfológiai egyértelm sítésben problémát jelentenek, az elemz a számára ismeretlen szavakat nem tudja kiértékelni, vagy helytelen kódot ad. A kutatás egyel re a morfológiára koncentrált, a NER tulajdonnév-felismer [5] és a szintaktikai elemz eredményének kiértékelése folyamatban van. Annyi már látható, hogy a morfológiai hibák ezekre is hatással voltak: a helyes szintaktikai elemzéshez nélkülözhetetlen a pontos morfológiai egyértelm sítés, ami nem teljesül; a névelem-felismer nem tudja kezelni a tiszta kisbet vel írt neveket, a nagybet vel írtakat amelyeket nem látott a tanító adatbázison (pl. Kedves Barátaim) pedig sokszor automatikusan névelemnek könyveli el. 3 Megoldások A felmerült problémákat több oldalról is meg lehet közelíteni. Elméleti szempontból a hibák két csoportra oszthatók: amelyek benne vannak a tanulókorpuszban, de az elemz más alakban találkozik vele a szövegben; és amelyek semmilyen formában sincsenek a korpuszban. Az el bbire a forrásszöveg szabályalapú normalizálása (standard szöveghez hasonló formájúvá alakítása), utóbbiak nagy részére a szótár b vítése kínálhat megoldást. Els lépésben a mondatra és tagmondatokra szegmentálást segít, csere alapú szabályokkal (emotikonok és hiperhivatkozások egységes kezelése, szóköz és központozás helyzetének rögzítése) javítottuk a tokenizálás eredményeit. A legnagyobb problémát egyértelm en az ékezetek használata jelenti, a többi szabály els dlegesen erre a problémakörre irányul. Az idegen ékezetek magyarra cserélése mellett toldalékokra

330 X. Magyar Számítógépes Nyelvészeti Konferencia vonatkozó, nyelvészeti jelleg cseréket állítottunk fel (-ság, -szer, - stb), illetve gyakori szótövek ékezetesítése (és, csinál, tehát, stb.). A másik normalizálási kísérlet a bet halmozásokra irányult, ugyanis a magyarban kett nél több azonos bet nem fordulhat el egymást követ en. A szabályok alkalmazása utáni elemzési eredmények a 2. ábrán találhatók. 2. ábra: Morfológiai hibatípusok gyakorisága a normalizálási lépések után. Mint látható az ábrán, a kisz rhet elemek (webcím, emotikon stb.) okozta kódolási hibák nagy része az egységes kezelés segítségével elt nt, mint ahogy a tokenizálással kapcsolatos hibák is. A toldalék- és t alapú ékezetesítés nem hozott akkora eredményt, azonban egy helyesírás-elemz ezzel együtt várhatóan jobb eredményt fog mutatni, mint ahogy a bet halmozási problémák esetén is. A szótár b vítése f ként az emotikonokra, magyar és angol rövidítésekre és gyakori szavakra nyújthat megoldást, ez a munkafázis jelenleg is folyamatban van. 4 Összegzés A közösségimédia-szövegekb l kinyerhet információ egyre nagyobb jelent ség lesz, ezek elemzése azonban zajosságuk miatt nem egyszer, a standard szövegen tanult elemz k nagy hibaszázalékkal futnak le. Kutatásunk a közösségimédiaszövegekkel kapcsolatos elemzési problémák feltérképezését t zte ki célul, számba vettük a morfológiai hibalehet ségeket és lehetséges megoldási módjukat. A kutatás jelenlegi eredményei már megkönnyíthetik egy helyesírás-elemz munkáját, ami a szöveg standardizálásának szempontjából jelent s eredményt hozhat.

Szeged, 2014. január 16 17. 331 Köszönetnyilvánítás A kutatás a futurict.hu nev, TÁMOP-4.2.2.C-11/1/KONV-2012-0013 azonosítószámú projekt keretében az Európai Unió és az Európai Szociális Alap társfinanszírozása mellett valósult meg. Hivatkozások 1. Csendes, D., Csirik, J., Gyimóthy, T., Kocsor, A.: The Szeged Treebank. In: Proceedings of the Eighth International Conference on Text, Speech and Dialogue (TSD 2005). Karlovy Vary, Czech Republic 12-16 September, and LNAI series Vol. 3658 (2005) 123 131 2. Khan, M., Dickinson, M.: Does Size Matter? Text and Grammar Revision for Parsing Social Media Data. In: Proceedings of the Workshop on Language Analysis in Social Media (2013) 1 10 3. Liu, Fei, Weng, Fuliang, Jiang, Xiao: A Broad-Coverage Normalization System for Social Media Language. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (2012) 1035 1044 4. Mott, Justin, Bies, Ann, Laury, John, Warner, Colin: Bracketing Webtext: An Addendum to Penn Treebank II. Guidelines. URL (2013. 11. 25.) = http://catalog.ldc.upenn.edu/docs/ldc2012t13/webtexttbannotationguidelines.pdf 5. Szarvas, Gy., Farkas, R., Kocsor, A.: A Multilingual Named Entity Recognition System Using Boosting and C4.5 Decision Tree Learning Algorithms. In: Discovery Science (2006) 267 278 6. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of RANLP-2013. Hissar, Bulgaria (2013) 763 771