XIV. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2018
|
|
- Norbert Orosz
- 6 évvel ezelőtt
- Látták:
Átírás
1 XIV. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2018 Szerkesztette: Vincze Veronika Szeged, január
2 ISBN: Szerkesztette: Vincze Veronika Felelős kiadó: Szegedi Tudományegyetem, Informatikai Intézet 6720 Szeged, Árpád tér 2. Nyomtatta: JATEPress 6722 Szeged, Petőfi Sándor sugárút Szeged, január
3 Előszó január én tizennegyedik alkalommal rendezzük meg Szegeden a Magyar Számítógépes Nyelvészeti Konferenciát. A konferencia fő célkitűzése a kezdetek óta állandó: a nyelv- és beszédtechnológia területén végzett legújabb, illetve folyamatban levő kutatások eredményeinek ismertetése és megvitatása, ezen felül lehetőség nyílik különféle hallgatói projektek, illetve ipari alkalmazások bemutatására is. Nagy örömet jelent számunkra, hogy a hagyományokat követve a konferencia idén is nagyfokú érdeklődést váltott ki az ország nyelv- és beszédtechnológiai szakembereinek körében. A tavaly útjára indult kezdeményezést követve idén is teljes munkák beküldésével lehetett jelentkezni a konferenciára, melyek alapos elbírálása után döntött a programbizottság a cikkek elfogadásáról. A nagy számban beérkezett tudományos cikkek közül idén a programbizottság 24 előadást, 12 poszter-, illetve 4 laptopos bemutatót fogadott el. A programban a magyar számítógépes nyelvészet rendkívül széles skálájáról találhatunk előadásokat a számítógépes szintaxistól kezdve a beszédtechnológián át a többnyelvű alkalmazásokig, mindemellett a poszteres és laptopos bemutatók témái is izgalmasnak ígérkeznek. Örömünkre szolgál az a tény is, hogy Szarvas György, az Amazon munkatársa elfogadta meghívásunkat, és plenáris előadása is gyarapítja a konferencia résztvevőinek szakmai ismereteit. Az idei évben is szeretnénk különdíjjal jutalmazni a konferencia legjobb cikkét, mely a legkiemelkedőbb eredményekkel járul hozzá a magyarországi nyelv- és beszédtechnológiai kutatásokhoz. A díj anyagi hátterét a Neumann János Számítógéptudományi Társaság biztosítja, amiért ezúton is hálás köszönetet mondunk. Továbbá szeretnénk megköszönni a programbizottság és a szervezőbizottság minden tagjának áldozatos munkájukat, nélkülük nem jöhetett volna létre a konferencia. Ács Judit Novák Attila Simon Eszter Sztahó Dávid Vincze Veronika Szeged, január
4
5 Szeged, január v Tartalomjegyzék I. Szintaxis Egy egységesített magyar igei vonzatkerettár építése és felhasználása 3 Vadász Noémi, Kalivoda Ágnes, Indig Balázs Mazsola - mindenkinek Sass Bálint Nulla vagy semmi? Esetegyértelműsítés az ablakban Ligeti-Nagy Noémi, Vadász Noémi, Dömötör Andrea, Indig Balázs Tanulságok magyar mondatellenőrző nyelvi adatainak átvitelénél Naszódi Mátyás Conclusions from the Conversion of Linguistic Data of a Hungarian Grammar Checker Naszódi Mátyás Névutók, előre! Korpuszvezérelt elemzés a névutószerű elemekről Ligeti-Nagy Noémi II. Szemantika, információkinyerés Magyar szóbeágyazási modellek kézi kiértékelése Novák Attila, Novák Borbála The World is Built with our Words to Each Other -- Basic and Fine- Tuned Intensional Profiles in Hungarian Szeteli Anna, Alberti Gábor, Kleiber Judit, Dóla Mónika Egy orosz nyelvű korpusz (NarRu) narratívaelemzése saját fejlesztésű szentiment- és emóciószótárakkal Nyíri Zsófi, Szabó Martina Katalin, Ilyés Virág
6 vi XIV. Magyar Számítógépes Nyelvészeti Konferencia Kacsa vagy nem kacsa? Magyar nyelvű álhírek automatikus azonosítása Vincze Veronika A Rákosi-éra pártjegyzőkönyveinek feldolgozása, elemzése és vizualizációja szövegalapú kapcsolatháló-elemzési módszerekkel Gulyás Attila, Szabó Martina Katalin, Ifj. Boros István, Havadi Gergő III. Korpusz, alapmodulok Közös crawlnak is egy korpusz a vége -- Korpuszépítés a CommonCrawl.hu domainjából Indig Balázs Normo: Egy automatikus normalizáló eszköz középmagyar szövegekhez Vadász Noémi, Simon Eszter Hyphenation using deep neural networks Németh Gergely Dániel, Ács Judit Lemmi vagy nem lemmi Novák Attila, Novák Borbála IV. Beszédtechnológia Beszédfelismerők mély neuronhálós állapotkapcsolási algoritmusainak kísérleti összehasonlítása Tóth László, Grósz Tamás, Gosztolya Gábor Televíziós feliratok írásjeleinek visszaállítása rekurrens neurális hálózatokkal Tündik Máté Ákos, Tarján Balázs, Szaszák György
7 Szeged, január vii Kísérletek az alapfrekvencia becslésére mély neuronhálós, ultrahangalapú némabeszéd-interfészekben Grósz Tamás, Tóth László, Gosztolya Gábor, Csapó Tamás Gábor, Markó Alexandra A diszfónia súlyosságának automatikus becslése, a szakértői értékelések szubjektív jellegének figyelembevételével Tulics Miklós Gábriel, Jászai Henrietta, Vicsi Klára Az enyhe kognitív zavar és korai Alzheimer-kór automatikus azonosítása spontán beszédből akusztikus jellemzők segítségével Gosztolya Gábor, Hoffmann Ildikó, Tóth László, Vincze Veronika, Pákáski Magdolna, Kálmán János Kriminalisztikai alapú beszélői profilalkotás Beke András V. Többnyelvűség Etudes in Chinese-Hungarian Corpus-Based Lexical Acquisition Ugray Gábor Lexikai erőforrások automatikus előállítása kisebbségi finnugor nyelvekre Simon Eszter, Mittelholcz Iván, Ferenczi Zsanett Towards cross-lingual utilization of sparse word representations Berend Gábor Gépi fordítórendszerek kombinálása minőségbecslés segítségével Laki László János, Yang Zijian Győző VI. Poszterek Evaluation of Universal Dependency parsers for Hungarian Ács Evelin, Recski Gábor
8 viii XIV. Magyar Számítógépes Nyelvészeti Konferencia Így írtok ti. Nem sztenderd szövegek hibatípusainak detektálása gépi tanulásos módszerrel Dömötör Andrea, Yang Zijian Győző A HuTongue spontán beszélt nyelvi korpusz leiratozásának és annotálásának minőségbiztosítási munkálatai Gulyás Attila, Galántai Júlia, Szabó Martina Katalin, Szebeni Zea S azóta jól élnek és vidám dalokat énekelnek Leninről és Sztálinról. Szovjet propagandamesék műfaji azonosításának kísérlete Horváth Csilla Mozgást jelentő igék argumentumszerkezetének korpuszalapú vizsgálata Lázár Bernadett, Szabó Martina Katalin, Vincze Veronika A szöveg mint skálafüggetlen hálózat Makrai Márton, Sass Bálint Az érzelmi epizódok narratív konstrukciója és az érzelmi intelligencia érzelemszabályozás komponense közötti kapcsolat Pólya Tibor, Puskás Éva A magabiztosság-krízis index alkalmazása angol nyelvű megnyilatkozásoknál és rossz minőségű felvételeknél Puskás László, Pólya Tibor Igei többszavas kifejezések felismerése nyelvfüggetlen módszerekkel Simkó Katalin Ilona, Kovács Viktória, Vincze Veronika Jogosultság- és kötelezettségfogalmak a KRESZ-ben Szakadát István, Markovich Réka, Hamp Gábor Relevance Segmentation of Long Documents Szántó Zsolt, Sliz-Nagy Alex, Nagy T. István, Csuma-Kovács Ádám, Vincze Veronika, Farkas Richárd
9 Szeged, január ix A szó elszáll, az írás megmarad? Nyelvtechnológiai eszközök a déli manysi nyelvre Szilágyi Norbert, Horváth Csilla, Vincze Veronika, Nagy Ágoston VII. Laptopos bemutatók Shtylo: stilometriai elemzések webes támogatása Dobi Jan Sándor, Mészáros Tamás, Kiss Margit Természetes nyelvi interfész menetrend- és utazástervező szolgáltatásokhoz Kemény Boldizsár, Recski Gábor TANIT Magyar nyelvű szövegeket elemző eszköz összehasonlító digitális bölcsészeti feladatokhoz Labádi Gergely, Farkas Richárd, Nagy Roland, Péter Róbert Nagyfelbontású pragmaszemantikai igazságértékelés egy játékprogramban Nőthig László, Szeteli Anna Szerzői index, névmutató
10
11 I. Szintaxis
12
13 Szeged, január sé sít tt 2 r 3 t r ttár é ítés és s3 á ás ás3 é s á3s Pá3 á 2 Pét r t s 2 t ö sés3 t és árs t á 2 r Pá3 á 2 Pét r t s 2 t r á ós ó és r PP 2 r 2 t ó t tó s rt 4 s3 s 3s6 t t 2 2sé sít tt 2 r 3 t r t t á3 st s rt tü 2 t 3 ér t 2 r 3 t r t 2 t é 2 öss3 3ésé és 2sé sítésé é ít ttü 3 t r ttár é ítésé s3 á tá t 3 r rrás t á t s3 s3t t s á ításá s rt tés tá t t 2 3 t r t 2ért sí t árást 2 3 t r ttár 2 rés3é é ü s rt t ü t sít é 2é érté ését öss3 s ít 3 r ó s rt ás ó s3 r ss3 3 t r t t á3 s 3 t r t 2ért sítés r s3 2 és3 t t 3 3 tés t 3ás s rá 3 r s3á ár tr á s é és 3 3 t t á ás í 2 s3á ító é s t t t 2 3 t r t t á3 s s ítsé é é s é r t s é 2 2 t á3 st s rt tü ó s át 2 t 3 ér t 2 r 3 t r t t á3 s öss3 3ésé és 2sé sítésé és3ít ttü ás é t t 2 s3 sít tt ó s tí s3 3 t t t rt 3ó 3 t r t t 3 r 2 3 r s3 r 3 t r t 2ért sít á ó s 3 á t é ít tt 3 t r t t á3 s ó s 2 s 33á ér t 2 r 3 t r ttár öss3 s ásá és r 3á ásá és3ü t í 2 s3 ér t 2 r rrás 2 r 2 r s3 á t r rrás r 3á ás r tör tü rá ts t s és r í3 ü ö ö3 é ítés r rrás 2 sé ításár s ö t 3 3 t ó s é ítésé 3 s3 á t r rrás t t t 3 tá s rt t ü 3 t á3 s é ítését és s3 á tát é ü s rr ss3ü 3 r rrás ó s3ár 3ó ás t ítás ó s3 r t s tt s t s
14 4 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3 á t r rrás ó s 3 t r ttárá t rá t r rrás 2 r s3 ó 2 rt t és t t s ó s3 r és3ü t 2 t é á 2 á é3 r3és s ö t tt ss á t 2 r 2 r 3 t t és s3ó s t t t rt 3ó 2 t tás t s3ótár 2 r 3 t 3ö tár s ö3 t 3ás é ü ó t t t rt 3ó r3 ó á ó és3ü t 2 t t s 3 t r t 2 r ó s3 rr írs3ótár 2 át é33 r 3té 2 r 2 rs 2 á s3 á ó tét á s r3ött 2 t é 2 2 ó 3 tt t t és é ó s3 r 3 t t t rt 3 ér t t á3 s r á á s 3s r t ö és3 t r 3 t r t t á3 s s á 2 r 3 t r t 2 t ér t st t s3t t á3 s t 3s á tét rá t 3 t r t és é t é 3 írs3ótár r3 ó át 3 t á3 s s és á t ér t é és s3ótár 3 t 33á ér t t r á 3ért á r r t r s3ótár t á3 s rö 3s é s s3 á t s s3ö ör 2 3 t á t tár 3 tt ó 2ért 2 tt sít á é 3 t r t 2 r sá stá át r s3 á ó 2 ö3 t 3áss 2ütt ó t s trá s s3t r 3éss 2 rté 2 r sá st 3 á s 3 t r sésé 2 é t r é ér té 3 t t tt r rrás á ó 2 3 ös3ö t s 2 s 2 s3tá 2t 3s á t 2 á t 3 tí s3t 3ó é 3 t r t t s s3 á t r rrás ö3ü ér s 3s át és á ét öss3 t s3 ü ö ö3 ó s3 rr és ü ö ö3 té és3ü t 3s és3ítés r á 3 t r t t á3 s t ssá t tt é t át 3 2 t rt 33 ás 3 t r t t 33 s3 á é és3ít á 2 ésr tör tt 3s s t 2 t r r rrás é t s3ü sé 2 3 t r ttárr 2 r ér t ó s tá á3 t át tó 2 á é 3 é s3á s3 r t s t tö t ár s3 r s é ó s3 r 3 t t t rt 3ó 3s t á3 s r t s3á á s3 t ü ö sé á é ár 2 ás 2 t s térés ét r rrás ö3ött 3 2 í 3s 2á t á tár 3 tí s3 3 t t á é 3 3 t ás 3 t t ét t á r s3 ó 2 rt stát s é ít ttü ó s t á3 sá 3 s 3 ó t t írás é ü t r t 3ó 2 á ó t t s 2 rt 2 r sá st 2 öt árt t rt 3 3 öt st és3ítésé é 2 t ssá t é í 2 st á s r3ött és ít tt 2 r 3 tt r s 2t 3s tt s t s r r 1
15 Szeged, január öt s ó ás r t tás tt st és s t t s ás 3 tí s3 3 tt r 3 é 2 r sá stá 3 3 r3 ó á és3ü t 2 ár t t t rt 3 írás é ü Öss3 s s3 r 3 tí s3 3 t 2 r sá á tí sá r s3 ó tt 2 2 é tt t t á s 1 á s 3 t r t 3ó r á ó ár s 3 s stá á tt s t ssá t 3 s s s3 t 3ért 3 st s á s r3ött 3 r rrás 2sé sítés 3 r rrás öss3 3és és 2sé sítés s rá é 3tü é á 2 ító árást s 2 á t á t s3 á 2 t t s 3ását t 3 2s3 r tr á s ítás tó 1 ás t r ó sítás 2 ét s3ótár át t át 3 ét és 33á t rt 3ó öt t ér t ítás t rés3 t s s rt tésü tá tá á3 t öss3 r á s ítás 33ü 2t s3 rését 3 t r ttár ó tét 33ü 2 3 tö sít á á ó r rü tt s3 á t r rrás s3 résü ö3 s té r s3á ító é s r ó át s3 á t r 3 é 3 3ést s tt r 2t r törö tü t s r t t 3 t á3 s ó 3 r rrás 3s á t r 3t t á t r 2 öt s3 r 2 r t 2 ó á 3 ö é 3 2 á t t s t rt tt ít s3 s rt 2 3 öt 2 s3 r 3 t r t 2ért sítés öt s 3 r tsé s 3 t r t s3á t s sö t á üs3ö ö ésér 2 s3 á 2 ú ást s 3 öt s é s té 3 öt és 3 2 ü s 5 r t rr á s3t 3 öt t 3 ét 3s á t r s ítsé é s 3 öt s 3 tt 3ést r ét t t öss3 é3tü 2 r 3ést tt ss3 r 3 t á3 s s öss3 t ét t t 2 t öt é ü é é 2ért 2 öt s 3 ö tés s rá rr tá s3 t 2 í s s t á t á 2 ír 3 öt t 3 é s s t s á s s3ór s3 r ét t tí t s3t t 3t t öt s t ás r s3ór tö 2 r t ós3ó t öt t 3 öt s s s törté ó sítás s té s3ór öt s 3 tá á3 t s3trá ét t s3t t á é3sé t á s 3 t 3 ó sító és 3 öt t ór á ö3ött ú3ó é s tár ár t ór t t é 3 s t 3 2 írás ü ö írás s s ít s3 r é ás s3 2 sírás r s3 s ö t 3 t s 3 2 írást ü ö írást í 2 tt s t s t str t s
16 6 XIV. Magyar Számítógépes Nyelvészeti Konferencia öt öt s3ó 2 ét 3 t ás t s3t 2 ét 3 s t s3t s 2 tá á3 t ét t s3t ö tésér 2 öt s 3 3 öt 2 ús s3 t é ö érr s3 tü 3 öt sé érté é t t ttü é tö s t ír á 2 3 é á ö3 á ér és s s3ó r t t s öt ö3 s3á t 3 2 írt és ü ö írt á t 3 t 2 r sá át és 3 2 írás 2 r sá ért 3 öss3 s r ás át r öt é t 3 tü Pé á 3 2t s3ó s3 r s3 r ü ö ír 3 tt és s3 r 2 ír í 2 öt é t 3 tü tá á3 t tr á s á t tsé s t és ás t s r t t 3 s ár s3 3 át tó 2 r 2 s3ó í ét tt 3 öt r és 3 ér ü ö t ét t 2 r á t tt s3ó í é á törö tü 2 r t t 2 3 s 2 át ításs t tó át ít tt ás t á t t r öt 2 é ítás 2 tö sítés tör és ért s3ó 2ért sítés tör és 5 á s3 tá ás á á53 s3 tá ás á3 ö sö 5s rü s3 tá ás s rü 5 r s3 tá ás r ráró s3 tá ás rá5ró öss3 5t s3 tá ás t 5 5 t s3 tá ás 5 t tá á3 t r á s á és s t s á á ó t s t ító árás 3 t r ttár 23és át ít á t át 3t 3 t 2 3 ét és 3 s t s öt ét t rt 33 3 ü 23és á s é 3tü 2 tr á s ítást tö 3 s 3 t ó s 2 t r 3tü 3t tét té s rü t 3 r rrás ós3í ér s3 r 3 t 2 s r ás ö t 3té 3 t r t r s3 ó törté 2 rés s rá
17 Szeged, január ító árás 3 tt s3 á 2 3 t á3 ss 2ütt rrás ó r á á ér t ó s é ítés ó s 2 ts á r á á s3 á tó 2 3 é 3 t r t t t rt s r rrás t á t 2 r sá 2ütt tá á3 t s r 3 t r ttár 2 3 t r té 3 t rt 3ó r á ót t t á 5 2 r t 2 r sá öss3 s r t öss3 2 r sá 2 r 3 r 3 t s3ótár é ó s3 r 3 t á é öt st tí s3 st r tá á3 t ó s 2 3 t r t 3 t r ttár s3 t tt s r r 3tü 3 s s3 3 3 öt é 2ütt 3 t r t ás s3 3 t t t rt 3ó s3 é ítés ö t 3 3 é s 2 3 t s 3t 2 r t r ö é 3 t t 3 s tr 2 é tó é s 1 á s 3 t 3 s tr 2 é tó í ü át 1 á s tö t s t rt 3 t á s3 á t r rrás 2 r s3 t á és3ü t í 2 tét 3 t ü 2 s3 2 2 r 3 t r t s3 r ü ö t 3 s3 3 2 s r t s3 á t r rrás t á t 2 r sá s3 r t só s3 r 2 öss3 sít tt 2 r sá s3á át tó 2 r t s r rrás r s3á ít tt r 3á t 2 r sá öss3 r á r 3 tt 3 t r t s3ótár tö t á3 s t á tó és 2 r r t rü r r 3á ás tt 3 t á3 s ér tét ü t ü 3 2 s é 3 t rt 3ó 3 t r t ö3ü ó s t á3 s 3 r t r rrás ó 3 öss3 3 2sé sít és ító s3 r t tt tásá ár r r r á tó r r á tó sá r3és t s é s3 í 2 3t sít t t á á ításá t tás á3 sá 3 3 t öt 3 sé é 2 tásá t s3 tár 3ó ró s 3 íté t t r 3á t 2 r sá 3 t r t 2 r sá s3t 3 öss3 s 3 t r t 2 r sá á öss3 é r r á ás 3 s3ü sé é á 2 ó r rrás s3 r3ésér 2 t r át á 2 3 ö és
18 8 XIV. Magyar Számítógépes Nyelvészeti Konferencia t sé ét ó s r r á tósá á s3 á t r rrás ö3ü 3 tí s3 3 t ó s á 3 t r ttár é ítés r t s t rt tt 3 tí s3 3 t 3 ését 3ért ó s 3 t s tár t 3 t ár t t rá s3 á t r rrás ö3ü 2 ü á é t rt 33 3 tí s3 3 t t r rrás s 3 t 2 3 t r té tí s3 3 t r 3 tí s3 3 t t tö é 2ütt t át 1 á s 3 t é t s r t t á tó tö é 3 tt 2ütt 3 3t t 2 r t öss3 r t t és t s át 3 t á ás á é írásá 3t s t 2 t é tí s3 3 t r 3 t r t tö 3 tí s3 3 t rt t ít ér 3 ár tár 2 s t 3 t á t 3 öss3 s tí s3 3 t 1 á s 3 t é t törté 3 és s 3 tí s3 3 t 3 ésér ö t 3 s t t t ss3ü 2 r ró á s3ét á t 3 tí s3 3 t t s t rt 3ó r t tö 3 tát s3 r t 2 t 2 3 t é 3 t rt 3 3 tí s3t t rt 3ó r t s 3 tí s3 3 t t tár tö 3 t t törö ü 3t á ít 2 3 tí s3 tö 3 3 t t sá s3 t á ó rr á s 3ért 3 tí s3 3 t 3 t rt 3ó tö t s tár 3 2 s tö 2 r sá át t r és3 t s r 33ü és tö 2 r sá át öss3 33ü 3 tí s3t 3ó r té 2 r sá á tét 33ü 2 t 2 tí s3 3 t é t r s3 r t é t s 3 t r t t á3 s 3 tö s át 3 tá 2ütt Pé á á é r t ö3ött t á t á5 5 sít r t t át ít á5 r tté 3t t 2 3 á é 2 ár 2 tö tí s3 3 t t ús3 ú ár 2ö 2öt ás3 sít st á é tí s3 3 t tt s3 á t ár t t tt 2 r sá stát s 2 3 tí s3t 3ó é t és öt ü t t rt 33 ó s á 3 tí s3t t rt 3ó r t t át ét rrás ó s3ár 3 í 2 rrás 2 r sá s s3 r 3 t á3 s 3t 3 tí s3t 3ó öt stát s3 á t 3 té s r t t tt 3 t r t 2ért sít árás 3 ó s s3á 3 r rrás r t ér tét öss3 t ttü ító árás 3ás tá tt ér tü 3 r é 2 t tá á3 t t t tét 33ü r át 3ás tt s3 r t ó s r 3 tór tt s t r s r s t
19 Szeged, január t s rt t tt 3 t r ttár á 3 é é 3 tt s3 á 2 ú ítás r é 2 3t ás r t t tá á3 t át tó s r rrás ér té ü ö ö3 s3á3 é á tt ító árás 3ás r rrás t ü ö ö3 r s3 és ü ö ö3 t á á ít ttá r rrás é s3á r t s3á r t ít tt r t ít tt s3 r 3 t é ó á é öt tí s3 Ö tá á3 t ító árás 3ás tt és tá r ts3á 3 2 s r r rás 3 t ü ö sé érté tü t t 3 tá á3 t 3t t t s r rrás t á t r t á 2 s3á3 é t t t t 2 ás tét 33ü 2 é tö r rrás s3 r t r t á ós3í 2 2 s r t r s3ó tí s r ts3á r rrás s3á rá 2 öss3 s r t öss3 s tí s3 s tí s3 s tí s3 öss3 s tí s3 s tí s3 s tí s3 s tí s3 s tí s3 tá á3 t r t s3á á s3 ás s3 r t 2 á 2 r rrás s3 r 3 rá 2s3á s té 3 tí s3 r t t 3 öss3 s tí s3 s r t s3á á 3 tí s3 r t t 3 öss3 s tí s3t t rt 3ó r t s3á á 3 s3 2ít tt
20 10 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 tí s3 3 t s3 r 3 t r t 2ért sítés 3 t á t s rt t tt 3 t r t 2ért sít árás r 3ását t t 3 r 2 3 r s3 r r t 3 r t s3 s3t t á t 3 3 r t 3ás ét á3 sú ö ését á 2 s á3 sá törté 3 t r t 2ért sítés 3 tá 3 1 és3 á rr 2 t 3és ás á3 sá é ít ss 3 3 t é 2ét ét á3 sú t 3és s á3 sát ró r és s3 é t törté 3és 2 t ér t r t t 3és ósít 3 é öt és tí s3 r s3 ér t s és á á ít tt r r t s é s rr 2 3 s3 t 1t s s r té rü öss3 s tsé s 3 t r t ö3ü 3ár t á s r t t 3 t r t 2ért sít r t s 3 öt és 3 tí s3 3 t s ít t á s 3 t r t 3árását 3 s rt t tt árást 3 öt és 3 tí s3 s ésé s 2 ésé és r s3 érés tá s3t tt á 2 r 3 árás érté és törté t r árás ö ésé tét 2 s3ótár 2 3 é 3 r t öt tár ó 33 3 r á ó 2ütt 2 3 öt ár 3 t r t ö3ött s3 r 2 2 tí s3 3 t t t rt 3 3 s3ótár ó s s3 á ás és3ü t t s 3 öt és 3 tí s3 stá á ó 3 á r ét 23ést t t s3ótár ó tá 4 6 t 4 tt r t 6 á r ét 23és r á t s3 á t s3ótár ó 3 öt ö3 r t 3t t öt 2ütt 3 é t tí s3 3 t 3 3t t 2 3 é 3 r t 3t t 2 3 é öt é ü t tí s3 3 t s3ótár s ítsé é t érté 3 árás t sít é 2ét r r t sá s rt tés tá érté ü 3 árást 3 á rá s3 r tá é t tí s3 3 t 3 r s3 öss3 2 é t rr ár tá t 2t s3 s 3 á ít tt 2 r sá st ötös 2 r sá á 3 í 2 é á 2 r t s t rü t 3 r rrás 3 tá ó ér t sé tt s t r
21 Szeged, január r r t s t 3és s rá 3 é 3ésé é r árás 2 ír tó á rá át tó t t r á á 3 árás ár r s á 2 s r ö t 3 tí s3 r s r tí s3 2 öt r s 3 öt r s r ár r sés é 3 2 t rö ü ö 3 3és r rü tsé s 3 t r t stá 3 t tá ét é és t 3 2 é s té 2 3 s3ótár ár 2 öt 2 öt é ü tí s3 3 t 3 s r s árás r 3 3 tt ét 3 ts3 s3 s t s t á t tí s3 tét t s3 3 é 3 s t s t rt 3ó öt stá át s3 rít 3 r 3 öt r 2 ár s 3 é t tí s3 3 t ás r s r ár 33 s3 rít tt öt stá é t á t tí s3 3 3 tt ét 3 trés3 r ás r sés ö t 3 ás r sés é 3 ét ö t é á 2 3s á t törté s3 r t 2 ö3öttü öt 2 tí s3 á t s té t á t s3 rításr rü 3 é 3 t rt 3ó tí s3 st r r sés s ét 3 3 tt tt trés3t 3s á 2 öt t r s rá t tí s3 t á t 2 s3 rít tt 3 öt stát r s 2 t á t t 2 s3 r s3 rít tt stá ár r sés tá é t 3 t tá ó 3 s t s rü t 2 r s3 rít 3 öt stát 2 r s tsé s 3 s s r öt t á ás s3ü sé s 2 t 3 tí s3 és s ít öt é 3 s ás tá 2 t s3 tá3ás tá 2 s öt 3 t r t í ás ö t 3 3 ö3ött ár s 2 s3 r 2 t 3 s3 ör 2 3 t á t 3 r t s 3ár 3 3 tt é t öt r r árás r 2 3 t r t í ás ö t 3 érté és r t sít é 2ét t s3t t értü t s3t t t és3 t s t t t 2 t s3 r 3 s3 á t tt r t sít é 2ét ár sé 3 és t s3 t és 3 öt é öss3 s ás 3 tí s3 és 3 öt é öss3 s ás t t és 3 tí s3 3 tá öss3 s ás érté és s rá t é r trá t tö é í 2 é é és tár 3ó és 3 öt é 2 tí s3 3 tá 3 öss3 s ását 2t 3s á t ó r t é t és 3 tí s3 t 3 é é és tá r 3ó 3 és é tt
22 12 XIV. Magyar Számítógépes Nyelvészeti Konferencia á r r r s árás á t é s á tú t t r r 3 tá ó t s3t t t ú 2 á tt 2 2 t ét t r t 33 3 í ü t t 2 á 2 2 öt 2 2 tí s3 t és 3 tí s3 s t öt s s3 r 3t ü ö s t é t 3 3 í 2 s3 rt t ö3ü é t s3 r á s3 t tt r t ttü t s3t 3 t s3t t t 3 öss3 tét ü s t s rés3 t s r á ó t á tó r t r 3 tór t 3 é33 ö tü ü t á tó öt tí s3 öt tí s3 s t t 2 r r t é t s3 á t ér té és 3 é3 tá ót és r tét t t s öss3 t ttü és ü ö ö3 r é 2 t t ór á s r t 2 t tá á3 t t rt 3 t ór á s3á ssá át ár tr ü ö é3tü í 2 3s á t r t sít é 2ét 3 öt 3 tí s3 öt t tí s3 öt t 3 tí s3 öss3 s ásár s r t sít é 2ér öss3 ssé é s r t sít é 2ét öss3 t ttü ét 2é árásé s 3 r é 2 t tá á3 t t t r t sít é 2ét öss3 t ttü 2 s áráss 2 t ét és 3 tí s3t 3 öt t t ét 3 tí s3 3 tá 3 ö3 sé á s öss3 3 árást s á r ó s3 r á 3t ú öt ö3 33á ö3 tt s t r
23 Szeged, január t ór t tí s3 öt t tí s3 P öt és t á t tí s3 és t á t s öt és t á t s tí s3 és t á t P r ss3 öt t t á t r ss3 tí s3t t á t t á t 3 öt t t á t 3 tí s3t tá á3 t 3 2 s t ór á 2 3 öt és 3 tí s3 öss3 s ásá á rü P ós 3 tí ós tí P á 3 tí és á tí á ó ét t ét 2 tí s3t r 3 s árás t át tá s3 rr 3 r á ór 2 3 é t tí s3 3 t t 2 2 öt t 2á t á s á 2 s3 rításs é s t é r s öt t 3 s é s3 r é á 3 r ír 3 í á t r ó t ró á s3 s3á é 3 s3 r t s3 t á t ts3 és t ét é és3ít s árás 3 é 3 3 tí s3t s ö3 sé á s 3 öt 3 tí s3 öss3 s ásá tét 2 2 t t s3 r t é 3 tét t s3t t t sü s ó s3 r tt 2 r ü sé 3 é r é 2é s öss3 t ttü r t sít é 2ét ü sé 3és é3tü 2 á 2s3 r 2 3 tt é3 tá ó 3 öt és 3 tí s3 öss3 s ás 3 3 öss3 s ás 2 r tt t ás r ss3 á ít tt t ét öss3 s Öss3 s t ssá és érté r s 2 r á r s 2 r á r s 2 r á tá á3 t ü ö ö3 t és r t sít é 2é érté és öss3 t 2 s áráss és 2 r ü sé 3 r é 2é st t s3 tü s érté t
24 14 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 r é 2 3t t t á 2 r és s ó s3 r t sít é 2 ö3ött s á s ü ö sé s ó s3 r é á 2 t és s3 t á ó t sít tt í r t és öss3 sít s t ssá t s ó s3 r t s3t t r s3 ó s3ár 3ó s3ó í é ér tá s3 í 2 r t 2 2 s á ít tt t ét 2 öt s3ót tt t é á ó öss3 s r r t s ó s3 r 3 é st r s3 á t s3ótár ös3ö t t tt t sí t 2 s ítsé é 3ár tó 2t öt 2 tí s3 s t s ó s3 r és r s té ét tí s P t r t 3ó á t 3s á rü 2 tö ü 3 ás t ét árás s té r s3 ó tt t s3t t s3ó 2ért sít át ét tt é á 3 é t öt s t é ö t 2 ás át 3ó sé 3 r é t 3 tö ó tü t t s s r 3 s é s té Pé á t é 3 t s3t t é 3 tö r s3 ö t 3 r á é 3 5 é 3 3 öt tí s3 stá 3 3 t s3 r á s r öt é 3 t ö3 s3ótár r s té ás r á s tí st t á t t át ás r é 2 é 2 é ás t ó 2 r r é 2 s ó s3 rr r ó s3 rr s3 r t á s3á át t s ö t 2 ás ét ó s3 r 3 é st ó tö s3ör r t tt t t á ását t öss3 t r 2 s s r á s t ssá és érté tt 2 ró r és s3 é t törté 3ás tt é ít t 3 r 3 Öss3 3és s é ó s át s rt ttü 2 2sé sít tt 3 t r ttá r t 2 t 3 ér t r rrás s3 á ásá és ításá és3í t ttü 3 t r ttár s3 ér t 2 r rrás 2 r 2 r ás é 3 tí s3 3 t 3 t r t 2ért sít s3 r tt ér tü t tt 2 árást 2 3 tí s3 3 t és 3 öt s ítsé é 3 t r t 2ért sítés tát r árás érté és 3t r é 2 3t 2 t öt tí s3 öt és tí s3 t öss3 s á sát s t ssá és éss t é r 3 árás 3 r 2 3 r s3 r r té s3 t 3ás Prós3é 2 2 r s3ö s3 s3t ítt tású 3és s3á ító é 3 tt 2 t á 2
25 Szeged, január ss ár P 3s ss 2 r s3 r 3 t 2 r 3 t és s3ó s t s3ótár t ö 2 ó st ár r t r s Pr s t r t r t r s r s t r s r s ss t P r s ss s3 r 3 t 2 r sá s3ótár 2 t t s 1 2 r árás és 3ás t r ss3 rtá ó Pá3 á 2 Pét r t s 2 t ss ó s3 t t 3 tt t és s3 r 3 t á s r 3 s 2 r 3á ító é s 2 és3 t r 3 r t s3é s rt ss 3s s3 ö3 2 r é ít é 2s3 r 3 té 3s á tár ár á tás 3 3 tt 2 és3 t t r s3 r ás ó st 2 t á 2 té3 t tt r s 2t 3s á s2 P r ás3 ó rás 3 át t r r t r s r s r r Pr s t t t r t r s r s t r t tr st r r r r s Pr s t r r t s t r Pr ss P tr s r P ss t r t t st s r s 2 s t t t r ts r s r r r r r r 3 r P r s s Pr s t t t r t r s r s t P r s r r s r s ss t r 3 s ár ss r r r s 3 r t s Pr s t t t r t r s r s t r 1 3s á t st rs3 s s3 3 t PP tt s t s r r 1 á 2 ó r 2 r 3á ító é s 2 és3 t r 3 ás3 á t á s 3 t r t 2ért sítés 3 öt és 3 tí s3 3 t s ítsé é 3 2 r 3á ító é s 2 és3 t r 3 3 á 2 2 t r t s3é s rt r 3 r r s t P rs t s s é 2 tt 3és t á é és á s 3 s 2 r 3á ító é s 2 és3 t r á á 2 á á á s 2 Prós3é 2 2 r s é é r s3 r t á s 2 és3 t t á 2 á 2 2 r tt öré s r t 3 r s 2 r t r r 2 P rs r Pr s P ss r ár
26 16 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3s ss á t 2 t á 2 té3 t s ss t 2t t t é ít é 2s3 r 3 té 3s á tár s3 á ó 3s s3 ö3t s3 ér t é t ss3ü 33 2í t sé 2 s át t s3 á tá ár 2s3 r és3íts s ó tású t tó s3 ö3t t át 3s s s 2 r 2 ás 2 s3ö 3 ésér s s 2 2 ár 3 s r s3r s s t s é és ít é 2 ás str túrá 3s á tár s ss3 r s3 ít é 2 tö s3 s 3és r s3 ér 3 3 tés 3 é és ít é 2 3s á tár s3 á ó 3s r s3 ér 3 s3 ö3 ü t ré ót 33á ér t s3ö 2 r sés törté 2 r 3 t 3ö tár s ó s3 s á t 3 tá 2 rá ár ö33ét tt s á s 3s s3á ár 3 tt r á 3 ú t é s rá 3s 2 r s3 örö s3 2 s rtté á t s3 á á 2 t ó á tr s3tí 2 és3 t és 2 é t t tás t 2 r t 2 t tás s rá s3ü t tt 2 s3 3 t 2 2 s3ö t 3 2 é t 3s á s ó ás és t 3t 2 3 t r t t ít é 2 r t t á3 s 2 2 t é 3s t t t s3 t r s3 ö3 3 á t á ssá ré é s tö r é s á t 2 2 r é és ít é 2 s3 2 t t ss s r 2í t 33á érés 2 t st ö33ét ss3ü rrás ó t ét ü3 t t át ö t 3 3s s3 t r s3 ö3 st tó 33á ér t ár á t s3 á tó í 2 s át t ö 2 3s á tó 3s ó s3 ré t á3 s s3 á tá s3á s 2é é r s 3 tó 3 tú 3 r t á t 3 t ó ö3 t ü áts3 t á s3 t r 3 r t t á3 t s ár ít tt s3 á ás t sé r s3 s3ó s3á s é á s3trá s3 á t ö és tt r s 2t 3s í ér t 2 r 2 s3ö t t r t 3ó r t 3s ü t t rr s3 á 2 tér é 33ü 3
27 Szeged, január s 2 r é tt tt s tr é tó áró 3 t s é s3ó t t r ít 3 2 s s tr s é tós é s3ó tt 3 t s r ó é t t s3 á táró 3 té s t 2 33ü 2 ö ött s t á3 s 3 á ó öt t 3 é 3 s3t t rt 33 í 2 3 s3 ö3 t sé t 3t sít 2 öss3 s r ásá 2sé s 3s á tár ü t ü ttó 2 3 öt é á 2 3 s s t 3 é ít é 2 r ér 3 á t á 3t 3 r é 2t 2 tt tt ít é 2 é t r ó 3 t s é s3ó 2 s3 t r s s3ó s3tá 2t t t ás é t 3 t s 3 é té3 é 2 sü t 3ést 1 ét s3ó ást tó s3 t é á 3 r r s ít é 2 ö3ü ó ó r s á 2 s3é é 3 3 s t r s3 t 2sé s ö s3ó s3tá 2 2 s3t tár 2 ü ö é r rrás ás s3é é 3 r 3 s3 t 2 s 3 t s é s3ó ü ö á ó 1 ét t 2 3 tár 2 ó ó ó 3és s á ót 2 tá é 2 2 t 2 2 étsé t 2 át ü3 t t 2 t ü ö é r á ó s r tör 2 é á 2 á ó ét s3tá 2r rét r á és t r s tés té á á rú trá 2 rr á s s t r tt tt tt s tr s é á 2 s3é s s t 2 t s3ó s3 r só á tár 2 é t r t2 2 2 tár 2 é t s3 t s ás s t t t s t á sát r 3 2 s ít é 2 ásá 3 ér ér 3ü rá rr s s3ó s tt rá t á 2s3 r é 3 t s 3 tt ít é 2 s3 á t s ét r é 2ü 2 2 ér 3ésr ít é 2t t s tr é ü s í 2 s tr tó ü t ü érts t ts3 s s tr rá ér 3 r s3 r ó ít é 2r 3 t s é t ü ü t ú3 ó s3á óró 3 2 s s t tt s s3 t r s s3ó s3 tá 2t 2 s ó tés é t rr t á s3 é átá ít é 2 r tt é t t s t ár 3 s3tá 2 á r í 2ót ít é 2 ét 3 t s é s3 t á és t 2 3 s3ó ü ö ü ö ö á ó s3 r 3 t t s3ó ást t s tt s r 3 3 s t 2 3áró 2 s3 r t 3 tt ít é 2 társ érs3 t 2 üst tt té3 3s á á ó öss3 t tt é s 33á s s3 t ó s ó s3 ö3 ö3 s rt t t 3 tt s3 s 2 t s t r r s ítsé é 1 t 2 2 s t r 2 í á s 3s á 33 s3 t 3 s ó és 3 öss3 s 2 s t 3s á tó t t ét s3 2át é3 és3ít s3 ö3 t ósít öss3 s ását 3 3 3s r r3í é s rá öss3 s t 3 t ts3 s s3á ú ú t s és 2 á s3t tt 3 t ssé ét 3s á t s3 r 3 t tö t öss3 ssé é 3 é st t 3t t é á
28 18 XIV. Magyar Számítógépes Nyelvészeti Konferencia
29 Szeged, január tá á3 t 3s á 3 tt t t á3 s rrás r s3 2 2 r s 2 r á t r r s3 s3 r t P r r s r t 3 3s 3 t rt tt tár 2 t 3 s ítsé é é3 3 t s é t r s3ót ö áró és3ít r sést 2 r t át 3t 2 2 t 3 t ás 2 r 3 s3 ö3t 2 2 ö ést t s3t t t 2 r s té írt r és3 t s 3s 3 r á ó á t t á3 s ó ás é tt 3s é á 2 2 r é 2 t ttó ü 2 t ó t 3 t á3 s s á s3t tt ó áss s3 t öss3 ü és t 2 ár 3 s r s3t s 3 t tó r é ss3 térü s át t á3 st r s3 á r 2 3 ü t ö 2 tár és és3ít ü 33á 2 á t t 2 3t r 3 tór st s át 3s s é ü á á ít r s3t 3 t á3 s á ét s3ót 2 r sá t t rt 3ó és3ít t á3 s á ét t r q ö 2 tár 2 3 ü r s3 ét és 3t üs3ö érté t é 2 r r ó 3 t s s3 t 3 r é 2 s rés3é s3 r t é ít r 3ésr á s3ót 2 r sá t t rt 3ó és3ít t á3 s r t r s3 r 3 t ssé t s t s3á 2é é t s 3 2s3 r 2 r sá t ít t í ü r s3 r t r ó ását s 2 á t s r t r ó ás tá t tt t r át ü t ít r s3 3 t rt 3ó tt t tó é á t é ü é 3 ü 3 st á ás é és t á r s t á é á 2 tát r 3 tór 3s ét 3 3s á t t á3 s t s r s3 2 rés3 ér t 3s á r s3tü tá á3 t s3 r t r t s í 3 ü t s t á é á t t t r s3 3 t r t 3ó é á ró á tó 3 3 s ó 2 ér t s3ö 2
30 20 XIV. Magyar Számítógépes Nyelvészeti Konferencia
31 Szeged, január ár s 3és 2 33ü 2 ér 3 ü t s r ár s 3és t s s3 á t é á 3 t 2 3 s3 t r á ót r ssü 3 é 3 é s3 é á ár r 3 á s tés á é é é é s3ár 3 ró á 3 t 3 t é 3 ér 3éss 3 r é 2 é 3 r té 3 3 ó é é s3ár 3 r té s3 ér s Ú 2 t 2 3 é 3 s3 t ó 2 s ó 3 t t ér 3és s ítsé é r t t é 3 s é t 3 tt és 3ó 3 s té tö s3ó t s t 3 ú 2 ért 3 2 s3ó st ár 2 t r t 3 3 é á ér r 3 é t r sü r t 2 é t ér ú s3 s ú ör r ér ós úr st s3ó stát ér 2 s3ó stá t s3 r t s3 tí ért 3 t 3ó 3 tö s3 s 3ést s ár s 3és s s s3 á tá s3 t tt öt ü öss3 3 3t r é ö3 t ü 2 ás tá ö t 3 ü rá33 3 á ér 3és s té s 3 t t á t t rá33 3 á s3tr s3 r rá33 3 á s3 ár 2 t ás 3s á é33ü é á 2 rét r é át ttí st 2 t 3s s ítsé é t s és ö3 s3 á t 3s s3 r t 3 r 2á ü s3 r t 2ú tó3 3 tó s3 t s3 t t 3 2 tá 3 tár 2 3s á tá ó t 3t ö t 3t tést 2 tés 2 á ó ttsá ú t t s3 r ító s rá rr t s3 s 3s 2 t t tt á ó t rés3 t s 2 rá3 t t í á 3ás t á s r é tü 3s s tá 2 3 s t rés3 t s 2 rá3 t t é 2 üs3ö ö s r át 3és s t r sá t 3t s 2 3t 3 ét s3 t tt s3 á 2 é t 3s s r át tár r é 2 s3 és 3 t tt tö ös3örü és ó s üs3ö ö P rs3 s r át á ös3örü ü t törté t tt 3 é 3s á ó 3t át 2 ös3örü s3 t 3áró s r át tár 2 r ét 2sá r 2 r üs3ö ö s3 t s3á s ü ö é tár 2
32 22 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 2 r tés é á 2 ssá á 2 ssá r é á st 2 r és 2 s ó 3ású 3és á s3t tt r t á s ó tés 3ést 3 á ítás átá s3tásár r s3 é ér s törté t r s3 tá ár 2 2 3és rtó t tó s ó 3s á tó s3á ítás í ü 2 örü é 2 s t t 3 tü 3 öss3 öt és r s 3 t ö3ött 3 öss3 öt s é t s rés3 r s 3 tt ár ás 2 rés3 s3 t é ü 2 térés t t á ét s rt ö3ött 3 s s rt 3 r s ít é 2 öss3 ü öss3 öt öss3 s ít öss3 r öss3 t st ás s rt 3 r s ít é 2 é ü öss3 2 öss3 tör öss3 á ít öss3 í öss3 s3 st 3t át 2 3 s s t ét t á ít r á ó ás s t s t 3 öss3 tés 3 s s t é s3 ás s t é 2 s rés á t ét s rtr s3t str t rá t 3 öss3 öt tés t 3 ét ü t ü és t 2 3 s s t 3 öt 3 t Pár 3 s r s3 ó ás ér ü ss3 rr ér ésr t 3s á ár 3 s r s3 3 t á3 s ó ásá r ás s3 t r á t 3 t ó s3 á tó 2 ós ár ít tt r ár 3 s r s3 s té 3s t á3 s ó ás r s 3s t á 3t át ár s tár á tó é 3t 2 r st 2 r tár é 3 ár s s r é t t át tó st tá ö t 3 3 t s rr 3 s t s3ó 2ütt r ár 3 s t t t r s 3s t á s3 t ö t 3 s rt t á 3 t rt s r s r s tr r 1 r ss s t é t q s st rt r tr r r 1 r ss r t át 3t ást á s3t tt 2 rr á s3t tt és r í é 3 sít tt ét 2 t t tá 3 2é r ár s3 té 2 í é át és öss3 s ít é 2 ö3ött és r á 2 s 2 3 s3 r r s é s ró á t r s3 3 é t é á t s ér 2ü és3r 2 3 s3 ö3 t ts3 s 2 str túrá ú t t tásá r s 2 2sé ü 2 ö3 t s tü 3
33 Szeged, január és tt 33á t rt 3ó s tü ít é 2 é s3ó t é s t s tü 3 s tr é tó 3 ö3 t 3 2 str túrá ú 3 t r t 33á 3s át és3ít ár 2 rét t rt ú s 2 3 t 2ü é á 3 é ár t 3 s t é s3 ö3 t 3 33á t rt 3ó és s t s á rö 3ítés s3 2 3 é 3 t rt 3 3 r t ö3 tú s t 2 é s t t á 2 s tr é tó tt s3 t öss3 2 t s t 2 é ítés t á3 s s3 á tá 3s ö ésé 3 t s 3 t t 3 ö3 t rt 3ó 3 t s t ú3 ó 3 ér t s3 á tó 3s s3 ö3 s át t t r s3át és3ít és r s3 r s3t ár és3ít t é és ít é 2 3s á tár s t tó s3 ö3t ö33ét tt t á3 s s3 á tá á ít tó 3 r t 2 r 3s ü t 3 r t r s3 r r r á ásá á 3 s 3 s s át t r é ít t öt t és t r s3tés á és3ítü ü ö é ás 2 r és 2 ás str túrá r t 3ó r s3 ér 3 t 3s s ítsé é ös3ö t 2 á ítás á t t 3 2 á s t tás Ös3tö í tá tt ü 2s3á t rt t 3ás ss 3s s3 ö3 2 r é ít é 2s3 r 3 té 3s á tár ár ás s3 r á tás 3 3 tt 2 és3 t t r s3 r ás ó 2 t á 2 té3 t st ss r s3 2 és3 t s3 ö3 2 r é ít é 2s3 r 3 té 3s á tár s 2 és3 t r s3 3 t Pr ss 3 ss s3 r 3 t 2 r sá s3ótár 2 t t s 1 2 r árás és 3ás P t s s PP ár r t r s Pr s t r t r t r s r s t s P s ss ó s3 t t 3 tt t s s3 r 3 t 2 r 3á ító é s 2 és3 t r 3 Pr ss Prós3é 2 2 t ó és 2 r 2 t á 2 2 r 2
34 24 XIV. Magyar Számítógépes Nyelvészeti Konferencia á r P r 3 ö3 2 r 3á ító é s 2 és3 t r 3 r t s r t t át2 í 3 ó s 2 r s3 r s3 á t 3ás st t ö 2 ó á á ít é 2 r t t str ó s 3 á 2 á rét tá t s3t tér st 2 t á 2 té3 t s s3ó áró és tár 3ásáró s 3 á 2 á rét tá t s3t tér st 2 t á 2 té3 t r ó és s3 t t r á ó 2 r t 2 t ó s3á ár és3ít tt s3ótár és s3ós3 t 2 t ó s3ótár á t s3 t t s3t t 3 s á r s r ó ö 2 Pé s ó s ó é r árt és s3 á t s3 t t s3 r 3 t s3 ás és s3 t 2 r t 2 3ás t 3 s á r s r ó ö 2 Pé s ó s ó s3 2 s3 r 3 t s3á ító é s 2 rés és 2 r sá 3s á t st r s t s s r s 2 s t t t r ts r s r r r r r r 3 r P r s s Pr s t t t r t r s r s t P r s r r s r s ss t ás3 2 2sé sít tt 2 r 3 t r ttár é ítés és s3 á ás 2 r 3á ító é s 2 és3 t r 3 öt t rr 2 2 P r3 P t Pr s r t r rr t 2 rs 1 r 2 r t r r s 2 r t tr t Pr s t r s r s st r s ä1 ö r r P P r s 3 r r r r s r s r t s t s t t r s t r 2 Pr s t t t r t r s r s t r s P ss r s t P t P r r s t t t r s Pr s r s st s r t ss r r t r s r r s Pr s t t r r t t st s s r ss Pár 3 s s3 r 3 t ö3 t 2 rés ár 3 s r s3 ó 2 r 3á ító é s 2 és3 t r 3 ss r sés r s3 ít tt 2 r törté t s3ö tár ú r s ü t r á s é t s s 2 törté t t tás ú r é r 2 és3 t s3é
35 Szeged, január s s t 2ért sítés 3 t 2 é 1,3 ás3 é 1,3 ö ötör r 1,3 á3s 2,3 1 Pá3 á 2 Pét r t s 2 t ö sés3 t és árs t á 2 r P s s 2 t 2 Pá3 á 2 Pét r t s 2 t r á ós ó és r st Prát r 3 PP 2 r 2 t ó t tó s rt st Prát r 3 t r s3t t t t st s s tr t s é s3ó t s3 r é 3 sítás 2 é t 3 s3á ár tr á s t 2 r 3 2 tö é s3 r t s tö t t t t 2 2 ö t rt s s3 r 3 t rt s 2 é tós s3 r 3 t é tó 3 t 2 é t ó sító 2 é s3ó á ít á 2 2 árást s rt tü 2 s3tá ér és s é s3ót ö t ét t 2 s3á3 é é s 3 s t 2ért sítést ss3 s t 2ért sítés r s3 2 és3 t t 3 3 tés 3 r 2 3 r s3 r s3á ár í á 2 s t 2 ért sít árást 2 t st s s tr t s é s3ó t s3 r ét é s t s3tá3 é s3ó s3 ör 2 3 t á 2 3 r s3 r ö és s rt tés tá t st s s tr é ü é s3ó tsé s t s3 r t ss3ü s rr t t át 3 s t 2ért sít r t st ö tö 3 é s3ü sé s t s3tá3 ét t r ó ér ést ö3 és t é s3á és é é t á 3t s rt t 2 t st tár 2 í á 3 r t á 3 2s3 r sé éért 2ütt s é s3ó é t t 3 t s3 r tt t á 2 2rés3t 2 á 2 s ért tt t s3 r t ért ü 3 3 3t 2 3 tt s3ó 3 t 2 tár 3ó ásrés3t 3 t s3 r t 2 é s rt ü s3 2 tö t t át t s3 r 3 sítás tár 3ását t 2 3 tt é s3ó 3 t 2 tár 3ó t és r 2 2é ó 2 é s rt ü
36 26 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 é 2 t st s s tr é ü é s3ó t s3 r ét t s3tá3ó r t s 3 r 2 3 r s3 r r tr s3 ré s3 2 3 r s3ö 3ást á 3ért 3 3 s3ö t ró r és s3 é t 3 3 t á s 3s á t s3ó 3ését 3 3t ö3 t ü ö t é á 2 s3ó s 2ás t 3 3 r 2 t ér t r t t 3és t s3 á 2 ét á3 sú t 3és s á3 s ós 3 3és s á3 sá t t tó öss3 t és3ítés törté 2 ás á3 s á t s3 r ü t é s3ó s té 3 s á3 s törté t st s s tr é ü tsé s t s3 r é t s3tá3ás t st s s tr é ü é s3ó t st s s tr t s é s3ó s3 r t 2 és á ö t 3 t t t 2 ö t rt s s3 r 3 t rt s 2 é tós s3 r 3 t é tó 3 t t ó sító 2 é s3ó á ít á 2 rés3 ü ö ö3 t s3 r á á ít t 2 t st s s tr t s é s3ó é é 2 2 t st t s tr é s3ó 2 s t 2 ö t rt s s t 2 s s é t ó sít 2 2 é tó 3 t é s3ó á ít á 2 s3 r é á ó é s3ó s té s s r t t ás ó s3 té 2 t st t s tr t tét 3ü 2 é s3ó á ít á 2 s tét ö t st t s tr t és 3 s tr é ü sé t ö t 3 t s í 2 ö ü 3 2 s t és ö t rt s t st t s tr α 3 s tr é ü sé 0 3 á ít á 2 s té t st t s tr β 3 t s rt tésr rü r s3 3s á t s rá s3 sü tü 33 2 t í ü é ét t á 2 s t r t st t sé ö 2 s t t 2 2 é s rt ü s3 2t 3 2 tí s3 3 s é á áró é t t 2 2 t st s s tr é ü é 2 t s3 r tt s3ó ítás s t ás s t t é3 é 3 és tt é á 2 s3ü á ít t 3 s r3 ó á ó s3ár 3 é á é ö érr s3 tü ér és s t s t tö t ú r s3ó 2 2 t é és 2 ö3 é s táró ö3 é t é rt sá 3ását társ s3 r ét é s té é á 3 é s té tsé s 3 t r t s3 rítás törté 3 2 t st s s tr é ü é tó tt é s3ót é tó 3 tá í s á 2 r t s t ás ó 3 tt 2s3 r sítés é t 2 é s3 t 3 ttsá ú t r ó s3 á t é tó és 3 s tr é ü é s3ó 2ütt árását í á ér3é t t s é tó é s3ó é ü
37 Szeged, január ó át s3 é 2 é ár 3 2 tö ö3 é s táró ö úr s ó 3 ö3ött s3 2 t t é ö3 é s t s té 3 23 t 3 t é ö érr s3 tt tét 3 t ü 2 ít tt s t étét s 3t 3 s t t st tö t ú é s t í 3és é 2 t tást é 2 í 2 3 t á 2 r t ü 3s á tí s3 s tö t ú é s t 2ért sítés é 3 t t t tt r t s 3 és t tás 2 ö t 3 á3 sá 3 tó r 3ésér á áró é ót s ss3 2 ö ést ö t á ító r á ö é ú t Ö t ét t é 2 í 2 r 2 s ö társ ú 2 r 2 s ö úr s rt t tt r t árás 3 r r t ö r árás t á s3t tt és és3ít tt á t 3 t 2 é t 3és t st s s tr é ü s té s3 t 1t s á ö ts 2 2 ö t rt s s3 r 3 t rt s r árás t ó sító t 2sé s P t ó r á átt tt t ó sító r 3 s s át s3ó t ór á r 3 2 s s3á s s3á r 3 2 r s3 t st s s tr é ü é s3ó s t í é ét é ü és 3 s t 2ért sít árás t t s3tá t á s s3 r ét 3ért 3 árás r t t t r árást t át ú 2 s3t ttü t á 2 ár 3 2 s tt t ó sító és é tó 3 t s t s é s 2 ö tést 3 3 á ít á 2 s3 r é s3ó s té s r t ö t r é s3ó s3 ör 2 3 té s3 r 2 r á ó 2 3t t é t s3 3 3 r t á r 3 á ít á 2 s3 r s résé 2 s 3 á é s3ót 3 trés3 2ú t 2 s ítsé t 3 á é s3ó á ít á 2 s t s r 3 sít tó 2ért 3 ét t á tó s t é 3t s s3 ít s3 é 2 ét ér 2é é t tü 3t s 2 ét ó í é á 3 á 2ért sít t é s3ó á ít á 2 s t és s tr ü ö ítésé é 2 s r tér s s3ü sé é 3 23 t 2á t á s t t st s 2 r ét s ér r tá s3 t t s t t ár tí s3 ét 3 s 2 t 1t s ó 3 3 á ít á 2 s3 r é s3ót 3 trés3 á ít tó
38 28 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 2 r t s á 2 r 2 r β r é 2 á s s ás 2 r t á rá3 t rs3 2 r 2 r β és 3s ó 2 r t 2 r 2 r 3 á 3t tét 33ü s t t rt s s t t é ó sító s3 r t és é tó 3 tát ét á3 sú t 3és s á3 sá t s3tá33 r t t és3ít ü rr 2 á s3 r ü t t é s3ó á ít á 2 t á ás ét á3 sú t 3és ás á3 sá törté s3 s résé 3 s3é s t 1t s s3ü sé s s 3 3és s á3 sá 3 ó s3 r t tás s é és é t 3 r é s rt é t ö t 2sé ü t st s s tr é ü é s3ó és é é é t s ését 3s á t ár t tás r á3 sá 2ért é á t 2 ü ö s3 á 2r s3 rt t r é r s3á r és é é r 3 ás 2 s t s t s s tr é ü t t t 2 s3ó t ór á 3 ét ét stát és3ít ttü 2 t 3 ró 3 s t r r 3 tt s3ó t ór á 3 t rt 3ó í é3 tt 2 P s é t á tó és 3 ró 3 s t r r 3 tt s3ó t ór á 3 t rt 3ó í é3 tt 2 P t só 3 stá á á ít tt tt 3t s 2 tés és tt 2 és t és 3 r t s ö ését ö tés á s ítsé é s3 é t t ü és á rá 3 r t s 3 s3 r t r tá s3 ö t ért s3 r s3 2 s t r 2ért sít t t st t sé t 3 r 3 s t r ért 3 tt t érté t tt tár 3 ö3 t s té 3 3 ért 3 tt érté 3 α 3 2 s t és ö t rt s s t t st t s tr é s3á és é é s té t 0 ü ö ö3 0 tó 2 2ért íté t t 3 tt P t ór á ú é 2 í ét s t és t é s3é s r t á é á 3 r t t s3 r 3 át tó á á ít tó 3t s 3ért α s tr t é á 3 2 s t 2ért sít t 3 á 3ért t 0 s t t
39 Szeged, január r 3 ró 3 r s 2 ó r r r α 2 3 t 3 r ét st r s ö ött 3 2 s3 ré ás t é 2 2 t 0 3 á rá át tó r ö3 r és t r t tö ss3á ú é é s3á é é é é tá t r t 3ó s3 á 2 öss3 ás ö tés á 2ö r 3 t á s s3ó í é s s3 t é é 3 át tó s t á tó r á ó s3 r Pé á 3 s é át tó í ö t 3té 3 r t s 0 s t t íté 3 t á s 3s á t t s tr á 2ér ás s3 t é é é 3 ás é át tó r á ó t t rt 33á 3 s r t 3á ó 3 s á 3 r t s t tt ö t és t α s t t s3t tt 2ér r 3 ás é át tó 3 2 s í á é t sé 2ért sít 3 s t t 3 á rá tü t ttü 0 2ért sítés tá ás á á é r tás tt törté 2 é és 2 ü t 3 s ét 3 t á s 3s á t t s 2 s t s t ö t rt s s3 r 3 t rt s r 3 r t s s t t íté s3ó és törté t 3 2ért sí tés 2 t t s tét 2 3 ás é át tó rt s s3 é 2 P s 3 s t 3 t 3 t á s í é é s tr r s ré ésé 3 3 t á s s rt s s3 é r rs3á r á 2 st í3ásá ó s3 r 3 t r ását 3ár 2 r rs3á r á 2 í3ásá ó tí sú 3 r t s s3á ár s íté t 3 s é át tó rt s s3 é 2 á é á é ö érr s3 tt t 3 t á s 3s á t s é társ sá á t á tó t ór ár 2 í ét 3 3 t á t s t rt 3ését 3 tt á t ö ött st s3 t rt 3 3 é tó 3 s ó 3 2ért sít 3 t 3 é s3ó é é 0 s t t 33á s ó í t s3 r 3ért 3 t s tü t ttü tt á rá át tó 3 2 ss3á ú é r és é é r t 3ó s3 á 2 öss3 ás ö tés á é s3 á 2 s rt á s t s tét 2 3 ás é át tó rt s s3 é 2 P s 3 s t 3 t 3 t á s í é é s tr r s ré ésé 3 3 t á s s rt s s3 é 2 é ü á r s3á r t 3ó s3 á 2 öss3 ás 23 2 í és tt s t á tö t ú s té 3 s 3 t á t tást é 2
40 30 XIV. Magyar Számítógépes Nyelvészeti Konferencia í 0 P P P s s P P α P P 2 ü ö α P 2 á r r ö3 r és t r t tö ss3á ú é é s3á é é é é tá t r t 3ó s3 á 2 öss3 ás ö tés á 2ö r 3 t á s s3ó í é s s3 t é é 3 át tó s t á tó r á ó s3 r ás s3 t é é é 3 ás é át tó r á ó t t rt 33á r é 2 3 r t s t sít é 2ét r t s3t t értü t s3t t t 3 s3 á t tt és 33 s3 rításs é tü 2 t 2 á 2 t tt r é t s3 r á s3t tt t ár á t 3t tást s3 ö3ö tü t ó örü tár tó t s ó 3 t 3 s té 2ért sítés s rá 3ért t s3t t é33 tá t t t tö t t öss3 s t és í é t í ér s ré tü
41 Szeged, január í 0 s s P α P ü ö P s s 3 t 0 0 ü ö P t 0 0 á r 3 2 ss3á ú é r és é é r t 3ó s3 á 2 öss3 ás ö tés á 2ö r 3 t á s s3ó í é s s3 t é é 3 át tó s t á tó r á ó s3 r ás s3 t é é é 3 ás é át tó r á ó t t rt 33á ás 2 t ét ét ét t rt 3ó t t t törö tü 2 és3 t t tt tt törö r 2 tt ú t értü r s3 ó 3 s t s r t s3 ét sü t ú 2 t s r s3á t é 2 é é törö tü tt 3 í 2 t s3tít tt r t 2 s r t í é r 3 ár 3ést tt 2 t 3 r t stó 2 t é3 tá ó s rá 3 r tá s3 és 2 t é3 tá ó s rá t é s 3és ét é é3 tá ó é 3 2 öss3 t tt ss íté t t 3 r t s ósításáró ö ött ú3ó ó é t
42 32 XIV. Magyar Számítógépes Nyelvészeti Konferencia í 0 s s P ü ö t 0 á r s3á r t 3ó s3 á 2 öss3 ás ö tés á 2ö r 3 t á s s3ó í é s s3 t é é 3 át tó s t á tó r á ó s3 r t ás ró 3 á 3 tt á s íté t 3 ös é á 3 α é 2 2 érté ssü 2 ósít 3 r t s t árt s ést 3 r t s ó t sít 3 3t t 2 3 át tó á t t s tár tt t st s s tr é ü 2 s3 r t tö t t t és 3t 2 s é 3 t s t á á t tá ó 3 ös é á 3 tt t é s s3 r ét s t t t r t s ö ött ú3ó ó é t ás ró s3 r t é íté t t 3 é3 3és t é3 tá ó s rá 3 á t r ó s3 á tó és t s 3 árás 3 á ssá t tár 3 2 é s3ó t s3 r ét é ü 2 s örü é é3 ü ás s3 ét á3 sú t 3és s á3 sá 3 s3 r ó ö t t t t ü tr ú3ó tt 3 t t ü tr 3 r t s íté t t é3 tá ó 3 á t α é3 tá ó t s t á t é3 tá ó s rá s ör t át 3 á ó ö tés é ö t 3 í é t ttá t st s s tr é ü t tí s3 rt s 0 s tr é ü é tó tt é s3ó 2 ás é s3ó ó sító é tó tt é s3ó é é é t st t sé t s tés ér és s s é 3 és 2 étét tét 3 3 s tr s é s3ót 3ó é tó
43 Szeged, január α ö t t ért 3 tt érté ét á 2 é 2ért sö t és t 0 ö t t 3 P t érté ét tí s3 s t st 2 3s á t ás s3ó í ét tt 3ért r ss3 3 3és é á é é é í é3 tt s té tö t ú s t é3 tá ó ás öré t s t á 3 tt íté t é ö t 3 í ét ttá 3 s t 2ért sítésr áró é s3ó 0 tö s t α 2 t 0 3 s t t s t étért t s3t t öss3 s 2 t t 2 é 2 3 tt t tá ó t ás é á s tr ú é é é t í é é 2 2 ás s3ó é á 3 t ö t é é é t é í é3 3 t 3 s t t í t tt s3á ít tt 3 érté és é 3 té rü t érté és tí s3 s t é s3ó t r tö t ú é s t t érté és s3 á 2 t és t ór á t 3 tá á3 t t rt 33 r s t P s s t P és s t t ór á t á ít 3 2 s s3 t ö t 3 é ért 3 érté r é 2 s3 át tó érté r s3t r s3 tt érté s3 r 3 2 P P 2 t á t ttó ü 2 s r t á tó 3 ár sítás 3 t tés 3 r s r 3 r t s r é 2ét s ít é3 s 3 t 2 tá ó 3 t r s r é3 s 3 t 2 tá ót t s t t 2 é3 tá ó 3 s ít P r é 2 t s 2 3és P r é 2 tú s á ást t t ü é á 3 r t s 2 r 3t á ít 2 tí s3 é3 tá ó s3 r t 3 á é t 2 t s 2 t α t r 3 P r é 2 s3 t s á t át t érté t 2 3 ó ö t t t s s 3 3 érté és tá á3 t át tó r é 2 3t t t á 2 é t tésü 3 3 ét á törté 2ért sítés 2 t ssá t és é á ó á ár rítés í ü rítés tt 2 r é tós és s tr s é s3ó ó á 3 ét s t t é s3ó é é ó s s 2 3 s tr tt s tét 3ü s t s3ót 3 s3t 3 s3t tt st 3 tó ó át t t ü ér ó és é tó tt é s3ó é é tét 3ü 2 ás s tr t
44 34 XIV. Magyar Számítógépes Nyelvészeti Konferencia t ór érté r é 2 s3t r P P α α t 0 t 0 α 0 t 0 α α t 0 0 α tá á3 t érté és s3 á 2 ést r é 2 3 t st s s tr é ü é s3ó t s t á törté s t 2ért sítésé 3 s ít ó áts3 2 t ssá s t é 3 t 2 r í3 ö tsü t 3és 2 és á3 sá rr á rá és té s 3 2 ó íté t t tét s rü t ü 3t s t ssá s3 é t t P P t ssá és érté tá á3 t 3 á törté é3 tá ás r é 2 öss3 s ítás t s t t 2 é3 tá ás r é 2 és 2 r s 3 é s t t á t s s3á tt 2 rá3 t t é 2 3t 3 s t t t t ttü t á t 3 s3 r t é3 tá ó á 3 ért 3 tt érté t t 2 t s t á 3 ár s s r é 2r t tt át 3 s á tsá t t t ü s tí r é 2 tá á3 t át tó t á t rés3 t 3és 2 r át 3t s 2 3 tét ü á ért 3 tt s té s3á ító α t s és s tr t öss3 3 3 s t 3 törté 2 3 á é á ít tó 2ért 2 3 α s tr ú é s3ó rt s s3 r t t 3t s tá t 1t s s ítsé é t ö t 3 s 3 t 0 s t ró s 3 é és é é s3á 2 é 3 ért 3 tt s t t íté tü 3 á 3 s tü t á 0 t öss3 s
45 Szeged, január tí s s3á 2 tt α 2 tt α 0 2 tt t 0 tá á3 t ét é é3 tá ó öss3 s ítás r 2 t s t r é s s r 3t t t á 2 s t 2 tt 2 s t t 2ért sít tt s á s 3 á törté é3 tá ó 2 s t r t 2 3 á t 0 íté t s t t t t s és3 é t 2ért sít tt ás 0 tt 3 t értü 3 tt é á s3 é t t ü 2 3 á é é 3 t t rt 2 3 tt t t 2 s3 2 2 ö t rt s s3 r 3 t rt s t s t 1t s 2ért é t s t ó sító t ít tt t 2 2 á t ít tt t ít t 0 été s r s3t tt 2 2s3ü t s ü 2ütt s3ü ó 2 r rs3á r t ít tt t 2 2 s á s3 t r t t á t ít tt t ít r é 2 3 öss3 ás é t 2 s t ssá 3 áráss s t s tá s3t tt árás és ít tó ró r 33 é és é é 3 ért 3 tt érté 2 tt t t s 0 s t t á 3 á 3 r t s érté és tá á3 t 3 r t s t sít é 2é érté és át tó 3 s t é s t 2ért sítést s ít tt öss3 s á 3 t 2 é3 tá ó P P t ssá és érté tá á3 t 3 r t s t sít é 2é érté és s 3 t 2 é3 tá ó
46 36 XIV. Magyar Számítógépes Nyelvészeti Konferencia t ssá és s 3 r t s t sít é 2 í3 tó t 3 á 2ért sít t 3t 2ért sít s á 2 s t t t é t 3 2 t 3ésr s3á t t rtó érté t á 3 tá á3 t t só s r 3 r t s tú 3 tt s á t érté t s3t é r é é r tt 0 t é 3 3 s t ár 3 tó tá á3 t sá ár ít tt és és é á t t tt sé 3 tá á3 t s3 r s t t á r sít 3t s tést 2 ér s 3 P t ór á ú r t 0 2 tt 0 t s3t tí s 2 tt α 2 tt α 0 2 tt t 0 s3á tá á3 t 3 r t s t sít é 2é érté és r 2 t s t r é s s r 3t t t á 2 s t 2 tt 2 s t t 2ért sít tt s á 3 r t s Öss3 3és t tt 2 r t st 2 t st s s tr t s 3ért t t s í é át tt é s3á és é é s t 2ért sítését é 3 3áró 3 t á s 3s á t t és 3 3t ö t ét s3ó 3 r á ó á r s3 2 és á ör 3ó ó s3 á 2r s3 rt tá t érté tü r é 2 s3 r t s t ssá és éss t sí t tt á t ö3é t rt 3 tí s3 s t tér é 3és és 2ér t sít r t sá írás t tö t ú s é s3 r s té 3s á ás 3 t 3 s3 r r á ó tt rá ár 3 tt r tá s3 s3ü sé s 2ért sít 3t ö t t 3 á ít á 2 s t é s3ó t tá ás tá t 1t s á t 3ás Prós3é 2 2 r s3ö s3 s3t ítt tású 3és s3á ító é 3 tt 2 t á 2 3 árás t ó t s3t á és 3 tá t á ér t tt tt s t r t
47 Szeged, január Prós3é 2 ás3 P r r ú 3 2 r s3ö s3á ító é s értésé 3 s 3 á 2 á rét tá t s3t tér st r 3 r r s t P rs t ás3 á t á s 3 t r t 2ért sítés 3 öt és 3 tí s3 3 t s ítsé é 3 2 r 3á ító é s 2 és3 t r 3 3 á 2 2 t r t s3é s rt r 3 s ár ss r r r s 3 r t s Pr s t t t r t r s r s t 2 2 ás3 rt s s t 3 2 és3 t r s3 3 t 3 á 2 2 t és tt s s s r 2 ót 2 s r 3 r t t r P P s 1t t t r t r r 2 r2 3 t r Pr s r r r r r r
48 38 XIV. Magyar Számítógépes Nyelvészeti Konferencia sá 2 r t r3 2 t át t é é s3ó át2ás s3 r r át 2ör 2 t t t r3 t 2 t 2 ssé ét é s ö t s á ás s t t r s t 2 r rü é 2 s3ó r3és ósá át ér 2 ós á á 2 s3á3 é ét s r t á 2s3 r r s3t s s 3 ér t sé ü 3 á ítás ó átó író r 3 s és tó r r t sé r át s tér ét s3 ö3 é ssé r és t t 2 t rt 3 2 r 3 s ó ás 2 t ást ró á 3ás 2é 2 és3 t t sá s s3 á á t t r ó írás sé 3 r és 2 sé r é ü r s t á s3tés rá 2át ss3 t r3és st t s3t 2 t 2 sé 3 t t r3 s3ó r3 tá s s é t r s és3ít tt s3ör r t és ás 2 s r r r t 2 rr s é ö3 é t s3ör rés3 é t ésést 2 ü öss3 t ttsé 3 t s s3ót 3 é3sé t 2 t s é 2 s üt 3 ró 2 s3 r 3 tét t r3 3t r3 2 írt t 2 r á s tt 2 t á r á s tt s3 á 2 ér 2 t 2 s3 át tó á s tr 2t 3 2 é t á s r t t á ér t á 2 3 ó 3 2rés3t ötött s3ór 2 t ásrés3t 3 t 3 t r á 2t s3 s3ór és 3 r s á 2 s t és r é 2t é t s3 á s 2 t ó s3 rét á tí s3 á 2 t s3é s3á 2 tt 2 3t ír á 2 s ét 3 r r 2 r 2 r ár 2 é ú r r t s r 3 2 r t r é é á ó 2 s r r 3t s3 á t rá r s t 3 ás é t ás3 ó és társ á t és3ít tt t r 2 r t rá tó és r 3 tó t r s t é ít tt 2 2 ssé r3 ás 2 r tö s ét 3 s és üt s3 s s3 t t
49 Szeged, január r r sé ét t öss3 s ító t s3t á t 2 2 sírás r3 é s3 ás s rt r s r tí ó 2ért 2 s 3t ö t t r 2 r á ó át ét tá s s3 á t t s r é é r s t s át s3tés t r3 t s3ó r3 t r s3tés 3 t r r t 2 s 2 sírás r3 t r s3tésé t t r s3ós3 t 3 t s3ö ör 2 3 t rá t t t 3 írásr ü ö ös 2 r 2 s3 t á ó t s 2 s3ó s3á tt ttsé ér é r t á s3ó s rü 2 s íté t ö3é á ás 2 ü s r s3 ö3t 3 át s tá sá s tt árt 3 tó s s3ö ör 2 3 t r3és s ás é r s s3 á tó átt tés á ttsé t r3 2 ssé t r3 2t sé t 2 t é 2 r st t s3t á rít tt s3 á 2 á 2 2 s3ó 2 s rró 2 sírás r3 s s ó ö t 2 s s3ó t r ó s3 á 2 s s3 r 3 ü s3ó s3óst t s3t s 2 tsé s 2 s3 á 2 s s3 t s3ó t t sít í s3ós3 t 2 ttsé t s é ö éss t ér ts3 t 3 3 rá 2 tér rt tsé s s t s3á tö 2sá r 2 í s3ó ó 2 2 tö ár 2 s r 3ó 2 é 3 t s á tö s3á3 3 r 3 3 t tt 2 s t ó 1 á ss3 r s ár tó 2t s3á á á 3 rá 2 tér 3 2 ts3 t á s3á3 é át 33ü s 2 t á3 sr s3ü sé t s3ó r3 é s3á3 é s ö t é 2 t r és3 t s r t á3 st á ít é t sé sé ö t é 2 s3 t ét ás ú3 ts3 t á tö t ét rít 2 r3 r ár s3 s tö é t s s3ót t á3 s r s3ó r3 2t t 3t é ü írá t st t s3t 2 r3 s t rt 2 s é 3 tt t t s3ót és tö s3ó r3 t 3 2 r t 3 s s t t s s ö tés t t 2 t t r és3 t s s3ö ör 2 3 t s 2 s 3 tó r ás 3 s t s 2 tó rés3é 3 tt s3 tá 2 r rá ét s3árát 2 2 r3 ósá át r á ét r ét rr t ér ás s t á 2 s3á3 é á 3 át s t á 2 s3á3 é á 3 s s
50 40 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2ü 2 2 ér és s s3ó s3á3 r ás ö3ü st t s3t 2 s3 r 2 s és s3 r ás s3ö t át s3ó 2 2 s s3ö ör 2 3 t r r ás ö3ü ás P rs3 2 t rát s s3 r3 é 3 s3á s í 2 2 ér3é és é á tt író á t 2 s3ó r3 t á3 sá ó ss3ü s3ót r 33 á ttsé té és s3á s r r ás 2 ét 3 s t s í 2 s s té té s 3és s3 t s3ó r3 s3ót ör 2 3 t r3éss 3 s t s 2 s r ás s3á3 é s3 r t r r é 2 3 t s3ó r3 3 t és s t r3 3 át ör 2 3 t ü é 2é r 3 2 r s3ó á ör 2 3 t t á 3 á s3 t s3 ét r 2 ós3í sé 2 2 s t s3ó s t st t s3t á á 2 s r ás 2 s3á3 é át s ü 2 3 r ás á r s3tás ó 2 té s r s3tás í 2 s s t s3 ás sít tt Pár ás s t t s3ü és3r é s s 3ést 2s3 r á t tás á s r3éss s st ár s át rít tü Pé á r s3 é 3és t 2 2 t 2 t 3 r rr t s3ó s3 á t 3 2 r rs3á 3 s3 s3 résér t é 2 3 s3 rés s rr ó 2 st ár s t 2ü s3 é írás t é t rr s 2 í á t ütés ö t 3té t 3 á t s rítsü 2 r 2 s r tt ütéss ö 2 t 3 t 2 s s3ó rr s3ár s3óró r 3 é 3 t tt t 2 t s3 t ó é 2 s r s st ár s t 3 r t 2 é tt á 2 ássá t 3ért s ér s 2 t ö t 3 t sé t s s3 r ár 2 r t á r á r s3ö s3 r s3t 2 st s ítsé é s3 rr 3 írást s3 t tsé s és 3 2 r s t 2 2 ütés tt 2 t ás rés3 s3 r 3 t t 3 t rt á ár út t á t á s s3 t 1 s 3ás á 2 rés3 rít t á s s3 t 1 s s ítsé é é t 3 é é t s3 s3ór tt ás s t s tá s s3 öss3 ü ésé t rá ö ár á s s3 t 1 st s3 á s3ó 2ért sítésr tt s3 t st t s3 t ö t s tü ó ó s3 r t át 2 tt 2 rá t t s t á t rá 2 á s s3 t 1 st é s rés é 3 s ó s3 r ásá t á s öss3 ü és s résé rá s3ö sítés r é á s3ö s3 ó érté ésé é
51 Szeged, január ü ö sé tt 2 s3ö érté és r é 2 st t s3t át sé r ásá 2 sé é 2 s 3 2 sé tt 2s3 r 2s3 r ár tí3 s3á3 é té 3 s t 3 ttó t s s3ö st t s3t é 2 s ó s s3ö rr ó á s3 t s rés ö t tt 2 érté té és s3 á t t á t s3 3 s3 ö3t á s s3 t 1 s t sá t á s r á s írás á á 3á ását s á r á s é á r r 2 é 33á rt ó t r 3 tt r r 2 2rés3t t r s3t s 3 t ásrés3t s3 t t s s té ó tár tó 2 ö ért 2 é t r és3 t s 2 t rt út ár tó é ö 2 3 t á s t s t s3 t 1 sá ó 2 tt ás s3 t á ó t á t á s3 átó ör rés3s3 t 1 s s ítsé é 3 2 s s3 á 2 s3 á 2 s rt ü t 2 ástó és 2 t t s3 2 rés3s3ö 3t ás t t 3 3és ítás t á s s s3 á s t 3 t s3 á s3 á 2 ú r ító r r tt s3 t tét 3 2 t 2 s t 2t t t s 2 s3 3 2 r ítsá tt 3 tt s3 á t s3 t 1 s t s t ár s résér t s 2é tár 3á sár é é s3 á t t r ss3 r á s s3 t 1 s tá t s t 3ésr s3ó s t 3ért á s s3 t 1 st 2 s3 s 3 2 t 2 s é 3 t tt r á s s3 t 1 st 3 3 s t á s 3s á t í ü t sé tá s3 r s rá ér 3 t ö3 ü s rés3ét t 2 át r író 2 t r r tá ás tt s 2 rs t t r s3t s t r r tá tó 2 2 tsé s ás s3 tt r ár s ttr út 2 t 2 s é 2 s3 t 1 st s3 á t r 3ü é tár 33 3 s3 ö3t 2 3 s3 ö3 é t é tár 33 3 s3 ö3t 3 é é tö 2 r ö t tt át rítsü 2 sírás ét 3 és3t t s3 á 2 s rt 2 t s ét 3 2 s3óöss3 tét ás ss3 s3 á t s3 á 2 3 s s t r s s3 t ü á s s t s3 á 2 2ért 2 s 3 á s t s3 2 rés3 t t és t s 2 rés3 3és 3ó ét s t é3 ó
52 42 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 s3 ö3 tár 33 é t r 3 2s3 r 3t s rít t á t ér s tár 3 2 ás s t t r t á tö ü 2 r t 3 s r t t r 3 tü ü ö ö3 2 r ósít tt t r3 té s3 r t ö t 3 s3tá 2 3ás t 33á 2 t á 2 3t tés 2 á ít á 2 é s3á s3 é 2 é t 2 3t tés 3 t r á ós s3 öt s3 2 s s3 á t ss3 s3 á t t és trés3 ss3 á 2 tö t s t 2 2 t Öss3 t tt s3 r 2 és ü ö s 2 s s3 2 írás s3 t és 2 t öss3 tét ü ö írás öt s öss3 tét ár 2 ár ü ö írtá 2 r írás ütés ö t 3té s3ó s3ó r3 t r s3tés ás s3ó s3 á t ö3 s3 á t t r t ás á t 3 t t ár s s3 rés ár s s3 é s3 3és rr t sért s3 3és 3 3 t 3 s3 rú s3 2 r s t t á s3 r t s3 3és t r t s3ó r átír 3 s3ö ér s s3 r ö3 s3ö 2 s 2 tér s3é t és s3é ír tt 2 é s s3ö 3s r rét 2 r rá t s3 r 3 t ss3í s3 r 3 t r át át és 2é érté át á t s3 á t s3ó ítás í 3és 2 3ó ö3ö t át r s s és á 23ó s3ó ö3ö s3 rés 3 tt írás tö írás ö t 2 ást 3 s3 á 2 s áró é3 2 ás s t 2á3ás 2 s ár s3 á t öt t ö3 s rt r 2 t s s3 á t r t r át 3á r át t 3 s t 2 ss3 túrá t r tí ó ás ö ö3ött ár s t é 3 t 2 tét áts3 3 ír tt s3ö s rt sítás és t rt 2 é t és tó é t tér 2 s tí s s3 rés ö 2 í ás t t
53 Szeged, január ér és 2 t á3 s 2 t tét é 2 s t r3 é ít t s3 ö3ö é ü ö3 t 2 ó á t r á s 2 t 2 3 tó s3 á 2 írás 2 tét ö3 t 3ér 3 r3 t t á 2 3 t s r ítás r úrá t 3 tt ö3 ü s r á t 3 és3t t ó t r r tá ó é r t ó r3és s3ót és 2 s3 t 1 s 2s3 r s3 r 3 t r író s3 á 2 t ö3 t r t r r é ü r ár s 3éss s t t r r tá tö s t 3t t s3 2 r írás és tó t r r t r t 3 2 s3ó 3 r 2 t r3 ü 2 ü s t é 3 r 3 s s át ír ö t s 2ét és t sé s3 r t rr ó s r ó át s r s résé 3 2 t rü t t át 3s á t t ér s s3 á ó é tá rr s t sé t 3t sít írás 2 é író r 3 s 2 r t 3 s3ó r s3ót r r é á r s3ót t ór á r s3í s rés r á t á r ár s 3éss á s3 á 2 t 3 r t á s t 2 t ór á t s3 á ó s3 á 2 s s s é 2 s s3 t 1 st s3 á ár é ó é öss3 t tt ör 2 3 t ü t 2 t s s résé 3 ítás á t s s3 r ár á t á rr é 2 r s s3ót 3 r rá ór s s3ü sé ét t é 3 2 é 2 t é ó 2 s3 á 2 s rés3 t 3 s3ó 3ésr 2 r s3 á 2 ó t s ö t t s rés é t 3 s t tö sé é é r t s s3ó 3és és 3 ó 2 rt t sá r ó t 3ás 2 r s r tó 3 2 t ór á s3ó 3 r ó t 3ás ö é ö és sé 2ét r ó s t á 3 2 á rü és ér é t s s3ó 3 t ssá s ó sé ö t é 2 é s3ó rát rr s3 s írás 2 s tó r t rt tó 2 2 rt s3 á 2 s3á 2 rá ás t t s 2 ásr tt é 2 ításr ítésr át 3 2 s s3 á 2 ö t 3 r á ó t t rt 3 írás 2 s3ó r r ó 2sé r 3 s3 á r t 3 tás ör t ö ás ítés 3 ítás s t r s ré ü ít tt rés3t rt á 2 s rt rés3 2 s és 3 rá ó s3 s s3 r t tí s 3 s rr s s3tá 2 r3ését é 2 3 ssü t t ss 2 rá3 t é s r á ó 2 é s s3 á ó 2 érts r 2 és3
54 44 XIV. Magyar Számítógépes Nyelvészeti Konferencia é r tó t r t ít tt á t á r 3 s írt 2 r á ó 2 r ítás tá s3 s3 á tó r ö3 ü s 2 t r r tá ás r t s t r 2 t 2 rés3 t é t t r r tá ó í ás rés3ét r ító ö3 t ü r r rá 3 tó r é s r r t r s t s3á ár és3ít tt t r s 3 2 s ósítást 2 r s3 t 3 r t s 2 t r r tá tó ö3 ü s r á át s3 á á ssé ö t é 2 é r tás 2 rs 2 t r3és á s rítés 2 ás r é t tö t é 2 s3 á 2 s3á 3r ér t és 2 ss3 t s 2 ró á 3 á s r á s s3 á 2 ér é 2 sü ésé é 2 rs é s t r t s 3 é 2 t s3t t s3 r t ó 3 tt s3 á 2 s té r r s3ót 3éss tö t tö t tt tt s ór 3 3és 2 rsítótár ó 2 tés á t á 33 í á t s ssé t r ó rü és s s t s ít t t t s3tá ó s t 3 r 3 s ít 3 s s ít t r ó 3és s és tt 2 ttr út t s tár 2 3 3és é 2 r t s3ó s t r 2 3 t r ó 3és ú r ú r á 3 s rés ét rés3r t tó 2 r 2 rsr és 2 rés3 t s érté ésr r ér s tté t 33 t s sö t t t r és s3 2 ós3í sé 3áró 3 s é és és 2 r ás r ár s s3ü sé 2 r 2 r tö ért s3ó Pró á 3t s3 á 2 ú 2ért sítéss 3t ár 2 ár 2 sö t 3 t r tí á t r á s s ssé 3 2ért sítés 3 s s ó t t á s rés ö 2 r á s s3 á 2 á ö tött st t s3t 3ás tt 3ért s3é 2 s rt é r t és r sést s ssé ö és t ér3é t s3ü sé t rá á s résé ö tött 3 2ért sítés t rt ás tá r s t ú 2 ö tött 2 3 öss3 s 2 t á3 ü ósít 3 3 út 2 t ás s3 á ás é 2 s sö t 3 tt 2 t ást s3 t rt 2 ár ss3 3 r sér rr ár t t r 2 r é 2 s3 r t s t át t t tt tá s3 s3ó 3 r és írás r 3 s s s ósá Pé á 2 rá3 t rés3 s3 t s 3
55 Szeged, január ét r 3 s öss3 tés s3 á 2 ét ósítás s3tá 2 s r ó 3 s3tá 2 2 s é ó sít tó t r á t 3ér t s3 t 2á3 2 s3 á 2 3 tt s3tá 2 s3 r rá ó s3 á 2 2 s é s rt öss3 2 t s rt t 2 3 t s3ör s rt é rá tí sát tó s 2 rá3 t t és tí s é t tér s3 ó ö t rü t és ítás ó Pé á ü ö írás s3tá 2 ö t r s té s3 á 2 t rt 33 3 t 3 r á ó t t át s3 á 2 3ér 2 t á ú3 és 2 2 rá3ó s3ö 2 s s3tá 2 é 2 3t tés ss3 á 2 s s 2 á 23ó t és rés3 ss3 tsé s s3óöss3 tét 2 s3 á 2 á s rt 2 írás ét 3 s3óöss3 tét s3ótár á s rt 2 írás öt s s3óöss3 tét öt 2 ír ás s3óöss3 tét 2 írt ü ö s3ó ír ó 2 s3 r 3 t á 2 tö s3ör 2 2 s t rés3 á 2 é s s3ó s3 á t t s r ss3 t rá ár s3 s3 rés r s3 3és s3 rés s3 s3 rés t á s s3 r 3 t 2 t s s r r t á 2 3 t ír ó t t s 3 t ír ó 3ó ö3ö írás r3és 3 tt s3ó ö3 3 tt írás t ó írás 3 t 3 s3tá 2 t é ü rá tt t r é ét r t tt s3tá á 2 s 2 sírás r3 3t r s t s3 á t és 2 3és tú ss3ú t s tér é 2 ü ö sé r 3 s s3 á 2 s3 t 1 s s ó 2 s3 á 2 é 2 rés3 á 2 rs s rés t 2é tét ítás ó 2 rá3 t 3 ó ré s3 tér
56 46 XIV. Magyar Számítógépes Nyelvészeti Konferencia rés3 2 s t r r r 2 t s3ó s3ó r é ár tö s3 s r t r s r3és s r 3 t t ór tét r ár s 3és t á ás s tét s3ó t t ór 3 s3tá 2r r ár s á t s3 á ó s3ó 2 rés3 3és r és r t sá r é s3 3és r t 3ó á tö rá 2ú r á 3és ör 2 3 t ü r s 3és 3 3és tét s3 á s3 t 1 s t ts3 s rá 2 és s3 ö t s ró r s3 á 2 t ö3 t ör 2 3 t tá tás rá 2ít tt t ts3 s rá 2ít t r ár s ö és s3tá 2tó ü r r ö t r ár s 3ér ás s tét 3és á s3 á á ítás á t ss3 t 3ás ss3 t 3ás t á t rés3 r rá ás t á t rés3 r rá ás 3és á t á rát r é 3 t s s r t t 2 rá3 t ö3 t 2 rá3 t és ö3 t 2 rá3 t és á s rés3 t s 2 rá á s rés3 t s 2 rá3 t 3 tr ó t 3ás 2 t 3ás r tt tt ü t tö s3ör r ü tár ó t t 3ás r r á s s té t s 3 s3t r3és r ítás r s3 r t r ítás r ü ö sé t r 2 s t r t s ó írt t r r t r P2t ú t r r t r s3 á ó ít t r t s3 á ó ít t P r t Pr r tás 3 s3tá 2 ö3ött s rt r r tás 3ér és 3 á 2 ö sö tás üs3ö ö és s rá t sé rt ás t ö t r s3 á 2 ó s3ör ó sít tt s3 tá 2 t és 33á t rt 3ó ó st 2 s s3 á 2 t ísér t rtá t r s3 á 2 r s3ör 3 2s3 r t 3 2r öss3 t tt t Pé é3 ó ásr r r ár s 3éss 3t s tó t á t
57 Szeged, január s é 2 s rt é3 ó áss 2é t ít ü 2és ü 2 ü 2ít ü 2ü t r r ár s 3és s á 2 s s3 á r ó át ü 2 éüí t s t á s3 á 2 t P írt r r rtá t é á 2 é 2 s tt r ó 3 öss3 tét t t r rá ár t t r tt s t t s ár t5 t ár 2 s 2 2s3 r s r ó s s3 s s3 t r 3 s tó 3és t 3 s s 3 t s r r st s s3 s 2 s é 3 tt r s ö 3sá r ss3 t tt í3 és r t r s s ss3 t é ás 2 é 3 r 3sá r t r r s r r st 3sá r s t r r st 3sá r ts s r t 5 r t í3 és 5 r t r 2 s 3 ár s t öss3 t tt s t 3ó ss3 t tt 4 é é rá é t 2 rs ss r 6 s3 r s t 3ó t r tás t s é é5 rá é t5 2 rs 5 ss 5 r5 s t 3ó t r r r ts P s Ó P P ts s r r r r s s 2 s tt t s tá tás t 4 t 6 t t t r tá tást tt s tö é t s t tt t 5á 5 5 5t 5é 5 5 5t t t r r r r P P s t 2 s tt 2s3 r tá tás r á 3 t r s t ár át s r á 3 t r s t ár át étr 3 t t t r t t t r 2árt t r tá tás tö é t s 3 s
58 48 XIV. Magyar Számítógépes Nyelvészeti Konferencia r á t r r s st r á 3 t5r s t5 ár át r t s r á t r r s r r st r á r s t r r s t 3 t5r s t5 ár át r t étr 3 5 r t t t 5 r t t r t 5 r t t 5 r t t r 5 r t 2árt r á t r r s r r st r á r s r r s t 3 t5r s t5 ár át étr 3 5 t t5 t r t5 t5t r 5 2árt t é á ó s át tó 2 s3 á 2 2 t tö s3 á 2á r í t tt á t á 2 s r ó 2 s r t 3 tt t tt rü t 3 3ést és rá ást t 2 ár 3 r öts3á3 s rt s rü t r ít 3 tö sé á s s3 t 1 ss 3 tó t 2 st ár s á tö sé 3á s3 r t 3 s3 á 2 á 3ö ét t t t t át ét r t s s3 á 2 s rt 2 r 3 2 és ü ö írás t ss3 tt é 2 á 2 üt ö3t s3óöss3 tét s3 á 2 tö sé ét s rü t át tö s t t á t á s s3 á 2 á ö ött é ít s3ó 3 t á3 s t 3 öss3 tét á t á s s3 á 2 ó ét é s3 r s t á t á 2 ír 3 s r 3 t ö t ás s rt r 2 s r t sá 3t r 3t 3 öss3 tét s3 r s3ótár tét é t r ó s3 r t ár r s t rt 3 2 tét t 2 ó á tást t s3ótár á r át 2 3 á t s3 á t s3ótár s3ó s3tás é és é é ö3t s3ó é é 3ás é 2 ó sít á 3 öss3 tét s3 á 2t s3 r s3ótár s3ót t s r 3 2t s3óöss3 tét r3és ás 3 2é tét tt s á 3 r 3t s 3 öss3 tét t s 3 é st 2 ás é3sé ss3 é tá t tt s s3 á 2 s3 r t 2 tét 2 t 2 s r át s t tt ósít t r s s t r 3 tt été r sés Pé á ét r 3 tt s3 r tá 2 ástó és s ö3tü írás r 3t s t tté ss3 t rr s3á s s3 á 2 2 s 3ért s3á s 2 ós3í 2ét s ríts 3 2 s t át r át 3ás é ü rt tá tást r ár s 3éss t í 2 s é s3tr t sá s s3 r t t r s r r t r s r ár s 3és t
59 Szeged, január s á t 3 tt r ó t t sá s t ö3t s át 2 t á3 s ét 3 t s3t t s3 r t s t ö3t 2sá r tö té és t á tó ár s3ótár s ésü és t r s3tü ss3 3és s 2 sírás r3 s3 á tá ó t 3t é 3és 3t 3 rtá t á 3és é ár 3 ró t át é ás rát 2 rs s és 3s á t á rr ö t 3t tésr t tt 2 s3ótár é ítésé é tú s ós3í sé s3ü t ö tést 3t r t 3ás é ü rrás 2 s s t s3 r sé t á 3 á ssá á t 2 2 r ö t tt r s3ó tt é 2 é 2 t tó é ás r 3 3t ó s s 3 rr rró ár 3 r 3t s3 2 2 r s t té s ó ér s 2 s3ó tö s s3á t t t é t r s s3é s3á t á t 2 t t s tt st t s3t át 3t ött 3 r ítés é ü t é ás s 3 öss3 tét é é t s3 á 2 tt s 2 2t t á 2 s é r s3 á tá ár és 3 t s tt r s3 t 1 s ö sö tás 3 és és s3 á 2 á 3 t é 2 s 2 s3á ú s3 á 2 s té t t 2 3 ü 3 ö sö tását 2 s 3 s3ó öss3 tét é á t é ü ö3 t t é 33 s t s 2 rá 2ít tó á t s3 á 2 r r tását s 3 á 2 ö sö tását r s s3 á 2 33 t r r ító tt s3 á 2 s3á tö 2sá r ü ú t r3 ét r ö r s3ü t tt r3 á ér s t rá 3 r t t r ár s3á3 s 3 tt s3 á 2 s3 r 3 á s s3á3 é át rít tté é é ö éss st ö3 s3 á 2 2 á ét s é ö és rá 2 3t tó 3 t é s3 r s3t ts3 t s t á3 s ér t ó s3 r s ításr s3 r ér s t á é ás s3 r s3t ts3 t 2 t sé 2 s3 t sá t s r ár s 3és 3 P2t ítésr s3ü sé t t r 3t 3t
60 50 XIV. Magyar Számítógépes Nyelvészeti Konferencia r s3 r r é s3ü sé 2 2 r 3 sr s á 2 s 2s3 r rtá áss t r r 3 st s3 t 1 s s 3 t á3 s s3tésér rt s3 á 2 3 s tó és r s tét rít s3t r s3 r tás ár s t á t 3t táss s3 t ár tó 2 2 s s3 ö3t t r á s3 ö3 2 t r ó t s t ü t és t ö3össé s ítsé é t 3ás s3ó 2 2 ssé r3és s3á ító é P r á s s3 t 1 s rs3á s 3 tt 2 és3 t r st é t t r t 3 t ö3 r 2 r3 s3ó t t s3t í3 tósá 2 és3 t 2 r 3á í tó é s 2 és3 t r 3 á 2 2 t s3ó 2 r 2 sírás r3 á ás 2 r 3á í tó é s 2 és3 t r 3 á 2 2 t r r t 1t s s t s s r tr r r t s st r s t s s r r t rs t2 á P 2 r 2 s3ó 2ért sít ó s3 r s3tés é t ás r t s s3 á ásá 2 2 r 3 t 3ö tár r s3ó s ás3 ó t 1 r t 2 Ps2 rr t s 2 rr t Ps2 t t 2s s P át r r r r 3 Pr s t t r t r r ss Prós3é 2 2 r 2 s r st r r rs r r t r Pr s t t r s t r ss t r r s t tt t rr t r r t s r tt rt s3 t t rs 2 t t tt r t r t 3 r rt 3 tt 2 r3 tt r s3 s3 2 s r ss P tt s 7 s s t tt t s r1 st s r r t2 tt rs r s s tt s3 2t tt s 7 s t r tt r t 2 tt r s t s t t t t tt s t r
61 Szeged, január s s r t rs st t r r r r át2ás s3ó s3 r r át 2ör 2 t r2 1t str t r r rs r t t r s t s r t 2 rr t r t 2 2 r t2 rts t s t t t r r s st s s r r rs s s2 t 1 t 1t s s t s s r t2 s q s r s q t2 r t s s t r s r s r t st t s ts ss s s r 2 t r t r 3 r rr rs 2 t r t s r s r s s r rs t t s r s t t ts s rt r st 1t r 2 t t r r r 2 s 2 r s r 2 t r t 2 r q t2 t r t s t t tr t rt t st 2 s t r s s r 2 t t t t r r t r 2 ás3 ó é t r t t 2 s t st s rt s s t t s 2 s t r t str t s t s ss t rt st r r s t t t r 1 r t s r s t r st s s t ts t t q t2 r s r s r t s s s s st r r s r s s t st t s t t t s r s r r t r s s 2 r tr s r t t P r r r r t s r s rt s2 t 1 st t r s s t t t r s2st s r s2st s t s s s r s t t 2 t s t s 2 t s 2s s r r t r q r ts r r r t q t2 s tt r t t t t r t r t s r r t s r tt s t t r t ss r 2 t ss t2 s r r t s t r s t st s r t
62 52 XIV. Magyar Számítógépes Nyelvészeti Konferencia é tó r r s3 3ér t 3és é tós3 r r t 2 é 1,2 1 PP 2 r 2 t ó t tó s rt st Prát r 2 Pá3 á 2 Pét r t s 2 t ö sés3 t és árs t á 2 r P s s 2 t t 2 t t t á 2 2 r é tó s rt át 3s á r s3 3ér t 3és s rá t ár s t sá r ó s3á é tó t ór á ár 3árt és r s3tá 2 2 tt t é t t t r é 2 2 ú s3 r ö3 ítést t 2 té 2 3 t é tós3 r t ss3 é tó r s3 2 és3 t t 3 3 tés 2 át ó r s3 3ér t 3ést és3ítü 2 r é tó 2 t s á t 3ó s rt áró é r s3 r 2 r és é t ór é t t tsü á t é t 2 tö ü ö ö3 t sá á 2 3 t 3 2 s s3 á é 2 t ü sé 2 t r t ü 3 t t sé s3 r t é s3 tt t rt 2 s3 s3t t á t 3 r s3 r r é 2 t t s t s3tá3 ó ér és 3 é 2 t értü é tó tt 3á ító é s 2 és3 t s3 t ó é tó 3 3 ö á ó 2 ér 3 t t ü 3 2 é s rt é ét t é á 3 s é á 2 r rü t t 2 é 2r tó r átt tés rró 2 t s 2 t rt 3 s rt 3 t t t 2 t s 2 és3 t s á 2 é t é tó ró é 3 s3 3 3és ü t ü t tó 2 s s3 r t é tó 2 s 3 t t tás átt rét t 3 r s3 rt t t rö 3 t t t s át r tér t és s3tá 2 3ás tét t 3 t öss3 3t 3s á t s rá r s3 ó 2 á ó á t t t t 2 3 t 3 2 s é tós3 r s3ó 3 t sá t é s ár s 2 s ítsé é ü t 3 3 t öss3 áss 3ár é tá ö é tó
63 Szeged, január tés s ó ó r t á é 2 2 s3ó s3tá 2t 2 s3 2 és s3á ú ér 2 ss3 t rtó tát r é 2 3 t 2 r é tó 3 t t t ét ü ö ö3 t á 2t t á ss3 á ó tt ér é 3 t ró á átt tést rró t 3 é t 2 és3 t 2 r é tó ró 2 á 2 s 2 r 2 t é tó ós3 2 s rt át t á 2 r ó 2sé t t 3 t 3 é 2 é 3éss í 2 s tr é t ö 3 2 t ö t 3 é s rt sít á é tó t ó é tó é tó 2 s tr é ü t ö t á t á tt ó é tt é ö é ö ött 2 tt rá t öré örü ö3é ö3ött ö3ü é tt tt ö é ö ött ö ü é ü s3 r t tá 3ó é tó 3 é3 r s3tü tú 2ütt st rt s s3 é 2 t t rt 3ó é tó á é á ó ér ér é ért é s té 2 á ár ö t 3té 2 á rés3ér s3á ár tá á st 3t t r 3á ót r s t t á str t r st 2 r tí átt r t á 2 tr t rá s 2 r 2 t öt té é tó t ár és é s rt s r á s ts3 r é tó s rt t s tr é t s s t t 3 P s tr é ü é s rt t 3 Pé á á t á tt ó é tt é ö é ö ött 2 tt rá t öré örü ö3é ö3ött ö3ü é tt tt ö é ö ött ö ü é ü s3 r t tá ó é tó s tt r 3 é s3ót 3 át ü í ü 2ütt st 2é é tó 3 é tó 2 s s r s3 é 2 s é áss é tt ö3 ót 2 á t ss3 t é tós3 r 2 át t s3tá 2 rt s s3 é 2 s t t rt 3 s r ás ó é á 23 2 t s3tá r tí ö3 ítés 3t 3t sít é á ss 2 t 1 r tt 3 ít tt s3 ö t 3 t r 3á ó
64 54 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 t s tár 3ós3ó 1 s tt r 3 é s rt t 3ó é tó 2ütt st t s é é 2 tár 3ó 1 s tt r 3 é s rt t 3 é3 3 st s tr é ü é s rt t 3ó é tó á tt ó é tt é ö é ö ött ö ü öré örü ö3é ö3ött ö3ü á t ér 2 tt s3 r t rá t tt é ü tá é tt és ré é 3 ár ü ö ö3 t r 3á ó ó é á t é tó tár 3ás 2 r 2 és3 t r 2 r s3ü sé s 2 ás rr ér ésr t 3ó r tét r s t 3 3 t s é á 2 t r ss3 rtá ó ár 2 rés3 t s stát t rt 3 3 öss3 s 2 r é tóró é á 2 s rt sítását és r ss é tó ár 3t 2 tár 3ás r t rá 3 ás3 ótó s3ár 3 é tó tt 3 s tr s r ss é tó tt 3 s tr é ü é s3ó társ ó é tó t ért 3 t r 3á ó s s3 r 3 tá á3 t 2 2 rít és öss3 s ító s r ás 3 r é tó é t ít tt s3 t ít tt é 2 t á 2 á 3 tá á3 t tt s3 tt s3 é tó 3 3 t ö t é 2 é 2 s3 t á 2 ít tt é 2 t 3ást ö t 2 r r t tr t tr t rá s 2 r 2 t t 2 t 1 r és t é á 2 ss3 rtá ó 3 s3 t á tó 3 tt t á 2 é tó s t s é é 2ét ö 2 s3á 3t t 2 3 tt s3ót 3 tt t á 2 é tó t t 2 t 3t t 2 3 tt s3ót ít t á 2 t é tót ü ö ö3 s3á és t ü ö ö3 t r 3á ór t 3áró s3 r 3 tt örü 3t t 2 3 s3ó s3 r 3 tt t á 2 és 2 3t s 3 tt t á 2 s3 r t t r 3á ó á 3t t 2 3 tt r á ít s t 3 tt s3óró é tó t r 3á ó á r é á 3 á ssá á tá á3 t á s3 2 s rt í t t s3t é tó 2 23 t é tó é t s é tó t s t sá á r 3 és t sós r t s t á 2 é tó é t tár 33á t ás s3 tá á3 t s3 á 2 s3á t rt 3 33á 2 r 2 s3 s 2 és t s rr í á rá á ít 3 tá á3 tt 3 2 s s3 t ó é tó ás s3 t ó és3 ás é 3 2 3t 2 t ssá t r tár 33 r t t s é tó s rt át és 3 t t örü ír 3 3t t örü rét t 2 r t t s é tó t t rt 33á
65 Szeged, január tá á3 t é tó é t tár 2 t s3 stá és s rt sítás öss3 ás ö ítés 2 r r t tr tr t rá s 2 r 2 t 2 t 1 r é á 2 ss3 rtá ó 3á s3ó 3 tt 2 é tó t é tó tér s3á t 3 tt t á 2 t r á tár 3 tó s r ás áró 2ért t r 3á ó tr tr á örü á ö t 3té tt ö3 ó ö3é á t ö3 ö3ött át ö3ü ü étér é á ó é 2ütt tt é tt ér ó ár ó r tt ö é s té ö ött é ö ü ú tá ü ú é ü ö é é3 ö ött 2 á ö ü ót 2tá rés3ér 2 á t ré é s ó s rá 2 tt s3á ár ss3 t s3 s3 rá t s3 í3 s3 ö3t ár s3 r t éért tá tá t é st tú r s3tü tú r 3 tú ró é tá í ü út á í ü r é tt í ü r é öré
66 56 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 ít tt s rt sítás 2 tért é tó 2 s t sá 3 s tr tó ó ü ö ítésü 3ért tt st í á s3ó 3 s tr és é tó s táró 3á ér t 3 3 tó 3 t sá 3 33á 2 s t r 3á ó térés t r s3t 3s á 3 r 3 r trá ró á 2 2 é t r é tó r t t r t t r t t s é tó t sá r 3 í r ér ás é tó s é á r s3 r 3 r 2 3 r s3 r 3 r s3ö 3ást 2 s3 á 3ért 3 3 s3ö t ró r s3 é t 3 3 t á s 3s á t s3ó tt 3 3 3t ö t é á 2 t r s t t 3t 2 ét s3ó ér t 3és á 3 r 3ésé t 2 ü sé t s ö és r s t í á t r tr s3 r 2 3 é ü ü sé s t t s3 r s3 r s t és í á t á ós 2 s t tö t sá r 3 2 t sá r s t é t 2 í á t é t t 2 r s t öss3 t á 3 2 í á tt r s3ü t ü sé s t ö3öttü ó s3 r 3 3 t 3t á ít tt 2 é tó t sé s3á ító é s 2 és3 t s3 t ó r 2 3 s tr 3 s ó ét sé t 3áró 3 2 é s rt é ét 2 r 3 tá á3 t s3á s é s é rá3 s tt és tá s t á 2 t t 2 tá é é tós3 r s ésé r t s írás 2 t t rt s r tér ö3ü é tó ö t s t 2ütt ár 2 é s rtt 2 2 tt 2 tá s3 s tr 2 s tr é ü 3t ü ö sé t s3 é t t 3 és 3 tt é 3 s3 r í ü r t rt 3 3s á t s3 öré 3 s3 r s3 á í ü r ött í ü r ött 3s á t s rá s3 á t r s3 3 3 s r3 ó 3s á t 2 s3 s3 t á t ás t r sés t 3 tá á3 t ít tt r sés s rá ó ú é tó ö t ít ttü 3t 3 r t r s3 ér 3és r é 2 á ö t 3 t sá t tár 3t
67 Szeged, január í ó é tó é s3ó s rt tt 2 tá s3 r érté ü t ttó 2 3 s3 rú ö t 2 ást 2 rü t ö 3é ü ás 3í ó t sá á érté é tó s t é s3ó tá ö t 3 2é é t 3 t s tr s é és é t t sá r tását t rt ó 3 s tr é ü és 3 s tr s t 3ó é tó ü ö ítését é 33 2 r és s3ü sé s t é tó ü ö ö3t tés 3 á t 3 tt s tr á s t sá 3 érté é tó s tr é ü é 3 ár 2é é t s3 s3é ssá érté é tó és é s3ó s t ö3 t s3 s3é 2 ás 2é é t 3í ó ér s3 s t s t ö t é tó ér s3ót 2 át r t 3 s t 3 érté 2é é t 3 3 s3 t t ttr út é t t á 2 3 tt s3á ító é s 2 és3 t é3 t t á t 3 í ü 3 s3ü sé s t é á 2 r ó 3 s3á ét s 2 2 2ás á t s 3 s3 s3á ító é s 3é sét 1 é 3 t tó é ás é tó s ás ó t tó é ásr 2 s 3 s tr 3 s s t 3 érté 2é é t ás és s3 é 2 s3á 2 3t tés é tó 2 s3 é 2 s é ás 3 ár 3 2 3t tés rté 3 2 3t tés é tó 2é é t és rét ó 3 ó rét ó rét át 3 rét át ó r t r s3tü r é 2 tá á3 t át tó é tó ár s érté t sá r t tt 3és 3 s3 é tó é s3ó 3 é st tt 3í ó át érté é tó ö t é s3ót r érté ü ö s3 é tó á t í á t s tr s t s é s3ó s tr é ü r érté ü ö s3 s3 s3 s3é ssá t 3s á é s3ó és é tó ö3 t ü 2 ás
68 58 XIV. Magyar Számítógépes Nyelvészeti Konferencia tt t á tó r érté ü ö t s tét 2 é s3ó tt s é s é tó á é s3ó tt és é tó tá é t s3á ít tt s 2é ó sító étét s3 ér s3 s 3és 3s á é tó t 3 ér s3ó é tó é t r érté ü ö 3 3 s3 t tó é ás t r á sú é s rt s t s é tó t tó é ás s s ét r érté ü ö é ü rs s3 3t érté 2 s3 é 2 s é ás 3 ár é tó 3 2 3t tés é tó 2 2 ü ö ó s3 rt s t 23 2 r é s3ü sé t t tt tt é tó s érté t 2 t sá r é á s t s3 r é s3ó tt r ár át tó 3 s3 tt s rá t sá érté és ü ö ös é3 r s3 á 3ért tö s t tt 3 érté t s át 2 t í ó á tár 3t t t rt 3ó á 3t tt t sá t s3t ésér öt ött é á tósá á 2 t s 3t s 3 s s3 t tá á3 t 2 s3 2 r 3 3t tt s3 r 3 t 3 tt é tó r Pé á 2 á t é tót t s3 é 2 s é ás 3 s3t 3ért s3 r 2 á t t rá t só 3í ó á 3áró s érté t t rt 3ó t rú é tó t t t ü r r 3 ó r t t s é tó ör 3 s3 t t s s3 r t r 3á ó á s t s3t é tó 3 tt s rt t ét t 2rés3t 3 é tó 2 rés3 t s s3á r s3 é 2 é ás 3 s3t tt á é 3 é 2 t 2 é s3ó tt s t é s3 r 3 t ét t t é 3 á t 2 s3é r r s3 s s3á s3 é 2 s r s3 s r s tr s é s3ó stré s á s3ó t é s s r és3 t s s3 té s3 rú té é á t t tü t sá érté ét r 3 ó é 2 t s s rt 2 3 s ár s3 t t s3 tr érté t t t sá t tét 3 tó t s ör 3 r s3 r 2ás 2 r t s 3ás á 3 t t 3 t sá r tt érté 3 3t t s3 t ér s é tó tá r s3 é s rt t 3áró 3í ó s3 r ö3 t ü á t st s s tr t s é s3ó tá tá á3 t t ás s3 3t s3 t t t sá r é érté t s t é é 2 r 2 s3 r 3 t t t ü s 2 s3 t ó s é tó
69 Szeged, január tá á3 t 2 r 2 és3 t s3 r é tó é t ít tt s3 t sá t r é t törté ítés 3 s3 3 rs á á tt ó á t át ü é á ó 2ütt é ér tt s té é ü ö é ö ött ö ü 2tá 2 á t s ó 2 tt ss3 t rá t í3 ár éért é st r s3tü 3 é í ü í ü r í ü r öré 3 s3 3 rs örü ö t 3té ö3 ö3é ö3 ö3ött ö3ü étér é tt tt ó ár ó r ö é ö ött ö ü ú tá ú é ü é3 2 á ót rés3ér ré é s rá s3á ár s3 s3 s3 s3 ö3t s3 r t tá tá t tú tú r tú ró tá út á é tt é
70 60 XIV. Magyar Számítógépes Nyelvészeti Konferencia tár 3 tt r 3 ó r ér á é s3 s rt s érté 3 2ütt ö3 tú é s té ö3ös 2 s3 t ó 3s á tó t át 2 s3 r 3 t r t s é tó 3ö 3 ú 2 s 3 t t s é tó 3 3 tá ó á ér s tár 3ós3ó ü ö3 r s3 s ésü 3 t s tár 3ós3ó t r ss r tó 2 s tr s é s3ót 3 tt 2 ö ött s á és tá r s rü t 3 t tó ér s t r t rt 3 t sá t 2 í ü 2 3 ö3 t ü é tá s3 r s tr s t 3ó é tó t át tó 3 s ésü s ö3 á r t t s é tó 3 t 3 t s tár 3ós3ó r é át 3 á t ö t t s tr 33 2 é s3ó és 2 r t t s é tó s tá 3és s ü ö ö3 2 s tr s é s3óétó 3 r 3 r s3 r ró r törté 3ását ss3ü r 3 r t s é s tr é ü é s3ó tt t á é tót tt t öss3 s és 2ütt t t 2 ás 3 t 3 t s tár 3ós3ó s té í á t s tr r s t é t t t 2 3 tt s tr t á s é s rt í á t é ít 3 t rú s té 3 é tót 3 é s rt s tr é ü 3 3t 3áró s tr 3t á 2 tt é t ért 2 é s rt r é ásár á s 2 tsé s r t st tá á3 t é á 2 á t á 2 rá3 t t é 2 3 á érté t tt 3 3 t sá r 3t 3ért í 2 3tü rt ás é tó ás ó s t tó é ás t r á ss 3 á 3 ét r á r r s3 és 3 s rr é tór 3 3 á 3 é3 t á 3 é tt t s3t t á tá á3 t s3 r r s3 ér 3és s rá 2 r rü é tós3 r s ést r á ó s3 2 2 rés3 ár ás s ítésr rü t é tó ö t é t t át tó ö3 t s3 s3é s sá 2 ü 3 t sá 3 í ü 2 ét ét t t t é s rt tá t á tó tt 3 t rú s rt 3 ö3 s3 33 ü ö sé 2 r ó öss3 t tt 2 rt s s3 é 2 s 2 ss3í s3 ó tár 3ó r s s3ó t 3ésü s ü ö ö3 ttó t rés3 t s r ó 3ésü t á 3 tésü és 3áró t s é tó 3í ó törté r ás 3t 2 2ü t é tó ö3é 3 tt á é tós3 r ár 2 s rt ör 3ó é t 3és s rá 3 r ró r ó r s t í á t r tr s3 r ö árását s3 tt t rt ö t 3 r t s t ósít tó
71 Szeged, január tá á3 t r s3 ér 3és s rá 2 t é tós3 r stá és t sá 3 r t érté 3 s3 3 rs í é ár tér s té ér é ért é é 2é ü á 2á é 2é r té 3 ös3ö t ö t t ré ürü 2é t 3ó r t t s é tó s té 3 s3 ö3 t ü 2 t st s s tr é ü t át ért 3 tt í é3 tt é s3ó tá t á tó 3ás é s tr é ü é s3ó 3 ér 3 3 r t t át t 3 3 3ért t á 3á ás é ü öss3 s é s3ót é tó és tó 3 2ütt 3 s tr s é s3ó r ó s3 rés3t 3 3és r t t s é tó P t é t ór át s t rt 3ó 2 rés3é é s 3 s3 tá á3 t 3 2 é 3 s ár á s érté t á tó r t t s é tó 3 é st r ér á 2 3 s té 3 s3 s tr s é s3ót 3 é s3ó tt s ás ö3 é ésé s t tá á3 t á érté t t 3 3 3és ás ré s s3 r é 2 3 törté t P t ü t ór át s tt t sá ö3ött t s tü t t 2 2 s tr ú é s3ót 3 3 s3 2 s r s tü t 3és s rá 3 s tr s é s3ót 3ó é tó s té 3 s3 ár ö3 t ü é s3ó tá t á tó ü ö ö3 r t t s é tó tó 2 é s3ó ttü t st s s tr t s t tá á3 t 33á r t t r 3 t 3ésü 2 3 t 3 t s tár 3ós3ó t t tt r ér ás é tós3 r é s3
72 62 XIV. Magyar Számítógépes Nyelvészeti Konferencia ss3 s ért tt ré s r s 3 t t t 2ért t á 2 ö3 t ü tt t á tó r é át 3 t 2 3 s tr s é s3ó 3és r 3t s öss3 é tó á 3 s tr tt 3 3és rö 2 té útr t t s é á ár 3 tt át t r s 2 tár 2 s t é é s3ót 3 ást t 3 ér s t á t és 3 tá t 3 3 s t üs3ö ö ésér 3t s 2 s á 3 s tr é ü t st s s tr t s é s3ó 3és r s 3s á 3 s ét 2 é tó r és3 t s 3 3 árás s tö r é át t 3 sá ssá á t ssá á 3s á t 3 tt á3 t r t s tá ó tá tsé s átt s 3 ást ö t ö öt Öss3 3és á 2 é tós3 r rés3 t s r s3 ú 3ését t tt 3s á t 2 2 és3 t s3 r s ít tt é tó 2 s s rt t 3 t á 2 2 ástó é s á s3t t tt t sá r s3 3s á é t 3 é tó t tá á3 t r é 2 t 3s á át tó 2 ó r s3 r 3 t s3á t é tó ö t 3 t sá té á r t t s és r ér ás t s 2 3 3és 2 é t 3és s rá tér 2 2 ár 2 s rt ör 3ó 2 3ásár ár ü ö ö3 r t st s t t tás ö t 3 á3 sá 3 3 tá ó át ósít 2 érté ssü t sít é 2ü t tt t s rét s3á t r tá á3 t ér té á 3 2 áss 3 s3 á át 3á t t á t sít ss é tó s r ását t 3ás Prós3é 2 ás3 P r r ú 3 2 r s3ö s3á ító é s értésé 3 s 3 á 2 á rét tá t s3t tér st Prós3é 2 2 r s3ö s3 s3t ítt tású 3és s3á ító é 3 tt 2 t á 2 s3 r 2 r r t 3 t ö 2 ó r á rét tr t rá s 2 r 2 t tt tr t rá s 2 r 2 t é ó ss 2 t 1 r r 2 t 1 s r rs t2 Pr ss
73 Szeged, január é á 2 r t r P t t r t 1 3 t r t r 3 t t t t s q P ss rt t rs t2 r sø rá 3 r ss r t s t PP r r r r és s r t t2 s st r P r 3 s ár ss r r r s 3 r r r tss r r r P r s s Pr s t t t r t r s r s t 2 r s r s ss t t 2 3ö r s3 t s tá ó é 3és 3 ö 2 sé és á ó t ö3é ró á 2 r 3 tt 2 és3 t r ss3 s r é 2 ú3 2 sü t
74
75 II. Szemantika, információkinyerés
76
77 Szeged, január r s3ó á 2 3ás é3 érté és á tt á r á Pá3 á 2 Pét r t s 2 t r á ós ó és r PP 2 r 2 t ó t tó s rt st Prát r 4 tt s s r 6 t t s3ó á 2 3ás 1 s3 t t ásr r 3 tá ó té 2 s3 ö3é 3 2 t és t r és3 t s ó s3 3 tó é t r t rá s á ó ú 3ért 3ás 2 é s3 r é á t 3 t t 2 r 2 é s3tá 2 3ás 2 tá ós t t é 3 r s3 r rés3 é t érté 33 s3 2 r 2 s3ó á 2 3ás ö3 t é3 érté ésé r é 2ét t t 3 r é 2 3t t t á 2 r ó 3 tt 3 tt r s3 ó és3ít tt t sít é 2t 2ú t é3 érté ésü át é 3 s3ó s ósá t s3t t 2 rs s3ö és3ít tt 3 tés és s ó ó t tás s3 é á rá3 ás t t t r és3 t s 2 3ó r s3 r 3 tó é t r t rá s s3ó á 2 3ás té 2 s3ór r 3 tá ós r 3 s 3 2 t 3 érté ésér s3á s ó s3 rt s t érté ésé 3ó t á 2 2 rés3 ü s érté és tt á ást á 2 3ás á t s3 3 r t t r t 2 s3tá 2 3ás 2 tá ós t 3 s3 á á 2 é t és 3t ér 2 á s3tás 2 2ás r s3 r tt t 2ú t tt t sít é 2ét 3 ó s3 r ö3 t ü ér á 2 3ás sé ét s tását 3 3 3t s3 á ó r s3 r t sít é 2ér 3 tó 3 t s érté ü t ét á 2 3ás érté ésé 3ó t á 2 2 rés3 ú 2 é 3 érté ést 2 3t ér 2 2 rr á ót t t 3 tt á t 2 tt t s3t 2 s3 r s3ó ár 3 r t s3ó s ósá érté 33 2 r 3 tt r s3 r t rá é 3 tt ísér t rés3t r s ó íté té 3 t 3 t és társ t ttá 3 r t é á t á ít tt ü ö ö3 t rt á 2 s ts3á ó ü ö ö3 r s r tét ü ó öss3 s ít tó és 3 í 2 tt ts3á r á ásá tt r é 2 é r 3 t t
78 68 XIV. Magyar Számítógépes Nyelvészeti Konferencia Pr é át t é á 2 s s3ó ár 2 rés3 3ár t 3ó r s r ás á r 3ésr érté és á s3 á ó r s r rr á ó té 2 í3 tó s3 á tó tr ss 3 2 s3 ö3ött s ósá r s3 r t t á t érté ér s s3ü sé 2 s ö3ü 2 ás 3 érté és 3 s3 á t s3ó ár stá s t 3t s r é é t t sú 2 3 tt érté r r 3 tá á s3ó s t 3ért 3t s á 2 s3ó á 2 3ás érté ésér 2 í ós3ó stát s3 á 2 2 r sá s3ó és tés s3tr tsá s3 t á ó s 2 sú 2 3 tt tö t á 2 s s r s3ó á 2 3ás r t ás á t á s3 2 2s3 r r ó á ú 2 r ó 3ásár trá r á t s3ó s ósá érté s3 t á ó érté t s3ó 2 t é 2 s s é á 2 2 r á r 3ésr s3 2 r át s s3ó s t s3 2 ötött s3ór s té t é t s3 2 s3 á t 2s3 r rá s á ó3 t s3ó tést ó r ó t rtér t 33 étr érté ést á t á ú 2 é tt r s3 ó ü ö ö3 r t ss t ü ö ö3 r ét r á ítás és3ít tt t s ít öss3 és 3 r t s á s3tás t r ét r á ítás tását ér r ó 1 2 s té 3 t s ér és 3 s 2 2 r é s 3 t á 2 s t s r é á t 3 rt és é á t 3á t t tö sít tt r s3 ó és3ít tt s3ó á 2 3ás t r ó s3 t ó ü ö ö3 érté 1 2 r tö ö3ött 2 rr s és rr 3 r é 2r t tt 2 s3ó s ósá t 3 á t 3s á t ö3ü t 3á t r s3 ó é ít tt t sít érté ésü t r tr 3tá 3t 3s á tá 2 á t 3 tt s3ó 3 rá t s ósá stá á 2 3í ó s3 r 3 s 2 s3ó 2 3 tt s3ó r t r r 3 tá ó á ó ét é és ér t 2 r t s3 r r á ó té 3 3í ó r r á át át r s3 á tá t érté tr é t s 2 r r t s 2 és 2 ít t 1 és tt 3á s rr 2 í3 tó r r 2 é t s3 á s3ó s ósá érté ésé 3 é s2 s t é t é s s r t ü és é 2 r s3 2 2 r ö3 és 2 ó 2 ás r é 2 3 r t str túrá át ö t 3ért s ó t 2 s3 s ó t 3 2á t á s ó 2 r 1 rt és társ t t tö ö3ött 3 tt r é á tt t ó s 2 ts3á t 2 rr t ás 2 r rés3 írt ísér t s tr 2 r r t t s ttü t s3t t r rrás ö3é 3 tt t t tt t tás é 3 t 2 ér ü 2 r s3 3ás 2 táss étr ö sé ér r
79 Szeged, január s3t t rtér étr 3ásár 3 tt r t st és r ét r t rö 3ít ttü 3 tá rés3 t s ö3 t é3 érté ést é 3tü ü ö ö3 ó tá t 2 r 2 r s3 ó és3ü t s3ó á 2 3ás 2 r s3ó á 2 3ás é 2 t é ít ttü r s3 ö3 ét s3 á r s3 2 s t ár s3 s r 2 tött r s3 t r ét r 2 s t ö t 3 t s3 s t 1t s 3 ó á s r s3 2 r sá s ü t 3á t 2é é t 2 rs r s3 ó és3ü t s3í s3ó s3 r 3 á s s3 2 2 r s3 s té tés tt ó r r ó s ósá t s 2 r 3 s3 s3 t t s ését s 2ás á r ó ó ó r ss3 és r ss3 s3ó ár s ósá ó 2 t és 2 t é t ó t r ss3 r ss3 s ósá 3 tá á3 t s ét s3 s3í s3ó 2 rs r s3 ó é ít tt ö3 s3 s3é t t t 2 r ér s3ó 3 tö 2 r tö s s3á ú é süt é 2 s ít 3 3 ér3é 2 3 t á 2 r é ár 2ér s3ó ü ö ö3 r 3 tt s3 r r s3 2ér tésr r 3 tá ó 3 ö3ött s3 2 r é s rr 2 r t s3ó tését í3 tó ó r 3 tá á3 t ás s3 á s3 r t s3ó 3 é tár 2 s t t s s3 t r 33á 2 r s r t s r 2ér t s ús 3s é á á á s tés r é 2 t r 3s r 3s á sá 2s3 3s é ár tá tó á s r é süt é 2 st á t s t t s á 2 s s3 ás tés3tá t s r tr 2 á s tár 2 ör ô ú3 2ér ó r tá á3 t 2 2 r és 2 r t s3ó ö3 s3 s3é és 3 3áró s s3á r s3 r ás s3á át t t á r s3 r ó tá t á t 3 tá ó és3ít ttü 2 t 3á t t s 2 r s3 t t és s3 t t s ósá
80 70 XIV. Magyar Számítógépes Nyelvészeti Konferencia r ás 2 tt á s3 t ó á r ásár 2 33ü sú 2t t 2 2 ítsü t ít tt r t s3 s t s t á 2 r é át á t s t rt 3ó tá ót 2 r r ó 3 t s3 á ó P r P s t rr és3ít ttü 3 tá ó ó s á t 2t és 3 s r 3 tá t ít tt s3ó á 2 3ás t írt ó étr 3t 2 ás 3 tt r s3 ó t s s á s3 r r t t t ét t r r 3 tá át s3ó r s3 t t í é ü ö t é t ö t 3 á é 3 r t s t í 2 3 tt á t 3 tát t t s3 r t P s P r r 3 tá ó í é t 33á t rt 3ó s3ó tt t rt tt tét í é á t r 3 tt r s3 t t r á ó t á r s s3 r t áts3 tt t rr r 3 tá ó tár 3ásá 2 r 3 t á 2t ó 3 3 r r 3 tá ó rt s3ó ü ö ö 3 r 3 tt t 2 t é s 3 tá á3 t ás ét s3 3 á t rá t ö3 s3 s3é t t t át tó 2 3 é t r r t 1 tését rt í t 3á ás 2 ít 3 t á 2 r é át ör 2 3 t é r s3 t t tá ó r3 r t r á ó tú 2 ó rés3ét ö tá á3 t és s3 át s3ó 3 3 ö3 s3 á s é s t té 2 á 3ásár r s3 ó 2 2 st s3 é 2 sé r s3ó 3 2 ró ó sításá 2 é t 3 tt t 3t étr P s3ó í ét á 2t és s r s3 t t í tö rés3ét á s3t tt ü ö t é t 3 á é 3 r t s t í 2 3 tt á t 3 tát t t s3 r t P s P 3 s3ó é t ü ö r r 3 tá ót 3 étr ü ö ö3 s3ó ú s3 3 ár 2ú s r r ír st 33 rés3 3 3t r é át 2 s3ó á 2 3ás t étr 3ó r t s tö sé t ért s ó t 3 í s3é sé é s r á t étr 3 tt t rt r 2 2 ért s s3 r ss3 2 r t tö tést 2 t t rr r 3 tá ó ó tö tés r s rü t 3 2 érté ú 3 2 á 2 tés 3 tt 1 és 2 3 r s3 ét 2 r 2 sú 2 3 tt
81 Szeged, január ísér t tét r 2 r rrás ét s3é 3t s3ó ár t tés s ó sá érté s3 t á ó és 2 t s3ó á 2 3ás érté ésé 3 ö3 t ü t s3 á 3ért ás ó s3 rt tt s ü t t 3t étr 2 r s3tü öss3 s ító érté és t 2 töttü ü ö ö3 2 rt és s3 á ó s3á ár t t tt é á á érté és rés3t t rr értü 2 r s r á t 3 á 2 2 tt í ós3ó 3 2 rt s ó ó s3 stá 2 r r á s 3 P és tt 2 ó sít tt á t 3 tát á 2 s3 33á ér t 2 rs 2 r 2 s3ö t ít tt s r t és 2 2 r r t ó t s ttü érté és 2 rs r s3 ó é ít tt s3 t é t t s t rt 33á 3 ér 3és r tt á s3 s ér é 2 3 s3ó stá t át 2 s3ó 3 ö3 s3 2 rés3 2 á ü ö ö3 öss3 s ít tó tt r s3 ó étr 3 tt s á t t rt 3ó 2 rt s3ó stá 2 rs té tó 3t tö sítést 3 tt í ós3ó 3 3 n ö3 s3ót ú 2 t 2 3 s ét á á ás tá n ss3ú stát s3 r3 s ó tr s3 r á ót 3t 2 rs és t 3á t öss3 s ításá 3 3 á t étr 3 tt t 2 ár s3 s 2 r r s3 ó é ít ttü r r é t s3 á t s3 tö t t 2 ó 2 ár s3 s 2 rs r s3 ó és3ü t í t ítás s rá r t túrát 3t 2 r s3 ó é ü t étr 3ás s r r t túrá törté t és 3 ós t r t t rt 3 s3 té 3 tó tö sít tt r é 2ét ttü érté és 2 r r t t t é33 r3ött s3 t t á3 st ttü érté és á t s3ts3ó 3 2 rtü 3 t s3 t 2 r t r á ó té ár é és ü tá sá t 3 tt s3ótó 3t stát tá sá á r 3tü s r ú 2 2 3s á t s3ó s3 á t tá sá r é s3 t t ttü ér 3és és társ 2 2 s3ó ó á ó s3ó stát á ít tt öss3 2 s3ó á 2 3ás érté ésé 3 ér 3és ás é t s3 á t s3 t r s3 s3ó 2 r sá tés s3tr tsá t s3ó s3 t á ó 2 sú 2 3 tt rá 2 t rt 33 3t 3 r rrás ér t tt s r 7s ts
82 72 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3ó stát 2 rr r ít tt ú 2 2 s3ó s3ó ú és 2 tés t ór á t rt 3ó ét á s3t tt r 3tü 2 2 r 2 r s3 s ó 2 r sá s3 r r ítás 2 t rt á 2 s tt r 2 ás s ó tés s rt t rt 3ó 2 2 s3ó ú 2 r sá ú s3ót á s3t t t r s3 ó 3á t 2 3 r t s3ó stá 3 s ó 2 sú 2 3 tt 2 r 2 stát t 3t stát és3ít ttü é t á 2 s3ó ü ö ö3 tés ü ö ö3 s3ó ú ár r r s r ás t 2 r 2 2 tát r t értü rr 2 étr 3 tt s ü t t s3 á r s r á t á t rá t á s3 t P érté és rés3t s3 á ó ör 3 r öss3 á ít tt stá ó 2 í ós3ót és 3 2 s 2 s ó ó s3ót t tt t r és3 t s r t t s3 á ó és ítés s rr s é t s3 r á t 3 tt 3 2 ít tt s3ó stá 3 2 s s3 r t 3s á t s3ó k ö3 s3 s3é át t rt 3ó stá t 2 ás tá ét t rt 3ó rés3 t 2 tá sá s3 r t r 3 tt st s ét 2 ét 3 2 rét ér és s té 2 ó t rt á 2 ó 3 ó 2 s t t ttü ét t r t étr 3 tt s ó ó s3 s3á 3s á t s3ó ó s t á s t 3ért 3 2 ér és é r tö 3í ótó s3á ít ít ttü s ó ó s3 t t 2t r s r ás t ó 2 r r t és 2é é t s é s 2 t ísér t s rá 3s á t t s3ts3ó ö3ü s á s3 r t 2 í ós3ó s té 2 tt á s3t r ür s stát ít ttü s3 á ó s3á ár 3 tát r ít tt stá t r s r tt 3 á 2 2 r ér 3té í ós3ó és 3 2 s stá ö3ött s ó ást r s r ás r és ö3ött ts3á t tt é s á st sé 3 ür s stá 3 t t s t t r tü és tü 3 2 ts3á t s s ósá érté é tár 3ás s3 tí t 3ért 2 tát r t tt 2 ér és r s rt á ít 3 s r t tt 2 r t s3 s té í ós3ó tését s s rt r á s3 ás é ü t á é t tt ö t 3 ér ésr á s3 öss3 sítés r 3 2 s stá 3 r t ts3á érté ét 2 í ü 2t s á r s rt ttü 2 érté és 3 s3 á t ü t és 3 tát r s3á ár tt str ó 3 á rá át tó á s3 érté ésé 3 2 rés rá 2 tr át s3 á t 3 3t tt 3 s t r rés3é tt s ts3á t 2 ás é 3 t át ár é t öss3 s í tását t 2 s t s3t ér és á s3 á ó á t tt r
83 Szeged, január á r érté és 3 s3 á t ü t s r s3 r t t t ér é s ts3á 3 rá öss3 s öss3 s ítás ó á 2s3 r rü t 2 3t s é t 3 tt 3t ó s3 rt 33á é r ító r s3 r r ér té és s rá s t í3 tó ó s3 r rr 2 2 ástó és3 ü ö ö3 r s3 r sé öss3 ér t 2 3 öss3 sít érté ést r ét r s3 r t ü ö ü ö s é 3tü í 2 sé ét í ós3 2 r sá s3ó s3 t t ór á és á s3 stá 3 3í ó 2 s3 r t s 3s á t t ár ért tát r 2 r 2 2 s3 á ó t ó á s3 ás 3 és tt 2 t s3t á3 s tt át s ü stá ü á s3t tt 2 s3ót r á s3 2ért r s r tó í 2 2 st r t t t á s3t ár tt 3 r 3t 3 s3ót s3 á ó 3 s ér és ö3ött ít ttü 2 tát r 3 ér és á r t t 2 s s rr t á ít r 3 r é 2 t ttü 2 érté és é ísér t s rá é ü tát rtó t s3 á tó á s3 t á ü ö ö3 ér ésr t á s3t 2 s t s3ts3ór á r s r ás ér 3 tt 3 3í ótó s3á ít tt stá á r é 2 érté és r é 2 3 á rá át tó 3 2 2ért té 2 3 á rá ó áts3 2 r r é t s3 á t 3 ós t r ó á ó s r t sít tt r ss3 s3 t 2 érté és s3 t s té p 3 ó ét s é r és 2
84 74 XIV. Magyar Számítógépes Nyelvészeti Konferencia r t s3 r 2 r sá s3 ít tt r é 2 s 2 2 r ss3 r é 2t r á t 3 s 2 és tt t s3ó átí tö ért sé s t ás á r 3ését és 3 2 r s3 3 tt á s3 stá s s 2 s3ót t rt 3 t é s ó í ós3ó 3 2 r s3ó s té ú3 s3t sütés 3 r ó s3 r t á s3 3 s s3 r t s ért t r é 2 s3 r t stá öss3 sít tt t sít é 2 3 á r rq s3 á át tó 2 á t és3ít tt t sít tt t 2 r r t 3 r sít tt 3t t ésü t 2 ár 3 s3 r é s3 r r t 3 s3 2ít tt érté és 2 r r t 3 s rr 2 á 2 3ás érté ésé á s3 á és 3 é ó 2 á rá át tó 3 3 tt és t 3á t r s3 ó é í t tt s3ó á 2 3ás t sít tt r t s3 s té í 2 r s3 s té és é ér é 2 sü t 3 3ás tás stá ü 3 3í ót t r ét rt 2 á r 3 át tó 2 3 t sít é 2 t á r s ó ó s3 stá á átré s3 r t 3s á 2 t t á á 2 3 és P sé 3í ó á t sé í t 3á t ó 3 3 t á 2 r é á át ás r t s3 r t t tt t sít é 2 ö ést t 3á t 3 é st s3 t s ósá 2 r t s3 t ó ó s ósá s3 t t tt á s3 stá 2 r á t 3 t s s3ó ú t t rt s3 r3 r t s3 t t r á ó t s 3 3ás s rá t rt tt r s3 t t t sá t ó ó í é t s3 ör 2 3 té 3ért étr ött s3ó á 2 3ás t r t ítás s rá 3 3 r á ó s ér é 2 sü t tt P 3 ü s3ó á ü ö ö3t t t s3ó ö3ött s ü ö sé t t t 3 t át 2 ó sé ö3t s ást 3t sít 2 rs r s3 ó t ít tt s3ó ú r s3 t t s3 2 2 ó r t á s3 s té 3 t á 2 r t sé ét és s3ót ú ö3ött s3 t 3áró s3 t s3 t ér é 2 sü t s á t étr 3 tt t ítás 3 s r ét r törté t 3 é s 2 3t t s3 3 és P s té ör 2 3 t t 2 ó á 2 s3ó s3 r s3 s3ót ét t é t r r 3 tá t r s3 r ör 2 3 t ér sé r ss3 t 2 ör 2 3 t t 2 és é 3t t és3ít ttü 2ért 2 t s 2 té 2 3 áts3 tt s3 r t é t sít é 2t 2ú t tö é ós3í tt s r r t túrát s3 á tá és3ítés r
85 Szeged, január
86 76 XIV. Magyar Számítógépes Nyelvészeti Konferencia r t P 3 s ó s3 r s3ó r á ó t át 3 3 s ú ü ö ö3 s3ó ú s3 ó ü ö ö3t t t r t s 2 és tt 3 P t sít tt r s t á á 2 3 t 3 2 t 2 s3 t 2 s3 r t és t sít é 2 2 é t t 2 rs r s3 ó t ít tt é és ú3 ó ü 2 2 r 2 s3ó á 2 3ás érté ésér rá 2 ó ísér t r é 2 t t öss3 érté és t s ít tt öss3 2 ö3ü é 2 étr 3ását s rés3 t s t tt ü ö ö3 3ás é és 2ütt t á ét ö3ü ás á t ás 2 és ás r t túrá t ít tt á t s ér té és s3 á t s3ó á 2 3ás ás 2 r r t ó t érté ését 2 s ü t r s3tü á tát r á t tt r s r á é 3tü 3 r é 2 á á t á ssá tó 2 r ó tá ót t rt 3ó r s3 ó t ít tt t sít tt t 2 rs r s3 ó t ít tt 2 ít 3 t á ó ó tr t sá á t 3 tt r é á t t t tt és P 3 2s3 r t 3á t é s t sít é 2t 2ú t tt ér 2 t ítás s rá s t 1t st tt 2 s3ó t r étr 3ás r rt 3 t ítás r r s3 t t r á ó t 3 tt 1 ör 2 3 té í 2 r t s ósá r ásár s s3tá t 3á t é ös3ö t 2 á ítás t tás 3 és P s3á ú r t r té 3 t t tás s3tés és á ós ó 3t sít tt tá táss 3 és P á 2á3 t r r s3ír 3ásá ós t t 3ás rr t st t r r r s t t s t r s s st r r t s t s s r r r s t t s s r t rt r t r t ss t t t st s Pr s st P tr P 3 t t t r r r s3 s t t r t s2st t r s t 1t t s t 1t r t s t t rs Pr s t t t ss t r t t st s P rs t r r2 ss t r t t st s
87 Szeged, január ts r rr str t r r s t t s r s r s s t r s t t2 s r r t Pr ss 2st s t r r r t Pr ss 2st s Pr s t r t t t s t s t t s r s r s r s àrq 3 s r P rt s P ss t r t t st s rt ü r üt3 s r r 2 r s Pr s t r r t s t r Pr ss st á t3 t t 3 r s 2 s r Prós3é 2 ár t s r s ts t r r t r t Pr s rt r t r á 2 ó r 2 r 3á ító é s 2 és3 t r 3 á r r str t s t t r s t t t t r s t t 3 r r r tss r r r P r s s Pr s t t t r t r s r s t 2 r s r s ss t t 2 t r r s3 2 á P r P s 2 r t r r s t Pr s t t r t r t s t r Pr ss P ss r r t r ós s s r 1 t r 3 t r 2 r s t t st s t t 1t Pr ss t t r t r 2 r 2 r r t r t P s 3á tó 3 r s 2 r 2 s3ó és r t rs3 t s3ó á 2 3ás á s r 3 s 2 r 3á ító é s 2 és3 t r 3 3 á 2 2 t r t s3é s rt r r P r s t r t t t Pr s t 1t r s t t st r s t tr s r P ss t r t t st s
88 Szeged, január The World is Built with our Words to Each Other Basic and Fine-Tuned Intensional Profiles in Hungarian Anna Szeteli, Gábor Alberti, Judit Kleiber, Mónika Dóla University of Pécs, Research Team ÂeALIS for Theoretical, Computational and Cognitive Linguistics {alberti.gabor, kleiber.judit, Abstract: Our paper provides some theoretical background to a program which operates on a continuously changing world-model with possible speakers and listeners speaking about the world and each other. The agents information states are also continuously changing depending on changes of the model of the outer world, including their messages sent to each other, and each other s information states. As a groundwork, we identify the pragmasemantic components of some basic sentence types and discourse markers compositionally. Then we present how speakers with their psychological egos can be separated from linguistically conventionalized addresser roles and how many pragmasemantic phenomena can be captured through pattern matching between addressers conventional profiles and the corresponding speakers information states, including a few elements of politeness. In short, the program is ultimately designed to simulate human intelligence through modeling human communication and language-based cognition in order to improve our theoretical background on the basis of the functioning of the program. And vice versa, we intend to improve the machine by building in its information treatment mechanisms as much language-based human intelligence as possible. Keywords: formal pragmasemantics, discourse representation, discourse markers, pattern matching, politeness 1 Introduction This paper investigates the five basic sentence types and their possible fine-tuning by discourse markers in Hungarian, also taking into consideration the effect of the utterances on the world-model and on the interlocutors. In any given situation, an utterance can only be performed by a speaker who is in an appropriate information state to perform it, and, most of the time, a suitable listener is also required. There is a program in preparation based on ÂeALIS which aims to present how the success of the conversation is influenced by conventional meaning and the information state of the speaker and of the listener (see Section 5). First, we describe the roots of the Austinian model [1] felicity conditions and their relevance to the formal evaluation of utterances, then we introduce the theoretical framework ÂeALIS Reciprocal And Lifelong Interpretation System [2]. The framework is based on Kamp s Discourse Representation
89 79 XIV. Magyar Számítógépes Nyelvészeti Konferencia Theory [3]. It provides an expansion of the Kampian discourse representation to mind representation and is capable of a compositional handling of the linguistically relevant data. Our primary goal is to define the pragmasemantic content, or intensional profile, of different sentence types and discourse markers, and since intensional profiles can disambiguate between similar meanings or functions of the same utterances we also aim to establish the relationship between the various linguistic elements under analysis. We claim that this task requires a formal dynamic discourse and mind-representation. The software itself can be regarded as an improved version of Anton Benz s [4] multi-agent system [5]. Benz argues that the general apparatus for multi-agent system provides us with a natural representation of the information of dialogue participants on events in the outer world, but each participant should be assumed not only to update his own DRS if he gets some new information, but also to update a DRS representing the knowledge of different groups which commonly got this information. According to the even more sophisticated approach that ÂeALIS offers, each dialogue participant should potentially have asymmetrical information on others knowledge, hypotheses, desires, intentions, and not only on the outer world but also on others continuously changing information states, recursively. This way ÂeALIS captures what cognitive scientists call mentalization [6]. As our software application inherently belongs to a radically new and holistic pragmalinguistics theory, it is uneasy to compare its background to software applications based on some different theoretical foundation. An exception is the SDRT-based [7] experimental software dialogue system, RUDI [8], primarily due to its distinguished attention to the relationship between pragmatic phenomena and the external-world model. RUDI ( Resolving Underspecification with Discourse Information ) automatically computes some aspects of the content of scheduling dialogues, particularly the intended denotation of the temporal expressions, the speech acts performed and the underlying goals. Following SDRT, it is assumed that a dialogue is coherent just in case every proposition (and question and request) is rhetorically connected to another proposition (or question or request) in the dialogue (NB: virtually anomalous conversations can be regarded as conversations with parts linked by very special rhetorical relations partially based on implicit knowledge in the background). The rhetorical relations are viewed as speech act types in the RUDI project that is the point where our ÂeALISbased project can be regarded as an extension of RUDI, given that in the ÂeALIS theory further relations among pieces of information stored in minds, addressers, addressees, contexts and the external world are (intended to be) taken into account in a completely uniform system. ÂeALIS essentially follows SDRT, which represents discourse content as a segmented discourse representation structure, which is a recursive structure of labelled DRSs, with rhetorical relations between the labels. In contrast to traditional dynamic semantics, SDRT attempts to represent the pragmatically preferred interpretation of a discourse just like ÂeALIS. The rule schema used in RUDI contrasts with the planrecognition approach to computing speech acts [9], which uses only the goals of the antecedent utterance, rather than its compositional and lexical semantics directly, to constrain the recognition of the current speech act.
90 Szeged, január Pattern-Matching in Extensional and Intensional Evaluation Already Austin [1] pointed out that no sequence of utterances can be either true or false, they can only be regarded as felicitous or infelicitious according to given sets of conditions. Following Oishi [10], we make a distinction between the information that is linguistically encoded in the utterance and which elaborates a complex relation between the addresser s (AR) and the addressee s (ae) conventional beliefs (B), desires (D) and intentions (I) from what the speaker of the utterance actually believes, desires and intends to do in the real world. Every single time when the flesh-and-blood speaker (sp) with his/her information state makes an utterance, he/she takes on the role of the addresser and hands over the role of the addressee to the listener (li). Thus, our framework makes a clear distinction between the addresser and the speaker of the actual discourse. Similarly, the addressee is distinguished from the listener, and so is the linguistically defined appropriate context from the factual situation in which the interlocutors are talking to each other. In the theoretical framework ÂeALIS [11] the speaker s information state and the representation of the discourse are defined in the speaker s mind, which is contained in the world-model. Thus, separating the addresser role from the speaker s information sate is not a simple technical separation of variables from values but this is the way how the framework can treat numerous complex pragmasemantic phenomena such as lying or withholding information [12]. The implementation of the compositional meanings and the pattern-matching mechanism should be able to present, in a simulated world-model which contains possible speakers and listeners, that the discourse representation of ÂeALIS can capture new properties of a basic discourse. 3 Multiple Worldlets of the Interpreter Let us present the pragmasemantic point of view above in a more formalized way according to ÂeALIS [11][13]. The eventuality (e) or the propositional content of an utterance is encapsulated in an intensional profile, which consists of worldlets. Wordlets are labeled DRS-like structures, and all of them can be captured by the prism-effect formula: P([P (M I R T P)]*) The five labels indicate the modality (M), the intensity (I), the referent (R) that is the host of the worldlet, the time parameter (T), and the polarity value (P={+,,0}). The modality, that is, the attitude to the given content, can be a belief (B), a desire (D), an intention (I), authority (A), experience (E) or a mixture of these as the inner power set symbol P shows. Intensity can be maximal (M) or non-maximal (nm). Non-maximal intensity can be, for example, almost maximal (am), great (gr) or some (sm). The number of the linguistically encoded intensity degrees can differ in various languages, and we often formulate the values with a number between 0 and 1, as customary in probability theory.
91 81 XIV. Magyar Számítógépes Nyelvészeti Konferencia The referent who has the worldlet is mostly the addresser (AR) or the addressee (ae) or both. The set R contains this/these referent(s). Set T contains the moments at which the worldlet is in the interpreter s mind. The P={+,,0} component of the formula (true (+), false ( ), not specified (0)) yields eight possible polarity values, as a result of the above mentioned power set symbol. The Kleene-star indicates the possibility of recursion, because, for example, the interlocutor can desire to acquire a piece of information about the content which is a belief on someone s intention to persuade another person to do something... Finally, the first power set symbol indicates that the interlocutor may have beliefs, desires, intentions etc. about the content at the same time. 4 Amplified Felicity Conditions Encoded in Intensional Profiles In this part we introduce the ideal intensional profiles and show a few points in the speaker s and in the listener s information state where the failure of pattern-matching points out that the success of the conversation is impossible; which means that it cannot change the world-model in the intended way. Let us first consider two basic intensional profiles and a fine-tuned one presented in Table 1. First of all, however, it should be noted that it would go far beyond the scope of this paper to attempt to argue for the pragmatic perfection of the profile elements presented. It is in the ÂeALIS-papers referred to in this paper that the establishment of the profiles is a systematically completed task, at least according to the introspective tradition. Here the reader is expected to accept on the basis of the symbols explained in Section 3 that (i) both the basic sentence types and those fine-tuned by certain discourse markers are conventionally associated with definite information on definite interlocutors definite beliefs, desires and intentions on definite things that the given sentence decides, (ii) it is possible to formally capture these linguistically conventionalized pieces on information practically on the ideal circumstances (of the outer world and, primarily, the speaker s information/mental state), and (iii) as the worldlet labels responsible for capturing this knowledge are nothing else but sequences of quintuples of the symbol types demonstrated in Section 3, it is realistic to write a computer program in which agents mental/information states are represented as mappings (which are changing from state to state) between a few eventualities in the outer world and sets of worldlet labels. The exclamative sentence is analyzed as the one which ab ovo does not depend on the addressee, as presented in the first column of Table 1. It shows the relation between the addresser s belief and desire states, which are required to appear with different polarity values and there must be a strong desire concerning to the eventuality. The actual belief should be positive (negation is regarded as a discourse marker fine-tuning the hosting basic types). The addresser knows that the eventuality has happened, but in a former moment (s)he did not know about its content, or thought that it had not happened yet. On the other hand, it is enough to perform the exclamative sentence if (s)he is very (un)happy because of the fulfillment of the propositional content. In short, coming to know something upsets the addresser.
92 Szeged, január The ideal purpose of the speaker with taking on the addresser s role of the basic declarative sentence type is stating facts. This follows from the Cooperative Principle of Paul Grice [14] because the Maxim of Quality specifies that the addresser should have enough evidence and should not make a statement if (s)he thinks that it is false. There are two axioms which show the characteristics of the ideal addressee. The addresser should be relevant, so (s)he can state a fact if (s)he thinks that the addressee does not know about it, and, as the third axiom says, one of them should have a relevant desire. The first possibility is that the addressee is assumed to intend to learn the fact, but in the current version of ÂeALIS [13][15], this formula has been generalized in order to capture the case when the addresser is interested in forcing the given piece of knowledge on his partner. (S)he wants her to learn the given fact. In both cases the intention of the addresser is to tell the fact. Moreover, there is an authority axiom encoded in the declarative utterance: the addressee thinks that (s)he can make a statement about fact e, because it is not a secret or there are no moral barriers. As we demonstrated, there are some conditions which depend on the addressee. Hence, the first pattern-matching is between the addresser s factual thoughts on the listener and the role (s)he attributes to her. If we want to know more about the success of the conversation, there should be a second pattern-matching between the applied intensional profile of the addressee and the factual information state of the listener. The other declarative intensional profile contains a discourse marker szerintem which fine-tunes the basic sentence-type. The background of the alteration is that the addressee does not have direct evidence about fact e. There are sentences for example Szerintem Péter otthon van. In my opinion, Peter is at home. in which the predicate is evaluable in the world-model, but in other sentences for example, Mari gyönyörű. Mary is beautiful. the basis of the inference is very complex and depends on the speaker s mind; it is rather a judgment [15]. The Maxim of Quality dictates that the lack of evidence should be indicated in the profile, so the intensity of the belief is ι and the tripartite components in the second column show that the addresser does not supply the ultimate knowledge but presents that it is her/his ι-strong belief. With the communicative success of the addresser, the addressee will have a belief that according to the addresser/the addresser states that: the fact is true, and not a belief that the fact is true. We should note at this point that the listener can hold the result-belief of a basic declarative sentence also in these two ways. Let us continue the review of profiles given in Table 1 by considering the interrogative sentence type and its two related profiles. In contrast to the declarative sentence, a speaker can take the addresser s role of the interrogative one when (s)he does not have the maximal belief about the fact. As the second axiom shows, (s)he should have a belief that the addressee does not believe about her/him that the content is well known for her/him. It is a higher level of mentalization, but the encoding was very motivated, because if the addresser thinks that according to the addressee (s)he should know about the content, (s)he should explain why (s)he does not know about it. Then (s)he knows that (s)he wants to learn the fact, or (s)he thinks that the addressee wants to tell her/him it. (S)he supposes that the addressee can tell the answer and the required axiom for this is that (s)he believes that the addressee knows the answer. The stricter, sufficient axiom is that the addressee has the maximal authority to tell the truth. The intention of the addresser is to arouse the intention of the addressee to tell her/him the right polarity value (i.e. truth value) of the propositional content. If a speaker asks a listener in the
93 83 XIV. Magyar Számítógépes Nyelvészeti Konferencia world-model who does not know the fact, it is a failure of the pattern-matching between the listener s mind and the addressee-profile. In this particular case, the speaker cannot improve her/his knowledge about the eventuality. The discourse marker ugye improves the profile without any conflict with the basic intensional profile [13], which is the ideal realization of pragmasemantic compositionality. There is a worldlet, underspecified in its modality, which expresses that the addressee has a strong belief and/or desire that the eventuality is true, but her/his belief is not maximal. There is another discourse marker, vajon, which can have an ab ovo addressee-independent profile without the italicized axioms. The addresser is speculating, (s)he does not know the truth about the fact, and (s)he knows that (s)he also will not know it in the next moment (t + ). If (s)he takes an addressee, by eye contact, for instance, (s)he thinks about her that she has not got any knowledge either. It is a failure of the pattern-matching between the speaker s mind and the profile if (s)he asks someone who must know the truth on a high level about the fact with fine-tuned by vajon. In Table 2 there is another Janus-faced sentence type which can be interpreted without the italicized axioms. The optative sentence expresses that the belief of the addresser has a negative polarity value but (s)he has a positive desire and no authority [16]. If an addressee is taken (by eye contact, for instance), the intention will be to present the addresser s desire, and there appears a presupposition that the addressee also knows that the eventuality has not happened. The imperative sentences all have these two presuppositions, which stand in the first and the second row of the table. Sentences which are not imperative compositionally but have these presuppositions due to other elements can begin to be functioning as imperatives. We claim that, in addition to the pattern-matching mechanism sketched above, there is a potential accommodation-process available to the listener, which also influences the perlocution and in this manner the statements in the following ways. (i) The central element of the addresser s profile is the conventionalized intention, and its fulfillment is trivially satisfied if the given process of pattern-matching is successful. (ii) There are pattern-matching problems which can be solved through the accommodation of the missing premises. For example, if the addresser says Open the door, the addressee can draw the conclusion that it is closed. Moreover, (iii) any axiom of the profile sent implicitly to the addressee as part of the whole intensional profile of the message can be interpreted as follows: the addresser intends the addressee to learn that In the case of a declarative sentence, for instance, the addressee can freely construct conclusions such as the addresser intends me to learn that (s)he knows this fact ((s)he is proud of the fact that (s)he is so clever and well informed) or (s)he intends me to learn that (s)he knows that I do not know this ((s)he recalls that (s)he is precisely aware of my unfamiliarity with certain issues). Finally, symmetrical to the former case, (iv) some kind of reduction of the intention is also possible for the addressee. For example, in the sentence Peti szerint Mari otthon van In Peti s opinion, Mari is at home, szerint in someone s opinion should primarily be interpreted as the addresser has said that Peti believes something, but if the listener thinks that (s)he can calmly rely on Peti (and on the addresser), (s)he can directly accept the piece of information that Mari is at home as a
94 Szeged, január fact. This way the addressee has undertaken the risk of accepting a false piece of information but if one wants to exploit information coming from others, (s)he should trust in others. 5 Summary, loose ends, and some remarks on implementation The paper is devoted to provide some theoretical background to a program which operates on a continuously changing world-model with possible speakers and listeners speaking about the world and each other, and in which the agents information states are also continuously changing depending on changes of the model of the outer world, including their messages sent to each other, and each other s information states [18]. In Section 1, we presented the representationalist theoretical framework we use, and argued that its implementation promises to provide a lot of information on discourse mechanisms and linguistically relevant phenomena. We claim that, on the basis of truthevaluation and pragmatically relevant felicity conditions, a program based on ÂeALIS is able to simulate the process of discourse interpretation in a more sophisticated way then earlier systems based on DRT-style theories. The crucial innovation of ÂeALIS is that the traditional pattern-matching based truth-evaluating mechanisms of formal semantics can and should be generalized in a way that each sentence sent as a message should undergo a multiple mechanism of simultaneously extensional and intensional interpretation (Sections 2 and 3). Section 4 is devoted to a detailed demonstration of the generalized method of interpretation of the five basic sentence types and a few sentence types constructed from the basic ones by augmented them with certain discourse markers. Finally, some words on future versions of our program. In the current, first, phase of the project [18], the eventualities considered in the model of the outer world are only such simple states (or at least handled as such) which are just holding true in a given moment of the game, or do not hold. For instance, Peter is married in certain moments while he is not married in other moments. Bea is working, or not working. In certain moments, Peter adores Bea, while in other moments, he does not adore her. Snowing has also two phases: it is snowing in a certain moment, or not. In the ÂeALIS-framework, there exists a much more sophisticated description of the general internal event structure of eventualities [17]: the temporal axis is cut into five intervals. In the first and the last intervals, the eventuality does not hold true. The second one is the interval of preparation. He is about to travel home by a sentence like this one can refer to this interval, when the agent is packing his suitcases, buying tickets, saying good-byes. The third interval is the cumulative phase. An illustration: he is just traveling home. The fourth one is the result state: e.g., he has traveled home, that is, he is at home. One might think at first glance that it is only a question of quantity whether eventualities are considered only with two phases, or they are regarded as having five states in the above sense, of which in two phases the given eventuality does not hold true while in three other intervals it is being carried out, which manifests itself in different, truth-evaluable, forms from time to time. However, that is not the case. Let us consider, for instance, the type of Hungarian imperative sentence fine-tuned by the discourse marker csak only. Thus, Utazz haza! Travel home is considered to be augmented as follows:
95 85 XIV. Magyar Számítógépes Nyelvészeti Konferencia Utazz csak haza! While this fine-tuned variant, which, depending on intonation, can express encouragement or intimidation, is preferably be performed in the preparatory phase of the eventuality (when the agent seems to be about to travel home), the basic imperative type can readily be performed in the earlier, first, interval, when the agent is likely not to think about traveling home. All in all, we claim that the implementation of our formal system can be regarded as taking the first steps towards simultaneously representing the outer world in its double role [19]: as (possible) world-models which our words should be aligned to in the course of a post-montagovian style of dynamic interpretation [3] [7] [9] (words world) and as world-states (including states of human minds) that the acts of/in/by saying our words result in (world words). Acknowledgements The present scientific contribution is dedicated to the 650th anniversary of the foundation of the University of Pécs, Hungary. We are grateful for the financial support of the University of Pécs (EFOP343). We would also like to thank the two anonymous reviewers for their constructive suggestions and comments. References 1. Austin, J. L.: How to Do Things with Words. Clarendon Press, Oxford (1975/1962) 2. Alberti G.: ÂeALIS: Interpretálók a világban, világok az interpretálóban. Akadémiai Kiadó, Budapest (2011) 3. Kamp, H., Genabith, J., Reyle, U.: Discourse Representation Theory. In: Gabbay D., Guenthner F. (eds.) Handbook of Philosophical Logic 15. pp Springer-Verlag, Berlin (2011) 4. Benz, A.: Chains and the Common Ground. In: Poesio M., Traum D. (eds.) GötaLog 2000 Gothenburg Papers in Computational Linguistics 00 5 pp (2000) 5. Fagin, R., Halpern J.Y., Moses Y. and Vardi M.: Reasoning about Knowledge. MIT Press, Cambridge (1995) 6. Premack, D., Woodruff, G.: "Does the chimpanzee have a theory of mind?" Behavioral and Brain Sciences, special issue: Cognition and Consciousness in Nonhuman Species. Cambridge Journals. 1 (4): pp (1978) 7. Asher, N., Lascarides A.: Logics of Conversation. Cambridge Univ. Press, Cambridge (2003) 8. Schlangen, D., Lascarides, A. and Copestake, A.: Resolving Underspecification using Discourse Information. In: Kühnlein, P., Rieser H., Zeevat H. (eds.) Proceedings of the 5th International Workshop on Formal Semantics and Pragmatics of Dialogue. pp Bielefeld (2001) 9. Asher, N., Lascarides A.: Imperatives in dialogue. In: Kühnlein P., Rieser H. and Zeevat H. (eds.) The Semantics and Pragmatics of Dialogue for the New Millenium, New Series 114. pp Benjamins, Amsterdam (2003)
96 Szeged, január Oishi, E.: Discursive functions of evidentials and epistemic modals. In: Cantarini, S. et al. (eds.) Certainty-uncertainty and the attitudinal space in between. Studies in Language Companion Series 165. pp Benjamins, Amsterdam (2014) 11. Alberti, G., Kleiber, J., Kárpáti, E.: Reális (ÂeALIS) kép a másik elméjéről. In: Márton M. et al. (szerk.) Más elmék. pp L'Harmattan Kiadó, Budapest (2017) 12. Alberti, G., Vadász, N., Kleiber, J.: Ideal and Deviant Interlocutors in a Formal Interpretation System. In: Zuczkowski, A. et al. (eds.) Communicating Certainty and Uncertainty in Medical, Supportive and Scientific Contexts. Dialogue Studies 25. pp Benjamins, Amsterdam (2014) 13. Kleiber, J., Alberti, G.: Compositional Analysis of Interrogative Imperatives in Hungarian. Manuscript (Univ. of Pécs, Dept. of Linguistics) based on a talk at the Linguistics Beyond and Within Conference. Lublin, October (2016) 14. Grice, P.: Logic and conversation. In: Cole P., Morgan, J. L. (eds.) Syntax and Semantics 3. pp Academic Press, New York (1975) 15. Szeteli, A.: Szerint(em). A kifejezés funkcióinak vizsgálata formális interpretációs rendszerben. In Böhm G., Czeferner D., Fedeles T. (szerk.) Szemelvények 4. Válogatás a PTE BTK XXXIII. OTDK-n I III. helyezést elért hallgatóinak pályaműveiből. pp PTE BTK TDKT, Pécs (2017) 16. Kas, B.: Az óhajtó mondatok kategóriája. Nyelvtudományi közlemények 102. pp (2005) 17. Farkas, J., Ohnmacht, M. Aspect and Eventuality Structure in a Representational Dynamic Semantics. In Alberti, G., Farkas, J., Kleiber, J. (eds.) Vonzásban és változásban pp Doctoral School of Linguistics at Univ. of Pécs, Hungary (2012) 18. Nőthig, L., Szeteli A.: Nagyfelbontású pragmaszemantikai igazságértékelés egy játékprogramban. Current volume. 19. Searle, J. R.: Expression and meaning Studies in the Theory of Speech Acts. Cambridge Univ. Press, Cambridge (1979)
97 Table 1. Intensional profiles in ÂeALIS (BEL: +/0): l=áb,g,ar,t,+ñ; l =ád,gr*,r*,t,+ñ, where Sgx ³1 (xîr*) and preferred: r*={ar,ae}; l =ái,m,ar,t,+ñ; l =ái,m,ae,t +,+ñ INTENTION AUTHORITY DESIRE BELIEF Exclamative (basic type) áb,g Bt,AR,t,0 ñ áb,g Bt,AR,t,+ñ g Bt=1 (g Bt g Bt ) + g D ád,g D,AR,t,+ ñ Declarative (basic type) Interrogative (basic type) Szerintem-Declarative Ugye-Interrogative Vajon-Interrogative áe,m,ar,t,0ñ áb,m,ar,t +,0ñ áb,ι,ar,t,+ñ M ι s ι = ι' ι'' l^áb,ι''',ae,t,+ ñ l^áb,m,ae,t,0ñ ^áb,ι,ar,t,+ñ l^l ^áb,m,ae,t +,+ ñ ^áb,ι,ar,t,+ñ áa,m,ar,t,+ñ ^áb,m,ae,t +,+ñ ^áb,ι,ar,t,+ñ l ^áb,m,ae,t +,+ñ ^áb,ι,ar,t,+ñ áb,m,ar,t,+ñ áb,m,ar,t,0ñ áb,m,ar,t,0ñ áb,m,ar,t,0ñ l ^áb,m,ae,t,0ñ l^l ^áb,m,ae,t +,+ ñ áa,m,ar,t,+ñ ^áb,m,ae,t +,+ñ l ^áb,m,ae, t +,+ñ l^áb,g",ae,t,+ñ ^áb,m,ar,t,0ñ l^l ^áb,m,ar,t +,+ ñ l^áa,g',ae,t,+ñ ^áb,m,ar,t +,+ ñ stricter axiom of l^áb,m,ae,t,+ ñ l ^l ^áb,m,ar,t +,+ ñ ábd,g u,ar,t,+ñ g u gr l^áb,g",ae,t,+ñ ^áb,m,ar,t,0ñ l^l ^áb,m,ar,t +,+ ñ l^áa,g',ae,t,+ñ ^áb,m,ar,t +,+ ñ stricter axiom of l^áb,m,ae,t,+ ñ l ^l ^áb,m,ar,t +,+ ñ l^áb,g",ae,t,+ñ ^áb,m,ar,t,0ñ l^l ^áb,m,ar,t +,+ ñ r*=ar l^áa,g',ae,t,0ñ ^áb,m,ar,t +,+ ñ consequence of l^áb,m,ae,t,0ñ l ^áb,m,ae, t +,+ñ ^l ^áb,m,ar,t +,+ ñ pref.: r*={ar} 87 XIV. Magyar Számítógépes Nyelvészeti Konferencia
98 Table 2. Intensional profiles in ÂeALIS (BEL: /0): l=áb,g,ar,t,+ñ; l =ád,gr*,r*,t,+ñ, where Sgx ³1 (xîr*) and preferred: r*={ar,ae}; l =ái,m,ar,t,+ñ; l =ái,m,ae,t +,+ñ NOTE INTENTION AUTHORITY DESIRE BELIEF Interrogative (basic type) áb,m,ar,t,0ñ l^áb,g",ae,t,+ñ ^áb,m,ar,t,0ñ l^l ^áb,m,ar,t +,+ ñ l^áa,g',ae,t,+ñ ^áb,m,ar,t +,+ ñ stricter axiom of l^áb,m,ae,t,+ ñ l ^l ^áb,m,ar,t +,+ ñ Conditional (-nál) requestion áb,m,ar,t, ñ; áb,m,ar,t,0ñ^ád,m,ae,τ,+ ñ Imperative (basic type) Nyugodtan-Imperative Optative (basic type) áb,m,ar,t, ñ áb,m,ar,t, ñ áb,m,ar,t, ñ l^áb,m,ae,t, ñ l^áb,m,ae,t, ñ l^áb,m,ae,t, ñ l^áb,m,ae,t, ñ l^áb,g",ae,t,+ñ^ áb,m,ar,^t,0ñ^ád,m,ae,τ,+ ñ ád,m,ar,τ,+ñ; ád,m,ar,τ,+ñ^áb,m,ar,τ +,+ñ ^ád,g ae,ae,τ,+ ñ trivially satisfied: l^áb,m,ae,t,+ ñ ^ád,m,ae,τ,+ ñ; l^áa,g',ae,t,+ñ l ^l ^áb,m,ar,τ +,+ñ ^ád,m,ae,τ,+ ñ; l ^l l ^l ^áb,m,ar,t +,+ñ ^ád,m,ae,τ +,+ ñ l^l l^l ád,m,ar,t,+ñ l^áa,g',ae,t,+ñ; l^áa,m,ar,t,+ñ ^ái,m,ae,t +,+ñ l ^l l^áa,g',ae,t,0ñ l ^áa,m,ar,t +,+ñ áa,m,ar,t,0ñ l ^áb,m,ae,t +,+ñ ^ád,m,ar,t,+ñ Ag=ae Ag=ae Ag=ae Ag=ae Ag¹AR Ag¹AR Ag¹AR Ag¹AR Szeged, január
99 Szeged, január Egy orosz nyelvű korpusz (NarRu) narratívaelemzése saját fejlesztésű szentiment- és emóciószótárakkal Nyíri Zsófi 1, Szabó Martina Katalin 1,2,3, Ilyés Virág 1 1 Precognox Informatikai Kft. 2 Szegedi Tudományegyetem, Szláv Intézet, Orosz Filológiai Tanszék 3 MTA TK Lendület RECENS Kutatócsoport nyirizsofi93@gmail.com {mszabo, vilyes}@precognox.com Kivonat: A tanulmány egy orosz nyelvű szentiment- és emóciólexikon, valamint egy szépirodalmi korpusz létrehozásának tapasztalatairól és felhasználásának első eredményeiről számol be. A korpusz és az elemzési eszközök létrehozásának elsődleges célja az volt, hogy a szövegek emóció- és szentimentelemzésével feltárjuk azok narratívastruktúráit. A tanulmányban bemutatjuk a korpusz felépítését és létrehozásának a legfontosabb szempontjait, valamint a szótárak készítésének eszközeit, módszereit, alapelveit és adatait. Ezt követően ismertetjük a korpuszszövegek emóció- és szentimentelemzési eredményeit. Áttekintést adunk arról a megoldásról, amellyel a kapott elemzési eredmények alapján a szövegek narratívaszerkezeteit feltártuk, és a leggyakoribb narratívatípusokat definiáltuk. Végezetül bemutatjuk azt az interaktív dashboardot, amelynek segítségével a korpuszt a létrehozott eszközökkel a szentimentek, az emóciók, valamint a narratívaszerkezetek szempontjából vizsgálhatóvá tettük. 1 Bevezetés A dolgozatban egy olyan kutatásról számolunk be, amelynek célja különböző orosz nyelvű szépirodalmi szövegek narratívaszerkezetének a feltárása szentiment- és emóciószótárak segítségével. A kutatáshoz a vizsgálati anyagot és az elemzési eszközöket magunk hoztunk létre [1]. A munka egyik fontos célja az volt, hogy olyan szótárakat és korpuszt fejlesszünk, amelyek segítségül szolgálhatnak az orosz nyelvre irányuló emóció-, szentiment-, valamint narratívaelemzési feladatainkhoz. A kutatás alapjául vett tanulmányban Reagan és szerzőtársai [2] szentiment- és emócióelemzéssel vizsgálták angol nyelvű szövegek narratíváit, ami alapján azt feltételeztük, hogy a korpusz szövegeinek szentiment- és emócióelemzési eredményeivel rá tudunk mutatni az egyes szövegek narratívastruktúráira, illetve sikerül erre a szövegsajátságra vonatkozóan típusokat meghatároznunk. Annak céljából, hogy különböző korszakokban keletkezett irodalmi művek struktúráit összevethessük egymással, a vizsgálati korpuszban három alkorpuszt különítettünk el. A kutatás első fázisában elvégzett szótáras elemzéssel megkaptuk a
100 90 XIV. Magyar Számítógépes Nyelvészeti Konferencia korpuszban reprezentált korszakokra jellemző szisztematikus mintázatokat az emócióés a szentimenttartalmak vonatkozásában. Ezt követően, az eredmények alapján feltártuk a szövegek narratívastruktúráit, a különböző szerkezettípusok korpuszbeli kvantitatív adatait, és definiáltuk a fő narratívatípusokat. A dolgozatban ismertetjük a vizsgálati korpusz létrehozásának a menetét, módszereit, alapelveit, a vizsgálati eszközök adatait, valamint szólunk a fejlesztés során felmerülő elméleti és gyakorlati dilemmákról is. Ezt követően ismertetjük az elvégzett elemzési megoldásokat, majd a feldolgozással kapott eredményeket mind a szentiment- és emóciótartalmakra, mind a narratívastruktúrákra vonatkozóan, és bemutatjuk az azokat prezentáló interaktív dashboardot. Végül szólunk a munka további tervezett lépéseiről is. 2 A korpusz és a szótárak létrehozása A munka első szakaszában létrehoztuk a vizsgálathoz szükséges szépirodalmi korpuszt, valamint az orosz nyelvű emóció- és szentimentszótárakat. Az emóciószótárunk nyolc emóciókategóriát foglal magában, míg a szentimentlexikon egy, a negatív és egy, a pozitív értékelő tartalommal rendelkező szentimentkifejezéseket tartalmazó listát. Az emóciókifejezéseket egy orosz nyelvű monográfia mellékletére támaszkodva gyűjtöttük össze [3]. A szentimentszótárak esetében a SentiRus [4] orosz nyelvű, valószínűségi mutatókat tartalmazó lexikon listáját dolgoztuk fel, rendszereztük, valamint egészítettük ki az emóciószótárunk anyagával [1]. A korpusz három alkorpuszra oszlik, a szövegek keletkezési ideje alapján. A korpusz szövegeit automatikus módszerekkel gyűjtöttük le egy szabadon hozzáférhető műveket tartalmazó honlapról A vizsgálati korpusz létrehozása A szövegkorpusz létrehozásának első lépése a források feltérképezése, majd a legmegfelelőbb forrás 2 kiválasztása volt. Választásunk egyik fontos szempontja az volt, hogy az oldal lehetővé tegye a szövegek txt formátumú automatikus gyűjtését. A szövegek kiválasztásánál a korpusz előre meghatározott paramétereit követtük. Fő kiindulási pontnak az 1917-es orosz forradalmat választottuk. Hipotézisünk szerint ugyanis az eseményre a szépirodalomban is reflektáltak, és ezek a hatások a szövegek szintjén is kimutathatóak lesznek. Figyelembe véve a forradalom, valamint az annak hatására született művek közötti időrést, a szövegek határának az közé eső időszakot választottuk. Ezt a későbbiekben további három periódusra osztottuk: az 1. korszakot , a 2. korszakot , a 3. korszakot pedig közé helyeztük. Az 1. periódus a forradalom előtti, a 3. periódus a forradalom utáni
101 Szeged, január időszakot reprezentálja, míg a 2. periódus a forradalom hatására vagy az azt közvetlen megelőző években létrehozott szövegeket foglalja magába. A létrehozott adatbázis minden szöveg esetében tartalmazza annak címét, szerzőjének nevét, valamint a szöveg keletkezésének a dátumát. A munka gyűjtési fázisában fő célunk egy minél nagyobb adatbázis létrehozása volt. A szövegek kiválasztásánál tehát a munka e szakaszában nem követtünk semmilyen kritériumot a keletkezés időpontján kívül. A szövegeket automatikus módszerrel gyűjtöttük, txt formátumban és UTF-8 karakterkódolással, hogy azok előfeldolgozó lépések nélkül feleljenek meg az elemző eszközök bemeneti kritériumainak. A mondatra és a szavakra bontáshoz az NLTK csomag alapeszközeit [5], a POS taggeléshez és a morfológiai elemzéshez pedig egy kimondottan orosz nyelvű szövegekre fejlesztett programot, a Pymorphy2-t használtuk [6]. A feldolgozás eredményeként megkaptuk a szövegek szavainak kisbetűs tokenjét, lemmáját és a POS-taget. Az output fájl tartalmazott néhány szisztematikus hibát (pl. az idézőjelben szereplő vagy a latin szavak felismerésének a hiánya következtében), de azokat manuális korrigáltuk. A létrehozott korpusz adatait az 1. táblázat mutatja be. 1. Periódus ( ) 2. Periódus ( ) 3. Periódus ( ) Összesen Szöveg Szerző Átlagos szövegenkénti szószám Összes szószám táblázat.1. A korpusz adatai. Ahogyan a táblázatban látjuk, az adatbázisban összesen 51 szerző 176 szövege található, melyek közül legtöbb, összesen 22 szerző 82 szövege a 3. periódusban keletkezett, hiszen az öleli fel a leghosszabb időintervallumot. Ugyanakkor érdemes felhívni a figyelmet arra, hogy a 2. periódus átlagos szószáma jóval alacsonyabb, mint az egész korpuszra vonatkozó átlagos érték, míg az 1. és a 3. periódusban ugyanez valamivel magasabb. Ebből arra lehet következtetni, hogy az 1917-es forradalmat közvetlen megelőző és követő időszakban összességében rövidebb művek születtek. 2.2 Az emóció- és a szentimentszótár létrehozása Az emóciószótárak létrehozásában egy orosz nyelvű monográfia mellékletére támaszkodtunk [3]. A melléklet összesen 8500 lexémát tartalmaz, amelyek a szerző alapján az orosz nyelvben az emóciók kifejezésére képes elemek. A monográfia [3] 37 emotív jelentést, azon belül számos további alkategóriát, valamint sajátos szemantikai tartalmi típusokat különít el, és ebben a komplex rendszerben dolgozza fel a lexikai anyagot. A kiinduló emotív jelentéseken belül
102 92 XIV. Magyar Számítógépes Nyelvészeti Konferencia felsorolt lexikai elemeket 7 további kategóriába sorolja (érzelmi állapot, érzelmi állapot kialakulása, érzelmi hatás, érzelmi viszonyulás, érzelem külső kifejeződése, érzelmi jellemzés és érzelmi kvalitás). A jelentések típusait a következő alkategóriák szerint különíti el: fő,- alapjelentés, nominatív és metaforikus, valamint képzett jelentés. Saját szótáraink kialakításánál az első és talán legfontosabb dilemmának az emóciókategóriák meghatározása bizonyult, hiszen erről a kérdésről nincs egységes vélekedés sem a hazai, sem a külföldi irodalomban [7,8]. Tekintettel arra, hogy a kutatási tervek között szerepelt az angol és magyar nyelvű szövegekkel történő kontrasztív vizsgálat, az ezeken a nyelveken már meglévő és számunkra elérhető szótárak [8,9,10,11,12] felépítésére támaszkodtunk, és egy nyolc érzelemkategóriából álló séma mellett tettük le a voksunkat. A nyolc emóciókategória az öröm, a düh, a bánat, a félelem, a feszültség, a vonzalom, az undor és a meglepődés volt [9]. A kiinduló anyagként szolgáló lista [2] feldolgozását automatikus és manuális módon végeztük el [1]. A mellékletet digitalizáltuk, majd az anyagot manuálisan javítottuk és az elemeket listákba rendeztük. A szótár kialakításakor a szófaj kritériumát tágan értelmeztük, így minden, emóciót kifejező, vagy annak meglétére utaló elemet felvettünk a szótárba. A kialakított szótár adatait és a kategóriák közötti megoszlási arányait az 1. ábra mutatja be. ábra. 1. Az emóciószótárak adatai és megoszlási arányai. A szentimentszótár létrehozásához első lépésként kiválasztottunk egy 5000 elemet tartalmazó, orosz nyelvű lexikont [4]. A lexikont a szerzők a következőképpen készítették el: A munka első fázisában gyűjtöttek egy kisméretű, pozitív és negatív szentimentértékű elemekből álló listát, amelyeket egy korpuszra illesztettek, majd lekérdezték a szótár elemeinek környezeteit. Az eredmények alapján a korpusz minden szavához, amely szerepelt valamelyik környezetben, egy nullától egyig terjedő valószínűségi értéket rendeltek. A szám azt mutatja, hogy mekkora valószínűséggel
103 Szeged, január hordoz pozitív vagy negatív értéket az adott elem. A létrehozott szótár tehát azon a feltevésen alapul, hogy minél gyakrabban szerepel egy adott elem pozitív vagy negatív környezetben, annál nagyobb valószínűséggel lesz maga is azonos értékű (a módszer problémáiról részletesebben l. [4]). Részben e valószínűségi mutatókra támaszkodva határoztuk meg, hogy a listából mely elemek kerüljenek be a szótárainkba. A nél alacsonyabb valószínűségi mutatóval rendelkező elemeket eleve nem vettük figyelembe, a többi elemet pedig egyenként megvizsgáltuk, és, amennyiben elfogadtuk azt, besoroltuk a pozitív vagy a negatív lista valamelyikébe. Ezután a szentimentszótárakat az emóciószótár anyagával tovább bővítettük, ugyancsak egyenként vizsgálva a lehetséges szentimentkifejezéseket. E bővítési megoldás indokolható, hiszen, bár az emócióelemzés az érzelmek, a szentimentelemzés pedig a nyelvi értékelések azonosítását célozza, a két jelenség szorosan összefügg egymással, számos emóciókifejezés egyben értékelést is hordoz [9]. Az elkészített szentimentlexikon adatait a következő táblázat mutatja be. Szentimentkifejezés Elemszám Pozitív 1982 Negatív 2675 Összes 4657 táblázat.2. A szentimentlexikon adatai. 3 Az emóció- és a szentimentelemzés eredményei Ahhoz, hogy az emóció- és a szentimentelemzéssel olyan görbéket kaphassunk, amelyek időrendben mutatják a szövegek cselekményét, minden szöveget 100 részre osztottunk, majd a szótáras elemzéssel minden részre kiszámoltuk az emóció- és a szentimentértékeket. Az eredményeket egy interaktív dashboardon vizualizáltuk, ami lehetővé teszi az adathalmazon belüli keresést korszakonként, művenként, részenként, és megmutatja a különböző emóció- és szentimentértékeket a kiválasztott fentebbi feltételek szerint. Az alábbi ábra a negatív szentimentek előfordulásának vizualizációját mutatja be az interaktív dashboardon.
104 94 XIV. Magyar Számítógépes Nyelvészeti Konferencia ábra. 2. Az interaktív dashboard egy részlete. A bal oldalon lévő szentimentgörbék a korpuszon belüli szentimentértékeket mutatják. A 3 egymás alatt vízszintes görbe a 3 alkorpuszt reprezentálja, felülről alulra a következő sorrendben: 1. Periódus, 2. Periódus, 3. Periódus. Balról jobbra haladva látjuk a korábban 100 részre osztott szövegek szentimentértékeit, követve azok cselekményét. A dashboard ezen részlete így az összes szöveg szentimentértékét tartalmazza, jelen ábrán nem szűkítettük a keresést konkrét művekre. A 2. ábra jobb oldalán a harminc leggyakoribb szentimentkifejezés látható, valamint azok korszakonkénti előfordulása. Emellett feltüntettük azt is, hogy korszakonként összesen hány negatív értékítéletet kifejező szentimentkifejezést sikerült beazonosítani (1. Periódus: 1622, 2. Periódus: 1490, 3. Periódus: 1818). Az emóció- és szentimentértékeket, az egész korpuszban és korszakonkénti megoszlásban is, a 3. táblázatban tüntettük fel Mivel a korszakokat reprezentáló alkorpuszok szószáma eltér, az emóció- és szentimentkifejezések előfordulási számát a teljes korpusz és az alkorpuszok szószámához arányítva is bemutatjuk, valamint feltüntetjük a korpuszhoz viszonyított százalékos megoszlást is. A szentimentkifejezéseknél a százalékértékeket a pozitív és a negatív szentimentkifejezésekre együtt értjük. 1. Periódus ( ) 2. Periódus ( ) 3. Periódus ( ) Összesen Összes szószám Szentimentkifejezések száma 2894: 0,18% 2612: 0,29% 3228: 0,11% 8834: 0,16% Ebből pozitív Ebből negatív Emóciókifejezések száma 2091: 0,13% 1843: 0,21% 2350: 0,09% 6284: 0,12% táblázat.3. Emóció- és szentimentértékek a NarRu korpuszban.
105 Szeged, január Ahogyan azt az előfordulási arányok mutatják, az emóció- és a szentimentkifejezések legnagyobb százalékban a 2. periódusban fordulnak elő, annak ellenére, hogy ez öleli fel a legrövidebb időintervallumot. Míg az 1. periódus hasonló adatai alapvetően egyeznek az egész korpuszra számított értékekkel, a legnagyobb eltérés a 2. és a 3. periódus között mutatkozik. Utóbbiban ugyanis csupán kis százalékban voltak beazonosíthatók az emóció- és a szentimentkifejezések. Az emócióelemzés során azt az eredményt kaptuk, hogy az emóciókifejezések emóciókategóriánkénti megoszlása összhangban áll az emóciószótár elemeinek emóciókategóriánkénti százalékos megoszlásával, ezért azt külön táblázatban nem reprezentáljuk. 4 A szövegek narratívaelemzése A narratívaelemzés alapját a 100 részre feldarabolt szövegek egyes részenkénti szentimentértéke adta. A kapott értékekből főkomponens elemzéssel nyertük ki a korpuszban domináló narratívagörbéket. Az elemzést elvégeztük a szentimentértékek összességére és átlagára is. Az irodalomban talán jellemzőbb a szentimentértékek összegének alkalmazása [2], miután az átlagok számítása révén veszítünk adataink változatosságából. A szentimentértékek összességét nézve 6, valamint 12 főkomponenst nyertünk ki az adatokból. Előbbi esetében az adataink kezdeti varianciájának kicsivel több mint 50, utóbbi esetében majdnem 60%-át át őriztük meg. A szentimentértékek átlagából 6 főkomponenst különítettünk el, és adataink kezdeti varianciájának 80%-át őriztük meg. A kapott narratívagörbéket mozgóátlagot számolva kisimítottuk. Ehhez az adott időpont előtt és utána lévő 5 szövegrész szentimentértékének átlagát vettük figyelembe, kisebb súllyal számolva azokat az értékeket, melyek távolabb estek az adott szövegrésztől. Pearson-féle korrelációt számoltunk, hogy kiderüljön, mely művek simított narratívagörbéi állnak legközelebb az egyes narratívatípusokhoz. A kapott narratívatípusokat összevetettük Reagan és szerzőtársai [2] angol nyelvű szövegek elemzésével kapott narratívagörbéivel, amelyek a szentimentértékek összességére számolt narratívákkal mutatták a nagyobb egyezést. A szentimentértékek összességére végzett elemzésből az alábbiakban az áttekinthetőség kedvéért a 6 főkomponenst megkülönböztető eredményeket prezentáljuk:
106 96 XIV. Magyar Számítógépes Nyelvészeti Konferencia ábra. 3. A szentimentek összesített értékeiből definiált 6 főkomponens. A 6 főkomponens közül az 1. egy pozitívan stagnáló görbe, a legegyszerűbb cselekményszerkezetnek tekinthető. Az 5. görbe egy u alakú verzió, ahol a történet közepén lévő mélypont után visszatérünk a kezdeti állapothoz, míg a 6. főkomponens egy emelkedő narratívagörbe. A 2. és a 3. görbe mutatja a legbonyolultabb cselekményt. A 4. főkomponens az 5.-hez hasonlóan visszatér a kiinduló ponthoz, annyi különbséggel, hogy a történetben két, egy szolidabb és egy drasztikusabb mélypont mutatható ki, amelyek között egy enyhe pozitív felemelkedés látható. Narratívagörbéiket Reagan és szerzőtársai [2] minden esetben két verzióra osztották az alapján, hogy az pozitív vagy negatív véggel záródik. A kutatás során ezt a felosztást nem alkalmaztuk, de amennyiben ebből a szempontból tekintjük saját eredményeinket, azt látjuk, hogy azok, az 5. főkomponenstől eltekintve, mindegyik főkomponens inkább pozitív értékkel záródik, bár a 2. és a 4. görbe a történet végén enyhe esést mutat. A következő ábra Valerij Brjuszov Tüzes angyal c. művének cselekményét mutatja be. A történet a 4. főkomponenshez kapcsolható korrelációs értékkel. A narratívagörbén a történet fordulópontjait és főbb eseményeit jelöltük be.
107 Szeged, január ábra. 3. V. Brjuszov Tüzes angyal c. műve. A regény cselekménye a 4. főkomponenshez tartozik. A történet vége visszatér a kiinduló ponthoz, pozitív értékkel kezdődik és azzal is záródik. A pozitív kezdés a két kulcsfigura találkozása és kettejük Kölnben töltött ideje köré szerveződik, míg a pozitív vég a főszereplő hazatérésére és missziójára utal. A 4. főkomponens két mélypontja is magyarázható. A szolidabb mélypont egy párbajjal és annak negatív kimenetével, a drasztikusabb pedig a két szereplő elválásával. A mélypontok közötti enyhe pozitív felemelkedés a sérült párbaj utáni ápolásával köthető össze. 5 Összegzés A tanulmányban egy olyan kutatásról számoltunk be, amelynek célja az volt, hogy különböző orosz nyelvű szépirodalmi szövegek narratívaszerkezetét szentiment- és emóciószótárak segítségével feltárjuk, valamint a legfőbb narratívaszerkezeteket definiáljuk. A kutatáshoz minden vizsgálati és elemzési eszközt magunk hoztunk létre [1], amelyek fontos adalékul szolgálhatnak a jövőbeli, orosz nyelvre irányuló tartalomelemzési feladatainkhoz is. A kutatás első lépéseként létrehoztunk egy összesen 51 író 176 szövegét tartalmazó szépirodalmi korpuszt. Annak céljából, hogy a különböző korszakokban keletkezett művek struktúráját összevethessük egymással, az adatbázisban három alkorpuszt különítettünk el. Az első feldolgozási szakaszban a korpuszt mondatokra és szavakra bontottuk, amihez az NLTK csomag alapeszközeit használtuk [5]. A szövegek POS taggeléséhez és a morfológiai elemzéséhez egy orosz nyelvű szövegekre fejlesztett programot, a Pymorphy2-t alkalmaztuk [6]. Az ily módon feldolgozott korpuszt ezután az emócióés szentimentszótárunkkal, szótárillesztéses megoldással elemeztük. A szótáras elemzésekkel megkaptuk a korpuszban bemutatott korszakokra jellemző szisztematikus mintázatokat az emóciók és a szentimentek vonatkozásában.
108 98 XIV. Magyar Számítógépes Nyelvészeti Konferencia A szótárakat ugyancsak e kutatás keretében, magunk hoztuk létre. Az emóciószótárunk, amelyben nyolc érzelemtípust különböztetünk meg, összesen 3291 elemet tartalmaz. A szentimentszótár egy negatív és egy pozitív értékelő nyelvi elemeket tartalmazó listából áll ls összesen 4657 szentimentkifejezést tartalmaz. A kapott eredmények alapján feltártuk a szövegek narratívastruktúráit, valamint megállapítottuk, mely szövegek tartoznak a különböző szerkezettípusokhoz. Végül az eredményeket egy interaktív dashboard segítségével vizualizáltuk. A dashboard nyújtotta lehetőségeket szeretnénk még jobban kiaknázni, és azt további kutatásokra és elemzésekre is felhasználni. Az elkészített korpusz, a vizsgálati eszközök, valamint az interaktív dashboard a Precognox Informatikai kft. TAS elnevezésű nyelvfeldolgozó rendszerének részét képezi ( A dashboardot hamarosan kutatási célra szabadon hozzáférhetővé tesszük a honlapon. Köszönetnyilvánítás A kutatást a Precognox Informatikai Kft., az Emberi Erőforrások Minisztériuma Új Nemzeti Kiválóság Programja, valamint az Európai Kutatási Tanács (European Research Council) az Európai Unió Horizont 2020 kutatási és innovációs programjának keretében (ERC_CoG_2014_ sz. szerződésben) támogatta. Bibliográfia 1. Nyíri, Zs.: Egy orosz nyelvű emóció- és szentimentszótár, valamint egy orosz nyelvű szépirodalmi korpusz létrehozásának tapasztalatai. In: II. Szláv Filológiai Konferencia, Budapest (2017) Megjelenés előtt 2. Reagan, A. J., Mitchell, L., Kiley, D., McLaughlin Danforth, C., Dodds, P. S.: The emotional arcs of stories are dominated by six basic shapes. In: EPJ Data Science (2016) Elérhető: 3. Бабенко, Л. Г.: Лексические средства обозначения эмоций в русском языке. Издательство Уральского университета, Екатерибург (1989) 4. Chetviorkin, I. I., Loukachevitch, N. V.: Extraction of Russian Sentiment Lexicon for Product Meta-Domain. Proc. of COLING 2012: Technical Papers (2012) Bird, S., Klein, E., Loper, E.: Natural Language Processing with Python, Analyzing Text with the Natural Language Toolkit, O Reilly Media (2009) Elérhető: 6. Морфологический анализатор Pymorphy2 (2015) Elérhető: 7. Liu, B.: Sentiment Analysis and Opinion Mining. Draft (2012) Elérhető: 8. Szabó, M. K., Morvay, G.: Emócióelemzés magyar nyelvű szövegeken. In: Gecső, T., Sárdi, Cs. (eds.): Nyelv, Kultúra, Társadalom, Tinta Könyvkiadó, Budapest (2015) Szabó, M. K., Vincze, V., Morvay, G.: Magyar nyelvű szövegek emócióelemzésének elméleti és nyelvtechnológiai problémái. In: Reményi, A. Á., Sárdi, Cs., Tóth, Zs. (eds.):
109 Szeged, január Távlatok a mai magyar alkalmazott nyelvészetben, Tinta Könyvkiadó, Budapest (2016) Szabó, M. K.: Egy magyar nyelvű szentimentlexikon létrehozásának tapasztalatai és dilemmái. In: Gecső T., Sárdi, Cs. (eds): Nyelv, Kultúra, Társadalom, Tinta Könyvkiadó, Budapest (2015) Wilson, T., Wiebe J., Hoffmann P.: Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis. Proc. of HLT-EMNLP-2005 (2005) Elérhető: 12. Strappava, C., Mihalcea. R.: Learning to identify emotions in text. Elhangzott: UMM CSci Senior Seminar Conference, University of Minnesota, Morris. Morris, Amerikai Egyesült Államot (2008) Elérhető: Forrás
110 100 XIV. Magyar Számítógépes Nyelvészeti Konferencia s 2 s 2 r 2 á ír t t s 3 sítás 3 r 1,2 1 3 á 2 2 t t á s 2 és3 t s3é 3 r á tér 2 st rsé s t t tó s rt 3 s3 s örút 3 s3 t 3 t r t s tt ír s3ár 3 í3 tó rrás ó t ósá ü é t ás t á s ítsé é ü ö ít ü 2 r 2 ós ír t 3 á ír t s3 r átt tés tá t t 3s á t 2 t s rt t ü ó s3 r t 3 r é 2 á t tér ó ás s r é 2 sé é s s rt s r 3 á és ó ír t s s r r ó t tás s é t ás 2 t ss3 ír á ír s3tá 2 3ás r á ó 2 rés 3 tés sá á á ó s3á s t s3ü t 2 s3á ró r 2 r s3 t ár s3á ár 33á ér t 2 s3 r3 ü 3t s3 ér t é t s3 ü ö ös ö3össé é á 2 r sé t rt s3tás tö s3 á ó ütt ár 3 s 2 s s3 r tü 3t s 2 t s3ár 3 3 tt 23és s3 3 t r t s s3 r s s3 á ó é 2 á é s3 r 3 r tt 3 s tt r á ó t ssé ét s t ü és3 é 3 í3 tó rrás ó s3ár 3 3 t r t rs3 ös3ö té 2ütt áró á t 3ás 2 2 s é á á á óró tá é 3ó 2 t t tt s tó sás 2 2 té é ír ó t tés 2 tt 2 tt 2 s s t s át rtá t ü3 t t 2r tr s á t 3 t tö t 2 t t tt s tó t t tt ét 3 ír rtá s 2 ír 2 t tás 3áró s tó í3 tó ír rtá tt 3 ét 3 ót t rt t ö3 s 3 2 tá á 3 t rt 3 3 ú 2 3 tt 1 2 á ír t ét s ósá t rt ú á ítás t r á t t r t 3 3 s3 r3 é 3 só té s3tés ü ö é s
111 Szeged, január r á ó t r s3tés t é 3s3 r3és t é 2sé 1 tt 3 ét 3 2 á ír t ö3 s 2 s s é 3 só s3ór 3t tás és t é 2sé ü 2 á ó 3 só s3á ár s ü 3 tó tí s t rt 3ó á ír t t s 3 sítását t 33ü é é t ás t á s ítsé é ü ö ít ü ós ír t 3 á í r t s3 r átt tés tá t t 3s á t 2 t s rt t ü ó s3 r t 3 r é 2 á t tér ó ás r é 2 s é s s rt s r 3 á és ó ír t s ó ó r á s3á s 3 3 á ír t t s s résé Pé á té s3t t r é s rt t t t s 3 sítását é 33 s3 t t 3és s3 s3ö é t t2 á s résér s s3ü t tt tö t á 2 2 ísér t s3 r t s s r s3 t t és 2 3 s ít 3 á ír s rését rés3 ü 2 t ó s3 r r s3á 3 2 r tö t á3 s s s3ü t tt 3 tó 2 á ír és ó ír 2 rá t r öss3 s á ítást t rt 3 ó sá érté é 2ütt í r r s3 s rö t t rt ú á ítás ó á 3 r t r s3t á ítás és 3 á ítás 3 s ó ó ír t ó sá érté ü ás s3 r t 2 r 2 r s 2 á ír t t s s rését é 33 3ö 3ö s3á ts3á s3á ó ír ír tá á3 t r s3 t r s3 3s á t t 2 ír á ó r s3 é 3tü r s3 s3ö t 3 t r tr tö töttü ó ír tö rs3á s és 2 ír rtá ró s3ár 3 1 r 2 r 3 á ír t ét rrás ó 2 töttü öss3 2rés3t ós ír t ö3 á r s s 3 só tré á ásár s3 á ó á ír t á tt ásrés3t r s r ró tö töttü t ír sár á ír á 3 t á t és ö3é t s é 2 r 3á ásár é ü é á t 3 só ö3ö sé s3ór 3t tás tö ír s3 t ré
112 102 XIV. Magyar Számítógépes Nyelvészeti Konferencia és tó ré s3ár 3 3 ó t r és3 t s ét t é 3 3 á r s s ír ír t é t s3 r á tt rr 3 ü 2 tü 2 2 tt s é 2r s 2 ír s3 r r s3 r s3 t t t 3 tá á3 t t t 3 á ö3 ü 2 2 é át ó és á ír r s s3ö r t 2 sírását á t 3 t 2 s3 á és3ü t r t 3 s3 á 3 s3 á t rr rs3 r 3 t s3 é s ré 2 t r é s3ü ós t ét s3á t 3 r s3 3ö tsé 3t sá 3 á t 3 ö3ö t ét t stü t társ s t 3ó s3tá 2 tt ú s rt r s 2 és tö ö3 és ár t r 3 tt r tás t 3 sár ás ó s rá ét 2 tó r á3 és3ítés é t r ós3 r 3 t á ításá 3 s3ü sé s 2 t ét s3t 2t ét é3 rá át t és á ós s3 ö3ö t t t rr r stá tó 3 s3 r t ü ö r rá 2í t tt és3 á3 s s3ár 3ású t ó á ó s rt 2 á ér t át s étr 3ásá ó á át ö tt r r tt 2 r rs3á t s3 s st rt t tá t rs3á t st r s á t át t 3ér 2 r rs3á 3 tú é t ö t á s rü t rít ár t st t r r r át tásá é át 3 ás t 2 r rs3á 3í ó rt ó át s3 r t é s3é sít á 2 2ás s r é 2 é 3 r tt 3 st r tér é ó é tt s3 3 st s3 2 rs3á t t ásár ást 3 t 3 s3 r t ét r t2á s3é tt rá s3 té 2 r s3ár 3ású és Ú 2 t 2 2 r rs3á 2 r rs3á 3 tú é t ö t á 3 tést ós3í s ré és s3t r 3á r r r 3ó 2 á é t tá és 3é s á rr tö t 3 3t tót á s t á r s ts ü ö ös t ts3 r t ú á 2 ó s á s ó áttér é t r r társ t2 á á3 t tt ö3 é 2 t s t é 3 rs3á 3 2 r s rt ós3í r s r s t 3á á r t r á és ár örö t r t tt s s á t tt r 2 s3 rt r t 3 s3 t tt r s r 3 r r tt 2 r rs3 t
113 Szeged, január é t ás ísér t ísér t s3 r ttü 3s á 2 r té 2 ü ö ít t t t s 3 á ír ós ír t 3 s é és é t 2 r 3 t t s 3tü s3ö t 33á t í 2 3 s3ótö sít tt á t 3 tá 3 t r ó és s3 t t 3ésé 3 2 3ésr é ít s3á s 2 és3 t ú 3 t s3 á t ísér t 2 é 2 3 á ír és ó ír ü ö ö3t tés s s r s3 t r t ér és s3 2 ó írt á ír tét ü ü ö ö3 r ó és s3 t t é ítésé ó ír t átá s3tásár st t s3t s3 3s á t t s é 3ü 3 2 s 3 r é3 rés3 s3 á t 3 t 3 á rés3 t 33ü t t s3t 3 t s3á s3 s3á t át s ss3 r ó 3 é é tár 3ós3 t és s r t s3 s3á és rá 2 s3ós3á 3 é st ú t és é s3á és rá 2 3 é s3á á 3 é st tét s és s3ó ító ó ú é s3á és rá 2 3 é s3á á 3 é st és é s3á és rá 2 3 é s3á á 3 é st s ú és ö3é ú é s3á és rá 2 é s3á á 3 é st 3 t t 3 2 tár 2 3 tár 3ó ár és ér t s3á és rá 2 3 t 3 3 tí és tí tés s3 s3á és rá 2 s3ós3á 3 é st stá t á és3ít ttü 3 2t sá r t ó s3 s3á és rá 2 s3ós3á 3 é st á á ít tt s3tá 2 s r ér3 r t ó s3 s3á és rá 2 s3ós3á 3 é st á á ít tt s3tá 2 s r s3 t 3 3s á t r 2s3 r st s3tés s ó s3 rt s3 á t s s3 á 2 3 tt ár 2 st r t á t é t s3á t Pr t 3 s3é t st t é s3á és rá 2 s3ó s3 r t é3 t és 2 t 3 t s3á és rá 2 tó t s3ö r ó é3 és t 3 t s3á á értü t t ár s s3tá 2 3ás é t 3 tü é t ö tés á t 3t tí3s3 r s r s3t á ó ó s3 r é t tö sé s3tá 2 3ást á s3t tt 2 s t ssá t ért
114 104 XIV. Magyar Számítógépes Nyelvészeti Konferencia r é 2 é t ó r s3 rü s t ssá t ért 3 3 t ó t s r t s3tá 2 rés3 t s r é 2 tá á3 t át tó t át tó 3 ó s3 r é ó té 2 r é 2 t s rü t ér s3á ó 3 s rü 2 r s3 r t sít ó ír s résé í 3 á ír ö3ü tö t sít tt ó ír s t s3 r té 3ö P t ssá és érté ó ír ír Öss3 s tá á3 t r é 2 3s á t 3 2 s 3 s rt té 2sá át s r s3tás s ó s3 rr tá á3 t át tt s3 r t té 2 r ó t 3 s3 t és s3 t t 3 s 3 tí ár 33á 3 r é 2 3 ü ö sé 3 3ö P P öss3 s á ír ó ír öss3 s r ó é ü á ír ó ír öss3 s s3 t 1 s é ü á ír ó ír öss3 s s3 t é ü á ír ó ír öss3 s tá á3 t P r s3tás s r é 2 P t ssá r s és r érté s r t ssá r 2 2 s 3 st t s3t s3 á s ü ö sé t t t ét s rt ö3ött 2 t tá á3 t t t rés3 t s s3 r t t át r ó 3 ö3ü tár 3ós3 s3á t 3 s r t s3 ú t és é és é rá 2 s3 t t 3 ö3ü 3 2 és ér és s3á tár 2 rá 2 és 3 és á r és s3á és rá 2 í s3 t 3 ö3ü 3 s3t s
115 Szeged, január és s tí sú 3 2t sá t ö s3 s3á és rá 2 t á t t 3 s3 s3á tér s3 á s ó ír és 3 á ír s rt ö3ött 3 érté r ó 3 tár 3ós3 s3á s r t s3 rá 2 ú t é rá 2 é rá 2 é rá 2 3 t t 3 2 s3á ár 2 rá 2 3 és ár és s3á 3 és ár és rá 2 ér és s3á 3 t 3 s3t s 3 2t sá t 3 3és s3á s3t s 3 2t sá t 3 3és rá 2 s tí sú 3 2t sá t 3 3és s3á á t t 3 s3 s3á tá á3 t 3 á s ü ö sé t t tó 3 3 r é 2 t tás 3 r é 2 3s á t á t 2 é t ás ísér t s t ssá ü ö ít 2 ástó ó és á ír t 3 s 2ér t áts3 2 s s r ó t s3 s á s3 t t és s3 t 3 33á tt érté s rü tá á3 t ó st t s3t és r t 3 3 t tt s3á s3 r sít t tö t t érés s rá t á 3t s t t ü 2 árás s3 r t s s r s3 t r t ü ö sé t t á 3 á ír és ó ír ö 3ött t s 3 ó tt 2rés3t r ó t tás s é t ás 2 t ásrés3t st t s3t s3 á s 3 s t t á s3 t r t 3 s3 r ét r é 2 ú 2 t 2 r s3 t á tó á ír s3ó és3 t és ts3 r s3tés s r s tér ó ír ét 3 á tö tár 3ós3ót tö ét és tö ét s3 á é és ár és s3á 3 s 2 rr t 2 s öss3 t tt t t á tó 3 á ír 2 r r ó t ás tö s s3á
116 106 XIV. Magyar Számítógépes Nyelvészeti Konferencia s s3 é 2 é 2 r s3 á t s ö3össé t t t r sít 3 á ír ár tí str té s t 3 só 2 3ését é 3 á á tö 3 2t sá r t ó 3ést t á t ó ír á ír á té 2s3 r á ítás 33 s té 2 é t á ít ö3ö t t rt t r3 t ré ü ö ös á tr és r r 3 s3 s3 á t 2 r ó ír s3 r t t 3 és 3 á ír 2 r tí s3 é t t á 3 á ír s át r s3 r á t té s s3tá 2 3 tt ír r t t é á 2 é át 3 á é s íté t ó ír s3 át ást t3 r á tró s r tö s3 t sát t 3 r é ár r s3 r é3 á3ó t rö t t 3 ó á tt ó í é3 tt á ír tt é3 s P ö3 ás t é 3 át s á á rr é r 3 ró r é át ás t r 3á t t átt t á ít t 2 s s r t ss3úsá áts3 tt s3 r t té s s3tá 2 3ás rö ó ír t 2 r á ír í ss3 á ír t ó sít tt r s3 r tt é tö 3 2t sá r t ó 2 t t á tó 3 á ír á ós3í 2 r s3 r ó ír t t Öss3 3és á 2 r 2 ír és á ír t t s ü ö ítésér s3á t r é 2 átá s3t á 2 3 r ó s3 t t s3 t és r t 3 térr é ít s r s tsé s s r 3 á ír t ü ö ös r ó 3 áts3 t s s3 r t 2 t 2 á ír 3t 2 s s é 3 só s3ór 3t tás t té s3tés ö 3 1 tí sú ír r s s3 r t é t r s3t é t ó ö3 ítésü t sót s3á é s té s3t t á ó r á ó t t s s ré s s é ös3ö t 2 á ítás t á 2 3 r r rrás s3tér P ó s3á ú Ú 3 t á ósá Pr r á tá tásá és3ü t
117 Szeged, január t 3ás tt r t s 2 2 str t t t Pr s t t t t ss t r t t st s s P rt r ss t r t t st s t t r rs r sts s r t str t r r r Pr s t t t t ss t r t t st s P rs r ss t r t t st s tr P s t t r rs r r s t r rr t r t r s Pr s t t2 t t r t t r rt t Pr ss r 2 t t st2 tr2 r t t t Pr s t t t t ss t r t t st s rt P rs s r ss t r t t st s Pér 3 s s 1 r ts t t t Pr s t r r t s t r Pr ss s P rt ss t r t t st s P P P t r s t t 1 t t s r t ss t Pr s t r r t s t r Pr ss st 1 s ss t r t t st s s t s t t s t str t Pr s t r s s t t t r ss t r t t st s r r P ts r r t s t r s t t Pr s t t t t ss t r t t st s rt P rs r ss t r t t st s rr r s r t t s t r st ss t Pr s t r t rt r t r t ss t r t t st s s r ss t r t t st s s r t 3 r s 2 r t t r r 2 rs r Pr s P 3 ó 2 2 r 2 s3 t t 1 étr 3ásá t s3t t és á é ö 2 2 és3 t t á 2 3ásá 3 t st 3 rt t2 t t r t 1ts Pr s 3 ó 3 r 2 2 r 2 s3ö ó ó 3ésé é t 2 és3 t és 2 t ó r é á á t 2 r 3 tt 2 és3 t t st Pr r s r r r P s rs t
118 108 XIV. Magyar Számítógépes Nyelvészeti Konferencia árt á3 á ó t á ór s 2 s3 á t s3 ö3ö s tór á 2 r 2
119 Szeged, január A Rákosi-éra pártjegyzőkönyveinek feldolgozása, elemzése és vizualizációja szövegalapú kapcsolathálóelemzési módszerekkel Gulyás Attila 1, Szabó Martina Katalin 1,2,3, Ifj. Boros István 1, Havadi Gergő 1 1 MTA TK Lendület RECENS Kutatócsoport 2 Szegedi Tudományegyetem, Szláv Intézet, Orosz Filológiai Tanszék 3 Precognox Informatikai Kft. {gulyas.attila, szabo.martina, boros.istvan, havadi.gergo}@tk.mta.hu Kivonat: A jelen dolgozatban a hatalmi hálózatok szöveg alapú feltárását célzó projektünk egy részletét, a Rákosi-jegyzőkönyvek feldolgozását és az ezek alapján elkészített mintavizualizációt mutatunk be. A Rákosi-éra hatalmi hálózatának fejlődése és működése jól rekonstruálható a történelmi dokumentumoknak levéltári anyagoknak, jegyzőkönyveknek és interjúknak köszönhetően. Kutatásunkat a hatalmi hálózat mögött rejlő informális kapcsolatok feltárását célozza meg. Vizsgálati anyagaink között változatos forrásból származó, nagy mennyiségű irat szerepel, amelyek döntő többségükben különböző pártbizottságok ülését megörökítő jegyzőkönyvek. Ezen dokumentumok feldolgozása komoly kihívást jelent, mivel a számuk igen nagy, a digitalizált anyagok minősége pedig a közel használhatatlantól a jól olvashatóig terjed. Dolgozatunkban bemutatjuk a dokumentumok feldolgozásának az alapelveit, eszközeit és módszertanát, illetve ismertetjük, hogyan állíthatóak elő kapcsolathálók ezekből a dokumentumokból, majd tárgyaljuk a szövegalapú kapcsolatháló-elemzés módszerét, és betekintést nyújtunk az ehhez tartozó vizualizációs technikákba. Végezetül egy mintaelemzéssel szemléltetjük az alkalmazott módszert, megmutatjuk a szövegalapú kapcsolatháló-elemzésben rejlő lehetőségeket. Kutatásunk egyik fő célja az, hogy a szövegeken szentiment- és topikelemzést hajtsunk végre a jövőben, megerősítve, vagy éppen megcáfolva korábbi eredményeinket. 1 Bevezetés 1.1 A kutatás történelmi háttere A második világháborút követően hazánkban kialakult politikai helyzetből 1949-re az MDP (Magyar Dolgozók Pártja) került ki győztesen. 1 Az ezt követő években egy szűk 1 A Magyar Dolgozók Pártja 1948 júniusában jött létre, miután a Magyar Kommunista Párt egyesült a szociáldemokrata párttal (SzDP). Ezt hivatalosan fúziónak, vagyis a két munkáspárt egyesülésének nevezték, valójában azonban a meggyengített és megtizedelt szociáldemokrata párt maradványát olvasztotta magába az MKP (Magyar Kommunista Párt).
120 110 XIV. Magyar Számítógépes Nyelvészeti Konferencia hatalmi elit a párthierarchia mellett a kapcsolatrendszerén keresztül biztosította uralmát. Kapcsolatrendszer alatt ugyanakkor nem csupán a politikai életben kiépített kapcsolatokról beszélünk, hanem az azon kívül, az informális életben zajló kapcsolatokról is. A későbbiekben is számos példát láthatunk arra, hogy pártfunkcionáriusok éppen informális kapcsolataikkal erősítették meg a politikai kapcsolataikat, vagy éppen az informális kapcsolataikból kovácsoltak politikai tőkét [1] [3]. Kutatásunkban a politikai kooperáció során létrejött kapcsolatokat vetjük össze a párthierarchia által diktált struktúrával a kapcsolatháló-elemzés eszközeit segítségül hívva. A kutatás felfogható egyfajta történelmi elitkutatásnak, amelyet társadalomtudományos eszközökkel (a hálózatkutatás módszerével) végzünk, a történeti források prozopográfiai feldolgozásán és vizsgálatán keresztül (néhány ígéretes hazai kísérlet erre, például [4], [5]. Az elit Andorka alapján a társadalmi hierarchia csúcsán elhelyezkedő kis létszámú az uralkodó osztálynál kisebb csoport [6]. A politikai elit ennek egyik szegmense, típusa; a sztálinista típusú kommunista diktatúrákban az erőforrások (gazdaság, kultúra, társadalom és kapcsolódó tőkék) felett kizárólag regnáló csoport. 2 A Rákosi éra hatalmi / politikai elitje szervezetileg viszonyalag könnyem körülhatárolható és definiálható: a Párt (MDP) politikai vezető testületeinek a Titkárság, a Politikai Bizottság, valamint az 1953-ig létező Szervező Bizottság) tagjaiból és póttagjaiból állt össze. Ezen belül is elsősorban (informálisan is) azok a csúcspolitikusok tartoztak bele megkérdőjelezhetetlenül és maradandóan a hatalmi elitbe, akik kiemelt pozíciókkal, személyes hatással és kapcsolatrendszerrel rendelkeztek (és ennél fogva információkkal bírtak) az államigazgatásban, a tömegszervezetek (pl. a szakszervezetek), kultúrális élet irányításában (a Szabad Nép főszerkesztője) avagy az erőszak szervezetek (ÁVH, Honvédség, Rendőrség) ellenőrzésében. Őket nevezhetjük a a pártvezetés legfelső körének. Jellemző a Rákosi korszak hatalmi elitjére, hogy épp oly könnyen eshetett ki közülük valaki, ahogy bekerült (lásd. erről a folyamatos éberség hisztéria és ellenségkép fenntartását igazoló, Sztálini (szovjet) mintájú koncepciós perek sorát: Rajk, Marosán, Kádár, Kállai etc.). Ebből a szempontból a későbbi Kádár alatti elit réteg lényegében a Rákosi alatti elitre épült, annak is gyorsan mozgosított, új másod- és harmad vonalára (Apró, Gáspár, Hegedüs, Komócsin, Münnich, Piros, Szalai, Vég vagy Czinege). Különösen érdekes lehet tehát, hogy ebből az elitből vezető pártelit mellett az említettek milyen, a párthierarchiában értelmezhető, de nem abból fakadó kapcsolatrendszert építhettek ki. A MDP elnöke ugyan Szakasits Árpád lett, ám tényleges vezetője Rákosi Mátyás főtitkár volt. A párt létszáma meghaladta az egymillió főt júliusában Rákosit leváltották az MDP éléről, utódjává a tőle politikájában nem sokban különböző Gerő Ernőt választották, akit október 25-én Kádár János váltott fel. 2 Abban a közelmúlt történelmének kutatásával foglalkozó szakemberek szinte egybehangzóan egyetértenek, hogy nem érték- vagy presztízsalapon, hanem pozíciók vizsgálata mentén van leginkább értelme a pártállami elitbesorolásoknak illetve a hatalmi elit vizsgálatának (Rácz 2014).
121 Szeged, január Röviden a szövegalapú kapcsolatháló-elemzésről A hálózatelemzés jelentőségére mutatnak rá azok az újabb, és egyre szaporodó kutatási eredmények, amelyek a legkülönfélébb hálózatos szerveződésekben szabályszerű mintázatok létrejöttére mutatnak rá. Barabási a következőképpen fogalmaz: Hálózatok mindenhol vannak. Az agy axonok által összekötött idegsejtek hálózata, maguk a sejtek pedig biokémiai reakciók által összekötött molekulák hálózatai. A társadalmak szintén hálózatok [ ]. A hálózatok átjárják a technológiát is: az internet, az elektromos hálózatok, valamint a szállítási rendszerek csupán néhány példa erre. [7] A 1990-es évek végén jelennek meg az első olyan tudományos megállapítások, amelyek az eddig egymástól függetlennek tűnő hálózatos rendszereknek (pl. úthálózat, világháló, emberi kapcsolatrendszerek stb.) közös tulajdonságaira irányítják a figyelmet, továbbá amellett érvelnek, hogy ezek a tulajdonságok matematikailag leírhatók és elemezhetők [8] [11]. A szövegalapú kapcsolatháló-elemzés alatt a szövegeket kapcsolathálóként értelmező és a társadalmi kapcsolathálók elemzési módszereit (SNA) használó paradigmát értjük [12]. Az SNA módszere a matematikából jól ismert gráfelméleti gyökerek mellett a fizika gyakorlatiasabb megközelítése alapján fejlődött ki [13]. A kapcsolatháló-elmélet és ezen belül a társadalmi kapcsolathálók elemzése hazánkban a köztudatba Barabási nyomán robbant be [14]. A szociológián belül a módszer leginkább a kapcsolati tőke vizsgálatában uralkodó megközelítés [15] [17]. A kapcsolatháló-elemzés népszerűsége egyrészt abból fakad, hogy a módszer társadalmi beágyazottsággal rendelkezik [18]. Azonban nem csak társadalmi, (személy alapú) kapcsolatok, hanem tulajdonképpen minden ábrázolható hálózatként [12]. Még a nyelv is, amit gondolataink közvetítésre használunk, önmagában véve nem más, mint szintaktikai kapcsolatokkal összekötött szavak hálózata [7]. Ennek megfelelően a szöveget reprezentáló kapcsolatháló csomópontjai nem egyes személyek, vagy személyek csoportja, hanem az egyes szövegrészek, legtöbbször szavak. Gyakori ugyanakkor az úgy nevezett bipariás kapcsolatháló is, melyekben általában a detektált kulcsszavak vagy témák mellé személyeket társítanak [19]. Így lehetséges például tudományos publikációk elemzése alapján arra következtetni, hogy mely kutatóhoz mely terültek társíthatók. Ennek segítségével következtethetünk arra, hogy ki, hogyan és milyen terület felé tolja azt a közösséget, mely az eszköz vagy adott téma fejlesztésével, művelésével foglalkozik. A szavak közötti reláció, uniplex [20] feltétele a bizonyos szöveg tartományon belüli együttes előfordulás. A szövegalapú kapcsolatháló-elemzés tehát nemcsak egy újfajta reprezentációját jelentheti az szövegeknek, hanem a mögöttes tartalmak megismerésében is segítséget nyújthat.
122 112 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 A kutatás kérdései és forrásai Kutatásunk célkitűzése a Rákosi-korszak ( ) alatti politikai hatalmi elit látens hálózatának a felrajzolása, többfajta történeti forrás feldolgozása és elemzése segítségével. Vizsgáljuk a látens és manifeszt hierarchia, valamint a kapcsolatok dinamikájának történeti hálózatát. Számos korábbi dolgozat feldolgozta már a pártelit látens kapcsolatainak alakulását: kiváló példákat olvashatunk az informális szférában kötött kapcsolatokról a közös vadászatokon keresztül [1], vagy említhetjük Aczél György erősen kapcsolathálókon alapuló, meglehetősen sikeres politikai működését [3]. Ennek nyomán kutatásunk egyik fő hipotézise az, hogy a politikai, vagy akár a politikai tevékenységeket kiegészítő elfoglaltságok terén együtt működő párttagok között olyan látens kapcsolat is létrejöhetett, amely a párthierarchiával párhuzamosan formálta a politikai szférában való tevékenységüket. A forrásadataink az állampárt (MDP) politikai vezető testületeinek között keletkezett üléseinek szerkesztett jegyzőkönyvei (Politikai Bizottság, Titkárság, illetve Szervező Bizottság). A hálózatban szereplő személyek pontos azonosításához egyéb történelmi dokumentumokat (biográfiákat, káderlapokat, és életrajzi adatbázisokat) használtunk fel, melyekből kiolvasható az adott személy politikai funkciója, és a pártéletben betöltött szerepe mellett számos további adat (iskolák, lakhelyek, különböző politikailag fontos eseményeken való részvétel stb.), amelyből ugyancsak informális kapcsolataikra következtethetünk. A rendelkezésünkre álló források tehát változó állapotban lévő gépelt, illetve gyakran kézi jegyzeteket is tartalmazó dokumentumok, amelyek feldolgozása és elemzése komoly kihívást jelent (részletesebben l. lentebb). 3 A feldolgozás és a kutatás módszertana A korpusz létrehozását és feldolgozását az alábbi ábrának megfelelő legfontosabb lépésekben végeztük el: ábra. A kapcsolathálózat létrehozásának a lépései 1. A jelen fejezetben e folyamatot részleteiben ismertetjük. 3.1 A korpuszszövegek feldolgozásának első lépései Ahhoz, hogy a későbbi feldolgozási lépések anyagát létrehozhassuk, mindenekelőtt a szövegek digitalizálására volt szükség.
123 Szeged, január A digitalizálást OCR-eszközzel végeztük el. Ezt követően egy jelentős szövegkorrekciós fázist kellett beiktatnunk, elsősorban a további munkálatok szempontjából kardinális nyelvi elemek, a tulajdonnevek formai problémái miatt. A problémáknak több oka volt. Egyrészt, a szövegekben előforduló tulajdonnevek többsége az átalakítás során sérült, azaz különböző karakterhibák kerültek a szövegbe. Másrészt, a feldolgozott szövegekben találkozhatunk olyan írájelekkel is, amelyeket e történelmi dokumentumokban a nem történelmi szövegekhez képest sajátosan alkalmaztak, így például a per-jelet zárójel funkciójában, amelyet az OCR-eszköz automatikusan nem ismer fel, és ezért nem alakít is át zárójellé. Hasonló, a szöveg típusából fakadó egyedi jellemző az is, hogy bizonyos esetekben a tisztségviselők nevét úgy emelik ki, hogy a név minden egyes karaktere közé szóközt tesztnek ( P e t r ó c z i ). Nyilvánvaló, hogy a nem történelmi szövegeken trénelt algoritmusok gyakorta nem az elvárásainknak megfelelően kezelik ezeket az egyedi megoldásokat. Végezetül, A nevekbe számos további okból kifolyólag is kerülhettek hibák a digitalizálás során. Így például adódhatott papír öregedéséből, az alkalmazott tinta gyenge minőségéből, vagy akár a digitálizálás során alkalmazott szkennelő eszköz nem kielégítő minőségéből is. Az alábbi ábrán e típushibákra mutatunk néhány példát. A bal oldalon a forrás részletei, a jobb oldalon azok digitalizált verziói láthatóak. 2. ábra. (fentről lefelé) Rosszul digitalizált nevek; speciális név formátum; különleges konvenciók (a / karakter használata zárójelként) Az OCR eszközzel végzett feldolgozást követően tehát a hibásan beolvasott nevek javítása volt az első lépés. Ehhez annak céljából, hogy az emberi erőforrás igényét csökkentsük, egyedi szoftverrel támogatott módszert használtunk, amely a rendelkezésre álló névtér-adatbázis alapján megkísérelte beazonosítani a szövegben fellelhető lehetséges neveket. Egy adott karaktersort akkor tekintett a program egy valós név lehetséges elírt alternatívájának, ha a karaktersor Levenshtein-távolsága [21] kevesebb volt a teljes név hosszának 30%-ánál. Így leginkább az OCR algoritmus által elkövetett típushibákat tudtuk javítani, például: Ger6 Gerő, Kádár K6d6r. A további hibákat manuálisan, az eredeti jegyzőkönyvekkel összevetve végeztük el. Ez utóbbiak azok az esetek voltak, amelyeket a szoftver azonosított ugyan, de akkora volt a torzulás mértéke (esetleg töredezett a név stb.), hogy azokat nem tekinthettük típushibának.
124 114 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3. ábra. Kép a szoftverből Az ezt követő lépés a nevek beazonosítása, amely tulajdonképpen a szövegekben előforduló névelemeknek az általuk jelölt entitásokhoz történő kapcsolását jelenti. A tulajdonnevek azonosítása nem triviális feladat, ugyanis az egyes tulajdonnevek különböző alakokban is megjelenhetnek. A munka egy rendelkezésre álló névlista alapján történik, szoftverrel támogatott, ugyanakkor túlnyomórészt humán munkával. Ez a félautomatikus megoldás a következőképpen zajlik: Az azonosítást végző feldolgozók számára a szoftver minden egyes, a szövegben megtalálható név esetén felajánlja a lehetséges alternatívákat, kiegészítő információkat szolgáltatva az adott személyekről életrajzi adatok formájában. A nevek azonosítását követően a szoftver az összes nevet a névtér-adabázis azonosítóját felhasználva taggé alakítja például Rákosi Mátyás, vagy Rákosi helyére a rakosi_matyas_8538 szót teszi a szövegben. Azt a jelenséget, amikor ugyanarra az entitásra (személy, hely, szervezet stb.) különböző nyelvi jelölőkkel hivatkozhatunk, koreferenciának nevezzük [22]. A fentebb ismertetett munkánk eredményeképpen tulajdonképpen megtörténik a szöveg koreferenciaviszonyainak részbeni az azonosítása, azaz összekapcsoljuk azokat a nyelvi jelölőket, amelyek egyazon személyre referálnak [23], [24]. Azért hangsúlyozzuk, hogy az anonosítás csupán részbeni, mert az egyéb, nem tulajdonnévi alakú, de személyre referáló nyelvi elemeket (pl. névmások, E/3 ragozású igék stb.) nem vettük figyelembe, ugyanis arra nem volt szükségünk: ez a típus a jegyzőkönyvekben nem fordul elő, az egyes személyekre mindig tulajdonnévvel utalnak. A tulajdonnevek azonosítása a további munkavégzés szempontájóbl rendkívül fontos lépés volt. Ez tette lehetővé ugyanis, hogy az együtt említettségeket megfelelően meg lehessen határozni, tehát azokat az eseteket is helyesen tudjuk kezelni, amikor teljes nevet, vagy pedig csak vezetéknevet említenek a jegyzőkönyvben. A kapcsolatok elemzéséhez az első feladatunk a kapcsolathálók létrehozása volt, amelyekben az adott kapcsolatháló csomópontjait a személynevek, a köztük lévő
125 Szeged, január éleket pedig a közöttük detektálható valamilyen kapcsolat (kooperáció) megléte vagy hiánya adja. Az együtt említést úgy definiáltuk, hogy a két egyedített jelölő egy adott bekezdésben 5 szó távolságon belül fordul elő. Fontos itt megjegyeznünk, hogy a digitalizálás miatt nem mindig lehetséges mondatok azonosítása, ezért muszáj a bekezdésre hagyatkoznunk, amelyek jól elkülönülnek. A munka jelenleg ennél fázisnál, azaz a nevek beazonosításánál és a kapcsolathálók létrehozásánál tart. Mivel a jegyzőkönyvek egy jelentős részénél igen jó minőségű (80% feletti) az OCR minősége, lehetőségünk nyílhat egy más típusú és egyben részletesebb, szövegalapú kapcsolatháló-elemzés elvégzésére is. 3.2 Módszertan - a szövegstruktúra elemzése A szövegalapú kapcsolatháló-elemzés egy nagyon fontos eredménye a szövegstruktúra olyan módon történő felrajzolása, amely rámutat a szövegben rejlő témákra (ez nem összetévesztendő a topikelemzéssel), és az ehhez tartozó szövegrészekre. Itt ezt a módszert mutatjuk be egy egyszerű példán keresztül. A megoldás bemutatásához egy kis méretű tesztkorpuszt hoztunk létre hat darab véletlenszerűen kiválasztott Titkársági jegyzőkönyvből, melyeket igyekeztünk a lehető legteljesebb mértékben helyreállítani. Az így kapott anyag tehát a szövegfelismerésből származó hibákat nem tartalmazó, értelmes magyar nyelvű szöveg. Mivel a jegyzőkönyvek az elemzés szempontjából fontos egyedi struktúrával rendelkeztek, azt az eredeti dokumentumoknak megfelelő módon megőriztük. A kapcsolatháló-elemzést megelőzően a korpuszt a feldolgozáshoz szükséges tidy-text jellegű formátumra hoztuk, hogy a feldolgozó szoftverek számára elemezhető legyen. Az itt bemutatott modell strukturális modell, mivel a szöveg teljes (a stopszavak nélküli) szókészlete (wordcount) megtalálható benne, és a fő célkitűzése a nagymennyiségű szöveg tartalmak feldolgozása a szöveg strukturájának vizualizálásával. A kapcsolathálóként vizualizált és kezelt szövegrészletek legyakoribb formája a szemantikus hálózatok (semantic networks). A szemantikus hálózatok felépítése során rendszerint szótövezést (stemming, lemmatization) és N-grammokat alkalmaznak. Mivel a szövegalapú kapcsolathálóelemzés a korpusz összes tartalmas szavának eredeti alakjára kiváncsi, nem alkalmazza a fenti eljárásokat, melynek pozitívumai és hátrányai egyaránt vannak. A nem információ hordozó szavak, másképpen a funkciószók (pl. a kötőszavak), valamint a jelen kutatásban vizsgált dokumentumokban, azok műfajából adódóan gyakran előforduló szavak (pl. jegyzőkönyv) szűrésére stoplistát alkalmaztunk, amelyet magunk állítottunk össze manuális módon a szövegek kézi elemzése alapján. A szavak közti kapcsolatot saját munkánk esetében is az együttes előfordulás adta. Bár az együttes előfordulás többfajta szövegegységen belül is értelmezhető, így lehet dokumentum, paragrafus, mondat, vagy egy bizonyos, előre meghatározott Δx szónyi távolság. A Δx szónyi távolság az adott szó szövegbeli pozíciójától mindkét irányban számított távolságot jelenti. Magunk ez utóbbi megoldást alkalmaztuk. Jelen elemzésünkben csakis egy lexémából álló szavakat vizsgáltunk, szóösszetételeket és többszavas kifejezéseket nem vettünk figyelembe. Az általános
126 116 XIV. Magyar Számítógépes Nyelvészeti Konferencia gyakorlattól eltérően nem végeztünk szótövezést, ugyanis az amint azt a későbbiekben megmutatjuk (l. lentebb) fontos információk elvesztését eredményezhette volna a számunkra. Az így meghatározott, a kapcsolatháló alapjául szolgáló együtteselőfordulásmátrixot a WORDij 3 [25] felhasználásával hoztuk létre. Végül, a kirajzolódó kapcsolatháló áttekinthetősége és a releváns kapcsolatok kiemelése érdekében csak azon szavak közé kerülnek élek, amelyek egy mondaton belül három szónál kisebb távolságon belül és legalább két alkalommal közösen előfordulnak. A kapcsolathálózatok vizualizációinak az interpretálhatóságát jelentősen növeli, ha a pontok és az élek egyaránt színesek [26]. A kapcsolatháló megfelelő (bizonyos könnyen is objektívan interpretálható attribútumok szerinti) színezése nem csak az eredmények interpretációja mellett az elemzést is segíti. Az egyes közösségdetektáló algrotimusok megjelenítése, nagy méretű kapcsolathálók esetén nehezen kivitelezhető, és a szín atribútum hozzárendelése a közösségek detektálásnak fundamentális alapját képezi. A fentebb felsorolt fundamentális alapok kivetelezésének eszközéül a kapcsolatháló-elemzés és vizualizáció terén széles körűen elterjedt szoftvert a Gephi [27] választottuk. E szoftver a vizualizációhoz kapcsolódó fejlett algoritmusokkal és grafikai, animációs képességekkel rendelkezik. A kapcsolathálóban a pontok nagyságát a közöttiség központiság mutatója [12], [28], [29] adja, a színét pedig az, hogy mely kontextuális klaszterbe tartozik. Az élek akkor kapnak egyedi színezést, ha az általa összekötött pontok azonos klaszterbe tartoznak. Azon pontok kerülnek azonos klaszterekbe, melyek inkább összekötöttek, egy azonos nagyságú és sűrűségű véletlenszerű [13] gráf esetén várható élek számához képest. Az így előállt klasztereknek tehát tulajdonképpen a szövegben fellelhető témák feleltethetők meg. 3.3 Eredmények A továbbiakban a tesztkorpuszunkon végzett elemzés eredményét mutatjuk be. A célunk itt inkább a szövegalapú kapcsolatháló-elemzés bemutatása, mintsem az adott témával kapcsolatos hipotézisek tesztelése - ez már csak abból is fakad, hogy az előzőekben leírtaknak megfelelően egy a teljes forrásanyag állományhoz képest egy nagyon nagy mértékben leszűkített teszt korpuszt elemeztünk. A korpuszt leképező kapcsolatháló egy 806 pontból (szavak száma) és 783 élből áll. Ebből az látszik, hogy a háló ritka, azonban a hálóban található élek inkább egy szűkebb csoportban találhatóak. Ezt a csoportot mutatjuk a 4. ábrán
127 Szeged, január ábra. A tesztkorpuszt leképező kapcsolatháló
128 118 XIV. Magyar Számítógépes Nyelvészeti Konferencia Ebben a pontok jelentős része 5-nél kevesebb kapcsolattal rendelkezik, s nagyon alacsony azon pontok száma, melyek negyvennél több kapcsolattal rendelkeznek. A pontok fokszámának átlaga 1.943, a legnagyobb előforduló fokszám 104. Ez alapján látható, hogy korpusz szókészletének varianciája alacsony és gyakori az azonos szópárok előfordulása. A háló modularitása 0,65, ami azt mutatja, hogy a kapcsolathálóban azonosított klaszterek pontjai egy véletlenszerű gráf pontjainál jobban összekötöttek, tehát valós csoportokról beszélhetünk. A hálóban 420 közösséget találhatunk meg, amelyek közül öt darab nagyobb, mint a kapcsolatháló 2,5 %-a. Azok a pontok, melyek nem rendelkeznek kapcsolatokkal, magányos közösségeket alkotnak. Ezek nem láthatóak a fenti ábrán. Az azonosított témaklaszterek a teljes szöveg körülbelül egyharmadát tették ki. Az elemzés során előálló klaszterek által lefedett témákat ugyancsak a 4. ábrán mutatjuk be. Látható, hogy a szöveg kapcsolathálóként való elemzése alapján jól elkülöníthetőek a fontos témák. Ez az eredmény már egy ilyen kis korpusznak az elemzésénél is fontos segítséget nyújthat, és egyúttal felhívja a figyelmünket egy a feldolgozással kapcsolatos érdekes jelenségre is. Mint azt korábban említettük (l. fentebb), a feldolgozás során elhagytuk a szótövezést. Ennek jelentőségét az Utasítások. klaszter kiválóan mutatja, mivel ennek egyik központi szava az elvtársat, amely szót elveszítettünk volna, hogyha egy szótövezett korpuszon végezzük az elemzést. 4 Összefoglalás, további tervezett lépések Dolgozatunkban ismertettük jelenleg futó kutatásunk nyelvtechnológiai szempontból is releváns munkálatait, valamint egy kisebb méretű korpuszon megmutattuk a szövegalapú kapcsolatháló-elemzés módszerének alkalmazását. Kutatásunkban a Rákosi-korszakból származó pártgyűlési jegyzőkönyvek elemzésével foglalkozunk, célunk a párthierarchia mögött létező látens hierarchia felfedése a személyek közt zajló együttműködés, illetve bizonyos ügyekben való együttes érintettség vizsgálatával. A feldolgozott és elemzett jegyzőkönyvekben a kapcsolatrendszert a nevek együttemlítettségével modelleztük. A munkát több lépcsőben végeztük el. Mindenekelőtt, a digitalizált szöveg minősége szükségessé tette a szöveg korrekcióját, illetve a szövegekben lévő nevek korrekcióját. Kutatásunk jelenlegi fázisában az ezen korrekciót követő kapcsolatháló alkotást végezzük, amelyhez a jelentős élőmunka mellett komoly történelmi háttérismeretek szükségesek. Az ezt követő elemzéshez a szövegalapú kapcsolathálóelemzést használjuk fel, melyet egy kis méretű tesztkorpuszon mutattunk be. Megmutattuk, hogy a szövegeket kapcsolathálóként értelmezve úgy csoportosíthatóak a szövegben található szavak, hogy a csoportok elemzésével beazonosíthassuk a szöveg által lefedett témákat. Az elmondottakon túl, ugyanennek az elemzésnek az eredményeként arra is rámutattunk, hogy az általános elemzési megközelítéssel ellentétben nem célravezető
129 Szeged, január az ilyen elemzést megelőzően szótövezést végezni, mivel az elfedheti adott szavak különleges funkcióit. Jelen eredményeink szerint ugyanis a szövegben azonosított témák egyike középpontjában egy toldalékkal ellátott szó áll. A munka további lépéseként azt tervezzük, hogy az előfeldolgozott és névelemazonosított szövegen szentiment- és emócióelemzést hajtunk végre. E feldolgozási lépésekhez a szótárillesztés módszert kívánjuk alkalmazni, amely például a gépi tanulás mellett egyszerűbb és költséghatékonyabb információkinyerési módszer [30]. A szentimentelemzéshez olyan lexikonra van szükségünk, amely a lexikai szinten pozitív vagy negatív értékelő tartalommal rendelkező nyelvi elemeket tartalmazza [31], [32]. Az emóciók felcímkézéséhez pedig egy olyan szótárra, amely a különböző érzelmek nyelvi realizációit tartalmazza [33], [34]. Nyilvánvaló, hogy a korpuszban feldolgozott szövegek sajátságai okán a kiinduló szótárak szöveganyagát majd jelentősen módosítani kell, valamint azok kiegészítésére lesz szükség. E két tartalomelemzési megoldástól azt reméljük, hogy a segítségükkel további, a kapcsolathálózat szempontjából fontos szemantikai tartalmakat tárhatunk fel a jövőben. 5 Bibliográfia [1] K. Bozsonyi, Z. Horváth, and Z. Kmetty, A hatalom hálója - A Kádár-kori hatalmi elit hálózati struktúrája az együttvadászási szokások alapján, Korall, no. 47, pp , [2] G. Majtényi, K-vonal - Uralmi elit és luxus a szocializmusban - Uralmi elit és luxus a szocializmusban. Nyitott Könyvműhely, [3] E. Sík, Aczélhálóban, Szociol. Szle., vol. 3, pp , [4] I. G. Kovács, Elitek és iskolák, felekezetek és etnikumok - Társadalom- és kultúratörténeti tanulmányok. Budapest: L Harmattan, [5] A. Rácz, A budapesti hatalmi elit prozopográfiai vizsgálata , Budapest, 19-Dec [6] R. Andorka, Bevezetés a szociológiába. Budapest: Osiris, [7] A.-L. Barabási, A hálózatok tudománya: a társadalomtól a webig, Magy. Tud., no. 11, pp , [8] A. Barrat, M. Barthélemy, and A. Vespignani, Dynamical Processes on Complex Networks, Reprint edition. Cambridge: Cambridge University Press, [9] L. Kovács, Fogalmi rendszerek és lexikai hálózatok a mentális lexikonban. Tinta Könyvkiadó, [10] D. J. Watts, Small Worlds. Princeton University Press, [11] D. J. Watts, The New Science of Networks, Annu. Rev. Sociol., vol. 30, no. 1, pp , [12] D. Paranyushkin, Identifying the Pathways for Meaning Circulation using Text Network Analysis, Oct [Online]. Available: [Accessed: 23-Nov-2017].
130 120 XIV. Magyar Számítógépes Nyelvészeti Konferencia [13] P. Erdős and A. Rényi, On Random Graphs I., Publ. Math. Debr., vol. 6, pp , [14] Barabási Albert-László, Behálózva - A hálózatok új tudománya. Helikon, [15] R. Angelusz and R. Tardos, A gyenge kötések ereje és gyengesége, in Hálózatok, Stílusok, Kultúrák, Budapest: ELTE Angelusz Róbert Társadalomtudományi Szakkollégium, 2012, pp [16] M. Granovetter, The Strength of Weak Ties, Am. J. Sociol., vol. 78, no. 6, pp , May [17] M. Granovetter, A gyenge kötések ereje. A hálózatelmélet felülvizsgálata, in Társadalmak rejtett hálózata, R. Tardos and R. Angelusz, Eds. Magyar Közvéleménykutató Intézet, 1991, pp [18] R. Németh, Módszerek a kvantitatív társadalomkutatási paradigmákban, SOCIO.HU, vol. 3, no /SOCIO.HU , pp. 1 42, [19] M. Sedighi, Using of co-word analysis method in mapping of the structure of scientific fields(case study: The field of Informetrics), J. Inf. Process. Manag., vol. 30, no. 2, pp , Feb [20] K. Takács, Kapcsolatháló elemzés; Társadalmi kapcsolathálózatok elemzése Digitális Tankönyvtár. Budapest: Budapesti Corvinus Egyetem, [21] V. I. Levenshtein, Binary Codes Capable of Correcting Deletions, Insertions and Reversals, Sov. Phys. Dokl., vol. 10, p. 707, [22] J. Zheng, W. W. Chapman, R. S. Crowley, and G. K. Savova, Coreference resolution: A review of general methodologies and applications in the clinical domain, J. Biomed. Inform., vol. 44, no. 6, pp , [23] E. Simon, A magyar nyelvű tulajdonnév-felismerés módszerei, Budapest, [24] V. Vincze and R. Farkas, Tulajdonnevek a számítógépes nyelvészetben, in Általános nyelvészeti tanulmányok XXIV., Akadémiai Kiadó, 2012, pp [25] Danowski, J. A., WORDij version 3.0: Semantic network analysis software. University of Illinois at Chicago, [26] L. C. Freeman and V. Duquenne, A note on regular colorings of two mode data, Soc. Netw., vol. 15, no. 4, pp , [27] M. Bastian, S. Heymann, and M. Jacomy, Gephi: an open source software for exploring and manipulating networks, presented at the International AAAI Conference on Web and Social Media, [28] U. Brandes, A faster algorithm for betweenness centrality, J. Math. Sociol., vol. 25, no. 2, pp , Jun [29] L. C. Freeman, A Set of Measures of Centrality Based on Betweenness, Sociometry, vol. 40, no. 1, pp , [30] F. Drávucz and M. K. Szabó, A beszélői szubjektivitás vizsgálata szentiment- és emóciókorpuszokon, in Doktoranduszok tanulmányai az alkalmazott nyelvészet köréből, 2017, pp [31] M. K. Szabó, Egy magyar nyelvű szentimentlexikon létrehozásának tapasztalatai és dilemmái, in Nyelv, kultúra, társadalom. Segédkönyvek a nyelvészet tanulmányozásához, vol. 177, T. Gecső and C. Sárdi, Eds. 2015, pp
131 Szeged, január [32] M. K. Szabó, A nyelvi értékelés mibenlétének kérdése a számítógépes értékeléselemzés (szentimentelemzés) szempontjából, in LingDok 15. Nyelvészdoktoranduszok dolgozatai, Z. Gécseg, Ed. Szeged: Szegedi Tudományegyetem, Nyelvtudományi Doktori Iskola, 2016, pp [33] M. K. Szabó and G. Morvay, Emócióelemzés magyar nyelvű szövegeken, in Nyelv, kultúra, társadalom. Segédkönyvek a nyelvészet tanulmányozásához, vol. 177, T. Gecső and C. Sárdi, Eds. 2015, pp [34] M. K. Szabó, V. Vincze, and G. Morvay, Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái, in Távlatok a mai magyar alkalmazott nyelvészetben, Budapest: Tinta Könyvkiadó, 2016, p
132
133 III. Korpusz, alapmodulok
134
135 Szeged, január ö3ös r s 2 r s3 é r s3é ítés r á ó á3s Pá3 á 2 Pét r t s 2 t r á ós ó és r PP 2 r 2 t ó t tó s rt 4 3s6 t t 3 t r t t s3ö 2 sé és ö 2 ér t sé tt 2 r s3 á ítás 2r ö 2 és s3 á 2 s í ást sá 3 t r t s á t 3é 2 sá t 3 2 s t rt t és ú t 3 t 3 ö3ött s t s 2 t s á t 3 2r é s3 r 3 2 ö3 s3 ú 3 é 2 3és 2 3 t r t t r á r á 3 2 s3 á t tás s3 tt t rt t 2 ér t é t s3 ár s3á ár 3 í 2 ér t é t tt t r t sé 3 t 3s á r s3 á ítás s3 t á ó ü ö ös t t tt 3 3 tár t r r í ó ér t 2 r 2 t rt r é 2 r r á tó ö 2 ér t t á á ít tt 2 r 2 r s3 étr 3ás 2 s ér t r s3 í 2 ré ér t é á t 2 r tá s 2 3ó r s3 r á ó 2 rs 2 át é 3 ss3 r r r s3é ítés 3 tés 3 t r t t rt s3á s3 r ö ésé és á t 3ás 2 r s ásá 2ütt t 3 3 é 2 2 ö s3á ár 2 t t és3ít sü és 2 t tá s é tár r 33ü 3 2 s ü ö ö 3 r3 ó t 3 t r t r s és tt t ó á 2 rs á t á 2 ást í s 2 2 s3 t ó t s t rt tt t r t 2 r á t 3 t é s3 r t t át 2 t r á ás t 3 tés é á 3 t t á 3t s 3 3 á t 3t tás 2 ú r3 ót 3 étr 3 tt ó és á t 3ás ss3 ö t t 2 3 r r r rrás ó á á t árás 3 3 s ér é s 2 és r 3 3ért tö é 3 és s3ü t tt 3 t r t s ü s é á t r á ásár 2 r s3 á 2 sít tt r át tö s3 r 3 t s ö33é t s3 3 á t 2 tött t rt t 2 t ó é t r és3 t s s s 3 r á ás 3 r á t 2 3és és 3ás 3 3 á t
136 126 XIV. Magyar Számítógépes Nyelvészeti Konferencia tár t és s3 á t t tt r r í é á á t t 2 2 s3 á tó 2 2 r í rr 2 r r á tó ó r s3t ss é ít 2 és 3 s3 ö3ö ésé ú r és ú r sé s3ü t t étr ött s3 ér t r s3 á ó é s3ít ré á t s3 ér t t s ür s3 ö3 á 3 2 r tá s 2 3ó r s3 r s3ör öss3 s ítás é t t 3 ér t 2 r 2 r s3 t r á ásá t s s3 r t és s3 á 2 t 3 tá étr 3 ó r s3 3 s3ü sé s ó s3 rt s rt t ü é é étr 3 tt r s3 és r r í t á tó 2 r 2 t rt 3 t tár 2 3 é 2 t s 2 r 2 r s3 2 r 2 r tö 2 r s3 s ét 3 2 rés3 2 és3 r s3ár 3 ás 3 tá á3 t ár s3á ár 3 tt á t 3 33á ér t r s3 s3 r t á t 3 t ár í s3 rt á t 3 t ó s3ót t rt 3 é 2 2 r 2 r s3 t 2 ö3 t ü ér t 2 r í ü tt r s3 rrásá s á t 3 3 ó tö tött s3 á t 2 tött 2 ó r r 3 tá 3 ír tt 2 s3é s s á á át és3ítés s rá tö s3ör s t á tó s3ö s3 résr rü t 2 3 á s 2 t rt 3t s3 á tó s3ö t s3 rés tö é s törté t s3 r t 2 2 ü s3 á 2 s3á3 é át s rt 2 sírás r3 r r s3 r3 á t s ó sé t rt tt és ö33ét tt r s3rés3 t t s r s3 át t rt 33 r s3 és3ítés s rá tö tött t s á t 3 t tt r 3 2 tár 2 é 2 tt s3 t 3 és3ítésé 3 s3 á t s3 ö3ö sé s t t 3ót 2 3 r t á 2á r r á tó tö tött 2 rs 3ásá 2 t 3 té 2 r s3 sé é törté tó s ítást r í ü ó 3ít 2 r 3 t 3ö tár ét r3 ó át ü ö ö3t t ü 3 s á t 3 t ó s3ö s3ót t rt 3 í ás ás 3 s t á ár s3ó ó á r s3 ü ö ssé 2 s r s3ár 3ó s3ö t t rt 3 2 tár tú 2 r 2 s3ö t t 2 s3é t 2 át r t t t rt 3ó r s3 s 2 rs s3ö t 3ás 3 s3ü sé s s3 ö3ö s3 tö t t 2 s3 ö3 á é t 2 r s3 s s érésr ér t r s3 törté t á ós3 rés í 2 té 2 s ér t é s t 3 s ét és tt
137 Szeged, január s3ö s r á t r s3trá ó tá r s ü t s3 á tó r r ó és sé ítás 3ért 2 ü r s3 és3ít t ü Pá3 á 2 r s3 t s és3é ös 2 r r s3ár 3ó s3ö t t rt 3 3 ár t é 3 tt á s3t tt 2 r ír rtá ró s3ár 3ó t á tó á ós3 rt s3ö á r s3 ü ö ö3t t t á á ír rtá s3 r s3t tt ír 3 t rt 3ó s3ö rés3 t s3 r s3t t ír 3 ér 3 tt t s3ö t t rt 3ó r s3 és3ítés r s3 r3 3 á t t á t s á s r r t st s3 á tá 2 r ás ö3 2 t ét á 2 é3 tét tár 3 té 2 s s3 rést r t r t s3 t é t 3 st t t rt ás ü ö ü ö 3s á t 3 t s r s3 ér t s3 és3ítés 3 s3 á t s3 ö3ö 2 rés3 ér t ö3 t ü s3 á tó r á 2 rs 3 s t s tt t rt s tár 2 é 2 tt é ér t t rrás és3ítés é r s3 t s ár 2 s r s3 ó 2 s 2 r 3 t 3ö tár ó ú sá s3é át r t 2 s 2 r 3 t 3ö tár ár ú sá s3é át r t 2 s Pá3 á 2 r s3 ár ír rtá t tá á3 t 2 r 2 r s3 t át tó 2 r s3é ítés s rá r é át t 2 rs tár ás t 3 s t ó rés3é r s3t és3ít r r s ér t t s érté ö t 3 3 t 3 r é 2 tsé s ását s rt t ü r á ás 3 t r t 2 rs á t 3ó á á 2 t s t s t r á ó 2ütt törté r í3 és 2 rs r á ás 2 s 3 2 s t rt ér t sé é rö t ö s r3 ó 3 és át s3 rés és r sés s t s s3 t és 3ás é á ó t t tö 2 s3 r 3 t rá öss3 áss ró á 3 2 ü 3 t r t r 2 r s ó r t tá s ö 2 tár 2 s3 33á érést 3t sít s3á s t 3á t t rt 3 2 ö3é t rt 3 tö ö3ött 3 r á t t s3 á ású ö 2 t 3á t á t 3 t s t s r í ér t tó ré ért t á t t tt s t r 2 r
138 128 XIV. Magyar Számítógépes Nyelvészeti Konferencia ár s3 s tö t t t rt rés3 é s t r t s r r s ítsé é rü r s3 r r í 2 ár tö t ár t rö 3ít tt t t 2ütt s3 r 3 t á t r á ásr s3t tt á r át 2 3 t r t r á r át á á t á sít tt s3 á 2 sít tt á t 3 t tár 33 t s ó át 2 2 2sé s r tár 3 s é tá s r rrást 33á t rt 3ó öss3 s t r á ó 2ütt 3 ü tá t r sést és 3 2 s ö3ött á ót t át té 2 tár ásár t 3ó r 3 ó r á ó t sá 3 r át r á ásá s3 á 2 s ó á á á t r 2 r t s3 r 3 t 2 s át á t r s3 tt és r á t t rt t 2 rs r á s3 33á ér t é t s3 t s3é s ö3ö sé s3á ár é 2 3 t r t t t r t sítsé 3á t 2 á tö t t rér r í ér t r rú 2 ár ró s3ár 3 3 r í t ót 3 3 s3 á s t 3 r r á rés3 é t 3 s3 ö3ö t t té tó 3 s át r r 2 tt 3 é s3 ér t t r r t s3 á á s át tá ó 2 tt t átá t s3 á 2 s r át r t 3 3 öss3 s r á t t rt 1 s ér t í 2 ö 2 r s t 3 s3 r t s r ár r át t s3 ér t é s3 tt t rt t s3 tt 2 rs t r át t á tó t 3 t rt 3ó s3ár 3t t tt t t á ó 2 rt s3ö s t rt 2 rés ó áró s ér t r á ó és r át 3 3 s3á é r á ót t rt 3 r ás 2 t t s é 3ését tár P érést és á s3t é 2ütt t té 2 s t rt t t s rö 3ít 2 r r tü ré 3 át tó 2 r törté r s3é ítés ó át 2 tár 33á 3 ö t 2 tör és 3 r sér át ü t t t 2 r 2 r s3 ér t 3 s3 ö3tár t s3 á tt r r tt r r r r r tt s s 3 t s ts r tt 1 r r
139 Szeged, január r s3ö 2 résé s3 t á ó ét r é át 3 tü 2 s3ö 2 r árás t ré é s3á ít t ésr í 2 s3 tt t rt t r 3 ás tt t tt r r é t 2 és í s t ssá tó ü t ü r r 3 tá 3 r í 3ért é s3 r t ö 3 s t ó á s át r r t tt t s á s 2 r r á ásá é á ó t st t t rt s s3 r r t s s3 á tá 2 r s3ö t s3 tt t rt ó é 2 3s á 2 s3 33á ér t 2 ó 2 2 sé és sé 2 r 2 r s3 2árt tó 3 í 2 és3ü t r s é st ér tét és t rt átó ü t ü r é 2 r r á tó és s3 33á ér t s3 t 2 t s r ssü és ü t é té r 3és t s 3 r t túr 3 r í 3 3 á t 3t sít tt P r s3tü 33á ér t t t írás ó át tó r r tás 2 s át s r s3 r s3 á tó 2 3 t 3 í 2 3 ér t é r r ó í ü s3 á t á 23 3 ér t é ó tö 2 r P2t és 2 író t ás 2 r s ér t 3 P s3 á 2 s P r t r é ü tá t árás 3 P2t 2 t s3 á 3ért és s P2t 2 P 3 ár é r r s P2t 2 ér t s3ü sé s ö 2 tár P2t 2 s ér t í 2 t é té é r r 2s3 r átírását P2t 2 s t sá ú r3 ó t 2ö t s t s3 á 3 r í 1 ü ö s3 r r t á tó 3 3 tó ü t ü 2s3 r P érés í tó és r át ss3 í á t t t r s tt t t rt 3ó á tö tés 3 s3ü sé s 3 s3 t 3 t á tó tá ó és é r r t rt 33á tsé s 3 t 3 P tá ó s3 r sér rés3 t s s3 rés t sé és 3 ér t 3 t t té 3 r í t r ssü í s tás ér t 3 1 s3 r t és r ás ó s3 r t t r s 3 1 tt é s3 t r 2í t rrás ó ú és s3 s3 á tó s át 3 s r át é r í 1 ésér s í á t tö tésé 3 s3ü sé s s3 tt s á s 3 öss3 r tt 2 t 3 3 s át s ó át s ít 3 t á tó s s3 t P 2 ö t 3 é és t é r t 3 r át törté tö tésé 3 étr 3 2 t t 3 s s3 á t tásr tt t r t s t st
140 130 XIV. Magyar Számítógépes Nyelvészeti Konferencia 1 t ó 3 t 3ést á s3t á s3t r t t 2 é t 3 1 tt á t r r ét r é t s3ö s r át öt á s3t 3 1 tt s t és t érté t ü ü P érést 2 r é 2 é t á t 3 í 2 tt á t rt 33 P érésr és á s3r t 3ó t t s t rt tt t ttó 3 tá 2s3 r ü ö á s3t tó té 2 s t rt á r át t r 3ésé ó ó 3 tá tt ó 2 r s3ö s t t és 3 3 í 2 tt 2 rs s3ö t s3 ás s s3 r s3 t t át 2 3 r t túr ár rés3 á r í á t tö tés 3 s3ü sé s t t tö t 3 2 s t és tár 2 tás r át ssá tt rö té 3 t 3 s rt s3 ö3ö s3 ér t P2t 2 ó s3 á tó s3 ö3ö á 2 tt s s 1t t 3t strá ós é í 2 tö tött és 3 tt 2 tár ás üt ö3ött r át s 1t r r s át ssá á ó ó é 3t s3ö 3 és r t ását s 2 t t rt tt 3ü sé s é 2 á ós3 rés t 3ás ö t 3 é és é t tr tás és t 3á ás 2 tó ár ít tt 2 r r s3 r s é ését 3 t tú t t é á í 2 tár 2 t ö t 3 3 t 3 1 és tö tött s3ö 3 t t tö tés t s3t t t öss3 s3t t tö tés s rá és3ü á ó3 t á r t 3 t ü ö ö3 á 2 ssá r s 2s3 r t s3t ö 2 rít t 2 2 é 2 s s3 t 3 üt 3és ér és 2 s3á 1 s r tá s t s ssé t s t é tt rt s r át 3 tt 2 r r r ú 2 ér3é 2 ás é t tt s t t és tú t r és rü és é tt t t s 2 s t ár 3 3 ú r s t 3ás tt tö s3á ú tt tás 3 2 2s3 r ó s3 r r s3 á t 2 ár tö é ár 3 s tö s3á s t 2t t tö tést t tt s3 r s3 é t 2 s3á tt tásá 3 í 2 s3 á 3 r rrás t 3 t á s s3á t s3t t s3 r t r ss3 r s3örös 3 1 r á ó 2 r ás 2 tá s t s 3ért á tt tö t t r r s3 r r 3ésr á ó 3 á á ós3 rés té é 3ésér í ér t s r r 3 2 tt r s t s ró ér t
141 Szeged, január r ts t1t r r ö ésé ó ó s3ör s3 á 2 s r ts t1t t r s 2 t rt 3 s3á r s3 á tó r á ót P ó 2 s 3 át rá 2ítást 2 ü ö é t 3 1 s3ö s t rt r 3 tí s s3 tt t rt s é é t s3á r s r át ú t érté s í 2 ér s rr s s3 r 3 í 2 s3 rt 1 t á t s t r át rr 2 3 tt s ér t t rt és ó s3 á tó s3 s3á r 3ért t á st r r s3 r t 3 ttü tö tött t rt 3s á tár 2 ár 3 1 t á tó r á ó 2 ü ö á s3t tt 3 á tí s t 2 á tö tött ásr rü t ss3 tú rö t rt t á r t r ss3ú t t ó ás 2 s t rt ó r á tsá ó r á t t rt t á tó s 3 tt r t tó s t á tó t rt s s3ö s s3 rés tá r t s3ö s t rt 2é á t rt 3 á ó3 t á és 2é árt sé 2 tö s3ör ró á 3ás tá s á ár t s r t á 2 rés3 ít tó é á 2 s r t r ó ás tár 3ásá é s 3 ás tt ö töttü 2 ér ü 3 2 á rá 2át t rt rü 2 ü ö á s3t 3 t 3 t ás ó ás tt 2 s s3ö rés3 2 ástó tér r t r ó ás 3 3 s t 3 1 t á tó t t á tó 3 P á t ü ö á s3t tt 3t és 3s á t é á ó r é 2 t s3 rés é 3és tá s s 2 s t r t 3 r r s3 rés t é té 2 Pé á á 23ó 3 t s3 r r r ss3 tü t t tt t tt s 3 st r r s3 rés rü t s3 résr tá á3 t 3 st r r s3 rés r é 2 át tó 3 3 s r át s tr tó sá s3é ssé t 3ért tö s3á tt tt t tö tést 3 öss3 s r ss3 r tt t tt tö tés s té t s tö tés t rt tt tö tés t ö t s P érés t ú r s3 sít tó s tá é t tt t t r r ú 2 ér3é t t tú é és tt s3 t s t és 3ért
142 132 XIV. Magyar Számítógépes Nyelvészeti Konferencia tí s r tö tött s s3ö s t rt ss3 tú rö s t á tó ó ás ó r á tsá 2é tö örítés öss3 s tá á3 t ü ö é tí s 3 st r r s3 rés tá s ár 3ás tá ú r étr 3t s t t 2 r ss3 r t sít é 2 2 áttértár s ssé t tt é3sé t 3 2 s ü s3 ás t á 2 s3 ást t t tt 2 r tá á3 t át tó 3 2 rés3 ár á3 2 tö 2 r rö árs3 s t r é írás t á tó 2 ás tt rá3 tó tö ö3ött s3ö s t rt s 2 rá 2 tö tött 3 é st r r r s r t t rs 2 r 1 r r 3 r s t 3 tá á3 t tí3 2 r 2 r sá és s3á3 é s rá 2 Öss3 ssé é 3 és3ü t r s3 t ó s3ár 3ó t 3á t s3ö s3ó ó és r r s ó á 2 3 t t t tt r s3 t rt á á ó s 3 s3á á ó t sítés tá ár tó é sö étr ött r s3 2 tö s r t r s3 3 é st 2 r r á tó t rö tt á ít tó é s 2 2 sé s3ö á ö ó 2 t s s3 r r t s t s3t ésé t 2 t s ítésé ér t s 2s3 r t á ö t
143 Szeged, január Öss3 3és t tt rr s r á ásr s3 á ó t ó á t 2 ö 2 étr 3 tó s át s3 á 2 s s3 ö3ö 3 tó r í és 3 ó 2 r t r s3 s 3s á t 2 s3 ér t 3 3 tár t r r í s3ár 3ó rés3 2 r s r s3 é ítésér 3 á ítás 3 s3ü sé s s3 ö3ö t s3 ér t é t ttü 2 2 ú s3 ér t és r r á tó 2 r 2 r s3t 3t étr ár r s3 ér t 3 ér t r s3 ét t s t sá 2 ár r r r á tó r r á tósá 2 2 s3ö t 3ó s3 ö3ö ésé 2 s3 tt rá ró 3 é 3 t r s3 ú ó étr 3ás tt s3 ö3ö ös3ö t sé ö t r ö3ött s3 r á ítás t és r 33á ás r s3 3 á t r 2 3s á 2 2 á ó 2 rt s3ö rt 3 2 á ó 2 t r3ít á st t s3t érés t é s é 2 r r í tó 3 tt r s3 3 t t s út és s3á ár ér t t s3 ö3ö 2 és 3 s3 á t s3 ö3ö ésé ú r áts3 tó r t 3ás ár ss r s tt 3 á Pró s3é 2 r s r tá s 2 3ó r s3 r 3 2 r 3á ító é s 2 és3 t r 3 3 á 2 2 t r t té3 t 3 á 2 2 t r t s3é s rt á s2 P r ás3 ó rás 3 át t r r t r s r s r r Pr s t t t r t r s r s t ár r t r s Pr s t r t r t r s r s t r s r s ss t P r s r 3 ár ss r r r s 3 r t s Pr s t t t r t r s r s t 2 2 ré 2 2 t ó r t s r s3 t t s é ítésé 3 és t s 3ás 3 P t s s PP st P ss3 r tá ó ré 2 á r t r t t r r t P ts s r r t r s t r r t t s P á r t t t t r r r P t s s s r2 rs t2 t2 r t s r 3 tt t r r
144 134 XIV. Magyar Számítógépes Nyelvészeti Konferencia r t r t 3
145 Szeged, január r 2 t t s r 3á ó s3 ö3 ö3é 2 r s3ö 3 ás3 é 1,2 s3t r t á 2 té3 t 2 PP 2 r 2 t ó t tó s rt 4 s3 s s3t r6 2t t t 2 t t s r 3á ó s3 ö3t s rt t ö3é 2 r s3ö r 3á ásá 3 r ét ó á 2 ó r ú ó és 2 s3 á 2 ú ó 2 r t r és t s3 t ör 2 3 t ü ú r író s3 á 2 t t rt 3 3 s3 ö3 2 rsít és ö 2ít ö3é 2 r s3ö é3 r 3á ását 2 r é 2 t á 2 3ó s3 ö3ö t 3 s3 ö3 s rt tés tá t sít é 2ét ü ö ü ö és 2 s ér té ü ss3 r 3á ás s3 á 2 ú r 3á ás ór ú r 3á ás törté t s3ö ö3é 2 r 3 tés 3 tá t 2 r rrás ér t sé 2r t s s3 r t 2 és3 t tö t rü té 2 t ó s3tés í ü 3 é t és tör té t 2 és3 t t tás s á ó 2 t s3 á t t r s3 törté t r s3 3 t és 2 sé 3 tár á3át á s r r á s r á ó tr s t r r tá tó és í tó ó tár ü 2 törté és3 és 2 t ó s 2 t s 2ütt ö és t r törté t r s3 é ítés 3 ú t é t 3 s rr t 2 r t 2 2 tt 2 2 ré á t 3 tá t 3á ását és 3ását é 3tá s s r ró 2 r é á s r s3 3 Ó 2 r r s3 s 2 t rt 33 3 öss3 s r t ó 2 r r s3ö é t t 3 2 s ö3é 2 r r ír tt és 2 t t tt s3ö t t á á é á 2 s3ö é r 3á t és r ó 3 tt és 2ért sít tt á t 3 tát r s3é ítés á t s rá s s r ár t 3á t s3ö 3 23 t törté t t 3 tr s r át s t 3 tr ssá tt r ó s3ár 3ó s3ö ó 3ás s és é 2 s 2 t és 3 2 s tt 2 r r s3 2t
146 136 XIV. Magyar Számítógépes Nyelvészeti Konferencia s t ás ó s3 r t s é 2 t s3ö s té 2 s írás és ö3 t 3ás ré 2 á t 3 t rá t 3 s3t s 3ért r s3ö 3 tt s3t r 3ó é és t 3á ás tr tás r ó 3és és 2ért sítés é 3 t t s t t s és 2 s é3 r3ést é 2 2 r írás ssá t t 2 és ás s tár 2ú r r ításá é 2 í t é tr t á é é 2 rr 3ás s3á s r é át t tt ó t 2 2 ü r s3 ré tö t s r t í 2 3 ö ésér ú t tt 3 t 2 s írás 3 s3á3 tá ró s t 2sé s ü ö ö3 2 sírás r s3 r s r t t és 2 s r 2 ö ésér 2 3 t s3 á t s és 3 tt t 2 érté 2 ó 2 sírás r s3 r 2 t ö t 3 t ssé é 2 r s ár tó 3ért s3ü sé 2 ú r 3á ás é ésr 2 s rá 3 r t t s3ó t 2 r 2 sírású s3 r ít át tö é ü ö ö3 2 törté t s3 ér á tá s3t tó tsé s 3ás r tó ö r ö3ös át ító é és 3 t r 3á ás s3ö 3ás 3 é és r t s t ssá ú é ü 2 s é t t s tá ó té 2sá ö t 3 é és rá ss3 s r 3á ás 2 törté t s3 ért t í á ó r í ü é 2 s á s ró á t á t é áráss r 3á ás 2 t ó s3 tú t tásá 3 s3 ö3tár r 3á ás t t 3 ás 2 t ó t s3 tá ár 3 á ít és 3 s3 ö3 és3 tét s3 á t ásár 3 2 ö3 ítés s3 r t r 3á ás s rá 2 rrás 2 r s t ré 2 á t 3 tró r ít 2 é 2 r r 2 á t 3 tr í 2 é r ítás ó s3 r s3 á tó 2 ás ö3 ítés r 3á ást 2 á é ér 2 ás r ó átírás é t 2 s tr s3 t rá ó é t r é 3 s s t r t á ó t 3 r 3á ás á 2 rés3 s3 t é33 ír tt 2 r s3 ó 2 tött t tés s3 á 2 és 2 tá sá tr á 3ásá 2 2 r 3á ó s3 ö3t s rt tü 2 t ö3é 2 r s3ö é3 r 3á ásá tá tásár s3t ttü á tá 3 s3 ö3 ár ás ár é ö3é 2 r r ításr tt t 3á t s s 2 r 2 r ítás ér r s 2 ór és s3 á 2 ú s3 ö3 3 2 s3ö r 3á ásr 2 2 r t 2 t á s3ótár és s3 á 2 33á ásá ssá t t ás törté t s3ö r 3á ásár s étsé s 2 t t s r t t á ár 2 é s tó ü ö é s s r r t ó r t s é 2s3 r és ö t é 2 tásár ór és s3 á 2 ú t á öt ö3ését á s3 t tt 3 á s3 r t é ü 3 t 3t s rt t ü t 2 t é3 r 3á ást é 3 tát r é
147 Szeged, január s tár á s ér é 3 t r á t 3 tt ó s3 r r s3ó 3 t ír ór ú t í 3 t s3 á 2 ú r 3á ást s rt t 3 t r s érté ését öss3 s ít 2 tá sá tr át 3ó ás törté t s3ö r 3á ásár s3t tt s3 ö33 t 3 3 t öss3 ás 3ár é3 r 3á ás é3 r 3á ás s rá 3 tát r 2 t t s é 3 2 í ü s s3 ért tt r 3á ás t öré s3ö t á 3ását és3ít 2 t é r 3á áss ár 3 s rü ó s3 ö s3ö törté t t r tás és s 2 t sítés s t 3á ás ítás s törté 2 r 2 sírás 3 2 s s3 t t í ás t öss3 t r és3 t s ö á t 3t tás t s3ü sé s tt 3 tát r 23ést 2 ért 3ést s t 3 2 s s3 3 t á3 s törté 3 öt ó ás s é 3 2 é 3 s3ö é3 r 3á ásá 2 tá ért tt és3ít át értü 2 á s3 ért tt r 3á ás tt t s rt t tt 2é és3ít t t s é r 3á ás s rá 3 3 t ó é á 2 t t á t t t s s3 ö3ö t 3á ás 2 t t t s tör té 2 3t 3 2 s t s3í 2 t é t s3 2rés3t t ó írás t á s3t s3 ró ásrés3t s r é öt ö t á s3t tt s3ó t öss3 és s á s r t r ö ü 3 á s3tás és öss3 ás té 2ét és 2ét ár s3 á t s r t írás 3és t 3ás s s3á3 3 tr tás é s s r ö3 t 3ásr tá s3 t í 2 írás tá s3úr 2 t t tár ö ür s s rt s3 ért tt r 3á ás s rá 2 3 t 3 t ö t ü t t 3 tát r ö t é3 r 3á ás s rá 2rés3t ét 3 öss3 s s3ót t é t r ó str ót t rt 2 s r é át t t és 2 t ásrés3t s3 t 2 ó és 2 sírás s t ssé t 2 s 2sé s 2 r t 2 sírásr tör r 3á t s3ö é 3 t á s3ö 3ó é és tét é t t s r 3á t s3ö 3ért r 3á ást tát r é 3 é33 2 r é3 r 3á ás é 2 s és rá t 3 t t s r 3á ó s3 ö3 s ítsé é t rö ít r 3á ás 3 s3ü sé s t és ö tsé t 3 tát r ss3 3és á 3 t t s r 3á ó té r3és és ítás s 2 r s 2s3 r s t s3ö é33 törté r 3á ásá á r 2 s s3ó t 2 sé é r té é3
148 138 XIV. Magyar Számítógépes Nyelvészeti Konferencia ítás és t s é3 r 3á ás ö3ött rá r ítás ü ö sé r ás 3 t t ó s3 r r ét ó á 2 ór és 2 s3 á 2 ú ó s3 á 2 ú r t r és t s3 t ör 2 3 t ü s3 á 2 ó á r t rs3 t s3 á 2 t ü t s3 t s3 á 2 s3ó tá r r s3tü rá s t 3 tó ö3ött 2 s 2 t t tárt s á t 3t t t ü á t 3t tás ét é é törté t ór s3ó tár 2 r t rs3 t ú r író s3 á 2 s ítsé é 2 s 3 tó ét 2 ástó ü t tt t s3 t tét é 3 t t s3 t s3 á 2 2 t r é s tét ór ú r 3á ás r ór ú á 3 2 s3ótár 2 2 r s3ó t és 3 é33 r 3á t á t 3 tát t rt 33 2 ts á ór ú 2 2 t ssá s3 s3ótár s3 r öss3 s s3ó é33 tt r 3á 3 t t s r 3á ás s rá 3 s3ó 2 s3ótár s s3 r 2s3 r s ré s3ótár s3 r ü r s3ótár á r 3á t s3ó á t á ításr s s3ü sé í 2 t á r 3á ó árás r t r és t s3 t s3 á 2 s3á ár st s3ó é t s ór s3ótár é33 és3ü t t s t ssá t ár és s3 t s3ótár ér tét ü t t tt r é 2 3 ár é 2 é á és 3 Ú t st t 3 tésé 2 r s3 ó és3ít ttü s3ótárt 3 t t s r 3á ás é33 r3ött t és t á ö t s3ótár ér tét és í 2 ést s érté és r s3ótár s3ó t t rt 3 tt ór ú r 3á ás átrá 2 2 r 3á ó s3ó és s3ótár s3 r s3ó ö3ött t s r t rs3 t 2 3és s3ü sé s 2 s 2 t s3ó 2s3 r 2 t 2s3 r s t s3 r s3ö s3ótár s 2 t r s t s t s3ít ü 3t 3 ór ú r 3á ás tt s t sít ü s3ö t ó r ú r 3á ás 3ás tá s 3 s3 s3 2 t s 2 r 3á t 2 t s s3ótár t át t 3 á 2 ú r 3á ás r s3 á 2 ú é33 írt ú r író s3 á 2 t t rt 3 s3 á 2 ét rrás ó s3ár 3 2rés3t 2 törté t t tás r é 2 é ásrés3t r s3 ú 2 és á 3t t 3
149 Szeged, január ú r író s3 á 2 s ré r t rs r 3 t s3 s3é s r t r 2 s3ó tár á ö t át ör 2 3 t ü s3 és s té ör 2 3 t ü s3 á 2 á 3 r t r t rs r 3 t t s ré ü r 3á t r t rs r 3 tr s3 á 2 3ás á t r é 2 3 tt s3ó tét ü 2 2 r s3ó r t rs3 t s3 á 2 r t rs3 t ú r író s3 á 2 t 2 t ü 33 s3 á 2 ö3ött 2 2 ö3é 2 r és 2 r r t r és3 t ü ö sé t á ú r r t r és3 t rés3ét é 3 r t r t és 2 r t á tó ü r r ít át és é r 3á t ár t rt 3 2 r t r t 2 é 3 rés3ét 2 r r t r és3 t á á 2 s3 á 2 s 2 2 r 2 sírás tü rö3 t t s3 á 2s3 r sé t Pé á s3ó é s ss3ú ó 2 s3 r t rö ár í 2 r t rs3 t s3 á 2 s ítsé é s3ó é és ö r t rt r r ó és r t rr s ré ü r t rs3 t s3 á 2 s té s s3ü sé t s r t r 2 3ésr 2 s3ó s3 3 s3 á 2 s3ó ü rá 2 t ü ö ö3 é 3 és á t 3 t 2 ú 2 é r t rs3 t s3 á 2 tét 3 t ít tt ór ú r 3á áss 2 r r t r 2ütt s r ás ü ö ö3 s ést t t 2 2 r é á ü 2 r é tár 3s á t 2 r 2 t á ó tt 33 r é á 2 r s3 sü ü Pé á r é á ü t r á s ör 2 3 t s3 r t r r ít r é tár s3 t r r 3 ü ö ö3 é r é á ü és r é tár á ó r t r s rt t 3ért 3 3 s t s3á ü s3 á 2 3ásá étr ö 2 s és 2t s3ó s3á át s3 á 2 tö 2 s s3ó t 3 étr t 2t t r s3 á 2t 33 2t ítását é3 tát r r í33 r r t rs3 t ú r író s3 á 2t r ár s 3és r á á tá t 2 s3ó ü tö ú r író s3 á 2t s 3 t t 2 ú r író s3 á 2 t t t 2 ás 3ért r ár s 3és s rr 2 t s Pé á tt3 ts3 és t3 s3 á 2 t 3 3ás s rr ét ü 3ért 2 s s3 á 2 3ás r s3á tt ü rá 3 tt s3 á 2 és t t s3 t s3 á 2 t s3 t s3 á 2 t t s rt t tt ó r ú és r t rs3 t r 3á ó té 33 3 s3 á 2 s3ó tár r s3tü rá í 2 ó sít á r 3á t s3ö t s3á át r t s3 t s3 á 2 ö3ü 2 s3ó r s 2 t
150 140 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 s3 3 t s rt t tt r t rs3 t s3 á 2 2 ö3ü ár á 2 3 tó 2 s3ó ü t 3á ást 2ás ó s3 á 2 ö3ött 3t és3 á t á s t s s t ö r 1 és 3 3t ö t s3ó öss3 ás ö3öttü 2 2 r s t t 3 s3 á 2 s s3 t s3ó és é tö s3ó 2 írás r t 3á ást 2ás ó s3 á 2 t 3 tá á3 t öss3 öss3 ás t r 3á t s3éts3 és öt 2 2 t tó ér 3 s3 é 2 s é tó é tá é tá s é é s3 t é s3 t é s3 t é s3ó s rát s rát s s3ó é ü r s é ü r s é ü tá á3 t s3 t 3á ását 2ás ó s3 á 2 r t rs3 t s3 á 2 3 s ó t s3 t s3 á 2 3ás s 2 s 2 r s3ót r é 2 3 t s3 t s3 á 2 s3á ár r é át 3 t rá é á s3ó s té 2 t öt 2 öt s3ó í öt é t 3 t ö t é 2 ír ó öt s3ó é t ü ö t r rá á ó ó á ítását é3 tát r r í33 t í ü 2 t s3 t s3 á 2 s 2 tr tást 2ás á 2 s3 á 2 é á öt s3ó és t 3ó é ás é ss3 t és t t t 3ó ür ss rt s3t s s3ós3 t t 3á ást é 3 s3 á 2 t sít é 2ét érté ü érté és r t sít é 2é érté ésé 3 ár é 2 é át és 3 st s t t s3 á t s3ö é33 r 3á t á t 3 tát ttü st r 33 t ttü öss3 3 t t s r 3á ó tét s3ö t s3á t á t 3 t á t r 3á t á t 3 t á t érté és 3 ét ér s3á t s3 á t r 3á ás t ssá t t st r r 3á t t rá 2át í 2 t é s3ós3 t r 3á ás t sít é 2ét 3 ér s3á r
151 Szeged, január ö3ü ór ú és s3 á 2 ú r t rs3 t s3 á 2 t sít é 2ét ér r 3á ás t ssá s3á ás r 2 tt ü 3 t s3 t s 2 t r 3á ás s rá ár é3 tát r ár r t s3 t s3 á 2 s3ét á s3t tt 2 öss3 t 3 r t t s3ö öss3 t ttü érté és r st r é t s3 á t é33 r 3á t s3ö t és r tét s í 2 s3ét á s3t tt 2 öss3 t s3 r 3á ás t ssá át s t t s3á r t rs3 t s3 á 2 2 r s3 r s t á ó 3 t t 3 tét ü ö t 3 tt 2 ó és 2 sírás s3 á 2 t s3ö 3 r ítás 2 s t t á ü é3 r 3á ás s rá ü ö ö3 r ítás és stór á ít tt t s r 3á ásr rü t 2 s 3 tt ü ö ö3 é s3 á t 3 t st á árs t r ítás 2sé s r ár tt 3 á 2 rés3ét á 3 ésü é tt r s3 á 2 ú t s3 t s3 á 2 t át t 3á ást 2ás ó s3 á 2 t sít é 2ét 2 ás ér s3á 3 s3á ásá 3 ár t ór át á ít tt á 3 tí r öss3 t ét t t 2 st r s öss3 2 s3ét á s3 t tt 2 t t 2 st r s s3ét á s3t á tí r t öss3 ét t t 2 st r öss3 2 á s3t tt s3ét 2 t t 2 st r s3ét á s3t és ós 3 tí r öss3 t ét t t 2 st r s öss3 2 s3ét á s3t tt ét t t 2 st r s s3ét á s3t 3 tá s3á ssá át s r s3á t t ssá t ést és 3 érté t 2 r é 2ét r 3á ás t ssá 2ütt tá á3 t t t t s3 t t s3 t ö ött t ssá t ssá és érté áté ár á s á s s át tá á3 t r érté és ár 2 s rés3 tt s3 t r s
152 142 XIV. Magyar Számítógépes Nyelvészeti Konferencia érté és r s3ótár s3ó t t rt 3 tt tét 33ü 2 é 2 ór ú r 3á ás 3 s3 á t s3ótár á s r 3á ás t ssá t ér tü 2 r 3á s3 r ttü s3ótár és3ítésé 3 s3 á t á s át t s3t tü 2 ü ö ö3 ér t öt sé ö t s3ótár s3 á t tt r ór ú ö á 2 t sít é 2t ér 2 s é érté és é s3 á 2 ú t ö t ttü 3 r é 2 t 3 á r t t á r 3 öt sé ö t s3ótár ér t tt tt r 3á ás t s sá r ór ú á érté és r í3s3 t s t 2 s3ótár ér t ü s t 2 r 3á ás t ssá át tó 3 r é 2 á át tó 2 r s3ó t t rt 3ó s3ótár ö á s é s r 3á ás t ssá t ér é és3ü s3 á 2 ú t sít é 2é s s3ótár 3 2 s s3ó 2 r sá á rü t t át 3 2 r s3ó 3ért s3ótár t á ö és 3 2 ást r 3á ás t ssá s3ótár ér t ö ésé ó r 3á ás t ssá ör é t t tt r t t s r 3á ó s3 ö3 r é 2é s öss3 t ttü r s s3 á 2 ú ü ö ö3 r tó 2 r t rs3 t ú r író s3 á 2 t t ító 2 é t tt é33 r 3á t s3ö 2 ó sít tt s t r t s s ítsé é t t ító tt r ór ú á s3 á t s3ótárr r t ító 2 tt 2 é 2 s3ó stát s s3 á 2 3 t st á árs t r ítás s3 t t rt 3ó s3ó st r t rs3 t s3 á 2 té 2sá á öss3 tésé 3 r s té s s3 á 2 ú t ö t ttü ór át s3 á t 3 r é 2 t tá á3 t t rt 33
153 Szeged, január t ssá r r áté ár á s á s s át tá á3 t r és r r s3 r r 3á ás t ssá á öss3 s ítás 3 r é 2 3t t t á 2 r t ó 2 r 3ésr á ás s té 2 törté t t ás 33á ás tár 3 tt ít 2 s3 á 2 ú r s3 r t sít é 2é 2 2 ó s3 r érté ésé 2 é3 át t tt t t s s ít 2 ás tsé s 3 ó 3 3 tt tr s3á t é3 2 sé ét és 3 t t s ó s3 rr tá t tt 2 sé ét t ü öss3 3t 3t öss3 s ítást t rt 33 tá á3 t t s3á sü t té 2 s rá 2 áté ár á s á s s tá á3 t t s é3 r 3á ás és é r 3á ás tá é3 ítás é 2é öss3 tés érté és á t s3ö t s3á át ttü rt é3 é r 3á ás 3 t sü t 3 Ó 2 r r s3 tá ásá t s3t t ó s3 rt t órá é t 3t t t ü 3 t rt r t rt tt r 3á ás t s érté é33 3 tt té 2 s 3t t t 2 2 t rt tt á s ítás r 3 tát r r á t r 3á t s3ö t tá t é t 3 rá 2s3á té 2 s és sü t rá 2át t t á s3á ó 3t át t 2 áté é á r 3á ás é 2 t tö t és 3 rr tt rá 2s3á 2 3 2rés3t ös3ö t 2
154 144 XIV. Magyar Számítógépes Nyelvészeti Konferencia rés3 3 t t s r 3á ás r s3tésé 2 rá s3 s3á 3 tt í 2 t s tö ít ó t ásrés3t 2 rá 2 r tt tét r té s3ó r 3á t törté s3ó s á t 3ás r ö és t t 3 tát r s3á ár t tt tt s r s3tés s rá 3 2r sé t 2r á ö 2ít tt é3 tát r át ó r 3 ó á rá át tó r á r r 3á ás 3 s3 á t á t 3ás 3 t t s r 3á ás 3 tésé í3s3 t s t 2 s3ö ü s t 2 r 3á ás r3ésé 3 s3 á t át tó órá 3 Öss3 ás ü 2 t t s r 3á ó s3 ö3t t tt 2 2 ór ú és 2 s3 á 2 ú ó á r r 3á t és é3 tát r á t r3ött ö3é 2 r s3ö t s3 t á 2 3ó s3 ö3ö s3á ár r s t sít é 2 t é r 3á ás tá é3 ítás s 2 é 2 ó t t 2 r s3 á t ö 2ít és 2 rsít r 3á ást s3tés á3 sá 3 t t s r 3á ót ár ár tá t s3ótár és s3 á 2 ó sításá t á ö3é 2 r s3ö r s 3 tó 3ért és s3 r t é ás s3ö r é á tö ö3é 2 r ár s 3 3 s3 ö3t t ú r 3á ás árás t s s t ú r 3á ást é t ás ás t ró á és érté
155 Szeged, január t 3ás r 2 r P s P rs r s s PP tt r s PP s r tt 2 r r s st r P rt s tt t2 r t2 r s 1 t r s r r s ss t t t P r r s r 2 t 1 1 r rs t2 Pr ss r2 r st r s s r s tt s ss r ts s s t t á á r ö ötör r t t t r s r rt r r s r t rr s s r s t 2s P r r r r t t r t t r 2 r P t r r 2 r s r r Pr s t r s st s r ø r r st r s r 3 t t r t s t t s r Pr s P rs s P tt rss r s t st 2s s st r 1t r r t 1tr t P t s s s rs t2 rt t st s P 2 r r r rr r r s2 s rr t Pr s r 3 s ss t t r 3 t r s Pr s t r s 2 r t r r t s t s s P rt P tr r s r 3 t st r t 1ts Pr s t r s s r t t s t r r t ss r r t t r 3 t st r 1ts s st s r s t r t Pr s t r s t t r r r s r t t s s P rt
156 146 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 t s r t r s r 2 á é t t s t t st rs t2 2 s rt t t t r t s str t 2 t r t s r t t r s 2s s2 t st 2 s t2 s tt r tt ts s s t 1t t s s r t s2st s r s t r r t t t 2 t r t 1t r 1 r ts r r r r rr t t r t r r s 2 r s 2 t r r r r t r r rr t r t r s rt t r r2 t r t r tr t r r r t r s s2 t t r r 2 t s 2 t r s r r 2 t r 2 rs r t st s t t r 2 t s s s s rt t r 2 t s st 2 t r ts ss s t 1t P 2s s r s 2 r t 2 t s r t s s s 2 r r t t 1t s s t 1 t t r t t s ss st 2 t r t s 2 t r s t r r t t 1t ss 2 ss 2 t r r 2 s 2 t r t s r s t t s t rst rs t s tt r s 2 t r t t t s s 2 s tt r s t s 2 t s2 t s2st r t t 2 s r s t t tt r s s t s s2st r s t r s r r st r r s r 2 t r s 2 t r t 2 t r s s t s r 2 2 t r t s t r r s r s t r t s s t s 2 t r t rr t 2 s s t s s 2 t r t s s tt r t r t tt 2 s r s t 2 s r s t 2 s r st t t r st s t r 2 s
157 Szeged, január s r t s ts s r t r t 2 t tt r s r ss 2 t s t t r t s t t t t r s s tt r s rs t s t rs r t 2 s t s s t 1 t rs t tt rs 3 r t r 2 t s tt r s r t hy3ph, he2n, hena4, hen5at, 1na, n2at, 1tio, 2io P t tt r s t r t s t s rt t rs t tt r s t t tt rs t r. h y p h e n a t i o n. h y3p h h e2n h e n a4 h e n5a t 1n a n2a t 1t i o 2i o.0h0y3p0h0e2n5a4t2i0o0n0. h y-p h e n-a t i o n 2 t 2 t 2 s r t s s s 2 t r t s rr t 2 s t s s s r t s st r 2 t 1t s s s s 2 é t s s rts st r 2 t tt r s s s t 2 t t r r r r t 1 t tt r s c1k/k=k r t s s r t st r tt r s s s 3 s t2 s r2 s t 2 rr rs t s s 2 t st t 2 t rr rs r t t t t t s s r t rs t t r t t2 s tt r t s t 2 t t 2 t tt r s2 s t t t r s r t s t r s t s tt r rts t t r r r s 1 s 2 t rr rs s 3 t t s r é t s rt
158 148 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 t 2 s tó s3 ü s 3 ss3 ö ü t ó é 3 s3 r tí rr t 2 t tó s3 ü s 3 s3 s3 ö ü t ó é 3 s3 r tí 2 t rr rs s rr r t2 tt r tt r tt r tt r 2 r r t r s r 2 t s t 2 r s 2 t t 2 t s r t r s t t str ts t 2 2 t st r2 s tr t s t r rst r r r r t s r2 s r t t t 2 r s t r t r s s r2 r t r s s s t r r t r s r 2 r r r r t r r r r t r r 1 t s 2 t f s y = f(x,t) r T r r s ts t s r t rs t t r t t st r 1 t s t r s r r r s t r t s t r t t r 1 t r rts 2 t 2 r r r t 2 s r s t t r s st s s 2 r r tr s t W s b s r t x t t ŷ = Wx+b t r t r t t 3 s t t W t s b t r r s r rs s t t r t t t t t st t r t s t s r t s r t ŷ = Wx+b t t t z = Wx+b t r t ŷ = g(z) r t r s s r t t st s 2 r r tr t t t t q t g(z) s h 1 s s s t t t 1t 2 r s r rs r t rst 2 r t z 1 = W 1 x+b 1 h 1 = g 1 (z 1 ) t t s 2 r z 2 = W 2 h 1 +b 2 h 2 = g 2 (z 2 ) s t t st nt 2 r r t a n t r t h n = ŷ r s r 3 s r r t r s s r s 2 t rr t 2 2 t 2 t t t s r st t t r st s
159 Szeged, január s s r r r t r s s t r t tr s sts r r st r t r ts ŷ t t st r t r t ŷ y t s t2 r t s t st 2 r t st r t t s t ts t r t r t r t r s r tr t s r t r s t r t r s t r r r s s r t t t 2 t s t t r t ts t t r t t r t s 1 s t s s t t r t s r r r2 s t t t r s t t t t 2 r s 3 t t t s t t r s 3 t r t r str s s t st s t t r s s t a ij t 1 t t t it r jt f ij t t t r h ij t t t s t rst t 2 r s t t s h 11 = a xy f xy, x=1..k,y=1..l r k l r t t t t t r r s t 2 ss t t t str s 1 t h ij s h ij = a xy f (x i+1),(y j+1). x=i..(i+k),y=j..(j+l) r str t s t t r t (3, 3) r r t t s s 2 s s t r t r s t r s r t r s q s r
160 150 XIV. Magyar Számítógépes Nyelvészeti Konferencia s s t r t r t t r s 3 s 2s t t 2 r t r s t t t rr t r t r r rr t r t r s s t r s q t t t st t t s t t t r x t R n t st t t r h t 1 R m r s t 1t st t h t 2 2 t r rs r t h t = f(wx t +Uh t?1 +b) t r2 st r r t h t r r r s t t s t t s 1 r ts s rt t r r2 r ss s t r r r s 2 t t t r2 t r c t R n t t st r t 2 st t s s t x t h t?1 c t?1 r s h t c t t t r t t s i t = σ(w i x t +U i h t 1 +b i ) f t = σ(w f x t +U f h t 1 +b f ) o t = σ(w o x t +U o h t 1 +b o ) g t = tanh(w g x t +U g h t 1 +b g ) c t = f t c t 1 +i t g t h t = o t tanh(c t ) r σ( ) tanh( ) r t t s s 2 r t t t s s t t s t t r t r i t f t o t r r rr t s t r t t t t s t t = 1 h 0 c 0 r t 3 t 3 r t rs P r t rs t r W j U j b j r j i,f,o,g t s s t t r r t r rr t r t r s r s t r t s t t r s r r t t r t s r s t t r t r r st t s t r r t t r t r st t s t r s r t rs r t s t t t tt rs t t r s rr s t s s s s t r tt t sts rst s
161 Szeged, január s s s rt t r r2 t r r ss r r s s t r st r r r t r r s t s ts t r t2 r r ss t t s s t st r q t r s r t r s t r r ss r r t t s s r t tr rs t t r t rs r s tt tt rs t r s t r st r 2 t s t s s r t r s s t t 2 t tt r t r r r ss t t rs t r t s 2 t s t t 2 t t r s r t rs s 2 t t r t t r t rs r t t r s t r t r s s t r r s r r t s rt r s r t r t rs str t s t r r ss st s t t r r s r st r rs r s r s t r t r s r s t r t r r ss
162 152 XIV. Magyar Számítógépes Nyelvészeti Konferencia 1 r t s t t t st t r r t r r t t r s s r t r s t r t r ss t t t 2 t s s q r ss r2 r r t r t t s2 s r2 t r tt r r ár r 2 t sle-o-párd t sbmbbmmm r r r r s s s s t t s t s ts s s s r t r s ts t 2 r q r r t r s s t s t r2 s2st r r r t r t r r r t r t t t ss s r t r s t s t r t r ts s rr s t s t t 2 r 2 t t r t t s t ss t r s s r 3 r st s t r t r ss t r r r t r
163 Szeged, január r r t s rr s n t s (n 1)/2 r t rs r t ts (n 1)/2 r t rs t r r 1 t r t r s t tt r l t r ár t t s 5 t ˆˆLEO t s t t r r s t r t rs s t rs t rr 2 r tt r t r t t rr 2 s tt r t r r t rs tt rs r t r r t rs t s t t t r s 2 t rr 2 t t rs r r t tt r t s t rst t r t r t s t t s t r r r t rs (5,37) s t s rr 2 s tt st r t tr s tt r t t s rr 2 r t r s s s s s 2 tt t r t rs t r t r t (5,37) rr 2 t 5 37 = 185 s q t 2 s t t s s t tr t s r2 r t á t 0,1 s t tr t [1,0] s t tr t t r t r r t r s 2 t r r r t r t 2 r r t r t 3 t t t t r 2 rs t ts 2 r t 3 st 2 r s s t 1 t t t r 1 t t s s r t s t s tr r ss s s t t t s t 3 r t r t r r t t r s t t r r t st s r t s rst s t s 2 t t t s t t r s t 1 s 3 t t s 2 s t t t r t r r t
164 154 XIV. Magyar Számítógépes Nyelvészeti Konferencia s t rts rst s t t t r t s s r r t r t 2 rs str s t s t r t rs r s 3 t s t s s s t t t t r 2 r rs r t 3 r s t s s t r t r s t t s t r rr t 2 s s t t t s r r rt s s t 1 2 r r r2 r t r t t t t r t s r s r 3 s t s r2 s rt t r r2 t r s s t s ts s t s s t 3 2 t t 2 r rs t t t t t s t 1 r r 2 r s s rt st s t s r2 t t r s r 2 r r t r t 3 t 2 r r t rs r t 3 r s r P r t r s r r 2 s r t r st s ts rr r 2s s st r s ts r st r t r s r s r s r r t t t r r 2 s t r t s ss 2 2 t r s
165 Szeged, január rt r r2 t r r 2 rs ts st 1 t s 1 t s 2 r r t r r s r 2 rs s r Pr s s r r r t rs r 2 t r t t r r t st
166 156 XIV. Magyar Számítógépes Nyelvészeti Konferencia t rr rs t t r s r t r s r 2 ss t t rr r t r s r s s t t r2 str t t rr rs r t rr rs s s r t rr rs r s 2 s r 2 t r t r r t r2 str t t r r s 2 r t t rr t 2 rr t 2 2 t r s t t t r s r r s s r 3 s r t t r r 2 t rt s 2 ss s s s t2 s t t s r t r t s ss s t 2 t t r s r st 2 st2 r r s t r r s t t t r s s s t r2 str t t r s rr t 2 r t r s s s rr t s t t t r t t r s s t s r tr s r s 1 r ts r 2 t s r t r s r t r r t tr s t r2 2
167 Szeged, január t r2 str t 1 s s 2 t r r st s r ó 2 t rt ó r t r t s3 r tí t r r t rs r t r s r 2 s r s r r t rs r r r rr t t r t r s tr t st t st r q t r s r t r r s s r r r 2 s 2 rr t t rr rs 2 s r rr r 2s s s sts t t r r s r t st r r s2st s r s r t st s r t r s é t 2 r 2 sírás s3 á 2 é ó t r t s t2 s tt r t t t2 á t3 ss P á 2 tt t3 2 r 3 P tér á s 2 sírás r 2 t 2 t r rt t t r t r rs t2 é t t t st r 2 t r P P P t t s r 2 t t 1 t r st s r t r r t 2 t r r t r s Pr s t t r t t r r r r t r s r r t r s r st 2 r s r t t r s r é r s r r è 2s r t à éq r s q s é st q s stré s r r t t s t r2 t r t r t r r t r s t s 2 tr s r 3 r t r r s s tt r r t t t r t r ts r r tt s t 2
168 158 XIV. Magyar Számítógépes Nyelvészeti Konferencia r t t s r t r r r s r P r s P r t r s t r t s t s t tr s t s r t r s r t r r s rt t r r2 r t t st r P r t r rr t r t r s r s t s Pr ss á s2 P r s3 r s 3 át t r r t r s r s r r r á s2 P 2 r 3 ró r s r q 2 t r s r s t2 s Pr s t t r t r s s r s ss t r t t st s t r st st t 3 t r r r t r
169 Szeged, január á tt á r á Pá3 á 2 Pét r t s 2 t r á ós ó és r PP 2 r 2 t ó t tó s rt st Prát r 4 tt s s r 6 t t s3ö 3áss 3ó t tás 2 rés3 ár s s3 t 3ést ósító r t s s3tésé 3 3 s 2 s3 t á 3 3ás s rá s3 á t s3 ö3ö t 3 á 2 ssá 2ütt és3 tó t t s3 ö3ö t ssá s s t s ö3 ít tö é t s r é 2t 3 3 á t 3 s3 ö3ö á t 3 t tt á í 2 t á t r 3ás á s s3 t t tás é 2 2 r t s étr 3ás t s3 ö3 t 3á ó t ssá á ításár s3 á tó étr 3 tt r s3 r s t ssá é s íté 2 2 s3ó 3 t t s étr ött 3 r t s3ó 3 r t s3ó í é 2ütt 2 s 2 s ss3 t 3á ás r ó ítás rá s á ó3 t 3 tés tö t t s s3ö 3ó á ö á ó 2 ás tá ó 3ásá ó á 3 2 s t 3 tá ö t 3 t s3 2 2 r t túrá 3ás é t 3 á r s3 r t á t r s s3 t 3ást é 3 s át rá 2 tú 3 tó tt ás tr s ás á s3t 3ért 2 t s 2 s3t r 3ást é 3 s3 ö3ö t 2 t ssá ö ü 2 2 s3 ö3 sé é ításár t s3ü s t t s3ó 2ért sítéss ár 3 s törté t 3á ó ss r á t ét r 3 tt á 2 ssé ét érté r t st t t 2 s3 á tá t s sö t t 3 t t s 3és s rá étr ö ás á s3á t tás s rá P r P s s3ó 2ért sít t 3á ó r t sát 3s á t rü t ás t 3á ó t s3t és s á 3 t sít é 2 rá é3ésr s s r ss3 t P r P sé á P r P s t sé t 3t sít r ó 3 t rá ásár í 2 t 3á ás s rá r ó 3 t s3 á 3 s3 3 3ésér és t 3á ásár r ó 3 3 s3 tö sítésé 3
170 160 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3 t s3 r r ó 3 1 á 2 2s3 r t 3á ó r t st s3 á 3 3 r t s t r r t s3 1 ss r r t sá 2 2 és3ítés 2 3 tt s3ó ó át 3 t ó t s t rt 33 3 tt s3ó 3 33ár t r s3 t t í é í ü 3 r t s t ssá s3 2 s 2 s3t r s3ö ér t át s3ó 3 ás át rá 2 r s r ó 3 s3á ár s r t s3 ó ö t étr ás á 3á s s t r ó 3 s 2 3é s t r á t 2 r tí t 3ásá 3 étr 3 3 tét ü s3 ért s 3és s s3 2 s ás t 3á t rrását r ss3 sé s3ö t s3ö s ás írt 2 s3t r s3ó t t rt 3 t 3 r s3 r r ó 3 3ést í 2 r s3 r és é t s é 3 és ú ss rt s3 á 3 s3 3 s té 3 t é s s sé 2 3 tt s3ó ó át r t s s3á ró á ó s3 ö3ö rr 2 2 s r é 2t 3 s3ö t ít t tás s rá 3 t é r t st 33 étr 2 ás t 3á t s3 t 3 sít ü t ü ttó 2 ss r 2 r ó 3t étr 3 t ó s3 r t tás P r P s á t étr 3 tt á ár s3tá 2át á t t étr ött s3ót ö t r 3 tt P 2 és3t ss3 3és étr ött s3ót ö t 33ár t s3ó í é 2 s P ár 2 s étr ött s3ót ö t 33ár t s3ó í é 2ütt 2 s P ár ö t ár s3tá 2 ó s r ásár ét ó s3 rt ró á t s3ör 2 r t r ú r rr s rá s á ó3 t t t ít tt 2 rt t r s3tá 2 3ót 3t étr 3 tér ö t 2 2 r r 3 tá ó rü t 3 r t s3ó és s3ó á 2 3ás t rá ó és s3ó í é á ö t 3 3 t r s3 r étr 3ásá és t ításá é és t s rt t ü t ító 2 étr 3ás t ító 2 á ításá 3 2 ár t á ó 2 r 2 r s3t s3 á t r 2 tött r s3 é s 3 s
171 Szeged, január t s3t r 2 s3 á tt írt s3ö rés3 ór t st 3ért 3 tí sú rrás é s ás 3 tt és t 3á t s3ót t rt 3 tt r s3t r r ó 3 és3ít tt P r P s r t r3 ó á 3t ttü 2 töttü 3 t s3 t á öts3ör r t r s3 étr ött stá s3 r á 2 3 t rá t r ó 3 s3ár 3 2 ss r r t s 3t t étr tt s3ó stá 3ért tt tt r ó 3 t és 3 t s3ó t r 1 á é t s3 r t át r ó s rt 3 tt s3ó 2 s á t t ttü 3 t s3 t r ó s3 r t 2 s s3ó á 2 s3ó 2 r 3 tt 3 t s3tá 2 s r t t r s3tá 2 2 s3 r tt é á t 2 t ü ás t 3 3és 3t s 2 s á 3 tt s3ó í é 3 2 r ss3 t 3á t s3ó s tí sú át 2 2 sé t rt 3ó s3ö tí sr t é á é 3 t é ü s3ö rés3 r ss3 t 3á t s3ö rés3 st 3 t át t ító 2 étr 3ásá 3 s3 á t r s3 3 2 rés3 t rü t ár s3 ít ttü r s3t 2 rés3 r s3 r ás s3 2 tés r s 3 s rt t rt 3ó s3ó 2 tését í á ú 2 tt 2 s3ör r stü 2 s3 t 2rés3t é t s3 r t 3 3 tt r s3 és t s 2 s3ó ú 3ésü 2 s3ó ú é t 3 tt s3ó 3 tt té 2 s s3 r t ásrés3t s3 t t 2 ás 3ésü ás s3ó 2 s3ó 3 tt s3ó 3 tt s3 r t r s3 Pé á ár é és 3és tt é é é t s 3 3és tá t é é 3 ö3ü s3 t s ár és ár s3 r ö s ár 3ést P r P s t 3á ó ss r á ít tt 2 ás s3ó 2é é t ás 3és é t é á 2 2 s3ó ó tér é 3tü r s3 ó é ít tt s3ó á 2 3ás ás rés3t 3 3 ör 2 3 té s3 r s3 t s3 á 3t rá 2 ést 2 s3ó á 2 3ás tér s ó át t rt 3ó s3ó 2 ás 3 ö3 2 3 tá á3 t é á 2 2 ás t 3á t s3ó és ö3 s3 s3é át tó é á 2 2 s3ó s3 s3é sá stá át é33 r 3 3t étr ás á s3tá 2á t t rt 3ó t ító tát é ü r ss3 3 tt s3ó 2 s és r 3 tt s3ó tt t ító 2 t ár t ór á ó é t s3 r á s3t tt t ü ö ít ttü t s3t és 3 3ó á 2 3ás rá s s3ó á 2 3ás t ító 2 r s3 s3 r s3 t 2 é á 2 s3á3 3 ós tér 2 3 s ó tés és 2 s ó s3 t t r t st ár s st t sá r 3 s3 2 ás 3 ö3 és é s ó tá 2 3
172 162 XIV. Magyar Számítógépes Nyelvészeti Konferencia ár s3é t ér s r é s r t té s s tá á3 t Pé ás t 3á t és 3 tt s3 r t 33á ö 3 s 3 3 tt s3ö é ít tt s3ó á 2 3ás ár rá étr 3 tt ö3ü tt t s3 á t t tás 3 2 t 2 rs r s3 t ít tt í 2 s3 r t s3 r ás t ítás r r s3r s3ó 2ért sítést t r ó 3ést 3t t ítás tt s3ótö s s3ó í ét 2t í é t á r s3 t t r á ót t rt 3ó rés3ét á s3t tt és 3 ö á ó t é t s3 r t t ító 2 rés3 t s öss3 s ítását ás ét s té t ítás s rá r r 3 tá ót étr 3ó rá s á ó3 t r t túrát ósít tt t s rú ér t 3ásá 3 ós t r t 3 étr r t r ú r rr s rá s á ó3 t s3 á t 3 s3tá 2 3ás tr 3 tó é 2 r é 2 s t tás rá 2 rá s á ó3 t t é 2t ás ó s3 r 3ás s3á s ö3tü s3ö 3ás t rü t r ó r é á r 3ért s ás é t 2 r rr s rá s á ó3 t t t ít tt étr 3 tt t ító 2 á 3 2á t á s3 á 3 3 rés3 t t tt s3ó á 2 3ás t rá s á ó3 t té 3s á ó s3ó r t r 2 ást ö t é ü s3ó í 3 2 s s3 t tó r t r t t t r r á r r 3 tá t t r ss3 2 3 t ító és t s3t 2 s3 r ü ö ö3 r t r és s3ó í é s3á á 3 2 s 3í ó s3 r é 3 t á s r t r í 1é 3í ót s á étr 3 tt r rr s rá s á ó3 t 2 étrét á ó3 t 2 r t tt á tt é és ö t 3 t t r t r t í t 3 3 é és tt r é 2t s3 á 3 s é és s é és t 2 ár s3tá 2 t t t ár t r t 3ás á 3 2 s s3tá 2 ó t rt 3ás ós3í sé ét t rt 33 3t rés3 r é 2t s3 á r t tt á t é t s t tr ss3 s t ö t 3 é és s3 á ö t 3 r t r 2 s3ó í sás á tt r ó s rá t t r r 3á ásár 2 t 1 rét t s3 á t
173 Szeged, január rá s á ó3 t r t túrá 3 á rá át tó 3 tá ó á 3 P2 r r tr s3 rt s3 á t ö t 3 r ét r á ítás t r t tt rét 3 ós3á r s3 rt r s3tü t ít tt t ás t r t 3s á t s3ó r á ú t 3ás s rá t át 3 t 2 3 tt r ós3í sé t rt s s3tá 2 ár t ító ár tö s3tá 2 s s3 r t érté és s rá 3 tt s3ó 3 2 ós3í sé r t s3tá 2t ttü s 2 á r r rr s rá s á ó3 t s t s á rá rt t r ú s3tá 2 3ó 2 ás ísér t 3t 3s á t 2 3 ít tt s3ó á 2 3ás s3 á ásá 2 2 á 2 s s3tá 2 3ó r t s 2 t ssá 3 tt s3tá 2 3ás t t s rt t r r t s 2 2 ü 2 t t ítás ó s3 rt ósít 2 s t 2 3 ós tér 2 t á t t és tér r s 3 t rsí t ü ö ö3 s3tá 2 t rt 3ó t 2 ás tó ü ö ít s3 á t s rá 2 s ú t t 2 tér tt 3í ó á s3tá 2 s3 r s3 r á t 33ár t s r ás 3 s t t át 3 2 t s3tá 2t és 3 öss3 s s3tá 2 ó t rt 3ás ós3í sé t rát r é 2 é t 3 t t át 2 3 ós t r s tü ár rés3 á t tt 2t r r
174 164 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3s á t s3ó s3ó í é ü s3 s3í á ó é ít tt s3ó á 2 3ás s3 r 3 ós t r s3 r t s3ó r 2 á ó á ó 3 ós t rt r tü 33á r r 3 tá ó 3 rés3 33 s t s r á ót tár 2 ö t s3 r t r s3 és r tt t r 3 3 tt s3ó r t t sá t é t r á s s t s3ó 2 té 2 s ét 3 át s3 á és 2 rét 2 t 3 s3ó s3ó átó ü 3 3 öss3 t t át 2rés3t rr t ésr é ü 2 t é t s3 á s 2 ós3í sé r 2 rs r s3 ásrés3t 2 ó á r 3 tt s3ó s té s3ó í és ö t t rr r 3 tá ó ö3ött r s3 r s öss3 ü ést tét 3 tü 3s á t s3ó s3ó í é 2ütt á ó és r s3 t t 2 é ít tt s3ó á 2 3ás s3 r 3 ós t r s3 r t s3ó r 2 á ó á ó 3 ós t rt r tü 33á s3ó í é t t r t 3 s3 á t r r 3 tá ó 3 s ó ú 2 3t étr öss3 s ü ö ö3 s3ó í s3á á 2 3 ss3úsá ú t rt á tö töttü s á 3 t á s s3ó s3ó á 3 t rt 3ó 3í ó s3 r t s 3 á t s3 á t t ító 2 és t s3t 2 öss3 s ü ö ö3 s3ó í s3 r t t át 3 3 öss3 t 2 3 ós t r 2 s3ó ós t r á t t öss3 t á 3 t é t s3 r 3ért 2 s á ár s s3 rá ó ö ss étr t ító tá á t ítás s rá r t s3 á t r é 2 érté és s rá ár s3tá 2 ó t ító 2 s3 r tát s3 á t t s3t 2 é t t ító s3ó ár tö s3tá 2 s s3 r t tt é t s3 r á s3t tt tá r t s ét és 3 t érés t ssá ér é törö tü í 2 é ü s3ó érté tü t s3á s3 r r é 2 t tá á3 t t rt 33 r s3 r sé ét ét s3 t ó 3s á t 3 s s t ár s3tá 2r t 3ó t ssá t értü s 3t 3 r é 2t t t 2 s r té 2 s 2 s s3tá 2t t á t r s3 r ás P t ssá s3tá 2r 3 3 s té t í 3 s té ét s t t át 3s á t s3 á ár 2 é 3 2 s s3tá 2 rü t 33ár ésr 3 s té 3 3 rá 2 ért 3 ó é á 2 ét t 3 á s3ó 2 s té t 3á ó 3 á t á ít é t t ás s ó 3és
175 Szeged, január t s é 3 t s s r ás t 2 2 r t s étr 3ás 2 ö tr t ö t 2 3 3ár t s3ó 2ütt 2 s 2 s 3ért r s3 r t sít é 2ét 2 r á s érté tü 2 3t ttü 2 2 és t s3tá 2 t t á ü ö ö3t t 2 3 í 3 t ssá t t íté 2 2 ö t 2 s 2 s ét érté és s rá át tó t át 2 á 2 3ás t r t s3 á ó ü ú t 3áró r t rs r 3 t á 3ó ú r s3 rt ár s3ó é 3 és tár 3ó té tó 3 s 2 33 s t s r á ó á t r 3ésér 2 3 tt s3ó 2 t 1t s s3 tt P t ssá s3tá 2r P t ssá s3tá 2r tá á3 t ét r s3 r t ssá t s3tá 2r 3s á s { t 5 } 3 r é 2 rés3 t s 3s á t s rá rét té s3tés t s s3á s3 r sít ttü t tá á3 t öss3 sít ttü át tó 2 3 s tö s3ót s r t s3tá t s rés3 3 ó á 2 s3ó 2 s s3tá 2 3 tt r 3 tt s3ó 2 2 s 3 3 ár s 2 éss t á t 3 s3tá 2 3 t s á 2 s3ót s r t 3 s3tá 2 ó á 2 s á 3 tt s3ó í é 3 é s3 s3t s3í r tó t át 2 3 ú ás t s 2 ö t t ás ós3í sé té 2 ás t és s3tá 2 ö3ött té s3tés s3á át t t s s s á s3á 3 s té 3 ö t 3 ú r s3 r s3 r t á ó 3 s 3 s r s3 r á t ó é t 3 sít tt ö t t ssá s 2 3 s ét r s3 rt öss3 t s á s3tá 2 ését t t t t 3 t sít é 2t 3 3 s3tá 2 t r t 3ó t s3t s t 3 tö t s r t ás ét s3tá 2 2 é ét r s3 r á ásá t t ít t ás é t 3 sít tt á ését t ssá t s r ás é ü 3 r é 2 3s á t s rá 3 s át tó t 2 s s t ás t 3á ás rrás 2 sírás írás t 3 t s3 t í 2 á s ás s3 r t s3tá 2 s r t t ítás á érté és é r s 3 r t s3ó 2 s s té ó 3 3és 2 s á Pé á tít s3ó rö s t t t t 3éss s3 r 2é é t 2 s ss3ú í s á t 3 t s té étr 3 tt r t s 3 t 3 t 2 r 2 s á és
176 166 XIV. Magyar Számítógépes Nyelvészeti Konferencia é r é 2 r é 2 t t t t tá á3 t ét r s3 r té s3tés átr 1 3s á t t s3t 2 ér 3és t t t é 3 s s3ö 3ás s té ár tó r é 2 s t Öss3 3és ü t tt ét 2 r t st ö tésér é s 2 2 s3ó 3 t t s étr ött 3 r t s3ó 3 r t s3ó í é 2ütt 2 s 2 s r rr s rá s á ó3 t t t s rt t r ó s3 rt ósító r s3 r ö3ü 3 tó t sít é 2 tt ó ö ött t ssá t ér 3 r t s s3 á t t ításá 3 2 t t s étr 3 tt és é33 r3ött t ító 2 s3 r s3 ét ü ö ö3 2 r 2 s3ó á 2 3ás s3ár 3ó r r 3 tá ó át t s3ó r t s3ó át s3 á t ár t t tt r t s é s rr 2 ás íté t á s té s t t t 2 2 s r s3ó 2ért sít r s3 r ó t rá ásá ár 2 s á ítás s tsé s é ít tt t 3á ó 2 s r ó 3 á t s rt s3 3 tö tsé s át s rá 3 ö3ü á s3t 3t ós3í sé t r t t t tt r s3 r 3 s t rr 2 3 stá s t 2 ós3í sé s3 r 2 s á t ss í 2 s ós3í sé 2 s á s t é 3 r é 2 ös3ö t 2 á ítás t tás 3 és P s3á ú r t r té 3 t t tás s3tés és á ós ó 3t sít tt tá táss 3 és P á 2á3 t r r s3ír 3ásá ós t t 3ás r s3 2 á P r P s 2 r t r r s t Pr s t t r t r t s t r Pr ss P ss r r t r
177 Szeged, január r ts t st t st rt s t r Pr s t 1t r t r Pr ss tr s r P ss t r t t st s ré 2 Prós3é 2 á3 á 2 r s3 2 t á 2 ö3 é 2 á 2 ó r 2 r 3á ító é s 2 és3 t r 3 Prós3é 2 s t s r t r s2 t t rs t t t r 2 t s Pr s t t t t ss t r t t st s t t st s tr s r P ss t r t t st s á r r s t t q t2 s r s P ts st r r t s t s s r r r s t t s s r t rt r t r t ss t t t st s Pr s st P tr P 3 t t t r ts r rr str t r r s t t s r s r s s t r s t t2 s r r t Pr ss 2st s t r r r t Pr ss 2st s Pr s t r t t t s á á 2 r s3ó á 2 3ás é3 érté és 2 r 3á ító é s 2 és3 t r 3
178
179 IV. Beszédtechnológia
180
181 Szeged, január s3é s r é 2 r á ós á t s ás r t s ísér t öss3 s ítás ót ás3 ó 1 rós3 ás 1,2 s3t 2 á r á 2 2 t r t té3 t 2 st rsé s t t tó s rt 4 t t r s3t r 6 s3 t 3 tó é r t tt r s s3é s r sátás s3 ás s ésér s3 á t ss ré t é 2 r á ó á t ttá 3 3 ú t ár é t 3 ss ú 3és ításár s3á s r t ítást 3 tt 2 é 2 r á ós ör 2 3 t ó átü t té s tr á s 2 2 é ör 2 3 t ü s3é étr 3ásár t á t ö tés ú á t s ás árás ré ó á t r t st s3 á é 2 á ós s r s ér 2 3 r t s s á s ss ör é s3 ését s3 á í 2 t tás 2 é 2 á ós r s3 r ér 3 t 3 tó 3 tö 2 á t s3t r 3 r t st s á t 2 ísér rá árást é 2 r á ós 3és 3 3ít é 2 2 r t st s ít öss3 2 2 t á3 s 3 2 ó ó s3 rt 2 2 r r s3 s érté ü r é 2 3t t t á ú r t s s3 á s r é 2t t ré ss ú ás ös3ö t 2 ö ésü r á ó té 3 3ít ss3 s3é s rés é 2 r á ó ör 2 3 t ü 3és á t s ás 3 tés é s3é s rés s3 á t r t tt r r t s s 3 s3t s 3 s3 ását író ós3í sé 2 é r 2 á 2 s ss s3 ás ré ét ss 1t r s3 tá 3 3 tó é 3 é 2 r á ó r t r t 3 tér 2 2 á 2 s ú r s3 r t rö t s s3 rít tt ú r ás rö r ö ött 3 tö é t 3 2 s3tés s3á s 2 r t trü 2 t tét ü t r sé ár tr á s ó átü t t 2 2 é
182 172 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3é s r t ítás rés3 t s s3 tá ás tá ó é ü s3 3s r t st rt t ítás 2 ás t s t ör 2 3 t ü t 1t t s3é t t s ítás 2 á 2 s r t tt r ó á t r t s ét 3 í 2 t á r s 3 t ó s3 r t s3 á r r s3 r 3á ás s rá 3 2 r t 3t t 2 t ítás 2 t ításá 3 2 t t ét rés3 t ás tá 3 ó s3 r 2 ö é s 2á t á 3 sá s és ós3í s t á s t st rt t ítás é 2 t r tí ú r t ítás és ú r s3té s ö ött r s3 r s té ó 3 tt t t áttér és 2 2 r t t s3t t 2 3t é 2 á ós r s3 r ósít átó ért t ár 3 tó é tö t ttá 2 2 éss t t ör 2 3 t ü 3és é 2 á ós ósítás é és é tt r t á ó é t 3 r s3 t ör 2 3 t ü t t 1t t 3és 3 3ót 3 rü t 2 ör 2 3 t ü é 2 r á ós r t ssá át s s3 á s érté ö 2ó t s té 2 r t s t t á t t s ításá 3 r s3 r ó á t ö tés ú á t s3t r 3 árását s3 á é r 3 ó s3 r ss s3 ás t s3t 3 2 s á t 3 t rt 3ó t t r 3 s3 és t ssá á t rt 2 2 s3t s3ét 2 s é á t t és s3tá 2 t 3t é ést t r tí s ét t 3 árás 2 r r s s3t r 3ést r é 2 3 ó s3 r ss ú 3és s té r ü á t 3 r s étsé s 2 ss ör é s3 és 2 r ó r tér r é s 2 t s ás r r 3 tá ó é á 2 r á ó s3 á r é 2 és ú r s3 r s té 3 t r r 3 tá ás ó s t s tér t r s3 r s té ó á t 3 ú r ás s3trá s 2ütt tó r q 2 str t s3 á t Ú 2 t 3 2 r s3 r é ö 2 r tí 3 t é á r sá r á t ö t ó t ít ó s3 r s3 r t t át 3 3 t s s3tá 3 á t s3t r 3 árás éért rá tá é 2 á ét 3 ás s 3 tó é á 2 é tö s3 r3 s ró á 3 tt ré s3t r 3 árás 3 ó 3ításá 3 és3 t térésé r r é rü ésér 3t ást s tá 2 s3t r 3ést té tt ss 3 ö s3 r ó s3 rr tö s ró á 3t ár 3 s3ár á ás rü 3 tér 3 és3 t r é á át s3t r 3 árás 2 3 r í 2 ss s s3 ás t ést t á r s s3 t
183 Szeged, január ás s3 r3 s3t r 3 árás ö tés r tér át s ó sít á 2 ó 2 3 s3 r á ós s3 ás 3és 3 r á ó t 2 s3 rét ós3í sé s3 ás ö3 ítés é t ért 3 t s3t 2 és ts 2 rá ü ö tés r tér é t r r s3 á tát s tá ó s3 rü öt tét s és ts r t s t 2 t r t 3 ú t ításá 3 t á t és ts 2 tró ú é ít r tér t s t é 3 tü és ts 2 s á s á ó3 t ó s3t r 3és áss á t 2 é 2 s rr á ó 3ésr rr t 2s s t 3á t s3 r3 2 s rés s3ó r rr r r t sö ését t s3t t 3 ú r t s 3ásá 2 á 2 s ú árás 3 é st 3 2 s3 r3 s rt s s ít tt öss3 ét tö s ó ó s3 rr á ás 2 ü ás ás t á3 st s3 á t 3 2 s ó s3 r 2 áss ó öss3 tését t s t t é t s3 é 2 2 r t st s ít öss s3ótár s s rés t rá ás 2 3 r á ó s3 á t t s3t r 3 r t s t át 2 33ü 2 ás ör 2 3 t ü t í é s3tését rá s t r á ós t st rt ó s3 rr é 3tü í 2 3 é és s rá s s3 á t t 2ó 3 öss3 s ít tt r s3 r ö3ü 3 tt 2 ö tés r tér 3 3ít 3 3 s3t 2 és ts t és ts t s t s ást t s t ítás 2 tr ö tés ú á t s ás ö tés ú á t s ás r t s és ts é 3 3 és ár 2s3ótár s s3é s r r s3 r és3ítésé t t sé é á t ó s3 r öt t 2 3 tt s3é t s á t t 1t s ü r á s t öss3 3t é ésr é ésr rés3 3 r s3t 2 r r s é t r r 3 tá tó s3t r 3ést r é s é és 3 r á t ér é s tt s3tás t sé ö3ü 3 r t s 3t á s3t 2r tt t s3ét s3t tt 3 1 á s ü ö ö3 ü ö ö3 sé t s ás S á t 3 s3ét s3tás ó s3ár 3ó 2 r sé érésér 3 r t s 2 ós3í sé ú ö tés r tér t s3 á 3 ó s3 r 2 r á t 2 3 ú t ús3 é s ró ó sítás t s t r t é á é ítést 3ér t s r t t é 2 ér és t t s rá ását ós3í sé ú ö tés r tér 2ü 2 tt á t 2 S 3 2 t s3t r 3 3 á öss3 s s3 r t é és ts ó s3 ré ö tés é íté s s rá s ó t á ét át rés3 3r s3t 3 t á s
184 174 XIV. Magyar Számítógépes Nyelvészeti Konferencia S 3t 3 s3 ér és á ér ésr tt á s3 3 t á s s3ét s3tás tár 3ásár 2 1 ú ö tés r tér t á t 2 té 2 r t st s s t 2 r tér t 3 á ó ö3 ít L(S) 1 ( log[(2π) K Σ(S) ]+K ) N(s), 2 s S ö 3 2 s á t t Σ(S) 3 S s t s3órását N(s) 3 s 3 s é á t t r s3á át t r á é és 3t q ér ést á s3t 2 1 3á érté L(q S) á t 3ását s S L(q S) = ( L(S y (q))+l(s n (q)) ) L(S), S y (q) és S n (q) S 3 ét rés3 3 2 q ér és 3ásá á 2 33ü 2 érté ü r t ó 3 2 s t ító é á tó s á 3 2 s á t r s t ító é á s3órásátó t é á s3á átó r á ó ú á t s ás t s rt t tt r tér é á s3órásár é ü ss ú 3és s té éss3 r 3 s3 ss ör é 2 r ét r s3órás 3 ú 2 tt r á ór é ü t és3ítü r t r s3 á t ér és ssé á 3 ö é 3 és3 t s t s térésé ó rá s rt t tt ét r é ár tö s3 r3 s 3t ást s t 2 ss ör é s3tés 2 tt t íts 2 r á ót ás ör 2 3 t ü t í é s3tá 2 3ásár 3 t 2 á 2 s 2 é 2 á ó s 3t á ót t á s é r á ó 3 és rö ö éss rá t 3 t ításá 3 s3ü sé s í é s3tését ár 2 2 á 2 s r s3 r t ításá ár 3 tó s t ú t st rt t á s ítsé é s é 3 t ü é 2 s t 2 3 á t s ás 3 s3ü sé s s3t r 3ést 3 ö s é r á ó té é 33ü 2 ó s3t r 3és s rá s3 t sé 2 s é r á ó 2 3 ö t t 3 t á 2 s3t r 3 r t st é t 3íts s é á ó t érté 3 t á rr s rt tü é 2 ó s3 rt s é r á ó t r s3t r 3és 3 r és ts á t s t ás t 2s3 r ➂ ö3 t ü s é á ó té tt t á s3t r3 r t st í át 3
185 Szeged, január r t st s 2 ó ó sít á ó s3 rt s rt t ü s3ós3 t s ását t s3t tá ár ü 3 t s t s í t s á ss ör é s3tésé ú s3t r 3és ó s3 r s t s á t 3t t í 2 é é 2ü s3 r t í ás á s té s3t r t tt rét é té é 3 tt s3t r 3és r és ts á á ár 3 s és 2 3t s t 2 s3t r 3ést s é á ó té t só r t tt rét é é 33ü á s3t r 3és árás á t 3t tt s ó á t é r t st 3tá Ú 2 t á tá 2 s á ts3á s té 3 ás ö ött t st r árás ár 2 á ts3á s té 3 r t 3t r ts3 t í é t t s3tésé ró á tá 2 rá3 3 s3tést 2 s 2 2 á 2 s r s3 r tté át r r á ó s3t r 3és 3 s r t tt ét ó s3 r 2 s á t 3t tt s3t r 3és s rá s3 á t ö tés r tér t s á 3 tt áts3 tt s3t 2 és ts s3 t 2 rá ü s t t t tt 2 r á ó t 3 3ít tt ö tés r tér r 2 öt tét s és ts r 3 s3t tt ó s3 r t 3 ó s3 r t s t s 2 3 á rö öss3 és á r á ó t 2 s3 rét ós3í sé s3 ás é t ért 3 t 2 s3 ás öss3 s ításár s3 á t r r át 2 2 z t és 2 y s t r ö ött í 2 á tó D KL (y s z t ) = K k=1 y s (k)log y s(k) z t (k), k {1,..., K} t r 3 ó 3 á érté 1 3á ás 2 tt r 3á ásár tör D KL (S) = s S K f F(s) k=1 y S (k)log y S(k) z f (k), S 3 s á t 2 3 F(s) 3 tt á t 3 t rt 3ó t í tó é á 3 S 3 t rt 3ó é á t r r 3 tá ó t r 3 3 y S ú 2 tó t 3 S s é á ért ö3 ár s r t é ít 2 s3á t ö3é s 3 tó é r tás és 2s3 r sítés tá 3t 2 D KL (S) = s SN(s)log K y S (k), k=1
186 176 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 s 3 á t 2 S 3á r á 3 2 s á t 3 t rt 3ó y s és N(s) st t s3t érté tó S á t 3 s3ét s3tás r átó ért t 3t ér ést ér s á s3t 2r r D KL (q S) á t 3ás 1 á s D KL (q S) = D KL (S) ( D KL (S y (q))+d KL (S n (q)) ). tró á ó á t s3t r 3és és ts 2 2 ás t sé t s t 3 s3 té 3 é r tér q 2 ss ör é s3 ését ü t r á ó 2 tt sítésé s3 rét 3 öss3 t s3t r t rt 3ó é á s ósá át 3 tró á á r 3á é t r á 2 K 3 ós s3 ás tró á 3 á ó sü t K H(p) = p(i) log p(i). i=1 ó á t t író s3 ás y s t r s ésér 3 tt á t 3 t rt 3ó r á ó t át át s3 á á á t 2 S 3 s té r t tí s ós3í sé t rt y S 3 s á t y s t r sú 2 3 tt át é t á ít sú 2 3ás N(s) é s3á á törté ö tés r tér 3 tró ü é 2 á r 3á tó 3 á ó K D E (S) = N(S)y S (k)logy S (k). k=1 t t rt 3 á t s3t r 3és tt é 3 ü í é s3tését í é s3tá 2 3ásár t ít s é r á ót 3 s3 tést é 3 t ü 2 á 2 s ó 2 r s3 r t ításá s 2 3 rr 2 3t t 2 tt s3tés tét ü s3 t á s t ítás é ár 2ó 2 á s ást á s3t tt 2 é 2 ú t ítását r á ó t t st rt ó t ít tt 1 t r t t ítás r tér s ítsé é s3t 2 és ts rá ét ö t té 2sá ö ésér tr á s t ítás árás 3 á ó sítás t é 3tü s é t t ítás é t r t r r r r t sá á ít tt á s s r í s3 á 2 s árás 3 t ítást s t ítás 2 t é é s3ós3 t í é é 3 ás s3t t í s rr 3t 2 é ü 3 3 2s3 r sítés ös3ö t
187 Szeged, január t í é ú r s3tés t t á tá é 3 t 2 rs r át r é ó s3 rr t ítás s á 2 rs tt ás ó s3 r 3 é st é r é 2t s tt ísér t á ítás é 2 r á ó ó s r t órá 2 s tt s3ö t t r t 3ó tr t r r s3 s rés3 3á t ít tt érté ést 3 és 3és t s3t 3 é 3tü 3 ú r2 3 3 t 3 r s3ót t rt 3ó s3ótárr s3 á 2 s s3 ít tt tr r 2 3 ö3ü s3t t 3 é t 3 3és rés3 r s3 s3 á t t 3á t 3 2 t r ét r t t 2 sú 2 s3ó s3úrás ü t tés t s t á t s3á t s3t és 3 2 ó t 3á t r ét rérté tt 3 rés3 3 törté t 3és 3 s át s s3tés r á ós s t s3 á t t 3 t r é t s á ás r 2ütt tó s3 á t t rt 3ó s és ás r á t 3 és3ít r á ó tét 2 s3 s3é s 3 t r ó á ó t é 3t s é á ó é s r á ó öt r t tt rét t t rt 3 tt rét é t r 3 ú t á ós ü é 2t s3 á rét s3 á 2 s ó s3 t 1 t á ót s3 á t ó ás és érté és r r s r á ó 3 3í t tt á t 3 tá törté t s3t r 3 r t s é 2 á t 3 tát é 2 é 2 r ét r á ítás tt tt tt 3 s3t r 3ést 3ér üs3ö öt ú 2 2 3tü 2 örü ü t s t á t t á r t t 3 á t s ás tá á t í é r s3á á s3 ását ö3 ít á t t r é 2 3 á ítás tt tt 2 3 s3 ás s t 2 s ó 3t s 2 t ü 2 á 2 sú 2 3 tt s3 ást r é ás 3 3 ss3 s s3t r 3 r t s t ó tt tás t r é 2 és s3 ss3 ó 3 tá á3 t t t t 3 ért s3ó érté t 3 2 s r t s t r ét r á ítás t s3t 3 tt át át tó 2s3 r r t s ö ött r s3 3 3 s é á ó t t ss3 s s3t r 3 r t st tt t s s3ó át értü t 3 í t s3t 3 t 2 3t st r s3t r 3 r t st á ó t só r t tt rét é té tt t és 2 ét ö t t 3 2 é 2 át t t s3t 3 s3 t s3 á s t 3 r é ó s3 r 3 é st
188 178 XIV. Magyar Számítógépes Nyelvészeti Konferencia 1e+007 1e+006 Tanítópéldák száma 1e DNN + Likelihood 10 DNN (rejtett) + Likelihood Kullback Leibler Entrópia Kapcsolt állapot indexe á r t ító t t r s3á á s3 ás ü ö ö3 s3t r 3 árás tt í é s té s t á t tt s3t r 3és t s3t r 3és rét ö tés r tér s3t t r t tt t r s3t 2 tró tá á3 t t 3 ért s3ó rá 2 öss3 3és 33á t rt 3ó t s3t 3 ért á ü ö é á t s ó r t s s té t á ét t s3t t ó s3 r st r ss ú s3t r 3ést 3t 2 ú 3 3ít tt ö tés r tér t és 3 át s3 s té 2sá t 3 ét ó s3 r 2 r t 2 3 s3ó rá 2t ért r t 3 tró ú r tér s té t s3 3 s t 2 ü ö sé t értü 3 é st t s3t s3 á s Öss3 ssé é r tá sá ó ö tés r tér s3 út sö ést értü r é tr á s ó s3 r 3 é st r tí s á á sö és és á r t t rés3 t s r é 2 t 3 3 é 2 r t s á t ü ö ö3 á ts3á s tér tt s3ó rá 2 t 3 á rá s3 t ó s3ét á ét st r r tér t t ét 3 3ít tt r tér t 3ó ó s3 r 3 tó s rt á ts3á tó ü t ü 3 s3t s s érté t ért ás t
189 Szeged, január Szóhibaarány (%) DNN + Likelihood DNN (rejtett) + Likelihood Kullback-Leibler Entrópia Állapotok száma klaszterezés után á r é 2 s3t r 3 r t s s3ó rá 2 t Szóhibaarány (%) DNN + Likelihood DNN (rejtett) + Likelihood Kullback-Leibler Entrópia Állapotok száma klaszterezés után á r é 2 s3t r 3 r t s s3ó rá 2 t s3t 3 s3 r t 3 3 r é 2 2 á ó ó 3t tü rö3 2 3 á t s3t r 3 r t s t á 3 ó 3ítás tt át 3 r t st 3ér ö tés r tér t s ér s r á ó 3 s3 í r é 2 t t 3 á rá át tó ör é á s t á t s3á á ö é s ít ss3 s ú s3t r 3ést s3 á ó ó s3 r t sít é 2ét ét ó sít tt r tér t 3ó r t s s té 3 3 t t á t ör 2é é t 3 t s3t 3 33 s3 t 2ért t á t 2 é 2 ó s3 r r tí ér3é t 3 á ts3á ö ésér tér
190 180 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3t r 3és r t s s3t r tró tá á3 t ét ó s3 r r é 2 2 r 2 r s3 2 3 t sá ásá 3 ós3í é 2 2sá r tö t ító t s3ü sé s é 3 tü 2 33ü 2 tt t á s á ts3á s t rá r s3 r t s3 r 3 s3 t 3ért ár á s s3á ítás é 2 tt s ér s 3 á t s t r t st s3 á 2 r 2 r é 2 rá s rt t tt érté ést 3 2 tr t r s3é r s3 é 3tü 2rés3t 3 t ö3 á tósá tt ás rés3t 2 ér t t r 3ésü r á ó 2 r t á3 s 2 r s3 r3 é t 3 2 r 2 s3é s rés s3tésé 2 ér t í 2 ét t sít öss3 tését 2 r 2 r s3 s é 3tü ísér t 3 tá3 órá 2 ír ó ét t t rt 3ó r s3t s3 á t r s3 3és r ét r tö é t s 2 3t rá á ó s3 á t í 2 3 t és r s3 r rés3 t s s rt tést t tü t á tó tá á3 t t t 2 r 2 tá á3 s tt r é 2 t ét ó sít tt r tér t 3ó 3 3 r á t 3 tró á ó r t s s té s3 2ítás t é t é 3 tt í s3tést és á t s3t r 3ést 3ó r t st tü t t tü 3 r é 2 3 áts3 2 r á ó ás t t s3t 3 é t sít tt t 3 tró ú r tér r tí sö és ú t ó á 3 é st Öss3 3és é 2 ör 2 3 t ü á és3 t ításár s3 á ó s3t r 3 ó s3 r t sít é 2ét s ít tt öss3 é 2 r á ós ör 2 3 t é 2 r t s 2 2 s é r á ó té t r t tt rét é té é 3t s3t r 3ést ísér t 3 3t t t tá 2 s3t r 3és 3 tt ér s 3 r t s ö tés r tér át s r á ó s3 á tá 3 3ít ó sít tt r tér
191 Szeged, január ó r t s á t 3 t 2 s s t t sít tt t 2 á 2 s é t t s3 á ó érté ést 3 2 tr t r s3é r s3 é 3tü t sít ét ó s3 rt 2 2 r 2 ír ós s3é t á3 s s öss3 t ttü ísér t s rá rá s t ú t st rt t ítás ó s3 rt s3 á t 3 3á ás 3 r r á ú ás s 3 í é s3tés s ör 2 3 t ü í é ítás s rá é 2 ss ör é 3 3 ré t ó 3ását t s t s s3tés ás rés3 t s s rt tés t á tó ös3ö t 2 á ítás ót ás3 ó á át 3 2 á s t tás Ös3tö í tá tt rós3 ást 3 r r rrás s3tér P ó s3á ú Ú 3 t á ósá Pr r tá tt és3ítésé 3 s3 á t t r s árt2át 3 r r t á 2 3t t 3ás r r tr P P t tr t 1t t r t r st s P s3t 2 rós3 ót r t st rt s q s r t tr t rs r s P 2 P t 3 r P r r P r 2 s q tr r t r s r s tt r t rs r s r r r t st t 2 r r r s r tr t t 1t t s r r r s r t P r s r s r s t r r r t 1t t r tr r t r s r r r2 s r t r s P P r s st t t2 r r 2 st t st s t r s r s P r r st tr P 2 t 1t t st t t2 r s r t s r t r st s P s3t 2 rós3 ót s t 1t t s t s s r r s st t t2 P r s s3trá
192 182 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 s r ss t 1t t st r st t s r 2 r r s P r tü r ss r st r tr str t s r t r t rs r 3 é t rs3á s r st t t2 rr t 2s s t rs r s 2 t t q st r t r s tr s st t t2 P s t 1t r r2 t P t s s rs t2 r s s s tr st r r rt s r st t t s s t P r r P r r r r t st t q s r t st t rs r r t s 2 t t t st s t s r t st r r s r P t s s P 2t q é ér s s r2 tt s t 3 t s q ss t r t r r r t r st P s ý s r t P 2 q s r t tr r t r s t rs P r s r t tr t r s r s tr s r P ss t r t t st s ót P r t t s rs r t r r t r s P r s rs r s P 2 t P r rs t2 r rt t r rós3 s3t 2 ót é 2 r á ós s3é s r t s t ítás 3
193 Szeged, január í3 ós r t írás ss3 á ítás r rr s rá s á ó3 t ü áté s r á á3s 3 s3á 2ör 2 st s3 és 3 sá t á 2 2 t á ö3 és és é r t s3é 4t t r s3 s3 6 t t t 3 t t s s3é s r r s3 r t á t á t rt 3 írás t 3 ö t 2ás á 2 s3ö ért ét és ért 3 t sé ét 3 írás ss3 á ítás r é á ár ö3 ú t r é 2 s 3t r rr s rá s á ó t ós t t í3 ós r t törté írás ss3 á ítás 3 2 í ást t 3 s 2 és t tés ér é r s s érté t t t r s3 r t á s s3á ü ö ös r á s 2 s tá s3é s té ü 1 tró 1 t és írás 3 t s ít öss3 2 r 2 t í3 ós r t ós és 3ás s rá ár 3ás 3 ú t sít é 2 ü ú t 1 t s r s3 rét t 3 á s t s 2ás tá 3 írás sé ét 33 s3 3 r t tés érté é r á t 3ás s s t ssá sö ést r é 2 3 tt á tárás ér é s rtí s é t s érté tü 3 írás 3 ü t é 3 tü ü t 2 2 t á3 s s ítsé é ás 3 t ö3 ás s öss3 s ít tt ss3 írás ss3 á ítás r rr s rá s á ó3 t 1 tró r t 3ás 3 tés 3 írás t ssá s r 2 3 r s3á ár s tó á t s3 s3ö t s3ö 3ó r s3 r s é ít rá s3 t t 3és s rá 3 3 á 2 s 3 r é 3ást s 3ít 3 ú tá ó r s3 r 3t r é át á t á ú 2 rü 2 ár á 3 írás ását s 3 ö 2 át 2 s3é 2 ú 2ütt ö és ár tó 2 t í3 ós r t 3ó r s3 r s té 3 írás ss3 á ítás 3 r s3 r té s rt r é s3é t ó á ét t ö3 ítést t ü ö ö3t t r 3ó út és s3ö út ár 2 r á s s3 á á t t á ssá r 3ó ú ö3 ítés s3á ítás é 2 s 2 és r s3t s 3 á r s3 t t ítás 3 s3ü sé s í é3 tt
194 184 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3t t á3 s 3 33á ér t 33 s3 s3ö ú ö3 ítés tö 2 r t s írás 3ést t s3 t é á 2 2 sé rá 2 ö 2 33á ér t s3ö r s3 2 r ér 3é 2 3 á r és tö s3á ítást é 2 r írás ss3 á ító ás 3 r s3 r r 2 é é ít tt r t tt s é 2 é t t rt 3tá 3 írás t 3 3 t s r s3 ását é 2 2 sö tsé 3 t é t sé ó r é át és t 2 t s3 3és ö3 ítés s tr s3 ú r r tr s3 r s té 2 írás 3 t s3ö rü tr 2 t r r t tt r 2 1 tró 1 t s ítsé é írás t 1 t ú írás 3és t é t s3 s3ö s és r 3ó 3 té 2 á ó át 2 át ó t á 2 ü ö ö3 3 t s ít tt öss3 3 írás 3ésr 2 r t tás t t té 1 t t s3 á r s r tí s3ö s 3 ö3é s3ó és s3ó P í é t rt 3 t í r 3ó 3 s3 ö3ött s3ü t t rt t és társ á t s t ás 3 írás 3ésr t 2 ü r ítás tr t t írás 3 t írás t t rt 3ó s3ós3 á t 3 2 t s sö t tt 3 és t tést ö3 ú t t é 2 rá s á ó3 t ó á s tt 2 r tí ss3ú s3ó t 1t s 2 s3 2 á 2 3ás rét ré é át ít tt s 2 3 ó ú t r r r 3 tá ó át ss3ü 3 t át 3 t ét rá 2ú r rr s rá s á ó3 t 3 írás r ó át 2 s3ó 3 3 t s é s3 í é3és t 3 3tá ár s r s é s 2 t 1t s 3ésér t s3 ó 2 3 t t 2 r 3 t é t sé r é á át tó és ä ét rá 2ú é á t 3 ú tt t 2 3 ss és3ít 2 s ít é ó s3á 3 írás s3ó ör 2 3 tér ö3 t öss3 ött tés ré é ü ú t rá és3t és r é 2 t 2 ré és3ü t t á 2 t 3á ó és 3 írás 2r á ítását 2 áss rr á ó tö s3örös s3 í é3és t é t 3 té ét rá 2ú s3 r3 2 2 r 3ó 3 t s3 á ó ú ö3 t 3ás ást s t 2 átt ré 2 t 3ás ó rá3 s r törté tás és írás ö3ött s t á ítás á t t í3 ós társ sá 3 t ó át s3é s ör s3 á á r t és3ítésé 3 ü ö ös 3 é r r 3 2 ö3 ós 3ás s és t tést é 2 ü 3 t 3 s3 s 2 és t tés s3ö ú t t s írás 3 t sít é 2ét 3s á t t 2 2s3 r é ítés ú írás ss3 á ító t ét rá 2ú á és s3ó á 2 3ást é 3 rét öss3 s ít t sít é 2ét 2 1 t ú s áss ü ö ös 2 t r ít 3 s 2 és t tés á
195 Szeged, január s r ét r s3 r t sít é 2ét t t s és á s át r t s érté ü ü ö ö3t t 3 és ö t tés 3 s á ítás t 2 r 2 t í3 ós s rs3órás ó s3ár 3ó 2 í ü 3 2 t 3á é 3 tt ísér t r é 2 t s t t í 2 öss3 s ít ü t sít é 2ét r r s3 r á t s rt t tt t s3tá r 3ó ú ö3 ítés í ü s rü s 2 3 t s át 2 r 2 s3é át r t törté írás ss3 á ításár ü 3 á str túr s3 r t é ü s3ör t t 3 á t s3 á t t á3 s t t ísér t 3 s3 á t t 3t ö t áttérü 2 r és 2 írás 3és ísér t s rt tésér és s3 ss3 ó ár é 3 tü t sá ás tá é á 2 ö tsé s t tás rá 2t á3 t á3 s 2 r 2 t á3 s 3 írás ss3 á ítás ísér t 3 s3 á t 2 r 2 t á3 st é s3 á t tás tá tó és 2 3 sát tt r 3é sü r 3 t á3 s ü ö ö3 3 t rt 3ó é33 és3ít tt r t t t rt 3 2 t é t s3 s3á r 2 ü ö ö3 társ á s r á t t rt 3ó s r é á árás r 3és ír s r ír áttér s3é tés 3 s rt ír és s rt 3 érté ü 3 írás 3 ás t 2 r és 2 s3ö ért t sé s3 t á ó t s írás t á ít ss3 ss3 t t é t t ér t és á tó t tt s t t és t s ss3 t ss3 2 tt sít ttü ás írás t t t ttü t ító 2 át á ós é ó á s3t tt t 2 ü ö r r 3 t tí t s3t és3 t t s3 á 2 s át és s t ító s á ós 33 3 t 3 s ó ó t á st t s3t á tá á3 t s tó tá á3 t 2 r 2 t á3 s st t s3t á ító és á ós 3 s3t 3 3 ss3 P t ér 3 ss3 P t ér árás ír ó rt ír ír áttér rt s Öss3 s é33 és3ít tt r t tt t t s r t t s s3 á t í sér t 3 2 t í3 ós s r é r t 3ásá 3 t 3á t
196 186 XIV. Magyar Számítógépes Nyelvészeti Konferencia r s3 rr és3ü t 3 2 é t ító tt 3 írás 3és é tt 33á t s órá 2 s3é t s3 á t 3 s3t t ításá 3 3 t t s át r t át s s3ó rá 2 örü ü t 3 tó ü 2 á t 3 t ssá t t t tt ás tá á3 t 2 s t ór á á t r 3ésr 2 3 t á3 s 2 t á3 s 3 t 3 2 ás át r t ó á és ö 3 ú t 3 írás ss3 á ítás ísér t 2 é s3 r tá á á t ísér t s rá 2 3t t ító á ós és t s3t 3t s3 á t t t t á 2 3 r r és s3ót t rt 3 3 t á3 s s ss3 t t t és ér t t rt 3 í 2 s 3 ss3 á ításár 2ú t t sé t rás ss3 á ító ó s3 r 1 tró 1 t 1 tró 1 t t r t t r s t s3ó í é3ésr t t t s3 s3 á é t ír 2 s t 3 2 s r 2 3 r t 2 s ít t í é s t 3 írás tár 3ásá é é ü 2 t t ítás t t í é t s r 3 t 3 33á r 3 tár 3ásá 3 1 t tár 3 r 3ésr á ó í é és 3 t á s t 1t s ö3ött 2 2ütt s s3 ást 2 2 rá s3 r ét rr s3 á 2 3 tó 1 t írás 3és ü s s t s s3ó t s3 á t 3 é t 2 r 2 3 t 2í t rrás ó ú 2 ü t r ú 1 t s3 í é3 r r t s3 á t t ít ttü 1 t rá s3 r ét r tár 33 2 tt t 1t s ér tét ért 3és s3 r t ú t és ö t 1t st 2 érté s3 2 rr á ításr ó é t t 3 ö t 1t s 2 ét 3 és t tést ö 3t tá 3 ó ú t sít é 2ét s érté tü ü 3 á r 3áró s ö éss t ú t és ö t 1t s ér tér 3t t 2 ó á 3 tt 1 ú t és ö t t s3ü 2 3 tt s3ó 3 t rt 3ó írás r ó á 3 rr s rá s á ó t ító á ós és t s3t 3t rö 1 ss3úsá ú s3 á r s3t ö3t s át és é ü ü ö ö3 s3ó s3á át tá t ító 3 2 r s3 á ó s3ótárt é 3 s s3 t 2
197 Szeged, január ö3ös s r t í é át 3 s át s3ó á 2 3ás átr 1 t é 3ü 3 r t ít tt á 2 3ás és s3ótár s3 r s3 s ítsé é ísér t 2 2 rá 2ú és 2 ét rá 2ú t sít é 2ét 3s á 3 t á s s3ót 3 tr ós 3 írás t ísér t 3 s3 á t r t túrá t 3 á rá t t 3 és r s3ó á 2 3ás rö ítésé ö t 3 é é ü s3ó á 2 3ás átr 1 á át tt s3ós3 á s3ó á 2 3ás tér x t r r 3 tá 3 x s3ó 3 t rt 3ó 3 ós s3ó á 2 3ás t rt t t 3 r r 3 tá ó ö t 3 r t tt rét rü 2 2 r t tt á ó á 2 x t t 1t s rö 3ítéséért 3 r á ó 2 réséért s t t 2 sof tmax t á ós ü é 2 s3 á t tá 2 3 y t t í é s3 ását s3ó x t t t tr s t r át t s3 r é ítés 3á t s 2 és t tést ós ö ést t s3 t é á r és s3 r 3 t 2 r írás 3 t t ító r s3 2 r s3 á t ít tt r t s3 3 2 ö3ös Ismeretlen s3 ó t r tü 3 ú írás 2r á ítás ós r t ít tt 2 r 2 s3ó á 2 3ás t s3 á t ós é s3 r s3ó á 2 3ás t s3 á t t t ítás s rá 3 sú 2 t t r s r s3t tró ö tsé ü é 2 á ó sít t 2 s r ssít ü s3ó á 2 3ás t s 3 s3t t s rít r sés r s r ú t 3á ót t tt é r 3 r r ét r á ós 3 t érté s3 á ss3át s3ótár ér tét r t tt á t s3á át t ér tét és 3 t 3á ó tí sát á t 3t tt r á ítást r 2 st P atience s s3 á tú t ítás rü és ér é tá á3 t öss3 2 r és 3 és s3 á t
198 188 XIV. Magyar Számítógépes Nyelvészeti Konferencia r r ét r é s érté t ért 3 t s 2 t ttü át é öss3 s ít tósá ér é 2 tá á3 t és r r ét r 3 ss3 s3 3ótár ér t s3 3ó á 2 3ás t tt t t 3á ó Patience á t ér t Pr ré é ré é 1 t 3 s ó 3 é s ü ö ö3t t ü 3 s 2 és t tés 3 tá t ó t és r s3t s ó t ttó ü 2 2 ss3ü ö t 1t st 3 ú írás 3 r s3 r tá ásá 3 r s r tr s3 rt s3 á t t ítást P é 3tü 3 rrás ó 2 á s ér t 3s á t és3ít á3 sá s3ó tt ás s3ö s 3 s3 á tát s t ór ttü á s3ó í é t s s t és r ó 3és s3ár 3ó í é 3 3 értü r é 2 t í 2 t á ísér t s rá s s3ó r tá s3 t ísér t r é 2 ö t 3 3 t t t 2 r és 2 írás 3és ísér t r é 2 t érté és 3 st r r á ó ss3 r sés t tó t s3 á t P t ssá Pr é3és és érté 3 í ü t t rr r t érté t s 2 2 tr á 2s3 r r tü rö3 3 írás ss3 á ítás 3 s ó ó á tsé s tí sát s3úrás t s 2 tt sítés t és tör és t SER = C(Ins)+C(Subs)+C(Del), C(slotok szama) C(.) s3á á ó rát r s t s3 tá 2 s3ö írás t 2 3 t 2 r r é 2 s3ör öss3 s ít 1 t s3 í é3 s r s3 r t sít é 2ét ás 3 t 3 ú írás 3 r s3 ré ás 3 t 2 r t 3 ét ü ö ö3 rá ó 3 tt s t t PP
199 Szeged, január ó 3 t á s s3ó tt t írás r ó 3 é é r és t tést r é é ós 3ás 3 tó írás 3és r é 2é érés ér é 3 ú ó ö t 1t st s s3 á 3 r é 2 t ét tá á3 t t t é3 út á ít tt r t é 3 tt írás ss3 á ítás r é 2 tá á3 t 3 t t s r t é 3 tt ss3 á ítás r é 2 tá á t á tó 1 t (i, j) ö ésé i ú t í j ö t 1t st t r á ó rá s3 r ét r érté ét ö t át t ss3 r ó ó s3 r és rá ó s té tö írás é ö3ü r r 3 t ós3í 2 rá3 t 2 2 r 2 ss3 2 rá 2 í3 tó sü t s t t ö t s3ó á 2 33 tét t é t í3 tó ss3 á ításá 3 t t t 3 s3t s 3 2 ét s tá á3 t rás ss3 á ítás r é 2 2 r 2 á s r t r át r t ó ó ss3 P t ér á tó Pr Pr Pr Pr 1 t 1 t 2 tá á3 t át tó 2 r 2 á s és3ü t r t 3á ö3 r tí sö és ér t 3 ú írás 3 s 1 t r s3 r 3 é st és ü ö ös ó t sít t ér és á tó 2r á ításá 2 t 1t s r r á ót s té 2 é s s3 á t 1 t í é3 ö t 1t s r át 3ás 3 rá ó s s érté 2ás t 3 írás 3és r é 2 ssé ét t r s3á ít tt ö s3ós3 2 rt r á ó é t r s3 s t ö t é3és 1 3á ását 2é é t t ssá t t té s s 3 írás 2r á ításár tá á3 t rás ss3 á ítás r é 2 2 r 2 é r t ss3 P t ér á tó át r t Pr Pr Pr Pr 1 t ó 1 t ó
200 190 XIV. Magyar Számítógépes Nyelvészeti Konferencia t 3t 3 t ár á3 t 3 á ö t 1t s r át 3ás 3 té 2 3 ö3é t rt 3 2 3ít 3 írás té 2 2 3ését 3 é s r r t 3 r é 2 3t t t á 2 ét t r ö3ü ö t 1t s és é t s 3 írás r s3t s 2r á ításá 3 t ár 3ás 33 s3 3 á öss3 ü 3 írás á á sró é út és3ü t r t r ó áttérés s rá érté ö tt ás tá á3 t t ár 33 ár 3 s 1 t és ö3ött ü ö sé s sö t 3 r t 3ás r 3 é t s ü ú t s r s3 rt í3 s 2 r 2 t á3 s t s3t 3á r t t t ór á t s3t ás tá á3 t 3 3 t 3 2 s ér t írás 2r á ítás t ssá t s ít öss3 tét r á s s tá írás 3és 3 t s3 3 s té s 3 á rá s r t 3ó írás 2 rés3ét érté tü ás 3 r t t tá á3 t é3ést 2 t ssá t t tt tár 3 té s3tés átr 1 á 3 ú r s3 r t t t t 1 t r s3 r t sít é 2ét ö 2 s tósá ér é ú 2 ö töt tü 2 s és r s3 r r é 2 t és tá á3 t tá á3 t é t írás 3és r é 2 2 r 2 r r át r t r át r t ó ó ss3 P t ér á tó Pr Pr Pr Pr árás ír ó rt ír ír áttér rt 3 3 árás ír ó rt ír ír áttér rt 3 3 öss3 t ü 3 r é 2 t tá á3 t st t s3t á át t 2 3 írás 2r á ítás ír ó ír áttér és 3 s té s rü t 3 s3 3 r r r 3ü
201 Szeged, január tö t ító 2 3 s3 2 2 ü ö sé ár ó 3 tt ö3ött 3t s 2 3 í ü ás té 2 3 s 2ás á 3 r é 2 t é é 2ü s3 r t 3 ö3ü 3 tt s3ö t r 3 ttsé 2 3és 3 s ó é r á s s3é stí s ét á té 2 3 írás 2 3és s ír ó s té 2 á ó 2 társ ás ír áttér és 3 r á s 3 s3é stí s s át ssá 2 ás sé és 3 t r t s3 á 2 r 3és ó rá 2 s é á 3ít r ót és r á s stí s 3 é st tö írás 3és át 3 t r s3 r tá á3 t é t írás 3és r é 2 2 r át r t át r t ss3 P t ér á tó Pr Pr Pr Pr árás ír ó rt ír ír áttér ó rt 3 3 árás ír ó rt ír ír áttér ó rt árás r 3és és s rt r r s té s3 2 s érté 3 t ssá át 2 t ító 3 2 sé té s s t t t rt t ít tt té örö s té t á t ító 2 ásá 2 tá ós t á 3ásá t r é 2 t ér Öss3 s ít á s és é r t írás 3és á t é á 2 ér s ö t 3t tést t ó 3 tt s té ö és rr á 3 át r t s3ó rá 2á 3 tö árás tés s rt ír s rt 3 és ö3ött 2 öss3 ü és 3 t s rt ír s3 2 2 r é 2 r ü ö tér é í 3 át r t érsé t s3ó rá 2t t t 3 írás 3és 3 s ó ó érté ás é s3 r sér tt ró r tét 33ü 2 3 sé s rt r r s3 r é t t2 ö tt 2 sé é ü öss3 t t 2 s rá 2 tt 2 t t s3t 3 s3 r ö3ü
202 192 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 r é t é á 2 ö3 ú t á t írás ss3 á ító áss s ít öss3 ü t é ó 3 t á 3 st s3 á 2 ás r t t t rt 33 és 3 2 írás 3és ísér t é 2 t r t t t r í3 öss3 s ít tósá ér é 3 ért 3 tt t ító á ós és t s3t 3t s3 á t 3 r r ét r t rr tr ú r t 3á t á ós 3 ü 2 3 t á3 s t rt 3 tá t á tó 3 3 írás 3és r é 2 t és tá á3 t t t t át tó ó t t tt 2 rá 2ú ü t s ü ú t ú rá ót 2 3 r é 2 t s3 á t tt 3 3 t 3 t ás s3 r t s3 á r t ít tt s3ó á 2 3ás t r é 2ü 2 ö3 á rá ó 3 r át r t ó ó tá á3 t rás 3és r é 2 2 r r át r t ss3 P t ér Pr Pr Pr 1 t r rr 1 t t r t ó ó tá á3 t rás 3és r é 2 2 át r t ss3 P t ér Pr Pr Pr 1 t r rr 1 t
203 Szeged, január ár s s r 3 2s3 r s 2 és t tés írás 3 t tásár ó s3á t r s3 rt st t t rt ás s öss3 t ttü és tá á3 t át tó 2 é r é rr ü ú t t sít é 2ét é t ss3 és ér s3úrását t 3 é3 tt írás 2r á ító r s3 r 3 s öss3 t tt str túrá r 3 és át s tó é ít ttsé r str túrá é s ós ö t 3 2 s t t t és t tést s3 r s3 r s té t s é3és érté ét á s és r t 3 r é 2 t t ü Öss3 3és ü t tt 2 s 2 és t tés ú írás ss3 á ító r s3 rt 2 t sít é 2ét 2 r és 2 t á3 s s érté tü t öss3 s ít tt 2 1 tró ú s3 í é3 r s3 rr ét 3és ó s3 rt érté tü ó ós ö és t é tét ér é s ú t é s3ö s 3 á 3t ö tést t ó s ú t ö 3 t 2 ttü 3 ú ö3 ítés 2 t s3t rá ó t s ü ú t 1 t s r s3 r t sít é 2ét ó 3 3 ó s s érté sö t tt 3 írás 2r á ításá t ssá át 2 r 2 r t t á3 s ü ö ö3 t í3 ós ér t r é 2 t öss3 s ít 3t t á t 2 s3ö ú 3 írás 2r á ításá t ssá 2 3és 3 s ó r 3ésr á ó t ító t 2 sé ét és 3 tt t t r 3 tt sé ét ü 2 33ü 2 2 r 2 s3é át r t s3ö ú írás 2r á ításá té öré s rü rá át ér é 2 öss3 s íts t st t t rt írás 3 r s3 r 2 ísér t t é 3tü 3 t á3 s 3 ü3 ó írás ss3 á ítás r s3 rü ért r é 2t ó 1 ás t r és3 t s ü ú tá s s r ós ö ésr t r 3 tt 2s3 r é ítés ás t s3 rü ö t á s3tésé 2 t s rá sít ü s3ö s 3 t s3 á ó ás t t t tt r 3ó ú 3 2 t á s3ö s 2 s3t 3 ó t r s3tés s3 té í ér t s rá 2 ö3 ét 2 3 s 2 és t tést s s3 tt t rt t öss3 t á 2 2 r é 2é 3t t t ü 2 s rü t étr 3 2 ö 2 és 2 rs t s 2 és t tést ö t írás ss3 á ítás 3ás s r r t 3ás tá tásár 3 í ü t s ít 2 3t 3 t á ó
204 194 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 r 2 s tér t ttü 2 s té s és é r át 3 tt s3ór t 3 2 r t ó s és é ü s3ó r t t 3 tót tó s t é 3 és t í 2 3 t é s ú á t 3 t ssá s 3 é t s3 s3 3ést ös3ö t 2 á ítás s3 r3 ös3ö tü t 3 3 t t tás s3tés és á ós t 2 3 r t r té s rt tésr rü t t tást tá tt ös3ö ü t á á Pr Pr r ss ít á 2 r á á3s t 3 tá tását P 3t sítás 3 t ítás 3 t 3ás t st 3 r s 1 r ts t t r r2 t 3 t t t t t s tr s r ts r s Pr ss P t3 t s t t t t r r2 r s tr s t Pr s P r s st r t t t 3 t tr s r s Pr s P r r r rt2 2 r t t t t t t s2st r s Pr s P tt r t t r t t 2 t r s Pr s P 1 tr 2 r t t t t r s Pr s t rs t st r t 3 t P t t r s r s r t s P t s s st t t r r é s r P t t s rt r r t s tr s t Pr s t t t r t r s r s t st r P r t r rr t r t r s r s Pr ss r r t t r rr t r t r s s q r r r t r ä r t r rr t r t r t tt t s r t t r st r t Pr s t rs P r 2 r t r t r rr t s q t s s s r t r rr t r t r s r r r t r ró 3 s3á 2 r s s q r r r s r t r st r t t t r r2 Pr s t rs
205 Szeged, január s s P rr tt st t r r t r tr s ss s Pr s P t t r t r s t tr s r t s r t r Pr s r á r r 3 s3á 2 2ó r ás s P 2 r 2 é ö3é t és ír s r é r t 3ás 2 r 3á ító é s 2 és3 t r 3 ä r t t r st r t s tr s r ts Pr s t rs t r t 1 tr 2 r rt s t Pr s P s r r P r r r t r t r2 tr s 2 r t str t s Pr s t r s s r r r2 tt s t t t t tt r s s 3 P r s r t t t t r t r s r tt t 1t Pr s t rs rt3 s P r r s r s r r t 1tr t Pr s P r st s r s
206 196 XIV. Magyar Számítógépes Nyelvészeti Konferencia ísér t 3 r s ésér é 2 r á ós tr ú é s3é t r és3 rós3 ás 1,2 ót ás3 ó 1 s3t 2 á r 2 s ó ás á r 3,5 r ó 1 r 4,5 1 3 á 2 2 t r t té3 t 2 st rsé s t t tó s rt 3 st s3 és 3 sá t á 2 2 t á ö3 és és é r t s3é 4 öt ös rá á 2 2 t t s3é 5 ü t á s rt á ó t tó s rt 4 t t r s3t r 6 s3 s t t t r 1 r t t t rs3 r é s3é t r és3 ó rt s3 á ö3 t ü 3 rt á ós 3 rá s3é t tö 2 t tás s s3é s trá s r ét r t s s ésér trá s3 té3 s 3 s3ü sé s r r ét r é t st s érté t 3 r t ör ét 2 s t ér 3 s r s3tést s3 á ás ö ött 3 tét 3és ú3ó s3 r t 3 ör sü t 2 rt á ós 3 és3 t 2 t rt 3 s3 r 3 ésér t 3ó ö3 t érés t t ü 2 3 rét tr ét ísér ü s3é 2r á ítását t sú 2t 2 3 3ö éssé t 3 r s ésér tét t éss s3 r t 3 r 2 t ó r str á tó sü t és 3 r t ör ö3ött s rr á ós érté t értü é t s tás s ísér t 2 t t ü ö sé t t 3 r t és sü t ör é s3 t t 3á t t ö3ött 3 t 2 r sé érté té ss3 é s3é t r és3 é 2 r á ó r 3 tés 3 tó é t 3 tt 3 ér és s3é rt á ós 3 ó 2r á ítás rá t 3 ú é s3é t r és3 t t r át é 3 r é é s3 ö33 rö 3ít ü 3 rt á ós s3 r 2 és 2 3 ását 3 3 t ó r str á s3é t é ü ó s3é t r á é s3é t r és3 s3 s t s3é é 3és sérü t é tá ítás át s tt t s3á ár 2 2 3á s s3é át t tsé s é á 1tré ó 3 s
207 Szeged, január ör 2 3 t ás t 3ás 3 rt á ós t rö 3ítés tör té t tr s é táss tr s t tr á s s rt rá tr t rt r 2 á ó á s s rt rá r t t rt r 2 P tr rá á tr 2 r 2 2 t t r t á s ás rs3 r r s3 r ö3 t s3 té3 s ét 33á 2 s s3é t ö3 s át ítás é ü s3é s rés ö3 t ü 3 rt á ós 3 á ít á ó r s3 á tá 3 2 ísér t t é 3 t tó tö sé s3 té 3 s 3 s3ü sé s s trá s 3 s ésér ó s3á 2 3 és3 t r 3 str 2 í s trá s r ó ör 2 á ó ó 2 és 3 3 ásá rr á 3 r r ét rt s3 r 3 és 2ás s3 t ö3 t ó ü 2 3 r 2 3 rá ó átó ér rr t ó t tás 2 2 rá ó é é tér 3ö és és 3ö ét s té é á s3 r 3 és ss ás s 3ó rt á ó s rá 2é té 2 3 tt 3 á t 3ás s rr á 3 str s rt á ós rá ó á 3 3 rés és 3 á 2 ö3ött tér tt 3 t tás r é 2 ér 3 r s3 r s3t 3 ör s ését tö s3ör r é 2t t é t 3 3ért 3 2s3 r sé éért st s érté t 3 r t ör ét 2 s t ér3 r s3tést s3 á s3 té3 s s rá 3 é á 2 s3 r3 ró á 3 tt 3ö éssé t 3 ör 2r á ításá r és ts ét 3t és t t ét é ésr t 2 3t 2rés3t 2 t s3 á t 3ö és 3ö ét s3 s3 ü ö ítésér ás é és 2 sü té 3ö és s3 s3 rét érté ét 33 ó s3 rr örü rr á ós érté t ért 3 r t és sü t ör ö3ött ö tés t ssá t r és ts tr s t és ó á ásá t tt ísér t t rr 2 s trá s r ét r tt ö tést s sü é é r 2 r s t t r r é 2 r á ót r t r s3 á t és s és t ssá ár t t 2 s ó r és ts r é 2é 3 ért t t rt 3t ö3 t ü s3 ö ését r r 3 tá ó 3 t r tí s t ssá t r t öss3 ü és 2 rá3tá é á 33 2 st rt á ós rá ó á t á á 3ó 3 3 3ö és s3 s3 ét és3 r ss á ó ét ró á t 3 ör ét sü és ts ü ö é tí sú é 2 á ó és t sít é 2ét s ít ttá öss3 3ö éssé s ésér 3t tá 2 ét é és s s és 3 3 s3ör s trá s 3 s és s éss tt érté r t 3 ó öss3 3és s t ít 3 r é 2 és ts ú 2 t á tá 2 3 t á t 3ás s ssé és
208 198 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 rs ás 2 s3 s 3 ör s és s rá és 2 3 ú r á ó t sít tér t st r tí érté és r tér s3 r t 3t tó s és r é 2 t t tás s érté ést s3 t é 3t ár t rö öss3 3és 3t t t 2 é á 2 ísér t 2 tör té t 3 ör s ésér rét 2 t tást t á t 2 r é 2 á ós t ó át s3 á á tr s ás t s ó és ts é 3t 2 2 ísér t t 3 s ésé ró á 3t ás 3 s ó 3 r t ör ét s3 á tá s3 té3 s s rá á ó 2 3 r s3 r és 2 r t s3 á tósá á 3 3 s ését s 33 ísér t 3ü r és ts ö3 ítésé 3 s ó 2 ét é s s é t ás s 3ö éssé 2 t í ás 3ö és s3 s3 rét érté ét 2 s3 sü s3 t térü r é t á 2tó 2 ét rés3 tr é 2 r á ó t 3 á térés 2 í ét t s tü tr ét 3 t 2 r t ó rö 3ít s3 r 3 ését ó s3 r érté ését 2 s3é t s3ár 3ó ét é 3 ísér t á ítás ísér t 3 s3 á t ét t 2 é s 2 r 2 2 s3é é 3és r é á r 3 s ítsé é rö 3ít ttü öss3 s t t s tt ö3 2 3 ását 3 rt t str ts t á t 2árt tt r tí sú tr r 3éss rö 3ít ttü é ás r s ssé 33 ár 3 s s3é t s ttü 2 tí sú 3át r r t á s rt t tt ísér t t át 2 rs tr ét é 3té é ér t 1 t t á rés3 t ért ás 3ás és s3 t t 3á ás s3é 3ésér és s3 t t 3á ásár 2í t rrású P s3 ö3tár 2 ó rét s3 á t tt s t s r r t s3é t ú r t é t 3tü 3 3 ör ét P r t ss 2 rtü s trá s r ó ör ét P 2ütt tó t 3 r érté r r 3 tá t öss3 ssé é 2 3 ós 3 t rt r é 2 3 tt r ét r t 3 tr é s3 r s r t t ás s 2 rtü é 2 r á ó t ítás s rá 3 t r é 3t t ó é t rt s3 té3 s s rá 3 r t r ét r t r 2 tt á t 3 tr ét sü t érté t s3 á t 3 ó r 3 r ét r s ítsé é 3 s r s3t t r á t 3t át t 3 P r ét r é 3 tt ú r 3 tr r 1 t s3 r í 2 é 3 s3é r str ó át
209 Szeged, január Ultrahang videó Zöngésség meghatározása (DNN) F 0 meghatározása (DNN) Kombinálás á r 3 s ésér s t árás 3 r s és é 2 r á ó 3 r s és s3tá tr ét á 2s3 r t r és ts árásá 3 s ó s ét é s s é t ás ö3 ítést 3t 3 2 é t ó 3ö éssé étét ás 3ö és r t érté ét t t sü r és társ s3 ét tr é 2 r á ót 3t ö tés t ár s 3t s3tá 2 3ás t é t 3 tü rét érté s ését s3 t r r ss3 ós t t t ttü és 3 tó r á ót s 3ö és r t 3 tt érté s ésér t ít tt érté és é és 3 3 s3 té3 s s rá ét á ó tét á t 3 3 3ö és íté t t r t 3 3 s á ó tét r tü í 3ö ét t 2 ó r á t á t st s érté t t ss3 s és tér ás 3 á rát
210 200 XIV. Magyar Számítógépes Nyelvészeti Konferencia 5.5 Eredeti F0 Becsült F0 log(f0) Képkockák á r 2 é r s3 rü r s és tér 3 r t ör é 3 é st 2 33ü 2 3 tó é é s rés t ú ós r á ó s3 á t á t á ssá 3 2s3 r t s s t á ót s3 á t 3 á t ás tt 2rés3t ú ós á ó 2 t 3 2 s st r á ó á r é s ró rés3 t r r s é ü ö s tü 3 é s 2 tású és s á ár é ít á 2 3 á s t 2 s t ár 2é ásrés3t ú ós á ó r r s tás s rá s3ít 3 2 s s t s 3í ó át t á s s t 3 é 2ös s ú 2 ér 3tü 2 s tü é 2 s r á ót s3ít é t tt 2 2s3 r r t tt rét t t rt 3ó r s t t á ó 3t rét é t r á ó t P r ét r 3 r és 3 érté s és t 3 t s ísér t ú 2 t á t 2 té 2 3 t 2ütt t t ü ö ü ö 3ért r ét r 2ütt s t ásár r r ss3 ó ár 2 ár s t r t t rt 3ó t s3 á t 3ö éssé ö tését t ó r á ó 2 2 é ítés t 2 ét s3tá 2 s s t 1 t rét 3 t r r 3 tá ás s ó és ts rá ü s3á s ísér t t é 3t 3 t á s t r r 3 tá ó t á ásár 3ért tt s 3 t ás t 3s á t 2 tt 3 2 t ét r á ó t t t t Öss3 s ítás é t t á r s3 r 2s3 r ás s3 á t r t 2 t tr é 3 tá 3 t t ít ttü 2 s3 s3é s é á ó á ó t t rt t rt 33 t á r t s3 r ás
211 Szeged, január t s3t ö F 0 ö F 0 t s és rr s és rr r s3 r r t r t r t 3 tá á3 t 3ö éssé és s és t ssá ü ö é t 3 és3 t s té s 3 t s 3 t r ér t é t ás s3 t ó 2ös tt 2 3 á s3tás ó s3 rt 3t 3 2 s é ér té r ó r á ásár 2 ó és s3 s3é s é át s 2 t t 3 t t r ér té t s ö és é ü 3t r s3 rt r t é t 3 á rés3 t 3 2 résr s ó és ts é t á tó 3 2 ó s érté ésér s3 tí tás s t s3t t s é 3tü 2 2 3t t t ü ö ö3 ör é s s3 t t 3á t Öss3 s ítás é t st s t 3 t s á ö tést sü t 3 st s í é s3 r 3 á rá 3 öss3 s ítás ás é t é t t t 3 r t ör é s3 t t 3á t r t 3 á rá é 3 tü sü t ör ét s3 á ó é s3 r t á r é 2 és s3 ss3 ó tí érté és ú s és t ssá á s3á s3 r érté ésér r 3á t át s é 23 t s át r 3 q r rr r és P rs rr á ós 2ütt tót s3 á t 3 tá á3 t öss3 3 ü ö é t t t tt tr r 3 tá ás ó s3 r s té tt r é 2 t 2 áss é ó ö tés t ssá t értü s rr á ós érté t r á t á r 2 é á ér3é t t 3 r t és sü t ör térését 3 r é 2 á 3 r tr ét ó s és 2á t á r é 2t 3 tí tás s t s3t 3 tí érté s s s t rró 2 s és 2 r 2ás s3 t t 3á t t sé ét 3ért sé s3 tí érté ésér t t s t st t
212 202 XIV. Magyar Számítógépes Nyelvészeti Konferencia
213 Szeged, január
214 204 XIV. Magyar Számítógépes Nyelvészeti Konferencia r á t ör é s3 t t 3á t t t ö3 2 r á t r és3 t s sít tté r é 2 á t 2 ö3 t t éss s3 3 r s és r é 2t é r s é rés t s tü tr ét s3 r 3 ését ö3 t ó r r 3 tá á tt 2 33ü 2 ísér t 2 t s3é 2 á 3t és 3 té 2 t t 2 érté 33á ár t ó r é 2 3 3t 2 s3é ü sé t átrá 2t 2 ért 2 ö é s3é t r és3 3 2 s3 é 2 ü s3 ér t r 33ü ísér t t s ét tö s3é t ér és 2 s s3ár 3ó ét á 23ésü 2 é s 3ás r s3 r s3 r 3 és é ü s ö s3 t 2 és3sé s t s3t 2 3t r á s3é t r á t ö t 3 s3ü sé s s3 ísér t ó é s3é ó s ét és s ös3ö t 2 á ítás t tást rés3 3 t t tás s3tés és á ós t tá tt ót ás3 ó á át 3 2 á s t tás Ös3 tö í tá tt rós3 ást 3 r r rrás s3tér Ú P ó s3á ú Ú 3 t á ósá Pr r tá tt és3ítésé 3 s3 á t t r s árt2át 3 r r t á 2 3t t 3ás 2 t3 r rt r r t s t r s t 2 t s2 t s s r r t tr s s t t P tr r r 2 2 t t t st t rt t r2 st t r tr s s s t s t r t rs r s3 rs3á r 2 2 t s rt t r2 t st s s tr t r2 r s t s t r t rs P rt r r ss t P 2 rt t r2 s s s2 t s s s t s t rs s ó rós3 ót r ó s3é s3 té3 s tr s rt á ós ét é 2 r á ó s ítsé é 3 s ó rós3 s3t 2 ót r ó s tr s t s rs r s t s t r t rs t é rs3á r Pr r2 t st r t t r t s t s t r s tr t rt r P t r
215 Szeged, január q t r r r 1 rt t tr rt t r2 s s s2 t s 3 r r r t r t r s P t t r P rt r s rt t s t s t r s t s s r r t 2 r r2 t rs t é rs3á r t3 st t t r q 2 r s r tr 2 r t t P Prá s rs3á r t s rr r r 1 r s t s t s t r s t t r s t t rs 3 úr r st t P r r t rr t t ts t ts s st s P r Pr ss 2 t s ts tr t str t t tt s r 1 r t st s r P t s st r2 t P t t r ss st s t r st s rt t r2 t st rs t s r t s tr 1 t t t r s s r t r s t rs Pr t s rt t r2 t r s s P í rr s s t t r s r t st t r r s s r t st t2 r t r s tr r 1 t t r r s s2 t s s tr s t s P rt t s t t r t s t ss ss t t r t q t2
216 206 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3 ó sú 2 ssá á t t s s és s3 ért érté és s3 tí é 2 ét é s ós á r 1 ás3 r tt 1 s ár 1 1 st s3 és 3 sá t á 2 2 t á ö3 és és é r t s3é 4t s s 6 t t 4 s3 6 t á 2 s3 ó sú 2 ssá át t t s s árás rü t tásr ö3é r t s s ítsé é t tt 2 ü ö ö3 t s3tá 2 t rt 3ó s3é ért s3t r ét r s s3 r é 2 3 tú ér té ésé s3 tí s á 3ésér tt ü 2 t é ü t t s s és r é 2 ö3 á s3 tí íté és 3 3 í ü 3s á t é 2 s3 r érté ésé ö t 3 t ssé ét é 2 s3 r 2 á ít tt ó3 st és érté t t s3é é sé ét 3 tá ó s rá ás ár s3 r s rt á st és s rá rö 3ít tt á á tár 3t s3 ó sú 2 ssá át s3 ó sú 2 ssá á t t s s és s rá ét r r ss3 ós rü t öss3 s ításr é 2 s3 r érté ésé át á és3í t tt és t t 3 s íté t á étr 3 tt ét s 2 és s rr á ós érté t ért 3 t t s sü t sú 2 ssá t és r t á s érté és t öss3 t ss3 s3é 3és 2 t s s3é ór s s3é ö t 3 t ssé 3s á t r r ss3 ó 3és s3t r 3és s3t 3 tés tt rs3á 3ó 2 2 é é t t s3é s3 á t á ós s3 ö3 é t s3é é 3és ár 2 r ssé táss á é tr ér t t s3 t ü t és é tésü t s Ú só és té 2 ó s3 r r s3ü sé 2 s ít á3 r s ü rr é és3 á át t sé tárásá t tó é 2 2 t t s s és r s3 r étr 3ás 2 s r ór s t és t t s tár 33 s3 ó sú 2 ssá át 3á t t sé 2í 3í és tí s3t 3á ásár 33 2ütt r s résr s3 ó é 3és s3 ó ár t s3 ó ás r s3 r t r t s át2 s rés t á s t sá 3 t 2 t s s3é 3s á tá s3á s 2
217 Szeged, január t rt tt á 3ó 3ésé s3 2 t s s3é t r t 3 s3á s r r á ót s3ü t t és t sé s3é ü ö ö3 á t 3 t 3ésér t tás r é 2 ár tó 3 tó 2 r t ós é t 2 t s s3é t s3 á 3 és3sé s és ór s t t s s3tá 2 3ásá 3 r é 2 t s t r 2 t s s3é t 3 t s3 á t rt tt á 3ó 2 tt t tó 2 s3t r ét r s3tésér öss3 t sít tt 2 té 2 r r 3 tá á é 3 r s3 r ór s á tát s3é s ör s3 á t s3t r ét r ö3é t rt 3 ö t 3 tt r s r és r s t s t rá t tás 3 á 2 2 s3t r ét r t tt r s r és 3 2ütt tó r q 2 str ts s s 1 t á 3 és3sé s és ór s t t s s3tá 2 3ásá s3 s r ét r rá t tt s3t r ét r s rr á ót t t s3 ó sú 2 ssá á 2 ú 2 t ü ö ö3 t s3tá 2 ért t P t 1 P és r s t ú r sá rá 2 3 r ét r s3 s t s3 ó ü ö ö3 tí s é á á s s3 ó és r rr s r s s ü ö ö3t tésé 3 s3 ó s s3é ó3 sát és 3 ését á s sé ét 3s á ó r s é 3 s3é érté és t r és3 té é s3 tí s3 ó ás sú 2 ssá át á t á 2 r s érté és 2 tö t s3t t érté íté té át 2 á á tár 33á tö érté á r 3ésr s3 r s3 ó sú 2 ssá á érté ését rá rö 3ít tt tá tásá é 3 3 érté és á t 3 t 3 érté s3 r ö3ött 3ért t á s s 3 s3t 3ést é 3 t á 2 r s és á s s3 ó sú 2 ssá á t t s s ésér öss3 t sít 2 s3 ó sú 2 ssá át s ó s3 rt s 2 2 r 2 2 t és tr á ó s tt s3ö s3 ó sú 2 ssá át é 2 s3 r tár 3t s3 r á st 3 t és ö3 t ü érté t á s s3é é sé ét 3 tá ó s rá t t á ár s3 r s rt á s t s 3 3 t s rö 3ít tt á t tt és 3 á tár 3t s3 ó sú 2 ssá át s3 ó sú 2 ssá át 3 s á s3 r t tár 3tá s3 r 3 3 ér ssé t ssé t r tsé t t rá r é 2 á ü ö ö3 t s3tá 2 é á 3á s s á 3ó 3ö és s rá s st ért s3t r ét rt á s3t tt és é 3tü s3 tá 2 3ás t r r ss3 ós 3és t é 2 s3tá 2ú s3tá 2 3ás 3 ö3é ü 2 t é ü s3tá 2 3ót s3 á t ér é 2 t s3 á t s3t r ét r s s3 r é 2 3 tú ér té ésé 3ésér 3s á t 3 s3 tí ét t é 2 s3 r sítésé 3 s3t á át á s t 3 s3
218 208 XIV. Magyar Számítógépes Nyelvészeti Konferencia r érté ését öss3 s ít tt 3 s3 r érté és 3 r rö 3ít tt ét á tár 3tá s3 ó sú 2 ssá át 3 tés tá 3 t rö s rt t ü ísér t s3 á t s3é t á3 st ért s3t r ét r t t érté és ó s3 r t r é 2 t 3 t t t 3 t s rt t ü 3 r é 2 t r r tá ását és ö t r t ó s3 r és s3é 2 P t ó ás és és3sé s s3é t á3 s á s tá ét 3 rs3á s ó té3 t ü rr é és3 t s3tá 2á áró t átás s rá törté t 3s á t s rá s3á s t sé r t á s s3 ó r rr s r s s s3 é ás é 3 s3 r r s3 r ü ö ö3 t r ó t r s3tr s r 1 ró s é 2 ás r r s s 2 2 ás tró ás t rá s3 ró3 s s 3 s s3 ó st Öss3 s ítás é tt és3sé s á s r s és3ü t ét 3 rö 3ítés rá ít tt s t 3 s ó ó 3s á ás s rá rü t ét r 3 s á ór ssá á sú 2 ssá át é 2 s3 r tár 3t s3 r s 3 t á st á ít tt ó3 st és tár 3t á sú 2 s sá át 3 tá ó s rá 3 r t t á ár s3 r 3 r 3 r és 3 r rü t s3 é 2 s s t á s s á ét ss3 tás á tár 3tá s3 ó sú 2 ssá át é 2 s3 r 2 t s3t t é 3és r ssé r 3 á s 3 ésé s3 ó sú 2 ssá át 3 s á á t tár 3 3 r ss 3 ér ssé t r t ss ssé t í rs ss 3 á t á s r tsé t t tt t t érté t s t ás ét t ór 1 Pé á és 3 r érté t 2 3 és3sé s ó í 2 s3 r t Pt és társ 3 tá 2 3 s á 3ás 3ás r t á 2 s rá 3 á t á s r tsé 3s á t és s3t 3á ás törté t ét rü t s3 á ásr ét s té s3 r ü ö ü ö tár 3tá s3 ó sú 2 ssá á át 3 s á s3 r t érté t ét é t át t 3t s3 á t és é á t 3ó é t s3 r á t tár 3 tt érté át á s3 ás 3 t á3 s 3 á rá át tó
219 Szeged, január
220 210 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 r s t t s s t s3ét t s é 3tá ú 2 s rt t tr s ó ü é 2 tr s t s 3 r s3 r t átr 1 r 3 3 s ár s r á ú s í t á s r á ú s t r r 3 tá á s té s3á ításr rü t 3 tró á r sá tró á rá 2 ö t 3 ó rü t tár 3ásr 2 d=1 IMF entropy = H d D d=2 H d d tr s3 r á t tró érté 3 2 s d = 1,2,...D érté r D 3 öss3 s 2 rt s3á tró s3 rét s té ö t 3 é á n H(p i ) = K p i logp i i=1 K 3 tí st s 3 r ét r tár 3ás t t tt törté t 3 P t 3 tró érté ét s 3 á 3ór t á t s rt r s tár 3t 3s á t s rá 3 P és 3 tró á át ö t 3 t t s3tá 2r s3á t 3 á 3ó 3á s s t és s á 3ó s t és 2 é 2 á 3ó s t és s rá s r ts t 3 és 3ár és r átá P s s t 3 és 3 P r ét rt 3 és3 á r s 2 rtü tö s t é t é t át és s3órás s s3á ításr rü t P és 3 s3t r ét r í ü tt r s r és 3 ét é t át és s3órásérté öss3 s r ét r rü t 3s á tr ö tés ó s3 r ü 2 t é ü s3t r 3éss 3s á t 2 ü ö ö3 t s3tá 2 ért s3t r ét r s s3 r é 2 3 tú s3 tí s á s3 r t érté ésé 3ésér 3 ö3é s3t r 3 r t st s3 á t ö3é 3 2 2s3 r r t s 2 ü 2 t é ü t ás ó s3 rt 3 3 s rt s3t r 3és
221 Szeged, január r é á ásár 3 3 árás 2s3 r és 2 rs ö3 ítés r é á ö 2 tá tó és ö 2 ért 3 t 3 r é 2 3s á t é 2 s3 r érté és 3 s3t á át s3 ó sú 2 ssá á s ésér ár s r r ss3 ót és r á s á3 s ü é 2 t rt t r r ss t á s3 á t ár s r r ss3 ó t r és3 té ó ó s 3 2 ástó ü és ü t á t 3ó ár s s tát 3s á t á á 3t s tét 3 2 t á t 3ó és é á t 3ó ö3ött ár s s t 3 r r 3 ó á t á sító é ssé és r s3t s 3 r t t tt 3 2 t s s3 ás ér é 3 t á3 st ít ttü 1tr és3 sé s ét s3t r és r r ss3 ó 3és t 3 á ó s3é ét 2 33 s3ö s 2 s3 á ásá rö 3ít ttü 3 á s r 3t ás t sé és t s 2 r s 3 és tt ö t 3 t ssé 3s á t s rá 3 r t tát s3 á t r é 2 ü 2 t é ü s3t r 3és é 2 s3tá 2 s ö3é s3t r í3 st é 3tü 2 r ét rt t rt 3ó 3 t rr 2 ó r é 2 t t s3tá és3sé s és s3 ó ás t r ét r s 3 t r 2 r r t r t r t s r é 2 é t rü t á s3tás r 3 2 t r tí r t s 2 á s3t r ét rt 2 r tár 3 tt ö tsé ü é 2 é ítés á é és 2 ú r ét rt 33á r ét r 3á s t r ét r s 2 érté s3 r t tt á s3t á s3t tt r ét r 3 tá á3 t t rt 33 tá á3 t s3t r ét r s s3 tt á s3t tt s3t r ét r tt r mean s r mean r mean mean tt r std s r std r std std P std P s mean P s std r ét r s3 tt P s std P r ts mean P r ts std std s mean P s s mean P s s std r s ér és 2 3 á s3t tt r ét r 3 t á 3 2é érté és t 3 s3t r ét r s3 tt és ü 2 t é ü t ó r t s rö 3ít tt r öss3 s ít tó é 2 s3 r érté és s3t r ü ö ü ö 3 s á s3 tí tá 3s á t é á ó s3t r í3 st é 3tü 3 2 s s3 r té s3tés átr 1 t és tá á3 t r r 3 tá 3 s3tá 2 3ás t sít é 2ét tá á3 t t t ö tés
222 212 XIV. Magyar Számítógépes Nyelvészeti Konferencia tá á3 t é s3tés átr 1 3 r s té 3 r á t á ít tt érté Pr tá t Öss3 s Öss3 s tá á3 t é s3tés átr 1 3 r s té 3 r á t á ít tt érté Pr tá t Öss3 s Öss3 s tá á3 t é s3tés átr 1 3 r s té 3 r á t á ít tt érté Pr tá t Öss3 s Öss3 s tá á3 t é s3tés átr 1 3 r s té 3 r á t á ít tt érté Pr tá t Öss3 s Öss3 s tá á3 t sít é 2 tr á s3 r és í s té tr Pr s 3 r á t á ít tt érté s r Pr s 3 r á t á ít tt érté s r Pr s 3 r á t á ít tt érté s r Pr s 3 r á t á ít tt érté s r
223 Szeged, január át s t ssá 3 2 s s3 r s té s rr 3s á t ó 3t ö t 3t tést t 2 3 t r s s3 ó sú 2 ssá á 2 érté ésér Öss3 ssé é tó 3 2 s té s3tés átr 1 á 2 2 s3t r 3és árás t t t s tár 3 s3 ért érté ését r s é t s3 s3é s s3t r s rü t s r 3 tt ét t 3 és3sé s és t ó ás és á s3tás é ít té s3tés átr 1 t t á 3 2 s s3 r sítés stí sát s3 r t í 3 r t és é íté t sú 2 s 3 r tö s sú 2 ssá ú érté ést tt ér 2 3 r érté és t és é t s é s érté és t ssá s t 3 r é 2 3t s t t á 2 é 2 s3 r érté és s té és s s t á ö3 2 ás 3 3 ó t t 2 s t 2 2t s s á át s árás t r r ss3 ó t á ö3 ít 3 érté és t t s3 t 3 3ó s3t r 3és í 2 t s s á 3ó r s3 rt r é 2 3 ö t 3 t ssé 3s á t rés3 3 érté és ö t 3 t ssé é 3s á t rü t tás r t 2 2 t ü ö sé ét és3ítésé é tt é s3 r és á t ss3 tó t á ár s3 r érté és ö3ött tá á3 t át tó 2 s3 r át s térés át átó s3 r t 3 r és á át s érté és t í 2 3 érté és á t 3t t á és é 3 át s érté t í 3 r érté és ü ö ö3 á 3 át tó ü ö s3 t 2 2 ü 3 r t ét és3ítésé é r 2 r s3 á t ér s3á s 3 s3t érésér 3ésér 2 ö ött r érté s s3 t s 3 s3t át á s t r ó tt ó s 3 s3t át t t 3 r érté t 2 s3 r 2ás s ö é r érté ésé tör ésé sö s t s 3 s3t 2 s tö s3 r tör és s té 3 t s sö 3 r é 2 t tá á3 t öss3 3 tr ss rr t t s á ításr rü t 3 tt érté á ó í 3 tt érté ó ö t 3 t ssé t t t 3 ér té és r ó 3 s3t ó tt í s3 r érté és 2ütt s át s 3 s3t á tt 2 á ó 3 s3t át t t t r s té tó r ss3 ó 3és r r ss3 ó t s 2t t s3t r 3és 3 é st s és s3 t 2 t s ö t ü é 2t 3 t sá t s ít t
224 214 XIV. Magyar Számítógépes Nyelvészeti Konferencia tá á3 t át tó ó át s térés 3 2 s s3 r é Öss3 s 3 r 3 r 3 r 3 r át tó ó át s térés tá á3 t í3 tósá st t s3t 2 t törö törö t t r st rr á ó r s α 3 r 3 r 3 r 3 r sé ét r r ss3 ós ó s3 r ósá át é 23 t s ö3é érté 3 2 t r á ó 2ütt tó 3 3 ü á t 3ó r á á rá 2 2 t ü t á t 3ó 2 rá3 t és P rs rr á ó é és r tá t érté ö3ött érté é 3s á t 3 3és ár s r r ss3 ót és r ü é 2 r r ss3 ót s3 á t érés ér é tö r ét r s3 tt s ró á ásr rü t 3 t r é t Öss3 s ításr rü t ás r ét r s3 tt s3t r í3 s s3 á t r ét r s s3 tt t 3 r t s t ár s és r ü é 2 r r ss3 ó s té ü ö 3 r t s3 á ó r r ss3 ó á r r ét r t 3á ó r r sés s törté t tá á3 t 3 r t s r é 2 é 2 s3 r érté ésé át é á t 3ó é t á s3t tt s3t r ét r mean s r mean P s std ár s r r std P s mean s mean P P s s std s std s r mean r mean mean r std P mean P std P s std P s mean P s mean r P s std P P s s mean s mean P s s mean P s s std tá á3 t t t r r ss3 ó 3és r é 2ét r é 2 s3 r érté ésé át t é á t 3ó 3 r t s r é 2 t ár s és r s t tá á3 t öss3 ár s r r ss3 ót s3 á ó t 2 s rr á ót s3 t 3 r s3 á tá ér t s érté s rr á ót és 2 át ó 3 t r s r ét r t s3 á ó öss3 á ítás t 3 á á ít tó 2 ü ö ö3 t s3tá 2 t rt 3ó s3é ért s3t r ét r P és
225 Szeged, január tr 2 r á 2 s ö é 3és r ssé sú 2 s sá át r tá ó ósá át 3 té é 3 tt 3 t r s s érté tér r ét r s 3 t r s t í 2 3 s t t á t á s ósá át r é s té 3 r r ó r s é ü t 2 r é 2 t tá á3 t t t t ét és3ítésé é tt é á st és á ít tt ó3 st 3 r t s r é 2 t ár s és r s t tá á3 t öss3 tá á3 t 3t t t 2 r é 2t ár s r r ss3 ó tt r ét r á s3tás t 2 s rr á ó és s s érté ér 2 rr á ó s és érté ö3 é st t s ü ö sé ét s t ö3ött sú 2 ssá s3tá 2 s3tás í 3 3 s t é 2 s3 r át ös tású s á át tt 3 2 t s3 r érté és s té s s á tás r tsé sú 2 ssá ár ér 3 s ö t 3t tés tó r é 2 sá s s3 r t ü ö ö3 t s3tá 2 ért r á 2 s P entropy ö t á á ít tó ósá át tá á3 t 3 r t s r é 2 3 r érté és é á t 3ó é t á s3t tt s3t r ét r r mean s mean s r mean mean P ár s r mean P std r std P P s s std P s std r ts std s r mean r mean mean s r std r std P P mean P s mean P s std P s mean P s mean P s std P r ts mean r P P s s mean P P s s std mean s mean s std s std s mean s std r ts std P s s mean tá á3 t r ss3 ó 3és r é 2 é 2 s3 r érté és át é á t 3ó é t s3t r ét r s3 tt r ss3 ó tí s 2 rr á ó érté r r ét r s r ét r s3 tt ár s r ét r s3 tt ár s r é 2 ár s s r ét r s3 tt r γ r ét r s3 tt r γ r é 2 r γ
226 216 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 γ γ γ
227 Szeged, január t s s3é t 3 3 tó 2 r t ár t t rt tt á 3ó 3 öss3 s s3é ét t é 2 s3 ért érté t s3 r s 3 t á st á ít tt ó3 st és tár 3t á sú 2 ssá át 3 tá ó s rá t t á ár s3 r rü t s3 é 2 s s t á s s á ét ss3 tás á tár 3tá s3 ó sú 2 ssá át s3 ó sú 2 ssá át 3 s á s3 r t tár 3tá t á 2 3 á t á s r tsé t 3s á t 3 r é 2 3t t t á 2 ü ö ö3 t s3tá 2 ért r á 2 s P és entropy ö t á á ít tó ó sá át 2 s s3 s é 3és r ssé sú 2 ssá á r ó á ö3é ü 2 t é ü t ás ó s3 r s ítsé é é 2 t s ít tt öss3 ü ö é 2 s3 r érté és s3 r t á s3t tt s3t r ét r s s3 r é 2 3 tú érté ésé 3ésér ö tés t ssá é 2 s3 r s3 r t s3 ó sú 2 ssá íté t ö3ött 2 ú í3 tósá t t s3 t tó r és ó s 3 s3t á á érés r s3 ó sú 2 ssá á t t s s és s rá ét r r ss3 ós t s ít tt öss3 é 2 s3 r érté ésé át á t és3ít tt t és t t 3 s ü ö ét ét s 2 és s rr á ós érté t ért 3 t t s sü t sú 2 ssá és r t á s érté és ö3ött ö á t á s3 r ását s3 ó sú 2 ssá á íté ésé t 3 t á3 s ítését 2 2 t á3 s t é t t ü ö ö3 s3 ó tí s s3tá 2 3ását Ú 2 2 t á 2 t t tt ó s3 r á t á sít tó ás 2 r s t 3ás rs r és3ár s átr és társt á 2 é 3és s3é és 2 ás és 2 és é tt órt s3t á és t rá á öt t st öt ös ó r s rt s r 2 t t t t2 ss t s t t s t r s P st ss ss t s r r t t s s s tt r sr st r r t r s Pr t rs s r és3ár s s r r t t t s s t s s t r r t t r t r t r r r r 3 3 és3ár s s t t t t s r rs t r t r t t st Pr ss r r
228 218 XIV. Magyar Számítógépes Nyelvészeti Konferencia r2 tr P s3 t str r r s t t r r s r s s r rs t s s P t ss s rr t 2s s r s r t2 2s t t s t r rs 2 ð s t s r t2 ss ss t r s r r s st t tt r Pr t rs r r r r t t r t s t tr s r 2s rt r s Pr t rs ö r ss ü t P Pt r t st 2s s s rt r t r s r t ss t r s r t r2 2 Pt ss t t r2 t q t2 ss 3t s t t t s s t t t ts t s st st t t r s t t s t t r t r ss t t2 t s t t 1 st s t s s s st 2s s t t r s s r ss ts r t s s 2s s ss s r t s
229 Szeged, január tí 3 r és r 3 r ór t t s 3 sítás s tá s3é s3t s 3 s ítsé é s3t 2 á r 1 ó 2,3 ót ás3 ó 4 3 r 1,5 Pá ás 6 á á á s 6 1 st rsé s t t tó s rt á 2 2 t 2 r 2 és3 t s3é 3 2 t á 2 té3 t st 4 3 á 2 2 t r t té3 t 5 3 á 2 2 t t á s 2 és3 t s3é 6 3 á 2 2 t Ps3 átr 4 r t t 3 6 s3 t 3 2 tí 3 r 2 tü t 2ütt s 2 t s s3 r é á 2 tí s é á 2 és tsé s ó 3 r ór r ós ásá és í 2 3 és é rá 3 ésé rá t tás t tt 2 r r ór té 2 s r t 3s á t s3 é 2 s tá s3é á s3é 3 2 rés ré é rá t t tt s3é s rés ó t t s 3 2 rést 33 3 s3 és 3 és3sé s tr s3é ü ö ö3t tés tt 3 é s résér s ísér t r é 2 á tr s rt és 3 s3é ü ö ö3t tés törté 2 té 2 sá 2 r 3 é t s rés s té 2 ár é t t ssá érté és ö3é s ss3 s3é s rés s3é 3ás 2 tí 3 r r 3 r ór 3 tés á s3 s3 é 2 s3á 3 é t r t ó ás tt 3 ö t 3 é á 2 é t 3 ár tó s s3 r 3ó ö3 r s rés 2s3 r és s3t 3á t s t rá 2 s s r tí s 3 3 r ór 2 3 é s t sé r s3 s3á té 2 r s rés t s és 3 és s3 t á ó s3 í 2 ssít tó t sé r ás és ít tó t é t sé tá ó ás 2 t ár 2 é s r örü 3 t 3 ú 2 3 tt 2 tí 3 r tü t 2ütt ss 3 2 tí 3 r
230 220 XIV. Magyar Számítógépes Nyelvészeti Konferencia ü ö ö3 tá s ó 2 3 s s3 t é 3 é st t s3t tó 3 2 á t 3ás 3 t rö tá ú é 3 t tásá r át 3ó ásá s3ó r sés 2 r sá á 2 ö ésé r 3 3 és3sé s és s á t ö3ött s á á t 2 és ó á 2 r 2t s é tí t t t tá s ó á ár t rü té 2 3 é 3 t t 2 t tér 3 á s és3sé t 3 s3tr t ást s3á ást 3 íté é ssé t 3 ér3 á t t 2 s3 é 2 sé á t 3ását ér t t s3 átr 2 3 t 3 s3t 3á ás ár 3 t ö3 s3 r és 2 r t s3á s r s rést é 3ó s3t t s3t t s r tá s3t Ór r 3 ás s3t r st 3 2 tú é 2 s 2 é ér3é s r é 3 t á t 3ás t 2 3 í 2 r é 2 s 2 r 2 ás t ó ét 3 2 r 2 s3 s3t és r s3t t s3t t é á s3ót á ás 2 törté t é3és 2 t s té s résér 2 r 3 t s3t r é 2 é r s s3t 3á t Ú t á 2 rá t t rr 2 3 s3 s s3 s3á ár t s3t tó 2 á t 3ás 3 á t 3ás ér t t s3é t rá s 3 t tá s 1 í ását és r á s át s ü s3é t rá s r ét r 3ésé 3 2 s ítsé é 2 s3é ö3 tí 2 t t 3s á t t 2 és ór ö3t s t é s é 2 t t s s3 t r s 3ás s3tés 2 s t á s á s s3 résér s ít 3 és 3 2 s3 r s3t 3á ását rr 2 rá t á 2 ár t t tt t t s ét é és s árást 3 ü r s rés tt é 3 t tá ás s t ét t s rt 2 ástó ó ü ö ítés s3 á t t á3 s ét t 3 á 2 2 t Ps3 átr á á rö 3í t ttü 3 és r á t á s3é 2 3t t tt r s3tá 2tó t tást 3 á 2 2 t t 3 ttsá 2t ó á és 3t s 2 t 3 t t rtásá é 3tü ár s3é s rttó rö 3ít ttü é t t és r é t t 2 tr s3é t ét t á s3 t s 2 tá s t sé ár s rt t r és s á3 ttsá s3t ttü tr s rt 2 tá s ó t 2ás ó 2ó 2s3 r tás tt á t s átás s ás tt r 3 tt 3árt 3 t rá sérü ést s3 t és 3 t s r ss3 ós tü t t t tt
231 Szeged, január s3é s rt t t tr p t r ± ± ± p s á3 ttsá é ± ± ± p érté ± ± ± p < érté ± ± ± p s érté ± ± ± p < tá á3 t 3s á t s rt rá t 3 és s3 é 2 r s s3t 3á t t ü és á t á s tí á t t ér t s3t és3ü t Ór r 3 ás t s3t s át rá t tás ás t tó s rt á t é 3 tt t tás é á 3t r sít tté 2 3 és 3 2ás s3é s tá s3é ét t 3 r t r 3 tt t é s tá s3é rö 3ítés t tt ísér tü rá á t t tt ó és3t ttü á s t s tá s3é r 3 á r tó ö 2 s3 r t tá é3t 2 2 r s á ós t t s3t 2 t értü 2 sé é át tt t 3 é3és 3 tá 3s á t s3 é 2 t értü 2 sé é t t s tá s3é é ü 2 ás 2 r s t tít t tü t s3ts3 é 2 2 r s ár 3ás tá tt sé ü t rt át és t t tt é3és rés3 t ért és ts ét és r 3s á t s3 é 2 ét t t rt 3ó t á3 s 2 t s 2 r s3 tö t s3é s tá s3é ét t rt 33 2 r ü ö ö3 ó t ás s ó3 s 2 r ss3 sé é á 2 s3 é 2 ét t tt 3ár t á 3s á t ó 3 ü ár s3é s rt t s3t í á t é t r és s á3 ttsá s3 r t t á ét t tt 2 t á 2 ó é ü s3é s rt ó s3 é 2 2 t s3 á t í 2 ísér t t öss3 s s3é ét é é 3 tü 3 tá á3 t t rt 33 ísér t 3s á t 2 é á 2 t s tát s résér s3 á t s3é 3 s tá s3é s3 2 3és ü ö ös ér3é 2 r s3 ó ó s3 r 3 2 t tí 2 t t é á s3é 3s á tár s tá s3é t rá s r ét r 3s á t 2 t ssá t s3 ér t é s3é s3 é 2 s3é és 2 é ssé t ö t á 2 s t tt 2 ét ö 3 tá ás 2 sé ét és t rt át s tá s3é rá á
232 222 XIV. Magyar Számítógépes Nyelvészeti Konferencia rt á ós t ó 3 tá ó é ü s3á ít tt ás r é t s3é s3á s3é t ó 3 tá ó 2ütt s3á ít tt ás r é t s3é s3á ét ss3 3r ás r ér tö tött t tö t t s3ü t öss3 ss3 tö tött t tö t t s3ü t s3á 3 tá ós rát tö tött és tö t t s3ü t öss3 ss3á és ét ss3á rá 2 tá á3 t 3 t s3t s 3 és ts 2 á t ö t s é és é t ö t 3 2 s3t s 3 t tár 3t á s érés 3 2 t Pr t r r s ítsé é é 3tü rt á ós t ó 3 s3é t ó 3 ss3 3 tö tött t tö t t s3ü t öss3 ss3 3 tö tött t tö t t s3ü t s3á 3 3 tá ós rát öss3 s s3ü t rá tá ó s ss3úsá ú á 2 s3ü t t ért ü 2 t s3t s r ét rt és s3á ítás ó át tá á3 t öss3 3 t t s 2 rés s3é s rés t á ö t 3 á s s3á ítás t s é 2 s rá ás 33áért tát r t é 2 3ért í á t s 3 2 résé t t 3á ás 2 t s3é s rés t á s3 á tá tt 3 2 rés3 2 2s3 r 3ás s3 ö3ö s tár 3 tó s3é s rés3 ü ö ítés 3 s3é t ó és 2é ás s3é ss3á ó 3 2 résér 3 t 3 ü tö tött s3ü t t s é t ü ö ö3t t 3 2 s3é ét ö t tt 2 s3é s r r s3 rt t ít tt 2 s tá s3é t t rt 3ó t á3 sr 2ü és3r 2 rá s r t 3 s3á ításá 3 á t á s3ü sé s 3 2 s s3é ü ö ö3t tés s á 3 s3á ás t ss3á érés s3é té s 3 sítás á t á 3 t 3ért 2 2s3 r sít tt s3é s r t s3 á t 2 2 t ssá é s t á és 3 sít s3é s3 r s3é t tö tött s3ü t t ö á ó é á t t ttü í 2 s3é s r r s3 r t ét r 2 3ít tt s3é s r 3 t á rá s t 3 t ár t t s s t s3á ít s3é 3 á s3é t 2 é t ás árás é t r s ítsé é t t s ü ö ít ü á r
233 Szeged, január feladat 2. feladat 3. feladat Az alany hangfelvételei Manuális annotálás Beszéd felismerõ Idõzített fonéma sorozat Jellemzõ kinyerés Manuális Jellemzõk Automatikus Jellemzõk Gépi tanulás (pl. SVM) Gépi tanulás (pl. SVM) Diagnózis hipotézis Diagnózis hipotézis á r 3 3 tt 3 2 rés és s3tá 2 3ás ö3 ítés á s és t t s 3 2 rés s té rá t á 2 ísér t r é 2 3 tá 2 ö t t t s 3 2 rés 3 tó 3 s3 s3é 2 t ssá ú ü ö ö3t tésér 3 és3sé s tr 2 tó á 2 3t 3 és3 t t és 3 2 rés ö3 ítést s3 á s3 t st ár s3é s rt t r és t r s3 r t é ü ö ít 2 ástó ít tt 3 és3 t ö t tá á3 t 3 á s s3á ítás r tt t r 3 2 r 3 t s rt t tt t t s s3é s rés ó ó s3 r ét 3 s é és 2 3ít tt é s r 3 t t tár 3
234 224 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 tt é r ás s3á s3t ét öss3 é s3á á 3 tt é öss3 ss3 s3t ét t s ss3á 3 tt é r ás át ss3 3 tt é r ás ss3 s3órás tá á3 t é 2 st t s3t é 3 ót és ts 2 á ó s3á ít ét é t 2 s3é 3 t 2 t é 2 s é és 2 á ó s3é s r r s3 r 3ás í 2 s3é 3 té 2 s tár 3ás s 2 tó rá 2 ár 3 3á t s 3és tás é 3 3 t ö 2 ít t ü s3á t s3é 3 stá át t á ít tt é s r 3 t ó s3á tó 3 s rés 3 t tt t rr 2 t á 3 és r é t r s rését s ít 3 t é t r s3t tt 3 és3 t s é és t rt tt tá á3 t s r t 3 t ár s és s 3 t s t ó sít tt 2 tt 2 tö tött és tö t t s3ü t 2 rs r s3á ár 2 t 3t r 3á t érté t s3á t ú 2 2 s3ü t s3á át s3t tt 3 tt ét é s3á á ö t 3 é és ár r 3ésü r á t tö tött és tö t t s3ü t 2 s r ásá ss3 s3é 3 ö3é ttü 3 ss3 át át és s3órását s s3r ttü t á á 2 s3é s r r s3 r 2 r rt öss3 tö tött s3ü t t 3 2 s é á é á 3 ööö 3 tá ó t s3 t t tö s3ör 2s3 r ö é é t t í 3 tá ó rö 2 ss3ú é t 3 á 3t tét 3tü 2 3 é á s3á á t öss3 ss3á ö és t s3 t s3é s r t ós3í tö tött s3ü t s3á á 2 r ását 3 2 t 3 s3t s r ss3 t r 3á t 2 s3t s 3 és3 tü t 2 3 ít ttü 2 3 é á tt ét ü 2 r sá át ír á 3 és ö é á r ás ó é 2 é 2 3 t s3á t tá á3 t 33 t r s3téss ár ét r öss3 s 3 t t 2r ísér t s rá t ít tt 3 és3 tr t 3 3 és r á3 t ü ö ö3 ér és s té és rr s á t 3 3 é t r r 3ésü r á t ísér t rés3t öss3 s 2 s té 3 t 3 t és 3 s á 3 ttsá t s á é 3 tt é s3á át s 33á ttü 3 és3 t 3 í 2 3 és3 tü í t r s3t tt 3 3 é ü 3 á t ár 3 é t r é í3 tó tár 3 tó s3é ó t r 3 tt 3ás 2s3 r s ér t ü 3 2t 2 3 t 3 t t
235 Szeged, január ísér t és r é 2 3 t t s s3é s r r s3 rt tá s3é t á3 s étórá 2 s3é tár t ít tt t s t 2 tö tött s3ü t t é s 2ü 3 sít 3 ér t tá ót ó sít tt 2 t rt s s tá s3é r ó t tö tött s3ü t t és é 3és t tést ö ö ést é s3 t s rést é 3tü tö tött s3ü t t 2 s á s é á t t s3t s é t 2 st r r s t t r r rá s á ót 3t ár r t tt rét rét é t 3 r ú r t t á ós ü é 2t s3 á ó r 2 ü 2 2s3 r é r t 2 t rt 3t ö t s r t r á s sé t tö tött s3ü t ö ö és st s3é s r r s3 r t 2 3ít tt t s3 t t t 2 t rt 3t tö tött tö t t s3ü t t t s3 t át r t ó ár 3 t ít tt 3 és3 t t ö 2 t tt s3á ít s3é s3tá 2 3ás é t ás s3 s3ö 2 é á ó st 2 ó á ó t á3 s 2 s s3á ít 3 s3t 3á t és r 2 s3á r s é s s tá s3é ü rö 3ítés 1 r t tt 2 é 2 s 3 á t s rt tö s ó t rü t t 3s á ó t á 2 á s s3é t 3s á t 2 s ér t t á3 ss 3t 3 2 t s3t tt t á ü ö t ító és t s3t 3r öts3örös r s3t á ást r ss t 3t 2 s t s3é s rt ó 2 2 ss 3 t á s t ító 3 t á s t s3t 3 s3é ét t ít tt 2 2 s3 tt í tr s rt t rt 3 tt 3 tá t ít tt é t ás t érté tü r ó s3é r 3t öts3ör s ét 3 öss3 s s3é r t 2 ó3 s té3 st 2 t 2 t é s t ssá érté öss3 3tü s3tá 2 3ásr s3 rt t r é t rt t r s 3t ár s r 2 s ér t r r s t á tó tá ót s3 á t érté és érté és tr á s3tás 2ért 3 t s3 á t 2 á 2 s s3tá 2 3ás t ssá t s3 s t 3 s3tá 2 s3 ás tö é t s 2 sú 2 3 tt 2 r tt 2 3t s3á 2 r t s s rü t 3 sít ár s3é s rt t t 3 tt t t t tá ás t s t t t ü 2 ér és 3
236 226 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 3 s3t s3tá 2 s 2 rés és3 t P t P t Pr és F 1 á s t 61,3% 76,0% 74,0% 83,3% 80,0% 81,6% t t s t 61,3% 70,7% 67,0% 78,0% 78,0% 78,0% ít tt 62,7% 74,7% 73,0% 83,0% 78,0% 80,4% tá á3 t ü ö ö3 s3t s 3 és3 t s3 á tá ért t ssá ér té ár s3tá 2 s t t ít 2 3 tt s3é ár 2 tá s t sé 3t 2 r t ú 2 2s3 r 2 3 és r s rt t 2 sít ü r 3 s3tá 2 é s3á 2 sú 2 3 t á á s3 tr és 2 t á s3 2 ét s3tá 2 s s3tá 2 3ás t ssá tt 3 át s ést t r s tü t t ü tt s3 ás s r á ó ss3 r sés tr á t s s3á ít tt t ssá t r s Pr ést r és érté t s r 2 F 1 3 C t r ét rét ú 2 á ít tt 2 s ár s3tá 2 s s3tá 2 3ás t ssá t 3 s t ssá érté s té s F érté r 3 rá ót á s3t tt r é 2 tá á3 t t t 3 s3tá 2 3ás r é 2 t ü ö ö3 s3t s 3 és3 t s3 á t tt s tásr ár s3tá 2 s t ssá érté s 2 t t t t 2 ár s3tá 2 3t r és tr és 3 2 s3 ás s 2 ít tt t t á táss s 33, 3% t ér tü 2 ét é á s s3á ít tt 3 tó t ssá 3 3 tt 61, 3% s érté 3t t s t t ét s3tá 2 s t tá ás t é t ért 3 3 á ó t ssá érté é s 3t 3 2 té s s3tá 2 3á s 2 rés3 3 és r s3tá 2 résé ó t tt 2 3 t 3 t t s tár 3ásá s 61, 3% s ár s3tá 2 s t ssá érté t t ár ét s3tá 2 s t tá ás t r á s 2 ó t ít tt 3 és3 t s3 á tá s3 t 3 öss3 s t ssá érté tt és ét é 2 á t 3 t r t ár ár s3tá 2 s t ssá s 1, 4% ö tt 3 érté 2, 4% s s3 út ö és 3t és3 tt 2 t ssá ú t tá ásr t sé á ás 3 3 és3 t á s s3á ítás rr á s s r s3ítést é 2 t í t t s s 2 tó tt tás tá á3 t á ít tt 3 és3 tt ér t r é 2 2 r tét ü 3 s sú 2ú ér s t 3t s 3s á s s3é s rt 2 té 2sá
237 Szeged, január és3 t P t Pr és F 1 tr s 74,7% 72,0% 81,6% 80,0% 80,8% tr s 76,0% 76,0% 84,2% 64,0% 72,7% tr s 84,0% 84,0% 81,5% 88,0% 84,6% s 76,0% 76,0% tá á3 t ü ö ö3 ét s3tá 2 s é t ás s t ért t ssá érté ít tt s3t 3 és3 t s3 á t tt ü ö ít t 2 ástó ár té s3tés átr 1 3ésé s t rr ö t 3t tés t s3 r tü é ó s3 r 3 2 s s3tá 2 ár r ár s s3tá 2 3ó t t ít és 3 t sít é 2ét 3s á 2 t só t s3ts r 3 t tsé s s3tá 2 árr ét s3tá 2 s t t ít tt 3 s t s3t s t s3é t t s3 á t 3 és r s3t 3á t á s t 2 3 s3tá 2 s 2 s r t í ás s3tá 2 tr s rt t r ó ár s t s ét ét s3é s rt 2á ét t s3 á t rá ísér t ít tt 3 és3 t 3 t tt r é 2 3 st s 3 t 3 t r t s3 á t 3 tá á3 t t rt 33 ár s s3tá 2 3ó s3 á tá tt r é 2 t r s3é t t s3 á t 3 r é 2 s ó ó t t r ár s3tá 2 s t t ít tt és r ó ét s s3tá 2 í é t öss3 t , 7% t ssá érté tt s 2 t és t ssá t r s t í és és 3 érté s t tt t á r é 2 t 3s á 3t át t 2 tr s rt t rt 3ó 2 t t ö 2 ü ö ít 3 2 s á s t 2 é s s3 3 ét s rt t á tó 3s á t tá s t sé s á ét é é 3 é st ö tés s3 2 tr t s3 s ó é3 3 2 t ár 76% s t ssá érté é é 2ü s3 r t té 2 ü ö ítést tü rö3 r 3 és 2 s rt t rt 3ó 2 t ró á t ü ö ö3t t 2 ástó s3á ít tt t ssá érté t 3 s t t é3 3 tí s3tá 2 átt ért ét 3 r á ó ss3 r sés 3 Öss3 ssé é 3 r é 2 3t tü rö3 2 s3t tt 3 és3 t és s t ét é és s árás s r s 3 tó r 2 tí 3 r r 3 r ór s résér é 2 3 s3t s 3 r é ü 3ést és 2 és3 t 3 s és3ítsü s3 s3é 3 2t sá át 2 s 3és 3t s3 ú 2 ét s ért t á t tás t é 2
238 228 XIV. Magyar Számítógépes Nyelvészeti Konferencia Öss3 3és ü ö ö3 tí s í 2 é á 3 2 tí 3 r és 3 3 r ór r s rés r t s 3 és 3 és és í 2 á s é t sé s3 t á ó rá t á 2 ár s t 2 á s árást 2 s3é t rá s r ét r s3é t ó r t á ós t ó 3 tá ós rát st 3s á tá ísér ü ö ít 3 s3 2 t 3 és3sé s tr tó s t 2 s3é s rés ó árást 3 s3t s 3 t t s s3á ításár s ó3 s té3 st ás é és 3 3 á 2 é t ás árás s3 á t tt 3 t 3t 3s á t 2 3 t á s 3 tt r s résér s r é 2 3t tü rö3 2 3 árás s3 á tá té 2 80% ö ött érté t tár r 3 ár 2 á ár s3é s rt r és tr ár é t ü ö ítésér s 72 84% ö3ött t ssá érté ó t ó 3 2 és tr s rt t t ö 2 ü ö ít 2 ástó 3 ét s rt t á tó 3s á t tá s t sé s á ét é é ös3ö t 2 á ítás t tást 3 P 3 sító ú társ s3ír 3ású r t tá tt ót ás3 ó t tás t 3 2 á s ös3tö í tá tt 3 r t tás t 3 r r rrás s3tér Ú P ó s3á ú Ú 3 t á ósá Pr r tá tt t 3ás Pr r2 s r rr r t s2st t r t 2s s 3 r s t s r s2 tr2 r r s 1 r rs t2 Pr ss s t t t3 P s Pr t r tr s rs P P r s é t 2 és é 3 t P é s á s s Ps3 s3t é ó st st st P t st t r t t r r t t st t t ts r t r Ps2 tr s r r r s r r s2 2s s r 1 r rs t2 Pr ss á á ó 3 2 Ór 3 ás s3t 2 rs és 2s3 r t s3 r ó s3 r Ps2 tr r
239 Szeged, január s s s r t s r 3 r s s s r Ps2 tr s r r t s P s 2 r s r s r t t t r t r s t s Pr ss r s 2 r t t s t s t s r 2 3 r s s s t t r s r t t s t r t r r tr Ps2 tr2 é t 2 Pá ás r 2 á á r r t rs s t s s 3 r s s s t r t r P t 2 á rtí 3 á 3 rr á 3 Pér 3 st r rs ss t t r t r ss 3 r s s s s r Ps2 2 tt r2 ö t P rt P s t t r st t t r2 r 2 t t rs 3 úr rr P t r s r r2 2 r r s s t t2 t r t r s 2s s s t s s Ps2 t r s r r st ñ rr r P s s r r r s rt s r2 t t st t s r r 2 t t 3 r s s s 3 r s t rr r P 2 s P tt rs ts r2 r 2 3 r s s s t r t r st s r t 2 r t r r r P s r r 3 r s s s t r t r t r r 1 r t r s2 2 t s P üst r ss rö r r r r rr t s t st r r t r t 3 r s s s r 3 r s s s r s r rr r t r ts t r t Ps2 r tr s rr r P t s r r r r r s t s s t r t2 ts s t t s rs rt 1 rt ö t P P t rö r t r t 3 r s s s st t t P t st tt r2 rts r tt r r Ps2 tr ót s3t t ó 3 író s r Pá ás á á t t t t t r t r s t s s s t rs r 3 é t rs3á ót s3t t ó 3 író s r Pá ás á á 3 2 tí 3 r t t s 3 sítás s3 ré 2 r rs3á
240 230 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3t 2 ót rós3 3 3 t ó 3 Pá ás á á t t t r t r s t s s 2 rr t s t t r s t t rs r s st s r P r s s s t r t st s 2s s s s r s r st t r s s t s r t ss t t r r s r r t s s 3 r s t t s P r s s r s á P r r 2 rí 3 r s ó st ó s r t r r t st trí 2 í ós2 r 1 s r t 2 r 2 r ót P r t t r r t 1 t t r s P r s Pr ss P r r r r r r r 1 r t2 s r s r t r t r2 2 s 1 t 2 2 r2 st 2 r r r tr Ps2 tr2 r t r ý r rs t2 2 s2st r t rs P r st t rs r á r32 s r3 r ss t r r ss s t rs t rs r s ós2 t t r s t s P t r Pr 1 r r 2 t t r s2 ss ss t r t t t r t t rs P rt ö P tt 2 r s st t t s rt s str t r t t r s P r r t P tt t s t r t 1 r t s s tt r 3 3 t ó 3 író s3t 2 ót Pá ás á á 3 2 tí 3 r t t s 3 sítás s3é át r t á 3
241 Szeged, január Kriminalisztikai alapú beszélőiprofil-alkotás Beke András Spicy Analytics Kft Budapest, Harangvirág utca 5. Kivonat: A beszélő hangja alapján az ismert személyek felismerése mellett képesek vagyunk az ismeretlen személyekről profilt készíteni, vagyis olyan általános információkat becsülni, mint például a nem, az életkor, a testalkat vagy a beszélő hangulata. Korábbi kutatások igazolták, hogy erős összefüggés van a toldalékcső hossza és a beszélő személy fizikai állapota, mint az életkor, a nem, a testmagasság stb. között. Ezen összefüggés alapján feltételezzük, hogy az emberi beszéd akusztikai jellemzői kódolják az adott beszélő testi fizikai felépítésére utaló jegyeket. A jelen kutatásban ezen összefüggés érvényességét vizsgáljuk tanuló algoritmusok segítségével. A kutatásban elemezzük, hogy a beszédből milyen eredményességgel lehet automatikusan becsülni a beszélő nemét, életkorát, testsúlyát, illetve testtömegét. A fizikai tulajdonságok becsléséhez a beszédből kinyert akusztikai jellemzőket használunk: prozódiai alapú, beszédminőség-alapú, spektrális alapú. Az eredmények azt mutatják, hogy a nem, a testtömeg és a testsúly becslése nagy pontosságú, míg az életkor becslése kevésbé. 1 Bevezetés Az elmúlt években láthatóan megnövekedett az érdeklődés a hangalapú biometria iránt, ami ma már szintén kiegészítő eleme a személyazonosításnak, beléptető, illetve felügyeleti eszközöknek stb. Ugyanakkor fontos megjegyezni, hogy a hangalapú biometria korántsem rendelkezik olyan megbízhatósági szinttel, mint például a DNS, az ujjlenyomat vagy íriszminta. Ezzel szemben a hangalapú biometria alkalmazásának költsége jóval alacsonyabb és gyorsabb, mint a fent említetteké, így mind a gyakorlat, mind a tudományos szakma egyre nagyobb figyelmet fordít ennek fejlesztésére. A kurrens hangalapú biometriai eszközök közé tartozik a beszélőazonosítás, a beszélőhitelesítés. A beszélőazonosítás során egy n-elemű halmazból (általában a gyanúsítottak köréből) kell kiválasztani a legvalószínűbb beszélőt (vagyis a kérdéses mintát hozzárendelni a gyanúsítottak valamelyikéhez, vagy kizárni azt a csoportból). A beszélőhitelesítéskor azt a hipotézist kell ellenőrizni, hogy az adott beszélő az a személy-e, akinek álltja magát. A közös mindkettőben az, hogy az adott/vizsgált beszélői modell ismert személytől származik. Ugyanakkor a kriminalisztikai gyakorlatban sokszor olyan esetek is felmerülnek, amikor a beszélő személy kiléte nem ismert, illetve a hatóság nem rendelkezik gyanúsítotti körrel. A hangalapú biometriai eljárások közül a beszélőiprofil-alkotás foglalkozik ennek a kérdések a
242 232 XIV. Magyar Számítógépes Nyelvészeti Konferencia vizsgálatával. A beszélőiprofil-alkotás a kriminalisztika egy olyan ága, amely deduktív érveléseket használ, hogy logikus következtetéseket vonjon le az elkövetőről annak beszédbeli és/vagy nyelvi ismérvei alapján. Ez a tudomány arra a megfigyelésre épül, hogy a beszélő hangja alapján az ismert személyek felismerése mellett képesek vagyunk az ismeretlen személyekről profilt készíteni, vagyis olyan általános információkat becsülni, mint a nem [14], az életkor [7,20], a testalkat [2,8,24] vagy a beszélő hangulata [22] stb. Korábbi kutatások igazolták, hogy erős összefüggés van a toldalékcső hossza és a beszélő személy fizikai állapota, mint az életkor, a nem, a testmagasság stb. között [4,5]. Ezen tényre alapulva számos olyan kutatás született, amely a beszédből automatikusan kívánta becsülni a beszélő fizikai tulajdonságait annak beszédbeli jellemzői alapján. A nemzetközi szakirodalomban igen sok kutatás történt a beszélő nemének és életkorának automatikus becslésére annak beszéde alapján. Mindemellett van néhány olyan munka, amely a beszélő testsúlyának, illetve testmagasságának becsélét vizsgálja a beszélő hangja alapján. A hazai beszélői profilalkotás előzményeinek tekinthető: [7,8]. Ezen kutatások azonban a jelenség percepciós oldalát vizsgálták, vagyis hogy a humán hallgató milyen eredményességgel képes a beszélő fizikai paraméterinek becslésére. A következőkben bemutatjuk az egyes beszélői fizikai paraméterek becslésére történt kísérleteket. 1.1 A beszélő nemének automatikus osztályozása A beszéd elsődleges információt hordozhat a beszélő nemére vonatkozóan. Ennek hátterében az áll, hogy a beszéd létrehozása biológiailag meghatározott. A nők és a férfiak fiziológiai jellemzőiket többek között a beszédszervek méretét tekintve eltérőek. A hangszalagok, valamint az artikulációs csatorna hossza kisebb a nők esetében (a hangszalagok átlagos hossza: 1,5 és 2 cm közötti, az artikulációs csatorna átlagos hossza: 14 cm; térfogata 130 cm 3 ), mint a férfiaké (a hangszalag átlagos hossza: 1,9 és 2,9 cm közötti, az artikulációs csatorna átlagos hossza: 17 cm, térfogata 170 cm 3 ). Az első és legdominánsabb akusztikai következménye ennek, amely hallás alapján is jól feldolgozható, hogy a nők hangmagassága magasabb, mint a férfiaké. Jóllehet a nemek azonosítása beszédhang alapján (akár percepciósan, akár gépi úton) egyszerű feladatnak tűnhet, mégis sok esetben téves eredményt adhat. Nehezíti a feladatot az is, hogy az életkor előrehaladásával a nők hangja mélyül, a férfiaké pedig magasabbá válik. A nemek felismerését nehezítik továbbá az alkoholfogyasztás, a dohányzás, illetve a betegségek is. A fiziológiai különbözőségeken kívül a nők és a férfiak nyelvhasználata is eltérő lehet, amely a szóhasználatban, a létrehozott szöveg nyelvtani összetettségében, a pragmatikai tényezőkben, avagy a nonverbális kommunikációban mutatkozhat meg [12]. A nők például gyakrabban használják a visszakérdezést (ugye?, igaz?, hát nem? stb.) a szolidaritás és az udvariasság eszközeként, mint a férfiak.
243 Szeged, január A beszélő életkorának becslése Az életkor előrehaladtával a beszédszervek változáson mennek keresztül (például a tüdőkapacitás, a gégenagyság, a fogazat és a nyelv izomzata is változik), amelynek következtében jelentősen módosulhat a beszéd hangzása. Ez a változás igen gyakran a beszélő hangmagasságát, artikulációs és beszédtempóját, hangerejét stb. érinti. A nemhez hasonlóan, az életkor is befolyásoló tényező lehet a szóhasználat, a létrehozott szöveg nyelvtani összetettségét, pragmatikai tényezőit, avagy a nonverbális kommunikációt illetően. A beszédkutatások három fő életkori szakaszra irányulnak: gyermekkor (18 éves korig), felnőttkor (18 65 éves kor között), időskor (65 éves kortól). A kutatási eredmények szerint azonban a hallgató az életkor vonatkozásában ennél jóval pontosabb becslést is képes adni, közel 70%-os pontossággal tudja a beszélő életkorát megbecsülni [24]. Gyermekkorban a beszéd a felnőttkori beszédtől az alábbi tényezőkben tér el: az alaphangmagasság magasabb (gyermekkorban a legmagasabb: ekkor a fiúk és lányok között nincs, vagy alig van különbség), a beszédés artikulációs tempó lassabb, a beszédhangok kiejtése még nem kiforrott, a beszéd tematikája és grammatikai kidolgozottsága eltérő. Időskorban a beszéd a felnőtt beszédétől az alábbi tényezőkben tér el: a beszéd és artikulációs tempó lassabb, a beszédtervezési nehézségek jellemzőek, a szünettartás gyakoribb, az artikuláció pontatlanabb, az egyes szavak kiejtése hosszabb időtartamú, a hiba típusú megakadások gyakoribbak [3]. 1.3 A beszélő testmagasságának becslése Az elmúlt években szintén több vizsgálatot végeztek a testmagasság becslésére a beszéd alapján. Ezek többsége a humán percepciót tesztelte, vagyis azt, hogy a kutatásban részt vevő hallgatók milyen eredményességgel tudják megítélni a beszélő testmagasságát a hallott beszédminta alapján. Ezek eredményei azonban nem mutatnak egy irányba. Lass [13,14] munkái alapján a hallgatók egyértelműen meg tudják becsülni a beszélők testmagasságát, míg a későbbi munkák ezt nem erősítették meg [10]. Az újabb kutatások szerint [24] csak a férfiak esetében találtak erős korrelációt a testmagasság és a becsült értékek között, míg más vizsgálatban egyáltalán nem tudtak ilyen jellegű összefüggést kimutatni. Számos akusztikai vonatkozású kutatás vizsgálta a toldalékcső hossza és a testmagasság közötti korrelációt. Fitsh és Giedd [5] erős korrelációt mutatott ki a toldalékcső és a testmagasság között röntgen- és mágnesesrezonancia-alapú vizsgálatok alapján. A testmagasság előrejelzésére a számos akusztikai jellemző közül vizsgálták már a szubglottális rezonanciát [1], az alaphangmagasságot [6], a formánsokat [9,21], az MFCC-t és a lineáris predikciós együtthatókat (LPC) [4,18]. Emellett vannak olyan kutatások, amelyek mindezen jellemzőket használják a testmagasság becsléséhez. Mporas és munkatársa [16] például az opensmile akusztikai jellemzőkinyerő algoritmust használták, amely több mint 6000 akusztikai paramétert tartalmaz. Tanulmányukban vizsgálták a lineáris és nem-lineáris regressziós modellek hatékonyságát is. Az eredményeik azt mutatták, hogy 0,053 méter volt az átlagos
244 234 XIV. Magyar Számítógépes Nyelvészeti Konferencia eltérés a valós testmagasság és prediktált testmagasság között, ha bagging regressziós modellt használtak. 1.4 A beszélő testtömegének becslése A testtömeg és a beszéd közötti korreláció mögött szintén a vokális traktus és az akusztikai jel közötti korreláció adja [13]. De Sousa és munkatársai [23] kimutatták, hogy a testtömegindex megjelenik az akusztikumban is. Vizsgálatukban 84 nő testtömegindexét (19 alultáplált; 23 normál, 20 túlsúlyos and 22 elhízott) és akusztikai paramétereit hasonlították össze (alaphangmagasság, kitartott magánhangzó [a] és fonációs időtartam az [a], az [i] és az [u] hangnak. A legnagyobb eltérést az alaphangmagasságban találták az egyes csoportok között. Poorjam és munkatársai [19] az i-vektoron (Gaussok középértékének összefűzése) nem-negatív mátrixfaktorizálással (Gaussok súlyain alkalmazva) olyan rendszer hoztak létre, amely a NIST telefonos beszédadatbázisán a férfiak estében 0,56-os, míg a nők esetében 0,49-es korrelációt mutat az eredeti és a becsült testtömeg között. 2 Adatbázis: leíró statisztikák a vizsgált paraméterek mentén A jelen kutatásunkat a BEA (BEszéltnyelvi Adatbázis [17]) adatbázisból véletlenszerűen kiválasztott 134 adatközlő hanganyagán végeztük. A BEA protokolljából csak a mondatfelolvasást választottuk ki: 25 mondat minden beszélőtől, így 3350 mondat volt a teljes adatbázisunk. A kiválasztott korpuszban a nemek eloszlása nem volt egyenlő: 54 férfi, 80 női beszélőt tartalmazott. A korpusz leíró statisztikáját az 1. táblázat mutatja. 1. Táblázat: A korpusz leíró statisztikája Faktorok Férfi Női Átlag Átlagos eltérés Átlag Átlagos eltérés Életkor (év) Testmagasság (cm) Testsúly (kg) Az életkori eloszlás esetében jól látható, hogy a résztvevők többségének életkora év között mozog (Fig. 1.). A többi életkori cella közel azonos számoságú. A testmagasság közel normál eloszlású, egy kiugróan alacsony testmagasságú adatközlővel (Fig. 1.). A testtömeg balra ferde, de normál eloszlású (Fig.1.).
245 Szeged, január Fig. 1. Az életkor, a testmagasság és a testtömeg eloszlása a korpuszban. Az egyes testjellemzők közötti korrelációelemzés alapján azt lehet látni, hogy nem meglepő módon a testtömeg és a testmagasság között van közepesen erős korreláció (Fig. 2.). Az életkor és a többi jellemző között viszont nincs ilyen értelemben korreláció. Fig. 2. Korreláció az életkor, a testmagasság és a testtömeg között. A nemen belül a nők esetében jól látható, hogy a 25 évesek felülreprezentáltak a korpuszban, míg a férfiak esetében ez kevésbé tapasztalható (Fig.3.). Ugyanakkor a nők esetében több olyan adatközlő is van, aki az idősebb korosztályba tartozik.
246 236 XIV. Magyar Számítógépes Nyelvészeti Konferencia Fig. 3. Az életkori eloszlás a nem tekintetében. Jelentős különbséget figyelhetünk meg a nők és a férfiak között a testmagasság és a testtömeg esetében is. A férfiak átlagosan 13 cm-el magasabbak, mint a nők (Fig.4.). Fig. 4. A testmagasság (balra) és testtömeg (jobbra) eloszlása a nem tekintetében. A férfiak testtömegüket illetően átlagosan 15 kg-mal súlyosabbak, mint a nők (Fig.4.). Megvizsgáltuk, hogy a nők és férfiak esetében hogyan korrelálnak az egyes testjellemzők (Fig.5.)
247 Szeged, január Fig. 5. Korreláció az életkor, a testmagasság és a testtömeg között a férfiaknál (balra) és a nőknél (jobbra). Látható, hogy a testtömeg és a testmagasság közötti közepes korreláció csak a férfiak esetében igazolható, a nőknél nem. Ugyanakkor a nőknél megfigyelhető egy gyenge korreláció az életkor és a testtömeg között. Összességében megfigyelhető, hogy az egyes testi jellemzők nem kiegyenlítettek a korpuszban, illetve igen erősen függnek a nemtől, vagyis hogy férfiról vagy nőről vane szó. 3. Módszer 3.1 Akusztikai jellemzők Az egyes testi jellemzők osztályozásához, illetve becsléséhez olyan általános jellemzőkészletet kívántunk összeállítani, amely mind a nem, az életkor, a testmagasság és a testtömeg esetében használható. A teljes jellemzőkészletet azonban minden egyes testjellemző esetében specifikáltuk dimenziócsökkentő vagy jellemzőválogató algoritmussal. Az akusztikai jellemzőkinyerést az R programban valósítottuk meg ( seewave, sound, signal, tuner ), valamint az ezekben nem található függvényeket (HNR, jitter, shimmer) implementáltuk R nyelvre Időtartományban mért jellemzők Tipikusan olyan jellemzők tartoznak ide, mint alaphangmagasságból vagy a hangszínezetből (voice quality) származtatott jellemzők. A jelen kutatásban az alaphangmagasságból számított alapstatisztikai mutatókat vettük ide: átlag, szórás, minimum, maximum, ferdeség, csúcsosság. Az alaphangmagasság az egyik legtöbbet idézett akusztikai jellemző, amely összefüggésbe hozható mind a nemmel (a férfiak
248 238 XIV. Magyar Számítógépes Nyelvészeti Konferencia f0-értéke általában alacsonyabb, mint a nőké), a testmagassággal (az alacsonyabb embereknek általában magasabb az f0-értékük, mint a magasabb embereknek [2], illetve a testtömeggel (általában az alultáplátak f0 értéke magasabb, és akinek magas a testtömegük, azok f0 értéke alacsonyabb a normál testtömegűekhez képest [23]. Az f0 mellett olyan akusztikai paramétereket is kerestünk, amelyek utalhatnak a hangszínezetre. Ezek közül kimértük az időbeli rezgésentrópia szintjét, amely a jel rendezettségét kívánja reprezentálni, a nullátmenetek számát (ZRC), az amplitudó Hilbert-burkolóját, a jittert, a shimmert, a HNR-t, a teljes görbületet (amely az időbeli rezgés második deriváltjának teljes összege), az amplitudó négyzetes középértékét (RNS), valamint a jel energiáját (annak első két deriváltját, illetve ezekből számított átlagát és szórását) Frekvenciatartományban mért jellemzők Minden egyes mondatra kiszámoltuk a 12 koefficienst tartalmazó MFCC-t (0 8 khz között), illetve az energiát, majd ezeknek első két deriváltját, majd ebből számítottunk alapstatisztikai paramétereket (átlag, szórás, ferdeség, csúcsosság: 13x2x4). A MFCC mellett ugyanilyen módon kiszámoltuk a 12 együtthatót tartalmazó PLP-t is (0 4 khz között). Továbbá kimértük a frekvencia modulációt is Hz között, amelyből szintén leíró paramétereket származtattunk (átlag, szórás, ferdeség, csúcsosság). Ezek mellett vettük a 0 4 khz közötti spektrum alapvető statisztikai paramétereit (átlag, szórás, medián, kvartilisek, centroid, ferdeség, csúcsosság, entrópia, flatness, módusz). Összesen 344 dimenziós sorvektorral jellemeztünk minden egyes mondatot. 2.3 Modellek: klasszifikációs és regressziós modellek A modellek tanításához és teszteléséhez a teljes adatbázist random módon két részre osztottuk, tanító és teszt adatbázisra (70-30%-ban). A tanító halmazba 1940 mondat került, a teszthalmazba pedig 1410 mondat. Az egyes tanuló algoritmusok hyperparamétereit a tanító adatbázison állítottuk be 5-szörös keresztkiértékeléssel. A modellek tanításához az R szoftvert használtuk ( caret, h2o ) Klasszifikáció A jellemzőkészlet nem-specifikus reprezentáláshoz főkomponens-elemzést (PCA) használtunk. A PCA alapján összesen 74 főkomponenst tartottunk meg, ezzel végeztük az osztályozást. A nem osztályozásához bináris logisztikus regressziót, random forest algoritmust, szupport vektor gépet, mély neurális hálózatot és gradient boosting machine-t használtunk. Ezen felül készítettünk egy, a modelleket összevonó ún. ensemble modellt is, amelyben az összevonást végző algoritmus a GLM. Az ensemble esetén kinyertük a tanuló és tesztelő adatokra kapott score-okat az öt egyedi tanuló algoritmussal, vagyis az új adatdimenzió egy 5-dimenziós sorvektor minden egyes esetre. Ezekre az adatokra tanítottunk egy új GLM-et, amely így az egyes tanuló algoritmusok előnyeit emeli ki a nem osztályozási feladatában.
249 Szeged, január Regresszió Az életkor, a testtömeg és a testmagasság becsléséhez a teljes jellemzőkészletet használtuk. Az egyes testi jellemzők becsléséhez általános lineáris modellt, random forest-et, gradient boosting machine-et és mély neurális hálózatot használtunk. Ezen felül kísérletet végeztük a modellek összevonásával, úgynevezett ensemble modellel. Az első ilyen modell esetén mind a négy tanuló algoritmus kimeneti score-ját átlagoltuk. A második ensemble modell esetén a négy kimentre egy újabb általános lineáris modellt tanítottunk. 3 Eredmények 3.1 Az nem osztályozásának eredménye Az általunk elvégzett klasszifikáció a nem tekintetében igen jó eredményt adott. Ez megegyezik a korábbi kutatások eredményeivel. Mindegyik algoritmussal közel 98-99%-os pontosságot értünk el (Táblázat 2.). Az eredmények azt mutatják, hogy a legjobb osztályozási metrikákat az SVM, a két rejtett réteget tartalmazó DNN, illetve az Ensemble modell adta. 2. Táblázat: A nem osztályozásának eredménye Acc Kappa AUC LogisticRegression 0,953 0,902 0,967 RandomForest 0,894 0,772 0,983 SupportVectorMachine 0,966 0,928 0,996 GradientBoosting 0,939 0,872 0,984 DNN [100]-Rectifier 0,953 0,902 0,992 DNN [ ]-TahnDropout 50% 0,961 0,919 0,993 Ensemble 0,965 0,926 0, Az életkor becslésének eredménye Az eredményekből az látszik, hogy a feladat lineáris megközelítése a GLM-mel sikertelen volt, ugyanakkor a többi modell eredménye jónak mondható. A becsült életkor közel évet téved átlagosan. Az önálló modellek közül a DNN (2 rejtett réteget unit, Tanh-függvény) adta a legjobb eredményt. A legjobb eredményt összességében a GLM-mel összevont ensemble modell adta, ebben az esetben volt a legkisebb a hiba: 10 éven belüli (Táblázat 3.).
250 240 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3. Táblázat: Az életkor becslésének eredménye RMSE Rsquare MAE GLM 15,8 0,426 12,6 RandomForest 13,2 0,665 9,8 GBM 12,7 0,634 9,3 DNN 10,2 0,763 7,2 Ensemble_Avg 12,3 0,720 9,3 Ensemble_GLM 9,8 0,770 6,8 A regresszió szerint a nők esetén illeszkednek jobban a valós értékekre a prediktált értékek (0,782), az illeszkedés férfiak estén kisebb (0,768). Ugyanakkor a várt értéktől való eltérés az RMSE és a MAE alapján a férfiak estében kisebb (RMSE: 8,96; MAE: 6,3), mint a nők esetében (RMSE: 10,3; MAE: 7,1) (Fig. 6.). Fig. 6. A valós életkor és a becsült életkor közötti összefüggés a férfiak és nők esetében 3.4 A testmagasság becslésének becslése A testmagasság becslése az eredmények szerint jobban megközelíthető az általunk készített módszerrel. A GLM-et leszámítva 0,8 feletti korrelációs értéket kaptunk a valós testmagasság, illetve a becsült testmagasság között, emellett az áltagos hiba 3 7 cm között mozgott. A legjobb eredményt itt a DNN-nel, illetve a GLM-mel egyesített modellel kaptuk (Táblázat 4.). A regresszió szerint a férfiak esetén jobban illeszkednek a prediktált értékek a valós értékekre (0,788), mint a nők estén (0,750). Ugyanakkor a várt értéktől való eltérés az RMSE és a MAE alapján a nők estében kisebb (RMSE: 2,5; MAE: 2,0), mint a férfiak esetében (RMSE: 9,2; MAE: 3) (Fig. 7.).
251 Szeged, január Táblázat: A testmagasság becslésének eredménye RMSE Rsquare MAE GLM 6,6 0,500 5,2 RandomForest 4,2 0,814 3,1 GBM 4,3 0,785 3,2 DNN 3,8 0,824 2,9 Ensemble_Avg 4,2 0,812 3,2 Ensemble_GLM 3,2 0,873 2,4 Fig. 7. A valós testmagasság és a becsült életkor közötti összefüggés a férfiak és nők esetében 3.5 A testtömeg becslésének eredménye A testtömeg becslése szintén nehezebb feladatnak bizonyult. Az eredmények szerint a becsült testmagasság közel 4 6 kg közötti átlagos hibával becsülhető. Ugyanúgy, ahogy az előző regressziós feladatokban, a legjobb eredményt ebben az esetben is a DNN, illetve a GLM-mel egyesített modellel adta (Táblázat 5.). A regresszió szerint a nők esetén jobban illeszkednek a valós értékekre a prediktált értékek (0,783), mint a férfiak estén (0,754). A becslés pontosság a két esetben közel ugyanolyan mértékű volt (nők: RMSE: 6,7; MAE: 4,8; férfiak: RMSE: 6,5; MAE: 4,8) (Fig. 8.). 4 Következtetések A jelen kutatásban azt vizsgáltuk, hogy milyen eredményességgel lehet a beszédből becslést adni a beszélő fizikai adottságaira a nem, az életkor a testmagasság, illetve a testtömeg tekintetében. Az eredményeink szerint az olvasott mondatokon a nem
252 242 XIV. Magyar Számítógépes Nyelvészeti Konferencia meghatározása igen jó minőségben megvalósítható. Az életkor becslése esetében a feladat jóval komplexebb, hiszen a beszédben észlelhető életkor, illetve a valós életkor között (vö. [15]) sok esetben ugrás észlelhető. Ez a különbség tovább nő az idő előrehaladtával, vagyis a becslés pontossága a fiatalok esetében jobb, mint az idősek esetében (vö. [11]) (lásd Fig. 6). A testmagasság esetében a modell pontossága igen jónak mondható, vagyis az általunk kinyert akusztikai paraméterek hordozzák azon jegyeket, amelyek alkalmasak ezen fizikai paraméter becslésére. Ugyanez elmondható a testtömeg esetén is, jóllehet ennek automatikus becslése valamivel pontatlanabbnak bizonyult. 5. Táblázat: A testtömeg becslésének eredménye RMSE Rsquare MAE GLM 12,9 0,359 9,9 RandomForest 8,9 0,706 6,6 GBM 8,6 0,709 6,4 DNN 7,9 0,754 6,0 Ensemble_Avg 8,9 0,750 6,8 Ensemble_GLM 6,6 0,817 4,8 Fig. 8. A valós testtömeg és a becsült életkor közötti összefüggés a férfiak és nők esetében Ebben a kutatásban egy alap, ún. baseline rendszert hoztunk létre, amely felolvasott mondatokból kinyert akusztikai jellemzők alapján tesz becslést automatikusan a beszélő fizikai paramétereire. Ezen baseline rendszert kívánjuk a jövőben tovább fejleszteni, kiterjeszteni más beszédtípusra, más korpuszra más/komplexebb modellek bevonásával, továbbá az akusztikai jellemzők mellett szöveges jellemzők felhasználásával.
253 Szeged, január Köszönetnyilvánítás A jelen kutatás a Bolyai János Kutatási Ösztöndíj támogatásával készült. Bibliográfia 1. Arsikere, H., Leung, G., Lulich, S., and Alwan, A. (2012). Automatic height estimation using the second subglottal resonance, in IEEE International Conference on Acoustics, Speech and Signal Processing 2012 (ICASSP) (2012) Barsties, B., Verfaillie, R., Dicks, P., & Maryn, Y. Is the speaking fundamental frequency in females related to body height?. Logopedics Phoniatrics Vocology, 41(1), (2016) Bóna, J. "A spontán beszéd sajátosságai az időskorban." ELTE Eötvös Kiadó, Bp. (2013). 4. Dusan, S. Estimation of speakers height and vocal tract length from speech signal, in INTERSPEECH (ISCA) (2005) Fitch, W. T., and Giedd, J., Morphology and development of the human vocal tract: A study using magnetic resonance imaging, J. Acoust. Soc. Amer. (1999)106(3): Ganchev, T., Mporas, I., and Fakotakis, N. Audio features selection for automatic height estimation from speech, in Lecture Notes in Computer Science. Artificial Intelligence: Theories, Models and Applications, edited by S. Konstantopoulos, S. Perantonis, V. Karkaletsis, C. Spyropoulos, and G. Vouros (Springer, Berlin) (2010) 6040, Gocsál Á. Életkorbecslés a beszélő hangja alapján. Beszédkutatás (1998), Gósy M. A testalkat és az életkor becslése a beszéd alapján. Magyar Nyelvőr; (2001) 25/4: Greisbach, R. (1999). Estimation of speaker height from formant frequencies, Forensic Ling. 6, (1999) Gunter, C. D., & Manning, W. H. (1982). Listener estimations of speaker height and weight in unfiltered and filtered conditions. Journal of Phonetics. 11. Huckvale, M. and Aimee W. "A Comparison of Human and Machine Estimation of Speaker Age." International Conference on Statistical Language and Speech Processing. Springer, Cham, Huszár Á. Bevezetés a gendernyelvészetbe: Miben különbözik és miben egyezik a férfiak és a nők nyelvhasználata és kommunikációja? Budapest: Tinta Könyvkiadó (2009) Lass N. J. and Davis M. An investigation on speaker height and weight identification, Journal of the Acoustical Society of America, vol. 60 (1976) Lass N. J, Hughes KR, Bowyer MD, Waters LT, Bourne VT: Speaker sex identification from voiced, whispered, and filtered isolated vowels. The Journal of the Acoustical Society of America (1976) 59: Moyse, E. "Age estimation from faces and voices: a review." Psychologica Belgica 54.3 (2014). 16. Mporas, I., and Todor G.. "Estimation of unknown speaker s height from speech." International Journal of Speech Technology 12.4 (2009) Neuberger, T., Gyarmathy, D., Gráczi, T. E., Horváth, V., Gósy, M., Beke, A.: Development of a large spontaneous speech database of agglutinative hungarian language. In: TSD2014x. (2014) Pellom, B. L., and Hansen, J. H. L. Voice analysis in adverse conditions: The Centennial Olympic Park Bombing 911 call, in Proceedings of the 40th Midwest Symposium on Circuits and Systems 2. (1997),
254 244 XIV. Magyar Számítógépes Nyelvészeti Konferencia 19. Poorjam, A. H., Mohamad H. B., and Hugo Van H. "Speaker weight estimation from speech signals using a fusion of the i-vector and NFA frameworks." Artificial Intelligence and Signal Processing (AISP), 2015 International Symposium on. IEEE (2015). 20. Ptacek P. H, Sander E. K: Age recognition from voice. Journal of Speech and Hearing Research (1966) 9/2: Rendall, D., Kollias, S., Ney, C., and Lloyd, P. Pitch (F0) and formant profiles of human vowels and vowel-like baboon grunts: The role of vocalizer body size and voice-acoustic allometry, J. Acoust. Soc. Am. 117, (2005) Scherer K. R, Banse R, Wallbott H: Emotional inferences from vocal expression correlate across languages and cultures. Journal of Cross-Cultural Psychology (2001) 32/1: Souza de, Lourdes Bernadete R., and Marquiony M. dos S. "Body mass index and acoustic voice parameters: is there a relationship." Brazilian Journal of Otorhinolaryngology (2017). 24. Van Dommelen, W. A., Moxness, B. H: Acoustic parameters in speaker height and weight identification: sex-specific behaviour. Language and Speech (1995) 38/3:
255 V. Többnyelvűség
256
257 Szeged, január Etudes in Chinese-Hungarian Corpus-Based Lexical Acquisition Gábor Ugray Abstract: The paper reports on a series of experiments to extract matching lexical items from a 6.1 million segment corpus of movie subtitles in Mandarin Chinese and Hungarian, with the aim of expanding an existing bilingual dictionary. The challenges of data cleansing and tokenization are outlined, and the outcome of word alignment, vector space embeddings, neural machine translation and two standard statistical approaches is presented. A bilingual concordance tool for end users, based on word alignments, is introduced. A quantitative and qualitative evaluation of the results finds that the new methods drastically outperform simple collocation extraction, but also shows that human judgement is indispensable before including vocabulary in a published dictionary. 1 Introduction The last few years have brought two developments with promising consequences for digital lexicography. The first is the emergence of large bilingual corpora, even for an uncommon language pair such as Chinese-Hungarian. The second is neural-networkbased machine learning driven by affordable GPUs. In this paper I report on a series of experiments to harness these developments for the expansion of CHDICT 1 [16], an open-source Chinese-Hungarian dictionary initially conceived as a translation of CC- CEDICT 2. My work builds on OpenSubtitles2016 [9], a corpus of movie subtitles with 6.1 million Chinese-Hungarian segment pairs. I investigate the usefulness and limitations of word alignment, vector space models (VSM), neural machine translation (NMT), and statistical collocation extraction, to acquire lexical information from the corpus. All of these approaches have proven to be valuable sources of lexicographical insight, with VSM and NMT grossly outperforming simpler statistical methods. Furthermore, word alignment enables a bilingual concordance tool that is itself valuable for a broad audience
258 248 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 Pre-processing 2.1 Data hygiene The corpus that this work builds on contains 6.1 million aligned movie subtitles. I subsequently refer to the corpus s units as segments. These are usually, but not always, full sentences, which the corpus s authors aligned chiefly on the basis of timestamps. That method inevitably introduces some noise into the data through misaligned pairs, which is complemented by dirty data in the form of encoding errors, content in the wrong language, and for Chinese, in the wrong script (traditional instead of simplified). I applied a mix of strategies to fix and prune the data. This included (a) converting to simplified if the segment included traditional-only characters, using OpenCC 3 ; (b) fixing Hungarian õ and û; (c) discarding pairs where the text contained {[]}@\, indicating escape sequences; (d) discarding pairs where the ratio of source and target length was beyond a threshold, allowing for greater variance in shorter segments; (e) discarding segments where the proportion of punctuation characters exceeded a threshold; (f) discarding pairs where too many Hungarian words were left unanalyzed by the emmorph morphological analyzer [11]; (g) discarding pairs where the Chinese contains characters that are neither in the Latin nor the Chinese script; and (h) removing duplicates. After this preparation, the remaining corpus used throughout the exercises contains 2.9 million segment pairs. 2.2 Chinese word segmentation 4 A key challenge for any Chinese NLP task is the lack of word delimiters in written Mandarin. There is no single universally accepted word segmentation method, and as we will see, the optimal approach depends on the task at hand including, even, treating each character as a separate token. I am aware of two available segmenters, ICTCLAS 5 [18] and Jieba. 6 The first was used by Brysbaert et al. to obtain their corpus-based word frequencies for SUBTLEX- CH [2]. Unfortunately I was unable to compile and execute this tool, but in some places I rely on its output indirectly through the published SUBTLEX-CH word frequencies. Both ICTCLAS and Jieba are hybrid tools combining a dictionary and Hidden Markov Models. Additionally, I experimented with an algorithm inspired by Gensim s [12] Phraser. Starting with individual characters, it iteratively merges adjoining units that co-occur more frequently than predicted by chance. My purpose was to prevent a perceived 3 by BYVoid 4 Word segmentation is not to be confused with segments, the corpus s sentence-level units by Sun Junyi (2013)
259 Szeged, január over-eagerness of Jieba in joining measure words to determiners; complements to verbs; and compound nouns. Somewhat predictably, this home-grown approach underperformed Jieba, and I abandoned the experiment. I refer to this method as Exp-merge later in the text. Since the goal is to acquire lexical units that humans expect to find in a dictionary, an established large dictionary s headword list is a good benchmark. For a sense of how a segmenter s idea of words corresponds to the dictionary s judgement, see Figure 1 below. To obtain this chart, I first created three word lists, ranked by frequency as measured on a corpus segmented by the three tools. The SUBTLEX-CH frequencies are those published by Brysbaert et al. from a 33 million word corpus. The others are my own calculations on the pruned bilingual corpus. The figure is a histogram, showing values for 100 points on the X axis, each representing a 1000-word bucket in the ranked list of the 100,000 most frequent words. The Y values indicate the dictionary coverage of each bucket: how many of those 1000 words are found in CC- CEDICT. Figure 1: Lexical coverage of CC-CEDICT s 107k headwords, depending on the choice of tokenizer. For comparison, Exp-merge produced 66k distinct words; Jieba s output contains 238k distinct words; SUBTLEX-CH s list has 100k words. Conversely, of CC- CEDICT s 107k simplified headwords, only 27.2k, 54.6k and 42.6k are attested in the Exp-Merge, Jieba and SUBTLEX-CH frequency lists, respectively. The diagram and these figures show that all segmenters disagree greatly both among themselves and with CC-CEDICT about the definition of words in Mandarin Chinese. 2.3 Hungarian stemming and tokenization The case for stemming Hungarian to avoid the data scarcity problem is evident. I used the HFST-based [8] emmorph [11] analyzer and processed its output with my own C#
260 250 XIV. Magyar Számítógépes Nyelvészeti Konferencia port of the Stemmer class and its dependencies from the GATE wrapper 7 [13]. I used a naïve disambiguation rule, always opting for the shortest stem. If the shortest stem was a particle+verb or a compound, I subsequently treated those as separate tokens. Unfortunately HFST proved to be prohibitively slow in practice; I had to analyze the corpus s 772k surface forms from the command line and use an in-memory dictionary. Stemming produced 63.8k distinct stems, of which 20,237 occur at least 3 times. 162k surface forms, of 20.9% of the total, were left unanalyzed. These are overwhelmingly typos or non-hungarian proper names. For certain tasks I used byte-pair encoding (BPE) [14] as an alternative tokenization method. BPE gained popularity in recent years in NMT systems because it addresses the closed-vocabulary problem, albeit at the cost of being an arbitrary and not linguistically motivated approach. 3 Word-aligned bilingual concordance Word alignment of the training corpus has been a staple of statistical MT from the outset [1], and it gained relevance again as an aid to the attention mechanism in NMT [3]. The alignment method itself has been improved significantly as recently as 2013 by the authors of fast_align [5]. The approach has great appeal because it can combine corpus-wide co-occurrence probabilities with local sequence information in individual segment pairs. The temptation to build a Linguee-like 8 tool for searching the cleansed bilingual corpus, word-aligned on a segment level, was irresistible. My initial aim was to create a research tool for dictionary authoring, but as we will see in Results, the outcome has immediate value for end users too. 3.1 Training I executed fast_align after tokenizing both Chinese and Hungarian in several different ways. Table 1 shows fast_align s reported perplexity values for these combinations. For Hungarian tokenization, bpe20k, bpe30k and bpe40 refer to BPE with 20k, 30k and 40k merges, respectively. surf-lo stands for no stemming, only lower-case normalization. stem-lo stands for lower-cased stems. For Chinese, Jieba outperforms the experimental word segmenter. Interestingly, increasing BPE s output vocabulary leads to worse outcomes. BPE with Jieba allows for a few insightful searches, where a Chinese preposition or verbal complement is (correctly) mapped to a Hungarian suffix. However, stemlo+jieba grossly outperforms all other combinations, and was chosen for the final tool
261 Szeged, január Chinese word segmenter Hungarian tokenizer Perplexity Jieba bpe20k Jieba bpe30k Jieba bpe40k Jieba surf-lo Jieba stem-lo Exp-merge bpe20k Exp-merge stem-lo Table 1: fast_align s reported perplexity values after training for 5 iterations, depending on the choice of tokenizer. 3.2 Presentation I integrated a custom-developed tool for searching the word-aligned bilingual corpus within the CHDICT website 9. For an illustration, see Figure 2, with a few results for qìchē. The tool allows searching for either Chinese or Hungarian text, and presents matching segment pairs from the corpus. Figure 2: A few sample search results from the word-aligned bilingual concordance tool s output. In the results, the search term and its matches in the opposite language are highlighted in each segment. I used a slightly modified version of fast_align that outputs confidence values, which are indicated by the strength of the highlight. If the Chinese search term happens to be a substring of a Jieba token, the full token is also shown with a lighter highlight to clarify what the alignment truly means. For Hungarian searches the tool uses two separate indexes. One matches the query s exact surface form; the other matches stems. Because of HFST s performance issues, queries are stemmed through an auxiliary table mapping the corpus s 772k surface forms to their chosen stems. The tool uses Sphinx 10 for quick and memoryefficient indexing and retrieval
262 252 XIV. Magyar Számítógépes Nyelvészeti Konferencia 4 Bilingual word embeddings Vector Space Models (VSMs) [15] embody the idea that a word s paradigmatic and semantic properties can be captured by quantifying what other words they tend to cooccur with. TF-IDF has been widely used in document retrieval since the 1970s paper that Gerard Salton never wrote [4]. More recently, neural networks have been used to learn word embeddings [10], replacing the closed formulas based on term counts. I attempted to extract translations by embedding words from two languages in a single vector space. The approach is similar to Vulić et al. [17], but while that work relies on sampling non-sentence-aligned document pairs, my corpus allowed creating bags of words directly from Chinese+Hungarian segment pairs. 4.1 Extraction The standard way to build a term-context matrix is to observe a small window up to about a dozen words in monolingual text. For my experiment I created, instead, a single bag of words from each Chinese and Hungarian segment pair. For clarity I prefixed Hungarian tokens with hu_ and Chinese ones with zh_, although the languages can easily be distinguished by script. To create the word embeddings, I used Gensim s Word2Vec model in skip-gram mode, with a window beyond the largest combined segment length. Gensim is an efficient re-implementation of Mikolov et al. s neural word2vec model [10]. I used 200 dimensions, a value lower than the that is standard in neural MT systems. To define what a word is, I used Jieba for Chinese and lower-cased word stems for Hungarian. In this task, I discarded BPE because it is not linguistically informed. Once the word vectors were learned, I applied a brute-force quadratic search to find the 40 nearest (by cosine similarity) Hungarian words with a frequency of 3 or higher, for each of the 54.6k CC-CEDICT headwords that are attested in the Jieba-segmented data. 4.2 Filtering The raw output was, predictably, extremely noisy. Scores of 0.8 or higher are very reliable, but only 2,673 Chinese words have such a close Hungarian neighbor. On the other hand, spurious Hungarian matches tend to recur often in the top 40 list of several Chinese words. These proliferous matches are invariably noise: nore tops the list, showing up with 7,060 Chinese headwords, followed by tada, csatlakozatok, lndítsuk and áilítólag. This enabled a filtering approach that also keeps potentially useful matches with a lower score. After ignoring Hungarian words that occur in the top 40 list of at least 100 different Chinese words, I was left with shorter non-empty lists for 34k CC- CEDICT headwords.
263 Szeged, január Outcome Vector similarity delivers on its promise, returning a collage of words related in various ways. The list is always mixed: apart from the remaining noise, it contains semantic equivalents; complementary parts of frequent collocations; or simply vaguely related concepts. For illustration, here is the list of yíwù, which CC-CEDICT glosses as remnant: 0.58 holmi 0.53 ereklye 0.50 mamaji 0.50 hamvaszt 0.49 felipe 0.49 gyűjtemény 0.48 régiség 0.48 taiáitam 0.48 drágakő 0.48 hagyaték 0.47 davenport 0.47 yukio 0.46 szuvenír 0.46 ékszer 0.46 mohammad 0.46 amun-ra 0.45 josemaría 0.45 itthagyott 0.44 coggins 0.44 anyakönyvi 0.44 bizsu 0.43 hamu 0.43 irat 0.43 régész 0.43 tárgy This impressionistic collage helps disambiguate remnant into the eventual Hungarian glosses: maradvány; ereklye; tárgyi emlék; hagyaték. The vector space is a weak and noisy source of translations as such, but it has proven very valuable as a lexicographical tool to chart a headword s associations, connotations and register. 5 Neural MT Google MT was already one of several sources for the compilation of CHDICT s original 11k entries [16]. Direct Chinese-Hungarian translations were rarely useful, with strong hints that Google uses English as a pivot language. I now investigated if custom NMT models trained from a Chinese-Hungarian corpus would yield useful headword translations. I used OpenNMT [7] to train several models on data tokenized in different ways. All models have word embeddings of 500 dimensions and a 500-node 2-layer RNN. They were trained for 13 epochs with SGD, an initial learning rate of 1, annealed at a factor of 0.7 starting at epoch 9. Each model took approximately 12 hours to train on an NVIDIA GTX 1080 GPU, with mini-batches of 256. Table 2 shows the perplexity and BLEU score results. Seg-ZH Tok-HU Perplexity BLEU chars bpe10k chars bpe20k chars bpe40k chars stem-lo exp-merge bpe20k Jieba bpe20k Table 2: Final perplexity values and BLUE scores reported by OpenNMT, depending on the choice of segmenter/tokenizer.
264 254 XIV. Magyar Számítógépes Nyelvészeti Konferencia If the goal were machine translation of full sentences, these results would be underwhelming. My aim, however, was only to extract helpful Hungarian hints for individual Chinese words. To this end I translated CC-CEDICT s 107k simplified headwords with the three models highlighted above, using a beam size of 10 and keeping the 20 best results. 5.1 Outcome The output frequently shows anomalies that are well known to NMT practitioners. One example is the I don t know problem 11 also observed in neural chatbots, where the system defaults to a generally likely target segment. From the film subtitles corpus, this produces output like igen; mi; igen uram; nem; szia; etc. The other salient anomaly occurs with BPE-segmented Hungarian, where the system gets stuck in repetition loops: ho hoho; hohohoho; hohohohoho; etc. Because the prediction score produced by inference is not a good indicator of quality, I used the same filtering approach as with vector similarities, discarding target strings that recur for many inputs. In fact I applied a stricter filter and discarded all of an engine s results for a given input if the first (best-scored) translation was on the proliferous noise list. For illustration, this is the filtered output of the 3 selected engines for the previously mentioned headword, yíwù: MT char-char örökre marad maradvány maradt maradj maradsz örökség maradványokat hagyja holmija egy maradvány maradványok öröksége MT char-stem tárgy örökség ereklye hagyaték maradvány egy ereklye kincs rom zsákmány holmi egy tárgy egy vagyon búcsú tulajdon sajnál vagyon MT jie-char tárgy cucc tárgyról holmi tárgya egy tárgy tárgyak dolgokat tárgyakat dolgok tárgyat holmik dolgot ez a tárgy This is a drastic improvement over Google MT, which translates as emlékei. In the cases where a Chinese headword has direct equivalents in Hungarian, the most frequent ones usually show up among the translations of multiple engines. A major advantage over the other approaches is that MT is occasionally capable of producing translations consisting of multiple tokens, such as compound words or short expressions. 11 forum.opennmt.net/t/english-chatbot-advice/32/5
265 Szeged, január Collocation classics Collocation extraction using established statistical formulas has little novelty value, but I also included it in my effort as a source of easily obtainable candidates. I gleaned Chinese-Hungarian token pairs with two scoring methods, log-likelihood and mutual information. In this case I used Jieba and lower-cased stems for tokenization, these being the only linguistically motivated ones. Just as before, I relied on a frequency threshold and excessive proliferation for filtering, instead of an arbitrary score threshold. After filtering, LL and MI produced non-empty candidate lists for 16.7k and 31.8k CC-CEDICT headwords, respectively. 7 Results Two factors make a quantitative evaluation of the investigated methods complicated. First, the very aim of these exercises is to aid in the expansion of a pioneering bilingual dictionary, which means that there is no a priori ground truth available. To work around this fact, I selected a batch of entries from CC-CEDICT, picking headwords that had filtered candidates from VSM; from at least 2 MT engines; and at least 1 collocation method. There were 9k headwords matching these criteria, of which I randomly sampled 400. I then proceeded to manually compile their Chinese- Hungarian entries, consulting CC-CEDICT s English glosses as well as the candidates from the new corpus-based extraction methods, the concordance tool and other sources. This created a post-hoc ground truth to benchmark against. The second complication results from the fact that a dictionary entry, even in CHDICT s simplistic format, is not a flat list of target-language equivalents. Entries are structured into senses, which in turn may contain multiple alternatives, plus metainformation in parentheses. Figure 3 illustrates this. Evaluating flat candidate lists against a structured gold standard is not straightforward. Figure 3: A sample entry from CHDICT, as it appears to end users in the live website. 7.1 Quantitative evaluation Because of the complications outlined above, I had to resort to custom definitions in order to measure recall and precision. This makes the figures somewhat difficult to
266 256 XIV. Magyar Számítógépes Nyelvészeti Konferencia compare to other efforts. They are, however, quite useful for comparing the different approaches within this paper s context. Table 3 presents the results. Method R-XS1 R-XSX R-ASX P-1SX Bilingual VSM 31% 40% 21% 31% MT-char-char 28% 50% 28% 28% MT-char-stem 34% 55% 35% 34% MT-jie-char 32% 58% 31% 32% Colloc/log-likelihood 11% 12% 4% 11% Colloc/mutual-information 14% 25% 10% 14% Table 3: Recall and precision of the investigated vocabulary extraction methods. Recall measures: R-XS1: At least one alternative in the manually compiled entry is at the top of the candidate list. R-XSX: At least one alternative appears somewhere on the list. R-ASX: All alternatives appear somewhere on the list. Precision measure: The top candidate appears among the alternatives in the manually compiled entry. The table s numbers are based on 390 manually prepared CHDICT entries; 10 Chinese tokens were rejected as dictionary headwords altogether. The retained entries contain a total of 576 senses, 784 alternatives, and 156 parenthesized remarks or labels. VSM grossly outperforms the two conventional collocation extraction methods. The three NMT engines appear to have different strengths and weaknesses, depending on the metric, but they significantly outperform even VSM as a source of actual translations. 7.2 Benefits and limitations in the lexicographical process Figure 4 shows how candidates are presented in the lexicographical workbench during the compilation of entries. All the Hungarian words from the lists on the right are also added to an auto-complete dictionary to speed up typing. I did not include word alignments among the hints; instead, the concordance tool itself can be invoked with a shortcut. The workbench logs the time spent compiling each headword. It is beyond this paper s scope to analyze these logs, but it appears the enriched information does not affect the speed of lexicographical work. It contributes greatly, instead, to the confidence and breadth of the Hungarian glosses produced.
267 Szeged, január Figure 4: Information shown in the lexicographical workbench for the translation of a single Chinese headword. Often, but not always, the candidates from the different methods include the words eventually selected for the Hungarian glosses, or otherwise help explore the Chinese headword s uses and meanings. A human can normally identify the remaining noise on the lists, and the relevant items condense what would otherwise be the result of hours of corpus discovery and hunting for attestations. They candidates are not, however, reliable enough to be included in the dictionary without human judgement. Using only candidates with a very high score would leave an unacceptably small number of reliable matches, and miss important but less frequent senses. Lowering the threshold, in turn, would result in excessive noise or a proliferation of candidates. Finally, unsupervised methods obviously fail when a Chinese lexical item can only be paraphrased and when the target equivalent needs disambiguating remarks. 7.3 Augmented dictionary The word-aligned bilingual search tool has proven to be the most versatile approach. Its value in the lexicographical process is evident, as it allows researching real-life contexts in which a headword has been attested. But why should such research be limited to lexicographical work? The dictionary s end users benefit equally from a chance to browse headwords in context, discovering autonomously a word s translations along with typical collocations and associations. When integrated in a dictionary, the search tool is a substitute for example phrases, which are particularly labor-intensive to compile. Additionally, as a fallback when a word is not found in the dictionary, the tool enables end users to discover its meaning from the translated sentence pairs. The coverage of dictionaries is limited by the person-years needed to compile them,
268 258 XIV. Magyar Számítógépes Nyelvészeti Konferencia especially for rare combinations like Chinese-Hungarian. A large bilingual corpus inevitably encodes more knowledge than is humanly possible to compile. References 1. Brown, Peter F., Cocke, John, Della Pietra, Stephen A., Della Pietra, Vincent J., Jelinek, Fredrick, Lafferty, John D., Mercer, Robert L., and Roossin, Paul S.: A Statistical Approach To Machine Translation. In Computational Linguistics, Volume 16 Issue 2, June 1990, pp Cai, Q., Brysbaert, M.: SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles. PLoS ONE 5(6): e doi: /journal.pone (2010) 3. Crego, Josep et al.: SYSTRAN s Pure Neural Machine Translation Systems. arxiv: Dubin, David: The Most Influential Paper Gerard Salton Never Wrote. In: Library Trends 52(4) Spring 2004: Dyer, C., Chahuneau, V., and Smith, N. A.: A simple, fast, and effective reparameterization of IBM model 2. In Proceedings of the 2013 Conference of the North American Chapter of the ACM: Human Language Technologies, pp , Atlanta, GA, USA (2013) 6. Halpern, J. and Kerman, J.: The Pitfalls and Complexities of Chinese to Chinese Conversion. In: Proceedings of the 14 th International Unicode Conference, Cambridge, MA, March Klein, Guillaume; Kim, Yoon; Deng, Yuntian; Crego, Josep; Senellart, Jean; Rush, Alexander M.: OpenNMT: Open-source Toolkit for Neural Machine Translation. In Proceedings of ACL Lindén, K., Silfverberg, M., Pirinen, T.: HFST tools for morphology an efficient opensource package for construction of morphological analyzers. In: Mahlow, C., Piotrowski, M. (eds.) State of the Art in Computational Morphology, Communications in Computer and Information Science, vol. 41, pp Springer Berlin. Heidelberg (2009) 9. Lison, Pierre and Tiedemann, Jörg: OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016) 10. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., and Dean, J.: Distributed Representations of Words and Phrases and their Compositionality. NIPS Attila Novák; Borbála Siklósi; Csaba Oravecz: A New Integrated Open-source Morphological Analyzer for Hungarian. In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož, pp Řehůřek, Radim and Sojka, Petr: Software Framework for Topic Modelling with Large Corpora. In Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks. Valletta, Malta: University of Malta, pp Sass Bálint, Miháltz Márton, Kundráth Péter: Az e-magyar rendszer GATE környezetbe integrált magyar szövegfeldolgozó eszközlánca. In: XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017) (2017) 14. Sennrich, Rico, Haddow, Barry and Birch, Alexandra: Neural Machine Translation of Rare Words with Subword Units Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016). Berlin, Germany. 15. Turney, Peter D., Patrick, Pantel: From Frequency to Meaning: Vector Space Models of Semantics. In: Journal of Artificial Intelligence Research 37 (2010) pp
269 Szeged, január Ugray Gábor: Egy vakmerő digitális lexikográfiai kísérlet: a CHDICT nyílt kínai-magyar szótár. Poster presentation. In: XIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY2017) (2017) 17. Vulić, Ivan, Moens, Marie-Francine: Bilingual Word Embeddings from Non-Parallel Document-Aligned Data Applied to Bilingual Lexicon Induction. In: Proceedings of the 53rd Annual Meeting of the ACL and the 7th IJCNLP (Vol. 2), July 2015, pp Zhang Hua-Ping, Yu Hong-Kui, Xiong De-Yi Xiong and Liu Qun: HHMM-based Chinese Lexical Analyzer ICTCLAS, proceedings of 2nd SigHan Workshop, July 2003, pp
270 260 XIV. Magyar Számítógépes Nyelvészeti Konferencia 1 r rrás t t s á ítás s sé r 2 r s3t r tt 3 á r 3 s tt 2 t á 2 té3 t 4 6 2t t t t t tt r t é 2 s sé r 2 s3á ár 2 r rrás t á íts 2 s ít 3 t s3é 2 3t t tt 2 ö3össé t r t 3á ás 2 t r t s rá ét 2 r t s3ótár t á ít tt 2 t 2 2 s3é és 2 és3 s3 ért r 3t 3 r3ött r ítás ár ü ö é 2 r á ó és3ít rü tö tésr t r2 t t ét 2 s3ótár t t s á ításá és é3 á ásá tét t 3t 2 t t t r2 s3ó t á ít tt t s t t s ss3 ét 2 s3ótár 1 r rrás r 2 s sé 2 s3á ító é s 2 és3 t t r2 3 tés ü 2 2 r t t t t 2 é 2 s íts s3é 2 3t t tt r 2 ö3össé t tá s r t 3á ó t rt étr 3ásá r t s rá ét 2 s3ótár t á ít tt 2 s sé r 2 r t 3á ó át ró á tá t ú s s3 é 2 s tá s t rt r 3 2 s3á ár ú s3ó ár 3 ít 3 t r t t r ítás ár s3á át tö t s3ó ár t 2 r á ó ít ü és és3 s3ó t ér t é t ss3ü t r2 r t ü s3ótár t r2 ü ö ö3 2 á t 3 t öss3 s tó 3 t r é é 3t sít á 3 át árást 3 t é t s3 2 2 ö3össé ér 33á tt 2 ú t s ér t s3 1 3 t s3ó r á ó 2 r ítás 33 tá t í á s3é 2 3 t t tt r 2 ö3össé t tá s r t 3á ó r é 2 s3 r t 33á ár 2 s s3í sé t rtásá 3 3 ér t tö 2 1 r rrás s s3é r 3 2 r s és ét 3 ó t és s3 ér t é t tt tö 2 r t t é á t r t 2 s í3 tó 1 r rrás á ítás 2 r t s3 s r t s rá t s sé r 2 3 rrás 2 é t r á 3ür é rt 3 r 2 r és és3 s3á
271 Szeged, január r ítás é 2 é 2 2 s s3é r ö3össé s3 t á ó t s s3 r t áts3 3 2 r és 3 r s3 2 rrás 2 é 2 é 2 t t árt í 2 öss3 s 2 árr r t r r t sr t 2 2 s á 2 tár 33 á 2 23 tét és s ítsé é s3tá 2 3 tó 2 t tásá érté s s3 t 3 t rt 3ó 2 t 3 t ö3 s3 t s3á s ó s3 á á í s3 t t 2 s3á ít 3 tá á3 t öss3 3 ít tt r 2 3 t 2 tt s3 r 3 2 ó t á tá á3 t s 3 t s3 á 3 s3 t s3é s3á 3 rs3á s3é és 3 írásr s3 r t s3 á r s 2 2 és é s3é 2 3t t tt 2 3 és3 s3á ér 2 s3é s3á s s r t 2 ö3ü 3 s3á 3 és3 s3á 2 t é 3ó r t 3á ós tör és s r ssé ér t ús 2 é ssé t rü t írás és3 s3á s r é t rs3á é rs3á 3 r r r s3 rs3á r 2 r r r s3 rs3á r 3ür é r s3 rs3á r r á r s3 rs3á r rt r s3 rs3á r tá á3 t s sé r 2 3 öss3 ó t t s s3ótáré ítés t tés ét 2 s3ótár s 2 t ás és 1 rá á t s s3 r ü 2 2 t ó 3ás s t é r ítás és 2 ö3 r á ó ss3 r sés ét 2 s3ótár é3 3 ó á ítás é 2 s t 2 2 ú 33áértést és r 3 tást é 2 3ért és s3é r 3 2 s3á ár 3 sá s 3 t s3ótáré ítés tt ét 2 s3ótár t s t t s tör té á ítását t ó t s3 t é 3ért t t s ó s3 r ú r t s3ótár t 3t étr 2 r ítás ö t t t r t 3 és é3 r3ést é 2
272 262 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 t t s s3ótáré ítés s3t r ö3 ítés ár 3 s 2 öss3 t t r s3 ó törté t 1t s s ósá s3á ítás 3 ú t é rrás és é 2 s3 t r r 3 tá ó t r t 3 s3ó á 2 3ást 3ó ó s3 r 2 r 3 ó s3 r 3 átrá sé s3ö t é 2 s3 t ét s s t s3á ít 2 tt 2 árr é 2 ár 3 s 2 öss3 t t r s3 á r 3ésr á t á s á 3 t t t s 2 3 á t 3s á t r 2 r s 2 r s3 t r tí ó s3 r ísér t 3tü 3 3 tt ó s3 r t írt ó r t s3ótár á ításá 3 ét ö3össé á t é ít tt 2 r rrást s3 á t é át és t r2t é tö é ó s s3 á tó ét 2 s3ótár étr 3ásár r t és és s ó s3 rét ö t ét 2 s3ótár t 3t étr é í s3ó ár ó 2 ö3 s ítsé é é tt t r2 2 ás s3 té 2í t ö3össé á t s3 r s3t tt t ás á3 s 2 rrás s3 á t ét 2 s3ótár étr 3á sá 3 t r2 2 2 tö 2 s3ótár 2 é 2 2 s3 át t rt 33 2 ér t és í ó írás 3 tt t r2 2 é s3 r Pé á t r2 2 r ását s3ótár í á és 2 r s3 tt t rt 3 ás 2 s3 t s 33á t rt 3ó í ó és 2 r á ó 2 r s3 r 2 é t tér 2 3 á s r á ó t t rt 3 2 s3ó í s3ó t és 2 s3ó ú öt 3 r á ó t r2 ás s té öt s 2 t r2 s3 r 2 r ítás tá s í s3ó ü ö ö3 2 r ítás t t rt 33 s3 r t t á á í s3ó P át r t r 3ás r á s3 á és 2é 1 r á ó s 3 2 s s3ó ár t r2 s s r r s3 á ásr és3ü t t á tó t 2 rés 3 2 s t t 3á tó s t í s3ó 3 t rt 3ó r ítás t 2 rt s3ó t á tó r ítás tá á ó 3 á t s3t tt t t s3 ö33 3t 3 r s3 és 2 r t r2 t í 2 s3 t s3ó r ó 2 árr s rü t r ítás ár t 2 r ü s s3ó ár 3át ú ít tt ú 2 2 ár s3ö és s ú s t t 3 tt étr ár é r ítás ár ó ár s3ö és 3 tét 3és 2 ét 2 ós3í sé r ítás ár 3 s t tt 2 r 2 s3 á r ítás tt s r tt s t r2 r tt s t t s t t
273 Szeged, január t t ár s3ö és t á á r t s3ótár t t á t t í t érté és s é és é t ü ö ö3 ó s3 r á ít tt r t s3ótár t é 2 é t öss3 t 3 s ét s3ó ár t s3 rtü 3 öss3 t s3ótár é3 érté ését 3 tt s3é és 2 és3 s3 ért é 3té 3 str ó 2 s3 r t 3t 3 á rrás és é 2 s3ó s 3 tt 2 ét 3 s3ó s3ótár á és ét s3ó 2 ás r ításá rrás 2 s3ó ét 3 s3ó s3ó árt ás ö rrás 2 s3ó ét 3 s3ó s3ótár á 2 s s3ótár t é 2 s3ó ó r ítás rrás 2 s3ó s3ótár á 2 s s3ótár t é 2 s3ó ó r ítás ú r ítást érté és s rá 3 ttü 2 t ór á t 2 3t tt s3ó ár 3 3 str ó 2 s t ór á ö t 3 3 és s3 ét 3 s3ótár á ó s3 és 2 ás r ítás 3 és s3 ét 3 s3 2 ás r ítás s3ó s3ótár s3 r 3 és s3 ét 3 s3 2 ás r ítás 3 s3ó s3ótár s3 r 3 és s3 ét 3 s3 2 ás r ítás s 3 s s3ó s3ótár s3 r r 3 s3ó ét 3 s3ótár s3 r s3ó s3ó 2 ét 3 s3ó 2 2 s r ítás 3 s3ó r 3 s3ó ét 3 s3ótár s3 r s3ó s3ó 2 ét 3 s3ó 2 2 s r ítás 3 s3ó r 11 3 s3ó 3 tt 2 ét 3 s3ó 3 t t s étr 3 tt r t s3ótár é3 érté és és ítás tö é t s s3 á 2rés3t t sé t 3 á t s3 á t s3ótáré ítés ó s3 r öss3 s ításár 3t s rt t ü 3 t ásrés3t 3 s3ó ár s3á át 2 t tö t tü t r2 rr ás 3 t t é3 érté és 3 é és 2 s rá ú r ítást tt é 2 s3ó t 3 tó 3 ár 3 3á é 2 s t r2 tö t t s3ó ár s3á á ö és t 3 t t s ó s3 r érté ésé tt ú r ítás áts3 tt s3 r t tá á3 t t rt 33 3 t 3 t t 2 t sé t 3 t t s s3ótáré ít ó s3 r öss3 s ításár tá á3 t s ár s rá t írt ó s3 r s3 r 1t t t 3ás r ítás ö t 2 résér r ítás tá á ó tr t t 3ás ár s3ö ésr t é í s3ó ár 2 rés 2 s r 2 s3ótár s3 r 2 t 3 s r s3 ó
274 264 XIV. Magyar Számítógépes Nyelvészeti Konferencia tö töttü tö tés é 3 á t 3s á t 2 ár ö3ü s 3 és3 s3á 4 2 r6 2 ár r t á t s3ótár t 3 s3ótár 3 t ít tt s3t r s3ótáré ít ó s3 r és3ü t 2 r 3t tét 3tü 2 s3 3 á t 3s á t és r rráss r 3 2 s té tá á3 t át tó t 3t átá s3t á s3 s t ór á á 3 ó s3 r t és é t s ó s3 r öss3 r r r 11 1t tr t tá á3 t 3 2 s ó s3 r öss3 s ítás tá á3 t s s3 á 3 tt ó s3 rr étr 3 tt r t s3ótár öss3 s s3ó árá s3á át át t á s3 é3 érté és é 3 2 s t ór á s r t s3ó ár s3á3 é s rá 2át át 2 s 2 3 öss3 s á ít tt s3ó ár ó á 2 s tt 3 r 11 t ór á t ssá t s3 rú ért 33ü és s 3t t rt t s 3 t ór á t rt 3 s3 r t r ítás t r2 r ítás tá á ó ó 2 rés 3 2 t t s ó s3 r 2 r s3 3 3 t s3 r s3t é3 á á á t ás t s ó s3 r ár s3ö és t tt 2 s ss3 sést át 3 t ó s3 r ö3 t ü 3 r s3 r s3t ár é ít 2 t ö3ött tét 3 s t t 2 ö3ött tét ü s s r s3é á ös3ö t é ó é í s3ó ár ó é ít 3 ó s3 r s r tt rr s í3 tó t é3 s3 r s3t ár tá s3 2ü és3r s s3á t ós3í ös3ö t 2 é í s3 ö3t s s3ótár ü ö ös 3 á t és ö é 2 öré Pé á ìåðà âëàê 2ú é é s3ó ár s té ét 2 ó s r ást ö t tö s s3á é3 á ás s rá 3 tt ít 3 2 s s3á ú r ìåðà 2ú 2 ár é t öss3 t r t s3ótár érté és és s3 s s3ó á r s3á tá á3 t át tó 3 s t 3t s3ó árt t t ü s3 s 2 3 t t s s3ótáré ítés és é3 érté és t s té é é t rt 3 2 ét 3 rrás 2 és 2 ét 3 é 2 s3ót és 3 ó r ítás 2 ás
275 Szeged, január ár öss3 s3 s r r r 11 r s r s r r r r r s r r r r r s s s s s r s r s tá á3 t r t s3ótár érté és 3 2 s 2 ár r t r2 s3ó rá ás t r2 s3ó á á t r t s3ótár s3 á Pé á 3 és3 s3á 2 ár s té 3 és3 s3á s3ó 3 t r2 2 ú í s3 s3 í 3 í ó s3 s3ó öt 3 és és3ít r á ó s t s t t s tt á ít t r2 ás s3 á 2 s3ó é í tését t s r ár t 3ó s3 á 2 t ír á 3t s t r á ó t t rt 3 2 s3ó é 2 é 2 t r2 írás á s rü t 2 2 á t á s é ítést tár 3 2 t rt 33 í s3ót í s3ó 2 ét s3ó át és r ítás ét 3 öt 3 ö3ü s s3ó í á 23 s3ótár ó és3ít r á ó s t ít 3 2 s s3ó ár t é á P átíráss 2 t ó á 3 3 öt 3 s3ó
276 266 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3ó t ór tár 3ás 3 ú t r2 s3ó étr 3ás s törté 2 3 s3ü sé s 3 tt s3ó s3ó í é 3 t át 2 2 s3ó ó t r2 s3ó ö ss étr á ít s3ó át 3t 3 r á ót r ó 3 s ítsé é t á ít s3ó 3 tö 3ést s t r s3 t t 2ért sítés 3 t 1t á s r á ó á törté tt s3 t t s3 ró s3ó ás ó s3 rt tt t á rrás 2 é 2 s3á ár ét 3 r ó 3 2 t s3ó t ór á ításá 3 s3 á tt t 3 t s3 á t 3 öss3 s rrás 2 r t é 2 ö3ü r és 3 r s3r 2 r s3 t 3 r s ítsé é 3tü í 3 s3 3ésér r 3 t s3 á t r 2 1 és s3 á 2 á ó á ít tt és á r ó 3 ü ö ö3 t r át r 3 s3ó í é t tt é 3 ü 2 ö3ös í és3 tr r ó 3 s s3 r 3ést 3ért tö s3 s 3és t ü ö tt s t 3és 3 t só é tt át t 2 tt sít ö ött 3 tét 3és á 2 r 2 á t á é 2 s 3 t só 3 s3ó í ét 3t t s 3és 3 33á t r 3 és 3 r s3 2 s3 t á 3 t é t s3á t rt í 2 3 ö3 ítés s t ö ó é3 r3és s rá át r 3 é é s s3 r 2 t rt át s3t tt 3 rt r ó 3 té tt tá ít r 3tü tö ó s 2rés3t és 3 2ért sítés 3 t s3 á ásrés3t 3 t r2 ír 2 3 é tt s3 r t í 2 3 ss3 rü 3 é é s3ó rá ás r é és t 2 öt s3 s tá á3 t rrás 2 s3ó tsé s s3ó í é é 2 s3ó tsé s s3ó í é és 2 ötö s3 2 t rt át t rt 33 s3ó í é 2ért sítés s3ó í é 2ért sítésé ár á3 s s3ör s 3 3 t tt r ó r á ó á s3 r ü tsé s t ór á t 3 tá 2 r 3 tá s öss3 s ítást é 3ü 2 s rá rrás és é 2 s3ó í é t s ít öss3 és í 2 s3 ít ü 3 tsé s t é ü rt á s s 3s á 2 tt rrás 2 s3ó 3 t rt 3ó s3ó í é 3át r 3 tö r ítás ár rrás 2 é t s s3 r r ó r á ó á törté s3 rés 3 3 s s3ó í ét sát á át s t r á ót tt t t
277 Szeged, január s tr és s3á ró s t t s3 á 3 2ért sítés s rá á t r t s3ótár s s3ótár t t rt 3 t é t tt s3ó 3 s á 3 3 3és 2 r 3 á tör ésr rü s3á t és 3 s t t rr t s3 á 2 tsé s 3és ö3ü s3 r ü 3 t 2 2 s3ótár 3és t s3ótár é s3ó s té 3 2 s s3á ú 2 s t í é s té 2 r 3 2 s s3á r s3 é 2 t ó ú tár 3 t r 3ású 3 tí s3 s3á és 3 s t 3 r 3t 3 3ést törö ü s t r 2 s 2 3 t s3ó tö s3 s 3és s té é á t s 3és t só t t í 2 s3tr é é ár t 2 3ést 2 3és s tét tsé s s3ó 3 ür s r r t 2 2 s3ó tö 2 í ét s 2 ö3ü 3 2 ás rés3 3 2 r s3 t ór át t rt é á 3 3 és Pr t é s s3 r r 3 tó r r 3 tá s öss3 s ítás 3 í 2 tt í é örét é t á t s3 ít ú 2 2 rrás és é 2 s3ó í é t öss3 s ít s3ó ár ét tsé s s3ó í 3 és tét s3ó ár s3 r s3 2 3 s3ó 3 t rt 3 t s3 ít í é s3á át 2 s tt ét í 3 ts3 tét 3s á s rá ö t 3 s t á t ts3 t ür s ö t 2 s3ó í é t t rt s s rrás 2 s3ó í é t s3ó ár s r é 2 ét 3 tó s t tö s3 s 3és é é3sé rü t 3 á é rá3 s s té átt rr é á t 2 é s rá3 s é é á t 3ért 3t 2 2 s3 á 2t 2 é 2 s3ó tö t ú é 2 és tsé s s3ó í é ö3ött s3 r 3 s3ó ár rü t r2 s3ó stá áró tö í s tsé s s3ó í é ts3 té ü ö ö3 s3 á 2 á ró á t á s3 r í é t r 2 é é 3 és Pé á 2 és3 s3á s3ó t r é 3 és ö3ös s3ó í é ö3ött t á tó í r s3ó s3 rá t rt tt t rt 3 é é s ít t ét 3 ts3 t s 2 í ét t rt s s3ó t t t 2 t rö 3ítü rt á s öss3 s ítás 3 3 á3 s 2ért sít tt és rö 3ít tt s3ó í é t t s3 á í é t á 2ért sítésé 3 3 s t 2 rrás 2 s3ó tö s3ó ár s rt á s öss3 s ítás 3 2 és 2 2 rrás 2 s3ó r tö s3ó ár é 2 s3 2 ás s3 á 2 s tét 3 t s3ó ú
278 268 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 s t r 3 2 s3ó ár tö t 2 í é Pé á r á àíü s3ó ár 3 t r és 3 s3ó ár ü ö ö3 í 3 r 3 és é é í t r és és ár 3 ts3 t r á s3ó í é ét r és3 t s 2 s t s r 2 s3ó 3 s 2 2 s s3ó í ét t r Pé á 3 r íàðûí å sár s3ó é é és é s t 2 r t á 2ért sítés ár tsé s s3ó í ét t rt t s 2ért sítés t ár s3 ó á rrás 2 s3ó é 2 s3ó és 3 í 2 tt s3ó í 2 r ítás ár 3 tö í ét r tü 3 s ét s3 s ét t átírás ö t 3 é és t átírást r tü rrás 2 s s 3 íts t r2 s3ó t rt át 3 r Pr t t t s P átírás s3 ö3ét s3 á t 2 r 3 r r á 3ür é és rt 2 r 3 és3 s3á r t t 1t rrás á ó á t t s3 á t t tés tét ü ö t 3 tt 2 t s3 á 2 t 3 t P t s ó r é ás s3á t t rt 3ó s3 2 3 s3 té r tü átírást s3ó á ítás és tö tés tá r á ó r 3ésü r á s3ó á ítás ö t 3 ér 2 t r2 ás ás ás s3 á 2 r 3 és ás 2 tár 33 s3ó é ítését tsé s t 2 2 á t á s str túr étr 3ás 2 é 2 ás s3á ár tó é ítés é t s3 á s3ó rá ás ö3 r ss t r2 r 33ü 2 3 tt rrás 2 s3ó ét 3 ár 3 tt 2 t r2 és3ü 3 tt s3ó 3 t r2 s3ó 3 3 s t r 2 rrás 2 s3ó 3 tö é 2 s3ó t rt 3 és 3 s3ó 2 3 s3ó 2 3 é á s r t í 2 s3ét á t tés t s3ó s3 r t 2 2 r ítás ár tö s3ó s r 3 é 2 s3ót é tt s ét ü s3ó r 3 í s3ó 2 s tü rrás 2 s3ó s3ó á 2 s3ó é r 3 t á 2 r ításs 3 3 é 2 2 rrás 2 s3ó s 2 rrás 2 s3 r s3ótár 3 s3ó t 2 sít ü 23és t r2 ó tö tésé 3 P2 t r tr s3 rét s3 á t P2 t s s3ö s á á 2 ó rá tt s t r t t tr s s sr t s tt s r P2 t
279 Szeged, január t t t t s tö t tt 2 t r2 t tó 2 ár ét 3 s3ó t ír ü 2 s tt s s3tü é á 2 t tö t t t s3 á tát 3 á t r s s3 á 2 33 t r2 s3 r s3t sé 3 é 2 s3 r3és é 2 t 3ért s r ss tö tött t r2 á t érté ést 3 á t étr 3 tt és tö tött ú t r2 s3ó r érté és 3 t t r2 s3ó rá ásá érté ését t t 3 t s3ótár t ssá át írt 2 s3ótár ését s3á s3 t ö3 s 2 r tr á s t 3 2 tsé s ö3 ítés s3ótár s3 r s3 s3á át 2 ás á s s t é33 és3ít tt s3ótár s3 s3á á t ü öss3 s3ó ár t t r2 tö t ü és s3á ításá 3 s 3t s3 á t ó t t r2 3áró é33 és3ü t é s s3 r s3t 3r r3 s3ó t 2 s í3 tó t rrás t t t 3 tá á3 t át tó 3 r é ó á 3 sít tó t r2 tö s3 r s3t t s3 ü ö sé t 2 s 2 ö3ött r 2 ó át s3 á r 2 s té í 2 s té tt ét r t ét 2 s3ótár t öss3 tt 3 tt át tó r é 2 t írásá é r ss t r2 á tár 3t és té 2 s tö tött á t r2 2 á ó r ssü és ü s3ótár ó érté ést s tö tést ö t t s á tá á3 t s s3 á s3 s s3 s 3 2 ó s3ó ár s3á t á tó 3 2 s3ó árt t rt 3 rrás 2 s3ó ét 3 s3ó 2 s s3ótár és t s s3ótár á ó r ítás s tt é3 r3és s rá s3 s s3 s3á 2 sö á 2 rrás 2 s3ó 3 s rü t s3ó í ét á ít s3ó tö té s tt r 3tü 3t s 2 3 tt s3ó ét 3 t r2 ás 2 tö t t s3 s3á 33 s sö r é s3 tö tésr és3 s3ó ár s3á t á tó t s3 ár t r2 s3 r s3 s3á át tó és r é s3 ts3 tét ö3ös s3 át t t és ö3ös s3 ó s3á tó 3 á t étr 3 tt s3ó s3á ú 3 s3á rt á 3 2 s s3ótár 2 t és s s3á tó és s3 t á tó s3á ö3ös és t s3 s3á á 2 s 3 t só s3 ö 3 á t étr 3 tt ú és ár ét 3 s3ó s3á á á 2 s 2 3 tt é 2 t r2 ás t á tó tt rrás 2 s3ó s3á á ö ését t t érté és 3 s3 á t t r2 át r r r s r r
280 270 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 ár s3 s r é t ö3ös ú és ö r s r s s s s s r s r s tá á3 t étr 3 tt s3ó érté és 3 2 s 2 ár r Öss3 3és ü 2 2 r t t t tt 2 é 2 2 r t s3ótár t 33 étr t t s ó s3 r 2 é rrás 2 3ür é r á 3 és 2 r rt t és3 s3á 2 2 í é 2 3 á s s3é r 3 2 ö3ü rü 2 r r s3 s3t r s3ótáré ítés ó s3 r 2 2 sé s3ö t é 2 és és r rráss r 3 r 2 3t t r tí s3ótáré ítés ás t tt t á 2 r t s3ótár t 3t étr 2 árr 3 t t s s3ótáré ítés ó s3 r t és é3 á ás s rá á t s3ótár t s érté tü érté és s rá t s r ítás ár t r é 2 3 ás t r2 ú ó s3 r 3 2 t t r2 s rrás é t s3 á s3á r tö t ü 3 t t s rá t s3ó t s s3ó tö tésé 3 é t é 2t 3ért s r ss t r2 öss3 s ít t érté ést 3 r é 2 ár st áts3 2 é 2 t r2 s3 r rrás 2 1 s3á át s s3 r 3t
281 Szeged, január ös3ö t 2 á ítás r t t 3 rs3á s á 2 s t tás r r tá t s3 r3 éss3á t 3ás P 3 tt P t t t str t t t r t s t t r rt t P t t r r t r t t t s Pr s t rst t r t r r t 2s r s P s ss ss r t 1 s s st q ts r 1 t s r t s s r tr s t t s r s t r2 s r s P t r2 s t q s r r ss r t r tr r t Pr ss t P r r r s t r s r r r 1ts t s r s r r t t t 1 t r r 2 r s r r 1tr t r 2 r r s t s t t t s t s s P r r r s t r t r t r r t s s P ss2 r s r2 r ss s t r s s r r r s P t s t t r2 s t r2 t s r s t r 2 s r P t t r r r t t s t r s t s t r Pr ss t P rs r P s r ts á r s P á 2 s 3 r r ó 3 tá ós r 3 s 2 r 3á ító é s 2 és3 t r 3 ró 2 s 2 á s2 P r é t r r r r 2s s Pr s t r s t r r r ró á s2 P r s P P r r 1 t s r r r Pr s r 2 r s r r t st
282 272 XIV. Magyar Számítógépes Nyelvészeti Konferencia r s r ss t 3 t s rs r r r s t t s á r r rs t2 3 rt t r t s r á tér 3 r2 r s3 str t t s r tr r r r s rs r r r s t t s t t r r r ss s r s r s s t r q r s tt st r s r s s ss r 1 r t r s ts s sts t t t s s t t r 2 rt 2 r t 2 s2 t r2 t s rs r r r s t t s r ss s tr t str t r r r s t t s t r r s t s2 r r s s s r t 2 s t s t rs r r r s t t s t 1tr 2 s r t2 t r r ss t s s t st st t t rt r s P r 2 t r t 3 t r t st 2 rs t r s s r r s r t r st str t r r r s t t s r r r t2 s s r r r s Pr r r r s t t s r r r ss s t t s t 2 t rt ss r t r s r t r ss s s str t 1 s ss t r r r r s t t s r t s r t s ss t tr t ss r r 2 s r tt ts t r 2 2 t r ts s rt r r s r s tt t s r t t t t s rs r r r s t t s s rs r r r s t t s s t t t r r t t s r r r s t t s s tt r t t st r t r s t 2 r t t r s t r t s rs r r r s t t s r r r ss s t s r r s t r r s s t r s t t t s 2 r t t s rs r r r s t t s r s r r t t s t r 2
283 Szeged, január r s s t t s s t tr r r s s t r t r s rs r r r s t t s r r r ss s r t t r st t r s t t s r s t s r s t r t r s 2 S R k Vs T R k Vt r s t 2 t V s V t t t r2 t t s t t t s s t s s2 r r s x t t r r r s t t t t ts ss t t x Pr r ss t s r s r r t t s s t r tr t s r s r t t s r t r t s tr t 2 Pr tr r s r r t2 s r r 2 ss r t s r tr 2 t r s t 3 stt 1t s t r t t t r s r t r 2 r 3 s t t t r s tr 2 t r s 2s s t 1 r ts t s r s tr r t t r t s r s s r s t 1 r s t r t r s ts r r 1 r ts t t s t r r s s 1 r ts t t t r tr r s 2s 2 t t t r t r t s r r ss st s r r r t r s t t tr 3 t r r r s t t s r ss t s s r s r r t r r r s t t s t s r t t r tr t 2 r r r r s r r r r s t t s s s t s t 2 s r s r r r s t t s s ss s rst 2 r s s r M 2 3 t t t n Ms i t i, t {(s i,t i )} n i=1 t s s t r rs r r ss q ts t r t st s s r t 2 t t s r t t str t r M t rt r s t 2 r t q t2 t r s r t t s t r q r M t rt r s 2 s t s t s r rs s r t r t r t s r t s rr s 2 r rs r s t s r r s rs r r r s t t s r s s tt r 1t r r s r s s s r t 1t s ss r t s t r2 s r t r r s t t r r s t t r 1 t s s r r s t i=1
284 274 XIV. Magyar Számítógépes Nyelvészeti Konferencia r2 t s t t t s t r2 r t s r t 2 t s s st t s t s t r rr t t t ss r2 ts t t r r t t s s r r t t r t r r r t r r s s t r2 str t t t 2 s sts tr s s 3 t s r r s t 2 t t rs r r s r r r rs r t t t r2 s 3 s s s t t t s t t 2 r t t r2 s t r 2 r r r s t rt r str t r t r tr 1 M s 1 t t r rt t s r ts str t r rt t r t r ss r r s t t s Pr s st s s t t tr2 t r str t s r s s s rs r t r t s t s s t rs r s r r r s t t s r r 2 r s r tr 1 X R k V s r s s t s t r X s t t X Dα F +λ α 1 ts 3 t D R k l t t s t r t s s t rs α R l V t t s rs r ts r t r r s r s t 2 t r s 1 r ss λ s t r r 3 t t tr s r t t s rs t2 r t s rs t tr 1 α s t 2 t s r rs t r s r t 2 r q r D t r t 1 s t tr s r s t r t rs t s r t ts α t t s t P 2 r r r t tr 1 s t s r r 1 r ts P tt t r s st s t t r r r s r 3 t t 2 r r ss t tr s S T 2 t s t t r t t r r t s t r2 {(s i,t i )} n i=1 M r n Ms i t i s 3 t t t str t i=1 r M t rt r D s α s s t t S D s α s F +λ α s 1 ts 3 α t 2 r 2 D s s t t MT D s α t F +λ α t 1 s 3 t r t r t rs r t t s s r r t rs t s t r2 tr 1 D s s s r s t tr s S T t 3 r ts α s α t r s rs r r s t t r r ss s t t t s M t t t t2 tr 1 t t r t s t t
285 Szeged, január r ts r r 1 r ts tr t s s t s r r s t t r t r t r 1 r ts r r tr 2 t s r 2 r r t2 s r r t t r 1 r ts t r s st s t s r s s t rs s r s 2 t 3 s tt t r λ s t r r 3 t t r {0.1, 0.3, 0.5} r r t s r t s rs t2 s r s ts s rs r r r s t t t t r s r r w i s s 2 t 2 t s t s t ts α r t rt r r t t s φ(w i ) = {j α i [j] > 0} r α i r rs t t t r s rs ts t r r r w i r t s rs s t r r t t s r st s sts r t s s r s r2 r t s t t r t s rt rs s r2 ts t sts r 1 t t t r t2 s s q t 2 t sts tr s t t r s s r s r 1 st t s sts t r t t r s t r r 1 r ts t 3 t s st tr s t r r s sts r r s t s t r2 t t r t r r t r t t s t t s t q t2 t tr s t rs s r t s s s s t t t t tr s t rs r t r t s r s sts r t t t 2 r t s t r2 r t t s st t r r r s r r tr s t s r t r t s r r r t r t s r rs r t s t s t r r2 r r (s i,t i ) t t t r s st t 1t t r t s rs r r s t t s r s s i t i r s r s P = φ(si) φ(ti) φ(t i) R = φ(si) φ(ti) φ(s i) r s t 2 r r t t r t s r r q t 2 t r t t s rs r r s t t s t 2 q t r s r t s t t r s r t r s r s r s s t r s ts q t 2 t 1t t t s r t r t s rs t r s r r r rs s t t s s t t s st tt λ t 0.1, r s t r 1 t 2 20,5 2 3 r ts r r r P r r s t s r 1tr 2 s s t s r r s r s tt s s t s s t r 2 r ts 2 t tt s r s st
286 276 XIV. Magyar Számítógépes Nyelvészeti Konferencia t t s r t r t s s r r r t t s rs r r s t t 2 t rt r r s t t t r t s rs r r s t t t s t 2 q t r r s s st t 2 r s t 2 t t s r st r t s r t s t tr 1 M s str t rt r t t r s r t t t r r r t t s t s s str t 2 t r s ts t rt t2 str t st 2 t r t r t s rs r r r s t t s t r st 2 t r s r t t t r r ss s r r r t r q r M t rt r s t 2 rt r r r r str M rt r M λ = 0.1 λ = 0.3 λ = 0.5 r r ss st r r t t s r r str M rt r M λ = 0.1 λ = 0.3 λ = 0.5 t s t t r s r r ss st t r t s r t r t 3 r ts 1 r ss t r s Pr s s r s r t ts t s r sts t r2 t r t t P t t s s r s 2 t t s rs r r r s t t s r r t t tr 1 2 t 3 r s s q t t s s s s P t t r t s rs r r s t t s t s tt r r st t t r t2 t r ss r r r t2 t r r r s t r2 s s tt s r tr t s q r r t t r s r t r r s 2 s 2 r 2 t r s rs t r s 2 t t r t φ r s s r s tr s t r s t r r2 t t 2 2 ts t 2 r r t r s tt s 2 t s r r t rs s tr t r s r 2 r t t rs r P t t r2 t tr s s r tr t s tr t t t r t st s t t rs s t s t t t t r
287 Szeged, január t r ts t s r s s tr s t t t s t st r s s t t q t2 2 t r ss 2 r s rs r r r s t t r t t s r s t r t st s t t t s s tt s r t t r r r r t st t r t st s t t 2 r t s r t s s t r ss r r s t t t s r t t t t t 3 t st t tr s t t r s t t r t 3 t t s t 1ts 2 t r ss s rs r r s t t s r 2 t t r t st t t r s t st t t r s t t tr str t s t t 2 t rt r t2 str t r t tr 1 M r s P t r s t t r t t t r r ss st s s r r t t r s ts t r t rt r t2 str t 2 r t s t s r r r ss r r t r r t r s t r r str M rt r M λ = 0.1 λ = 0.3 λ = 0.5 r r ss st r r t t s r r str M rt r M λ = 0.1 λ = 0.3 λ = 0.5 t s t t r s r r ss st r ss P t r 2 t t s t r2 s t r M t s t s t r t t t q t2 t r ss s rs s r t t t s sts t s ss t s t s r t r t s2 s t r2 r t t t tr 1 M r t t r s r t r 1 r ts r ss P t s t t t t r2 t str t M ts t r s t t t r2 r t s r s sts r s ts t s 1 r t s st rt t s r t t t r s t t t r s s st t r t r s ts t r t s2 r t r r r t s s t t r t t r tr 1 M r t t t r t r t2 str t s r r M t
288 278 XIV. Magyar Számítógépes Nyelvészeti Konferencia t r s s t r s r r t r s t r r r ts r r ss t r s s s r r r r str M rt r M λ = 0.1 λ = 0.3 λ = 0.5 r r ss st r r t t s r r str M rt r M λ = 0.1 λ = 0.3 λ = 0.5 t s t t r s r r ss st r ss P t r 2 t t s sts t r2 s t r M t s r r t r s s tr s s t t s s r s s r s ts r r P r s t s r 2 s rs s r r r s t t s t t s r 2 s rs t r s r t 2 tt r t t st r t t s s r 2 s r r r s t t rt r r t r t s r r s r s 2 2 s ss r r t t s t s s rs r r r s t t s r r str M rt r M Ps t r2 s s t r2 r r ss st r r t t s r r str M rt r M Ps t r2 s s t r2 t s t t r s r r ss st r ss P t r 2 r 2 s r r r s t t s
289 Szeged, január t r r s s r 2 r t s r t2 r s t t t 2 tr s r s t t s s r s t s r 2 r s t 2 t t s r s t 2 ss t ss t r r t t t 3 t s 1t r r s r s s ss 2 t r 2 2 r r r t 1t r s r s t s t s r t 2 s2 s t r2 s r t t s s t t s 2 s s s t t r s t rt t r r 2 2 rt r s t 2 t s r rs t r s r t 2 r q r D t r t 1 s t tr s r s t r t rs t s r t ts α t t s s t s r tr r r r t r s rs r r r s t t s r r r ss s s t t t s r ss s rs r r r s t t s r s st t 2 r r r s t t r r rs t s r r t s r 1 r ts str t t t s s rs r ss r r s t t s t t s r t r ss t s 2 t t 2 r s2 t r2 r r r t t s r r r t s r r t r2 s s r r r r s t t s t t s s t r t 2 t s rt r r t t t t t t P s P s r t s r s r r s rr t st t r r r s t t s t r s s P t r t rs r r r r s t t Pr s t r r t s t r Pr ss P t r ss t r t t st s 3 t P t r s r s r 2 rs r t t s r t s Pr s t r s t P rs r 1t t rs s ss t r t t st s
290 280 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 2 r q 2 r t r ss s r s r r s Pr s t t t t ss t r t t st s P rs r r 2 ss t r t t st s r rs r r s r t s q r s t s t ss t r t t st s r q s t t 2 r t rs r t r t r r r s t t s Pr s t r t t ss t r t t st s t t t r t t r t r Pr ss P rs ss t r t t st s P r 33 P 2 t str t r r r s t t s r t Pr s t t t r t t t r r r ss t r t t st s s P r r r t rs t s r r t r s t s t ss t t t st s r 3 r rt tr s r r r tr s t Pr s t r t rt r t r t ss t r t t st s s r r ss t r t t st s rt t1 rr r r s r s r s r r Pr s t r r t s t r Pr ss ss t r t t st s ts r 1 t s r t s s r tr s t s t r P r r t rs rt tr s r t s t rt s t 1 Pr s t t t r t r r r s t t s r P r t r2 r r s rs Pr s t t t r t r r r s r rs t t st rt 2 r3 r rt2 P r r t r s Pr st s r s t s q t Pr s t t t t r t r r r s r P s rs 3 s t st t t t s s rt t1 rr r r s t st t Pr s t t t t ss t r t t st s P rs ss t r t t st s
291 Szeged, január é r ító r s3 r á ás sé s és s ítsé é ás3 ó á s 1,2, ,2 1 PP 2 r 2 t ó t tó s rt 2 Pá3 á 2 Pét r t s 2 t r á ós ó és r st Prát r t 3 r 3á ó t st t 4 s t t é r ítás sé é á ítás t tás é s3á ár t s t é s té 2 í3 tó sé t tó 2 s ít t 3 r át 2 r tt ó s3 r 2 sé r ítást tö é r ító r s3 rt s3 á áttér és 2 érté r s3 r s ítsé é á s3t sé r ítást 2 á 2 s érté és ó s3 r r r r ításs á ít á é r ítás sé ét é 2 s és 2 ö tsé ár 33 s3 sé s és ó s3 r r r r ítás é ü t ós sü té 2 t ü ö ö3 é r ító r s3 r tét á t tás s rá tt st t s3t és 2 rá s é r ító r s3 r t t á t sé s ó s3 ré t t 2 sé s t s r é 2t 2 á 2 s ó s3 r é és s3 á r r r ítást t tás t t 2 á t r s3 r t s t s sé t r é 2 3 t é r ító r s3 r ü ö ss3 sé s és st t s3t é r ítás 3és ú st t s3t é r ítás r r s st t s3t é r ítás rá s é r ítás 3 tés é r ító r s3 r t s á t 3ás t r s3tü 3 ú t é t 3 3 é t á s t ó á t ö t tö ü ö ö3 ó s3 r 3ásá tör t t tó t sé é r ítás á ításár t é á s3 á 2 ú st t s3t s3 t t ú rá s á ó3 t ú 3 r s3 r tér s ésü tt s3á s tér 2 és átrá 2 r 3 é r ítór s3 r á ó á t sé ü 2í 2 ü ö ö3 ó s3 r 2 t 2 sítsü t r s3 r r r é á t 2 ítsü í 2 étr 3 tt r s3 r sé é á ó rés3t tt r s3 r ét
292 282 XIV. Magyar Számítógépes Nyelvészeti Konferencia r s3 r á ó át ét 2 s rtr s3t t 3 ú 2 3 tt ss 1 t 1 á ó r ss 1 á ó é 2 2 r ítás á s3tásá 3 r s3 r 2 s3 s3 á t r ítór s3 r rés3 t s ó ó r á ó t s 33 s3 1 á ó s té s és 3áró r ítás té3 s s r té s3ü t 3 ö tés 2 r á ós ó s3 r 2 tt sítés rá s t r étr 3ásá ósít á r s3 r té 2 sítését 2 tt sítés rá t á t á 2 á3 t öré é ít s3óöss3 ötéss s á té3 s t 3 í 2 étr 3 tt 2 tt sítés rá ú ó ó s ítsé é á s3t á ós3í r ítást st és társ t és társ r t st í t és társ tó st á s3t ttá st és társ é r ítór s3 r té té3 s ú 2 tt sítés rá t s t r é ít tt 3 3t t tt r s3 r r ítását s3 á tá á3 é t t s3ós3 t és3ít tt tö r s3 r s3ár 3ó t r tí r ítás á ó3 t ó 3 á t étr 3 tt ó ó á s3t tt r ítást 3t t ú 2 s3t tt t á 2 2 tt sítés rá t s3ós3 t 3és s3 t é ít tté és P 2 r r s r s3 r á ót 3t étr r s3 r é 2 s3 r t é s s3ó rá3 s és t s3 t á ór t tás s rá 2 3és ú és 2 r r s st t s3t é r ítór s3 r t t t 2 rá s é r ító t t á t sé s ó s3 r s ítsé é sé s és 2 é t áss t ít tt st t s3t r ítás ó ü ö ö3 sé t tós3á t 2 rü sé t tó t t ít 2 r 2 é érté éss 3 í 2 t ít tt t és ú r ítás r r á sé t sé s s ítésé é ü ö ö3 r ítás r t sü sé ét t tás ü ö ö3 2 r 3t ü ö ö3 é r ító r s3 r t sé s á t íté t r ítást á s3t tt é s t é t ü s3ör térü t tás 3 s3 á t é r ító r s3 r t rö t t sé s és ó s3 ré ö é sét 3 tá rés3 t s t ü érés t és ó s3 r t é ü ír 3 r é 2 t és ü ö t 3t tés t s3 á t é r ítór s3 r t tás sé s és ó s3 ré ös3ö t t sé ü 2í t á ít ü ö ö3 tí sú sé t tó t ü ö ö3 é r ító r s3 r t tás s rá ü ö ö3 2 r á t 3ó 2 3és ú st t s3t é r ítót P 2 r r s st t s3t é r ítót és 2 rá s á ó3 t ú é r ítót s3 á
293 Szeged, január P r s3 r st t s3t 2 és s3 2 3és öss3 ötés s3ár 3 3 öss3 ötött 3és t 2 ár 3 s r s3 s ítsé é á ít t t s st t s3t ó s3 r 2 3t ó s3 rt s3 á á ü t á á 3 á 2 é s3 t t t s3ór s ó r s3 r s t ssá t r ít P t á á é s á s átr 3és t é 3 tá átr 3és t ár 3 ó 3t r é át 2 s3 P ít tt á t 3 t í P 3és ú ó rt s3 á ör 2 3 t ü 2 t t s3 á ó ó rt 3 ó s3 r s ít r s3 r t 1 és s3 t t tá átr 3és s3 á 2 t Pé 3 r t ást t X X s r á t 3 X 2ér ár 2 s3 r 3 t 2 tt sít t P t ó 2üt ésé 3 t t árú ó árt2á ös3ö t é 2t ás ú r s3 r 2 r t tö t á 2t rü t s té 2 3té t sít é 2 3 ét 3 r s3 r t t 3 ás é t é r ítás t rü té s 3 r s3 r ö3 t ü ósít á tét s ós3í sé ú s3ö r ítást r ítás ós3í sé t 2 r 2 ó r ó r r t túrá ú rá s á ó3 t s ítsé é á ít ó s3 r 2 3 s3 2 s 2é 2 és s tó r ítás t 3 étr s3 t 3t é s t rt t ssá r ásár t öss3 s ít r s3 r t 2 t ü 2 t sít é 2ü r s ü 3 tt 2 ártó és r s3 s3ö é té á átó 3ért é s s t ü ú 3 r s3 r t és r s3 r s é s s t ü ú P r s3 rt ás tá á3 t ö t 3t tés é s r s3t s é r ító r s3 rt 3 t étr 3á t 2 2 sé s ó s3 rr t á s3t sé t t ü ö ö3 r s3 r sé s és sé s ó s3 r ás á r ü ö ö3 sé t tó t 2 r rrás és é á t r ít tt t ó sé t tó é t áss t ít sé s t sé t tó t ü ö ö3 2 s ítsé é 2 r ü 2 t é 2 s rtr t t sé ér s3á t t 2 r á ó rrás t ó é á t r ít tt t ó rrás t és é r ítás s3 2á ó t é r ító r s3 r 2 rt sé t tó t t ít 2 érté és ér s3á r t á é 3 r érté éss ó s rr á ó 3ért r érté ésr s3 tá t ít s s t á ításár s t sé 3ért s3 ás é 2 á 2 s érté és ó s3 r r t ít r s3 rt 3 í 2 t ít tt s ítsé é t sü 3 ú s r t t sé ét
294 284 XIV. Magyar Számítógépes Nyelvészeti Konferencia á r sé s 2 ás s3 t ó ö3 ít 2 t ét 2 s rtr s3t t 1 és ss t 2 é r ító r s3 r t 2 r ss 1 2 í résé 3 s r ü é r ító r s3 r s ö é sét 3 s t tö sé é s s s 33á érésü r s3 r s s3 r 3 té 3 3 t 2 t 2 ü t é r ító r s3 r t 1 2 í 3 2 3áró rrás és r ít tt t ó 2 r sé t tó t t tás s rá ü ö ö3 é r ító r s3 r t 3t 3ért s 1 2 t s3 á t r r ss3 ós í3 s ó s3 ré ös3ö t sé s r s3 r 2 s ítésé é é s ár 2 ér s3á r t ít s t 3 á s s t 2 r érté ésr t ít á ítás rá és é 2 s t é s té t á r s 2 á 2 s ó s3 r t s3 tá s3 á 3ért t tás s rá s 2 á 2 s érté t s3 á t rt st r ítás sé é s ésér 2 2 r s3 r 2 s t ítás té s3ü sé r r ár tá é ít tt sé s t r ó s rá ár s s3ü sé r r érté r 3ért r s3 r é s ós t t s sü sé t s ítsé é á t ü ö ö3 é r ító r s3 r tét ó s3 r és érés s é s í3 tó és tó ó sé sé s r s3 r 3ért é tö sé é 2 á 2 s érté és ó s3 r t s3 á á 3 r tó át é 3 s3 r s3á ár érté tár 3ó tá tást 2ú t 3 át té 2 s
295 Szeged, január és érté t s é r ítás ítás tá tár 3 tó sé s s ítsé é 3t ós t ö3 t ü é r ítás é 3és tá s t t és érté t r s ítsé é á t ü ö ö3 é r ító r s3 r tét 2 sé r ítást t á 3 tó át é 3 s3 r s3á ár 33 ó s3 rr 2 sé á t r s3 rt t t tás s t é t é ít ttü sé s t 3 rt és 3 rt r t r ú tr á t ít tt sé s s ítsé é é 3tü 2 t s3t 2 s3 s sé r ót á t r á t érté á á s3t tt sé r ítást t tás 3 s3 á t r s3 t tás 3 é 2 2 árt 3t rrás 2 é 2 2 r é t s3 és á t ü ö ö3 2 ár ü ö ö3 té á ú s t tó r t ró r t s3ö s t és r t r é írás 3 és 3 r s3ö rö s3 s á t í s3ö s3 s é t át s tö t s3ó ó á t 3 2 s3 r 3 t s tér 2 ástó r s3 2 rés3ét 2 r ító é 3t sít tt 3ért 3 2 á s ér é 2 t tás r r á tó r s3 2 á s t q s t r t r r s é t 2 t tás 3 s3 á t r s3 ér t t 3 á tá á3 t t öss3 ás tá á3 t 3 2 s s3 s 2 t s át és t ító és t s3t 2 ö3ött 2 ár tá á3 t t tás 3 s3 á t r s3 é t ító 2 ér t t ító 2 ér t t s3t 2 ér t 2 r tó r é t s3 t t r é írás á é r ító r s3 r á ítás st t s3t é r ítás 3 s s r tr s3 rt s3 á t t í tó 2 t 3 3ás t t ttü á t 3á ás tr s tt s r r t s r q s
296 286 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3óöss3 ötés 3 r s3 rt í 2 á í tásá 3 3 s3 ö3t s3 á t 3 rá s r ítás 3 3 s3 ér t r tr s3 rt s3 á t 3 r tr s3 r é r ítás 3 s3ü sé s tö é ó r ó r r t túr tá t s3ö 3ásá 3 s3ü sé s r r s ér t á s rá ó ás 3 2 ú rt r r2 ét rá 2ú r t túrát s3 á t í ó ó 2 tt t t 3t 2 r s3 rü t t t 3 t st r t s t t 3á ó á ítást s3 á t sé s r s3 r á ítás t tás 3 t t s érté t s3 á t sé s t ításá 3 rt és rt érté 3 3t r é sé s ü 2 és ö3ött érté t sü ttó ü 2 érté r t ít tt 3 rt és rt r t r ú ó s3 r r 3ó 2 s té 2 r t s s ést s3ó ú ó s3 r 3 é st ó s3 r 2 átrá 2 2 s t 2 2 s3ó s t é ü ö ö3 s3ót 2 3 ét ü ö ö3 s3ó é t t írt sé s é ítésé 3 2 r s3ü sé ü 3 t 3 st r tr s3 rt s3 á t és 3á ró 2 ü t 1 2 t t tás 3 2 t 3t 2 t és társ s3t tt 3 2 t rt sé r és 2 2 ssé r t 3ó 2 t s t rt 3 t s3á rrás és é 2 t é 2 t r 1 tás st sé s t ításá 3 tö ü ö ö3 ó s3 rr ísér t 3 tü tö é r r ss3 ós ó s3 r s3 rt t r é ö tés á és s3 á 2 ss árás st ss árás ss r ss P r és s3 rt t r r r ss3 ó r r ért r é 2t 3ért 3 r é 2 s P és r érté t t t 2 r 2 r t 3á ást s é 3tü 3 r é 2 s3 ó t é t t 3 rá és társ t tás á 2 tt t á 2 t ró á t 2 s át s3tés s s é és rá 2 é 2 t öt rá 2 st r é 2 t r 1 tás é 2 t 2 ós3í üsé st s r t s3 rá 2 é 2 t í é rá 2 t st és s3 t r t 2 s3ótár 2 st 2 t t rt 3 3 r é 2 3 t öss3 s ít 3 t 3á t 2 33 t ít tt t t 3á t 2 t ít tt
297 Szeged, január
298 288 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 á t étr 3 tt á t r s3 r r é 2t ért t 3s á t r s3 r ö át át át tá á3 t á t r s3 r érté és t t P 1 P 1 P 1 3 r é 2 é 2 3s á t s rá s3 t t 2 3 r s3 r sé tért ás té3 sü t rá s é r ító r s3 r 3 tésé 3t árt 2 st t s3t r s3 r ér é 2ü t s3t 3 2 rá s r s3 r 3 s t tö sé é át s sé t r é 2 3 t st t s3t r s3 r t s3 t 3s á t s rá 3 s t 2 rés3é é s st t s3t r s3 r r ítás 3 2 t s t t 3 í ás t 3 r s3 r r ít r sít t r ítór s3 r á ó á s3 ssá á t ér és 2 r t á r s3 r á ó á rítér 3s á t 3 á s s r s3 r sé ét 2 ó 2 t s3t 3 á s3t tt 3 tt tr á r ítás s t t ú 2 t sé s ü tö é t s s3tá í 2 étr 3 tt á s r s3 r r é 2 tá á3 t 1 s r s tó r s r s3 r sé t s t 3 r s3 r é ü ö ü ö Pé á s3ó ú t r t r ú s té s 2 rá t ás 2 t 3 3t t 2 s3 2 s t s té t s térés 3 és 3 r s3 r r ítás ö3ött ér tá á3 t ó 3 s s tó 2 á t r s3 r r é 2 ss3 r 1 r s3 r r é 2 t és 3 é st s s3 2 s ér t ást t tt t t r í tó r s3 r 3 é st 3 3t t 2 é t s t rt é r t 3 3 sé s r s3 r s és t ssá á
299 Szeged, január tá á3 t 2 r t 3á ás t P rr á ó P P é ü és tá á3 t t tt r 2 r 3 á t s3t tt 2 t 3á t á r é 2 ást t t ér 3 2 r öss3 s ításár és érté ésé 3 s t rr r át s s3 út térés 3 r t sq r rr r át s é 23 t s térés 2ö és P rs é rr á ó érté t s3 á t Öss3 3és t tás s rá 2 3 t é r ító r s3 rt 3t étr 2 tö é r ító r s3 r tét á r s3 rs3 t r é 2t ért t á ás 3 s3 á t é r ító r s3 r ö r s3 r 3és ú st t s3t r r s st t s3t és rá s é r ító t s3 á é s tö é r ító r s3 rt s á r ítás á s3tásá 3 ts3 t sé s és ó s3 ré é 3 tt r ót s3 á t sé s és 3 s 1 2 t s3 á t 3 t r s3 r t ü ö ö3 2 ár t s3t tü 3 r é 2 á r s3 rs3 t 3 t é r ító r s3 rü s t sé t tt t P és r s3 r ö 2 r 2 ár s té 2 ü 2 t á ö tü r s3 r sé ét ös3ö t 2 á ítás ös3ö tü t 33ü r 3á ó t tá tásáért 2 t é t tt s3á r r s3 s3 á tát t 3ás r tr s t 2 t 2 r t tr s t s tt r1 r s
300 290 XIV. Magyar Számítógépes Nyelvészeti Konferencia r r r t s s s tr s t r t tr s t s2st s Pr s t t t t rst r s t 2 r r r s s r st t st tr s t Pr s t r t ss t r t t st s ss t r t t st s tr s r P rr r ü ç r r s r r s r r s t t s s r r r st t st tr s t s tt r1 r s r rt tt s r t t r r s s P rt t t s rt r s r t s 2 tr s t s2st t t 1 r r r Pr s t rt r s t t s t r s t ss t r t t st s t s r r P r r s2st t r tr s t P r r s P rr t t s tr s t s ss t r t t st s tt t r rt s r t r r r s t r r ts P r s r r rt r s 2 r r st t r st s s s r t t r st t st tr s t Pr s t t t t r 2r 2 s r s r st t st tr s t s s s s Pr s ss t r t t st s st ss s tts 3 t t st tr s t t r t s 2 t s s s tr s t r t tr s t s2st s s 2 t s s t rt 2 t r s ss t r t r st s 2 s2st t r s r s st t st t s t t st s t t 2 s s t r 2 t s s 2st t r r r r r r t t t q t2 st t r t s2st t Pr s t r s 2 r q s t t s t s r 2 r r 3 tt r P s r t r t t t tr s t Pr s t t t ss t r t t st s ss t r t t st s tr s r P
301 Szeged, január st ts s rt3 r t 2 t s s t r s t r s t t t tr s t s2s t t Pr s t r r s t t st r s t ss t r t t st s s 2r s P s s s t r r st t st tr s t s2st t t r t r st s Pr ss P r r rr rt3 st 2 tr s t t r t t t r t t t Pr s ss t r r s t t r s 3 st tr s t q t2 st t r r Pr s t st t t ss t r t t st s 2st str t s r ts r 2 s q t s q r t r t r s s tt r1 r s sé s r s3 r 2 2 t r és3 t s 2 3 ö3 2 r 3á ító é s 2 és3 t r 3 á 2 2 t r t s3é s rt 3 r2 ós t2 st t r s r t t 3 s t t r s t t st s t t 1t Pr ss 2 r 2
302
303 VI. Poszterek
304
305 Szeged, január t rs 2 rs rs r r s 1 á r s 2 1 rt t r t st s öt ös rá rs t2 2 rt t t t r t s st rs t2 2 s str t r s t t r s ts rr r 2s s r r s t t t r r t 2 rs r s2st s t t t s r s t t r s t P rs r 1t rs s s r t rr r ss s t t r s s t t t t t s t t t r s s s t tr t t t t r t r r ss s s2 t t 2s s s s t 2 t r t s t r s str t r t2 tr t s r t s t r r t r st t t rt r 2 rs rs r t r s t 2 rs r rt t2 t t st t t rs rs t r s s rt t rs s r s t t t 2s s s r r s rt t s r t s r r r q t t 2s s s s s t t r t st t t t 2 t st rt t s s rs r rr rs r 2 s r t rs s r t t s r t s s r t r t rs r t t r s ts t r s ts r t t r s s s s r rs s 2 rs s r t 2 t st st t t s t r r ss 2 str t r s r t st t2 s s2 t t r r s t t s s 2 str P t s rt t r ss st 2 s st t t t s2st t rs s r t r t t t r r s tt rs s r
306 296 XIV. Magyar Számítógépes Nyelvészeti Konferencia r s r rs s r s t t t r tr s s s rs r s r s r s s t t t t r st 2 rs t t t r t r r r 3 s r t s t P rs r 1t t rs s tr t s rs t rs 2 t s t s st tr s r s st tr s t t st r s r t tr s t t s r r s s r s r r s s tt s t s t t t s t r s2st s r r s t r r tt t s r s t s r q r t t 2 s ss t t rr t r t s s t t t rr t tr st tt t s r s r t t t t sr r s s t r tr 2 s t t 2 rs rs s t t r tt t r 2 s rs r t t t t r s t t r s r t t t s 23 rr rs 2 t t t r rs rs t t t t r r t s s tt r rs rs t t s s r r r s t t s t s t t s s2st s r r t r r r s t t s t s t r r s t tt rt t s s t s s s r P r t r t r r r t s rt s r s r s s r s r r t 2 t s t r s2st s s r s t t t t t t t s t r s2st s t 1t t s s q t r s t t t r r t t t r s2st s s 2 t tr s r s t r rt r r t r t r r st P rs r t r r t tt rt s r s t r rs rs 2 rs r r s t t rs s t s t s r t s t 3 2 r s t rs r ss r s r rr r 2s s s r t rs s r r r t r s ts s t s r t t t t s rs r tr t 3 2 r r s r 2s s t rs s t ss t t r s t t t t s s st rr r ss s r s t t r s t t t s2st s
307 Szeged, január t s t 2 t 2s s 2 t t r rs rs t rst s t s t r t st t r rr rs t 2 t t2 s 2 r t s t 2 2 t t2 s rr rs t 2 t rs rs s t r r t t str t r r s s r t r s t r rr s s t t s s r t r t ts t t r t t sts t t rr rs 2 t2 st P rs r t t t t t t 2 s rr s s s s s s r rr rs 2 t r ss s t t s t s r st rr r ss r t t r s2st s t s q st t r s 2 r t t t t t s2 s t s r t s t r r t t 2 str t r t t t2 s rr t 2 1 r t t t s r s s t sr r t s s t 2 rs rs r t s s r 2 s r t s r s s r t ts s s és t t t s t r r t s t rr r t2 s s s r t st ss s rr rs s s s r t s t r r t s t s s t t ts s s ss t r ss s t t r r s s r t s r rr rs s r ts t ts r 2 t s t s s r rs rs ss t r t 2 t t r r t 2 t t 2 t r t t s t s rr rs r rt 2 tt t t 2 s t r r q 2 t s t 2 r s 2 r s s r s r rt r rr s s t rs r ss s t r t t s 2 t ss r t s ts ts 1 t s s s r s s t rr s 2 2s s t s t
308 298 XIV. Magyar Számítógépes Nyelvészeti Konferencia
309 Szeged, január
310 300 XIV. Magyar Számítógépes Nyelvészeti Konferencia
311 Szeged, január
312 302 XIV. Magyar Számítógépes Nyelvészeti Konferencia
313 Szeged, január r P 2 r r s r 3 st r r t s á r t r är rs r s t r ö r r ó 3 rt 3á s r r r 3 t s s r à 2 rr s á á á P r í s ør s r 2 r 2 tt r á r r ts2 r rt ê P rt r t 2 s s 2 2 t 3 3 r r r rtí 3 s rt s ts t ç ss ä t t 2 t r r r r s s 2 s üür s P 3 r r3 2 2 r s P Öst Ø r P s P ss r tt P r 3 P rr r P tr P t P t r P P Pr t Pr s P P P22s r s 2 s r 2 t s t t r tt t st r r r r s ó ➆ á t t tr tr á r 3á tó r st r r s r t2 2 rs ts r á r s3 r t r r r t r r 3 s t ré s ➎ rts ý s rs s t r r2 t t st t t r st s Ú t2 t t s P 2s s r s rs t2 3 t P t r s r s r 2 rs r t t s r t s Pr s t r s t P rs r 1t t rs s r ss t r t t st s s r rs rs s Pr s t r s t P rs r 1t t rs s r ss t r t t st s ör s t t r s s P r tr s t r t r s Pr s t r s t P rs r 1t t rs s r ss t r t t st s 3 3 t r ás ór 1 s r r 2 tr 3 r r r r P r s s r s s Pr s t t r t r t s r s t tt t r s r s ss t 3 ó 3á tó r s rs s r 2 r r t r rs t2 ss t r t t st s
314 304 XIV. Magyar Számítógépes Nyelvészeti Konferencia r s 3 2 rs r s r s ts s Pr s t t r t r t r t ss t r t t st s ss t r t t st s t r 2 st 2 rs s t tr t Pr s t r t r t r t t st s r 3 tt
315 Szeged, január írt t s3t r s3ö tí s t tá ás é t ás s ó s3 rr ö ötör r 1, ,3 1 PP 2 r 2 t ó t tó s rt 2 Pá3 á 2 Pét r t s 2 t ö sés3 t és árs t á 2 r 3 Pá3 á 2 Pét r t s 2 t r á ós ó és r 4 t r r t t s3ö t t s sé s és s é r ítás érté ésé é 2 2 s3ö s té s t s t t s3 3 2rés3t tét é 3 ü ö ö3 t r és3 t s 2 3ó r s3 r ásrés3t r s3 2 és3 t t tás 2 rs 2 á s s3 á 2 2 é t ás ó sé s r s3 rt t t 2 3 tt 2 2 r á t étr 3 tt s3ö 3 és3ü t 3 r é 2 r s3 r té 2sá á érésé í ü rró s ér s t sá s3 á 2 3 t r t s r á s s3ö 2 3 és 2 2 tér 3 r s3ö sé r é á é r ító á t rá t t s á tó ss3 sé s és r s3 2 és3 t t r és3 t s 2 3és 3 tés s3ö sé s ésé é 2 s s r é r ító r s3 r é rü t r ító r r á t tt t t sé é sü t t s3á s3 s r á ó s3 á ó és t t s érésér tö t r t ó s3 r s ét 3 sé s és 3 s é r í tó t sít é 2é érté ésé s t t r á s 2 2 r á t étr 3 tt s3ö s té s 3 2r 2 s3á r 3ésr á ó r s3 ó 2 2 sé t 33á t 2 rs 2 3 ü ö ö3 2 t ó 3 tt 2 ár é t 2 és3 t t tás 3 tt s3ö 3 s s t ö t s3t r t és 3 3ít t t tó át 3ért s3ü sé 2 2 s3 ö3r 2 é r ítás sé s r s3 r 3 s ó r á ót t 3 tt s3ö sé ér és rró 2 3ás tt 2 s t s r 3á ó é és r t s3ü sé 3 é sé s 2 é é r ító és3ü t sé s t 3 tt 2 r t ít s3 3 r á t írt s3ö á és3 ás t t 2 é r ító ö t 2 2
316 306 XIV. Magyar Számítógépes Nyelvészeti Konferencia é t ás s r s3 rt t t 2 t ó r s3 2 t t té 3 tt r á t étr 3 tt s3ö r tt tá é 2 s3 r t r s3 r s3 s s3 ö3 s3 ü ö ö3 t r és3 t s 2 3ó 3ás s3á ár t s r á ót 3 t sé ér í 2 é á s ít t ö t 2 t t s t 3 2 ü3 ö tt 2 33 át tt í s3ö r s3 s tt sé s ó s é s3 ö3 t r s3 t s3 á ó 2 és3 s s ó ó á 2 á 2 s sé s ó s3 r ás á r ü ö ö3 sé t tó t 2 r rrás 2 és é á t r ít tt t ó é t áss t ít 3 t 3 r á t érté t t tó r 3 í 2 étr 3 tt s ítsé é t sü 3 ú s r t t sé ét é t ás r érté és s3 3ért sü t érté s rr á 3 r sé íté t á r sé s st r s3 r s3ó s3 t 3 rés3 t rt ér té és t tö ö3ött 2 2 t s3 t t 2 t é 2 t 1t s 2 t st 3 s á 2 ró rés3ét é 3 t s r s3 r 2 3 tt 2 2 s3ö sé s ésé é á és3ü t
317 Szeged, január π π π π
318 308 XIV. Magyar Számítógépes Nyelvészeti Konferencia á3 s 2 é s 2 t 3á 3 r rrást és 3á t t sít é 2t érté ár rés3 3ó r3 és 2 2 r r s3 r é s r tá s ö t t 3 t s3ö ér 3 π t r s3 r 3 3ó r ó 3 s3ö t 3 é 3 tt s3á 3 r ós3í sé t st 3 3 tt s3ö t t á ü 2 2 r s3á ár s3ör 3 r3 r3 3t 2 s ítsé é s3ö érté 2 tt üs3ö érté t r 3 r3 t 3ást t s3 ít 2 t t 2 s3 r 3úrá3 s3ö t ás ü ö t á tö 2 s3á ár és sé s s át érté t s3 á sé t tó é t 2 2 rés tá sé s sé t tó á s3á sü t érté t t á s t sé s tt öss3 s s3ö á s sé st ó s3 r és érés sé s é ítésé r s3ü sé ü 2 s ítsé é 2 r ü sé t tó t t ítás s rá r s3 ó 2 r s3ü sé s érté t é t áss r á t érté t sé t tó r t ít t ás á r π t r s3 r é ítésé 3 t s3 á t 2 2 r s r á t étr 3 tt s3ö á ás t 3 2 t 2 é r ító ö t 3ért s3ö sé s é s ás t t ító 2 t és 2 és3 t t é 2 t ító és t s3t r s3t 3 3 3t étr 3 s3é t 2 és s3 é 2 s r s3 ó értü r t t 3ért á s3t tt 3 t s3ö tí s t rt tét 3 t 3 2 r s3t r t ó térés t ító r s3 tá ás 2 és3 t é33 törté t ét é tá ót s3 á t rt s á át és s3tá 2 3ás t rt ts3á s té s3 tí r érté ést ttü 2 3t ró á t t 3 2 t 3és ár tó 2 r 3 t é3sé t r átó ó térés ó ó 2 s3 á 2 ú é s3 ö3 s3á ár ts3á t 2 s 3 t öss3 t és öss3 t s s3 r 3 t rá 2á ó s3á t 3 3 öss3 t tt 3 P t és é tós s3 r 3 t t 3 é öt és 3 t s tát t t t t és é ü t s t t ért ü 3 és át tó é á ö ü s r t és s r t öss3 t t
319 Szeged, január rü 2 s á t és sá t r s ést t rt 2 s tör é 2sértést ö t tt 3 r ö sr és3 s r sö s3 r t 3 s3tá 2 3ás s rá át t t t t á s s r t t öss3 t t t rt 3ó t és ö3ött rá 2ú t és ö3ött t r ss3 s ts3á t 3 t tá 3 öss3 t á sü t 3 t t 3 3 tá ás r s3 r 2 t és t é 2 s t t é á át t 2 3 á t és sá t r s és r ss3 2 sírásá 3 r ért 3és 2 ö 2 tú ü 2 s3á ító é s 3 s3á ár 3 2 r t ért 3 t t 2 é r ért t í 2 t 3 érté és t át 3ért s3tá r íté tt törté t rt ts3á s s r é s3 ö3ö t s3 r t é r á í 2 t 3ás á tt t t 3 r t r és3 t s r 3á ó é ssé ét 3 í 2 tt érté r á ót t 3 3 r s3 r 3 t í3 tósá áró 2 r tí s é s r tí t 2 é s3 ö3 s3á ár sé s í3 tó t tá ét 3 s3 ö3 3 t r 3á ó t é á 2 sírás r3 é 3 t ss3 á ító 3 s3tá 2 3ás ü öt tí st t rt 3 2 s3é t 2 és 3 r á s t r t s s3ö r 3 3 ö t 3 ö3 t 3ás á á 2 2 t 2ás írás 2 sírás és 2 á 2 s3 t t rt 3ó s3ö 3 t á t s3é t 2 2 r á s s3ö s ét és ás s3 rö ítés t st t s3tá 2 í ü tár 3t é 2 s3 tá ás s3tá 2t s 3 t 3 s t t s r t r r s3 ó tt t ó á t t 2 2 t t á á s3tá 2 tt t r és3 t s s3 r t 2 s3tá 2 át t s3á ár s 2 t tö tí s s s r tó 3 2 í és t ítás 3 á s3t tt 2 át 3t 2 s3ö 2 rés3ét Pé á írás s s3 r 2 t 3 s3ö t 3 é 3 t á 2 ár 2 t ö3 írás s á 23 t s 2 sírás á r ás s3 t 2 s3 á ó ár s ás 2 t s s tt t s r r 3 t 2 3t 3 t á 2 2 sá st 2 á t r á ú t 2 sírás á
320 310 XIV. Magyar Számítógépes Nyelvészeti Konferencia tö í és s3tá 2 3ás 3 t í ét tt é tö s3tá 2 2 t s t s r tó ár á s tí s r t tt á 23ó 2 r 2 s í ét tá t sé s ü ü ö ö3 tí sú 2 t s3 á 2 t ü á 3 á t ór á s r t 2 2 é öt é tár 3ós3ó öt s3ó é ás é ts3ó rá 2 t és é rá 2 t és é rá 2 t é és öt rá 2 t és é rá 2 t t s3á át s s3ó ss3 t r 2 t 2 ós3í sé t 2 r 1 tás t s3ótö s3ó í é 2 ós3í sé t s3ótö s3ó í é 2 r 1 tás rá s 2 2 r r és r r 1 tás 2 s r t s3 rá 2 t é 3 t s s3 rá 2 t írás rá 2 t 3 r é ítésé 3 3 r 2 3 s3 té rés3 r s3át s3 á t 2 t 3á t és 3 tt t t t rt 3 rá s 2 t ításá 3 Pá3 á 2 r s3 ó ttü ó t t 2 é ítésé 3 2 ú t r rr t t r t túrát s3 á t 2 t t á á ü ö3 s3ó á 2 3ást r s 3t 2 3 á t é s3ít tt 2 r 2 s3ó á 2 3ás t s3 á t érés t tás s rá ét é érést é 3tü s3tá 2 3ást és r r ss3 ót rt érté s ítsé é r r ss3 ós t é ít ttü s3tá 2 s ítésé é s3tá 2 3ás t és3ít ttü 3 s3tá 2 3ás s té é 3tü 2 í és s3tá 2 és tö í és s3tá 2 3ást s r r ss3 ó 3 és 3 2 í és s3tá 2 3ás 3 s3 t rt í tö í és s3tá 2 3ás 3 r s3 rt s3 á t
321 Szeged, január ö é t ó r t st s ró á t 2 ö3ü 3 2 í és s3 tá 2 3ás 3 s3 rt t r é r r ss3 ó 3 s3 rt t r r r ss3 ó tö í és s3tá 2 3ás 3 é t r r r st ú ss r s ó s3 r ért r é 2t 3ért 3 r é 2 3 t s 3 3 ó s3 r t ít tt r é 2 t t t 3 tá t t ító 2 s ítsé é 3 á ár sé s t é ít t tü r r ss3 ós sé s rt érté t s3 á rt érté t t r és3 s3á 2 í és s3tá 2 3ás sé s s3tá 2 t s3 á Öss3 s s3tá 2 és 2 s t s3tá 2 3ás í é tö í és sé s 3 s3tá 23ás érté t s3 á t 3 s3tá 2t r tü 3 s s3tá 2 í 2 s3tá s t í é ás és r s3tá 2 é á t t rt 33 s 2 2 s t í é ét s á á é 3tü t 3á ót s é r ítás érté ésé t 3á ó á ss3ü és é r á s 2 t r s3 r s 2 s sé t t ér r r s t ó s3 ré 3 á t 3á t t 3t étr t t 3á t t t 3á t r é 2 és érté és π t r s3 r π t r s3 r érté ésé 3 3 s t rr r át s s3 út térés 3 r t sq r rr r át s é 23 t s térés 2ö P rs é rr á ó 2 s s3tá 2 3 tt 2 rr t 2 ss s t s s3t sé ss és t ssá r 2 érté t s3 á t t s3t és 3 s t tí3s3 r s r s3t á ást s3 á t 3 és tá á3 t át tó 2 s 2 és3 t s rr á ót és 2 s s3tá 2 3 tt 2 t ért 3 t 3á ást r r s t ó s3 rr é 3tü 3 t 3á ás tá r é 2 t és tá á3 t ás s r t rt 33á 3 t 2 és3 t 2 2 t s3 á 2 á ó 2 2 r r á ót ért t t s 2 és3 t é 2 s s á 3 t 2 és3 t 2 2 t s3 á 2 á ó 2 2 r é 2t ért t t s 2 és3 t s á t át tó rt s á rr á ó ö á 3 2 í és s3tá 2 3ás s r é 2 ssé t t t 2 rá3 t rés3 3 tá ás ó s3 r s t t ít ttü 2
322 312 XIV. Magyar Számítógépes Nyelvészeti Konferencia rr á ó 2 t és3 t 2 tá á3 t 3 és 3 t 2 és3 t érté és 2 t és3 t 2 tá á3 t és 3 t 2 és3 t érté és t s 2 s3tá 2 t rt 3 t 3 tá ó s3 r t tt ósá tö é át s t rt 3 t s3tá 2 3ó t ó á 3 2 tár 33 3 s s tí st s é3 s t t 2é és é r á s á s t á tó s rt sé t s tér é 3ésér és3ít ttü érés 3 t rt 3ó té s3tés átr 1 t tá á3 t át tó 2 r s3 r ó 3 é 3 t é ü és át s3ö s r ásá tö s3tá 2 á s3 t 2 é r é 2 t t t ü ö ös 2 r é tó és s3é t 2 s3ö r 2s3 r s t t r r ú 2 áts3 3 3 t és é r s3 r á t s3 á t 2 3 t í 2 s3é t 2 ö3 t 3ás 3 2 s s r 3 t 2 sírás 2 s3é t 2 ö3 t 3ás 3 tá ás 2 s tá á3 t é s3tés átr 1 3 t 3á t 2 és3 t és tá á3 t át tó 3 t 3á t 2 és3 t 2 r á s3 r t r 3 rt s á s3 r t sé s és s3 t á ó r á s 2 és 2 3 é 3 t t s3á és 3 írás ü öss3 3 3 r é 2 2 és3 t s3 t ó é3 3 r á s írás á ó t r t s s3ö 3 é 3 t és írás 2ás t s s3t r t ó térés tó é
323 Szeged, január t s r t r s3á 3 t s r t rt t rt 3ó s3 öss3 s s3ó t r r 1 tás s r t s3 2ütt s3ö r ó 3és í é r r 1 tás s r t s3 2ütt r r 1 tás rá s 2 s3ö r ó 3és í é r r 1 tás s r t s3 é ü s r t s3 s3á s3ótö r r 1 tás s r t s3 é ü s3ö r ó s3ó í é r r 1 tás s3ótö r r 1 tás s r t s3 2ütt ts3ó rá 2 t ö3 írás s3á t é írás s3á s3á s3á é s3á s3ó í é r r 1 tás s r t s3 2ütt tá á3 t 2r t 3á t 2 és3 t rt 3 3ás s3 tá ás r é á t 3 t 33 2 rá3 tó s s3 r 1tré s t s3á t át 2 t 2 t t s3 2 ss3ú sé s r s3 r 2 t 2 2 s3 r s3t t s3ö r s3ó 2 r 2ütt ár 3 s 2 sé 3 t 3á t 2 és3 t r é 3 s r t s3 és 3 ts3ó rá 2 s 3 í é s s3á s3 té 3 r á s s3ö s át ssá 3 2 í és s3tá 2 3ás t 3á t 2 ö3ött ár tö 2 2 s 2 ó 2 ár t t 2 é á és é 3 é és öt rá 2 2 é ás s3á 3 s3ü sé s t 2 ssé r 2t sé r t 3ó s3tá 2 t s t tá t 3 2 tí sú 2 3 és é t r á s rt s té 3t t t r s3 ó s3ár 3ó s3ö sé r é á 2rés3t 2 t r és3 t s3ó s3 r s ért é é tí s öss3 ü és tá á3 t 3 2 s s3tá 2 át s rt ts3á át t t s3 r t r 3á ást t t 3 é 3 t ss3 á ítás 2 s rés és t r és t t r tás r t s írás ss3 á ítás t t 2 s ítsé t 2 é 3ó s3 ö3 s3á ár tí s öss3 ü és t s í3 ss 3s á t tt r é 2 t tá á3 t t rt 33 3 rü 2 3s á t
324 314 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 3 t s r t rt t rt 3ó s3 öss3 s s3ó rás rá 2 3 t s r t r s3á é ás s3á t s3ótö r ós3í sé é rá 2 s3á é s3á s3á é s3á s3á s3ö r ó 3és í é r ós3í sé öt s3 rá 2 írás rá 2 tár 3ós3ó rá 2 s3ó í é r ós3í sé t r r 1 tás s r t s3 2ütt t s s3ó ss3 t t s3ótö r r 1 tás s r t s3 2ütt é rá 2 t r ós3í sé s3ó í é r 1 tás s r t s3 2ütt r r 1 tás rá s 2 3á rá 2 é s3á öt s3á r r 1 tás rá s 2 r r 1 tás rá s 2 s3á é s3á t s3ótö r r 1 tás s r t s3 é ü t r á s rá 2 tá á3 t 2r t 3á t 2 és3 t 3 2 í és s3tá 2 3ás 3 3 t á 2 2 s3ö 3 tá ás á ütés 2 sírás és 2 á rás á á 2 2 t 2ás 3 3 t s3é t 2 s3ö t s ts3á tá á3 t s3tá 2 át s rt ts3á
325 Szeged, január r á s és é s s3ö tás tö sé s 2 á t 2s3 rr 2 é á s3á ít t rr 2 3 é 3 t t t rt 3ó s3ö ó sé 2 2 s3 t ó s s3t r t r s3 tá ás á 3 3és s3 r t 2 r 3 2 s3ö ár 2ütt t r 3 írás 2ás s3 t ú 2 t 2 tö s3 t ó ást s3ö r s 2 rá 2 3 t r 3 2 í és s3tá 2 3ás t ó r s3 s 2 s s t t tt tí st r t 3 t s 3 3 öss3 ü és 3 s r t t r s3é t 2 s3ö 2 á é 3 t á 2 t r s3 tá ás á 2 s3ö t r ö3 t 3ás á tá á3 t tí s öss3 ü és s í3 ss ö í és s3tá 2 3ás tö í és s3tá 2 3ás tá á3 t s3tá 2 t tá ásá s ó r é 2 ssé t t t t 3 2 í és ás és r í t ssá á ás s ös3ö t 2 3 2r 2 rá 2 t rt 3t át s3tá 2 tt 3 s t s 2 3és t 1 tását és t ó t s s3á át t t s3 2 ó r é 2 tó s3tá 2 s3tá 2 s3tá 2 P t ssá í é é t P t s 2 3és s3t sé tá á3 t tö í és s3tá 2 3ás r é 2 Öss3 3és s3ö sé s ésér t r 3 tt r s3 r é ítését és ö ését t tt 2 ó 3 tó t r s3 2 és3 t 2 t r és3 t s 2 3 r s3 r 3ó á 3 r é 2 3t t ttá 2 3 r á t étr 3 tt 2 2 s3ö é r ító á t rá t tét 2 rés3t 2 t
326 316 XIV. Magyar Számítógépes Nyelvészeti Konferencia á t t rt 3 3 s3ö sé r é á s á 3 t r t 3 írás s3 ás ó ó t é á 3 é 3 t 2 3 írás 2ás r s3 r érté ésé 3 rü t 2 tí s t tá ás é s3tésr s3 r 2 r s át és 3 é 3 t é ü s3ö ü ö íté sé ö í3 tó 3 á t á s sé t tó rt ts3á sü ésé 3 ó r é 2t értü á á t á s és3r ét é 2 2 és3 t t 3á ó 2 t sé ír 3 r é 2 s3 r t 2 és3 t sö tésé ít tó t sít é 2 és 3 r rrás s3 á ás s s s s3ö t á s 2 és3 t tért ttó rá t tás r ítás s té t s3t tó t tó t át 2 3 t á s 2 és3 t t ü t 3ás t ss s r r tr s t q t2 st t Pr s t r s r s t ré 2 Prós3é 2 á3 á 2 r s3 2 t á 2 ö3 é 2 r s P r r t P tt t s t r t 1 r s á á 2 r s3ó á 2 3ás é3 érté és 2 r 3á ító é s 2 és3 t r 3 á 2 2 t 3 r2 r 3 ár ss r r r s 3 r t s Pr s t t t r t r s r s t 2 2 P r r s r ss r s r t ss t r tt 1 r s t P P r r s t t t r t 1t s t r r s r tt r r rs t P t3 rt t tr s t q t2 r t t q st P 2st str t s sé s r s3 r 2 2 t r és3 t s 2 3 ö3 2 r 3á ító é s 2 és3 t r 3 á 2 2 t r t s3é s rt 3 r2 ós t2 st t r s r t t 3 s t t r s t t st s t t 1t Pr ss 2 r 2
327 Szeged, január A HuTongue spontán beszélt nyelvi korpusz leiratozásának és annotálásának minőségbiztosítási munkálatai Gulyás Attila 1, Galántai Júlia 1, Szabó Martina Katalin 1, 2, 3, Szebeni Zea 1 1 MTA TK Lendület RECENS Kutatócsoport 2 Szegedi Tudományegyetem, Szláv Intézet, Orosz Filológiai Tanszék 3 Precognox Informatikai Kft. {Gulyas.Attila;Galantai.Julia;Szabo.Martina;Szebeni.Zea}@tk.mta.hu Kivonat: Jelen dolgozatban egy magyar nyelvű, spontán beszélt nyelvi korpusz, a HuTongue leiratozásának és annotálásának minőségbiztosítási munkálatairól számolunk be. A korpuszban feldolgozott szövegeket hétköznapi szituációkban, külső ingerektől teljesen elzárt környezetben keletkezett spontán nyelvi produktumok alkotják. A korpusz létrehozásának legfőbb célja, hogy megfelelő vizsgálati anyagot teremtsünk a pletyka természetének elsősorban társadalomtudományi szempontú kutatásához. A HuTongue egy egyedülálló adatbázis: tudomásunk szerint ez az egyetlen magyar nyelvű, nagy méretű, spontán szituációkban keletkezett, beszélt nyelvi korpusz, amely teljes egészében manuálisan gépelt és annotált formájú. A korpusz létrehozása amely jelenleg is folyamatban van több munkafázisban történik. Az előkészítés után a fájlokat egy feldolgozócsapat legépeli és annotáltatja. A munka három alapvető feladatból tevődik össze: a hanganyagon hallható verbális közlések rögzítéséből, a nem verbális hanghatások kódolásából, valamint egy, a kutatás szempontjából kardinális, szemantikai- pragmatikai jellegű sajátság jelöléséből. Azt reméljük, hogy a korpusz a kutatási kérdés sokrétű és automatikus megoldásokkal hatékonyan támogatott vizsgálatát fogja lehetővé tenni a számunkra a jövőben. A jelen dolgozat célja, hogy bemutassuk e komplex feldolgozási munkának a minőségbiztosítási folyamatát. Szólunk a minőségbiztosítás szempontjairól, megtervezésének dilemmáiról és lépéseiről, valamint bemutatjuk az általunk alkalmazott megoldást. 1. Bevezetés A magyar nyelvű, spontán beszélt nyelvi korpusz, a HuTongue korpusz létrehozásának legfőbb célja, hogy megfelelő vizsgálati anyagot teremtsünk a pletyka természetének elsősorban társadalomtudományi szempontú, beható vizsgálatához. Annak ellenére, hogy az elmúlt évtizedekben számos spontán nyelvi korpusz született a világ különböző nyelvein [4], [1], [7], [6], a magyar nyelvre irányuló kutatásunkhoz nem állt rendelkezésünkre megfelelő vizsgálati adatbázis. Mindenekelőtt, a magyar nyelv legtöbb beszélt nyelvi korpusza olvasott szövegekből áll [3]. Jelenleg három hazai spontán beszélt nyelvi korpuszról van tudomásunk, az ún.
328 318 XIV. Magyar Számítógépes Nyelvészeti Konferencia BEA (Magyar spontán beszéd adatbázis) [3], a Kivi (Korpusz az inferencialitás vizsgálatához) [5], valamint egy készülőben lévő adatbázisról, a Budapesti Egyetemi Kollégiumi Korpuszról (BEKK, bekk.elte.hu), amely társadalomtudományi céllal készül és nyelvi interakciókat tartalmaz. Ugyanakkor, saját vizsgálati céljainknak közülük egyik adatbázis sem felelt meg részletesebben [2], [8]. Olyan korpuszra volt szükségünk, amely megfelelő ahhoz, hogy spontán nyelvi környezetben keletkezett diskurzusokat vizsgálhassunk, és a pletyka jelenségére vonatkozó megállapításokat tehessünk. A fentebbieket megfontolva döntöttünk egy saját korpusz létrehozása mellett. A korpusz létrehozásának fő célja az volt, hogy mind a szövegek típusa, mind az alkalmazott annotáció tekintetében olyan korpuszt hozzunk létre, amely lehetővé teszi a pletyka jelenségének beható vizsgálatát. Egy korábbi dolgozatunkban [8] részletesen tárgyaltuk a korpusz szövegeinek keletkezési körülményeit, a feldolgozói munka előkészítő lépéseit, a feldolgozási és az annotálási folyamat eszközét, módszereit, a megtervezés dilemmáit, valamint az alkalmazott megoldásokat. A jelen dolgozatban a korpusz leiratozásának és annotálásának minőségbiztosítási folyamatát kívánjuk ismertetni. Meg szeretnénk mutatni mindazokat a minőségbiztosítást érintő kérdéseket és dilemmákat, amelyekkel a munka során szembesültünk, valamint a feladatban alkalmazott megoldásokat és eszközöket. A tárgyalás során, a problémák szemléltetése céljából a korpuszból származó példákat is segítségül hívunk. 2. A korpusz rövid bemutatása és alapvető statisztikai adatai A korpuszban feldolgozott szövegeket hétköznapi szituációkban, külső ingerektől teljesen elzárt környezetben keletkezett spontán nyelvi produktumok alkotják. A spontán alatt azt értjük, hogy a résztvevők azzal és arról beszéltek, akivel és amiről akartak. Emellett a beszéd mennyisége sem volt korlátozva. A környezet, amelyben a rögzítés történt, egy összesen három nagyobb társas térre osztható épület volt. A résztvevők átlagos életkora 23 volt, a legfiatalabb 21, a legidősebb pedig 26. Közülük 3 nő és 5 férfi volt. A hangrögzítés napi 24 órában történt úgy, hogy minden résztvevő rögzítő eszközt viselt. 1 A résztvevők tudatában voltak annak, hogy a hangjukat 24 órában rögzítik, és a hanganyag jogtulajdonosa hozzájárult annak kutatási célú felhasználásához. A teljes anyagból végül nyolc nap felvételét dolgoztuk fel a korpuszban. Ez az anyag összesen megközelítőleg 500 órányi hanganyagot tesz ki. A szövegek feldolgozásának a megkezdése előtt az anyagot a munkához elő kellett készíteni: a felvételekből a csendet, és az egyéb, nem beszéd tartalmú hangokat tartalmazó részeket a lehető legteljesebb mértékben ki kellett vágnunk, majd az anyagot 60 perces egységekre osztottuk [8]. 1 A spontán nyelvi hanganyagot, amelyet egy szórakoztatóipari cég rögzített, kizárólag tudományos célokra adták át és használjuk fel, teljes titoktartási kötelezettségvállalás mellett. A felvételen résztvevő önkéntesek teljes körű tájékoztatásban részesültek a hangfelvételek elkészüléséről.
329 Szeged, január A feldolgozói munka rövid bemutatása A feldolgozói munkát a résztvevők kiválasztása, majd betanítása előzte meg. A kiválasztott feldolgozók először egy nagyon részletes ún. útmutatót kaptak, amely pontos leírását adta az elvégzendő feladatnak, valamint a feldolgozáshoz használni kívánt eszköz kezelésének. Az útmutatóban rendre példákat (szöveges és hangzó) is elhelyeztünk. A leírás megismerése után a teljes folyamatot megbeszéltük a feldolgozókkal. Annak céljából, hogy a munka minőségét a lehető legmagasabb szinten tarthassuk, a feldolgozókkal folyamatos kapcsolatot tartunk, a kérdéseket, észrevételeket megbeszéljük, és a megbeszélteket a teljes csoport számára elérhető formában rögzítjük. A feldolgozáshoz az f4transkript ( elnevezésű szoftvert alkalmaztuk. A szoftvert gyakran alkalmazzák társadalomtudományi kutatások alkalmával, mert a használata nagyban elősegíti a leiratozás és a taggelés gyors és egyszerű, egy időben történő elvégzését. Mivel a jelölés során nem fonetikai annotációt készítettünk, a számunkra kiválóan megfelelt a szemantikai és pragmatikai jellemzők rögzítésére. A feldolgozók online kapták meg a hangfájlokat, valamint az egyes hangfájlokhoz tartozó szegmensek időbélyegeit - amelyek a kivágott részek jelölésére szolgálnak, és útmutatóként a fájlok összeillesztéséhez, txt formátumban. Ez utóbbi tette lehetővé számunkra azt, hogy a későbbiekben az elkészült, írásos formájú szegmenseket az időbélyegek alapján egymáshoz illesszük, valamint útmutatóként szolgálnak a kivágott szöveganyag jelzésére. A feldolgozók e fájlt töltötték ki a program segítségével a hanganyag írásos rögzítésével. A alábbi ábra egy részletet mutat a program működéséről. Fig. 1. Részlet az F4-programról A feldolgozók munkája a jelen fázisban három alapvető feladatból tevődött össze: a hanganyagon hallható verbális közlések rögzítéséből, a nem verbális hanghatások
330 320 XIV. Magyar Számítógépes Nyelvészeti Konferencia kódolásából, valamint egy, a kutatás szempontjából kardinális, szemantikai-- pragmatikai jellegű sajátság jelöléséből. A munka során tehát nem csupán a verbális információk rögzítését céloztuk, hanem olyan, nem verbális információk tagelését is, amelyek véleményünk szerint fontos segítségül szolgálhatnak majd számunkra a korpusz jövőbeli felhasználása során a kutatási probléma mélyebb összefüggéseinek feltárásában [8]. A nem verbális hanghatások tageinek kiválasztásánál és meghatározásánál fontos szempont volt, hogy a kutatási kérdéseink és hipotéziseink megválaszolásához megfelelő elemzési szempontokat és magyarázó változókat szolgáltassunk. Az annotációs jelölések kiválasztásánál tehát fontos volt az olyan érzelmi töltetű megnyilvánulások jelölése, amelyek korrelációja az általunk jelölt pragmatikai sajátságok meghatározásánál fontos többlettartalmat jelölhet (pl. gunyoros vagy zavarodott nevetés, köhögés stb.) Általános, a teljes leiratozásra vonatkozó sajátságként mondható el, hogy a feldolgozóknak a szoftver segítségével időbélyegeket kell elhelyezniük a gépelt szövegben, annak megfelelő helyein (részletesebben l. [8]). Ez nem csak a fájlok összeillesztését teszi lehetővé, hanem a későbbiekben időintervallum alapú mérési eszközök kidolgozására ad lehetőséget, és megőrzi a hanganyag kapcsolatát a szöveges fájllal. (1) #00:00:46-0# (Sanyi) Persze. #00:00:46-4# #00:00:46-4# (Gabi) Sietünk, hátha #00:00:49-3# Azt, hogy az adott diskurzus verbális és nem verbális hanghatásai kitől származnak, ugyancsak jelöljük, például (2) (Gabi) Hol a kávém? Tekintettel arra, hogy minden egyes résztvevő mikroportjának hanganyagát külön feldolgoztuk, nem szükséges az, hogy az anyagok teljes tartalmát leiratoztassuk, elég csupán azt, ahol a mikroport viselője további szereplőkkel részt vesz egy diskurzusban. Minden diskurzusnál jelöljük azonban, hogy a verbális és előre meghatározott nem verbális hanghatások kitől származnak. Amennyiben érthetetlen a teljes megszólalás vagy annak egy része, a következő jelet alkalmazzuk a diskurzus megfelelő helyén: (?). Abban az esetben pedig, ha a leiratozó nem biztos benne, hogy jól értette, amit hallott, az adott szövegrészt a következő nyitó- és zárótaggel jelöli meg: (( )) Ha olyan megszólalót hall, aki nem tartozik a csoport tagjai közé, így jelöli: (k?) Két típusú hanghatást kódolunk, a pillanatnyit, valamint a hosszabb ideig tartót. Az előbbiek közé tartozik például a köhögés, a nevetés vagy az ásítás. A hosszabb ideig tartó hanghatások közé tartozik például az, ha valaki sírva vagy nevetve mond valamit. Ilyenkor nyitó- és zárótaget használunk, annak érdekében, hogy beazonosíthassuk, milyen hosszú egy-egy hanghatás. Az alábbi példák egy nevetést, valamint egy nevetve mondott szövegrészt tartalmaznak: (3) a. (Gabi) Szerintem (~) elég jó csaj! b. (Gabi) Szerintem (~) elég jó csaj! (~) ))
331 Szeged, január Amennyiben több hanghatás is történik egyszerre, akkor azt a megfelelő sorrendben és feltétlenül ugyanabban a sorban, azaz ugyanazzal az időbélyeggel jelöljük. (5) #23:18# (Gabi) Mikor lesz kész a vacsora? (Éva) (~) #23:33# Bár nem jegyezzük le a verbális és a nem verbális hanghatásokat azokban az esetekben, amikor azok nem az adott diskurzus részét képezik, azonban bizonyos, a kutatás szempontjából releváns információkat ilyenkor is jelölni kell. Ezekben az esetekben három különböző megoldást alkalmazunk annak a jelölésére, hogy mit érzékelünk a háttérben levőkről [8]. Amennyiben kivehetők a nem az adott diskurzus résztvevőinek a verbális és nem verbális közlései, és be is tudjuk azonosítani a beszélőket, akkor a résztvevők neveinek a kezdőbetűivel jelöljük a jelenlétüket, például Gabi esetében (G) taget alkalmazunk. Ha, bár a közlések kivehetők, a forrásukat azonban már nem tudjuk beazonosítani, akkor megpróbáljuk megbecsülni a számukat, például (4). Amennyiben még ez sem lehetséges, a következő annotációs jelet alkalmazzuk: (t?). A leiratozási munka egy, a kutatás szempontjából kardinális lépése az, hogy a verbális közlések meghatározott tartalmait (p) jelzéssel látjuk el. A (p)-tartalmat a következőképpen definiáljuk: (p) jelzéssel jelöljük azokat a szövegrészeket, amelyek során a beszélgetésben egy olyan, a csoporthoz korábban vagy jelenleg is tartozó harmadik személyről esik szó, aki valószínűleg nincs jelen a diskurzus közben. Amennyiben tudjuk, hogy az adott közlés kire vonatkozik, azt is jelölni kell a megfelelő módon. (6) (Gabi) jól alszik Éva a másik szobában munka helyett! (p-é) 4. A minőségbiztosítás szempontjai Az 1. táblázat tartalmazza a jelen munka szempontjából fontos kódokat, és azok, a minőségbiztosítás szempontjából lényeges jellemzőit. A táblázatban szereplő szegmens terminus alatt a két időbélyeg közötti szövegrészeket értjük, melyek több mondatból állhatnak és több jelölőt is tartalmazhatnak. A különböző jelölők közül a verbális tartalmaknál, valamint az azokhoz rendelt jelölők (hanghatások) esetében a szegmensen belüli elhelyezkedés is fontos, a többi jelölő esetén csupán az a lényeges, hogy jelen vannak-e, vagy sem. A gépelt kimenettől, valamint a manuális annotációtól azt reméljük, hogy mind a társadalomtudományi, mind a nyelvészeti kutatási kérdéseink megválaszolásában lényegi segítséget nyújthatnak. Ehhez azonban elengedhetetlen egyrészt az, hogy az elvégzett munka belső érvényessége megfelelő legyen, másrészt, hogy a hibás gépelés vagy annotálás ne okozhasson fennakadást az elemzés során. A feldolgozók produktumait illetően tehát komoly minőségbiztosításra van szükség a folyamat lefolytatásához.
332 322 XIV. Magyar Számítógépes Nyelvészeti Konferencia Szó 1. Táblázat: A jelen munka keretében ellenőrzött kódok, és azok lényegi sajátságai Jelölő alkalmazása Jelölő Kategória Leírás Pozíció fontos Szegmens eleje (<név>) Beszélő A beszélő keresztneve Nem Szegmensrészlet (<hanghatás>) Hanghatás <hanghatás> lehet: "s" - sóhajtás, Igen "~" - nevetés, "*" - sírás, "gn" - gunyoros nevetés, "zn" - zavarodott (<hanghatás>) Hanghatás nevetés <hanghatás> lehet: "sik" - sikítás, "k" - köhögés, "á" - ásítás, "pi" - pisszegés, "ujj" - ujjongás, "tor" - torokköszörülés, "f" - fütyülés, "é" - éneklés Igen Szegmens (t?) Tisztázó távolabbi beszélők jelenléte Nem Szegmens (k?) Tisztázó nem szereplő beszéde Nem vége 5. A minőségbiztosítás lépései és eredményei Tekintettel a feldolgozói munka komplexitására, egy alaposan átgondolt és részletes minőségbiztosítási folyamatot kellett megterveznünk a leiratozók munkaminőségének ellenőrzéséhez, illetve a minőség folyamatos biztosításához. A HuTongue korpusz létrehozásának a folyamata során több minőségbiztosítási módszert is alkalmaztunk. Első lépésben a feldolgozott fájlok szúrópróba-szerű, kvalitatív átnézését végeztük minden egyes feldolgozó munkájának az ellenőrzése céljából. A szúrópróba-szerű ellenőrzés lehetőséget nyújtott ahhoz, hogy egyes feldolgozók szisztematikus hibáit azonosítsuk, és visszajelezzünk arról az egyes feldolgozók számára. Az ilyen módon feltárt hibákat, hiányosságokat a feldolgozók javították, azonban túl nagy minőségbeli eltérés esetén, abban az esetben, ha az első visszajelzés sem hozott eredményt a feldolgozó munkájának javulása terén a feldolgozó nem folytathatta a korpusz feldolgozását. Az ilyen típusú, rontott fájlokat később újra feldolgoztattuk egy másik feldolgozó munkatárs segítségével. A korpusz minőségbiztosítása érdekében azonban szükségünk volt egy olyan átfogó mérőeszközre, amely több dimenzióban is képes mérni a munka létrehozásának eredményességét, pontosságát. Ezért a feldolgozók munkáját egymáshoz viszonyítva, és egy referenciafeldolgozó munkájához képest is ellenőriztük. A referenciagépelő kiválasztását a leiratozott fájlok elsődleges, kézi ellenőrzése alapján végeztük. Így a kézi ellenőrzés során, a konzisztensen legjobban teljesítő feldolgozót választottuk ki a kvantitatív ellenőrzés referenciagépelőjének. A kvantitatív minőségbiztosítási folyamatot ezért a következő részfeladatokra bontottuk: Szövegegyezés, annotáció egyezése és az időbélyegek elhelyezésének helyessége.
333 Szeged, január A továbbiakban bemutatjuk a minőségbiztosításunk fókuszában álló jellemzőket, az erre kidolgozott mutatót, azaz az IRI indexet (Intercoder Reliability Index), valamint a mutató által szolgáltatott eredményeket egy 60 percet átfogó hangfájl részletén. 5.1 A mérni kívánt sajátságok A HuTongue korpusz egyik legkülönlegesebb jellemzője az általános nyelvi korpuszokhoz képest a benne alkalmazott komplex és széles körű annotáció. Ebbe beletartozik a korábbiakban ismertetett, több dimenziós annotáció, illetve a szövegek időbélyegekkel történő kiegészítése. A minőségbiztosítás célja tehát a következő sajátságok pontosságának a mérése volt: a gépelt szöveg helyessége, a jelölők, valamint az időbélyegek megfelelő használata. A szövegek helyessége jelen kutatásunkban nem a magyar helyesírás szabályainak való megfelelést jelenti, hanem élőnyelvi korpusz lévén az elhangzottak lehető legpontosabb rögzítését, bizonyos esetekben fonetikus átírással. Ennek megfelelően a legépelt szöveg nyelvtani helyessége számunkra nem befolyásolja a kapott eredményeket. A tagek tartalmazzák kutatásunk szempontjából a legfontosabb információt, ezért ezekre helyeztük a legnagyobb hangsúlyt a minőségbiztosítás során. A legfontosabb szempont a különböző jelek egy szegmensen belüli megléte vagy hiánya volt, valamint néhány jelölő esetében fontos volt azok mondaton belüli elhelyezkedése is. A legtöbb tag esetében a meglét ellenőrzése elégséges, azonban, különösen a hanghatásokat jelző jelölők esetében a helyes elhelyezés is fontos szempont. További nehézséget jelentett a nyitó-, illetve zárótagek jelölésének mérése is egyes kódok esetében, ezeknek a jelölőknek a pontos bemérése, összehasonlítása a szöveg egyes részein. Végül, az időbélyegek használatát illetően mind a pontosság, mind a meglét ellenőrzése fontos volt. A feldolgozók egzakt kritériumok szerint tehetik ki az időbélyegeket a sorokvégén (a szegmenseket természetesen mindig időbélyeg zárja), így ezek konzisztens használata is nagyon fontos. Az időbélyegek adják a szöveg természetes szegmentálását, ezért ezek pontossága nagy jelentőséggel bír. Az, hogy egy adott feldolgozó mekkora szegmenseket alkot, tehát milyen gyakran tesz ki egy időbélyeget, praktikus szempontból fontos számunkra, de követnie kell a beszéd természetes meghatározottságát is, ezért a nem megfelelő helyen való tagolást is hibának tekintettük. A fentebb ismertetett három szempont együttesen adja meg azt a feltételrendszert, amely mentén egy adott feldolgozó munkája kiértékelhető. Fontos azonban, hogy az értékelés ne csupán kvalitatív módon (azaz humán ellenőrzéssel), hanem kvantifikálhatóan is megtörténhessen. A minőségbiztosítást ugyanis iteratív folyamatként kell értelmeznünk, tehát meghatározott periódusonként ismételt minőségbiztosítási fázisokat kell beiktatnunk a feldolgozói munkába, amely feladat manuálisan egyrészt nem idő és költséghatékony, másrészt a kvantitatív értékelésre sem ad lehetőséget.
334 324 XIV. Magyar Számítógépes Nyelvészeti Konferencia 5.2 A megvalósítás eszköze és módszere Az eddigiekben ismertetett három szempontot egyaránt lehetséges külön-külön mérőszámokkal és kompozit mérőszámokkal is mérni. A jelenlegi munkánk során egy kompozit mérőszám előállítására törekedtünk, amelynek segítségével általános képet kaphatunk a feldolgozók munkájáról, azonban, amennyiben ez szükséges, a három sajátság eredményességét külön-külön is fel tudjuk mérni minőség javítási céllal Az IRI index A minőségbiztosítás során az egyik legfontosabb szempont volt az alkalmazott mérőszám(ok) egyszerű értelmezhetősége, illetve egyúttal a részletekbe menő információgyűjtés. Ahhoz, hogy mindezt egyben elérhessük, definiáltuk az Intercoder Reliability Indexet, melyre a továbbiakban az IRI rövidítéssel hivatkozunk. Ez a mérőszám két szöveg összehasonlítására alkalmas, amelyben a T2 a referenciaszöveget, a T1 pedig a kiértékelt szöveget jelöli. A lehetséges értékei 0 és egy között mozognak, ahol 1 jelöli a referenciaszöveggel történő teljes egyezést (azaz, hogy a feldolgozó munkája megbízható), 0 pedig az abszolút különbözőséget (azaz, hogy a feldolgozó munkája nem megbízható). Az IRI-t az alábbi összefüggéssel definiáljuk, amelyet a három lényeges minőségbiztosítási szempont mérőszámaiból összeállított kompozit indexként értelmezünk: (7) IRI = 1-[ w L( T, T ) + w I ( T, T ) w I ( T T )] L 1 2 Ta Ta Ti Ti 1, A kifejezés első eleme L(T 1,T 2) a szövegek közti eltéréseket magába foglaló mutató, amely célra a legmegfelelőbbnek az egyszerű relatív Levenshtein távolságot találtuk 2. Ez a mutató nem veszi figyelembe a helyesírás szabályait, és kifejezetten a szövegek közti eltérés mértékét adja meg, tehát a számunkra lényeges információt mutatja. A szövegek közti eltérések mutatóját a jelölők pontosságát leíró mérőszám követi, melyet I Ta(T 1,T 2)-vel jelölünk. Ez már önmagában egy kompozit mérőszám, amelyeket jelölőkategóriánként is számolunk, majd összegzünk. A mérőszám magában foglal egy a jelölők meglétéből és elhelyezkedéséből számolt pontszámot, az alábbi módon: egy adott jelölő hiánya (akár a referenciaszövegben, akár a kiértékelt szövegben) 1 pont, egy adott jelölő kategórián belüli eltérése 0,5 pont, továbbá ha az adott kategória esetén ez releváns egy jelölő rossz helyre történő beillesztése 0,5, és túl nagy távolságra (legalább három szó) történő rossz helyre való beillesztése pedig 1 pont. Az elemzett szövegrészen végighaladva a pontokat az összegzés után a jelölők számával osztjuk, a felső korlátjaként pedig (a többi mérőszám felső értékét figyelembe véve) 1-et adtunk meg. Végül, a kifejezés utolsó tagja I Ti(T 1,T 2) az időbélyegek pontosságát összehasonlító mérőszám, melynek értékét az időbélyegek átlagos, egymástól való eltérése adja. A munka jellegéből adódóan nem várjuk el, hogy az időbélyegek helye teljesen egybeessen, így a három másodperc alatti eltéréseket egyező időbélyegnek tekintjük. Ezt azért engedhettük meg, mert az egyes szövegrészeket az időbélyegek elválasztják, 2 2 A Levenshtein távolság a szövegrész teljes hosszának az arányában.
335 Szeged, január és adott esetben a mondatok befejezését követően a következő beszélő mondandójának megkezdése közé bárhová eshet időbélyeg. Az efeletti pontatlanságokhoz tartozó pontszámot az alábbi összefüggéssel számítjuk (alább láthatjuk a kifejezést szemléltető diagramot): -0.25( t2-t1-3) (2) ( ) I Ti t. t 1 2 = 1- e Fig. 2. Az időbélyegek eltéréséből számolt hibapontszám Ez a kifejezés az egyedi időbélyeg értékek összehasonlítását adja meg. Azaz eszerint az időbélyegek esetében sem nézzük el az alacsony hibákat, hiszen a pontszám már 10 másodperces hibáért (egy egyórás szövegben ez egyszerűen bekövetkezhet, hiszen a szöveg előrehaladtával az időbélyegekben vétett hiba kumulálódik) is igen magas értéket vesz fel. Mivel azonban az egyszeri csúszás a gépelés során gyakorlatilag egy állandóan magas értéket eredményezne, hiszen a csúszást követően minden időbélyeg torzulhat, figyelembe kell vennünk az adott szegmensek hosszát is. A szegmenshosszok hibáit az időbélyeghez rendelt hibapontszámnál figyelembe véve tehát az alábbi összefüggést használtuk. (8) I Ti ( th 2-th1-3) 2 ( ) + 0.8* ( 1- e ) -0.25( tz 2-tz1-3) ( 1- e ) -0.25( tk 2-tk1-3) ( T. T ) = 0.1* 1- e * Ez a súlyozott exponenciális kifejezésekből álló összeg akkor vesz fel 1-hez közeli értéket, hogyha az időbélyegekben csúszás van (3 mp-nél nagyobb, a kezdő illetve záró időbélyegeket a t kx, illetve t zx jelöli), illetve ezzel egyúttal a szegmenshossz sem megfelelő (utóbbi szerepel a legnagyobb súllyal, a szegmenshosszokat t hx jelöli). Ezáltal a gépelés során jelen lévő állandó csúszást jóval kisebb mértékben büntetjük, mint ha a feldolgozó egy adott szegmenst nem megfelelő hosszúságúnak rögzít. Ettől eltérő módszerekkel is meghatározható az időbélyegekre adott pontszám,
336 326 XIV. Magyar Számítógépes Nyelvészeti Konferencia azonban az itt leírt szempontok figyelembe vétele számunkra a minőségbiztosításban elegendő. Végül az (1) kifejezés szerint az IRI különböző elemeit különböző súlyokkal vesszük figyelembe (melyek összege 1-et ad) attól függően, hogy melyik pontosságra helyezzük a legnagyobb hangsúlyt. Emellett célszerű alacsony súlyt adni az időbélyegek pontosságát leíró mennyiségnek, mivel ez a többivel ellentétben nem normált mennyiség. Ennek megfelelően, ha a többi mérőszámmal megegyező súllyal vesszük figyelembe, azzal torzíthatjuk az IRI index értékét. Jelen írásunkhoz a súlyokat használtunk, kiemelve a jelző pontosságának számítását. Az ismertetett megoldás egy viszonylag egyszerű lehetőséget ad a feldolgozók szövegeinek az összehasonlítására, azonban szem előtt kell tartanunk, hogy az egyszerű számként létrejövő IRI nem feltétlenül minden esetben elég informatív a munka javításához. Emellett számos probléma felmerülhet a szövegekkel kapcsolatban, amelyek az IRI-t kiegészítő megoldásokat kívánnak Praktikus megfontolások és az IRI alkalmazása A gyakorlatban az IRI-t úgy használhatjuk, hogy egy adott szövegrészt több feldolgozóval is legépeltetünk és annotáltatunk, majd az így létrejövő szövegekre egyedileg kiszámoljuk az IRI értékét. Praktikus okokból nem csupán a kompozit index számítását végezzük el, hanem az IRI részeit külön-külön is elemezzük, hogy megértsük, hogy az egyes feldolgozók esetében mely feladatok jelentik a problémát. Ez főként a tagek alkalmazásánál, és az időbélyegek elhelyezésénél fontos. A tagek esetében az IRI kiszámítását mindig adott jelölőkategóriákra végezzük el, amellyel aggregált értéket kapunk. Az egyes kategóriák egyedi elemzése lehetővé teszi közülük a problematikusak azonosítását, így például a különböző típusú hanghatások észlelhetőségét, a beszélgetésekben jelen lévő harmadik személy jelenlétét, stb. Továbbá külön vizsgálhatóak a hibakategóriák szerinti pontszámok, így felismerhető, ha egy-egy feldolgozó valamely taget túl gyakran, vagy éppen túl ritkán használja, esetleg szisztematikusan rosszul helyez el a gépelt szövegben. Az időbélyegek esetében elsőként a fentebbinél egyszerűbb mérőszámot vizsgálunk: az adott szövegben levő időbélyegek számát, és időbeli eltérését. Itt a feldolgozók számára értékes visszajelzés az, ha túl sok, vagy túl kevés időbélyeget látunk a munkájukban. Azonban az időbélyegek használatában való eltérés egyéb problémákra is rámutathat. A feldolgozók például gyakran eltérően és nem megfelelően szegmentálják velük a szöveget, vagy pedig olyan szövegrészeket is legépelnek, amelyet nem kellene (egy nem az adott diskurzusban résztvevő verbális és nem verbális közléseit). Nem ritka tehát, hogy két szövegben eltérő szegmenseket, illetve valamely szövegben indokolatlan szegmenseket találtunk. Az időbélyegek száma mellett a szegmenseket kezdő és záró időbélyegek pontossága is fontos mérőszám. Emellett, mivel a minőségbiztosításra használt gépelt szöveg mérete megfelelt a beszélt szövegben az egy órás időtartamnak, az IRI számítási algoritmusának futásideje is igencsak megnőtt a nagyszámú természetes szegmens összerendelése miatt. A feldolgozók munkájának összevetését tehát -- a fentebb elmondottak okán -- nem lehetett az időbélyegekre támaszkodva elvégezni, így a szöveg mesterséges
337 Szeged, január szegmentálása mellett döntöttünk. A munkát az ún. horgonyszavakra támaszkodva végezzük. A horgonyszavak az összehasonlított szövegekben egyaránt maximálisan egyszer előforduló, négy betűnél hosszabb, értelmes szavak. Emellett egy olyan megkötést is tettünk, hogy csak azokban a természetes, (azaz a feldolgozók által létrehozott) szegmensekben keressük a horgonyszavakat, amelyeket az adott hangrögzítőt viselő személy mondott (azaz amelyek a beszélőhöz tartozó jelölővel kezdődtek) 3. A mesterséges szegmentálást úgy végeztük, hogy az adott horgonyszavak feldolgozók által kijelölt mondatait tekintettük a szegmensek határainak a feldolgozók jellemzően hasonló helyekre tették a mondatvégi írásjeleket a beszélt szövegben. Azaz egy adott mesterséges szegmens egy olyan mondattal kezdődött, amelyben benne volt az adott horgonyszó. Így nagyobb számú, de kisméretű szövegszegmenst kaptunk. Vizsgálataink során azt tapasztaltuk, hogy az így létrehozott mesterséges szegmensek akkor is jól összerendezhetőek, ha az időbélyegekben, vagy akár a szegmensek hosszában komolyabb eltérés mutatkozik. Ez alapján az IRI indexeket a mesterséges szegmensek között számítjuk ki, a végső indexeket pedig a szegmenshosszal súlyozott összegként. Egy mesterséges szegmens nagyjából egy perces szöveget fogott át így. 5.3 Eredményeink az első minőségbiztosítási fázisban Az első minőségbiztosítási fázis a korpuszépítés kezdeti szakaszában, közvetlenül a feldolgozási útmutató megismertetése és a feldolgozók betanítása után zajlott. A méréshez minden feldolgozónak ugyanazt a szöveget adtuk. A szöveg a teljes hanganyag kis része volt, amelyet úgy választottunk meg, hogy a feldolgozóknak az összes típusú jelölőt használniuk kelljen, illetve, amelyben kellő mennyiségű időbélyeg is szerepel. Fontos lépés volt a referenciaszöveg kiválasztása is. Erről a rendelkezésre álló szövegek kézi feldolgozásával, a minőség manuális vizsgálata alapján döntöttünk, különös figyelmet fordítva a jelölők helyes alkalmazására. A 2. táblázatban először is a szövegek struktúráját tekintjük át. Amint arra a táblázat adatai rámutatnak, a szövegek hossza feldolgozónként változik. Néhol ez az eltérés számottevő, ami annak tudható be, hogy a feldolgozók a távolabbi résztvevők mondatait eltérő mértékben érzékelik. Ez hasonlóképp igaz az időbélyegek számára, illetve az alkalmazott jelölőkre is. A táblázatban az időbélyegek és a jelölők száma mellett látható a legépelt szavak száma is. A referenciaszövegként használt szövegben található a legtöbb időbélyeg és jelölő, így a jelölők összehasonlításakor kevésbé fordulhat elő, hogy a referenciaszöveg a hiányos. 3 Ennek a megkötésnek a számítások felgyorsítása mellett a praktikus oka az volt, hogy a többi szereplő által elmondott szöveget a feldolgozók nagyon eltérő minőségben gépelték. Ebből fakadóan különböző hosszúságú szegmenseket kaptunk, és sok esetben egyes feldolgozók olyan szegmenseket is legépeltek, amit a többiek nem. Végül tehát a legépelt szövegekben a megegyező, egyértelműen összehasonlítható tartalom az adott beszélő szövege volt.
338 328 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2. Táblázat: Az ellenőrzött szövegek gyakorisági jellemzői Szöveg Karakterszám Szavak száma Szöveg Karakterszám Referencia Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó A szövegek horgonyszavas szegmentálását követően 55 szegmenst azonosítottunk, melyek átlagosan 380 karakterből állnak, azonban igen nagy szórásúak voltak (321 karakter). Az elemzés következő lépéseként kiszámítottuk az IRI pontszámokat az egyes szövegekre a referenciaszöveghez hasonlítva. Praktikus okokból a pontszámokat kategóriánként számítottuk a végleges IRI pontszám ebből az (1) kifejezésben említett súlyozás szerint adódhat. A minőségbiztosítási folyamatban ezeket a pontszámokat külön-külön alkalmaztuk. Az eredmények azt mutatják, hogy a feldolgozók egyaránt konzisztens teljesítmény nyújtottak mind a szöveges tartalmak egyezését illetően (tehát, amelyben nem voltak benne a jelölők és az időbélyegek), mind az időbélyegek és a jelölők alkalmazásának terén. Ezért végül csupán a számunkra az annotálás szempontjából legfontosabb jellemzőt vettük alapul a feldolgozók rangsorolásában: a jelölők használatát Táblázat: A szövegekre számolt IRI részértékek Szöveg Szóbeli Időbélyeg Jelölő pontszám egyezés pontszám Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Feldolgozó Ez alól egyedüli kivétel az 1. Feldolgozó volt, ahol a többiektől elmaradó szövegi egyezésnek és a magas időbélyeg pontszámnak köszönhetően egyedileg is elemeztük a hibákat.
339 Szeged, január Az egyszerű rangsorolást követően vettük figyelembe az időbélyegek és a szóbeli egyezés mutatóit, majd részletekbe menően vizsgáltuk a jelölők használatát jelölőkategóriák szerint is, itt azonban nem célunk ennek ismertetése. A minőségbiztosítási fázis végén a teljesítmény alapján hat feldolgozóval nem folytattuk tovább a munkát, a többiekkel pedig részleteiben egyeztettük a minőségellenőrzés eredményét. Ennek eredményeképp sikerült javítanunk a tagek használati szabályait, tehát sokkal precízebb kritériumokat megadni az annotálás részleteivel kapcsolatban. 6. Összegzés, további tervezett lépések Dolgozatunkban a jelenleg is fejlesztés alatt lévő HuTongue, magyar nyelvű spontán beszéd korpusz minőségbiztosításában alkalmazott néhány módszert mutattuk be. A korpusz méretéből fakadóan a gépelés és az annotálás komoly humán munkaerőt igényel, így a megfelelően alapos és pontos minőségbiztosítás elengedhetetlen. Erre az általánosan használt módszerek mellett egy, a HuTongue különleges jellemzőit figyelembe vevő egyedi mérőszámot alkottunk, amellyel jelentősen egyszerűbbé tettük a minőségbiztosítási fázisokban gépelt dokumentumok elemzését és a gépelést végzők teljesítményének az értékelését. A dolgozatban röviden ismertettük az általunk definiált mérőszám részleteit, valamint az alkalmazásánál figyelembe vett gyakorlati szempontokat. Ezt követően, az első minőségbiztosítási fázis adatain bemutattuk, hogyan lehet a mutatót a gyakorlatban alkalmazni. Az ismertetett eredmények alapján azt látjuk, hogy a mutató már jelenlegi formájában is alkalmas az egyes minőségbiztosítási fázisokban a feldolgozók értékelésére, azonban lehetséges, hogy további finomítással a mutató még érzékenyebbé tehető a feldolgozás során elkövetett hibákra. A jelenleg alkalmazott, a tagek és időbélyegek közti eltéréseket mutató mérőszámok korlátozott mértékben érzékenyek bizonyos hibákra. Az időbélyegek esetén a hibák típusának átsúlyozása érzékenyebben mutathatja a hibákat, illetve a jelölők használata esetén lehetséges, hogy nyers mutatók bevétele a mutatók számításába (például az egyes szegmensekben a beillesztett jelölők közti számszerű különbség) is javíthatja az IRI-t. Emellett a jelenleg használt Levenshtein távolságot egy jóval részletesebb mérőszámmal is lehetne helyettesíteni, amely kevésbé érzékeny a szavak sorrendjére, és inkább az adott szegmensekben szereplő szavak és azok jelentése közti eltéréseket veszi figyelembe. Mindezt összefoglalva azt tapasztaltuk, hogy a fejlesztett megoldás fontos előnye egyrészt az, hogy folyamatosan nyomon tudjuk követni a munka minőségének szinvonalát, másrészt a kapott mérési eredmények alapján visszajelzésre vagyunk képesek a feldolgozók felé, biztosítva ezzel a munka minőségének folyamatos javítását. Ennek köszönhetően amellett, hogy a gépelés pontossága javult, az annotációs jelölők használata is jelentős mértékben fejlődött.
340 330 XIV. Magyar Számítógépes Nyelvészeti Konferencia Bibliográfia 1. Crowdy, S.: Spoken Corpus Design. Lit Linguist Computing (1993) 8(4): Galántai J., Pápay B., Kubik B., Szabó M., és Takács K.: A pletyka a társas rend szolgálatában: Az informális kommunikáció struktúrájának mélyebb megértéséért a Computational Social Science eszközeivel. Magyar Tudomány. Megjelenés előtt. 3. Gósy M., Gráczi T.E., Gyarmathy D., Váradi, T., Veresné Horváth, V.: Magyar spontán beszéd adatbázis = Hungarian Spontaneous Speech Corpus. Munkabeszámoló. OTKA (2012) ( 4. Hemphill, C.T., Godfrey, J.J., Doddington, G.R.: The ATIS spoken language systems pilot corpus. In Proceeding HLT '90 Proceedings of the workshop on Speech and Natural Language. Hidden Valley, Pennsylvania. (1990) Kugler N.: Megfigyelés és következtetés a nyelvi tevékenységben. Budapest, Tinta. (2015) 6. Maekawa, K., Koiso, H., Furui, S., Isahara, H.: Spontaneous Speech Corpus of Japanese. In Proceedings of LREC. (2000) Oostdijk, N.: The spoken Dutch corpus. Overview and first evaluation. In M. Gravilidou, G. Carayannis, S. Markantonatou, S. Piperidis, and G. Stainhaouer eds. Proceedings of the Second International Conference on Language Resources and Evaluation 2. (2000) Paris. ELRA Szabó, M.K., Galántai J.: Egy magyar nyelvű spontán beszélt nyelvi korpusz (HuTongue) létrehozásának tapasztalatai. In MANYE-kongresszus konfenreciakötete (2017) Megjelenés előtt.
341 Szeged, január S azóta jól élnek és vidám dalokat énekelnek Leninről és Sztálinról. Szovjet propagandamesék műfaji azonosításának kísérlete Horváth Csilla MTA Nyelvtudományi Intézet Kivonat: Ebben a munkában a Szovjet népmesék Leninről és Sztálinról című mesegyűjtemény prózai szövegeinek (Lenin-mesék) lehetséges műfaji besorolásához próbálunk számítógépes nyelvi eszközökkel támpontokat nyújtani más doménekbe tartozó szövegeken végzett összevetés segítségével. A kétes műfaji meghatározású Lenin-meséket szófaji gyakoriság és emócióeloszlás alapján hasonlítjuk össze rokon műfajú domének korpuszával. Eredményeink alapján a Lenin-mesék szófaji gyakoriság és eloszlás tekintetében valóban a népmesékkel mutatnak rokonságot, emóciók gyakoriságában és eloszlásában azonban a szovjet propaganda-irodalom különböző doménjeihez hasonlítanak. 1 Bevezetés Ez a munka a Szovjet népmesék Leninről és Sztálinról című mesegyűjtemény prózai szövegeinek lehetséges műfaji besorolásához próbál számítógépes nyelvi eszközökkel támpontokat nyújtani más doménekbe tartozó szövegeken végzett összehasonlítás segítségével. Az összesen öt doménbe sorolt szövegeket először elemeztük, majd megvizsgáltuk bennük a szófajok gyakorisági sorrendjét és eloszlását, illetve az emóciók gyakorisági sorrendjét és eloszlását is. A műfaji besorolás elősegítése érdekében az eredményeket a Kendall-változó segítségével hasonlítottuk össze. Vizsgálataink során az alábbi kérdésekre kerestük a választ: - milyen emóció-eloszlás jellemzi a Lenin-meséket - mutatnak-e különbséget ebben a tekintetben a Lenin-mesék egyes kiemelt részei - a fenti eloszlások milyen hasonlóságot és különbséget mutatnak a többi vizsgált domén hasonló eloszlásaihoz képest - az összehasonlítás eredménye alapján melyik doménbe sorolhatók a vizsgált kötet meséi
342 332 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 A vizsgált korpusz Vizsgálatunk alapjául egyik részről a Szovjet népmesék Leninről és Sztálinról című kötetben [1] található meseszövegek (a továbbiakban: Lenin-mesék) szolgáltak. A mesék terjedelme 1348 mondat, szó. A Lenin, Sztálin a mesében való megjelenését jelölő szöveghely alapján két részre osztott szövegek terjedelme a megjelenés előtt (továbbiakban: Lenin előtt) 645 mondat, 6648 szó, a megjelenés után (a továbbiakban: Lenin után) 703 mondat, 6589 szó. 1. Táblázat: A Szovjet népmesék Leninről és Sztálinról vizsgált korpuszának adatai Lenin-mesék Lenin előtt Lenin után mondat szövegszó A Lenin-mesék eredetéről keveset lehet tudni. A kötet mindössze a fordítók nevét tünteti fel, más hasonló gyűjteményektől eltérően sem a szerkesztőkről, sem a mesék eredeti forrásáról nem közöl információt. Bár orosz nyelven több hasonló gyűjtemény is létezik (pl. [2]), a Lenin-mesék szövegei közül ezekben csak néhány található meg, nem sikerült mindet felderíteni. A Lenin-mesék szövegének népmesei besorolása már csak a kötet címét olvasva is kétségesnek tűnik, a szövegek elolvasása után pedig ez a gyanú csak fokozódik. Lenin és Sztálin a mesékben történő megjelenése előtt a Lenin-mesék szövege néhány szóhasználati érdekességtől eltekintve hasonló felépítésű, mint a Szovjetunió népeitől gyűjtött más népmesék magyar fordításáé, amint azt az alábbi, orosz és nivh meséből vett példán látható: A legdrágább Nem tudtak megegyezni a kolhozparasztok. Elhatározták hát, hogy elküldik Fjodort, Marjuskát meg Alekszejt: járják be az orosz földet, tudják meg, mi a legjobb és a legdrágább ezen a földön. Felkészültek hát hárman: Fjodor, Marjuska meg Alekszej, de nem tudták, merre induljanak. Marjuska azt mondta, hogy mielőtt a nagyanyja meghalt, meghagyta neki:»hogyha nem tudod, merre indulj, vedd kezedbe az orsómat, fogd meg a cérnát a végén, s guritsd el az úton. Amerre az orsó gördül, arra indulj.«megmondta ezt Marjuska Fjodornak meg Alekszejnek is. Elővették a kemencesutból az orsót, úgy tettek, ahogy a nagyanyó meghagyta, aztán elindultak az orsó nyomában. Mentek, mendegéltek. A hősök Sokáig éltek a földön emberek, anélkül, hogy látták volna a napot. Az a gonosz és kapzsi ikiz törzs lopta el a napot, amelyik hazugság és álnokság árán birtokába
343 Szeged, január kaparintotta az egész földet. Egy feneketlen, mély szakadékban tartották fogságban az ellopott napot, nehogy egyetlen ragyogó sugár is érje a hideg, sötétségbe borult földet. Sötét éjszaka volt a földön, de a legsötétebb a nivheknél volt, mivel ők a sötét tajgában éltek. Lenin és Sztálin a mesékben történő megjelenése után azonban a Lenin-mesék szövegei szakítani látszanak a népmesék hagyományos struktúrájával és szóhasználatával is, fogalmazásuk inkább az agitációs propaganda termékeinek fogalmazásmódjához és felépítéséhez hasonlít, amint az az alábbi evenk és nanáj mese részlete is mutatja: A boldogság csillaga ( ) Odament Barkaul a tűzmadárhoz és így szólt: Nagy sas, Sztálin hatalmas szárnya! Igazad van. Ülj fel a madárra, elviszünk. Már hogy ülnék fel? Félek. Ülj fel, Sztálin vendégségbe hív. Barkaul az emberekre nézett, nem tréfálnak-e vele? De nem. Szemük komoly maradt, igazat mondtak. Barátom hív vendégségbe. Mennem kell. El is megyek. Hallani fogom Sztálin szavát. A tűzmadár felzúgott és elvitte Barkault délre. Sok folyó van a földön s mind a tengerbe ömlik. A tengertől pedig Moszkvába vezet az út. Sok ösvény van a földön, de mind Moszkvába vezet. Moszkva hatalmas. A tűzmadár Moszkva felett repült. És Barkaul mindent látott.. Sztálinnál volt vendégségben, s mintha csak otthon lett volna. Együtt pipázgattak, Barkaul mesélt a tajgáról, mesélt az új életről... ( ) A nép napja ( ) Ezt a hőst Leninnek hívták. Mikor az emberiséget nagy szerencsétlenség érte mikor meghalt Lenin a gonosz emberek megörültek. Azt gondolták, hogy a nap ezentúl nem ragyog a népnek. De a gonosz emberek öröme nem sokáig tartott, mert a nép napját egy másik vitéz őrizte tovább, Lenin legközelebbi barátja és elvtársa Sztálin. E hős erejével nem mérheti össze magát senki. Szeme mindent lát, ami a földön történik; fülébe minden eljut, amit a népek beszélnek; minden az eszében van, amit az emberek gondolnak; szíve befogadja minden ember örömét és bánatát; gondolatai mélyek, akár a feneketlen óceán; hangját mindenki hallja, aki a földön él. Ő a földön a leghatalmasabb. S íme, Lenin kezéből átvette a napot és magasra, igen magasra emelte. Azóta nem alszik ki a földön a boldogság, mert nem alhat ki az égen a nap sem. A vizsgált korpusz másik részét a kontroll szövegek alkotják. Kontroll szövegeket négy doménből választottunk. Az első doménba tartoznak a Repülő hajó című
344 334 XIV. Magyar Számítógépes Nyelvészeti Konferencia kötetben [3] található népmesék, ezek közül is azok a meseszövegek, amelyek nemzetiségi besorolása megegyezik a Lenin-mesék nemzetiségi besorolásával, vagyis az orosz, ukrán, belorusz, hanti, evenki, nanáj mesék. A szovjet népmesei domén (továbbiakban: szovjet mesék) korpusza összesen mondatból, szóból áll. A második doménba a tematikai hasonlóság okán, vagyis valós történelmi személy, uralkodó középpontba állítása okán a Mátyás királyról szóló mesék és mondák [4] [5] szövegei (továbbiakban: Mátyás-mesék) tartoznak. Ezek terjedelme 7768 mondat, szó. 2. táblázat: A Szovjet népmesék Leninről és Sztálinról vizsgált korpuszával összehasonlított kontrollszövegek adatai szovjet mesék Mátyásmesék Rákosimesék szocreál irodalom mondat szövegszó A harmadik doménba tartoznak a Lenint és Sztálint dicsőítő mesékhez hasonlóan a személyi kultuszt szolgáló szövegek (továbbiakban: Rákosi-mesék), melyek a Rákosi Mátyás 60. születésnapjára összeállított ünnepi kötetben [6] találhatók. A kötetből azokat a szövegeket vontuk be a vizsgálatba, amelyek mind tematikájukban, mind stílusukban hasonlítanak a Lenin-mesék szövegére, vagyis nem egyszerűen Rákosit dicsőítik, hanem Rákosi szereplőként, főszereplőként jelenik meg bennük. A Rákosikorpusz terjedelme 883 mondat, 7668 szó. A negyedik doménba a szocializmus (Szovjetunióban, és részben Magyarországon is) preferált irodalmi stílusát, a szocialista realizmust reprezentáló Gorkij-regények [7,8,9,10,11] tartoznak (továbbiakban: szocreál irodalom), ezek terjedelme mondat, szó. 3 A szófajok eloszlása A vizsgálat első lépéseként a magyarlanc elemzővel [12] elemeztük a szövegeket. Vincze doménvizsgálathoz [13] hasonlóan kizárólag a fő szófaji információkra összpontosítottunk, minden token esetében csak a fő szófajt vettük figyelembe. A szófajok az összes doménben megfigyelhető eloszlása a 3. táblázatban látható. A szófajok eloszlásának vizsgálatához, illetve a domének közti hasonlóságok és különbségek megállapításához a Kendall-együtthatót (W) alkalmaztuk, amely a vizsgált elemek, jelen esetben a szófajok gyakorisági rangsorát felállítva mutatja meg, mennyire homogének a vizsgált szövegek. Az eredményeket a 4. táblázat mutatja. A Kendall-együttható értéke alapján a szövegek homogének, néhány eltéréstől eltekintve (mint pl. az adverbiumok szépirodalmi szerzők szövegeiben mért nagyobb gyakorisága) a domének között jelentős különbség nem figyelhető meg, a Leninmesék legnagyobb hasonlóságot a szovjet mesékkel és a Rákosi-mesékkel mutatnak, míg a korpuszból leginkább a szocialista realista szövegek doménje válik ki.
345 Szeged, január Szocreál irodalom N V DET ADV PRON ADJ CONJ PROPN SCONJ NUM ADP PART INTJ AUX SYM X Táblázat: A domének hasonlósága a szófajok eloszlása terén. Leninmesék Lenin előtt Lenin után szovjet mesék Mátyásmesék Rákosimesék szocreál irodalom Leninmesék Lenin előtt Lenin után szovjet mesék Mátyásmesék Rákosimesék szocreál irodalom 3. táblázat: A szófajok gyakorisági rangsora doménenként Leninmesék Lenin előtt Lenin után Szovjet mesék Mátyásmesék Rákosimesék 0,993 0,991 0,9976 0,9939 0,9951 0,9865 0,993 0,9953 0,9942 0,993 0,9917 0,9868 0,991 0,9953 0,9944 0,995 0,9919 0,9864 0,9976 0,9942 0,9944 0,9939 0,9939 0,9853 0,9939 0,993 0,995 0,9939 0,9927 0,9853 0,9951 0,9917 0,9919 0,9939 0,9927 0,9914 0,9865 0,9868 0,9864 0,9853 0,9853 0,9914
346 336 XIV. Magyar Számítógépes Nyelvészeti Konferencia 4 Az emóciók eloszlása Mivel a domének összehasonlítása során a szófajok eloszlásának vizsgálata nem hozott döntő eredményeket és nem segítette elő a Lenin-mesék műfaji besorolását, szükségessé vált a szövegek más jellemzők szerinti összehasonlítása. Az összehasonlítás alapjául az emóciók eloszlásának vizsgálatát választottuk, a vizsgálathoz használt nyolc kategóriás emóciószótár ([14, 15]) alapján felállított emóciósorrend összehasonlítását az 5. táblázat mutatja. 5. táblázat: Az emóciók gyakorisági sorrendje doménenként Leninmesék Lenin előtt Lenin után szovjet mesék Mátyásmesék Rákosimesék szocreál irodalom öröm bánat düh szeretet félelem undor meglepetés feszültség Az emóciók gyakorisági sorrendje hasonlóságot mutat abban, hogy minden doménben az örömöt és a bánatot kifejező elemek kerülnek az első két helyre. A továbbiakban azonban megfigyelhetők lényegi eltérések: a düh fontosabb szerepet játszik a szocialista jellegű doménekben, mint a folklórban, a szeretet kifejezésében pedig a Lenin-mesék a folklór domének és a szépirodalmi szerzők által írott szövegekből összeállított domének között helyezkedik el. Az emóciók gyakorisági sorrendjének pontosabb értelmezésének érdekében áttekintjük az emóciók gyakorisági számait is, melyet a 6. táblázatban közlünk. Az emóciók doménenkénti eloszlása alapján a gyakorisági sorrend alapján levont következtetések tovább pontosíthatók, ha megállapítjuk: a Lenin-mesékben a bánat és a düh a Lenin, Sztálin a mesékben történő megjelenése előtt jellemző, míg az öröm és szeretet nagyobb arányban van jelen a főhősök megjelenése (a szövegek többségében egyúttal a rendszerváltás és a szocializmus diadala) után. A szófaji vizsgálatokhoz hasonlóan az emóciók esetében is a Kendall-együtthatót használtuk a domének hasonlóságának megállapításához, ennek eredményei a 7. táblázatban láthatóak. Az összehasonlítás eredményei alapján elmondhatjuk, hogy míg a szovjet és magyar folklórdoménok, vagyis a szovjet népmesék és a Mátyás királyról szóló mesék között teljes a hasonlóság, addig ez a szovjet és magyar propagandaműfajokról, vagyis a Lenin-mesékről és a Rákosi-mesékről nem mondható el maradéktalanul.
347 Szeged, január Leninmesék szocreál irodalom öröm bánat düh szeretet félelem undor meglepetés feszültség Szocreál irodalom 6. táblázat: Az emóciók eloszlása doménenként Lenin Lenin szovjet Mátyásmesék előtt után mesék Rákosimesék 7. táblázat: A domének hasonlósága az emóciók eloszlásának terén Leninmesék Lenin előtt Lenin után szovjet mesék Mátyásmesék Rákosimesék Leninmesék 1 1 0,9881 0,9881 0,9762 0,9881 Lenin előtt 1 1 0,9881 0,9881 0,9762 0,9881 Lenin után 1 1 0,9881 0,9881 0,9762 0,9762 Szovjet mesék 0,9881 0,9881 0, ,9524 0,9643 Mátyásmesék 0,9881 0,9881 0, ,9524 0,9643 Rákosimesék 0,9762 0,9762 0,9762 0,9524 0,9524 0,9881 Szocreál irodalom 0,9881 0,9881 0,9762 0,9643 0,9643 0, Az eredmények összehasonlítása és értékelése Az eredmények alapján kirajzolódnak a domének közti hasonlóságok, illetve távolságok. A Lenin-mesék szófaji gyakoriság és eloszlás tekintetében a népmesékre, vagyis a szovjet mesékre és a Mátyás-mesékre hasonlítanak, míg az emóciók gyakoriságában és eloszlásában azonban a szovjet propaganda-irodalom különböző doménjeivel mutatnak egyezést, a pozitív emóciók pedig, mint az öröm és szeretet, Lenin és Sztálin a mesékben történő megjelenése után kerül túlsúlyba. A vizsgálat pontosságát, így a Lenin-mesék műfaji besorolásának lehetőségét elősegítené a különböző domének korpuszának terjedelmi kiegyenlítése, illetve amennyiben a Lenin-mesékhez hasonló másik kötet magyar nyelven nem jelent meg, legalább a szovjet mesék és a Rákosi-mesék doménjének bővítése további szövegekkel. Érdekességgel szolgálna még ezen kívül a Lenin-mesék
348 338 XIV. Magyar Számítógépes Nyelvészeti Konferencia karakterspecifikus emócióelemzése, vagyis annak számítógépes nyelvészeti eszközökkel történő vizsgálata, hogy milyen módon kapcsolódnak a pozitív emóciók Leninhez és Sztálinhoz, illetve milyen negatív emóciók fordulnak elő ellenfeleik szövegkörnyezetében. 6 Összefoglalás Ebben a munkában a Szovjet népmesék Leninről és Sztálinról című mesegyűjtemény prózai szövegeinek lehetséges műfaji besorolását próbáltuk meg elősegíteni számítógépes nyelvi eszközök felhasználásával. A Lenin-meséket előbb magyarlanccal elemeztük, majd megállapítottuk a szófajok gyakorisági sorrendjét, illetve eloszlását a korpuszban, valamint megvizsgáltuk az emóciók gyakorisági sorrendjét és eloszlását is. A műfaji besorolás elősegítésére ezeket az eredményeket összehasonlítottuk hasonló domének korpuszának azonos adataival. A Lenin-mesék és a többi domén szövegeinek hasonlóságát Kendall-változóval vizsgáltuk a szófajok és az emóciók esetében is. Eredményeink alapján a Lenin-mesék szófaji gyakoriság és eloszlás tekintetében elsősorban a népmesékkel mutatnak rokonságot, míg az emóciók gyakoriságában és eloszlásában azonban a szovjet propaganda-irodalom különböző doménjeihez hasonlítanak, a pozitív emóciók, mint az öröm és szeretet, Lenin és Sztálin a mesékben történő megjelenése után kerül túlsúlyba. Hivatkozások 1. Szovjet népmesék Leninről és Sztálinról. Ifjúsági Könyvkiadó, Budapest (1953) 2. Шуб, Т.А. (ed.): Ленин и Сталин в твочестве народов СССР. Советский писатель, Москва (1938) 3. Ortutay, Gy Rab, Zs. (eds.): A repülő hajó. Ifjúsági Könyvkiadó, Budapest (1955) 4. Kóka, R.: Mátyás király rózsát nyíló ostornyele. Timp Kiadó, Budapest (1990) 5. Kríza, I.: Mesék és mondák Mátyás királyról. Helikon Kiadó, Budapest (2004) 6. Gyárfás, M. Magyar írók Rákosi Mátyásról. Szépirodalmi Könyvkiadó, Budapest (1952) 7. Gorkij, M.: Az Artamanovok. Európa Könyvkiadó, Budapest (1985) 8. Gorkij, M.: Az igazi kultúra. Szikra Könyvkiadó, Budapest (1950) 9. Gorkij, M.: Gyermekéveim. Atheneum Nyomda, Budapest (1920) 10. Gorkij, M.: Három elbeszélés. Singer és Wolfner Kiadása, Budapest (én) 11. Gorkij, M.: Inasévek, az én egyetemeim. Európa Könyvkiadó, Budapest (1973) 12. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A toolkit for morphological and dependency parsing of Hungarian. In: Proceedings of RANLP. (2013) 763_ Vincze, V. : Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában. In: XI.Magyar Számítógépes Nyelvészeti Konferencia, pp (2013) 14. Drávucz, F., Szabó M.K., Vincze V: Szentiment- és emóciószótárak eredményességének mérése emóció- és szentimentkorpuszokon. XIII.Magyar Számítógépes Nyelvészeti Konferencia, pp (2016)
349 Szeged, január Szabó M.K., Vincze V., Morvay G.: Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. In: Távlatok a mai magyar alkalmazott nyelvészetben. Budapest: Tinta (2016)
350 340 XIV. Magyar Számítógépes Nyelvészeti Konferencia Mozgást jelentő igék argumentumszerkezetének korpuszalapú vizsgálata Lázár Bernadett 1, Szabó Martina Katalin 1,2,3, Vincze Veronika 4,5 1 Precognox Informatikai Kft. 2 Szegedi Tudományegyetem, Szláv Intézet, Orosz Filológiai Tanszék 3 MTA TK Lendület RECENS Kutatócsoport 4 MTA-SZTE Mesterséges Intelligencia Kutatócsoport 5 Szegedi Tudományegyetem, Általános Nyelvészeti Tanszék Kivonat: Dolgozatunkban az átjön/bejön, valamint az átmegy/bemegy igekötős igepárok argumentumszerkezeteit vizsgáljuk a Szeged és a Dívány korpusz adatai alapján. A kutatás célja az, hogy számítógépes eszközökkel, korpuszadatok alapján feltárjuk a kiválasztott igék argumentumszerkezeteinek kvantitatív és kvalitatív sajátságait, majd vizsgálataink eredményeit összevessük különböző szótárak szócikkeivel és a szakirodalom vonatkozó megállapításaival. A vizsgálattal tehát egyrészt az igei sajátságok megismerésére törekszünk, másrészt szeretnénk megtudni, hogy a szótárak, valamint a szakirodalmi adatok a valós nyelvhasználatot tükrözik-e. Mindezzel összefüggésben a dolgozat fontos célja az is, hogy a lexikológiai kutatásokhoz adalékul szolgáljon. A munka során azt is meg szeretnénk vizsgálni, hogy mutatkozik-e eltérés a két, szöveganyagukat tekintve jelentősen különböző korpusz adataiban. 1 Bevezetés Dolgozatunkban az átjön/bejön, valamint az átmegy/bemegy igekötős igepárok argumentumszerkezeteit vizsgáljuk a Szeged Korpusz [16] és a Dívány korpusz [10] adatai alapján. A dolgozatot a következőképpen építettük fel: A vizsgálat első lépéseként két szerző vonatkozó eredményeit [13, 14, 5] tekintjük át, majd azokat összevetjük a magyar értelmező szótárak adataival. Az elméleti áttekintés után számítógépes nyelvészeti eszközökkel, korpuszadatok alapján vizsgáljuk meg az igéket. Ehhez először röviden bemutatjuk a felhasznált korpuszokat, majd a lekérdezéssel kapott eredmények alapvető statisztikai adatait. Azt is megvizsgáljuk, hogy mutatkozik-e valamiféle eltérés a két, szöveganyagukat tekintve jelentősen különböző korpusz adataiban. Végül a kapott eredményeket összevetjük a szótárak adataival és az elméleti irodalom tárgyalt megállapításaival.
351 Szeged, január Szakirodalmi áttekintés Az igekötős igék vizsgálatával számos tanulmány foglalkozik, az elméleti és az alkalmazott nyelvészet oldalán egyaránt. Az egyik elméleti nyelvészeti megközelítési mód az emberközpontúság fogalma felől magyarázza az igekötős igéket. Ez azt jelenti, hogy tárgyakat, élettelen dolgokat (az elmélet terminológiája szerint az ún. nem viselkedőket) viselkedőkre jellemző tulajdonságokkal ruházunk fel (vö. [5]). E megközelítés alapján a világfelfogásunkat alapvetően a mozgás határozza meg, amit a nyelvhasználat is tükröz. Radden [7] szerint egy entitást úgy érzékelünk, mint amely mozgásban van akkor, amikor lokalitása érzékelhető, látható változáson megy keresztül. A mozgásnak van egy kezdőpontja és egy végpontja, ahová a kezdőponttól egy úton keresztül jutunk el, így adott az irányultság is (vö. [7]). A fenti elmélettel összhangban van Lakoff és Johnson [6] mozgásértelmezése, amelyben a következő elemekkel operálnak a szerzők: forrás, ösvény, cél és irányultság. Úgy vélik, hogy bármikor elmozdulunk valamerre, van egy hely, ahová érkezünk, egy összefüggő pontok sorozata, mely összeköti a kezdeti pontot a végponttal, valamint létezik irányultság [6]. Szilágyi N. Sándor [11] ugyancsak hasonló megállapításokat tesz a magyar nyelv vonatkozásában. Véleménye szerint a magyarban az igekötőnek talán a legfontosabb szemantikai szerepe éppen az, hogy megjelenítse, explicitté tegye a nyelvi világ térstruktúrájában való elmozdulásokat. Alkalmasint ezzel függ össze az is, hogy az igéket befejezett aspektusúvá teszi [11]. A térbeli elmozdulás alapján az igekötők abban is különböznek egymástól, hogy a KEZDET ÚT VÉG sémából mit ragadnak meg. A be- és a ki- igekötők például a kezdetre vagy a végpontra vonatkoznak, a fel- és a le- igekötők az irányultságra, az átigekötő utalhat a kezdetre és a végre (1a) vagy az út egy kiemelt helyére, ami által a mozgásban levő valamilyen relációba kerül (1b). (1) a. Átment Európából Amerikába. b. Átszökött a kerítésen. A továbbiakban azokat a megállapításokat tekintjük röviden át, amelyek konkrétan az általunk vizsgált igekötős igékre vonatkoznak. A vizsgálat során elsősorban Szili Katalin [13, 14], valamint Imre Attila [5] dolgozataira támaszkodtunk, majd a megállapításokat összevetettük az értelmező szótárak adataival. Szili Katalin [13, 14] azt vizsgálta, hogy milyen jelentésmódosulásokon keresztül válik az irányjelentéssel bíró be- igekötő (pl. bemegy, bejön, befut) tiszta perfektiváló elemmé (pl. bevall, bebizonyít). Elemzésében egyszerre használ szintaktikai és szemantikai vizsgálati szempontokat, és a különböző fogalmi típusokra tartályokként utal. Vizsgálatai kiindulópontját olyan tárgyatlan és tárgyas igékkel álló szintagmák képezik, amelyekben az igekötő klasszikus irányjelentésben szerepel. Ezeknek az igekötős igéknek a sajátossága, hogy az ige környezetében megjelennek a be vonzatának tekintett hova? kérdésre válaszoló -ba/-be ragos helyhatározók, hozzájárulva az igekötő irányjelentéséhez. Mellettük még olyan argumentumok is
352 342 XIV. Magyar Számítógépes Nyelvészeti Konferencia megjelenhetnek, mint például a -hoz,-hez,-höz határozóragos nyelvi elemek vagy a honnan? kérdésre felelő, ablatívuszi esetragos bővítmények. A be- igekötős igék kapcsán Szili [13, 14] az argumentumok minősége alapján, a belső tereknek négy nagy típusát különíti el: helyiség jellegűek (pl. ház, lakás, szoba), konténerszerű tárgyak (pl. doboz, táska, zseb), élő és élettelen testek (pl. ember, fa, kenyér), valamint csoportok, halmazok. Szili [13, 14] alapján az általunk vizsgált bemegy és bejön mozgásigék leginkább az első csoport elemeivel állnak. Tekintsük az alábbi példákat! (A példákban a vizsgált elemeket félkövér szedéssel emelem ki.) (1) a. bemegy a házba b. bejött a szobába Ezeket a szerző [13, 14] a helyiség jellegű helyekkel álló igék csoportjának nevezi és megállapítja, hogy környezetükben a már említett honnan? és hova? kérdésekre felelő határozók fordulnak elő. Az így létrejövő vonzatstruktúrában megmarad a beigekötő az eredeti irányjelentésében, és az alanyi argumentum bekerül valamilyen helyiségszerű térbe. A különböző nyelvekben ugyanaz a tér máshogy jelenhet meg. Az olyanokat, mint például a tér a magyarban sík, lapszerű területként fogjuk fel, míg a parkot, erdőt vagy az utcát, amelyben házak állnak, zárt belső területként. A HIVATAL, INTÉZMÉNY, KÖZPONT típust a szerző átmeneti csoportként definiálja. Átmeneti, hiszen képzeletünkben a hivatalok, intézmények és maguk az azoknak helyet adó épületek (a konkrét zárt helyek) összemosódnak. Ezeket vagy konkrét intézményként fogjuk fel, vagy csak az azoknak helyet adó épületekként gondolunk rájuk, például (2) Bejön ma a főnök? A Magyar nyelv értelmező szótára [1] ezt a példát a következőképpen magyarázza: a beszélő megérkezik hivatalába, belső helyiségben lévő munkahelyére, ahol a beszélő is tartózkodik. Szili [13, 14] megközelítése tehát egybevág az értelmező szótár definíciójával: mind a két megközelítés kulcsfontosságúként emeli ki azt a tényt, hogy BENT helyről beszélünk. Szintén zárt térként raktározzuk tudatunkban a minket körülvevő dolgokat, tulajdonainkat (vö. [13, 14]), például (3) Csinos kis összeg jött be a gyümölcsből. Ugyancsak zárt térként jelennek meg az emberek kisebb-nagyobb időleges csoportosulásai is, például (4) A legtöbb tag 6-8 holddal jött be a szövetkezetbe. Az átjön/átmegy igekötős igék vizsgálata során Imre Attila [5] eredményeire támaszkodtunk. Imre [5] alapján ahhoz, hogy ÁT helyzetről beszélhessünk, észlelési feltételekre van szükség. Észlelési feltételnek a következőket tekinti:
353 Szeged, január a) Adott a kezdet út vég séma és a mozgás; b) Feltételezünk egy azonos térben elhelyezkedő, ún. stabilt és egy ún. mobilt, amelyek egymáshoz viszonyított helye változik a mozgás során; c) A viszonyítás alapja a stabil, ehhez képest a mobil közeledik felé, kapcsolatba kerül vele, majd megszűnik a viszony. Fontos, hogy a mobil a stabil által az úton kijelölt helynek egyik oldaláról a másikra kerül. Imre [5] a következő stabil-típusokat különbözteti meg: anyagszerű stabilok, más jellegű stabilok (a rész-egész viszonyt kialakító), valamint az emberi test, mint stabil (lehet BENNE hely is, RAJTA hely is). Tekintsük Imre Attila az átmegy/átjön igekötős igékre vonatkozó megállapításait e rendszer alapján! Az igekötős igék hordozhatnak konkrét, valamint metaforikus értelmet, és ezt gyakran a stabil természete határozza meg. Például, ha a mobil a stabil határvonalai között van, és az egyik vonaltól eljut a másikig, akkor konkrét értelmű kifejezésről beszélünk: (5) Átment a szobán. A példában a mobil a stabil határai között mozog. A határátlépés egy speciális esetének tekinthetjük a színek közötti átmeneteket. Tekintsük az alábbi példát! (6) Átmegy vörösből rózsaszínbe. A példában jól érzékelhetően elkülönül a két végpont egymástól, azonban magát az átmenetet, tehát azt, hogy pontosan mi van a két végpont között, jóval kevésbé lehet meghatározni. Lehetséges olyan eset is, amikor a mobil a stabil egy úgynevezett virtuális határvonalán jut át úgy, hogy nem érintkeznek, például (7) Most megy át a város fölött. Dichotómiás szerkezetekben (pl. kicsi-nagy, egyik-másik stb.) két stabilról beszélünk, amelyekkel a mobil érintkezik, például (8) Átment a kicsi szobából a nagyba. Mint ahogy korábban említettük (l. fentebb), Imre [5] szerint a stabilok nem csak anyagszerűek, hanem viselkedők is lehetnek. Ez azt jelenti, hogy egyes stabilok emberi tulajdonsággal felruházottak is lehetnek. Ilyen viselkedő stabilt látunk a következő példában: (9) A bárányhimlő átment a testvéreire.
354 344 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 Az argumentumszerkezetek problémaköre a számítógépes nyelvészetben Az igei argumentumszerkezetek vizsgálata mind elméleti, mind számítógépes nyelvészeti szempontból fontos probléma. A nyelvtechnológia oldalán azért is különösen jelentős, mert az igekötős igék argumentumszerkezetének automatikus elemzése még nem teljes mértékben megoldott, bizonyos részproblémáira megoldás még nem született. (A jelen dolgozatnak nem célja, hogy ezekkel a problémákkal foglalkozzon, részletesebben l. [7]). Az alábbiakban csupán megemlítünk néhányat a magyar nyelvre vonatkozó nyelvtechnológiai kutatások és fejlesztések közül. A vonzatkeretek egy fontos vizsgálati eszköze a Magyar Nemzeti Szövegtárban lévő, online elérhető kutatóeszköz, melynek segítségével az igei vonzatkereteket, az igei bővítményszerkezeteket tudjuk kvantitatívan tanulmányozni (vö. [8]). A vonzatkeretek elsajátításának modellezését és az igei vonzatkeretek gépi tanulásának más nyelvekre jól működő megközelítéseit, statisztikai módszereit alkalmazva (vö. [2]), a gépi tanulási görbéket a gyereknyelvi adatokon számított tanulási görbékkel vetették össze. A kutatás fő irányvonala az argumentumstruktúrák elsajátításának számítógépes modellezése volt. A vonzatkeretek számának, a magyar igék hosszának és gyakoriságának összefüggését vizsgálták a Szeged Dependency Treebank (vö. [16]) rövid üzleti híreket tartalmazó alkorpuszának összegyűjtött adatai alapján (vö. [17]). Feltételezték, hogy a leggyakoribb igék rendelkeznek a legtöbb vonzatkeretekkel, a legrövidebb igék a leggyakoribbak és a legrövidebb igéknek vannak a legtöbb vonzatkeretei. A vizsgálatot kiterjesztették a teljeskörű vonzatkeretekre is, majd ezeket összehasonlították egy elméleti alapon épített vonzatkeret-lexikonban található vonzatkeretekkel. 4 A vizsgálati korpuszok bemutatása A lekérdezésekhez a Dívány [10] és a Szeged korpuszt [16] alkalmaztuk. A vizsgálatunkhoz olyan szöveganyagokat kerestünk, amelyek szignifikánsan eltérnek egymástól, és az egyiket referenciának tekinthetjük. Ebből a megfontolásból tehát a sokféle szövegtípust tartalmazó Szeged Korpuszt [16], valamint a téma- és műfajspecifikus, termékvélemény-szövegekből álló Dívány korpuszt [10] választottuk. A Dívány korpusz egy magyar nyelvű szentimentkorpusz, amelyet termékvélemény-szövegekből hoztunk létre kutatási és fejlesztési céllal [9]. A korpusz szöveganyagát a [ honlap termékvéleményeiből állítottuk össze. A korpusz fragmentum- és aspektusszintű annotációval rendelkezik [10]. Az adatbázis összesen 154 véleményszöveget, mondatot és tokent (központozással) tartalmaz. A Szeged Korpusz egy kézzel annotált, 1,2 millió szavas magyar nyelvi korpusz. A korpusz létrehozásának egyik fő szempontja volt, hogy az a lehető legkülönbözőbb műfajú és témájú szövegeket tartalmazza, így jött létre az a hat különböző témakörből
355 Szeged, január álló adatbázis, témakörönként körülbelül 200 ezer szó terjedelemben. A Szeged Korpusz szépirodalmi szövegeket, éves tanulók fogalmazásait, újságcikkeket, számítástechnikai témájú és szövegeket, valamint gazdasági és pénzügyi rövidhíreket tartalmaz. 5 A korpuszadatok elemzése A Dívány és a Szeged Korpuszból a jön/megy igéket, valamint azok igekötős változatait kérdeztük le. Az eredmények az egyes igealakokat, valamint az azokhoz tartozó argumentumokat tartalmazták, az MSD-kódrendszer szerinti jelölésekkel. Az adatok full valency [14] értelemben, azaz az összes bővítményükkel szerepelnek. A full valency azt jelenti, hogy a kötelező és szabad bővítményeket egyaránt az igei vonzatkeret részének tekintjük [3]. Az eredmények feldolgozásánál külön-külön elemeztük a jön/megy igék adatait igekötő nélkül, valamint az átjön bejön és átmegy bemegy igéket is. A lekérdezések eredményeit az alábbi diagram szemlélteti: 1.Ábra: Az igék gyakorisága a vizsgálati korpuszokban
356 346 XIV. Magyar Számítógépes Nyelvészeti Konferencia Ami a Dívány korpusz adatait illeti, az összesen szövegszóban 343 alkalommal fordult elő a jön és a megy ige. Kézzel megvizsgáltuk a kapott adatokat, és azt tapasztaltuk, hogy a igék leggyakrabban átvitt értelemben szerepelnek a korpuszban, például (10) Várom, hogy kiérezzek gyümölcsízeket, de nem megy. (11) A második vonalban jön az enyhe, értelmezhetetlen mellékíz. Amennyiben a bejön és az átjön igék előfordulásait a bemegy és az átmegy előfordulásaival vetjük össze, azt látjuk, hogy az előbbiek előfordulása jóval gyakoribb az utóbbi igepár előfordulásánál (megközelítőleg hatszor gyakrabban fordul elő). Ha az igekötők szerint vetjük össze az igepárok előfordulásait, érdekes eredményt kapunk: amíg a bejön jóval gyakoribb a bemegy igénél, addig az átesetében éppen az ellenkezőjét figyelhetjük meg, tehát az átmegy lesz a gyakoribb a bemegy igénél. A lekérdezés egy meglepő tapasztalata az volt, hogy az MNSZ2 adatai gyakorinak várt bemegy ige mindössze 1 adattal szerepelt a korpuszban. Nem meglepő módon azonban az átjön ige, amely az MNSZ2 korpuszban szintén csekély számmal fordult elő, a Dívány korpuszban is mindössze 1 adattal szerepelt: (12) Olyan mintha tök náthás lennék, és esélytelen, hogy ízhez jussak, aztán végül mégis átjön valami. (13) Ha bemegyek a boltba, biztos nem ezt vásárolom meg. A Szeged Korpusz 1,2 millió szavas adatbázisa a jön és a megy igéket összesen 1599 alkalommal tartalmazta. Ha a két korpusz lekérdezési eredményeit összevetjük egymással, azt látjuk, hogy a vizsgált igék találati száma összességében arányos a korpuszok méretével. A Szeged Korpuszban a vizsgált igekötős igék egymáshoz képesti gyakorisági adatai nem egyeznek a Dívány adataival. A Szeged Korpuszban ugyanis az átmegy és bemegy igék fordulnak elő nagyobb gyakorisággal az átjön és a bejön igéknél. A két korpusz adatai közötti talán legszembeötlőbb eltérés az, hogy amíg a Dívány korpuszban a bejön ige a jön összes előfordulásának majdnem a 15%-át teszi ki, addig a Szeged Korpuszban ugyanez mindössze 4,64%. Ezt az eltérést véleményünk szerint akár a következő sajátság is okozhatja: mivel a Dívány korpuszt termékvélemények alkotják, a bejön igét átvitt értelemben, pozitív értékelés kifejezésére is gyakorta használhatják a szövegekben (pl. nekem nagyon bejön ez a telefon!). Feltevésünk igazolására megnéztük a Dívány korpuszban a bejön ige összes előfordulását, és azt tapasztaltuk, hogy a 30-ból 26 esetben használták az igét a hipotézisünknek megfelelően, tehát pozitív vélemény kifejezésére, például (14) Savanykás, ez nekem jobban bejön, mint az eddigiek (15) Kicsit édesebb, mint ami nekem bejön Fontos megemlíteni, hogy a szótárak szócikkeiben nem szerepel a bejön ige esetében ez a jelentés, ugyanakkor azt látjuk, hogy a tényleges nyelvhasználatban
357 Szeged, január gyakori. A szótárak tehát ebben az esetben nem korrelálnak a valós adatokkal, ami azok kiegészítését, revízióját sürgeti. Ezzel ellentéteset látunk akkor, ha a bemegy ige adatait vizsgáljuk. Ez ugyanis a Szeged Korpuszban a megy összes előfordulásának több mint a 10%-át teszi ki, míg a Díványban alig fordul elő. Az átjön mindkét korpuszban nagyon ritka, legfeljebb csupán 1%-át teszi ki az jön ige összes előfordulásának. Az átmegy ige ugyanakkor kétszer olyan gyakran fordul elő a Szeged Korpuszban a Dívány adataihoz képest. A továbbiakban azt vizsgáljuk, hogy a lekérdezett igék hány argumentummal fordulnak elő az egyes korpuszokban. Azt is megfigyeljük, hogy a jön és a megy igék argumentumszámán változtat-e, ha igekötővel állnak, és ha igen, hogyan módosítja azt. A Dívány korpuszban a jön ige esetében a leggyakoribb az első három pozíció kitöltése, amely az összes előfordulás 58%-át teszi ki. A jön ige legmagasabb argumentumszáma 8, amely csupán egyetlen esetben fordul elő, és az ige be- igekötős alakjának az adata: (16) Így pedig nagyobb az esély arra, hogy hat, de nekem hosszú távon sajnos nem jött be, de ez egyéni dolog. A 8 bővítményt tehát három kötőszó, egy szuperesszívuszi esetű főnév, egy határozói bővítmény, egy tagadószó, egy kérdőszó, valamint egy alanyi bővítmény adják. A megy ige leggyakrabban 3 argumentummal fordul elő (44%). Az ige legmagasabb argumentumszáma 7, amely a jön ige esetéhez hasonlóan mindössze egyetlen egyszer fordul elő, és a rá- igekötős ige adataként szerepel. A 7 bővítményt ebben az esetben egy kötőszó, három határozói bővítmény, egy adesszívuszi és egy szublatívuszi esetű főnév, és egy időhatározói bővítmény adják. Amennyiben az igekötős igék argumentumszámait vizsgáljuk, a következőket tapasztaljuk: A Dívány korpuszban a bejön ige legmagasabb argumentumszáma 6, azonban mind az 5, mind a 6 argumentum nagyon ritka, az összes előfordulásnak csupán a 10%-át tesz ki. Ugyancsak ritka a 3 és a 4 argumentummal való előfordulás. 26 esetben két argumentumú az ige, ami az összes eset (30) 86%-a. Ezt tekinthetjük tehát a leggyakoribb esetnek a Dívány korpusz alapján. Az átjön ige legmagasabb argumentumszáma 3, amelyek az első két kitöltöttségi helyen határozói, a harmadik helyen pedig alanyi bővítmények. Azt mondhatjuk tehát, hogy a jön ige esetében az igekötő megléte jelentősen redukálja az argumentumok mennyiségét. A bemegy ige esetében ugyanazt tapasztaltuk, mint az átjön igénél. Legmagasabb argumentumszáma 3, amelyek rendre illatívuszi esetű főnévi, valamint határozói szófajú bővítmények. Az átmegy ige legmagasabb argumentumszáma 5, ez azonban csupán 2 esetben fordul elő. A megy ige esetében ugyanakkor az 5 argumentum kimondottan gyakori. Ugyanezek a vizsgálatok a Szeged Korpuszon az alábbi eredményeket hozták: A jön és a megy igék legmagasabb argumentumszáma a 7 volt. Az alapigék esetében az argumentumszámok a Szeged Korpuszban nem mutatnak jelentős eltérést a Dívány korpuszban mért eredményeinkhez képest.
358 348 XIV. Magyar Számítógépes Nyelvészeti Konferencia A bejön ige legmagasabb argumentumszáma 6, amely egyetlen egyszer szerepel a korpuszban. A Szeged Korpusz bejön igéjének adatai az argumentumszámokat illetően hasonlóak a Díványéhoz, itt is a két argumentum a leggyakoribb, amely a 79%-át teszi ki az összes előfordulásnak. Az átjön ige legmagasabb argumentumszáma 3, amely ugyancsak egyszer szerepel a korpuszban. Ezek az eredmények szintén egyezést mutatnak a Dívány korpuszban kapott eredményeinkkel. Az átmegy és a bemegy igék esetében a legmagasabb argumentumszám 5. A bemegy igénél szintén a 2 argumentum a leggyakoribb, amely 89%-át teszi ki az összes előfordulásnak. Ha összevetjük a jön és megy igéket azok igekötős alakjaival, azt tapasztaljuk, hogy ezek argumentumai a bejön ige kivételével jelentősen leredukálódtak. Összevetve a két korpusz fentebbi adatait megállapítható, hogy mindkét korpuszban az igekötő megléte, illetve annak hiánya jelentősen változtatott az argumentumok számán. Mind a két korpuszban a jön és megy igék magasabb argumentumszámmal fordultak elő igekötős változataiknál, és az igekötős alakok átlagos legmagasabb argumentumszáma (a bejön ige kivételével) 3 volt. A kutatás eredményei azt mutatják, hogy a vizsgálati korpuszok szövegműfaji sajátságai jelentősen nem befolyásolták az argumentumok számát. A vizsgált igék argumentumszámai ugyanis a két korpuszban nem mutattak szignifikáns eltérést, 4 esetben teljesen meg is egyeztek az adatok. Azt is megnéztük, hogy az általunk választott igekötős igepárok mely vonzatokkal állnak a leggyakrabban. Azokat az igéket, amelyekre valamely korpuszban nagyon kevés az adat, itt nem elemezzük. A Dívány korpuszban a bejön ige esetében azt tapasztaltuk, hogy a 30 előfordulásból 18 esetben kapcsolódott az igéhez datívuszi esetű argumentum (17a), míg a Szeged Korpuszban az összes 29 előfordulásból csupán 11 alkalommal (17b). (17) a. Akinek ez bejön, azzal nagy gond van. b. Szlovákiának bejött az euró. Úgy véljük, ez a sajátság is összhangban áll korábbi megállapításunkkal, amely szerint a Dívány korpusz termékvélemény-szövegeiben a bejön igét átvitt értelemben, a tetszés kifejezésére használják a leggyakrabban. A Szeged Korpuszban az átmegy ige 11 alkalommal állt illatívuszi raggal, ami az összes előfordulás (60) 18,33%-át adja, például (18) Péter átment a szomszédba. Ugyancsak 11 alkalommal társult hozzá allatívuszi rag, ami összhangban van a szakirodalom és a szótárak megállapításaival, miszerint az ÁT-igekötő jelölhet RAJTA és BENNE helyet is, például (19) Anna átment Julcsihoz. A Szeged Korpuszban a bemegy ige 39 alkalommal állt illatívusszal, ami 39%-át teszi ki az összes előfordulásnak, például
359 Szeged, január (20) Ha senki nem ér rá, ki megy be a boltba? Elmondható tehát, hogy vizsgálati eredményeink ebben a vonatkozásban összhangban állnak a szakirodalmak és a szótárak definícióival. Egyedüli különbséget a bejön és ige pozitív értékelő funkcióban való használatát jelenti, amelyre sem a szakirodalmakban, sem a szótárak definícióiban nem találtunk példát. 6 Összegzés Dolgozatunkban az átjön/bejön, valamint az átmegy/bemegy igekötős igepárok argumentumszerkezeteit vizsgáltuk a Szeged [16] és a Dívány korpusz [10] adatai alapján. A vizsgálat első lépéseként a hazai elméleti nyelvészeti irodalom néhány fontosabb eredményét (vö. [13, 14, 5]) tekintettük át. Az elméleti áttekintés után lekérdeztük a vizsgált igekötős igéket a Dívány és a Szeged Korpuszból, és az adatok alapján feltártuk az igék nyelvhasználati sajátságait a valós szövegekben. Az elemzés keretében mind az előfordulási gyakoriságokat, mind a vonzatokra vonatkozó sajátságokat megvizsgáltuk, valamint összevetettük egymással a két korpusz adatait. Mindemellett a nyelvhasználati adatokat összevetettük a szakirodalmi eredményekkel is. A vizsgálatok alapján a következő legfontosabb megállapításokat tettük: A Dívány korpuszban a bejön jóval gyakrabban fordul elő annál, mint ahányszor a másik vizsgálati korpuszban szerepel, emellett jelentősen nagyobb a frekvenciája az összes többi igekötős igénél is. Úgy véltük, hogy ez a Dívány korpusz sajátságát mutatja. A bejön igét ugyanis a termékvélemény-szövegekben valószínűleg gyakran használják átvitt értelemben, tetszés kifejezésére. Az adatok kézi ellenőrzése igazolta a hipotézisünket, ugyanis feltárta, hogy az összes előfordulásból 26 valóban ebben az értelemben szerepelt. Ez az eredmény különösen fontos, hiszen sem a szakirodalom, sem a szótárak szócikkei nem említik az igének ezt a jelentését. A Szeged Korpusz kvantitatív adatai nem álltak összhangban a Dívány fentebbi adatival. A bejön és az átjön igékkel szemben ugyanis a bemegy és az átmegy igék előfordulása volt a gyakoribb. Az MNSZ2 [8] gyakorisági adatai alapján csekély számúnak várt átjön ugyanakkor mindkét korpuszban nagyon ritka, legfeljebb csupán 1%-át teszi ki a jön ige összes előfordulásának. Megvizsgáltuk az argumentumok számát is az igekötős és igekötő nélküli igék esetében. Azt tapasztaltuk, hogy a jön és a megy igék alapvetően több argumentumokkal állnak igekötő nélkül, az igekötők ugyanis mind a két korpuszban és rendre minden ige esetében leredukálták az argumentumok számát. A két korpusz eltérő szöveganyaga azonban vizsgálataink alapján nem befolyásolta az argumentumok számát az egyes igék esetében. A megy, bejön, átjön és átmegy igék esetében a legmagasabb argumentumszámok a két korpuszban megegyeztek. Azt is megnéztük, hogy az általunk választott igekötős igepárok mely vonzatokkal állnak a leggyakrabban. Azokat az igéket, amelyekre valamely korpuszban nagyon
360 350 XIV. Magyar Számítógépes Nyelvészeti Konferencia kevés az adat, nem elemeztük. A bejön ige kapcsán a datívuszi esetű argumentum volt szembetűnő, amely az összes előfordulás 60%-ában volt megtalálható, míg a Szeged Korpuszban ugyanez csupán 37%-ot tett ki. Gyakori volt azonban az illatívuszi és allatívuszi esetű argumentum is, amely az -át igekötő esetében alátámasztotta a szakirodalmak meghatározásait. A kutatás további tervezett lépései a következők: Egyrészt a jelen vizsgálatot szeretnénk más igepárokra, és lehetőség szerint más korpuszokra is kiterjeszteni. Másrészt, hogy hasonló, elméleti szempontú és korpuszalapú vizsgálatokat szeretnénk végezni az orosz nyelvre vonatkozóan is, majd a kapott eredményeket összevessük a magyar nyelvre vonatkozó eredményeinkkel. Köszönetnyilvánítás A jelen kutatást a Precognox Informatikai Kft., az Emberi Erőforrások Minisztériuma Új Nemzeti Kiválóság Programja, az MTA Társadalomtudományi Kutatóközpont Lendület RECENS Kutatócsoportja, az EFOP azonosítójú, EU társfinanszírozású projekt, valamint az European Research Council (ERC) támogatta az Európai Unió Horizon 2020 nevű, as számú kutatási és fejlesztési programja keretében. Vincze Veronika kutatásait az Emberi Eröforrások Minisztériuma ÚNKP-17-4 kódszámú Új Nemzeti Kiválóság Programja támogatta. Bibliográfia 1. A magyar nyelv értelmező szótára. I. Akadémiai Kiadó, Budapest. (1978) 2. Babarczy A., Serény A., Simon E.: Magyar igei vonzatkeretek gépi tanulása. In: Tanács A., Szauter D., Vincze V. (szerk.) VI. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Szeged. (2009) Čech, R., Pajas, P., & Mačutek, J.: Full valency. Verb valency without distinguishing complements and adjuncts. Journal of Quantitative Linguistics, 17(4), (2010) É.Kiss K.: Egy igekötőelmélet vázlata. Magyar Nyelv, 100. (2004) Imre A.: Az ÁT viszony jelentésszerkezete a magyar nyelvben. Egyetemi szakdolgozat. Kézirat. Kolozsvár. (1999) 6. Lakoff, G.,Johnson, M.: Metaphors We Live By. Chicago, London, The University of Chicago Press. (1980) 7. Lázár B., Szabó M.K.: Mozgást jelentő igék argumentumszerkezetének korpuszalapú vizsgálata, XII. Alkalmazott Nyelvészeti Doktoranduszkonferencia, (2018) absztrakt benyújtva 8. Oravecz Cs., Váradi T., Sass B.: The Hungarian Gigaword Corpus. In: Proceedings of LREC 2014, Radden, G.: Motion Metaphorized. The Case of Coming and Going, In: Studies in Linguistics III, A Supplement to the Hungarian Journal of English and American Studies, Ed.by Béla Korponay and Péter Pelyvás, Debrecen. (1994) 10. Sass B.: Vonzatkeretek a Magyar Nemzeti Szövegtárban. In: Alexin Z., Csendes D. (szerk.): IV. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2005). Szegedi Tudományegyetem, Szeged. (2005)
361 Szeged, január Szabó M.K., Vincze V.: Egy magyar nyelvű szentimentkorpusz létrehozásának tapasztalatai. In: Tanács A.,Varga V., Vincze V.: (szerk.) XI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2015). Szegedi Tudományegyetem, Szeged. (2015) Szabó M.K.,Vincze V.,Hangya V.: Aspektusszintű annotáció és szentimentet módosító elemek egy magyar nyelvű szentimentkorpuszban. In: Tanács A.,Varga V., Vincze V. szerk. XII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2016). Szegedi Tudományegyetem, Szeged. (2016) Szabó M.K., Vincze V., Simkó K., Varga V., Hangya V:. A Hungarian Sentiment Corpus Manually Annotated at Aspect Level. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). European Language Resources Association (ELRA), Portoroz, Szlovénia. (2016) Szilágyi N.S.: Hogyan teremtsünk világot?, Erdélyi Tankönyvtanács, Kolozsvár (1996) 15. Szili K.: A be igekötő jelentésváltozásai I. Magyar Nyelvőr 129. (2005) Szili K.: A be igekötő jelentésváltozásai II. Magyar Nyelvőr 129. (2005) Tolcsvai N.G.: Az igekötő + ige szerkezet szemantikája. Nyelvtudományi Közlemények 109. (2013) Vincze V., Szauter D., Almási A., Móra Gy., Alexin Z., Csirik J.: Hungarian Dependency Treebank. In: Proceedings of the Seventh Conference on International Language Resources and Evaluation. European Language Resources Association, Valletta, Málta (2010) Vincze V.: Valency Frames in a Hungarian Corpus. Journal of Quantitative Linguistics, 21:2. (2014) Forrás:
362 352 XIV. Magyar Számítógépes Nyelvészeti Konferencia A szöveg mint skálafüggetlen hálózat Makrai Márton és Sass Bálint MTA Nyelvtudományi Intézet {makrai.marton,sass.balint}@nytud.mta.hu Kivonat Cikkünkben a szöveget egy egyszerű konstrukció segítségével skálafüggetlen hálózatként ábrázoljuk, és megvizsgáljuk, hogy a hálózatelmélet sztenderd eszközei mit mondanak az ilyen módon reprezentált szövegről. Kulcsszavak: hálózatok, skálafüggetlen hálózatok, köztiség, Zipf, gyakoriság, szöveg 1. Bevezetés Azokat a hálózatokat, ahol a befokszámok Zipf-eloszlást követnek, skálafüggetlen hálózatoknak nevezzük [1] [2, 703. oldal]. Régóta tudjuk [3], hogy a szöveg szavainak gyakorisági eloszlása Zipf-eloszlású. Tanulmányunkban azt az élsúlyozott irányított gráfot vizsgáljuk, melynek csúcsai a szóalakok, a w 1, w 2 él súlya pedig a w 1 w 2 bigram gyakorisága. Az előbbiek miatt ez a gráf skálafüggetlen. Ebben a bevezető szakaszban egy játékpéldán szemléltetjük a konstrukciót, majd bemutatjuk a kapcsolódó irodalmat és a HITS linkelemzési algoritmust, amivel a leglátványosabb eredményeket kaptuk. A következő szakaszban mutatjuk be a kísérleti eredményeket Gráf bigramokból Az a feladat, hogy találjunk egy konstrukciót, melynek segítségével a szövegbeli szógyakoriság éppen a befokszám lesz egy alkalmasan megalkotott gráfban. Így skálafüggetlen hálózatot kapunk. Az ötlet nagyon egyszerű: a hálózat csomópontjai a korpusz szavai lesznek, menjünk végig a korpuszon és minden szó esetén rajzoljunk be egy (1 súlyú) nyilat a hálózatba, ami az adott szóból indul ki és őt közvetlenül követő szóhoz vezet. Ha egy szópár többedszerre fordul akkor rajzoljunk be még egy nyilat, vagy ami ezzel ekvivalens, a nyíl súlyához adjunk hozzá 1-et. Az 1. ábrán látható hálózatot kapjuk. Ez egy olyan gráf lesz, melyben a csomópontok szavak, és az A B él akkor létezik, ha van AB bigram a korpuszban, és az él súlya AB bigram gyakorisága. A fenti reprezentáció tehát skálafüggetlen hálózatot eredményez. Ez azért nagyon jó, mert a skálafüggetlen hálózatok elméletének az elmúlt évek során kidolgozott összes eszközét, módszerét, mérőszámát [4] alkalmazni tudjuk rá. Bízunk benne, hogy ezzel az eszköztárral valami újat tudunk mondani a szövegről, új módon tudjuk megragadni a szöveg bizonyos jellegzetességeit.
363 Szeged, január a 1 1 nagy 1 vagy nagyobbnal 3 nagyobb 1 nagynal 1. ábra: A nagyobb nagyobb a nagynál vagy a nagy nagyobb a nagyobbnál. példamondat ábrázolása. A dupla nyilat ábrázolhatjuk egy 2-es súllyal bíró szimpla nyíllal is Kapcsolódó irodalom A mienkhez leghasonlóbb kutatás alighanem a TextRank [5]. Mihalcea és Tarau az irányított, 2-széles ablakkal végzett kutatásaikról azt írják, hogy rosszabb eredményeket hoztak, mint a az irányítatlan eset. Azt a meglepő következtetést vonják le, hogy a szövegnek nincs természetes iránya. Ha nyelvi adatból készült skálafüggetlen gráfról beszélünk, nem kerülhető meg [6] sem, ők azonban szemantikus hálókat vizsgálnak, míg mi magából a korpuszból vonunk le első sorban szintaktikai tanulságokat. A mi konstrukciónk lényegesen eltér attól a bevett megközelítéstől, mely esetében akkor húzunk be egy (irányítatlan!) élt két szó között, ha egy közös trigramban megtalálhatók, más szóval, ha az egyik a másiktól (jobbra vagy balra) 1 vagy 2 szó távolságra van [7]. Ennél a modellnél a szöveg természetes balról jobbra rákövetkezése nincs reprezentálva, szemben a mi modellünkkel, ahol viszont lényegi elem. Emiatt a most bemutatott modell várhatóan kevésbé szemantikai, inkább szintaktikai jellemzőket tud majd megragadni. A kutatás feltáró alapkutatás jellegéből adódóan az eredmények esetleges majdani alkalmazása nem témája jelen cikknek. A következő alszakaszban bemutatandó HITS algoritmus, amivel a leglátványosabb eredményeket kaptuk. nagyjából egyidős a skálafüggetlen gráfok ma népszerű fogalmával. Az utóbbi évtizedekben természetesen számos kutatás vizsgált skálafüggetlen gráfokat a HITS segítségével [8] HITS A HITS (Hyperlinkindukált témakeresés, Hyperlink-Induced Topic Search vagy hubok és tekintélyek, hubs and authorities) egy linkelemzési algoritmus [9], körülbelül egyidős a PageRankkel [10], csak persze sokkal kevésbé elterjedt. Az az alapötlete, hogy a fontos internetes oldalak kétfélék. A hubok, mint az index.hu
364 354 XIV. Magyar Számítógépes Nyelvészeti Konferencia vagy a vajdasag.lap.hu, nagy linkgyűjteményként működnek: a rajtuk magukon megjelenő információnak nincs tekintélye, viszont más, hiteles oldalakra, a tekintélyekre irányítják a felhasználókat. A hubok és a tekintélyek definíciója kölcsönös: jó hub egy olyan oldal, amely sok tekintélyes oldalra mutat, nagy tekintélyük pedig azoknak az oldalaknak van ebben a modellben, melyekre számos jó hub mutat. A hub- és tekintélyérték számítása iteríatíve történik. Kezdetben a számokat tetszés szerint választjuk (például minden oldalnak ugyanazt), majd minden iterációban egy oldal mértékadósága a rá mutató oldalak hubértékének összege lesz, a hubérték pedig a lap által mutatott oldalak tekintélyének összege. Az iterációk között a hub- illetve tekintélyértékek négyzetösszegét normalizáljuk. Ezzel az algoritmussal kaptuk a leginkább szembeötlő eredményünket. 2. Eredmények Vizsgálatainkat 1 az MNSZ2 [11] véletlenül választott 1000 illetve mondatán végeztük. Az elemzéseinkhez a NetworkX python csomagot használtuk [12] Erős összefüggőség Az első nagyon egyszerű kérdés, hogy erősen összefüggő-e a gráf, azaz minden szóból elérhető-e irányított úton az összes többi szó. Lényegében erősen összefüggő lesz a gráf, esetleg a korpusz elején és végén lévő hapax szavakból álló farok fordulhat elő, ami megbontja az erős összefüggőséget (ld. az 1. ábrán a nagyobbnál szót) Kisvilág tulajdonság A kisvilág-szerkezet szemléltetésére idézzük Karinthy 1929-es Láncszemek című novelláját: Tessék egy akármilyen meghatározható egyént kijelölni a Föld másfél milliárd lakója közül, bármelyik pontján a Földnek [a társaság egyik tagja fogadást ajánlott], hogy legföljebb öt más egyénen keresztül, kik közül az egyik neki személyes ismerőse, kapcsolatot tud létesíteni az illetővel, csupa közvetlen ismeretség alapon A meglepően kis távolság, melyet úgy formalizálhatunk, hogy az L átlagos távolság csak logaritmikusan növekszik a csúcsok számában, nem a skálafüggetlen gráfok sajátja: Erdős Rényi-féle véletlen gráfoknál is fennáll [13], ha a élek beválasztását kontrolláló p elég nagy ahhoz, hogy az egész hálózat összekapcsolódjon. (Vegyük észre a definícióban, hogy önmagában egy gráf kisvilág tulajdonságáról nem beszélhetünk, csak egy olyan gráfsorozat esetében, ahol a csúcsszám 1
365 Szeged, január végtelenhez tart.) A kisvilág-szerkezet jellemzésében az alacsony C klaszterezési együtthatót is meg szokták követelni [14], de ennek az irányított gráfokra való általánosítása nem tűnik triviálisnak, ezért tanumányunkban a legrövidebb utak hosszából számított statisztikákra szorítkozunk. A mi 7 K-csúcsú, 13 K- élű gráfunkban az átlagos távolság L = Az aszimptotikus tulajdonságot a poszteren elemezzük, amit a projekt repójában talál meg az olvasó Skálafüggetlenség A skálafüggetlen gráfok definiáló tulajdonsága, hogy a fokszámok hatványeloszlást követnek [1]. Ezt nálunk Zipf törvénye miatt biztosítja az, hogy (az első és az utolsó szó kivételével) a be- és a kiélek súlyösszege egyaránt megegyezik a szónak a korpuszban való gyakoriságával. Az elméletileg garantált tulajdonságot statisztikailag is ellenőriztük. A fokszámeloszlást exponenciális eloszlással összehasonlítva 133-as likelyhood-ratiót és os szignifikanciaszintet kaptunk. A Zipf-együttható 2.20-nak adódott, ami összhangban van azzal, hogy az angolban 1.25 körülre teszik [15], a magyar pedig gazdagabb morfológiájú, így a Zipf-együttható is magasabbnak várható Távolságok Egy másik gráfmérték is hasznosnak tűnik az együtt-előfordulási gráf elemzésében, a csúcsok különcsége (eccentricity), vagyis az adott csúcsból az összes többi csúcsba vezető legrövidebb utak hosszának maximuma. Míg a többi vizsgálatot tízezer mondatos mintán végeztük, az ebben a pontban említetteket csak ezer mondatoson, mert az összes (rendezett) csúcspárra ki kell hozzá számolni a legrövidebb út hosszát, aminek nagy az időkomplexitása. A sugár (a legkisebb különcség) nálunk 9, az átmérő (a maximális különcség) 19. Szemléletesen középnek (center) hívják azokat a pontokat, amelyeknek a különcsége megegyezik a sugárral. Esetünkben egy ilyen csúcs van, a sok funkcióban használatos vessző (,) token Closeness centrality A közelségi központiság (closeness centrality) mértéke (mely az adott csomóponttól az összes többi csomópontba vezető legrövidebb utak hosszának átlagaként adódik) egy érdekes jelenséget mutat (2. ábra). A szavak egységes eloszlásban helyezkednek el. Az eloszlásból néhány olyan elem lóg ki, amely nem illeszkedik a magyar szövegbe : ilyen az egyenlőségjel és egy HTML entity (|), illetve két angol szó (a the és az of ), melyek előfordulnak a korpuszban. Ezeknek a tokeneknek tehát kisebb a közelségi központiság értékük annál, mint amit gyakoriságuk alapján várnánk. A kilógó elemek pontos karakterizálásához további vizsgálat szükséges.
366 356 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2.6. HITS A bigramgyakorliságokból épített gráfban egy szó hubértéke az őt követő szavak tekintélyének összege, egy szó tekintélyét pedig az őt megelőző szavak együttes hubértéke adja. A 3. ábrán első körben azt látjuk, hogy a gyakoribb (nagyobb fokszámú) szavaknak nagyobb a tekintélye ez nem meglepő. Érdekesebb, hogy a kötőszavak és az igék jól elkülönülnek: az egész szókincsre jellemző bal lent jobb fent átlótól inkább följebb vannak a kötőszavak, és ettől az átlótól inkább lejjebb vannak az igék. Azaz a kötőszavak tekintélye nagyobb annál, ami a gyakoriságuk alapján várható, az igéké pedig kisebb. (Tehát nem egyszerűen arról van szó, hogy a kötőszavak gyakorisága kiemelkedően magas, hiszen az azonos gyakoriságú igék és kötőszavak is jól elválnak egymástól.) Az eredményre a következő intuitív magyarázatot javasoljuk: a kötőszavak nagy tekintélye azt jelzi, hogy az őket megelőző tokenek együttes hubértéke nagy. Mivel a szavak hubértéke az őket követő szavak tekintélyének összege, az ördögi körből úgy léphetünk ki, ha a kötőszavak előtti tokenek után más tekintélyes szavak is megjelennek. A gráf tehát tükrözi azt, hogy a kötőszavak olyan helyen állnak, ahol a balkontextus alapján sok más szó is állhat. A tipikus példa ilyen balkontextusra a már a center kapcsán is említett vessző token. Az igék esetében épp ellenkező a helyzet: az igék előtt megjelenő szavak (igemódosítók és bővitményi frázisok utolsó szavai) jobban determinálják, hogy igének kell következnie, mint más szavak balkontextusa az adott szót. 3. Összefoglalás Az irányított skálafüggetlen hálózattá alakított szöveget érintő első vizsgálatainkban feltérképeztük, hogy az egyes hálózatelméleti eszközök mit mondanak erről a hálózatról, milyen értékek a jellemzőek. Legérdekesebb kezdeti eredményünk az, hogy úgy tűnik, hogy a HITS algoritmus képes egymástól elválasztani bizonyos szócsoportokat, és ezek a csoportok összefüggésben vannak a szófajokkal. Köszönetnyilvánítás Sass Bálint kutatásait az MTA Bolyai János Kutatási Ösztöndíja támogatta (ügyszám: BO/00064/17/1; időtartam: ). Hivatkozások 1. Barabási, A.L., Albert, R.: Emergence of scaling in random networks. science 286(5439) (1999) Kovács, L., Orosz, K., Pollner, P.: Magyar szóasszociációk hálózata. Magyar Tudomány 173(6) (2012) Zipf, G.K.: The Psycho-Biology of Language; an Introduction to Dynamic Philology. Houghton Mifflin, Boston (1935)
367 Szeged, január Barabási, A.L.: Scale-free networks: A decade and beyond. Science 325 (2009) Mihalcea, R., Tarau, P.: Textrank: Bringing order into text. In: Proceedings of the 2004 conference on empirical methods in natural language processing. (2004) 6. Steyvers, M., Tenenbaum, J.B.: The large-scale structure of semantic networks: Statistical analyses and a model of semantic growth. Cognitive science 29(1) (2005) i Cancho, R.F., Solé, R.V.: The small world of human language. Proceedings of The Royal Society of London. Series B, Biological Sciences 268 (2001) Zhang, J., Ackerman, M.S., Adamic, L.: Expertise networks in online communities: structure and algorithms. In: Proceedings of the 16th international conference on World Wide Web, ACM (2007) Kleinberg, J.M.: Authoritative sources in a hyperlinked environment. Journal of the ACM 46 (1999) Page, L., Brin, S., Motwani, R., Winograd, T.: The pagerank citation ranking: Bringing order to the web. Technical report, Stanford InfoLab (1999) 11. Oravecz, Cs., Váradi, T., Sass, B.: The Hungarian Gigaword Corpus. In: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC2014), Reykjavík (2014) 12. Hagberg, A.A., Schult, D.A., Swart, P.J.: Exploring network structure, dynamics, and function using NetworkX. In: Proceedings of the 7th Python in Science Conference (SciPy2008), Pasadena, CA USA (2008) Erdos, P., Rényi, A.: On the evolution of random graphs. Publ. Math. Inst. Hung. Acad. Sci 5(1) (1960) Watts, D.J., Strogatz, S.H.: Collective dynamics of small-world networks. nature 393(6684) (1998) Kornai, A.: Mathematical Linguistics. Advanced Information and Knowledge Processing. Springer (2008)
368 358 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2. ábra: A szavak eloszlása closeness centrality szerint.
369 Szeged, január ábra: A HITS algoritmus eredménye. A nagyobb piros ponttal jelölt kötőszavak balra fent (magasabb authority), a nagyobb zöld ponttal jelölt igék jobbra lent (alacsonyabb authority) helyezkednek el a fokszám (gyakoriság) vs authority grafikonon.
370 360 XIV. Magyar Számítógépes Nyelvészeti Konferencia Az érzelmi epizódok narratív konstrukciója és az érzelmi intelligencia érzelemszabályozás komponense közötti kapcsolat Pólya Tibor 1, Puskás Éva 2 1 Magyar Tudományos Akadémia, Természettudományi Kutatóközpont, Kognitív Idegtudományi és Pszichológiai Intézet, Pf.: Budapest, Magyarország {polya.tibor@ttk.mta.hu} 2 Károli Gáspár Református Egyetem, Pszichológiai Intézet, 1037 Budapest, Magyarország {puskase6@gmail.com} Tanulmányunkban az érzelmi intelligencia szövegelemzés alapú mérési eljárásnak kidolgozását célul kitűző kutatásunk első eredményeit mutatjuk be. Az érzelmi intelligencia az érzelmi vonatkozású információ feldolgozásában való jártasságot jelenti. Feltételezésünk az, hogy az érzelmi intelligencia szintje azonosítható az érzelmi epizódokról beszámoló történetek konstrukciójában. Feltételezésünket empirikus vizsgálatban ellenőriztük. Vizsgálati személyeinktől érzelmi epizódok elbeszélését kértük, történeteiket a Narratív Kategoriális Tartalomelemzővel elemeztük. Az érzelmi intelligencia mérésére az Érzelemszabályozás Szituációs Tesztet alkalmaztuk. Eredményeink azt mutatják, hogy a történetkonstrukció automatikus elemzése biztosítja a kritérium és konvergens validitás teljesülését az érzelmi intelligencia érzelemszabályozás komponensének mérése során. 1 Bevezetés A pszichológia területén az automatikus szövegelemzési eljárásokat elsősorban feltáró vizsgálatokban alkalmazzák. A feltáró vizsgálatok elsődleges célja, hogy kimutassák a kapcsolat meglétét egy pszichológiai konstruktum vagy jellemző és a szöveg automatikus eljárásokkal elemzett jellemzője vagy jellemzői között. A feltáró vizsgálatok jellemzően nem foglalkoznak azzal a kérdéssel, hogy a szöveg jellemzőinek elemzése alapján mérni lehet-e az adott pszichológiai konstruktumot vagy jellemzőt. A mérés negligálásának egyik oka nagy valószínűséggel az, hogy a pszichológiai szövegelemzést domináló paradigma, a pszichológiai tartalomelemzés rendszerint nem fordít elég figyelmet a vizsgált pszichológiai konstruktumok validitásának tisztázására. Azaz a pszichológiai tartalomelemzés módszere rendszerint nem alkalmaz olyan mérő eljárásokat például kérdőíveket, amelyek révén empirikusan igazolható lenne, hogy az elemzett szövegjellemzők valóban kapcsolatba hozhatók a feltételezett pszichológiai konstruktummal vagy jellemzővel. A mérés lehetőségének ki nem aknázása általános gond a pszichológiai tartalomelemzésben, de
371 Szeged, január azokban az esetekben, amikor szövegelemzés automatikus eljárásokkal történik még hangsúlyosabban jelentkezik ez a hiányosság. Ennek magyarázata az, hogy a pszichológiai tartalomelemzés területén az egyes szerzők által használt kódrendszerek még abban az esetben is mutatnak kisebb-nagyobb mértékű különbséget, amikor ugyanannak a pszichológiai konstruktumnak a vizsgálatát célozzák meg. Ezért minden egyes kódrendszert validitását külön-külön kellene elvégezni. A számítógépes szövegelemző eljárásokban ugyanakkor kevesebb a variáció. Amennyiben kidolgozásra kerül egy automatikus szövegelemzési eljárás, azt rendszerint változatlan formában használják, így ezen elemzési eljárások validálását is könnyebb lenne elvégezni, és ezzel jelentős lépést lehetne tenni a szövegelemzésre építő mérési eljárások kidolgozása felé a pszichológia területén. 2 Pszichológiai konstruktumok mérése szövegelemzés alapján A pszichológia területén ugyanakkor vannak olyan széles körben használt szövegelemzésre építő eljárások, amelyeket mérési, sőt sok esetben diagnosztikus céllal használnak. Ilyen például a Rorschach-próba [1] és a Tematikus Appercepciós Teszt [2]. Mindkét tesztben bizonytalan és határozatlan ingeranyagot kap a személy a Rorschach-próba esetében tintafoltokat, a Tematikus Appercepciós Teszt esetében fényképszerű jeleneteket, amelyekről szabad szöveget kell produkálnia a személynek. A Rorschach-próba esetében arra a kérdésre kell válaszolni a személynek, hogy mit lát a képeken, a Tematikus Appercepciós Teszt esetében pedig egy olyan történetet kell elmesélnie, amelybe beleilleszthető a képen látott jelenet. A szövegek kódolásához mindkét teszt esetében részletes útmutatók állnak rendelkezésre, és a kódolás eredménye alapján feltérképezhető a válaszadó személyiségének struktúrája. A pszichológia területén alkalmazott számítógépes szövegelemzési eljárások között azonban csak néhány olyan elemzési eljárás került kidolgozásra, amely fontosnak tartja a validálás lépését és ennek révén pszichológiai mérési eljárásként is használható. A legrészletesebben kidolgozott ilyen mérési eljárás a Gottschalk és Gleser által létrehozott Psychiatric Diagnosis and Content Analysis nevű kódrendszer [3]. Ez a pszichológiai tartalomelemző eljárás számos pszichológiai jellemző mentén jellemezni a személy pszichológiai állapotát, mint például a szorongás, az ellenségesség és a társas elidegenedés. A tartalomelemzési eljárást a szerzők előbb kézi kódolási eljárásként dolgozták ki majd az ezredforduló környékén automatizálták elemzési eljárásukat. A magyar nyelvre kifejlesztett automatikus elemzési eljárások közül a Narratív Kategoriális Tartalomelemző [4,5] az az eljárás, amelynek kidolgozása során kiemelt cél volt az, hogy felhasználható legyen pszichológiai állapotok mérésére. Ez az automatikus tartalomelemző eljárás a történetek kompozíciós kategóriái mentén elemzi a történeteket, és a történetet elbeszélő személy személyes vagy szociális identitás állapotának jellemzésére használható. Mindkét automatikus tartalomelemző eljárás kidolgozása során számos empirikus vizsgálatban ellenőrizték az elemzési eljárások validitását és ezzel megteremtették annak alapját, hogy mérési eljárásként is felhasználhatók legyenek [6,7]. Bár a
372 362 XIV. Magyar Számítógépes Nyelvészeti Konferencia Narratív Kategoriális Tartalomelemzővel végzett korábbi kutatások elsősorban az identitás állapot fogalmához kapcsolódnak, ez nem zárja ki annak lehetőségét, hogy más pszichológiai konstruktumok vizsgálatára is felhasználható legyen ez az elemzési eljárás. A 2017-es MSZNY konferencián bemutatott elemzés szerint a Narratív Kategoriális Tartalomelemző a döntés utáni helyzetben keletkező kognitív disszonancia állapotának kimutatására is alkalmazható [8]. Az itt bemutatásra kerülő vizsgálatban egy újabb pszichológiai konstruktumhoz, az érzelmi intelligencia fogalmához kapcsolódóan alkalmazzuk ezt az elemzési eljárást. 3 Érzelmi intelligencia és történetkonstrukció Az érzelmi intelligencia konstruktuma az érzelmi vonatkozású információ feldolgozásában való jártasságot jelenti. A pszichológiai kutatások kétféleképpen határozzák meg ezt a fogalmat. Az egyik elképzelés szerint az érzelmi intelligencia azon képességek együtteseként határozható meg, amelyek részt vesznek az érzelmi vonatkozású információ feldolgozásában [9]. Az érzelmi intelligenciát képességként meghatározó legjelentősebb megközelítés négy csoportba sorolja a képességeket. Ezek a képesség csoportok a következők: az érzelmek percepciója, integrációja, megértése és szabályozása. A négy képességcsoport mindegyike számos képességet foglal magába. Az érzelmek szabályozása például a következő képességeket öleli fel. Az a képesség, hogy nyitottak legyünk az érzésekre, kellemesekre és kellemetlenekre egyaránt. Az érzelmek monitorozásának és mérlegelésének képessége. Az a képesség, hogy létrehozzunk, fenntartsunk egy érzelmi állapotot, vagy éppen eltávolodjunk tőle, attól függően, hogy az állapotot mennyire ítéljük informatívnak vagy hasznosnak. Az a képesség, hogy kezeljük mások érzéseit, illetve a saját érzéseinket. A másik elképzelés szerint az érzelmi intelligencia személyiségjellemzőként határozható meg [10]. A két, egymással éles vitában álló megközelítés közötti eltérés abban is jól megragadható, hogy hogyan gondolkodnak az érzelmi intelligencia méréséről. Az érzelmi intelligenciát személyiségjellemzőként meghatározó kutatók szerint az érzelmi intelligenciát önbeszámolós kérdőívekkel tudjuk mérni [11]. A kérdőívek kitöltése során a személyeknek olyan kérdésekre kell válaszolniuk, amelyek megválaszolása révén felmérhetjük, hogy bizonyos tulajdonságok, viselkedések milyen mértékben jellemzőek rájuk. Az érzelmi intelligenciát képességként meghatározó kutatók szerint viszont nem használhatunk kérdőíveket az érzelmi intelligencia mérésére, ehelyett a klasszikus intelligencia mérésével megegyezően, úgy kell eljárnunk, hogy olyan feladatot adunk a személynek, amelynek a megoldása során felhasználja az érzelmi intelligencia fogalmába tartozó képességeit. Ebben az esetben a feladatot megoldásának színvonala alapján tudjuk megmérni a személy érzelmi intelligenciájának szintjét [12]. Számos kritériumnak kell megfelelnie annak a feladatnak, amely alkalmas arra, hogy a megoldás színvonalából következtetni tudjunk a személy érzelmi intelligenciájának szintjére [13]. A kritériumok közül kettőt emelek ki. Egyrészt biztosnak kell lennünk abban, hogy a feladat megoldásához igénybe kell venni az érzelmi intelligencia fogalmába sorolt képességeket. Másrészt a feladat
373 Szeged, január megoldásának színvonalát objektív kritériumok alapján kell tudni értékelni. Nem könnyű egyszerre megfelelni ennek a két kritériumnak. A képesség alapú érzelmi intelligencia mérésére legelterjedtebben használt Mayer Salovey Caruso Érzelmi Intelligencia Teszt [12] például két olyan feladattal méri az érzelmi intelligencia érzelemszabályozás komponensét, amelyben a kitöltőnek arról kell döntést hoznia, hogy egy érzelmeket kiváltó helyzetben mely cselekvést tekinti hatékonynak. Az újabban kidolgozott szituációs tesztek [14] ehhez nagyon hasonlóan érzelmileg és a személyek közötti kapcsolatokat tekintve is nehéz szituációk sorozatát írják és a kitöltőnek az a feladata, hogy négy lehetőségből válassza ki azt a reakciót, ami véleménye szerint a leghatékonyabb választ jelenti az adott helyzetben. Az egyik tétel például a következő helyzetet írja le: Mindig János foglalkozott egy bizonyos ügyféllel, de most egy nagyon összetett feladat kapcsán a főnök ezt a munkát egy kollegára bízta. János csodálkozik, hogy a főnöke azt hiszi, ő nem tudja kezelni ezt a fontos munkát. Mi lenne János részéről a leghatékonyabb reakció? (a) Hinni abban, hogy jól teljesít és, hogy a következő ilyen komplex munkát ő kapja. (b) Jól dolgozni, hogy a jövőben ő kapja ezeket a komplex feladatokat. (c) Megkérdezni a főnökét, hogy miért a kollégának adta ezt a munkát. (d) Nem aggódni emiatt. A történetkonstrukció és érzelmi intelligencia fogalma közötti szoros kapcsolat feltételezése elméleti megfontolásokon alapul. Egyrészt mivel a történetek rendszerint egy probléma keletkezését és a probléma megoldására tett kísérleteket foglalják magukba, könnyen belátható, hogy a történetek tartalmának jelentős részét érzelmek adják, hiszen a probléma keletkezése, azok megoldása vagy éppen a megoldás meghiúsulása érzelmeket indukál a történet szereplőiben [15,16,17]. A történetek tartalmát adó érzelmekben való eligazodás azt is feltételezi, hogy a történet elbeszélője a társas világra vonatkozó gazdag tudással rendelkezzen [18]. Másrészt a történetek elbeszélőjének valamilyen érzelmi viszonyban kell lennie a történetbe foglalt érzelmi élményekkel kapcsolatban [19,20]. E nélkül az érzelmi viszony nélkül a történetek meglehetősen unalmasak lennének. 3.1 Hipotézis Általános hipotézisünk az, hogy szoros kapcsolatot találunk a történetkonstrukció és az elbeszélő személy képességként meghatározott érzelmi intelligencia szintje között. Ezen belül az itt bemutatásra kerülő vizsgálatban ennek a hipotézisnek azt a részét teszteljük empirikusan, amely a történetkonstrukció és a képességként meghatározott érzelmi intelligencia érzelemszabályozás komponense között áll fenn. Vizsgálatunk kiterjed a kritérium validitás ellenőrzésére: azaz a képesség alapú érzelmi intelligencia érzelemszabályozás komponensét kérdőíves eljárással [13] mérjük, és ennek kapcsolatát keressük a történetkonstrukció jellemzőivel. Emellett megvizsgáljuk azt is, hogy a történetkonstrukció elemzése esetén teljesül-e a konvergens validitás feltétele is. A konvergens validitás ellenőrzése során azt várjuk el, hogy a történet konstrukciója kapcsolatban legyen olyan pszichológiai konstruktumokkal, amelyekről tudjuk, hogy összefüggésben állnak a képességként meghatározott érzelmi intelligenciával. Két ilyen konstruktum szerepel vizsgálatunkban, a klasszikus intelligencia és a depresszió. Mindkét konstruktumról tudjuk, hogy kapcsolatban van a
374 364 XIV. Magyar Számítógépes Nyelvészeti Konferencia képességként meghatározott érzelmi intelligencia szintjével [21], és ez alapján azt várjuk, hogy kapcsolatban lesz a történet konstrukciójával is. Mindezek alapján elvárásunk az, hogy a történetkonstrukció a legszorosabb kapcsolatot az érzelmi intelligencia érzelemszabályozás komponensével fogja mutatni, és ennél a kapcsolatnál gyengébb összefüggéseket fogunk találni a klasszikus intelligencia és a depresszió szintjével. Emellett azt is várjuk, hogy a történetkonstrukció különböző összetevői kapcsolódnak az érzelmi intelligencia érzelemszabályozás komponenséhez egyfelől és a klasszikus intelligenciához illetve a depresszió szintjéhez másfelől. További elvárásunk az, hogy a történetkonstrukció és az érzelemszabályozás komponens közötti kapcsolatot nem befolyásolják olyan további tényezők, amelyekről azt gondoljuk, hogy függetlenek a képességként meghatározott érzelmi intelligenciától, így például a személyiség általános jellemzőitől és a verbális képesség szintjétől. 4 Vizsgálat 4.1 Vizsgálati személyek A vizsgálatban 52 személy vett részt. Két személyt kizártunk a vizsgálatból mivel nem töltötték ki a kérdőíveket. Így végül 50 fő került a vizsgálati mintába. Közülük 11 fe rfi e s 39 no volt. A legfiatalabb re sztvevo 18, a legido sebb 30 e ves volt. A vizsgálati személyek a tlage letkora pedig 24,5 e v volt (SD=3,3). 4.2 Kérdőívek A képesség alapú érzelmi intelligencia érzelemszabályozás komponensének mérése az Érzelemszabályozás Szituációs Tesztet [13,14] alkalmaztuk. A klasszikus intelligenciát a Raven Standard Progresszív Mátrixok teszttel [22], a depressziót a CES-D ke rdo ı vvel [23], a személyiség jellemzőit a Big Five kérdőívvel [24], és végül a verbális képességet az Általános Képesség Teszt [25] verbális próbájával mértük. 4.3 Szövegkorpusz A vizsgálati személyeket négy érzelmi epizód felidézésére és elmesélésére kértük. Az érzelmi epizódok a következők voltak: emlékezetes szilveszter, stresszes egyetemi vizsga, megismerkedésük egy jó barátjukkal, valamint a legutóbbi alkalom, amikor konfliktusba kerültek valakivel. A történetek elmesélése után került sor a tesztek illetve kérdőívek felvételére. Az elmesélt történeteket diktafonnal rögzítettük, majd lejegyeztük azokat. Az így kapott 200 történet teljes terjedelme szó volt. A történetek átlagos hossza pedig 148,3 szó volt (SD=69,9). A történetek elemzését a Narratív Kategoriális
375 Szeged, január Tartalomelemzővel [4,5] végeztük el, amely a következő kompozíciós kategóriák mentén elemzi a történeteket: szereplő (egyes szám vagy többes szám első személyű névmás vagy személyrag), cselekvés (aktív vagy passzív jelentésű igével kifejezve), pszichológiai perspektíva (mentális és érzelmi állapotra vonatkozó szavak és kifejezések), értékelés (értékelést kifejező szavak vagy kifejezések). Az érzelmi állapotok és értékelések esetén az elemzés elkülöníti a pozitív és negatív valenciát is. A legutolsó komponens a téridői perspektíva volt, amely három formát különböztet meg a megnyilatkozás deiktikus centruma és a megnyilatkozások tartalmát adó események téridői elhelyezése alapján. 4.4 Eredmények A Narratív Kategoriális Tartalomelemzővel kapott eredményeket relatív gyakorisági adatokká alakítottuk át. A szereplőkre, a cselekvésre, a pszichológiai perspektívára, az értékelésre és a tagadásra vonatkozó találatok számát a történet szószámban mért terjedelmével osztottuk el. A téridői perspektíva esetén, mivel az elemzési egység a tagmondat, a találatok számát a történet tagmondatban mért terjedelmével osztottuk el. A kompozíciós kategóriák relatív gyakoriságának átlagát és standard devianciáját az 1. Táblázat mutatja be. 1. Táblázat: A kompozíciós kategóriák relatív gyakoriságának átlaga és standard devianciája Kompozíciós kategóriák Átlag % Standard deviancia Szereplő E1,68,32 T1,15,19 Cselekvés Aktív ige,17,17 Passzív ige,14,16 Pszichológiai perspektíva,89,50 Gondolkodás,30,23 Érzelem,59,48 Érzelem negatív,31,05 Érzelem pozitív,28,12 Értékelés,49,25 Értékelés negatív,15,14 Értékelés pozitív,33,18 Tagadás 1,11,45 Téridői perspektíva Visszatekintő forma 23,5 13,3 Átélő forma 69,6 14,5 Metanarratív forma 6,9 5,7
376 366 XIV. Magyar Számítógépes Nyelvészeti Konferencia Hipotézisünk teszteléséhez első lépésben korrelációs elemzést végeztünk. Mivel a kompozíciós kategóriák relatív gyakorisága nem normális eloszlású volt, a Spearmanféle korrelációs eljárást alkalmaztuk. A kompozíciós kategóriák relatív gyakorisága és az érzelmi intelligencia érzelemszabályozás komponense, a klasszikus intelligencia és a depresszió szintje között talált korrelációs együtthatókat a 2. Táblázat foglalja össze. Mivel minden vizsgálati személytől 4-4 történetünk volt, az eredmények értelmezésekor Bonferroni-féle korrekciót hajtottunk végre és így csak a legfeljebb p = 0.01 szignifikancia szintű korrelációs együtthatókat vettük figyelembe. A korrelációs elemzés eredménye azt mutatja, hogy az érzelmi intelligencia érzelem szabályozás komponense a történet téridői perspektívájával van a legszorosabb kapcsolatban. A visszatekintő forma relatív gyakoriságával kapott korrelációs együttható értéke r=.29. Ugyanez a mutató az átélő forma esetében r=-.24, a metanarratív forma esetében pedig r=-.23. Az érzelmi intelligencia érzelemszabályozás komponense szoros kapcsolatban van a történet pszichológiai perspektívájával is. A pszichológia perspektíva relatív gyakoriságával kapott együttható értéke r=.28. Ezen belül a gondolkodás (r=.20) és a pozitív érzelmi kategóriák (r=.17) relatív gyakoriságával mutat összefüggést az érzelemszabályozás komponens szintje. 2. Táblázat A kompozíciós kategóriák és az érzelmi intelligencia (ÉI) érzelemszabályozás komponense, a klasszikus intelligencia és a depresszió szintje közötti korrelációs együtthatók (p <.01 szinten szignifikáns eredmények bolddal jelölve) Kompozíciós kategóriák ÉI: Érzelemszabályozás komponens Klasszikus intelligencia Depresszió Szereplő E T Cselekvés Aktív ige Passzív ige Pszichológiai perspektíva Gondolkodás Érzelem Érzelem negatív Érzelem pozitív Értékelés Értékelés negatív Értékelés pozitív Tagadás Téridői perspektíva Visszatekintő forma Átélő forma Metanarratív forma
377 Szeged, január A klasszikus intelligencia és a kompozíciós kategóriák közötti kapcsolatok részben átfedésben vannak az érzelmi intelligencia érzelemszabályozás komponensével kapott összefüggésekkel, de vannak olyan kapcsolatok, amelyek csak a klasszikus intelligencia szintjével jelentkeznek. A klasszikus intelligencia szintje is kapcsolatban van a pszichológiai perspektíva relatív gyakoriságával (r=.28) és a pozitív érzelmek (r=.20) relatív gyakoriságával is, de emellett az érzelem kategóriák (r=.19) előfordulásának gyakoriságával is. A téridői perspektíva esetében csak a visszatekintő forma relatív gyakoriságával kaptunk értelmezhető szintű korrelációs együtthatót (r=. 17). Mindezek mellett a klasszikus intelligencia szintje a történet két szereplő kategóriájával is kapcsolatban van. Az egyes szám első személyű szereplő kategória esetén a korrelációs együttható értéke r=.19, a többes szám első személyű szereplő kategória esetén pedig r=.21. Továbbá, a klasszikus intelligencia szintje kapcsolatban van az értékelés kategória előfordulásával is. Az értékelés kategória relatív gyakoriságával kapott korrelációs együttható értéke r=-.19, ezen belül a negatív értékelések relatív gyakoriságával kapott korrelációs együttható értéke r=-.17. A depresszió szintje szintén összefüggésben van a történet kompozíciós kategóriáinak előfordulásával. A kapott összefüggések itt is részben megegyeznek, részben pedig különböznek az érzelemi intelligencia érzelemszabályozás komponensével kapott összefüggésekkel. Megegyező kapcsolatok a téridői perspektíva átélő formájának relatív gyakoriságával kapott összefüggés (r=-.18) és a pszichológiai perspektíva gondolkodás komponensével kapott összefüggés (r=-.22). Utóbbi esetben azonban eltérő az összefüggés előjele. Különböző kapcsolatok pedig a cselekvés kategóriáján belül a passzív igék előfordulási gyakoriságával kapott összefüggés (r=.24) és a negatív értékelések előfordulási gyakoriságával kapott összefüggés (r=.20). A korrelációs elemzés során megnéztük azt is, hogy az érzelmi intelligencia érzelemszabályozási komponense és a kompozíciós kategóriák közötti összefüggésre hatással vannak-e a személyiségjellemzők és a verbális képesség szintje. A függetlenség vizsgálatához parciális korrelációs eljárást használtunk. A személyiségjellemzők illetve a verbális képesség kiparciálása nem volt hatással a téridői perspektíva kategóriájával kapott összefüggésekre, ugyanakkor a pszichológiai perspektíva kategóriájával korábban kapott összefüggések eltűntek. Az érzelemszabályozási komponens parciális korrelációs együtthatói a következőképpen alakultak. A visszatekintő perspektíva forma relatív gyakoriságával r=.21 (p=.001), az átélő forma relatív gyakoriságával r=-.14 (p=.030), és végül a metanarratív forma relatív gyakoriságával r=-.20 (p=.003). A pszichológiai perspektíva relatív gyakoriságával r=.04 (p <.10), a gondolkodás relatív gyakoriságával r=.10 (p=.086), és végül a pozitív érzelem relatív gyakoriságával r=-.02 (p <.10). A statisztikai elemzés második lépéseként regresszióanalízist végeztünk, hogy megállapítsuk, a történetek téridői perspektívája hogyan predikálja az érzelmi intelligencia érzelemszabályozás komponensének szintjét. A regresszióanalízisbe a téridői perspektíva három formájának relatív gyakoriságát foglaltuk bele prediktor változóként. A téridői perspektíva három formájának relatív gyakoriságát egy-egy vizsgálati személy 4 történetében átlagoltunk. A változók kezelésére stepwise beléptetési módszerrel alkalmaztunk. Az érzelmi intelligencia érzelemszabályozás komponensének szintje volt a regresszióanalízis függő változója. A regresszióanalízis
378 368 XIV. Magyar Számítógépes Nyelvészeti Konferencia eredménye szerint csak a visszatekintő perspektíva forma előfordulási gyakorisága predikálja szignifikánsan az érzelemszabályozás komponens szintjét (Adjusted R 2 =.104, F(1,49)=6.708, p=.013), a másik két perspektíva forma relatív gyakoriságának predikciós ereje nem volt szignifikáns. Minél több visszatekintő perspektíva fordul elő a történetben, annál magasabb az érzelemszabályozási komponens szintje (β=.35, t=2.59, p=.013). 4.5 Diszkusszió A vizsgálatunk eredményei megerősítik azt a hipotézisünket, hogy az érzelmi epizódokról beszámoló történetek konstrukciója összefüggésben van az érzelmi intelligencia érzelemszabályozás komponensével. A kritérium validitás szempontját megerősítően azt találtuk, hogy az érzelemszabályozás szintje a legerőteljesebben a történetek téridői perspektívájával van összefüggésben. Az érzelemszabályozás szintje pozitívan korrelál a visszatekintő perspektíva forma használatával, és negatívan korrelál az átélő és metanarratív formák használatával. Az eredmények a történetkonstrukció elemzésének konvergens validitását is megerősítik, hiszen azt találtuk, hogy a történetkonstrukció azokkal a konstruktumokkal is kapcsolatban van, amelyek kapcsolódnak a képességként meghatározott érzelmi intelligenciához. Két ilyen konstruktumot vizsgáltunk a klasszikus intelligenciát és a depresszió szintjét. Mindkét konstruktum esetében jellemzően gyengébb kapcsolatokat találtunk és azt is láttuk, hogy van eltérés abban, hogy a történetkonstrukció mely komponenseivel mutat összefüggést az érzelmi intelligencia érzelemszabályozás komponense egyfelől és a klasszikus intelligencia és a depresszió szintje másfelől. Végül azt is igazolják eredményeink, hogy a képességként meghatározott érzelmi intelligenciától független konstruktumok nem befolyásolják a téridői perspektíva és az érzelemszabályozás komponens között kapott összefüggéseket. Eredményeink összességükben azt mutatják, hogy sikerült azonosítani a történetkonstrukció azon részét, ami egyértelműen mutatja az érzelmi intelligencia érzelemszabályozási komponensének szintjét. A téridői perspektíva szerepére vonatkozó eredményeink összhangban vannak a korábbi vizsgálati eredményekkel [15,26,27,28], amelyek szintén azt mutatják, hogy az érzelmi élményekre való visszatekintés az érzelmi élmények hatékony szabályozását jelzi. Ezzel szemben az érzelmi élményekbe való bevonódás amelyet az átélő és a metanarratív perspektíva formák is kifejezhetnek az érzelemszabályozás kevésbé hatékony működését jelzik. Vizsgálatunkban empirikusan igazoltuk a történetkonstrukció automatikus nyelvi elemzésére építő módszer kritérium és konvergens validitását. ezekből az eredményekből az a következtetés vonható le, hogy a történetkonstrukció automatikus nyelvi elemzésének módszerét felhasználhatjuk pszichológiai konstruktumok mérésére. Egy megbízhatóan alkalmazható mérési eljárás kidolgozásához azonban még további vizsgálatok szükségesek. Egyrészt a korrelációs együtthatók értéke bár szignifikáns, de viszonylag gyenge kapcsolatot mutatnak. Ezért a téridői perspektíva részletesebb elemzésére van szükség ahhoz, hogy azonosítani tudjuk, hogy a téridői perspektíva használatának melyek azok a jellemzői, amelyek erősebbé tehetik ezt a kapcsolatot. Másrészt jelen vizsgálatunk a képességként meghatározott érzelmi
379 Szeged, január intelligencia egyetlen komponensét vizsgálta, a további vizsgálatoknak ki kell terjednie az itt nem vizsgált komponensekre is. A történetkonstrukció kompozíciós kategóriáinak automatikus elemzésére építő mérési eljárás kidolgozása számos olyan előnnyel rendelkezik, amely kedvezően befolyásolhatja egy ilyen mérési eljárás széleskörű felhasználását. Egyrészt a történetek elmésélésére építő mérési eljárásnak magas az ökológiai validitása. Ez azt jelenti, hogy a történetek révén olyan helyzetben mérhetjük a személyek érzelmi intelligenciáját, amilyen helyzetben azt a személyek elterjedten használják hétköznapjaikban is. Vagyis nem kell a személyeket egy, a természetestől sok szempontból különböző helyzetbe hozni ahhoz, hogy megmérhessük érzelmi intelligenciájuk szintjét. Másrészt a történetek automatikus elemzésére építő mérés objektív eredményeket ad és ráadásul gyorsan el is végezhető. Mindezek alapján azt gondoljuk, hogy az itt bemutatott kezdeti lépések után érdemes tovább folytatni az érzelmi intelligencia automatikus szövegelemzésre építő mérési eljárásának kidolgozását. Köszönetnyilvánítás A tanulmány elkészítését az NKFIH K számú kutatási projektje támogatta. Bibliográfia 1. Mérei F. A Rorscach-próba. Budapest, Medicina. (2002) 2. Murray, H. A. Tematikus Appercepciós Teszt, Budapest, OS Hungary. (1995) 3. Gottschalk, L. A. & Gleser, G. C. The measurement of psychological states throught the content analysis of verbal behavior. Berkeley, University of California Press. (1969) 4. Ehmann B., Csertő I., Ferenczhalmy R., Fülöp É., Hargitai R., Kővágó P., Pólya T., Szalai K., Vincze O., László J. Narratív kategoriális tartalomelemzés: a NARRCAT. In Tanács A., Varga V., & Vincze V. (Szerk.), X. Magyar Számítógépes Nyelvészeti Konferencia: MSZNY Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport (2014) 5. László J., Csertő I., Ferenczhalmy R., Fülöp É., Hargitai R., Péley B.,... Ehmann B. Narrative language as expression of individual and group identity: The Narrative Categorical Content Analysis. Sage Open. April-June, (2013) 6. László J. A történetek tudománya. Bevezetés a narratív pszichológiába. Budapest: Új Mandátum. (2005) 7. László J. Történelem történetek. Bevezetés a nartatív szociálpszichológiába. Budapest, Akadémiai Kiadó. (2012) 8. Pólya T. A kognitív disszonancia narratív markereinek azonosítása termékleírásokban. In: Vincze Veronika (szerk.) XIII. Magyar Számítógépes Nyelvészeti Konferencia Szeged: Szegedi Tudományegyetem Informatikai Tanszékcsoport. (2017) 9. Mayer, J. D. & Salovey, P. What is emotional intelligence? In Salovey, P. & Sluyter, D. (Eds). Emotional development and emotional intelligence. (pp ) New York: Basic Books. (1997)
380 370 XIV. Magyar Számítógépes Nyelvészeti Konferencia 10. Petrides, K. V. Ability and trait emotional intelligence. In Chamorro-Premuzic, T., Furnham, A., & von Stumm, S. (Eds.), The Blackwell-Wiley Handbook of Individual Differences. (pp ). New York: Wiley. (2011) 11. Petrides, K. V., & Furnham, A. Trait emotional intelligence: Psychometric investigation with reference to established trait taxonomies. European Journal of Personality, 15(6), (2001) 12. Mayer, J. D., Salovey, P., & Caruso, D. R. Emotional intelligence test. CD ROM version. Neddham, Virtual Knowledge. (1997) 13. Nagy H., Magyaródi T., & Séllei B. A képességalapú érzelmi intelligencia: új paradigmák a tesztfejlesztésben és pontozásban. Hazai tapasztalatok az érzelemmegértés és érzelemszabályozás szituációs tesztekkel. Magyar Pszichológiai Szemle, 70(4), (2015) 14. MacCann, C., & Roberts, R. D. New paradigms for assessing emotional intelligence: theory and data. Emotion, 8(4), 540. (2008) 15. Bodor P. Az érzelmek társas konstruktivista értelmezése és az érzelmek aktív versus passzív paradoxona. In Boros G. & Pólya T. (Szerk.). Szenvedély, szerelem, narrációk. Filozófiai és pszichológiai tanulmányok. (pp ). Budapest: Eötvös Kiadó. (2014) 16. Pérez, J. C., Petrides, K. V., & Furnham, A. Measuring trait emotional intelligence. Emotional intelligence: An international handbook, (2005) 17. Schank, R. C. Tell me a story. A new look at real and artificial memory. New York: Macmillan Publishing Company. (1990) 18. Schank, R. C. & Abelson, R. P. Knowledge and memory: The real story. In R. S. Wyer, Jr., (Ed.). Knowledge and memory: The real story. Advances in social cognition. Vol. 8. (pp ). Hillsdale: Lawrence Erlbaum Associates Publishers. (1995) 19. Labov, W. Language in the inner city. Oxford: Blackwell. (1972) 20. Labov, W., & Waletzky, J. Narrative analysis: Oral version of personal experience. In: Helm, June (ed.): Essays on the Verbal and Visual Arts. American Ethnological Society, Seattle, (1967) 21. Nagy H. A Salovey-Mayer-féle érzelmi intelligencia modell érvényességének elemzése. Magyar Pszichológiai Szemle, 67(1), (2012) 22. Raven, J. C. Raven's progressive matrices. Oxford: Oxford Psychologists Press. (1998) 23. Szeifert, L. (2010) Depresszió és életminőség krónikus veseelégtelenségben szenvedő betegek körében, Doktori értékezés, Semmelweis Egyetem 24. Rózsa, S, Kő, N, Oláh, A. Rekonstruálható-e a Big Five magyar mintán: A Carpara-féle Big Five Kérdőív (BFQ) felnőtt változatának hazai adaptációja és nemzetközi összehasonlító elemzése. Magyar Pszichológiai Szemle, 26(1), Rumelhart, D. E. (1988).Megjegyzések egy történetsémáról. In Kanyó Z. & Síklaki I. (Szerk.). Tanulmányok az irodalomtudomány köréből. ( ). Budapest: Tankönyvkiadó. (2006) 25. Smith, P., & Whetton, C. GAT: General Ability Tests manuale. Budapest, O.S. Hungary. (1996) 26. Berán E. A narratív perspektíva szabályozó szerepe a terápiás diskurzusban. Doktori Disszertáció. Eötvös Loránd Tudományegyetem Pedagógiai és Pszichológia Kar, Budapest. (2009) 27. Pólya T. Az érzelmi intelligencia narratív indikátorai. Psychologia Hungarica Caroliensis, 3(2), (2015) 28. Pólya T., Kis, B., Naszódi, M. & László, J. Narrative perspective and the emotion regulation of a narrating person. Empirical Text and Culture Research, 7(3), (2007)
381 Szeged, január A magabiztosság-krízis index alkalmazása angol nyelvű megnyilatkozásoknál és rossz minőségű felvételeknél Puskás László 1, Pólya Tibor 2 1 Pécsi Tudományegyetem Bölcsészettudományi Kara, Pszichológia Doktori Iskola laszlopuskas@gmail.com 2 Magyar Tudományos Akadémia, Természettudományi Kutatóközpont, Kognitív Idegtudományi és Pszichológiai Intézet 1117 Budapest, Magyar tudósok körútja 2. polya.tibor@ttk.mta.hu Kivonat: Tanulmányunkban korábbi kutatásaink eredményeit kívánjuk megvizsgálni angol nyelvű megnyilatkozásokon és rossz minőségű felvételeken ben került bemutatásra a Magyar Számítógépes Nyelvészeti Konferencián az az új narratív pszichológiai eljárás, amelyben összekapcsoltuk a narratív pszichológiai tartalomelemzést és a vokális mintázatok pszichológiai tartalomelemzését [8]. Ennek az eljárásnak a részeként mutattuk be a magabiztosság-krízis indexet, amely a megnyilatkozás nyelvi, tartalmi elemeit és az elhangzottak fonetikai struktúráját vizsgálva von le következtetéseket a közlő lelkiállapotára vonatkozóan. Azt a feltételezésünket igyekeztünk adatokkal is alátámasztva igazolni, hogy a krízishelyzet nyelvi-fonetikai mintázata jól körülhatárolható, és ezen jegyek alapján a közlő lelkiállapotára vonatkozóan pszichológiailag értékelhető megállapítások tehetők. Vizsgálatunk nyelvi anyagát akkor Shakespeare Lear királya első és utolsó monológjának magyar nyelvű változata alkotta ben a Magyar Számítógépes Nyelvészeti Konferencián mutattuk be a magabiztosság-krízis skála spontán megnyilatkozásokon történő alkalmazását [7], 2016-ban pedig olasz nyelven vizsgáltuk Lear megnyilatkozásait [11]. Eddigi kutatásainkhoz képest jelentős áttörést jelent, hogy kidolgoztunk egy becslési eljárást, amely lehetővé teszi, hogy rosszabb minőségű felvételeket is bevonjunk az elemzési körbe. Korábban csak stúdióminőségű felvételek elemzésére volt lehetőség, ami a kidolgozott eljárás alkalmazását nagyon szűk keretek között tette lehetővé, és ezzel az eljárás széleskörű alkalmazásának lehetőségét is jelentősen akadályozta. A kidolgozott becslési eljárással azonban most már szinte bármilyen jól érthető, de rossz minőségű hanganyag vizsgálat alá vonható. 1 Bevezetés Identitásunk és pszichológiailag érvényes valóságunk számos elemét a történetek révén alkotjuk meg. A történetek vallanak az elbeszélők megküzdési képességeiről és várható viselkedési adaptációjáról. A tudományos narratív pszichológia az elbeszélést komplex pszichológiai tartalmak hordozójának tekinti, melynek tanulmányozása révén eredményesen vizsgálható az emberi társas alkalmazkodás. Azt a szoros kapcsolatot
382 372 XIV. Magyar Számítógépes Nyelvészeti Konferencia hangsúlyozza, amely a pszichológiai folyamatok, az elbeszélés és az identitás között van [5]. A narratív pszichológia írott szövegek elemzésével foglalkozik, még azokban az esetekben is, amikor a kutatások hanganyagát rögzítették. A rögzített hanganyagok kizárólag azt a célt szolgálták, hogy lejegyezzék a szöveget. Mivel a fonetikai vizsgálat nem volt célja ezeknek a kutatásoknak, így az is elég volt, ha a hanganyag lejegyezhető minőségű, így ezeken a felvételeken korábban valószínűleg egyébként sem lehetett volna ilyen vizsgálatokat lefolytatni. A tudományos narratív pszichológia elemzési kereteinek bővítése fonetikai elemek vizsgálatával még nem tekint vissza hosszú múltra, de az eddig lefolytatott vizsgálatok eredményei megerősítik a keretek bővítésének szükségességét, és újabb távlatokat nyithatnak. [7, 8, 9, 10, 11] 2 A Lear monológok pszichológiai vizsgálatának előzményei Shekespeare Lear királya már számos irodalomtörténész és pszichológus képzeletét megmozgatta. Pennebaker és Ireland [6] a magabiztosság és a krízis jegyeit vizsgálták Lear első és utolsó monológjában, és megállapították, hogy mind a krízis, mind pedig a magabiztosság nyelvi jegyei jól körülhatárolhatók. Vizsgálatukban Lear mellett egy létező személy, Giuliani New York-i polgármester krízis előtti és utáni megnyilatkozásait is megvizsgálták, és azt tapasztalták, hogy közel négyszáz év távlatából is, a magabiztosság és a krízis jegyei beazonosíthatók, mind Lear, mind pedig Giuliani esetében. Jelenlegi és korábbi kutatásainkban Lear király első és utolsó monológjában mi is a magabiztosság és a krízis jegyeit vizsgáltuk a Pennebaker és Ireland [6], valamint a László János és munkatársai [4] által kidolgozott módszer segítségével, kiegészítve azt a krízis fonetikai jegyeinek vizsgálatával, a színész modellálta helyzetben. Létrehoztuk a magabiztosság-krízis indexet, amelynek összetevői a nyelvi tartalmi elemeket és a fonetikai jegyeket egyaránt tartalmazzák. [7, 8, 10, 11] Az első eredmények bemutatására 2011-ben került sor, a Magyar Számítógépes Nyelvészeti Konferencián [8]. Azóta több tanulmányunk is megjelent a témában [7, 10, 11]. Megtörtént az eljárás során alkalmazott index finomhangolása, spontán megnyilatkozások vizsgálata, valamint idegen nyelvű hanganyagokat vizsgálva bizonyítottuk, hogy a magabiztosság és a krízis mintázata nyelvfüggetlen. Ez a tanulmány a legújabb kutatási eredményeinkről számol be. Egyrészt megerősíti, hogy az eljárás nyelvtől függetlenül is lefolytatható, két angol nyelvű Lear-előadás vizsgálatával, másrészt bemutatunk egy becslési eljárást, amellyel rossz minőségű megnyilatkozások is vizsgálhatók. Ez jelentős áttörés lehet a vizsgálati anyagok felhasználhatósága szempontjából, hiszen az eddigi vizsgálatok stúdió minőségű hanganyagokat igényeltek, ezzel meglehetősen leszűkítve a vizsgálati lehetőségeket. Az index alkotóelemein is finomítottunk. A sokéves tapasztalatok és eredményeink alapján kijelenthető, hogy a magabiztosság-krízis index nyelvfüggetlenül alkalmazható, és eredményes eszköz arra, hogy a közlő lelki egyensúlyára vonatkozóan megállapításokat tehessünk.
383 Szeged, január A vizsgálat 3.1 A vizsgálati anyag Vizsgálatunk nyelvi anyagát egyrészt Lear király 1998-ban készült angol nyelvű televíziós adaptációjából választottuk ki, amelyben Lear király szerepét Ian Holm játszotta, Richard Eyre rendezésében [13]; másrészt Lear király 1983-ban készült, szintén angol nyelvű adaptációjából, amelynek főszerepét Laurence Olivier játssza, Michael Elliot rendezésében [12]. A korábbi vizsgálathoz hasonlóan Lear első és utolsó monológját elemeztük. A szöveg nyelvezetének eltéréseit is figyelembe véve, nem törekedtünk teljes megfelelésre sem az angol, sem pedig a más nyelven elemzett változatok között. Mivel teljesen azonos krízist mutat be valamennyi változat, feltételeztük ahogy a magabiztosság-krízis indexszel lefolytatott vizsgálat eredményeinél is, hogy a krízisjegyek a teljes szövegbeli egyezéstől függetlenül megjelennek. Természetesen nem azt vártuk, hogy az index értékei azonosak lesznek a korábbi vizsgálatban kapott értékekkel, hanem ahogy az olasz és a magyar nyelvű változat összehasonlításánál is azt, hogy az értékek a skála megfelelő pólusán helyezkednek majd el. A Ian Holm-féle változat hanganyaga csak nagyon rossz minőségben állt rendelkezésünkre. Komoly fejtörést okozott, hogy mihez tudunk kezdeni a vizsgálati anyaggal, hiszen korábban gyakorlatilag stúdió minőségű felvételekkel dolgoztunk, és még az esetlegesen meglévő zajok, hanghibák szűrésének lehetőségére is felkészültünk módszertanilag. Amikor a kérdés felmerült, nemcsak azzal kellett szembenéznünk, hogy a meglévő hanganyagot meg tudjuk-e vizsgálni, hanem azzal is, hogy a hasonlóan rossz minőségű felvételeket be tudjuk-e vonni a vizsgálati körbe, valamint azzal, hogy a jó és a rossz minőségű felvételekből kapott eredményeket össze tudjuk hasonlítani. Azzal, hogy korábban stúdió minőségű hanganyagokat használtunk fel gyakorlatilag nemcsak jól elemezhető vizsgálati anyagokkal dolgoztunk, hanem az amúgy is gyéren hozzáférhető felvételek számát egyben minimálisra is csökkentettük. Ennek legfőbb oka az volt, hogy a fonetikai paraméterek vizsgálatához jó minőségű felvételekre van szükség, melyek hiányában nem végezhetők el a vizsgálatok. A kérdés tehát az volt, hogy gyenge minőségű felvételeken le tudjuk-e folytatni a korábbi vizsgálatainkat, és ha igen, akkor ezt milyen módszerrel tudjuk kivitelezni. A Laurence Olivier-féle hanganyag kiváló minőségben állt rendelkezésre, viszont ennél is felmerült egy kérdés, amely tisztázásra szorult. A második monológban halk aláfestő zene szól, ami a felvétel érthetősége, kezelhetősége szempontjából nem jelent gondot, viszont a korábban használt módszertanunk alapján, nem használhattuk volna fel a hanganyagot.
384 374 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3.2 Módszer A fonetikai paraméterek vizsgálata Az érzelmi állapotok fonetikai paraméterekre gyakorolt hatásának tanulmányozásakor a témában korábban lefolytatott vizsgálatainkat használtuk fel [7, 8, 10, 11], azzal a különbséggel, hogy a magabiztosság-krízis indexnél felhasznált fonetikai elemeket pontosítottuk. A magabiztosság-krízis index részletes leírását a következő fejezetben ismertetjük. A monológok vizsgálatához a Praat [1] fonetikai programot használtuk fel, amelyet az Amszterdami Egyetemen fejlesztettek ki A magabiztosság-dominancia és a krízishelyzet skálázása, a magabiztosság-krízis index A krízis, Caplan meghatározása szerint, olyan lelkiállapot, amely külső események hatására alakul ki, amikor az egyének olyan problémákkal találják magukat szemben, amelyek mindennél fontosabbá válnak számukra, és amelyeket sem elkerülni, sem pedig a szokásos eszközökkel megoldani nem tudnak [2]. A krízis meghatározásából következik, hogy egy olyan összetett jelenségcsoportot határoz meg, amely mind intenzitásában, mind pedig sokszínűségében nagy változékonyságot mutat. A krízishelyzet vizsgálatánál, annak időbeli elhúzódását is figyelembe kell vennünk, illetve a feldolgozás időtartamát. A krízishelyzet és hatásainak feldolgozása, illetve azok kezelhetővé válása, jelentősen csökkentheti a krízishelyzetre utaló jeleket a közlő elbeszélésében, amiből legfeljebb a krízis feldolgozottságának mértékére következtethetünk [7]. Az új vizsgálatok lefolytatásánál változtattunk a fonetikai vizsgálatok paraméterein, és a finomhangolt indexszel újraszámoltuk a korábbi kutatásainkban kapott értékeket is. Az index finomhangolásának lehetőségével már korábbi tanulmányunkban is foglalkoztunk [11]. Az indexet most ezeknek a lehetőségeknek a tükrében módosítottuk. A rövid beszédszakaszok hosszát korábban kettő másodpercben határoztuk meg, amelyet most 1,6 másodpercre csökkentettünk. Korábbi tanulmányunkban még lehetőségként számoltunk ezzel [11]. Vizsgálataink során folyamatosan tanulmányoztuk, hogy a magabiztosság-krízis index összetevői hogyan viselkednek, illetve a paraméterek határértékeinek módosításának szükségességét. Elsősorban a magabiztos és a krízissel terhelt lelkiállapot közötti markáns eltérésekre érdekeltek. Az olasz Lear király elemzését bemutató 2016-os cikkünkben foglalkoztunk először a rövid beszédszakaszok határértékének megváltoztatásával, valamint a hangerő-intervallum paraméter elhagyásával [11]. Tanulmányunkban nemcsak felvetettük a rövid beszédszakaszok hosszának 2-ről 1,6 másodpercre csökkentését, de az 1,6 másodperces határértékekkel is kiszámoltuk az index értékét, és a kapott eredmények alapján felmerült, hogy a későbbiekben ismét megvizsgáljuk a csökkentés lehetőségét. Az 1,6 másodperces értékre azért esett a választás, mert a rendelkezésre álló eredmények alapján a vizsgált lelkiállapotok közötti különbség ezzel a határértékkel markánsabbá tehető. Amikor először megvizsgáltuk a csökkentés lehetőségét, azt tapasztaltuk, hogy az 1,5, illetve az 1,4 másodperces határérték is, minimálisan ugyan, de már csökkentené a magabiztosságnál és a krízisnél mért index eredménye közötti
385 Szeged, január különbséget az 1,6 másodperchez képest. Ez a határérték ugyanakkor a jelenlegi kutatásunknál is bevált. Minimális csökkenés az index két értéke között csak a magyar Lear királynál mutatkozott, mivel az első monológ indexének értéke nem változott, míg a második monológé elhanyagolható mértékben csökkent, de ez az eredmény használhatóságát nem befolyásolta. Az esetszámok növekedésével továbbra is meg kívánjuk figyelni a kapott eredményeket, és az adatokat folyamatosan elemezzük. A másik változtatás az volt, hogy az index összetevői közül a hangerőintervallumot elhagytuk. Az index kiszámításához öt arányszámot használtunk fel, amelyhez a korábbi vizsgálataink szolgáltak alapul [7, 8, 10, 11], és ezek értékét egymással összeadtuk: 1. Rövid beszédszakaszok: az 1,6 másodpercet meg nem haladó beszédszakaszok száma osztva a vizsgált szöveg szószámával. 2. Magas hangerő: a hangerőcsúcsokat tartalmazó beszédszakaszok száma osztva a vizsgált szöveg szószámával. (Ebbe a kategóriába tartozik minden nyolcvan db-t meghaladó beszédszakasz, de a megnyilatkozótól függően ennek mértéke a beszélőhöz mérten csökkenthető.) 3 Szelf-referencia: a szelf-referenciára vonatkozó szavak száma osztva a vizsgált szöveg szószámával. 4. Tagadás: a tagadásra vonatkozó szavak száma osztva a vizsgált szöveg szószámával. 5. Mi-referencia (negatív korrekciós index): a mi-referenciára vonatkozó szavak száma osztva a vizsgált szöveg szószámával, negatív előjellel Rossz minőségű felvételek elemzési lehetőségei Az érzelmi állapotok nyelvi, tartalmi jegyekre, illetve fonetikai paraméterekre gyakorolt hatásához korábbi kutatásainkat vettük alapul [7, 8, 10, 11], azzal a különbséggel, hogy kidolgoztunk egy olyan eljárást a fonetikai paraméterek vizsgálatára, amely gyenge minőségű felvételeknél is alkalmazható. Ha a felvétel olyan minőségű, hogy az elhangzott megnyilatkozás tartalmának döntő hányada érthető, lejegyezhető, akkor ez a nyelvi, tartalmi elemek vizsgálatát nem érinti, hiszen ezek az elemek a rossz minőségű felvétel alapján is elemezhetők. Ebben az esetben tovább léphetünk a megnyilatkozás fonetikai struktúrájának elemzésére. A Ian Holm-féle Lear király rendelkezésre álló hanganyaga alapján az elhangzott megnyilatkozás szövege jól felismerhető, lejegyezhető volt. A fonetikai paramétereknél azonban meg kellett vizsgálnunk, hogy mi az, amit a rendelkezésre álló adatok alapján meg tudunk állapítani, és mi az, amivel nem tudunk foglalkozni. A temporális elemeket, így a beszédszakaszok hosszát is gyengébb minőségű felvételek alapján is meg lehet állapítani. Erre a vizsgált megnyilatkozás alkalmas volt. A hangerő vizsgálatára vonatkozó műszeres mérési eredmények azonban teljesen használhatatlanok voltak. Hiába lehetett jól kivenni a közlő beszédéből, az elhangzott megnyilatkozást meghallgatva, hogy üvölt, miközben ennek műszeres detektálása gyakorlatilag lehetetlen volt. Így azt a módszert alkalmaztuk, hogy az elhangzott beszédszakasz sajátosságai alapján jelöltük meg, ahol üvöltést, illetve emelt hangerőt hallottunk, vagyis becslést alkalmaztunk a magas hangerő megállapításához. Tisztában vagyunk azzal, hogy ez a módszer nem ad pontos eredményt, de ezt egy közelítő
386 376 XIV. Magyar Számítógépes Nyelvészeti Konferencia becsléssel pótolhatjuk. A korábban vizsgált hangerő-intervallumok ezzel a módszerrel nem becsülhetők kellő pontossággal, ennek a paraméternek a vizsgálatát elhagytuk, és a korábbi vizsgálatainkban is újraszámoltuk a magabiztosság-krízis indexet, ennek a paraméternek a használata nélkül. A hangerő-intervallumok vizsgálatának elhagyási lehetősége, figyelembe véve az idővel gyarapodó tapasztalatokat, már a korábbi kutatásunk alkalmával is felmerült [11]. Az index értékeiben nem következett be lényeges változás, ugyanakkor az azonos módszerrel végzett vizsgálatokat is könnyedén összehasonlíthattuk. A Laurence Olivier-féle második monológnál nem alkalmaztunk becslést, mert a halk aláfestő zene a beszéd hangerejét sehol sem közelítette meg, illetve a magas hangerő értékétől messze elmaradt, így a kapott értékeket felhasználtuk. A monológok akusztikai változásait a Praat fonetikai programmal vizsgáltuk meg [1]. 4 A magabiztosság-krízis index segítségével nyert eredmények A magabiztosság-krízis indexszel kapott eredmények a két angol nyelvű változatnál is [12, 13] azt mutatják, hogy Lear első monológját a magabiztosság, kiegyensúlyozottság jellemzi, míg utolsó monológját erőteljes krízishelyzet. Az angol nyelvű előadások eredményeit összevetettük a magyar [14], és az olasz nyelvű [15], előadások eredményeivel [8, 10, 11], melyet az 1. táblázat mutat. Mivel a rossz minőségű felvételek vizsgálatára kidolgozott eljárásunk eredményeinél az index egyik összetevője becslésen alapul, így közelítő értéket kapunk rá, ami viszont az eredmény használhatóságát nem befolyásolja. Azt feltételezzük, hogy a kapott érték valamivel alatta marad annak, mintha a felvétel jó minőségű lenne, mivel a magas hangerőt csak akkor jelöltük meg, ha az elhangzott beszédszakasz sajátosságai alapján jó eséllyel valószínűsíteni tudtuk ennek magas értékét, míg ha ez kérdéses vagy bizonytalan volt a jelölés elmaradt. Így lehetnek olyan beszédszakaszok, amelyeknél a ténylegesen magasabb hangerőt becslés alapján nem tudjuk megállapítani. A jövőben az eljárás pontossága olyan módon is tesztelhető lenne, hogy azonos felvételek rontott, illetve jó minőségű változatából kapott eredményeket hasonlítunk össze egymással. A táblázatból kitűnik, hogy a magabiztosság-krízis index értékei valamennyi monológnál a skála megfelelő pólusa felé térnek ki. A Ian Holm-féle második monológ értéke a legalacsonyabb az utolsó monológok közül, de még ebben az esetben is a várt eredményt kapjuk. Ráadásul ez az a felvétel, amelynél az index értéke becslésen alapul és feltételezzük, hogy alulbecsült értéken, amiből az is következik, hogy a becslési eljárásunk is jól használható. A másik szembeötlő eltérés, hogy a nyelvi tartalmi elemek részindexei és a fonetikai jegyek részindexei markánsan eltérnek egymástól, de összességében is nagy változatosságot mutatnak a részindexek, miközben az összesített eredmények minden esetben az elvárásainknak megfelelően alakulnak, vagyis a részindexek együttesen határozzák meg a magabiztosság, illetve a krízis mintázatát.
387 Szeged, január A fonetikai paraméterek vizsgálatánál a kiválasztott beszédszakaszok szószámát osztottuk el a vizsgált szöveg szószámával. Ha egy beszédszakasz több vizsgált fonetikai paraméternek is megfelelt, akkor valamennyi fonetikai paramétert külön számítottuk be, mintha annyi megjelölt szó lenne az adott beszédszakaszban, ahány az általunk vizsgált fonetikai paraméternek megfelel, függetlenül attól, hogy hány szóból állt a beszédszakasz. Erre azért volt szükség, mert ha több kiugró értéket tartalmaz egy beszédszakasz, akkor intenzívebb a megnyilatkozó lelkiállapota. [7, 8, 10, 11] 1. táblázat: A magabiztosság-krízis index értéke az öt felhasznált mérőszám alapján Elemzett monológo k Lear 1. angol, Holm Lear 2. angol, Holm Lear 1. angol, Olivier Lear 2. angol, Olivier Lear 1. olasz Lear 2. olasz Lear 1. magyar Lear 2. magyar Magas hangerő Tagadás Rövid beszédszakaszok Szelfreferencia Mireferencia Összesen 0,0282 0,0282 0,0141 0,0070-0,1268-0,0493 0,1408 0,0433 0,0650 0,0433 0,0000 0,2924 0,1250 0,0703 0,0156 0,0078-0,1250 0,0938 0,2129 0,0684 0,0608 0,0456 0,0000 0,3878 0,1647 0,0059 0,0059 0,0059-0,1176 0,0647 0,2574 0,0924 0,0858 0,0726 0,0000 0,5083 0,0540 0,0270 0,0000 0,0135-0,2162-0,1217 0,2632 0,2533 0,1200 0,0133 0,0000 0,6498 A fonetikai paraméterek vizsgálatánál a kiválasztott beszédszakaszok szószámát osztottuk el a vizsgált szöveg szószámával. Ha egy beszédszakasz több vizsgált fonetikai paraméternek is megfelelt, akkor valamennyi fonetikai paramétert külön számítottuk be, mintha annyi megjelölt szó lenne az adott beszédszakaszban, ahány az általunk vizsgált fonetikai paraméternek megfelel, függetlenül attól, hogy hány szóból állt a beszédszakasz. Erre azért volt szükség, mert ha több kiugró értéket tartalmaz egy beszédszakasz, akkor intenzívebb a megnyilatkozó lelkiállapota. [7, 8, 10, 11]
388 378 XIV. Magyar Számítógépes Nyelvészeti Konferencia A beszédszakaszok hosszáról azt feltételezzük, hogy következtethetünk belőlük a beszélő gondolatainak összetettségére, illetve arra, hogy az adott helyzetre milyen korábbi konstruált sémával rendelkezik, valamint a váratlan, fájdalomteli helyzetekre, amelyekre kevésbé vannak jól begyakorolt sémáink, és ezeket kevésbé tudjuk kontrollálni. Rövid beszédszakaszok magabiztos megnyilatkozásokban is előfordulnak, de feltételezésünk szerint kisebb arányban. [7, 8, 10, 11] A hangerőcsúcsokat tartalmazó beszédszakaszok a korábbi vizsgálatok tapasztalatai alapján fontos szerepet töltenek be a krízis meghatározásában [7, 8, 10, 11]. A szelf-referencia és a tagadás előfordulási gyakoriságát nemcsak Pennebaker és Ireland [6] használták fel vizsgáltukban, de László és munkatársai [4] is, akik ezek relatív gyakoriságát tanulmányozták a szövegben. Az énre való túlzott utalás a befelé fordulás jele, míg a mi -re történő utalás a mások irányába való nyitást fejezi ki. Patológiás esetben a magas én-referencia összefüggést mutat a depresszióval, a szuicid tendenciákkal. A tagadást pszichodinamikai szempontból az egészséges emberi környezethez és morális mércékhez való alkalmazkodásra, illetve a világ értéktelenítésére, a destrukcióra és öndestrukcióra való hajlamra vonatkozóan vizsgálták [3]. Krízishelyzetben problémás az alkalmazkodás a megváltozott környezethez, a tagadás fokozottan fordulhat elő az elbeszélésben. A mi-referencia a kiegyensúlyozott megnyilatkozásoknál gyakrabban fordul elő, így a többi vizsgálta paraméterrel szemben, ellentétes hatást fejt ki, ezért ezt negatív korrekciós mérőszámként használtuk fel az indexnél [7, 8, 10, 11]. 5 Összegzés Vizsgálatunkban, korábbi kutatásainkhoz kapcsolódva egy olyan új narratív pszichológiai szemlélet meghonosítására tettünk kísérletet, amely a tudományos narratív pszichológiai tartalomelemzést és a fonetikai jegyek vizsgálatát kapcsolja össze, egy összetett tudományos narratív pszichológiai eljárás keretében. Az eddig lefolytatott vizsgálatok eredményei, akár színészi játékról, akár spontán megnyilatkozásokról legyen szó, azt mutatják, hogy a krízis mérésére kidolgozott eljárásunk, melyet a magabiztosság-krízis indexszel számszerűsítünk, eredményesen alkalmazható a magabiztos, illetve a krízissel terhelt lelkiállapot mérésére. [7, 8, 10, 11] A vizsgált négy különböző Lear király sok dologban eltér egymástól, és mindezen eltérések ellenére a magabiztosság-krízis indexnél mégis a várt értékeket kapjuk. A szerep megformálása, a színészi játék, de még a színészek karaktere is teljesen eltér egymástól. Az egyetlen közös dolog a játékukban, hogy valamennyien Lear királyt alakítják. Pont ezek az eltérések erősítik meg feltételezéseink helyességét. Mivel színházi előadásokról van szó, felvetődik a kérdés, hogy nem azért kapjuk-e meg a kívánt értékeket, mert a különböző előadások hatással voltak egymásra. A legkorábbi előadás az olasz, amely 1960-ban készült, ami egészen biztosan nem volt hatással az 1978-ban készült magyar változatra. Ha figyelembe vesszük, hogy akkor még magyar művészek csak korlátozottan jutottak el a vasfüggönyön túlra, valamint a nyelvi
389 Szeged, január akadályokat, a két előadás között eltelt időt, és azt, hogy abban az időben ilyen felvételeket nem volt egyszerű beszerezni, videómegosztó csatornák pedig nemcsak hogy nem működtek, de még internet sem volt, akkor gyakorlatilag ez jó eséllyel kizárható. Az 1983-as és az 1998-as angol előadás sem hathatott a magyar előadásra, mivel azok később keletkeztek, és az is nehezen elképzelhető, hogy a magyar, vagy akár az olasz előadás hatott volna rájuk. Az egymásra hatás legfeljebb a két angol nyelvű előadásnál merülhetne fel, de Lear megformálása annyira markánsan eltér egymástól a két felvételnél, hogy ilyen hatásról ebben a két esetben sem beszélhetünk. A lefolytatott vizsgálat megerősítette, hogy a magabiztos és a krízissel terhelt megnyilatkozásoknak meghatározott mintázata van, amely nyelvi tartalmi elemekkel és fonetikai jegyekkel együttesen írható le, és ez a mintázat nyelvfüggetlen. Vizsgálatunk során az eljárás lefolytatásához használt magabiztosság-krízis indexet finomhangoltuk, valamint kidolgoztunk egy olyan becslési eljárást, amellyel a rosszabb minőségű hanganyagokat is tanulmányozni tudjuk, ezzel nagymértékben kibővítve a vizsgálható hanganyagok körét. A kutatások további iránya lehet a vizsgálat kiterjesztése más nyelvekre, illetve az esetszámok növekedésével az eljárás esetleges finomítása a tapasztalatok tükrében, a kidolgozott becslési eljárás pontosságának vizsgálata ugyanazon megnyilatkozások jó minőségű és rontott hanganyagainak az összehasonlítása révén, valamint más jelenségek vizsgálata az összetett tudományos narratív pszichológiai eljárás lefolytatásával. Hivatkozások 1. Boersma, P., Weenink, D.: Praat: Doing phonetics by computer [computer program]. Forrás: (2013) 2. Caplan, G. (1964). Principles of preventive psychiatry. New York, Basic Books. 3. Hargitai, R. Naszódi, M., Kis, B., Nagy, L., Bóna, A., László, J.: A depresszív dinamika nyelvi markerei az én-elbeszélésekben. A LAS VERTIKUM tagadás és szelfreferencia modulja. Pszichológia, 2 (2005) László, J.: The science of stories.: An introduction to narrative psychology. London; New York: Routledge. (2008) 5. László, J.: Történelemtörténetek Bevezetés a narratív pszichológiába. Budapest, Akadémiai Kiadó. (2012) 6. Pennebaker, J. W., Ireland, M.: Analyzing Words to Understanding. In: Jan Auracher, William van Peer (Eds.): New Beginnings to Literary Studies. Cambridge Scholar Publishing. (2008) Puskás, L.: A magabiztosság-krízis skála gyakorlati alkalmazása. Forrás: Takács A., Varga V., Vincze V. (szerkesztették): X. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Informatikai Tanszékcsoport. (JATE Press), Szeged (2014) Puskás L.: Paralingvisztikai jegyek a narratív pszichológiai tartalomelemzésben: a magabiztosság-krízis skála. Forrás: Takács A., Vincze V. (szerk.): VIII. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Informatikai Tanszékcsoport. (JATE Press) Szeged (2011) Puskás, L., Karsai, B.: A New Method in Narrative Psychology. In: Cognition and Interpretation. Pécs Studies in Psychology. Edited by Beatrix Lábadi. PTE BTK Pszichológiai Intézet. (2008)
390 380 XIV. Magyar Számítógépes Nyelvészeti Konferencia 10. Puskás, L., László, J., Fülöp, É.: Lear király lelkiállapot-változása első és utolsó monológjának szövegbeli és akusztikai jegyei alapján. Pszichológia, 2 (2012) 11. Puskás, L., Pólya, T.: A magabiztosság-krízis skála alkalmazása idegen nyelvű megnyilatkozásoknál. In: Takács A., Varga V., Vincze V. (szerk.): XII. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Informatikai Tanszékcsoport. Szeged (2016) Shakespeare, W.: King Lear. Rendezte: Michael Elliot. Granada Television. (Tévéjáték, 158 perc.) (1983) 13. Shakespeare, W.: King Lear. Rendezte: Richard Eyre. BBC. (Tévéjáték, 150 perc.) (1998) 14. Shakespeare, W.: Lear király. Vörösmarty Mihály fordítását Mészöly Dezső dolgozta át. Rendező: Vámos László. Magyar Televízió, (Tévéjáték, 156 perc.) (1978) 15. Shakespeare, W.: Re Lear. Gino Chiarini fordítását Sandro Bolchi dolgozta át és rendezte. (Tévéjáték, 185 perc.) (1960)
391 Szeged, január tö s3 s 3és s rés 2 ü t ó s3 r ó t 1,2 á s tór 2 3 r 2,3 1 3 á 2 2 t r t té3 t 3 r á tér s s3 2 3 á 2 2 t t á s 2 és3 t s3é 3 2 t t 3 st rsé s t t tó s rt 3 s3 s örút 3 s3 t ü P r s r tt tö s3 s 3és t s r r s3 rü és3ít tt á t 3 tát t t s3 rü s3ó 2ért sítés és s3 t t 3és r s3tü s r 2 és tö t s tö s3 s 3és t s3ö r s3 r 2 ü t ü ö r s ó 2 rs 23 tt 3 ú á t 3 t 2 r 2ú t 3ést ü t t r s3 rt és 3ést s ss3 tö s3 s 3és 2 ü t 3 tés tö s3 s 3és t r 1 r ss 2 r t r és3 t s 2 2 3és 2 tö 1é á ó á tésü s3á ít tó 3 öss3 t tésé t rt 3 é á 2 r s t r t t ér ó á ó r s3á 2 3 ó á t t át ü tö s3 s 3és 3 2 tö s3 s 3és 2 2 t t 3és öss3 ssé ért t r 3 2 é á 3 öt st r ó s3á 2 ö 2 és s3 r 3 t ö tést 3 ü 3 tö s3 s 3és t t s s résér étr 3 tt r s3 rü t t t 2 s r3 ó át P r s r és3ít ttü ü 3t r s3 rt és ú ít tt á t 3 tát s t t s3 rü s3ó 2ért sítés és ü sé 3és és é s 2 és tö t s tö s3 s 3és s résér r s3 r 2 ü t 3 s r3 ót r s 2 ér t 3 ú ít tt r s3 rr ár r s 2 ér r é 2 t
392 382 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3ör 3 r t r s3 r ö ését ír r s ért r é 2 és 3 3ésé 3 tá ítésr s3ó t 3 ú r s3 rr 2 r r é 2 t é ü öss3 s ít 3 r t és 3 ú ö3 ítésü á t tt r é 2 t 2 r t 3 r t r s3 r 3 r t r s3 rü t s r s tö s3 s 3és s résér írt r s ár 3t étr s r t s é tö s3 s 3és s rés s 2 Öss3 s 2 r és3ü t tá ó 3 tá ós t sítás r3á s és 2 s s 2 2 ét é és3ü t 3 t sítás öt ü ö ö3 t ór át ü ö ít ó á t ö 2 és s3 r 3 t t rt str ó t P r s r 1í é t t 2 2é t ór át s3á ító é s 2 és3 t 3 s rés é3 t 2 r r tí s3 r 3 t á tésü 3 á s t ór á t r é és str túrá s3 t t r tás 2 s t 2 r t á3 s és3ítésé tá ásá s rés3t tt í 2 r s3 rü 2rés3t 3 tt s3 r3 tt t s3t t r é ü r s3 r írás s3 rü 3 és s3 t t 3és s tár é ü t tö rrás s 3 t P s rt á á s 3 2 3ér r s3 rü át ü sé 3és s résr ó s3 á tát rá ár s t tt t ü s 3t ü sé í és3 t á ásá tásá 3 3és t á s3 á ásár s r t s tö 2 s r ó 3 s3 s3ór 2 ö3é t rt 3 í 2 3 t s 2 s3 t t 1 tást é 3 tét ü 2 ás tt r tá rü t 2 ástó t í 2 3 ö3 ítés str té á t t s3 ö és és ás s ó ö3 ítés t ít tt t t tt r s3 r 3 tí sá ü sé é 3 í 2 é á 3 tár 2 ö 2 és s3 r 3 t tár 2 s3 t t s3 t tá ót 33 tét r s3 rü s 3 tí sát tü t t ü sé é és 2t s r s 3 tó tö 2 s r t 2t s tö t s tt 2 t ü sé 3és s3 t é 3 ü í 2 s3ó 2ért sítésr s t r s3t ttü ö3 ítést 2 r 2t s é á é t és 2 r P r rt ö3 t ü 3 3 ét é t és 2 r 2 sírás tt t2 st 3 rs
393 Szeged, január s3 á 2 á 2 s3ó ír t á ér s3 r 3 t ét 1é á ó á és tés 3 á s é á é t rá s t 2 2 r 2 ért 33 tét 3 ó á s3 t tö t s é á r s3 rér 3 s s r ó s3 t t és s3 t t sá r 3 ö3 ítésü tö t s t s3 t 1 s s3 t é 3 ü 3 rs s 2 t r á ó á 3 s ó 3 2t s t r ó s3 t é s3 rü é 2 é és 3 s r é és s3ö s3ó 2ért sítésé és ü sé 3ésé s3 t é 3 s3 rü s r t s s3 r 3 á t 3t sít tt s3ó 2ért sítés és ü sé s3 t t 3és t 3 tá t s3ö s3 r s3 r 3 t ét tt 2 ü t 3ésr é s s é és t ít tt t ó étr 33 t ító t 3t t ító t tá ó át r ó és ü sé tá ó s3t ü 3 2 és tö t s r ü ö ü ö 3 2t s s3ó í é ét 3 tí s 2 tt sít ü í tö t s s té ü sé é s ré ü í é t á 2 3 t ü sé í é ét s ré ü 3 tí s r 3 á rá 3 2t s s3ó í s ré ét és tö t s ü sé í s ré ét t t á P és 2 r é á r 3 és P 5 s5 s 5 P 5P rp 5 P 3 és P P 5 s5 s 5 P 5P rp 5 P tár 3 t 3 t P 5 s5 s 5 P 5P rp 5 P tár 3 t 3 t P 5 s5 s 5 P 5P rp 5 P á r P és é á át í é3és s3ó í é 3 és és tár 3 t 3 t é á tö t s s té ö3 ítésü rr té3 sr só t ö3 t ü ás t 3 s ó ü sé á str túrá át á t 3t t s 3 só t t s ó é é í é t Pé á é á t á tó át P t át és s té 3 só t P í é s t 3 át 3 s ó 3 át ításs 3t P í ét ír át 3 t 3 P í é ér ö t étt s s té 3 át ítás 3 öss3 s só t í é ét átír 3 s s í ér Pé á t s té 3 3 s ö t t ó s t ü sé á t tt 3 öss3 s tö t í é í ér á t 3 s3 rü ás é és s3 t t 3 t ítás á t 3 t s3 á t s3ó 2ért sítésr és ü sé 3ésr s 3 2t s 3 t 3 s3ó 2ért sít át t ít tt 3 át ít tt r s3 tö t s 3 ü sé
394 384 XIV. Magyar Számítógépes Nyelvészeti Konferencia P Pét r t s t t át P Pét r t s t t át á r P tö t s í 33á ás ü sé á 3 Pét r t s t t át t Pét r t s ö tést 3 Pét r t s ö tést 3 á r tö t s í 33á ás ü sé á 3 Pét r t s ö tést 3 t Pét r t tt rá 3 s ö t Pét r t tt rá 3 s ö t á r tö t s í 33á ás ü sé á 3 Pét r t tt rá 3 s ö t t
395 Szeged, január t s3ó és ü sé í é t 2 ú 2 3 t 3 á t á s s3ó és ü sé í é t 2 s té 2 3 t é és t é 3tü és s3ó 2ért sít és ü sé 3 t 3t étr 2 s ré sér s é s é á 2 2 s té 2 s t t tt tá ít t ító t ó 2 é á 2 s t t tt ss3 tt á t 3t t ítás s rá r é és 3t ttü s3ó 2ért sít és ü sé 3 t 3 2 s 2 t s3t r s3 3 í 2 tt 3és s3ó í é t és ü sé í é t s t rt 3 tt 3 tt 2 á t á s í é tt 2 és 2 t só é és 2 rtü 3 s3ó és ü sé í é t t 3 s3ó ú s3 2t s s3ó í é 3 tt tí sú tá ót t 3 ü sé í é s té 3 í é öss3 ötött s3 2ütt t í á t 3 tt tí sú tö t s t P és 2 sítés tr ítás P és tr P és 3és t s3t t és í é 2 rés t s3t á r s3 rü á t é r t tt é és r é 2 s r t s r s3 rü t s 3 r 2 r 2ú t tt 2 r ü sé 3ést és s3ó 2ért sítést s 3t sít tt s3ó 2ért sítésr 3 2 s 2 2 r 2t s 3 t s3ü sé ü í ü sé 3ést tö t s 3 s3 á t 3 2 s té s s3ó í é3és t ér t ró á 3t rés3 s r é 2 t s 3 2t s 3ését étr s 2 és 2t s t í 2 3 t t ítás 3 r é 2 2 r tá á3 t t á tó s3 rü t é t örö s 2 r 2 r s3 2 P rt á P és s é 2 r 2ú t tt 3 érté ért r é 2 2 á t 3ást t t 2 é t és r s3 r é t s é t 2 r és s é 2 r 2 ö3 r s3 rt 3t étr tö 2 s té 2 és rt á é
396 386 XIV. Magyar Számítógépes Nyelvészeti Konferencia tá á3 t r ss3 és 3 3 r s3 r r é 2 2 r t s3 t érté á r s r s3 r P P t t t P P
397 Szeged, január t é ö3é 3 2 é 3tü 2 ö3ött térést 2 2ás 3 tt 2 2 r tí s és r s3 rü ö ésé öss3 ü és 3és t s3t r s3 é3 tá ó á 2 á ssá r 3ás tá 3s á t r s3 rü á t ét tt á t 3ésü t tt 2 r s3 rü s P tí sú t sít P ö3 át 2 s t á í tö t ór s té 3 3 rá 2 örü ü 3 rt str ó s té 3 s3 t t s t s á 3 t ö3ött s ít r s3 rü ö ését é t 2 r és s é 2 t rt 3t 2 rá 2 P tí sú t s r t s s3 té öss3 ü és á ért 3 2 ö ött 33 s3 3 ú t és 2é 2 t rt 3 P t 3 á ú 2 t r s3 rü á t 2 tt 2 ért r é 2t á 3 2ás 2 3 tt 2 2 tí s t s3 á 2 r r és s3 2 3 tí s s rés 3 tt é3sé t t á ssá tó 2 ss3 ó á és t r 3í ó t t rt 3ó tö s3 s 3és r é ás t r s3 r é ítésé ó s t r 3 t t öt öss3 s3 t t r á ó s rü t 2 s s r ü 3 t é á é t s 2 r s ó ö3 t ü 3 tö t á 3 s3 t t 3és ít tt r s3 r s3 rü ítésé s s é s r t s s3ó 2ért sítés és ü sé t é ü tt t ító t á3 sú 2 r s 3ést 3t ú 2 értü 2 r s3 rt 2 3ó é éss ít ttü 2 3t 3 tá ót 33á t t ító t á3 s 3 P és rs tr P és 2 sítés tr ítás P és tr P és 3és t s3t t és í é 2 rés t s3t á r ít tt r s3 rü á t é r t tt é és
398 388 XIV. Magyar Számítógépes Nyelvészeti Konferencia ít tt r s3 r 3ó é ésé 3 rs s Pr t t ító t á3 s t s3 á t 3 2 s 2 r 3 t á3 s s3 té t 3 s3ó 2ért sít és ü sé 3 t t ít tt 3 tá ár t t tt é és t ö ttü 3 tt t ító t á3 s s3ó és ü sé í é t 3 s s r s ré tü 3 t ító t á3 s ú r t 3 t t ít tt t s3t tt t t 2 rtü 3 s s s3ó és ü sé í é t r é 2 ít tt r s3 rü r é 2 tá á3 t át tó s r t s 2 ér ár 3 r t r s3 r á t s 3 tt 2 tá á3 t s é t á tó 3 3 tt t ító t á3 sú 2 tá á3 t só é s 2 r é 2 2 st tér 3 tá á3 t át tó tó 3 á t 3ás 2é s ítás r é 2 t st t s3t 3 ö ésé ös3ö t tá á3 t ít tt r s3 r r é 2 ár 3 r t r s3 r á t s 3 tt 2 s3ör tü t t P P t t t P P s é és t 2 3 tt s3ó és ü sé t t s3 á 2ás s3 á s 3 r é 2 t 2 3t 3 és s tár 2 á t ét é á t 2 r s ér t rs s tr í 2 r s3tt ítást é 3tü 3 3 t ításá 3 á t 2 ö3 r 3 3 r és 3 s3
399 Szeged, január s3 t t r t r t s3 á í 2 3 s3 rs s t ító t á3 s s3 á t tt ö töttü s3ó 2ért sít és ü sé 3 t ításá 3 s 3 2 r ss3 r é t tt 2 t t s t s s rü t 2 s s r ü t s3t r s3 tö 3 tt t ító t t s3 á ó 2 é 2 s té 3 3és t ító t s 3 tt 2 r s3ár 3 tt é s r é 2 2 ö3 3 t t t s3 á ó 3 és tá á3 t ü ö ö3 tí s r t t á 3 érté ért r é 2 t 3 át ú3áss ö t á 3t t t á 2 tí s s3 r t 3 tt 2 Öss3 ssé é r s3 r 3 r s r 1í é ö r ss3 3 2é t ór á tt 2 r tás és 3 ss3 ö 2 és s3 r 3 t és rt str ó ü ö ö3 2 ö3ött 2 ü ö sé t t t tá á3 t s3 t érté ü ö ö3 tí s r P P P t t 2 3 tt 3 t só s3 ó 2 rö ísér t t ír 2 3 ú r s3 rü 3 t tt 3 tt és 3 t s3ó és ü sé t ító t á t 3 tt ü ö sé t 3s á t 2 r t s ít tt öss3 3 t s3ó és ü sé t ító t t s3 á ó ö3 ítésü 3 sítás ért r é 2 t 3 3 tt 3 3 tt t t 2 33
400 390 XIV. Magyar Számítógépes Nyelvészeti Konferencia tá á3 t s3 t érté ü ö ö3 tí s r P P P t ó s3 rr 3t étr t 3 2 s té t ér t t t 2 r rs s tr t ít tt t 3 s3ó 2ért sít és ü sé 3 t 3 t t tt tt 3 t ító t á3 s tá á3 t ísér t r é 2 t t t s3 r é tá á3 t é 2 r s3á r é 2 á 3 t és 3 tt t ító t á3 s s3 á tá 2 s ó r é 2 ér t 3 tö s3 s 3és s résé r s ó és t s3 t érté és tt s s t ssá s 2 és ér t 3 3 tt t s3 á ásá t 3 t tí s s3 t á ó 3 33á 2 ü ö sé t ét ö3 ítés ö3ött P tí s 2 s 3 2t s 2 r í 2 3t t ór át és é 2ás á 3 t és 3 tt ü sé á ö3ött r ó ü ö sé Öss3 ssé é tó 2 ít tt r s3 rü á t 3 tt ét ö3 ítéss 2 á ó 3 s r é 2 t ér tü tö s3 s 3és s résé Öss3 3és ü tö s3 s 3és s résér és3ít tt r s3 rü t t tt r s3 r s3ó 2ért sítést és ü sé 3ést s3 á 3 s résér tö 2 s3 rü 2 ü t
401 Szeged, január tá á3 t t és 3 tt r é 2 2 rr P P t t t P P t t r s3ó í é r és ü sé r á ó r tá t t ító t á3 s 2 r tá t t ító t á3 s és tt 2 s3ó 2ért sítéss és ü sé tr s3 á ásá ár 2 2 r 3 tó ü t t 2 tsé s 2 ü t s r r s3 rt é ít tá t 2 s s t s té s tó r é 2 ö ér s t 3s á 2 ás é 3ás s t rá tó ü sé 3és és 2 ös3ö t 2 á ítás t tást 3 P 3 sító ú társ s3ír 3ású r t tá tt 3 r t tás t 3 r r rrás s3té r Ú P ó s3á ú Ú 3 t á ósá Pr r tá tt t 3ás r2 s r r t 3 s t t 2 t rs s r t s t t t t r t r 1 r ss s ss t r t t st s st t r tr s t s s2st r t 1 s2 t t 2s s Pr s t t t t ss t r t t st s P rs r r 2 ss t r t t st s sr s t 2 rs t r 1 r ss t 3 t Pr s t r t t ss t r t t st s t t t r t t r t r Pr ss P rs ss t r t t st s t st t tr t s r t s t r 1 r ss 2 s s 2 rs Pr s t t t ss t r t t st s P rs t r r2 ss t r t t st s
402 392 XIV. Magyar Számítógépes Nyelvészeti Konferencia r r r t r 1 r ss t t t tr s st t t r rs rs t r r t r Pr s t r r t s t r Pr ss r t ss t r t t st s s3 3 r2 P r t r Pr t t r 1 r ss s rs t t r t r t t st s Pr s t r P rs r s r r t r t 2s s t t t Pr s t r s t r 1 r ss s r r2 t t s ss t r t t st s r r P rs s r t 2 t r 1 r ss s t t st s 3 s r t 2 2 P rs r t 2 r t r str t s Pr s t 1t t r t t r t r Pr ss 2 s r t t r Pr ss ó á s 3 3 t t í és3 t tás 3 3és r é 2 ssé ér 2 r 3á ító é s 2 és3 t r 3 r r s rs r r r t r Pr ss t t st s t t 1t Pr ss r r t r 2 st 2 rs s t tr t Pr s t r t r t r t t st s r r t r r P tr P22s r s r t2 rs s t tr t r r r r r r 3 r P r s s Pr s t t t r t r s r s t P r s r r s r s ss t
403 Szeged, január s tsá és öt 3 ttsé 2 1 r é 234 á r ó és á ó s3é s2 2 tr r P s 2 t r 3 s3é 4 Ü3 t s3é r t t t tás é ö3 és r ét s3 á 23ó s3 á 2 r á s írás 3 3 s3ü sé s t ír é s s3 t ó á ítás t á 2 3t t t 2 s3 á 2 ss3 s s3 t 3ésé 3 s3 á t t s tás tt 2 s3 r t 2 ás ö3 ítés s tsá és öt 3 ttsé rr tí ár r 3 tt r s3 r t ó á ó ésé t és r á ó t s 2 rr t 3ó r s3 r s3 r t 3 ü t t ss3 s t s tás 3 ó s3 2 t tt é á t t 2 2 ü ö ít t 2 ástó 3 2 s s tsá és öt 3 ttsé és 2 é t t ás 2 t r ó ás ér t t tt és 2 r 2 r s3 rt r ér s tá s3 ss3 t ó t s tás s tsá 3 tés s3 á 2 t r rö 3ít tté r é s3ó s t 3 ö 3 t tó ésér ö3 és ár 3 t t ö3 és s3 r t r tá 3 ö 3 t tó r t tí s ésé á t t 3 t ó ár t é s3 t r 3ér és 3 s ér és 2 s ósá és ü ö sé 3 ö 3 t tó 3ér és r s3 r és r ö3 ését s3 á 2 3ó s3 á 2 ö3ött rr s3 tr 2 3 t ó é ít 3és s rá 2 s3ü 2 t s3 á 2 é s tü 3 r á t rá 2ít tt t á 2 3 r r rrás s3tér Ú P ó s3á ú Ú 3 t á ósá Pr r á t 3 s3á ú á 2á3 tá tá tásá és3ü t P 2ütt s r t ö3út ö3 és s3 á 2 ró
404 394 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3 r 3 t é ü ár s3 á 2 3ását ért 3 t á 2 é s r s3 r és í 2 s3 á 2 ö3 t t ór á á s3á ító s tsá és öt 3 ttsé t 33ü é 2 r s és 3ér ését é 3 s3 á 2r s3 rr tt é r s3 r é t t 3 s tsá és öt 3 ttsé tár 2 ásá 3 s3ü sé s és t s tás r t r tí 3í ó ár 3 rö t tás tá t s3 á 2 s3 á tó s tsá és öt 3 ttsé t 2 t tt é á s3 é t tü t á 2 ás rés3é ö3 és s3 á 2 3ásá ár t á t s ér ését 33ü s és t ás r tí é 2 s3 á 2 3ás 3 r s é s r t 3 33 é 3 étr r á t 2 2 s é s t rt á 2 r ós tó s és r s3á ít ss ét é s ést ü ö ít 2 ástó t ést és t rtó3 ást 3 3 r é t 2 r 2 rsít ssít 3 tó r 3 á 2 s t ttü 3 r ás t ö3 és t rtó3 ás s3tá tét ét t t át 2s3 r t és t ás s3ü sé s é t és s3á é tsá s 3á s t t s3ü 3 ö3ü s 3 s3á ít t rtó3 ás 2 t s3á é t t s3ü s3á é tsá 33 t t r és3 t s t és 3 s 2 ú 2 33át rt 3 s3á é tsá té 2ét s s t 2 é3 tár 3 2ít 3t r é át tt st 33ü rr t s tás s r r s3 r 3ért írásá 3 s3ü sé r tí r s3 r ö3 t t ór á á t s tás 3 ért 3ésér t t s tást ü ö ít tü tt r tt t s r t öt 3 t r2 3 t ss á s t r s r tí r s r t 3 tás ö3ü é 2 t ést á t é t és tö ár á tó ö t s tt t öt 3 tt t rtó3 tt t 3 t tt t rtó3 tt t
405 Szeged, január á s tt t és tt t r s r tí tt t 2 tt t t tás ö3ü 3 á s és r s r tí 2 t t ór á s3 á 2 2 t á 3 s3 2 tér é 3ésé t sé tás ö3é törté ésü 3 tás ó öt 3 sé ö t 3 2 s é 2 ttsé 2 í 2 ö t 3 3 tás ó s és t ssá ó 3 t sé í öt 3 sé és t ssá ó s ö t 3 r s r tí r tí stát s3 t s ts3ö tr t r s árt t rt 3 öt 3 és tt r s r tí és 3 á s t öt 3 és 3 t 3ár á 2 ást 3 í ü é ét t s3 2 öt 3 t s és 3 á s 2 áss trár s s t 2s3 rr 3 t 2s3 rr s í ttsé 3 t sé és r s r tí stát s3 t s3 trár s s3 2 öt öss3 t ü 2s3 rr tt 3 s r r á 3ésé 3 r s tásá 3 r r t é tét s3 á t r t s3 r t r t sr t tó í 3 tt s t sátó t r t2 r t r r t r t rt t t tét t örü é 2 s r í 3 tt 3 s 3 r írás 3 sátó 3 r át rá r r t r s és 3 s t t s tást t r t rt s3 á 2 3 í á t s és tét r 3ásá tét éü tét 3 tt ás s ésr t t t rá örü é 2 r 3ás tét t ír r t t ér s 2 t á ss és3ít és r é s3 ó sé ét s s3 ó r 2 ö r t tó árás 2 t sü ését s3 á ás tár s s3 ö3é 3t sít t r s é 3t t s ért 3ésé 3 s3ü sé ü t sátás t s és t s3 á ó t á s t r s ét ér 3 t ó öt 3 tt sé s3 t á ó t t t ú s3 s3 ó
406 396 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2rés3t s3 á ás s tér ásrés3t s3 á ást é 3 á s r s t í sátó á s tét 3 sátás s tét st r t s s3 é 2t 3 á s t 3 t s é t 3 tár 3ó 3 á s á3 sú és t á s r s3 r ó é3 öss3 s tósá tt st rsé s t és t tás s 3ó t t tt r s3 r ü ö ö3 s tsá és öt 3 ttsé tí s ró tár 2 t 3 tt r á át és t s t sé ét 3 2 á s t és3 t s á s ár t 3 tt s tsá és öt 3 ttsé rr tí 2 t r ár á s t t tt rr 2 ö3 és s 3 tt t á s r s3 r é t tó t s t sá s3 á t s s tsá s3 2 ét á r tí 3í ó t s ü 3és s3 2 r tí 3í ó s 2 é té 3 2 á 2 s 3ését é 3 é t r á s r r 3 tá ásá 3ó s s3 r ss3 2ú 3 ú t s3á3 é tö ö3ött rt t r s rr st és r és 3 s r t r és á t ét rés3 s t á 2á t író ér és ó t 2 r t 3 3 s tsá t r s3 r s3ó tú s t és 2 á s3 á t tö ü ö ö3 s tsá s3 2r 2 í 2 öss3 só tt ü ö ö3 t rt ú r tí 3í ó ró s3ó 3ért á3 t 2 r s3 rt 2 s sá á r t 3 é 2 r é s3 sá t 3 ttsá és 3 tás t í öt 3 ttsé á öt ssé 3 é 2 á 2 t 3ás t ttsé és t 3ás é t sé t t ór á ár é t rr tí 2 t r t tét s s3 2 á 2 áss 2 s3 2 t t t 3 á á r 3 r t s3ó s3 á t és r ításá s rr tí s3 r t r s3 2 é t t 3 rá
407 Szeged, január é 2 r t s3 sá t 3 ttsá t ssé rr tí tét rr tí rr tí tét rr tí öt 3 ttsé á 2 t ttsé t é t sé á r s tsá és öt 3 ttsé rr tí s3 2 é á s é 2 2ütt ár 2 á s á s öt 3 ttsé é 2 r é ás é 2 á 2á és í 2 t á 3 át t 3 tét á ót t s r á s r é 2 s ésr á ás á s 3 tt s ést ó t rtó3 ásr t 3ó é 2 3 á rá át tó 2 t ór á s3 2 té ét s rt r 3 2 s ó t ét s rt ó á 2 ü ö sé ö3tü tás t ts3 s 2s3 r ós 3 s és r t 3 r s r ró s3é tü 3 é 2s3ö í tás 3í ó s3 á 2 étr 3ásár á t 3t tásár s3ü t tésér rá 2 r ás r ró s3ó 3 tésé s3 é t tésér t rü tér ö t 3 é á 3 tó 3í ó és é 2 és öt 3 ttsé t ár é t ö t 3té ért s3 r ár ér s 3 ár 2 3í ór t 3ó 2 t ást t á 33 rr tí ár át s t á t 3 é 2 öt 3 ttsé ár s s3 é t s és 3 s sé ás s3 á 2 s3 tt é3 2 ét á s 2 áss s3 r tí 3í ó ró s3ó t 2 r ú t r s3t 3 és á r tá 3t út 2 út r s3t 3 és 2 ró ér 3 ár s sé ➓ r 2 23 t rü ö3 r é3 s3 á 2 s t á é ás é s sé t 2 s ás 3 3 é3 tt rés3 és t á t 3 tt s3 á 2 ó P 2ütt s r t ö3út ö3 és s3 á 2 ró s3ár 3
408 398 XIV. Magyar Számítógépes Nyelvészeti Konferencia öt ssé s t r és 3 é 2 ás t á és é é3 é á é t t 3 t 3 t s t é 2 ét é s3 á 2ár 3 3 és t á ít tt 3 tá tt 2 3 tt és3í t 3 tá á r 3t út út s3 á t í 3 tésé t é 2 ➓ 3 é 2 ö3 t tt ó ér t tt t tt í 3 2 s út s3 t ö3 s s é 2 ö3 ést ó t rtó3 ásr és 3 s3é é á r é é 2 á 2 árr 3 t s út ö3 és út t t rtó s3 r 33 3 é 2 é ö3 s3 2 3 ssé í t 3 út s3 á táért 2 s 3 tt ö tés öt 3 ttsé ü 3 út t rtó á s3 t s át 2 r öt 3 ttsé r s3é s á s ést t ésr és t rtó3 ásr í 2 t s öt 3 és t s tás és s r tó öt 3 ttsé á 3 á t á s 3 tt ö3 és s3 t á ót ét á s s3 2á író s3 á 2 á és é s3 t 2 3 t rró s s3ó 2 ö3 és rés3t 2 á s é 2 ö3 és rés3t 2 ás á s rá 2á öt 3 s é 2 é r tásár és t s s é 2 t ó t rtó3 ásr s t és öt 3 sé tás 2 ésé r á ró 2 r 2 ár és3ü t t tás ás ö t 3 é á t t á t t tt á s rát rt 2 s3 t t s ü ö ö3 ö t tósá 3és t r s3á tá á t á t 3t t t r 2 s t tá ít t s ➓ t s tás tt t ását t 3t 2 s3 t s 3 t ü s ó ó é s 3 t t ö3 é3 t rt tt rá ót t s3 á t ➓ t tást ö t é t 2 tt 3és s 2 r tósá 3éss át tt é ár ö ért és t r s3á tá á ö3 é ár t t 2 3ést í 2 ü ö ös 3és tr át tü t t 2 rr t 2 é ár 2 r rs3á ö á és 3 é s t 3 t ö3 s3 r 3 t t ö3 s3 r3 és á t ssé t é 3 t á t t ssé t é 3 s á t á s3 á tá ➓ t ás 2 3ést t á ás t át 3 át t t tásr ö t 3 é3 t
409 Szeged, január r r ét r á rá 2ú 2ú tás 2ú t tt rr r s rá 2 ó ér 3 rés3ér t á ás t át 3 2 s 3 útt str é t ár 3 út r s3t 3 és é ö t 2 sát 2 t á ás 2ét 3 út r t 3 á 2á 3 út r s3t 3 és tt á ➓ t ss3 s é 2 ú t á ás t át 2 ás t s rát r öt 3és s ítsé é 3 t á 3t 3ért t t ü rt t s tás 3 t 2 áss tt ú tí s ést t ést t át ás r át 2 tt 2 t rtó3 ás 3 r át t 3 á ás t 3 í 2 á ít tó t s t á öt 3 á t tás t 3 táss s r ás s3 ír r át 3ást ➓ 3 t s s á ó ár r s3á t és s á ó ár r s3á t r t 3t r 3 2 s 3 á ó ár r 2 á ó ár r ó 2 s3á ás tt t s3 r s s3ó s3té sé s3í és 3 tás át r 3 tété és t tás s3 öt 3 öt 3és tás 2 r öt s é s3tésé tó 3 3 és ít tt é 2t 3 t 3 tés ö3 á á t rt ➓ ár tósá é 2ét s3 á 2 tér r 3 3 t 3 tés ö3 á á t rt tósá 3és t r s3á tá á t ár ö s3 r ésér ö t 2 ó s tó á t t rt 3t á t 3t t t r 2 s t tá ít t s ➓ r és3 t s ás 2 s öt 3 tü r ö t 3 s t 3 t sítást 3és s ítsé é r r 2ú t tt r á é t 33 s ssé ö ésér 2ú t tt r át és é 3 t s ssé sö tésér t sítást ➓ tsé s 3 á s rát r r t s3 á t é ü s öt 3ést 3 r r r t út r s3t 3 és rá 2ít ár á ításár r á 2 ér s3 é 2 r s tár sá ü s t rtásá r s 2 ér é 2 ör r tásá t sí 3ést ➓
410 400 XIV. Magyar Számítógépes Nyelvészeti Konferencia t t é á s rát r 3ás é ü t ó 3 3 t sítás öt 3és és 3 t sítás ö3t s3 t s t t s3 á t s ás 2 r á öt 3és 3 á é á t sítás ár tt 2 rét s ést s3 á á t á sít tt s r t r s és 3r öt 3 3ért 3 á t á sít tt r át s3 á ü ö ö3t t é 2 3ést s3 á ó é s ó 2 t r ré árró t r rsé t rr s3óró r s3tü tt ö t ö3 és t rtásr t 3ó t sításá ó 3 út ö3 ár 3 t é ár ➓ ö t 3 t sé r át á 2 t t öt 3 sé t rt 3 2 s3 t ést ö t 3ést t r s ít át öt 3 sítés sé 2 tt s 2 3áró t r s s 2 3t tást ér 2 s 3 útt st ö3 3 útt st s3é é 2s r tt t rü t t t rá 2 s3 r t tt t rü t í ü ár r s3 s é t r s ré árt 2 ré árt t ó t á á r s s3é ö3 3 ás r át 3 tt 2 s t rá 2 s3 r t t ➓ s 3áró t ért 3 2 öt 3 öt 3ést és tás és 2 tét út s3 á t í 3 tés s ítsé é s t és t á ít tt 3 tá tt 2 3 tt és3í t 3 tá á r 3t út út s3 á t í 3 tésé t é és és t á ít tt 3 tá tt 2 3 tt és3ít 3 tá á r 3 út s3 á t í 3 tés öt 3 ttsé é ét 3 ➓ 3 á é3 t ét írás t t s3 á 2 3ás é 2 tö é 2 r á s 3 t ét 2 ást ö t 3 és ü ö r tá 3ó 2 r r s3á ú é ár t t t tü t t á 3éss át 2 r rs3á t rü té s 2 ü ö r s3á ú é ár ö3 t 2 t r s3á t ó á 3ésé átt ➓ öt 3ést s t s s3 3ásá r r s3í s3 r 3 t tást 3
411 Szeged, január s 3 útt st ö3 3 útt st s3é é 2s r tt t rü t t t rá 2 s3 r t tt t rü t í ü ár r s3 s é t r s ré árt 2 ré árt t ó t á á r s s3é ö3 3 ás r át 3 tt 2 s t rá 2 s3 r t t ➓ t 3és ö á é ésr t 3és s3úrás s3 á 2 3ást át á t öt 3éssé Pr é s3 sá és é 2 á 2 s3 sá t r 3 é 2 á 2 2 t t s3 2 ét s ö3ött s s és ttó s3 2 ás s r r t 3ó é s á s tt s ést t rtó3 s3 sá 3 3 t át é tt s3 sá ú s3 sá öss3 s t 3ó öt 3 ttsé á 2át t t s tás ttsé é t 2 2 r 2 2 r 3 r át tó é 3 ó sít tt á ér t t tt ➓ ár t 3 3 t t ár 3 tésér s3 á 2 tár 3 tt ér é 2 s é 2 r 3 és ár 3 tését t t s ár 3t sá s 3 tésér é s á t t á á 3 té s é ssé r átrá 2 s tó s3 r 2ás tt á és s3 r 3 té s s3 s3 s t 2 s3tásá ó s3ár 3ó r és3 t s ás ó s 3 t ü 2 s3 sá s ésr r r ét r á rá 2ú 2ú tás 2ú t tt rr ár 3 s rá 2 ó ér 3 rés3ér s3 t t 3 2 s 3 útt st át t ár 3 tá t t 3 rr t 3ó s3 á 2 t rtásá 2 s t r 2 r 2 r t á s3 ➓ 3 é3 t s3 s és é 2 é r á s s3 t t 3 át t t t s3 á é 3 é 2 3 ttsé rét 2 és ó 3ö é 2 3 át ásr é 2 3 tt t rt é ét 3 2 s 3 útt str é t 3 útt st 2 s öt s 3 át ást 3 ➓ t r r s 2 t tást 3 ö3 t tt ó s3 r 2 s3 sá r t 3ó 33 t s t 3 át ásr é 2 3 tt 3és 3 3 é á r í 3 tt s3 ö t t rró é r t s ést 2 s és s és é r tását 2 ás s s á 2 3 t s ír t
412 402 XIV. Magyar Számítógépes Nyelvészeti Konferencia t 3 ttsá és t 3ás t ttsé t 3 ttsá 3t t 2 3 tt s3 r á t 3t t t á s r tí 3í ó t r t s t 3 ttsá r 3 s3 r tér s tó t tt tt ss3ü 3 á t 3t tás 3ért tt tó s3 r ér s ó és s s3ü sé r tá tó ö3 és 23 t s3 rés3t és3é 3 é st ü s s s3 2 3 á á ü 2 t 3 ttsá r 3 s3 r t s 2 á s r r r r ö3 és s3 r s s t 3 2 t 3 ttsá ár tá s3 á t 3t t ö3 3í ó t 3 3 ö3 t tt r r t 3ásá s3 3 öt 3 ttsé t ró t rá é 2 r á3 t t r r t 3 ttsá át 2 r t ó ö 2 t t s3 á 2 t ó t r és3 t s t tt ér t r r ét r á rá 2ú 2ú tás 2ú t tt rr ár 3 s rá 2 ó ér 3 rés3ér s3 t t 3 2 s 3 útt st át t ár 3 tá t t 3 rr t 3ó s3 á 2 t rtásá 2 s t r 2 r 2 r t á s3 ➓ r r 3 r 3és á t 3t t ö3 t t ö t 3 ttsé t 3 tt ö3 és s3í tér ü ö t 3 é3 t s r r t 3 ttsá r t 3ó s3 á 2t s t s t á t 2 s3 é 2 sérü ést 3 tt s tr r r tósá t ö3 r rt é t ért sít és t sé 3 é st s 2 r3ésér 2s3í t s 3 té3 r r é 2é s3 2 ➓ 3 é3 t ét é r tí á ítást t á t 3 s 1 t ó 3 tt árás s3 r t í 3 té3 r r é 2t s t ér t tt 3 t 2s3í r 2s3í t s3 2 3 ért 3 tt 3í ó t át 2s3í r ás öt ssé ás r tí t s s3 r t 3t r tí 3í ót 2 s 3 t s3á ár írt r ás öt 3 ttsé t 3 té3 r r t 3 ttsá ré é á t 3t t és é 2t tá 3ásr r 3 t s3 sá ér é 2 sü ú r és t t 2s3í r t 3 ttsá rt s t rs3 ás s 2 3 á é t t í ü árás t r és3 t örü é 2 3ás s és ár í3 st s té ö3út ár 2 r rs3á t rü tér törté é t tés ü ö s3 á 2 á tét 3 öt t 2 r át 3 tó ➓ t 3 tt s3 r tt s3 á 23ó tósá 2 r í ü 23 t ö t t ö3 és s3 á 2 s á t 3t tásáró s s t 3 2 s s és t rü t t 3 ttsá t ö3 és 23 t tt rés3t 2ü ö t 3 é át
413 Szeged, január tás t ó 3 út 3 tést t és3ít 3 tá á é é 2 r t s 2 3 t ➓ ss3 s 3t rá á 2 3 ért 3 tt 3í ót tás t át á t 3t t t 3 út 3 és é 2 3 t 3 út s3 á tát ás r t 2 23 t s r s3 á 2 3 ér t tt t 3 ttsá r t 3ó ír ár r r öt 3 ttsé t 2 3 ö t 3 é3 t rü ár 3 3 és t r 3és 3 ü3 t rtó t 2 3 t ár és 3 ást öt s á t ár t és 3 ásr t 3ó t sítás é r tását öt s t ➓ t é3 t 2 á r 3ó é 2 s3 2 r t 3 3 ért 3 tt 23 t 3 2 ár ü3 t rtó é 2 3 t ír t ár 3 t s3á ár ár s3 á tát 3 é3 tt r t t 3 ü3 t rtó s3á ár ír t tást ü3 t rtó á t á ét 3 t 3 ttsá át 3 tt s tr t 3ó í t 3 t s3á ár ír 3 ü3 t rtó t 3 ttsá á s résér t 3ó öt 3 ttsé é r tását tás és t 3ás é t sé 3 tás 3 3 t ttsé á r s 3 s3 é 2 t 3 ttsá ír 33 2 s 2 é át ér s r s r r r é t sé r át 3 s 2 2 r tósá 3éss át tt é ár ö ért és t r s3á tá á ö3 é ár t t 2 3ést í 2 ü ö ös 3és tr át tü t t 2 rr t 2 é ár 2 r rs3á ö á és 3 é s t 3 t ö3 s3 r 3 t t ö3 s3 r3 és á t ssé t é 3 t á t t ssé t é 3 s á t á s3 á tá ➓ á t ssé tt t s 3 t t s3 á 2 sér tés s té s t ssé r ö3út r r tá tását 3 ás t s 1 t é rr 2 r r tást é 3 s át s tsá t t 3 2 ö3 és s3 r ö3ü t sít t s s t rr 2 2 3í ót á t 3t ss 2 t t 2 2 öt 3 ttsé t á t 3 t ó á s3tás és á s3tás t 3á ás t r és3 t s s 3 s é és 2 2 t ó é ítésé 2 s ít 3 tt
414 404 XIV. Magyar Számítógépes Nyelvészeti Konferencia r tí r s3 r 3ésé tás s3á ító é s 3 sítá sá ért r é 2 é t á t tást é 2 2 s3 2 é á t s r t sé ét 3 á s 3 r ést t t 3á tó r t s s ítsü t 3ás P r s t t r ts s r t r st r 1 r rs t2 Pr ss 2 s2 s r tt ö 2 t r t r t t P rt t r ts s 1 r ss 2s r s r r s r Pr ss 1 r r r ts r t r s r r t s r t t r2 t tr t r2 2st t s r r P s t r r s t r r r s t t r ts r t s r P s rr st r t s r t r r rs t t r rt s Pr s t t r t r rt t r t r t s t s 2 rt2 P r t r 2 r rr s t r t 2st s P t s r t s t 2 r s s s r ts s ts r r t t t s Pr s s rt P rs r á3 ssá ö3 títés á s r á 3 á és 3 r 2 s r s r s í r ó t író ér és 3 ó r s és 2 ó é ü 2 2 és3 t ö3 ítés t r t P t 3 r 3 t sítás 3 s3 ö3 s3 s3ö t s tás tü ré ó r és öt ssé s3á ító é s3 é 3 ó 2 3 ó í r ó
415 Szeged, január Relevance Segmentation of Long Documents Zsolt Szántó, Alex Sliz-Nagy, István Nagy T., Ádám Csuma-Kovács, Veronika Vincze, Richárd Farkas Black Swan Hungary, Szeged, Tisza Lajos krt. 47., Abstract: In this paper, we present our methods to identify the most salient topics for a selected domain based on topic modeling. We propose a topic relevance score and segmentation procedure which can split the document into parts referring to various topics. We also offer a solution for visualizing textual spans that are related to a given topic. In this way, it can be easily determined which are the most relevant and most irrelevant segments of a long document (like blog posts or news articles). 1 Introduction Nowadays, a huge amount of textual data is published every day on the internet, in the form of weblogs, social media posts, posts on official websites etc. However, the large amount of data makes it impossible to process it manually -- for instance, when the user is interested in a topic, the number of documents related to the specific topic might be overwhelming and thus, no human can easily find all the relevant documents. The problem might be even more difficult, considering that a single document can contain several topics itself, some (or all) of which might be relevant to the user. If only a smaller segment of a long document, like a blog post or news article, is relevant to the user, he should not waste time with reading the whole document. There are various solutions for reducing the human processing time of a long document, for instance, keyphrase extraction (which assigns a number of short phrases to documents, representing the content) [1,4] or document summarization (which offers a few sentence long summary of the whole document) [6]. In this paper, we propose an automatic document segmentation and relevance visualization tool designed for long documents. Our solution is built on the top of LDA topic modelling. The information target of the user is defined through a set of keywords. We first rank the LDA topics by relevance to the input of the user, then segment a long document by assigning a topic for each word smoothed in word sequencing. We also offer a solution for visualizing textual spans that are related to a given topic. In this way, it can be easily detected how many topics occur in a document, which topics are the most salient ones and which are more marginal. We demonstrate our system on Hungarian news articles.
416 406 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 Literature review Topic modeling aims at discovering the abstract topics that occur in a document or set of documents. In other words, it discovers the hidden semantic structures of a text: certain words are expected to occur in connection with certain topics, and their presence strongly indicates that the document is about that given topic. Documents usually consist of several topics, and the most salient topics can easily be identified with topic modeling. Latent semantic indexing (LSI) is a widely used method to transform the original document vectors to small-dimension vectors [3]. In probabilistic LSI, each word in a document can be seen as a pattern of a mixed model, composed of different topics. Thus, a document can be seen as a mix of different topics. Another model for representing topics is Latent Dirichlet Allocation (LDA) [2]. It is a generative statistical model allowing observations to be explained by unobserved groups for data similarity. Each document is seen as a mixture of a small number of topics and each word is attributable to one of the document's topics. LDA is an example of a topic model and was first presented as a graphical model for topic discovery. Topic segmentation has also been widely investigated. An early attempt to identify topic boundaries in free texts was reported in [7]. A new hierarchical Bayesian model was proposed for unsupervised topic segmentation [5] and LDA is also frequently used for text segmentation [8]. 3 Methodology For our experiments, we downloaded approximately 100,000 documents from different Hungarian news portals (e.g. then tokenized and lemmatised them with magyarlanc [9]. Our method requires two databases, the first one is a set of documents and the second is a manually created set of words that describe a topic. We would like to calculate similarity between this predefined topic and the documents. 3.1 Preprocessing We used standard preprocessing methods, we removed the stopwords, punctuations, and numbers and we lemmatized [9] the corpora. 3.2 Ranking of the documents First we ranked the topics based on the similarity between a topic and our predefined topic indicator word list. We ran LDA on the lemmatized dataset and we calculated r t ranking score to each topic t, with the following equation:
417 Szeged, január The topics with highest r t are more similar to our predefined word list. Based on this topic ranking scores we can get a ranking over the documents. The r d document ranking score for document d is derived from this equation: Now we have a ranking over the documents where the top of this list is highly related to the predefined topic. 3.3 Topic detection inside the document Some of the documents contain more than one topic, so we developed a method which can extract these topics inside a document. We used Hidden Markov Model (HMM) to separate different topics in one document. In our HMM the words are the observations and the topics are the hidden states, each observation are generated from a hidden state (like in POS tagging). The HMM requires two parameter matrices as input, the emission probability matrix that describe a distribution of the observations over the hidden states and the transition probability matrix that describes the probability of a transition between two states. The LDA calculates the distribution of words over a topic, which we can directly use as the emission probabilities in HMM. For transition probability we only use two values, one for the situation when we keep the previous state, one when we change the state: where is a parameter that determines the size of the topics. By using the Viterbi algorithm, we can get the topic sequence over the words of document d with the highest probability. 4 Results In our experiments, we focused on two domains, namely, sports and music. We used Wikipedia-based lists to construct an initial seed list for describing the domains. Here we present our results for ranking topics in connection with the domains and we also report on how documents can be segmented on the basis of topics present in the document.
418 408 XIV. Magyar Számítógépes Nyelvészeti Konferencia id top words score magyar olimpiai verseny olimpia szövetség Hungarian olympic competition Olympics association 39 nemzetközi méter nyer két hosszú international meter win two Hosszú magyar nyer első hely csapat Hungarian win first place team két női második döntő férfi two female second final male hely első autó verseny két place first car race two kör futam tud második motor lap race can second motor meccs csapat két pont ben match team two point in első játékos szezon nyer Nfl first player season win NFL oldal tud facebook fotó címlap site can facebook photo title page 47 twitter ember szeptember 24hu kép Twitter man September 24.hu picture csapat meccs válogatott játékos játszik team match national team player play mérkőzés gól bajnokság klub pálya match goal league club pitch terület épület terv gép város area building plan machine city épít projekt épül beruházás Park construct project build investment Park manos film nap szereplő sztori Manos film day actor story 22 annyi látható munka néz Lát many visible work watch See magyar egyetem ben budapest istván Hungarian university in Budapest István 34 lászló györgy budapesti alapítvány Program László György Budapest foundation Program kutató kutatás föld egyetem víz researcher research earth universiry water 35 talál állat tanulmány tudományos eredmény find animal study academic result Table 1: Salient topics related to sports.
419 Szeged, január id top words score dal szám zene zenekar koncert song hit music band concert fesztivál videó lemez című album festival video record entitled album kis hely például szép inkább small place for example nice rather 23 étterem kicsi egészen két név restaurant small totally two name fotó kép épület magyar Hungarian photo picture building Hungarian Budapest 40 tér múzeum jános lászló józsef square musem János László József ben kap díj első két in get prize first two három idén vesz név nyer three this year buy name win film című rendező sorozat színész film entitled director series actor 10 mozi történet rész jelenet néző movie story part scene audience autó hely első tud két car place first can two kör második futam motor hamilton lap second race motor Hamilton európai magyarország magyar ország kormány European Hungary Hungarian country government 37 bizottság uniós unió európa orbán committee Union Union Europe Orbán manos film nap szereplő sztori Manos film day actor story 32 annyi látható munka néz Lát many visible work watch See gép föld hajó két kutató machine earth ship two researcher 42 első tud repülőgép nap tudós first can airplane day scientist facebook oldal rendszer cég használ Facebook site system company use tud telefon eszköz felhasználó google can telephone device user Google Table 2: Salient topics related to music.
420 410 XIV. Magyar Számítógépes Nyelvészeti Konferencia Fig. 1. Sample text for visualizing topics related to sports. 4.1 Ranking topics for domains The ten most salient topics related to sports are presented in Table 1. As can be seen, the first 6 topics contain lots of sports words. There seems to be one outlier topic, which is ranked 5th: topic 47 is related to social media (including words like Facebook and Twitter). However, sports events are often advertised and reported in social media, hence the frequency of social media vocabulary can be easily explained in the sports domain as well. Also, topic 28 describes construction works, which again might be connected to sports, for instance, when constructing buildings for sports facilities such as stadiums, sports halls or football pitches. The ten most salient topics for music are presented in Table 2. The first topic is unambiguously related to music. There is a huge gap between the scores for the first and the second most salient topic, which suggests that the vocabulary of music is utterly distinct from all the other topics. However, topics 15 and 10 might be also loosely related to music, as there are music awards where prizes can be won (topic 15) and films are also accompanied with music (topic 10). Moreover, topic 0 may be of relevance as well: there are several recent reports on sexual harassment from the entertainment industry, so unfortunately a topic on sexual abuse can also be connected to the music domain. 4.2 Document segmentation Here we illustrate our results on segmenting the documents on the basis of the topics mentioned. For this purpose, we made use of the Mindeközben (Meanwhile) column of the news portal index.hu, which includes short pieces of news of miscellaneous topics, hence they are supposed to contain multiple topics.
421 Szeged, január Figure 1 shows a sample from a document where different topics are marked with different colors. Text spans which are related to sport and have a high position in the topic ranking are highlighted with green (and with bold font). Figure 2 shows another sample from the Mindeközben column. Here, green spans denote textual content related to music. As can be seen, the first sentence of the document contains an invitation to a music festival, which is then followed by titles of other short news. Later, the music festival is described in full detail, which was also identified as belonging to the music topic by the algorithm. Fig. 2. Sample text for visualizing topics related to music
422 412 XIV. Magyar Számítógépes Nyelvészeti Konferencia 5 Conclusions In this paper, we presented our methods to identify the most salient topics for a selected domain in Hungarian news articles, based on topic modeling. We also showed a solution for visualizing textual spans that are related to a given topic, focusing on the sports and music domains. In this way, it can be easily detected how many topics occur in a document, which topics are the most salient ones and which are more marginal with regard to the central topic of the document. References 1. Berend, G., Farkas, R.: Keyphrase-Driven Document Visualization Tool. In: The Companion Volume of the Proceedings of IJCNLP 2013: System Demonstrations (2013) Blei, D., Ng, A., Jordan, M.: Latent Dirichlet Allocation. Journal of Machine Learning Research, Vol. 3, No. 5 (2003) Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., Harshman, R.: Indexing by latent semantic analysis. Journal of the American Society for Information Science. Vol. 41, No. 6 (1990) Kim, S.N., Medelyan, O., Kan, M-Y., Baldwin. T.: SemEval-2010 task 5: Automatic keyphrase extraction from scientific articles. In: Proceedings of the 5th International Workshop on Semantic Evaluation (SemEval '10). Association for Computational Linguistics, Stroudsburg, PA, USA (2010) Lan, D., Buntine, W., Johnson, M: Topic Segmentation with a Structured Topic Model. In: Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Atlanta, Georgia Association for Computational Linguistics (2013) Qazvinian, V., Radev, D. R., Mohammad, S. M., Dorr, B., Zajic, D., Whidby, M., Moon, T.: Generating extractive summaries of scientific paradigms. J. Artif. Int. Res., Vol. 46, No. 1 (2013) Reynar, J. C.: Statistical models for topic segmentation. In: Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics (ACL '99). Association for Computational Linguistics, Stroudsburg, PA, USA (1999) Riedl, M., Biemann, C.: Text Segmentation with Topic Models. JLCL, Vol. 27, No.1 (2012) Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A toolkit for morphological and dependency parsing of Hungarian. In: Proceedings of RANLP (2013)
423 Szeged, január s3ó s3á 3 írás r 2 t ó s3 ö3ö é 2s 2 r 3 á 2 r rt 1 r át s 2 3 r 3,4 2 st á 2 2 t r s3é 2 3 á 2 2 t r té3 t 3 st rsé s t t tó s rt 2 3 á 2 2 t t á s 2 és3 t s3é 4 r rts3 2 2 st 6 3 s3 t s3é 2 3t t tt 2 t 3á ó át é 3ó tö r és öss3 és3ít tt 2s 2 s s r ár t é 2 árás 3 és3ít tt 2 t ó s3 ö3ö t és rrá s t t t 2s 2 rá 23 té t 2 árás s3tásá á3 ás tá és s3á3 r ó á 3 tt ét 2 és3 t tás r é 2 é t t s3ö és3ít tt r ó tá t é 2s r s3t s rt t ü térü 3 r3á s r t á t s3t tt r ó és s3 t t í és3 t s3 á ásá és3ít tt r ó és ü sé tá ór 3 és3 é 2s r t 3 és3ü t tá s é 2s 2 r s3ótárr s 2 sé t ításr s3 á tó tá t t rt á é t ás ó s3 r 3ását t r 33ü r 2s s3ö t t 3á t s3ó 2ért sítésér és ü sé 3ésr ss3 2s rá r ó r s3 s3 t 1 s 3 tés 2s 2 t 2 t 3 ér á s3é t rá 2 t tó é 2 é s3 r s ítés ót s3é 2 3t tt t t s3á3 s rá á t s 3 tt sérü é 2 é á t é 2 2 á t 3 tá ó tt é és 2 t t r t 2 árás s rt ás ö3 á t 2 3 és3 2 árás s rt s3é 2 3t t tt s3á3 t só é t 3 é t 2 rs 3 sá és társ á t 3ás r é 2 é t é s3é t 2 árás s té r s3t s 2 rs t 2 s r 2 t tó ét öss3 r s3 rs3á é s3á á ás t á 2s s3é s3á t 2 ét r á sö t ár 2s 2 és túr r s3tí3s 2s 2 t t s tö 2 ör 2 3 té s r át 3 tt s3 r t tö t 2 táss s3 á tár 2 á 2 s é t ó t és és 3 t 3í r 3á ó ár s é t ó 2 r ú 2 s3 á t s3í t r és 2 s átítást
424 414 XIV. Magyar Számítógépes Nyelvészeti Konferencia t rá s örö sé r3ését s ít ú s3 ö3ö étr 3ását s t é t s3 t rá s örö sé é ér t öss3 2 tés r3és rá t é 2 3 s é 2s 2 r t 3á ót és ár s 2s 2 r örö sé 2 t tását é t 3 3 é 2 3és 3 s é é é t ár s 2s ö3össé 3 t r t s t t r ésé tá s ör 2 3 t s só és ö 2 33á ér t t á s 2 s3 á t s3í térré á t 2 2s3 rr t s3 ö3 2 ú s3é ö3össé t r tésé és s3í t r 3 és 2 tá ós r t t és r é 2 3 t á3 s és s3á ító é s 2 s3 ö3ö ö 2 2 s3é ö3össé é 2sá át és 2 r s3tí3sét 2 s 3t ét 3 ét 2 r s3 r t 3 2 t tás t s ér t r és3 t s 2 3ás t rü té s3á s r t é 33 s3é 2 3 t t tt és t 2 tá ó át 3 r3á s r t r té ü sé á t t rt 3ó s3 t t tá ó és3ü t é á ó ö rö t s3 s3 r t és ó 2 á3 s3 á 2 r tör és 2 á r tü r 3ésr á ó 2s ír tt rrás t 3á ó ár 3 tú s3á ító é s 2 s3 ö3ö s3tésér tör s3 3áró é s3é t ár t t s t s3 á ásá s 2s 2 r s3t és3ít ttü t r s rá 2 tött és ár r 3ésr á ó rrás ó s3 á t s3ó és ír tt s3ö s ítsé é s3á 3 t t s s3ö 3ást s3ó 2ért sítést s3 tá ást t é té r ó és s3 t t 3ésr s s r r 2s s3ö t s3 tt t rt é ü t t tá s s3ótár t 2 t é 2s 2 r 2 árr és3ü t 2s 2 árás 2s rá 3és 2 t 2 t 3 ér á s3é t 2 2ütt t 3 rá 2 s á r á át s r s3 r s3á é s3á á ás r é 2 á r tt át 2s í 2 t öss3 r s3é Öss3 s ít 3 t s3á t s é s3á á ás t 2s és s3é á ít tó rá s 3 t á 2t tó ás í s3é s3á tár 3 tt sö é s rt ér t ss 2 t s 2s tö sé t 2s t ó ör3 t r t rü té é r ó á 2 2rés3t r s3 rs3á s3 s3é s ö3 3 tás 2 sé 2s 2 2 árás r s3tás s3á3 ás é t r 3á ót t é té 2 2 öss3 2 tés tá tt 3 tét 2 t és r s3 rs3á r 2 rá t 2 r s3 á t s3tás é 2 2 árás s rt t ü ö ö3t t 3 és3 2 árás s rt t rt 3ó 2 á t 3 t t 3 s3 és 2ó té t r 3 ó ör3 t s3é 3 2 árás s rt ü ö ös tt rs s r
425 Szeged, január s3 s3 2 á t 3 t s3 á t 3 r 2s 2 á 3 és3 2 árás t r s r s3 t és 2 2 tás 3 tt 3 és3 t t ss s s t á t 2 t 2 árás s rt 3 2ó ö3é s és só 2ásá á s3é t 2 á t 3 t ó á t r s3 és ö sö tás 3t t 2 árás t és 2ó té s3é té t tár 2 tás 2 t r t é 2 árás s rt t rt 3ó 2 á t 3 t t 2ó té s3é té tt 2 t r s t tár 2 ö sö tás é 2 árás s3á3 s é 2 t 2 á t 3 t s3á3 ás é ós3í s s é t t t s rtárs t r t á é é é á 2 s3é 2s 2 r s3 t t s3t é t ás ó s3 rr ö s3 ö3ö és3ítés s rá 3 tá t t á3 s t ssá ír t r és3 t s 2 3ás t rü té 3ért átt t ü 2s 2 r r 3ésr á ó r s3tí s t ás t 2s s tót r é s3ö s3 á á sá é ít tt és3 2s r s3ró r s3 t t t rt 3 r át r s3t t tó t 3á ót 3ít té 2 3 ö3ött s r tés ü ö ö3t t s3 r ss3ú á 3ó ö és 3t 2 sírás és t rá r é á t r á s rá é t ü ö ö3 t rü t 3 t rt 3ó té á rö 3ít ttü és3 2s t r ú t 3 t á3 s t 2 tí3 órá 2 s tá s3é t t rt 3 ét 23és s t rt 3 tá s3ö 3 és3 2s 2 r s3t á ít t t s é é é 2s r s3t rtárs s3ö 2 t r ú ó é ít ttü ét 2 és3 á s r át és t rtt r st és 2 s tö t s3á3 é 3 tt 2 tött s3ö t t á 2 t s3 á t tt ss3ú át ó 2 t tt é tr órr 2 túrá r á r s t r t tó át 2t tt 2 tésü t 2 á é ö tés 2 t é 2 2 t s s t ü ö ö3 öt t á t é 2s s3ö é sé é t á ós ér és s3 á é 2s r s3 á t t s r t s 3 át tt 23és s3ö t t 3á t és ér t é t ttü r s3 á 3 t á3 s t ó és s3ó ó á ü ö 1 á s 2sé r s3 r s 1 r rr 1 é33 tá t r ó 3 tt r3 ó s és3ü t 3 tá ó 2 r r ításs 2ütt ér t 2 s 3 t ár 3 s r s3 é t s s3 á tó tt r rts3 2 1s t t s tt r s s r 1
426 416 XIV. Magyar Számítógépes Nyelvészeti Konferencia 2 r s3 s3 á tósá át ít 3 t t r ó és s3 t t tá ó át é r 3 r3á s r t á t s3t tt r ó és s3 t t í és3 t t 33 ü ö ös 2 t r ít r 2 r r és 2 rr 3 tt 2 s s 2 r 3 tá t t 3 r3á s r t á s3 ér t á 3 és á rá t t é át 2 tá t tr ú ít ít P 2 r s r P r tó r í t äsr ä åtå 2 r s s t r P s r r P rs s Pr s á r 2 é 2s t r ó 3és t 3 ét sár á 2 r t ár t st ért r t s s t ú ít ít tó r í t äsr ä åtå ár t st ér tá t 3 ét sár á 2 r t á r 2 é 2s t ü sé 3és t 3 ét sár á 2 r t ár t st ért 1 á s r rrás és s3á3 r ó á t é 2 t tó 2s s3ó 2 á ó öss3 á ít tt s3ótár s t s éséss t s3ótár í 2 3 3ót t t s s3ó 2 át s t rt 33á 3 í ü r 3ésr á s 3 és3 2s 2 á t 3 t ó é r s3ó tár s t ás s3 r t 3áró é 2s s3ó 2 t
427 Szeged, január t rt 3ó s3ótár és3ü t 3ért é 2s r s3 t á é 2s s3ós3 t t 3t étr é 2s s3ótár t t t tt r s3 s3 r s3ót és t é t t rt 3 2 r r ításá és r ó r á ó 2ütt st 3 2 s á t 3 t t r t s t rt 33 3 á t t 2 s3ótár t és 2 t é t 3 t á3 s ó äsr ä sár á 2 ör t > t t s é t s3ótár s3 r s3ó r á ó 2ütt é és > t é ét é 3 t é 2 r r ítás és 2 sírás á t 3 t t r s3 t á Öss3 s t t rt 3 s3ótár 2 s3ó s3 ás 3 tá á3 t át tó 3ó s3á é tár 3ós3ó é é é tó P rt é tá á3 t 3ó é 2s s3ótár 2 t ó s3 ö3ö 2s 2 3 r ó á ú 2 t át 33á és3ü t P s3 ö3ö ó r ó 3 t é 2 ér s3é 2 3t t t tt 2 é á 2 r ó 3 és3ü t ár 33á 3 és3 2s 3 2 r ó 3 t r t r t s3 á és s á á é r st t és s 1t s3ö r t á s s3ö r t 3á 3 ü s s s 2í t rrás ó ú 3 és3 2s 3 3 és ts ár ít 2 r ó 3 t 2 2 ré ót ér t t 2r ár 2s s3ö r t 3á 2 r átírást tt t t s t
428 418 XIV. Magyar Számítógépes Nyelvészeti Konferencia s3 á á 3 2 2í t rrás ó ú s3 ö3 2 2 t t és s3 r t é t r s3t é 2s t t s s3ö 3ásá 3 3 ü 3 és3 és é t s ö3ött ü ö sé é t s 3éró r é ás ö s ö t r ó r á átírás s s3ü sé s 2r s t á 3 2 t s3 á r s3 é33 tá t t t s 2 s3ó s3ótö és 1 s3 r és 3t é ít t ü 3 3 s t 2 rá ít ttü r s3 r ó és s3 t t tá ó á 3 t s3 2 sé tá t t 2 t t ításr s3 á t t r 33ü é t ó ó s3 r 3á sát t t 3á t P t ésr és ü sé 3ésr rs s s r 2s s3ö t t s 3ését s3 tt t rt 3 í 2 és3ü 2í t rrás ó ú P t r 3 és 3 ö3 3 3 rá t ér s3 é 2 2 s 33á ér t Öss3 ás s3é 2 3t t tt 2 t 3á ó át é 3ó tör és öss3 és3ít tt 2s 2 s s r ár t é 2 árás 3 és3ít tt 2 t ó s3 ö3ö t és rrás t t tt 2s 2 rá 23 té t 2 árás s3tásá á3 ás tá és s3á3 r ó á 3 tt ét 2 és3 t tás r é 2 é t t s3ö és3ít tt r ó tá t é 2s r s3t s rt ttü t á á 3 és3 2s r és3ü t r s3 tó s s3ót t ttü r s3 t é 2s s3ö r t t tó 2 t é 2 s öt t t é t 3 3 tt í 2 ár t 3á ás s ér t á t ú 2 2 és3 tt t r és3 t s 2 3ásá 3ó t á 2 s örö t 3 s s é t rá s örö sé rá t ér s3é s ö3ö sé s3á ár s 3 ü s3ö t á tó é r 3 t 2s 2 á t á 3 r s3 rs3á s s s sé é rá t ér t rá s r stá ér ésér s s3á t t rt t tértü 3 r3á s r t á t s3t tt r ó és s3 t t í és3 t s3 á ásá és3ít tt r ó és s3 t t tá ór t 3 és3ü t tá s é 2s 2 r s3ótárr s 2 sé t ításr s3 á tó tá t t rt á é t ás ó s3 r 3ását t r 33ü s s r r és3 2 árás író tt 2s s3ö t t 3á t s3ó 2ért sítésér és ü sé 3ésr é ü 2 r s3 és3ít tt s3 ö3ö s ítsé t 2ú t 2 ü törté t rá t ér 2s és s3é 2 3t t tt ás ö3 és t 2 rá t ér P t tó s3á ár 2 rá t
429 Szeged, január ös3ö t 2 á ítás t tás 3á ító é s s3 ö3ö s3é 2 3t t tt r 2 2 r t 3á ó áért t 3 sítós3á ú r t r té ós t 3 tá tásá t 3ás á s 2 és3 t t ú á 2út ö é 2 st r t s st s3 r t t P 3 r s r r á s r s t r t r s r ü st á á r st t ö 2 ó st r P s s 32 Pr s r r s3t s s r s t r át 3 á t 2 r s r s t s r s r Pr s t r t r t r s t t st s r r s t P t rs r ss á s á á s s ört r é ó st st s s ört r t st t s s s s r r t r r P tr P22s r s r t2 rs s t r t Pr s ss s s s r r t P t r r 3 r s s r ss r ss s s Pr s r Prós3é 2 r r s s Pr s t r s s r t t s t r r t ss r r s á r r ó 3 és r s3 2 r 3á ító é s 2 és3 t r 3 á 2 2 t á á s 1t t ss r é ó st 3 2 r át 3 á 2 3 á s ár 2 s t 2 s r rt s Pr s t rst t r t r s t t st s r r s r sø r 2 t 2st r r t s 1 r s s t s r é ó st
430
431 VII. Laptopos bemutatók
432
433 Szeged, január Shtylo: stilometriai elemzések webes támogatása Dobi Jan Sándor 1, Mészáros Tamás 1, Kiss Margit 2 1 BME Méréstechnika és Információs Rendszerek Tanszék H-1117 Budapest, XI. Magyar tudósok körútja 2. I ép. E437. meszaros@mit.bme.hu 2 MTA BTK Irodalomtudományi Intézet 1118 Budapest, Ménesi út kiss.margit@btk.mta.hu Kivonat: A stilometria a számítógépes nyelvészet dinamikusan fejlődő területe. Széles körű felhasználását azonban gátolja az a tény, hogy alkalmazóinak többsége nincs a szükséges informatikai tudás birtokában. Cikkünkben egy olyan rendszert mutatunk be, amely az R nyelven írt stylo programcsomaghoz nyújt egy teljes értékű webes felhasználói felületet, valamint segítséget nyújt a stilometriai kísérletekhez szükséges korpuszok összeállításában és tárolásában is. Az elkészített szoftver működését egyrészt történeti szövegek elemzésén, másrészt plágiumkeresési feladat végrehajtásán mutatjuk be. 1 Bevezetés A digitalizált szövegkorpuszok létrehozása a hagyományos módszerektől eltérő, új elemzési eljárások kialakítását teszi lehetővé, illetve kívánja meg. Az egyik, napjainkban egyre inkább elterjedő ilyen korpusznyelvészeti módszer a stilometria, amelynek egyik széles körben használt eszköze az R nyelven írt Stylo programcsomag [7, 9]. Az ilyen, alapvetően statisztikai vizsgálatokhoz az R nyelv alkalmazása kézenfekvő megoldás, ám használata olyan speciális szakértelmet kíván, amellyel éppen azok a kutatók kevéssé rendelkeznek, akik a számítógéppel támogatott nyelvi elemzésektől komoly eredményeket várnak. Célunk egy olyan támogató eszköz létrehozása volt, amellyel a felhasználók az R nyelv mélyreható ismerete nélkül is elvégezhetik a manapság leggyakrabban alkalmazott stilometriai elemzéseket. Ehhez kifejlesztettünk egy webalkalmazást, amely egyrészt egyszerűen használható felülettel látja el a Stylo programcsomagot, másrészt kiegészíti korpuszkezelési funkciókkal. Tanulmányunkban az eszköz alkalmazási lehetőségeit két, merőben eltérő adatszerkezetű korpuszon mutatjuk be: egyrészt 18. századi történeti szövegek témaés stíluskategorizálására alkalmaztuk, másrészt mesterséges nyelvű szöveges dokumentumokon végzett plágiumkeresésre.
434 424 XIV. Magyar Számítógépes Nyelvészeti Konferencia 1.1 A számítógépes stilometria és problémái A stilometria, a stílus elemzésének számszerűsített változata, a számítógépes nyelvészet egyik sokat kutatott és széles körben alkalmazott területe. Módszerei alapvetően a statisztikai szövegelemzés területéről kerülnek ki, tipikusan olyan jellemzőket és azokra épülő klaszterezési eljárásokat alkalmaz, amelyek a szövegeket hasonlóságát különféle jellemzőik és azokon értelmezett távolságmértékek szerint ítélik meg. A mértéket úgy szabja meg, hogy a bemeneti szövegeknek a feladat szempontjából releváns jellemzőit ragadja meg. Egy stilometriai vizsgálat több lépésből áll: a korpusz összeállítása, a kívánt jellemzők, valamint a meghatározásukhoz legmegfelelőbb módszerek kiválasztása, az előfeldolgozás, a jellemzőkinyerés és -feldolgozás, majd az eredmény előállítása. Bár a lépések többsége jól támogatható informatikai eszközökkel, és ily módon lehetőség nyílik nagy méretű korpuszok egyszerű és gyors elemzésére, a gépi stilometriai elemzésnek megvannak a maga akadályai, amelyek megnehezítik az effajta törekvéseket. Ezek az alábbi csoportokba sorolhatók: Technológiai nehézségek: Noha a számítógépek kapacitása rohamosan nő, de ugyanez elmondható az elemző módszerek komplexitásáról és a korpuszok méretéről is. A számítógéppel szemben támasztott igényeink általában felemésztik a rendelkezésre álló kapacitást. Az egyre növekvő méretű adathalmazokon futtatott elemzőmódszerek jelentős számítási igénnyel rendelkeznek, ezért van egy felső korlátja annak, hogy egy átlagos kutató mekkora szövegkorpuszokon dolgozhat értelmes időkeretek betartásával. Tudás hiánya: A korpuszmodell megalkotása és a kívánatos jellemzők meghatározása igen tudásintenzív feladat. A kutatónak tudnia kell, hogy milyen jellegeket kíván kinyerni a szövegekből. Erre vannak ajánlások, de minden kísérlet egyedi. Mi több, manapság elemzőalgoritmusok hada áll rendelkezésre: melyiket válasszuk egy adott szövegkorpusz esetén? Hagyományos statisztikai vagy gépi tanulás alapú módszert válasszunk? Ezekre a kérdésekre nincsen egyértelmű és könnyű válasz. Megfelelő módszerek hiánya: Noha számos publikált és implementált módszer áll egy kutató rendelkezésére, de a gépi stilometria mégiscsak egy fiatal terület. Egyelőre nem alakultak ki általánosan optimális megoldások, bizonyítottan jó eljárások a feladatok megoldására. Néha már a probléma formalizálása is akadályokba ütközik. Ide sorolhatók a nyelvfeldolgozással kapcsolatos problémák is. Egy korpusz részletes nyelvi elemzése minden bizonnyal sokkal gazdagabb eredményeket szolgáltatna, de a természetes nyelvű (különösen a történeti) szövegek informált nyelvi elemzését számos tényező gátolja (nyelvtani változatosság, elírások, nyelvi hibák). Ehelyett a statisztikai és a gépi tanulásos black-box módszerek alkalmazhatók egy-egy kutatási kérdés megválaszolásához.
435 Szeged, január Tipikus feladatok A stilometrián belül vannak tipikusnak mondható kérdések, amelyeket megfogalmaznak egy szövegkorpusz elemzése kapcsán, és alapvetően a szerző stílusára, írásmódjára vonatkoznak. Az alkalmazások alapvetően a szöveg megmért stílusjegyeinek felhasználásban különböznek. Az alábbiakban ezekre mutatunk be néhány példát. Törvényszéki stilometria. A stilometria egy jelentős alkalmazási területe a jogászi munka módszertanába is bekerült, jelentős mértékben a bűnüldözés területén van jelen [2]. Amikor nem állnak rendelkezésre fizikai szövegek, csak digitálisak (ami egyre gyakrabban előfordul) a szöveg íróját nem lehet többé az íráskép alapján beazonosítani. A digitális szövegeknek nincsen írásképük, így a szöveg más tulajdonságai alapján kell beazonosítani, hogy ki írta őket. Tovább nehezíti a feladatot az, hogy esetenként számolni kell a megtévesztés lehetőségével [3]. Ide sorolható a plágiumkeresés is, ugyanis ilyenkor is egy megtévesztési kísérletet kell kiszűrnünk. A mintapéldákról szóló rész bemutat egy, a rendszerünkkel végzett plágiumkeresési tesztet is. Történelmi szövegek szerzőségi, autentikusságának vizsgálata. A régebbi korok szövegei kapcsán különböző okokra visszavezetve gyakran merülhet fel a valós szerzőség azonosításának a kérdése. Az ilyen kérdések megválaszolása a nyelv- és irodalomtudomány egyik fontos kutatási területe, amely a digitális módszertannak köszönhetően a korábbiaktól hatékonyabb módon képes megválaszolni a tisztázatlan kérdéseket. A stilometriának ez az egyik legtermékenyebb területe [18], amely a modern a korban jelentős eredményeket hozott kezdetben különösen a Shakespearekutatásban [4, 19]; de azóta számtalan más szerzővel kapcsolatban is, ami következésképpen a módszertan folyamatos változását eredményezi [20]. A cikkünkben egy magyar 18. századi szövegeken végzett kísérletet mutatunk be. Időbeliséganalízis. A harmadik jelentős terület, ahol eredményeket értek el stilometriai eszközökkel: a bizonytalan korú szövegkorpuszok időbeliségének vizsgálata. Lorenzo Valla kísérlete részben szintén ide tartozik, aki elemzését a szöveg latin stílusának korára alapozta. Wincenty Lutosławski elemzése is egy effajta kísérlet: Platón párbeszédeit rendezte időrendi sorba stilisztikai jellemzőik alapján [6]. A platóni dialógusok kérdése azóta számos alkalommal megragadta egy-egy kutató figyelmét, hisz az időbeliség kulcsfontosságú Platón filozófiájának megértéséhez. Napjainkban a szerzőségi vizsgálatokat alkalmazzák nyelvtörténeti periodizációban, de szerzői életmű korszakolásában is [21]. Esettanulmányként mi is végeztünk egy kísérletet, amelyben Mikes Kelemen műveinek kronológiai vizsgálata volt a cél. Csoportbéli hovatartozás vizsgálata. Egy adott szöveg esetén nem csak a konkrét szerzőre lehetünk kíváncsiak. Számos esetben elegendő, ha el tudjuk dönteni, hogy valamely csoporthoz való tartozása fennáll-e [22]. Bizonyos elemzésekben már ez is értékes információkkal szolgálhat. Kérdés lehet, hogy a szerző férfi-e vagy nő, milyen nemzetiségű, idősebb vagy fiatalabb, milyen iskolázottságú, milyen személyiségtípusba tartozik. Az efféle elemzések egy speciális esete a szerző anyanyelvének meghatározása az idegen nyelvű írása alapján.
436 426 XIV. Magyar Számítógépes Nyelvészeti Konferencia 1.5 Stilometriai eszközök A stilometria egyre népszerűbb tudományterület, számos módszerének létezik szoftver-megvalósítása. A Signature [7] ingyenes szoftver, melyet Peter Millican fejleszt az Oxfordi Egyetemen. A weboldal szerint főleg szerzőségi vizsgálatra alkalmas. Számos esettanulmány található a weboldalon, melyet azonban úgy tűnik nem frissítettek egy ideje. A Java Graphical Authorship Attribution Program, vagy JGAAP [8] egy nyílt forrású, szabad szoftver, melyet a Githubon lehet elérni. Fő fejlesztője Patrick Juola. Például a Robert Galbraith álnéven publikált Kakukkszó című regény valódi szerzőjének (J. K. Rowling) azonosításához a JGAAP szoftvert alkalmazták, az elemzésben Juolanak jelentős szerepe volt. A Stylene az Antwerpeni Egyetem CLiPS kutatócsoportja által működtet stilometriai webszolgáltatás holland nyelvre. Az általunk is használt stylo, mely a Shtylo alapját képezi, egy R-csomag, melyet Maciej Eder, Jan Rybicki és Mike Kestemont fejlesztett, szabad nyílt forrású szoftver. A következő rész ezt a csomagot mutatja be. 2 A stylo csomag A csomagot Maciej Eder, Jan Rybicki és Mike Kestemont írta [9]. A csomag szabad szoftver, letölthető a Githubról [10] ban készült, megjelenése előtt [11] a teljes stilometriai workflow feltehetőleg a JGAAP kivételével nem állt rendelkezésre egy szoftver részeként. A stylo magába foglal számtalan releváns elemzési módszert, továbbá megkönnyíti a teljes stilometriai folyamatot. A csomagba foglalt magas szintű csomagolófüggvények a workflow majdnem minden lépését elvégzik helyettünk, csak a konfigurációjukat kell megadnunk. 2.1 A Stylo főbb funkciói A csomag öt fő magas szintű csomagolófüggvénnyel rendelkezik, melyek magukba foglalják az egyes lépéseket és egy egész elemzést végigvisznek az elejétől a végéig. Hívható grafikus felülettel, ekkor a paraméterek grafikus vezérlőelemek segítségével állíthatók be, vagy grafikus felület nélkül, ekkor a paraméterek R kódból állíthatók. A felhasználói felületre látható példa az 1. ábrán, amelyen a stylo függvény paraméterek nélküli meghívásának eredményét látjuk. A többi csomagolófüggvény felülete is nagyon hasonló.
437 Szeged, január ábra. A stylo csomag stylo() függvényének grafikus felülete. Az öt függvény: stylo: A függvény feladata, hogy a stilometria fő irányzatának számító modellalapú, statisztikai módszereken alapuló elemzést hajtsa végre. Számos elemzési eljárás közül választhatunk, mint a klaszteranalízis, a Multidimensional Scaling (MDS), a főkomponens-analízis kovarianciamátrixszal (PCV), a főkomponens-analízis korrelációs mátrixszal (PCR) és a konszenzusfa (BCT). A módszerekben különféle távolságmértékeket alkalmazhatunk (euklideszi távolság, Manhattantávolság, Burrows-delta [12], Argamon-delta [13], Eder-delta, egyszerű Ederdelta, Canberra-távolság, koszinusztávolság). classify: A függvény gépitanulás-alapú osztályozó algoritmusok futtatására alkalmas. Az eljárás kétlépcsős: először betanítunk egy osztályozót egy megfelelően strukturált tanítóminta-készlettel, majd a számunkra érdekes szövegeket megkíséreljük az osztályozóval besorolni. A függvény számos eljárást ismer (Burrows távolságmérték, k-nearest Neighbours, Szupportvektor-gépek, Naiv Bayes, Nearest Shrunken Centroid). rolling.delta, rolling.classify: A már említett elemzések görgetett változata: céljuk, hogy egy korpusz szövegein belül stilisztikai váltások felismerését tegyék lehetővé. A szövegeket adott méretű átlapolható ablakokra osztjuk, és minden ablakon egy elemzést hajtunk végre. Az így kapott értékeket egy grafikonon ábrázolva hirtelen változásokat lehet felfedezni, melyek számos dolgot jelenthetnek, pl. egy szerző átvette a művet egy másiktól. oppose: A függvény két szövegkorpusz összehasonlítására való. A függvény eredményeként két szólistát kapunk: az első a tesztelt szerző által kifejezetten
438 428 XIV. Magyar Számítógépes Nyelvészeti Konferencia preferált szavakat tartalmazza, míg a második ezzel szemben a szerző által kifejezetten került szavakat. 3 A Shtylo webalkalmazás A stylo potenciális alkalmazóinak jelentős részétől nem lehet elvárni, hogy ismerje az R programozási nyelvet, és tudjon használni egy R-csomagot. Ez más jellegű szakértelmet igényel. Manapság webrendszerekkel mindenki kapcsolatban áll, így egy megfelelő webes felhasználói felület alkalmazásával kezelhetjük ezt a problémát. Noha a stylo csomagnak létezik egy grafikus és egy kezdetleges webes felülete is (a websty), ezek nehezen használhatók. Számos érv szól amellett, hogy a stylohoz készítsünk egy színvonalas webalkalmazást. A felhasználói felület azonban nem az egyetlen megoldandó probléma. Érdemes még egy terhet levenni a kutató válláról: a futtatókörnyezet kialakítását (szoftverek telepítését és beállítását). Egy webalkalmazás esetén csupán egy böngészőre van szükség, az R program egy szervergépen fut, ott egyszer kell a szoftvert telepíteni és beállítani. Egy harmadik szempont is említést érdemel. A stylo elemzései igen számításigényesek is tudnak lenni: nagy korpuszokon sok memóriát és processzoridőt tudnak fogyasztani. Ez jelentősen szűkítheti azon eszközök halmazát, ahol az eszköz használható. Ha egy központi, erős szervergépen fut az alkalmazás, akkor a szolgáltatásokat egy gyenge kliensről is el lehet érni, bárhova magunkkal lehet vinni, és igény szerint lehet elemzéseket futtatni. Ez a megoldás jól illeszkedik az informatikai szolgáltatások felhőalapú (azaz jól skálázható) megvalósításához is. Az általunk készített Shtylo rendszer az eddigiek mellett egy további jelentős hozzáadott értékkel is bír, ez pedig a korpusz adatbázis-alapú tárolása. A stylo csomag a korpuszt, az elemzési eredményeket mind fájlok alakjában tárolja. Ez rosszul skálázódik, és nem nagyon alkalmas arra, hogy a segítségével korpuszokat építsünk és tartsunk nyilván. A Shtylo ezzel szemben a korpuszépítésben is segítséget nyújt. A felületen szövegeket lehet adott korpuszokban feltölteni, és a korpuszokat egy adatbázisban tárolja el. Ez jól skálázódik, tehát jelentős mennyiségű szöveg és sok felhasználó esetén a replikáció és terheléselosztás is megoldható. Ugyanez a fájlrendszerben tárolt fájlokkal jóval nehezebb lenne. 3.1 A Shtylo felépítése és technológiái A Shtylo alapvetően egy kliens-szerver alkalmazás, amely kliens oldalon standard webböngészőt alkalmaz, szerver oldalon pedig az R környezet mellett egy webkiszolgálóra és egy korpusztárra (adatbázisra) épül.
439 Szeged, január ábra. A Shtylo főbb részei Technológiai oldalról nézve a Shtylo a webes felület összeállítására a Shiny [14] keretrendszert használja, mely egy R-nyelvű webalkalmazások fejlesztésére alkalmas reaktív szoftverkönyvtár. Innen ered alkalmazásunk neve is: (Sh)iny + s(tylo). Adatbázis-technológiának a MongoDB [15] dokumentumalapú adatbáziskezelőt választottuk, ugyanis adattárolási modellje jól illeszkedik a feladathoz és minden teljesítménybeli vagy funkcionális igényt kielégít. 3.2 A korpuszokról A Shtylo rendszerben az adatréteg egy MongoDB adatbázis, amelyben a szövegek ún. gyűjteményekbe vannak szervezve és több gyűjtemény alkot egy adatbázist. Amikor egy szöveget feltöltünk, az a szöveg mindig egy MongoDB gyűjtemény, vagyis a mi értelmezésünkben egy korpusz tagja lesz. Amikor a Shtylo meghívja a stylo csomagot, akkor mindig az aktuálisan csatlakoztatott MongoDB gyűjteményt adja át neki elemzésre, azaz egy korpuszt. A gyűjtemények, vagyis korpuszok mindig egy adatbázisnak a tagjai, amelyeket felhasználókhoz, illetve projektekhez rendelhetünk.
440 430 XIV. Magyar Számítógépes Nyelvészeti Konferencia 3. ábra. A Shtylo adatbázis-felülete. Balra az adatbázis és a gyűjtemény kiválasztása, jobbra lent a feltöltésre szánt fájlok megadása, felette az adatbázisnapló látható. 3.3 A rendszer a felhasználó szemével Felhasználóként a rendszer igen egyszerű. Az alábbi cselekvésekkel lépünk kapcsolatba a rendszerrel: 1. Kiválasztjuk, mely adatbázisnak mely gyűjteményén kívánunk dolgozni. 2. Ha ez még üres, akkor feltölthetjük a szövegeinket. 3. Elemzéseket futtatunk: kiválasztjuk, hogy jelenleg melyikre vagyunk kíváncsiak, és beállítjuk a paramétereit. A paraméterek a stylo beállítási lehetőségeitől függnek. 4. Az eredményeket a felületen látjuk, az adatokat, képeket változatos formátumokban elmenthetjük a lokális gépünkre. 4. ábra. A csatlakozási űrlap és a napló egy sikeres csatlakozás esetén.
441 Szeged, január ábra. A stylo() függvény felülete a Shtylo webalkalmazásban egy elemzés lefuttatása után. A rendszer jelen pillanatban még csak a stylo() függvény számára biztosít felületet, mivel azonban ez a leggyakrabban használt funkció, ezért már így is hasznos lehet a stylo felhasználói számára. A továbbiakban három elemzési példát mutatunk be, melyek elvégzése során a Shtylo segített a stylo gördülékenyebb használatában. 4 Példák A három példa közül kettő a Mikes-életművel foglalkozik. A harmadik egy kísérlet arra, hogy a stylo csomagot plágiumkeresésre használjuk egy egyetemi tárgy házi feladatára beküldött megoldásokon keresztül. A Mikes-műveket a stilumetriai elemzés előtt egy szótárra épülő módszerrel normalizáltuk annak érdekében, hogy a szavak jellegzetesen sokféle írásmódja minél kevésbé torzítsa az eredményeket. A normalizálás részleteiről a [23] irodalomban számoltunk be. 4.1 Első kísérlet: saját művek és fordítások Ebben a kísérletben arra a kérdésre kerestük a választ, hogy eldöntsük a stylo segítségével, a mikesi életműben hogyan viszonyulnak a saját művek a szerző által készített fordításokhoz. A kísérlet megtervezésekor az alábbi dolgokat tartottuk szem előtt: Mikes Kelemen saját művei egy fájlban voltak megadva, míg a fordítások külön-külön. Így az egyik osztályban több volt a mű, mint a másikban. Ilyenkor a Klasszikus Delta torzíthatja az eredményeket, így Eder deltájára került a választás, mely a nem izoláló nyelveken jobban teljesít.
442 432 XIV. Magyar Számítógépes Nyelvészeti Konferencia A konszenzusfa építése során magasra állítottuk a konszenzusküszöböt, mivel célszerű maximalizálni azt a hasonlóságot, ami mellett egy fordítás összekötésre kerül az eredeti művekkel. A műhosszak jelentős szórása miatt a mintavételezés mellett döntöttünk, és a szövegeket jelleg hosszú darabokra osztottuk fel, ezzel csökkentve a statisztikai torzulást. 6. ábra. Az első kísérlet konszenzusfája. Ennek az elemzésnek az eredményeképp a kísérlet során a művek jól láthatóan négy csoportba sorolódtak, amely árnyalja az életmű eddigi felosztásáról alkotott képet is. A beállítások finomításakor azt tapasztaltuk, hogy Az idő jól eltöltésének módja című fordítása mindig nagyon közel esik a Törökországi levelekhez (saját szerzőségű mű), bármilyen beállítást is használunk. Ezen kívül látni, hogy a többi fordítást külön konszenzuságakban találjuk meg, tehát csak ez az egyetlen fordítás volt olyan közel az eredetihez, hogy a futások 90%-ában volt közöttük közvetlen kapcsolat. Meglepetés az is, hogy az eddigi hagyományos kutatásokban a Törökországi levelekhez sok szempontból kötődő Mulatságos napok című fordítás nem kapcsolódik olyan szorosan a levelekhez.
443 Szeged, január Második kísérlet: művek tematikája Ebben a kísérletben az volt a cél, hogy tematikai vizsgálatot végezzünk az életmű egészében. Arra voltunk kíváncsiak, hogy a stylo képes-e a különféle tematikájú szövegeket, így az egyházi, erkölcsi és élőbeszéd kategóriájába sorolható műveket különválasztani, illetve hogy ezek a művek stilisztikai szempontból megkülönböztethetőek-e. Három élőbeszédes, egy erkölcsi, és tíz vallási témájú szöveg alkotta a korpuszt. Ennél a kísérletnél: A Canberra távolság mellett döntöttünk, mert az érzékeny a ritka szókincsbeli különbségekre. A művek hosszeltérését itt is mintavételezéssel ellensúlyoztuk. A konszenzusküszöböt itt alacsony, mert itt az a kérdés, hogy a művek kapcsolatban lesznek-e egymással Canberra távolság mellett, vagy távol maradnak. 7. ábra. A második kísérlet konszenzusfája. A kísérlet eredményeképpen két fő dolog látszódik világosan kirajzolódni. Először is az élőbeszéd jellegű szövegeket jól láthatóan külön lehet választani a többitől. Másodszor pedig az erkölcsi témájú szöveg besorolódik egy fába a vallási témájú szövegek egy részével. Tehát itt a stylo főleg arra volt képes, hogy az élőbeszédes szövegeket és a nem élőbeszédes szövegeket különválassza amely a stilisztikai, szövegnyelvészeti kutatások számára nagy előnnyel bír, s ez a legerősebb stilisztikai marker ebben a korpuszban.
444 434 XIV. Magyar Számítógépes Nyelvészeti Konferencia 4.3 Harmadik kísérlet: plágiumkeresés Ez a kísérlet eltér az eddigiektől annyiban, hogy a stylo efféle használata nem dokumentált. Érdekes kérdés, hogy használható-e plágiumkeresésre is, ráadásul nem természetes nyelvű szövegeken, hanem forráskódokon, jelen esetben Java nyelven írt házi feladatokon. Az eredmények meglepően jók lettek, a referenciaként használt Sherlock [16] is azt a kettő párt adta valószínű plágiumként, mint a stylo. Emögött az ok valószínűleg az, hogy a plágiumok nem voltak túl szofisztikáltak. Az egyik eleve teljesen azonos másolat volt, ez nem tekinthető sikernek, a másik pedig relatíve egyszerűen azonosítható gépies módosításokat eszközölt a forráskódon. Ennek ellenére is biztató eredmény, hogy a stylo eredményesen működött. 8. ábra. A harmadik kísérlet konszenzusfája. 5 Összefoglalás Célkitűzésünk egy olyan rendszer megvalósítása volt, amely az informatikában nem jártas kutatók számára is elérhetővé teszi az R nyelven írt stylo programcsomag alkalmazását. Használatához nincs szükség egyéni szoftvertelepítésre és - konfigurációra, mivel a program központi szerveren és ahhoz kapcsolódó böngésző
445 Szeged, január alkalmazás segítségével működik. A megvalósított programunk azonban többet nyújt egy egyszerű webes felhasználói felületnél. Egyrészt olyan elemzési módszereket állítottunk össze, amelyek a stylo legfontosabb eszközeihez nyújtanak egyszerűen használható felületet azok bonyolult numerikus paraméterezését mellőzve. Ezek lehetővé teszik a szövegek stilometriai elemzését az R programozási nyelvet és a stylo programcsomagot nem ismerő felhasználók számára is. Másrészt a rendszert kiegészítettük egy MongoDB-re épülő korpusztárral, amely a stylo fájlalapú korpuszbeviteli megoldásához képes lényegesen rugalmasabb tárolási és menedzselési lehetőségeket kínál. A felhasználók a webes felületen keresztül állíthatják össze a korpuszt, és adhatják meg annak kiválasztott részeit az elemzések számára. A rendszer működését több kísérletben ellenőriztük történeti szövegek klaszterezése és programszövegek plágiumkeresése céljából. A megvalósított rendszer nyílt forráskódú ( a DHmine keretrendszer részét képezi ( Közzétételével szeretnénk az egyre nagyobb népszerűségnek örvendő stylo eszköztárra felhívni a hazai kutatók figyelmét. Reményeink szerint az egyszerűen használható webes felülettel hozzájárulunk a stilometriai módszerek hazai elterjedéséhez. Köszönetnyilvánítás A projekt az Európai Unió támogatásával, az Európai Regionális Fejlesztési Alap társfinanszírozásával valósul meg (EFOP ). Bibliográfia 1. Lutosławski, W.: Principes de stylométrie. (1898) 2. Totty, R.N., Hardcastle, R.A., Pearson, J.: Forensic linguistics: The determination of authorship from habits of style. Journal of the Forensic Science Society, 27(1): (1987) 3. Brennan, M., Afroz, S., Greenstadt, R.: Adversarial stylometry: Circumventing authorship recognition to preserve privacy and anonymity. ACM Trans. Inf. Syst. Secur., 15(3):12:1 12:22. (2012.) 4. Elliott, W.E.Y., Valenza, R.J.: And then there were none: Winnowing the Shakespeare claimants. Computers and the Humanities, 30(3): (1996) 5. Mosteller, F., Wallace, D.: Inference and Disputed Authorship: The Federalist. Addison- Wesley. (1964) 6. Lutosławski, W.: Sur une nouvelle méthode pour déterminer la chronologie des dialogues de Platon. Paris: H. Welter. (1896) 7. Millican, P.: The Signature Stylometric System (2017. november 24.) 8. Juola, P.: Java Graphical Authorship Attribution Program. (2017. november 24.)
446 436 XIV. Magyar Számítógépes Nyelvészeti Konferencia 9. Eder, M., Rybicki, J., Kestemont, M.: stylo: Functions for a Variety of Stylometric Analyses, (2017. november 24.) 10. Eder, M., Rybicki, J., Kestemont, M.: computationalstylistics/stylo: R package for stylometric analyses (2017. november 24.) 11. Eder, M., Rybicki, J., Kestemont, M.: Stylometry with R: a suite of tools. In Digital Humanities 2013: Conference Abstracts, pages (2013) 12. Burrows, J.: Delta : A measure of stylistic difference and a guide to likely authorship. (2002) 13. Argamon, S.: Interpreting Burrows s delta: geometric and probabilistic foundations. Literary and linguistic computing, 17(3): (2002) 14. Rstudio: Shiny by RStudio (2017. november 24.) 15. MongoDB, Inc.: Introduction to MongoDB (2017. november 24.). 16. Department of Computer Science, University of Warwick: Sherlock Plagiarism Detection Software (2017. november 24.) 17. Dobi, J. S.: Shtylo Wiki. (2017. november 24.) 18. Jack Grieve, Quantitative Authorship Attribution: An Evaluation of Techniques, Literary and Linguistic Computing, Vol. 22, No. 3, Craig DH, Kinney AF, Shakespeare, Computers and the Mystery of Authorship, Cambridge University Press, Cambridge, UK, 234 (2009) 20. Kestemont, M., Stover, J., Koppel, M., Karsdorp, F., Daelemans, W. (2016). Authorship Verification with the Ruzicka Metric. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp van Hulle, D., Kestemont, M. Stylochronometry and the Periodization of Samuel Beckett s Prose. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp (2016) 22. Deeper Delta Across Genres and Languages: Do We Really Need the Most Frequent Words? Literary and Linguistic Computing 1-7, (2011) 23. Margit Kiss, Tamás Mészáros, Creating an extended author's dictionary to support digital literary research In: DH Benelux Luxembourg (2016)
447 Szeged, január r és3 t s 2 t r és3 tr és t 3ást r 3 s3 á t tás 3 é 2 3sár s á r st s3 és 3 sá t á 2 2 t t t 3á ás és 3 tt r t s3é t r 33 2 ss r t r 2 á s ér t t t 3ás 2 t r és3 t s 2 írt ér és r r á st tö ö3 éss s t s r á ó t ít 3 3ás 3 t é t s3 2 é á 2 s3ó ó á ó tör é s t s 2 t ssá 3 3ü s3 á ó s3á é t 3 2 r 2 3ó t r rá ó á ös3ö t r s3 r é s t s3 r é s tr t s 2 3 3és s rá ü ö ö3 s3 tá ó t r s r ó t é t s3 2 2 r r ó tö ért t 3 3ést társít s r s3 r á tö tí s3 á ó 2 á s ér t tt s t t s rrás ó 33á ér t tt s t t 3 tés r 33 t t 3ást t t 2 s ítsé é s3 á ó t r és3 t s 2 á t t r á ó 3 st tö ö3 ésr r s3 r ss r t r 2 á s ér t és é s t r r r 3 rö tör é s s3 á ó ér és ért 3ésér 3 tést ö t s3ör t t tását és á t á s é ítését 3 t 3 tá ss3ü s rr t s t 3 t s3ö 3ó st t t rés3 3 2 s s3 á ó érés t ért 3 és á s3 3 s3ü sé s r á ó t ér 3 s rés3 t t s rt t ü ér 3 érés 2 r tö é 3és s rá tó 3ért r s3 r t á t s ó 3 r s r ás 2r 3 3 t ír rés3 t s é ü 3 t t t é t t rá t 3 3ást ss r t r r és 2 2 t s3t t árt 2 á s ü3 ss r 3ás tt s t r s3 r rrás ó tt s t t ér t t t r3á ós á s 2 r r 2 s3 á ó t r és3 t s 2 t s3 á t t r ó é és t t 3t ért t á s3 r á ót s3 á t t 2 ü ö ö3 t t é r t t t t 2 r 3 sít á 3 á t á s t át ósító
448 438 XIV. Magyar Számítógépes Nyelvészeti Konferencia t ts3 s té á ár s3é t 2t tó r r 3 3 s 2 tsé s 3ás t rü t r3á ós á s t t á s 2 s rt á 3 2 t r éss3 r 3 r r t rt r ó tár 3 tt té ör é s t t át 3 t r r t t s3 s s t t s 33ü 3 tó 2 ér és ö 3 rt á s s3 é 2 ss3 s3t s t 2 t r tá t r r á s3é s ör é s ü ö ö3 t é 2sé t é 3 t í ás ítás t r t s r sés é r tás út t r 3és st 3 3 á t tó t s3á é r s r át 3 tt á t á s t át ósít 2 t s3 s s t t t tá tó r s3 r ö ését ír 3 2 3ás sá t r t ü tét 3 3 ü3 t ü 3ás á 3 á t t t tt 3ást í 2 ss r t r s ítsé é t s3t ü 3 t t rá ó s t ssá ú 3ért s rt s ss s r r rt s3 r t 3 ü3 t ü 3ás ár s s3 á ó s3á ír t 3 2 s ö3össé á ó 3 t rt 3ó 3ás 3t ár ár tö ü3 t ü 3ás t és3ít é s rt és 2r tö 3t sít 3 t t 3á t ü3 t ü éss s t t rá ós t sé t s3t s3á ár t s s t t s3 á ás t rü t é s té 2 r st r s rt t t 3á ás ár sé é 2ítés s ítás és s3 á ó r á ás ásár ás 2 2é s é 2 s t s r á ó á t 3ás ró é ó s tt rtás í ü s3á s rá ót s ít s3 ö3 t á tó 2 3 ü3 t á tás r é é t rés3t é ü ö ö3 t t 2 3t tés é 3t t st és3ítés st é r tásá s ít s3é t társ t á á ét 3 2 3ás 2 2 á s s3 é 2 é t s ít ü ö ö3 r á ó 3 t r s3 rü 2 st tö ö3 ést s ít t t 3ás 2 t é t s3 2 s3 á ó rö s3ö s ü3 t s ítsé é é 33 tr és t 3ást r 3ést r 33 r s3 r tás 3 3 r 33 2 t t 2 á t és3ít tt ss r P t r r s3tü 2 á s ér t t t st tö ö3 éss s t s3 á t t r á ó t s3 á ó ítsé é t ö3 ü é á ó ó ó ár t ás ét t t rtó3 ás 2 ü és 2 tt s ír t ár t és á ó ét 2 tr ér í á s 2 3ö s ü3 t á 2 23 t á s3tó s ítsé é ö t s3 á t tás á t tt í ö3ött út t s t r 3 tü 3 3ás t á á t t ü tt s t
449 Szeged, január t 2 3 r és 3 út t r 3és s rá ö 2 t 3 ss r s3 r é á 2 t társ ás r át s tá t í 2 ös3ö ésr s á s3t és tást t tó s é ü3 t t t 3 á r 2 t s út t r 3ésr rá 2 ó ár s3é t t t á r Út t r 3és t tt é ítés r 33 s3ö 3ó r s3 r 2 2 3ó 2 3 és t 3ó t 2 r s r ó s á öss3 2 3ó é tt t t s3ö t 3 2 r 2 3ó á t 3á ó t 3á ó és r ó 3 rés3 t s 3 t 2 3ás tá 2 3és tá á3 t és3ü 2 s rá 3 2 s 3 s3ó s t ér 3ésr rü s3 á t P tó és t á t ü ö ö3 s3 t á ts3á t 2 tát 3 t ír 3t ö t rá ó t s3ö öss3 s tsé s s3tás 3 2 s s3tás 3 3és tá á érté ésr rü é ü ításr rü 3 3és s rr s3 tá ó és r s r ó ö ésér 3 3 t s3ó
5. Feladat. Mennyi a valószínűsége annak, hogy 52 lapos franciakártya-pakliból 5 lapot húzva a következő kombinációkat kapjuk?
Valószínűségszámítás feladatsor 1. hét 1. Feladat. Bizonyítsuk be a következőket tetszőleges A és B eseményekre: P(A B) P(A)+P(B) Ha P(A B) = 0, akkor P(A) = P(B) P(A C) P(A B)+P(B C) P(A B) P(A)P(B) 1
VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség
r rt t é t t t r r q rs té P r s P t é r t r rs té r é
r rt t é t t t r r q rs té P r s P t é r t r rs té r é t r és é t é r é q r s rt s r è s q s t à ét r r t t t à r r s r s s t tés s P r r rté r t q s è s é ss t t îtr t 1 r s st t t tr r é t P r r rs à
XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika
XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2015 Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika Szeged, 2015. január 15-16. http://rgai.inf.u-szeged.hu/mszny2015 ISBN: 978-963-306-359-0
ő ö ő ü ö ő ú ö ö ö ő ú ö ö ö ö ö ő ö ö ú ö ö ö ö ú ö ő ő ö ű ö ő ö ö ö ő ő ö úő ö ö ő ö ü ö ö ő ö ő ö ü ö ö ö ü ö ö ö ő ü ő ö ü ö ő ú ű ö ü ü ö ü ő ő
Á Á Ó É ö ü ü ö ő őü ö ö ö ö ő ú ö ő ő Ü ő Ö ö ő ö ő ő ö ö Ö ú ü ü ű ö ö ö ő ö ö ú ú ú ö ö ú ő ő Á Á ö ő ö ö ő ú ö ő ű ö ö ő ő ö ö ö ü ö ö ö ú ö ö ö ö ö ú ö ö ö ő ö ü ö ö őü ő ő ö ö ö Ü ő ö ö ö Ü ö ö ü
Hunfoglalás - Kékes-Vertikál, Kékestető 1 kör - 6 km nemenkénti és kategóriánkénti eredménylista
Férfi 20 év alatt 1 1102 BOROS Ádám 2004 01:14:33 7 7 12:25 min/km +00:00:00 2 1064 RÁCZ Balázs 1997 01:18:10 11 10 13:01 min/km +00:03:37 3 352 SZABÓ Dávid 1999 01:18:43 12 11 13:06 min/km +00:04:08 4
Hunfoglalás - Kékes-Vertikál, Kékestető 1 kör - 6 km nemenkénti és kategóriánkénti eredménylista
Profi 1 1087 VARGA Zoltán Csaba 1972 00:55:25 1 1 9:14 min/km +00:00:00 1 1009 BITA Árpád 1985 00:56:34 2 2 9:25 min/km +00:01:08 1 1063 PICHLER Tamás 1988 01:05:55 3 3 10:58 min/km +00:10:27 3 352 SZABÓ
É É ü É Ü É É Ú É Ü ü ő ü ü ö ű ö ü É Ő É Ü É É É ú í í ú í í ú í í ó ú í í ú í ú í í í ő É Ő Í É É Í É
ó É Ü ó Ú É É ü É Ü É É Ú É Ü ü ő ü ü ö ű ö ü É Ő É Ü É É É ú í í ú í í ú í í ó ú í í ú í ú í í í ő É Ő Í É É Í É É í ó ó ö ü í ő ú í ő ő ó ó í ű ő í í ö ü ö ó ö ő ő í ó í í ü ö ű ő ó ú ó ü ó ü ö ő ó í
ö Ú ö Í ö ö ú ö Í ö ö ö ö ö ö ö ö ö ö ú ö Í ö ö ö ú ö ö ö ö ö Ó ö É ö ö Ö ö
ű Ü É ú ö ű ö ö ö ö ö ö ú ú ú Ö ö É É ö Ú ö Í ö ö ú ö Í ö ö ö ö ö ö ö ö ö ö ú ö Í ö ö ö ú ö ö ö ö ö Ó ö É ö ö Ö ö Ö ö ú ö ö ö ö ö ö ö ú ö ö ö Í ö ú Í ú ö ú ú ú ö ö ö ö ö ö ö ú ú ö ö Ö É É ö ö ö ö ö ö ö
Január 7. hétfő. I. Beszédtechnológia, fonológia
Január 7. hétfő 09:15-10:45 Regisztráció, kávé 10:45-11:00 Megnyitó 11:00-12:00 Plenáris előadás Gósy Mária: Spontán beszéd: szabályok és szabálytalanságok I. Beszédtechnológia, fonológia 12:00-12:20 Grósz
ö ö ö ő ö ő ö ő ü ö ü ö ő ö ő ő ő ú ö ö
Ó Ú Á É ö ő ő ő ő ö ú ú ö ú ő ö ú ö ö ö ő ö ő ö ő ü ö ü ö ő ö ő ő ő ú ö ö ő ú ü ö ú ü ő ö ő ö ö ő ö ú ő ő Á Á ö ő ö ő ű ö őö ő ü ő ö ú Ö É É Á Á Á Á Á Á Á Ö ö ö ú ő ő ö ö ö ö ö ö ő ü ő ö ö ö ö É ö É Á
Tanuló neve azonosító felvételi sorrend Megjegyzés
Élelmiszer- és vegyiáru eladó Tervezett létszám: 12 fő Süveges Attila 10. B 1 felvéve Földvári Beáta 10. B 2 felvéve Vadász Brigitta 10. B 3 felvéve Kun Ibolya 10. B 4 felvéve Baktai Vivien 10. B 5 felvéve
1. A OSZTÁLY Bogdán Dániel Bogdán Edina Bogdán György Bogdán György Bogdán Krisztián Bogdán László Bogdán Richárd Czimmerman Patrik Horváth Dorotina
1. A OSZTÁLY Bogdán Dániel Bogdán Edina Bogdán György Bogdán György Bogdán Krisztián Bogdán László Bogdán Richárd Czimmerman Patrik Horváth Dorotina Hörcsöki Alíz Kovács Antónia M. Kovács Dávid Kovács
Ö ö í ó ö ó ö ö í í Ü ö Á ö Ö ü ö Ö ü ó í í ö ü ü ö ó ü ú ű ó ó í ú ó Ó í ó ó ü í ó ó í ó í í ú ú ű ó í ú í űö ü Í ö Ö ü ö Ö ü ú ü ó ú ó
ö ü Ö ü ü ó í í ö ö í ü ú ü ó ü ó Ö ö í ú ü ó ó í ó ü ó ü ö Ö ü ö Ö ü ü ü ó Ö ö í ú ó ó ó ó ü ó Ö ö í ó ö ó ö ö í í Ü ö Á ö Ö ü ö Ö ü ó í í ö ü ü ö ó ü ú ű ó ó í ú ó Ó í ó ó ü í ó ó í ó í í ú ú ű ó í ú
Országos fordulón elért pontszám DÍJ / HELYEZÉS. Felkészítő tanár(ok) TANULÓ NEVE MEGYE HELYSÉG ISKOLA
DÍJ / HELYEZÉS TANULÓ NEVE MEGYE HELYSÉG ISKOLA I. díj Homonnay Bálint Bp VIII. Budapest I. díj Németh Ilona Bp VIII. Budapest II. díj Tatár Dániel Bp VIII. Budapest II. díj Ágoston Péter Bp VIII. Budapest
Sapientia EMTE Gazdaság- és Humántudományok Kar. Közgazdaság képzési ág Csoportbeosztás tanév
Közgazdaság képzési ág 1 Ambrus K. Norbert A A1 2 Antal V. Tamás A A1 3 Babota G. Zoltán A A1 4 Baczoni G. Gyopárka A A1 5 Baló Cs. Zsolt A A1 6 Baricz C. Anita A A1 7 Bartha L.-J. Boglarka A A1 8 Bartók
Í ő ó Ü ő ö Í í ű ő ú
íő ű ő ő Í Ü ó ö É Á ö ó Í ö ö ó ú ő ó Í ő ó Ü ő ö Í í ű ő ú ő í ú ő ü ö ö ü ü ü í ó í í ó ó í ű ö ö ó ú ö ö ö ü ű ü ó í ö ö ö ű ü ó ü ü ú ő ó ö ű í í ü ő í ő ő ü ó ő ű ö ő ü ű ö ü ü ő ó ü ő ő ó É ö ö
Ö í í í í É Öü Ö ö ö ó Ü ö ö ú ó ö í ö ő ú ó í ö ü ő ü í ú ü ő ó ü ö ú ú í ű ó ú ó ö ö ó ó ü ó ü ő ö ű í ó ó ó ú ú ó ő ö ő í ő Ü ű ó ó ü ű ú ó ó í Ú ü
É í ű í Ö Ü í Ü í í í É ö ö ó Ü ö ö ú ó í 6. ő ö ö ó ö ó ő ó ö ó ü ó ü ű ö ö í óő í ó ö ö ö ö ö ö ő ü ű ö ü ő í ó ó ő ö ű Ü ö ő ó ö ó ő í ú ó ü ö ö ó ó ü ő ü ű ö ö ü ő í ú ö ó í ü ő ö ú ő í ő ő ő ö ú ú
3o Környezetismeret felmérők
ó ő ő ó ü Í í í ö ő ó í ö í ő Í í í ó ö Ü í ö í í ő ö í ö óö ó Í Í í ő ő ő í ö ö í í ó ő ó ö ó ő ó ó í ö Ü ö ö ő ó Ü ő í ö ö ö ő ö ü ő í ö É Í ó ö Ü ö ó ó ű ő í ö ű Í Í Í í Ü í őú ő ó óü ő Ü ű ó í ű ö
ö ö ő ó ü ő Ö ö ő ő ó ó ö ó ö ö Ö ö í ő ó ő ó ő ő ö ö í ő ő ó ö ő ó ű ó ó ö ő Á ő ó ö ú ó ö Ö ö ö ö ö ö ö ő ő ó ü ü ö ú ó í Ö ö ó ó ü ö ú ü ü ü ö ö ü
ö ö ö ő ö ü ö Ö ő í ü ő ü Ö ő ő ő ő ő ő ó ő ő ő ő ó ó í ö Ö ú Á í ó ő ö ö ö ö ö í ü ü ő ö ö ő ő ö í ő ő ő í ő ő ő ő í ő ö ő ö ü ó Ö ö ű ö í ó í ö ú ő ő Í ö ö ő ó ü ő Ö ö ő ő ó ó ö ó ö ö Ö ö í ő ó ő ó ő
Ideiglenes felvételi jegyzék 2017/2018-as tanévre. 0010: 4 évfolyamos gimnázium kód: Közlekedés gépész kód: Agrár gépész
Ideiglenes felvételi jegyzék 2017/2018-as tanévre 0010: 4 évfolyamos gimnázium 1. Horváth Tina Dorina 2. Törő Réka Dorina 3. Török Sándor 4. Bogdán Nóra 5. Tóth József 0021 kód: Közlekedés gépész 1. Horváth
ö ő ő ú ő ó ű ő ő ó ö ű ú ü ó ő ú ő ő ő ű Ö ő Á Ö ő ő ő ő ó ü ő ő őő ö í ü Ó ö ő Ó Ö ü ö í ü ú Ö ő ú ó ő Ö Ó ő ő ő ő í ő í ó ő ő ú ó í ü ő ő ő ó ó í ő
ő ő ú ő ő ő í ú ö ü ü ú ö ú ő ő ú ő ő ő í ó ő ő í Ó ő ő ő ó ő ő ő ő ő ó ő ü í ú ő ő ő ó ú ó ö ó Á ő ő ó ú ő í ő ő ú ö ó ú ő ő ó ó Á ó ó Á ő ő ő ő ő ó ó ő í ü ő ö ő ö ö í ő ő ú í őő ó ő ő í Ó í ő ő ő ő
íó ó ü ó ő ö ó í ö ó ő ö ö ó ű ó ó ó ő ő ú ó ó ő ó ú ó ö ő ó ő ó ó ő í ó ó ő ő í ú ú í í ó
Ó Ö ü ö Ö ó ó ő ü ü ő ö ö ó ő ó ú ó ó ü ő ó í ó ö ö ő ő ű ú ó ó ó ó ő ü ő ű ü ő Á ó ó ő ó ó ó ó ú ó ö ó ü ü ő ü Á ő í ö ő ó ó ú ó í Ö ó ő ö ó Ö ö ó í ó ó ó ö ő ő ő íó ó ü ó ő ö ó í ö ó ő ö ö ó ű ó ó ó
ű ö ő ó ő ő ű ö ő ü ó ö ő ő ő ó ő ő Á ó ő ő ó ó ő ú ő ő ó ó ó ő ö ő ó ó ó ö ö ö
Ü Í Ó ó ő ó ő ő ő ü ö ő ő ő öü ő ó ű ö ő ó ő ő ű ö ő ü ó ö ő ő ő ó ő ő Á ó ő ő ó ó ő ú ő ő ó ó ó ő ö ő ó ó ó ö ö ö ő ó ő ü ó ü ő ö ö ú ö ő ö ö ú ö ü ü ő ó ü ü ő ü ó ö ö ó ó ö ő ö ö ó ö ó ó ó ó ö ő ö ü
Ó ö ü í ü ö ü ü ü ö ü ö ö í ü ü ü ü ö ö í ö ü ö É ü ü ü É ö ü ö ö ü ü ö ü í ü ö í
É Á í ö É Á Á ű ü ö í ö ú í Ü í ö ö ü ö ü ü ü ö ö ö ü ü í ö ö ö ü ü ö ü í ü ü ü ü Ó ü í í í ü ö ö ü É ö ö ö ü ü í ö ü ü Ó ö ü í ü ö ü ü ü ö ü ö ö í ü ü ü ü ö ö í ö ü ö É ü ü ü É ö ü ö ö ü ü ö ü í ü ö í
É É Í ú ú Ü ú ú ű
É Ú Á É É É Í ú ú Ü ú ú ű Ú Á É Á Á É É Á Á Á Á ú ú ű Í Í Á ú ú ű Á Á Á Á ü ú ü ú ü Ö Ó Ú É Á Á Á ú Í Ó É É Ü Ö Í Á Á É Ö Á Ü É Ö Á Á Á É Ő Á Á Á É É ú Ö Ú É Ú Á É É Ö ü ű ü ü Ö Ú É É Ö Á ú ü ú Ú É Á Á
ő ü ö ő ü ö ő ő ó ó ö í ö ő ö ő ő ő ö ö ö ö ó ö ő ö ő Ö ü ö ó ö ú ó ő Ö í ö í ö ü ö ö ó ő ő ö ő ü ő ő í ő ü ö í ö ö ö ő ö ő ó ő í ú ö ő ő í ő ü ó ó ő
Ö Á ó ő ő ó Á Ö Ö Á Á Ő ö Á ó ő ü ö ő ü ö ő ő ó ó ö í ö ő ö ő ő ő ö ö ö ö ó ö ő ö ő Ö ü ö ó ö ú ó ő Ö í ö í ö ü ö ö ó ő ő ö ő ü ő ő í ő ü ö í ö ö ö ő ö ő ó ő í ú ö ő ő í ő ü ó ó ő í ü ö ö ő ő ö ő ü ő ő
ö ö ú ú ó ö ü ú ó ű ő ú ü ú ó ó ó ó ó ö ű ő É ő ó ö ő Á ó ö ö ó ó ú ő ö ű ó ű ö ő ő Á ó ó ö ü ó ó ö ö ó ó ö ö ó ó ó
ú ő ő ő ó ó ó ó ö ö ú ú ó ö ü ú ó ű ő ú ü ú ó ó ó ó ó ö ű ő É ő ó ö ő Á ó ö ö ó ó ú ő ö ű ó ű ö ő ő Á ó ó ö ü ó ó ö ö ó ó ö ö ó ó ó ü ü ü ü ü ü ü ü ú ú ü ü ú ü ü ü ü ü ó ó ö ö ú ó ü ő ú ú ó ó ó ó ő ú ű
ő ü ö ö ó ő ú ü ö ü ü ö ő ö ö ö ő ö ő ó ö ö ő ö ö ő ó ó ő ő ü ő ő ő ü ő ő ü ő ő ó ö É Ö Ü Á Á ö ö ő ö ü ó ö ü ő ő ó ö ö ö ü ö ö ö ő ö ü ő ü ö ö ő ö ü
ö Ö ő ü ö ö ó ö ő ö Ö ó ő ő ö ő ó ó ö ö ó ö ő ö ü ö ö ó ő ő ö ü ö ő ő ó ó ö ö ó Ü ü ő ö ő ó ó ü ő ő ő ü ö ű ő ó Á Á É ö ö öú ú ó ö ó ö ü ő ü ú ő ű ö ü ó ő ő ü ü ö ö ü ő ö ö ö ü ő ű ö ő ő ő ű ü ö ö ó ü
M Bodó Levente 85 DSC-SI M Pokol Csaba 83 DSC-SI M Szabó Tamás 84 DSC-SI M Szabó Róbert 85 DSC-SI Pál Tamás 89 DSC-SI DNS
Atlétikai Világnap - VIII. Nemzetközi Tiszaújvárosi Verseny Tiszaújváros - 2008. május 17. 100 m síkfutás férfi junior 1. időfutam M Bodó Levente 85 DSC-SI 10.92 100 m síkfutás férfi junior 2. időfutam
Sz. 1 50m Gyorsúszás Férfi 7 éves és idősebb ben születettek Nincs szintidő
Oldal 1 Sz. 1 50m Gyorsúszás Férfi 7 éves és idősebb 2006.11.25. 98-99-ben születettek Nincs szintidő 1. Atyi Ádám 98 006 37.49 2. Ujlakán Kálmán 98 006 40.89 4. Nagy Balázs 98 006 43.91 3. Varga Márton
Eredménylista Sarmaság
Eredménylista Megye: Szilágy Osztály: I. 1. Szász Adrienn-Anikó Kocsis Gabriella Liceul Technologic Sărmășag 146 2. Petkes Patrik Kocsis Melinda,,Ady Endre``Általános iskola Lompért 141 3. Forgács Dominik-Attila
é ú ó é í é é é é í é ő é é ő é é í é é é ó é í ó ö é ő ő ő é í ó Í ő í é ö ő é í ó é é ű ó é Ú é í é é í é í é ó é í é ö é ő é ó ó ó é ö é Ö ü é ő ö
é é í Í Í í ö é ő ó ö ü é ó é ü ő ö ő ö é é ö ő ö é ő é ó ö ü é é é é é é ő é é é é í ő ö é é ő í ű ő ö í í ö é é é ö é Ö ő é ő ü ö é é ő úő ö ö ő é é é é é é é é é é ü ú é ú ó é é ú ú é ő ó ó é ú é é
ü ő Á Á ö ö ő ő ő ö ü Á ő ü ü ü ü ü ő ü ö ü ő ö ő ú ú ö ő ö ő ő ö ö ő ö ő
ü ö ő ü ő Á Á ö ö ő ő ő ö ü Á ő ü ü ü ü ü ő ü ö ü ő ö ő ú ú ö ő ö ő ő ö ö ő ö ő Á Á ö ő ő ő ű ú ö ő ő ú Ó É ő ö ü ő ő ú ö ö Ü ö ü ö ü Ú ű ö ő ő ú ú ü ő ö Ü ő ü ö ő ő ü Ü ö ü ü ü ü ö ü ő ö ű ő ő ő ü ő ö
Á ó ó ö ó ó ó ö ó ó ö ü ö ó ü ö ó ü ó ö ó ü ó űö ú ü ö ú ó ó ó ő ü ö ö ó ö ó ó ó ó ö ó ő ú ü ö ó ö Ú ü ó ü ő ö ü ö ö ó ó ü ő ő ó ő ü ó ó ó ö ű ő ő ű ü
Ü ö ő ó ó ó ü ö Ó ö ú ó ó ó ő Ü ó ó ú ü ő ó ó ő ö ó ó ó ö Á ú ó ó ö ó ó ó ó ö ó ó ó ó ö ö ö ó ü ö ó ú ű ó ó ö ö ú ő ó ó ő ö ü ó ó Ő ó ó ö ö ö ö ó ó ü ö ö ő ő ó ö ö ó ó ü ű ö ű ö ű ó ú ü ö ó ö ó ó Á ó ó
II. S.Pártai Félmarathon
1 8008 BERTALAN Renátó 2014 00:00:00 00:14:03 00:27:48 +00:00:00 3:28 min/km 1 2 8121 BARABÁS Gábor 2014 00:00:00 00:14:03 00:28:30 +00:00:42 3:33 min/km 2 3 8118 ZATYKÓ Miklós 1977 00:00:00 00:14:09 00:29:26
Á í í í í í í í í í ű í í í í í í í í í í í í í ű í í í í í ű ű É É í ú
Á Á É Á ú É í Á É í í í í í í É í É Á í í í ű í ú í í ű í í ű í í í É í í í í í í í Á í í í í í í í í í ű í í í í í í í í í í í í í ű í í í í í ű ű É É í ú Á í í í í ű ű ű í í ű ű í ú ú í ú í í í í ű í
V. REALDANCE NEMZETKÖZI NYÁRI TÁNCFESZTIVÁL. Mezőkövesd, 2011. július 1-3.
V. REALDANCE NEMZETKÖZI NYÁRI TÁNCFESZTIVÁL Mezőkövesd, 20. július 1-3. Gyerek II D latin 1/1 Mezőkövesd 2 páros 1 2 Somoskői László Fürjes Eszter Ten Dance Tse 2 25 Babiciu Razvan Dunca Alina Románia
BBU Föld alatti futás
1 Csapatnév: ROPILÁBAPA Csapatidő: 00:02:59.85 SZILASY Tibor 1973-12-23 Férfi Budapest +00:00:00.00 SZILASY Dávid 2008-12-16 Férfi 2 Csapatnév: FÜRGELÁB Csapatidő: 00:03:22.60 STAICU Ilona 1971-05-05 Nő
ó í ó Í ó í É ö ó í ó ü ö ö ő í ö í ü ő ö ö ő ő ö ö ó ö ö ő ö ú ü ő ó í ó í ó ü ü ó ü ő ú í í ő ú ó í ü ö ö ö ó ó ö ö ö ő ö ü í ő ó ő ó ű ö ó Á ó ö í ó ö í ó ü í ó ü ó ü ö ü ő ő ó ű ü ú ö í ó ó ő ő ó
Igekötős szerkezetek a magyarban
Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek
ő óű ü ó ö ő ü ö ö ó ö ő ú ü ö ö ő Í ü ó ö ö ú Í ő ó ö ö ő ö ő ó ő Úő ó ú ő ö ő ó ő ő ő ö ü ő ó ö Í ő ő ö ő ő ú ő Ú ó ó ő ö ő Í ü ő ő ő ó ü ő Í ő ő Í
ö Ö ő ü ö ő ő ő ö Ö ő ó ó ó ó ü ö ö ő ő ő ó ó ö Í ö ö ö ő Á Á É ü ü ő ó ő ű ö ó ö ö ó ó ő ö ö ü ú ö ő ö ő ö ő ő ő ó ö ö ü Í ö ő ő ű ö ő ö ő Ú ő ó Úő ü ü ö ü ü ö ö ü ú ö ő ö ő ó ő ő ö ö ő ó ö ő ü ü ö ö
ü ü ó í ö Ö ü ó ö ö Ö ü ö Ö ö ö ö ö ú ö Ó ö ú ö í ö í ö ü ú ü ó í ú ü ó í ö ö ú ó ó ö ü ó ü ö ö ö
ö ü Ő Ö ü ö ó ü ü í ü ö ö ö ö ü í ü ü ö ó í ö ú ö ö ö Ö ö ó ó ó ü ü ó í ö Ö ü ó ö ö Ö ü ö Ö ö ö ö ö ú ö Ó ö ú ö í ö í ö ü ú ü ó í ú ü ó í ö ö ú ó ó ö ü ó ü ö ö ö ö ö ö ö ö ö í ö ü ú ö ö ö ö ö ö í ö í ü
ó ő ü ú ú ó ó ü ú ú ő ő ó ó ü ó ú ü ő ó ü Ü ó ó ó ó ő ó ó ő ó ő ó ó ó ő ő ó ó ő ó ú ó ó ó Ú ő ó ő ó ő ó ő ő ó ő ő ó ó ő ő
ü ó ó ó ü Ő Ü ü Ü óú Ü ő ó ó Ú Ú ó ó Ú ú ő ó ő Ü ó ó ó ó ő Á ó ó ő Á ó ü ő ü ő ő ű ó ő ó ú ó ó Ú ő ű ő ó ő ő ü ő ü ó ő ü ú ú ó ó ü ú ú ő ő ó ó ü ó ú ü ő ó ü Ü ó ó ó ó ő ó ó ő ó ő ó ó ó ő ő ó ó ő ó ú ó
24km: abszolút férfi
24km: abszolút férfi 1. Lakatos Roland 1977 209 Zalaegerszeg 01:34:15 2. Fehér Ferenc 1970 143 Zalaegerszeg 01:47:16 3. Szeredi Miklós 1958 203 Zalaegerszeg 01:49:45 4. Lubics György Dr. 1971 208 Nagykanizsa
ű Ö ö ü Ö ö ú ú Ö ü ö ú ü ö ü ö ö ö ü ü ü ö ö ű ü ö ö ü ö ö ü
ö ő ö ö Ó ő ü ü ű ö ö ü ö ö ö ö ö Ö ö ő ő ő ő ö ö Ö ő ü ö ú ő ő ő ú ü ő ő ű ő ú ö ü Ó ő ö ő ő ű Ö ö ü Ö ö ú ú Ö ü ö ú ü ö ü ö ö ö ü ü ü ö ö ű ü ö ö ü ö ö ü ö Ó ő ü ű ű ő ö ő ő ő ő ő ő ű ő Á Ö ö ü Ó ü Ó
Eredménylista. Megye: Szilágy. Körzet: Zilah. Osztály: 2. osztály Sorszám
Eredménylista Megye: Szilágy Körzet: Zilah Osztály: 2. osztály Sorszám Tanuló neve Felkészítő neve neve Település Tollbamondás Feladatlap Összpontszám 1. Kulcsár Szilvia Csepei Ibolya Mihai Eminescu Általános
Á É Í É ó ű ű ü ű ó ü ő ü ű ő í ő ő
ú Á ú Á ó Ö Á É Í É ó ű ű ü ű ó ü ő ü ű ő í ő ő Ú ú ó ó ü ú í í ű ó ü ó ő ú ó ű ü ő ű ű ó ű ü ő ó í ó ü ű ő ó ó ó ó ó ő ü ü ő í ó í ó í ő í ó í ó ü ó ű ő ó ó ó ó í ó ú í ó í í ó í ó ó ű ó ú í ó í ő í ó
Bödõk, Ilona b: 1947 in Csicsó Mad. Nagy, Tibor "Dr" b: 1946 in Mad m: 1976. Nagy, Szabolcs "állatorvos Dr" b: 1976 in Mad
Nagy, Vilma b: 1911 in Csicsó d: 2005 in Csicsó anyja Pálffy Vilma Fél Antal d.u. Bödõk, Pál b: 1905 in Csicsó m: 1947 d: 1965 in Csicsó anyja Kollár M.Bödõk Ksz.Tarcsi Géza, Balá gy.k.sz. Beke Károly
ö é ö ó é é é ó é é é ő ó ü é ű é í ü é é ó é é é ö é é ó é é ü é ó é é é é ú ó é ő ő é é é ü é é é É ó í ú ü é é ő Ő é í é é é é é ő é ő ű é ó ö ö é
ö é Ö é ő ü é ü ö é é ő é ü ö ö ö ő ü é ő ü é ö ó ö ö é é ő ö ő ó ő é ő Á é ő é ő ő é ő ő é í ő ó ö ő éé í ö ő é é ő í ő ö ő é í ő ó ö ö ő é ő é é é ő í é ő ő í é é ő í ó ő ö ő é í é í é é ő ő é é é ü
ö ű é é é é é ü é é ú É ü é é é ö ú ú é é é é é ű é ü ö é ű é é é é é ö éü ő é ú ö é é ű é ú é é ő é Á é ű é ö ű é é ú é é é é é é é é é é ö é é Á ö é
Á Á ö Á É Á É Ú Á Á Á é é ú ü Á é ü ú é ú ö ü Á é ú é é é ú é é é ü ö ő ö ő ő é é ö é é ő é é é é ú ú é é é ő ő ű é é é é Á ú ö ö ö ö é ú é ü é ö ű é é é é é ü é é ú É ü é é é ö ú ú é é é é é ű é ü ö é
í é ü í Í é í é ö ö í é é é ö é é é í ö é ö é é é ö ü í Ó é í í ö ö ü é í é ü í ö é é é í é ö é é é í é é é Ő Ó Ő í Ó é í í ö ö ü é í é ö ö í ú é ü ö
ö é Ö é ü ű é í í ó ö é Ö é ü ö Ó ó ó ö ö ó í é ű ö é é é í ó ó ö ö ó í é ö é é é ö é ű í í í ö é Ö ö ü é ú í é ú í ö ü é í í ö é Ö é ü ö í ü é ü é é ú í í ö ü é í í é ö é Ö é ü ö í ü é ű é í í í í ö ü
ü ö ő ü ú í í ő í ö ő ő í ő ő í ő í ü ő ő í ó í ö úú í í ű í ő ő ö ü ü ó ü ö ö ő ü ő ó ó ü ö Á ü ü ü ő í ő ü ő ú í ú ü ö ő í í ö ő ü í ü ó ú ü ú ü í ő
ö Ö ő ú ü ő ö Ö ő ö ö í ö í ó ő ő ő ö ö í ó ó ó ö í öé ö ő Á ö í ü í ö í í ü ó ö ö í ü í ü ü ö ő ö ú í ö í ö í ü ö ö őí í ü í ü ó ó ő ő í ü ó ó ó ó í ú í ú ó ő ő í ü í ú ó ó ó ö ü ö í őö í í ő Ö ö í í
Wigner Jenő Műszaki, Informatikai Középiskola és Kollégium (Eger, 3300 Rákóczi út 2) tel./fax: tel:36/ , fax:36/
Vizsgaszervező intézmény: Wigner Jenő Műszaki, Informatikai Középiskola és Kollégium (Eger, 3300 Rákóczi út 2) tel./fax: tel:36/515-115, fax:36/515-116 Tisztelt Vizsgázó! Ezúton tájékoztatjuk, hogy a(z)
ő í í ú Ü ü ő ő ő ü ü ő ü ő í ú ü ő ü ü őí ó ú ó ü ü É ú ú ü ü ő ü ő ü ü ő ú ó ó ó ü ő ú ő ó í ő í ü ü ő ó ú ő ú ó ü ü ü ő ü őí ú ú É ü ő í ó ü í ü ő
Á ó Á ó É ü ü ő ü ó ü í ő ő ő ó ó ü ő ő ü ó ú í ő ő ő ő ő ü ő ő ü ő í ő ó ő Ü ü í ü ő ő ú í ő ó í ő ő ő ó í í ó ő ő ü ü ü ő í ü í ő ó ő ű í ó ü ő ü ő ő ő ő í ú ő ü ó ó ú ü ó ó ő í ó ó ő í í ú Ü ü ő ő ő
Megyei matematika verseny 2009.
9. évfolyam 1 Pácsonyi Márton 77 Zrínyi Miklós Zalaegerszeg Kiss Zsolt, Péteri Szabolcs 2 Bubits Bence 66 Kölcsey Ferenc Zalaegerszeg Forgács Ferencné 2 Jung Dániel 66 Zrínyi Miklós Zalaegerszeg Kiss Zsolt,
Mohács és Európa Horváth Mihály Történelemverseny elődöntőjének eredménye Gimnáziumok
Mohács és Európa Horváth Mihály Történelemverseny elődöntőjének eredménye ok Név Iskola Pontszám 1 Horváth Bálint 49 2 Matos Lilla 48 3 Demjén Balázs Ádám 47 4 Matos Bence 47 5 Ubrea Roland 6 Krizsna Szabolcs
Győrújbaráti Terepfutás km Terepfutás abszolút eredmények Absz Hely. R.sz. Név Nem Bruttó cél Diff. Tempó
1 162 LEDVAI András Férfi 00:27:57 00:00:00 3:59 p/km Férfi 1996-1999 1 Férfi 1 2 128 TAKÁCS Dávid Férfi 00:28:43 00:00:46 4:06 p/km Férfi 1976-1980 1 Férfi 2 3 160 GERLEI Máté Férfi 00:28:47 00:00:50
Ó ő ű ó ő ó ű ő ű ó ó ü ű ő ó ő ó ó ó ú ő ü ő ó ü ó ü ő ő ű ü ú ú ü ő ő ó ó ó ő ó ó Í ő ű ó ó ó ó ő ó ó ó ő ő ő ó ú ó ő ő ü ó ó ő ő ő ú ü ó ű ő ő ó ó
Á Á Á ó Í Á Á ü ű ü ó ó ü ű ü ő ó ú ó ő ó ü ó ú ó ű ő ó ő ő ó ő ő ó ó ó ú ő ú ő ő ő ú ú ó Í ő ű ő ő ó ő ü ő ő ú ó Í ű ő ő ü ű ú ő ú ú ó Í ó ő ú ú ú ú Í ó Í ő ő ó ő ú ő ő ő Í ú ú ó ó ú ő ó Ó ő ű ó ő ó ű
í ö ü ö í ó ü ó ó ö í ó ó ó ó ó ó í ü ó ó ö ü ó ó ü ó ó É í ó ö í í ó ó í ö ó ö í ö ö ó í í ó ö í ó ú í ó í ó ü ö ó í ö í ű í ű ó ö í ú í ó ú ö ü í ó
ö Ö ü ü ö Ö ü ó ö ü ö í ó ö ö ö ü í ü ö í í ö í ü ü ö í í ö ü ö í ú ó ö ü ó ü ű ö ü ö í ó ó ó ö ö í ó ö ó ü ó ü í ö ü ö í ó ü ó ó ö í ó ó ó ó ó ó í ü ó ó ö ü ó ó ü ó ó É í ó ö í í ó ó í ö ó ö í ö ö ó í
Futapest Crossfutás Csömör december 11.
Futapest Crossfutás Csömör 2011. december 11. Végeredmény 4 KM Gyerek 1. RAJSZKI LILI 1998 280 15:55 2. Turschl Bence 1999 241 16:56 3. Bócz Patricia 1998 244 16:59 4. Kiss Viktor Zsolt 1997 246 17:57
ő ő Á Á ó ü ő ó Í ő ö í ö ö óú óú ő ú í ő ú ó ó ó ü ö ö ü ö í ő ö ő ó ü ö ö ü ő í ő ő ó í ó ó ő ő ő ő ü Í ó É ü Ö í ö ő Í Í ő Í ő
ő Ú ó ó Á ó ő ó ü ő í Á ű Á ü ő í í í ó ó ő ő ő ó í ő ő í ö ü í ú ú ü ö í ó ő ő ő ó í ú ú ó ó ö ő Í ú í ó ő ö ö ő ö ö ö ő ö í ö ö ő ó ő ö ö ü ú ú ó Ó ő ő ő í ú ú ó ő ő ő Á Á ó ü ő ó Í ő ö í ö ö óú óú ő
XI. Fóti-Futi. 5 km nemenkénti és kategóriánkénti eredménylista
Férfi 14 éves és ez alatti 1 5089 SZŐKE-KISS Jácint 2003 00:20:00 Nem Fóton Járok Iskolába 4:00 min/km +00:00:00 2 5091 TAKÁCS Levente Márton 2004 00:21:04 Garay János Általános Iskola, Fót 4:12 min/km
tanév 9.A osztályfőnök: Bíró Krisztina első sor: Bekő Katalin, Kovács Anna Eszter, Vadalma Ferenc, Galamb Attila, Siklósi Márton, Dénes
2009-2010. tanév 9.A osztályfőnök: Bíró Krisztina első sor: Bekő Katalin, Kovács Anna Eszter, Vadalma Ferenc, Galamb Attila, Siklósi Márton, Dénes Dávid, Szabó Bence második sor: Aranyos Gergely, Takács
ő í ö ü ö ő ő ü ö ü ő ő ö ö ö ü í ő ö ö ü í í í ü ő ő í í ú í ő
í ő í ö ü ö ő ő ü ö ü ő ő ö ö ö ü í ő ö ö ü í í í ü ő ő í í ú í ő í ő É ö ü ö ő ü ü ű ű ő í ö ö ű í ö ő ő ü ő ö ő ő ö í ö ő í üí ú í í ű ű ő ú ö ő ű ő í í ő ö ő ő ö ő í ú ö ö Í í ű í ú ü ö ö Ú ö í ő ö
9. Győr-Lipót Futóverseny
1 101 Balázs Levente 1985 16-39 éves 01:39:00 00:00:00 1 1 2 197 Németh Gábor 1984 16-39 éves 01:42:42 00:03:42 2 2 3 232 Takács László 1968 50-59 éves 01:42:44 00:03:44 3 1 4 287 Kollár Barna 1982 16-39
ü ö ü ú í ü ö ü ö ö Ö ó ö ö ö ö ö ó ö ö ö í ü ü ö ü í ü ü í ű ú ö Ö ú ü ü É í ö ó ó ű í ö ó ü í ö ú
Á ö ö Á ü É Ő Ö ú í ü É í ö ó ó ű í ö ó í ö ü ö ü ú í ü ö ü ö ö Ö ó ö ö ö ö ö ó ö ö ö í ü ü ö ü í ü ü í ű ú ö Ö ú ü ü É í ö ó ó ű í ö ó ü í ö ú ó ü ö ó í í ü ö ü ó ó ö ö ó ó ö ö ö Ó ó ö í í ű ö ö ű ó ó
ő ü ö ő ö ö ő ő ó ó ö ő ö ó ő ő ö ö ö ö ó ö ő ö ő Ö ü ö ó ö ú ó ő Ö ö í ú ö ü ö ö ó ő ő ö ő ü ő ő í ó ü ö í ö ü ö ö ő ö ő ő ő í í ö ő ő í ő ü ó ó ő í
Ö Ő Á Á Á ó Á í ő ó Ö Ö Á Á Ő Ö Á Ő ő ü ö ő ö ö ő ő ó ó ö ő ö ó ő ő ö ö ö ö ó ö ő ö ő Ö ü ö ó ö ú ó ő Ö ö í ú ö ü ö ö ó ő ő ö ő ü ő ő í ó ü ö í ö ü ö ö ő ö ő ő ő í í ö ő ő í ő ü ó ó ő í ü ö ö ő ő ü ü ö
ő ő ő ü ő í ő ü ő í ü Í ő ú ü ő Í ő ö ö ő ü ö ö ő ő ö Í ő ú í ö í Í ő ü ő ö ő ú Í ú í ü ö ö ő ű ő Í ú ö ű ú ő ő í ü ő ő ö ő í í ő Í ő ő ő ő ú ő ú Í ő
Ü Í Á Á ő ő í ő ő ő ü ő í ő ü ő í ü Í ő ú ü ő Í ő ö ö ő ü ö ö ő ő ö Í ő ú í ö í Í ő ü ő ö ő ú Í ú í ü ö ö ő ű ő Í ú ö ű ú ő ő í ü ő ő ö ő í í ő Í ő ő ő ő ú ő ú Í ő ü í ü ő ü ő ü ü ő í ő ü ü ő ő ö í ö ü
ő ő ű ű ö ö ö ű ő ő ö í ö ő ő ű ő í ü ű ú ö ő ő ö ő ő ö ő í ő ö ő ü ö ő ő ő ü ö ő ő í ü í ö ő ő ő ő ő ö ő Á ő Á
ü ú ú ő í ő ő ő ű ű ö ö ö ű ő ő ö í ö ő ő ű ő í ü ű ú ö ő ő ö ő ő ö ő í ő ö ő ü ö ő ő ő ü ö ő ő í ü í ö ő ő ő ő ő ö ő Á ő Á ö í ő őí ő ö ö ö ö í ö ő ű ő ő ő ő ő ű ö ü ü ő ö ö ő ő í ő ő ö ű ú ö ö í ő ú
ALSÓ TAGOZATOS ANGOL NYELVŰ SZAVALÓVERSENY ÁPRILIS
ALSÓ TAGOZATOS ANGOL NYELVŰ SZAVALÓVERSENY 2018. ÁPRILIS 25. Ladányi Jázmin 1.b I. 1. évfolyam Kerezsi Flóra 1.a II. 1. évfolyam Vanyorek Levente 1.b III. 1. évfolyam Soltészné Szörfi Anikó Zimmermanné
ö ó ö ö ö ú ő ö ő ő ü ő ű í í ö ö ő ö ú ö ö ó í í ő ó ö ö ö ó ó ö ő ó ü ö í ó ö ú ö ö ó ó ő í ő ő ő ó ő ő ö ő ö ő ö ö ö ö ő ő ő ú í ó í ő ő ü ö ö ó ó
ó ö Ö ö ó ö ó ó ó ö Ö ó ő ő ö ö ő ő ő ö ő ó ó ö ö ö ö ő Á ő ű ö ő ö ö ö ő ö ö Ö ő ő ö ő ü ö ő ö ű ő Ő ü ő ö ő ó ó ö ő ö ű ö ö ö ő ö í ő í ö ó ő ű ó ö í ó ö í ö ö í ü ö ú ö ü ú ü ő ő ö ö ű ö í ó ő ö í ű
Futakeszi. 10 km nemenkénti eredménylista. Férfi. Hely Rsz Név Szév Nettó idő 1. kör 2. kör 3. kör 4. kör
1 9035 FAZEKAS Attila 1970 00:37:38 00:08:50 00:09:28 00:09:36 00:09:42 3:45 min/km +00:00:00 2 9150 THURAUER Roman 1977 00:37:54 00:08:51 00:09:28 00:09:41 00:09:53 3:47 min/km +00:00:15 3 9051 HAJTMAN
É Ő ü Ö ö ö ö ű ö ö ü ü ö ü ü Ö ü ö ö ö
É Ő ü Ö ö ö ö ű ö ö ü ü ö ü ü Ö ü ö ö ö ö ü ö Ö ü ö ö ö Ö ü ü ö Ó öü ö ö ü ö ö Ö ü ö ö ü ü ö ö ű ü ö ö ö ü ö ö ö ö ö ű ö ű ö ö ö ü ü ö ö ö É É ö É É ü ö ö Ú ü ü Ü ü ü ü Ö Ú ö ü Ü ü ö ö ö ű Ó ü ö ö Ó É
II. Tisza-parti Gyógy- és Élményfürdő Félmaraton
Nem/Kategória: Férfi 12-19 éves 1 420 SZENTPÉTERI Csaba 1998 00:27:26 00:26:54 Nagykőrös 4 4 3:49 min/km +00:00:00 2 225 SZILÁGYI Gergő 2000 00:31:18 00:30:40 Tiszakécske 10 9 4:21 min/km +00:03:45 3 310
VII.Szigetköz Minimaraton
Abszolút eredmények 1. 155. Garami Árpád 1966 0:13:40 2. 88. Wundsam Peter 1966 0:13:48 3. 115. Pleiveisz István 1980 0:13:54 4. 56. Matis Daniel 1962 0:14:03 5. 4. Kiss László 1969 0:14:45 6. 70. Sypovyatkin
Név oszt. helyezés Kategória felkészítő tanár Kiss Hunor 1.a 1. 1. Gál Csabáné. Név oszt. helyezés Kategória felkészítő tanár
TUDÁSBAJNOKSÁG MEGYEI DÖNTŐ - ANYANYELV Kiss Hunor 1.a 1. 1. Gál Csabáné TUDÁSBAJNOKSÁG MEGYEI DÖNTŐ - ANYANYELV Fónagy-Árva Péter 2.a 18. 2. Nagy Levente 2.b 26. 2. Bodnárné Bali Krisztina TUDÁSBAJNOKSÁG
Dél-Alföld.xls. 1. oldal, összesen: :00
Szum Irodalom, nyelv és helymatematika és fizika Számítástechnika Történelem Összesen Elérhető: 100 100 100 75 Elért maximum: 75 74 100 68 Bejutási határ: 60 35 69 54 Beküldési határ: 55 55 55 41 Beküldött
V.Szigetköz Minimaraton
2008.05.04. Táv : 16 km Abszolút eredmények 1. 23 Garami Árpád 1966 0:55:36 2. 5 Pleiveisz István 1980 0:56:58 3. 10 Rákóczy Zoltán 1966 0:58:39 4. 21 Varga Csaba 1965 1:00:30 5. 42 Takács László 1968
É ú ö ö ü ü ö ö ö ü ö ö ö ü ü ü ü
É ü ü É ú ö ö ü ü ö ö ö ü ö ö ö ü ü ü ü ö ö É ü É ü ü ú ü ö ö ö ö ö ö ö ö ö ú ö ö ü ú ö ö ö ü ö ú ö ö ö É É É ü ü ü ö ö ü ü ö ö ö ü ú ü ö ö ű ö ö ú ú ö ö ö É ü É ö ö ú ö ö ö ö ü ö ö ö ü Ö ö É É É ö ö ö
ö ő őö ő ö ö ő í ő í í í ú ő ő ű ö ű ö ö í ú ő Í ú ő
ö ő í ő í ö ő íő ú ő ő ő ű ö ű ö ö í í ú ő í í ö ö ő őö ő ö ö ő í ő í í í ú ő ő ű ö ű ö ö í ú ő Í ú ő í ö ő ö ő ü í ü ü ő ű ö ö ö í ö ö ö ő í ö ö ö ű ö ö ő ú ö ú É ö É í ő ö ő í í í ő ú ö ö í ü ő ő ú ő
Á ó ú ó Í Í Á ú ö
ó ó ö ü ü ű ö ö ö ü ó ü ö ü ó ö ö ó ö Á ó ú ó Í Í Á ú ö ü ö ó ü ó ö ö ó ó ö ö Á ó ö ű ü Ö ö ö ó ö ö ű ü ű ó ö ö ö ö ü ö ö ű ú ó ú ö ö ű ü Í ö ü ű ü ű ü ű ű ú ö ü ú ö ű ö ö ú ú ű ö ö ú ű ú ö ú ó ö ö ü ö
ö í ö ű ö ő ő Ü ö ő ó ö ő ö ö ő ű ő í ő í ö ő ó í ő í ő ő ü ű ö ö í í ö ö ö ő ó ó ö ő ő ó í ő Ü úéí ő ő ő ő ő Í ő ö ű ö ő ő ő ő ó í ü ó í ö ű ö ő ő ö
Ü Ú ö É Á Á í ó í í ú ú ö í ú í ö ó ú í ó ú Ü ö ó Ö í ó ó ó ú ó í í ú í í ö ö ó í ó ó ö ö ű ö ő ö ű ö ő ő ö ó í ü ű ö ö ő ő Ü í ö í í í ö í ó ó í ő ó ó ő ú ö í ú ú í ó ö í ő ő ö ü Ü ű ö ú ő í ő ő ő ü ű
9. Győr-Lipót Futóverseny
Nem/Kategória: Férfi 16-39 éves 1 101 Balázs Levente 1985 01:39:00 2 197 Németh Gábor 1984 01:42:42 3 287 Kollár Barna 1982 01:48:05 4 127 Domonkos Róbert 1979 01:50:49 5 184 Markót Tamás 1986 01:51:25
í ü ü ű ö ö ü ó ö ö ú ú ö ó ü í ó ó ó ü ó ü ö ö ú ó ö ö ű ö ö í í ű ó ó ö ö ö í í ö ó ó í ö ó ü ü ó ü ú ó ö ú ü ü ü ü ü ü ó ó ü ü í ó ö ö ó ü ó ó ó ö
ö ü ö Ö ű ö ö Ö ü ö ö ö ö ö Ö ö ü ü ü ö í ü ö ö ü ö ö ö Ö ö Í Ö ü ö ö ö ö Ö ö ö Ö Á ü ű Ü í ö ö ö ö ö ö í ü ű ö ü ú ü ü í ü ü ű ö ö ü ó ö ö ú ú ö ó ü í ó ó ó ü ó ü ö ö ú ó ö ö ű ö ö í í ű ó ó ö ö ö í í
Baranya 25-50-75-100 kerékpáros túra. Négy Évszak Futás (tavasz) Négy Évszak Futás (nyár) 2012 másodperces. DÖKE 25-50-75 kerékpáro s túra
Tó- s - Ádám Kriszt nincs nincs Ambrus Norbert X nincs nincs Asszonyi Veronika X X nincs nincs Balla Antal nincs nincs Balogh Bettina X X X X X X X X X ezüst arany Balogh János X X nincs nincs Balogh Judit
ó ü ó ü ü ő ó ö ó ö ö ű í ó ő ő ö í í ö ö ő í ö ö ü ő ó í ö ö ő í ö ö ő ó ö í í í í ó ű ő í ő ö í ö ő ő í ó ö ö ő ó ő ö ö í ö ő í ö ő ö ő ö ü í ó ü ő
ü ö ő í ü ü ő ő ó ü ó ó ű ő ö ü ü ő ü ö ü ö í ű ő ő ö ő ó ő ő ó ő ü í ö ü ő ó ő ő ö ö ö í Í ő ő ö Í ő ő ü ő ö í ő ő ő ő ő ú ő ü í ú í ó ü ó ü ü ő ő ö ó ö ö í ó ő ő ö í í ő ő ő ü ó ü ó ü ü ő ó ö ó ö ö ű
Hunfoglalás - Kékes-Vertikál, Kékestető 2 kör - 12 km nemenkénti és kategóriánkénti eredménylista
Férfi 20 év alatt 1 2076 SZABÓ Benjamin 1998 01:54:27 3 3 9:32 min/km +00:00:00 2 2039 KISS Norbert 2000 02:02:55 7 7 10:14 min/km +00:08:24 3 2090 TÓTH Milán 1998 02:11:11 13 13 10:55 min/km +00:16:42
Baranya Íjásza sorozat eredményei Baranya Íjásza sorozat eredményei Baranya Íjásza sorozat eredményei 2014.
Baranya Íjásza sorozat eredményei 214. M I N I F I Ú Kis Dániel 5 5 1 Pandur Ákos 47 47 94 Szász Dávid 44 44 Dobor Dávid 41 38 79 Beréti Levente 44 44 Hűber Levente 41 41 Baranya Íjásza sorozat eredményei
ú Ü ú ü ő Á ö ú ö ú Á ő ő Ü ü ő Ö ú ü ő ú ú ő ő Í ö ő ő
ű Í ű ú Í Í É Í É Í Í Í Í ő Ö Ó Ó ő É Í ü Ö Ö Í Í ű ő ő Ö Ö ü Í Ö Ö ü Í Í ö Ó Í ú Íö ő ü Í Í Ú ő Í ö ő Ó Í ő Í Ú ő Í ű ő ü Ö ö Ö Á Í ü Í Ö Ö ú Ü ú ü ő Á ö ú ö ú Á ő ő Ü ü ő Ö ú ü ő ú ú ő ő Í ö ő ő ö ű
Eredménylista. Megye: Hargita 1. osztály Körzet: Gyergyószentmiklós és környéke. Sorszám
Eredménylista Megye: Hargita 1. osztály Tanuló neve Felkészítő neve neve Település Elért 1. NAGY GY FERENC EDIT GYERGYÓREMETE 148 NIKOLETTA 2. ROMÁN MÁTÉ FERENC EDIT GYERGYÓREMETE 147 3. LACZKÓ VIOLA PAPP
ANGOL 1. kategória Max: 78 pont, Min: 47 pont A zölddel jelölt versenyzők jutottak a döntőbe.
ANGOL 1. kategória Max: 78 pont, Min: 47 pont A zölddel jelölt versenyzők jutottak a döntőbe. HELYEZÉS PONT- SZÁM KATEGÓRIA NYELV NÉV ISKOLA VÁROS FELKÉSZÍTŐ TANÁR 1 77 1 angol Farkas Gellért Ferenc Bercsényi
Hunfoglalás - Kékes-Vertikál, Kékestető 2 kör - 12 km nemenkénti és kategóriánkénti eredménylista
Profi 1 2098 SZABÓ Pál 1972 01:46:01 1 1 8:49 min/km +00:00:00 1 2045 KOVÁTS György 1978 01:51:49 2 2 9:18 min/km +00:05:47 1 2076 SZABÓ Benjamin 1998 01:54:27 3 3 9:32 min/km +00:08:27 4 2097 BALOGH Zsolt
Í Ó É É É É Ó Ó ú ú Ó Ő Í Ó Ö Ó
ÍÍ Ó É Ó Ó ú Ó Ó Ó ú Ó É Í Ó É É É É Ó Ó ú ú Ó Ő Í Ó Ö Ó É ú Ö Ö Ó É Ó ú ú Á Ó Í Ó Á Ő Ó Ó ú Ó Ó Ó Ó Ó Ó ú Ó Í Í Ó Ő É Ó ú Ő Ő É Ó Ö Ó Ó Ó É Ó Ó É Ú Í Ö ú ú Ö Ö Ó ú ú Ó Ó Ó Ó Ó Ó Í Ó ú Ú Ó ú Í Ó Ó Ó Ó
ő ő ú ő ó ó ú ő ő ó ő ó ó ú ú ú ü ó Ó ó ó ó ő ő ő ú ű ó ó ő ü ő ó óó ó ó
ú É É ő ő ő ú ő ó ó ú ő ő ó ő ó ó ú ú ú ü ó Ó ó ó ó ő ő ő ú ű ó ó ő ü ő ó óó ó ó ü ó ú ő ó ő ú ő ő ú ó ó ó ű ü ő ó ó ő ő ó ő ő ü ó ó ó ó ő ó ő ő ő ü ő ó ó ű ó ő ü ü ő ó ó ő ő ő ő ú ó ü ő ó ő ó ú ő ó ü
ő ö őü ú Á ú ő ú ú Í ő ú ú ö Á ő ö ü ö ü ü ő Ö ö ú Ú Á ö ö Í ő ő ö ö Ü ő ü ú ö ü
Ü ú ü ü Ü ö ő ú Ú ű ü ő ö Í Í ÍÍ Í ü ü Ü Í ő ö őü ú Á ú ő ú ú Í ő ú ú ö Á ő ö ü ö ü ü ő Ö ö ú Ú Á ö ö Í ő ő ö ö Ü ő ü ú ö ü ö ü ö ő ö ö ő ö ü ü ü ő ő ű ő ő ű ő ű ő ú ű Í ő ő ő ő ő ú ö Í ő ú Á ö ö ű ö ő
Név. Cseh László úszás I/A. Dombi Rudolf kajak - kenu I/A. Lőrincz Tamás birkózás I/A. Risztov Éva úszás I/A. Sors Tamás (para) úszás I/A
Cseh László úszás I/A Dombi Rudolf kajak - kenu I/A Lőrincz Tamás birkózás I/A Risztov Éva úszás I/A Sors Tamás (para) úszás I/A Szabó Gabriella Tímea kajak - kenu I/A Szilágyi Áron vívás I/A Tóth Tamás
Eredménylista. Megye: Szilágy/Sarmaság Osztály: I.osztály
Eredménylista Megye: Szilágy/Sarmaság Osztály: I.osztály 1. Gál Levente Kocsis Melinda Sarmasági 1 Számú Szakképző Liceum Sarmaság 150 2. Király Anna Erdei Gabriella Szilágyballai Általános Iskola Szilágyballa
30. Szilveszteri Futógála - Békéscsaba m futás nemenkénti eredménylista
1 1 GREGOR László 1992 00:13:24 00:13:20 2:53 min/km 1 csaba +00:00:00 2 18 TÁBOR Miklós 1986 00:13:50 00:13:47 2:59 min/km 2 csaba +00:00:27 3 3 DIÓSZEGI Dávid 1998 00:13:58 00:13:55 3:00 min/km 3 csaba
í Ó ő ú őí ö í ő í í
Ó ő ú Á í ö Ö ő í Ó ő ú őí ö í ő í í ö í ö Á ö Ö ő ö í ö Ö Ó ő ö í í Ó ö ö ő Í ő Á Á őí Á ő í ú ú ő í í í í í ö ő í í í í ú í í í ű í ő í í í ö ő ő Ü Ő Ö ö í í í Őí ö ő ő ö í ő ö ő ú í í í ö ő í ö ő í