A HunOr magyar-orosz párhuzamos korpusz



Hasonló dokumentumok
VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Magyar nyelv. 5. évfolyam

OKTATÁSI ÉS KULTURÁLIS MINISZTER /2006.

Útmutató a Debreceni Egyetem Állam- és Jogtudományi Kar Nemzetközi Jogi Tanszékén készülő szakdolgozatok szerzői részére

Ismeretlen kifejezések és a szófaji egyértelm sítés

Magyar nyelvű néprajzi keresőrendszer

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

NYÍREGYHÁZI FŐISKOLA TANÍTÓKÉPZŐ INTÉZET. Útmutató a szakdolgozat készítéséhez tanító szakon

Önértékelési kézikönyv KOLLÉGIUMOK SZÁMÁRA

A HUNGLISH PÁRHUZAMOS KORPUSZ

Romanisztika alapszak (BA) olasz szakirány

Magyar nyelv és irodalom

SYLLABUS. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar magyar nyelv és irodalom

ÚTMUTATÓ A DEBRECENI EGYETEM ÁLLAM- ÉS JOGTUDOMÁNYI KAR SZAKDOLGOZATRA ÉS ÉVFOLYAMDOLGOZATRA VONATKOZÓ RENDJÉRŐL

A Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) évi beszámolója

Szakdolgozat készítés, tartalmi és formai követelmények Alkalmazott közgazdaságtan alapszak BA

Útmutató. a szakdolgozat elkészítéséhez. Szegedi Tudományegyetem Egészségtudományi és Szociális Képzési Kar. (ápoló szakirány számára)

BODOR ÁKOS. Tér és Társadalom 29. évf., 4. szám, 2015 doi: /tet

Helyi tanterv. Szakiskolát végzettek középiskolája. Közismeret

Pszichometria Szemináriumi dolgozat

PEDAGÓGIAI PROGRAM ÉS HELYI TANTERV MÓDOSÍTÁSA

MAGYAR NYELV ÉS IRODALOM

MONDATTAN SZEMINÁRIUM A mellérendelő szintagma

MAGYAR NYELV ÉS IRODALOM

A Hunglish Korpusz és szótár

J/55. B E S Z Á M O L Ó

Különírás-egybeírás automatikusan

Az adatkezelés, adatvédelem összefüggései a panaszeljárásban. II. A rendőrökről készített képmás, hang- vagy videofelvétel problematikája

Hivatali Tájékoztató. Tartalom V. ÉVFOLYAM ÉVI 1. SZÁM

Innováció és együttm ködési hálózatok Magyarországon

Somogyi TISZK Közép- és Szakiskola Mathiász János Tagintézménye Balatonboglár, Szabadság utca 41.

VASS LAJOS ÁLTALÁNOS ISKOLA HELYI TANTERVE

Eötvös Loránd Tudományegyetem Tanító- és Óvóképző Kar. Útmutató a szakdolgozat szerkesztéséhez

Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban

DR. GYÖRGY ÁDÁM, LL.M NOVEMBER 26. MIE ŐSZI KONFERENCIA 2015

Syllabus. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

A szakdolgozat készítésének folyamata, tartalmi és formai követelményei

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

Bevezetés a nyelvtudományba

MAGYAR NYELV ÉS IRODALOM... 3 TÖRTÉNELEM ÉS ÁLLAMPOLGÁRI ISMERETEK HON- ÉS NÉPISMERET TÁNC ÉS DRÁMA... 43

A mezőgazdasági őstermelők speciális jövedelemadózási és társadalombiztosítási kötelezettségei

Bevezetés a nyelvtudományba. 5. Szintaxis

A K Ö N Y V T A R a ' T J D O N L ^ N Y I K U T A T Á S O K 1963/65* É V I P R O G R A M J A P Á L Y Á Z A T I F E L H Í V Á S

Szótáralapú kémiai NE-felismer rendszer

A magyar nyelv Ausztriában és Szlovéniában.

TÁJÉKOZTATÓ a Büntetőeljárás-jog 1-2 oktatásáról, követelményekről a teljes idejű és a részidős képzés hallgatói számára 2015/2016.

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

GYULAI ALAPFOKÚ KÖZOKTATÁSI INTÉZMÉNY DÜRER ALBERT ÁLTALÁNOS ISKOLA TAGINTÉZMÉNYE HELYI TANTERV 1

ERKEL FERENC Pedagógiai Program TARTALOMJEGYZÉK MAGYAR NYELV ÉS IRODALOM TANTERV MATEMATIKA KÖRNYEZETISMERET

Magyarajkú, nem-magyar állampolgárságú tanulók nevelésének, oktatásának helyzete a magyar közoktatásban. Készítette: Kováts András és Medjesi Anna

Az EDIMART Tolmács-és Fordításszolgáltató általános szerződési feltételei (a továbbiakban: ÁSZF)

Éves JlentésÉ. Nemzeti Adó- és Vámhivatal Központi Hivatala Pénzmosás Elleni Információs Iroda FÉLÉVÉS TÁJÉKOZTATÓ 2014.

14.) Napirend: A Családsegít és Gyermekjóléti Szolgálat m ködtetésére kiírt közbeszerzési pályázat eredményhirdetése

Tartalomjegyzék. 5. A közbeszerzési eljárás főbb eljárási cselekményei. 6. Eljárási időkedvezmények a közbeszerzési törvényben

Hivatkozás hagyományos és elektronikus forrásokra

MAGYAR NYELV ÉS IRODALOM 1-4. BEVEZETŐ

A történelem érettségi a K-T-tengelyen Válasz Dupcsik Csaba és Repárszky Ildikó kritikájára. Kritika és válasz

NYELVÜNK BÁR- ÉS AKÁR- ELEMEINEK BEMUTATÁSI PROBLÉMÁI A MAGYAR NYELV IDEGEN AJKÚ TANULÓINAK SZÁNT GRAMMATIKÁKBAN

FELHÍVÁS a XXXII. Országos Tudományos Diákköri Konferencia Művészeti és Művészettudományi Szekciójában való részvételre

MAGYAR NYELV ÉS IRODALOM

Jelenlévık: a mellékelt jelenléti ív szerint. Napirend:

Definíció. Sz: Hunyadi József és Smidegh Anna *1803.nov.30. Majsa dec.30. Majsa K: Kulcsár Rozália

43/1999. (III. 3.) Korm. rendelet. az egészségügyi szolgáltatások Egészségbiztosítási Alapból történ ő finanszírozásának részletes szabályairól

Regressziószámítás alkalmazása kistérségi adatokon

A Magyar Kerékpárosklub javaslatai a KRESZ módosítására

III.A Az 1-4. évfolyam részletes helyi tanterve

Jelentés az első digitalizált magyar orosz párhuzamos korpusz (HunOr) építéséről

NEVELÉSI PROGRAM A MAGYAR-ANGOL KÉT TANÍTÁSI NYELVŰ OSZTÁLYOK RÉSZÉRE

4. évfolyam, 8. évfolyam, 12. évfolyam, minimumszint. minimumszint. minimumszint. KER-szintben nem megadható. Első idegen nyelv. Második idegen nyelv

Javaslat A TANÁCS RENDELETE. a forgalomba hozatalra szánt euróérmék címleteiről és műszaki előírásairól. (átdolgozás)

Előszó. V. Skouris A Bíróság elnöke

SZOLNOKI FŐISKOLA Ú T M U T A T Ó

Szabó Martina Katalin

RÖVID ÁTTEKINTÉS PROF. EM. DR. KOVACSICS JÓZSEF SZAKIRODALMI MUNKÁSSÁGÁRÓL

Adóigazgatási szakügyintéző

AZ EURÓPAI KÖZÖSSÉGEK BIZOTTSÁGA. Javaslat AZ EURÓPAI PARLAMENT ÉS A TANÁCS HATÁROZATA

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

KUTATÁS, FEJLESZTÉS, PÁLYÁZATOK ÉS PROGRAMOK A FELSŐOKTATÁSBAN AZ OKTATÁSI MINISZTÉRIUM FELSŐOKTATÁS-FEJLESZTÉSI ÉS TUDOMÁNYOS ÜGYEK FŐOSZTÁLYÁNAK

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A MAGYAR KERTÉSZETI SZAKKÉPZŐ INTÉZMÉNYEK SZÖVETSÉGÉNEK ALAPSZABÁLYA

Szegedi Tudományegyetem Egészségtudományi és Szociális Képzési Kar 1. Kari Ügyrend

Ismeretszerzési, - feldolgozási és alkalmazási képességek fejlesztésének lehetőségei, feladatai

Biró András, jogtanácsos. A közigazgatási hatósági eljárás jelene és jövője - Könyvbemutatóval egybekötött szakmai konferencia

AZ ÁLLAMVIZSGA-DOLGOZATTAL KAPCSOLATOS FORMAI KÖVETELMÉNYEK 2015

A mőszaki menedzser (egyetemi) és mőszaki menedzser/gazdálkodási mérnök (BSc) szakokkal kapcsolatos szakspecifikus tudnivalók

HÉTVÉGI HÁZI FELADAT SZABÁLYAI, ISKOLAI DOLGOZATOK

A verbális szövegek analitikus megközelítése szemiotikai szövegtani keretben I. rész

J/9457. B E S Z Á M O L Ó

A LEVÉLTÁRI SZEMLE REPERTÓRIUMA ( )

Szakdolgozati szabályzat

ÖSSZEFOGLALÓ JELENTÉS

A tanulószerzıdések igényfelmérése

Az óvodapedagógus és tanító ideát szolgáló gyakorlati képzés fő jellemzőinek meghatározása, alapelvek

Tehát a jelenlegi gondolkodási mód (paradigma) alapja hibás, ezért nem lehet azt változtatással (reformmal) továbbéltetni. Ezért II.

Formai követelmények, DOSZ Közgazdász Doktoranduszok és Kutatók V. Nemzetközi Téli Konferenciája

A Helyi tantervet szeptemberben az 5. évfolyamon kell bevezetni!

magyar (BA)-BTK XXX-MAGTANB2/ képzési terv

HUMÁNTUDOMÁNYI INTÉZET. TDK TÉMAJAVASLATOK Részletes bemutatása év

Kulturális marketing

PEDAGÓGUSOK ÉS AZ IKT KOMPETENCIATERÜLET

Átírás:

Szeged, 2011. december 1 2. 341 A HunOr magyar-orosz párhuzamos korpusz Szabó Martina Katalin 1, Schmalcz András 2, Nagy T. István 2, Vincze Veronika 3 1 Szegedi Tudományegyetem, Magyar Nyelvészeti Tanszék szabomartinakatalin@gmail.com 2 Szegedi Tudományegyetem, Informatikai Tanszékcsoport schmalcz.andras@stud.u-szeged.hu, nistvan@inf.u-szeged.hu 3 SZTE-MTA Mesterséges Intelligencia Kutatócsoport vinczev@inf.u-szeged.hu Kivonat: A jelen dolgozatban a HunOr, egy eleddig hiányzó digitalizált magyar orosz párhuzamos korpusz létrehozásáról számolunk be. A dolgozat a korpuszépítési munka céljáról, jelenlegi állásáról, az eddigi munka során szerzett tapasztalatokról, a munka folyamatáról és eszközeir l, valamint a HunOr korpusz adatairól igyekszik átfogó képet adni. Az ismertetés során részletesen szólunk azokról az elméleti és gyakorlati jelleg problémákról, amelyek az eddig elvégzett és a jelenleg folyó feldolgozási munkák (mondatra bontás, mondatszint párhuzamosítás, NE-annotálás) során elméleti vagy gyakorlati szempontból megoldásra váró feladatként léptek fel. 1 Bevezetés A HunOr korpusz autentikus magyar nyelv szövegeket, valamint azok orosz fordításait, illetve autentikus orosz nyelv szövegeket, valamint azok magyar fordításait tartalmazza. A korpusz létrehozásának els dleges célja, hogy vizsgálati anyagot teremtsünk a magyar orosz, illetve az orosz magyar fordításkutatás számára. Ugyanakkor, mivel a korpusz nem csupán fordított, hanem autentikus szövegeket is tartalmaz mindkét nyelven, számos, egyéb tudományterület kérdéskörébe tartozó nyelvészeti probléma számítógéppel támogatott vizsgálatát is lehet vé fogja tenni. A korpusz mindemellett különféle számítógépes nyelvészeti alkalmazásokhoz, például a gépi fordításhoz is kit n segédletet biztosíthat. 2 A HunOr korpusz szöveganyaga A korpusz feldolgozott szövegállománya jelenleg valamivel több mint 75 000 szövegszót tartalmaz, azonban folyamatos b vítés alatt áll. A korpusz szövegei különböz típusú forrásból (internetes kiadvány, könyvformátum stb.) származnak. A HunOr a szövegm fajokat illet en három kisebb egységre bontható: szépirodalmi, tudományos, valamint hivatalos alkorpuszra. Hamarosan azonban reményeink

342 VIII. Magyar Számítógépes Nyelvészeti Konferencia szerint sajtónyelvi, a Russzisztika Központ Orosz Negyed cím kiadványainak szövegeivel is b vül a korpusz. A szépirodalmi alkotások közül a korpusz jelenleg a Kladbiš enskie istorii cím m vet tartalmazza, amelynek szerz je a Magyarországon egyel re csak álnéven, Borisz Akunyinként ismert Grigorij Cshartisvili. A novellákat és esszéket tartalmazó könyv 2005-ben jelent meg. A m vet 2008-ban Temet i történetek címmel Bagi Ibolya és Sarnyai Csaba ültették magyar nyelvre. A korpuszban található tudományos szövegek a szépirodalomhoz kapcsolódó, orosz forrásnyelv elemz tanulmányok: Nyikolaj Bergyaev egy hosszabb lélegzet, 1990-ben, O ve no-babjom v russkoj duse címen publikált m vének egy részlete, valamint Vitalij Orlov Hranitel nenužnih veš ej cím, 1999-es tanulmánya. A fordításokat 2007-ben Régéczi Ildikó, valamint 2009-ben Józsa György Zoltán készítették. A hivatalos alkorpusz a Magyar Külügyminisztérium honlapján közzétett, Tények Magyarországról cím kiadvány következ szövegeib l áll: A magyar kultúra ezer esztendeje; Nemzeti jelképek, nemzeti ünnepek; Magyar Nobel-díjasok egy jobb világért. Az alábbi táblázat bemutatja a HunOr jelenlegi feldolgozott állományának összefoglaló adatait: 1. táblázat: A HunOr korpusz adatai. Szövegtípus Szövegszavak Mondatok Fordítási irány orosz magyar orosz magyar Szépirodalom 52 798 57 980 3 255 3 313orosz magyar Tudományos 7 014 7 483 360 348orosz magyar Hivatalos 15 924 14 412 710 561magyar orosz Összesen 75 736 79 875 4 325 4 222 3 A korpusz feldolgozása A korpusz kés bbi hasznosíthatósága érdekében szükségesnek bizonyult a szövegek mondatokra bontása, mondatszint párhuzamosítása, illetve ez utóbbival összefüggésben a szövegek tulajdonnévi annotálása. 3.1 A szövegek mondatokra bontása és mondatszint párhuzamosítása A korpusz mondatokra bontása, valamint mondatszint párhuzamosítása szükségessé tette a mondatnak mint a két m velet alapegységének a pontos meghatározását. A mondat meghatározásának a feladata korántsem triviális; problematikusak ugyanis az olyan kifejezések, amelyekben a kett sponttal záródó szerz i szavakat egy nagy kezd bet vel kezd d idézet (egyenes beszéd), egy dialógus, egy önálló mondatokból álló felsorolás vagy egy kifejt magyarázat követi. E szövegtípusok közül az idézés és a dialógus a szépirodalmi, a felsorolás és a kifejt magyarázat pedig a tudományos és a hivatalos stílusú szövegek gyakori szerkesztésbeli sajátsága. A HunOr korpusz m faji összetétele okán fontos feladat volt tehát, hogy egységes rendszert

Szeged, 2011. december 1 2. 343 dolgozzunk ki a kett sponttal szerkesztett kifejezések annotálásához. A probléma megoldásának céljából elvégeztük az említett szövegtípusok magyar és orosz helyesírási gyakorlatának összevet vizsgálatát, valamint áttekintettük a vonatkozó orosz és magyar irodalom megjegyzéseit [3, 11, 13, 14]. A tapasztaltak részletes bemutatásától a dolgozat keretei miatt most eltekintünk. A kett spont után kis kezd bet vel kezd d kifejezések annotálása nem volt problematikus számunkra, azokat egységesen egy mondatba tartozónak jelöltük az el tte álló, kett sponttal végz d szerz i bevezet vel. A nagy kezd bet vel kezd d, kett spont után álló idézetek, dialógusok, felsorolások és leírások annotálása azonban már kérdéses volt. A kínálkozó lehet ségek a következ k voltak: a) a kett sponttal záródó kifejezést egy mondatként kezeljük az általa bevezetett mondattal; amennyiben a kett sponttal záródó kifejezést több mondatból álló szövegrész követi, úgy a szerz szavait egy mondatként kezeljük annak els mondatával, majd a többi mondatot önálló mondatokként annotáljuk; b) a kett sponttal záródó kifejezést, valamint az általa bevezetett, egy vagy több mondatból álló szövegrészt együtt egyetlen mondatként kezeljük; c) a kett sponttal záródó kifejezést önálló mondatként annotáljuk csakúgy, mint az általa bevezetett mondatot, vagy a több mondatból álló szövegrész minden egyes mondatát. Vizsgáljuk meg a fenti szegmentálási lehet ségeket az alábbi példán [3] keresztül! E vizsgálatoknak két formája terjedt el: Az egyik vizsgálati forma az oxitocinterheléses teszt. A méhkontrakciók csökkentik az uterus és az intervillózus tér véráramlását. A másik vizsgálati forma a fizikális terheléses teszt. Fizikai megterhelésre a vázizomzat vérátáramlása fokozódik, többek között a myometrium rovására. A lehetséges mondatra bontási megoldások tehát a következ k: a) <S> E vizsgálatoknak két formája terjedt el: Az egyik vizsgálati forma az oxitocinterheléses teszt. </S> <S> A méhkontrakciók csökkentik az uterus és az intervillózus tér véráramlását. </S> <S> A másik vizsgálati forma a fizikális terheléses teszt. </S> <S> Fizikai megterhelésre a vázizomzat vérátáramlása fokozódik, többek között a myometrium rovására. </S> b) <S> E vizsgálatoknak két formája terjedt el: Az egyik vizsgálati forma az oxitocinterheléses teszt. A méhkontrakciók csökkentik az uterus és az intervillózus tér véráramlását. A másik vizsgálati forma a fizikális terheléses teszt. Fizikai megterhelésre a vázizomzat vérátáramlása fokozódik, többek között a myometrium rovására. </S> c) <S> E vizsgálatoknak két formája terjedt el: </S> <S> Az egyik vizsgálati forma az oxitocinterheléses teszt. </S> <S> A méhkontrakciók csökkentik az uterus és az intervillózus tér véráramlását. </S> <S> A másik vizsgálati forma a fizikális terheléses teszt. </S> <S> Fizikai megterhelésre a vázizomzat vérátáramlása fokozódik, többek között a myometrium rovására. </S>

344 VIII. Magyar Számítógépes Nyelvészeti Konferencia Az (a) és a (b) megoldást támogatja a magyar és az orosz korpuszannotálási gyakorlat [4, 7, 12, 15], amely szerint minden kett spontot tagmondatok közötti írásjelként annotálnak a készít k. A módszer azonban ellentmondásosnak t nik, amennyiben szem el tt tartjuk Rozental [13] megjegyzését, miszerint az egyenes beszéd megfelel az önálló mondat szintaktikai kritériumainak, illetve azt, hogy mind a magyar, mind az orosz szerz k [3, 11, 14] különbséget tesznek az önálló mondatokból, valamint a nem önálló mondatokból álló felsorolások között. Amennyiben a korpuszannotálási gyakorlatot követnénk tehát, úgy kett vagy több, szintaktikai szempontból önálló mondatot egyetlen mondatként jelölnénk be a korpuszban. Az (a) megoldást támogatja továbbá az orosz helyesírási gyakorlat; az orosz szerz k ugyanis a magyar gyakorlattal ellentétben [3] nem ismerik el a kett spontot mondatvégi írásjelként: a mondatzárók között rendre a pontot, a felkiáltójelet, a kérd jelet, valamint a három pontot sorolják fel [11, 13, 14]. Amennyiben tehát az orosz helyesírási gyakorlathoz ragaszkodnánk, úgy a pontokat mondatvégi, a kett spontokat pedig tagmondatok közötti írásjelként kezelnénk, azaz az (a) megoldást alkalmaznánk a korpuszban. Az eljárásmód vitatható volta azonban kiütközni látszik azokban az esetekben, ahol a szerz szavai több mondat vezetnek be. Véleményünk szerint ugyanis semmiféle különbség nem mutatkozik a szerz szavai és az azokat közvetlenül követ mondat, valamint a szerz szavai és az azokat nem közvetlenül követ mondat (vagy mondatok) között, ami alapul szolgálhatna ehhez a sajátos annotálási módhoz. A (c) megoldást támogatják az (a) és a (b) megoldással szemben tett kritikai észrevételek, ugyanakkor a (c) annotálási mód ellen szól az említetteknek megfelel en a korpuszannotálási gyakorlat, valamint az, hogy az orosz nyelvben nem ismerik el a kett spont esetleges mondatvégi státusát. Ugyanakkor grammatikáinkban nem találni olyan kritériumot, amely lehetetlenné tenné a kett sponttal végz d mondat feltevését, pl: [A mondatot] a szerkesztés különféle nyelvtani eszközeinek viszonylagos lezártsága jellemez [8]; formai szempontból els sorban az intonáció egysége, lezártsága jellemzi a magyar mondatot [6]; A mondat egy vagy több szóból áll, zárt intonációs szerkezet jellemzi [2]. Az ismertetett érveket és ellenérveket megfontolva a HunOr korpuszban végül a (c) megoldás alkalmazása mellett döntöttünk. Az általunk választott eljárásmód tehát a következ : azokat a kett spontokat, amelyek nagy kezd bet vel kezd d, egy vagy több mondatból álló szövegrészt vezetnek be, mondatvégi írásjelekként kezeljük a korpuszban, s a kett sponttal végz d szerz i bevezet utáni mondatot vagy mondatokat önálló egységekként annotáljuk. Az annotáció az elmondottak alapján tehát szakít a hazai és az orosz korpuszannotálási gyakorlattal. Ugyanakkor, mivel elméleti megfontolásokon alapszik, teoretikus szempontból a többi lehetséges megoldásnál helytállóbbnak tekinthet. Mindemellett érdemes kiemelni azt is, hogy a módszer az egységessége folytán nem teremt kérdéses eseteket, amelynek köszönhet en annak korpuszbeli alkalmazása mind az annotátori döntéshozatal, mind az automatikus munka szempontjából problémamentesen megoldható. A mondatok párhuzamosításában a fordítási egység hatféle megfeleléstípusát szokás megkülönböztetni [1, 5, 10], a HunOr korpusz építése során azonban egy hetedik típust is detektáltunk ((g)-vel jelölve). A hét megfeleléstípus tehát a következ :

Szeged, 2011. december 1 2. 345 a) 1-1 megfelelés: egy forrásnyelvi mondat egy célnyelvi mondatnak felel meg; b) 0-1 megfelelés, azaz a beszúrás; c) 1-0 megfelelés, azaz a kihagyás; d) 1-N megfelelés, azaz a részekre bontás; e) N-1 megfelelés, azaz az összevonás; f) N-M megfelelés, amely a mondathatár eltolódásából fakad; g) N=M megfelelés, amely a mondatok sorrendjének a cseréjéb l fakad: a forrásnyelvi szöveg két, (a) (b) sorrend mondatának megfelel je a célnyelv szövegben (b) (a) sorrendben található meg. A hetedik megfeleléstípust az alábbi, a HunOr korpuszból származó példa szemlélteti: Dombrovszkij ezt a verset igen szerette. Kit vulkán edzett jó el re S a Nemezis kezébe tett: A bosszú kése vagy szabadság titkos re, Bírák bírája b n és jogtiprás felett!,,,.. 3.2 A tulajdonnévi annotálás Az automatikus párhuzamosítást segítik a szövegben található horgonyelemek, például a számok és tulajdonnevek [9], így a szövegekben két független annotátor bejelölte a tulajdonneveket. Az annotáció során a négy klasszikus tulajdonnévosztályt alkalmaztuk: személy, szervezet, hely és egyéb. Az annotációk közti egyetértési ráta a magyar anyagon 0,8695 és 0,9609, az oroszon pedig 0,7995 és 0,9318 volt ( mértékben és mikro F-mértékben megadva). A tulajdonnevek kézi annotálása lehet vé teszi továbbá különféle magyar és orosz tulajdonnév-felismer rendszerek teljesítményének mérését. A 2. táblázatból kiderül, hogy a két nyelvben eltér gyakorisággal fordulnak el a tulajdonnevek, ami valószín leg egyrészt nyelvek közti különbségeknek köszönhet : léteznek sajátos, csak az adott nyelvben tulajdonnévnek számító elemek, mint például az orosz, melynek magyar megfelel je (emberiség) nem számít tulajdonnévnek. Másrészt a fordításnak köszönhet en stilisztikai különbségek is lehetnek a szövegek között: például az egyik nyelvben szerepl tulajdonnév helyett állhat névmás a másik nyelv szövegben.

346 VIII. Magyar Számítógépes Nyelvészeti Konferencia 2. táblázat: A HunOr korpuszban található tulajdonnevek. orosz magyar Személy 1535 1487 Hely 608 479 Szervezet 137 105 Egyéb 291 224 Összesen 2571 2295 A HunOr korpusz esetében a horgonykeresést illet en több jelent s nyelvi tényez t kell szem el tt tartanunk: El ször is, az általunk feldolgozni kívánt szövegek nem azonos karakterkészlet nyelvekb l származnak, hiszen a magyar nyelv a latin, az orosz nyelv a cirill ábécét használja. A tulajdonnevek tehát nem azonos írásmódban fordulnak el, ami jelent s nehezít körülmény például egy magyar angol párhuzamos korpusz létrehozásához képest. További jelent s nehezít körülmény, hogy az orosz nyelvben az idegen tulajdonneveket nem azok forrásnyelvi bet zése, hanem részben azok kiejtése alapján írják át cirill bet kre, pl. New York Times (angol) - [Nju Jork Tajms]; François de la Chaise (francia) [Fransua de la Šez]. E problémákra tehát fokozott figyelmet kell fordítanunk az automatikus párhuzamosítás során. Ugyanakkor jelent s könnyebbség, hogy a köz- és a tulajdonnevekben a kezd bet k nagyságát illet en a két nyelvben nincs alapvet eltérés, illetve, hogy a két nyelv központozási készlete és annak használati sajátságai alapvet en azonosak. 4 A HunOr korpusz hasznosíthatósága Az elkészült korpuszt a jöv ben szeretnénk morfológiai és szintaktikai elemzésnek is alávetni. A morfológiailag és szintaktikailag elemzett párhuzamos korpusz minden bizonnyal kiemelked szerepet tölthet majd be a transzferalapú gépi fordítórendszerek fejlesztésében, de többnyelv információkinyerésben is hasznosítható lesz, ugyanakkor a többszint annotációnak köszönhet en (morfológia, szintaxis, névelemek) a két részkorpusz a magyar, illetve orosz nyelv számítógépes nyelvészeti kutatásokat egyaránt ösztönözheti. Köszönetnyilvánítás A kutatás részben a MASZEKER kódnev projekt keretében a Nemzeti Fejlesztési Ügynökség, illetve a TÁMOP-4.2.1/B-09/1/KONV-2010-0005 jel projekt keretében az Európai Unió támogatásával, az Európai Regionális Fejlesztési Alap és az Európai Szociális Alap társfinanszírozásával valósult meg. Szabó Martina Katalin konferencián való részvétele a Szegedi Tudományegyetem Hallgatói Önkormányzata segítségével vált lehetségessé.

Szeged, 2011. december 1 2. 347 Bibliográfia 1. Klaudy K.: A fordítás elmélete és gyakorlata. Angol / francia / német / orosz fordítástechnikai példatárral. Scholastica Kiadó, Budapest (1997) 2. Kugler N.: A mondattan általános kérdései. In: Keszler B. (szerk.): Magyar Grammatika. Nemzeti Tankönyvkiadó, Budapest (2000) 369 393 3. Laczkó K., Mártonfi A.: Helyesírás. Osiris Kiadó, Budapest (2006) 4. Magyar Nemzeti Szövegtár [http://corpus.nytud.hu/mnsz/] 5. Pohl G.: Szövegszinkronizációs módszerek, hibrid bekezdés- és mondatszinkronizációs megoldás. In: Alexin Z., Csendes D. (szerk.): MSzNy 2003 I. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged (2003) 254 259 6. Rácz E.: Mondattan. In: Rácz E. (szerk.): A mai magyar nyelv. Nemzeti Tankönyvkiadó, Budapest (1968) 205 458 7. Szeged Korpusz [http://www.inf.u-szeged.hu/projectdirs/hlt/] 8. Tompa J.: A mondat és a mondattan általános kérdései. In: Tompa J. (szerk.): A mai magyar nyelv rendszere. Leíró nyelvtan II. Akadémiai Kiadó, Budapest (1962) 7 22 9. Tóth, K., Farkas, R., Kocsor, A.: Hybrid algorithm for sentence alignment of Hungarian- English parallel corpora. Acta Cybernetica Vol. 18, No. 3 (2008) 463 478 10. Vincze V., Felvégi Zs., R. Tóth K.: Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban. In: Tanács A., Vincze V. (szerk.): MSzNy 2010 VII. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged (2010) 91 101 11.,...:.., (2007) 12. [http://www.ruscorpora.ru/] 13.,..:..,., (1988) 14.,..:... 3-., - (2000) 15. [http://www.ling.helsinki.fi/projects/hanco/]