A Hunglish Korpusz és szótár



Hasonló dokumentumok
A HUNGLISH PÁRHUZAMOS KORPUSZ

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Nyelv-ész-gép Új technológiák az információs társadalomban

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

PurePos: hatékony morfológiai egyértelműsítő modul

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

KOPI. Plágiumkeresés különböző nyelvek között MTA SZTAKI DSD. Pataki Máté. Department of Distributed Systems

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

PÁRHUZAMOS IGEI SZERKEZETEK

Önálló labor feladatkiírásaim tavasz

Tudás Reflektor. Copyright 2011; Kodácsy Tamás;

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Szemantikus világháló a BME-n

World Wide DSD Web. Csoportmunka

A kibővített Magyar történeti szövegtár új keresőfelülete

Dr. habil. Maróti György

A Mazsola KORPUSZLEKÉRDEZŐ

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

A magyar létige problémái a számítógépes nyelvi elemzésben

Lexikon és nyelvtechnológia Földesi András /

Érettségi témakörök és tételek irodalomból 12. A

Fordítás, többnyelvűség, szótárak

Igekötős szerkezetek a magyarban

Útmutató a szakdolgozat elkészítéséhez a Társadalomtudományi és gazdasági szakfordító és tolmács szakirányú továbbképzési szakon

A Magyar Tudományos Művek Tára

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Főnévi csoportok azonosítása magyar-angol párhuzamos korpuszban

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

Tartalom. Előszó feladat: Fordítás a megszokott eszközökkel A számítógép hatékony használatáról... 18

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

4. Javítás és jegyzetek

alap közép felső angol német francia orosz

Online tartalmak konzorciumi beszerzése

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Windows XP. és Ubuntu. mi a különbség? Mátó Péter <mato.peter@fsf.hu> Windows XP vs Ubuntu Mátó Péter <mato.peter@fsf.

MIDRA. A Miskolci Egyetem repozitóriuma. Espán Edina. Miskolci Egyetem Könyvtár, Levéltár, Múzeum. Networkshop 2012, Veszprém

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

Jelnyelvi szótár használati útmutató

IMOLA. Integrált MOKKA2, ODR2 és OLA. Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium

Ismeretanyag Záróvizsgára való felkészüléshez

UMN Mapserver és a Grass használata a Geológiában. Soós Dániel, Phd. Hallgató Miskolci Egyetem Geodéziai és Bányaméréstani Intézeti Tanszék

Élő webes alkalmazások rendszerfelügyelete cím- és tartalomteszteléssel

Kiss Gergő, Kovács László, Micsik András, Moldován István

TAKARNET24 szolgáltatásai

Információ és kommunikáció

Savaria Egyetemi Könyvtár Katalógusa. Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók

Enciklopédia és virtualitás

Korpuszlekérdezők evolúciója

Teszt generálás webes alkalmazásokhoz

Kisebbségi közösségek az interneten Adatbankok és dokumentációs programok. MTA Kisebbségkutató Intézet, bardinandor[*kukac*]gmail.

OpenOffice.org mint fejlesztési platform

A magánhangzó-formánsok és a szubglottális rezonanciák összefüggése a spontán beszédben

Nyelvi tudásra épülő fordítómemória

Gépjármű fekete doboz az útvonalrekonstrukció új eszközei

Többnyelvű tezaurusz építése és szolgáltatása webes környezetben

A NEMZETI KÖZNEVELÉSI PORTÁL ÉS A DIGITÁLIS TANANYAGELEMEK BEMUTATÁSA KERESÉS, LEJÁTSZÁS ÉS FELADATKÉSZÍTÉS AZ NKP-N

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

Publikációs stratégia, tudománymetria, open access, szakirodalmi adatbázisok április 11.

A Hypertext. Dr. Nyéki Lajos 2019

Abban a farmerba nem mehetsz színházba. A (bvn) variabilitásának vizsgálata a BUSZI tesz9eladataiban

A HBONE aktualitások február 7.

Mesterséges Intelligencia Elektronikus Almanach

MTMT lehetőségek a kutatásszervezésben és a kutatásban

MTA SZTAKI MTA SZTAKI

Munkaerőpiaci tükör 2012

Tartalom. Konfiguráció menedzsment bevezetési tapasztalatok. Bevezetés. Tipikus konfigurációs adatbázis kialakítási projekt. Adatbázis szerkezet

Digitális kincstár digitális kincskereső Elektronikus szolgáltatások az MTA Könyvtárában

Beszédtechnológia az információs esélyegyenlőség szolgálatában

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Párhuzamos (fordított) szövegek többcélú felhasználása Három fő terület: 1. A szöveg előkészítése (mindhárom esetben):

Murinkó Gergő

Ismeretlen kifejezések és a szófaji egyértelm sítés

Nemzetközi tanulói képességmérés. szövegértés

A biztosításközvetítés, illetve biztosítottak csoportos biztosításhoz történő csatlakoztatása elhatárolásának szempontjai

3D számítógépes geometria és alakzatrekonstrukció

TÁMOP A-11/ A MAGYAR TUDOMÁNYOS MŰVEK TÁRA (MTMT) PUBLIKÁCIÓS ADATBÁZIS SZOLGÁLTATÁSOK ORSZÁGOS KITERJESZTÉSE MTMT ÉS MTMT2

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

Az egyszer keres felületen sz kíthetjük a keresést adott mez re a legördül lista segítségével.

18. századi folyóiratok komplex feldolgozása a Debreceni Egyetemen

DocBook útmutató. Jeszenszky Péter Debreceni Egyetem, Informatikai Kar

TT elősegítő eszközök

Zimbra levelező rendszer

DOKTORI DISSZERTÁCIÓ

Informatika 6. évfolyam

Informatika évfolyam

Átírás:

A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu 2 MTA Nyelvtudományi Intézet 1068 Budapest, Benczúr u. 33. {joker,varadi}@nytud.hu MSZNY - 2005. december 8.

Eredmények Hunglish Korpusz: mondatszinten illesztett magyar angol párhuzamos korpusz hunalign: mondatszintű illesztő párhuzamos korpuszok építéséhez Steinbeck Korpusz: manuálisan illesztett párhuzamos szöveg szótár: párhuzamos gyakorisági adatokkal bővített angol magyar szótár kereső: webes keresőrendszer párhuzamos korpuszokhoz

Nyersanyag forrásai A gyakran hivatkozott automatikus módszerek (Resnik 2002) helyett, manuálisan gyűjtöttünk párhuzamos szövegeket, elsősorban az internetről. Irodalmi szövegek. Fő forrásunk a Project Gutenberg és a Magyar Elektronikus Könyvtár. Jogi szövegek. Az EU közösségi jogszabályok CELEX adatbázisa és az Európai Alkotmány. Nyílt forráskódú szoftverek dokumentációi. KDE, Gnome, OpenOffice, Mozilla és GNU. Filmfeliratok. Az internetről letölthető jogvédett szövegek. Magazinok angol és magyar kiadásai. Sajtófigyelő. A Magyar Telekom Rt. kétnyelvű sajtófigyelő adatbázisa.

A korpusz összetétele szövegtípusok szerint forrás Angol tokenek (m) Magyar tokenek (m) irodalom 14.6 11.5 jogi 24.1 18.3 filmfelirat 2.5 1.9 szoftver 0.8 0.7 magazinok 0.3 0.3 sajtó 2.1 1.7 összesen 44.5 34.5

Szerzői jogi kérdések A jogvédett párhuzamosított szövegeket mondatszintű keverésnek vetettük alá. A legfontosabb alkalmazásaink számára nem jelent hátrányt, beleértve statisztikus gépi fordítórendszerek tanítását is. Lehetetlenné teszi nagyobb szövegrészek rekonstruálását, védve a szerzői jogok tulajdonosainak érdekeit. A Hunglish Korpuszt auditálta és hamarosan terjeszteni fogja a Linguistic Data Consortium.

hunalign mondatpárhuzamosító Nagy pontosságú és fedésű. Nyelvfüggetlen. Hatékonyan képes hasznosítani kétnyelvű szótárat és szótövezőket, de erőforrás-mentesen is pontos. Gyors.

Az algoritmus bemenet 1 Mondatra darabolt forrás- és célnyelvi szöveg. 2 Kétnyelvű frázislexikon. 1 Egyszerű nyersfordítás építése a forrásszövegből, a célnyelvi gyakoriságok figyelembe vételével. 2 Első párhuzamosítás, a nyersfordítás és mondathossz-hasonlóság figyelembe vételével. 3 Lexikon bővítése automatikus szótárépítő eljárással. 4 Megismételt párhuzamosítás, a bővített lexikon felhasználásával.

Algoritmus értékelése Eljárás pontosság fedés len 97.58 97.55 len+id 97.65 97.42 dic 97.30 97.08 len+dic 98.86 98.88 len+dic+stem 99.34 99.34 len+boot 98.63 98.74 len+boot+stem 99.12 99.18 id - szóazonosság len - karakterszám dic - kétnyelvű lexikon boot - automatikus lexikonbővítés stem - szótövező alkalmazása

Algoritmus értékelése Eljárás pontosság fedés len 97.58 97.55 len+id 97.65 97.42 dic 97.30 97.08 len+dic 98.86 98.88 len+dic+stem 99.34 99.34 len+boot 98.63 98.74 len+boot+stem 99.12 99.18 A klasszikus Gale-Church algoritmus. id - szóazonosság len - karakterszám dic - kétnyelvű lexikon boot - automatikus lexikonbővítés stem - szótövező alkalmazása

Algoritmus értékelése Eljárás pontosság fedés len 97.58 97.55 len+id 97.65 97.42 dic 97.30 97.08 len+dic 98.86 98.88 len+dic+stem 99.34 99.34 len+boot 98.63 98.74 len+boot+stem 99.12 99.18 id - szóazonosság len - karakterszám dic - kétnyelvű lexikon boot - automatikus lexikonbővítés stem - szótövező alkalmazása A klasszikus Gale-Church algoritmus. Legjobb eredményünk nyelvi erőforrások alkalmazásával.

Algoritmus értékelése Eljárás pontosság fedés len 97.58 97.55 len+id 97.65 97.42 dic 97.30 97.08 len+dic 98.86 98.88 len+dic+stem 99.34 99.34 len+boot 98.63 98.74 len+boot+stem 99.12 99.18 id - szóazonosság len - karakterszám dic - kétnyelvű lexikon boot - automatikus lexikonbővítés stem - szótövező alkalmazása A klasszikus Gale-Church algoritmus. Legjobb eredményünk nyelvi erőforrások alkalmazásával. Legjobb eredményünk nyelvi erőforrások alkalmazása nélkül.

hunalign erőforrás nélkül A hunalign és (Moore 2002) összehasonĺıtása három szövegen, csak az egy az egyhez szegmentumokon. feladat hunalign Moore 02 pont. fed. pont. fed. 1984 Hun-Eng tövezett 99.22 99.24 99.42 98.56 1984 Hun-Eng nem töv. 98.88 99.05 99.24 97.39 1984 Rom-Eng nem töv. 97.10 97.98 97.55 96.14 Cup of Gold Hun-Eng töv. 97.03 98.44 96.45 97.53

Nyelvfüggetlenség A hunalign pontossága és fedése a MULTEXT-East 1984 korpuszon különböző angol X nyelvpárokra, nyelvi erőforrások használata nélkül. nyelv pontosság fedés észt 99.34 99.53 cseh 98.60 98.75 román 97.10 97.98 szlovén 99.44 99.61

Steinbeck korpusz John Steinbeck Egy marék arany című művének manuálisan illesztett változata. Nyelvenként körülbelül 230 oldal, 5400 mondat, 57,000 szó. 6 emberhétnyi manuális munka. Elsősorban mondatpárhuzamosítás hatékonyságának mérésére szolgál. Csak kutatási célra használható fel.

Hunglish szótár Vonyó Attila ismert szótárából kiindulva, azt együtt-előfordulási statisztikákkal láttuk el a morfológiailag elemzett Hunglish Korpusz alapján. a Hunglish korpuszon végzett automatikus szótárépítés eredményével bővítettük. Statisztikus gépi nyersfordítás céljaira építettük, de későbbi alapja lehet szótár-szolgáltatásnak is.

Keresőfelület Párhuzamos korpuszokban való keresést tesz lehetővé: szótőre vagy teljes szóalakra. szavakkal vagy kifejezésekkel. logikai operátorokkal. akár mindkét nyelvre.

Keresőfelület

Keresőfelület

Összefoglalás A korpuszok és erőforrások mellett eszközeinket is publikáltuk. A korpuszt már használják is többen. Módszereink nyelvfüggetlenek, megismételhetők más nyelvpárokra is.

Linkek Hunglish Korpusz http://mokk.bme.hu/eszkozok/hunglishkorpusz hunalign http://mokk.bme.hu/eszkozok/hunalign Kereső http://hunglish.hu