Fordítás, többnyelvűség, szótárak Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu
Minden hivatalos anyagot minden hivatalos nyelven meg kell szövegezni, továbbá bármely hivatalos nyelven fogalmazódik egy nyilatkozat, azt minden más hivatalos nyelvre és minden, az elnökség által szükségesnek tartott egyéb nyelvre is le kell fordítani. (Az Európa Parlament ügyrendje, 79. cikkely)
Az EU-országok idegennyelv-tudása Luxemburg 99% Lettország 93% Málta 93% Hollandia 91% Litvánia 90% Szlovénia 89% Dánia 88% Svédország 88% Észtország 87% Ciprus 72% Belgium 71% Szlovákia 69% Finnország 66% Németország 62% Csehország 60% Ausztria 58% Görögország 49% Lengyelország 49% Franciaország 45% Bulgária 45% Írország 41% Románia 41% Spanyolország 36% Olaszország 36% Portugália 36% Egyesült Királyság 30% Magyarország 29% (Eurobarometer)
A beszélt nyelvek megoszlása (Az idegen nyelvek megoszlása az idegen nyelveket beszélők %-ában - Eurobarometer)
A szótár a nyelvtudás egyik kulcsa Az elektronikus és a hagyományos szótárak viszonyát alapvetően meghatározza: a használat módja a sebesség az adott helyzetben kapott találatok pontossága az egyszerre több helyen való fellapozhatóság lehetősége
A szótárprogramok nagy része nem nyelvtechnológiai produktum, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázis: a hazai területen ilyenek pl. a 90-es években széles körben használt GIB szótárak a Scriptumtól, vagy a közismert internetes Sztaki-szótár Az intelligens szótári rendszer egyik első megvalósítása magyar fejlesztés: a MorphoLogic MoBiMouse programja (IST Prize = EU Információtechnológiai Díj, 1998) Eleinte csak off-line szótártermékek voltak, ma már (javarészt ingyenes) on-line szótári szolgáltatások - ám a legtöbb ilyen szolgáltatás még mindig nem a szűken vett nyelvtechnológia tárgykörébe tartozik
Ma már alapvetően Web2-alapú Folyamatosan bővülő szótárkínálattal Sajátszótár-készítési lehetőséggel Tetszőleges webes tartalom integrált megjelenítésével A kifejezések intelligens kezelésével A közösségi jelenlét támogatásával Egymás segítésének és a (jogos) kritikának a fórumával A felhasználók keresési szokásainak elemzésével Könnyű keresés-indítási lehetőséggel Saját, személyre szabható és menthető beállításokkal Egy ilyen megvalósítás: www.webforditas.hu
A géppel támogatott fordítás eszközei A professzionális fordítók igénye: gépi szótárak és sok más fordítástámogató szoftvereszköz, de továbbra sem a gép fordít! Például tovább lehet gyorsítani a munkán, ha az eddig lefordított anyagokat el lehet érni Kialakulnak a fordítómemóriák Új kutatási terület: hasonló mondatok keresése Párhuzamos szövegkorpuszok: szövegek fordításaikkal, mondatpáronként kereshetően A legjelentősebb hazai kísérlet: a Hunglish angol-magyar párhuzamos korpusz (BME MOKK, MTA NYTI) Szoftvereszközök: Trados, SDL, Transit, Déja Vu, A MemoQ magyar fejlesztésű fordítómemória (Kilgray Kft) több szakmai szempontból meghaladja a versenytársait Nyelvtechnológia + fordítómemória: út az intelligens fordítómemóriák felé
A Hunglish párhuzamos korpusz Több mint 2 millió (emberi fordítással készült) magyar-angol mondatpár (54,2 millió szó) Keresés szavakra (tövesítve) mondatkörnyezetben (sok a kiadott szótárakban nem fellelhető szót találni Témakörök: irodalom, jogi szövegek, szoftverdokumentáció, filmfeliratok, publicisztikai írások Havi 10 ezer felhasználó, ingyenes elérés: www.hunglish.hu További mondatpárokkal tovább bővíthető és a technológia más nyelvekre is könnyen adaptálható
A MemoQ fordítómemória
A gépi fordítás minősítési kritériumai Forrás: Stadler-Spröndli, MT Summit 2007
A gépi fordítás legalapvetőbb módszerei
A közvetlen fordítás csak az 60-as évek elejéig működött (magyar kísérlet is volt!) A minden nyelv fölött álló közvetítőnyelves megoldás mindig csak kísérlet maradt (pl. DLT, amiben kísérlet volt a magyar bevonására is) A transzfer-fordítás ma a szabály-alapú rendszerek alapgondolata (pl. Systran, ProMT, Eurotra) A statisztikai fordítók az utóbbi évtized egyeduralkodóivá váltak, de képességeiket csak szűk területen mutatják meg jól (nyílt forráskódú rendszerek: Pharaoh, Giza++, Moses) A soknyelvűség ismét előtérbe kerül: hibrid rendszerek előállítása - magyar közreműködéssel (MorphoLogic): az EuroMatrix projekt A példa-alapú rendszer nem feltétlenül kapcsolódik statisztikai megoldáshoz (pl. MetaMorpho)
Egy hazai gépi fordítási esettanulmány A www.webforditas.hu ingyenes internetes fordítószolgáltatás A gépifordító-motor a MorphoLogic MetaMorpho rendszere Az angol-magyar a MorphoLogic saját fejlesztése (2000-2004), a magyar-angol a MorphoLogic vezette és az MTA Nyelvtudományi Intézet, valamint az SZTE Informatikai Tanszékcsoportjából álló konzorcium munkája (NKFP 2/008/04) 2007 és 2008. októbere között: 91 millió fordítási kérés kiszolgálása (az előző 12 hónapban ugyanez 43 millió oldal volt) 81 millió szövegfordítás + 2 millió weboldal-fordítás + 7,2 millió szótári lekérdezés 13,3 GB adatforgalom: ez 1800 karakter/gépelt oldallal számolva mintegy 7,2 millió A4-oldalnak felel meg 2008. szeptemberében már 50 000 látogató/nap!
Teljes weblapok fordítása www.webforditas.hu
A fordítóoldalak látogatószáma egyre nő A webforditas.hu gépifordító-szolgáltatásának látogatószám-növekedése 2007/2008-ban
Gépifordító-szolgáltatások összevetése
Következmények és fejlesztési irányok A fordítói társadalom természetesen nem érzett meg ebből semmit (=egy fordító sem vesztette el az állását) Miért? Mert ez nem fordítás az eredeti értelemben, hanem a többnyelvűség egy újabb területe: az internet előtt ülők megértéstámogatása Ezek a számok adták az ötletet további nyelvek bevonásához, a MorphoLogic angol-magyar és magyar-angol szolgáltatásának és a világ angol-x és X-angol gépfordítószolgáltatásainak összekapcsolására Hogyan?
A működés megkerülhetetlen előfeltétele a megnyilatkozások fordítása, tolmácsolása az éppen megnyilatkozó nyelvéről az összes többi nyelvre. Matematikailag a legegyszerűbb és minden szempontból a leghatékonyabb, nem mellesleg a legolcsóbb megoldás az, ha minden megnyilatkozást először lefordítanak egy közös nyelvre, egy második lépésben pedig ezen közös nyelvről lefordítják a megnyilatkozást az összes többi nyelvre. Mivel egy fordítóról általánosan is elvárható az oda-vissza fordítás két nyelv között, 23 hivatalos nyelv (azaz egy közös és 22 más nyelv) esetében ilyen munkamódszer mellett pontosan 22 fordítóra lenne szükség. [ ] Megoldásként kínálkozik a másik munkamódszer, amikor ilyen áthidaló közös nyelv közbeiktatása nélkül a fordítás minden nyelvről minden nyelvre történik. Ebben az esetben viszont pontosan 506 fordítóra lenne szükség. (Az Európai Unió soknyelvűsége - Ajánlás)
Közvetett fordítás interlingvával A nyelvpárok száma= n*(n-1) A nyelvek száma Hagyományos/Statisztikai Interlingvával 6 nyelv 30 12 23 nyelv 506 46 50 nyelv 2450 100 A létező X-angol/angol-X gépifordító-rendszerek adják az interlingvát: az angolt X-Y közvetett fordítás: angolon át 2008 nyarától a Google is ezt csinálja: statisztikai fordítóit kötötte össze az angolon keresztül
A legfontosabb európai világnyelvek: angol, német, francia, spanyol, olasz, orosz További nyugat-európai nyelvek: portugál, holland, dán, svéd, norvég, finn, katalán A visegrádi nyelvek: lengyel, cseh, szlovák További szomszédos nyelvek: ukrán, román, szerb, horvát, szlovén További kelet-európai nyelvek: görög, bolgár, lett, litván A legfontosabb nem európai világnyelvek: arab, héber, japán, kínai, koreai További nagy, nem-európai nyelvek: hindi, indonéz, vietnámi A MorphoLogic nemzetközi partnerei ebben a gigaprojektben: ProMT (orosz, német, francia, spanyol, portugál), Trident (ukrán, lett), pwn.pl (lengyel), SkyCode (bolgár), GrammarSoft (dán, norvég) Ez a 12 fordítómodul saját gépen futó változatban is, Word-fájlok és weblapok fordítására elérhetőek: MorphoWord Net A szükséges fejlesztések fő iránya: úgy javítani az angol-magyar/ magyar-angol rendszert, hogy az a géppel való továbbfordítás kritériumainak minél jobban megfeleljen ( nem ember áll a túloldalon! )
például a japánt: ami így fest magyarul:
Merre megy a gépi fordítás tovább? Hosszú távra tervezett kutatás (csak megfelelő támogatással): a fordítási minőség folyamatos javítása (korpusznyelvészeti és hibrid megoldásokkal) Kutatási projektek a fordításhoz tartozó szolgáltatások bővítésére (pl. szókészlet-bővítő eszközök, intelligens keresési megoldások) Újabb platformok, más info-kommunikációs rendszerekkel való integráció bevonási lehetőségeinek kutatása (pl. összekapcsolás beszédfeldolgozással, mobil alkalmazások)
Köszönöm figyelmüket! Thanks for your attention!