Fordítás, többnyelvűség, szótárak



Hasonló dokumentumok
Mire, mennyit költöttünk? Az államháztartás bevételei és kiadásai ban

Azon ügyfelek számára vonatkozó adatok, akik részére a Hivatal hatósági bizonyítványt állított ki

A BELGA KIRÁLYSÁG, A BOLGÁR KÖZTÁRSASÁG, A CSEH KÖZTÁRSASÁG, A DÁN KIRÁLYSÁG, A NÉMETORSZÁGI SZÖVETSÉGI KÖZTÁRSASÁG, AZ ÉSZT KÖZTÁRSASÁG, ÍRORSZÁG,

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

MELLÉKLET. a következőhöz: A Bizottság jelentése az Európai Parlamentnek és a Tanácsnak

MagyarOK 1.: munkalapok 2

Közlekedésbiztonsági trendek az Európai Unióban és Magyarországon

Európa Albánia Andorra Ausztria Belgium Bulgária Csehszlovákia Dánia Egyesült Királyság Észtország

Munkaidő-szab{lyoz{s Európ{ban A Policy Solutions közpolitikai h{ttérelemzése az Európai Unió egyes tag{llamainak munkaidő-szab{lyoz{s{ról

Észrevételek ( 1 ) Részletes vélemények ( 2 ) EFTA ( 3 ) TR ( 4 ) Belgium Bulgária Cseh Közt.

Szerződő fél Ratifikáció/Csatlakozás Hatályba lépés dátuma. Albánia Csatlakozás: június szeptember 1.

ZÁRÓOKMÁNY. AA2003/AF/TR/hu 1

Nyugdíjasok, rokkantsági nyugdíjasok az EU országaiban

3. melléklet: Innovációs és eredményességi mutatók Összesített innovációs index, 2017 (teljesítmény a 2010-es EU-átlag arányában)

2018/149 ELNÖKI TÁJÉKOZTATÓ Budapest, Riadó u Pf Tel.:

Magyarország versenyképessége az IKT szektorban A tudás mint befektetés. Ilosvai Péter, IT Services Hungary

ZÁRÓOKMÁNY. AF/EEE/BG/RO/hu 1

MELLÉKLET JEGYZŐKÖNYV. a következőhöz: A Tanács határozata

Általános Szerződési Feltételek Conclude Befektetési Zrt. GoldTresor online nemesfém kereskedési rendszer

A magyar gazdaság főbb számai európai összehasonlításban

MELLÉKLET. a következőhöz: Javaslat A TANÁCS HATÁROZATA

PE/113/S SZÁMÚ ÁLLÁSHIRDETÉS. IGAZGATÓ (AD 14 besorolási fokozat) (2008/C 145 A/02)

Menü. Az Európai Unióról dióhéjban. Továbbtanulás, munkavállalás

USE ONLY EURÓPA ORSZÁGAI ÉS FŐVÁROSAI

MELLÉKLET. a következőhöz:

A megállapodás 3. cikkében hivatkozott lista I. RÉSZ

AZ EURÓPAI HALÁSZAT SZÁMOKBAN

SZERVIZKÖZLEMÉNY SZÁRÍTÓGÉP

1408/71 rendelet: 12.; 72. cikk 574/72 rendelet: 10a.; és 3. cikk

Nagykövetségek March 13.

Egészség: Készülünk a nyaralásra mindig Önnél van az európai egészségbiztosítási kártyája?

L 165 I Hivatalos Lapja

TÁRSADALMI SZÜKS KSÉGLETEK. MST, Balatonfüred 13.

15410/17 GP/ar DGC 1A. Az Európai Unió Tanácsa. Brüsszel, május 14. (OR. en) 15410/17. Intézményközi referenciaszám: 2017/0319 (NLE)

KÉSZÜLÉKEK FRISSÍTÉSE

Az Otthonteremtési Program hatásai

ADÓAZONOSÍTÓ SZÁM Az adóazonosító számokkal kapcsolatos egyes témák: Az adóazonosító szám felépítése. 1. AT Ausztria. 2. BE Belgium. 3.

Az Európai Unió tagállamainak közigazgatása

(Hirdetmények) KÖZIGAZGATÁSI ELJÁRÁSOK EURÓPAI PARLAMENT

42. Kultúra keretprogram: változik, hogy változatlan maradjon?

130,00 ALL (0,94 EUR) 126,00 ALL (0,91 EUR) Ausztria 1,10 EUR (1,10 EUR) 1,27 EUR (1,27 EUR) 1,01 EUR (1,01 EUR)

Legyen Magyarország a harcsatenyésztés európai központja, november 9.

Elgépiesedő világ, vagy humanizált technológia

A Pécsi Tudományegyetem Egészségtudományi Kara pályázatot ír ki 2015/2016. tanévi Erasmus+ oktatói mobilitási programban való részvételre.

HOGYAN TOVÁBB IRÁNYVÁLTÁS A FOGLALKOZTATÁSPOLITIKÁBAN

Kitöltési útmutató az E-adatlaphoz V1.2

A KÖZÖS AGRÁRPOLITIKA SZÁMOKBAN

12366/1/16 REV 1 zv/gu/kb 1 DG B 1C

MELLÉKLET. a következőhöz: A BIZOTTSÁG JELENTÉSE

MEE Szakmai nap Hatékony és megvalósítható erőmű fejlesztési változatok a szén-dioxid kibocsátás csökkentése érdekében.

1. melléklet JELENTKEZÉSI ŰRLAPOK. 1. kategória: Online értékesített termékek biztonságossága. A részvételi feltételekhez fűződő kérdések

Az Európai Unió Tanácsa Brüsszel, május 12. (OR. en)

DÍJSZABÁS Érvényes: december 1-től ÁLTALÁNOS FORDÍTÁSI DÍJAK

EOS Cégcsoport. Követelés kezelési lehetőségek az EU-n belül és kívül. Somodi Bernadett Értékesítési vezető Budapest,

Roaming: Növekvő adatforgalom, hazai áron egyre több országban

1. táblázat - A világ tűzeseteinek összesített adatai az országokban ( )

XV. évfolyam, 2. szám, Agrárpiaci Jelentések ÉLŐÁLLAT ÉS HÚS

Írásbeli összegezés az ajánlatok elbírálásáról

FIATALOK LENDÜLETBEN PROGRAM

A megállapodás 3. cikkében hivatkozott lista I. RÉSZ

A német gazdaság szerepe a magyar gazdaság teljesítményében Költségvetési politika gazdasági növekedés KT-MKT szeminárium, július 16.

Az EUREKA és a EUROSTARS program

A BIZOTTSÁG KÖZLEMÉNYE

A változatos NUTS rendszer

4.számú melléklet A Visegrádi országok mezőgazdasági termelése. % Millió EUR

Magyarország népesedésföldrajza

AGRÁRPIACI JELENTÉSEK

Zöldenergia szerepe a gazdaságban

TANÁCS. L 314/28 Az Európai Unió Hivatalos Lapja (Jogi aktusok, amelyek közzététele nem kötelező)

***I AZ EURÓPAI PARLAMENT ÁLLÁSPONTJA

404 der Beilagen XXII. GP - Staatsvertrag - Schlussakte Ungarisch (Normativer Teil) 1 von 9 ZÁRÓOKMÁNY. AF/EEE/XPA/hu 1

Belső piaci eredménytábla

A BIZOTTSÁG KÖZLEMÉNYE A TANÁCSNAK

Hatályba lépés: január 06.

A hozzáadott érték adó kötelezettségekből származó adminisztratív terhek

Történelem adattár. 11. modul A JELENKOR. Elérhetőségek Honlap: Telefon: +3620/

T/ számú törvényjavaslat

A Régiók Bizottsága tagjainak kinevezési folyamata. A tagállamokban alkalmazott eljárás

A közlekedésbiztonság helyzete Magyarországon

A közúti közlekedésbiztonság helyzete Magyarországon

Környezetvédelmi Főigazgatóság

Megvitatandó napirendi pontok (II.)

BULGÁRIÁNAK ÉS ROMÁNIÁNAK AZ EURÓPAI UNIÓHOZ TÖRTÉNŐ CSATLAKOZÁSÁRÓL FOLYTATOTT TÁRGYALÁSOK

Információs társadalom Magyarországon

T/ számú. törvényjavaslat

A8-0061/19 AZ EURÓPAI PARLAMENT MÓDOSÍTÁSAI * a Bizottság javaslatához

Honvári Patrícia MTA KRTK MRTT Vándorgyűlés,

Integrációtörténeti áttekintés. Az Európai Unió közjogi alapjai (INITB220)

Az iparfejlesztés jövőbeni tervezett irányai, elemei az akkreditálás jelentősége. Dr. Nagy Ádám főosztályvezető

(Törzskönyvezett) Név Dózis Gyógyszerforma Alkalmazási mód. Arimidex 1 mg Filmtabletta Orális alkalmazás. Arimidex 1 mg Filmtabletta Orális alkalmazás

AGRÁRPIACI JELENTÉSEK

M2M Net EU díjcsomag szolgáltatói lista

Ösztöndíjas kiutazási lehetőségek a karunkon

Az Európai Unió Tanácsa Brüsszel, október 7. (OR. en) Jeppe TRANHOLM-MIKKELSEN, az Európai Unió Tanácsának főtitkára

(,1E69 (3. Az Országgyűlés a módosító Jegyzőkönyvet e törvénnyel kihirdeti. A módosító Jegyz őkönyv hiteles magyar nyelv ű tartalmazza.

Élelmiszervásárlási trendek

Mobilitásgarancia füzet

GAZDASÁG- ÉS TÁRSADALOMTUDOMÁNYI KAR, GÖDÖLLŐ. A NUTS rendszer

Szerződő fél Ratifikáció/Csatlakozás Hatályba lépés dátuma. Albánia Csatlakozás: december március 6.

Információs társadalom Magyarországon

Átírás:

Fordítás, többnyelvűség, szótárak Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu

Minden hivatalos anyagot minden hivatalos nyelven meg kell szövegezni, továbbá bármely hivatalos nyelven fogalmazódik egy nyilatkozat, azt minden más hivatalos nyelvre és minden, az elnökség által szükségesnek tartott egyéb nyelvre is le kell fordítani. (Az Európa Parlament ügyrendje, 79. cikkely)

Az EU-országok idegennyelv-tudása Luxemburg 99% Lettország 93% Málta 93% Hollandia 91% Litvánia 90% Szlovénia 89% Dánia 88% Svédország 88% Észtország 87% Ciprus 72% Belgium 71% Szlovákia 69% Finnország 66% Németország 62% Csehország 60% Ausztria 58% Görögország 49% Lengyelország 49% Franciaország 45% Bulgária 45% Írország 41% Románia 41% Spanyolország 36% Olaszország 36% Portugália 36% Egyesült Királyság 30% Magyarország 29% (Eurobarometer)

A beszélt nyelvek megoszlása (Az idegen nyelvek megoszlása az idegen nyelveket beszélők %-ában - Eurobarometer)

A szótár a nyelvtudás egyik kulcsa Az elektronikus és a hagyományos szótárak viszonyát alapvetően meghatározza: a használat módja a sebesség az adott helyzetben kapott találatok pontossága az egyszerre több helyen való fellapozhatóság lehetősége

A szótárprogramok nagy része nem nyelvtechnológiai produktum, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázis: a hazai területen ilyenek pl. a 90-es években széles körben használt GIB szótárak a Scriptumtól, vagy a közismert internetes Sztaki-szótár Az intelligens szótári rendszer egyik első megvalósítása magyar fejlesztés: a MorphoLogic MoBiMouse programja (IST Prize = EU Információtechnológiai Díj, 1998) Eleinte csak off-line szótártermékek voltak, ma már (javarészt ingyenes) on-line szótári szolgáltatások - ám a legtöbb ilyen szolgáltatás még mindig nem a szűken vett nyelvtechnológia tárgykörébe tartozik

Ma már alapvetően Web2-alapú Folyamatosan bővülő szótárkínálattal Sajátszótár-készítési lehetőséggel Tetszőleges webes tartalom integrált megjelenítésével A kifejezések intelligens kezelésével A közösségi jelenlét támogatásával Egymás segítésének és a (jogos) kritikának a fórumával A felhasználók keresési szokásainak elemzésével Könnyű keresés-indítási lehetőséggel Saját, személyre szabható és menthető beállításokkal Egy ilyen megvalósítás: www.webforditas.hu

A géppel támogatott fordítás eszközei A professzionális fordítók igénye: gépi szótárak és sok más fordítástámogató szoftvereszköz, de továbbra sem a gép fordít! Például tovább lehet gyorsítani a munkán, ha az eddig lefordított anyagokat el lehet érni Kialakulnak a fordítómemóriák Új kutatási terület: hasonló mondatok keresése Párhuzamos szövegkorpuszok: szövegek fordításaikkal, mondatpáronként kereshetően A legjelentősebb hazai kísérlet: a Hunglish angol-magyar párhuzamos korpusz (BME MOKK, MTA NYTI) Szoftvereszközök: Trados, SDL, Transit, Déja Vu, A MemoQ magyar fejlesztésű fordítómemória (Kilgray Kft) több szakmai szempontból meghaladja a versenytársait Nyelvtechnológia + fordítómemória: út az intelligens fordítómemóriák felé

A Hunglish párhuzamos korpusz Több mint 2 millió (emberi fordítással készült) magyar-angol mondatpár (54,2 millió szó) Keresés szavakra (tövesítve) mondatkörnyezetben (sok a kiadott szótárakban nem fellelhető szót találni Témakörök: irodalom, jogi szövegek, szoftverdokumentáció, filmfeliratok, publicisztikai írások Havi 10 ezer felhasználó, ingyenes elérés: www.hunglish.hu További mondatpárokkal tovább bővíthető és a technológia más nyelvekre is könnyen adaptálható

A MemoQ fordítómemória

A gépi fordítás minősítési kritériumai Forrás: Stadler-Spröndli, MT Summit 2007

A gépi fordítás legalapvetőbb módszerei

A közvetlen fordítás csak az 60-as évek elejéig működött (magyar kísérlet is volt!) A minden nyelv fölött álló közvetítőnyelves megoldás mindig csak kísérlet maradt (pl. DLT, amiben kísérlet volt a magyar bevonására is) A transzfer-fordítás ma a szabály-alapú rendszerek alapgondolata (pl. Systran, ProMT, Eurotra) A statisztikai fordítók az utóbbi évtized egyeduralkodóivá váltak, de képességeiket csak szűk területen mutatják meg jól (nyílt forráskódú rendszerek: Pharaoh, Giza++, Moses) A soknyelvűség ismét előtérbe kerül: hibrid rendszerek előállítása - magyar közreműködéssel (MorphoLogic): az EuroMatrix projekt A példa-alapú rendszer nem feltétlenül kapcsolódik statisztikai megoldáshoz (pl. MetaMorpho)

Egy hazai gépi fordítási esettanulmány A www.webforditas.hu ingyenes internetes fordítószolgáltatás A gépifordító-motor a MorphoLogic MetaMorpho rendszere Az angol-magyar a MorphoLogic saját fejlesztése (2000-2004), a magyar-angol a MorphoLogic vezette és az MTA Nyelvtudományi Intézet, valamint az SZTE Informatikai Tanszékcsoportjából álló konzorcium munkája (NKFP 2/008/04) 2007 és 2008. októbere között: 91 millió fordítási kérés kiszolgálása (az előző 12 hónapban ugyanez 43 millió oldal volt) 81 millió szövegfordítás + 2 millió weboldal-fordítás + 7,2 millió szótári lekérdezés 13,3 GB adatforgalom: ez 1800 karakter/gépelt oldallal számolva mintegy 7,2 millió A4-oldalnak felel meg 2008. szeptemberében már 50 000 látogató/nap!

Teljes weblapok fordítása www.webforditas.hu

A fordítóoldalak látogatószáma egyre nő A webforditas.hu gépifordító-szolgáltatásának látogatószám-növekedése 2007/2008-ban

Gépifordító-szolgáltatások összevetése

Következmények és fejlesztési irányok A fordítói társadalom természetesen nem érzett meg ebből semmit (=egy fordító sem vesztette el az állását) Miért? Mert ez nem fordítás az eredeti értelemben, hanem a többnyelvűség egy újabb területe: az internet előtt ülők megértéstámogatása Ezek a számok adták az ötletet további nyelvek bevonásához, a MorphoLogic angol-magyar és magyar-angol szolgáltatásának és a világ angol-x és X-angol gépfordítószolgáltatásainak összekapcsolására Hogyan?

A működés megkerülhetetlen előfeltétele a megnyilatkozások fordítása, tolmácsolása az éppen megnyilatkozó nyelvéről az összes többi nyelvre. Matematikailag a legegyszerűbb és minden szempontból a leghatékonyabb, nem mellesleg a legolcsóbb megoldás az, ha minden megnyilatkozást először lefordítanak egy közös nyelvre, egy második lépésben pedig ezen közös nyelvről lefordítják a megnyilatkozást az összes többi nyelvre. Mivel egy fordítóról általánosan is elvárható az oda-vissza fordítás két nyelv között, 23 hivatalos nyelv (azaz egy közös és 22 más nyelv) esetében ilyen munkamódszer mellett pontosan 22 fordítóra lenne szükség. [ ] Megoldásként kínálkozik a másik munkamódszer, amikor ilyen áthidaló közös nyelv közbeiktatása nélkül a fordítás minden nyelvről minden nyelvre történik. Ebben az esetben viszont pontosan 506 fordítóra lenne szükség. (Az Európai Unió soknyelvűsége - Ajánlás)

Közvetett fordítás interlingvával A nyelvpárok száma= n*(n-1) A nyelvek száma Hagyományos/Statisztikai Interlingvával 6 nyelv 30 12 23 nyelv 506 46 50 nyelv 2450 100 A létező X-angol/angol-X gépifordító-rendszerek adják az interlingvát: az angolt X-Y közvetett fordítás: angolon át 2008 nyarától a Google is ezt csinálja: statisztikai fordítóit kötötte össze az angolon keresztül

A legfontosabb európai világnyelvek: angol, német, francia, spanyol, olasz, orosz További nyugat-európai nyelvek: portugál, holland, dán, svéd, norvég, finn, katalán A visegrádi nyelvek: lengyel, cseh, szlovák További szomszédos nyelvek: ukrán, román, szerb, horvát, szlovén További kelet-európai nyelvek: görög, bolgár, lett, litván A legfontosabb nem európai világnyelvek: arab, héber, japán, kínai, koreai További nagy, nem-európai nyelvek: hindi, indonéz, vietnámi A MorphoLogic nemzetközi partnerei ebben a gigaprojektben: ProMT (orosz, német, francia, spanyol, portugál), Trident (ukrán, lett), pwn.pl (lengyel), SkyCode (bolgár), GrammarSoft (dán, norvég) Ez a 12 fordítómodul saját gépen futó változatban is, Word-fájlok és weblapok fordítására elérhetőek: MorphoWord Net A szükséges fejlesztések fő iránya: úgy javítani az angol-magyar/ magyar-angol rendszert, hogy az a géppel való továbbfordítás kritériumainak minél jobban megfeleljen ( nem ember áll a túloldalon! )

például a japánt: ami így fest magyarul:

Merre megy a gépi fordítás tovább? Hosszú távra tervezett kutatás (csak megfelelő támogatással): a fordítási minőség folyamatos javítása (korpusznyelvészeti és hibrid megoldásokkal) Kutatási projektek a fordításhoz tartozó szolgáltatások bővítésére (pl. szókészlet-bővítő eszközök, intelligens keresési megoldások) Újabb platformok, más info-kommunikációs rendszerekkel való integráció bevonási lehetőségeinek kutatása (pl. összekapcsolás beszédfeldolgozással, mobil alkalmazások)

Köszönöm figyelmüket! Thanks for your attention!