Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

Hasonló dokumentumok
Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

Lexikon és nyelvtechnológia Földesi András /

Kézikönyvek, segédkönyvek

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Tartalom. Előszó feladat: Fordítás a megszokott eszközökkel A számítógép hatékony használatáról... 18

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop Április , Pécs

A Tinta e-book könyvtár/lexikontár címei:

Számítógépes alkalmazásai

Innovation Delivered. Szekeres Csaba. M-Prospect Kft. Fordítási és tolmácsolási üzletágvezető, SDL Trados partner

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

DIPLOMAFORDÍTÁS - KÖVETELMÉNYEK

Korpusznyelvészet és fordítástudomány

Az egynyelvű szótárak ismerete

Még mindig a minőség az úr Biztosítsa Ön is!

A HUNGLISH PÁRHUZAMOS KORPUSZ

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Ember és nyelvhasználat témakör

Kéziszótárak az ezredfordulón. ELTE Nyelvtudományi Doktori Iskola Magyar Nyelvészet Doktori Program

Útmutató a szakdolgozat elkészítéséhez a Társadalomtudományi és gazdasági szakfordító és tolmács szakirányú továbbképzési szakon

Különírás-egybeírás automatikusan

SZÓKÉSZLET- ÉS SZÓJELENTÉSTAN Kérdések a tananyaghoz és az olvasmányokhoz

INTERNETES KERESÉS. Szórád László Óbudai Egyetem TMPK

Zsemlyei János A MAI MAGYAR NYELV SZÓKÉSZLETE ÉS SZÓTÁRAI

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

OpenOffice.org mint fejlesztési platform

KÖNYVTÁR-PEDAGÓGIA A FŐBB TARTALMI VÁLTOZÁSOK ÁTTEKINTÉSE

A DIPLOMAFORDÍTÁS - KÖVETELMÉNYEK

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

Könyv- és könyvtárhasználati ismeretek összefoglalása

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény

Jelnyelvi szótár használati útmutató

Számlaigazoltatás újratöltve. Lázár Péter

Táblázatkezelés Excel XP-vel. Tanmenet

Rendszer szekvencia diagram

Mesterséges Intelligencia Elektronikus Almanach

A SZAKIRODALOM HASZNA ÉS SZERKEZETE

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

4. Javítás és jegyzetek

Szövegszerkesztés Word XP-vel. Tanmenet

Nyelvi tudásra épülő fordítómemória

Mondatkiegészítés adott. Az írásmódtól eltérô. Mondatalkotás. pótlása. Hosszú mássalhangzós. Másolás. Mondatvégi írásjelek

Online-szótár-használati szokások vizsgálata Magyarországon

A szótár készítésének menete. A szótár tartalma

Többnyelvű tezaurusz építése és szolgáltatása webes környezetben

Intelligens elektronikus szótár és lexikai adatbázis

A német árnyaló partikulák szótári ábrázolása az aber, ja és schon lemmák szócikkein keresztül

KÖNYVTÁRHASZNÁLATTAN 595 KÖNYVTÁRHASZNÁLATTAN 1 8. ÉVFOLYAM

KÉP VAGY TÉRKÉP DR. PLIHÁL KATALIN ORSZÁGOS SZÉCHÉNYI KÖNYVTÁR

SZÓTÁRAK ÉS HASZNÁLÓIK

Vizuális nyelv. Olvasás és írás. Ellis, W. (2004) Olvasás, írás és diszlexia október

Elektronikus szótár vagy terminológiai adatbázis?

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

A Mazsola KORPUSZLEKÉRDEZŐ

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Spanyolországi terminológiai adatbázisok tartalmi és formai jellemzőinek vizsgálata

Helyesiras.mta.hu az intelligens helyesíró portál

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Ericsson CoordCom. Integrált segélyhíváskezelés, tevékenységirányítás. <Name> Kovács László

A Szótári Osztály évi jelentése

Területi elemzések. Budapest, április

2

Szövegszerkesztés Word XP-vel. Tanmenet

Fordítás, többnyelvűség, szótárak

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Az ISO 17100:2015 szabványban szereplő szakkifejezések és meghatározásuk

Digitális kultúra, avagy hová lett az informatika az új NAT-ban? Farkas Csaba

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

PASSWORD az új szótártípus

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

Párhuzamos (fordított) szövegek többcélú felhasználása Három fő terület: 1. A szöveg előkészítése (mindhárom esetben):

Mezőgazdasági külső információs rendszerek fejlesztése

PhD-összegzés A fordító mint terminológus, különös tekintettel az európai uniós kontextusra. Fischer Márta, 2010

A kibővített Magyar történeti szövegtár új keresőfelülete

Irodalom Szövegértés, szövegfeldolgozás 9. NY Órakeret:36 óra

Élő webes alkalmazások rendszerfelügyelete cím- és tartalomteszteléssel

Számítógépes döntéstámogatás. Bevezetés és tematika

Hatékony csoportmunka

Könyvtárhasználat A könyvtár A nemzeti A közművelődési könyvtárak A szakkönyvtárak

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

A Hunglish Korpusz és szótár

Használd jól a könyvtári katalógust!

Használati útmutató Az online példatárhoz

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Gépi tanulás a gyakorlatban. Bevezetés

A tananyag beosztása, informatika, szakközépiskola, 9. évfolyam 36

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

A DOKTORI DISSZERTÁCIÓ TÉZISEI

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)

Fájlrendszerek. A Windows operációs rendszerek fájlrendszere

Átírás:

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

A fordítási folyamat

Az emberi fordítás gépi támogatása Forrásszöveg FORDÍTÓ Fordítás LEKTOR Ellenőrzött fordítás

A fordító számítógépes segédeszközei Forrásszöveg Előfordító rendszer Fordítómemória Szótárak Ismeretlen szavak Kiszótárazott forrásszöveg Fordítási javaslat Terminológiakezelő rendszer FORDÍTÓ Szinkronizált szövegpár Intelligens szótárkezelő rendszer Fordítás Szövegpárszinkronizáló rendszer

A lektor helye a fordítási munkafolyamatban Forrásszöveg Új terminológia Fordítás Szövegpárszinkronizáló rendszer LEKTOR Terminológiakezelő rendszer Inkonzisztenciák Szinkronizált szövegpár Szótárak Intelligens szótárkezelő rendszer Konzisztenciaellenőrző rendszer Ellenőrzött fordítás

A terminológus helye a fordítási folyamatban Szótárak Ismeretlen szavak Terminológiakezelő rendszer TERMINOLÓGUS Új terminológia

Leegyszerűsített szótártipológia Nyomtatott szótárak Elektronikus szótárak Szótárak Terminológiai adatbázisok Közvetlen szótárak Közvetett (elektronikus) szótárak Kétnyelvű szótárak Egynyelvű szótárak Többnyelvű szótárak A forrásnyelv és a célnyelvek aszimmetriája papír- és elektronikus alapon

Szótártípusok

A nyelvek száma szerint Ezek voltak először: lexikon, enciklopédia Mai egynyelvűek: értelmező, nyelvtörténeti, etimológiai, nyelvjárási, szólás-, szleng-, idegen szavak, helyesírási, gyakorisági, ragozási, a tergo (szóvégmutató) szótárak Kétnyelvűek Többnyelvűek: valójában párba állított kétnyelvűek Sőt, az egynyelvűek is két különböző nyelvet használnak: a címszavak és a szócikkek nyelve, nyelvezete különbözik

A szótárak általános szerkezete Önálló és utaló szócikkek Szócikkfej (=a szótári baloldal): címszó, homonimák, alak- és írásváltozatok, kiejtés, elválasztás, szófaj, főbb toldalékos alakok, nyelvtani megjegyzés, stílusminősítés Jelentéscsoportok (=a szótári jobboldal) alapjelentés, jelentésárnyalatok, értelmezések és példák, továbbá szólások, közmondások, más szavakkal alkotott összetételek, származékszók

A szótárelemek nyelvtechnológiai felhasználása Címszó: kiindulás helyesírási programokhoz Variánsok és toldalékolt alakok: a morfológiai rendszerhez Szótagolás: elválasztó programokhoz Kiejtés: beszédkeltő rendszerekhez Szófaj: egyértelműsítőkhöz Témakód: szövegtípus-azonosításhoz Definíciók: jelentés-egyértelműsítéshez Példák: a címszó körüli többszavas kifejezések azonosításához Lásd még szavak: szinonimák, antonimák

Segéd- és szakszótárak Szakmai szótárak (enciklopédiák, lexikonok?) Terminológiai adatbázisok Keveredés az alapszótárakkal: általános nyelvi nagyszótárak (tele szakszócikkekkel!) Az egyidejű használat lehetősége miatt megváltozott szerepük az elektronikus világban Dinamikus szakszótár-kiegészítés alapszótárakhoz

Nyomtatott szótárak vs. elektronikus szótárak

A hagyományos elektronikus szótárak

Mindenféle platformon

Elektronikus multiszótár Elektronikus multiszótár

Terminológiakezelők (1)

Terminológiakezelők (2) iate.europa.eu http://iate.europa.eu

Terminológiakezelők (3) www.eurotermbank.com

A korszerű internetes szótárszolgáltatás kritériumai Folyamatosan bővíthető szótárkínálat Sajátszótár-készítési lehetőség Tetszőleges webes tartalom integrált megjelenítése A kifejezések intelligens kezelése Közösségi jelenlét Egymás segítésének és a (jogos) kritikának a fóruma A rendszer szemantikus ismereteinek erősítése a felhasználó keresési szokásainak elemzésével Könnyű keresés-indítási lehetőség Saját menthető beállítások a környezet személyre szabásához

Szótárszolgáltatás + közösségépítés

A szótári keresés

Nyelvfüggő szótárproblémák A forrás- és célnyelv karakterkészleteinek ismerete A forrás- és a célnyelv ábécérendjeinek ismerete A fonetikai információ kezelése Egységes jelölés: nyelvi keresésnél a szótár grammatikai információival való kompatibilitás

Keresési technikák elektronikus szótárakban Betű szerint Csonkolt keresés Hasonlósági keresés (fuzzy, soundex, spell) Nyelvi alapú keresés a bemeneti oldalon Nyelvi alapú keresés a találati oldalon A kifejezések kezelésének problémái: alcímszók, kulcsszó-választás, indexek, egyazon kifejezés több címszó alatt

Többszavas kifejezések keresési módjai Csak címszóként Betű szerint Teljes szövegű kereséssel Reguláris kifejezésként Tőindexekkel: készítéskor vagy elemzési időben (is)

Többszavas kifejezések keresése

A szótári jobboldal szerepe Papírszótárak esetében: csak tipográfiai Elektronikusan: új lehetőség Ábécé-környezet helyett szinonimák Többféle jelentés kezelése a baloldali címszavak segítségével Új találati ablak Elektronikusan érdemes kifordítani a szótárakat

A kifordítható szótár

Szótármegjelenítés

LMF Lexical Markup Framework (LMF): ISO-szabvány (ISO-24613:2008) szótárak leírásához 1. lépés: létező szótárak struktúráinak konzisztens feltérképezése 2. lépés: az összes feldolgozott szótárat lefedő leírás létrehozása 3. lépés: 61 szakértő bevonásával az összes szóba jövő szótárszerkezet megvizsgálása Fontos szempont volt a morfológiai támogatás biztosítása A fejlesztés eredménye (2004-2008): koherens UML-modell

Szótármegjelenítés Ma már szinte csak XML + XSLT alapú megoldások

Kétféle szótármegjelenítés (Atkins 2002)

Kapcsolat más nyelvészeti megoldásokkal

Az ablakos kommunikáció nehézségei Kilépni az adott alkalmazásból Elindítani Kinyitni vagy felnagyítani Beírni Klikkelni Átmozgatni Lekicsinyíteni vagy bezárni Visszalépni az eredeti alkalmazásba

A gyorsfordítók megjelenése Amikor információ kell, pl. szótári, akkor: csak amit kérek, nem többet, de azt gyorsan, kevés aktív művelettel és a lehető legautomatikusabban! Kialakul a pop-up viselkedés A kijelölhetőség, ill. az automatikus indíthatóság szerepe

A rávetítős megoldás nyelvtechnológiai elemei Szöveg(rész)-felismerés Nyelvi elemzés: morfológia, lemmák, szókapcsolatok (esetleg környezetelemzés) Szótári keresés: tövesítve vagy csak literálisan Megjelenítés: buborékban vagy fix ablakban Log-fájlok segítségével az automatikus információgyűjtés lehetősége (nemcsak rávetítős szótáraknál!) Megjelennek a felhasználók valódi javaslataival feljavított szótárak

A rávetítés a gyakorlatban

A log-fájlok szociolingvisztikailag elemezhetőek Szótárlekérdezések a weben

A log-fájlok szociolingvisztikailag elemezhetőek Mobilszótár-használat (2003-2005)

A log-fájlok szociolingvisztikai elemezhetőek A szótárazás tanítása

A szótárlekérdezés koincidencia-részgráfjairól Aki ezt kérdezte, az még mit kérdezett?

A szótárlekérdezés koincidencia-részgráfjairól (2)

A hagyományos és az intelligens szótárak viszonyáról

Az intelligens szótárak készítésének problémái A legfőbb baj: a szótárforrások XML-változatainak amatőr vagy legalábbis nyomtatás-centrikus megoldásai A második ok: a szótár az embereknek, nem a gépnek készül Egy sor technikai probléma, ami a szótárak papírszótár mivoltából ered, ám a gépi változatban át kell ezeket alakítani

A perjel-probléma A szótárak nem a gépnek készülnek (pl. perjelek): nem szavazó/szavazásra nem jogosító részvény Tudhatja-e egy program összefogni az egybetartozó kifejezést? {arcára fagy/ráfagy az arcára/lefagy az arcáról} a mosoly

A többszörös előfordulások problémája elássa csatabárdot

Az ellentmondó előfordulások problémája

A tilde-probléma

A morfológia-probléma

A nagybetű-probléma

A vonzat-probléma

A példa-probléma

A lásd -probléma

A pontos találatok problémája