A gépi fordítás kiértékelése

Hasonló dokumentumok
YANG ZIJIAN GYŐZŐ 杨子剑

Írásjelek helyes szedése. Szabó Csaba. Mondatvégi írásjelek. Központozás. Kötőjelfélék. Szabó Csaba november 18.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Vakáció végi akció Ukrajnában

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

MY ENGLISH BOOK Class 4

Jogi szakfordítások pedagógiai/kutatási célú értékelése: egy értékelési rendszer kidolgozásának dilemmái és tapasztalatai

eπque: Gépi fordítás minőségét becslő programcsomag

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

TÁJÉKOZTATÓ A SZAKDOLGOZATRÓL FORDÍTÓ ÉS TOLMÁCS MESTERSZAK FORDÍTÓ SPECIALIZÁCIÓ

Angol Fejlesztési terv

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Jelentkezés Motivációs levél

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

KÁROLY KRISZTINA SZÖVEGKOHERENCIA A FORDÍTÁSBAN

Személyes Jókívánságok

Neurális hálózatok bemutató

ANGOL MAGYAR PARBESZEDEK ES PDF

Tagolatlan mondat szavakra tagolása, helyes leírása Ellenőrzés

Az ISO 17100:2015 szabványban szereplő szakkifejezések és meghatározásuk

PÁRHUZAMOS IGEI SZERKEZETEK

Where are the parrots? (Hol vannak a papagájok?)

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Lesson 1 On the train

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

vlk/kj.k izkf/dkj ls izdkf'kr

Költségbecslési módszerek a szerszámgyártásban. Tartalom. CEE-Product Groups. Költségbecslés. A költségbecslés szerepe. Dr.

A HUNGLISH PÁRHUZAMOS KORPUSZ

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

Reported Speech Függő beszéd

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Számítógépes Hálózatok GY 8.hét

Angol Nyelv Kezdőknek Tájékoztató

vlk/kj.k izkf/dkj ls izdkf'kr

A Hunglish Korpusz és szótár

LEGYÜNK VÁLASZTÉKOSAK

MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Etológia Emelt A viselkedés mérése. Miklósi Ádám egyetemi tanár ELTE TTK Etológia Tanszék 2018

Tartalom. Előszó feladat: Fordítás a megszokott eszközökkel A számítógép hatékony használatáról... 18

Előszó.2. Starter exercises. 3. Exercises for kids.. 9. Our comic...17

Az új érettségi rendszer bevezetésének tapasztalatai

Regionális forduló november 18.

A minőség és a kockázat alapú gondolkodás kapcsolata

vlk/kj.k izkf/dkj ls izdkf'kr अ धस चन

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

Osztályozó és javítóvizsga témakörei és követelményei angol nyelvből. 9. évfolyam

vlk/kj.k izkf/dkj ls izdkf'kr

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

EGYSZERŰNEK TŰNIK IV. RÉSZ

vlk/kj.k izkf/dkj ls izdkf'kr

STATISZTIKAI GÉPI FORDÍTÁS

ANGOL NYELVI SZINTFELMÉRŐ 2014 A CSOPORT

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Párhuzamos (fordított) szövegek többcélú felhasználása Három fő terület: 1. A szöveg előkészítése (mindhárom esetben):

Beszédtechnológia a médiában. Tibor Fegyó SpeechTex Kft.

Mesterséges Intelligencia Elektronikus Almanach

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

A Mazsola KORPUSZLEKÉRDEZŐ

Tájékoztató. Használható segédeszköz: -

A magyar létige problémái a számítógépes nyelvi elemzésben

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation

PAST ÉS PAST PERFECT SUBJUNCTIVE (múlt idejű kötőmód)

Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

vlk/kj.k izkf/dkj ls izdkf'kr

vlk/kj.k izkf/dkj ls izdkf'kr

Mesterséges intelligencia alapú regressziós tesztelés

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

Lopocsi Istvánné MINTA DOLGOZATOK FELTÉTELES MONDATOK. (1 st, 2 nd, 3 rd CONDITIONAL) + ANSWER KEY PRESENT PERFECT + ANSWER KEY

vlk/kj.k izkf/dkj ls izdkf'kr

Szolgáltatási szint és performancia menedzsment a PerformanceVisor alkalmazással. HOUG konferencia, 2007 április 19.

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Szövegbányászat és dokumentum kezelés

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 10. ÉVFOLYAM SZÁMÁRA

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED

Útmutató a szakdolgozat elkészítéséhez a Társadalomtudományi és gazdasági szakfordító és tolmács szakirányú továbbképzési szakon

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Intelligens elektronikus szótár és lexikai adatbázis

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

4. modul EGYENES ÉS FORDÍTOTT ARÁNYOSSÁG, SZÁZALÉKSZÁMÍTÁS

vlk/kj.k izkf/dkj ls izdkf'kr अ धस चन

NÉZZÜK, HOGY KI MILYEN?

PROFEX BEÁS ÁLTALÁNOS Beszédértés ALAPFOK KÖZÉPFOK FELSŐFOK feladat leírása. információinak megértése szó terjedelmű

Tudományos Ismeretterjesztő Társulat

API-MÁGIA MILLIÓ SORNYI ADAT ÚJRARENDEZÉSE. Előadó: Jaksa Zsombor, drungli.com

vlk/kj.k izkf/dkj ls izdkf'kr स श धन अ धस चन

vlk/kj.k izkf/dkj ls izdkf'kr

MODÁLIS SEGÉDIGÉK (Modal Auxiliaries)

ANGOL NYELV. 1. osztály. köszönés, bemutatkozás és elköszönés számok elmondása 1-19-ig. a tanult dalok közül 3 eléneklése

ISMÉTLÉS 4. (MÓDBELI) SEGÉDIGÉK

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Átírás:

PÁZMÁNY PÉTER KATOLIKUS EGYETEM KIEMELT FELSŐOKTATÁSI INTÉZMÉNY INFORMÁCIÓS TECHNOLÓGIAI ÉS BIONIKAI KAR A gépi fordítás kiértékelése Yang Zijian Győző Témavezető: Dr. Prószéky Gábor Pázmány Péter Katolikus Egyetem, Információs Technológiai és Bionikai Kar Roska Tamás Műszaki és Természettudományi Doktori Iskola 2017. 10. 05. 1

Összefoglaló Bevezető Gépi fordítás Gépi fordítás kiértékelése Összegzés 2017. 10. 05. 2

Bevezető 2017. 10. 05. 3

Bevezető 2017. 10. 05. 4

Gépi fordítás Cél: megértés, információkinyerés, nem a tökéletes fordítás Főbb módszerek: Példa alapú / fordítómemórián alapuló gépi fordítás Szabály alapú gépi fordítás a felnőtt: szabályok megtanulása és szótár 2017. 10. 05. 5

Gépi fordítás Cél: megértés, információkinyerés, nem a tökéletes fordítás Főbb módszerek: Példa alapú / fordítómemórián alapuló gépi fordítás Szabály alapú gépi fordítás a felnőtt: szabályok megtanulása és szótár 2017. 10. 05. 6

Gépi fordítás Cél: megértés, információkinyerés, nem a tökéletes fordítás Főbb módszerek: Példa alapú / fordítómemórián alapuló gépi fordítás Szabály alapú gépi fordítás a felnőtt: szabályok megtanulása és szótár 2017. 10. 05. 7

Gépi fordítás Cél: megértés, információkinyerés, nem a tökéletes fordítás Főbb módszerek: Példa alapú / fordítómemórián alapuló gépi fordítás Szabály alapú gépi fordítás a felnőtt: szabályok megtanulása és szótár 2017. 10. 05. 8

Gépi fordítás Cél: megértés, információkinyerés, nem a tökéletes fordítás Főbb módszerek: Példa alapú / fordítómemórián alapuló gépi fordítás Szabály alapú gépi fordítás a felnőtt: szabályok megtanulása és szótár 2017. 10. 05. 9

Gépi fordítás Főbb módszerek: Statisztikai gépi fordítás a gyerek: példák megfigyelése párhuzamos korpusz Neurális gépi fordítás 2017. 10. 05. 10

Gépi fordítás Főbb módszerek: Statisztikai gépi fordítás a gyerek: példák megfigyelése párhuzamos korpusz Neurális gépi fordítás 2017. 10. 05. 11

Gépi fordítás Főbb módszerek: Statisztikai gépi fordítás a gyerek: példák megfigyelése párhuzamos korpusz Neurális gépi fordítás mesterséges neurális hálózat 2017. 10. 05. 12

Gépi fordítás Főbb módszerek: Statisztikai gépi fordítás a gyerek: példák megfigyelése párhuzamos korpusz Neurális gépi fordítás mesterséges neurális hálózat 2017. 10. 05. 13

Gépi fordítás kiértékelése Gépi fordítás utómunkát végző szakemberek számára. Gépi fordító rendszerek kimenetének vegyítése. Gépi fordítást kiértékelő szakemberek számára. Kiszűrni a használhatatlan fordításokat. Figyelmeztetni a felhasználót a hibás szövegrészletekre. 2017. 10. 05. 14

Kiértékelési módszerek Emberi kiértékelés Legpontosabb. Drága, lassú. Gépi kiértékelés Referenciafordítással történő kiértékelés Drága, nem valós idejű kiértékelés. Minőségbecslés (Quality Estimation) Nem használ referenciafordítást. Valós idejű kiértékelés. Magas korreláció az emberi kiértékeléssel. 2017. 10. 05. 15

Gépi fordítás értékelésének szempontjai Tartalomhűség (adequacy) jelentésben mennyire jó Gördülékenység, nyelvhelyesség (fluency) a célnyelvi mondat nyelvtanilag mennyire helyes Elfogadhatóság 2017. 10. 05. 16

Kiértékelés mérőszámai Pontosság pontosság = metszet / eredmény Fedés fedés = metszet / cél F-mérték pontosság és fedés harmonikus közepe, átlaga Utószerkesztés (post-editing effort) Használhatóság OK / BAD 2017. 10. 05. 17

Referenciafordítással történő kiértékelés Forrás: Ez egy útmutató, amely biztosítja, hogy a hadsereg mindig betartsa a párt utasításait. Gépi fordítás: It is a guide to action which ensures that the military always obeys the commands of the party. 1. referencia: It is a guide to action that ensures that the military will forever heed Party commands. 2. referencia: It is the guiding principle which guarantees the military forces always being under the command of the Party. 3. referencia: It is the practical guide for the army always to heed the directions of the party. 2017. 10. 05. 18

Referenciafordítással történő kiértékelés Automatikus kiértékelő módszerek. Nincsen szükség emberi beavatkozásra. Nem kell ismerni a két nyelvet. Hasonlóságot és eltérést mér a fordítás és a referenciafordítás között. Módszerek: BLEU, NIST, METEOR, LEPOR, ROGUE, RIBES WER, TER, HTER 2017. 10. 05. 19

BLEU BiLingual Evaluation Understudy pontosság: a lefordított mondatokban lévő szavak és kifejezések mennyire illeszkednek pontosan a referenciafordításhoz. 1. fordítás: It is a guide to action which ensures that the military always obeys the commands of the party 2. fordítás: It is to insure the troops forever hearing the activity guidebook that party direct 1. referencia: It is a guide to action that ensures that the military will forever heed Party commands 2. referencia: It is the guiding principle which guarantees the military forces always being under the command of the Party 3. referencia: It is the practical guide for the army always to heed the directions of the party 2017. 10. 05. 20

BLEU Tartalomhűség: unigram pontosság Gördülékenység: n-gram (n>1) pontosság Az algoritmus az n-gramokból számolt értékek súlyozott átlagát (mértani átlag) adja eredményül Előnyök: Gyors, olcsó, automatikus. Hátrányok: Kevésbé érzékeny a szórendi átalakításra. Különböző toldalék esetén eltérő BLEU érték. 2017. 10. 05. 21

OrthoBleu Karakterszintű n-gramok Ragozó nyelvek esetén előnyös F-mérték számolása Emberi utómunka számára nyújthat segítséget (post-edit) 2017. 10. 05. 22

BLEU-n alapuló módszerek NIST információtartalom ROGUE Fedést számol METEOR Szótövesítő, szinonimák kezelése LEPOR Pozíció, F-mérték RIBES Szórendhasonlóság korrelációval 2017. 10. 05. 23

TER Translation Edit/Error Rate TER = javítások száma referenciafordítás szavainak átlagos száma Javítások: beszúrás, törlés, csere, eltolás Nem kezeli a szemantikai problémákat. Kevesebb javítással létrehozható hasonló jelentésű mondat. 2017. 10. 05. 24

HTER Human-targeted Translation Edit/Error Rate Emberek a gépi fordító által lefordított mondatot minimális számú lépéssel kijavítják úgy, hogy a jelentés megegyezzen a referenciamondatéval. Az így létrejött új referenciamondatra számolunk TER-t. 2017. 10. 05. 25

Minőségbecslés Referenciafordítás nélküli módszer Valós időben tud kiértékelni Gépi tanuláson alapuló minőségbecslő modell Regressziós / osztályzási feladat 2017. 10. 05. 26

Minőségbecslés Forrásnyelvi és fordított mondatok Jegyek kinyerése Minőségi mutatók Emberi kiértékelések Minőségbecslő modell felépítése Minőségbecslő modell 2017. 10. 05. 27

Minőségbecslés Forrásnyelvi és fordított mondatok Jegyek kinyerése Minőségi mutatók Emberi kiértékelések Minőségbecslő modell felépítése Minőségbecslő modell 2017. 10. 05. 28

Minőségbecslés Forrásnyelvi és fordított mondatok Jegyek kinyerése Minőségi mutatók Emberi kiértékelések Minőségbecslő modell felépítése Minőségbecslő modell 2017. 10. 05. 29

Minőségbecslés Forrásnyelvi és fordított mondatok Jegyek kinyerése Minőségi mutatók Emberi kiértékelések Minőségbecslő modell felépítése Minőségbecslő modell 2017. 10. 05. 30

Minőségbecslés Forrásnyelvi és fordított mondatok Jegyek kinyerése Minőségi mutatók Emberi kiértékelések Minőségbecslő modell felépítése Minőségbecslő modell 2017. 10. 05. 31

Minőségbecslés Forrásnyelvi és fordított mondatok Jegyek kinyerése Minőségi mutatók Emberi kiértékelések Gépi tanuló algoritmus Minőségbecslő modell 2017. 10. 05. 32

Minőségbecslés Forrásnyelvi és fordított mondatok Jegyek kinyerése Minőségi mutatók Emberi kiértékelések Gépi tanuló algoritmus Minőségbecslő modell 2017. 10. 05. 33

Minőségbecslés Forrásnyelvi és fordított mondatok Jegyek kinyerése Minőségi mutatók Emberi kiértékelések Gépi tanuló algoritmus Minőségbecslő modell 2017. 10. 05. 34

Gépi tanulás Forrásnyelvi mondat Célnyelvi (lefordított) mondat Minőségi mutató Becslés Emberi kiértékelés She shot herself. Lelőtte magát. 4.0 3.0 1.33 0.75 0.25 =? 3.943 Now, as i have never known any Most, ahogy még sohasem ismert 26.0 19.0 1.37 0.73 0.26 =? 2.914 No work, no dinner. Nincs munka, nincs vacsora. 8.0 8.0 1.00 1.00 0.00 =? 3.596 But there seemed no place to go We tramped through the dim corridors Then he jumped like a cat De nem volt hová mennem Mi órákon át a sötét folyosókon, kanyargós Aztán felugrott, mint egy macska, 8.0 6.0 1.33 0.75 0.25 =? 2.500 34.0 29.0 1.17 0.85 0.14 =? 2.627 28.0 26.0 1.08 0.93 0.07 =? 3.275 2017. 10. 05. 35

Jegyek kinyerése 2017. 10. 05. 36

Jegyek Igék aránya a forrásmondatban. Igék aránya a célmondatban. 2017. 10. 05. 37

Jegyek Igék aránya a forrásmondatban. Igék aránya a célmondatban. Főnevek aránya a forrásmondatban. Főnevek aránya a célmondatban. Melléknevek aránya a forrásmondatban. Melléknevek aránya a célmondatban. 2017. 10. 05. 38

Jegyek Igék aránya a forrásmondatban. Igék aránya a célmondatban. Főnevek aránya a forrásmondatban. Főnevek aránya a célmondatban. Melléknevek aránya a forrásmondatban. Melléknevek aránya a célmondatban. A forrás- és a célnyelvi mondatban a tokenek aránya. Célmondatban a tokenek száma / forrásmondatban a tokenek száma. Tokenek száma és forrás és forrás hossz által normalizált cél abszolút értékben vett különbsége. 2017. 10. 05. 39

Jegyek Igék aránya a forrásmondatban. Igék aránya a célmondatban. Főnevek aránya a forrásmondatban. Főnevek aránya a célmondatban. Melléknevek aránya a forrásmondatban. Melléknevek aránya a célmondatban. A forrás- és a célnyelvi mondatban a tokenek aránya. Célmondatban a tokenek száma / forrásmondatban a tokenek száma. Tokenek száma és forrás és forrás hossz által normalizált cél abszolút értékben vett különbsége. Hibás zárójelek száma. Hibás idézőjelek száma. 2017. 10. 05. 40

Jegyek Igék aránya a forrásmondatban. Igék aránya a célmondatban. Főnevek aránya a forrásmondatban. Főnevek aránya a célmondatban. Melléknevek aránya a forrásmondatban. Melléknevek aránya a célmondatban. A forrás- és a célnyelvi mondatban a tokenek aránya. Célmondatban a tokenek száma / forrásmondatban a tokenek száma. Tokenek száma és forrás és forrás hossz által normalizált cél abszolút értékben vett különbsége. Hibás zárójelek száma. Hibás idézőjelek száma. Számok aránya százalékban, a forrásmondatban. Számok aránya százalékban, a célmondatban. A forrás- és a célmondatban lévő számok számosságának különbsége abszolút értékben, forrásmondat hosszával normalizálva. Tokenek száma a forrásmondatban, amelyek nem csak a-z betűt tartalmaznak. Tokenek százaléka a célmondatban, amelyek nem csak a-z betűt tartalmazzák. Forrásmondat perplexitása. Forrásmondat perplexitása mondatvégi jelzés nélkül. Célmondat perplexitása. célmondat perplexitása mondatvégi jelzés nélkül. 2017. 10. 05. 41

Jegyek Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,01). Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,05). Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,1). Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,5). Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,01). forráskorpuszban lévő minden szó gyakoriságával súlyozva. Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,5). forráskorpuszban lévő minden szó gyakoriságával súlyozva. Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,1). forráskorpuszban lévő minden szó gyakoriságával súlyozva. Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,2). forráskorpuszban lévő minden szó gyakoriságával súlyozva. Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,5). forráskorpuszban lévő minden szó gyakoriságával súlyozva. Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,05). forráskorpuszban lévő minden szó inverz gyakoriságával súlyozva. Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,1). forráskorpuszban lévő minden szó inverz gyakoriságával súlyozva. Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,2). forráskorpuszban lévő minden szó inverz gyakoriságával súlyozva. Átlagos száma minden forrásszó fordításának a mondatban (giza1 küszöb: valószínűség > 0,5). forráskorpuszban lévő minden szó inverz gyakoriságával súlyozva. Átlagos unigram gyakoriság a második kvartilisben lévő gyakorisága (kis gyakoriságú szavak) a forrásnyelvi korpuszban. Átlagos unigram gyakoriság a harmadik kvartilisben lévő gyakorisága (kis gyakoriságú szavak) a forrásnyelvi korpuszban. Átlagos bigram gyakoriság a második kvartilisben lévő gyakoriság (kis gyakoriságú szavak) a forrásnyelvi korpuszban. Átlagos bigram gyakoriság a harmadik kvartilisben lévő gyakorisága (kis gyakoriságú szavak) a forrásnyelvi korpuszban. Átlagos trigram gyakoriság a második kvartilisben lévő gyakorisága (kis gyakoriságú szavak) a forrásnyelvi korpuszban. Átlagos trigram gyakoriság a harmadik kvartilisben lévő gyakorisága (kis gyakoriságú szavak) a forrásnyelvi korpuszban. A korpuszban előforduló különböző bigramok százaléka (minden kvartilisben). A korpuszban előforduló különböző trigramok százaléka (minden kvartilisben). 2017. 10. 05. 42

Jegyek A forrásmondatban és a célmondatban lévő vesszők számának különbsége abszolút értékben. A forrásmondatban és a célmondatban lévő vesszők számának különbsége abszolút értékben, célmondat hosszával normalizálva. A forrásmondatban és a célmondatban lévő kettőspontok számának különbsége abszolút értékben. A forrásmondatban és a célmondatban lévő kettőspontok számának különbsége abszolút értékben, célmondat hosszával normalizálva. A forrásmondatban és a célmondatban lévő pontosvesszők számának különbsége abszolút értékben. A forrásmondatban és a célmondatban lévő pontosvesszők számának különbsége abszolút értékben, célmondat hosszával normalizálva. A forrásmondatban és a célmondatban lévő kérdőjelek számának különbsége abszolút értékben. A forrásmondatban és a célmondatban lévő kérdőjelek számának különbsége abszolút értékben, célmondat hosszával normalizálva. A forrásmondatban és a célmondatban lévő felkiáltójelek számának különbsége abszolút értékben. A forrásmondatban és a célmondatban lévő felkiáltójelek számának különbsége abszolút értékben, célmondat hosszával normalizálva. A forrás- és a célmondatban lévő írásjegyek számának különbsége abszolút értékben, célmondat hosszával normalizálva. A célszó előfordulásának száma a célhipotézisben. Fordítások átlaga minden forrásszóra a mondatban (IBM 1 táblázatból kinyerhető adat, ahol p(t s) > 0,2). Fordítások átlaga minden forrásszóra a mondatban, súlyozva a forrásnyelvi korpuszban lévő minden szó inverz gyakoriságával (IBM 1 táblázatból kinyerhető adat, ahol p(t s) > 0,01). Forrásnyelvi korpuszban lévő negyedik kvartilisben lévő forrásszó unigramjának gyakorisága (kis gyakoriságú szavak) százalékban. Forrásnyelvi korpuszban lévő negyedik kvartilisben lévő forrásszó unigramjának gyakorisága (nagy gyakoriságú szavak) százalékban. Forrásnyelvi korpuszban lévő első kvartilisben lévő forrásszó bigramjának gyakorisága százalékban. Forrásnyelvi korpuszban lévő negyedik kvartilisben lévő forrásszó bigramjának gyakorisága százalékban. Forrásnyelvi korpuszban lévő első kvartilisben lévő forrásszó trigramjának gyakorisága százalékban. Forrásnyelvi korpuszban lévő negyedik kvartilisben lévő forrásszó trigramjának gyakorisága százalékban. Forrásmondat unigramjainak előfordulási százaléka a korpuszban (SMT tanító korpusz alapján).. 2017. 10. 05. 43

Minőségbecslés Jegyek kinyerése Emberi kiértékelések 2017. 10. 05. 44

Összegzés Gépi fordítás célja: megértés, információkinyerés, NEM a tökéletes fordítás Gépi fordítás kiértékelése: Minden esetben az emberi kiértékelésen / fordításon alapszik Referenciafordítással történő kiértékelés Minőségbecslés Nem használ referenciafordítást. Egyik módszer sem éri el az elvárt eredményt. 2017. 10. 05. 45

Köszönöm a figyelmet ध य न द न क ल ए आपक धन यव द आप अपन ध य न क ल ए धन यव द थ क य फ र य र अट शन Thank you for your attention Thank you for your attention Thank you for the attention Merci de votre attention Je vous remercie pour votre attention Merci pour l'attention 感谢您的关注 谢谢你的关注 谢谢您的注意 2017. 10. 05. 46