Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Hasonló dokumentumok
Él vagy élettelen? 1. Bevezetés. Szeged, december Sass Bálint. Hogyan fordítanánk angolra az alábbi két magyar mondatot?

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

PÁRHUZAMOS IGEI SZERKEZETEK

A Mazsola KORPUSZLEKÉRDEZŐ

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Korpuszlekérdezők evolúciója

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

A HUNGLISH PÁRHUZAMOS KORPUSZ

Igekötős szerkezetek a magyarban

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

NÉMET NYELVBŐL. Magyar Szentek Római Katolikus Óvoda és Általános Iskola 3060 Pásztó, Deák Ferenc utca /

A Hunglish Korpusz és szótár

A magyar létige problémái a számítógépes nyelvi elemzésben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Miért tanulod a nyelvtant?

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

Intelligens elektronikus szótár és lexikai adatbázis

A szótárról. 1. Mi ez?

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

FŐNÉVI VONZATOK A MAGYAR NYELVBEN

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

Az új magyar Braille-rövidírás kialakítása

A deixis megjelenési formái a prozódiában

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.

Tantárgyi követelmények. Német nyelv. 9. oszt.

Tartalom. 19 Jelen idő 19 Múlt idő 28 Jővő idő 37. Feltételes mód 41 Jelen idő 41 Múlt idő 43 Használata 44 Gyakorlatok 46

KÁROLY KRISZTINA SZÖVEGKOHERENCIA A FORDÍTÁSBAN

Tartalomjegyzék. Tartalomjegyzék

A vonzatosság alternatív felfogása

Projektek minőségbiztosítása: Hogyan előzhetők meg / fedezhetők fel időben a garanciális problémák? Nyiri Szabolcs Szakértői Iroda vezető

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

. Argumentumszerkezet: Lexikai szabályok, vagy konstrukciók? Kálmán László március 6.

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

MagyarOK 1. tanmenetek

A kibővített Magyar történeti szövegtár új keresőfelülete

ITIL alapú IT környezet kialakítás és IT szolgáltatás menedzsment megvalósítás az FHB-ban

_UXU AZ ER S BIRTOKOS NÉVMÁS

MagyarOK 1. tanmenetek

Igei szerkezetek gyakorisági szótára

Osztályozóvizsga 1/13. K ANGOL NYELV

Geoelektromos tomográfia alkalmazása a kőbányászatban

Magyar nyelvtan tanmenet 4. osztály

és a két kvantoros mondatok: válaszidő és

A KONFLIKTUS, AMI ÖSSZEKÖT A kirekesztéstől a befogadásig

Debreceni Egyetem Bölcsészettudományi Kar. DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI. A német nyelv valenciafügg utalószavainak el fordulása

Ungarisch. Grammatische Strukturen/lexikalische Einheiten Nével : Határozott, határozatlan

Minőségmenedzsment (módszerek) BEDZSULA BÁLINT

TUDÁSFELMÉRÉS MODERIRANA RAZLIČICA

Klasszikus héber nyelv 4.: Szintaxis

E. KISS KATALIN - KIEFER FERENC - SIPTAR PETER ÚJ MAGYAR NYELVTAN

Anaforafeloldás menet közben

Spanyol kezdőtől középfokig gigapack csomag részletes tematikája

Asztmatérképet rajzolnak

MINIMÁLIS KÖVETELMÉNYEK NÉMET NYELVBŐL

28 millió szintaktikailag elemzett mondat és igei szerkezet

A nyelvtani szabályok bemutatási módjai három magyar nyelvkönyvben

a Szeged FC Treebankben

Angol Nyelv Kezdőknek Tájékoztató

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

A kommunikáció profiljai az orvosi rehabilitációs munkában: Egy terepmegfigyelés tapasztalatai

Különírás-egybeírás automatikusan

MagyarOK 1. tanmenetek

Imre Flóra Mondattan (jegyzet)

TÉMAKÖR: A MAGYAR NYELV TÖRTÉNETE 5. A NYELVMŰVELÉS ÉS NYELVTERVEZÉS JELENTŐSÉGE; SZEREPE NAPJAINKBAN

A Támogatói Okirat módosítása, változások bejelentése

Kréta elektronikus napló elektronikus ellenőrző

okirat vagyoni jogot csak az okirat jogos tulajdonosa érvényesítheti kizárólag az okirat birtokában

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17

IGEI SZERKEZETEK GYAKORISÁGI SZÓTÁRA

OSZTÁLYOZÓVIZSGA KÖVETELMÉNYEI OROSZ NYELV

Kréta elektronikus napló elektronikus ellenőrző

Bevezetés a nyelvtudományba. 5. Szintaxis

Az általános igeragozás személyragjainak tárgyi vonatkozásairól

Beszédkutatás a technológiai fejlődés tükrében. Gráczi Tekla Etelka MTA Nyelvtudományi Intézet, Fonetikai osztály

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

Anaforafeloldás menet közben névmások egy pszicholingvisztikailag motivált elemzőben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

MagyarOK A2+ Szita Szilvia - Pelcz Katalin: Tanmenetek. A2.2. Célnyelvi és forrásnyelvi környezet Egy 96 órás tanfolyam

MagyarOK A2+ Szita Szilvia - Pelcz Katalin: Tanmenetek. A2.2. Célnyelvi és forrásnyelvi környezet Egy 120 órás tanfolyam

Négy Hét Alatt Alapszinten Angolul. GYAKORLÁS nap

JAVÍTÓVIZSGA TÉMAKÖRÖK NÉMET NYELVBŐL Összeállította: Bischofné Németh Katalin 9. ÉVFOLYAM 10. ÉVFOLYAM

A HAZAI LOGISZTIKAI SZOLGÁLTATÓ VÁLLALATOK KÖRÉBEN VÉGZETT KUTATÁS EREDMÉNYEI III

Tények és tévhitek az Országos kompetenciamérés adatairól. Oktatási Hivatal Köznevelési Programok Főosztálya

Tanmenet a 10. évfolyam számára

A nyelvtechnológia hatása napjaink lexikográfiájára

TÁJÉKOZTATÓ A CCN V VERZIÓ SP2 változathoz. Változások és kiegészítések a V verzió és SP1 kiadása után

Igei szerkezetek gyakorisági szótára

Leltározás a DOAS rendszerben

Átírás:

ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7.

1 KÉRDÉSFELVETÉS 2 ALAPMÓDSZER 3 FINOMÍTÁS 4 TOVÁBBI LEHETŐSÉGEK

1 KÉRDÉSFELVETÉS 2 ALAPMÓDSZER 3 FINOMÍTÁS 4 TOVÁBBI LEHETŐSÉGEK

HOGYAN FORDÍTANÁNK ANGOLRA? Alszik. Elromlott.

HOGYAN FORDÍTANÁNK ANGOLRA? Alszik. He/she is sleeping. Elromlott. It has gone wrong.

HOGYAN FORDÍTANÁNK ANGOLRA? Alszik. He/she is sleeping. Elromlott. It has gone wrong.

ÁLTALÁNOS KÉRDÉS Gépi fordításkor mit tehetünk, ha... a forrásnyelv nem specifikál bizonyos tulajdonságot; a célnyelv viszont ugyanazon a ponton elvárja a tulajdonság egy konkrétan megadott értékét. Lehetőségek: a szövegkörnyezet alapján kitaláljuk; lexikonban rögzített alapértelmezett értékeket használunk. Módszer: becslés nagyméretű korpuszban mért gyakoriságok alapján

AZ ÉLŐSÉGI (ANIMACY) SKÁLA univerzális skála: ember > állat > élettelen nyelvi prominenciaviszonyokat meghatározó egyik tényező élő/élettelen eltérő nyelvi forma lehetővé teszi, hogy a dialógusban követni tudjuk, hogy éppen melyik szereplőről van szó univerzális elv: élőség aktuális esemény befolyásolására való képesség jelentősége: gépi fordítás generálás fázisa ember állat, élettelen

KONKRÉT KÉRDÉS magyar pro-drop angol nem PROBLÉMA Ha az egyes szám harmadik személyű magyar mondatban nincs kitéve a névmás az angol oldalon a semmiből kell élő vagy élettelen testes névmást generálni.

BASELINE a prototipikus alany: élő és ágens BASELINE minden esetben élőnek vesszük az alanyt nagyon jó eredményeket ad: 80-90 %-os accuracy a fordítórendszer alapértelmezés szerint he/she-t generál elvárás: sose javasoljunk élő helyett élettelen alanyt (P I = 100%).

1 KÉRDÉSFELVETÉS 2 ALAPMÓDSZER 3 FINOMÍTÁS 4 TOVÁBBI LEHETŐSÉGEK

NYERSANYAG Magyar Nemzeti Szövegtár egyvonzatkeretes egységekre bontott változata. Egység ( tagmondat ): ige + bővítmények összetett igék (pl.: kiderül vmiről vmi, rendben van vmi), az igék kereteinek külön kezelése. Hiányosság: megy nyilvánosságra hoz vmit az előbbi lekérdezés jóval zajosabb! tanuló- és tesztkorpusz: az 1500 leggyakoribb keretből

ALAPÖTLET Komlósy: Bizonyos igék csak egyes szám 3. személyben használatosak, ezeknek az igéknek az alanyi vonzata nem jelölhet személyt. 1/2. személy: élő 3. személy: élő vagy élettelen

ALAPÖTLET HARMADIK-SZEMÉLY% (3sz%) MÓDSZER Ha az ige túlnyomó többségében 3. személyben fordul elő, akkor alanya élettelen, különben élő. ige élőség 3sz%-érték néz élő 65,4% alszik élő 64,0% megtörténik élettelen 99,9% tartalmaz élettelen 99,9% 3sz%-módszer: 3. személy aránya > 90% élettelen az alany

KIÉRTÉKELÉS n = 68 A P I R I P A R A 3sz% 84% 57% 86% 96% 83% baseline 79% a baseline magas a módszer kis mértékben jobb hibák: főleg a kellemetlenebb irányba (P I ) jellemző igék: nyilatkozik, vélekedik, aláír, tárgyal vmiről Vannak igék, melyek lényegében csak 3. személyben fordulnak elő mégis élő alanyúak.

1 KÉRDÉSFELVETÉS 2 ALAPMÓDSZER 3 FINOMÍTÁS 4 TOVÁBBI LEHETŐSÉGEK

ÖTLET 1/2. személy: élő 3. személy: élő vagy élettelen Ötlet: vannak olyan szópáraink, melyek funkciójukban azonosak, kizárólag abban különböznek, hogy az élő/élettelen jegyük értéke más: aki/ami. aki/ami arány élő/élettelen arány nyilván: ami = { ami, amely, mely }

MÉRTÉK az élettelen alanyok arányának becslését finomítjuk KORRIGÁLT HARMADIK-SZEMÉLY% (k3sz%) MÓDSZER a 3. személyű alanyok közül csak az ami összes alanyi pozícióban előforduló vonatkozó névmáshoz viszonyított arányának megfelelő számút tekintünk élettelennek. 1. sz. 2. sz. 3. sz. aki% 3. sz. ami% 3sz% élő élő élettelen? élettelen? k3sz% élő élő élő élettelen az alábbi mértéket alkalmazzuk: 3. személy aránya ami%

DÖNTÉSI SZABÁLY A k3sz% értékek eloszlása a tanulókorpuszon (n = 68): Lényegében: 65% alatt élő 90% fölött élettelen

DÖNTÉSI SZABÁLY A P I = 100% követelménynek megfelelően a következő döntési szabályt rendeljük a mértékhez: k3sz%-módszer: 3. személy aránya ami% > 90% élettelen az alany

KIÉRTÉKELÉS n = 278 nagyobb, megbízhatóbb korpusz: n = 383, két annotátor kódolás: élő / élettelen / mindkettő egyetértés: 77% (296 ige), ebből egyértelmű: 278 ige A P I R I P A R A k3sz% 95% 95% 63% 95% 100% baseline 88% az eredmény jobb a korábbinál baseline nagyon magas P I = 100% követelmény: 1 hiba (tárgyatlan jelent) R I : az élettelen keretek 63%-át találta meg

ILLUSZTRÁCIÓ A tesztkorpusz helyesen megtalált élettelen alanyú keretei: vezet vmihez, kezdődik, kell vmihez, történik vkivel, következik vmiből, csökken, múlik vmin, megvalósul, létre jön vmi, véget ér vmi, épül vmire, kezdődik vmivel, szolgál vmire, irányul vmire, zajlik, keletkezik, kialakul vmiben, növekedik, fennmarad, zajlik vmiben Igék különböző keretei (nagyobb igelistán futtatva): dicsér vmit élő dicsér munkáját élettelen költözik élő költözik épületbe élettelen

ALKALMAZÁS http://www.webforditas.hu

1 KÉRDÉSFELVETÉS 2 ALAPMÓDSZER 3 FINOMÍTÁS 4 TOVÁBBI LEHETŐSÉGEK

TOVÁBBI LEHETŐSÉGEK összevethető egy jóval erőforrásigényesebb módszerrel: a 3. személyű mondatok alanyi pozícióján megjelenő szavak gyűjtése és élő/élettelen kategóriákba sorolása. egyéb jegyek: felszólító mód élő alany más nyelvekre is alkalmazható (pl. who/which?) egyéb célpontok : igék tárgya, igék egyéb bővítményei, predikatív melléknév alanya, birtok birtokosa nemek elkülönítése: lány,nő/fiú,férfi arány megnősül: 1/20, férjhez megy: 108/2 megvéd: 4/20, zokog: 25/9.

TOVÁBBI LEHETŐSÉGEK összevethető egy jóval erőforrásigényesebb módszerrel: a 3. személyű mondatok alanyi pozícióján megjelenő szavak gyűjtése és élő/élettelen kategóriákba sorolása. egyéb jegyek: felszólító mód élő alany más nyelvekre is alkalmazható (pl. who/which?) egyéb célpontok : igék tárgya, igék egyéb bővítményei, predikatív melléknév alanya, birtok birtokosa nemek elkülönítése: lány,nő/fiú,férfi arány megnősül: 1/20, férjhez megy: 108/2 megvéd: 4/20, zokog: 25/9. Köszönöm a figyelmet!