PÁRHUZAMOS IGEI SZERKEZETEK

Hasonló dokumentumok
EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

IGEI SZERKEZETEK GYAKORISÁGI SZÓTÁRA

A Mazsola KORPUSZLEKÉRDEZŐ

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

A szótárról. 1. Mi ez?

Igei szerkezetek gyakorisági szótára

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Igei szerkezetek gyakorisági szótára

A HUNGLISH PÁRHUZAMOS KORPUSZ

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

A Hunglish Korpusz és szótár

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Igei bővítménykeretek fordítási ekvivalenseinek kinyerése mélyen elemzett párhuzamos korpuszból





28 millió szintaktikailag elemzett mondat és igei szerkezet

Igekötős szerkezetek a magyarban

A kibővített Magyar történeti szövegtár új keresőfelülete


ä ä

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Az új magyar Braille-rövidírás kialakítása

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Igei szerkezetek gyakorisági szótára félautomatikus szótárkészítés nyelvtechnológiai eszközök segítségével

Korpuszlekérdezők evolúciója

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

A FRANCIA NYELVI OSZTÁLYOZÓ VIZSGA KÖVETELMÉNYEI

A vonzatosság alternatív felfogása

Francia Nyelvtan Világosan. Bemutatólecke 01.

Online-szótár-használati szokások vizsgálata Magyarországon

a Szeged FC Treebankben

Lexikon és nyelvtechnológia Földesi András /

Intelligens elektronikus szótár és lexikai adatbázis

A magyar létige problémái a számítógépes nyelvi elemzésben

ű Ó Á ú ü Á É É ü ü Áú Ő Ó Ü Á

Közelítési és eltávolítási technikák kultúrák, ha találkoznak

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Klasszikus héber nyelv 4.: Szintaxis

FŐNÉVI VONZATOK A MAGYAR NYELVBEN

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Nyelv-ész-gép Új technológiák az információs társadalomban

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

A tudásszint mérésének és mérhetőségének egy lehetőségéről

GPU Lab. 4. fejezet. Fordítók felépítése. Grafikus Processzorok Tudományos Célú Programozása. Berényi Dániel Nagy-Egri Máté Ferenc

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Rőczei Gábor Szeged, Networkshop

Programozás alapjai. 5. előadás

Német C nyelvi programkövetelmény

2.1. Helyi építési szabályzat-módosítás


ü ő ú í ő ö ő ő í ü ő ö ó Ü ü É ő ő ö Í ó Í ő ő ő ö ü í ő í ö í ú í ö ü í Ő ő ő ő ő í Ü ő ó ö ó ő ó Ö Ó ö í Ü í ó ú ó Ö Ü ó ő ő ő ő ő ü ó í í í ö ó ö

Varga András. Õsi magyar nyelvtan


A nyelvtechnológia hatása napjaink lexikográfiájára

Változók. Mennyiség, érték (v. objektum) szimbolikus jelölése, jelentése Tulajdonságai (attribútumai):


MAGYAR NYELV a 4. évfolyamosok számára. MNy1 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Angol C nyelvi programkövetelmény

Mintaillesztő algoritmusok. Ölvedi Tibor OLTQAAI.ELTE

Smalltalk 2. Készítette: Szabó Éva

Szeretem az élet hajnali dalát"

A szóhasonlóság mértékének tesztelése CVCVC szerkezetű hangkivető főnevekkel. Rung András BME Fizikai Intézet

A továbbiakban Y = {0, 1}, azaz minden szóhoz egy bináris sorozatot rendelünk

Hozzáférés a HPC-hez, kezdő lépések (előadás és demó)


A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop Április , Pécs


Inburgeringscursus 24 (iskola)


A kutatói mobilitás hazánkban

5. A kiterjesztési elv, nyelvi változók

. Argumentumszerkezet: Lexikai szabályok, vagy konstrukciók? Kálmán László március 6.

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

2. (3) Lakás bérlője szolgálati lakás kivételével csak európai uniós állampolgár lehet.

ő ľ í ö ő ő ú í ü őľ ľ í ú í í ú ó ü Ĺ í ü í ü ľ ó ő í ő í ó ńź í ő í í ľ ó ő đ ó Ĺ ő ź ź í ł ő ó í ľ ł ő ľ í ú í ó ľ ő ő ź ľĺ í ľ ó đ í ú ő ó ő ő ę ö

Orosz C nyelvi programkövetelmény

Belsőépítési szerkezet- és burkolatszerelő

A BGF PSZFK-n elfogadott középfokú (csak C ) szakmai nyelvvizsgák listája (A+B=C ld.

YANG ZIJIAN GYŐZŐ 杨子剑

Élőhelyfejlesztési lehetőségek a KEOP Természeti értékeink jó kezelése prioritáson belül Dukát Zsófia - Energiaközpont Nkft.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

ELVÁLÓ/NEM ELVÁLÓ VONZATOS IGÉK HALADÓ SZINT

Német C számú nyelvi programkövetelmény

Az osztályozó vizsgák rendje és tematikája Francia nyelv tantárgyból évfolyam

Klasszikus héber nyelv 4.: Szintaxis

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Az Eszterházy Károly Egyetem könyvtárai szeptember 22.

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE

Tartalomjegyzék. Tartalomjegyzék

Átírás:

PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3.

1 EGYNYELVŰ IGEI SZERKEZETEK KINYERÉSE 2 ALKALMAZÁS PÁRHUZAMOS KORPUSZRA 3 KIÉRTÉKELÉS 4 PÉLDÁK

1 EGYNYELVŰ IGEI SZERKEZETEK KINYERÉSE 2 ALKALMAZÁS PÁRHUZAMOS KORPUSZRA 3 KIÉRTÉKELÉS 4 PÉLDÁK

MEGLÉVŐ MÓDSZER EGY NYELVRE tevékenység anyag példa tagmondatra bontás NP-chunking jellegzetes igei szerkezetek kinyerése korpusz reprezentáció igei szerkezetek Vess egy pillantást a térképre. ige:vet -t:pillantás -ra:térkép pillantást vet vmire

ELŐNYÖK felismeri, hogy adott bővítményi elem lexikálisan kötött, vagy kitöltetlen, vonzatszerű (pl.: pillantást vet vmire szemére vet vmit) egyszerre állapítja meg a kollokátumokat és a vonzatokat, így teljes szerkezeteket eredményez

MEGLÉVŐ MÓDSZER EGY NYELVRE tevékenység anyag példa tagmondatra bontás NP-chunking jellegzetes igei szerkezetek kinyerése korpusz reprezentáció igei szerkezetek Vess egy pillantást a térképre. ige:vet -t:pillantás -ra:térkép pillantást vet vmire

JELLEGZETES IGEI SZERKEZETEK KINYERÉSE 1 Vesszük a korpusz tagmondatait a reprezentáció szerint. Maximum két bővítmény esetén: váltakozó törlés Társasház jön létre. (ige:jön - :társasház -ra:lét) társasház jön létre, vmi jön létre, társasház jön vmire, vmi jön vmire. 2 Hossz szerint csökkenő sorba rendezés. Hossz (h) = esetek száma + kötött szavak száma. 3 A leghosszabbtól kezdve sorra elhagyjuk a ritka (f < 5) szerkezeteket. Az elhagyott szerkezetek gyakoriságát az első olyan rövidebb keret gyakoriságához adjuk hozzá, mely illeszkedik az eredeti keretre. pl.: társasház jön létre (h = 4) vmi jön létre (h = 3) 4 A megmaradó szerkezetek gyakorisági érték szerint rendezett listája adja az összegyűjtött igei szerkezeteket.

JELLEGZETES IGEI SZERKEZETEK KINYERÉSE 1 Vesszük a korpusz tagmondatait a reprezentáció szerint. Maximum két bővítmény esetén: váltakozó törlés Társasház jön létre. (ige:jön - :társasház -ra:lét) társasház jön létre, vmi jön létre, társasház jön vmire, vmi jön vmire. 2 Hossz szerint csökkenő sorba rendezés. Hossz (h) = esetek száma + kötött szavak száma. 3 A leghosszabbtól kezdve sorra elhagyjuk a ritka (f < 5) szerkezeteket. Az elhagyott szerkezetek gyakoriságát az első olyan rövidebb keret gyakoriságához adjuk hozzá, mely illeszkedik az eredeti keretre. pl.: társasház jön létre (h = 4) vmi jön létre (h = 3) 4 A megmaradó szerkezetek gyakorisági érték szerint rendezett listája adja az összegyűjtött igei szerkezeteket.

MEGLÉVŐ MÓDSZER EGY NYELVRE tevékenység anyag példa tagmondatra bontás NP-chunking jellegzetes igei szerkezetek kinyerése korpusz reprezentáció igei szerkezetek Vess egy pillantást a térképre. ige:vet -t:pillantás -ra:térkép pillantást vet vmire Igei szerkezetek szótára

1 EGYNYELVŰ IGEI SZERKEZETEK KINYERÉSE 2 ALKALMAZÁS PÁRHUZAMOS KORPUSZRA 3 KIÉRTÉKELÉS 4 PÉLDÁK

ÖTLET Hogyan lehetne ezt párhuzamos korpuszra alkalmazni?... és így párhuzamos szerkezeteket (szerkezeteket és fordításaikat) kinyerni?

ÖTLET Hogyan lehetne ezt párhuzamos korpuszra alkalmazni?... és így párhuzamos szerkezeteket (szerkezeteket és fordításaikat) kinyerni? Trükk: metakorpusz.... a kétnyelvű korpuszt egynyelvűnek álcázzuk, és közvetlenül futtatjuk az eredeti eljárást.

A METAKORPUSZ KIALAKÍTÁSA korpusz: Dutch Parallel Corpus, holland francia (3,5 mió token) elemzés: nyelvenként külön, tagmondatra bontás és NP-chunking egyszerű szabályokkal 1 Tagmondat-szintű illesztés: a tagmondatokat fordítási egységenként sorra egymáshoz rendeltük. 2 Az egymáshoz rendelt tagmondatok holland ill. francia igéjéből: igepár. (pl.: gaan+aller megy ) 3 A tagmondatpárban található bővítményeket (mindkét nyelvűeket) egy halmazként soroltuk fel az igepár mellett. holland tagmondat: francia tagmondat: magyar fordítás: reprezentáció: Ze geloofde in de grote liefde. Elle croyait au grand amour. Hitt a nagy szerelemben. ige:geloven+croire in nl :liefde à fr :amour

A MÓDSZER KÉT NYELVRE tevékenység holland francia korpusz korpusz Ze geloofde in de grote liefde. Elle croyait au grand amour. elemzés reprezentáció reprezentáció metakorpusz kialakítása ige:geloven in:liefde metakorpusz ige:croire à:amour ige:geloven+croire in nl :liefde à fr :amour

A MÓDSZER KÉT NYELVRE tevékenység holland francia korpusz korpusz Ze geloofde in de grote liefde. Elle croyait au grand amour. elemzés reprezentáció reprezentáció metakorpusz kialakítása kinyerés ige:geloven in:liefde metakorpusz ige:croire à:amour ige:geloven+croire in nl :liefde à fr :amour párhuzamos igei szerkezetek ige:geloven+croire in nl à fr

A MÓDSZER KÉT NYELVRE tevékenység holland francia korpusz korpusz Ze geloofde in de grote liefde. Elle croyait au grand amour. elemzés reprezentáció reprezentáció metakorpusz kialakítása kinyerés ige:geloven in:liefde metakorpusz ige:croire à:amour ige:geloven+croire in nl :liefde à fr :amour párhuzamos igei szerkezetek ige:geloven+croire in nl à fr szétbontás geloven in croire à

1 EGYNYELVŰ IGEI SZERKEZETEK KINYERÉSE 2 ALKALMAZÁS PÁRHUZAMOS KORPUSZRA 3 KIÉRTÉKELÉS 4 PÉLDÁK

KIÉRTÉKELÉS futtatás: f 20 előforduló 1356 db igepárra kiértékelés tárgya: vonzatos komplex igék (pl.: részt vesz vmiben) jó = értelmes, teljes szerkezet, megfelelő fordítás Engedmények: birtokos szerkezet: holland van ill. francia de alany és tárgy határozószó hiánya eredmény: 58 db legalább 15-ös gyakorisági értékű szerkezet, melyben vonzat és lexikálisan kötött bővítmény is volt. Ebből 34 bizonyult helyesnek: pontosság = 58,6% (Korábbi egynyelvű pontosság magyarra, 50 db-ra: 94%)

1 EGYNYELVŰ IGEI SZERKEZETEK KINYERÉSE 2 ALKALMAZÁS PÁRHUZAMOS KORPUSZRA 3 KIÉRTÉKELÉS 4 PÉLDÁK

PÉLDÁK ASZIMMETRIA eredmény: aszimmetrikus szerkezetek Def: más felépítésű (pl.: krumpli = pommes de terre) GYENGE (TARTALMI) ASZIMMETRIA houden van = aimer OBJ szeret vmit ERŐS (FORMAI) ASZIMMETRIA nemen deel aan = participer à részt vesz vmiben zijn van toepassing op = appliquer se à vonatkozik vmire

PÉLDÁK ASZIMMETRIA eredmény: aszimmetrikus szerkezetek Def: más felépítésű (pl.: krumpli = pommes de terre) GYENGE (TARTALMI) ASZIMMETRIA houden van = aimer OBJ szeret vmit ERŐS (FORMAI) ASZIMMETRIA nemen deel aan = participer à részt vesz vmiben zijn van toepassing op = appliquer se à vonatkozik vmire

PÉLDÁK ASZIMMETRIA eredmény: aszimmetrikus szerkezetek Def: más felépítésű (pl.: krumpli = pommes de terre) GYENGE (TARTALMI) ASZIMMETRIA houden van = aimer OBJ szeret vmit ERŐS (FORMAI) ASZIMMETRIA nemen deel aan = participer à részt vesz vmiben zijn van toepassing op = appliquer se à vonatkozik vmire

PÉLDÁK SZINONIMÁK eredmény: szinonimák adott szerkezet több megfelelője + gyakorisági viszonyokkal agir se de szó van róla, szóban forog, illeti, vonatkozik szerkezet négy fordítása: holland megfelelő gyakorisági érték gaan om 114 zijn OBJ 69 betreffen OBJ 27 gaan over 24 lexikográfiai felhasználás gépi fordítás: további szabályokat lehet tanulni, hogy melyik fordítás milyen feltételek mellett alkalmazandó

PÉLDÁK IDIOMATIKUS MEGFELELŐK eredmény: idiomatikus megfelelők IGÉK maken deel van = faire partie de részét képezi vminek doen beroep op = faire appel à fellebbez vkihez ELÖLJÁRÓK nemen deel aan = participer à részt vesz vmiben doen beroep op = faire appel à fellebbez vkihez hebben effect op = avoir effet sur hatása van vmire houden van = aimer OBJ szeret vmit

PÉLDÁK IDIOMATIKUS MEGFELELŐK eredmény: idiomatikus megfelelők IGÉK maken deel van = faire partie de részét képezi vminek doen beroep op = faire appel à fellebbez vkihez ELÖLJÁRÓK nemen deel aan = participer à részt vesz vmiben doen beroep op = faire appel à fellebbez vkihez hebben effect op = avoir effet sur hatása van vmire houden van = aimer OBJ szeret vmit

PÉLDÁK IDIOMATIKUS MEGFELELŐK eredmény: idiomatikus megfelelők IGÉK maken deel van = faire partie de részét képezi vminek doen beroep op = faire appel à fellebbez vkihez ELÖLJÁRÓK nemen deel aan = participer à részt vesz vmiben doen beroep op = faire appel à fellebbez vkihez hebben effect op = avoir effet sur hatása van vmire houden van = aimer OBJ szeret vmit

PÉLDÁK IDIOMATIKUS MEGFELELŐK eredmény: idiomatikus megfelelők IGÉK maken deel van = faire partie de részét képezi vminek doen beroep op = faire appel à fellebbez vkihez ELÖLJÁRÓK nemen deel aan = participer à részt vesz vmiben doen beroep op = faire appel à fellebbez vkihez hebben effect op = avoir effet sur hatása van vmire houden van = aimer OBJ szeret vmit

FELHASZNÁLÁS Egy gépi fordítónak az ilyen fajta szerkezeteket ismernie kell: legalább a leggyakoribbakat. GOOGLE FORDÍTÓ Het gaat om een andere kwestie. It is a different issue. (!) Il s agit d une autre question. It is a question of another question. :) Érdemes a leggyakoribbakat külön (kézi?) szabállyal kezelni?

ÖSSZEFOGLALÁS A módszer kétnyelvű igei szerkezetek hasznos gyűjteményét képes előállítani. Felfedezi a formailag egymásra nem hasonlító, de egymásnak megfelelő, egymás fordításaiként kezelendő igei szerkezeteket is. A módszer egyszerre rendelkezik az alábbi tulajdonságokkal: igei kollokációkinyerés igei vonzatkeret-megállapítás megszakított és változó szórendű szerkezetek kezelése többnyelvű szerkezetek kinyerése párhuzamos korpuszból nyelvfüggetlen eljárás

ÖSSZEFOGLALÁS A módszer kétnyelvű igei szerkezetek hasznos gyűjteményét képes előállítani. Felfedezi a formailag egymásra nem hasonlító, de egymásnak megfelelő, egymás fordításaiként kezelendő igei szerkezeteket is. A módszer egyszerre rendelkezik az alábbi tulajdonságokkal: igei kollokációkinyerés igei vonzatkeret-megállapítás megszakított és változó szórendű szerkezetek kezelése többnyelvű szerkezetek kinyerése párhuzamos korpuszból nyelvfüggetlen eljárás Köszönöm a figyelmet!