Lexikon és nyelvtechnológia Földesi András /

Hasonló dokumentumok
Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

LiLe projekt: Adatbázis mint dinamikus korpusz

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

A Mazsola KORPUSZLEKÉRDEZŐ

Különírás-egybeírás automatikusan

MORFOLÓGIAI FELÉPÍTÉS

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Zsemlyei János A MAI MAGYAR NYELV SZÓKÉSZLETE ÉS SZÓTÁRAI

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Automaták és formális nyelvek

ALAKTAN ELŐADÁS 1-2. Alaktan, morfológia tárgya. Morfológia és mondattan viszonya. Morfológia univerzalitása. A szó fogalma I. Alaktan belső ügyei

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

A TOTÁLIS LEXIKALIZMUS ELMÉLETÉTŐL

Intelligens elektronikus szótár és lexikai adatbázis

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Általános nyelvészet Tematika és olvasmányjegyzék a magyar nyelvtudományi doktori iskola hallgatóinak

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

. Argumentumszerkezet: Lexikai szabályok, vagy konstrukciók? Kálmán László március 6.

Objektumorientált paradigma és a programfejlesztés

Számítógépes alkalmazásai

MAGYAR NYELVÉSZETI TÁRGYAK ISMERTETÉSE BA NYELVTECHNOLÓGIAI SZAKIRÁNY

A Humor új Fo(r)mája

A vonzatosság alternatív felfogása

NÉHÁNY MEGJEGYZÉS A MAGYAR FŐNÉVRAGOZÁS PARADIGMÁJÁNAK SZERKEZETÉRŐL

Morfológia. Cser András

Adatbázis rendszerek Definíciók:

PAPP FERENC ÉLETRAJZA Kiefer Ferenc, Magyar Tudomány, 2002/2. 216

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

10. Morfológia és statisztikai grammatika Morfémák és variációszámok

É. Kiss Katalin A szibériai kapcsolat - avagy miért nem tárgyasan ragozzuk az igét 1. és 2. személyű tárgy esetén Magyar Nyelvjárások 41.

Segédanyagok. Formális nyelvek a gyakorlatban. Szintaktikai helyesség. Fordítóprogramok. Formális nyelvek, 1. gyakorlat

A HUNGLISH PÁRHUZAMOS KORPUSZ

Mi a morfológia? Morfológia. Tudnivalók: Mi van a szavakban?

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

Objektumorientált paradigma és programfejlesztés Bevezető

A lexikon megközelítései 1

OOP. Alapelvek Elek Tibor

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

a Szeged FC Treebankben

2

Magyar nyelvtan tanmenet 4. osztály

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Klasszikus héber nyelv 4.: Szintaxis

KÖVETELMÉNYEK. A nyelvi szintek grammatikája

A melllérendelés és az ellipszis nyelvtana

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

Mérés és modellezés 1

Alaktan (morfológia) Az alaktani rendszer a szavak alakváltozatait és egymás közötti kapcsolatai foglalja magában:

A Tinta e-book könyvtár/lexikontár címei:

SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN

22. GRÁFOK ÁBRÁZOLÁSA

Nyelv-ész-gép Új technológiák az információs társadalomban

Klasszikus héber nyelv 4.: Szintaxis

17. előadás: Vektorok a térben

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő

A szavak feldolgozása. Ladányi Enikő

Irodalom. (a) A T, B T, (b) A + B, C + D, D C, (c) 3A, (d) AD, DA, B T A, 1 2 B = 1 C = A = 1 0 D = (a) 1 1 3, B T = = ( ) ; A T = 1 0

A TOTÁLIS LEXIKALIZMUS ELMÉLETÉTŐL

Sémi összehasonlító nyelvészet

Objektum orientált programozás Bevezetés

S0-02 Típusmodellek (Programozás elmélet)

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

Absztrakció. Objektum orientált programozás Bevezetés. Általános Informatikai Tanszék Utolsó módosítás:

Helyesiras.mta.hu az intelligens helyesíró portál

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

LINEÁRIS EGYENLETRENDSZEREK október 12. Irodalom A fogalmakat, definíciókat illetően két forrásra támaszkodhatnak: ezek egyrészt elhangzanak

Mérés és modellezés Méréstechnika VM, GM, MM 1

A magyar létige problémái a számítógépes nyelvi elemzésben

Nyelvészet. I. Témakör: Leíró nyelvtan

Méréselmélet MI BSc 1

A morfoszintaxis és a prototípusok. Bevezetés a társas-kognitív nyelvészetbe Fehér Krisztina április 11.

Beszédfeldolgozási zavarok és a tanulási nehézségek összefüggései. Gósy Mária MTA Nyelvtudományi Intézete

Diszkrét matematika II., 8. előadás. Vektorterek

Babeş-Bolyai Tudományegyetem, Kolozsvár Bölcsészkar es tanév III. év, II. félév. I. Általános információk

Klasszikus héber nyelv 4.: Szintaxis

A birtoklás kifejezése a magyarban és az olaszban W. Somogyi Judit

Szoftverarchitektúrák 3. előadás (második fele) Fornai Viktor

Számítógépes nyelvészet

A Hunglish Korpusz és szótár

Adatbázismodellek. 1. ábra Hierarchikus modell

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

Mi ez pontosan? Miért készült? Miért nehéz?

A kutató-fejlesztő munkára fordított idő arányában teljes munkaidejű dolgozókra átszámított létszám ráfordítás (full time equivalent, FTE).

Struktúra nélküli adatszerkezetek

A LEXIKAI-FUNKCIONÁLIS GRAMMATIKA MONDATTANÁNAK ALAPFOGALMAI

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

PurePos: hatékony morfológiai egyértelműsítő modul

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Bevezetés a nyelvtudományba Alaktan

Bevezetés a nyelvtudományba. 5. Szintaxis

Syllabus. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

ABR ( Adatbázisrendszerek) 2. Előadás : Műveletek a relációs modellben

Dr. Laczkó Tibor egyetemi docens Angol Nyelvészeti Tanszék, Angol-Amerikai Intézet. SZAKMAI ÖNÉLETRAJZ (2014. október 31-ig)

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Nyelvészeti módszerek és irányzatok, bibliai és rabbinikus héber

A közlésfolyamat fonológiai szerveződése: szerkezetismétlő műveletek afáziások beszédében

Átírás:

Lexikon és nyelvtechnológia 2011.11.13. Földesi András /

A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét. A cél tehát a teljes leírás ( ) (beleértve a szintézist is) vagy a teljes szintézis (beleértve a szintézishez szükséges kiinduló adatok leírását). Paradigmatikus alakon mindenféle ragos-jeles alakot értünk, ide nem értve a szóképzéssel és a szóösszetétellel létrejött alakokat. (Papp 1975: 5) A paradigmatikus fogalmat definíció nélkül

Formálisság és automatizmus Valaminek a formális leírása annyit jelent, hogy a leírás az elérendő célhoz szükséges minden adatot explicit formában tartalmaz. (Papp 1975: 6) Ez egyrészt teljesség, másrészt pontosság. Automatikusnak nevezünk egy olyan folyamatot, amely esetenkénti külső beavatkozás nélkül megy végbe. (Papp 1975:8)

Példák automatákra 1. Paradicsomlé: Automatikus működésű egy gép, amely, ha egyszer megindítottuk, esetenkénti beavatkozás nélkül addig tölti az üvegeket paradicsomlével, amíg a paradicsomlé és/vagy az üvegek el nem fogytak; 2. automatikus működésű egy szabály, amely tetszőleges, bemenő ábécéjének megfelelő jelsorokon meghatározott műveleteket elvégez anélkül, hogy e tevékenységébe esetenként be kellene avatkoznunk. Papp Ferenc: A magyar főnév paradigmatikus rendszere. Leírás és automatikus szintézis. / Budapest: Akadémiai Kiadó, 1975., kiemelések tőlem/

Paradigma (1) /Siptár Péter: Nyelvészeti kisszótár. Alapvető terminus technikusok a modern nyelvészetben. MKKE Nyelvi Intézet, 1980. / A szabályok minden helyes alakot hozzanak létre anyagunk korlátai között és csak helyes alakokat hozzanak létre azon kívül! 2. Ragozási sor; valamely igetőből vagy névszóból létrehozható jeles és ragos alakok hiánytalan és rendezett elsorolása 3. Esetenként használják a SZUBSZTITÚCIÓS OSZTÁLY szinonimájaként, azaz egymással paradigmatikus viszonyban álló elemek osztályának jelölésére.

Prardigma (2) - függőleges viszony olyan formák között, amelyek egy adott szerkezet valamely pontján állhatnak,pl.: Zoli /lassan/ megy. /sietve/ /moziba/ /dolgozni/ A környezet szóalakjai semmivel sincsenek kitüntetve akkor sem, ha egy (rendszerint rövid) alakot: lat. jelen idő, egyes szám, 1. személy; magy. jelen idő, alanyi ragozás,

Lexéma, szóalak, tő Lexémának nevezzük a szótári komponens egy-egy címszó által szimbolizált részét. (Papp 1975:15) A lexéma környezetét alkotó, egymástól részben különböző fonémasorokat nevezzük szóalakoknak. (Papp 1975: 17) Az egy lexémát alkotó szóalakok fonológiai mátrixának valódi maximális hasonló részét tekintjük tőnek. (Papp 1975: 19) A lexémát mint absztrakt egységet ( ) egy-egy fonológiai mátrixszal tudjuk reprezentálni; ha a fonológiai mátrix egyegy oszlopát fonémának nevezzük, azt is mondhatjuk, hogy a lexémát egy fonémasor alakjában tudjuk leírni. De

A lexikon számítógépes reprezentációjáról /Kiefer Ferenc (szerk.) (2008): Strukturális magyar nyelvtan 4. A szótár szerkezete. Budapest: Akadémiai Kiadó./ Olyan lexikai adatbázisokkal foglalkozunk, amelyek számítógépes rendszerek, alkalmazások számára szolgáltatnak információt. (Kiefer 2008: 853) A nyelvtechnológiai alkalmazások fejlesztésekor a hatékonyság a cél: az alkalmazásnak a bemenetül szolgáló természetes nyelvi szöveg minél nagyobb részét kell lefednie. (Kiefer 2008: 854) A nyelvtechnológiai módszerekben is megtaláljuk a nyelvi leírás elméleti nyelvészetben használt szintjeit. A legtöbb rendszerben ezért létezik egy lexikonként azonosítható modul/ adatbázis.

A lexikon alapegysége a nyelvtechnológiai rendszerekben lexémák, amelyekhez nem megjósolható tulajdonságok (morfoszintaktikai, szemantikai, fonológiai vagy ortográfiai információk) társulnak, vagyis mindaz, amire az alkalmazás többi moduljának szüksége lehet. A legtöbb alkalmazásban a lexikon túllép a helyesírási szón. Tartalmazhat többszavas kifejezéseket, vonzatkereteket, a lexémák kombinációit. Ezért a lexémához tartozónak vélhetünk minden olyan ismeretdarabot vagy szabályt, amely a lexémához kötődik. (Kiefer 2008: 855)

A számítógépes nyelvészetben kedvelt nyelvelméleti keretek A számítógépes nyelvészeti rendszerek nyelvelméleti keretrendszeren alapulnak. Ezek főleg nemtranszformációs generatív alapúak, közülük a megszorítás alapú lexikalista rendszerek a legkedveltebbek: GPSG általánosított frázisstruktúra-nyelvtan, HPSG fejközpontú frázisstruktúra-nyelvtan, LFG lexikai funkcionális nyelvtan. A számítógépes nyelvészetnek valódi nyelvi produktumokon működő rendszereket kell létrehoznia,

A gyenge és az erős lexikalizmus gépi implementációja (Kiefer 2008: 856) A szóalak definíciója megint: egy lexéma morfológiai szabályok által előállított realizációja. A bővíthetőség megköveteli a redundanciamentes leírást. Ilyenkor a lexémához jegyeket vagy morfológiai paradigmát rendel a számítógép, amelyeket a szóalakelőállító szabályok használnak fel. Így a morfológia a lexikon integráns része. Egy másik megközelítésben a morfológia lexikontól független modul, saját lexikonnal rendelkezik, amelyben a kötött morfémák is teljes jogú lexikai elemek (GeLexi totális lexikalista nyelvtan).

Igei vonzatkeret a számítógépes lexikonban A lexikon az idioszinkráziák tárháza. Idioszinkrázia minden olyan forma-jelentés kapcsolat, mely nem bontható fel kisebb forma-jelentés kapcsolatokra oly módon, hogy a kisebbekből nyelvtani szabályokkal levezethető lenne a nagyobb. (Kiefer 2008: 860) Azokat az igei bővítményeket kell felsorolni a lexikonban, leírni, amelyeknek a mondatbeli megjelenését produktív szintaktikai szabályokkal nem tudjuk leírni. Az MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztályán 2001 és 2004 között elkészült az az egynyelvű lexikai adatbázis, amelynek célja az ige