Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Hasonló dokumentumok
Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Magyar nyelvtan tanmenet 4. osztály

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Igetövek rendszere. igényel-het, igényl-ő, csörög-ni, csörg-ő

Tartalomjegyzék. Tartalomjegyzék

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Klasszikus héber nyelv 4.: Szintaxis

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

a Szeged FC Treebankben

A Mazsola KORPUSZLEKÉRDEZŐ

A magyar létige problémái a számítógépes nyelvi elemzésben

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

A HUNGLISH PÁRHUZAMOS KORPUSZ

Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17

Magyar nyelv és irodalom Fejlesztési terv

Morfológia. Nyelvészet az informatikában informatika a nyelvészetben október 2.

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Klasszikus héber nyelv 4.: Szintaxis

Igekötős szerkezetek a magyarban

NT MAGYAR NYELV ÉS KOMMUNIKÁCIÓ 6. TANMENETJAVASLAT. (heti 2 óra, azaz évi 74 óra)

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint Bevezetés a nyelvtechnológiába 2. gyakorlat szeptember 20.

ÉRETTSÉGI TÉTELCÍMEK 2018 Informatika

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

MAGYAR NYELV Tömbösített tanmenet 7. b évfolyam

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

MAGYAR NYELV Tömbösített tanmenet 7. a osztály

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

Morfológiai újítások a Szeged Korpusz 2.5-ben

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

A kibővített Magyar történeti szövegtár új keresőfelülete

Magyar nyelv 6. osztály. Főbb témakörök

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Egy általános célú morfológiai annotáció kiterjesztése

Multimédiás adatbázisok

Fentrol.hu - Üzemeltetési tapasztalatok

Osztályozó és javítóvizsga témakörei és követelményei angol nyelvből. 9. évfolyam

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Ungarisch. Grammatische Strukturen/lexikalische Einheiten Nével : Határozott, határozatlan

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

Tantárgyi követelmények. Német nyelv. 9. oszt.

Intelligens közlekedési rendszerek (ITS)

Informatika szóbeli vizsga témakörök

A Hunglish Korpusz és szótár

Evezz a mélyre! Haladó kutatási tippek bölcsészet- és társadalomtudományok témakörben

középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Korpuszlekérdezők evolúciója

Klasszikus héber nyelv 4.: Szintaxis

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Klasszikus héber nyelv 4.: Szintaxis

XML alapú adatbázis-kezelés. (Katona Endre diái alapján)

Nagy Erika. Nyelvtanból Ötös. A magyar nyelvtan érthetően kicsiknek és nagyoknak.

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

LINGUA GAYA. A Lingua Gaya nyelv nyelvtana. 2002, Gajárszki László

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Klasszikus héber nyelv 4.: Szintaxis

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

ANGOL NYELV, MINT ELSŐ IDEGEN NYELV

MINIMÁLIS KÖVETELMÉNYEK NÉMET NYELVBŐL

MagyarOK 1. tanmenetek

Osztályozóvizsga 1/13. K ANGOL NYELV

Tantárgyi követelmények Angol (1. idegen nyelv) 9. évfolyam

Felhasznált irodalom: Tamás Forgács: Ungarische Grammatik. Edition Praesens, Wien, Hangok / Sounds. hosszú / long éé í őő űű

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Klasszikus héber nyelv 4.: Szintaxis

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Események detektálása természetes nyelvű szövegekben

A szófajok rendszere

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM KÖZLEKEDÉSMÉRNÖKI ÉS JÁRMŰMÉRNÖKI KAR

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Koncz Alexandra Tanárnőnél vizsgázóknak ezen felül: Past simple and Past continuous Ferund or infinitive

ÉRETTSÉGI TÉTELCÍMEK 2012 Informatika

Digitális kultúra, avagy hová lett az informatika az új NAT-ban? Farkas Csaba

A nyelvtani szabályok bemutatási módjai három magyar nyelvkönyvben

Lexikon és nyelvtechnológia Földesi András /

Nehogy a nyúl visz a puska! Mondat ez? Bizonyára te is látod,

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

Tagolatlan mondat szavakra tagolása, helyes leírása Ellenőrzés

TANANYAGCSOMAGOK WORD AND SENTENCE STRUCTURE MANAGE YOUR ENGLISH SZÓSZERKEZETEK

Tartalom. 19 Jelen idő 19 Múlt idő 28 Jővő idő 37. Feltételes mód 41 Jelen idő 41 Múlt idő 43 Használata 44 Gyakorlatok 46

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

Osztályozó vizsgakövetelmények Angol (1. idegen nyelv) 9NY osztály

Mesterséges Intelligencia Elektronikus Almanach

Átírás:

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt 5/3/2011 1

Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok szerepe Szófaji kódolás - MSD kódrendszer Korpuszok és a treebank Szófaji egyértelműsítés Főnévi csoportok (NP) felismerés 5/3/2011 2

A Szövegfeldolgozás célja Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web) Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat 5/3/2011 3

Nyelvi adatbázisok I. A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 5/3/2011 4

Nyelvi adatbázisok II. Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat. A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár. BNC (British National Corpus, http://www.natcorp.ox.ac.uk) OTA (Oxford Text Archive, http://ota.ahds.ac.uk) Gutenberg project, http://www.gutenberg.org) ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk) PubMed (http://www.pubmed.gov)( JRC Acquis Corpus (http://langtech.jrc.it/jrc-( Acquis.html) 5/3/2011 5

Nyelvi adatbázisok III. Magyar szövegtárak MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc) DIA (Digitális Irodalmi Akadémia, http://www.pim.hu) MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu) Szószablya (http://www.szoszablya.hu)( emagyarország (http://www.magyarorszag.hu)( Parlament (http://www.parlament.hu)( Újságok (http://www.hvg.hu,( http://www.nol.hu, http://www.mno.hu, http://www.magyarhirlap.hu) 5/3/2011 6

Nyelvi adatbázisok IV. Számítógépes nyelvészeti adatbázisok LDC (Linguistic Data Consortium, http://www.ldc. upenn.edu), ELRA (European Language Resources Association, http://www.elra.info), MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz) Szeged Korpusz (http://www.inf.u-szeged.hu/hlt)( 5/3/2011 7

Nyelvi adatbázisok IV. A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 5/3/2011 8

Szófaji kódolás Multext-East EU projekt 1995-97. (http://nl.ijs.si/me/) A morfoszintaktikai leírás (MorphoSyntactic Description = MSD) magyar nyelvre alkalmazható változata Jellemzői: Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik Az értékek egyetlen karakterrel vannak kódolva 5/3/2011 9

MSD kódrendszer Példa: Főnevek (Noun) N asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd Pozíció 2 Típus Attribútum Lehetséges értékek köznév (common) tulajdonnév (proper) 3 Nem - - 4 Szám 5 Eset egyes (singular) többes (plural) alany (nominative) tárgy (accusative) birtokos (genitive) részes (dative) c p s p n a g d Kód Toldalékok (jelek, ragok) Ø -k; -i, -ai/-ei, - jai/-jei; -ék Ø -t Ø, -nak/-nek -nak/-nek Példa asztal(om) asztalok, asztalaim szomszédék asztal(om) asztal(oma)t asztalnak asztalnak 5/3/2011 10

foglalnának: Vmcp3p MSD kódrendszer Példa: Igék (Verb) V Pozí ció Attribútum Lehetséges értékek Kód Toldalékok (jelek, ragok) Példa 2 Típus fő (main) segéd (auxiliary) m a fog 3 Mód/forma kijelentő (indicative) felszólító (imperative) feltételes (conditional) főnévi igenév (infinitive) i m c n Ø -j, -jj, -gy, -ggy -(n)na/-(n)ne, -ana/-ene -ni 4 Idő jelen (present) múlt (past) 5 Személy első (1) második (2) harmadik (3) 5/3/2011 11 p s 1 2 3 Ø -t/-tt/-ott/-ett várok vársz vár

A Szintaxis modellezése Frázis struktúra (ágrajz) A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába. Dependencia struktúra (függőségi fa) Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet, 5/3/2011 12

Speciális (nyílt) tokenosztályok Megnevezés Alcsoportok Példák Szónál kisebb tokenek m morfémák Az -tól/-t ől tagos esetben... Idegen szavak, kifejezések f idegen (foreign) kifejezések Cogito ergo sum a latin közmondás szerint... Elektronikus címek (web, mail, útvonal,...) A www.huninet.hu... Az e-mail címe: bubo@doktor.hu Indexek ő (alsó- illetve fels index) Számot tartalmazó tokenek w www cím m e-mail cím p számítógépes útvonal (fájl) e számítógépes fájl kiterjesztés o egyéb cím l alsó (lower) index u ő ( fels upper) index r (sport) eredmények t őpontok id f tizedes törtes mennyiségek (vagy pontot tartalmazó számok) p százalék értékek g fok jelet tartalmaz s őjeles (egész számok) q arányokat tartalmazó tokenek m méretetek e kifejezések x egyéb tokenek Az értékelés.doc fájlban található... A.doc és a.rtf ű... kiterjesztés Az A mátrix a ij elemei... 2:0-ra verte a Fradi a... A vonat 16:30-kor indul. A pi ően értéke 3 közelít.14. A bevétel 300.000 Ft volt. A kamatláb 40.2%... A őmérséklet keddi h -3 volt. A 1, +2 intervallumban... A kenyér energiatartalma 450 kcal/100g. A szoba mérete 5x3m volt. A 2+2=4 összeadás eredménye... 5/3/2011 13

Tulajdonnevek Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRK http://btb.math.bas.bg/clark/index.html (ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése. személynevek (a kereszt és vezetéknevek adatbázisát felhasználva, az id. ifj. özv. dr. prof. asszonynév (- né),... képzési formákat cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]). Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal,...) földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor,... egyéb tulajdonnevek

Annotáció Többszintű NP struktúrák jelölése <NP> és </NP> A tagmondatok jelölése <CP> tagekkel A nem egyértelmű annotáció jele <XP comment= > Részletes útmutató alapján dolgozó annotátorok Egy fájlt 2 személy egymástól függetlenül annotált

Az NP (névszói szerkezet) annotálásának fontosabb alapelvei Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll. A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben. A főnév bővítményei a névelő, számnevek és a jelzők. A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.

Egy NP-szerkezet ágrajza NP NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} 5/3/2011 18

Az NP-annotált szövegrészlet vázlata 1 Ritkán 2 vette <NP> 3 tudomásul </NP> <NP> <NP> <NP> 4 az 5 ablak </NP> 6 előtt 7 ülő 8 asszony </NP> 9 jelenlétét </NP> 10. 5/3/2011 19

Az gazdagított szerkezet ágrajza ADVP V NP* NP** HEAD CHILDREN NP v NODE NODE ADJP NP* NP** PP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelen 5/3/2011 20

A gazdagított annotálás XML- struktúrája <ADVP> 1 Ritkán </ADVP> <V'> <HEAD VERB_INDEX="#8875"> <V> 2 vette </V> </HEAD> <CHILDREN> <NODE ARGS= 3" type="np"/> <NODE ARGS= 4 5 6 7 8 9" type="np"/> </CHILDREN> </V'> <NP> 3 tudomásul </NP> <NP> <NP> <ADJP> <PP> <NP> 4,5 az ablak </NP> 6 előtt </PP> 7 ülő </ADJP> 8 asszony </NP> 9 jelenlétét </NP> 10. 5/3/2011 21