Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk



Hasonló dokumentumok
Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Nagy Natália. Mai magyar nyelv (morfológia)

Morfológia. Nyelvészet az informatikában informatika a nyelvészetben október 2.


Ingrid Signo Felhasználói kézikönyv. Pénztári használatra

Ismeretlen kifejezések és a szófaji egyértelm sítés


Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...)


Felhasznált irodalom: Tamás Forgács: Ungarische Grammatik. Edition Praesens, Wien, Hangok / Sounds. hosszú / long éé í őő űű

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Igetövek rendszere. igényel-het, igényl-ő, csörög-ni, csörg-ő


IDEGEN NYELVEK SZAKASZVIZSGA KÖVETELMÉNYEK. A2 SZINT: 10. c és 10.d osztályok. B1 SZINT: 9. ny, 11.a és b osztályok





1. ábra Mester oldal alapján különböző témákkal létrehozott webhely oldalai

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Miért tanulod a nyelvtant? Nyelvtani kiskalauz


A kibővített Magyar történeti szövegtár új keresőfelülete

I. sz. 220 körül Origenész összeállítja Hexapla címen az Ószövetség hat különbözı fordítását


Számítógépes nyelvészet


TIOP / Könyvtári szolgáltatások összehangolt infrastruktúra fejlesztése

Hogyan kerül(jön) az e-könyv a könyvtárba?*

A nyelvtechnológia hatása napjaink lexikográfiájára

Kitöltési útmutató 1.0 Verzió


XML és XSLT (a színfalak mögül)

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

A tanulmányok alatti vizsga vizsgaszabályzata. A vizsgaszabályzat célja, hatálya. Az értékelés rendje

Spanyol C nyelvi programkövetelmény

Témakörök: 100 óra Gyakorlás, ismétlés: Összesen:111 óra

A tudásszint mérésének és mérhetőségének egy lehetőségéről

Ingatlanbazar.hu Médiaajánló 2016

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.


MAGYAR NYELV ÉS IRODALOM


PageRank algoritmus Hubs and Authorities. Adatbányászat. Webbányászat PageRank, Hubs and Authorities. Szegedi Tudományegyetem.

A FSZEKintegrált könyvtári rendszerének


1. MELLÉKLET. Távhasználat biztosítása azonosító bróker (AAI) közreműködésével



A Common Cartridge tananyagok jövője

17. témakör Vírusok - Víruskeresés







Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.





A szótárról. 1. Mi ez?

KÖZLEMÉNY A KÉPVISELŐK RÉSZÉRE

Spanyol C nyelvi programkövetelmény. A javaslattevő alapadatai. A nyelvi képzésre vonatkozó adatok

M E G H Í V Ó március 23-án 14 órakor

B I T M A N B I v: T M A N


Koncz Alexandra Tanárnőnél vizsgázóknak ezen felül: Past simple and Past continuous Ferund or infinitive

Segédlet Digitális írástudás - Operációs rendszerek Szilágyi Róbert S.

I. RÉSZLETES ÉRETTSÉGIVIZSGA-KÖVETELMÉNY

A magyar létige problémái a számítógépes nyelvi elemzésben



Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola



KONYHATECHNIKAI ESZKÖZÖK RÖVID ÁRJEGYZÉKE


Tartalomjegyzék. Tartalomjegyzék



FELHASZNÁLÓI LEÍRÁS a DIMSQL Integrált Számviteli Rendszer Készlet moduljának használatához


Dr. Pétery Kristóf: Word 2003 magyar nyelvű változat

KÉPZÉS NEVE: Informatikai statisztikus és gazdasági tervezı TANTÁRGY CÍME: Számítógép hálózatok. Készítette:

Igekötős szerkezetek a magyarban

Eötvös Loránd Tudományegyetem Tanító- és Óvóképző Kar. Útmutató a szakdolgozat szerkesztéséhez

9. MODUL WEBKEZDŐ. A vizsgafeladat megoldásához kizárólag a választott webkészítő program, illetve jegyzettömb (editor) használható.

BATTHYÁNY KÁZMÉR GIMNÁZIUM HELYI TANTERV A NYOLCOSZTÁLYOS GIMNÁZIUMI OSZTÁLYOKNAK ANGOL MINT I. IDEGEN NYELVBŐL. Emelt óraszám

à ltalã nos elmã leti fogalmak Category Ebben a szekciã³ban az online marketinghez à s az internethez kapcsolã³dã³ Ã ltalã nos fogalmakat mutatjuk be.


BEVEZETÉS AZ INTERNET ÉS A WORLD WIDE WEB VILÁGÁBA. Kvaszingerné Prantner Csilla, EKF

A Hunglish Korpusz és szótár



Debreceni Egyetem Informatikai Kar

INFORMATIKAI ALAPISMERETEK

J e g y z ő k ö n y v. készült a Lengyeltóti Városi Önkormányzat Képviselő-testülete december 14-én megtartott üléséről

Átírás:

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Középiskolás szakkör előadás fóliák http://www.inf.u-szeged.hu/hlt 2008.12.04. 1

Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok szerepe Szófaji kódolás - MSD kódrendszer Korpuszok és a treebank Szófaji egyértelműsítés Főnévi csoportok (NP) felismerés 2008.12.04. 2

A Szövegfeldolgozás célja Nagy mennyiségű ű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web) Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat 2008.12.04. 3

Nyelvi adatbázisok I. A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan áó alkalmasak erre a célra az ún. Mark-up (jelölő) ő nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 2008.12.04. 4

Nyelvi adatbázisok II. Szakszóval korpusznak nevezik az adott célból gyűjtött ű elektronikus szövegtárakat. A korpusz adott nyelvi jelenségeket magába foglaló, ló tervezett tt elrendezésű, ű elegendően nagy méretű adattár. BNC (British National Corpus, http://www.natcorp.ox.ac.uk) OTA (Oxford Text Archive, http://ota.ahds.ac.uk) ahds ac Gutenberg project, http://www.gutenberg.org) ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk) PubMed (http://www.pubmed.gov http://www.pubmed.gov) p JRC Acquis Corpus (http://langtech.jrc.it/jrc- Acquis.html) 2008.12.04. 5

Nyelvi adatbázisok III. Magyar szövegtárak MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc) DIA (Digitális Irodalmi Akadémia, http://www.pim.hu) MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu) Szószablya (http://www.szoszablya.hu) emagyarország (http://www.magyarorszag.hu) Parlament (http://www.parlament.hu http://www.parlament.hu) p Újságok (http://www.hvg.hu, http://www.nol.hu, http://www.mno.hu, http://www.magyarhirlap.hu) 2008.12.04. 6

Nyelvi adatbázisok IV. Számítógépes nyelvészeti adatbázisok LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu), ELRA (European Language Resources Association, http://www.elra.info), MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz) Szeged Korpusz (http://www.inf.u u-szeged szeged.hu/hlt) 2008.12.04. 7

Nyelvi adatbázisok IV. A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.) Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan áó alkalmasak erre a célra az ún. Mark-up (jelölő) ő nyelvek (HTML, SGML, XML) Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása 2008.12.04. 8

Szófaji kódolás Multext-East EU projekt 1995-97. 97. (http://nl.ijs.si/me/ http://nl.ijs.si/me/) si/me/) A morfoszintaktikai leírás (MorphoSyntactic Description = MSD) magyar nyelvre alkalmazható változata Jellemzői: Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik Az értékek egyetlen karakterrel vannak kódolva 2008.12.04. 9

Pozíció MSD kódrendszer Példa: Főnevek (Noun) N asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd 2 Típus Attribútum Lehetséges értékek köznév (common) tulajdonnév (proper) 3 Nem - - 4 Szám 5 Eset egyes (singular) többes (plural) c p s p Kód Toldalékok (jelek, ragok) Ø -k; -i, -ai/ ai/-ei, - jai/-jei; jei; -ék Példa asztal(om) asztalok, asztalaim szomszédék alany (nominative) n Ø asztal(om) tárgy (accusative) a -t asztal(oma)t birtokos (genitive) g Ø, -nak/ nak/-neknek asztalnak részes (dative) d -nak/ nak/-nek nek asztalnak a 2008.12.04. 10

foglalnának: Vmcp3p MSD kódrendszer Példa: Igék (Verb) V Pozí ció Attribútum Lehetséges értékek Kód Toldalékok (jelek, ragok) Példa 2 Típus 3 Mód/forma fő (main) m segéd (auxiliary) a fog kijelentő (indicative) felszólító (imperative) feltételes (conditional) i m főnévi igenév (infinitive) iti n -ni c Ø -j j, -jj jj, -gy gy, -ggy -(n)na/-(n)ne,(n)ne, -ana/ ana/-ene 4 Idő 5 Személy első (1) második (2) harmadik (3) jelen (present) p Ø múlt (past) s -t/ t/-tt/ tt/-ott/ ott/-ett 1 2 3 várok vársz vár 2008.12.04. 11

A Szintaxis is modellezése Frázis struktúra (ágrajz) A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába. Dependencia struktúra (függőségi fa) Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet, 2008.12.04. 12

Speciális (nyílt) tokenosztályok Megnevezés Alcsoportok Példák Szónál kisebb tokenek m morfémák Az -tól/-től tagos esetben... Idegen szavak, kifejezések f idegen (foreign) kifejezések Cogito ergo sum a latin közmondás szerint... Elektronikus címek (web, mail, útvonal,...) w www cím m e-mail cím p számítógépes útvonal (fájl) e számítógépes fájl kiterjesztés o egyéb cím Indexek (alsó- illetve felső l alsó (lower) index index) u felső (upper) index Számot tartalmazó tokenek r (sport) eredmények t időpontok f tizedes törtes mennyiségek (vagy pontot ttartalmazó t számok) p százalék értékek g fok jelet tartalmaz s előjeles (egész számok) q arányokat tartalmazó tokenek m méretetek e kifejezések k x egyéb tokenek A www.huninet.hu... Az e-mail címe: bubo@doktor.hu Az értékelés.doc fájlban található... A.doc és a.rtf kiterjesztésű... Az A mátrix a ij elemei... 2:0-ra verte a Fradi a... A vonat 16:30-kor indul. A pi értéke közelítően 3.14. Ab bevétel 300.000 300000 Ft volt. A kamatláb 40.2%... A keddi hőmérséklet -3 volt. A 1, +2 intervallumban... A kenyér energiatartalma 450 kcal/100g. A szoba mérete 5x3m volt. A2+2 2+2=4összeadás eredménye... 2008.12.04. 13

Egy NP-szerkezet ágrajza NP NP NP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} 2008.12.04. 14

Az NP-annotált szövegrészlet vázlata 1 Ritkán 2 vette <NP> 3 tudomásul </NP> <NP> <NP> <NP> 4 az 5 ablak </NP> 6 előtt 7 ülő 8 asszony </NP> 9 jelenlétét </NP> 10. 2008.12.04. 15

Az gazdagított g szerkezet ágrajza ADVP V NP* NP** HEAD CHILDREN NP v NODE NODE ADJP NP* NP** PP NP Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelen 2008.12.04. 16

A gazdagított annotálás XML- struktúrája <ADVP> 1 Ritkán </ADVP> <V'> <HEAD VERB_INDEX="#8875"> <V> 2 vette </V> </HEAD> <CHILDREN> <NODE ARGS= 3" type="np"/> <NODE ARGS= 4 5 6 7 8 9" type="np"/> </CHILDREN> </V'> <NP> 3 tudomásul </NP> <NP> <NP> <ADJP> <PP> <NP> 4,5 az ablak </NP> 6 előtt </PP> 7 ülő </ADJP> 8 asszony </NP> 9 jelenlétét </NP> 10. 2008.12.04. 17