Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Hasonló dokumentumok
a Szeged FC Treebankben

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

A magyar létige problémái a számítógépes nyelvi elemzésben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Bevezetés az e-magyar programcsomag használatába

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Szintaxis. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba. 5. előadás 2009 Pázmány Péter Katolikus Egyetem

Klasszikus héber nyelv 4.: Szintaxis

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis

Események detektálása természetes nyelvű szövegekben

Nem mind VP, ami állít A névszói állítmány azonosítása számítógépes elemzőben

A melllérendelés és az ellipszis nyelvtana

Anaforafeloldás menet közben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

A Mazsola KORPUSZLEKÉRDEZŐ

Lexikon és nyelvtechnológia Földesi András /

A MAGYAR REKURZÍV BIRTOKOS SZERKEZET ELSAJÁTÍTÁSA A NEMZETKÖZI KUTATÁSOK TÜKRÉBEN

Babeş-Bolyai Tudományegyetem, Kolozsvár Bölcsészkar es tanév III. év, II. félév. I. Általános információk

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

. Argumentumszerkezet: Lexikai szabályok, vagy konstrukciók? Kálmán László március 6.

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Klasszikus héber nyelv 4.: Szintaxis

Anaforafeloldás menet közben névmások egy pszicholingvisztikailag motivált elemzőben

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

MAGYAR NYELVÉSZETI TÁRGYAK ISMERTETÉSE BA NYELVTECHNOLÓGIAI SZAKIRÁNY

A morfoszintaxis és a prototípusok. Bevezetés a társas-kognitív nyelvészetbe Fehér Krisztina április 11.

É. Kiss Katalin: Mit adhat a magyar nyelv és a magyar nyelvészet az általános nyelvészetnek?

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

ANGOL NYELV, MINT ELSŐ IDEGEN NYELV

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

A LEXIKAI-FUNKCIONÁLIS GRAMMATIKA MONDATTANÁNAK ALAPFOGALMAI

SZAKMAI ÖNÉLETRAJZ Farkas Judit

Nagy Erika. Nyelvtanból Ötös. A magyar nyelvtan érthetően kicsiknek és nagyoknak.

A magyar mutató névmási módosító és a birtokos szerkezet történeti vizsgálata

MORFOLÓGIAI FELÉPÍTÉS

Tartalomjegyzék. Tartalomjegyzék

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Syllabus. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

Magyar nyelvű néprajzi keresőrendszer

Négy Hét Alatt Alapszinten Angolul. GYAKORLÁS nap

HunGram 2.0 és a HG-2 Treebank Nyelvtanfejlesztés, implementáció és korpuszépítés

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Klasszikus héber nyelv 4.: Szintaxis

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

E. KISS KATALIN - KIEFER FERENC - SIPTAR PETER ÚJ MAGYAR NYELVTAN

Az osztályozó vizsgák rendje és tematikája Francia nyelv tantárgyból évfolyam

Számítógépes nyelvészet

Klasszikus héber nyelv 4.: Szintaxis

Tantárgyi követelmények. Német nyelv. 9. oszt.

JAVÍTÓVIZSGA TÉMAKÖRÖK NÉMET NYELVBŐL Összeállította: Bischofné Németh Katalin 9. ÉVFOLYAM 10. ÉVFOLYAM

/10/07 7:42 AM Page 1. A mai magyar formális nyelvtudomány mûhelyei

Ungarisch. Grammatische Strukturen/lexikalische Einheiten Nével : Határozott, határozatlan

Segédanyagok. Formális nyelvek a gyakorlatban. Szintaktikai helyesség. Fordítóprogramok. Formális nyelvek, 1. gyakorlat

Az angol nyelv logikája 6 MONDATSZERKEZET 1. A kijelentés

MagyarOK 1. tanmenetek

MagyarOK 1. tanmenetek

MONDATTAN SZEMINÁRIUM A mellérendelő szintagma

Lenni vagy nem lenni?

Az alábbiakban egy rövid összefoglalót adok mondatszerkesztési szabályokra vonatkozóan,

Német nyelvi követelmények a 3. év végéig. A Hallo Max! c. tankönyv alapján

A számítógépes nyelvészet elmélete és gyakorlata. A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek

Imre Flóra Mondattan (jegyzet)

A megértés folyamata

Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.

Esetegyeztetés a predikatív fnévi csoportban * Szécsényi Tibor SZTE Általános Nyelvészeti Tanszék

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Hány VAN nincs? A létige zéró váltakozás korpuszvezérelt vizsgálata

Számítógépes alkalmazásai

Ahhoz, hogy mondatok halmazát érthetô egésszé, szöveggé rakd

Hierarchikus mondatrész struktúrákat is tartalmazó magyar mondatok ontológiai elemzése

1. DP is DP: állítmányuk és alanyuk is DP. (Az alanyon nem is csodálkozunk, hiszen a rendes argumentumok DP-k)

E. KISS KATALIN - KIEFER FERENC - SIPTAR PÉTER ÚJ MAGYAR NYELVTAN

A TOTÁLIS LEXIKALIZMUS ELMÉLETÉTŐL

Különírás-egybeírás automatikusan

Olasz C nyelvi programkövetelmény. A javaslattevő alapadatai. A nyelvi képzésre vonatkozó adatok

TANMENET NYELVTAN ÉS FOGALMAZÁS

Bevezetés. Problémák, hipotézisek, modellek

A nominális mondatok funkcionális szempontból

A SEMLEGES MONDAT. EGY FELSŐ TAGOZATOSOKNAK SZÓLÓ MONDATTANI

Bevezetés a nyelvtudományba. 7. Szemantika. Gerstner Károly Magyar Nyelvészeti Tanszék

Strukturális magyar nyelvtan 4. A szótár szerkezete

Igekötős szerkezetek a magyarban

Intelligens elektronikus szótár és lexikai adatbázis

Kognitív nyelvészet. Kognitív szemantika Kognitív grammatika

Átírás:

Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6.

Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek

Számítógépes szintaxis Szabályalapú elemzés Szakértők kézzel írnak szabályokat Statisztikai elemzés Nagyméretű adatbázisok (treebankek) Elemzők (parserek) Treebankekből automatikusan kinyert szabályok alapján zajlik az elemzés

Statisztikai szintaktikai elemzés Angol nyelvre kifejlesztett technológiák Konstituens- (összetevős) és függőségi (dependencia)alapú elemzők Kötött szórend vs. szabad szórend

Konstituenselemzés Terminálisok: szavak Nemterminálisok: konstituensek Szabályok: baloldal egyetlen nemterminális

Konstituensfák a Szeged Treebankben Generatív szintaxison alapul (É. Kiss et al. 1999) A magyar nyelv szintaktikai sajátságai szintén figyelembe vannak véve (nem hardcore Chomsky-féle nyelvtan) Az ige-argumentum viszonyokat címkék kódolják Nagyon részletes információk: minden esetraghoz külön nyelvtani szerep tartozik Szemantikai információ is megjelenik (idő- és helyhatározók)

Függőségi fák a Szeged Dependencia Treebankben A szavak a fa csomópontjai A főnévi argumentumok sokkal kevesebb szereppel rendelkeznek: SUBJ, OBJ, DAT,OBL, ATT -> morfológia kódolja már az esetragot Szemantikai információ megőrződik Lehetnek keresztező élek (A fiúnak látta a kutyáját.)

Függőségi vs. konstituenselemzés Minden csomópont egy szónak felel meg -> nincsenek művi csomópontok (CP, I ) a függőségi fákban Konstituens-nyelvtanok általában kötött szórendű nyelvekre jók Mi határozza meg a szintaktikai viszonyokat? a fában való elhelyezkedés (konstituens) függőségi viszonyok (címkézett élek) (dependencia)

Problémás jelenségek Virtuális csomópontok Pro-drop Álalanyok, áltárgyak, ál részes esetek Mellérendelés Többértelműség

Virtuális csomópontok Kijelentő mód, jelen idő, 3. személyben nincs létige András katona (*van). András legyen katona! András katona lesz. A SzT-ben nincs jelölve ezeknek a mondatoknak a grammatikai szerkezete SzDT-ben virtuális csomópontok

Pro-drop Alanyi/tárgyi névmások nem mindig jelennek meg a mondatban Láttad. Te láttad őt/azt. Nyelvek közti eltérések: angol, francia vs. magyar, olasz, spanyol Attól, hogy nincs az igének látható tárgya, még lehet tárgyas (egyeztetés) Nem összekeverendő az alanytalan igékkel: Esik. Havazik.

Alanyesetű, nem alanyi szerepet betöltő főnevek Birtokos: a kisfiú labdája Predikatív névszó: István juhász maradt. Tárgy: A kutyám kergeti a macska. (kerti ösvény mondat) A fiam szereti a lányod.

Lehetséges megoldások Birtokos: SzT: egy NP tartalmazza a birtokost és a birtokot ((a kisfiú) labdája) SzDT: ATT reláció Predikatív névszó: PRED reláció SzDT: virtuális csomópont Tárgy: OBJ reláció Néha nem elég a szövegkörnyezet -> többértelműség

Áltárgyak Formailag tárgynak látszó határozók: Futottam egy jót. Nagyot aludtam. Tárgyatlan ige -> nem lehet tárgy -> MODE reláció

Részes esetnek látszó esetek Nem minden szemantikai alany áll alanyesetben: Részes esetű alany: Sándornak kell elrendeznie az ügyeket. Mindkét treebankben DAT Bizonyos segédigék részes esetű alannyal állnak (kivételek) DAT-NOM párhuzam: birtokos szerkezet

Mellérendelés frázisstruktúra-nyelvtanokban a csomópontok kettőzése a szokásos eljárás: NP -> NP és NP dependencianyelvtanokban ez nem járható út, mivel nincsenek művi csomópontok a szavakat kell összekötni valamilyen módon elvi lehetőségek: vagy a kötőszót, vagy az egyik mellérendelt tagot emeljük ki (szerepeltetjük fejként), vagy egyiket sem (egyenrangúak)

A kötőszó mint fej A szerkezet: és / \ Jani Éva DE: mi van, ha nincs kötőszó? => virtuális és más probléma: nincs különbség a Jani, Éva és Gabi, illetve a Jani és Éva és Gabi között és / \ Jani Éva Gabi virtuális és Jani és Éva közé, de: Éva két elemhez is kapcsolódna ez tilos!

Nincs külön fej minden egyenrangú, egy szinten, egymás mellett szerepelnek a mellérendelés tagjai mézeskalácsháza / \ Jancsi és Juliska gond a viszonyokkal: mézeskalácsháza + és, Jancsi + Juliska összetartozna

Az egyik mellérendelt tag mint fej az első elem a fej (mert az tud az egész szerkezet helyett állni) Előnyös, mert: Elmentem a boltba Józsival és Katival. Elmentem a boltba Józsival. *Elmentem a boltba Józsival és. *Elmentem a boltba és Katival. három részből áll össze a mellérendelés (Mel čuk 1988, 2003): Józsival CONJ és COORD Katival ha nincs kötőszó, ugyanígy ábrázolható: Józsival COORD Katival nincs szükség virtuális csomópontra hasonlít az alárendelésre, ami a számítógép szempontjából előnyös

Többértelműség morfológiai többértelműség: szemét szem+é+t szerkezeti többértelműség: Reggel lelőttem egy elefántot a pizsamámban. Kin van a pizsama? lexikális többértelműség: megveted még hideg ágyamat Visszautasítod vagy megágyazol? szemantikai többértelműség: Minden férfi szeret egy nőt. Ugyanazt a nőt vagy mindenki másikat?

Szintaktikai többértelműség bővítmények csatolása: Láttam a lányt a távcsővel. Kinél van a távcső? mellérendelés: (Sikoltozó (gyerekek és anyukák)) szaladgáltak a játszótéren. ((Sikoltozó gyerekek) és (anyukák)) szaladgáltak a játszótéren. szintaktikai egyértelműsítés: az összes lehetséges fa előállítása a mondathoz és a legjobb kiválasztása lokális többértelműség: a mondat egy része többértelmű (több elemzés rendelhető hozzá), de a mondat maga nem (a fiú kutyája az a hova csatlakozik?)

Többértelműség az angolban Time flies like an arrow. VB VBZ VB DT NN NN NNS IN VB NNP NN RB CC

Time flies like an arrow. Az időlegyek szeretnek egy nyilat. Úgy repül az idő, mint egy nyílvessző. A Time magazin úgy száll, mint egy nyílvessző. Az idő úgy menekül, mint egy nyílvessző. A Time magazin kiadója úgy száll, mint egy nyílvessző. Mérd a legyek sebességét úgy, mint egy nyílét. Mérd a legyek sebességét úgy, mint egy nyíl. Mérd meg nyílsebesen a legyek sebességét. Mérd meg azoknak a legyeknek a sebességét, amelyek egy nyílra hasonlítanak.

Egyeztetés A mondatban két/több összetevő morfoszintaktikai jegyei megegyeznek Szintaktikai kapcsolat jele SUBJ (Per, Num) -> V (Per, Num) A fiú fut - a fiúk futnak SUBJ (Per, Num) -> V (Per, Num) lemma: van, lesz, marad, múlik SUBJ (Per, Num) -> PRED (Num) A lány szép - a lányok szépek A rózsa piros maradt a rózsák pirosak maradtak A férfi harminc múlt a férfiak harmincak múltak

OBJ (Def) -> V (Def) Látom a gyereket. Látok egy gyereket. Egyeztetés - 2 Birtokos (Num, Per) -> Birtok (NumP, PerP) az én könyvem a te könyved az ő könyve Kivétel: az ő könyvük a fiúk könyve

Egyeztetés - 3 Noun (Cas) -> DET (Cas) Ez a lány ezzel a lánnyal DAT (Num, Per) -> INF (Num, Per) A fiúnak nem szabad futnia. - A fiúknak nem szabad futniuk.

Házi feladat Nyomok várnak, s rejtek mélyén vész les. A mondat legalább 4 értelmezésének függőségi ábrázolása Határidő: november 27. Segítség: http://www.inf.u-szeged.hu/rgai/dependency http://www.inf.u-szeged.hu/rgai/magyarlancservice/