Morfológia. Nyelvészet az informatikában informatika a nyelvészetben október 2.

Hasonló dokumentumok
Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Igetövek rendszere. igényel-het, igényl-ő, csörög-ni, csörg-ő

Morfológiai újítások a Szeged Korpusz 2.5-ben

ALAKTAN ELŐADÁS 1-2. Alaktan, morfológia tárgya. Morfológia és mondattan viszonya. Morfológia univerzalitása. A szó fogalma I. Alaktan belső ügyei

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Nehogy a nyúl visz a puska! Mondat ez? Bizonyára te is látod,

Morfológia. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba 4. előadás 2009 Pázmány Péter Katolikus Egyetem

Ungarisch. Grammatische Strukturen/lexikalische Einheiten Nével : Határozott, határozatlan

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

Tartalom. 19 Jelen idő 19 Múlt idő 28 Jővő idő 37. Feltételes mód 41 Jelen idő 41 Múlt idő 43 Használata 44 Gyakorlatok 46

Hozzászólás hét magyar ige problémájához

Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák

Nagy Natália. Mai magyar nyelv (morfológia)

Magyar nyelvtan tanmenet 4. osztály

Bevezetés a nyelvtudományba Alaktan

Zsemlyei János A MAI MAGYAR NYELV SZÓKÉSZLETE ÉS SZÓTÁRAI

MORFOLÓGIAI FELÉPÍTÉS

NT MAGYAR NYELV ÉS KOMMUNIKÁCIÓ 6. TANMENETJAVASLAT. (heti 2 óra, azaz évi 74 óra)

E. KISS KATALIN - KIEFER FERENC - SIPTAR PETER ÚJ MAGYAR NYELVTAN

A ragozás (Kiefer 1999)

E. KISS KATALIN - KIEFER FERENC - SIPTAR PÉTER ÚJ MAGYAR NYELVTAN

középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő

Klasszikus héber nyelv 4.: Szintaxis

Morfológia. Cser András

Mi a morfológia? Morfológia. Tudnivalók: Mi van a szavakban?

Klasszikus héber nyelv 4.: Szintaxis

Felhasznált irodalom: Tamás Forgács: Ungarische Grammatik. Edition Praesens, Wien, Hangok / Sounds. hosszú / long éé í őő űű

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis

formalizmusa Egy morfológiai elemző kimeneti formalizmusának három, egymásnak gyakran

A szóképzés. A szóalkotásnak az a módja, amikor a szótőhöz egy képző hozzájárulásával új szó jön létre.

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

A nyelvtani szabályok bemutatási módjai három magyar nyelvkönyvben

Lexikon és nyelvtechnológia Földesi András /

Szerkezetek és kategóriák. Egészen pontosan mit nevezünk szerkezetnek a morfológiában, és hogyan viszonyul a megjelenített kategóriákhoz?

SYLLABUS. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar magyar nyelv és irodalom

barátságos fugi- fugio fug- fuga- fugam fugac- fugaces

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Klasszikus héber nyelv 4.: Szintaxis

Bevezetés a nyelvtudományba. 4. Morfológia

Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17

Alaktan (morfológia) Az alaktani rendszer a szavak alakváltozatait és egymás közötti kapcsolatai foglalja magában:

MSD-KR harmonizáció a Szeged Treebank 2.5-ben

Tartalomjegyzék. Tartalomjegyzék

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Inhalt. magyar. Lernblätter zur ungarischen Sprache und Grammatik. Tekki '05-'08

MAGYAR NYELV ÉS IRODALOM VIZSGA 8. ÉVFOLYAM

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

HunGram 2.0 és a HG-2 Treebank Nyelvtanfejlesztés, implementáció és korpuszépítés

a Szeged FC Treebankben

LiLe projekt: Adatbázis mint dinamikus korpusz

PurePos: hatékony morfológiai egyértelműsítő modul

É. Kiss Katalin A szibériai kapcsolat - avagy miért nem tárgyasan ragozzuk az igét 1. és 2. személyű tárgy esetén Magyar Nyelvjárások 41.

Szófajtan és morfológia

Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.

MINIMÁLIS KÖVETELMÉNYEK NÉMET NYELVBŐL

A főnév élőlények, élettelen és gondolati dolgok neve. Fajtái a köznév és a tulajdonnév. tk

Koncz Alexandra Tanárnőnél vizsgázóknak ezen felül: Past simple and Past continuous Ferund or infinitive

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Készülünk a nyelvvizsgára 3

LEÍRÓ GRAMMATIKAI ISMERETEK

Hány esetük van a magyar fneveknek?

MagyarOK 1. tanmenetek

MagyarOK 1. tanmenetek

TANTÁRGYI PROGRAM. 2. osztály. Éves óraszám: 74 óra 2 óra/hét. fogalmak, ismeretek Új tantárgyunk: az anyanyelv. Bevezetés. A beszéd és az írás.

Pathy Lívia. kezdőknek és haladóknak

Nyelvészeti módszerek és irányzatok, bibliai és rabbinikus héber

Szófajtan (A. Jászó Anna: A magyar nyelv könyve alapján)

Tantárgyi követelmények. Német nyelv. 9. oszt.

Javában taggelünk.

A Mazsola KORPUSZLEKÉRDEZŐ

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Klasszikus héber nyelv 4.: Szintaxis

Nyelvtan összefoglaló 5. o.-tól. A hangok találkozásának szabályszerűségei

Magyar nyelv 6. osztály. Főbb témakörök

Osztályozóvizsga 1/13. K ANGOL NYELV

Klasszikus héber nyelv 4.: Szintaxis

Témakörök: 100 óra Gyakorlás, ismétlés: Összesen:111 óra

MagyarOK 1. tanmenetek

Cser András. Morfológia

SZÖVEGÉRTÉS SZÖVEGALKOTÁS. Tanulói munkatankönyv

Szabályalapú szintaktikai elemző szintaktikai szabályok nélkül

MagyarOK 1. tanmenetek

Durst Péter A magyar igeragozás elsajátításának vizsgálata magyarul tanuló külföldieknél különös tekintettel a határozott és határozatlan ragozásra*

Nagy Erika. Nyelvtanból Ötös. A magyar nyelvtan érthetően kicsiknek és nagyoknak.

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis

Rövid, összefoglaló jellegű dolgozat a magyar nyelvtan órákon tanultakról 5-6 osztály. Visontai Barnabás.

Fazekas Tiborc Az analógia csapdái a magyar nyelvtan tanulásakor *

Tudnivalók: Morfológia. Mi a morfológia? Mi van a szavakban? Mi van a szavakban? Mi van a szavakban?

0. előadás Motiváció

Karán című konferencián, október 28-án elhangzott előadás szerkesztett változata.

Petro Lizanec - Horváth Katalin

morphdb.hu: magyar morfológiai nyelvtan és szótári adatbázis

Átírás:

Morfológia Nyelvészet az informatikában informatika a nyelvészetben 2013. október 2.

Bevezetés Morfológia: szavakat és belső szerkezetüket tanulmányozza Lexéma: szó egy adott jelentésben Lemma: szótő (ragozatlan alak) Főnév: alanyeset, egyes szám (ház) Ige: jelen idő, kijelentő mód, E/3. (megy) Szóalak: egy lexéma (ragozott) alakja (ment, házak)

Hány szó van egy szövegben? Az V. kerület mai döntése szerint a Kossuth téren kivágott fák kötelező pótlásaként Csepelen és a Tabánban fognak fákat ültetni. Attól függ, mi számít szónak

Morféma és (allo)morfok Morféma: legkisebb nyelvi egység, mely önálló jelentéssel bír Morf: egy morféma felszíni (megjelenő) alakja Allomorf: azonos morfémának környezetfüggő változatai (ban/ben, sátor/sátr)

Szabad és kötött morfémák Szabad morféma: önállóan előfordulhat - lemmák, rendes szavak Kötött morféma: csak másik morfémával (szótőhöz kapcsolódva) fordulhat elő toldalékok, speciális szavak (batka)

Affixumok Szótőhöz illesztett elemek Prefixum: szó elején dis+regard Szuffixum: szó végén ember+rel Circumfixum: szó elején és végén leg+kövér+ebb

Affixumok Infixum: szó közepén sulat s+um+ulat ( ír írt, tagalog) Interfixum: összetételekben (fúgamorféma) Geburt + s + Tag Transzfixum k-t-b írás katab írt ki taab könyv mak taba könyvesbolt Magyar? K-r-t

Portmanteau morfok: egynél több jelentést hordoznak elválaszthatatlanul fut + unk (T/1. alanyi ragozás) Szuppletív alakok went = goed nincs = nem van

Toldalékolás Inflexió: nem változik a szófaj, jelentés alapvetően nem változik, új szóalakok jönnek létre Deriváció: változhat a szófaj, jelentés változik, új lexémák jönnek létre Magyarban: Rag Jel Képző szótő + képző(k) + jel(ek) + rag

Szóképzés Képzők a szótőhöz közvetlenül kapcsolódnak (vagy egy másik képző után) Összetett szavak Endocentrikus: az egyik tag jelentése / szófaja meghatározó az egész jelentésének szempontjából (csokinyúl = egyfajta nyúl) Egzocentrikus: egyik tag jelentése /szófaja sem releváns az egész jelentésének szempontjából (hiszekegy)

Képzők a magyarban 1

Képzők a magyarban 2

Inflexió Rag: szó végén helyezkedik el (lezárja a szót), általában a szó mondatbeli szerepét határozza meg (szintaxis!) Esetragok: kb. 20 Jel: szó jelentését módosítja Birtokjel Birtokos személyjel Többes szám jele

1. Főnevek (Noun) N Pozíció Attribútum Lehetséges értékek 1 Típus neutral n 2 Nem - - 3 Szám egyes (singular) többes (plural) s p 4 Eset alany (nominative) tárgy (accusative) birtokos (genitive) részes(határozó) (dative) eszköz(határozó) (instrumental) "belső közelítő" (illative) "belviszony" (inessive) "távolító" (elative) "külső közelítő" (allative) "közelében levés" (adessive) "távolító külviszony" (ablative) "ráhelyezés" (sublative) "rajtalevés" (superessive) "eltávolítás" (delative) "határ" (terminative) essive (essive-)formal temporalis causalis sociative factive distributive locativus Kód n a g d i x 2 e t 3 b s p h 9 w f m c q y u l Toldalékok (jelek, ragok) Ø -k; -i, -ai/-ei, -jai/-jei; -ék Ø t Ø, -nak/-nek nak/-nek val/-vel ba/-be ban/-ben ból/-ből hoz/-hez/-höz nál/-nél tól/-től ra/-re n/-on/-en/-ön ról/-ről ig ul/-ül ként, -képp(en) kor ért stul/-stül vá/-vé nként -tt asztal(om) asztalok, asztalaim szomszédék Példa asztal(om) asztal(oma)t asztalnak asztalnak asztallal asztalba asztalban asztalból asztalhoz asztalnál asztaltól asztalra asztalon asztalról asztalig asztalul asztalként órakor asztalért asztalostul asztallá asztalonként Győrött, Pécsett 5 Határozottság - - 6 Klitikum - y -e katona-e 7 Élő/élettelen - - 8 Birtokos száma 9 Birtokos személye 10 Birtok(olt) száma egyes (singular) többes (plural) első második harmadik egyes (singular) többes (plural) s p 1 2 3 s p -m; -d; -a/-e, -ja/-je, Ø nk, -unk/-ünk; -tok/-tek/-tök; -uk/-ük, -juk/-jük, -k -m; -nk, -unk/-ünk; -d; -tok/-tek/-tök; -a/-e, -ja/-je, Ø; -uk/-ük, -juk/-jük, -k -é -éi asztalom, asztalaim asztalunk, asztalaink asztalé(t), asztaloké(t), asztalomé(t), asztalaimé(t)

2. Igék (Verb) V Pozíció Attribútum Lehetséges értékek 1 Típus fő (main) segéd (auxiliary) ható (modal) gyakorító (frequentative) műveltető (causative) gyakorító+ható műveltető+ható műveltető+gyakorító műveltető+gyakorító+ható 2 Mód/forma kijelentő (indicative) felszólító (imperative) feltételes (conditional) főnévi igenév (infinitive) 3 Idő jelen (present) múlt (past) 4 Személy első második harmadik Kód m a o f s 1 2 3 4 i m c 5 Szám egyes (singular) többes (plural) s p 6 Nem - - 7 Igenem - - 8 Tagadó - - 9 Határozottság (alanyi/ tárgyas ragozás) nem (no) igen (yes) n y -lak/-lekes ragozás n p s 1 2 3 2 Toldalékok (jelek, ragok, képzők) -hat -gat -(t)at -gathat -(t)athat -(t)atgat -(t)atgathat Ø -j, -jj, -gy, -ggy,-s -(n)na/-(n)ne, -ana/-ene; -(n)ná/-(n)né, -aná/-ené -ni Ø -t/-tt/-ott/-ett/-ött -ok/-ek/-ök, -om/-em/-öm -ak/-ek, -am/-em -k; -m -m -am/-em -(u)nk/-(ü)nk -sz, -asz/-esz, -ol/-el/-öl -ál/-él, Ø; -l -d -ál/-él -(o)tok/-(e)tek/-(ö)tök -atok/-etek Ø, -ik -on/-en/-ön, -ék Ø, -k -a/-e Ø -(a)nak/-(e)nek -uk/-ük -ak/-ek l. fentebb (4), kivéve a főnévi igenév ragozását a tárgyas személyragos igealakhoz a valamit névmás helyett az azt névmást tehetjük hozzá mindhárom módban, mindkét időben egyes szám 1. személyű igealakok Példa fogok (menni) mehetek pofozgat etet boncolgathat fektethet etetget futtatgathat várok, eszem várjak, egyem várnék, enném várnom vártam (volna) várunk, várjunk, várnánk, várnunk, vártunk (volna) vársz, eszel várj(ál); várnál várnod vártál (volna) vártok, várnátok, várnotok várjatok, vártatok (volna) vár, eszik várjon, egyék várna, ennék várnia várt (volna) várnak, várjanak, várnának várniuk vártak (volna) várlak stb. 10 Klitikum y -e jött-e

Elemzendő szavak Faxolásaitoknak Elhozathattátok Áthatolhatatlanba Ingatlanügynökséghez Futtatgathattad

Morfológiai elemzés Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését (szófaj és egyéb morfológiai jegyek) és a hozzájuk tartozó szótöveket (lemmák) magyar vs. angol Szótári alapalakok Lehetséges szóalakok száma Lehetséges elemzések (kódok) száma (angol 36 vs. magyar ~1000) Eltárolható-e minden szóalak?

Morfológiai elemző Lexikon: szótövek és toldalékok Szabályok: a szóalakok felszíni reprezentációja és a nyelvi elemek szótári reprezentációja hogyan függ össze Csak zárt szóosztályokra működik jól (névmások, kötőszavak ) ezek kimerítően felsorolhatók a szótárban

Lemmatizálás Szótövesítés: a morfológiai elemző feladata a szóalakot tőre (lemmára) és toldalékokra bontja Képzés? Abszolút és relatív szótő: faxolásaitoknak (fax vs. faxolás) Mikor melyiket érdemes használni? szolgáltatások szolgáltatás szolgáltat szolga

Ismeretlen szavak elemzése A szókincs állandó bővülése miatt nincs benne minden szó a szótárban Lehetséges toldalékok listájára lehet csak hagyatkozni Tartalmaz-e a szóalak jobb oldala lehetséges toldaléktömböket? Ha igen, levágjuk, és a maradékot kezeljük szótőként Az affixumok alapján kap morfológiai elemzést Előállítható-e két szótárban meglevő lemmából? (egérpad)

Ismeretlen szavak Lehetnek: összetételek Névelemek / tulajdonnevek képzések fémkapunk félmillió csokinyúl NATO-hoz Elemzési módszerek(zsibrita et al. 2010): Két vagy több elemezhető részre vágjuk szét Szabályok a nem lehetséges kombinációk kiszűrésére (*V+N) Az utolsó elem elemzése lesz az egész szóé Kötőjeles szavaknál behelyettesítés

félmillió fél N half ADJ half NUM half V be afraid fél+millió NUM millió NUM million szabályok: NUM + NUM * non-num + NUM

fémkapunk fém N metal kap V get punk N punk kapu N gate unk S 1Pl (verb) nk S 1PlPoss (noun) fém+kap+unk VERB fém+kapu+nk NOUN szabályok: N + N N-nonNOM + V * N-NOM + V

csokinyúl csoki N chocolate nyúl N rabbit V stretch kinyúl V stretch out szabályok: N + N N-nonNOM + V * N-NOM + V csoki+nyúl VERB NOUN cso+kinyúl (?) VERB

NATO-hoz NATO? NATO hoz V bring S to szabályok: N + - + S N-nonNOM + - + V * N-NOM + - + V V + - + V helyettesítés: NATO- -> kalap hat NATO-hoz NATO: V VERB NATO-hoz (kalaphoz) NATO: N NOUN Szabályok rendezése: 1. helyettesítés 2. szegmentálás