A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

Hasonló dokumentumok
A HUNGLISH PÁRHUZAMOS KORPUSZ

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A Mazsola KORPUSZLEKÉRDEZŐ

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Magyar nyelvű történeti korpuszok

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Lexikon és nyelvtechnológia Földesi András /

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Igekötős szerkezetek a magyarban

Számítógépes nyelvészet

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

MAGYAR NYELV ÉS IRODALOM

PurePos: hatékony morfológiai egyértelműsítő modul

A magyar létige problémái a számítógépes nyelvi elemzésben

A Hunglish Korpusz és szótár

/Gyula Szent István út 38./ Szakiskolát végzettek szakközépiskolai érettségire történő felkészítésének helyi tanterve

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Nyelvtechnológia - nyelvészeknek

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

Szakiskolát végzettek érettségire történő felkészítése. 14. számú melléklet. (Nappali képzés) Hatályos: év április hó 01.

HunLearner: a magyar nyelv nyelvtanulói korpusza

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

ALAKTAN ELŐADÁS 1-2. Alaktan, morfológia tárgya. Morfológia és mondattan viszonya. Morfológia univerzalitása. A szó fogalma I. Alaktan belső ügyei

Ahhoz, hogy mondatok halmazát érthetô egésszé, szöveggé rakd

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Nehogy a nyúl visz a puska! Mondat ez? Bizonyára te is látod,

0. előadás Motiváció

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

Különírás-egybeírás automatikusan

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

Klasszikus héber nyelv 4.: Szintaxis

A kibővített Magyar történeti szövegtár új keresőfelülete

Kerettantervi ajánlás a helyi tanterv készítéséhez az EMMI kerettanterv 51/2012. (XII. 21.) EMMI rendelet 2. sz. melléklet

Magyar nyelvtan tanmenet 4. osztály

1. MI A KORPUSZNYELVÉSZET?

LiLe projekt: Adatbázis mint dinamikus korpusz

NN: Német nemzetiségi tagozat Tantárgyak és óraszámok Tantárgy 9. évfolyam. 10. évfolyam. 11. évfolyam Kötelező tantárgyak Magyar nyelv és irodalom 2

Számítógépes alkalmazásai

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

A szógyakoriság és helyesírás-ellenőrzés

A számítógépes nyelvészet elmélete és gyakorlata. A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek

MAGYAR NYELV 5 8. Javasolt óraszámbeosztás

a Szeged FC Treebankben

MAGYAR NYELV ÉS IRODALOM évfolyam

Zsemlyei János A MAI MAGYAR NYELV SZÓKÉSZLETE ÉS SZÓTÁRAI

Korpuszlekérdezők evolúciója

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Nyelvészet. I. Témakör: Leíró nyelvtan

Magyar nyelvű néprajzi keresőrendszer

NYEK REÁL JELLEG, KÉT TANÍTÁSI NYELVŰ OSZTÁLY

MAGYAR NYELV ÉS IRODALOM 9 12.

Reguláris kifejezések 1.

HELYI TANTERV. Nyelvtan

PEDAGÓGIAI PROGRAM ÉS HELYI TANTERV MÓDOSÍTÁSA

Értékelőlap a Kiváló magyar szótár versenyhez

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

A HÁZIREND MELLÉKLETE AZ OSZTÁLYOZÓVIZSGA TANTÁRGYI KÖVETELMÉNYEI

II. Idegen nyelvek m veltségi terület. 1. Angol nyelv és kultúra tanára (általános iskolai)

0. előadás Motiváció. Dr. Kallós Gábor

MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Mondatkiegészítés adott. Az írásmódtól eltérô. Mondatalkotás. pótlása. Hosszú mássalhangzós. Másolás. Mondatvégi írásjelek

Helyi tanterv. Szakiskolát végzettek középiskolája. Közismeret

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven

MAGYAR NYELV ÉS IRODALOM

Az URaLUID adatbázis bemutatása

MAGYAR NYELV ÉS IRODALOM

P. Lakatos Ilona T. Károlyi Margit Iglai Edit, Változó nyelvhasználat a hármas határ mentén

SZEMLE. Szemle 89. Cambridge University Press, Cambridge, lap

Javában taggelünk.

Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ

Tanulmányok a középmagyar kor mondattana köréből

Az Ómagyar Korpusz bemutatása

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

A HunOr magyar-orosz párhuzamos korpusz

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

HELYI TANTERV. Magyar Nyelv

2

A MAGYAR. kézikönyve. Szerkesztette KIEFER FERENC. A szerkesztő munkatársa SIPTÁR PÉTER AKADÉMIAI KIADÓ, BUDAPEST

Dr`avni izpitni center MAGYAR NYELV ÉS IRODALOM. 1. feladatlap. Nem művészi szöveg elemzése. Kedd, február 01. / 60 perc

10 A KERESNYELVEK KUTATÁSA, FEJLESZTÉSE, ALKALMAZÁSA- HELYZETKÉP ÉS TRENDEK. Összeáll. dr. Pálvölgyi Mihály. BDF KIT, tanév, 1.

Önálló labor feladatkiírásaim tavasz

Átírás:

A számítógépes nyelvészet elmélete és gyakorlata Korpuszok

Mi a korpusz? A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). (forrás: http://corpus.nytud.hu/mnsz/) Emellett a szavakat és más kifejezéseket osztályozó címkével látják el, valamint konkordancia programok segítségével elemezhetik.

Mik a jellemzői? - reprezentatív - elektromos formában tárolt - nyelvészeti célú

Korpusz tervezése 1. reprezentativitás - nem szövegek véletlen halmaza - tervezett gyűjtemény a célnak alárendelve - kiegyensúlyozott (well-balanced) - összefügg a méret és a mintavétel kérdésével

Korpusz tervezése 2. mintavétel - a célnak van alárendelve - példa: Magyar Nemzeti Szövegtár: http://corpus.nytud.hu/mnsz/ célja: egy 100 millió szavas szövegkorpusz létrehozása, amely lehetőségeihez mérten reprezentatívan tartalmazza a mai magyar nyelv jellegzetes megnyilvánulásait

Példa: MNSZ

Korpusz tervezése - egyre több az egyéni kutató, akik inkább speciális korpuszokat készítenek saját kutatási céljaikhoz - ezek a korpuszok egy meghatározott szövegtípust tartalmaznak vagy egy meghatározott területhez kapcsolódnak, és a kutató gyakran bizonyos egyértelműen meghatározott problémának a vizsgálatához készíti a korpuszt. - ezek lehetnek nyelvtani, lexikai, stilisztikai vagy diskurzus (szövegtani) elemzési problémák bizonyos szövegtípusokon belül, vagy nyelvi tankönyvek szövegei. - természetesen az ilyen korpusz szövegei csupán az adott területre nézve reprezentatívak, nem pedig az egész nyelvre.

Korpusz tervezése 3. méret - általában a benne szereplő szavak számával adják meg - Az MNSZ jelenleg 187,6 millió szövegszót tartalmaz. - Brown Corpus első elektronikus korpusz, 1 millió szövegszó - szövegszó token és szóalak type

Korpusz tervezése Probléma: - sok a hapax legomenon csak egyszer előforduló szavak - van-e értelme egyszeri előfordulásokkal foglalkozni? - paradoxon: ha növeljük a korpusz méretét, gyarapodnak a hapaxok is - John Sinclair: a korpusznak a lehető legnagyobbnak kell lennie 10 példa szegényes minta; legalább 50-re van szükség, hogy egy szó jelentéseit körvonalazhassuk, és 150-re van szükség ahhoz, hogy megbízhatóan számoljunk be róluk (1993: 7) (fordította: Szirmai Monika)

Korpusz tervezése A szóalakok és a hapaxok növekedése (Anke Lüdeling Meyra Kitö: Corpus Linguistics: An International Handbook: 849)

Korpusz tervezése példák hapax legomenonra: - a héber Bibliában Lilith, akinek neve egyetlen egyszer, Ézsaiás könyvében fordul elő - Shakespeare: Lóvátett lovagok, honorificabilitudinitatibus jelentése: valaki abban az állapotban van, amikor képes érdemeket elérni. - Ady Endre: Intés az őrzőkhöz, dísz-kócos

A korpuszok fajtái A mintavétel módja szerint: - statikus korpusz (pl. Brown) - dinamikus korpusz (pl. Cobuild) - monitor korpusz: az előző két mód kombinációja

A korpuszok fajtái A korpusz felhasználásának módja szerint: - általános korpusz (pl. MNSZ) - speciális korpusz (pl. CANCODE) - párhuzamos korpusz - történeti korpusz (pl. Magyar Történeti Korpusz, ICAME) - stb.

A korpuszok fajtái A feldolgozott anyag alapján: - írott nyelvi (pl. Magyar Történeti Korpusz) www.nytud.hu/hhc/ - beszélt nyelvi (pl. BUSZI) www.nytud.hu/buszi/

A korpuszok használata: pro és kontra (Váradi Tamás) előnyök: - tényleges nyelvhasználat - objektív adatok - nagy mennyiségű adat hátrányok: - a mintavétel módja - potenciális alakok hiánya - performancia megjelenítése hibák A korpusz a nyelvhasználat lenyomata.

Annotáció - korpuszannotáció: minden olyan információ és jel, amelyet az eredeti szöveg nem tartalmazott, a nyelvi elemzés helye - a szöveg kiegészítése morfológiai, szintaktikai, szemantikai vagy diskurzusbeli információkkal - lehet kézi, automatikus vagy ezek keveréke - lehet inline vagy stand-off - miért szükséges?

Annotáció Típusai: - morfológiai elemzés: a szótő és a toldalékok viszonya az elemzés tárgya (pl. a szavak szófajának megállapítása és a végződések kategorizálása): szótövesítés, szövegszók alapalakjának helyreállítása (lemmatizálás), szófaji címkézés (part of speech tagging) - mondattani kapcsolatokat azonosító elemzés (parsing): a feladat a szöveg különböző szintű elemeinek rendszerezése, az elemek közötti függőségek megállapítása. A mondatok szintjén a szavak szerveződését vizsgáljuk (pl. mi minek a jelzője, birtokosa, tárgya, stb.). - treebank (pl. Szeged Treebank, Hungram, Penn TreeBank)

Annotáció - szemantikai (pl. névelemek, tematikus szerepek felismerése, koreferencia annotálása) - pragmatikai (pl. turn-taking)

Annotáció 1. Mondat szegmentálás - mondatvége jelek:.!? - nemcsak ezek, hanem: - ; - sőt: Jóska (kiabálva): Ne tedd! Pista: ÁÁÁÁÁÁÁ - a mondatvége jelek állhatnak más szerepben is: Kovács és Társa kft. aláírta tegnap - mondatvége jel és utána nagy betű: az esetek 97%-a

Annotáció 2. Szó szegmentálás - space - egy szónak minősül-e: ERSTE Bank Zrt. - neeeeeeeeee mar sracok, hol a link??? leakarom tolteniiiiii :-/»

Morfológiai elemzés - célja: szófaj-meghatározás (statisztikai módszerek), alaktani szerkezet (szabályalapú módszerek) - nem független részfeladatok!!! - szóalakok listáját lehetetlen megadni - az elemzés forrása: szótár A szótár tartalmazza a szótövek listáját, szófaji címkéikkel, morfofonológiai kategóriáikkal és alternatív töveikkel együtt. bokor, eszik

Morfológiai elemzés szükséges még szabályrendszer, morfológiai nyelvtan: - a toldalékok típusai (igekötő, képző, rag) - a toldalékok morfológiai jegyeinek szerveződése (ige: múlt idő, főnév: többes szám, stb.) - a morfofonológiai kategóriákra vonatkozó szabályok pl. sziszegő végű ige: olvas, olvasol - morfotaktikai szabályok: kenyer-em-et, *kenyér-etem; szelet-em,*szél-et-em

További példák - szótő azonosítása: egyél, nevess - szófaj meghatározása: homonímia (fő, nevet, termet, eszem) - alaktani problémák, lehetséges szerkezetek Torgyán, kacsónak (kacsó+nak *(kacsóna+k, kacsón+ak, kacs+ó+nak, ka+csónak)

Morfológiai elemzés A morfológiai elemző előállítja az egyes szavak összes lehetséges elemzését. Ezután az egész mondatot figyelembe véve kiválasztjuk a lehetséges elemzések közül a megfelelőt.

A nyelvtechnológia módszerei két fő cél: - a lefedettség maximalizálása (minél több nyelvi elemet tudjunk azonosítani, illetve kódolni) - a pontosság maximálizálása (az azonosítás vagy a kódolás hibamentes legyen). Más szóval minél több TALÁLATOT és minél kevesebb TÉVEDÉST akarunk elérni.

A nyelvtechnológia módszerei 1. Szabályalapú: előzetes hipotézis a szövegben előforduló lehetséges szerkezetekről A nyelvtudás explicit kódolása Általában a kutató által konstruált grammatikai szabályokból áll Egyszerűen tesztelhető, a hibákat könnyű megtalálni Meglehetős emberi erőfeszítést igényel A prototipikus példák nagy hangsúlyt kapnak Gyakran nem elég jó a lefedettség

A nyelvtechnológia módszerei 2. Példaalapú statisztikai: a szövegben felismert szabályszerűségek számítanak A nyelvtudás implicit kódolása Statisztikai módszereken vagy gépi tanulási módokon alapul Kevesebb emberi erőfeszítést igényel Adat-vezérelt, emiatt nagy adatbázisokra van szükség A lefedettség egyenes arányosságban áll az adatbázis gazdagságával

A nyelvtechnológia módszerei A szabályalapú és statisztikai megközelítésű rendszerek aránya 1990-ben és 2003- ban (Forrás: Simon Eszter)

Jelenlegi helyzet tokenizálás és mondatra bontás: 98% (megegyezik az emberi teljesítménnyel) morfológiai egyértelműsítes: 98,24% tulajdonnév-felismerés: 95,48% főnévi csoportok felismerése: 94,75% metaforikus kifejezések detektálása: 43,34%

Szintaktikai elemzés

Alkalmazási területek - történeti nyelvészet - lexikográfia - pszicholingviszika (gyereknyelv, nyelvelsajátítás - CHILDES) - szociolingvisztika (nyelvváltozatok - BUSZI) - nyelvtanítás - NLP, gépi fordítás

Történeti korpuszok The Penn Corpora of Historical English http://www.ling.upenn.edu/histcorpora/ Lancaster Newsbooks Corpus http://www.lancs.ac.uk/fass/projects/newsbooks/ Tycho Brahe Parsed Corpus of Historical Portuguese http://www.tycho.iel.unicamp.br/~tycho/en/index.html Icelandic Parsed Historical Corpus http://www.linguist.is/index.php Old Hungarian Corpus http://corpus.nytud.hu/rmk/

Lexikográfia Magyar Nyelv Történeti Nagyszótára (a Történeti Korpusz segítségével (23 millió szövegszó, 1772 és 2000 közötti irodalmi,tudományos és publicisztikai művek): http://www.nytud.hu/hhc Értelmező Kéziszótár: http://corpus.nytud.hu/inlex Magyar Ragozási Szótár, paradigmatáblák: http://corpus.nytud.hu/e-szokincs

SzegedParalell További példák - HunMorph: magyar és angol nyelvű morfológiai elemző Szószablya: http://szotar.mokk.bme.hu/szoszablya/searchq.php Szószablya ~ 600 millió szó - Szeged TreeBank 1,2 millió szó, szófajilag és szintaktikailag jelölt részei: Szépirodalom, Fogalmazások, Újságcikkek, Számítástechnikai szövegek, Jogi szövegek - Tulajdonnév korpusz: SzegedNE korpusz - Párhuzamos korpuszok: Hunglish: http://szotar.mokk.bme.hu/hunglish/search/corpus

Ráadás a web mint korpusz hátrányok: - teljesen bizonytalan eredetű (akár nem anyanyelvi) szövegek - mérete: csak becsülhető előnyök: - hatalmas mennyiségű szöveg - egyre nő - a beszélők széles körét reprezentálja

Ráadás a web mint korpusz Lehetséges használat (Váradi Tamás nyomán): google keresés: a sportszer szó lehetséges angol megfeleléseinek gyakorisága - sports gear: 1.220.000 - sporting gear: 179.000 - sports equipment: 1.480.000 - sporting equipment: 1.070.000 - sports geer: 73 - sporting geer: 2

Ajánlott irodalom: Babarczy Anna: Számítógépes nyelvészet. In: Kovács & Szamarasz (szerk.): Látás, nyelv, emlékezet. Budapest, Typotex, 2006 Prószéky Olaszy Váradi: Nyelvtechnológia In: Kiefer (szerk.): Magyar nyelv. Budapest, Akadémia Kiadó, 2006 Szirmai Monika: Bevezetés a korpusznyelvészetbe. Budapest: Tinta Könyvkiadó, 2005.