Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

Hasonló dokumentumok
Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

Események detektálása természetes nyelvű szövegekben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

MELLÉKLET. a Bizottság végrehajtási rendeletéhez (EU)

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Bevezetés az e-magyar programcsomag használatába

Az igekötők gépi annotálásának problémái Kalivoda Ágnes


1. hét. Neptun kód. Összesen. Név

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

2 kultúra. Zétényi Tamás.

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Hunglish Korpusz és szótár

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Gépi tanulás a gyakorlatban. Bevezetés

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

PROJEKTMENEDZSMENT TEMATIKA, KÖVETELMÉNYEK

A HUNGLISH PÁRHUZAMOS KORPUSZ

Prolan Zrt. fejlesztéseiben. Petri Dániel

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Java Programozó képzés A&K AKADÉMIA 2019.

Útmutató az asc-ben készített órarend importálásához

TestLine - Angol teszt Minta feladatsor

Adatvédelmi és adatfeldolgozási megállapodás

***I JELENTÉSTERVEZET

Szoftver-technológia II. Szoftver újrafelhasználás. (Software reuse) Irodalom

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

Többnyelvű, határokon átnyúló hozzáférhetőség a felszín alatti vizek adatbázisaihoz

Igekötős szerkezetek a magyarban

Digitális eszközök típusai

A tanulmányok alatti vizsga vizsgaszabályzata. A vizsgaszabályzat célja, hatálya. Az értékelés rendje

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

TLP Series HIGIÉNIAI FOLYAMATOS TÉRFOGATVÁLTOZÁSOS SZIVATTYÚ

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás Döntési fák [Concepts Chapter 11]

Környezeti informatika

Bevezetés a Python programozási nyelvbe

A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található. A CD-melléklet használata. 1. Elméleti áttekintés 1

Informatika tanterv nyelvi előkészítő osztály heti 2 óra

Intelligens közlekedési rendszerek (ITS)

Melléklet a pályázati adatlap 2. pontjához

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

A kivitelezés geodéziai munkái II. Magasépítés

Műszaki dokumentációkezelés az ELO-ban Ajkai Elektronikai Kft. esettanulmánya

Szoftver újrafelhasználás

TELE-OPERATOR UTS v.14 Field IPTV műszer. Adatlap

MIKOVINY SÁMUEL TÉRINFORMATIKAI EMLÉKVERSENY

Intelligens Rendszerek I. Tudásábrázolás szemantikus hálókkal, keretekkel és forgatókönyvvel

Új funkciók az RBP-ben október 1-től New functions in RBP from 1 October Tatár Balázs

FATERMÉSI FOK MEGHATÁROZÁSA AZ EGÉSZÁLLOMÁNY ÁTLAGNÖVEDÉKE ALAPJÁN

2. Tavasz Kupa. Uszonyos és Búvárúszó Verseny Kiírása

Telephelyi jelentés. Tanulási környezet

Projekt beszámoló. NEWSIT News basedearlywarning System forintradaytrading: Hír alapú Korai Figyelmeztető Rendszer Napon belüli Kereskedéshez

Ahol a kvantum mechanika és az Internet találkozik

Intelligens elektronikus szótár és lexikai adatbázis

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Tantárgy adatlap Operációkutatás

Az alállomási kezelést támogató szakértői funkciók

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

Nagytömegű adatok (gyors) kartografálása. Rostás Sándor százados. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.

1. Szolgáltatásaink. Adatok feltöltése és elemzése. Digitális feltöltés. Analóg korong feltöltés

Junior Java Képzés. Tematika

Órarendkészítő szoftver

Dinamikus routing - alapismeretek -

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

A 2016/2017. tanév II. félévében a bevezetést megelőző hosszabb előkészítő folyamatnak az utolsó teszt időszaka zajlik.

Szoftver-mérés. Szoftver metrikák. Szoftver mérés

II. Idegen nyelvek m veltségi terület. 1. Angol nyelv és kultúra tanára (általános iskolai)

IT Factory. Kiss László

KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK

A magyar létige problémái a számítógépes nyelvi elemzésben

Angol-Amerikai Intézet 3 tanszékbıl áll

On-line tesztkészítő és teszt program

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

PÁRHUZAMOS IGEI SZERKEZETEK

Nyelv-ész-gép Új technológiák az információs társadalomban

TANTÁRGYI TEMATIKA ÉS FÉLÉVI KÖVETELMÉNYRENDSZER. Szemináriumi témák

Beszédtechnológia a médiában. Tibor Fegyó SpeechTex Kft.

Teljes Életút Bázis Adatok

Az ÚJ Leica DISTO X-range

Multimédiás adatbázisok

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

FIT-jelentés :: Telephelyi jelentés. Tanulási környezet

Gyakorlati vizsgatevékenység B

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Longman Exams Dictionary egynyelvű angol szótár nyelvvizsgára készülőknek

A Diagnosztikus mérések fejlesztése c. program átfogó bemutatása

Hidrosztatikus körfolyamatok tervezése

HecPoll a vezérlő rendszer

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

MAGYAR NYELV a 8. évfolyamosok számára. MNy1 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

A HuComTech adatbázis

A TÁMOP projektek eredményeinek megjelenése a köznevelési programokban (érettségi, mérési rendszer) TÁMOP (3.1.8.) Pongrácz László Oktatási Hivatal

Adatvédelmi tájékoztató

A TANTÁRGY ADATLAPJA

A vízföldtani adatokat nyilvántartó szervezetek kapcsolatai és az adatok nyilvántartási módja az ewater projekt résztvevő országaiban

Átírás:

Korpuszok létrehozása Korpuszok a nyelvészeti kutatásban 2014. szeptember 22.

Alapfogalmak Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis szöveggyűjtemény Annotáció: a szövegek nyelvi információval történő kézi jelölése (és kézi ellenőrzése) Gold standard (etalon) vs. silver standard: kézi vagy gépi jelölés

Egynyelvű Korpusztípusok Többnyelvű párhuzamos korpusz: ugyanazok az adatok egynél több nyelven Beszédkorpusz: hanganyagok Írott nyelvi korpusz: szövegek

Korpuszépítés Mi a cél? Milyen szövegek kerüljenek bele? Tematika (jog, irodalom ) Nyelvi regiszterek (hivatalos, köznyelv, internetes nyelvhasználat ) Homogén/heterogén Milyen egyéb (meta)adatok? (idő, szerző ) Méret Nyelv Hozzáférhetőség (szerzői jogok, anonimizálás)

Annotáció Szöveg/dokumentum szintje Levél spam/nem spam Mondat szintje Bizonytalan/tényszerű információt tartalmaze? Szó/frázis szintje Morfológiai elemzés Tulajdonnevek Annotáció nélkül Szógyakoriság Együtt előfordulás

Az annotáció típusa kézi félig automatikus: gépi úton bejelölt annotáció kézi javítása automatikus egyszeres: egy szövegen egy annotátor megy végig olcsóbb gyorsabb többszörös: egyazon szövegen több annotátor is teljes egészében végigmegy, egymástól függetlenül időigényesebb drágább egyetértési arány mérése

Egyetértési arány az annotátorok mennyire értettek egyet (=mennyire jelöltek ugyanúgy) adott metrika szerint Pontosság (accuracy) F-mérték (pontosság precision, fedés recall) Kappa az annotátorok által egyformán jelölt esetek arányát a gépi alkalmazások által elérhető felső határnak szokták tekinteni a feladat nehézségi fokának jelzése feladatfüggő!

Az annotáció formái Egy fájlban a szöveg és a jelölés (általában XML) Külön fájlban a szöveg és a jelölés (standoff/standalone) Előnyök/hátrányok: Eredeti szöveg visszanyerése Új szövegek hozzáadása Szövegek törlése

<s id="nepszava.24.2.1">rövidtávú féléves kilátásaikat illetően a cégek egész évben októberben voltak a legoptimistábbak. <choice> <sic> <w>rövidtávú <ana> <humor><lemma>rövidtávú</lemma><mscat>[x]</mscat></humor> <msd><lemma>rövidtávú</lemma><mscat>[x]</mscat></msd> </ana> <anav> <humor><lemma>rövidtávú</lemma><mscat>[x]</mscat></humor> <msd><lemma>rövidtávú</lemma><mscat>[x]</mscat></msd> </anav> </w> </sic> <corr> <w>rövid <ana> <humor><lemma>rövid</lemma><mscat>[afp-sn]</mscat></humor> <msd><lemma>rövid</lemma><mscat>[afp-sn]</mscat></msd> </ana> <anav> <humor><lemma>rövid</lemma><mscat>[afp-sn]</mscat></humor> <msd><lemma>rövid</lemma><mscat>[afp-sn]</mscat></msd> </anav> <anav> <humor><lemma>rövid</lemma><mscat>[nc-sn]</mscat></humor> <msd><lemma>rövid</lemma><mscat>[nc-sn]</mscat></msd> </anav> </w> <w>távú <ana> <humor><lemma>távú</lemma><mscat>[afp-sn]</mscat></humor> <msd><lemma>távú</lemma><mscat>[afp-sn]</mscat></msd> </ana> <anav> <humor><lemma>távú</lemma><mscat>[afp-sn]</mscat></humor> <msd><lemma>távú</lemma><mscat>[afp-sn]</mscat></msd> </anav> </w> </corr> </choice>

1 ROOT _ ROOT ELL ELL 0 0 2 Japánban Japán Japán N N SubPOS=p Num=s Cas=2 NumP=none PerP=none NumPd=none SubPOS=p Num=s Cas=2 NumP=none PerP=none NumPd=none OBL 1 1 OBL 3,, PUNCT, PUNCT,, 1 1 4 ahol ahol ahol R SubPOS=r Deg=none Num=none Per=none R 9 SubPOS=r Deg=none Num=none Per=none 9 TLOCY TLOCY 5 1960-ban 1960 1960 M M SubPOS=c Num=s Cas=2 Form=d NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=2 Form=d NumP=none PerP=none NumPd=none OBL 9 9 OBL 6 közel közel közel R SubPOS=x Deg=none Num=none Per=none R 7 SubPOS=x Deg=none Num=none Per=none 7 MODE MODE 7 félmillió félmillió félmillió M M SubPOS=c Num=s Cas=n Form=l NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=n Form=l NumP=none PerP=none NumPd=none ATT 8 8 ATT 8 válást válás válás N N SubPOS=c Num=s Cas=a NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=a NumP=none PerP=none NumPd=none OBJ 9 9 OBJ 9 mondtak mond mond V V SubPOS=m Mood=i Tense=s Per=3 Num=p Def=n SubPOS=m Mood=i Tense=s Per=3 Num=p Def=n 1 1 ATT ATT 10 ki ki ki R R SubPOS=p Deg=none Num=none Per=none 9 SubPOS=p Deg=none Num=none Per=none 9 PREVERB PREVERB 11,, PUNCT, PUNCT,, 9 9 12 1990-ben 1990 1990 M M SubPOS=c Num=s Cas=2 Form=d NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=2 Form=d NumP=none PerP=none NumPd=none OBL 1 1 OBL 13 már már már R SubPOS=x Deg=none Num=none Per=none R 15 SubPOS=x Deg=none Num=none Per=none 15 MODE MODE 14 2,6 2,6 2,6 M M SubPOS=f Num=s Cas=n Form=d NumP=none PerP=none NumPd=none SubPOS=f Num=s Cas=n Form=d NumP=none PerP=none NumPd=none NUM 15 15 NUM 15 milliót millió millió M M SubPOS=c Num=s Cas=a Form=l NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=a Form=l NumP=none PerP=none NumPd=none OBJ 1 1 OBJ 16.. PUNCT. PUNCT.. 0 0

Shadow_Riders.txt The Shadow Riders, known as the in the original Japanese language version, are a fictional group of villains in the Yu-Gi-Oh! GX anime series, appearing between episodes 29-49. Composed of seven duelists and their leader of varying origins and backgrounds who each have their own agendas, the Shadow Riders serve as the main antagonists of the series' first season, intent on resurrecting the Sacred Beasts. However, one of them returns in the fourth and final season as the true mastermind behind the mysterious attacks that take place in Duel Academy and Domino City. Shadow_Riders.txt.annotation NE_ORG 4 17 NE_MISC 48 56 NE_MISC 116 128 MWE_COMPOUND_NOUN 129 141 SENT_BOUND 170 175 NE_ORG 294 307 NE_MISC 394 407 NE_MISC_SB 401 407 MWE_LVC 527 537 MWE_LVC_VERB 527 531 MWE_LVC_NOUN 532 537 NE_LOC 541 553 NE_LOC 558 569 NE_LOC_SB 565 569 NE_ORG 576 589 NE_PER 626 638 NE_PER_SB 634 638 NE_PER 691 702 SENT_BOUND 794 803 MWE_COMPOUND_NOUN 814 825 MWE_COMPOUND_NOUN 855 872 NE_MISC 873 897 SENT_BOUND 994 1002

Annotációs eszköz előnyei Grafikus kezelői felület Ember számára értelmezhetőbb Átláthatóbb Kisebb a hibázási arány

A korpuszépítés folyamata 1. Szövegek gyűjtése, gépi előkészítése 2. Kézi annotálás kettős jelölés egyetértés aránya egyszeres jelölés 3. Az eltérések feloldása, ellenőrzés a kétféle annotáció közti eltérések egyértelműsítése 4. Záró munkálatok a korpusz végső formába hozása, formai hibák javítása, a korpusz publikálása

Kézi annotálás Nyelvi háttér kidolgozása Útmutató készítése Próbaannotáció végzése (többszörösen / több emberrel) Jellemző hibák feltérképezése, javítása Útmutató javítása Indulhat az annotáció

A korpuszok felhasználhatósága Referencia Viszonyítási pont (Gépi tanuló) algoritmusok tanítása Algoritmusok tesztelése Nyelvészeti adatok gyűjtése