A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Hasonló dokumentumok
A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

A HUNGLISH PÁRHUZAMOS KORPUSZ

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

A kibővített Magyar történeti szövegtár új keresőfelülete

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Korpuszlekérdezők evolúciója

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

A Mazsola KORPUSZLEKÉRDEZŐ

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Nyelv-ész-gép Új technológiák az információs társadalomban

A Hunglish Korpusz és szótár

Önálló labor feladatkiírásaim tavasz

Intelligens elektronikus szótár és lexikai adatbázis

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Új fejlesztések, együttműködések a Magyar Elektronikus Könyvtárban, 2011-ben

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Különírás-egybeírás automatikusan

E-Kataszteri rendszer ismertető

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

OpenOffice.org mint fejlesztési platform

Mi ez pontosan? Miért készült? Miért nehéz?

Lexikon és nyelvtechnológia Földesi András /

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

A Java EE 5 plattform

Cikkarchívum fejlesztése

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

A DALNET24 projekt aktualitásai

Dspace fejlesztési tapasztalatok, problémák és megoldások

Mesterséges Intelligencia Elektronikus Almanach

Videóportálok a felsőoktatásban

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

E-learning alapú ügyféltámogató rendszer könyvtárak és felsőoktatási intézmények részére

Képi információk hatékony feldolgozása széles társadalmi rétegeket érintő egészségügyi problémákban

Magyar nyelvű történeti korpuszok

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

Multimédiás adatbázisok

Egy szónak is száz a vége

Útmutató a Domus elektronikus pályázati rendszerben történő pályázáshoz.

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

E-Kataszteri rendszer ismertető

Elosztott könyvtári rendszerek megvalósítása a Z39.50 és az OAI protokoll használatával

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

Beszámoló a 13. ECDL (European Conference on Digital Libraries) konferenciáról

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

A magyar létige problémái a számítógépes nyelvi elemzésben

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Forrás és idéző közlemények felvitele importtal

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

AZ INTEGRÁLT NYOMONKÖVETŐ RENDSZER BEMUTATÁSA (TÁMOP B) Kern Zoltán Közoktatási szakértő

*Ezen felületet kell kitölteni saját fiók létrehozásáho z

Sz. Sz. Sz. R. Kiadási jegyzék. Szilágyi Attila. Verzió: 40. Kézirat lezárva:

A HunTéka elektronikus könyvtár modulja

Igei szerkezetek gyakorisági szótára

Igekötős szerkezetek a magyarban

Fülöp Csaba, Kovács László, Micsik András

Egy szónak is száz a vége

Videoportál metaadat szerkezete

NightHawk AccessControl

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

Elektronikus szolgáltatás igénylés megvalósítása a NIIFI-ben. 2011/11/10 HBONE Workshop. Kiss Zoltán

TERC V.I.P. hardverkulcs regisztráció

Angol szótár V


Az audiovizuális művekhez való online hozzáférés megkönnyítése az Európai Unióban: magyar javaslatok. Dr. Rozgonyi Krisztina

Milyen újdonságokra számíthatunk? Az EESZT standardizációstörekvései. dr. Horváth Lajos október 11.

Hiteles elektronikus postafiók Perkapu

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

ÖFFK II. projekt keretében megvalósítandó koordinációs kutatás workshop sorozata. Makó

Felhasználói segédlet a PubMed adatbázis használatához. Publikációk keresése, letöltése valamint importja

Zimbra levelező rendszer

Belföldi Termékosztályozás V

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

iseries Client Access Express - Mielőtt elkezdi

Rostás Sándor szds. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.)

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

BIRDIE. Business Information Reporter and Datalyser. Előadó: Schneidler József

Számítástechnikai kommunikációs lehetőségek a QB-Pharma rendszerrel. Előadó: Bagi Zoltán Quadro Byte Kft. ügyvezető

DATR bevezetése Békés megyében

Taninform KIR kapcsolat

AUT INVENIAM VIAM, AUT FACIAM

ADATROBBANÁS. A helyzet alulról január 21. Pajna Sándor. vezérigazgató

Használati útmutató Az online példatárhoz

Hamisítás, kalózkodás a szellemi tulajdon vizein Budapest, november 20. Magyar Szabadalmi Hivatal

Folyamatok rugalmas irányítása. FourCorm Kft.

Ügyfél- és címadatok feldolgozása Talenddel

Reenger alkalmazás Felhasználói kézikönyv

Átírás:

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály

Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény 2/15

Előzmény Magyar Nemzeti Szövegtár (MNSz) 1998 és 2001 között készült 90-es évek második felének nyelvhasználatából merített reprezentatív minta az első, az akkori gyakorlatban is jelentős méretűnek számító, nyelvileg elemzett, hálózati lekérdező felületen bárki számára szabadon hozzáférhető korpusz 187 millió szó, határon túli nyelvváltozatokkal kibővített anyag több mint 7000 felhasználó, több tucat tanulmány az MNSz adatai alapján 3/15

Motiváció 15 évvel később... nyelvi erőforrásokkal szemben támasztott igények jelentős mértékben változtak adatközpontú módszerek/alkalmazások elterjedése és sikeressége a számítógépes nyelvfeldolgozás területén minél több a nyelvi adat, annál jobbak az eredmények fejlett(ebb) nyelvi elemző eszközök jobb minőségű és részletesebb nyelvi elemzés és annotáció reprezentativitás megőrzése a nyelvhasználat újabb és újabb mintavételezése, a nyelvi változatok széles skálájából... az MNSz mára elavulttá vált. 4/15

Cél Megnövelt... minőség. A korpusz anyagának minden feldolgozási és elemzési lépésében új, korszerű számítógépes nyelvészeti technológia felhasználása. méret. A korpusz anyagának bővítése 1000 millió szóra. lefedettség és reprezentativitás. Újabb mintavétel a mai magyar nyelvhasználatnak a Szövegtárban eddig is szereplő, valamint további változataiból ( social media ). MNSz2: Korszerű nyelvi erőforrás létrehozása, amely színvonalasan szolgálja ki a magyar nyelvi adatokat felhasználó kutatásokat, és az érdeklődő nagyközönséget is. 5/15

Cél Megnövelt... minőség. A korpusz anyagának minden feldolgozási és elemzési lépésében új, korszerű számítógépes nyelvészeti technológia felhasználása. méret. A korpusz anyagának bővítése 1000 millió szóra. lefedettség és reprezentativitás. Újabb mintavétel a mai magyar nyelvhasználatnak a Szövegtárban eddig is szereplő, valamint további változataiból ( social media ). MNSz2: Korszerű nyelvi erőforrás létrehozása, amely színvonalasan szolgálja ki a magyar nyelvi adatokat felhasználó kutatásokat, és az érdeklődő nagyközönséget is. 5/15

Fejlesztés Anyaggyűjtés szerzői jogi kérdések tisztázása elegendő metaadat (interneten elérhető szövegek automatikus letöltése nem feltétlen megfelelő) automatikus feldolgozhatóság pdf, OCR nem használható Előfeldolgozás, szövegnormalizálás szöveges tartalom és alapvető dokumentumszerkezet azonosítása (közel) duplikátumok és idegen nyelvű szövegrészek kiszűrése 6/15

Fejlesztés Elemzés és annotáció részletes morfoszintaktikai elemzés újratervezett automatikus egyértelműsítő architektúrával (morfémákra, összetételekre, szótagszerkezetre vonatkozó információk) szabványos XML formátum, IOB belső reprezentáció 7/15

IOB formátum 8/15

Fejlesztés Elemzés és annotáció részletes morfoszintaktikai elemzés újratervezett automatikus egyértelműsítő architektúrával (morfémákra, összetételekre, szótagszerkezetre vonatkozó információk) szabványos XML formátum, IOB belső reprezentáció Korpuszkezelő robusztus, több milliárd szavas adatbázist kezelni képes gyors válaszidő 9/15

Eredmény MNSz: 187 m. MNSz2 (+MNSz): 1091 m. 10/15

Eredmény MNSz: 187 m. MNSz2 (+MNSz): 1091 m. 10/15

Eredmény Intelligens korpusz összetett menüvezérelt keresés a kódolt információ minden részletére morfo(fono)lógiai jelenségek többszavas kifejezések: kollokációk, igei argumentumok megjelenítési beállítások: szövegkörnyezet, metaadatok megoszlásvizsgálatok, beépített utófeldolgozás (több szintű gyakorisági listák, megelőző eredmények további szűrése és feldolgozása) 11/15

"piros..." 12/15

"piros lámpa" 13/15

Felhasználói felület http://mnsz2.nytud.hu 14/15

15/15 Köszönöm a figyelmet!