A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Hasonló dokumentumok
HunGram 2.0 és a HG-2 Treebank Nyelvtanfejlesztés, implementáció és korpuszépítés

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Zárójelentés a K számú OTKA-projektről

SZAKMAI ÖNÉLETRAJZ. megnevezés évszám kibocsátó intézmény Informatika - angol nyelv és irodalom 2009 Debreceni Egyetem

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

Milyen a még jobb Humor?

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

KUTATÁSTÁMOGATÁS SOROZAT. Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez

Január 7. hétfő. I. Beszédtechnológia, fonológia

Új Nemzedék Központ. EFOP pályázatok online beszámoló felülete. Felhasználói útmutató

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Adatbázis-kezelés Access XP-vel. Tanmenet

Magyar nyelvű néprajzi keresőrendszer

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Területi elemzések. Budapest, április

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Importálás. más típusú (pl:.imp,.xml,.xkr,.xcz) állomány beimportálása a nyomtatványkitöltő programba

Országos Rendezési Tervkataszter

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

Savaria Egyetemi Könyvtár Katalógusa. Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók

Cikkarchívum fejlesztése

Különírás-egybeírás automatikusan

A Hunglish Korpusz és szótár

Adatintegritás ellenőrzés Felhasználói dokumentáció verzió 2.0 Budapest, 2008.

Ismeretlen kifejezések és a szófaji egyértelm sítés

médiaajánlat Szilveszter.hu

Használati útmutató Az online példatárhoz

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

Útmutató az online katalógus használatához

Felhasználói segédlet a PubMed adatbázis használatához. Publikációk keresése, letöltése valamint importja

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

Táblázatkezelés Excel XP-vel. Tanmenet

MIDRA. A Miskolci Egyetem repozitóriuma. Espán Edina. Miskolci Egyetem Könyvtár, Levéltár, Múzeum. Networkshop 2012, Veszprém

A Zotero hivatkozáskezelő program bemutatása. Mátyás Melinda

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

Igekötős szerkezetek a magyarban

3. modul - Szövegszerkesztés

Forrás és idéző közlemények felvitele importtal

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

médiaajánlat Szilveszter.hu

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Haladó irodai számítógépes képzés tematika

A kibővített Magyar történeti szövegtár új keresőfelülete

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Parlagfű Bejelentő Rendszer

Kaszás Tímea: Corvina OPAC az SZTE Mez gazdasági Könyvtárában

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):

Útmutató a MATARKA adatbázisból való adatátvételhez

NAV nyomtatványok kitöltésének támogatása

Felhasználói leírás a DimNAV Server segédprogramhoz ( )

Technikai információk fejlesztőknek

Intelligens elektronikus szótár és lexikai adatbázis

Nyelvi tudásra épülő fordítómemória

Felhasználói kézikönyv a WEB EDInet rendszer használatához

Ismerkedés az Office 2007 felhasználói felületével

1. A Portlet elérhetősége Jogosultsági szintek Teljes UNIQA aktivitás lekérdezés Ügynökség szintű aktivitás lekérdezés...

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

NightHawk AccessControl

Informatika tagozat osztályozóvizsga követelményei

Felhasználói kézikönyv Közzétételek portál

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Mobilalkalmazás! RÖVID ÁTTEKINTÉS: HOGYAN MŰKÖDIK AZ ALKALMAZÁS? " 2015, QBSW, Inc.

Országos Területrendezési Terv térképi mel ékleteinek WMS szolgáltatással történő elérése, Quantum GIS program alkalmazásával Útmutató 2010.

Elektronikus szolgáltatás igénylés megvalósítása a NIIFI-ben. 2011/11/10 HBONE Workshop. Kiss Zoltán

Anyagleadási paraméterek az utolsó oldalon

Térségi területfelhasználási engedélyek nyilvántartása

Közoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató

ä ä

Helyzet-Tér-Kép. Budapest, április

Vetési Albert Gimnázium, Veszprém. Didaktikai feladatok. INFORMÁCIÓTECHNOLÓGIAI ALAPISMERETEK (10 óra)

Pick Pack Pont kereső és boltválasztó alkalmazás

Tartalomjegyzék 2. RENDSZER FELÉPÍTÉSE... 3

Tanítja: JUHÁSZ ORSOLYA. Vetési Albert Gimnázium, Veszprém. Didaktikai feladatok. INFORMÁCIÓTECHNOLÓGIAI ALAPISMERETEK (13 óra)

Labor leletező program

StartÜzlet online számlázó modul Használati Útmutató

PurePos: hatékony morfológiai egyértelműsítő modul

Digitális írástudás kompetenciák: IT alpismeretek

LEADER. Helyi Fejlesztési Stratégiák. tervezését támogató alkalmazás

INFORMATIKA ÉRETTSÉGI VIZSGAKÖVETELMÉNYEK AZ ÉRETTSÉGI VIZSGA RÉSZLETES TEMATIKÁJA

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

MŰSZAKI DOKUMENTÁCIÓ. Aleph WebOPAC elérhetővé tétele okostelefonon. Eötvös József Főiskola 6500 Baja, Szegedi út 2.

WEBOPAC felhasználói leírás. 1. Keresés az adatbázisban. 2. A találatok megjelenítése

InCites bemutató. Tóth Szász Enikő Solution Specialist

PÁLYÁZATI SZAKMAI BESZÁMOLÓ

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

A szürke háttérrel jelölt fejezet/alfejezet szövege a CD-mellékleten található. A CD-melléklet használata. 1. Elméleti áttekintés 1

Albacomp RI Rendszerintegrációs Kft Székesfehérvár, Mártírok útja 9. E K O P - 1. A. 2 - A D A T Á L L O M Á N Y O K

Javában taggelünk.

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Történet John Little (1970) (Management Science cikk)

Tisztelt Ügyfelünk! Változások a 6-os verzióhoz képest:

Táblázatkezelés Excel XP-vel. Tanmenet

AZ OFI SZEREPE ÉS FELADATAI A PEDAGÓGUSOK SZAKMAI MUNKÁJÁNAK TÁMOGATÁSÁBAN

ECDL Információ és kommunikáció

Példa webáruház kialakítás rendszerdokumentáció

Informatika szóbeli vizsga témakörök

Átírás:

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor

1 Célok, előzmények Mit? (Mi a cél?) 1,5 millió szavas, elemzett mondatokból álló adatbázist létrehozni Miből? a Magyar Webkorpuszból (Kornai et al., 2006) Mivel? XLE-vel, LFG-nyelvtannal (morfológia+lexikon+szintaxis)

2 A korpusz létrehozása Nyers korpusz kiválasztása, majd elemeztetése (XLE) Elemző (XLE) kimenetének Adatbázis összeállítása,

2 A korpusz létrehozása (2) A Magyar Webkorpusz mint forráskorpusz mondatainak elemeztetése szuperszámítógép segítségével (HPC): kötegelt elemeztetés; párhuzamosított elemeztetés a forráskorpusz darabolásával; a 2-nél több elemzéssel rendelkező mondatok eldobása. Nyers korpusz kiválasztása, majd elemeztetése (XLE) Elemző (XLE) kimenetének Adatbázis összeállítása,

2 A korpusz létrehozása (3) Az elemzések összegyűjtése, formátumra vonatkozó kérdések: XLE kimeneti formátuma vizualizált reprezentáció helyett szöveges állomány (Prolog reprezentáció); Nyers korpusz kiválasztása, majd elemeztetése (XLE) Elemző (XLE) kimenetének Adatbázis összeállítása,

2 A korpusz létrehozása (3) Nyers korpusz kiválasztása, majd elemeztetése (XLE) Elemző (XLE) kimenetének Adatbázis összeállítása,

2 A korpusz létrehozása (3) Az elemzések összegyűjtése, formátumra vonatkozó kérdések: XLE kimeneti formátuma vizualizált reprezentáció helyett szöveges állomány (Prolog reprezentáció); minden egyes mondat elemzése(i) egy-egy fájlban. Nyers korpusz kiválasztása, majd elemeztetése (XLE) Elemző (XLE) kimenetének Adatbázis összeállítása,

2 A korpusz létrehozása (4) Az egyes mondatelemzések (mondatonként egy-egy fájl) összefűzése; azonos elemzések kiszűrése; statisztikai információk gyűjtése az elemzésekről (pl. ágrajzok mérete); elemzések XML (TigerXML) adatbázisba rögzítése, (a későbbi vizualizációhoz). Nyers korpusz kiválasztása, majd elemeztetése (XLE) Elemző (XLE) kimenetének Adatbázis összeállítása,

2 A korpusz létrehozása (5) Relációs adatbázis (XML-ből konvertálva) Dinamikus (PHPalapú) rendszer Keresés beállítása űrlap segítségével Nyers korpusz kiválasztása, majd elemeztetése (XLE) Elemző (XLE) kimenetének Adatbázis összeállítása,

3 Az online keresőfelület On-line lekérdezési felület főbb funkciói: lemmára vagy szóra történő keresés, szűrés morfológiai jegyek és a keresett lemmát/szót tartalmazó összetevők beállítása alapján (szűrés beállítása űrlap segítségével), talált elemzések megjelenítése, a találati listából kiválasztott mondatelemzés ágrajzának megjelenítése. http://corpus.hungram.unideb.hu

3 Az online keresőfelület (2) Találati eredmények megjelenítési formája: eredmények számának megjelenítése; az eredménylista oszlopai; találatok rendezési elve; kiemelési szempontok.

3 Az online keresőfelület (3) További keresési/megjelenítési tulajdonságok: begépeléskor a még lehetséges (és a treebankben ténylegesen előforduló) lemmák/szóalakok listájának megjelenítése; talált elemzések vizualizált (ágrajzos) megjelenítése a phpsyntaxtree (v1.10) segítségével.

Bibliográfia Kornai, A., Halácsy, P., Nagy, V., Oravecz, Cs., Trón, V., and Varga, D.: Web-based frequency dictionaries for medium density languages. In: Kilgarriff, A., Baroni, M. (eds.): Proceedings of the 2nd International Workshop on Web as Corpus ACL-06 (2006) 1 9. Laczkó, T., Rákosi, Gy., Tóth, Á. and Csernyi, G.: Nyelvtanfejlesztés, implementálás és korpuszépítés: A HunGram 2.0 és a HG-1 Treebank legfontosabb jellemzői. In: Tanács Attila, Vincze Veronika (szerk.): MSZNY 2013: IX. Magyar Számítógépes Nyelvészeti Konferencia, 85-96. phpsyntaxtree https://code.google.com/p/phpsyntaxtree/ The TIGER-XML treebank encoding format http://www.ims.uni-stuttgart.de/projekte/tiger/tigersearch /doc/html/tigerxml.html XLE Documentation http://www2.parc.com/isl/groups/nltt/xle/doc/xle_toc.html