SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Hasonló dokumentumok
Intelligens elektronikus szótár és lexikai adatbázis

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A kibővített Magyar történeti szövegtár új keresőfelülete

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Korpuszlekérdezők evolúciója

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Országos Rendezési Tervkataszter

Nyilvántartási Rendszer

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint Bevezetés a nyelvtechnológiába 2. gyakorlat szeptember 20.

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

A Mazsola KORPUSZLEKÉRDEZŐ

Egy szónak is száz a vége

A magyar létige problémái a számítógépes nyelvi elemzésben

Területi elemzések. Budapest, április

A HUNGLISH PÁRHUZAMOS KORPUSZ

Adatbázis rendszerek 7. előadás State of the art

2. modul - Operációs rendszerek

az MTA SZTAKI elearning osztályának adaptív tartalom megoldása Fazekas László Dr. Simonics István Wagner Balázs

Értékelés a BUS programhoz elkészült termékek magyar változatáról Készítette: Animatus Kft. Jókay Tamás január 07.

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

Lexikon és nyelvtechnológia Földesi András /

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

Egy szónak is száz a vége

Kaszás Tímea: Corvina OPAC az SZTE Mez gazdasági Könyvtárában

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

A Hunglish Korpusz és szótár

Forrás és idéző közlemények felvitele importtal

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Fülöp Csaba, Kovács László, Micsik András

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Az Ómagyar Korpusz bemutatása

PurePos: hatékony morfológiai egyértelműsítő modul

KUTATÁSTÁMOGATÁS SOROZAT. Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez

E-Kataszteri rendszer ismertető

Felhasználói leírás a DimNAV Server segédprogramhoz ( )

A DALNET24 projekt aktualitásai

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Igekötős szerkezetek a magyarban

Alkalmazások architektúrája

Gyors Áttekintő Segédlet Fenntartóknak v1.01 KRÉTA TANTÁRGYFELOSZTÁS GYORS ÁTTEKINTŐ SEGÉDLET FENNTARTÓKNAK. verzió v1.01 /

ÁLLAPOTFÜGGŐ KARBANTARTÁST SEGÍTŐ INTEGRÁLT DIAGNOSZTIKAI RENDSZER. Dr. Nagy István, Kungl István. OKAMBIK Pécs, április

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

Az XCZ állományban szereplő állományok nevének UTF-8 kódolásúnak kell lennie. Probléma esetén használjon ékezet nélküli állományneveket.

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Nyelv-ész-gép Új technológiák az információs társadalomban

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Példa webáruház kialakítás rendszerdokumentáció

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

A rendszer új verziója lehetőséget nyújt az erőforrások Excel táblázatba exportálására és a táblázatban elvégzett ármódosítások betöltésére.

Önálló labor feladatkiírásaim tavasz

Az új magyar Braille-rövidírás kialakítása

Digitális tartalombővítés és távmunka bevezetése a Veszprémi Egyetemi Könyvtárban

Ariadne Kábeltesztelő Rendszer. Neuron intelligens megoldások a kábelipar számára.

Mesterséges Intelligencia Elektronikus Almanach

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

13. Fájlformátumok. Schulcz Róbert Madarassy László 13. Fájlformátumok v

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

E-learning alapú ügyféltámogató rendszer könyvtárak és felsőoktatási intézmények részére

Abban a farmerba nem mehetsz színházba. A (bvn) variabilitásának vizsgálata a BUSZI tesz9eladataiban

Kulcsár Attila. A második szint GeoCalc GIS 2. GISopen 2012 konfrencia.

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Summer of LabVIEW The Sunny Side of System Design

A továbbiakban Y = {0, 1}, azaz minden szóhoz egy bináris sorozatot rendelünk

Czifra Sándor Lőrinczi Konrád. Videó vezérelt kurzusok készítése Moodle keretrendszerben

GIS adatgyűjtés zseb PC-vel

MŰSZAKI DOKUMENTÁCIÓ. Aleph WebOPAC elérhetővé tétele okostelefonon. Eötvös József Főiskola 6500 Baja, Szegedi út 2.

Nagy Gábor compalg.inf.elte.hu/ nagy

Az URaLUID adatbázis bemutatása

Felhasználói kézikönyv Közzétételek portál

Ismerkedés az Office 2007 felhasználói felületével

KiváSlaEsL zt E á C si T út IO mu N tat G ó UIDE Időrelék

A Humanus adatbázis a Magyar Tudományos Művek Tára human-reál egyensúlyának

vbar (Vemsoft banki BAR rendszer)

IMOLA. Integrált MOKKA2, ODR2 és OLA. Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium

TERC V.I.P. hardverkulcs regisztráció

Programozás alapjai Bevezetés

LEADER. Helyi Fejlesztési Stratégiák. tervezését támogató alkalmazás

JUnit. JUnit használata. IDE támogatás. Parancssori használat. Teszt készítése. Teszt készítése

WEBOPAC felhasználói leírás. 1. Keresés az adatbázisban. 2. A találatok megjelenítése

WEBPAC e-corvina. Egyszerő keresés:

Hallgatói tájékoztató

Egészítsük ki a Drupal-t. Drupal modul fejlesztés

Az ErdaGIS térinformatikai keretrendszer

1. tétel. A kommunikáció információelméleti modellje. Analóg és digitális mennyiségek. Az információ fogalma, egységei. Informatika érettségi (diák)

A Matarka szerszámosládája

A nyelvtechnológia hatása napjaink lexikográfiájára

Átírás:

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS Oravecz Csaba és Sass Bálint {oravecz,joker}@nytud.hu MTA Nyelvtudományi Intézet BUSZI I. szimpózium 2008. december 9.

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

NEHÉZSÉG "The computer-readable encoding of transcriptions of spoken-language is a notoriously difficult area... " Thomas Schmidt (2005)

CÉL A BUSZI szöveges lejegyzésekből olyan explicit nyelvi adatbázist készíteni, amely lehetővé teszi a számítógép felhasználását a szövegek elemzésében és lekérdezésében.

CÉL A BUSZI szöveges lejegyzésekből olyan explicit nyelvi adatbázist készíteni, amely lehetővé teszi a számítógép felhasználását a szövegek elemzésében és lekérdezésében. up-translation

KIINDULÓPONTOK tartalmi: BUSZI szövegek ellenőrzött lejegyzett Word fájlokban tárolt változata technológiai: korábbi hasonló (pl. ÉKsz) feladatok során kidolgozott eljárások és eszközök

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

MIT ÉRTÜNK ITT ADATBÁZIS ALATT? AZ INFORMÁCIÓ explicit, egyértelmű, azonos szerkezetű, számítógéppel egyszerűen/hatékonyan kiolvasható/feldolgozható formában van tárolva.

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

KÓDOLÁSI MODELLEK RENDEZÉSI ELV ALAPJÁN 1 megnyilatkozások egyes elemeinek időbeli viszonyai (ELAN, EXMARaLDA, Praat stb.) STMT (Single Timeline Multiple Tiers) modell: precíz leírás az időszerkezetre vonatkozóan nyelvi elemzés leírásához a modellt ki kell egészíteni 2 megnyilatkozások egyes elemeinek hierarchikus viszonyai (TEI) OHCO (Ordered Hierarchy of Content Objects) modell: precíz leírás a nyelvi elemzésre vonatkozóan az időbeli viszonyok leírásához a modellt ki kell egészíteni

KÓDOLÁSI MODELLEK RENDEZÉSI ELV ALAPJÁN 1 megnyilatkozások egyes elemeinek időbeli viszonyai (ELAN, EXMARaLDA, Praat stb.) STMT (Single Timeline Multiple Tiers) modell: precíz leírás az időszerkezetre vonatkozóan nyelvi elemzés leírásához a modellt ki kell egészíteni 2 megnyilatkozások egyes elemeinek hierarchikus viszonyai (TEI) OHCO (Ordered Hierarchy of Content Objects) modell: precíz leírás a nyelvi elemzésre vonatkozóan az időbeli viszonyok leírásához a modellt ki kell egészíteni ALKALMAZHATÓ MEGOLDÁS Elvileg bármelyik, gyakorlatilag a transkripció fókusza szerint egyik vagy másik modell mint kiindulópont.

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

MIÉRT NEM JÓ AZ EREDETI ÁLLAPOT? FORMÁTUM: DOC nehézen feldolgozható nem hordozható nem szabványos nem hatékony Nem erre való.

MIÉRT NEM JÓ AZ EREDETI ÁLLAPOT? KÓDOLÁS: 1 nem egyértelmű 2 nem explicit 3 nem hatékony 4... Nem számítógépes, hanem emberi feldolgozásra készült. (V.ö. papírszótárak használata: útmutató alapos ismerete + szócikk értelmezése)

MIÉRT NEM ELÉG JÓ AZ EMBERI FELDOLGOZÁS? AZ EMBERI FELDOLGOZÁS alapos felkészülést igényel csak korlátozott lekérdezést tesz lehetővé a lekérdezés eredményét az eredeti szövegben nézegetem és értelmezem majdnem visszajutottunk a cédulázási módszerhez CÉL: SZÁMÍTÓGÉPPEL SEGÍTETT ELEMZÉS természetesen a szakmai elemzést nem a számítógép végzi számítógépes eljárásokkal minél több, minél relevánsabb adatot akarunk nyújtani az elemzéshez minél gazdagabban, relevánsabban és egyértelműbben van kódolva a forrásanyag, annál használhatóbb az elemzéshez kigyűjtött adat

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

PÉLDÁK 1. TÖBBÉRTELMŰSÉG: <=X X X> általában korrekció ( nem javított nyelvbotlás ): nem tom <=tudom>; azzz <=a>; el tu<d>om <=eltudom> idegen szó leírt változat: fon hőrnzágn, <=vom Hören Sagen "hallás után mondani">; rijóba <=Rio-ba>; nyü jorkba <=New York-ba>

PÉLDÁK 2. IMPLICIT INFORMÁCIÓ: A MAGYAR MORFOSZINTAXIS... készségük =ket történelem =ből rengeteg =get összefog =függ szakírő =ró egyetemi =re elkezdők= =dött A normalizált alak visszanyerésére nincs hatékony számítógépes eljárás.

PÉLDÁK 3. KÖRÜLMÉNYES KÓDOLÁS: HEZITÁCIÓS HANGZÓNYÚJTÁS aaalma assszony rrreális A jelenség teljes körű azonosítttása csak az össszes típus ismeretében lehetséges. Az információra való általános keresés is minden egyes esetben az összes típusra kellene, hogy hivatkozzzon.

PÉLDÁK 4. SZABADSZÖVEGES KÓDBEVITEL megszorítatlan, kézi annotáció elkerülhetetlen és a gépi ellenőrzés hiánya miatt rejtve maradó kódolási hibák ilyen mennyiségű szövegben minden lehetséges hiba elő fog fordulni, sőt még az is, ami nem lehetséges (pl. átfedő beszéd kódolása) folyamatos javítás, karbantartás

PÉLDÁK 4. SZABADSZÖVEGES KÓDBEVITEL megszorítatlan, kézi annotáció elkerülhetetlen és a gépi ellenőrzés hiánya miatt rejtve maradó kódolási hibák ilyen mennyiségű szövegben minden lehetséges hiba elő fog fordulni, sőt még az is, ami nem lehetséges (pl. átfedő beszéd kódolása) folyamatos javítás, karbantartás o<l>an o<ly>an mert<t>, most<t> vo<l><:>t vo<:><l>t

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

KIBŐVÍTETT TEI A KIHÍVÁS Más beszélt nyelvi korpuszokhoz képest a BUSZI lejegyzése igen részletes és a jelenségek olyan széles körét és típusait fedi le, melyet más adatbázisok egyáltalán nem tartalmaznak.

KIBŐVÍTETT TEI A KIHÍVÁS Más beszélt nyelvi korpuszokhoz képest a BUSZI lejegyzése igen részletes és a jelenségek olyan széles körét és típusait fedi le, melyet más adatbázisok egyáltalán nem tartalmaznak. A MEGOLDÁS Hierarchikus alapú TEI közeli XML annotáció a kezelendő jelenségek egységesített leírásával (egy darab típusosztályozott elem) az átfedő beszéd kezelésével kiegészítve.

MIÉRT XML? szabványos formátum, készen kapott feldolgozó modulokkal hasonló fejlesztések eredményei hasznosíthatók hordozható adatbázis

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

ELEMZÉS <w > szeretném </w>

ELEMZÉS egyértelműsített morfológiai elemzés, szótő <w lemma="szeret" msd="v.tfe1" > szeretném </w>

ELEMZÉS egyértelműsített morfológiai elemzés, szótő regularizált szótő CV váza, magánhangzók BNF alakban <w lemma="szeret" msd="v.tfe1" skel="cncnc" > szeretném </w>

ELEMZÉS egyértelműsített morfológiai elemzés, szótő regularizált szótő CV váza, magánhangzók BNF alakban elhangzott szóalak fonetikai reprezentációja <w lemma="szeret" msd="v.tfe1" skel="cncnc" phon="seretném" > szeretném </w>

BEMENET <div type="modul" id="b7102mun.1"> <head>b7102mun 1a0152 1993.09.03.</head> <u id="b7102.1" who="tm.1" n="1a0200"> W-B7102-1-1 W-B7102-1-2 W-B7102-1-3 W-B7102-1-4 W-B7102-1-5 W-B7102-1-6 C-B7102-1-7 W-B7102-1-8 <pause/> <vocal desc="o_hesitation" iterated="n"/> <pause/> W- B7102-1-9 W-B7102-1-10 W-B7102-1-11 <pause/> <annot resp="enc.1" type="l_drop_prevow ba_ban" reg="iskolában"> W-B7102-1-12 </annot> C-B7102-1-13 </u>

KIMENET <div type="modul" id="b7102mun.1"> <head>b7102mun 1a0152 1993.09.03.</head> <u id="b7102.1" who="tm.1" n="1a0200">... <w lemma="hogy" msd="con" ctag="c">hogy</w> <pause/> <vocal desc="o_hesitation" iterated="n"/> <pause/> <w lemma="mióta" msd="adv" phon="mióta" skel="cnbcb">mióta</w> <w lemma="tanít" msd="v.e3" phon="tanít" skel="cbcnc">tanít</w> <w lemma="ön" msd="n.nom" phon="ön" skel="fc">ön</w> <pause/> <annot resp="enc.1" type="l_drop ba_ban" reg="iskolában"> <w lemma="iskola" msd="n.ine" phon="isába" skel="nccbcb"> isába </w> </annot> <c lemma="?" msd="spunct" ctag="spunct">?</c> </u>

TANULSÁGOK A géppel olvasható formátumra alakítás a nyelvtechnológia hírhedt rabszolgamunkája tételt most nem sikerült megcáfolni. Nem is lehet, ha

TANULSÁGOK A géppel olvasható formátumra alakítás a nyelvtechnológia hírhedt rabszolgamunkája tételt most nem sikerült megcáfolni. Nem is lehet, ha az adatbázis eredetileg nem erre a célra készült,

TANULSÁGOK A géppel olvasható formátumra alakítás a nyelvtechnológia hírhedt rabszolgamunkája tételt most nem sikerült megcáfolni. Nem is lehet, ha az adatbázis eredetileg nem erre a célra készült, a triviálisnál részletesebb leíró információt tartalmaz.

TANULSÁGOK A géppel olvasható formátumra alakítás a nyelvtechnológia hírhedt rabszolgamunkája tételt most nem sikerült megcáfolni. Nem is lehet, ha az adatbázis eredetileg nem erre a célra készült, a triviálisnál részletesebb leíró információt tartalmaz. Nyelvi adatbázis készítésekor ma már ne a(z anyanyelvi olvasó és értelmező) felhasználó legyen a célközönség. (V.ö. egy klasszikus papírszótár ma már melléktermék.)

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

KORPUSZKEZELŐ RENDSZER MODELLJE adatbázis lekérdezo nyelv reprezentáció

KORPUSZKEZELŐ RENDSZER MODELLJE kérdés adatbázis lekérdezo nyelv eredmény reprezentáció

KORPUSZKEZELŐ RENDSZER MODELLJE menük kérdés adatbázis eredmény lekérdezo nyelv XML reprezentáció

A VÁLASZTOTT ESZKÖZ Emdros (2004) http://www.emdros.org Elv: a korpusz egységek (ún. monádok) sorozata Ilyen egységek bármilyen kombinációját össze lehet vonni egy nagyobb egységbe: folyamatos sorozat kihagyás átfedés PÉLDA fontosnak tartot [P] ták az olyan

A VÁLASZTOTT ESZKÖZ Emdros (2004) http://www.emdros.org Elv: a korpusz egységek (ún. monádok) sorozata Ilyen egységek bármilyen kombinációját össze lehet vonni egy nagyobb egységbe: folyamatos sorozat kihagyás átfedés PÉLDA fontosnak tartot [P] ták az olyan monádok: 1 2 3 4 5 6

A VÁLASZTOTT ESZKÖZ Emdros (2004) http://www.emdros.org Elv: a korpusz egységek (ún. monádok) sorozata Ilyen egységek bármilyen kombinációját össze lehet vonni egy nagyobb egységbe: folyamatos sorozat kihagyás átfedés PÉLDA fontosnak tartot [P] ták az olyan monádok: 1 2 3 4 5 6 szavak: W W W W 1 2 3 4

LEKÉRDEZŐ NYELV MENÜK Nagy kifejező erejű lekérdező nyelv PÉLDA [ [W FOCUS msd ˆPre\.V\. AND NOT(msd V\.IN )] ] OR [ [W FOCUS msd ˆV\. AND NOT(msd V\.IN )].. BETWEEN 0 AND 1 [W FOCUS msd = Pre ] ] OR [ [W FOCUS msd = Pre ].. BETWEEN 1 AND 1 [W FOCUS msd ˆV\. AND NOT(msd V\.IN )] ] A lekérdező nyelv összes lehetőségét nem lehet menürendszerrel megragadni.

EGYSZERŰ LEKÉRDEZÉS Keressük meg a fontosnak szó előfordulásait a korpuszban!

EGYSZERŰ LEKÉRDEZÉS

1 BEVEZETŐ (Beszélt) nyelvi adatbázis 2 KITEKINTÉS 3 AZ ADATBÁZIS KIALAKÍTÁSA A lejegyzés problémái A kódolási modell 4 HOZZÁADOTT ÉRTÉK Nyelvi elemzés 5 KORPUSZKEZELŐ RENDSZER 6 FELHASZNÁLÓI FELÜLET

A FELÜLET FELÉPÍTÉSE

A FELÜLET FELÉPÍTÉSE jelenségek

A FELÜLET FELÉPÍTÉSE lekérdezés ablak

A FELÜLET FELÉPÍTÉSE megjelenítés

A FELÜLET FELÉPÍTÉSE alkorpuszok

ELŐZŐ PÉLDA

ELŐZŐ PÉLDA

ELŐZŐ PÉLDA

JELENSÉGEK Egységes keret: 1 jelenség = 1 monád pl.: szünet, ööö, l-kiesést tartalmazó szó, -ban helyett -ba... Lekérdezés: mindig adott tulajdonságú monádokat keresünk. A kódolt jelenségeken kívül ide tartozik: egy szó jelenség pl.: asztal összes alakja, t-végű szó, mgh-val kezdődő szó... Jelenségek sorozata kihagyás jelenség pl.: hogy + egy szó kihagyás + ööö

JELENSÉGEK LISTÁJA egy szó, kihagyás pozícióval bíró jelenségek = kiesések (l, t, d, ly) pozíciók: szóvégi, V V, C V, V C, C C pozíció nélküli jelenségek pl.: -ban helyett -ba, nem állítmányi -e... önálló monádértékű elemek pl.: szünet, megjegyzés, hezitáció... egyéb: teljes megszólalás

SZÓALAPÚ JELENSÉGALAPÚ A korpusz szóalapú (monádalapú) a lekérdezések adott tulajdonságú monádokat adnak vissza. Gond: A pozícióval bíró jelenségekből több is lehet egy szóban. Nyilván szeretnénk tudni az ilyenek összesített számát. A megoldás: korrigálás

KORRIGÁLÁS

MEGJELENÍTÉSI FUNKCIÓK (rendezett) konkordancia: a találati megszólalások listája gyakorisági lista összesítő táblázat

ALKORPUSZOK 3 független dimenzió: 1 interjú 2 modul 3 szerep: adatközlő vagy terepmunkás

ALKORPUSZOK 3 független dimenzió: 1 interjú kvóta, terepmunkás személye 2 modul 3 szerep: adatközlő vagy terepmunkás

PÉLDÁK DEMÓ egy szó: fontosnak egy jelenség: l-kiesés hogy + egy szó kihagyás + ööö egy szó összes alakja: szótövet adjuk meg pl.: mert, miért, vállalat... lekérdezőnyelv ismerete szükséges: errő a témáró

ÖSSZEFOGLALÁS Elkészült a 270000 szavas BUSZI korpusz modern korpuszkezelő rendszerbe integrált változata a hozzá tartozó lekérdezőfelülettel. Az Emdros rendszer alkalmas más hasonló részletességű annotációt tartalmazó korpusz hatékony kezelésére is. Hozzáférhetőség forduljanak Kontra Miklóshoz.

ÖSSZEFOGLALÁS Elkészült a 270000 szavas BUSZI korpusz modern korpuszkezelő rendszerbe integrált változata a hozzá tartozó lekérdezőfelülettel. Az Emdros rendszer alkalmas más hasonló részletességű annotációt tartalmazó korpusz hatékony kezelésére is. Hozzáférhetőség forduljanak Kontra Miklóshoz. Köszönjük a figyelmet!