Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet {oravecz}@nytud.hu. MANYE vitaülés 2006. február 20.



Hasonló dokumentumok
Intelligens elektronikus szótár és lexikai adatbázis

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint Bevezetés a nyelvtechnológiába 2. gyakorlat szeptember 20.

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Nyilvántartási Rendszer

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Elektronikus levelek. Az informatikai biztonság alapjai II.

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

KML Keyhole Markup Language

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

Zenetár a webszerverünkön,

Felhasználói kézikönyv

A fejlesztendő tananyagok formai követelményei

Szövegszerkesztés. Microsoft Office Word 2010

Responsive Web Design. Dr. Nyéki Lajos 2019

Intelligens közlekedési rendszerek (ITS)

könyvvizsgálat dokumentálását segítő rendszer

Internet programozása. 1. előadás

Általános nyomtatványok xml szerkezete. (v1.3)

Az ATON szakfolyóirat indítása

Multimédiás adatbázisok

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A J2EE fejlesztési si platform (application. model) 1.4 platform. Ficsor Lajos Általános Informatikai Tanszék Miskolci Egyetem

Summer of LabVIEW The Sunny Side of System Design

A vezetői jelentésrendszer alapjai. Információs igények, irányítás, informatikai támogatás

XML alapú adatbázis-kezelés. (Katona Endre diái alapján)

Web programoz as

Adatbázis rendszerek 7. előadás State of the art

NAV online számla regisztráció SAP rendszerhez

A tantárgyelem kódja: KIT0401G. gyakorlat A tantárgyelem jellege: A tantárgyelem oktatásának ajánlott 5. félév

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Programozás. Adatbázis-kezelés (alapok) Fodor Attila

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

SZÁMÍTÓGÉP FELÉPÍTÉSE (TK 61-TŐL)

Programozási környezetek

Mesterséges Intelligencia Elektronikus Almanach

UML (Unified Modelling Language)

A plágiumkeresés dilemmái és megoldásai. Nagy István Monguz Kft. Networkshop 2016

Fülöp Csaba, Kovács László, Micsik András

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

Szerializáció. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Szerializáció / 22

Információ menedzsment

Gyakorlati vizsgatevékenység A

w w w. h a n s a g i i s k. h u

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

AZ OFI SZEREPE ÉS FELADATAI A PEDAGÓGUSOK SZAKMAI MUNKÁJÁNAK TÁMOGATÁSÁBAN

NAV nyomtatványok kitöltésének támogatása

Gyakorlati vizsgatevékenység B

XML / CSV specifikáció

(Minőségirányítási eljárás) 4. sz. verzió. A kiadás dátuma: február 27. Prof. Dr. Rudas Imre rektor

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor

Webszerkesztés stílusosan. Készítette: Csécsy László Virgina DeBolt hasonló c. könyve alapján

30 MB INFORMATIKAI PROJEKTELLENŐR

Földmérési és Távérzékelési Intézet

A tantárgyelem kódja: KIT0301G

Szegfű László. Szeged M. J. Város Polgármesteri Hivatala. Nyiss a világra ODF szabvány magyarul, MűPa

Lexikológia, lexikográfia a MID oktatásában

Modellinformációk szabványos cseréje. Papp Ágnes, Debreceni Egyetem EFK

DRM megoldások áttekintése

1. Digitális írástudás: a kőtáblától a számítógépig 2. Szedjük szét a számítógépet 1. örök 3. Szedjük szét a számítógépet 2.

Dr. Szaló Péter területrendezési és építésügyi helyettes államtitkár

ADATBÁZIS-KEZELÉS. Adatbázis-kezelő rendszerek

Grafikus keretrendszer komponensalapú webalkalmazások fejlesztéséhez

(Minőségirányítási eljárás)

EuroOffice a 4. generációs platformokon

XML avagy az univerzális információelérés álma

Aspektus-orientált nyelvek XML reprezentációja. Kincses Róbert Debreceni Egyetem, Informatikai Intézet


Wikipédia - a közösségi tudás

2. modul - Operációs rendszerek

Elektronikus szolgáltatás igénylés megvalósítása a NIIFI-ben. 2011/11/10 HBONE Workshop. Kiss Zoltán

1. tétel. A kommunikáció információelméleti modellje. Analóg és digitális mennyiségek. Az információ fogalma, egységei. Informatika érettségi (diák)

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

tartalomszolgáltatási igényeinek megfelelően Berze Lajos Szent István Egyetem Kosáry Domokos Könyvtár és Levéltár

PARTNER EXTRA. Leírás. Magyar Posta Zrt. Verzió:

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Bevezetés az informatikába 9. előadás. Microsoft Word szövegszerkesztők folyt. Stílusok. Egyedi formátum. Nyelvi elemek.

Vetési Albert Gimnázium, Veszprém. Didaktikai feladatok. INFORMÁCIÓTECHNOLÓGIAI ALAPISMERETEK (10 óra)

E-learning tananyagfejlesztő képzés tematika oktatott modulok

Folyamatirányítás NIVISION FOLYAMATKIJELZÔ RENDSZER

INFORMATIKA ÉRETTSÉGI VIZSGAKÖVETELMÉNYEK AZ ÉRETTSÉGI VIZSGA RÉSZLETES TEMATIKÁJA

Az iskolai rendszerű képzésben az összefüggő szakmai gyakorlat időtartama. 10. évfolyam Adatbázis- és szoftverfejlesztés gyakorlat 50 óra

A 27/2012 (VIII. 27.) NGM és a 12/2013 (III.28) NGM rendelet szakmai és vizsgakövetelménye alapján.

ALAPÍTÁSI ENGEDÉLYT KAPOTT KÖNYVTÁRI KÉPZÉSI PROGRAMOK Szakmai programok Budapest Budavári Palota F. épület

Az informatika kulcsfogalmai

Értékelés a BUS programhoz elkészült termékek magyar változatáról Készítette: Animatus Kft. Jókay Tamás január 07.

3. modul - Szövegszerkesztés

XML technikák II Kovács, László

Designer képzés tematika oktatott modulok

Tudásszintmérő dolgozat 9. osztály MEGOLDÁS, ÉRTÉKELÉS

DF20 Jet Fiber lézer jelölő berendezés

COMET webalkalmazás fejlesztés. Tóth Ádám Jasmin Media Group

A HunTéka elektronikus könyvtár modulja

Önálló labor feladatkiírásaim tavasz

Informatika érettségi vizsga

13. Fájlformátumok. Schulcz Róbert Madarassy László 13. Fájlformátumok v

Átírás:

Oravecz Csaba MTA Nyelvtudományi Intézet {oravecz}@nytud.hu MANYE vitaülés 2006. február 20.

Bevezetés Nyelvi erőforrások, szöveges adatbázisok növekvő jelentősége.

Bevezetés Nyelvi erőforrások, szöveges adatbázisok növekvő jelentősége. Feladatok: gyűjtés, tárolás, terjesztés, hatékony felhasználás.

Bevezetés Nyelvi erőforrások, szöveges adatbázisok növekvő jelentősége. Feladatok: gyűjtés, tárolás, terjesztés, hatékony felhasználás. Eszköz: számítógép.

Bevezetés Nyelvi erőforrások, szöveges adatbázisok növekvő jelentősége. Feladatok: gyűjtés, tárolás, terjesztés, hatékony felhasználás. Eszköz: számítógép. Eredmény: nyelvi adatbázisok, korpuszok, elektronikus szótárak stb.

Bevezetés Nyelvi erőforrások, szöveges adatbázisok növekvő jelentősége. Feladatok: gyűjtés, tárolás, terjesztés, hatékony felhasználás. Eszköz: számítógép. Eredmény: nyelvi adatbázisok, korpuszok, elektronikus szótárak stb. A számítógépes szövegkezelés elterjedése.

Szövegtárolás a számítógépben: a mindennapi módszer hegedül TN és TS ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a megjelenítési konvenciókat, a nyelvet (és a használati útmutatót is) jól ismerő olvasó által procedurális kódolás (markup): formázó utasítások, kódok, melyek összekeverednek a dokumentum szövegével

Szövegtárolás a számítógépben: a mindennapi módszer hegedül TN és TS ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a megjelenítési konvenciókat, a nyelvet (és a használati útmutatót is) jól ismerő olvasó által procedurális kódolás (markup): formázó utasítások, kódok, melyek összekeverednek a dokumentum szövegével

Szövegtárolás a számítógépben: a mindennapi módszer hegedül TN és TS ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a megjelenítési konvenciókat, a nyelvet (és a használati útmutatót is) jól ismerő olvasó által procedurális kódolás (markup): formázó utasítások, kódok, melyek összekeverednek a dokumentum szövegével

Szövegtárolás a számítógépben: a mindennapi módszer hegedül TN és TS ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a megjelenítési konvenciókat, a nyelvet (és a használati útmutatót is) jól ismerő olvasó által procedurális kódolás (markup): formázó utasítások, kódok, melyek összekeverednek a dokumentum szövegével

Szövegtárolás a számítógépben: a mindennapi módszer hegedül TN és TS ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a megjelenítési konvenciókat, a nyelvet (és a használati útmutatót is) jól ismerő olvasó által procedurális kódolás (markup): formázó utasítások, kódok, melyek összekeverednek a dokumentum szövegével

Szövegtárolás a számítógépben: a mindennapi módszer hegedül TN és TS ige 1. Hegedűn játszik (vmit). 2. vál <Tücsök> ciripel. felépítés: címszó szótári alak; bevezető rész; értelmező és szemléltető rész információ feldolgozása, "kinyerése": a megjelenítési konvenciókat, a nyelvet (és a használati útmutatót is) jól ismerő olvasó által procedurális kódolás (markup): formázó utasítások, kódok, melyek összekeverednek a dokumentum szövegével

A procedurális kódolás hátrányai

A procedurális kódolás hátrányai egy adott megjelenítési formára vonatkozik (pl. nyomtatott oldal)

A procedurális kódolás hátrányai egy adott megjelenítési formára vonatkozik (pl. nyomtatott oldal) egy adott programcsomaghoz kötődik (pl.... )

A procedurális kódolás hátrányai egy adott megjelenítési formára vonatkozik (pl. nyomtatott oldal) egy adott programcsomaghoz kötődik (pl.... ) a megjelenítési stílus illetve a megjelenítő médium változása a dokumentum teljes átformázásával járhat

A procedurális kódolás hátrányai egy adott megjelenítési formára vonatkozik (pl. nyomtatott oldal) egy adott programcsomaghoz kötődik (pl.... ) a megjelenítési stílus illetve a megjelenítő médium változása a dokumentum teljes átformázásával járhat információ visszakeresése, kinyerése nehézkes

A procedurális kódolás hátrányai egy adott megjelenítési formára vonatkozik (pl. nyomtatott oldal) egy adott programcsomaghoz kötődik (pl.... ) a megjelenítési stílus illetve a megjelenítő médium változása a dokumentum teljes átformázásával járhat információ visszakeresése, kinyerése nehézkes nem hordozható formátum

Szövegtárolás a számítógépben: a hatékony módszer

Szövegtárolás a számítógépben: a hatékony módszer Alapelv: a dokumentum információtartalmának elválasztása a formátumtól.

Szövegtárolás a számítógépben: a hatékony módszer Alapelv: a dokumentum információtartalmának elválasztása a formátumtól. A szöveg nem megkülönböztethetetlen bitek és bájtok folyamaként, hanem diszkrét információelemekké darabolva jelenik meg.

Szövegtárolás a számítógépben: a hatékony módszer Alapelv: a dokumentum információtartalmának elválasztása a formátumtól. A szöveg nem megkülönböztethetetlen bitek és bájtok folyamaként, hanem diszkrét információelemekké darabolva jelenik meg. deskriptív (logikai) markup:

Szövegtárolás a számítógépben: a hatékony módszer Alapelv: a dokumentum információtartalmának elválasztása a formátumtól. A szöveg nem megkülönböztethetetlen bitek és bájtok folyamaként, hanem diszkrét információelemekké darabolva jelenik meg. deskriptív (logikai) markup: a dokumentum szövegének célját rögzíti, s nem a nyomtatásban való megjelenítés módját

Szövegtárolás a számítógépben: a hatékony módszer Alapelv: a dokumentum információtartalmának elválasztása a formátumtól. A szöveg nem megkülönböztethetetlen bitek és bájtok folyamaként, hanem diszkrét információelemekké darabolva jelenik meg. deskriptív (logikai) markup: a dokumentum szövegének célját rögzíti, s nem a nyomtatásban való megjelenítés módját a dokumentum tartalmát elválasztja a megjelenítéstől

Szövegtárolás a számítógépben: a hatékony módszer Alapelv: a dokumentum információtartalmának elválasztása a formátumtól. A szöveg nem megkülönböztethetetlen bitek és bájtok folyamaként, hanem diszkrét információelemekké darabolva jelenik meg. deskriptív (logikai) markup: a dokumentum szövegének célját rögzíti, s nem a nyomtatásban való megjelenítés módját a dokumentum tartalmát elválasztja a megjelenítéstől a dokumentum szerkezetét írja le, és ebben a szerkezetben azonosít egymással meghatározott kapcsolatban álló elemeket dokumentum típus

Szövegtárolás a számítógépben: a hatékony módszer Alapelv: a dokumentum információtartalmának elválasztása a formátumtól. A szöveg nem megkülönböztethetetlen bitek és bájtok folyamaként, hanem diszkrét információelemekké darabolva jelenik meg. deskriptív (logikai) markup: a dokumentum szövegének célját rögzíti, s nem a nyomtatásban való megjelenítés módját a dokumentum tartalmát elválasztja a megjelenítéstől a dokumentum szerkezetét írja le, és ebben a szerkezetben azonosít egymással meghatározott kapcsolatban álló elemeket dokumentum típus procedurális markup: "nyiss egy idézőjelet és válts dőlt betűtípusra"

Szövegtárolás a számítógépben: a hatékony módszer Alapelv: a dokumentum információtartalmának elválasztása a formátumtól. A szöveg nem megkülönböztethetetlen bitek és bájtok folyamaként, hanem diszkrét információelemekké darabolva jelenik meg. deskriptív (logikai) markup: a dokumentum szövegének célját rögzíti, s nem a nyomtatásban való megjelenítés módját a dokumentum tartalmát elválasztja a megjelenítéstől a dokumentum szerkezetét írja le, és ebben a szerkezetben azonosít egymással meghatározott kapcsolatban álló elemeket dokumentum típus procedurális markup: "nyiss egy idézőjelet és válts dőlt betűtípusra" logikai markup: "a következő dokumentumelem egy példamondat"

A logikai kódolás előnyei

A logikai kódolás előnyei a dokumentum előállítása gyors és hibamentes: a dokumentum mint strukturált objektumok összessége jelenik meg, melyek nem véletlenszerűen jelennek meg, hanem meghatározott kapcsolatban állnak egymással; ellenőrizhető és egyértelmű dokumentumszerkezet

A logikai kódolás előnyei a dokumentum előállítása gyors és hibamentes: a dokumentum mint strukturált objektumok összessége jelenik meg, melyek nem véletlenszerűen jelennek meg, hanem meghatározott kapcsolatban állnak egymással; ellenőrizhető és egyértelmű dokumentumszerkezet az információ felhasználása, tárolása és más felhasználókkal való megosztása hatékony

A logikai kódolás előnyei a dokumentum előállítása gyors és hibamentes: a dokumentum mint strukturált objektumok összessége jelenik meg, melyek nem véletlenszerűen jelennek meg, hanem meghatározott kapcsolatban állnak egymással; ellenőrizhető és egyértelmű dokumentumszerkezet az információ felhasználása, tárolása és más felhasználókkal való megosztása hatékony a dokumentum hosszú távon is (veszteség nélkül) felhasználható

A logikai kódolás előnyei a dokumentum előállítása gyors és hibamentes: a dokumentum mint strukturált objektumok összessége jelenik meg, melyek nem véletlenszerűen jelennek meg, hanem meghatározott kapcsolatban állnak egymással; ellenőrizhető és egyértelmű dokumentumszerkezet az információ felhasználása, tárolása és más felhasználókkal való megosztása hatékony a dokumentum hosszú távon is (veszteség nélkül) felhasználható a dokumentum tartalma számos formátumban rugalmasan megjeleníthető

Szabványos kódolás: XML

Szabványos kódolás: XML Extensible Markup Language

Szabványos kódolás: XML Extensible Markup Language jelölő nyelv (markup language): a szövegek kódolására használt jelölési előírások egy halmaza. Előírja:

Szabványos kódolás: XML Extensible Markup Language jelölő nyelv (markup language): a szövegek kódolására használt jelölési előírások egy halmaza. Előírja: milyen markup használható dokumentumban és hol

Szabványos kódolás: XML Extensible Markup Language jelölő nyelv (markup language): a szövegek kódolására használt jelölési előírások egy halmaza. Előírja: milyen markup használható dokumentumban és hol milyen markup kötelező

Szabványos kódolás: XML Extensible Markup Language jelölő nyelv (markup language): a szövegek kódolására használt jelölési előírások egy halmaza. Előírja: milyen markup használható dokumentumban és hol milyen markup kötelező hogyan különböztethető meg a markup a szövegtől

Szabványos kódolás: XML Extensible Markup Language jelölő nyelv (markup language): a szövegek kódolására használt jelölési előírások egy halmaza. Előírja: milyen markup használható dokumentumban és hol milyen markup kötelező hogyan különböztethető meg a markup a szövegtől mi az alkalmazott markup jelentése.

Szabványos kódolás: XML Extensible Markup Language jelölő nyelv (markup language): a szövegek kódolására használt jelölési előírások egy halmaza. Előírja: milyen markup használható dokumentumban és hol milyen markup kötelező hogyan különböztethető meg a markup a szövegtől mi az alkalmazott markup jelentése. Az XML az első háromra vonatkozó szabvány.

A szócikk XML-ben Példa <entry id="hegedül.1"> <hw>hegedül</hw><orth>hegedül</orth><pos>ige</pos> <struc id="hegedül.1.1" type="sense"> <subc>tn</subc> <def>hegedűn játszik</def> </struc> <struc id="hegedül.1.2" type="sense"> <subc>ts</subc> <def>hegedűn játszik <obj/></def> </struc> <struc id="hegedül.1.3" type="sense"> <subc>tn</subc><reg>vál</reg><agent>tücsök</agent> <def>ciripel</def> </struc> </entry>

Feldolgozó eszközök szerkesztő programok, editorok: <oxygen/> (http://http://www.oxygenxml.com) Clark (http://www.bultreebank.org/clark/) Xemacs (http://www.xemacs.org) szerkezetellenőrző programok, validáló elemzők: rxp (http://www.cogsci.ed.ac.uk/ richard/rxp.html) SP (http://www.jclark.com) megjelenítő eszközök, stílusnyelvek (CSS, XSL): http://www.w3.org/style/

További információ Általános információ: XML: http://www.w3.org/xml/ GYIK: http://xml.silmaril.ie/ Leech, G. (1993): Maxims of Annotation (http://www.ling.lancs.ac.uk/monkey/ /ihe/linguistics/corpus2/2maxims.htm) Oktatóanyagok: http://www.tei-c.org/tutorials/ Programok: http://www.garshol.priv.no/download/xmltools/

VÉGE http://corpus.nytud.hu/manye