Digitális dokumentumok formátumai és az annotációk. Dr. Kovács László 1 Bednarik László 2. kovacs@iit.uni-miskolc.hu, bednarik1@freemail.

Digitális dokumentumok formátumai és az annotációk Dr. Kovács László 1 Bednarik László 2 1 Miskolci Egyetem, GEIK Általános Informatikai Tanszék, 2 ME CTFK Informatikai Tanszék kovacs@iit.uni-miskolc.hu, bednarik1@freemail.hu Abstract/Absztrakt A korszerű információs rendszerek egyik kulcseleme az emberközeli információ lekérdező réteg. Az absztraktabb, tartalom alapú lekérdezésekhez az adatforrások alapadatait kontextus leíró metaadatokkal kell ellátni. A szöveges dokumentumok esetében egyre nagyobb teret hódítanak az XML alapú formátumok. A cikk ezen formátumok esetére mutatja be az ontológia felépítésre alkalmas annotációk használatát egy mintapéldán keresztül. Annotációk szerepe Az információs rendszerek területén az egyik legalapvetőbb fogalom az adat fogalma. Az adatok elsődleges szerepe az információ hordozásában rejlik. Az átadandó információkat úgynevezett információ atomokra bonthatjuk fel. Az információ atomot egy hármassal reprezentálhatjuk[1], melynek elemei: szubjektum, amiről állítunk valamit; predikátum, amit állítunk; és az érték vagy objektum. Ugyan az adat, mint esetleg önálló jelsorozat jelenik meg, használatához mindig mögötte ott kell állnia a jelentésnek is. Egy önállóan álló 36-os szám nem hordoz információt, csak a kapcsolatrendszerével, kontextusával kibővített rendszer alkalmas új ismeret kódolására. A kódolás azonban többszintű folyamat, melynek egyfajta modelljét tükrözi [2] modellje. Ebben a modellben a legalacsonyabb szint az adatpéldány, a jelsorozat szintje. Például a 36 megjelenhet arab és római számjeggyel, balra vagy jobbra dőlt számokkal. Ezen jelek mindegyike egy-egy külön példányt képvisel. Az értelmezés középső szintjén az azonos kódolási rendszerhez tartozó példányokat fogjuk össze. Így például egy-egy külön elem lesz a római és az arab számot használó reprezentánsok. Az adat harmadik szintje az absztrakt jelölő érték jelölő elem, mint például a 36 mint szám, mely összefogja az összes lehetséges reprezentációs alakot. Az értelmezés következő szintjén az absztrakt elemhez társulnak a kontextusbeli kapcsolatai, megadva az információ atomot. Az elemi szemantikai szint után értelmezhetők további szintek, melyek meghatározzák a lokális, domain szintű és a globális kapcsolat rendszereket. Az értelmezés fentebbi elemei már a pragmatikai és apobetikai oldalakhoz köthetők. Az adatérték jelentésének azaz kontextusának meghatározása természetesen további adatelemeket igényel. Ezen adatelemek, mivel nem magát az alapértéket adják meg, hanem annak környezetét, metaadatoknak nevezik. A metaadat elnevezés arra utal, hogy ezen elemek adatok az adatokról, ahol teljesül, hogy - a metadatok is adatok - a metaadatok relatív szereppel bírnak - a metaadatok leíró adatok. A metaadatoknak fontos szerepe van a kontextus megadásán keresztül az intelligens, automatizált adatfeldolgozás hátterének biztosításában. A metaadatok jelenléte mindig is fontos eleme volt a különböző adattárolási rendszereknek. Az egyszerűbbnek tekinthető relációs adatkezelés esetében [3][4] az adatbázis séma elemi szolgálnak a metaadatok tárolására. Ebben a körben a kulcs, idegen kulcs, szerkezet és integritási elemek adják meg a letárolható információatomok körét. A metaadat kezelés alapvetően rejtve marad a

végfelhasználók előtt, habár lehetőségeiket nagyban befolyásolják ezen elemek. A relációs adatbáziskezelésen belüli metaadat kezelés további lényeges vonása, hogy az adatok és metadatok szeparáltan kezelődnek és a metaadatok felhasználása problémakör független értelmezésű, emiatt nem az információkezeléshez, hanem az adatkezeléshez kapcsolható. A relációs modell igencsak korlátozott metaadat rendszerével szemben nagy előrelépésnek tekinthető a szemi-struktúrált, XML alapú adatrendszerek metaadat kezelése. Az XML [5] adatkezelés egyik fontos jellemzője, hogy egységesen, közösen tárolja az alapadatokat és a hozzá kapcsolódó metaadata leírásokat, annotációkat. A XML formátum esetén a legnagyobb lehetőséget az adja, hogy a szerkezeti elemek alapvetően tetszőlegesen alakíthatók ki, a szerkezeti elemek azonosítása is tetszőleges névvel történhet. Ezen lehetőséget kihasználva az adatelemek jelentését a befoglaló elemek elnevezésén keresztül, vagy a hozzá kapcsolható direkt annotációkon keresztül adhatjuk meg. Az XML szabvány ugyan lehetőséget ad tetszőleges kontextus információk tárolásra, azonban nem biztosít eszközöket a magasabb szintű feldolgozási műveletekre, nem értelmezhető például automatikusan a specializáció relációja. A valós problémakörhöz, domainhez közelebb álló metaadat rendszerek elsőként a szemantikai adatmodellekben jelentek meg. Az ODL modell [6] az objektum orientált modellezési világ eszközeit építette be a metaadat rendszerébe. A kidolgozott rendszer nagyon jól kiszolgálja a szoftverfejlesztés igényeit, azonban nem biztosít kellő kifejezőerőt az általánosabb, absztraktabb problémáknál. A későbbi leíró nyelveknél a gráf alapú reprezentációs formák terjedtek el, mivel ezek alkalmasabbak a rugalmas elem és kapcsolatrendszer megadásában. A gráfban a csomópontok rendszerint a fogalmakat, az élek pedig a relációkat jelölik. Napjainkban, ezen egyed alapú modellek kiterjesztése, az ontológia modellek terjedtek el az adatok kontextusának megadásánál. Napjainkban az ontológia rendszerek tudják biztosítani a magas szintű adatkezelés ismeret hátterét [7]. Az ontológiai rendszerek fontosabb jellemzői: rugalmas kapcsolatrendszer, rugalmas fogalomrendszer, domain független eszközrendszer, logikai eszközökkel való feldolgozhatóság, formálisan ellenőrizhető ás feldolgozható adatrendszer. Az egyik legfontosabb ontológia leró nyelv az RDF nyelv [1] Az RDF feladata a problémakör fogalmainak semleges, átfogó, az automatikus feldolgozást támogató leírása. Az RDF nyelv, a korábban említett információatomokhoz hasonlóan az alábbi elemekből épülnek fel: - erőforrások (egyed vagy tulajdonság azonosító) - literálok - állítások. Az állítások egy (s,p,o) hármassal írhatók le, ahol s egy egyed erőforrás, p egy tulajdonság és o egy erőforrás vagy literál. Az állítás megfeleltethető egy információatomnak. A RDF terminológiában a állítás elemeit szubjektumnak, predikátumnak és objektumnak is nevezik. Az RDF nyelv továbbfejlesztéseként jött létre az OWL ontológia leíró nyelv [8]. Az OWL nyelv legfontosabb új eleme, hogy szélesebb körű integritási megkötés-halmazt tesz lehetővé; élesebben különbséget tesz a fogalmak különböző szintjei között (példányok bevezetése); épít a formális feldolgozásra. Az OWL keretrendszer támogatja többek között a leíró logika apparátusát [9], melyen keresztül lehetőség nyílik a felépített kontextus ellenőrzésére, új tények levezetésére. Az OWL támogató keretrendszerek között az ismertebbek közé tartozik a Protege, a Pellet és a KAON.

Az adataink automatikus feldolgozásának hatékonyabbá tételéhez a alaprendszert kibővítő, a kontextust megadó metaadat rendszert kell létrehozni. Az annotáció ezen feladatát napjainkban az ontológia alapú keretrendszerre támaszkodva érdemes elvégezni [10]. A DITA és Docbook keretrendszer Napjainkban az általános ontológia leírások még nem tekinthető kiforrott robosztus rendszereknek, emiatt a technológiailag robosztusabb célrendszereket használnak, melyek egyegy terület speciális igényeihez igazodnak. A szöveges dokumentum kezelés területén az XML alapú technológiák terjedése jellemzi a piaci helyzetet. A korábban alkalmazott technológiáktól eltérően ezen szabványok egyre növekvő mértékben valósítják meg a modularizálás és újrahasznosíthatóság követelményrendszerét. A tartalom és forma leírásának elkülönítése már a régebbi jelölőnyelves megoldásoknál, mint például a Latex nyelvnél, bevált megoldássá vált. Az XML alapú dokumentum reprezentációs technológiák lényegi újítása elsődlegesen a tartalom modularizálásban áll. Az XML nyelv jellegéből fakadóan a leíró dokumentum elemei nemcsak formátumozási információkat tartalmaznak, hanem a tartalom jellemzésére vonatkozó elemeket is. Ilyen elemek lehetnek többek között a Definíció, Utasítás, Kérdés elemei is. Az XML alapú általános dokumentum leíró modellek közül a DITA és DocBook szabványok tekinthetők a legelterjedtebb szabványoknak. A DITA szabvány 2001-ben jelent meg az IBM cég által, nem sokkal az XML szabvány 1999-es publikálása után. A DITA szabvány közvetlen ősének a SGML nyelv tekinthető [11]. Az SGML mint egy általános jelölő nyelv elsődlegesen a formátum szabályozására szolgál, és elsődleges célja egy általános, minden kimeneti eszközre kiterjedő formátum specifikációs nyelv definiálása. Az SGML nyelv sikertelenségét elsődlegesen az okozta, hogy elemi szinten kívánt minden ismert eszközhöz leíró nyelvet létrehozni. Mivel az elérhető eszközök köre állandóan bővül, a szabvány aktualizálása reménytelenül nagy munkát kíván az implementációt megvalósító szoftvercégektől. A DITA szabvány ezzel szemben az XML alapokra építkezik és nem kívánja az egyes kimeneti eszközök formátum elemeit teljes részletességgel specifikálni, megmarad az általánosság szintjén, ahol a részleteket az eszközspecifikus meghajtókra hagyja. A DITA modell tervezésekor az alábbi szempontokat tekintették elsődleges fontosságúnak: Téma orientáltság: jelentéssel bíró információ-egység (a célnak megfelelő specifikus tárgy) Téma granularitás: az önálló témaegységek nagyobb modulokba vonhatók össze Típusok: DTD és séma: a DITA típusok specifikus információ struktúrákat követnek Specializáció: architectúra az alaptípusok kiterjesztésére, új típusok (akár adott információkészleten belüli specifikus felhasználásra) Közös osztályok: a legfelső-szintű "generikus" alaptípusok alá csatlakoznak a specifikusak.

A DITA rendszerben a jelölő elemek egy fontos része a tartalom kezelésére szolgál. A legfontosabb egység a téma, mely egy önálló feldolgozási egységet is jelent. A témának alapvetően három specializációja létezik: fogalom (definíció), feladat (tevékenység, leríás) és hivatkozás (link). A témákat nagyobb formai egységek fogják össze, mint például a fejezet, könyvrész vagy könyv. A könyv mellett természetesen más dokumentum formátumok is támogatottak. A könyv felépítését a leíráshoz kapcsolt dokumentum térkép tartalmazza. A dokumentum térkép (map) megadja a témák tartalmazási és hivatkozási kapcsolatrendszerét. A fejlesztés hatékonyságának növelésére a szabvány lehetővé teszi a témák közötti származtatás, öröklés mechanizmusát is. 1. ábra. A DITA feldolgozási sémája Az OASIS szervezet által kidolgozott DocBook szabvány a DITA rendszerrel ellentétben nem elsődlegesen a feldolgozás automatizálása, a tartalom újrahasznosítására szolgál, hanem a dokumentum eszközfüggetlen reprezentálásra. A DocBook[12] szabvány, mely formátumában szintén az XML nyelvre építkezik, az alábbi főbb jelölőelemeket tartalmazza: - dokumentum hierarchia definiálása (könyv, fejezet, alfejezet,..) - egyéb információs elemek (pl. szerző adatai,..) - DTD definíciós elemek - Karakterkészlet definíciók - metainformációk A támogatott metainformációk közé tartozik többek között a szerzőt azonosító adatok (név, cím, beosztás,..), a dokumentum életét megadó adatok és a kulcsszavak indexét. A speciális tartalom orientált elemek mellett megtalálhatók a szabványban a szokásos formátum leíró parancsok is, mint például a listákat definíáló elemek. A DocBook szabvány például hét listatípust támogat: CalloutList, GlossList, ItemizedList, OrderedList, SegmentedList, SimpleList, VariableList. A DocBook rendszer sajátossága, hogy a megjelenítési elemeknél elsődlegesen a Web-es megjelentést támogatja, emiatt szűkösebb a részletes formátum specifikációt támogató elem, a szóközöket is csak egyes speciális esetekben hajlandó megőrizni a szabvány. <!DOCTYPE chapter PUBLIC "-//OASIS//DTD DocBook V3.1//EN"> <chapter><title>my Chapter</title> <para>... </para> <sect1><title>first Section</title> <para>... </para> <example>... </example> </sect1> </chapter> 2. ábra. minta DocBook dokumentum felépítése

A Web-es megjelenítésből fakadóan a szabvány a statikus elemek mellett a dinamikus viselkedést szabályozó elemekre is kitér. Így például léteznek felhasználói interakciót támogató elemek, mint például a GUIButton, GUIIcon, GUILAbel, GUIMenu, MouseButton stb. A DocBook emellett az egyes felhasználói eseményekre adandó válaszokat is definiálni tudja, erre szolgálnak többek között az Action, Function, ErrorCode, MsgTxt, Property vagy ReturnValue. A parancsok egyik további szegmentével a futtató környezetről gyűjthető be információ. A következő ábra egy minta DocBook keretet ábrázol. DocBook dokumentum annotálása Az automatizált, tartalom alapú dokumentum feldolgozáshoz a DocBook által definiált jelölő elemek nem adnak elegendő támogatást. Például egy automatikus kérdésgenerálási feladatban, a formai elemek helyett a tartalmi elemekre vonatkozó metaadatok leírására és azok automatikus értelmezésére van szükség. Ezek egyikét sem tartalmazza a DocBook szabvány. A hiányzó elemek beépítésekor az alábbi irányelveket követtük: - a metaadat leírás illeszkedjen a DocBook XML keretrendszeréhez - a metaadat leírás feldolgozható legyen a meglévő ontológia motorokkal - a DocBook kiegészítés leírásának helyessége sémával ellenőrizhető legyen - a metaadat tartalmi jelentése egy korábban megadott ontológia sémára illeszkedjen A fenti követelmények biztosítják, hogy a elkészült rendszer nyílt formátumú legyen és minél nagyobb mértékben támaszkodjon a meglévő feldolgozó rendszerekre. Az ontológia megvalósíthatósága érdekében csak domain ontológiában szabad gondolkodni. Mivel jelenleg nem áll rendelkezésre egy globális és nyílt ontológia tár, emiatt a tervezőnek alapvetően saját magának kell felépíteni ezt az ontológiát. A létrehozott osztályszintű domain ontológia fog példányosulni a vizsgált dokumentumban. Tehát egy külön OWL leírásban definiáljuk a vizsgált jelenség fogalom szintű sémáját, és a dokumentumban az egyes szövegrészeket hozzárendeljük a sémában szereplő osztályokhoz példányként. A létrehozott mintarendszerben a következő lépéseken keresztül építettük fel az ontológia alapú annotációs modult. A mintarendszer célja a definíciók kiemelése és azok kapcsolatának kezelése. A mintarendszert az alábbi eszközök felhasználásával hoztuk létre: ontológia kezelés: Protege szerkesztő, séma és XSLT kezelés: Oxygen szerkesztő, DocBook kezelés: Oxygen Author szerkesztő. 1. Az igényelt tartalom ontológia létrehozása Egy egyszerű szerkezetet feltételezve, a definíciót két részre bontjuk: a definiálandó fogalom és a definiáló leírás. A definiáló leírás tartalmazhat hivatkozásokat további definíciókra. Ezen egyszerűbb modellt az alábbi OWL definíció írja le: <owl:class rdf:id="definicio"/> <owl:objectproperty rdf:id="fogalma"> <rdf:type rdf:resource="&owl;functionalproperty"/> <rdfs:domain rdf:resource="#definicio"/> <rdfs:range rdf:resource="#fogalom"/> </owl:objectproperty> <owl:class rdf:id="fogalom"/>

<owl:objectproperty rdf:id="hivatkozas"> <rdfs:domain rdf:resource="#leiras"/> <rdfs:range rdf:resource="#definicio"/> </owl:objectproperty> <owl:class rdf:id="leiras"/> <owl:objectproperty rdf:id="leirasa"> <rdf:type rdf:resource="&owl;functionalproperty"/> <rdfs:domain rdf:resource="#definicio"/> <rdfs:range rdf:resource="#leiras"/> </owl:objectproperty> <owl:datatypeproperty rdf:id="szoveg"> <rdf:type rdf:resource="&owl;functionalproperty"/> <rdfs:domain> <owl:class> <owl:unionof rdf:parsetype="collection"> <owl:class rdf:about="#fogalom"/> <owl:class rdf:about="#leiras"/> </owl:unionof> </owl:class> </rdfs:domain> <rdfs:range rdf:resource="&xsd;string"/> </owl:datatypeproperty> 2. A DocBook kiterjesztés sémájának meghatározása A definíció szerkezetének megadására szolgáló XMLSchema leírás: <xs:schema xmlns:xs="http://www.w3.org/2001/xmlschema" targetnamespace="ont.s" elementformdefault="qualified" xmlns:oo="ont.s" > <xs:complextype name="leiras_tipus" mixed="true"> <xs:sequence> <xs:element name="hivatkozas" type="xs:string" minoccurs="0" maxoccurs="unbounded"/> </xs:sequence> </xs:complextype> <xs:element name="definicio" > <xs:complextype mixed="true"> <xs:sequence> <xs:element name="leiras" minoccurs="0" type="oo:leiras_tipus"/> <xs:element name="fogalom" type="xs:string"/> <xs:element name="leiras" minoccurs="0" type="oo:leiras_tipus"/> </xs:sequence> </xs:complextype> </xs:element> </xs:schema> 3. A DocBook dokumentum annotálása a séma és tartalom alapján A DocBook szabvány elemei közé beszúrhatóak a kibővítésben definiált elemek.

<para> <definicio xmlns="ont.s" xmlns:xsi="http://www.w3.org/2001/xmlschema-instance" xsi:schemalocation="ont.s file:/c:/temp/xmlgyak/d1.xsd"> Az adatbaziskezelesben fontos fogalom a <fogalom>relacio</fogalom>, amely az <leiras> azonos szerkezetu rekordok <hivatkozas>rekord</hivatkozas> halmazat jelenti </leiras> </definicio> </para> 4. Az OWL generálása az annotáció alapján A DocBook forrásállományból egy XSLT feldolgozóval kiemelhető az ontológiához kapcsolódó részlet, majd az egyes elemek tartalma átkonvertálható az OWL szintaktikára. A kapott eredményállomány érvényes OWL dokumentumnak tekinthető, melyet az ontológiai motorok fel tudnak dolgozni. Az alábbi szövegrészben csak újonnan létrehozott leírásokat szerepeltetjük: <owl:ontology rdf:about=""/> <definicio rdf:id="def1"> <fogalma rdf:resource="#f1"/> <leirasa rdf:resource="#l1"/> </definicio> <definicio rdf:id="def2"> <fogalma rdf:resource="#f2"/> <leirasa rdf:resource="#l2"/> </definicio> <fogalom rdf:id="f1"> <szoveg rdf:datatype="&xsd;string">relacio</szoveg> </fogalom> <fogalom rdf:id="f2"> <szoveg rdf:datatype="&xsd;string">rekord</szoveg> </fogalom> <leiras rdf:id="l1"> <szoveg rdf:datatype="&xsd;string" >azonos szerkezetu rekordok halmaza</szoveg> <hivatkozas rdf:resource="#def2"/> </leiras> <leiras rdf:id="l2"> <szoveg rdf:datatype="&xsd;string">mezok egyuttese</szoveg> </leiras> 5. OWL feldolgozása A rendelkezésre álló ontológia kezelő rendszerekben tartalom alapú lekérdezéseket is feltehetünk. Természetesen a kérdések tartalmi oldala alapvetően az induló ontológiában megadott ismeretrendszerre támaszkodhat csak, a kifejezőerő a felvitt ontológia terjedelmétől és teljességétől függ. A lekérdezések egyik közvetlen parancsnyelve a

SPARQL nyelv, melyre a következő parancs ad egy kis példát. A példában a kapcsolódó definíciókat kérdezzük le: SELECT?xn?yn WHERE {?x :hivatkozas?y.?x :szoveg?xn.?y :fogalma?yf.?yf :szoveg?yn} A feldolgozás keretét jelentő Protege ontológia szerkesztő kezelő felületét az alábbi ábra mutatja be. Összefoglalás A cikkben bemutattuk a magasabb rendű információ lekérdezések támogatására szolgáló metaadat annotációk alapvető fejlődési tendenciát és részletesen kitértünk ezen annotációknak az XML alapú szöveges dokumentumformátumoknál történő felhasználási lehetőségeire. A kidolgozott mintarendszer bemutatja, hogy az elterjedt XML alapú technológiák, mint XMLSchema, XSLT, DocBook, OWL segítségével, hogyan bővíthető a szöveges dokumentum leíró nyelve az ontológia generálásra alkalmas elemekkel. A kidolgozott technológia az ontológiák megfelelő elterjedése esetén jelentős hatékonyságjavulást eredményezhet az információkezelés területén. References [1] O. Lassila, R.Swick Resource Description Framework (RDF) Model and Syntax specification, W3C Recommodation, 1999

[2] T. Sieber, M. Kammerer: Sind Metadaten bessere daten? Metadaten als Mitller zwischen Daten und Prozessen, Technische Kommunikation, %., 2006, pp. 56-58 [3] C. Date: An Introduction to Database Systems, Addison Wiley Publisher, 1995. [4] L. Kovács, P. Barabás, T. Répási: Ontology-based Semantic Models for Databases; Handbook of Research on Innovations in Database Technologies and Applications: Current and Future Trends, IGI Global Publisher, 2009, pp. 443-451 [5] J. Bosak, B. Tim: XML and the Second Generation Web, Scientific American, 1999, pp.89-93 [6] R. Catell (eds): Object Database Standard, Morgan Kaufmann Publisher, 1997 [7] Q. Ni, M. Sloman: An Ontology-enabled Service Oriented Architecture for Persative Computing, Publ. of ITCC 2005, Vol II, pp. 797-798 [8] C. Goble, R. Stevens, S. Bechhofer: The Semantic Web and Knowledge Grids, Drug Discovery Today Technologies, 2005, pp. 225-233, [9] Nardi, D., Brachman R. J.(2002): An Introduction to Description Logics, In the Description Logic Handbook, edited by F. Baader, D. Calvanese, D.L. McGuinness, D. Nardi, P.F. Patel-Schneider, Cambridge University Press, pages 5-44 [10] D. Fensel, F. Harmelen, I. Horrocks, D. McGuiness: OIL, An Ontology Infrastructure for the Semantic Web, IEEE Intelligent Sytems, 2001, pp. 38-45 [11] B. Doyle: The History of DITA, http://dita.xml.org/book/export/html/1047 [12] N. Walsh, L. Muellner, B.Stayton : DocBook, The Definitivee Guide, OReilly Publisher, 1999