Az ontológiaépítés módszertana. Tóth Máté és Kovács Zoltán Csaba

Átírás

1 Az ontológiaépítés módszertana Tóth Máté és Kovács Zoltán Csaba

2 Tartalom 1 Bevezetés A fogalmak osztályozásának alapkérdései Tudásszervezési rendszerek A metaadat fogalma Tárgyszavas osztályozás Ellenőrzött szótárak Taxonómiák Tezauruszok Facettás osztályozás Az ontológia fogalma Ontológia szintaxisok RDF OWL SKOS XTM További Topic Maps szintaxisok HyTM LTM CTM GTM Ontológiaépítés a gyakorlatban Az ontológiaépítés eszközei Szemantikus web ontológiák fejlesztésére szolgáló eszközök Tématérképek fejlesztésére szolgáló eszközök Ontológiaépítés az OKS segítségével Az OKS letöltése és használata Az ontológiák építésének első lépései Tartalmak formalizálása LTM szintaxis segítségével Ontológiaépítés az Ontopolyval... 65

3 7 Az ontológiák használata döntéstámogatás tudásmenedzsment Oktatás szemantikus web ontológiák Összefoglalás Irodalomjegyzék... 94

4 1 Bevezetés Az információtechnológia minden kétséget kizáróan forradalmi változásokat okozott az elmúlt évek társadalmi és gazdasági folyamataiban. Az információtechnológia mindenütt jelen van, gyakorlatilag a társadalom életének nincs olyan szegmense, a gazdaságnak nincs olyan szektora, amely ne támaszkodna kisebb vagy nagyobb mértékben informatikai támogatásra. Az elmúlt években a technikáról egyre inkább a tartalomra, a keresésre, az informatikai eszközökön közvetíthető szolgáltatásokra terelődött a hangsúly. Ezt a tendenciát jelzi az is, hogy egyre többen és egyre magasabb szinteken kezdenek foglalkozni a szemantikus technológiákban rejlő lehetőségek kiaknázásával. Megjelent az igény arra, hogy a tartalmakat gépi olvasásra is alkalmas formátumban rögzítsék, és az adatok újrahasznosíthatók legyenek különböző kontextusokban, sokféle alkalmazás fejlesztése során. Mindezek egyik legfontosabb előzményét a szemantikus web elképzelés jelenti. Tim Berners-Lee és kollégái 2001-ben a következőképpen fogalmazták meg a szemantikus web lényegét. A szemantikus web nem egy önálló web, hanem a jelenleginek a kiterjesztése, ahol az információnak jól definiált jelentést adunk, amely elősegíti a számítógépek és az emberek közti együttműködést. Az első lépéseket már megtettük abban az irányban, hogy a jelenlegi web struktúrájába beleszőjük a szemantikus webet. A közeli jövőben ezek a fejlesztések jelentős új funkciókat kaphatnak, ahogy a gépek egyre alkalmasabbak lesznek azon adatok feldolgozására és megértésére, amelyeknek ma csupán a megjelenítésére képesek. (Berners-Lee et al ) Elmondható, hogy a szemantikus web immáron több mint 10 éves története során sem volt képes beteljesíteni azokat az álmokat, amelyeket a koncepció megjelenését követően vizionáltak. Elindult ugyanakkor egy erős kutatási irány, amely hosszú távon az adatok formális kódolásán keresztül egyre több, különböző forrásból származó információk integrálásán alapuló, izgalmas alkalmazás kifejlesztését teszi lehetővé. Jelen dolgozat célja, hogy összefoglalja az ontológiafejlesztéssel kapcsolatos legalapvetőbb ismereteket a hazai egyetemek hallgatói és oktatói számára. Tekintettel arra, hogy az ontológiaépítés alapvetően a fogalomalkotásban, a fogalmak osztályozásában és egymáshoz képest fennálló kapcsolataik leírásában gyökerezik, szükségesnek tartottuk, hogy ezekkel a kérdésekkel is érdemben foglalkozzunk. A dolgozat második felében egy konkrét ontológiafejlesztésre szolgáló szoftver (Ontopoly) használatán keresztül nyomon követhetjük egy tématérkép ontológia kereteinek felépítését és adatokkal történő feltöltését.

5 Az ontológiák építésének társadalmi motivációi között első helyen áll a tartalmak kereshetőségének, megjelenítési és kreatív újrahasznosítási lehetőségeinek növelése. Ez olyan szótárak fejlesztését teszi szükségessé, amelyek a vállalkoznak a világ létezőinek lehető legteljesebb szabványos leírására. Minden ontológia a világ tudásának egy-egy fontos szegmensét reprezentálja, amelyek együttesen egy globális hálózati metaadat-infrastruktúra kiépítésének a lehetőségét hordozza magában.

6 2 A fogalmak osztályozásának alapkérdései Tekintve, hogy az ontológia egy tudásszervezési rendszer, amelyben a valóságot kell formalizálni, tisztáznunk kell a fogalomalkotásnak és a fogalmak osztályozásának alapkérdéseit. A legkézenfekvőbb párhuzam maga az emberi nyelv, amely a valóság jelenségeit kategóriákba sorolva, nyelvi jelekkel (szavakkal) azonosítva ragadja meg. Az információközvetítő tevékenység a tudástársadalomban értelmezett ismeretek közvetítését jelenti. Jellemzően a tudás szövegekben jelenik meg. A szöveg szemantikája, jelentése maga a tartalom, ami különböző formátumokban, hordozókon is megjelenhet. Ilyen értelemben tehát a tartalom absztrakt fogalom. A szövegek tartalmának a reprezentálására szurrogátumok szolgálnak a tartalomkezelés hagyományos intézményeiben, mint például a könyvtárakban. A szurrogátum az eredeti dokumentum mása, helyettesítője, amelyben az arra vonatkozó adatelemek rendezett halmazként vannak jelen. A szurrogátum a dokumentumokat mint tárolási-keresési egységeket képviseli az információtárolás és -keresés során. (Varga 2012) A fogalmak osztályozása és a tartalmak reprezentálása jellemzően könyvtári tevékenység, ugyanakkor nem tekinthetünk el attól a ténytől, hogy több más tartalomszolgáltató intézmény is foglalkozik ezekkel a kérdésekkel. A feldolgozó munkának két területét különböztethetjük meg: - A dokumentumok formai leírását és azonosítását, ez a formai feltárás, katalogizálás, illetve a bibliográfiai leírás feladata. - A dokumentumok tartalmi vagy tárgyi feltárását, mellyel a tartalmi feltárás foglalkozik. Ezen feldolgozási tevékenység eredménye a szurrogátum. (Varga 2012) A fogalmak osztályozása és a tartalmak reprezentálása során azt az üzenetet kell megkeresni és kifejezni, amelynek információs értéke van azok számára, akiket az információs rendszer célközönségének, használóinak tekintünk. A dokumentumok formai és tartalmi feltárása során több funkciónak kell eleget tenni. A feldolgozásnak célja lehet - egy dokumentumállomány reprezentálása, áttekinthetővé tétele (formai és tárgyi szempontok), - az információk visszakereshetővé tétele,

7 - a kompatibilitás, szabványosság biztosítása, vagy - azonosítás (egyértelmű kapcsolat a dokumentum és a szurrogátum között). (Varga 2012) Az ontológiaépítés során az egyes dokumentumok formai és tartalmi szempontú osztályozásának szempontja egyaránt megjelenik. A tartalmi feltárás különböző szinteken valósul meg. Egyrészt szükséges hozzá egy visszakereshetőséget biztosító adatszerkezet, másrészt a szöveg egyedi információinak elemzése. A munka során le kell írnunk magát a tartalmat, amelynek célja, hogy a hasonló szemantikai jellemzőkkel bíró entitások együtt maradjanak, illetve, hogy valamennyi tartalmi információ visszakereshető legyen. A tartalom leírása során tartalmi csoportokat kell kialakítani, amelyhez a fogalmak osztályozása szükséges. A fogalmakból az osztályok kialakítás és az egyes egyedek ezekbe történő besorolása az emberi gondolkodás egyik legalapvetőbb tevékenysége. A megismerés során az egyedeket jellemzőik alapján csoportokba soroljuk. Amennyiben egyedek egy bizonyos csoportja kitüntetett, érzékelhető és jól definiálható közös jellemzőkkel bírnak. Például a személyautók csoportjába sorolhatjuk a 2-7 személyes, jellemzően négy kerékkel bíró, első számú funkcióját tekintve személyszállításra szolgáló közúti járműveket. Az osztályok kialakítása nyomán gazdaságosan kezelhetjük a saját memóriakapacitásunkat, hiszen egy-egy jármű esetében elegendő megjegyeznünk, hogy az személyautó és így nem kell valamennyi típushoz (Skoda Octavia, Audi A4, Ford Focus) rögzítenünk a fent felsorolt jellemzőket. A világ létezőit így egyrészt szétválogatjuk eltérő tulajdonságaik alapján, másrészt összevonjuk a hasonlóságok mentén. A fentiek alapján egy osztályba tartoznak azok az objektumok, amelyek ugyanazzal vagy ugyanazokkal a közös tulajdonságokkal rendelkeznek. Az osztályalkotás nem más, mint az osztályt jellemző kritériumok meghatározása. Az osztályba sorolás pedig a hasonló egyedek csoportosítása, illetve annak a megállapítása, hogy mi mibe tartozik bele. (Varga 2012) Pálvölgyi (2011) a következőképpen magyarázza mindezt. Amikor a valóságos dolgokat (jelenségeket, egyedeket stb.) érzékeljük, értelmezzük, tudatosítjuk, elengedhetetlen, hogy (1) képesek legyünk arra, hogy megkülönböztessük őket egymástól, (2) és arra is, hogy különböző dolgok közös ismérveit megállapítsuk. Ha képesek vagyunk dolgok valamely közös ismérvét megállapítani, akkor meg tudjuk határozni (el tudjuk határolni) azon dolgok körét, amelyekre a közös ismérv vonatkozik. Ez a művelet osztályozási művelet, és a neve osztályalkotás. A művelet eredménye: meghatározott dolgok (jelenségek, egyedek stb.) egy osztályának a létrehozása, megalkotása. Ehhez kapcsolódik az osztályba sorolás művelete. Az osztályozás valamennyi esetben fogalmi síkon történik. A fogalom olyan gondolat, amely a valóság objektumait, jelenségeit az adott tárgyakra nézve közös, más tárgyaktól őket

8 elválasztó ismertetőjegyeik szerint általánosítja, emeli ki. (Varga 2012) A szakirodalom két terminussal írja a fogalom alapvető jellemzőit. - A fogalom tartalma intenzió a benne általánosított dolgok lényeges ismertetőjegyeinek összessége. - A fogalom terjedelme - extenzió - a benne általánosított dolgok összessége. (Barátné 1998) A fogalom a terjedelmét alkotó dolgok osztályát képviseli. Az osztály az elemek olyan nyílt összessége, melyet közös tulajdonságok, ismertetőjegyek jellemeznek. Az osztályok elemei rendelkeznek kitüntetett szemantikai jellemzőkkel illetve más megkülönböztető ismérvekkel. (Varga 2012) Ha egy osztályon belül az elemek egy csoportja a kitüntetett szemantikai jellemzők mellett más közös tulajdonságokkal is rendelkezik, alosztályt alkot. Minél nagyobb mértékben általánosítunk egy-egy fogalmat, annál kevesebb ismertetőjeggyel vagyunk képesek azt leírni. Az ismérvek számának növelésével egyre speciálisabb, a csökkentésével egyre általánosabb fogalmakhoz jutunk. Bizonyos fogalmakat már csupán egyetlen ismérvvel, önmagával lehet jellemezni, ezeket fogalmi kategóriáknak nevezzük. Erre lehet példa az anyag, az energia, az idő, a mozgás vagy a tulajdonság. A facetták a fogalmi kategóriák olyan alkategóriái, amelyek egy-egy szakterület általános fogalmait képviselik. (Varga 2012) Összefoglalva tehát az osztályozás az emberi gondolkodás alapvető formája, mely párhuzamba állítható a fogalomalkotással. Természetes logikán alapul. Azt a logikai tevékenységet, mely során a jelenségeket, tárgyakat hasonlóságuk foka alapján egybegyűjtünk, és különbségeik foka alapján elkülönítjük egymástól, osztályozásnak nevezzük. Ha az osztályozás tárgyai a könyvtár állományába tartozó dokumentumok vagy szolgáltatási körébe tartozó információk, akkor könyvtári osztályozásról beszélünk. Ha valamely bibliográfiában felsorakoztatott mű, akkor pedig bibliográfiai osztályozásról beszélünk. Az osztályok a gondolkodásunkban definiálhatók más osztályok uniójaként, metszeteként, komplementereként stb. Az alapvető halmazelméleti műveletekkel képesek lehetünk leírni az egyes fogalmak közötti átfedéseket, különbségeket, sajátos viszonyokat. A reláció a halmazok vagy egy halmaz elemei között megállapított kapcsolat. Fogalmi reláción - teljesen analóg módon - a fogalmak vagy ismérvek közötti kapcsolatokat értjük. (Varga 2012) Ennek általános jelölése arb. A relációkat is különféleképpen osztályozhatjuk azok természete szerint. Most csak azon legjellemzőbb kapcsolattípusokat soroljuk fel, amelyek az osztályozási rendszerek kialakítása során jelentőséggel bírnak. - Ekvivalencia reláció. Abban az esetben, amikor két osztályba ugyanazon egyedek tartoznak. Tipikusan a szinonimákra, illetve különböző nyelvű megnevezések közötti

9 ekvivalencia leírására szolgál. Pl. ekvivalencia reláció áll fenn a macska cat katt különböző nyelvű elnevezések között, vagy a kutya eb szinonimák között. Ezekben az esetekben elmondható, hogy minden olyan egyed, amely a kutya szóval leírható, biztosan leírható az ebbel is. A valóság minden olyan eleme, amelyet macskaként definiálunk, az meghatározható mint cat vagy mint katt is. - Generikus reláció van két olyan egyed között, amelyek egymás fölé- vagy alárendeltjeinek tekinthetők. Pl. Minden személyautó jármű, de nem minden jármű személyautó. Tehát a jármű a személyautó fölérendeltje. Valamennyi személyautó osztályba tartozó egyed része a járművek osztályának is. A generikus reláció az ontológiák esetében kifejezetten nagy jelentőséggel bír, amelyet Ungváry (2004) a következőképpen magyaráz: Az ontológia részét alkotó fogalmi hierarchia kifejezéseivel dokumentumok (források, elsősorban webforrások) tartalma osztályozható, írható le. E hierarchia kifejezései tehát a dokumentumok (források) tartalmára vonatkozó másodlagos vagy ún. metaadatokat képviselnek, maga a hierarchia pedig tekinthető osztályozási rendszernek, illetve információkereső nyelvnek. A különbség a hagyományos osztályozási rendszerekhez (ETO) és információkereső nyelvekhez (tezauruszok) képest az, hogy az ontológiákkal a logikai szerkezet jóvoltából automatizáltan kihasználható a generikus hierarchia eddig csak intellektuálisan hasznosított tulajdonsága, a generikus öröklődés. Az öröklődés az ontológiákban például azt jelenti, hogy ha a kutya fogalmának ismertetőjegye az ugatás, akkor a kutyák minden fajtájára érvényes, hogy ugatnak. Ez a következtetés minden nyelvhasználó, és vele minden kereső számára magától értetődő, mégpedig anélkül, hogy kutyák minden egyes fajtájára nézve külön-külön rögzítenie kellene magának ezt a ismeretet. Mind a mai napig azonban a logika egyetlen változata sem teszi igazán lehetővé ennek a következtetésnek a formális végrehajtását (azaz ezt az ismeretet egy formális rendszerben az egyes kutyafajták esetében külön-külön rögzíteni kell). Az ontológiákat azért találták ki, hogy ezt a problémát a mesterséges intelligencián alapuló rendszerekben és az ismeretbázisokban, rajtuk keresztül pedig valamiképpen az információkeresésben is valahogy áthidalják. - Szerkezeti relációnak tekinthetők az egész-rész viszonyokat leíró kapcsolatok. Magyarország része Budapest, ugyanakkor Budapest egésze Magyarország. Ez a viszony jellemzően hierarchikus, de a hierarchia nem generikus természetű. Gondoljunk csak a város megye ország kontinens fogalmak közötti viszonyokra konkrét példákon keresztül. Pécs város része Baranya megyének; Baranya megye része Magyarországnak; Magyarország része Európának. Ha generikus viszonyról lenne szó, akkor igaznak kellene lenni annak az állításnak, hogy az alosztály egyede a főosztály egyede is. Ez azonban nem igaz, hiszen egy város semmiképpen sem lehet egy megye is. A relációtípust hívhatjuk partitív hierarchiának is. Ezen relációkkal az egyes fogalmakat reprezentáló osztályok egymáshoz való viszonya írható le. Az ontológiák különösen hatékonyak ezen relációk megragadásában és ezáltal a választott fogalmak közötti összefüggések reprezentálásában.

10 Az ontológiák mellett számos más tudásszervezési rendszer is létezik. Ezeket tekintjük át a következő fejezetben.

11 3 Tudásszervezési rendszerek 1 A tudásszervezési rendszerek feladata, hogy segítségükkel sikerüljön úgy elrendezni a tartalmakat, hogy a felhasználók könnyedén megtalálják, amit keresnek. Ahogy az információs túlterheltség egyre növekszik, a nem keresett dolgok egyre mélyebben elfedik azt, amit keresünk, ezek az eszközök egyre fontosabbá válnak. Tudásszervezési rendszereket alkalmaznak honlapok készítése során is, de legfontosabb eszközei a más tudományágakban kifejlesztett információszervezési technikák. Ezek közül a legtöbb a könyvtártudományból jön, mint például a tezauruszok, taxonómiák vagy a facettás osztályozás. A tudásszervezési rendszerek kapcsán számos probléma megfogalmazható: - A tudományok fogalmi rendszere változik, nehéz követni. - A hierarchikus osztályozási rendszerek követőek, nem tükrözik az újdonságot. - Információkereséskor ritkán gondolkodunk tudományokban, inkább témákat keresünk. (Garshol 2003) A szemantikus technológiák viszonylag új szereplői ennek a területnek, és az eddig létező technikák nyújtotta lehetőségekkel összehasonlítva jobban szervezett tartalmakat ígérnek. Jelen fejezet célja, hogy áttekintse a létező tudásszervezési rendszereket, hogy azok fényében világossá válhasson az ontológiák jelentősége, erősségei és hátrányai. Garshol (2003) áttekintette a legalapvetőbb fogalmakat a tudásszervezési rendszerekkel kapcsolatosan. Ez a fejezet ezen tanulmány gondolatmenete, meghatározásai és logikája alapján készült. 3.1 A metaadat fogalma A metaadat minden információ-visszakeresés alapja, így azzal kezdjük, hogy megvizsgáljuk, mit takar ez a fogalom. Az az általános feltételezés az információszervezésről, hogy az különálló egységekből áll, bár ezen egységek szakszerű megnevezése változó. Időnként úgy hivatkoznak rájuk, mint dokumentumok, máskor mint dolgok. Ebben a fejezetben a továbbiakban az objektum kifejezést fogjuk használni ezen egységekre, mivel nem tűnik 1 Garshol (2004) alapján.

12 megfelelőnek az a feltételezés, hogy a szó hagyományos értelmében ezek mind dokumentumok lesznek. A metaadatot általában úgy definiálják, hogy adat az adatról, ami természetesen nagyon tág meghatározás. Az informatika világában ez általában egy adott reprezentáció adatkészletéről szóló információra vonatkozik, amely jellemzően sémainformációt (schema), adminisztratív információt stb. jelent. Mindazonáltal a tartalomszervezésben (content management) és a tudásszervezésben a metaadat általában azt jelenti, hogy információ az objektumokről (az objektum itt a fent meghatározott értelemben szerepel), azaz információ egy dokumentumról, képről, egy újra felhasználható tartalommodulról stb. Miután minket most elsősorban a tartalomkezelés érdekel, ezt a definíciót fogjuk alkalmazni a továbbiakban. A metaadatok legismertebb szógyűjteménye a Dublin Core (DC). A készlet 15 tulajdonságból áll, amelyek alkalmazhatók információs források leírására. (DCMI 2001) A DC metaadat elemkészlet (DCMES 2006), a DC metaadat kifejezések (DCMT 2006), valamint a finomított elemkészlet (DC 2004) információs erőforrások leírására szolgál elsősorban. A tulajdonságok olyan információkat tartalmaznak, mint például cím, alkotó, tárgy, leírás, kiadó, dátum, nyelv stb. A Dublin Core specifikáció mindegyik tulajdonság jelentését meghatározza, de arról nem szól, hogy miként lehet ábrázolni a tulajdonságokat és azok értékeit is egyszerre, és így független minden konkrét technológiától. A Dublin Corenak az a célja, hogy a források, a tartalmak felfedezését segítse, vagyis az információ visszakeresését támogassa. A metaadatok éppen olyan hasznosak a tartalomkezelés során, mint a tartalom közreadás utáni megismerésében, és így metaadatokat a gyakorlatban mindkét célra használunk. Az Országos Széchényi Könyvtár egy Dublin Core metaadatelemkészlet-generátorral segíti a Dublin Core használatát. (

13 A DC metadatelem-készletnek számos más erőforrásokat leíró nyelv számára konvertálható. A világháló alapvető szabványához illeszkedik a DC HTML (2003), a legfontosabb szemantikus web ajánláshoz a DC RDF (2002) és a tématérkép technológia csereformátumához a DC XTM (2003). Általában véve a metaadat legjobb meghatározása az, hogy bármilyen állítás egy információs forrásról, függetlenül attól, hogy mire használjuk, melyik metaadatkészletet vesszük alapul, vagy hogy miként ábrázoljuk. A metaadatok legfontosabb funkciója, hogy segítik a dokumentumok és tartalmak visszakeresését. Eleinte csak dokumentum-visszakeresésre használták ezeket, a szemantikus technológiák térhódításával vált nyilvánvalóvá, hogy a felhasználó szempontjából a tartalmak dokumentumtól függetlenül való kereshetővé tétele az igazán releváns. Erről szól a tárgyközpontúság forradalma. (Pepper 2008a, 2009) Nyilvánvaló, hogy egy nagy dokumentumkorpuszban egy adott információt keresni bármilyen metaadat (vagyis a tárgyakról szóló információ) nélkül meglehetősen reménytelen feladat. A kérdés az, hogy milyen típusú információ segítene a legtöbbet a felhasználónak? Az egyik gyakori eset, amikor a felhasználó már látta egyszer a keresett tárgyat és így talán emlékszik bizonyos részleteire, mint például szavakra a címből, vagy a szerző nevére vagy hogy mikor írták. Ebben az esetben ezek a nyomok felhasználhatók a dokumentum megtalálásához a nyomokra rákeresve és addig próbálgatva a különböző kereséseket, amíg elő nem kerül a megfelelő dokumentum. A Dublin Core metaadat meglehetősen jól támogatja a visszakeresésnek ezt a formáját, mivel ez pontosan az a fajta információ, amelyet tartalmaz. Általánosabb esetben a felhasználó egy adott tárgyról szeretne információt kapni, és ezért bármilyen rendelkezésre álló felhasználói felület elé leül, hogy választ kapjon a kérdésére: vajon milyen objektumok szólnak X tárgyról? Ebben az esetben az a kérdés, hogy mennyi segítséget tud adni a felhasználói interfész ennek a felhasználónak? Ha feltételezzük, hogy az interfész a Dublin Core metaadaton alapszik, kiderül, hogy nem túl sokat. Alább láthatók a Dublin Core metaadatai egy 2005-ben megjelent egyetemi tankönyvnek. Cím A szemantikus világháló elmélete és gyakorlata Létrehozó Szeredi Péter, Lukácsy Gergely, Benkő Tamás Tárgy Kiadó Szemantikus web, RDF, OWL, ontológia, tudásreprezentáció Typotex Dátum 2005 Nyelv Magyar

14 Terület Formátum Könyv Magyarország Nyilvánvaló, hogy ez az információ nem sokat segít, ha az olvasó meg akarja állapítani, miről szól a könyv, bár a tárgyból láthatjuk, hogy a szemantikus webhez, az RDF-hez (Resource Description Framework), az OWL-hoz (Web Ontology Language), tudásszervezési rendszerek közül az ontológiákhoz és általában a számítógépes tudásreprezentációhoz van valami köze. Ez rávilágít a problémára, miszerint a sztenderd metaadat főként adminisztratív információkat nyújt és nagyon keveset mond egy objektum tárgyáról. A Dublin Core metaadat tulajdonságai közül csak néhány foglalkozik ezzel a kérdéssel, és még ezek közül is a legtöbb csak közvetett módon. - Cím. Egy dokumentum címe általában jó támpontokat ad arra nézve, hogy miről szól egy dokumentum, de nem feltétlenül említi meg az összes olyan tárgykör összes nevét, amelyre a felhasználó kíváncsi, és esetleg olyan tudást is feltételez, amelynek a felhasználó nincs birtokában. (A mű tárgya jelen esetben azt jelenti: bármilyen fogalom, ami a felhasználót érdekelheti.) - Leírás. Ez a mező valószínűleg azt írja le, hogy miről szól a dokumentum, de lehetséges, hogy ez sem segíti hatékonyan a keresést és a megtalálást, ugyanazokból az okokból, amelyek miatt a cím mező sem - Tárgy. Ez a mező, amely általában kulcsszavak egy készletét tartalmazza, arra szolgál, hogy pontosan közvetítse, miről szól a dokumentum. Mindazonáltal sok múlik azon, hogy mennyire széleskörű a kulcsszó-készlet, említésre kerül-e minden vonatkozó tárgy vagy netán épp túl sok tárgy szerepel a listán, ami miatt a felhasználó túl sok találatot kap. A következő kérdés a pontosság, hiszen kérdés, hogy mennyiben lehetünk képesek hitelesen reprezentálni a világ létezőit. Amellett, hogy a metaadat nem feltétlenül mond el sokat egy objektum tartalmáról, szintén probléma az is, hogy nem könnyű olyan készletet létrehozni, amely pontosan leírja a tárgyat. Képzeljünk el egy felhasználót, amint leül egy interfész elé, amellyel hozzáfér az összes, Typotex kiadó által közzétett könyvhöz, egy Dublin Core-on alapuló keresési interfészt használ és a szemantikus webről keres információt. A felhasználó most ismerkedik a témával, így még nem érdekli annak semmilyen specifikus részlete, csupán a tárgykör maga általánosságban. Ha a felhasználó ekkor végez egy keresést a szemantikus web kulcsszóval (vagyis ez szerepel a tárgy mezőben), az összes olyan könyv, amely tartalmazza a szemantikus web kulcsszót, szerepelni fog a keresési eredmények között. Az egyik probléma ezzel az, hogy ezek között lesznek bevezető anyagok és haladóbbaknak szólók is, az eredmény pedig egy egyszerű dokumentumlista lesz, amely valószínűleg mutatja a címet, szerzőt és a dátumot.

15 A cím, szerző, dátum és leírás mezők ez esetben nagyon hasznosak, mivel segítik a felhasználót az eredmények közötti választásban, de vajon milyen maguknak az eredményeknek a minősége? Ezt kipróbálva egy dokumentumkorpuszon az alábbi eredményt kapjuk, a leggyakoribb legelöl sorrendben. (Egy olyan egyszerű metaadat struktúra, mint a Dublin Core, nem teszi lehetővé a legrelevánsabb rendezést.) Cím Szerző Dátum A szemantikus világháló elmélete és gyakorlata Szemantikus web Bevezetés a tudásalapú Internet világába Szeredi Péter, Lukácsy Gergely és Benkő Tamás Gottdank Tibor 2005 Explorers guide to the semantic web Thomas Passin 2004 Semantic Web Servers - Engineering the Semantic Web Graham Moore 2003 Information Architecture with XML Peter Brown 2003 BookBuilder: Content Repurposing with Topic Maps Nikita Ogievetsky & Roger Sperberg 2003 The TAO of Topic Maps Steve Pepper 2003 Egy pillantást vetve erre a táblázatra láthatjuk, hogy a fenti dokumentumok legtöbbje nem elsősorban a szemantikus webről szól, hanem a szemantikus világhálóval összefüggő témákról. Viszont ha a szerzők nem szerepeltetnék a szemantikus webet kulcsszóként, akkor azok, akik a szemantikus webre kerestek, egyáltalán nem találtak volna rá az előadásaikra. Egy másik problémája ennek a korpusznak, hogy a szerzőknek maguknak kellett meghatározniuk a saját kulcsszavaikat, ami azt jelenti, hogy a kulcsszavak megválasztása meglehetősen eklektikus lehet. Íme a fent említett korpusz néhány szokatlanabb kulcsszava véletlenszerűen kiemelve: xml, Dublin Core, egyetemi tankönyv, ontológia, tudásszervezési rendszer, funkcionális kompozíció, szemantikus, Topic Maps, Magyarország újkori története stb. Nyilvánvaló, hogy ezek több ok miatt sem jó kulcsszavak. Szintén problémát jelentenek ugyanazon kulcsszó különböző formái, illetve a szorosan összefüggő kulcsszavak. A korpuszban találkozhatunk az intelligens világháló (a szemantikus web szinonimája), az RDF, OWL (a szemantikus web formátumai) stb. kifejezéseket. Ezzel az a probléma, hogy négy kulcsszó utal két tárgyra és ez a két tárgy

16 nagyon szorosan összefügg egymással. Ez egyáltalán nem derül ki, és a felhasználónak vagy előre kell ezt tudnia vagy egyszerűen keresnie kell, ha rá akar jönni. Összegezve megállapíthatjuk, hogy a leghasznosabb metaadatok egy dokumentumról a kulcsszavak, mivel egyedül ezek írják le egyértelműen, hogy miről szól a dokumentum. A többi metaadat hasznos a dokumentum menedzseléséhez, illetve segít a felhasználónak eldönteni, hogy melyik keresési találatot akarja alaposabban megnézni. 3.2 Tárgyszavas osztályozás Garshol (2004) a tárgyszavas osztályozással folytatja a tudásszervezési rendszerek bemutatását. A könyvtári osztályozás a 19. század végén alakult ki. Addig is létezett tartalmak csoportosítása, de a fogalmat a mai értelemben csak ettől kezdve használjuk. A könyvtár funkciói változnak. Régen a megőrzés dominált. Az állomány kialakítása, megőrzése volt a cél, a használat elsődleges preferenciává később vált. Ma a könyvtár már nem csak könyveket, hanem minden típusú információt gyűjt és szolgáltat. A könyvek az emberi ismeretek és tudományok minden területéről merítik tárgyukat. A tartalmak alapján történő osztályozás kapcsolata nyilvánvaló a valósággal és a tudományok osztályozásával. A könyvtári osztályozás és a tudományok osztályozása között azonban lényeges elvi és gyakorlati különbségek vannak. Elvi különbség, hogy a tudományok osztályozásában a természet és a társadalom jelenségei az adott kor tudományának színvonalán közvetlenül tükröződnek, ellenben a könyvtári szakrendszerekben, a dokumentumokban felhalmozódott és a különböző korok tudományosságát tükröző ismeretek egyszerre és eltérő szinteken jelentkeznek. Gyakorlati különbségek a következők. - A tudományok osztályozása valamilyen tudományos dolgozat formájában valósul meg, mely a tudomány területeinek és fogalmainak körülhatárolásával és meghatározásával zárul; - A könyvtári szakrendszerek az ismeretek és tudományok fogalmait, és azoknak egymással való összefüggéseit a könyvek gyakorlati osztályozását biztosító táblázatokban rögzítik, szabályrendszerekben adják meg. A tudományok osztályozásának csak tartalmi, módszertani, szervezeti elemei vannak; - A könyvtári osztályozásnak a dokumentumok fizikai oldalát, megjelenési formáját is ki kell fejeznie. A tudományok osztályozását csak tartalmi határok zárják körül; - A könyvtári osztályozásban általános, interdiszciplináris enciklopédikus és vegyes tartalmú művek osztályozására is gondolni kell.

17 - A tudományok osztályozásának célja elméleti szempontból a tudomány fejlődésének számbavétele, gyakorlati célja pedig a tudomány rendszerének (oktatás, kutatás) szervezése; a könyvtári osztályozás gyakorlati célja a szakkatalógus vagy más tájékoztatási, információkereső eszköz létrehozása, és ennek segítségével a kutatási és egyéb olvasói igények támogatása. A könyvtári osztályozásnak elsődlegesen tehát gyakorlati célja van, és a tudományok osztályozásának tükrözése csak másodlagos, eszköz szerepet játszik. A könyvtári osztályozás célja az információk és hordozóik, a dokumentumok visszakeresésének biztosítása. Azt az eszközt, melynek segítségével az osztályozást végezzük, osztályozási rendszernek vagy információkereső nyelvnek nevezzük. A könyvtári osztályozás rendszerint a következő három funkció mentén értelmeződik: - a dokumentumok feltárása; - a dokumentumok tárolása; - a visszakeresés biztosítása. A tárgyszavas osztályozás pedig minden olyan tartalomosztályozást jelent, amely az objektumokat azok alapján a tárgyak alapján csoportosítja, amelyről szólnak. Ennek számos formája lehet és általában egyéb technikákkal van kombinálva azért, hogy komplex megoldást nyújtson. A nyelvi alapozású osztályozási eljárások legelterjedtebb típusa a tárgyszavas osztályozás; lényege, hogy a dokumentumtartalmak leírására a természetes nyelv szavait, kifejezéseit használja szabályozott formában (tárgyszavakat). Az osztályozó fogalmakat egymástól függetlenül hozza létre, tehát ez egy mellérendelő osztályozási eljárás. A tárgyszavas osztályozási rendszerek igen rugalmasak, könnyen fejleszthetők és egyszerűek, amellett, hogy magas követelményeket támasztanak. A tárgyszavaktól elvárják, hogy az osztályozott szakterület, tudomány teljes lefedését adja; tehát a szakterületet hézagmentesen fedje le. (Sándor, 2002) Megengedett, sőt szükséges hogy legyenek átfedések; a cél az osztályozásra szánt dokumentum teljes, sok szempontú leírása a tárgyszavak segítségével. A tárgyszavas osztályozási rendszerek feladatai: a tárgyszavakkal le kell tudni írni a dokumentum lényeges vonásait; a tárgyszavak rendje meghatározza a tárolási rendszer (pl. katalógus) szerkezetét és a tárgyszavaknak alkalmasnak kell lenniük, hogy a használó kérdéseit kifejezzék. A tárgyszó a dokumentum, információ, szöveg lényegének leírására kiválasztott tömör és egyértelmű kifejezés. (Sándor, 2002) Tárgyszók fajtái (Sándor, 2002 alapján): - tudomány neve (logika, művelődéstörténet, alkalmazott matematika) - tudományos elmélet neve (relativitáselmélet, értéktöbblet elmélet)

18 - tudományos irányzat, iskola neve (romantika, szellemtörténet) - tudományos témák, eljárások megnevezései (répatermesztés, bibliográfia) - létezők, dolgok, élőlények nevei (bazalt, sugárzás, ragadozók) - folyamatok, történések nevei (párolgás, földrengés) - módszerek megnevezései (kísérlet) - tudományos műszók (kamat, eposz) - formai tulajdonságok, műfajok (évkönyv) - intézmények, testületek, szervezetek nevei (Magyar Könyvtárosok Egyesülete) - dolgok, folyamatok tulajdonságai (képlékeny) - események nevei (mohácsi csata) - földrajzi nevek, helyszín (Duna folyó) - időpontok, időtartamok, korszakok neve (Bach-korszak, századforduló) - személynevek, alkotások neve (Ady Endre, Biblia) - közismert rövidítések (IFLA, FTC) A tárgyszavas osztályozás és a metaadat között az a kapcsolat, hogy azok a metaadat tulajdonságok és mezők, amelyek különálló tárgyak felsorolásával közvetlenül leírják, miről szólnak az objektumok, tárgyszavas osztályozást használnak. Ez az alapvető vonás minden tárgyi alapú osztályozásban közös, és amint látni fogjuk, az egyes technikák közötti különbségek nem abban vannak, hogy mit mondanak az objektumokról, hanem abban, hogy mit mondanak a tárgyakról. Azt hangsúlyoznunk kell, hogy különbség van az osztályozott objektumok leírása és az azok osztályozásához használt tárgyak leírása között. A metaadat objektumokat ír le, és ennek egyik módja, hogy összekapcsolja az objektumokat azokkal a tárgyakkal, amelyekről szólnak. 3.3 Ellenőrzött szótárak Az ellenőrzött szótárak egy meglehetősen tág fogalom, de itt most megnevezett tárgyak egy zárt listáját értjük alatta, amelyet osztályozásra lehet használni. A könyvtártudományban ez néha jelölő nyelvként ismeretes. Az ellenőrzött szógyűjtemény alkotóelemeit általában kifejezésként ismerjük, ahol a kifejezés egy bizonyos fogalom egy bizonyos neve. (Ez nagyjából ugyanolyan, mint a kulcsszó közértelmű meghatározása). Szokás különbséget tenni kifejezés és fogalom között úgy, hogy az előbbi egy fogalom neve, és hogy ugyanannak a fogalomnak több neve is lehet, és hogy ugyanaz a kifejezés több tárgyat is megnevezhet. Egy ellenőrzött szógyűjtemény kifejezésekből áll és nem közvetlenül fogalmakból áll, és általában véve minden kifejezés egyértelmű, hiszen csak egyetlen tárgyra vonatkozik (azaz nincsenek duplikált kifejezések). A tárgy, ahogy eddig használtuk ezt a kifejezést, megfelel a fogalomnak.

19 Pepper (2009) amikor tárgyközpontú forradalomról beszél, akkor is lényegében egy olyan világot vizionált, amelyben a fogalmak állnak a tudásreprezentáció centrumában és nem a számítógépes alkalmazások. A szógyűjtemény kifejezésnek is némiképp eltérő jelentése van az ellenőrzött szógyűjtemény, illetve a metaadat szógyűjtemény kifejezésekben. Az első, amint azt megállapítottuk, bizonyos jelölők vagy osztályozásra használt tárgyak készlete, míg a második objektumok tulajdonságainak készlete. A szótárak ellenőrzésének célja annak megakadályozása, hogy a szerzők semmit sem jelentő kifejezéseket definiáljanak, esetleg túl tág vagy túl szűk értelműeket, illetve annak megelőzése is, hogy a különböző szerzők hibásan betűzzék vagy enyhén eltérő formáját használják ugyanannak a kifejezésnek. Vagyis elkerülhetjük, hogy a szerzők a téma navigációs térkép és a tématérkép kifejezést használják, ha rákényszerülnek a tématérképek választására. Azt is megakadályozzuk, hogy a fukcionális összetétel kifejezést használják a helyes funkcionális összetétel helyett. Az ellenőrzött szógyűjtemény legegyszerűbb formája egy kifejezéslista és semmi több. 3.4 Taxonómiák Horváth Zoltánné (2006) definíciója szerint a taxonómia olyan ellenőrzött szótár (egyben osztályozási rendszer), amely a dokumentumokat, illetve egyéb információforrásokat az általuk képviselt fogalmak hasonlósága alapján rendezi és csoportosítja automatikus osztályozás esetén klaszteres, nyelvi analízis, illetve numerikus, statisztikai, vagy kombinált módszerek alapján, viszonylag alacsony hierarchiaszinten, ezért számítógépes kezelése áttekinthetőbbnek tűnik, mint a bonyolultabb struktúrákat képviselő osztályozási rendszereké. Garshol (2004) ugyanezt a következőképpen írja le: Taxonómiának egyrészt azokat a hierarchikus struktúrákon alapuló osztályozási rendszereket nevezik, melyeket tudományos rendszerező céllal készítenek. A biológiában az élő szervezetek (és szervek) rendszerei taxonómiák. A tudománytanban az ismeretterületek rendszerét nevezik taxonómiának. A tanuláselméletben és a mesterséges intelligenciakutatásban is kialakultak taxonómiák és a nyelvészetben is. A mérhető különbségeken és hasonlóságokon alapuló hierarchiákat numerikus taxonómiának nevezik. Gazdasági szervezetekben véletlenszerű, hogy a kialakított hierarchikus rendező rendszert osztályozási rendszernek vagy taxonómiának nevezik. A szoftverkínálók egy része pl. automatikus és szemiautomatikus taxonómiákat kínál, más részük meg automatikus osztályozási rendszereket. Az információkereső és osztályozási célból készült hierarchikus rendszereket általában osztályozási rendszereknek nevezik, de az átmenet nem éles az adminisztráció célból készült

20 osztályozási rendszerek/taxonómiák felé. Az áruk esetében áruosztályozásról (TEÁOR = Termékek Átfogó Osztályozási Rendszere), a foglalkozások esetében ugyancsak osztályozásról (pl. FEÁOR) szoktak beszélni, de egyes publikációkban használják (szinonim kifejezésként) olykor a taxonómia szót is. Ha értékeken alapuló adminisztratív hierarchiákat készítenek, akkor inkább a taxonómia szót használják (lásd a numerikus taxonómia esetét is). Vagyis: A tudományos, numerikus és értékalapú, hierarchián alapuló rendező rendszereket taxonómiának nevezik. Vállalati körülmények között is előfordul, hogy az alkalmazott osztályozási rendszert taxonómiának nevezik. Az információkereső, osztályozási, besorolási célú, hierarchián alapuló (gyakorlati) rendező rendszereket általában és főleg könyvtári-dokumentációs körülmények között osztályozási rendszernek nevezik. Elvileg, legáltalánosabb értelemben a taxonómia és a hierarchikus osztályozási rendszer kifejezések szinonimák, mindkettő hierarchián alapuló rendező rendszert jelent. Rendező rendszer: fogalmak meghatározott célból kialakított rendszere (lehet hierarchikus taxonómia és osztályozási rendszer) és enumeratív (ilyen a felsoroló rendező rendszer, mint például egy egyszerű online mutató), továbbá összetett (ilyen a deszkriptoros.) A rendező rendszereket foglalják ellenőrzött szótárakba (tárgyszójegyzékekbe, tezauruszokba, osztályozási táblázatokba, taxonómiai struktúrákba stb.). (Ungváry 2004) A Wordmap meghatározása szerint a taxonómiaszoftver lehetőséget ad egy szervezet számára, hogy a szervezeti információk rendezésére szabványos sémát hozzon létre. A taxonómia-eszközzel ellenőrizhetők azok a kategóriák, terminológiák, és metaadatok, amelyeket a szervezet az információs rendszerében használ(hat), elősegítve a navigáció sikerességét. Egy másik forrás leszögezi, hogy a taxonómia olyan navigációs eszköz, amelyben a szabványos metaadatok és az ellenőrzött szótár lexikai egységeinek fejlesztése kombináltan adja azt a navigációs struktúrát, amely segít a felhasználónak a szükséges tartalmat elérni. Összességében a következő megállapítások jellemzők (Horváth 2006): - a taxonómia webes környezetben biztosítja az információforrások, illetve dokumentumok csoportba rendezését hasonlóságaik alapján a tartalomfeltárás céljára; - szisztematikus és szintetikus osztályozási eszköz a tudás-, illetve ismeretreprezentáció céljára, hierarchikus struktúrában tartalmazza a fogalmakat, és terminusai a tudásmegosztás nézőpontjából fejlesztik az adott közös nyelvet. A taxonómia kifejezést régóta széles körben használják és ki is használják olyannyira, hogy ha valamire taxonómiaként utalunk, akkor tulajdonképpen bármire vonatkozhat, bár általában valamilyen absztrakt szerkezetet jelent. A taxonómiák eredete Carl von Linné nevéhez köthető, aki a 18. században hierarchikus osztályozási rendszert fejlesztett ki az élet formái

21 számára, és ez ma a modern zoológiai és botanikai osztályozás és a fajok névrendszerének alapja. Jelen tanulmányban a taxonómia kifejezésen olyan tárgyi alapú osztályozást értünk, amely a kifejezéseket az ellenőrzött szógyűjteményben hierarchiába rendezi, de nem csinál semmi mást, bár a való életben azt tapasztalhatjuk, hogy a taxonómia kifejezést összetettebb struktúrákra is használják. E megközelítés előnye, hogy lehetővé teszi azt, hogy az egymással összefüggő kifejezéseket csoportosítsuk és úgy kategorizáljuk, hogy könnyebben megtaláljuk a megfelelő kifejezést akár kereséshez akár egy objektum leírásához akarjuk azt használni. Például ez segítheti a felhasználókat, mivel egyértelművé teszi, hogy van két szorosan összefüggő kifejezés: tématérképek és XTM, és segít kiválasztani a megfelelőt. (Vagy legalábbis jelzi a felhasználónak, hogy esetleg mindkettővel próbálkoznia kéne.) Példa taxonómiára (Garshol, 2004) Az ábra a tématérképek elhelyezkedését jelzi egy hipotetikus taxonómiai struktúrában. Amint látható, ez a struktúra könnyen segíthet kiválasztani a megfelelő kifejezést, ha valaki információt keres a tématérképekről vagy osztályozni akar egy tématérképekről szóló dokumentumot. A taxonómia a tárgyak leírásával segíti a felhasználót; a metaadat szempontjából igazán nincs különbség egy egyszerű ellenőrzött szógyűjtemény és egy taxonómia között. A metaadat csupán objektumokat kapcsol tárgyakhoz, míg itt a tárgyakat hierarchiába rendeztük. Tehát a taxonómia az osztályozáshoz használt tárgyakat írja le, de ő maga nem metaadat; mindazonáltal használható metaadatban. A következő ábra ezt mutatja be.

22 A taxonómiák és metaadatok (Garshol, 2004) Ebben a diagramban a kék vonalak a metaadatok, míg a fekete vonalak, amelyekből a taxonómia áll, a tárgyi alapú osztályozási séma részei. A megkülönböztetés onnan ered, hogy a kék vonalak az előadásról szóló állítások, de a fekete vonal a tématérképek és a tudásreprezentáció között nem az előadásról, hanem a tématérképekről szóló állítás. Ennek egyik következménye, hogy ha van egy másik előadásunk a tématérképekről, nem kell megismételnünk, hogy a tématérképek a tudásreprezentáció alá tartozik. A taxonómia több információt nyújt a fogalmakról, és ezt a felhasználó segítése érdekében teszi. Mindazonáltal míg a taxonómia segíti a felhasználót, a fogalmakkal kapcsolatos számos fontos információról nincs szó, úgy mint: - A tényről, hogy az XML Tématérképek és az XTM szinonimák. - Az XTM és a tématérképek közötti különbségről. (Sok felhasználó ezeket egymással felcserélhetőként használja, pedig nem ugyanazt jelentik.) - A tényről, hogy a téma navigációs térképek a tématérképek szinonimája, de már nem használatos. - A tématérképek és a tárgyi-alapú osztályozás, illetve a tématérképek és a szemantikus web közötti kapcsolatról. - Az XTM és az XML, illetve a HyTM és az SGML közötti kapcsolatról. - A HyTM és az XTM közötti hasonlóságról, illetve arról, hogy miben különböznek a TMQL-től és a TMCL-től, valamint a TMQL és az XQuery közötti hasonlóságról. Mindez következményekkel jár a végfelhasználó számára, hiszen ez azt jelenti, hogy pontosan a megfelelő kifejezést használva kell keresnie, pont a megfelelő helyen kell

23 keresnie ahhoz, hogy megtalálja a kifejezéseket stb. Egy taxonómia, ahogy azt itt definiáltuk, nem tudja kezelni ezeket a problémákat, bár észre kell vennünk, hogy sok rendszer, melyekre taxonómiaként utalunk, bizonyos mértékben tudja kezelni, mivel túllép az itt meghatározott alapmodellen. Szóljunk még néhány szót a vállalati alkalmazásokról is. A taxonómiákat vállalati környezetben gyakran nevezik a tudásmenedzsment (TM) közösség által fejlesztett tudásfeltárás (tudásreprezentálás) explicit eszközének. A taxonómia olyan terminusokat tartalmaz, amelyek a tudásmegosztás nézőpontjából megfelelnek adott környezet közös nyelvének. Nem szükséges egy tudományág teljes fogalmi reprezentációját képviselnie, de kialakításakor nélkülözhetetlen segítséget jelent a fogalmi elemzés. Gazdasági szervezeteknél az üzleti vagy szakmai tevékenység (misszió) a vezérelv, amelynél a legfelső kategória a misszióra vonatkozó általános megnevezés, és ezt követik olyan általános és gyűjtőfogalmak, mint: szolgáltatás, marketing, termékek stb. A megnevezések kodifikálását a tudásmenedzsment közösség vagy szerkesztőbizottság végzi egy tesztcsoport közreműködésével. A tesztelés társult eredménye a megnevezések megtanulása is. A konszenzuson alapuló megnevezések eltérőek is lehetnek az általánosan használtaktól a fogalmi definícióban szerepelnek az értelmezés helyi sajátosságai. (Horváth 2006). 3.5 Tezauruszok Garshol (2004) a tezauruszokról is hosszas áttekintést ad, ebben a részben az ő gondolatmenetét tovább folytatva mutatjuk be ezeket a tudásszervezési rendszereket. A taxonómiához hasonlóan a tezaurusz kifejezést is mindenféle tárgyi alapú osztályozási struktúra leírására használják, habár a tezauruszok szerkezetét két ISO-szabvány is meghatározza. Az ISO 2788 az egynyelvű tezauruszokat írja le, míg az ISO5964 a többnyelvűeket. Mi itt most abban az értelemben fogunk a tezauruszokról beszélni, ahogy azokat az ISO-szabványok meghatározzák, miközben azt is észrevesszük, hogy a gyakorlatban sok felhasználó valamennyire kibővíti a szerkezetet, és néhány esetben a kifejezést olyan struktúrákra is használják, amelyek az itt leírtaktól lényegesen különböznek. A tezaurusz olyan szótár, amelyben a szókészletet a szavak expliciten kifejezett összefüggéseivel együtt adják meg. Ezért nevezik ellenőrzött szótárnak. A szócikkek (tezauruszcikkek) azonban nem csak a szemantikai és morfológiai (együttesen paradigmatikus) összefüggéseket hanem a vezérszóval összefüggő magyarázatokat, meghatározásokat, használati, történeti, forrás stb. megjegyzéseket is tartalmaznak, ezért a tezaurusz a terminológiai szótárra is emlékeztet.

24 Elvileg sokféle tezaurusz készülhet (nyelvészeti, terminológiai, információkereső); itt az utóbbival foglalkozunk. A tezaurusz görög szó /thesaurus/, kincset, kincstárat jelent. A tezaurusz szó maga az idők folyamán több értelmet kapott: - tudományos tezaurusz ókorban és koraközépkorban: valamilyen nagy tudományos gyűjteményre, anyaggyűjteményre vonatkozott. - Nyelvészeti tezaurusz a 19. századtól egy nyelv szókincsét felölelő, a szavak, kifejezések relációit is bemutató szótárat jelentett (pl. Roget angol nyelvi tezaurusza) - Információs tezaurusz (1960-as évektől) az információk rendszerezett és sokrétű feldolgozását és keresését segítő fogalomgyűjtemény (a fogalmakat pontosan, megbízhatóan, sok szempontúan tükrözi) (a továbbiakban tezauruszként ezt jelöljük) A tezauruszok alapvetően a fent leírt taxonómiákból indulnak ki és úgy terjesztik ki azokat, hogy jobban leírhassák a világot azáltal, hogy nem csak a tárgyak hierarchiába való rendezését teszik lehetővé, hanem a tárgyakról szóló egyéb állítások megfogalmazását is. Fogalmi kapcsolatok vizuális megjelenítése (Forrás: Az ISO 2788 a következő tulajdonságokat határozza meg a tárgyak leírásához (a hagyományos angol nyelvben bevett rövidítésekkel éltünk Garshol 2004 alapján) BT A broader term (tágabb kifejezés) rövidítése, a hierarchiában fölötte álló kifejezésre utal: annak a kifejezésnek tágabb vagy kevésbé specifikus jelentésűnek kell lennie. A gyakorlatban néhány rendszer lehetővé teszi, hogy egy kifejezésnek több BT-je legyen, míg más rendszerekben erre nincs mód. (Létezik egy inverz tulajdonság is, az

25 ún. NT narrower term, azaz szűkebb kifejezés, amelyre a BT utal.) Mondhatnánk azt is, hogy a fent leírt taxonómiák olyan tezauruszok, amelyek csak a BT/NT tulajdonságokat használják a hierarchia létrehozásához, és nem használják egyik lent leírt tulajdonságot sem, tehát kijelenthetnénk, hogy minden tezaurusz tartalmaz egy taxonómiát. SN Ez a kifejezéshez csatolt karakterlánc, amely annak a tezauruszon belüli jelentését magyarázza meg. Ez azokban az esetekben lehet hasznos, amikor a kifejezés pontos jelentése nem egyértelmű a kontextusból. Az SN a scope note rövidítése. Mivel a felhasználók gyakran használják az XTM kifejezést a tématérképekre, hasznos lenne az XTM-hez egy olyasmi scope note-ot adni, hogy A tématérképek sztenderd XML csereformátuma. A tématérképekről beszélve általánosságban, és nem csak specifikusan a formátumukról, használja a tématérképek kifejezést. USE Egy másik kifejezésre utal, amely az adott kifejezésnél jobban kedvelt; arra utal, hogy a két kifejezés egymás szinonimája. (Létezik egy inverz tulajdonság is, az UF.) Például a téma navigáviós térképekre tehetnénk egy USE tulajdonságot a tématérképekre utalva. Ez azt jelentené, hogy elismerjük a téma navigációs térképeket, de a tématérképek ugyanazt jelenti és ezért az utóbbi használatát javasoljuk. Ha ezt tesszük, akkor a tématérképeken is lenne egy UF tulajdonságunk a téma navigációs térképekre utalva, mivel ezt jelöli a USE kapcsolat. TT Ez a top term (top kifejezés) rövidítése, amely az adott kifejezés legfelső ősére (topmost ancestor) utal. Az ezen tulajdonságnak a másik végén lévő kifejezés az, amelyet akkor találnánk, ha a BT tulajdonságot követnénk egy BT nélküli kifejezés eléréséig. Szoros értelemben ez a tulajdonság redundáns, mivel nem hordoz többlet információt, bár talán hasznos lenne. RT A related term (kapcsolódó kifejezés) rövidítése, az adott kifejezéshez kapcsolódó kifejezésre utal, amely azonban az adott kifejezésnek nem szinonimája és nem is tágabb/szűkebb kifejezése. A tématérképek esetében használhatnánk ezt annak kifejezésére, hogy a tárgyi osztályozás és az ontológiák a tématérképekhez kapcsolódó kifejezések. Röviden, a tezauruszok sokkal gazdagabb szókincset (vocabulary) kínálnak a kifejezések leírásához, mint a taxonómiák, és emiatt sokkal erősebb eszközök. Amint látható, ha

26 taxonómia helyett tezauruszt használnánk, számos gyakorlati problémát megoldanánk az objektumok osztályozásával, illetve keresésével kapcsolatban. Magyarországon a legnagyobb általános tezaurusz az Országos Széchényi Könyvtáré, amelynek kereshető változata a címen érhető el. A következő kép ebből mutatja be a kutya szót, annak kapcsolódó fogalmaival együtt. 3.6 Facettás osztályozás A facettás osztályozás kifejezést számos különböző dolog jelölésére használják. Eredetileg S.R. Ranganathan javasolta az 1930-as években (Ranganathan 2002), és úgy működik, hogy egy bizonyos számú facettát határoz meg, amelyekre a kifejezések feloszlanak. A facettákra tekinthetünk úgy is, mint különböző tengelyekre, amelyek mentén osztályozhatjuk a

27 dokumentumokat, és minden facetta tartalmaz egy bizonyos számú kifejezést. A kifejezések leírásának módja a facettákon belül változó, bár általában egy tezauruszféle struktúra a használatos, és általában egy kifejezés csupán egyetlen facettához tartozhat (Svenonius, 2000) A facettás osztályozás egy konkrét digitális könyvtár vonatkozásában (Forrás: Maria Theodoridou, Martin Doerr 1998) A facettás osztályozás lényegét legjobban Horváth Tibor és Sütheő Péter (2003) írják le. Az információkereső nyelvek önálló típusát jelenti. Nincs ellentétes típuspárja, mert az összes többi, nem facettás információkereső nyelv kínálná magát erre, de a facetta elv megjelenhet alkalmazási előírásként bármely másik indexelő-osztályozó eljárásban. A facetta jelentését leginkább a magyar vetület kifejezés adja vissza: eszerint vetületes osztályozásnak is lehetne hívni. A facetta minden kognitívum számára ugyanazt a kérdést teszi fel: az ismérvek sorozata, a logontartalom milyen arculatot ölt az indextételben? Hogyan kell az ismérveket elhelyezni az információt leíró ismérveket tartalmazó vetületek rendjében? Egy rádiókészülék mint egy tétel ismérve lehet egy folyamat (pl. munkafolyamat) tárgya. Lehet végterméke. Lehet tulajdonságok hordozója. Lehet eszköz, ha rádióval, a rádió segítségével egy végbe valami. A facettás osztályozás szerint egészen más a rádió szerepe, ha más vetületben helyezkedik el. A facettás osztályozás fordulópontot jelentette az információtudomány történetében. Ugyanis egy feldolgozási egységhez rendelt ismérvsorozat ugyanúgy nem áll össze

28 indextétellé, ahogyan a szavaknak egy kupaca még nem alkot mondatot. Módot kell találni a viszonyok meghatározására. Ezeket a viszonyokat az ismérvek szótárába, tárgyszórendszerekbe, tezauruszokba, hierarchiákba igyekeztek beépíteni, még az indexelési-osztályozási folyamat előtt. A facettás osztályozás volt az első hatékony eljárás arra, hogy az ismérvek kapcsolata magában az indextételben jelenjenek meg. (kezdetben még tartotta magát az a tévhit, hogy a minden egyes tétel ugyanazokkal a facettákkal írható le.) A facettás osztályozás kidolgozója Ranganathan, bár az elv egészen Arisztotelészig vezethető vissza. Ranganathan szerint a facetta bármely téma összetevőjét megjelenítő általános fogalom. Nála még öt facetta létezett, amelyek bizonyos szintaxist kölcsönöztek az indextételnek. A facettás osztályozás azon a dokumentumosztályozási elven alapul, hogy minden facettából egy kifejezést kiválasztva leírjuk a dokumentumot az összes különféle tengely mentén. Ezzel a dokumentum sok különböző perspektívából leírható. Ranganathan eredeti javaslata (Kettőspontos Osztályozás néven is ismeretes) öt facettából állt: Személyiség Anyag Energia Tér Idő Az eredeti szándék szerint ez a facetta a dokumentum elsődleges subject-je számára van, és a főfacettának tartjuk. Az anyag vagy állomány/lényeg/összetétel, amellyel a dokumentum foglalkozik. A folyamatok vagy tevékenységek, amelyeket a dokumentum leír. A dokumentum által leírt helyek. A dokumentum által leírt időintervallum. A facettás osztályozás talán nagyon különbözőnek tűnik egy tezaurusztól, de valójában a tekinthető úgy is, mint egy nagyon fegyelmezett módja a tezaurusz építésének, és használható osztályozási célokra is. Létezik egy XML csereszintaxis a facettás osztályozás számára, amely XFML-ként (exchangeable Faceted Metadata Language, azaz Facettás Metaadat Csereszintaxis) ismeretes, és az XTM inspirálta és vannak is azzal közös vonásai. Az XFML nem kívánja meg semmilyen specifikus facettakészlet használatát, sem az egyes facettákon belüli specifikus

29 kifejezéskészletét, hanem egy tezaurusz-szerű struktúrát használ a kifejezésekhez a facettákon belül. (van Dijck, 2003) Létezik egy általános nézet a facettás osztályozásról, amely szerint minden facettát addig a pontig általánosítunk, amíg általános tulajdonsággá válik, a dokumentum fogalma pedig annyira általános, hogy bármilyen típusú objektum lehet a jelentése. E szerint a nézet szerint csak kis különbség van a facettás osztályozás és az ontológiák között. Az ontológiák szintén tudásszervezési rendszerek, amelyek a jelen módszertani útmutatóban kiemelt jelentőséggel bírnak, ezért ezeket önálló fejezetben tárgyaljuk.

30 4 Az ontológia fogalma Az ontológia eredetileg filozófiai terminus, amely a világ létezőinek valamint a lételméletnek a megnevezésére szolgál. Kizárólag ez a kontextus határozta meg az ontológiákról szóló diskurzusokat egészen az elmúlt néhány évtizedig. A fogalom az 1970-es években nyert új jelentéseket, amikor a mesterségesintelligencia-kutatásban a szoftverekkel generált mesterséges világok megnevezésére is használták. Később a tudásmenedzsmentben az es években kezdtek ontológiákról beszélni a formális logikai leírásokkal ellátott generikus hierarchiaszerkezetekkel kapcsolatban. Az ontológiák a szemantikus-web fejlesztések kapcsán kaptak különösen nagy figyelmet az elmúlt években. Azt hogy pontosan milyen szerepet játszanak az ontológiák a szemantikus web működési mechanizmusaiban, Berners-Lee, Handler és Lassila (2001) a következőképpen magyarázzák. Elképzelhető, hogy két adatbázis különböző azonosítókat használ azonos dolgokra. A programnak, amely össze szeretné hasonlítani, vagy kombinálni a két adatbázisból származó adatokat egymással, tudnia kell, hogy a két terminus ugyanazt jelenti. Ideális esetben a program képes felkutatni az ilyen közös jelentéseket, bármilyen adatbázissal is találkozik. Az ilyen problémákra a szemantikus web harmadik nagy komponense jelenti a megoldást, az ún. ontológiák. Szakadát István (2007) hívja fel a figyelmet arra, hogy az informatika és a tudásmenedzsment területén szerencsésebb lenne a formális ontológia vagy ipari ontológia terminusokkal élni. Tény, hogy így mindez világosan elkülöníthető lesz a filozófiai fogalom eredeti jelentésrétegeitől. Az ontológia fogalma vonatkozásában most kizárólag az informatika és a tudásmenedzsment területén ismert definíciókat soroljuk fel a főbb tartalmi elemekre koncentrálva a teljesség igénye nélkül. A definíciók tekintetében részletesebben kitérünk az intelligens webes alkalmazásokban használatos meghatározásokra, köztük az ISO szabványban leírt Topic Maps technológia kapcsán született ismert definíciókra is. Az első és legalapvetőbb definíció Gruberttől származik, amelyet Szakadát, Szőts, Szaszkó (2006) a következőképpen mutat be. Talán a leggyakrabban idézett meghatározás Thomas Grubertől származik (1993a, 1993b), amely szerint az ontológia egy fogalmi rendszer konszenzuson alapuló, explicit, formális specifikációja. Mivel nagy vonalakban egy-két kiegészítéssel együtt a MEO-projekt számára elfogadhatónak tűnik ez a meghatározás, de

31 érdemes alaposabban kibontani, hogy pontosan mit is értünk a definíció egyes elemein. A mondatot az alábbi összetevőkre bonthatjuk: 1) egy fogalmi 2) rendszer 3) konszenzuson alapuló 4) explicit 5) formális 6) specifikációja. Bizonyos értelemben mindent meghatároz a definíció első két eleme, amely szerint az ontológiákban a létező dolgokra vonatkozó képzetekeinket reprezentáló fogalmakat akarjuk egységes rendszerbe foglalni (1). Ehhez természetesen alaposan körbe kell járni, mit is jelent a fogalom fogalma, illetve milyen típusait érdemes elkülöníteni, de ezzel itt most nem kell törődnünk. 1 Az ontológiák építésével azt a fajta paradigmatikus tudást akarjuk rögzíteni, ami a természetes nyelvi kommunikáció során a szó szintű nyelvi megnyilatkozásainkkal fejezünk ki. A fogalommal a világ valamilyen létező elemére, összetevőjére, dolgára akarunk utalni úgy, hogy jegyek, tulajdonságok felsorolásával kifejezzük a fogalom tartalmát (intenzióját) és rámutatunk a világ azon konkrét létező dolgaira, amelyek a fogalom terjedelmét (extenzióját) alkotják. Az ontológiákba azonban nem pusztán az egyes fogalmakat vesszük fel, hanem rögzítenünk kell a fogalmak közötti kapcsolatokat is. Amikor ilyet teszünk, akkor valamiféle struktúrát építünk a fogalmak halmazán, amivel túllépünk a fogalmak egyszerű felsorolásán, s valamilyen fogalmi rendszerről kell beszélnünk. Ezért kell beemelni a fogalmi rendszer (vagy másként: konceptualizáció) kifejezést a meghatározásunkba (2). Ebben az esetben kijelentéseket vagy formulákat, azaz a természetes nyelv mondat szintű megnyilatkozásainak megfelelő, igazságértékekkel jellemezhető logikai egységeket kell létrehoznunk (specifikálnunk) és egységes rendszerben konzisztensen kezelnünk (6). (Szakadát Szőts Szaszkó 2006) Szintén gyakran idézett meghatározás Ungváry definíciója, amely szerint az ontológia egy meghatározott ismeretterület formális modellje (Ungváry 2004). A definíció kevésbé szigorú, hiszen az előzőekkel ellentétben nem foglalkozik explicit módon a konceptualizálás kérdéskörével, hanem sokkal inkább adottságnak veszi azt, hogy egy ismeretterület formalizálása során fogalmak alkotására van szükség. Szintén nem foglalkozik a definíció a formalizálás mikéntjével, tehát az egyes a tudásszervezési rendszerben felsorolt fogalmak egymáshoz való viszonyát meghatározó lehetőségekkel. Egy meghatározott ismeretterület formális modellje bizonyos értelemben lehet egy tezaurusz is, hiszen abban is egy előre definiált modell által meghatározott keretek között, géppel olvasható formában (formalizáltan) vannak jelen az egyes fogalmak, amelyek a könyvtári dokumentumok osztályozása során deszkriptorokként kerülnek használatba.

32 A Gene Ontology Consortium ontológiájának részlete (Forrás: Ungváry Vajda) Megosztott konceptualizálás formális, explicit leírása (Vickery 1997, Horváth Tibor fordítása). megosztott: arra vonatkozik, hogy egy ontológia magáévá tette a megegyezéses tudást, azaz nem személyi vagy individuális, hanem egy szélesebb közösség által elfogadott. konceptualizálás: a világ jelenségeinek (fenomenon) absztrakt modellje azáltal, hogy e fenomenonnak releváns fogalma (concept) határozható meg; explicit: a használt fogalmak típusát jelenti, a használat megkötöttségeit, amelyeket határozottan definiálnak; formális: géppel olvasható (szabályokkal leírt, előírásos); Az ontológiák lényegében speciális taxonómiák, amelyek a mellett, hogy megmutatják a fogalmak egymáshoz képesti fogalmi hierarchiáját, a formális logikai szabályok megjelenítésével még többre képesek az emberi gondolkodás reprezentálásában. (Berners- Lee, 2001) Egy meghatározott ismeretterület formális modellje (Ungváry, 2004) Az ontológiákkal kihasználható a tulajdonságok generikus öröklődése a speciálisabb fogalmak irányába.

33 A szemantikus web fejlesztésekhez képest a tématérképekkel foglalkozó nemzetközi közösség ontológia definíciója lényegesen lazább. Az ontológiák meghatározása tématérképes környezetben nem egyezik a szemantikus webet fejlesztő közösség definícióival. A tématérképek esetében az ontológia meghatározott tématérképben használt téma-, név-, előfordulás-, asszociáció- és szereptípusok összessége. (Garshol 2007) Mindehhez célszerű a fogalmakat röviden értelmezni. Minderre ráadásul később az ontológiafejlesztés gyakorlatáról szóló fejezetben közvetlenül is szükségünk lesz. A tématérképek eredete az elektronikus indexek összeolvasztásán történő munkához köthető, ezért nagyon is tárgyi osztályozási technikát alkotnak. A tématérképek tulajdonképpen témák köré rendeződnek, és minden téma valamilyen valós dolog ábrázolására használatos. A fent használt terminológia szerint a témák fogalmakat jelölnek, ugyanúgy, ahogy egy jelölő nyelvben a kifejezések fogalmakra vonatkoznak. A tématérképekben a fogalmakat tárgyaknak hívjuk, és a szabvány hangsúlyozza, hogy bármi lehet tárgy. Téma (topic) A tématérképekben tárolt információ alapvető egységei a témák. Minden olyan dolgot témának kell tekintenünk, amelyről állítást kívánunk tenni. A témát meg kell nevezni, és biztosítani számára az egyértelmű címezhetőséget. A szemantikus web vízióban az egyértelmű címezhetőséget az URI-k (Universal Resource Identifier-ek) biztosítják, ahogy lényegében a tématérkép technológia esetében is. Minden témához rendelnünk kell egy olyan (külső) erőforrást, amely egyértelműen azonosítja a témát, és minden más témával szemben összetéveszthetetlenné teszi. A Topic Maps technológia alkalmazása során PSI-ket (Public Subject Identifier) használnak a témák azonosítására, de bármely ellenőrzött szótár elemei alkalmasak az egyértelmű címezhetőség biztosítására. Ilyen azonosíthatók lehetnek például a DBpedia szótár elemei. Asszociáció (association) A témák közötti relációkat az asszociációk írják le. Az asszociációk segítségével állításokat fogalmazhatunk meg két egymással összefüggő témáról. Az asszociációk esetében is szükséges lehet az egyértelmű címezhetőség biztosítására, így ezekhez is rendelhetünk azonosítókat. Előfordulás (occurence) A tématérkép technológia harmadik meghatározó elemei az előfordulások. A tématérképekben az előfordulások azok az elemek, amelyek tényleges információt hordoznak, és nem egy adott dolgot reprezentálnak, mint az asszociációk, vagy a témák. Megkülönböztetünk külső és belső előfordulásokat. Előbbiek a tématérképen kívüli erőforrásokra mutató linkek, utóbbiak a tématérképbe írt információk, magyarázatok, adatok, tények. Nevek és névtípusok (name types) Minden téma állhat különböző neveken. Minden témának van egy kitüntetett neve, amely szerepel az asszociációkban és amely az adott fogalom reprezentánsaként funkcionál. Ezen túl azonban bármennyi névtípust meghatározhatunk. Például beírhatjuk mindennek az angol nevét (tématérkép topic

34 map); de személyek becenevét is (Kovács István Kokó), vagy intézményi rövidítéseket (Központi Statisztikai Hivatal KSH). Szerepek és szereptípusok (role types) A témák közötti kapcsolatok definiálása során gyakran nagy jelentősége van annak, hogy egy téma milyen szerepben vesz részt egy relációban. Egy személy például kutatóként rendelkezik kutatási területtel, munkavállalóként vesz részt egy munkáltatói viszonyban, és például apaként vesz részt egy szülő-gyermek viszonyban. Ezen szerepek definiálására használják a szerepeket, szereptípusokat. A tématérképek világában az ún. TAO modell a fenti elemek legfontosabb három elemére, a témákra (topics) az asszociációkra (associations) és az előfordulásokra (occurences) utal. A tématérképekben szükség lehet bizonyos állítások irányának, bizonyos névtípusok érvényességi körének meghatározására. Erre szolgál az érvényesség (scope) definiálása. Ennek tipikus példája a nyelvi meghatározottság. Névtípusok esetében egy megnevezés csak bizonyos kontextusokban, nyelveken értelmezhető. Az alábbi ábra a tématérkép technológia általános modelljét mutatja be: A tématérképek egyszerűsített (TAO) modellje Ahogy a fenti ábrán is látható, minden tématérkép hátterében van egy ontológia, amely meghatározza a fogalmak hierarchikus rendszerét, egy egyszerű, néhány témát, tématípust, asszociációt és előfordulást tartalmazó tématérkép készítése során azonban ez nem feltétlenül tudatosul. Egy bonyolultabb, nagyon sok tématípust, generikus relációkat (elvont

35 fölérendelt nem- és alárendelt fajfogalmakat), tartalmazó tématérkép kidolgozása során előbb kell az ontológiát elkészíteni és csak azt követően megtölteni tartalommal (információval), azaz konkrét eseteket rendelni a típusokhoz. Ezt hívják ontológiavezérelt tématérkép-szerkesztésnek. (Pepper 2007, Tóth 2008) Az ontológiavezérelt tématérképszerkesztés során lehetőség van arra, hogy más készítse el az ontológiát és más töltse fel a tartalmat, hiszen más típusú szakértelemre van szükség a két művelethez. Erre fogunk példát mutatni a gyakorlati ontológiaszerkesztésről szóló fejezetben. A tématérkép ontológiák a humán interpretáció szempontjából nagyon hatékonyak: elsősorban erre optimalizálták ezeket. A géppel végeztetett következtetésekhez ugyanakkor nem kellően kifinomultak, hiszen nem formális logikákon alapulnak, így nem tudnak olyan mértékben konzisztensek lenni, mint az RDFS/OWL ontológiák. A következő ábra az olasz opera egy jeles alakjának az életművét mutatja be egy OKS segítségével elkészített tématérképben. A formális logikák hiánya egyrészt előny: biztosítja a világ létezőinek és az azok közötti kapcsolatok formalizálása szempontjából elengedhetetlen rugalmasságot. Ezért a tématérképek hatékonyan le tudják képezni a strukturálatlan információkat. (Kormos, Kovács, Tóth 2008) Másrészt viszont hátrány, mivel a tématérképek így nem állhatnak össze egy következtetésre is alkalmas globális metaadat-infrastruktúrává, amelynek létrehozása a szemantikusweb-fejlesztések végső célja, és amelyet a szakirodalomban több helyen reális célként fogalmaznak meg. (Newcomb 2003, Passin 2004, Pepper 2006) A MEO (Magyar Egységes Ontológia) projekt tapasztalatai alapján erősen kérdéses a felsőbb szintű ontológiák valódi haszna. Szakadát István szerint nemhogy az ontológiák tényleges ipari alkalmazásától messze vagyunk, de ma még mindenhol az alapok kialakításánál, megszilárdításánál tartanak.

36 Könnyen belátható, hogy minél szélesebb körben végezzük el a tudásreprezentációt, annál kevésbé tudunk mélyre hatolni az emberi gondolkodás struktúráinak modellezésében. Minél felszínesebb lesz a tudásreprezentáció, annál kevésbé lesz a kialakított rendszerünk alkalmas a következtetésekre, valós problémák megoldására. A tématérkép ontológiák kapcsán mindenképpen szót érdemelnek az azonosítási mechanizmusok. Míg az RDF/OWL ontológiák esetében az egyes fogalmak közötti kapcsolatok eleve jól definiált erőforrások között létesülnek. A tématérkép technológia esetében fogalmak vannak a középpontban, amelyeket URI-kkal utólag azonosítani kell. A tématérkép technológia PSI-ket (Published Subject Identifier/Indicator Publikált Tárgyazonosító/Indikátor) használ a fogalmak egyértelmű azonosítására. A PSI elsődleges célja, hogy két tématérkép összeolvasztásakor biztosítsa, hogy a számítógép felismerje azokat a témákat, amelyek a valóság ugyanazon létezőjére utalnak. Az OASIS Topic Maps Published Subject Technical Committee (OASIS Tématérkép Publikált Tárgyak Technikai Bizottság) azzal a céllal állt fel 2003-ban, hogy tématérképek és egyéb szemantikus technológiák (RDF, OWL) közötti interoperabilitást biztosító ajánlásokat dolgozzon ki júniusában jelent meg a PSI-kre vonatkozó ajánlás. (Pepper 2003) A dokumentum részletesen ismerteti a PSI-k legfőbb követelményeit. A PSI rövidítésnek két feloldása is van. A Published Subject Indicator (Publikált tárgyindikátor) egyértelműen azonosítja az adott tárgyat az emberek számára. Ez lehet egy szöveges definíció, egy audio, vagy vizuális reprezentáció. Egy város esetében például állhat a következő: Debrecen, magyar megyei jogú város, Hajdú-Bihar megye székhelye. A tárgyindikátorokat rendszerint egy önálló HTML oldalon helyezik el. A Published Subject Identifier (Publikált tárgyazonosító) a címzés, amely a gép számára azonosítja az adott dolgot. Amennyiben két témának azonos a publikált tárgyazonosítója, azt a számítógép összeolvasztáskor azonos témaként fogja kezelni. Az indikátor és az azonosító nem azonos a fogalommal, tárggyal, amelynek az identitását meghatározza. Ezért nem tekinthető PSI-nek, ha egy online elérhető dokumentum a saját URL-jével azonosítja magát. Megkülönböztethetők címezhető és nem címezhető dolgok. Csak a nem címezhetőknek van szükségük tárgyazonosítóra.

37 A Publikált tárgyi azonosítók működési mechanizmusa (Pepper, Schwab 2003 nyomán) Különbséget kell tenni a tárgyi azonosító és a publikált tárgyi azonosító között is. Publikált tárgyi azonosító, amelyet a tématérkép alkalmazásunk készítéséhez tettünk közzé, tárgyi azonosító ezzel szemben bármi lehet, ami a reprezentálni kívánt dolog identitását meghatározza (wikipédia oldal, egy adott személy címe, egy vállalat honlapja). A PSI-kkel szemben támasztott követelmények a következők: - A PSI-nek URI-nak kell lenni. - A Publikált tárgyazonosítónak egy humán interpretációra alkalmas publikált tárgyindikátorra kell mutatnia. - A Publikált tárgyindikátornak ki kell fejeznie az egyedi URI-t, amely publikált tárgyazonosítóként használandó. (Pepper 2003) Az OASIS bizottsága által a PSI-kre vonatkozóan megfogalmazott ajánlások a következők: 1. A Publikált tárgyindikátor ember által olvasható metaadatokat kell adjon saját magáról. 2. A Publikált tárgyindikátor megadhat géppel olvasható metaadatokat saját magáról.

38 3. Az első és a második ajánlás metaadatainak következetesnek, de nem feltétlenül azonosnak kell lenni. 4. A Publikált tárgyindikátornak jeleznie kell, hogy PSI-ként használandó. 5. Publikált tárgyindikátornak azonosítania kell a publikálóját. (Pepper 2003) Az ajánlás arra nem ad választ, hogy hogyan kezeljük azt a problémát, amikor egy dolgot több URL is egyértelműen azonosít. A hálózati társadalomban a kérdés sokkal életszerűbb. Egy személyt azonosíthatja az címe, a róla készült Wikipédia oldal, a saját honlapja, bármelyik profilja közösségi oldalakon (Iwiw, Facebook, LinkedIn). Tárgyak, fogalmak esetében Wikipédia oldal vagy a definíciói. Online szótárak definíciói ugyanúgy meghatározhatják a dolgokat, amelyekről állításokat kívánunk tenni. A különböző forrásokból származó tématérképek összeolvasztása akkor valósulhat meg, ha egy adott tárgyra vonatkozóan valamennyi alkalmazás ugyanazt a PSI-t alkalmazza, ugyanis a számítógép ebben az esetben lesz csak képes felismerni, hogy ezek ugyanazon valóságban létező dologról tesznek állításokat.

39 5 Ontológia szintaxisok Az ontológiákban lévő fogalmak leírására több szintaxis is létezik, amelyekkel az eltérő igényekhez igazodva lehetünk képesek a valóság formális reprezentálására. A következőkben először a szemantikus web ajánlásokban leírt leíró szintaxisokat mutatom be, amelyek közül a legfontosabbak az RDF és az OWL nyelvek. Ezt követően foglalkozunk a tématérképes közösség által kifejlesztett leíró nyelvekkel is, hiszen ezekről sokkal kevesebb szó esett a hazai és a nemzetközi szakirodalomban egyaránt az ontológiaépítéssel kapcsolatosan. A tématérkép technológia szabványos csereszintaxisa az XTM nyelv, de az ISO es szabványcsaládban (és azon kívül is léteznek további szintaxisok). 5.1 RDF A szemantikus web vízió alapját jelenti az RDF elképzelés, amelynek lényege, hogy a világhálón megjelenő tartalmat hármas állításokkal (ún. tripletekkel) írják le. A hármas állítások tagjai más állításokban is részt vehetnek, így a tartalmak valós asszociációs mezejükkel együtt jeleníthetők meg. A világhálón egyértelműen azonosított entitások közötti relációk mentén a valóság bonyolult struktúrái írhatók le. Az XML (a szemantikus web lépcsős modelljében az RDF alatt elhelyezkedő szint) nagy lépést tett a tartalmak gépi feldolgozhatóságának irányába azzal, hogy biztosítja az egységes szintaxist szabványos adatcsere-formátumként. Van egy jelentős probléma az XML-lel: az alkalmazások közötti interoperabilitás előfeltétele, hogy az átvitt információ szemantikáját egyeztetni kell. Ezt oldja fel az RDF, amellyel tetszőleges webes tartalomhoz társíthatunk szabványos metainformációt. Az RDF (Resource Description Framework), a szemantikus web legrégebbi specifikációja. Két generációja létezik, az első verzió a 90-es évekből származik, a legutóbbi február 10- én jelent meg. (Klyne, Caroll 2004) Ez a verzió elérhető magyar fordításban is a World Wide Web Konzorcium magyar irodájának oldalán. (Pataki E. 2004) Ez összesen hat dokumentumot jelent: - az RDF/XML szintaxis specifikációja; - az RDF szókészlet leíró nyelv 1.0: RDF séma; - az RDF bevezető tankönyve; - az RDF alapfogalmai és absztrakt szintaxisa;

40 - az RDF szemantikája; - az RDF tesztsorozata. (Pataki M. 2005) Az RDF-et úgy tervezték, hogy bármiről lehessen vele állításokat tenni, ami azonosítható a weben. A szemantikus weben az információkat úgy kell megjeleníteni, hogy azok a számítógépes programok által is feldolgozhatók legyenek. Az RDF egységes keretet biztosít az információtartalom leírására, amelyben azok átvihetők egyik alkalmazásból a másikba. (A különböző alkalmazások közötti információcsere lehetősége azt jelenti, hogy nemcsak azok az alkalmazások használhatják az információt, amelyek számára azt eredetileg ábrázolták, hanem a más célokra készült, későbbi alkalmazások is.) Az RDF segítségével létrejöhet az alkalmazások határain átnyúló tudásreprezentáció. Az egységes erőforrás azonosítók (URI-k) által azonosított dolgok egyszerű tulajdonságokkal és tulajdonságértékekkel írhatók le. Ez lehetővé teszi az RDF számára, hogy az erőforrásokkal kapcsolatban egyszerű állításokat ábrázolhassunk gráf formájában, ahol a csomópontok és az élek az erőforrásokat, ezek tulajdonságait és a tulajdonságok értékeit reprezentálják. (Manola, Miller 2004) Az RDF szabvány tartalmaz egy XML alapú szintaxist is. Az RDF-adat tehát megjelenhet hármasok halmazaként, mint címkézett, irányított gráf és mint XML-adat. Az RDF elmélet szempontjából a gráfmodell az elsődleges fontosságú, a hordozhatóság és a gépi reprezentáció oldaláról viszont az XML-reprezentáció az igazán releváns. (Szeredi, Lukácsy, Benkő 2005) Az RDF szempontjából kiemelt jelentősége van az URI-knak, hiszen azok biztosítják az egységes címezhetőséget. Az URI-k rövid literálok, amelyek weben található objektumokat, erőforrásokat azonosítanak. Erőforrás lehet egy weblap, annak egy része, egy kép, egy tetszőleges állomány, hanganyag, erőforrások egy csoportja, egy portál, egy videofelvétel, függetlenül a formátumtól. Az RDF-fel ezekről tehetünk állításokat. Két metaadat-leírás bárhol lehet a weben, ha ugyanazt az URI-t használja, akkor a számítógép felismeri, hogy ugyanarról az erőforrásról szólnak a kijelentések. Az URI-kkal azonosított erőforrások esetében tehát nem szükséges egyeztetni, hogy az mit azonosít, ugyanis azok önmagukat azonosítják. (Természetesen ez csak a direkt reprezentáció esetében érvényes. Indirekt reprezentációról akkor beszélhetünk, amikor az erőforrás nem önmagát, hanem egy weben nem létező dolgot reprezentál. Jellemző esetben egy fogalmat, vagy egy személyt, vagy bármi olyan entitást, amely önnön jellemzőiből adódóan nem lehet jelen a weben.) Pepper nyomán ezért beszélhetünk identitás-alapú technológiákról az RDF és az OWL esetében egyaránt. (Pepper 2008) Az RDF adatmodellben négy halmazt definiáltak: - erőforrások ez a halmaz bármi előforduló entitást tartalmazhat, aminek van URI-ja. Ez az összes olyan dolog halmaza, amelyre RDF kijelentés vonatkozhat.

41 - tulajdonságok az erőforrásokhoz kapcsolódó jellemzők, amelyeknek szintén van URI-ja. A tulajdonságok lehetnek erőforrások is, tehát részhalmazát képezik az előbbinek. Minden tulajdonságnak van jelentése, meghatározható, hogy milyen erőforráshoz kapcsolható és milyen értéket vehet fel, valamint, hogy milyen viszonyban van más tulajdonságokkal. - literálok karaktersorozatok. - kijelentések ez utóbbiak alany, állítmány és tárgy kapcsolatok. Mindhárom elem egy-egy URI: az alany tetszőleges RDF erőforrás, az állítmány tetszőleges RDF tulajdonság, a tárgy pedig tetszőleges RDF tulajdonság vagy literál lehet. (Szeredi, Lukácsy, Benkő 2005) Sok RDF kijelentéssel létrejöhet hálózati környezetben egy globális metaadat-infrastruktúra, amely elvileg a világ teljességének a leírásán alapul. Ezt is szemlélteti a következő példa májusában a 15. nemzetközi World Wide Web konferencián, Edinburgh-ban bemutatott szemantikus Wikipédia például a következő RDF kijelentéseket tartalmazta. (Völkel, Krötzsch, Vrandecic, Haller, Studer 2006) - London is the capital of the United Kingdom (London az Egyesült Királyság fővárosa) - London is the capital of England (London Anglia fővárosa) - England is a part of the United Kingdom (Anglia az Egyesült Királyság része) London, az Egyesült Királyság és Anglia a kijelentésekben erőforrások, és rendelkeznek egy-egy URI-val. A része és a fővárosa esetünkben tulajdonságok, amelyek szintén rendelkeznek URI-val. Anglia az egyik kijelentésben tárgyként, a másikban alanyként szerepel. Az RDF-et szemléletesen tekinthetjük címkézett gráfoknak, amelyek kiindulási pontja egy alany, a végpontja egy tárgy, a gráf éle pedig az állítmány. A fenti kijelentések a következőképpen jeleníthetők meg címkézett gráfok segítségével:

42 Így lényegében valamennyi weben tárolt információt le tudjuk írni, egymáshoz tudjuk rendelni, közöttük kapcsolatokat tudunk definiálni további URI-k segítségével. Ha két, egymástól különböző hármasban azonos URI-k találhatók, akkor azok egybeolvaszthatók, és a leírást tovább folytathatnánk London lakosságának számával, az Egyesült Királyság többi részével stb. Az információ RDF-es reprezentációja olyannyira hatékony, hogy hasonlóan az XML-hez a szemantikus web többi rétegétől függetlenül is nagyon sok alkalmazás használja önállóan a technológiát. Ilyenek például az Arizonai Egyetemi Könyvtár által kifejlesztett RDF alapú digitális könyvtári rendszer (Han 2005), és a BRICKS projekt. (Hecht, Haslhofer 2005). Az RDF elkézelés alapötlete tehát, hogy az URI-kkal azonosított erőforrásokat tulajdonságok segítségével más erőforrásokkal vagy közönséges literálokkal köti össze. Az RDF alapötletét mutatja be a következő ábra, amivel egy állítást formalizálunk: Kovács Zoltán (aki ember) címe: Kovacs.Zoltan@Kripto.hu. (Szeredi, Lukácsy, Benkő 2005 nyomán)

43 A példaábra XML szintaxissal a következőképpen írható le: <%xml version= 1.0 encoding= ISO ?> <rdf:rdf xmlns:rdf= xmlns:s= > <rdf:description rdf:about= > <s:neve>kovács Zoltán</s:neve> <s:levélcíme rdf:resource= mailto:kovacs.zoltan@kripto.hu /> <rdf:type rdf:resource= /> </rdf:description> </rdf:rdf> Helyesen valamennyi tulajdonság (beleértve a jelen példában közönséges névvel hivatkozottak is: neve, levélcíme, típusa) erőforrás. A példában azonban az egyszerűség kedvéért hivatkoztunk rájuk ebben a formában. Ezen erőforrások kiválaszthatók a FOAF szótár elemei közül, amelyben a név tulajdonság például foaf:name-ként írható le. A fenti leírás sorai bizonyos értlmezésre szorulhatnak. Az XML leírás első sora azt jelzi a feldolgozó alkalmazásnak, hogy milyen verziójú XML adatfolyam következik, adott karakterkódolással. A következő sor jelzi, hogy RDF-ként kell értelmezni az elemen belüli tartalmat. Ezt követően jelennek meg a névterek. Ezek közül először az RDF-hez tartozó specifikációra utal a leírás, majd a következő névtér-deklaráció az s nevet rendeli a megadott URI-val azonosított névtérhez.

44 A következő példában Kovács Zoltán tanulmányát rendeljük a szerzőjéhez, bemutatva ezzel egyetlen alany, állítmány, tárgy hármast (tripletet) tartalmazó állítást. Egy kijelentésben erőforrások, tulajdonságok és literálok lehetnek. Az állítás elemei a következők: alany ( erőforrás; predikátum: szerzője tulajdonság; tárgy: Kovács Zoltán literál. RDF állítás alanya és tárgya tetszőleges erőforrás lehet, ezért a gráfban az élcímke megjelenhet csomópontokban is. Az RDF arra is alkalmas így, hogy tulajdonságokról állításokat fogalmazzanak meg. Egy RDF kijelentés a következőképpen reprezentálható tripletként: {[ /TopicMaps_2_2008.pdf],szerzője, Kovács Zoltán } Nem jó azonban a példában, hogy literálként került meghatározásra a kijelentés tárgya, azaz Kovács Zoltán. Célszerű lenne egy olyan URI-t használni, ami egyértelműen azonosítja Kovács Zoltánt, így a jelenlegi literál helyére kerülhetne egy olyan URI, ami Kovács Zoltánt azonosítja egyértelműen. Az RDF egyik erőssége, hogy lehetőség van üres (vagy névtelen, vagy köztes) csomópontok (blank node) meghatározására is. Ezek a gráf-reprezentációban ahogy a nevük is mutatja üresek. Egy ilyen üres csomópontból bármennyi további állítás tehető. Ha a fenti példában nincs lehetőségünk olyan URI-t alkalmazni, amely egyértelműen azonosítja Kovács Zoltánt, úgy célszerű az üres csomópont beiktatásával élni. Az üres csomópontból kiindulva leírható, hogy az általa reprezentált entitásnak mi a neve, beosztása, címe stb. A példaábra a következőképpen írható le: {[ /TopicMaps_2_2008.pdf],szerzője,[üres cspont]}

45 {[üres cspont],neve, Kovács Zoltán } {[üres cspont],beosztása, ügyvezető } {[üres cspont], címe,[mailto:kovacs.zoltan@kripto.hu]} Az RDF segítségével tripletekkel leírhatók azok az ismeretek, amelyeket reprezentálni kívánunk. A szemantikus web elképzelés, azonban ennél továbbmegy. Egy olyan metaadatinfrastruktúra megalkotását tűzte ki célul, amely következtetésekre is alkalmas. A következtetésekhez a világról szóló ismereteinket formálisan le kell írni a számítógép számára is interpretálható formában. A háttértudás leírására több szemantikus web technológiát is kifejlesztettek a különböző igények kielégítésére (RDFS, OWL, SKOS, RIF). Szeredi, Lukácsy, Benkő (2005) szemléletes példáját idézve megérthetjük azt, hogy az egyszerű RDF állításokhoz képest milyen további fejlesztések szükségesek. RDF segítségével képesek vagyunk leírni azt, hogy egy ember barátja egy másiknak. Ezt úgy tehetjük meg, hogy konstruálunk egy RDF kijelentést, amelynek alanya és tárgya két ember, predikátuma egy olyan erőforrás, amelyről tudjuk, hogy a barátja viszonyt azonosítja valahogy. ( ) Kérdés ezek után, hogy el tudjuk-e dönteni, hogy az egyik ember ismeri-e a másikat? A válasz evidens, hiszen józan paraszti eszünkkel tudjuk, hogy egy ember nyilván ismeri a saját barátját. Vegyük észre ugyanakkor, hogy valójában ez egy olyan következtetés volt a részünkről, amelyhez háttértudásra volt szükségünk. Mi tudjuk ugyanis, hogy valakik nem lehetnek barátok, ha nem is ismerik egymást. ( ) Valami olyan kijelentésre lenne szükségünk, hogy bármely két erőforrás között, amelyek n:barátja viszonyban állnak egymással, fennáll az s:ismerőse viszony is. Ezen tudás birtokában egy gép más képes lenne kikövetkeztetni, hogy a két ember ismeri egymást, bár ez így explicit módon továbbra sem lenne leírva. A sémák és az ontológiák a következtetésekhez szükséges háttértudást tartalmazzák. Az RDF séma olyan további erőforrások halmaza, amellyel kibővült az RDF által meghatározott szótár és amelyek jelentése jól meghatározott. Ezek az erőforrások RDF kijelentésekben használhatók fel. Alkalmazásspecifikus tulajdonságok és osztályok definiálhatók, megadhatók ezek egymáshoz való hierarchikus viszonya, illetve jellemzői. (Szeredi, Lukácsy, Benkő 2005) Az RDF sémák kifejezéseknek, dolgok osztályainak definiálására szolgál. Nem kínál önmagában egy ellenőrzött szótárt, csak megteremti annak a lehetőségét, hogy egy-egy alkalmazáson belül általánosan érvényes kijelentéseket tegyünk. Lényegében az RDF séma az RDF-hez kínál egy szabványos tipologizáló metódust. Az RDF Séma legfrissebb W3C ajánlása február 10-én jelent meg. (Brickley, Guha 2004) A bevezető példában a dokumentum, szerződés, irat és oldalszám (mint tulajdonság) fogalmak egymáshoz való viszonyát írjuk le RDF séma segítségével. Meghatározásra kerül az iratok és a szerződések osztálya. Leírjuk, hogy a szerződések dokumentumok is egyben.

46 Definiáljuk továbbá a bázis URI-t (jelen esetben ez a képzeletbeli lesz) és az RDF sémakonstrukciók eléréséhez szükséges rdfs névteret URI-ként. (Szeredi, Lukácsy, Benkő 2005 alapján). <%xml version= 1.0 encoding= ISO ?> <rdf:rdf xmlns:rdf= xmlns:rdfs= xmlns:base= > <rdf:description rdf:id= Irat > <rdf:type rdf:resource= /> </rdf:description> <rdfs:class rdf:id= Szerződés > <rdfs:comment>szerződések osztálya</rdfs:comment> <rdfs:subclassof rdf:resource= #Irat /> </rdfs:class> <rdf:property rdf:id= oldalszáma > <rdfs:domain rdf:resource= #Irat /> <rdfs:range rdf:resource= /> </rdf:property> </rdf:rdf> 5.2 OWL Az OWL specifikáció (Web Ontology Language) 2004 februárjában jelent meg W3C ajánlásként. (McGuiness, Van Harmelen 2004) Előzménye a DAML+OIL (DARPA Agent Markup Language + Ontology Inference Layer vagy Ontology Interchange Language) leíró nyelv volt, amelyet az OWL teljes egészében felváltott. (Conolly et al. 2001) A következő dokumentumokat fordították le és tették közzé magyarul is: Áttekintés; - Útmutató amely az OWL-t egy kiterjedt példán keresztül szemlélteti; - Referencia az OWL modellezési primitívek jól szerkesztett, informális leírása; - Szemantika és absztrakt szintaxis az OWL nyelv normatív definíciója;

47 - OWL Web Ontológia Nyelv tesztsorozata az OWL használatát illusztráló példák, a konstrukciók formális jelentése és a témák kifejtése; - OWL alkalmazási esetek és követelmények egy webontológia nyelv felhasználási forgatókönyve, céljai és követelményei. (Pataki E. 2004b) Az OWL célja, hogy formális logikákon alapuló bonyolult szemantikai relációkat is lehessen a számítógép számára reprezentálni. Az OWL lehetővé teszi, hogy explicit módon ábrázoljuk egy meghatározott szókészlet kifejezéseinek jelentését, valamint ezek összefüggéseit. Az OWL szemantikai kifejezőereje jóval nagyobb mint az XML, az RDF és az RDFS nyelveké, így hatékonyabb a webtartalom explicit formális leírásában. Ugyan az RDF séma is képes osztályokat és alosztályokat definiálni, nem tudja végrehajtani valamennyi halmazelméleti műveletet. Az OWL nyelv segítségével konstruálhatók osztályok más osztályok uniójaként, metszeteként, komplemenseként. Lehetséges az osztályok egyedeinek felsorolása. Lehet az osztályokba tartozó egyedeket a tulajdonságaik szerint definiálni. Az OWL a tulajdonságok terén is magasabb szintjét képes megragadni a gondolkodásnak. Tulajdonságokat lehet szimmetrikusnak, tranzitívnek, függvénynek stb. deklarálni általa. Az OWL esetében megragadható az osztályok, tulajdonságok, vagy egyedek ekvivalenciájának problémája. (Herman 2006) A következő példa az OWL nyelvről egy bemutató példa, amely a fő jellemzőit hivatott szemléltetni. A példában egy cég kollektíváját írjuk le úgy, hogy felsorolja valamennyi alkalmazott nevét. (Szeredi, Lukácsy Benkő 2005) A példa szemantikailag akkor helytálló, ha a cég kollektíváját teljes egészében leírjuk, vagyis nem hagyunk ki senkit. Tegyük fel, hogy a vállalatnak öt dolgozója van. <owl:class> <owl:oneof rdf:parsetype= Collection > <owl:thing rdf:about= Nagy Béla /> <owl:thing rdf:about= Kovács János /> <owl:thing rdf:about= Kis Ferenc /> <owl:thing rdf:about= Tóth Lajos /> <owl:thing rdf:about= Szabó Géza /> </owl:oneof> </owl:class> OWL-nak három növekvő erejű kifejező alnyelve van a különböző felhasználási igényekhez igazítottan: - OWL Lite osztályozási hierarchiákat és egyszerű korlátozásokat alkalmazó felhasználók támogatására készült.

48 - OWL DL a maximális kifejezőképességet igénylő felhasználóknak készült. Az OWL DL-ben a számíthatóság és az eldönthetőség is megmarad. Az összes nyelvi konstrukciót tartalmazza, de azok használhatósága csak bizonyos korlátozásokkal lehetséges. A DL (Description Logic) a leíró logikákra utal. - OWL Full olyan maximális kifejezőképességet és az RDF teljes szintaktikai szabadságát igénylő használóknak készült, akik lemondanak a kiszámíthatósági garanciákról. A szoftvertámogatás az OWL Full esetében éppen a túlságosan gazdag logikai struktúrák következtében kérdéses, hogy megvalósítható-e. (Pataki E. 2004b) Az alnyelvek mindegyike az egyszerűbbnek a kiterjesztése. Így például minden érvényes OWL Lite következtetés egyben érvényes OWL DL következtetés is, és minden érvényes OWL DL következtetés egyben érvényes OWL Full következtetés is. Minden legális OWL Lite ontológia egyben legális OWL DL ontológia is, és minden legális OWL DL ontológia egyben legális OWL Full ontológia is. (Pataki E. 2004b) A használóknak maguknak kell eldönteni, hogy mely alnyelv a leginkább alkalmas a céljaikra. (Digitális könyvtári környezetre való alkalmazhatóság tekintetében érdekesség, hogy a DL mögött egyesek a Digital Library kezdőbetűit vélik felfedezni. Krause 2008) 5.3 SKOS A SKOS (Simple Knowledge Organization Systems) tudásszervezési rendszerek (tezauruszok, osztályozási rendszerek, tárgyszójegyzékek, taxonómiák, folkszonómiák) szabványos reprezentálására kifejlesztett specifikáció a szemantikus web alkalmazások számára. A fejlesztése viszonylag későn kezdődött az intelligens világháló többi technológiájához képest, ugyanakkor maga a szintaxis olyannyira ígéretes volt, hogy bő két év alatt a SKOS szemantikus web ajánlássá nőtte ki magát. Az első munkaterv május 16-án jelent meg, (Isaac, Phipps, Rubin 2007) egy június 15-i javaslatterv után (Miles, Bechhofer 2009a) ugyanazon év augusztusában megjelent a W3C ajánlás (Miles, Bechhofer 2009b). A SKOS segítségével létező tudásszervezési rendszereket lehet exportálni a szemantikus web számára szabványos formátumba. A SKOS félig formális tudásszervezési rendszerek szemantikus web számára való egyszerű újrahasznosíthatóságát hivatott biztosítani. Nem a tudásszervezési rendszerek eredeti helyükön való újraírása a cél, hanem azok exportálása olyan formába, amely szélesebb körű használhatóságot eredményez. Lényegében a SKOS jelenti a hidat az OWL ontológiák szigorú formális logikái és a weben található szabad és strukturálatlan közösségi osztályozási rendszerek között. A nyelv RDF-en alapul, így megvalósulhat az általa leírt információ számítógépek közötti cseréje. (Isaac, Summers 2009)

49 A SKOS fejlesztésére az igény akkor jelentkezett, amikor világossá vált, hogy nem készülnek megfelelő számban szakterületi ontológiák, amelyek nélkül még sokáig nem lesz lehetséges együttműködő rendszereket fejleszteni. A legígéretesebb stratégia a meglévő tudásszervezési rendszerek, ellenőrzött szótárak újrahasznosítása lett. E mellett nem bizonyos, hogy valamennyi alkalmazás igényel bonyolult ontológiát, sőt bizonyos esetekben hatékonyabb lehet az egyszerűbb megoldást választani. Egy szemléletes példát idézve amíg az OWL egy nehéz kalapács, addig a SKOS egy egyszerű diótörő gép, illetve amíg az OWL egy Harley Davidson, addig a SKOS egy sima kerékpár. A SKOS az OWL-lal együttműködhet, így optimalizálható a tudásreprezentáció mélysége. (Krause 2008) A digitális könyvtári alkalmazás szempontjából a SKOS közvetlen eredményeket jelenthet a tudásszervezési rendszerek és a szemantikus web integrálása terén. A könyvtáros társadalom a fejlesztések kezdeti stádiumától kezdve figyelemmel kísérte a SKOS-t. (Cantara 2006) Lényegében a SKOS célja, hogy a könyvtári osztályozást és a szemantikus web technológiákat egységes keretek közé integrálja. (Krause 2008) A könyvtári osztályozási rendszerek évezredes tapasztalatait ez a specifikáció lesz képes a szélesebb webes közösség számára elérhetővé és használhatóvá tenni. A könyvtárak már a szintaktikai paradigmában is rendelkeztek nagy mennyiségű szemantikailag kódolt adattal. 5.4 XTM Az XTM (XML Topic Maps = XML Tématérkép) ahogy a nevében is benne van az XML (extensible Markup Language = Kiterjesztett Jelölőnyelv) alapján tématérképek készítésére kifejlesztett nyelv. Ez a leggyakrabban használt szintaxis, a tématérképek nemzetközi csereformátuma. (Pepper, Moore, 2001; Hunting 2003) A nyelv legújabb verziója, az XTM 2.0, amely az ISO/IEC 13250:2007(E) szabvány szabvány része. Az 1.0 verzióhoz képest meglévő különbségeket a szabvány D függeléke tartalmazza. (ISO 13250, 2007) A nyelv alkalmazására manuálisan nincs szükség, így nem okoz problémát annak terjengőssége. Több tématérkép-szerkesztő program is van forgalomban, amelyekkel ontológia-vezérelt módon készíthetők alkalmazások. Az alábbi példa szemlélteti a szintaxis jellegzetességeit. <?xml version="1.0" encoding="utf-8" standalone="yes"?> <topicmap xmlns=" version="2.0"> <topic id="person"> <name> <value>person</value> </name> </topic>

50 <topic id="city"> <subjectidentifier href=" <name> <value>city</value> </name> <occurrence> <type> <topicref href="#wiki"></topicref> </type> <resourceref href=" </occurrence> </topic> <topic id="db"> <name> <value>date of birth</value> </name> </topic> <topic id="hun"> <subjectidentifier href=" <instanceof> <topicref href="#nationality"></topicref> </instanceof> <name> <value>hungarian</value> </name> </topic> <topic id="population"> <name> <value>population</value> </name> </topic> 5.5 További Topic Maps szintaxisok Léteznek további szintaxisok, amelyekkel ontológiák alkothatók. Ezek közül némelyeknek már csak történeti jelentőségük van ilyen például a HyTM, más nyelvek pedig nem képezik az ISO szabványcsalád részét, de jelentősége miatt mégis érdemes néhány mondatban megemlékezni róluk. Ez utóbbiakra példa az LTM amelyet tekintve, hogy oktatásra fejlesztették ki, számunkra is jó eszköz lesz a későbbiekben az ontológiaszerkesztés alapjainak bemutatására.

51 5.5.1 HyTM Az SGML alapú HyTM-nek (HyTime Topic Maps) csak történeti jelentősége van már, hiszen ez a tématérképek számára eredetileg kifejlesztett szintaxis nem része a legújabb ISO szabványnak. A tématérképek történetének kezdeti szakaszában ez volt az egyetlen szintaxis. A HyTM alapjául szolgáló HyTime nyelvet eredetileg az SMDL-lel (Standard Music Description Language) együtt kezdték el fejleszteni az 1980-as évek végén. Arra keresték a választ, hogy miként lehetne zenei utalásokat hiperlinkekkel reprezentálni. Az első szabvány javaslat ben született, november 1-től az ISO és az IEC közös szabványa lett ISO/IEC tételszámon. A HyTime-ból született a HyTM nyelv, amely a tématérképek leírására szolgál, és amely hosszú időn keresztül része volt az ISO/IEC szabványnak LTM A képzés szempontjából van jelentősége az LTM szintaxisnak (The Linear Topic Map Notation). Az LTM az Ontopia által kifejlesztett nyelv, amely rendkívül egyszerű, az XTM-mel szemben sokkal szűkszavúbb és hatékonyabb. Ennek oka, hogy az LTM elsősorban oktatási célokra készült, segítségével viszonylag rövid idő alatt el lehet készíteni egy kisebb tématérképet, és a gyakorlati alkalmazás során megérthetők az alapvető fogalmak. Az LTM nem része semmilyen nemzetközi szabványnak. A fejlesztés motivációja az volt, hogy bár kiváló tématérkép-szerkesztő programok vannak, szükség mutatkozott egy olyan szövegalapú leíró nyelvre, amely tömör és szűkszavú, így alkalmas tématérképek manuális szerkesztésére, a tématérkép modell reprezentálására akár ben, vagy hasonló szövegekben. Az LTM-et jelenleg mindössze az Ontopia által készített technikai dokumentáció írja le. (Garshol 2006) Ebben a jelentésben még nem tartották kizártnak, hogy a nyelv szabvánnyá növi ki magát, azonban mára bizonyossá vált, hogy erre nem kerül sor. Ugyanilyen céllal kezdődött el a CTM fejlesztése az ISO/IEC keretein belül CTM A CTM (Compact Topic Maps) szöveg alapú tématérkép-leíró szintaxis. Az XTM szabvány kiegészítésére fejlesztik. A nyelv egyaránt alkalmas arra, hogy manuálisan hozzunk létre tématérképeket, hogy dokumentumokban érthető példákat nyújtsunk általuk, és hogy szintaktikai bázisául szolgáljon a TMCL-nek és a TMQL-nek. Fő szempont a fejlesztés során az egyszerűség, a könnyű írhatóság és olvashatóság. Funkcióját tekintve ugyanarra a szerepre

52 szánják, mint az LTM-et: oktatásra, tématérképek szöveges reprezentálására, manuális tématérkép-szerkesztésre GTM Szintén a tématérképek humán interpretációját segíti a GTM (Graphical Notation for Topic Maps) szintaxis, amely azonban nem szöveg, hanem vizuális alapon reprezentálja az alkalmazásban leírt viszonyrendszereket. Egy grafikus leíró szabvány segítségével lehet megkönnyíteni a humán interpretációt, ami a fejlesztések során az egyik kulcsfontosságú tényező. A fejlesztés a következőket tűzte ki célul: Minden reprezentálható legyen grafikusan, ami LTM-ben vagy XTM-ben is leírható. Rajzolással is lehessen készíteni tématérképeket anélkül, hogy bármilyen külső erőforrásra, utalásra lenne szükség. Kifejleszthető legyen egy olyan tématérkép-szerkesztő szoftver, amely képes egy GTM fájlt exportálni LTM-be, vagy XTM-be. (Lehessen az LTM vagy az XTM ismerete nélkül is tématérképeket készíteni.) Szoftverrel egy XTM, vagy LTM fájlból létre lehessen hozni egy GTM alapú vizuális modellt. A rajzok a haszálók által is könnyedén olvashatók legyenek. (Henriksen 2006) A következő ábra egy norvég nyelven született GTM példa, amelyen jól látható, hogy a szabványos jelölések alapján egyértelmű, hogy az egyes fogalmak milyen tématérkép szerkezeteket reprezentálnak.

53 Bár a GTM fejlesztése meglehetősen előrehaladott állapotban van, a tématérképek fejlesztői mind a mai napig csak szűk körben használják ezt a grafikus szintaxist. (Hendrik, Redmann, Pressler, Markscheffel 2008) A tématérképekkel kapcsolatos ISO szabványok fejlesztésével foglalkozó oldalon is csak igen szűkszavú tájékoztatás van a GTM fejlesztéséről. (

54 6 Ontológiaépítés a gyakorlatban Ebben a fejezetben az ontológiaépítés gyakorlatába nyújtunk betekintést egyrészt az eszközök, másrészt pedig a fejlesztés lépéseibe avatva be az olvasót. Az eszközök vonatkozásában néhány szóban ismertetünk egy RDF/OWL ontológiák építésére szolgáló eszközt, majd pedig egy ontológiavezérelt tématérkép szerkesztésre szolgáló programot. A későbbiekben ez utóbbival gyakorlatban is megismerkedünk, amikor egy ontológia építésének a lépéseit követjük nyomon. 6.1 Az ontológiaépítés eszközei Ontológiák építésére számos fejlesztő eszköz áll a rendelkezésünkre. Az eszköz kiválasztásánál figyelembe kell vennünk, hogy milyen célból fogják az általunk elkészített ontológiát használni. Amennyiben az a célunk, hogy a kifejlesztett tudásszervezési rendszerben lévő adatokat más webes alkalmazások számára tegyük fogyaszthatóvá, akkor célszerű az RDF/OWL paradigmán alapuló szemantikus web ontológiák fejlesztésére szolgáló eszközök közül választani. Amennyiben a közvetlen humán interpretáció elősegítése a célunk, úgy tématérkép fejlesztő eszközök közül kell választani egy igényeinknek megfelelőt Szemantikus web ontológiák fejlesztésére szolgáló eszközök A szemantikus web ontológiák fejlesztésére szolgáló eszközök közül a legszélesebb körben ismert eszköz a Protégé, ingyenes, nyílt forráskódú szoftver és tudásbázis keretrendszer. A Protégé platform segítségével létrehozott tudásszervezési rendszerek több nyelvre is konvertálhatók (RDF, RDFS, OWL és XML Schema). A program JAVA alapú, ami egyszerű tudásmodellezést és alkalmazásfejlesztést tesz lehetővé. A program fejlesztését a Stanford és a Manchesteri egyetemek kezdték el közösen, majd ők tették nyílt forráskódúvá. A professzionalizmust azonban elsősorban a program használóinak a közössége jelenti. A fejlesztők között egyaránt megvannak az egyetei, kutatói, a kormányzati, az üzleti és magán szereplők. A program jellemzője, hogy számos segédlet áll rendelkezésre a használatához, amelyek eligazítanak a nagy ablakos webes felületeken való eligazodásban.

55 A program letölthető a oldalról egyszerű regisztrációt követően. Szintén szemantikus web ontológiák létrehozását szolgálják a következő programok: - NeOn Toolkit, - SWOOP, - Neologism, - TopBraid Composer, - Knoodl, - Anzo for Excel, Tématérképek fejlesztésére szolgáló eszközök Az OKS (Ontopia Knowledge Suite) az oslói székhelyű Ontopia AS terméke, amelynek ingyenes verziója tartalmaz egy tématérkép-szerkesztő (Ontopoly) és egy vizualizáló (Omnigator) szoftvert. Az Ontopoly lehetőséget teremt arra, hogy először a tématérképben

56 előforduló téma-, asszociáció-, előfordulás-, szerep-, és névtípusokat definiáljuk, majd feltöltsük, benépesítsük azok konkrét eseteivel. Az Omnigatort a tématérképek működésének demonstrálására, oktatására fejlesztették ki. A szoftver tématérképeket illetően mindenevő. Mind XTM, LTM, HyTM és RDF tématérképek megjeleníthetők a segítségével. Létezik egy online demo változata is, amelyen megtekinthető a működése. ( Az OKS-t Norvégiában az Oslói Főiskola Újságírás Könyvtár- és Információtudományi Karán és Magyarországon a Pécsi Tudományegyetem Felnőttképzési és Emberi Erőforrás Fejlesztési Karán is sikerrel alkalmazzák a könyvtárosképzésben. (Tóth 2008) A TM4L (Topic Maps for e-learning) ontológiavezérelt tématérkép-szerkesztő program jelenleg az egyetlen magyar nyelven is ingyenesen elérhető szoftver. (Kovács, Tóth 2008) A programot a Winston-Salem State University kutatói fejlesztették ki a tématérképek legfőbb alkalmazási területén, az e-learningben felmerült igények figyelembe vételével. Az a gondolat vezérelte a fejlesztőket, hogy a tananyagok fogalmak alapján való megközelítése segíti a tanulót az ismeretek hatékony befogadásában. E mögött pedig az húzódik, hogy a tématérképek a fogalmakat környezetükkel együtt, azok valós kontextusában és nem egy kényszerű struktúra hálójában képesek mutatni. (Dicheva, Dichev 2006) A TM4L felületét a következő ábra szemlélteti.

57 További eszközök a teljesség igénye nélkül: - Wandora ( - TinyTiM ( - QuaaxTM ( - mappa ( - Perl TM ( - K-Discovery ( 6.2 Ontológiaépítés az OKS segítségével Az ontológiaépítés gyakorlatát most egy tématérkép szerkesztő szoftverrel mutatjuk be. Ennek oka, hogy így egy közvetlen humán interpretációra is alkalmas, látványos alkalmazást kapunk eredményül, amely minden szemantikus technológiák iránt érdeklődő tanuló számára motiváló lehet. Szintén fontosnak tartjuk, hogy míg a szemantikus web technológiákkal kapcsolatosan jelentős mennyiségű technikai dokumentáció, útmutatás érhető el, addig a tématérképek vonatkozásában a következő leírás teljes mértékben nóvumnak lesz tekinthető a hazai szakirodalomban Az OKS letöltése és használata Az OKS (Ontopia Knowledge Suite) programcsomagot a oldalról lehet letölteni. Célszerű a letöltésnél a C meghajtót kiválasztani és a csomagot a programfájlok közé menteni. (A továbbiakban az elérési útvonalakat azt feltételezve adom meg, hogy a programcsomag a C meghajtón van.) Az indításhoz ki kell választani a startup windows kötegfájlt, amelyet a C:\Program Files\oks-samplers\apache-tomcat\bin mappában találhatunk meg. Ekkor megjelenik egy fekete ablak Tomcat felirattal, amit le lehet tenni tálcára, de nem szabad bezárni. Ekkor a böngészőbe beírva a címet csatlakozhatunk a távoli szerverhez és elkezdhetjük a program használatát. A csatlakozást követően a következő ablaknak kell megjelennie a böngészőben:

58 Tipikus probléma, hogy a fekete ablak felugrik, majd a következő pillanatba el is tűnik úgy, hogy a benne kiírt hibaüzenetet sem hagyja elolvasni. Ennek az oka az szokott lenni, hogy vagy nincs a gépen Java, vagy a JAVA_HOME környezeti változó nincs megfelelően definiálva. Ekkor célszerű ellenőrizni, hogy van-e a gépen a Program Files között Java. Ha nincs, akkor ingyenesen telepíthető a oldalról. Ha van, vagy ha már telepítettük, akkor a Vezérlőpult Rendszer Speciális Környezeti változók útvonalon megnyithatjuk a rendszerváltozók definiálásához szükséges panelt. Az Új gombra kattintva két szövegdoboz jelenik meg, ahol a változó neve JAVA_HOME, a változó értéke pedig a Java program aktuális gépen lévő elérési útja. (Pl. C:\Program Files\Java\jre7). Windows 7 operációs rendszerrel a következő ablakban állítható be ez a bizonyos környezeti változó:

59 6.2.2 Az ontológiák építésének első lépései Valamennyi tématérkép ontológia építését papíron érdemes kezdeni, amikor is összeírjuk, hogy melyek azok a téma-, asszociáció-, előfordulás-, szerep- és névtípusok, amelyek segítségével formálisan leírható a kiválasztott tudástartalom. A papíron szintén érdemes összeírni, hogy mely típus mely esetekkel népesíthető be. AZ alábbiakban erre láthatunk egy példát. A következő alkalmazásunk tárgyát hazai nagyvárosok jelentik, amelyekhez egy-egy nevezetes helyet,illetve a települések egy-egy híres szülöttjét kapcsolhatjuk. A szülöttekről, a nevezetes helyszínekről és a városokról magukról szeretnénk látni képet, egy-egy Wikipédia oldalt, és amennyiben létezik hivatalos honlapot. Egyértelmű azonosítóként a URL-jeit használjuk. Az így elkészített minialkalmazással a célunk az volt, hogy elejétől a végéig minden lépést bemutatva felépítsünk egy ontológiát és azt be is népesítsük esetekkel. Az alkalmazás természetesen kicsi, és ebből kifolyólag nem is tartalmazhat minden apró trükköt, viszont lehetőséget teremt arra, hogy ez alapján egy sokkal nagyobb volumenű projektet is fel lehessen építeni. Papíron az alkalmazásunk vázlata a következőképpen írható le:

60 1. Tématípusok (Itt azokat a fogalmakat írjuk le, amelyekhez konkrét eseteket tudunk rendelni, és amelyek így alkalmasak lehetnek a választott tartalom leírására. Ezek egy alkalmazás felső szintű fogalmai. o város o személy o nevezetesség 2. Asszociációtípusok o szülötte (város személy) o nevezetessége (város nevezetesség) 3. Előfordulástípusok o kép (városról, nevezetességről, személyről) o hivatalos honlap (város, nevezetesség) o Wikipédia oldal (város, nevezetesség, személy) o születési év (személy) 4. Szereptípusok o szülőhely (város) o szülött (személy) o nevezetesség (ez a szereptípus megegyezik a tématípussal) o város (ez a szereptípus megegyezik a tématípussal) 5. Névtípusok o Angol név (város, nevezetesség) o Német név (város, nevezetesség) A tématípusok definiálása nem csak technikai jellegű tevékenység, hiszen kellően hatékonynak kell lennünk az adott ismeretterület formális modellezése vonatkozásában is. A következő szabályok szem előtt tartása szükséges. - A tématípus legyen kellően általános (az ország jobb tématípus, mint például az európai ország, mert általánosabb fogalomra utal. Igaz ez akkor is, ha ebből az következik, hogy valamennyi európai ország esetében definiálnunk kell egy újabb asszociációt, miszerint Európában található.) - Ne legyen nagyon általános sem, mert zavarhatja a megértést. (Az ország tehát jobb, mint a hely, amely képes lenne összemosni a városokat, kontinenseket és az országokat). - A tématípus neve legyen rövid a könnyű kezelhetőség, megjeleníthetőség kedvéért. - Minden tématípus legyen egyes számban (a tématípus tehát ország és nem országok) A következőkben célszerű legalább néhány példa erejéig összegyűjteni azokat a fogalmakat, amelyekkel az ontológia benépesíthető. Ezek esetünkben például a következők lehetnek. 1. Városok: Debrecen, Miskolc, Pécs 2. Személyek: Csokonai Vitéz Mihály, Szabó Lőrinc, Victor Vasarely 3. Nevezetesség: Nagytemplom, Diósgyőri vár, Barbakán

61 A fenti információk birtokában már el tudjuk kezdeni a tématérképünk szerkesztését, amelyet a következő fejezetben fogunk megtenni az LTM szintaxis segítségével Tartalmak formalizálása LTM szintaxis segítségével Ebben a részben egy tématérképet fogunk létrehozni LTM szintaxis segítségével. A nyelv sajátosságairól fentebb már szóltunk, most a gyakorlati tudnivalókat mutatom be egy konkrét példa megalkotásával. Első teendőnk, hogy nyitunk egy üres jegyzettömb fájlt, amelyet letöltünk a következő helyre: C:\Program Files\oks-samplers\apachetomcat\webapps\omnigator\WEB-INF\topicmaps. Fontos tovább, hogy a fájl kódolása UTF-8, a kiterjesztése pedig.ltm legyen. Amennyiben ez megtörtént, az Omnigatort megnyitva a bal oldali oszlopban meg kell jelennie a tématérképünk elnevezésének, illetve arra kattintva meg tudjuk nézni, hogy eddig mi az eredménye a munkánknak. Először a tématípusokat definiáljuk, amelyhez a [ ] karakterek használata szükséges. Az első pozícióba írt szavak fogják a tartalomleírás során a továbbiakban azonosítani az egyes fogalmakat a program számára, az egyenlőségjel után idézőjelbe írt szavak pedig a humán interpretációra szolgáló megjelenítés során használatosak. Itt a következőkre kell odafigyelnünk. - A leírás során csak az angol ABC karakterkészletéből válogathatunk. - Az azonosító kizárólag egyetlen szó lehet (Amennyiben többre van szükségünk. Pl. hires-ember, akkor kötőjellel írjuk ezeket egybe!) - Lehetőleg olyan szavakat használjunk, amelyek a későbbiekben is megjegyezhetők és egyértelműen utalnak az adott téma jelentésére. Így például a hn-19 azonosító, bár teljesen alkalmas bármely fogalom azonosítására, nem szerencsés, mert emberi olvasásra alkalmatlan. A fentebb leírt tématípusokkal kezdjük. Tekintve, hogy a tématérkép technológiában minden típus téma. Azaz az asszociáció, a szerep, a név és az előfordulástípusok, ugyanezen metódus szerint kell ezeket is definiálni a következőképpen: /* TÉMATÍPUSOK */ [varos = "Város"] [szemely = "Személy"] [nevezetesseg = "Nevezetesség"] /*------ASSZOCIÁCIÓTÍPUSOK----*/

62 [szulotte = "szülötte" = "szülötte a következőnek" /szulott] [nevezetessege = "nevezetessége" = "nevezetessége a következőnek" /nevezetesseg] /* SZEREPTÍPUSOK */ [szulott = "Szülött"] [szulohely = "Szülőhely"] /* ELŐFORDULÁSTÍPUSOK------*/ [kep = "Kép"] [wikipedia = "Wikipédia oldala"] [szulev = "Születési éve"] [honlap = "Hivatalos honlapja"] /* NÉVTÍPUSOK */ [angol = "angol nyelven"] [nemet = "német nyelven"] Az eddig összeállított típusok összessége maga az ontológia. Ha ezt megjelenítjük az Omnigatorban, akkor azonban azt láthatjuk, hogy valamennyi általunk megadott kifejezést témaként regisztrált a rendszer. Az Omnigatorba a Master Indexre kattintva a következőket láthatjuk. Az LTM esetében (amikor is nem ontológiavezérelt tématérkép-szerkesztésről beszélünk) a benépesítés fogja kijelölni az egyes tématérkép szerkezetek tényleges szerepeit. Ennek érdekében a következőkben a benépesítést is elvégezzük a fentebb már felsorolt elemekkel.

63 A benépesítést a témákkal kezdjük, amikor is a fentiekhez hasonlóan [ ] zárójelben azonosítóval látjuk el az egyes elemeket. [debrecen = [miskolc = [pecs [vasarely = "Victor Vasarely"] [csokonai = "Csokonai Vitéz Mihály"] [szabo = "Szabó Lőrinc"] [diosgyori-var = "Diósgyőri Vár"] [nagytemplom = "Nagytemplom"] [barbakan = "Barbakán"] Hogy a rendszerben egyértelmű legyen, hozzá kell rendelnünk az egyes eseteket a tématípusokhoz. Ezzel válik egyértelművé, hogy mi van tématípus és mi annak esete szerepben. [vasarely : szemely] [csokonai : szemely] [szabo : szemely] [diosgyori-var : nevezetesseg] [nagytemplom : nevezetesseg] [barbakan : nevezetesseg] [miskolc : varos] [pecs : varos] [debrecen : varos] A következőkben az egyes témákat asszociációkkal rendeljük egymáshoz a következőképpen: /*------ASSZOCIÁCIÓK----*/ szulotte(csokonai : szulott, debrecen : szulohely) szulotte(szabo : szulott, miskolc : szulohely) szulotte(vasarely : szulott, pecs : szulohely) nevezetessege(diosgyori-var : nevezetesseg, miskolc : varos) nevezetessege(nagytemplom : nevezetesseg, debrecen : varos) nevezetessege(barbakan : nevezetesseg, pecs : varos)

64 Itt meg kell jegyeznem, hogy az egyes elemek mellett fel kell tüntetnünk a szerepet is, amelynek mentén kapcsolódik az adott téma a másikhoz. Jelen esetben ezek a nevezetesség, a város, a szülött és a szülőhely. A város és a nevezetesség véletlenül egybeesik a tématípussal is, ami azonban nem jelent problémát a későbbiekben. Az előfordulások definiálása során lényegében az egyes témákat rendeljük az információs egyes pontjaihoz. Megkülönböztetünk külső előfordulások, amelyek a tématérképen kívül létező erőforrásra mutatnak. Ezt a következőképpen írjuk le. /*-----ELŐFORDULÁSOK------*/ {barbakan, wikipedia, " {diosgyori-var, wikipedia, " {nagytemplom, wikipedia, " recen)"} {diosgyori-var, kep, " 91ri_v%C3%A1r1.jpg"} {nagytemplom, kep, " {barbakan, kep, " can.jpg"} {szabo, wikipedia, " {vasarely, wikipedia, " {csokonai, wikipedia, " } {miskolc, kep, " ntage.jpg"} {debrecen, kep, " ontage.jpg"} {pecs, kep, " _Hungary_-_EU.JPG"} A belső előfordulások leírása némileg eltér a fentiektől. Az egyes híres személyek születési évét a következőképpen rendelhetjük hozzájuk.

65 {szabo, szulev, [[1900]]} {csokonai, szulev, [[1773]]} {vasarely, szulev, [[1906]]} A kész tématérképünk ontológiáját mutatja be a következő kép, amely szerint összesen három tématípust, kettő asszociációtípust, négy szereptípust és három előfordulástípust definiáltunk Ontológiaépítés az Ontopolyval Az Ontopoly egy ontológiavezérelt tématérkép szerkesztésre szolgáló eszköz. Ontológiaépítés Ontopolyval ez egy képernyőképekkel ellátott útmutató, amivel a legelejétől kezdve bemutatunk egy ontológia elkészítését. A program külön kezeli az ontológia elemeit (téma-, asszociáció-, előfordulás-, szerep- és névtípusok), és külön az ezek esetekkel történő feltöltéséhez szükséges funkciókat. Az Ontopoly szintén az Ontopia Knowledge Suite kezdőoldaláról érhető el. A nyitólapon a következő szövegre kell kattintanunk: Create and edit Topic Maps with Ontopoly. Ekkor a meglévő tématérképeinket felsoroló felülethez érkezünk, amelyek mellett a jobb oldali oszlopban van lehetőség Create New Topic Map alatti mező kitöltésével egy új tématérképet létrehozni.

66 Ide a címet begépelve majd a Create gombra kattintva elkezdhetjük a munkát. Az Ontopoly egy ontológiavezérelt tématérkép szerkesztésre szolgáló program, ami a gyakorlatban azt jelenti, hogy lehetőség van az ontológiát és annak esetekkel feltöltését külön végezni. Az ontológia önállóan is megállja a helyét, nem függ attól, hogy vannak-e esetek rendelve az egyes típusokhoz. Az Ontopoly nyitó oldalán összesen négy fül van, amelyek közül a Description alatt lehet a dokumentumra vonatkozó metaadatokat megadni a következőképpen. Ez az Omnigator vizualizáló programban a tématérkép főoldalán fog megjelenni. A metadaatok megadását követően következhet magának az ontológiának a kialakítása, amelyet az előzetesen összeállított vázlatunk alapján az Ontology fül alatt tudunk megtenni.

67 Erre kattintva megjelennek az alapvető tématérkép-szerkezeteket reprezentáló aloldalakra vezető pontok. A Topic types-ra kattintva megjelenik a jobb oldalon egy szövegdoboz, amelybe az új tématípus nevét írhatjuk. A Create gombra kattintva létre is jön egy tématípus, amelynek a jellemzőit a következő felületen állíthatjuk be. Az egyes eszközök értelmezésre szorulnak. - Name: a tématípus definiálására szolgáló mező. Az ide beírt névváltozat lesz ún. untyped name, azaz nem tipizált név. - Alatta helyezkedik az azonosító megadásához szükséges mező (Subject identifier). Ennek mint már fentebb említettük több tématérkép összeolvasztása esetén van nagy szükség, hiszen ez alapján látja a két alkalmazás, hogy adott esetben ugyanarról a témáról tesznek állításokat. - A Description mezőben leírást készíthetünk a tématípusról. - Az Abstract dobozba akkor kell pipát helyezni, ha az adott tématípus elvont, azaz nincsenek közvetlen esetei. Ez a tudás modellezésétől függ. Pl. Amennyiben készítenénk egy Település tématípust, amelynek az alosztálya lenne a főváros, megyei jogú város, város, nagyközség, község, akkor a konkrét településneveket nem a Település, hanem a főváros, megyei jogú város, város, nagyközség, község altípusok eseteiként regisztrálnánk. - A Subclass és a Superclass mezőkben legördülő mezőkből választhatunk a már létrehozott tématípusokból, ezzel a tématípusok közötti hierarchiát állíthatjuk fel.

68 Jelen esetben definiáltuk a három tématípusunkat, amelyet követően elkészíthetjük az asszociációs viszonyokat, vagyis a fogalmakat egymáshoz való viszonyuk szerint is rendezhetjük. Ehhez először a szereptípusokat kell definiálni, amennyiben a szerepek nem esnek egybe a tématípusokkal. A szereptípusok megadásához lényegében ugyanaz a felület áll rendelkezésre mint a tématípusokhoz, így ezt nem mutatom be képernyőképen. A Role types-ra kattintva a jobb oldali szövegdobozban megadhatjuk a szereptípus nevét, majd az azonosítóját és a hozzá tartozó leírást. Most a szülőhely és a szülött szereptípusokra van szükségünk a továbbiakhoz. Az asszociációtípusok jellemzőinek definiálásához a következő felület használatos. Fentebb az eddigiekhez hasonlóan megadtuk az asszociáció elnevezését, azonosítóját és leírását. Az egyes mezők kitöltésére vonatkozóan az alábbiakat kell szem előtt tartanunk: - Egy asszociáció akkor szimmetrikus, ha ugyanazon szerepek között értelmeződik. Például ilyen a barátja reláció, amelyben feltételezzük, hogy ha valaki barátja valakinek, akkor az fordítva is igaz. - Az asszociációk két oldalról is olvashatók. Pl. Miskolc (város) szülőhelye a következőnek: Szabó Lőrinc (személy); illetve Szabó Lőrinc (személy) szülőhelye Miskolc (város). Ezért kell kétféle elnevezést is megadnunk annak függvényében, hogy milyen szerepek szempontjából írjuk le a relációt.

69 - A role type mellett legördülő menüből választhatjuk ki azt a szerepet, amelyben egy bizonyos téma részt vesz a relációban. - A used by azokra a tématípusokra utal, amelyek használhatják a fentebb meghatározott szereptípust. Tetszőleges számú témát hozzáadhatunk a jobb oldalon található plusz jel segítségével. - A Cardinality mezőben a számossági tulajdonságokat lehet megadni. Itt négy lehetőség közül választhatunk a legördülő menüből. Az exactly one jelenti, hogy pontosan egy szereplője van ennek a viszonynak ebből a szempontból. Ilyen például a szülőváros, amelyből mindenkinek csak egyetlen van. További lehetőségek a zero or one (nulla vagy egy), a one or more (egy vagy több), illetve a zero or more (nulla vagy több). A példánkban ezt választottuk a városok esetében, amelyek elvileg és gyakorlatilag is nulla vagy több embernek lehetnek a szülőhelyei. - Az interface controll alatt a megjelenítési sajátosságokat állíthatjuk be. Az előfordulástípusok jelentik a következő olyan tématérkép szerkezetet, amelyet mindenképpen le kell írnunk a készülő tématérképünkben. Ezek az elemek lényegében a témák szempontjából releváns tartalmak helyeit jelentik az információs térben. Léteznek külső és belső előfordulások. Előbbiek a tématérképen kívüli pontokra mutatnak, utóbbiakat mi magunk írhatjuk be a megfelelő helyre. Az Ontopolyban ugyanazon a felületen lehet ezeket szerkeszteni. Az előfordulástípusok leírásához szükséges mezőket az Occurence types fülön keresztül érhetjük el. Az Ontopolyban a Creator, Description és Version előfordulástípusok alapértelmezetten benn vannak, de amennyiben nem szükségesek el lehet őket távolítani. (Ennek módja, hogy rákattintunk az eltávolítandó elemre, majd a jobb oldali oszlopban megjelenő oszlopban kiválasztjuk a Delete this topic lehetőséget. Megerősítést követően törlésre kerül az adott előfordulástípus.) Jelen példánkban képeket, Wikipédia oldalakat és születési évszámot fogunk rendelni azon elemekhez, amelyek esetében azok relevánsak lehetnek. Az előfordulástípusokat a következő felületen tudjuk szerkeszteni.

70 A fenti példában a kép előfordulástípus tulajdonságait szerkeszthetjük. - A Name mezőben az Omnigatorban megjelenő nevet lehet megadni. - Az adattípusok vonatkozásában több opció is rendelkezésre áll. Jelen esetben a képet stringként, azaz egy URL-t reprezentáló karaktersorozatként fogjuk megadni, ezért célszerű ezt az adattípust kiválasztani. Ezen kívül a programban a következő adattípusok állíthatók be: Dátum, dátum és idő, HTML, kép, szám, karakterlánc, URI. - A Used by mezőbe hasonlóan az asszociációtípusokkhoz azokat a tématípusokat lehet felvenni, amelyek vonatkozásában releváns az adott előfordulástípus. - A Cardinality mezőben a számossági tulajdonságokat lehet beállítani. Jelen esetben a Zero or more opciót választottuk, hiszen nem lehetünk biztosak abban, hogy minden nevezetességhez, személyhez, illetve városhoz tudunk találni képet, ugyanakkor meg szeretnénk magunknak engedni, hogy akár több képet is szerepeltessünk a tématérképünkben. - A Height és a Width mezőkben azt adtuk meg, hogy a képernyőn hány sor magasságú és hány karakter hosszú lehet egy-egy konkrét előfordulás. - Szinte minden mezőt követően találunk egy csillagot. Ezzel azokat a hiányzó elemeket hozhatjuk létre, amelyeket esetlegesen korábban nem hoztunk létre. Például amennyiben egy olyan tématípusnak is meg szeretnénk engedni az adott

71 előfordulástípus használatát, amelyet még létre sem hoztunk, úgy a csillagra kattintva az alábbi mező kitöltésével közvetlenül erről a felületről pótolhatjuk a hiányt. Amennyiben bizonyos információkat más nyelven is be akarunk mutatni, vagy bizonyos kontextusoktól függően más neveken is meg akarunk határozni, akkor névtípusokat kell definiálnunk. Ezeket a Name types fül alatt tudjuk kiválasztani. Az ezek definiálására szolgáló felületen csupán a következő elemeket találjuk:

72 A fenti példában az angol nyelvű alakok definiálásának az első lépéseit tettük meg. Valamennyi elem használatának alapelvei megegyeznek a fentebb már bemutatottakkal. Tudnunk kell, hogy minden tématípusnak van egy alapértelmezett neve. Ezen hivatkozunk tulajdonképpen az adott fogalomra. A névtípusokat csak akkor kell megadnunk, ha több névváltozatot is szeretnénk a tématérképünkben. Amikor valamennyi téma-, előfordulás-, asszociáció-, szerep- és névtípust definiáltunk, lehetőségünk van az egyes tématípusok esetében áttekinteni azt az asszociációs mezőt, amely körülveszi a fogalmat. Amikor az egyes típusokat esetekkel fogjuk feltölteni, akkor ezen kitöltendő mezők fognak megjelenni.

73 Ezen a felületen bármely tématérkép-szerkezet vonatkozásában végezhetünk változtatásokat az alábbiak szerint. - A vízszintes tengely mentén elhelyezkedő mezők (Names, Occurences, Associations, Identities és Queries) esetében a csillagra kattintva neveket, előfordulásokat, és asszociációkat rendelhetünk az adott tématípushoz. Szintén hozzáadhatunk elemeket, amelyek az adott elemek identitását meghatározzák. (praktikusan ide jönnek a fentebb tárgyalt PSI-k). A Queries a lekérdezések menedzselésére szolgáló gomb. - A számossági tulajdonságok legördülő menüből való választással változtathatók minden egyes elem mellett. - A mínusz gombbal az adott elem eltávolítható, ha még sincs rá szükség az adott tématípus vonatkozásában. - A sorrend a bal szélen lévő gombokkal változtatható igény szerint. Ha ezen a felületen véglegesítettük az adott típusok tulajdonságait, akkor lényegében elmondhatjuk, hogy kész vagyunk az ontológiával, amelynek már csak az esetekkel való feltöltése van hátra.

74 Ezt az Instances fülre kattintva tehetjük meg, amikor is az előzetesen definiált tulajdonságok minden egyes tématípus vonatkozásában megjelennek egy olyan felületen, mint amely a következő képen látható. Ezen a felületen lényegében konkrétumokkal, adatokkal kell feltöltenünk az előzetesen elkészített ontológiánkat. Ehhez szövegdobozok és legördülő menük állnak rendelkezésünkre annak megfelelően, ahogyan az előzőekben az ontológia elemeit definiáltuk. - A legördülő menükben azok az elemek kerülnek felsorolásra, amelyeket létrehoztunk. Ha olyanra van szükségünk, amelyet nem találunk ezen elemek között, akkor a jobb oldalon lévő csillag segítségével tudunk eseteket létrehozni. - A mínusz és plusz jelekkel az ontológiában leírt kardinalitási feltételek szerint tudunk hozzáadni vagy elvenni elemeket. Ha valamihez azt írtuk, hogy több eset is tartozhat hozzá egy adott relációban, akkor értelemszerűen megjelenik a plusz jel, így tetszőleges számú újabb elemet hozzáadhatunk. Ha valamiből pontosan egy van, akkor sem plusz, sem mínusz jelet nem találunk mellette, viszont ha a szövegdobozt üresen hagyjuk, akkor Missing required value (hiányzó kötelező érték) hibaüzenetet kapunk. A tématérképek szerkesztése és az ontológiák létrehozása általában iteratív folyamat. Valószínűleg nem tudjuk a világ létezői közötti viszonyokat azonnal a leghatékonyabban és

75 leghelyesebben modellezni, így szükség lehet arra, hogy visszatérjünk az esetektől az ontológiához és ott a gyakorlati tapasztalatok tükrében változtassunk a feltételeken. A szerkesztés közbeni aktuális állapotokat mindig a jobb oldali menüsorban található Omnigate gombbal tudjuk megtekinteni. Az általunk szerkesztett és esetekkel feltöltött tématérképen például a fentebb megszerkesztett Pécs téma a következőképpen vizualizálható. Amennyiben egy adott téma asszociációs mezejét grafikusan is meg szeretnénk tekinteni, akkor a lap tetején lévő menüsorban lévő Vizigator segítségével tehetjük ezt meg. A fenti szöveges oldal esetében ez a következőképpen jelenik meg.

76 Az ontológiaszerkesztés során fontos lehet, hogy egy-egy tartalmat más formátumokba is át tudjunk konvertálni, hogy biztosítsuk más-más alkalmazásokkal való kompatibilitását. Az Omnigatorban erre az Export menüpontban van lehetőség. Itt a következő képen látható szintaxisokba menthető el az elkészített tématérképünk.

77 A fentiek közül a legérdekesebb és legtöbb lehetőséget magában foglaló az RDF/XML szintaxisba való automatikus konverzió, hiszen ezzel más szemantikus web alkalmazásokkal is biztosítható a kompatibilitás. Az ontológiánk és az ezen alapuló tématérképünk elkészültét követően további lehetőségek állnak a rendelkezésünkre, amelyekkel növelhetjük a használó lehetőségeit. - A Merge fül alatti lehetőségekkel lehetőségünk van több tématérkép összeolvasztására. Az egyes témák a PSI-k mentén olvadhatnak egybe. A tevékenységhez ki kell jelölnünk két vagy több tématérképet, amelyeket egybe kívánunk tenni. - A Statistics menüpontban van lehetőségünk megtekinteni, hogy egyes tématérképszerkezetekből mennyi van jelen az alkalmazásunkban. - A DB2TM segítségével szinkronizálhatjuk a tématérképünket egy relációs adatázissal. Ennek használatához készíteni kell egy konfiguráló fájlt és elhelyezni a C:\ontopia-5.1.3\apachetomcat\webapps\omnigator\plugins\db2tm\db2tm.xml mappában. - A Customize fül alatt a megjelenítésre vonatkozó beállításokat állíthatjuk be. A Nontopoly modelben csak azokat az értékeket jeleníti meg az Omnigator, amelyeket mi adtunk meg, a Complete model a rendszer által automatikusan generált jellemzőket és relációkat is. - A Support fül egyenesen az OKS-t használó nemzetközi közösség levelezőlistájára vezet minket, ahol választ kaphatunk esetlegesen felmerülő kérdéseinkre, bizonytalanságokra.

78 7 Az ontológiák használata Az ontológiák hasznáról a kutatók is eltérően vélekednek. A szkepticizmus alapja jellemzően az, hogy nagyon sok szakterületen erősen kétséges a formalizálás lehetősége. A nyelvi jelekkel történő emberi kommunikáció is erősen támaszkodik a kontextusra, a gesztusokra, a kommunikáló felek közötti közös előismeretekre és osztott nézetekre, és a megértés még így is kérdéses. Az ontológiákban formalizált tudásra teljes mértékben érvényes az ún. zártvilág effektus, azaz a számítógép a következtetések levonása során kizárólag a saját tudásbázisában tárolt ismeretekre képes támaszkodni. Mindezek ellenére az ontológiákat több területen is sikerrel alkalmazzák. Ezek közül jelenleg három ismertebbet, a döntéstámogatást, a tudásmenedzsmentet és a szemantikus web alkalmazásokat emeljük ki. 7.1 döntéstámogatás A tudás hatékony modellezése nyomán képesek lehetünk automatizált döntéstámogatásra is az ontológiák segítségével. Ennek eszközei lehetnek a szakértői rendszerek, amelyek döntéshozáshoz szükséges szakértői tudás formalizálásával képesek automatizált döntéstámogatásra. Futó Iván (2003) definíciója szerint a szakértői rendszerek a tudásalapú rendszerek közül azok, amelyek szakértői ismeretek felhasználásával magas szintű teljesítményt nyújtanak egy szűk problémakör kezelésében. A szakértői rendszerek a mesterséges-intelligenciakutatások egyik legsikeresebb területét jelentik, amelyek szakvéleménnyel, tanáccsal, konkrét értékeléssel segítik a döntéshozatalt. A problémakör mérete jelenti ezen eszközök legfőbb korlátját. Hasonlóan a tudásalapú rendszerek többségéhez minél kisebb szakterület formalizálását tűzzük ki célul, annál nagyobb esélyünk van rá, hogy a valóság bonyolult struktúráit megközelítsük és képesek legyünk automatizálni a gondolkodási, döntéshozatali folyamatokat. A szakértői rendszereknek 3 fő összetevője van, a tudásbázis, a következtető gép és a felhasználói interfész. Az ontológiák és a logikai formalizmusok a tudásbázisok építésében bírnak jelentőséggel. A három legfontosabb elem önálló komponenseket alkot, így önállóan fejleszthető. Ez azért előnyös, mert a következtetőgép változatlansága mellett bővíthetjük, aktualizálhatjuk a tudásbázisban tárolt szakértői tudást. A rendszerek teljesítménye elsősorban a tudásbázis méretétől és a benne tárolt ismeretektől függ. A következtető gép a rendszer válaszadó része, amely hozzáfér a tudásbázishoz, onnan állítja elő a szükséges

79 kapcsolatokat, összefüggéseket, következtetéseket. A szabályok típusa és száma nem befolyásolja a következtető gép működését. A szakértői rendszerek sikere részben annak köszönhető, hogy számos szakértői shell (keretrendszer) áll rendelkezésre, amelyekkel viszonylag egyszerűen képesek lehetünk a szakértői tudás formalizálásával kész rendszereket készíteni. A szekértői shellek azon fejlesztőeszközök, amelyek tudásbázisból, következtető gépből és felhasználói interfészből épülnek fel, támogatják a tudásalapú rendszerek fejlesztését és tudásbázisuk üres. (Futó, 1998) Lényegében a shell tudásbázisának feltöltése működőképes szakértői rendszert eredményez. Vannak, amelyek rendelkeznek különböző környezeti eszközökkel, amelyek barátságosabb használatot tesznek lehetővé. Vannak, amelyek mint fejlesztői környezetek együttműködnek más programokkal, adatbázisokkal. A szakértői rendszerek legfőbb problémáját az ún. zártvilág effektus jelenti. Ez arra a tényre utal, hogy a következtetés és döntés csak az adott pillanatban explicit formában rendelkezésre álló tudásbázis-tartalom alapján történhet. Míg egy humán szakértő folyamatos kölcsönhatásban van a valósággal, egy gép kénytelen azokra az ismeretekre hagyatkozni, amelyeket rendelkezésére bocsátottak és így formális leírások formában rendelkezésére áll. 7.2 tudásmenedzsment Az ontológiák használata a tudásmenedzsment világában szintén egyre növekvő jelentőséggel bír, hiszen az ismeretek formalizálása, explicitté tétele a szervezetek tudásvagyonának megragadását segíti elő. A tudásmenedzsment az információs társadalom kialakulásának kezdetétől kezdve fokozódó mértékben része a vállalatok, szervezetek életének. Ahogy a materiális tőke felől a figyelem mind nagyobb mértékben az immateriális felé fordul, úgy van egyre nagyobb szükség a tudásvagyon megragadására szolgáló eszközök, technikák fejlesztésére. A tudásmenedzsmentnek több megközelítése is létezik. Géró Katalin (2000) a definíciók alapján háromféle megközelítést azonosított. A használatban lévő KM-definíciók száma több tucatra rúg, aszerint, hogy az adott forrás milyen megközelítésben tárgyalja a témát. A klasszikus értelmezés szerint tudásgazdálkodás és hasznosítás alatt értünk minden olyan tevékenységet, amelynek célja egy szervezeten belül felhalmozott mindennemű dokumentált (explicit), illetve láthatatlan (tacit) tudás, ismeret, szakértelem, tapasztalat feltérképezése, összegyűjtése, rendszerezése, hatékonyan történő szolgáltatása és hasznosítása. Röviden, a minél eredményesebb döntéshozatali

80 munkát elősegítendő, a megfelelő információ eljuttatása a megfelelő embereknek a megfelelő formában és időben. Eszerint a KM célja, hogy keretet szolgáltasson egy közösség (vállalat, intézmény, szervezet) szellemi javainak minél gazdaságosabban történő kiaknázásához és felhasználásához. Az elmélet gyakorlatban való megvalósítását sokan sokféleképpen értelmezik, s bár a tudásgazdálkodás végleges rendszerezése még várat magára, már jelenleg is megfigyelhető két, egymástól eltérő felosztási rendszer. Az első szerint a tudásmenedzsment két nagy iránya talán inkább feladata az információkkal, valamint a humán erőforrásokkal történő gazdálkodás. Az előbbi szerint tudás alatt az információs rendszerekben nyomon érhető és kezelhető objektumokat, míg utóbbi szerint az állandóan változó, formálódó folyamatokat, a képességek és szakértelem komplex rendszerét értjük. A másik értelmezés szerint a tudásmenedzsment három nagy tárgyalási módja a mechanisztikus, a kulturális/magatartási, valamint a rendszerező szemlélet szerinti megközelítés. Az első mód inkább a technológiai eszközökkel történő információkeresés tökéletesítését vizsgálja, a másodikban a tudást és annak kezelését mint vezetés, illetve szervezéselméleti problémát értelmezik, míg a harmadik tárgyalásmód a tudás problémakör szisztematikus elemzésére, modellezésére helyezi a hangsúlyt. (Géró 2000) Az ontológiák jelentősége a technológiai alapú megközelítésekben nagy. Ebben a vonatkozásban él az az elképzelés, miszerint a tudás megragadható, modellezhető és áramoltatható tudásszervezési rendszerek segítségével. Ugyanakkor az is egyértelművé vált, hogy egy hatékony tudáskezelő rendszer elősegítheti ugyan a tudás áramoltatását és megragadását, de nem egyedüli záloga a tudásmenedzsment tevékenység hatékonyságának. A tudásmenedzsment vállalati környezetben az ún. tudásmenedzsment ciklussal írható le, amely a következő lépéseket foglalja magában. (Nuridsányi 2006 alapján)

81 Az ábrán látható fogalmakhoz némi magyarázat szükséges. Kezdjük a stratégiai alappillérekkel. - Stratégiai alapok. A tudásmenedzsment a szervezet létező üzletstratégiájára, annak céljaira épül, azok megvalósítását szolgálja. - Folyamatok. A tudásmenedzsment tevékenységek szervesen beépülnek a szervezet üzleti folyamataiba. - Technológia. Épít a hatékony, részben már meglévő, a szervezet által már használt, részben pedig speciálisan a tudásmenedzsmentet kiszolgáló, korszerű technológiákra. Ebben a vonatkozásban különösen nagy jelentősége van az ontológiáknak. - Kultúra. A tudásmenedzsment gondolkodásmódot, megközelítésmódot, viselkedést is jelent, amely beépül a szervezeti kultúrába. (Nuridsány 2006) Az egyes lépések a következők. - Szükségletek. Ebben a fázisban történik azon tudáselemek azonosítása, meghatározása, amelyekre szert kell tennie a szervezetnek. Formái lehetnek: felmérés, audit; az igények folyamatos gyűjtése; kutatás, piacelemzés, szakmai kutatás. - Létrehozás. EZ a lépés az új tudás létrehozása a szervezet számára, amely többféleképpen valósítható meg: tanulással, vásárlással, kitalálással (innovációval), fejlesztéssel. A létrehozás forrásai lehetnek a meglévő tudáselemek kombinációja,

82 külső források megismerése (könyvek, folyóiratok, konferenciák, ülések, jelentések, szabványok stb.), külső személyek. - Megragadás, azaz a tudás újrafelhasználható formába öntése; általában externalizáció (tacit tudásból explicit tudás létrehozása). Kétféle alapvető formája a Hard copy (papíron vagy elektronikus formában való dokumentálás; meglévő rendszerbe történő rögzítés; hangfelvétel; képfelvétel); Soft (pl. működésbe, folyamatba való beépítése; új tudáselem azonosítása, másokkal való megosztással együtt.) A szakirodalom felhívja rá a figyelmet, hogy a puha megragadást mindig hard lépésnek kell követnie. - Hozzáférhetővé tétel a felhasználók számára, akiknek a tudásra a szervezeti feladataik végzéséhez szükségük van. (pl. kereshetőség biztosítása, direkt módon való eljuttatása a használóhoz, a tudással rendelkező informális kommunikáció biztosításával. Ez történhet elektronikusan (pl. tudásmenedzsment rendszerbe való bevitel; egyéb információs rendszerbe való bevitel; egyszerű elektronikus tárolás) vagy papírhordozón (pl. irattár, könyvtár) - Megosztás, vagyis a tudáselemek megosztása azok potenciális használóival, amelynek szintén háromféleféle formája van: 1. Passzív hozzáférhetővé tétel (explicit-explicit), pl. Papír formában (könyv, cikk, belső dokumentáció); internet vagy intraneten. 2. Aktív hozzáférhetővé tétel (explicit-tacit). Pl. direkt küldés, előadás, konferencia, képzés, oktatás 3. Közösségi (tacit-tacit). Pl. közösségi fórumokon való megbeszélés, elemzés, munka közbeni kommunikáció. - Konszolidálás. A tudáselemek osztályozása, rendszerbe sorolása, a megtalálás, hozzáférés, felhasználás hatékonyabbá tétele érdekében. Ennek formái lehetnek a tudástérkép készítés, indexelés, kulcsszavazás, klasszifikáció, beillesztés adott rendszerbe (irattár, elektronikus könyvtári rendszer, stb.), információs rendszerben való rögzítés. - Használat. A megszerzett illetve meglévő tudás felhasználása, hasznosítása a szervezeti feladatok elvégzésekor. Ennek során további tudásigények merülhetnek fel. Formái lehetnek: közvetlen eladás, tanácsadás, szakértés, információ eladás, termékbe való beépítés, termékfejlesztés, szolgáltatás, követés, támogatás; Stratégiai, taktikai döntések támogatása, piacelemzés. - Értékelés. A szervezetben lévő tudás értékelése az üzleti értékhez való hozzájárulás szempontjából. Pl. Balanced Scorecard, megtérülés elemzés, szervezeti egységek értékelése, munkatársak értékelése, rendszer értékelése. (Nuridsány 2006) A fenti ciklus lépéseit végiggondolva világos, hogy az ontológiák és közvetve a szemantikus technológiák tudásmenedzsmentben való hasznosításával kapcsolatosan az elképzelhető alkalmazások nagyon sokfélék lehetnek. Most csak egyet, a tudástérképet mutatjuk be. Tudástérképek készítésére a tématérkép technológia különösen alkalmas. Géró Katalin (2000) a következőképpen foglalja össze a tudástérképek vállalati hasznosítását.

83 Egy szervezet információs és tudásvagyona dokumentálásának, megjelenítésének alapvető feltétele, hogy a szervezet rendelkezzék olyan közösen kialakított, előre definiált fogalmi rendszerrel, illetve taxonómiával, amely alapján az ismeretek hatékonyan visszakereshetővé válnak. Olyan eszközrendszert kell a használók kezébe adni, amelynek segítségével a tárolt ismereteket a megközelítési módtól függetlenül, hatékonyan tudják használni. Ha úgy tetszik, létre kell hozni a szervezet profilját alapul vevő osztályozási rendszert, amely által lehetővé válik a tudásvagyon ésszerű katalogizálása és a tudásrendszerben való megjelenítése. A tudáskatalógus a vállalat szellemi értékeinek olyan rendszerezett forrásgyűjteménye, amely teljességre törekedve feltárja az önálló fájlok weboldalak, dokumentumkezelő rendszerek, adatbázisok, adattárak és adattárházak stb. tartalmát. A katalógus egyes elemeit az ún. metaadatok írják le, amelyek rögzítik az egyes információforrások jellemzőit (lelőhely, szerző, keletkezés időpontja). A vállalati tudáskatalógus hatékonysága növelhető az ún. tudástérképek alkalmazásával, lehetőséget adva a katalogizált tudástartalom vizuális megjelenítésére. A tudástérképek készítésekor az ismereteket grafikusan ábrázoljuk, azaz megkíséreljük leképezni egy adott fogalmi hálózatot az azt felépítő egyes fogalmak, illetve a köztük fennálló kapcsolatok rögzítésével. Az így kapott ábrák a tartalmat megszabadítva a szövegkörnyezet adta korlátoktól lehetővé teszik egy tudáskör általános, környezettől független feltérképezését és megértését. Ezáltal pedig könnyebbé válhat új ismeretek és összefüggések felfedezése és az ismeretek egymással történő megosztása is. Ehhez azonban szükség van a szervezet tudáskezelő rendszerének megtervezésére és kialakítására is. (Géró 2000) Összefoglalva tehát a vállalatok életében egyre nagyobb jelentősége van a tudásnak, amelynek megragadására, konszolidálására, termelővé tételére hatékony eszközöket kínálnak az ontológiák. A tématérkép technológia különösen alkalmas vállalati tudástérképek készítésére a humán interpretációra való optimalizáltsága miatt. 7.3 Oktatás Az ontológiák és az oktatás kapcsolata egyértelműnek tűnhet, hiszen előbbinek a célja az ismeretek formalizálása, ezzel fogyaszthatóvá tétele, amely az oktatás és a tananyagok készítésének is az egyik alapvető folyamata. Néhány alkalmazás bemutatásával azonban példákat is szeretnénk mutatni a használat lehetőségeire. A tématérképek e-learningben való használhatóságát szemlélteti a Magyar Elektronikus Könyvtárban a klasszikus magyar irodalom tématérképe ( Ezt a kísérleti jelleggel elkészített alkalmazást az Empolis Magyarország Kft. készítette. Céljuk a hazai piacon való sikeres szereplés előfeltétele, egy látványos referenciamunka elkészítése volt. Tartalmilag a középiskolás tananyag tényeit ragadja meg az alkalmazás és jeleníti meg szemantikus kapcsolatok hálójában. Az alkalmazás erénye, hogy magyar nyelven

84 reprodukálta a tématérképek alapfogalmait, sikeresen alkalmazta a nyelvet a konkrét esetek feltöltésénél. A Wellingtoni egyetemen működő Új-Zélandi Elektronikus Szövegközpontban egy szöveggyűjteményt reprezentáltak egy ontológiában. (NZETC New-Zealand Electronic Text Centre Témák (összesen körülbelül téma) reprezentálják a szerzőket, kiadókat, képeket és szövegeket, a közöttük lévő kapcsolatokat asszociációk írják le, előfordulásként pedig külső erőforrásokat rendeltek a tartalmakhoz. (Stevenson, Tuohy, Norrish 2008) Az NZETC projektje lényegében a teljes digitális könyvtárat tématérkép alapokra helyezte, és ezzel egy rendkívül felhasználóbarát felületet alkotott.

85 A tématérképek lehetőséget adnak tematikus portálok készítésére. Könyvtári tematikus portál kialakítását célozta a zaragozai egyetemen indult Potnia projekt, amely tématérkép, RDF és Dublin Core metaadat szabványokon alapul. Az alkalmazás a keresések további finomítását tette lehetővé azzal, hogy relációkat definiált a kulcsszavak között. A Potnia projekt fejlesztései felhasználói igényvizsgálaton alapulnak, az eredményként megjelenő szoftvereket (két verzió is megjelent) pedig valódi környezetben próbálták ki. (Tramullas, Garrido 2006) 7.4 szemantikus web ontológiák Az ontológiák fejlesztésének az egyik legfontosabb motivációját az elmúlt években egy globális hálózati metaadat-infrastruktúra létrehozása jelentette. Ebben a részben röviden áttekintést adunk a szemantikus web felépítéséről, és arról, hogy ebbe a struktúrába miként illeszkednek az ontológiák. A világhálón a tudás tárolására korlátlan lehetőségek állnak rendelkezésre. A tartalom szerinti visszakeresésnek azonban két nagyon jelentős gátja van. Egyrészt az emberi erőforrások mértéke, másrészt a szintaxison alapuló heurisztikák korlátozottsága szabnak határt a szemantika alapján való keresés lehetőségeinek. Ezen problémákra adott válaszként jelent meg a szemantikus web vízió. Tim Berners-Lee 1998 szeptemberében tette közzé a Semantic Web Road Map (Szemantikus web autóstérkép) c. cikktervezetét, amely alcíme szerint nem több mint tapasztalatok továbbgondolása, egy kipróbálatlan architektúra terve, illetve egy autóstérkép a jövőhöz. A cikk, amely az RDF logika mentén vázolja fel a szemantikus web struktúráját, egy láb

Több megjelenítése