Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0. A Szemantikus Web 2. Forrás: http://oeg-dev.dia.fi.upm.es/licensius/blog/?q=lodlicenses
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 1. Az RDF tripletek újra A keletkező nagy mennyiségű adat tárolása egyszerű kapcsolatokkal nem elegendő. Az adatokról több mindent kell tárolni, a kapcsolatokat néven kell nevezni. Erre jók az RDF tripletek: címkézett kapcsolatok a weben két URI val, Uniform Resource Identifier-rel azonosított erőforrás között. Az RDF tripletek subject, property és object összetevője egy világbeli, de a weben azonosított dolog (subject) adott jellemzőjének (property) értékét (object) adja meg. (Az angol elnevezések nagyon szerencsétlenek, mert tulajdonképpen a szemantikus háló O-A-É tripletjének felelnek meg, ahol O=objektum, A= attribútuma, jellemzője az objektumnak, É= az attribútum értéke. Pl. A citrom színe sárga.)
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 2. Az RDF tripletek újra.. Emeljük ki, hogy az objektum és a jellemzőérték egyaránt URI, azaz a weben fellelhető azonosított valami, az attribútum, mely a kapcsolatot címkézi, specifikálja pedig szintén URI, vagy egyszerű szöveg (literál). Egy példa tripletre: (<http:// isbn 6682>, <http:// /original>, <http:// isbn 409X>) Az RDF az ilyen tripletek általános modellje (géppel olvasható formában, mint pl. RDF/XML, Turtle, N3, RXR, )
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 3. Az RDF tripletek újra.. A webes erőforrásként alkalmazott dolgok bármilyen URI-t használhatnak: - http://www.example.org/file.xml#element ( home) - http://www.example.org/file.html#home - http://www.example.org/file2.xml#xpath1 (//q[@a=b]) Az URI-k nem webes dolgokat is azonosíthatnak (a weben): - http://www.ivan-herman.net/me nem Ivan Herman weboldala, nem a publikációs listája, hanem a személy azonosítója a weben. Az RDF ábrázolható irányított, címkézett gráfként.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 4. Példa egyszerű RDF-re RDF/XML formátummal <rdf:description rdf:about="http:// /isbn/2020386682"> <f:titre xml:lang="fr">le palais des mirroirs</f:titre> <f:original rdf:resource="http:// /isbn/000651409x"/> </rdf:description> A kipontozások csak az URI-k egyszerű megjelenítését szolgálják.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 5. Példa egyszerű RDF-re Turtle formátummal Turtle formátumú megadás: <http:// /isbn/2020386682> f:titre "Le palais des mirroirs"@fr ; f:original <http:// /isbn/000651409x>.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 6. Közbenső csomópontok Tekintsük a következő állítást a kiadó egy dolog, amelynek neve és címe van Eddig a csomópontokat URI-k jelölték. De most mi a dolog URI-ja?
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 7. Közbenső azonosítók (üres csomópont) <rdf:description rdf:about="http:// /isbn/000651409x"> <a:publisher rdf:nodeid="a234"/> </rdf:description> <rdf:description rdf:nodeid="a234"> <a:p_name>harperscollins</a:p_name> <a:city>harperscollins</a:city> </rdf:description> <http:// /isbn/2020386682> a:publisher _:A234. _:A234 a:p_name "HarpersCollins". A szintaxis serialization, azaz bitfolyamra bontás/összerakás függő A234 kívülről láthatatlan (nem egy valós URI!); ez egy belső azonosító egy erőforrás számára
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 8. Közbenső csomópontok: a rendszer szintén meg tudja csinálni Hagyjuk, hogy a rendszer belül hozzon létre egy csomópontid -t (igazándiból nem kell a névvel foglalkoznunk ) <rdf:description rdf:about="http:// /isbn/000651409x"> <a:publisher> <rdf:description> <a:p_name>harperscollins</a:p_name> </rdf:description> </a:publisher> </rdf:description>
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 9. Ugyanez Turtle-ben <http:// /isbn/000651409x> a:publisher [ a:p_name "HarpersCollins"; ].
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 10. Közbenső csomópontok: néhány további megjegyzés Az üres csomópontok figyelmet igényelnek gráfok egyesítésénél - Eltérő gráfokban lévő azonos értékű csomópontid -k valójában eltérőek - a kezelő programoknak erre figyelniük kell. Sok kezelő program inkább nem használ üres csomópontokat, hanem új URI-kat definiál magától menetközben.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 11. Esettanulmány: Tudásintegrálás a Kínai Gyógyászatban Számtalan hagyományos kínai gyógyászati adatbázis egyesítése - kb. 80 adatbázis, adatbázisonként 200 000 rekord Form alapú lekérdezőfelület a végfelhasználók számára
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 12. Egy szinttel magasabban Megjelenik az RDFS és a Datatypes
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 13. Az RDF Sémák szükségessége Az első lépés az extra tudás irányába - definiálja az általunk használható fogalmakat - milyen korlátozásokat alkalmazzunk - milyen extra viszonylatok vannak? Hivatalosan: RDF Vocabulary Description Language RDF szótárleíró nyelv - A séma szó történelmi okokból maradt meg.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 14. Osztályok, erőforrások Hagyományos ontológiák és taxonómiák használatának megfontolása - használjuk a novella fogalmat - minden novella egy szépirodalom (fiction) - «The Glass Palace» egy novella Az RDFS erőforrásokat és osztályokat definiál - Az RDF-ben minden egy erőforrás - Az osztályok szintén erőforrások, de.. -.. szintén felfoghatók lehetséges erőforrások gyűjteményeként (pl. egyedek ) - fiction, novel,
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 15. Osztályok, erőforrások.. Az osztályok és az erőforrások közötti viszony deklarálásra kerül. - Típuskezelés: az egyed egy speciális osztályhoz tartozik - «The Glass Palace» egy novella - pontosabban: «http://.../000651409x» is a novel - Alosztályképzés: az egyik összes egyede a másiknak szintén egyede ( minden novella szépirodalom) Mindezeket az RDFS formalizálja az RDF-ben.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 16. Osztályok, erőforrások az RDFS-ben Az RDFS definiálja ezen fogalmak jelentését - ezek mind speciális URI-k, mi csak a névtér rövidítést használjuk
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 17. Séma példa RDF/XML-ben A séma rész: <rdf:description rdf:id="novel"> <rdf:type rdf:resource=http://www.w3.org/2000/01/rdf-schema#class /> </rdf:description> Az RDF adat egy specifikus újdonságról: <rdf:description rdf:about="http:// /isbn/000651409x"> <rdf:type rdf:resource="http:// /bookschema.rdf#novel"/> </rdf:description>
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 18. További megjegyzések a típusokról Egy erőforrás több osztályhoz is tartozhat - rdf:type csak egy property - «The Glass Palace» egy novella, de «The Glass Palace» egyúttal egy «inventory item» (leltári tétel) - azaz, nem olyan, mint egy adattípus (datatype) A típus (type) információ nagyon fontos lehet a feldolgozóprogramok számára - pl. használható lehet lehetséges csomópontok kategorizálására - valószínűleg ez a leggyakrabban használt RDF property (sajátosság) - (emlékszünk a Person -ra a példánkban?)
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 19. Örökített property-k (tulajdonságok) Nem léteznek az eredeti RDF adatokban de örökíthetők az RDFS szabályokkal! (következtetés) Az RDFS környezetek visszadják a tripletet is.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 20. Örökítés: csak formálisan Az RDF Semantics dokument tartalmaz 33 örökítési szabályt: - ha ilyen és ilyen tripletek vannak a gráfban, akkor add hozzá ezt és ezt. - Ismételd rekurzív módon, amíg a gráf nem változik. A releváns szabály a mi példánkból: If: uuu rdfs:subclassof xxx. vvv rdf:type uuu. Then add: vvv rdf:type xxx. ( xxx: szépirodalom; uuu: novella; vvv: ISBN szám ) Tehát isbn000651409x is egy szépirodalom.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 21. Properties (sajátosságok) A Property egy speciális osztály (rdf: Property) - A property-k szintén URI-k által azonosított erőforrások Lehetségesek sub-property -k - az összes erőforrás, mely a sub által kötött, kötött más által is A property-k tartománya és domainje megadható - pl. az erőforrások melyik típusa működik object-ként és melyik subject-ként.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 22. Property megadás szerializált RDF/XML-ben: <rdf:property rdf:id="title"> <rdfs:domain rdf:resource="#fiction"/> <rdfs:range rdf:resource="http://...#literal"/> </rdf:property> Turtle-ben: :title rdf:type rdf:property; rdfs:domain :Fiction; rdfs:range rdfs:literal.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 23. Mit jelent ez? Új viszonylatok következtethetők ki. Valóban, ha :title rdf:type rdf:property; rdfs:domain :Fiction; rdfs:range rdfs:literal. <http:// /isbn/000651409x> :title "The Glass Palace". Akkor a rendszer képes kikövetkeztetni, hogy: <http:// /isbn/000651409x> rdf:type :Fiction. Aminek címe van, az szépirodalom.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 24. Literálok (karaktersor) A literáloknak lehet adattípusa - float, integer, boolean, stb., az XML Shema-ban definiáltak szerint. Natural language (természetes nyelv) szintén specifikálható.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 25. Példák adattípusokra <http:// /isbn/000651409x> :page_number "543"^^xsd:integer ; :publ_date "2000"^^xsd:gYear ; :price "6.99"^^xsd:float.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 26. Az RDFS kis részével is messzire juthatunk Emlékszünk a gráfegyesítés erejére? Használhatnánk a példánkban: - f:auteur is a subproperty of a:author and vice versa (Bár fogunk látni más utakat hogy megcsináljuk) - Természetesen egyes esetekben összetettebb tudás szükséges.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 27. További viszonylag egyszerű alkalmazás Cél: régebbi tapasztalati adatok felhasználása Tartsuk az adatokat adatbázisban, vagy XML-ben, egyszerűen exportáljuk a fact kulcsot RDF-ként Alkalmazzunk egy táblázatos böngészőt az eredmény megjelenítésére és a használatára.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 30. Hogyan szerezzünk RDF formátumú adatot? Egyszerűen írjunk RDF/XML vagy Turtle dokumentumot kézzel. Néhány esetben ez szükséges, de valójában korlátozott lehetőség. - tipikus példák: személyes adatok, címek, melyeknek olvashatóknak kell lenniük emberek számára és feldolgozhatóaknak a gépek által. Az adathoz adva némi meta információt, ugyanaz a forrás felhasználható pl. adatintegráláshoz, egyesítéshez, stb. Két megoldás: - nyerjük ki a struktúrát a lapról és konvertáljuk a tartalmat RDFbe - Adjuk az RDF utasításokat közvetlenül az XHTML-hez RDFa-n keresztül.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 31. RDF kinyerése Kerítsünk intelligens kinyerő szoftvert, mely weblapokból vagy XML fájlokból tudja a struktúrát, esetleg közvetlenül az RDF formátumot kinyerni és utána generáljuk az RDF-et automatikusan (pl. egy XSLT scripttel) Pl. GRDDL elemzővel formalizálhatjuk a fenti folyamatot.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 32. A kinyerési technika formalizálása: GRDDL (Gleaning Resource Description from Dialects of Languages) A GRDDL megvalósítja ezt a kinyerési technikát, pl.: <html xmlns="http://www.w3.org/1999/"> <head profile="http://www.w3.org/2003/g/data-view"> <title>some Document</title> <link rel="transformation" href="http: /dc-extract.xsl"/> <meta name="dc.subject" content="some subject"/>... </head>... <span class="date">2006-01-02</span>... </html> mely a dc-extract.xsl megadással a következőt eredményezi: <> dc:subject "Some subject"; dc:date "2006-01-02".
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 33. A Szemantikus Web alkalmazásai Az RDFS, azaz RDF Séma nyelven kívül még az OWL (Web Ontology Language) terjedt el az információk magasszintű leírására. Az említett eszközökkel létrehozott szemantikus web a tudás újfajta tárházaként funkcionál. A keresések új minősége, következtető, problémamegoldó alkalmazások sokasága érhető el ezen az alapon. Gond az, hogy az eddig felhalmozott ismeretek átstruktúrálása nem egyszerű feladat. Történtek erőfeszítések a szemantikus web gazdagítására. Ezen eredmények egyike a LOD (Linked Data Objects) felhő.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 34. A LOD (Linked Data Objects) felhő A Linked Data Community közösség nagy volumenű munkája az ismeretek átgondolt csoportosítását valósítja meg. A 7 fő kategóriában olyan adathalmazokat, tudástárakat hoztak létre ontológia alapokon, melyek erőteljes kapcsolódással rendelkeznek, az egyes témakörök legalább 50 éllel kötődnek a diagram többi részéhez. A hét fő kategória: Média Geográfia Publikációk Felhasználói adatok Kormányzati adatok Interdiszciplináris Élettudományok.
Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 35. A LOD (Linked Data Objects) felhő.. http://lod-cloud.net/ Média Geográfia Publikációk Felhasználói adatok Kormányzati adatok Interdiszciplináris Élettudományok.