Micskei Zoltán Strausz György. Méréstechnika és Információs Rendszerek Tanszék.

Hasonló dokumentumok
Tudásalapú információ integráció

Mediátor. Forrás leírás. Forrás fúzionálás/ Lekérdezés tervezés. Monitor. Végrehajtás. Válasz. Szolgáltatások. Web lapok. Strukturált adatok

Információ integráció (GAV példa) 6. Előadás. Méréstechnika és Információs Rendszerek Tanszék

Mediátor. Forrás leírás. Forrás fúzionálás/ Lekérdezés tervezés. Monitor. Végrehajtás. Válasz. Szolgáltatások. Web lapok. Strukturált adatok

Információ integráció (Datalog, Veder algoritmus, GAV példa) 6. Előadás

Információ integráció (Szemantikus Web megközelítés a másik irányból) 5. Előadás

SZEMANTIKUS WEB. Integrációs és ellenőrzési technikák VIMIAC04, tavasz

Információ integráció Szemantikus Web megközelítés Alkalmazások

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

1. Melyik szabvány foglalkozik dokumentumok tulajdonságainak megfogalmazásával? a. RDFS b. FOAF c. Dublin Core d. DBPedia

Microsoft SQL Server telepítése

A szemantikus világháló oktatása

Szemantikus technológiák területei. Rácz Gábor,

Szemantikus világháló a BME-n

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Fejlesztés, működtetés, felügyelet Hatékony infrastruktúra IBM szoftverekkel

Név: Neptun kód: május 23. Komplex MI alkalmazások vizsga Rendelkezésre álló idő: 75 perc 1. Vizsgálja meg a következő RDF leírást:

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

Név: Neptun kód: április

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Virtuális Obszervatórium. Gombos Gergő

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

ÜZLETI I TELLIGE CIA - VIZUALIZÁCIÓ

Szolgáltatásintegráció (VIMIM234) tárgy bevezető

Oracle9i Alkalmazás Szerver Üzleti folyamat integráció. Molnár Balázs Vezető értékesítési konzultáns Oracle Hungary

Adatbányászat és Perszonalizáció architektúra

Önálló labor feladatkiírásaim tavasz

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Infor PM10 Üzleti intelligencia megoldás

Történet John Little (1970) (Management Science cikk)

Multimédiás adatbázisok

IBM felhő menedzsment

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Félreértések elkerülése érdekében kérdezze meg rendszergazdáját, üzemeltetőjét!

Gazdasági informatika alapjai

Szolgáltatásintegráció (VIMIM234) tárgy bevezető

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Testreszabott alkalmazások fejlesztése Notes és Quickr környezetben

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

SAS szoftverek felhasználási lehetőségei a felsőoktatásban

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

Fülöp Csaba, Kovács László, Micsik András

Név: Neptun kód: május 26., VIMIAC04 Integrációs és ellenőrzési technikák vizsga Rendelkezésre álló idő: 90 perc

A Jövő Internet Nemzeti Kutatási Program bemutatása

A webanalitika változó világa 4 felvonásban

Adatbázisok MSc. 12. téma. Ontológia és SPARQL

Az adatbázisrendszerek világa

Folyamatmodellezés és eszközei. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Vezetői információs rendszerek

SZEMANTIKUS WEB. Méréstechnika és Információs Rendszerek Tanszék

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA

Mesterséges Intelligencia Elektronikus Almanach. Konzorciumi partnerek

Szemantikus webszolgáltatások használatát támogató middleware. Kovács László, Micsik András, Tóth Zoltán DSD MTA SZTAKI. Elosztott Rendszerek Osztály

Teljeskörű BI megoldás a gyakorlatban IBM eszközök használatával, Magyarországon

Kővári Attila, BI projekt

- Adat, információ, tudás definíciói, összefüggéseik reprezentációtípusok Részletesebben a téma az AI alapjai című tárgyban

Internetes térkép publikálási technikák, szabványok, trendek, nyílt forráskódú megoldások

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

Szombathely Város Vezetõi Döntéstámogató Rendszere VDIR-STAT.

Célkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése

Mezőgazdasági külső információs rendszerek fejlesztése

Dr. Sasvári Péter Egyetemi docens

SZEMANTIKUS WEB. Méréstechnika és Információs Rendszerek Tanszék

Szolgáltat. gfelügyeleti gyeleti rendszer fejlesztése. NETWORKSHOP 2010 Sándor Tamás

Adattárház kialakítása a Szövetkezet Integrációban, UML eszközökkel. Németh Rajmund Vezető BI Szakértő március 28.

KEYSERVE. Pulttól a kasszáig Szolgáltatások értéknövelése automatizálással 2010

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető október 4.

Fogalomtár bevezetése a Magyar Telekomnál

SAM-Insights ADVANCED CENTRAL DATA COLLECTOR (ACDC) Szkenneléssel nem mérhető licencelési adatok. Egyedülálló funkcionalitású, új ACDC modul

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

DW 9. előadás DW tervezése, DW-projekt

ETL keretrendszer tervezése és implementálása. Gollnhofer Gábor Meta4Consulting Europe Kft.

Oracle Enterprise Metadata Management

Big Data: a több adatnál is több

CMDB architektúra megjelenítése SAMU-val Rugalmas megoldás. ITSMF Bekk Nándor Magyar Telekom / IT szolgáltatás menedzsment központ

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Csima Judit szeptember 6.

Az információs rendszerek adatai

LOGISZTIKAI ADATBÁZIS RENDSZEREK BEVEZETÉS

Szemléletmód váltás a banki BI projekteken

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

IK Algoritmusok és Alkalmazásaik Tsz, TTK Operációkutatás Tsz. A LEMON C++ gráf optimalizálási könyvtár használata

Az információs rendszerek adatai

Menetrendkezelő Rendszer

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Szolgáltatás és Minőségfejlesztés a Corvinus Egyetemen Kiss György János Mogyorósi János

Több mint BI (Adatból üzleti információ)

A tudás handrendbe állítása, azaz SPSS PES

Korszerű oktatási környezet kialakítása az eenvplus projektben. Márkus Béla

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

Átírás:

Micskei Zoltán Strausz György Méréstechnika és Információs Rendszerek Tanszék https://www.mit.bme.hu/oktatas/targyak/vimiac04 1

Hogyan építsünk információ gazdag megoldásokat? Információ/adat integráció Webes környezetek Intézményi környezetek Technikák: szemantikus technológiák Hogyan fejlesszünk jó minőségű szoftvert? Kód gyakori integrálása és ellenőrzése Kód review, kód analízis, tesztelés Technikák: continous integration (CI), mocking, automatikus tesztelés 2

Előadások: hétfő 10.15 12.00., IB 025 Gyakorlatok: péntek (8.15 10.00., 10.15 12.00, 12.15 14.00) 6db gyakorlat, kéthetente, IB.413. terem Gyakorlatok témái: 1 3. alkalmak: Szemantikus technológiák (adatmodellezés, integráció) 4 6. alkalmak: Tesztek írása, CI beüzemelése, kód átvizsgálása 3

Zárthelyi: Zárthelyi időpontja: 2018. március 27., 8.15 10.00 Pótzárthelyi időpontja: 2018. április 16., 17.15 19.00 (helyszínek később) HF: Vizsga: ZH értékelés: elfogadás 40%, e feletti pontok 25% a beszámít a vizsgába, maximum 15% vizsgapont szerezhető) követelmény: elfogadás; 4 fős csapatok, GitHub infrastruktúra használata írásbeli 4

Integrációs technikák tartalom Bevezetés, probléma felvetés Szemantikus technológiák Szemantikus web koncepció RDF, SPARQL RDFS, OWL Linked Data Adatintegráció Elosztott, webes környezetek Mediátorok (Datalog nyelv, lekérdezés átalakítások nézetek felhasználásával) Intézményi környezetek, adattárházak 5

Integráció: Tartalom vs Forma Szemantikus nézet Szintaktikus nézet A megbeszélés sikere az érvelésen és a logikus következtetésen múlik. A_megbeszélés_sikere _az_érvelésen_és_a_lo gikus_következtetésen _múlik. 6

Miért van szükségünk információ integrációra? (Alkalmazások) WWW: Összehasonlítás alapú vásárlás Portál építések több adatforrás felhasználásával B2B, elektronikus piacterek Tudomány és kultúra: Genetika: gén információk integrálása Asztrofizika: égi jelenségek gyűjtése. Kultúra: kulturális információs adatbázisok egységes elérése országhatárokon túl Vállalati adatintegráció Egy átlagos KNV 49 adatbázist alkalmaz és IT költségvetésének 30% át az adatintegrációra költi (US, 2009) 11

Csak szöveg volna a weben? A web jelentős része valójában strukturált A legtöbb web szerver mögött adatbázisok állnak Dinamikusan konvertálják az adatokat olvasható nyelvi formára <India, New Delhi> => The capital of India is New Delhi. Ha vissza tudnánk konvertálni lenne strukturált adatunk! (ki)csomagolók, csomagolók tanulása, stb Dinamikus lapokat is fel tudunk deríteni... Félig strukturált web (kialakulóban) Legtöbb lap részben strukturált (pl. XML) XML a szabvány a szintaktikára, ismert problémák az értelmezéssel Szolgáltatások Utazási szolgáltatások, vásárlások támogatása Érzékelők Tőzsdei árfolyamok, hőmérsékletek, jegyárak 12

Miért nem elég: Keresőgépek szövegalapú keresést végeznek Jól működik egyedi dokumentumokon Nem tudnak integrálni több dokumentumból származó információkat Nem képesek hatékony általánosításra Nem tudnak dokumentumokat és adatbázisokat összekapcsolni Az információ integráció célja strukturált és féligstrukturált információforrások együttes kezelése 13

Ennél azért már több is elérhető: Szövegalapú keresés > tudásháló (knowledge graph) https://www.google.com Wikipedia > DBPedia Profil hálók Forrás: http://www.ted.com/talks/tim_berners_lee_on_the_next_web 14

Példa: tudás hálók Forrás: Knowledge Graph Refinement:A Survey of Approaches and Evaluation Methods, Editor(s): Philipp Cimiano, Universität Bielefeld, GermanySolicited review(s): Natasha Noy, Google Inc., USA; Philipp Cimiano, Universität Bielefeld, Germany; Semantic Web 0 (2016) 1 0 IOS Press 15

Miért nem csak adatbázisok elosztott adatbázisok Közös séma hiánya Források heterogén sémákkal (és fogalmakkal, ontológiákkal) rendelkeznek Félig strukturált források Query (SQL) Régi források Nem relációs sémák Answer (relation) Eltérő elérési módok Független források Nincs közös adminisztráció Nem kezelt forrás tartalmi átfedések Nehezen előrejelezhető viselkedés Lekérdezés végrehajtás bonyolult Általában csak olvashatóak Ez lehet szerencsés is Bár terjednek a tranzakció kezelési megoldások a weben Database Manager (DBMS) -Storage mgmt -Query processing -View management -(Transaction processing) Database (relational) 17

Szolgáltatások Forrás leírás Web lapok Strukturált adatok Forrás fúzionálás/ Lekérdezés tervezés Mediátor Szenzorok (soros adatok) Végrehajtás Monitor Válasz 19

Felhasználói lekérdezések megfogalmazása a mediált (globális) sémán. Adatok tárolva lokális (távoli) sémákban. A tárolt információ (tartalom) ismerete alapján megfogalmazható a leképezés a sémák között. A mediátor alkalmazza a leképezést a felhasználói kérdés lefordítására a forrás lekérdezésekre. Forrás leírás Ontológiák, Forrás és szolgáltatás leírások Forrás fúzionálás Lekérdezés tervezés Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés Teszt lekérdezések Szolgáltatáso Weblapok Strukturált adatok Szenzorok (soros adatok) Információ menedzser Válasz Végrehajtás Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést Monitor 20

Mesterséges intelligencia Tanulás/bányászás -Forrás felkutatás -Forrás statisztikák -Wrapper tanulás Forrás leírás Ontológiák, Forrás és szolgáltatás leírások Teszt lekérdezések Szolgáltatáso Weblapok Strukturált adatok Tudásreprezentáció - Ontológiák - Metaadatok - Következtetés - Lekérdező nyelvek Automata tervezés -Nyelvek tervezése -Szolgáltatások kompozíciója -Reaktív tervezés/ terv monitorozás Forrás fúzionálás Lekérdezés tervezés Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés Szenzorok (soros adatok) Válasz Végrehajtás Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést Monitor 21

Forrás leírások Minden meta adat információt tartalmaz Forrás tartalom logikai leírása (könyvek, új autók). Forrás képességek (pl. SQL lekérdezés feltehető) Forrás teljesség (minden könyvet tartalmaz). Fizikai jellemzők (forrás, hálózat). Statisztikák az adatokról Source reliability Tükör források Frissítési frekvencia. Információ menedzser Lekérdezés Preferenciák/Eléérsi modell Válasz Forrás leírás Ontológiák, Forrás és szolgáltatás leírások Forrás fúzionálás Lekérdezés tervezés Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés Végrehajtás Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést Teszt lekérdezések Újratervezési kérések Forrás elérések Statisztikák frissítése Monitor Szolgáltatások Weblapok Strukturált adatok Szenzorok (soros adatok) 22

Forrás elérések Hogyan kapunk n eseket Számos forrás strukturálatlan adatokat ad Néhány inherensen strukturálatlan, mások természetes nyelvi köntösben vannak Vissza kell csomagolni az adatokat Wrapper építés/információ kinyerés Kézi munka/fél automatikus 23

Forrás fúzió/ lekérdezés tervezés Feldolgozza a felhasználói lekérdezést és előállítja a végrehajtási tervet Költség és hatékonyság közti optimalizáció Forrás elérési korlátok kezelése Információ a forrásminőségről Forrás leírás Ontológiák, Forrás és szolgáltatás leírások Teszt lekérdezések Szolgáltatások Weblapok Strukturált adatok Információ menedzser Lekérdezés Preferenciák/Eléérsi modell Válasz Forrás fúzionálás Lekérdezés tervezés Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés Végrehajtás Kezel: forrás és hálózati kapcsolatokat, futtatási bizonytalanságokat, újratervezést Újratervezési kérések Forrás elérések Statisztikák frissítése Monitor Szenzorok (soros adatok) 24

Monitoring/ Végrehajtás Lekérdezési terv alapján elvégzi a feladatot a forrásokon Forrás késleltetések kezelése Hálózati, tranziens kimaradások Forrás elérési korlátok Szükséges lehet újratervezések elvégzése Query Preference/Utility Model Answers Source Trust Ontologies; Source/Service Descriptions Source Fusion/ Query Planning Needs to handle: Multiple objectives, Service composition, Source quality & overlap Executor Needs to handle Source/network Interruptions, Runtime uncertainty, replanning Probing Queries Replanning Requests Source Calls Updating Statistics Monitor Services Webpages Structured data Sensors (streaming Data) 25

Méretek figyelembe vétele Hány forrást kell elérni? Mennyire autonómok ezek? Van ismeretünk a forrásokról? Strukturáltak az adatok? Csak lekérdezés lehetséges vagy módosítás is? Követelmények: pontosság, teljesség, teljesítmény, inkonzisztenciák kezelése Zárt vagy nyílt világ feltételezés? 26

Kis forrás szám melletti integráció Forrás leírás Ontológiák, Forrás és szolgáltatás leírások Teszt lekérdezések Szolgáltatások Weblapok Strukturált adatok Általában ad hoc programozás: speciális eset megvalósítása minden esetre, sok konzultáció. Adattárházak: minden adat periodikus feltöltése az adattárházba. 6 18 hónap bevezetési idő Operációs és döntéstámogatási RDBMS elválasztás. (nem csak adatintegrációra megoldás). Teljesítmény jó, adat lehet, hogy nem friss;. Rendszeres adattisztítás szükséges. Lekérdezés Preferenciák/Eléérsi modell Forrás fúzionálás Lekérdezés tervezés Számos cél együttese, Szolgáltatások kompozíciója, Forrás minőség, átfedés Információ menedzser Végrehajtás Kezel: forrás és hálózati kapcsolatokat, futtatási Válasz bizonytalanságokat, újratervezést Újratervezési kérések Forrás elérések Statisztikák frissítése Monitor Adat kinyerő programok Adatforrás Felhsználói OLAP / Döntéstámogtás/ lekérdezések Adatkockák/ Adatbányászat Relációs adatbázis (tárház) Adat tisztítás Adat- Adatforráforrás Szenzorok (soros adatok) 27

Integrátor séma Felhasználói lekérdezések OLAP / Döntéstámogatás/ Adatkockák/ Adatbányászat Relációs adatbázis (tárház) Információ kinyerő programok Adattisztítás Adatforrás Adatforrás Adatforrás 28

Source Trust Ontologies; Source/Service Descriptions Probing Queries Services Webpages Structured data Virtuális integrációs séma Adatok a forrásokban maradnak Lekérdezés végrehajtásakor: Releváns források meghatározása Lekérdezés szétválasztása forrásokra vonatkozó lekérdezésekre. Válaszok begyűjtése a forrásokból, és megfelelő kombinálása a válasz előállításához. Friss adatok A megoldás skálázható Mediátor: wrapper Adat forrás Felhasználói lekérdezés Fordító motor Optimalizáló Végrehajtó gép wrapper Adat forrás Query Preference/Utility Model Answers wrapper Adat forrás Source Fusion/ Query Planning Needs to handle: Multiple objectives, Service composition, Source quality & overlap Executor Needs to handle Source/network Interruptions, Runtime uncertainity, replanning Garlic [IBM], Hermes[UMD];Tsimmis, InfoMaster[Stanford]; DISCO[INRIA]; Information Manifold [AT&T]; SIMS/Ariadne[USC];Emerac/Havasu[ASU] Replanning Requests Source Calls Updating Statistics Monitor Mediált (globális) séma Adatforrás katalógus Sensors (streaming Data) 29

Virtuális integrátor architektúra Source Trust Ontologies; Source/Service Descriptions Probing Queries Services Webpages Structured data Mediátor: Felhasználói lekérdezés Fordító motor Mediált (globális) séma Query Source Fusion/ Query Planning Needs to handle: Multiple objectives, Service composition, Source quality & overlap Executor Needs to handle Source/network Interruptions, Answers Runtime uncertainity, replanning Preference/Utility Model Replanning Requests Source Calls Updating Statistics Monitor Sensors (streaming Data) Optimalizáló Végrehajtó gép Adatforrás katalógus wrapper Adat forrás wrapper Adat forrás wrapper Adat forrás Források: relációs adatbázisok, weblapok, szövegek. 30