TSIMMIS egy lekérdezés centrikus megközelítés TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek 1
Információk heterogén információs forrásokban érhetk el WWW Társalgás Jegyzet papírok Személyes adatbázisok Eltér interfészek Eltér adatreprezentációk Redundáns és ellentmondásos információk 2
Cél: Egységes nézetet és elérést biztosítani az adatoknak Integrációs rendszer WWW Társalgás Jegyzet papírok Személyes adatbázisok Összegyjt és összekombinál információkat Integrált felhasználói nézetet és egységes felhasználói felületet biztosít 3
A mediátor megközelítés Közös adatmodell Részvény árfolyamok Kliens Mediátor Portfóliók a különböz cégek részére Üzleti riportok Wrapper Wrapper Jegyzet papírok Társalgás 4
Adattárház megközelítés Kliens Wrapper Mediátor Wrapper Tárolt integrált nézetek Feljegyzések Dialógusok 5
Virtuális integráció megközelítés Lekérdezés dekomponálás, lefordítás, eredmény fuzionálás Wrapper IBM árak Kliens Mediátor IBM portfólió IBM riportok (egységes modellben) Wrapper IBM riporok Feljegyzések Dialógusok 6
Wrapper-ek és mediátorok magasszint specifikációja Kliens Mediátor Mediátor Leírás Interpreter Mediátor leírás Wrapper Wrapper Wrapper generátor Forrás Forrás Wrapper specifikáció 7
Kihívás: Jól strukturált forma nélküli források elemzése Félig-struktúrált irreguláris Mélyen beágyazott kereszthivatkozások Hiányos séma információ autonóm dinamikus Példák HTML lapok SGML dokumentumok Gén adatbázisok Kémiai elemek Könyvtári információk Integrációk eredményei 8
Kihívás: Különböz forrás képességek Kliens IBM adatok kinyerése Mediátor (U = A + B) IBM adatok kinyerése IBM adatok kinyerése Wrapper (A) Wrapper (B) 9
Medátornak illeszkednie kell a források szolgáltatásaihoz Kliens IBM adatok kinyerése Mediátor (U = A + B) IBM adatok kinyerése Minden info kinyerése (A) Nem lehetséges a szelektálás Wrapper (A) IBM adatok kinyerése Wrapper (B) 10
Adatreprezentáció Félig-strukturált adat reprezentáció Mediátor generálás Wrapper generálás Képességeket figyelembe vev átírás 11
Félig-strukturált információk reprezentálása OEM modellel Szemantikus objektum azonosító label Értékadás <http://www/~doe, faculty, {&f1,&l1,&r1}> <&f1, first_name, John > <&l1, last_name, Doe > <&r1, rank, professor > Atomi érték Strukturális objektum azonosító 12
OEM Gráf reprezentáció <http://www/~doe, faculty, {&f1,&l1,&r1}> <&f1, first_name, John > <&l1, last_name, Doe > <&r1, rank, professor > http://www/~doe faculty first_name John last_name Doe rank professor 13
OEM struktúra tetszleges gráf reprezentációt megenged http://www/~smith faculty name Mary Smith project Air DB paper author author name Mary Smith title Thin Air DB http://www/~doe faculty first_name John last_name Doe rank professor 14
Áttekintés Félig-strukturált adat reprezentáció Mediátor generálás Mediátor specifikációs példák Nyelv kifejezer Megvalósítás és teljesítmény Wrapper generálás Képességeket figyelembe vev átírás 15
Információ egyesítés faculty rank professor birthday April 1 papers... faculty rank professor papers... s1 person birthday April 1 s2 16
Mediátor specifikáció példa faculty rank professor birthday April 1 papers... <N faculty {<L V>}> :- <faculty {<name N> <L V>}>@s1 <N faculty {<L V>}> :- <person {<name N> <L V>}>@s2 faculty rank professor papers... s1 person birthday April 1 s2 17
Mediátor specifikáció példa: Szabályok törzsének elemei faculty rank professor birthday April 1 papers... <N faculty {<L V>}> :- <faculty {<name N> <L V>}>@s1 <N faculty {<L V>}> :- <person {<name N> <L V>}>@s2 faculty rank professor papers... s1 person birthday April 1 s2 18
Mediátor specifikáció példa: Szabályok fejének értelmezése John Doe faculty rank professor birthday April 1 papers... <N faculty {<L V>}> :- <faculty {<name N> <L V>}>@s1 <N faculty {<L V>}> :- <person {<name N> <L V>}>@s2 faculty rank professor papers... s1 person birthday April 1 s2 19
Szemantikusan azonosított objektum hozzáadása John Doe faculty rank professor birthday April 1 papers... <N faculty {<L V>}> :- <faculty {<name N> <L V>}>@s1 <N faculty {<L V>}> :- <person {<name N> <L V>}>@s2 faculty rank professor papers... s1 person birthday April 1 s2 20
Irreguláris és hiányzó információ John Doe Mary Smith faculty rank professor birthday April 1 papers faculty name Mary Smith project Air DB <N faculty {<L V>}> :- <faculty {<name N> <L V>}>@s1 faculty rank professor papers faculty name Mary Smith project Air DB s1 person birthday April 1 s2 21
A második szabály további (al)objektumot rendel a nézet objektumaihoz John Doe faculty rank professor birthday April 1 papers... <N faculty {<L V>}> :- <faculty {<name N> <L V>}>@s1 <N faculty {<L V>}> :- <person {<name N> <L V>}>@s2 faculty rank professor papers... s1 person birthday April 1 s2 22
A nyelv kifejezereje MSL nyelvvel megoldott problémák Irregularitások Hiányos struktúra információk Kereszthivatkozások kezelése Inkonzisztens és redundáns adat Tetszleges illeszkedési kritérium 23
Mediátor leírás interpreter arhitektúra Eredmény lekérdezés Lekérdezés átírás Logikai adatillesztés Mediátor leírás Költség alapú optimalizácó terv Adatfeldolgozó gép Lekérdezések a wrapperek felé Eredmények 24
Lekérdezés átírás <N faculty {<salary S>}> :- :- <faculty {<name N> <salary S>}>@s1 <N faculty {< rank R >}> :- <person {<name N> <rank R>}>@s2 <well-paid {<name N> <salary X>}> :- <N faculty {<salary X> <rank assistant>}> AND X>65000 25
Lekérdezés átírás: feltételek átadása a források fele <N faculty {<salary S>}> :- :- <faculty {<name N> <salary S>}>@s1 <N faculty {< rank R >}> :- <person {<name N> <rank R>}>@s2 <well-paid {<name N> <salary X>}> :- <N faculty {<salary X> <rank assistant>}> AND X>65000 logical datamerge program <well-paid {<name N> <salary X>}> :- (<faculty {<name N> <salary X>}> AND X>65000)@s1 AND <person {<name N> <rank assistant>}>@s2 26
Lekötések átadása & Lokális Join Tervek s1 <salary X> :- <faculty {<name $N> <salary X>}> AND X>65000 s2 Lekötések átadása <name N> :- <person {<rank assistant>}> Lokális Join <a {<s X> <n N>}>:- <faculty {<name N> <salary X>}> AND X>65000 s1 N s2 <name N> :- <person {<rank assistant>}> 27
Lekérdezés dekomponálása ismeretlen eredet figyelembevételével <N faculty {<L V>}> :- <faculty {<name N> <L V>}>@s1 <N faculty {<L V>}> :- <person {<name N> <L V>}>@s2 <X faculty {<S Y>}> :- <X faculty {<birthday 1/20 > <S Y>}> 28
A terv figyelembe vesz minden lehetséges forrást a birthday értékére <N faculty {<L V>}> :- <faculty {<name N> <L V>}>@s1 <N faculty {<L V>}> :- <person {<name N> <L V>}>@s2 <X faculty {<S Y>}> :- <X faculty {<birthday 1/20 > <S Y>}> s1 s2 birthday name name birthday 29
Áttekintés Félig-strukturált adat reprezentáció Mediátor generálás Wrapper generálás Képességeket figyelembe vev átírás 30
Lekérdezés lefordítás wrapperre Wrapper SELECT * FROM person SELECT * FROM person WHERE name= Smith Lekérdezés fordító Eredmény átalakítás Minden keresése Példány keresése forrás 31
Gyors lekérdezés lefordítás SELECT * FROM person SELECT * FROM person WHERE name= Smith Sablon Interpreter SELECT * FROM person {emit find -all } SELECT * FROM person WHERE name=$n {emit find -n $N } Eredmény lefordító Minden keresése Példány keresése Forrás 32
Lekérdezés halmazok leírása Rekurzív non-terminálisok használata Példa: Munka leírások tartalmaznak w1, w2, stb. elemeket SELECT subset(person) FROM person WHERE \CJob \CJob : job LIKE $W AND \CJob \CJob : TRUE 33
Képeeségek figyelembevétele az Mediátor leírás átírásnál Lekérdezés Lekérdezés átírás Költségalapú tervek optimalizáció Optimális terv Adatilleszt gép Logikai adatillesztés Képességalapú átírás Wrapper Támogatott Wrapper lekérdezések leírása 34
Átalakító megtalálja a támogatott tervek leírását SELECT * FROM A WHERE salary>65000 SELECT * FROM A Támogatott lekérdezések 35
Képesség alapú átírás megtalálja a legpontosabb támogatott tervet SELECT * FROM B WHERE salary>65000 SELECT * FROM B WHERE salary >65000 SELECT * FROM B Támogatott lekérdezések 36
Lekérdezés képesség leírás Képesség alapú átírás architektura Lekérdezés Komponens lekérdezés keresés Komponens (al)lekérdezések Terv összeállítás Tervek(részlegesen optimális) Terv finomítás Algebrailag optimális tev 37
TSIMMIS összefoglalás Rendszer integráció heterogén forrásokra Kihívások és megoldások semistructured data & incomplete schema knowledge Megfelel lekérdezés definiáló nyelv és lekérdezés lefordítás Eltér képesség források kezelése Lekérdezés lefordítási módszer Képesség alapú átírás 38