An accurate description is needed... These features contain... Egy nehezen interpretálható témakör Adatbázis rendszerek BMEEOFTMLT3 12. WEB, Lazán strukturált adatbázisok és a Google világ Dr. Szabó György, egyetemi docens, gyszabo@eik.bme.hu Ismeretek felhalmozása: a strukturált adatbázistól a lazán rendezett adatforrásokig (szöveg, hang, kép) A tudásinfrastruktúra menedzsmentje A kapcsolatok jelentősége, WEB, Internet A WEB és a mobilitás A lazán strukturált adatrendszerek és a Google világ A keresés lelke a relevancia (Page Rank) Keresőmotorok általános felépítése Kiterjesztett valóság Google alkalmazások és a változó világ Regisztrálni és megosztani tapasztalatainkat Nyelv Írás Statisztika Matem./Tudomány X = Y - Z NaCl 2 Statisztika Modellek Tervezés: a jövő absztrakciója Emberi tényező Hieroglifák Nyílvántartás Zene/ Művészet Elemzés Dizájn & tervezés Döntés Implementáció Rajzok Térképek 3 Képek Modellezés Komplex tényezők: Környezeti Szocio-ökonómiai Infrastrukturális Tudás infrastruktúra folyamatmenedzsment Segédeszköz a következmények megértéséhez Adatkezelés Kapcsolatok Modellezés szükségessége Tudás tárházak elérhetősége Folyamat modellek létrehozása és kiértékelése Alternatívák készítése a kiértékelés alapján Együttműködés Létesítés Működtetés, karbantartás Megvalósult állapot leképezése a tudás bázisban Kezeljük együtt! 1
Elemi adatok Száz ember kapcsolatainak négy lehetséges modellje Projekt specifikus előállítás Osztott közösségi használat, publikálás Lineáris Irányított Hierarcikus Vegyes Entitások közötti explicit/implicit kapcsolatok leképezése egykor Entitások közötti dinamikus kapcsolatok leképezése ma Elemek közötti kapcsolatok leképezése 1:1, 1:n, n:1, n:m... Település Település Település-1 Település-2 Település-N Utca-2...... Utca-N Polgármester Utca-1 Tulajdonos-1 Tulajdonos-2 Tulajdonos-N Elemek közötti kapcsolatok leképezése: relevancia (Page Rank) 1:1 1:N N:N Egyed-Kapcsolat diagram (E-K diagramm) elemei: Egyed-típusok (entity, entitás) Tulajdonság-típusok (attribute, attribútum) Kapcsolat-típusok (relationship) Egyed Attribútum Kapcsolat (1:8) (6:15) TANULÓ TANUL CSOPORT név neptun_kód szül_ idő szemeszter neptun_kód érdemjegy kurzus_kód Egyed-Kapcsolat diagram (E-K diagramm) elemei: Egyed-típusok: Web Page (URL) Tulajdonság-típusok: Relevancia (felhasználói érdeklődés, fontosság, tudás) Kapcsolat-típusok: Hyperlink > Page Rank A Közeg az Internet A digitális univerzum mai (tegnapi?) helyzete Mintegy 2 milliárd felhasználó 5 milliárd csatlakoztatott eszköz Évi 1,8 Exabyte adat forgalom 500 millió host node 255 millió WEB site Napi 290 millió email Napi 2 milliárd videó letöltés Szociális média Napi 20 millió Facebook appl. Évi 36 milliárd kép feltöltés 152 millió blog Évi 100 millió új Twitter user 2
Vizualizáció, Design, Leképezés, AI A téri tájékozódás mint kommunikációs eszköz Információ forrás Adó Küldött üzenet Rendeltetési hely Vevő Jel Vett jel Bölcsesség : alkalmazott tudás Rendszerek, filozófiák, alapelvek Szintézis, megtestesülés, megkülönböztetés AI??? Tudás: kontexusba ágyazott információ Elméletek, tények, fogalmi keretek Strukturálás, interpretálás, dekonstrukció Fogadott üzenet Zajforrás Leképezés Információ: logikailag kapcsolt elemek Mondatok, egyenletek, koncepciók Hasonlítás, kapcsolás, rendezés, konverzió Adat: Design diszkrét elemek Vizualizáció Számok, kódok, karakterek Kategorizálás, számolás, gyűjtés Külső mentális reprezentáció - > térkép Mesterséges csatorna : térkép - > Belső mentális reprezentáció vizuális térérzet Képi/nyelvi reprezentáció Építőmérnöki folyamatfolyamat-modell Tér-idő akvárium Közös üzemeltetési, megjelenítési felület A tér adott időtartam alatt bejárt helyei Felügyelet, Használó Kockázat minimalizálása, környezeti hatás optimalizálása Horgonyzási pontok Enterprise Service Bus Közmű szolgáltatás CRM Pénzügy Ellátás Karbantartás Erőforrás menedzsment Fl Flotta otta kezelés Paraméterei: Belső szolg szolg.. Külső szolg szolg.. Térbeli elemek Vagyon kezelés Web Szolgáltatás Környezeti adatok Képek Demogr Demográfia áfia Település adatok Közlekedés t t Idő keret Minimális aktivitási idő Környezeti Real Time Monitoring Szolg zolg.. követés inf inf.. Maximális utazási sebesség Szolgáltató Max. sebesség Cél t2 Horgonyzási idő Idő keret t1 Start y P1 Horgony pontok P2 x Erőforrás tervezés Dizájn Fizikai terv Megvalósult állapot Hálózat elemzés Műszaki menedzsment Real Time Szolgáltatás SCADA Sen Senz zor orok ok AMI Készítő Egyéni életút leképezése A 022276xxx TAJ kódú állampolgár szervezetét érő nem ionizáló elektromágneses sugárzás helyfüggése 2010. január 14-én reggel Emeritus Tér-idő életút paraméterek: Aktivitás: Fix: munka, otthon tartózkodás Munka 2 Változó: bevásárlás, üdülés Állomás: Munka 1 Aktív kor Az aktivitás helye, ideje Tér-idő út: Egyén mozgása térben és időben Gyerek kor 3
GSM hálózat Lágymányoson Hol vagyok én szegény mobiltelefon tulajdonos? Mobil pozíció a K épületben: Ország azonosító (CC): 216 Szolgáltató ID:(NC) 30 Cella kód (LAC): 92 Csatorna (CH): 737 Csatorna ID (CID):9325 GSM antennák GSM cellák GSM hálózat Hol fotóznak legtöbbet Budapesten? -> Eric Fischer fotográfus Geotagger Világatlasza Adatbázisok definíciója, típusai Adatbázis: adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Típusai: Tényadatbázisok: strukturált formában tárolt adathalmaz az elemek között definiált kapcsolatokkal -> ADATBÁZIS Dokumentum adatbázisok: szöveg, hang, kép dokumentumok halmaza belső strukturális összefüggések nélkül -> a műszaki gyakorlat ez idáig hanyagolta, de a GOOGLE Hogyan nyerünk információt egy nem strukturált adatrendszerből? Lazán strukturált adatbázisok Googol = 1.0e100 -> Google A WEB-en fellelhető dokumentumok fontosságának osztályozása: az olvasók érdeklődése az olvasók tudása az olvasók bealítottsága, viselkedése alapján -> PageRank (LapRang?): objektív, hatékony, kiszámítható algoritmus!!! Nem szemantikai elemzés!!! 4
A Google alapítók 1998-ban Larry Page and Sergey Brin PageRank Page Rank Egy oldal fontossága arányos az adott oldalra mutató hyperlinkek számával és a hivatkozó oldal fontosságával (rekurzió). Kezdetben minden oldalnak egységnyi szavazata van minek egy részét megtartja (1-d~0,15) egy részét (d-damping factor ~0,85) és a másoktól kapott szavazatokat továbbosztja. Az oldal PageRank-je a kapott szavazatok száma. N lap esetén a Rank összeg N. A Rank úgy interpretálható, mit a kezdetben egyenlő mértékű fontosság átcsoportosítása -> sztochasztikus szörföző A Google magas szintű architektúrája (1998) Keresőmotor általános architektúra Adatolyam számítás WebMap Query Szervíz WWW Gyűjtő robot Meta data Másolatok Index Sávszélesség probléma Mentés Indexelés Index CPU probléma Index Index 5
Lazán strukturáld adatokra épülő keresés helyzetképe A keresés egy nehéz probléma Az eredmény mindig közelítő A mérés nehézkes A keresés eredményességét/minőségét számos kapcsolódó tényező befolyásolja Rang (Rank) Teljesség Aktualitás Gyorsaság Layar Kiterjesztett valóság 239 Layers, by Category: Eating and Drinking ( 22 ) Entertainment & Leisure ( 40 ) Games ( 0 ) Government ( 6 ) Health Care ( 9 ) Local search & Directory service ( 14 ) Other ( 13 ) Real Estate ( 26 ) Retail ( 22 ) Schools & Universities ( 10 ) Social networks & communities ( 20 ) Tourism : Places to stay ( 6 ) Tourism : Tours / Guides ( 26 ) Transportation ( 24 ) Weather ( 1 ) Layar Kiterjesztett valóság 239 Layers, by Category: Eating and Drinking ( 22 ) Entertainment & Leisure ( 40 ) Games ( 0 ) Government ( 6 ) Health Care ( 9 ) Local search & Directory service ( 14 ) Other ( 13 ) Real Estate ( 26 ) Retail ( 22 ) Schools & Universities ( 10 ) Social networks & communities ( 20 ) Tourism : Places to stay ( 6 ) Tourism : Tours / Guides ( 26 ) Transportation ( 24 ) Weather ( 1 ) A Layar publikációs folyamata Forrás adatok: 239 tematikus réteg Wikipedia, Google, Rendszeradminisztráció Integrált, adatbázisok (Adattárház) Layar háttérfolyamatai Térkép és adatbázis szerver Alkalmazás-szerver Pozíció:x,y,z,fi,ka,om Geotagelt tematikus adat Mobil Kliensek Google Alkalmazások Earth, Maps, Google Labs fejlesztések: Analytics WEB forgalom elemzés Public data explorer Statisztikai elemzés Traffic Közlekedési helyzet és prognózis Trends Kulcsszavak keresési gyakorisága Image swirl Képek analitikus kapcsolata Body 3D emberi test Birdeye Parametrikus grafikai nyelv Code Fejlesztői eszközök Latitude Hol van most a barátom? Merre jártam? Panoramio Panoráma kép készítés 6
Google X a Top-secret változat 7
WEB címtár 8