Ember a végtelen térben Spontanitás vagy Tervezés? Adatbázis rendszerek BMEEOFTMLT3 1. Bevezetés A jelenidejűség meghaladása, a bizonytalanság csökkentése: -> Mérnöki tervezés, modellezés Adat, Információ, Tudás, Képesség Adatsokaságok, Adatbázis kezelők a mérnöki gyakorlatban, A Petabájtok világa, és a 4. paradigma Dr. Szabó György, egyetemi docens, gyszabo@eik.bme.hu egy repedés a gáton Objektum Észlelés Durva azonosítás Pontos azonosítás Gát 6,0 3,0 0,6 0,2 Elemzés Az antikvitás megoldása Észlelés: objektum felfedése Durva azonosítás: objektum felismerése Pontos azonosítás: objektum osztály felismerése Elemzés: részletes jellemzők azonosítása Kolontár vörös iszap tározó Telecopter ortofotó 2010.10.08 Atlasz majd vállára veszi a terhek nehezét A feladat ma is ugyan az - Urrá lenni a téren Ember a végtelen térben -> A környező világ megismerésének, modellezésének igénye, de hogyan? Atlasz szerepét vegye át az állam -> A védelem ára állami adat monopólium Segíthetne valaki Atlasznak (Lásd: Héraklész és az aranyalma) > Üzleti, technológiai szereplők a téradat piacon, profit érdek, természetes monopóliumok, outsourcing Tartja még valaki az eget? -> Környezet tudatosság, Nonprofit világ Biztos hogy az istenekre tartozik? Segítsünk mi! -> Kooperáció, Információs társadalom, WEB2 Nem lesz ebből anarchia? - > Állami szabályozás jelentősége, Adatvédelem és információ szabadság A tér feletti uralom megszerzésének szintjei térszerveződési szintek Globális terek: Föld, országok Regionális terek: régiók, megyék, kistérségek Lokális terek: település, lakókörzet Közvetlen lokális terek: szomszédság Mikro terek: háztartás, munkahely, egyén A technológiai fejlődés hozadéka: -> Egyén: emberi élettér kitágulása -> Állam: térhasználat és tér feletti kontrol megszerzése!!! Egyén és Állam közötti információs aszimmetria Térbeli kontroll Emberi élettér kitágulása Adatbázis rendszerek -1. 1
An accurate description is needed... These features contain... Regisztrálni és megosztani tapasztalatainkat. Nyelv Írás Statisztika Matem./Tudomány X = Y - Z NaCl 2 Statisztika Modellek Adatgyűjtés egykor Hieroglifák Rajzok Térképek leküzdeni a jelenidejűség korlátait, távolságot, időt... Képek 7 Zene/ Művészet Kulcs elem: Kitüntetett diszkrét jelenségek regisztrálása Célfüggvény: Költséges, élőmunkaigényes regisztrálás, tárolás minimalizálása Adatgyűjtés napjainkban Mi itt tulajdonképpen a feladat? II. Szenzor - típus - felbontás - eszköz hibák - zaj, mérési hibák - tárolási, közlési hibák - Tervezés Adattárház Kulcs elem: Környezeti jelenségek közel folytonos tömeges regisztrálása, szubjektivitás csökkentése Célfüggvény: Közel valós idejű szemantikus feldolgozás, információ kinyerés I. Tárgy tér - napállás - atmoszféra - terep felszín - tárgy geometria III. Feldolgozásr - konverziós hibák - algoritmus hibák - feldolgozási hibák - személyi hibák IV. Információ - észlelés - érzékelés - felfogás - értelmezés Döntési kockázat csökkentése, tervezés: adat->információ->új ismeret->akció Mire is vagyunk kíváncsiak a világban: Tér, Idő, Hely? A tér feletti uralom megszerzésének szintjei térszerveződési szintek Idő, T Mikor? D Karte Map 1 1 Karte Map 2 2 C Globális terek: Föld, országok Regionális terek: régiók, megyék, kistérségek Lokális terek: település, lakókörzet Közvetlen lokális terek: szomszédság Mikro terek: háztartás, munkahely, egyén Térbeli kontroll Hol? Ergebnis Map Holt város: makett -> Élő város: jelenségek, akciók Mi? Attribútum, A Tér, S A technológiai fejlődés hozadéka: -> Egyén: emberi élettér kitágulása -> Állam/Szervezet: térhasználat és az egyén pozíciója, kapcsolatai feletti kontrol megszerzése!!! Egyén és Állam/Szervezet közötti információs aszimmetria Emberi élettér kitágulása Adatbázis rendszerek -1. 2
Globális, regionális, lokális terek És a mikro terek? Mobil, GPS, RFID: minden lépésünk regisztrálódik Az egész teret uraljuk? A digitális univerzum napjainkban Személyes aktivitás / Céges aggodalom! *2006: a gyártott félvezető elemek száma (26 * 10**15) meghaladja a termett rizsszemekét (410 M tonna 1,2 *10**15) 15 Az információ áradat Hogy rögzítsük tapasztalatainkat, tudásunkat? Hogyan nyerünk információt egy strukturált adatrendszerből? Tapasztalat tények Egyéb források Irodalom tények kérdések? válaszok Szimuláció Az alapvető problémák Adat reprezentáció nehézségei Petabájtok kezelése Hogy strukturáljuk? Hogy szervezzük újra? Hogyan osszuk meg másokkal? Tudni miért v. tudni hogyan? Adatbázis rendszerek -1. Lekérdező és megjelenítő eszközök hatékonysága Modell építés nehézségei Adat integráció komplexitása Tapasztalatok leképezése Karbantartás, hosszú távú archiválás 3
Hogyan nyerünk információt egy nem strukturált adatrendszerből? Hogyan segít rajtunk az információtechnológia? És az Internet? Hogyan képzelték el a RAND Co. tudósai 1954-ben a 2004-es év home computerét Popular Mechanics, 1954??? A mai (tegnapi?) helyzet Mintegy 2 milliárd felhasználó 5 milliárd csatlakoztatott eszköz Évi 1,8 Exabyte adat forgalom 500 millió host node 255 millió WEB site Napi 290 millió email Napi 2 milliárd videó letöltés Szociális média Napi 20 millió Facebook appl. Évi 36 milliárd kép feltöltés 152 millió blog Évi 100 millió új Twitter user A Google majd segít, de A Föld szárazföldi felszíne mintegy 148 millió km2 A Google Maps heterogén 2D lefedése jelenleg mintegy ->100-150 TeraByte 15 cm-es pixel felbontással -> 20 PetaByte Utca szintű felbontás 2 cm -> 1 ExaByte 2D objektum szintű felbontás < 0,5cm -> 18 ExaByte Kilo Mega Giga Tera Emberi környezet: felszín 15 cm, közterület 2cm, épület belsők Peta 0,5cm -> 1 ExaByte (10x redundancia) Exa és ez még fokozható: 3D, idősorok, dinamikus jelenségek Zetta Yotta Hogyan legyünk ezen úrrá? Adatbázis rendszerek -1. 4
Székesfehérvár: Geodézia, Fotogrammetria, Lidar integráció Lidar pontfelhő (2x 45 millió pont, 5-10 pont/m2), Ortofotó (20Mpixel, 0,5m RGB, NIR), Földmérési alaptérkép (3Mbyte), Földi lidar (25M pont/ha 2500 pont/m2) Hogyan lehet ennyi adatot kezelni? Valaki csak gondoskodik róla! Google serverpark a kezdetektől (1998) napjainkig vagy az enyészeté lesz Tanulságok: 1. A jóslás mindig kockázatos! 2. Mindig kételkedj az Interneten talált forrásokba! A kép egy 2004-es képszerkesztési verseny eredménye. Az eredeti kép 2000-ben készült az U.S. Navy egyik tengeralattjáró vezérlő termének modelljéről. IBM 604 gyártósor 1948 http://www.snopes.com/inboxer/hoaxes/computer.asp Kínai elektronikus hulladék megsemmisítés HW->SW > Adat -> Kommunikáció Komplex adat tárház rendszerek komponensei, számítási felhők Forrás adatok Térkép és adatbázis szerver Alkalmazás-szerver PDA Kliensek Integrált, konszolidált adatbázisok (Adattárház) Mobil Kliensek Rendszeradminisztráció Windows Desktop Kliensek Web Kliensek Desktop & Enterprise & Internet & Mobile workers & Wireless Adatbázis rendszerek -1. 5
Web & Application Services FELHASZNÁLÓI réteg WEB és ALKALMAZÁS SZOLGÁLTATÁSI réteg És mindez az üzleti folyamatokba integrálva ERP (Enterprise Resource Planning) Összeköti az üzleti folyamatokat Fenntartja az ellenőrzési kényszerpályát Egy közös információs rendszert hasznosít A megvalósítása együttjár egy BPR (Business Process Reengineering) használatával Nehéz korrekten megvalósítani kényszerpályák Data Management Services INTEGRÁLT ADAT és TÉRKÉP SZOLGÁLTATÁSI réteg Ember és környezete: adat, információ, tudás, modellek és a humán gondok Mi itt a gond? Változó világ Változó modellek Változó feladatok Változó technológia Változó felhasználók Változó szabályozók Az építőmérnök és környezete Az adatbázis mint a szubjektív észlelés, elemzés, emlékezés kilengéseit korrigáló kommunikációs közeg Környezettel való gazdálkodás - Környezetünk megismerésének segítése, a térbeli viszonyok valósághű modellezése A vizuális kommunikáció térnyerése Az információ modellezése, rögzítése, továbbítása, értelmezése Bitek helyett - Szemantikai tartalommal bíró komplex elemek Specialisták, réteg tudás <> Tömeg felhasználók, közérthetőség A technológiák versenye -> Automatizálás, mobilitás és korlátai Tömeges adatgyűjtés, petabájtok Gazdasági, jogi megfontolások - Adatpolitika, monopólium, piac Szakmai tradíciók Áldás vagy átok? Információ forrás Küldött üzenet Adó Jel Zajforrás Vett jel Vevő Fogadott üzenet Rendeltetési hely Külső mentális reprezentáció - > szubjektív kognitív térkép Mesterséges csatorna : Kép- > objektív Képi/nyelvi reprezentáció Belső mentális reprezentáció szubjektív vizuális térérzet Adatbázis rendszerek -1. 6
Adat, Információ, Tudás, Bölcsesség Megfigyelt adat - > Tudás Gassem Asrar (NASA) Alkalmazott tudás Kontexusba ágyazott információ Logikailag kapcsolt adatok Képesség AI Tudás - Leképezés Információ - Design Nyers, megfigyelt adatok Adat - Vizualizáció Ikonikus Modell Milyen a jó modell? Valóság Szimbolikus Modell 1+1=2 Cél: egy kritikus probléma kezelehetőségének biztosítása A 4. paradigma (Jim Gray) Egy ezred éve: a tudomány empirikus volt ->természeti jelenségek leírására koncentrált Néhány évszázada: teoretikus modellek megjelenése ->modellekre, általánosításokra épített Néhány évtizede: szimuláció megjelenése -> komplex jelenségeket szimulál Napjainkban: adatfeltárás (e-tudomány) ->empíria, teória és szimuláció integrálása Adatnyerő szenzorok, szimulátorok Szoftveres adatfeldolgozás Adat/Információ/Tudás számítógépes tárolása Petabájtos adatbázisok tudományos elemzése 2. 2 a 4πGρ c = Κ 2 a 3 a Lásd: Google Traffic élő adat és predikció de a szemünknek és a Google-nek sem hihetünk és a Microsoft-nak? Google Maps / Microsoft Virtual Earth http://thenextweb.com/2008/08/07/google-plants-forests-in-holland-amateurish-censorship-in-maps/ Adatbázis rendszerek -1. 7
Lássunk egy bonyolultabb példát! Az afganisztáni stabilitás stratégia összefüggéseinek vázlatos áttekintése (PPT) Áttekinthető? Kaotikus? Ez a diagram ráadásul szépen rendezett, a színkódok értelmesek, a kapcsolati vonalak jól követhetők, és egy pár perc nézelődés után már fel is tűnik, hogy nem is olyan bonyolult ez. Nagyjából 100 entitást látunk 13 csoportba sorolva, és a legbonyolultabb csomópont sem kapcsolódik 10-nél több másik csomóponthoz. Hol itt a gond? Amilyen összefüggéseket (és amennyit) ez a diagram egy oldalon jelölni képes, azt prózában oldalak tucatjain keresztül kellene sorolni: senkinek se legyen kétsége afelől, hogy AZT sokkal nehezebb lenne intellektuálisan feldolgozni. Pont erre találták ki a diagramokat. Vakablak hozzászólása a PPT veszélyeit boncolgató honlapon Beregi gátszakadás 107 m-es vízállás szimulációja (2001.03.06) Adatbázis alkalmazások Repülési útvonal elemzése (1995) 3D város modell Adatbázis rendszerek -1. 8
A szematikus információk jelentősége CityGML: Komplex objektum, szemantikus jellemzőkkel Szematikus jellemzők Multi-scale modellezés LOD 0 Regionális modell 2.5d Digital Terrain Model Geometria LOD 1 City / Site modell Blokk modell tetőszerkezet nélkül LOD 2 City / Site modell Részletes Tetőszerkezet LOD 3 City / Site modell Geometria: helyzet, kiterjedés jellemzése Szemantika: funkcionális, kvalitatív jellemzők Részletes építészeti modell, homlokzati elemek LOD 4 Belső modell Bejárható építészeti modell Ebédidőbeli aktivitás Salt Lake Cityben mobiltelefonok út-idő függvénye alapján Budapest Stratégiai Zajtérképe Layar Kiterjesztett valóság Ügyfelek bankfióktól való távolsága Bankfiók ellátási körzetébe eső kiemelt ügyfelek Adatbázis rendszerek -1. 239 Layers, by Category: Eating and Drinking ( 22 ) Entertainment & Leisure ( 40 ) Games ( 0 ) Government ( 6 ) Health Care ( 9 ) Local search & Directory service ( 14 ) Other ( 13 ) Real Estate ( 26 ) Retail ( 22 ) Schools & Universities ( 10 ) Social networks & communities ( 20 ) Tourism : Places to stay ( 6 ) Tourism : Tours / Guides ( 26 ) Transportation ( 24 ) Weather ( 1 ) 9
Layar Kiterjesztett valóság 239 Layers, by Category: Eating and Drinking ( 22 ) Entertainment & Leisure ( 40 ) Games ( 0 ) Government ( 6 ) Health Care ( 9 ) Local search & Directory service ( 14 ) Other ( 13 ) Real Estate ( 26 ) Retail ( 22 ) Schools & Universities ( 10 ) Social networks & communities ( 20 ) Tourism : Places to stay ( 6 ) Tourism : Tours / Guides ( 26 ) Transportation ( 24 ) Weather ( 1 ) Digitális TV besugárzás elemzés Ügyfelek bankfióktól való távolsága Bankfiók ellátási körzetébe eső kiemelt ügyfelek A jövő ígéretei és veszélyei Szép új világ Az adatbázisok és az IT áldásai napjainkban Szó szerint bevitte a sűrűbe a navigációs rendszer azt az észt kamionost, akinek kiszabadításához a hansági lápból egy kamionmentő, két traktor és négy ember megfeszített munkája kellett:? Az észt rendszámú, nyersanyaggal megrakott Scania nyerges vontató pár napja éppen Fertődre tartott, amikor Jánossomorjánál eltévedt. A sofőr elmondása szerint még nem járt erre, a navigációs rendszeren pedig vélhetően a legrövidebb útvonalat állította be. A rendszer a tervezéskor valószínűleg figyelembe vette a gyalogos- és kerékpáros utakat is, így a Hanság kellős közepére irányította a kamiont. A mintegy 40 tonnás, megrakott járműszerelvény Jánossomorján tért le a 86-os főútról, majd a kisváros közepén rákanyarodott egy földútra. Azon körülbelül hat kilométert haladt, míg aztán arról is letért az ottani vízzel teli csatornák közé, ám ekkor már megfordulni nem tudott. Végül pedig a lápos területen megsüllyedt és elakadt. A kamion ekkor már több mint tíz kilométerre volt minden lakott területtől, az észt sofőrnek pedig fogalma sem volt arról, hol is van pontosan. A férfi gyalog indult segítségért. Napokig bolyongott és etette" a szúnyogokat a Hanság közepén. Végül szerencsére visszatalált a járművéhez és néhány nap után segítséget is szerzett. www.kisalfold.hu, 2010.07.01 Adatbázis rendszerek -1. 10
Változások: Adat -> Elemzés Térbeli 5% elemzés Térbeli elemzés 10-15% Geokódolás Geokódolás 75% Adatkonverzió Múlt Adatkonverzió Jelen/Jövő Múlt Jelen - Jövő Leírás, ábrázolás -> szimuláció, modellezés A kép, térkép többet ér mint ezer szó: Statikus megjelenítés: Mi volt? (esetleg Mi van?) -birtokviszonyok -erőforrások Web portálok statikus adatkészleteket közölnek MÚLT Ikonikus modellek: a valóság kicsinyitett mása Vizuális szimuláció, virtuális valóság: Valós idejű megjelenítés: Mi van? és Mi lehetne? -árvíz -közlekedés A WEB portálok valós idejű szenzor kapcsolatokból levezetett információt közölnek JÖVŐ Szimbolikus modellek: matematikai, statisztikai alapú logikai kapcsolatok Az információrobbanás kihívásai IDC 2020 Adatmennyiség 44 szeresére nő Adategységek száma 67 szeresére nő Tárolási kapacitás csak 30 szorosára nő Toxikus petabájtok -> adat detoxikálás! Nem védett felhasználói adatmennyiség 10 Zettabájt IT humán erőforrás kapacitás csupán1,4 szeresére nő! A digitális univerzum csökkenő fajlagos költségei Köszönöm a figyelmet -> Paradigmaváltás szükségessége! Adatbázis rendszerek -1. 11