Adattárházak. Gajdos Sándor, TMIT ősz

Hasonló dokumentumok
Adatbázisok analitikus környezetben. Adatbázisok elmélete 4. előadás Gajdos Sándor

Adattárház alapú vezetői információs rendszerek

Információ menedzsment eladások I. rész: Döntéstámogatás. Gajdos Sándor, TMIT sz

Történet John Little (1970) (Management Science cikk)

Adatbázisrendszerek április 17.

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Tudásalapú információ integráció

I. RÉSZ. Tartalom. Köszönetnyilvánítás...13 Bevezetés...15

Adatbányászat és Perszonalizáció architektúra

Vezetői információs rendszerek

Infor PM10 Üzleti intelligencia megoldás

Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok

Component Soft és tovább

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor

Adattárház tiszta alapokon Oracle Day, Budapest, november 8.

Adatmodellezés. 1. Fogalmi modell

DW 9. előadás DW tervezése, DW-projekt

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

BIRDIE. Business Information Reporter and Datalyser. Előadó: Schneidler József

Információ menedzsment hallgatói szemmel verzió*

Vállalatirányítás könnyedén.

A webanalitika változó világa 4 felvonásban

Több mint BI (Adatból üzleti információ)

Segítség, összementem!

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

Exadata, a világ leggyorsabb adatbázisgépe

Döbrönte Zoltán. Data Vault alapú adattárház - Fél óra alatt. DMS Consulting Kft.

Adattárház kialakítása a Szövetkezet Integrációban, UML eszközökkel. Németh Rajmund Vezető BI Szakértő március 28.

ADATTÁRHÁZ MENEDZSMENT ÉS METAADAT KEZELÉS

Önálló laboratórium beszámoló BME TTT

RELÁCIÓS LEKÉRDEZÉSEK OPTIMALIZÁLÁSA. Marton József november BME TMIT

RELÁCIÓS LEKÉRDEZÉSEK OPTIMALIZÁLÁSA. Dr. Gajdos Sándor november BME TMIT

Data Vault adatmodellezés.

Szabálykezelés a gyakorlatban

Analitikus adatfeldolgozás. Adattárház Adatkocka Adatbányászat

ELMÉLET ÉS GYAKORLAT

SAS szoftverek felhasználási lehetőségei a felsőoktatásban

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA

<Insert Picture Here> Közeli jövőkép az üzleti intelligenciáról

Számítógépes döntéstámogatás. Bevezetés és tematika

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése


Ericsson CoordCom. Integrált segélyhíváskezelés, tevékenységirányítás. <Name> Kovács László

Fogalomtár bevezetése a Magyar Telekomnál

VvAaLlÓóSs IiıDdEeJjȷŰű OoDdSs goldengate alapokon a magyar telekomban

Oracle9i Alkalmazás Szerver Üzleti folyamat integráció. Molnár Balázs Vezető értékesítési konzultáns Oracle Hungary

Név- és tárgymutató A, Á

Gazdasági informatika alapjai

MOBILITÁS VÁLLALATI KÖRNYEZETBEN MEGOLDÁS KONCEPCIÓ

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

Szolgáltatás Orientált Architektúra a MAVIR-nál

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

2011. November 8. Boscolo New York Palace Budapest. Extrém teljesítmény Oracle Exadata és Oracle Exalogic rendszerekkel

Marton József BME-TMIT. Adatbázisok VITMAB november 11.

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Oracle Enterprise Manager: Az első teljesértékű felhő üzemeltetési megoldás

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

IMOLA. Integrált MOKKA2, ODR2 és OLA. Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium

Gazdálkodási modul. Gazdaságtudományi ismeretek II.

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

Nézetek és indexek. AB1_06C_Nézetek_Indexek - Adatbázisok-1 EA (Hajas Csilla, ELTE IK) - J.D. Ullman elıadásai alapján

Árki Kornél. IDC Business Intelligence Roadshow 2009

ÜZLETI I TELLIGE CIA - VIZUALIZÁCIÓ

Virtuális Obszervatórium. Gombos Gergő

Globális trendek lokális stratégiák. Kovács András

Információ menedzsment

Adattárházak. Méréstechnika és Információs Rendszerek Tanszék

Szemléletmód váltás a banki BI projekteken

Parametrikus tervezés

A vállalti gazdálkodás változásai

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

Mobil Üzleti Intelligencia

Az e-közmű és a BIM üzleti előnyei az infrastruktúra tervezéstől az üzemeltetésig. Baranyi Péter, GIS üzletág igazgató

A Jövő Internet Nemzeti Kutatási Program bemutatása

Waberer s BI a BO-n túl. WABERER S INTERNATIONAL Nyrt. Szatmári Johanna, Tobak Tamás

Az Oracle Fusion szakértői szemmel

Informatikai alapismeretek Földtudományi BSC számára

Az információs rendszerek funkcionális változásai a kis és középvállalkozások szemszögéből. DE ATC AVK Gazdasági- és Agrárinformatikai Tanszék

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető október 4.

KÖZPONTI OKOSHÁLÓZATI MINTAPROJEKT

IT Szolgáltatás Menedzsment az oktatási szektorban - 90 nap alatt költséghatékonyan

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

NETinv. Új generációs informatikai és kommunikációs megoldások

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Dr. Sasvári Péter Egyetemi docens

Adatbázis-lekérdezés. Az SQL nyelv. Makány György

SAP BUSINESSOBJECTS PROFITABILITY AND COST MANAGEMENT (PCM) BEMUTATÁSA

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

Szolnoki Főiskola. Vezetői Információs Rendszer (VIR) Szabályzat

Üzleti folyamatmenedzsment: - káoszból rendet!

ivir vezetői információs rendszer

Alternatív adatbázisok Gráfadatbázisok

Palaczk Péter A marketing folyamatok adattárház alapú támogatása

Átírás:

Adattárházak Gajdos Sándor, TMIT 2015. ősz

Döntéstámogató rendszerek (DSS: decision support systems) Kommunikáció-orientált Adat-orientált Dokumentáció-orientált Tudás-orientált Modell-orientált

Kommunikáció-orientált döntéstámogatás Abban hiszünk, hogy a kommunikáció hatékonyságának javítása vezet jobb döntésekhez. Telefonkonferencia, elektronikus hirdetőtábla, levelezési lista, dokumentum megosztás,... Ld. collaborative computing, groupware

Adat-orientált döntéstámogatás Abban hiszünk, hogy a sok tényadat alkalmas elemzése vezethet jobb döntésekhez Idősoros szemlélet jelentősége (v.ö. trend analízis) OLAP (OnLine Analytical Processing), EIS (Executive Information Systems), GIS (Geographic Information Systems), DW (Data Warehouses, adattárházak)

Dokumentáció-orientált döntéstámogatás Abban hiszünk, hogy a jó döntéshez szükséges információk már megvannak írott anyagokban, csak meg kell találni őket A dokumentum nemcsak papír lehet, hanem video vagy audio is Dokumentum-kezelő rendszerek, kulcsszavas keresés, information retieval, AI, fuzzy módszerek

Tudás-orientált döntéstámogatás Konkrét személy vagy személyek tudását, gondolkodásmódját másolják le. Képesek konkrét cselekvéseket javasolni A szakértelem egy adott területre vonatkozó tudásból áll és bizonyos problémák megoldásának képességéből Szakértő rendszerek, intelligens DSS

Modell-orientált döntéstámogatás Alkalmas modellek számos lehetséges kimenetel kiszámítását teszik lehetővé Statisztikai, pénzügyi modellek, időbeli szimulációk, what-if elemzések Más néven számítás-orientált döntéstámogatás

Gyakorlati döntéstámogatás Pénzfeldobás Spreadsheet-döntéstámogatás... Kombinált módszerek Vannak helyzetek, amikor minden pénzt és módszert megér a releváns információk megszerzése (ld. fegyverzetcsökkentési tárgyalások során látnokok, parafenomének alkalmazása)

Adatorientált döntéstámogatás fejlődése 60-as évek: batch riportok, nagy köteg nyomtatott papír, kérések lassú kiszolgálása, további adatfeldolgozás nehézkes 70-es évek: terminál alapú rendszerek, gyenge felh. interfész, adatforrások gyenge integrációja 80-as évek: PC alapú hozzáférés, EIS, GUI megjelenése, de: zavaros/inkonzisztens adatok, kevés historikus adat, bonyolult adatstruktúrák 90-es évek: adattárházak, amelyek a korábbi problémák legtöbbjét megoldják, trendanalízis, desktop OLAP, webes rendszerek 2000 után: valós idejű döntéstámogatás, mobil interfészek

Inmon adattárház definíciója

Üzleti intelligencia (BI) Új definíció (EPICOR, 2005): The art of science of knowing what the heck is going on with your business as it is happening, having the facts to understand it and support it, and having the ability to quickly do something about it.

A szükségletek hierarchiája Avagy: mi működteti az embereket (Maslow) És mi működteti a vállalatokat? A vállalatok rengeteg energiát ölnek abba, hogy fokozzák alkalmazottaik lelkesedését. Ez igazán szép tőlük, de nézzünk szembe a tényekkel - dolgozni nem jó. Ha az emberek annyira szeretnének dolgozni, ingyen is csinálnák. Azért kell megfizetni az emberek munkáját, mert a munka messze nem tartozik az elképzelhető legkellemesebb időtöltések közé. Az ésszerű vállalat tudja, hogy az alkalmazottak akkor lelkesednek a legjobban a munkájukért, ha segítünk nekik, hogy minél hamarabb abbahagyhassák azt. Scott Adams: Dilbert elv. SHL Hungary Kft.

DW architektúrák Rendszertervezési döntés, amely általában nem könnyen változtatható meg Fontosabb szempontok, amiket figyelembe kell venni. Mire jók a különböző architektúrák? Kommunikáció Tervezés Tanulás Hatékonyságnövelés és újrahasznosítás

Architektúrák Koncepcionális architektúra Adat(konzisztencia) architektúra Front-end architektúra és back-end architektúra Eszközarchitektúra (HW, SW) Üzemeltetési architektúra Biztonsági architektúra...

Koncepcionális architektúra főbb elemei forrásrendszerek adatkinyerés-integrálás állomásoztató terület (staging area, SA) elemi adattár (detailed storage, DS) szakterületi adattár (data mart) metaadattár üzemi adattár (operational data store, ODS) megjelenítés támogatás

Külső adatforrások Nem tervezett döntéstámogatás Metaadat Piaci részesedés Kinyerő transzformáció Szakterületi adattár Hozzáférési jelentés eszközei 1. operatív adatforrás Értékesítés és marketing Böngésző Ügyfelek Kinyerő transzformáció Metaadat Szakterületi adattár OLAP/ROL adatok n. operatív adatforrás A megrendelés életciklusa EIS/DS Megrendelések Metaadat n+1. operatív adatforrás Kinyerő transzformáció Szakterületi adattár App. 4GL Elosztás Elosztás

Külső adatforrások Metaadat Szakterületi adattárak szemantikai integrálása Piaci részesedés Szakterületi adattár Értékesítés Értékesítés Értékesítés és marketing 1. operatív adatforrás Ügyfelek Szemantikai integrálási folyamat ODS Metaadat Web böngésző Adatbányászat ROLAP/OLAP 4GL eszközök EIS/DSS n. operatív adatforrás Szakterületi adattár Riportok Hozzáférés (API-k, Middleware) Rendelések Megrendelés életciklusa OLTP Metaadat Szakterületi adattár Elosztás Elosztás

Külső Adatforrások Metaadat Szakterületi adattár Virtuálisan integrált szakterületi adattárak Piaci részesedés 1. operatív adatforrás Ügyfelek n. operatív adatforrás Szemantikai integrációs folyamat Értékesítés és marketing ODS Metaadat Szakterületi adattár M I D D L E W A R E Web böngésző Adatbányászat ROLAP/OLAP 4GL eszközök EIS/DSS Riportok Hozzáférés (API-k, Middleware) Megrendelés életciklusa Megrendelések Metaadat n+1. operatív adatforrás Szakterületi adattár Metaadat Elosztás Elosztás Adattárház-adminisztráció

Külső adatforrások Függő szakterületi adattár (hub-and-spoke architektúra) Metaadat Piaci részesedés 1. operatív adatforrás Szeman tikai és fizikai integrálás Szakterületi adattár Hálózat Web böngésző Értékesítés Értékesítés Ügyfelek n. operatív adatforrás Interme diate Data Store Metaadat Szakterületi adattár Adatbányászat ROLAP/OLAP 4GL eszközök EIS/DSS Riportok Hozzáférés (API-k, Middleware) Pénzügy 300 250 200 300 250 150 200 100 150 Megrendelések Metaadat 50 100 0 50 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 n+1. operatív adatforrás (Operatív adattár) Szakterületi adattár Elosztás Közbülső adattár Részletes Adattárház Marketing

Relációs lekérdezések optimalizálása dimenziós struktúrákon

Korábban: Heurisztikus, szabály alapú optimalizálás Költség alapú optimalizálás Most: Katalógus költségbecslés Operációk, műveletek áttekintése Kifejezés-kiértékelés Az optimális végrehajtási terv kiválasztása Lekérdezés optimalizálás csillagsémákon

Lekérdezés optimalizálás csillagsémákon Lényegében egy illesztés a ténytábla és a dimenziós táblák között Dimenziós táblákat sohasem join-olunk A lehetőség automatikus felismerése Hópihe séma: gyenge browsing teljesítmény, relációk növekvő száma

Csillagséma optimális lekérdezése (feltételei, Oracle) Egyattribútumos bitmap index definiálása a tény valamennyi idegen kulcsára inicializáló paraméter beállítása (engedélyezés) költségalapú optimalizáló használata

Csillagtranszformáció Transzparens a felhasználónak Elve: 1. Dimenziós ID-k meghatározása 2. pontosan a szükséges tényrekordok kiolvasása bitmap segítségével 3. dimenziós rekordok illesztése a tényrekordokhoz.

Csillagtranszformáció példa SELECT ch.channel_class, c.cust_city, t.calendar_quarter_des FROM sales s, times t, customers c, channels ch WHERE s.time_id = t.time_id AND s.cust_id = c.cust_id AND s.channel_id = ch.channel_id AND c.cust_state_province = 'CA' AND ch.channel_desc IN ('Internet','Catalog') AND t.calendar_quarter_desc IN ( 2006-Q1', 2006-Q2') SELECT ch.channel_class, c.cust_city, t.calendar_quarter_desc FROM sales WHERE time_id IN (SELECT time_id FROM times WHERE calendar_quarter_desc IN( 2006-Q1', 2006-Q2')) AND cust_id IN (SELECT cust_id FROM customers WHERE cust_state_province='ca' AND channel_id IN (SELECT channel_id FROM channels WHERE channel_desc IN ('Internet','Catalog'));

Működése a dimenziók általában kevés rekordot tartalmaznak dimenziók lekérdezése a dimenziós ID-kra time_id bitmap azonosítja a 2006. első negyedévi tényrekordokat time_id bitmap azonosítja a 2006. második negyedévi tényrekordokat hasonló bitmap-ek azonosítják a megfelelő customer-hez és channel-hez tartozó tényrekordokat a bitmap-eket kombináljuk logikai műveletekkel tényrekordok elővétele a diszkről dimenziós rekordok join-ja a tényrekordokhoz (módja reguláris optimalizálás során dől el)

Mikor jó? Ha a where predikátuma kellően szelektív a tényrekordokra Ha sok tényrekord érintett az eredmény előállításában, akkor full table scan jobb lehet...

Dimenziós modellezés Dimenziós modellezés előnyei: lekérdezése könnyen optimalizálható a modell bővítése egyszerű, nem kell átstrukturálni az adatbázist, ha bővül a modell laikusok által is könnyen lekérdezhető

Négylépéses dimenziós modellezés 1. Üzleti folyamat azonosítása 2. Tényadat granularitásának megválasztása (üzleti szinten) 3. Dimenziók (és attribútumaik) azonosítása 4. Tény attribútumok azonosítása

1. Üzleti folyamat izolálása Példák: szolgáltatás használata, hitelek igénylése és felvétele, bevételek alakulása, kinnlevőségek, rendelések személyzeti ügyek számlázás javítások és reklamációk, stb.

2. Tényadat granularitásának megválasztása milyen részletes adatok tárolását támogatjuk túl részletes: sok adat, nagy diszkigény, nagy CPU igény nem elég részletes: elemzéseket akadályozhat meg LE KELL ÍRNI A TÉNYREKORD PONTOS JELENTÉSÉT

3. Dimenziók azonosítása Mi alapján akarjuk rendezni, lekérdezni, csoportosítani a tényadatokat? Sok és részletes dimenzió változatosabb analízisek Dimenziók azonosítása szigorúan az adatok használata (ld. üzleti igények) alapján Dimenzió lesz minden, ami... Inkább szöveges attribútumok, de lehet numerikus is

4. Tények azonosítása A használandó mennyiségek konkrét meghatározása (pl. eladási ár Ft-ban, darabszám, átlagos kisker. ár, ) Általában folytonos értékkészletűek és numerikusak.

Dimenziós tervezési elvek A pontosan ismerni és érteni az adatokat Dimenziós táblák: leíró attribútumuk, akár 50 is, a rekordok hossza kevéssé kritikus. Ténytáblák: a rekordok legyenek rövidek Konform dimenziókban gondolkodunk Minden dimenziónak legyen surrogate (anonym, kiegészítő, jelentés nélküli, mesterséges) kulcsa.

Előnyei: Surrogate kulcs méretcsökkentés a ténytáblában forrásrendszeri kulcs változásaitól függetlenek leszünk az entitások időbeli változásait is le tudjuk így írni Hátránya: újra kell kulcsolni a tény és dimenziós rekordokat (jelentős betöltési többletteher)

Dimenziós tábla tervezés A felesleges dimenziók teljesítményveszteséget eredményeznek. A dimenziós adatok nem feltétlenül nyerhetők ki valamely forrásrendszerből. Az idő, termék, hely, ügyfél a leggyakoribb dimenziók

Idő dimenzió IDOSZAKOK_DIMENZIO IDOSZAK_ID <pk> NUMBER(4) NAPTARI_DATUM DATE NAP_MEGNEVEZESE CHAR(10) NAP_MEGNEVEZESE_ANGOL CHAR(9) NAP_ROVID_BETUJELE CHAR(3) NAP_ROVID_BETUJELE_ANGOL CHAR(3) HET_HANYADIK_NAPJA NUMBER(1) HONAP_HANYADIK_NAPJA NUMBER(2) EV_HANYADIK_NAPJA NUMBER(3) PENZUGYI_NEGYEDEV_NAPJA NUMBER(3) HONAP_HANYADIK_HETE NUMBER(2) EV_HANYADIK_HETE NUMBER(2) HONAP_ROVIDITESE CHAR(5) HONAP_ROVIDITESE_ANGOL CHAR(3) EV_HANYADIK_HONAPJA NUMBER(2) NAPTARI_NEGYEDEV NUMBER(1) NEGYEDEV_HONAPJA NUMBER(1) NEGYEDEV_HETE NUMBER(2) NEGYEDEV_NAPJA NUMBER(3) PENZUGYI_NEGYEDEV NUMBER(1) PENZUGYI_NEGYEDEV_HONAPJA NUMBER(1) PENZUGYI_NEGYEDEV_HETE NUMBER(3) HANYADIK_FELEV NUMBER(1) HONAP_MEGNEVEZESE CHAR(10) HONAP_MEGNEVEZESE_ANGOL CHAR(9) EVSZAM NUMBER(4) ROVID_EVSZAM NUMBER(2) PENZUGYI_EVSZAM NUMBER(4) PENZUGYI_ROVID_EVSZAM NUMBER(2) IDOSZAK_MEGNEVEZESE CHAR(40) IDOSZAK_MEGNEVEZESE_ANGOL CHAR(40) IDOSZAK_ROVID_NEVE CHAR(3) IDOSZAK_ROVID_NEVE_ANGOL CHAR(3) NAPOK_SZAMA_FIX_IDOPONTTOL NUMBER(4) KARACSONY_JELZO CHAR(1) HUSVET_JELZO CHAR(1) ALAPERTELMEZETT_IDOSZAK CHAR(1) NAPTIPUS NUMBER(1) NAPTIPUS_MEGNEVEZES CHAR(9)