Data Vault adatmodellezés Nemeth.Zoltan@iqpp.hu
Új adattárház adatmodellezési módszer Dan Linstedt nevéhez fűződik Ismérvei Részletes, tételes adatok Történetiség kezelése Data Vault Üzleti területek köré csoportosított táblák kapcsolata 3NF és csillag séma hibrid megközelítése Bővíthető, skálázható, konzisztens Alternatív név: Common Foundational Integration Modelling Architecture 1990-ben kezdődött, 2000-ben publikálva
Poén gyilkolás Előnyök Optimális helyigény, normalizált, redundancia mentes Egyszerű tölthetőség (realtime töltés!) Elemtípustól függő három lépésű függőség Masszívan párhuzamosítható Minimális migrációval, rugalmasan bővíthető Alapadat betöltésre kiváló! Hátrányok Legalább kétszer több tábla, sok join. Komplex számításokat, adattisztítást nem támogatja.
Hub (csomópont) Üzleti kulcsok + helyettesítő kulcsok Link (kapcsoló) Több üzleti entitás közötti N:M kapcsolatot megtestesítő összefüggés Satellite (leíró) Koncepció A Hub vagy Link leíró attribútumai vagy e HUB_SAT és LINK_SAT
3NF modell Értékesítő tétel 7 tábla ebből 2 táblát nem feltétlenül kell fizikailag tárolni
Csillagséma Dimenzió Dátum dimenzió tétel Értékesítő Dimenzió Dimenzió 5 tábla
Data Vault modell tulajdonságok Értékesítő tétel 10 tábla Értékesítő tétel tulajdonságok
HUB HUB Mezők: Helyettesítő kulcs (RK) Üzleti kulcsok (ID) valódi, egyedi, forrásrendszeri kulcs Első töltés időpontja, forrása Egyszer töltjük mikor létrejön Nem időfüggő volt, valaha egy üzleti kulcs HUB_SAT Mezők HUB kulcs (RK) Érvényesség kezdete-vége Attribútumok Historikusan töltjük (SCD2) Több SAT-ot felvehetünk Eltérő időfüggőség Forrásonkénti attribútumoknak (pl.: eltérő székhelycímek)
LINK LINK Mezők: Helyettesítő kulcs (SK) HUB vagy LINK kulcsok Első töltés időpontja, forrása Egyszer töltjük mikor létrejön Nem időfüggő volt, valaha több üzleti kulcs között összefüggés LINK_SAT Mezők Link kulcs (SK) Érvényesség kezdete-vége Attribútumok Historikusan töltjük (SCD2) LINK időfüggését is megmutatja Értékesítő tétel tétel tulajdonságok
HUBok töltése HUB_SAT és LINK töltése ETL függőség LINK_SAT töltése Értékesítő Értékesítő tulajdonságok tétel tétel tulajdonságok
Teljes ETL Adatpiac csillagséma Komplex számítások Adattisztítás Business Rule, KPI, Aggregation Quality - Cleansing Data Vault betöltés DW MAP betöltés Integrációs lépések Integráció Stage betöltés
Adattisztítás Ne a DW rétegben végezzük el a tisztítást, ETL betöltés közben! Tisztitott adatokat külön HUB_SAT-ba tölthetjük Hozzunk létre dimenzió hierarchiát a tisztított adatokra Normalizált cím Forrás cím1 Forrás cím2 Forrás 1 attribútumok e Forrás 2 attribútumok e Tiszta Attribútumok e
3NF Szülő-gyerek kapcsolat (1-N) = kapcs. kapcs. Vadhajtások Data Vault Projekt Személy Szervezet Projekt = Projekt link Személy Szervezet Projekt link
Összefoglaló Alkalmazás független Részletes, tételes adatok Strukturális változásra és gyors betöltésre optimalizált Nehezen implementálható Alapadat betöltésre kiváló! Komplex számításokat, integrációt, adattisztítást direktben nem támogatja külön megoldandó feladat További info: http://datavaultacademy.com http://danlinstedt.com/about/data-vault-basics/ http://www.tdan.com http://geneseeacademy.com