Önálló laboratórium beszámoló BME TTT

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Önálló laboratórium beszámoló BME TTT"

Átírás

1 Önálló laboratórium beszámoló BME TTT Készítette: Tánczos Zoltán, F966Q8 Szak: műszaki informatika Szakirány: Infokommunikációs rendszerek biztonsága cím: Konzulens: Kardkovács Zsolt cím: Tanév: 2007/08. tanév, 2. félév Téma címe: Adattárházak tervezése Feladat: A feladat egy adattárház tervezési lépéseinek bemutatása a dimenziós modellezés lépéseit követve, egy konkrét demó adattárház megvalósításán keresztül. 1

2 Tartalomjegyzék 1. Bevezető 3 2. Az adattárházak definíciója Döntéstámogató rendszerek A dimenziós modellezés Tények Dimenziók Csillag séma Bitmap indexek Csillag transzformáció Hópehely séma Négy lépéses dimenziós modellezés Esettanulmány Informális leírás Az üzleti folyamat kiválasztása Granularitás meghatározása A dimenziók meghatározása A tény táblák attribútumainak meghatározása Egyéb adatmodellek adattárházakhoz Multidimenziós E/R modell starer modell Objektum-orientált modellek Összefoglalás Irodalomjegyzék 19 2

3 2. AZ ADATTÁRHÁZAK DEFINÍCIÓJA 1. Bevezető Az adattárházak napjainkban már szerves részét képezik a vállalati döntéstámogatásnak. 1 Ebben a dokumentumban az adattárházak tervezését szeretném bemutatni elsősorban a dimenziós modellezés módszertanán keresztül. Az első részben definiálom az adattárház fogalmát, helyét a vállalati struktúrában illetve az egyéb döntéstámogató rendszerek között. Ezután részletesen bemutatom a Ralph Kimball féle dimenziós modellezés [1] terminológiáját, a módszertan lépéseit. Ennek középpontjában a csillag séma nevű adatmodell szerepel, aminek az oka a modell egyszerűsége, szemléletessége valamint a jó lekérdezési teljesítmény. A következő részben egy leegyszerűsített, képzeletbeli esettanulmányon keresztül bemutatom a dimenziós modellezés főbb lépéseit. Végül az 5. fejezetben egy magasabb absztrakciós szintre lépve az adattárházak modellezését három szinten tárgyalva (conceptual, logical, physical [6]) vázlatosan bemutatok a szakirodalmakban tárgyalt egyéb adatmodelleket is. 2. Az adattárházak definíciója Röviden megfogalmazva egy adattárház nem más, mint az adatoknak egy olyan integrált, időorientált halmaza, ami operatív adatokból származik, és elsősorban stratégiai döntéshozatalra használandó OLAP (on-line analytical processing) technikák felhasználásával [8]. A részletes definíció előtt célszerű azokat az alapvető célokat áttekinteni, amikre az adattárházakat eredetileg kitalálták [12]. A kezdeti időkben az első adattárház-szerű rendszerek kialakulásához nagyban hozzájárult az igen szűkös tárolási és feldolgozási kapacitása az akkori számítógépeknek. Elsődleges célként fogalmazódott meg az új, egyre széleskörűbben használt analitikus feldolgozás és a tranzakciós terhelés szétválasztása. Mivel ez a két terület annyira különbözik egymástól, már a 80-as években arra a konszenzusra jutott több gyártó, hogy a tranzakciós rendszerek tervezési elveitől különböző, egyedi architektúra szükséges az elemző rendszerekhez ben Bill Inmon kiadta az első könyvét az adattárházakról [2]. Ebben a könyvben megalkotta az adattárházak azóta talán legtöbbet idézett definícióját: Az adattárház téma orientált, integrált, időfüggő és tartós adatgyűjtemény a vezetői döntéstámogatás szolgálatában. A téma, vagy tárgy orientáltság (subject-oriented) a tranzakciós rendszerek alkalmazás orientáltságával áll szemben: hagyományosan a rendszereket a funkciók, feladatok köré építjük, míg egy adattárház tervezésekor egy adott témakör áll a középpontban. Például egy termelő vállalatnak lehetnek a szállítást, számlázást, beszerzést támogató rendszerei (adott feladatot, funkciót valósít meg). Egy adattárház tervezésekor viszont az adatainkat egy témakör köré szeretnénk szervezni: termék, rendelés, szállító, stb. Inmon szerint az integráltság (integrated) a legfontosabb tulajdonsága egy adattárháznak. Az adatok számtalan különböző forrásrendszerből származhatnak. Ezek integrálása nem csupán annyit jelent, hogy összedrótozzuk a meglévő rendszereinket, Oracle 1 Központi Statisztikai Hivatal Oracle Essbase; Magyar Külkereskedelmi Bank SAS; FHB Bank 3

4 2.1. Döntéstámogató rendszerek 2. AZ ADATTÁRHÁZAK DEFINÍCIÓJA hanem hogy a különböző kódokat, azonosítókat közös nevezőre hozzuk, szabványosítjuk, hogy az adattárházból kinyerhető adatok a vállalatról egységes képet mutassanak. Ennek legegyszerűbb példája, hogy ha az egyik rendszerben a nemeket a {m,f} kódokkal azonosítjuk, egy másikban pedig a {0,1}-el, akkor ezeket valamilyen előre definiált módon egységesítjük az adattárházban. Az időfüggőség, vagy időorientáltság (time-variant) azt jelenti, hogy az adattárházban szereplő minden adat az időnek valamilyen pillanatában érvényes. Például lehet, hogy a rekordok időpecséttel vannak ellátva, vagy valamilyen módon jelezve van, hogy az adott adat mikortól meddig érvényes. Az utolsó tulajdonság az adattárházak tartóssága (nonvolatile), ami az ott tárolt adatokon végezhető műveletekre vonatkozik: az adatokat betöltjük (load), és lekérdezzük (query), szemben a tranzakciós rendszereken tipikusan végzett módosítás, törlés műveleteivel. Ha megváltozik valami, akkor az adattárházba tipikusan egy új rekordot szúrunk, és jelezzük, hogy mostantól fogva az az érvényes, így megteremtjük a lehetőségét nagy időszakokat átfogó, historikus elemzéseknek. Inmon azt feltételezi az adattárházakról, hogy azok a döntéshozatalt támogató adatok exkluzív tára. A definíciójában eleve kizárja, hogy az adattárházakat operatív riportok készítésére (operational reporting) használjunk. Példaként egy bankot hoz fel: a pénztárban ülő embernek a nap végén le kell ellenőriznie a nála levő pénz mennyiségét. Ehhez veszi a napi nyitó egyenleget, az adott napi tranzakciók listáját, és ezeket összeveti a záró egyenleggel. Ebben a példában a tranzakciós lista az operatív riport. Ezzel szemben ha a bank vezérigazgatója el szeretné dönteni, hogy az új szupermarketben hány ATM-et nyisson, akkor számos, akár különböző forrásból érkező jelentést néz végig, egy stratégiai döntés meghozatalára készül. Az adattárházakat és a tranzakciós, operatív rendszereket különböző szempontok szerint összehasonlító összefoglalás az 1. táblázatban látható [6]. Szempont Operatív rendszer Adattárház Felhasználó Adminisztrációt végző személy Döntéshozó, végrehajtó Funkció Napi folyamatok követése Döntéstámogatás, analitikus feldolgozás Adatbázis tervezés Alkalmazás-orientált Téma-orientált Adat Aktuális, friss, atomi, normalizált, izolált Használat Ismétlődő, rutin szerű Ad-hoc Hozzáférés Írás/olvasás, egyszerű tranzakciók (tipikusan pár tábla érintett) Követelmények Magas tranzakciós teljesítmény, adat-konzisztencia Historikus, atomi és összegzett, multidimenziós, integrált Olvasás, összetett lekérdezések (tipikusan sok tábla érintett) Magas lekérdezési teljesítmény, pontosság 1. táblázat. Különbségek az operatív rendszerek és az adattárházak között 2.1. Döntéstámogató rendszerek Az adattárházak elsődleges célja a döntéstámogatás. Viszont nem csak ilyen jellegű rendszereket lehet elképzelni. Hat kategóriát különböztethetünk meg: 4

5 3. A DIMENZIÓS MODELLEZÉS kommunikáció orientált: a helyes döntés már ott van valakinek a fejében. Az ilyen rendszerek azt támogatják, hogy több ember hatékonyan tudjon egyszerre dolgozni egy megosztott feladaton. adat orientált: alapelvük: több adat jobb döntés. Ezek a rendszerek a különböző forrásokból származó adatokhoz való hozzáférést segítik. Az adattárházakat is ebbe a kategóriába sorolhatjuk. dokumentum orientált: meglévő akár papír alapú dokumentumokhoz való hatékony hozzáférést segítik. tudás orientált: szakértői rendszerek. modell orientált: egy folyamat valamilyen szempontból történő modellezését, illetve a modell analízisét, szimulációját segítő rendszerek. spreadsheet orientált: számos helyen a mai napig varázs-excel táblázatok segítségével történik a döntések előkészítése. Emiatt nem véletlen, hogy szinte az összes nagyobb üzleti intelligencia rendszer rendelkezik valamilyen Excel interfésszel. 3. A dimenziós modellezés Egy analitikus feldolgozás statikus aspektusai az analízis tárgya és változók halmaza [6]. Az analízis tárgyát a változók egy függvényeként definiálhatjuk, ahol minden változó egy dimenziót reprezentál. Például, ha w = f(x,y,z), akkor f függvény értelmezési tartománya a három dimenzió (x,y,z) által kifeszített multidimenziós tér. Ebben az esetben ha w az eladásokat jelenti, és legyen x a termék, y a régió, és z az idő dimenzió, akkor a változók egy adott (x 0,y 0,z 0 ) értékére az f függvény értéke egy konkrét eladás. A dimenziók mentén hierarchiákat is definiálhatunk. Például, ha az idő dimenzió értelmezési tartománya {1,..,12}, ami az év hónapjait jelöli, akkor definiálhatunk egy ennél magasabb hierarchia-szintet: {1,.., 4} a negyedéveknek, vagy {1, 2} a féléveknek megfelelően. Egy dimenzió mentén összesíthetjük (aggregálhatjuk) az adatainkat egy magasabb hierarchia szintig. Az aggregációt így írhatjuk le: w = F(x,y,z ) = z {z } f(x,y,z) A fenti kifejezés azt írja le, hogy összesítsük az eladási adatainkat az idő dimenzió mentén a havi szintről a következő, negyedéves szintig. Persze ezt megtehetjük egyszerre több dimenzió mentén is. Ezt multidimenziós analízisnek nevezik. Egy adattárház, mint döntéstámogató rendszer, előkészíti az adatokat az analitikus feldolgozáshoz. Ezért az adattárházakban alkalmazott modellnek támogatnia kell a multidimenzionalitást [6]. A dimenziós (dimenzionális, multidimenziós, multidimenzionális) modellezés két alapeleme a tény és a dimenzió. A Kimball-féle módszertan [1] ezeket tény tábláknak és dimenzió tábláknak nevezi, ami abból a szempontból picit megtévesztő, hogy a fizikai modellnek relációs adatbázist sugall, pedig a tervezés ezen fázisában (conceptual modeling) közel sem eldöntött, hogy mi lesz a fizikai megvalósítás. 5

6 3.1. Tények 3. A DIMENZIÓS MODELLEZÉS Ennek ellenére én is a szakirodalom által általánosan elfogadott tény tábla és dimenzió tábla fogalmakat fogom használni Tények A tény táblák a dimenziós modellezés központi elemei: ezek azok a helyek, ahol az adott üzleti folyamat számszerű mértékei szerepelnek. A tény egy üzleti mértéket jelent. Például egy bolt adott napra vonatkozó eladási adatai lehetnek az eladott darab, ár, stb. Minden nap, bármelyik boltban bármelyik termék kerül értékesítésre, készül egy bejegyzés is. A dimenziók ezen listája határozza meg a tény tábla finomságát, felbontását. A tény táblában szereplő összes bejegyzésnek ugyanolyan felbontásúnak kell lennie. Egy adattárház szempontjából a leghasznosabb mértékek számszerűek és összeadhatóak, mivel igen ritka az az eset, amikor egyetlen sorra kiváncsi a felhasználó. Nem minden tényadat összeadható, léteznek részlegesen összeadható (semiadditive) mértékek, amelyeket csak bizonyos dimenziók mentén lehet összeadni. Például, ha a tényadatunk egy ügyfél adott napra vonatkozó számla egyenlege, akkor értelmetlen ezen egyenlegeket az idő dimenzió mentén összeadni, viszont annak már lehet üzleti értelme, hogy az ügyfél dimenzió mentén végezzük el ugyanezt (mekkora az ügyfeleink összegyenlege). Ha egy tényadat semmilyen dimenzió mentén nem adható össze (pontosabban összeadható, csak a kapott eredmény nem értelmezhető), akkor nem összeadható (nonadditive) tényekről beszélünk. Ilyenre tipikus példa lehet valamilyen állapot-jellemző: hőmérséklet, nyomás, stb. A tény adatokat három alapvető kategóriába sorolhatjuk: tranzakciós tények (transaction facts): valamilyen tranzakció, esemény hatására keletkező adatok (például értékesítés). periodikus pillanatképek (periodic snapshots): a tény adataink valaminek az állapotát mutatják egy adott pillanatban. Nevezhetjük ezeket készlet-jellegű tényeknek is, ugyanis tipikus példa lehet egy raktárkészlet, vagy számla egyenleg napi állapotát jelképező tény adatok. Ilyen jellegű tény adatokból a granularitásnak megfelelő időközönként mindig történik feljegyzés, ellentétben a tranzakciós tényekkel, ahol csak akkor szúrunk be új rekordot, ha történt valami. Emiatt az ilyen jellegű tény táblák hamar hatalmas méretűre duzzadnak, ezért kompromisszumos megoldásokat szokás alkalmazni: például az utolsó 60 nap adatait tároljuk csak napi szintre lebontva, a régebbi adatokat pedig magasabb aggregáltsági szinten, mondjuk heti összesítésben. halmozódó pillanatképek (accumulating snapshots): a halmozódó pillanatkép jellegű tény adatokhoz mindig több időpecsét tartozik, egy adott üzleti folyamat különböző állomásainak megfelelően. A periodikus pillanatképekhez hasonlóan itt is valaminek az állapotát reprezentálják a tény adataink, azzal az alapvető különbséggel, hogy az üzleti folyamat előrehaladtával ahogy egyre több információ áll rendelkezésünkre a tény adatainkat frissítjük, átértékeljük. Létezik még egy speciális konstrukció: a tény nélküli tény táblák (factless fact table). Az ilyen táblák több-több kapcsolatot reprezentálnak a dimenziók között. Például, 6

7 3. A DIMENZIÓS MODELLEZÉS 3.2. Dimenziók ha a tény adataink valamilyen eseményt jelentenek, mondjuk diákok órákra való jelentkezését, akkor nincs igazi tény adatunk, mértékünk, amit a tény táblába helyezhetnénk. Ilyenkor az információt az szolgáltatja, hogy van-e a dimenzióknak egy keresett konstellációja (adott diák adott tárgyra adott szemeszterben jelentkezett-e). Ezek a tény nélküli tény táblák az olyan jellegű kérdésekre adhatnak választ, hogy kik, hányan jelentkeztek valamire, de egy esemény nem-bekövetkezését nem tartalmazzák. Ilyen esetekben felvehetünk explicit sorokat egy bit jellegű oszloppal megkülönböztetve, hogy az adott sor azt jelenti, hogy az esemény bekövetkezett-e vagy sem Dimenziók A dimenziók a tények kísérői. Ezek tartalmazzák a szöveges leírásait az adott üzleti folyamatnak. Egy jól megtervezett dimenziós modellben a dimenzióknak a lehető legtöbb oszlopa vagy másnéven attribútuma van, ugyanis ezek az attribútumok játszanak a lekérdezéseknél, elemzéseknél csoportosító, megszorító, vagy magyarázó szerepeket. Emiatt létfontosságú, hogy minél több jól definiált, értelmes dimenzió attribútum legyen, mert ezek határozzák meg az adattárház használhatóságát. A dimenziók jelentik az interfészt az adattárház és a felhasználó között. Míg a tény adatok főleg számszerűek és folytonos értékkészletűek, addig a dimenzió attribútumok általában szövegesek, és diszkrétek. Elképzelhető olyan dimenzió, amihez nem tudunk értelmes leírást társítani. Ilyenre lehet példa egy forrás-rendszerbeli tranzakciós azonosító. Habár ez egy dimenzió jellegű adat, mégis a tény adatok közé vesszük fel, nem készítünk különálló dimenziót, ahol egyedüli attribútumként szerepelne. Ezeket elfajult (degenerate) dimenzióknak nevezzük Csillag séma A csillag séma a tények és a dimenziók csillag szerű összekapcsolásából áll. A középen álló tény tábla tartalmazza a számszerű (lehetőleg összeadható) mértékeket, valamint a csillag-szerűen kapcsolódó dimenzió táblákra való hivatkozásokat (távoli kulcsokat). 1. ábra. Csillag séma: középen álló tényekhez csillag-szerűen kapcsolódó dimenziók A legkézenfekvőbb tulajdonságai a csillag sémának az egyszerűség, és a szimmetria. Talán már ránézésre is érthetővé válik, hogy milyen üzleti folyamatot reprezentál a modell, még egy informatikában kevésbé jártas üzleti felhasználó számára is. 7

8 3.3. Csillag séma 3. A DIMENZIÓS MODELLEZÉS Az egyszerűség másik jelentős következménye a jó lekérdezési teljesítmény. Az adatbázis motor sokkal kevesebb join segítségével tudja végrehajtani a lekérdezéseket. Ezt elsősorban a bitmap indexek teszik lehetővé, amikről bővebben a alfejezetben írok. A szimmetriának köszönhetően minden dimenzió teljesen ekvivalens, mindegy melyik dimenzió felhasználásával indít lekérdezéseket a felhasználó, nincs különbség. Nincsenek a modellbe épített feltételezések a leendő lekérdezéseket illetően. Egy adattárházban modellezhetünk több üzleti folyamatot is. Az igényeknek megfelelően több csillagot (multidimenziós szóhasználattal kockát, hiperkockát) is építhetünk. Az adattárházak időorientáltságából is következően valószínű, hogy az összes tény adatunkhoz fog kapcsolódni valamilyen idő dimenzió (egy tényhez akár több is). Az egyik tényhez kapcsolva egy idő jelentheti mondjuk az eladás időpontját, egy másik tényhez kapcsolva pedig a megrendelés napját. Az ilyen dimenziókat role-playing dimenzióknak nevezzük. Ezeket relációs fizikai modellben úgy valósíthatjuk meg, hogy egy táblát hozunk létre az adott dimenziónak (próbálva a lehető legkonformabbra venni), és ezt illesztjük a különböző tény táblákhoz, vagy akár egy tény tábla különböző oszlopaihoz. Kimball konform dimenziók felhasználásával úgynevezett adattárház busz-architektúra kialakítását javasolja [1]: szabványosított dimenziók és tények felállítását, amik értelmezése az egész vállalatra nézve egységes. Ezzel megteremthetjük a lehetőségét a tények közötti átfúrásnak (drilling across). Ennek könnyű nyilvántartásához egy mátrix-szerű leírást javasol: a mátrix soraiban a modellezett üzleti folyamatokat, az oszlopaiban pedig a konform dimenziókat írjuk. A 2. táblázatban ott szerepel X, ahol a folyamat rendelkezik az adott dimenzióval. Idő Termék Bolt Raktár Értékesítés X X X Raktárkészlet X X X Rendelések X X 2. táblázat. Adattárház busz-mátrix: mely tény-táblák milyen közös dimenziókkal rendelkeznek Bitmap indexek Az indexek a lekérdezésekben szereplő szelekciós feltételek kiértékelésénél használatosak (pl.: WHERE T.A = 1000). Általános esetben egy lekérdezés végrehajtási ideje az indexek feldolgozásának és az adatok kinyerésének ideje. Ha egy lekérdezés eredményhalmazának mérete jelentős a tábla teljes méretéhez viszonyítva, akkor az adatelérés ideje megközelítheti egy teljes table scan (amikor a tábla minden során egyesével végigmegyünk) idejét. Ilyen esetekben az indexek használata épphogy lassítaná a lekérdezést. Erre a problémára az egyik elterjedt megoldás az ún. bitmap indexek, vagy magyarra fordítva bittérképes indexek használata. Bitmap indexekből is többféle létezik, a család legegyszerűbb tagja az egyszerű bitmap indexek (simple bitmap indexes). Például, ha az indexelni kívánt attribútum a nemek (ami tipikusan két értéket vehet fel: Férfi, Nő), akkor az index egy két bitből álló vektor lenne, az egyik bit a férfiak esetén lenne 1-es, a másik pedig nők esetében: 8

9 3. A DIMENZIÓS MODELLEZÉS 3.3. Csillag séma gender= M gender= F cust_id cust_id cust_id cust_id cust_id cust_id cust_id cust_id A fenti táblázat minden sora az Ügyfél (Customer) tábla egyik rekordjához tartozik. Az egyszerű bitmap indexek mérete az indexelendő attribútum kardinalitásának és a tábla méretének lineáris függvénye, és az index feldolgozás ideje az index méretének lineáris függvénye. Emiatt rögtön látszódik az egyszerű bitmap indexek egyik hátrányos tulajdonsága: ha az indexelendő attribútum sokféle értéket vehet fel, akkor a táblázat igen ritka lesz (sparsity problem), egy sorhoz tipikusan csak egy darab 1-es fog tartozni, a többi bit értéke 0 lesz. Ez pedig nem nevezhető hatékony tárhely-kihasználásnak. Erre megoldás lehet a bittérképek tömörítése (pl.: futáshossz kódolással), de így elveszítenénk a bitmap indexek egy igen kellemes tulajdonságát: ha több feltétel egyszerre történő teljesülését akarjuk vizsgálni, akkor a bittérképek adott oszlopainak logikai ÉS kapcsolatát kell csak kiszámolnunk: gender= M region= central cust_id cust_id cust_id 90 1 AND 0 = 0 cust_id cust_id azaz a 80-as és a 110-es ügyfél tartozik a központi régióban levő férfiak közé. Ming-Chuan Wu [4]-ban két olyan bitmap indexet is javasol, amik megőrzik a fent bemutatott előnyöket és mégis hatékonyabb tárhelykihasználtságot tesznek lehetővé. Bit-sliced indexing Az első az ún. bit-sliced indexelés. Egy attribútum bit-sliced indexe az attribútum értékének bitenkénti leképezése. Például, ha egy A attribútum egy 16-bites egész szám, és értékei 100 és 900 közötti értékeket vehetnek fel, akkor a hozzá tartozó index így nézhet ki: A b 15...b 10 b 9 b 8 b 7 b 6 b 5 b 4 b 3 b 2 b 1 b A bitvektorok száma megegyezik az attribútum típusának méretével, a vektorok hossza pedig az indexelt tábla kardinalitásával. Egy bit-sliced indexnek nem feltétlen kell bináris alapúnak lennie, elképzelhető például decimális alapú bit-sliced index is. Az előző példában szereplő A attribútum tizes alapú indexe három komponensből állna, a helyiértékeknek megfelelően. A b 9 b 8 b 7 b 6 b 5 b 4 b 3 b 2 b 1 b 0 b 9 b 8 b 7 b 6 b 5 b 4 b 3 b 2 b 1 b 0 b 9 b 8 b 7 b 6 b 5 b 4 b 3 b 2 b 1 b harmadik komponens második komponens első komponens 9

10 3.3. Csillag séma 3. A DIMENZIÓS MODELLEZÉS Ilyen típusú indexek esetén a kiválasztás a megfelelő bitvektorok kiolvasásával és össze-és-eléssükkel történik. Például az A=124 szűrőfeltétel esetén a b 1 b 2 b 4 vektorokat olvassuk ki rendre a harmadik, második illetve első komponensekből, és logikai ÉS kapcsolatba hozzuk őket. Az eredmény pedig azon sorokat tartalmazza, ahol az A értéke 124. Az alap kiválasztása a tárhelykövetelményeket és a feldolgozási sebességet befolyásolja. A fenti példában a bináris alapú index 16 bitvektorból áll, míg a tizes alapú 30-ból. Egy szűrő feltétel kiértékelése (pl.: A=124) bináris alapon 16 bitvektor végigpásztázását jelenti, decimális alapon viszont csak háromét. Encoded Bitmap Indexing Egy másik bitmap indexelést kódolt bitmap indexelésnek neveznek (encoded bitmap indexing, EBI). Az EBI az attribútum értelmezési tartományát leképezi egy kódoló függvény segítségével, és a kódolt értékeken felépít egy bináris alapú bit-sliced bittérképet. A bináris alap és kódolás segítségével hatékony tárhelykihasználtságot tesz lehetővé, ugyanakkor viszont megtartja a lekérdezés-optimalizálás lehetőségét jóldefiniált kódolás segítségével (well-defined encoding). Például, ha egy B attribútum értelmezési tartománya {a, b, c, d, e, f, t, u, v, w}, akkor egy M függvényt az alábbi módon definiálhatunk: B M(B) void 0000 NULL 0001 a 0010 b 0011 c 0100 d 0101 e 0110 f 0111 t 1000 u 1001 v 1010 w 1011 a void az adatbázisból törölt, a NULL pedig a NULL értékeket reprezentálja. A fenti táblázathoz tartozó minterm-ek: f void = b 3 b 2 b 1 b0 f b = b 3 b 2 b 1 b 0 f null = b 3 b 2 b 1 b 0 f c = b 3 b 2 b 1 b 0 f a = b 3 b 2 b 1 b 0 f d = b 3 b 2 b 1 b 0 f e = b 3 b 2 b 1 b 0 f u = b 3 b 2 b 1 b 0 f f = b 3 b 2 b 1 b 0 f v = b 3 b 2 b 1 b 0 f t = b 3 b 2 b 1 b 0 f w = b 3 b 2 b 1 b 0 EBI segítségével egy szűrés az alábbi módon hajtható végre: szűrőfeltétel: B {a,b,e,f} Ezekhez az elemekhez tartozó minterm-ek egy Boole függvényt alkotnak: f a + f b + f e + f f, amit tovább lehet egyszerűsíteni b 3 b 1 -re. Azaz, azon értékek elégítik ki a szűrőfeltételt, amik b 3 bitjét negálva majd b 1 bitjükhöz ÉS-elve 1-et kapunk. 10

11 3. A DIMENZIÓS MODELLEZÉS 3.3. Csillag séma Az EBI valójában nem más, mint egy bináris alapú bit-sliced bitmap index egy attribútum kódolt értelmezési tartományán. Az EBI-knek két előnyük van a bit-sliced indexek felett: a bitvektorok száma nem több, mint a bit-sliced esetében, hiszen a szükséges bitvektorok száma az adott attribútum számosságának kettes alapú logaritmusa (+2 a törölt és NULL értékek miatt, és ennek a felsőegészrésze). EBI esetében több optimalizálási lehetőség van "megfelelő" kódoló függvény kiválasztása esetén. Ilyen függvényeket Wu [5]-ben mutat be Csillag transzformáció Ezen kitekintő után térjünk vissza a csillag sémánkhoz. Például, egy szokásos értékesítési adatokat tartalmazó sales tény-tábla esetén dimenziók lehetnek: idő, ügyfél, termék, értékesítési csatorna. Tekintsük az alábbi lekérdezést: SELECT ch.channel_class, c.cust_city, t.calendar_quarter_desc, SUM(s.amount_sold) sales_amount FROM sales s, times t, customers c, channels ch WHERE s.time_id = t.time_id AND s.cust_id = c.cust_id AND s.channel_id = ch.channel_id AND c.cust_state_province = CA AND ch.channel_desc in ( Internet, Catalog ) AND t.calendar_quarter_desc IN ( 1999-Q1, 1999-Q2 ) GROUP BY ch.channel_class, c.cust_city, t.calendar_quarter_desc; Oracle adatbáziskezelő alatt a csillag transzformáció feltétele [13], hogy minden illesztéshez használt oszlopon definiálva legyen egy bitmap index, ebben az esetben cust_id, time_id, channel_id. A lekérdezést két menetben hajtja végre az adatbáziskezelő motor. Az alábbi lekérdezés végrehajtásával csak azokat a sorokat gyűjti ki a tény táblából, amik valóban szükségesek: SELECT... FROM sales WHERE time_id IN (SELECT time_id FROM times WHERE calendar_quarter_desc IN( 1999-Q1, 1999-Q2 )) AND cust_id IN (SELECT cust_id FROM customers WHERE cust_state_province= CA ) AND channel_id IN (SELECT channel_id FROM channels WHERE channel_desc IN( Internet, Catalog )); Ebben a lekérdezésben a tény táblán a time_id-re definiált bitmap index segítségével kiválasztjuk azokat a sorokat, amik első negyedévére vonatkoznak. Ez valójában annyit jelent, hogy azokat a sorokat választjuk ki, amiknél a bittérképben 11

12 3.4. Hópehely séma 3. A DIMENZIÓS MODELLEZÉS az 1999-Q1 bit értéke 1-es értékű. Hasonlóan történik a második negyedév adatainak kiválasztása. A kettő bitenkénti VAGY kapcsolatba hozásával kapjuk meg a kívánt időszakot. Ugyanilyen módon történik az ügyfelekre és értékesítési csatornákra történő szűrőfeltételek kiértékelése. A kapott három bittérképet majd logikai ÉS kapcsolatba hozva csupán azon sorok esetén kapunk 1-es értéket, amik az összes feltételt kielégítik. A második lépésben történik meg a tény tábla kiválasztott sorainak a dimenzió táblákhoz történő illesztése. Mivel a dimenzió táblák relatíve kis méretűek a tény táblákhoz viszonyítva, az Oracle általában teljes "table scan"-t használ az elérésükhöz Hópehely séma A csillag séma egyik jellemzője, hogy az adott dimenzió minden hierarchia-szintjét egy struktúrában tároljuk, ezzel redundanciát víve a rendszerbe. Ennek kiküszöbölésére szolgál a hópehely séma (snowflake schema). A dimenziókat a hierarchia-szintek mentén normalizáljuk, tipikusan 3NF szintre. Például, egy termék dimenzióban, ahelyett, hogy minden hierarchiának megfelelő attribútumot egy táblában tárolnánk (termék - márka - kategória -..), ezeket szétbontjuk: lesz egy tábla a termék dimenziónak, amihez kapcsolódik a márka (több-egy kapcsolat), amihez a kategória, és így tovább. Ezzel csökkentjük a redundanciát, amivel tárhelycsökkenést érünk el. Viszont cserébe több join művelet válik szükségessé. Mivel kijelenthető, hogy a tárhely a számítási kapacitáshoz viszonyítva olcsó, ezért [1] nem ajánlja a hópehely sémát. Ezzel szemben [3] szerint ez a séma drámaian csökkenti az aggregátumok képzését és karbantartását Négy lépéses dimenziós modellezés Kimball által bevezetett modellezési módszertan középpontjában a négy lépéses dimenziós modellezés áll [1]: 1. Az üzleti folyamat kiválasztása: üzleti folyamat egy adott üzleti cél elérésének érdekében tett összefüggő cselekvések rendezett sorozata. Üzleti folyamat lehet például a termékek szupermarketekben történő értékesítése. 2. A granularitás meghatározása: pontosan definiáljuk, hogy egy tény-rekord mit jelent: az értékesítési adatokat napi, heti, havi, stb. összesítésben, termékenként, szupermarketenként. Ha részletes felbontást választunk, a tény táblánk nagy lesz, megnövelve a feldolgozás erőforrás-igényét. Ha pedig aggregáltan tároljuk az adatokat, akkor a lehetséges elemzések halmazát eleve leszűkítjük. 3. A dimenziók meghatározása: a tényekhez dimenziókat rendelünk, amik az egyes sorok szöveges leírását reprezentálják, vagyis a dimenziók az adattárház felé intézett lehetséges kérdések szempontjainak halmaza. 4. A tény adatok meghatározása: ebben a lépésben a Mit mérünk? kérdésre keressük a választ. Minden tény adatnak ugyanarra a granularitásra kell vonatkoznia. 12

13 4. ESETTANULMÁNY 4. Esettanulmány Ebben a fejezetben a 3.5. részben bemutatott dimenziós modellezés lépéseit illusztrálom egy képzeletbeli világban Informális leírás Vegyünk egy jelzálog-hitelezéssel foglalkozó pénzintézetet. Az ügyfeleinek ingatlanfedezet mellett hiteleket nyújt, melyeket összecsomagolja, értékpapírosítja, és jelzálogleveleket bocsát ki. A hitelek lehetnek forint, svájci frank és euró alapúak, a jelzáloglevelek pedig forintban és euróban denomináltak. A jelzáloglevelek fedezeteként a hitelek szolgálnak, melynek fedezetei az ingatlanok. A bank prudens módon napi szinten szeretné ellenőrizni, hogy a kibocsátott jelzálogleveleinek mekkora részére van hitel-fedezet. Sőt, túlfedezettséget vállal: ellenőrizni szeretné, hogy minden nap fennálljon az az összefüggés, hogy a kibocsátott hitelek 10%-ban meghaladják a kibocsátott jelzáloglevél állományt. A hitel-adatok egy fedezet-nyilvántartó rendszerből származnak, készlet-jelleggel, azaz minden nap kinyerhetjük a rendszerből, hogy mennyi a bank hitelállománya 2, devizánkénti és ügyfelenkénti bontásban. A jelzáloglevél-adatok egy másik rendszerben vannak nyilvántartva: minden egyes kibocsátáskor rögzítenek egy ügyletet, amiben szerepel, hogy kinek, mekkora mennyiségű, milyen jelzálog-levelet értékesített a bank Az üzleti folyamat kiválasztása Az informális leírásból kiderül, hogy két üzleti folyamat modellezésére lesz szükség. Az egyik a hitelezés, a másik a jelzáloglevél-kibocsátás. A hitelezés egy összetett folyamat, a felhasználói igényekből viszont kiderül, hogy csak az adott napon fennálló hitelek aggregált összegére esetleg devizanemenként megbontva lesz szükség. A jelzáloglevél-kibocsátásról tranzakció jellegű információk állnak rendelkezésre, viszont itt is készlet-jellegű adatokra lesz szükség. Ezt a betöltő folyamatban (ETL Extract, Transform, Load) lehet megvalósítani Granularitás meghatározása Ebben a lépésben meg kell határozni, hogy milyen felbontásban fogjuk a tényadatainkat eltárolni, azaz a tény táblában egy rekord mit jelent. A specifikációból adódik, hogy napi szinten kell tárolni az adatokat. Ennél részletesebb felbontás esetén fölösleges terhelést helyeznénk a rendszerre, magasabb aggregáltság esetén pedig elvesztenénk a napi analízis lehetőségét. A hitel adatok devizanemenkénti megbontása tervezési döntés. Üzleti igény jelenleg csak az összesített adatok lekérdezésére van, de mivel a devizánkénti bontás csupán háromszoros méretnövekedést jelent, ezért ennek megtartása mellett döntök. Hasonló kérdés az ügyfelenkénti bontás eldöntése. Gyakori szituáció, hogy a kezdeti, informális specifikációból nem derül ki egyértelműen, hogy milyen adatokra milyen formában lesz szükség. Az ilyen kérdéses eseteket még a tervezés megkezdése 2 nominálisan, azaz a kamatoktól eltekintünk 13

14 4.4. A dimenziók meghatározása 5. EGYÉB ADATMODELLEK ADATTÁRHÁZAKHOZ előtt interjúk segítségével kell eldönteni. Tegyük fel, hogy a felhasználói igények megkövetelik a hitel adatok ügyfelenkénti bontását. Összefoglalva, a hitel tény tábla a fennálló hitel állományt jelenti az adott napon, devizánkénti és ügyfelenkénti bontásban. A kibocsátott jelzáloglevél-portfóliót tároló tény tábla sorai hasonló megfontolásokból az adott napon fennálló jelzáloglevél állományt jelentik devizánkénti és ügyfelenkénti bontásban A dimenziók meghatározása Egy jelzálog-hitellel rendelkező magánszemély ritkán azonos egy jelzáloglevél vásárlójával (tipikusan intézményi befektető). Mégis, a modellünk szempontjából mindkettőt ügyfélnek tekintjük: role-playing dimenzió. A jelzáloglevél táblához kapcsolva a jelzáloglevél (elsődleges) megvásárlóját, a hitel táblához kapcsolva a hitel tulajdonosát jelenti. Univerzális dimenzió az idő. Az idő dimenzió mentén definiálhatunk hierarchiaszinteket: nap hónap negyedév év. Dimenzió jellegű adat még a devizanem. Viszont egy devizanemhez nehezen tudunk szöveges leíró jellemzőket társítani. Ezért a tény táblákban ezek elfajult (degenerate) dimenziók lesznek A tény táblák attribútumainak meghatározása A hitel tény táblánkban tény adat a fennálló hitelállomány összege: amount. A jelzálog tény táblánkban pedig a fennálló jelzáloglevél-állomány összege, pontosabban csak a kintlevő tőke-összeg: outstanding principal. A modell ezen a ponton két csillagból áll, a középpontokban a két tény tábla áll. Mivel gyakorlatilag minden dimenzió konform, ezért a modell eleget tesz azon követelménynek, hogy az egyik készlet-jellegű adatot összehasonlíthatjuk a másikkal az átfúrás (drill-through vagy drill-across) művelet segítségével. Fontos megjegyezni, hogy a tény adatok nem adhatóak össze az idő dimenzió mentén (semi-additive facts), csak az ügyfél és a deviza 3 dimenziók mentén. 5. Egyéb adatmodellek adattárházakhoz Számos egyéb modellezési megközelítést is lehet találni a szakirodalomban. Az adattárházak tervezésének folyamatának három részre tagolását javasolja [6]: koncepcionális, logikai és fizikai modellezés. [8] ezt annyiban egészíti ki, hogy a koncepcionális modellezést megelőzi a követelmény-analízis és specifikáció fázisa. Jens Lechtenbörger [7]-ben később azt írja, hogy az első, koncepcionális tervezési fázis tartalmazza a követelmény-analízist. Mivel az adattárház tervezés célja a meglévő forrás-rendszerek integrálása, ezért követelmény-analízis fázis fő bemenete a forrásrendszereket leíró sémadefiníciók [7]. Ebben a fázisban az adattárházat tervező mérnökök, végfelhasználók és üzleti szakértők kiválasztják a releváns attribútumokat, és meghatározzák a felhasználás célját: dimenzióként vagy tény jellegű mértékként fog szerepelni. A fázis kimenete egy táblázat- 3 egyszerűsítésként feltételezzük, hogy a devizánkénti bontás az adott devizában kintlevő tőke összegét forintban jelenti 14

15 5. EGYÉB ADATMODELLEK ADATTÁRHÁZAKHOZ 5.1. Multidimenziós E/R modell szerű felsorolása az attribútumoknak a multidimenziós modellben betöltött szerepük megjelölésével. A következő fázis a koncepcionális modellezés fázisa (conceptual design), amikor a félig-formális üzleti követelményeket formalizált multidimenziós sémává transzformáljuk [8]. Ennek eredménye egy grafikus diagram. A logikai fázis a koncepcionális sémát egy logikai modellé alakítja, leggyakrabban relációs vagy multidimenziós modellé. A csillag séma egy logikai modellnek tekinthető [9]. Az adattárház tervezés folyamata a logikai sémák fizikai megvalósításával ér véget. Ebben a fázisban az adatbázis rendszer által nyújtott optimalizációs megoldásokat (indexelés, partícionálás, stb.) finomhangoljuk. A következő fejezetekben vázlatosan bemutatok különböző koncepcionális modelleket Multidimenziós E/R modell [10] A multidimenziós E/R (röviden: ME/R) modell a hagyományos Entity-Relationship modell kiterjesztése. Tervezésének főbb szempontjai: E/R modell specializációja: minden új elem a natív E/R komponensek valamilyen speciális esete legyen. Az E/R modell minimális kiterjesztése: azok számára, akik tisztában vannak az E/R modellel, könnyű legyen a kiterjesztett változat megtanulása, ezért a bevezetett új elemek száma a lehető legkisebb legyen. Reprezentálja a multidimenziós szemantikát: rendelkezzen kifejezőerővel az alapvető multidimenziós elemek leírására: meg lehessen különböztetni a leíró és mérték-jellegű adatokat, és a leírások közötti hierarchiákat. Ezen alapelvek mentén az alábbi új elemeket vezették be: speciális entitás egy dimenzió adott szintjének leírására a dimenziók között több-több kapcsolatot megtestesítő reláció a tények leírására két dimenzió között egy bináris reláció a hierarchia-szintekben történő vándorlás (rolls-up) leírására Ezen konstrukciókat szemlélteti a 2. ábra. A rolls-up reláció jelentése: A hierarchiaszint magasabb absztrakciós szintje B (például: város rolls-up ország). A hierarchiaszintekből és rolls-up relációkból álló gráfnak aciklikusnak kell lennie (DAG). 2. ábra. A M/ER modellt alkotó új elemek 15

16 5.2. starer modell 5. EGYÉB ADATMODELLEK ADATTÁRHÁZAKHOZ A 3. ábra egy egyszerű modellt szemléltet: a tény-reláció az eladásokat (sales) reprezentálja, aminek egyetlen attribútuma az ár. Ehhez kapcsolódik az idő, a termék és a bolt dimenzió. Az idő dimenzió mentén két hierarchia-szint definiált: nap és hónap. 3. ábra. Egy egyszerű modell grafikus ábrázolása a ME/R segítségével 5.2. starer modell [11] A starer modell megalkotói szerint a legszéleskörűbben alkalmazott koncepcionális modellt, a hagyományos E/R modellt és az elterjedt új sémákat (csillag, hópehely) egy modellben kell egyesíteni. Ennek megfelelően a starer modell az alábbi építő elemekből áll: Tény halmaz: a világ olyan tényeinek halmaza, amik ugyanolyan tulajdonságokkal rendelkeznek. Egy tény halmaz egy olyan eseményre utal, ami bizonyos időközönként adatot termel. Ezen tulajdonság miatt egy tény halmaz mindig időhöz kötött. Például, egy jelzáloghitelt felvett személy havonta törleszt. Ebben az esetben az esemény a hitel törlesztése, a tény halmaz pedig a törlesztés. Grafikus jelölése egy kör. Entitás halmaz: olyan objektumok halmaza, amik ugyanolyan tulajdonságokkal rendelkeznek, hasonlóan a hagyományos E/R modell entitás fogalmához. A fenti hitelezés példában egy entitás halmaz lehet az Ügyfél. Grafikus jelölése egy téglalap. Reláció halmaz: entitás halmazok és tény halmazok, vagy entitás halmazok közötti kapcsolatot reprezentál. Számossága lehet több-több, több-egy, vagy egytöbb. Például a visszafizet reláció több-egy kapcsolatba hozhatja a törlesztés tényhalmazt és a hitel entitás halmazt. A grafikus jelölése egy rombusz. Az entitás halmazok közötti relációknak lehetnek specializált esetei az általánosítás, aggregáció illetve tartalmazás kifejezésére. Például: a személy entitás specializált változata az ügyfél entitás (specializáció), vagy két szemeszter összevonható egy évvé (aggregáció), vagy ország régiókból áll (tartalmazás). Ezek grafikus reprezentációját a 4. ábra mutatja. 16

17 5. EGYÉB ADATMODELLEK ADATTÁRHÁZAKHOZ 5.2. starer modell Attribútum: entitás, tény vagy reláció halmazoknak statikus tulajdonságai. Analóg módon a hagyományos E/R modellel a grafikus jelölése egy ellipszis. A modell megkülönböztet úgynevezett stock, flow és value-per-unit jellegű attribútumokat az összesíthetőségük szerint. A stock jellegű attribútumok valaminek az aktuális állapotát jelentik, például egy ingatlan ára. A flow jellegű attribútumok minden dimenzió mentén összeadható adatok, például a törlesztett pénz mennyisége. Az utolsó, value-per-unit attribútumok a nem összeadható adatok, például a kamatláb. Ezeket az attribútumot jelölő ellipszis bal oldalába írt "S", "F", és "V" betűkkel jelöljük. 4. ábra. A starer modellben a reláció halmazok specializált változatai A hitelek törlesztését modellező starer diagram az 5. ábrán látható. 5. ábra. Hitelek törlesztése starer-rel modellezve Az ábrán egyetlen tény halmaz szerepel, a hitelek törlesztése. Ehhez két dimenzió kapcsolódik: az idő (nap entitás) és az ügyfél (ügyfél entitás). A nap entitást tartalmazza a hónap entitás. A törlesztés attribútuma a törlesztett mennyiség, ami egy flow jellegű tény adat, azaz minden dimenzió mentén összeadható. Az ügyfél egy specializált változata a személy entitásnak. A starer modellek a dimenziók mentén definiált hierarchia-szinteket a tartalmazás 17

18 5.3. Objektum-orientált modellek 6. ÖSSZEFOGLALÁS reláció segítségével támogatják. Egy dimenzióra akár több hierarchiát is definiálhatunk Objektum-orientált modellek [9] Létezik objektum-orientált megközelítése is az adattárházak koncepcionális modellezésének. [9]-ben az UML nyelvet ajánlják ennek elérésére, mert szerintük az UMLel kézenfekvőbben modellezhetőek egy információs rendszer struktúrális és dinamikus tulajdonságai. Ezen kívül az UML a felhasználói követelményeknek megfelelő korlátozásokra olyan lehetőséget nyújt, mint az Object Constraint Language. A tényeket tény osztályokkal, a dimenziókat dimenzió osztályokkal modellezik. A tény osztály aggregációs relációban van a dimenzió osztályokkal. 6. ábra. Termékek eladását bemutató UML modell A 6. ábrán egy termékek eladását reprezentáló tény-osztály látható, amihez a dimenzió osztályok az aggregáció relációval kapcsolódnak. 6. Összefoglalás Az adattárházak tervezése egy igen összetett feladat. Az ebben a témában megjelent első könyvek ([2] [1]) közérthető módon, lépésről lépésre, szemléletes példákkal illusztrálva mutatták be a tervezés folyamatát. Azóta számos publikáció, könyv született a témában, amik azt célozták meg, hogy a tervezés ad-hoc jellegét jól definiált, formális alapokra helyezik. Több koncepcionális adatmodell született, melyekből párat az 5. fejezetben mutattam be. Több olyan terület kapcsolódik az adattárházak tervezéséhez, melyeket nem érintettem ezen dokumentumban. Ezekből kiemelendő az adattárházak töltésének (ETL) megtervezése, az adattárházak életciklusa, illetve mivel egy adattárház önmagában csupán az adatok halmaza a hozzá kapcsolódó prezentációs réteg: azon alkalmazások, segédeszközök köre, melyek az elemzéseket, riportkészítéseket segítik, azaz lehetővé teszik, hogy az adattárházat valóban döntéstámogatásra használhassuk. Ezt a csomagot üzleti intelligencia megoldásoknak nevezik. 18

19 7. IRODALOMJEGYZÉK 7. Irodalomjegyzék [1] Kimball, Ralph, Ross, Margy: The Data Warehouse Toolkit The complete guide to dimensional modeling (2002) második kiadás, Wiley & Sons [2] Inmon, William Harvey: Building the Data Warehouse (2002) harmadik kiadás, Wiley & Sons [3] Adamson, Christopher: Mastering Data Warehouse Aggregates Solutions for Star Schema Performance (2006), Wiley & Sons [4] Wu, Ming-Chuan: Query Optimization for Selections using Bitmaps (1999) [5] Wu, Ming-Chuan: Encoded Bitmap Indexing for Data Warehouses (1998) [6] Wu, Ming-Chuan, Buchmann, Alejandro P.: Research Issues in Data Warehousing (1997) [7] Lechtenbörger, Jens: Data Warehouse Schema Design (2003) [8] Hüsemann, Bodo, Lechtenbörger, Jens, Vossen, Gottfried: Conceptual Data Warehouse Design (2000) [9] Trujillo, Juan, Palomar, Manuel, Gomez, Jaime, Song, Il-Yeol: Designing Data Warehouses with OO Conceptual Models (2001) [10] Sapia, Carsten, Blaschka, Markus, Höfling, Gabriele, Dinter, Barbara: Extending the E/R Model for the Multidimensional Paradigm (1998) [11] Tryfona, Nectaria, Busborg, Frank, Christiansen, Jens G. Borch: starer: A Conceptual Model for Data Warehouse Design (1999) [12] Haisten, Michael: The Real-Time Data Warehouse: The Next Stage in Data Warehouse Evolution (1999) [13] Sz.n.: Oracle Database Data Warehousing Guide 11g Release 1 (11.1) Part Number B : Optimizing Star Queries hozzáférve:

Magas szintű adatmodellek Egyed/kapcsolat modell I.

Magas szintű adatmodellek Egyed/kapcsolat modell I. Magas szintű adatmodellek Egyed/kapcsolat modell I. Ullman-Widom: Adatbázisrendszerek. Alapvetés. 4.fejezet Magas szintű adatmodellek (4.1-4.3.fej.) (köv.héten folyt.köv. 4.4-4.6.fej.) Az adatbázis modellezés

Részletesebben

Adatmodellezés. 1. Fogalmi modell

Adatmodellezés. 1. Fogalmi modell Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)

Részletesebben

Vezetői információs rendszerek

Vezetői információs rendszerek Vezetői információs rendszerek Kiadott anyag: Vállalat és információk Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/vezetoi_inf_rd 1 A vállalat, mint információs rendszer

Részletesebben

Adatbázisrendszerek április 17.

Adatbázisrendszerek április 17. Adatbázisrendszerek Áttekintés az adattárházakról és az OLAP-ról 2018. április 17. Az adattárházak célja 2 A számítási kapacitások állandó növekedése és az analitikai eszközök és módszerek egyre összetettebbé

Részletesebben

Adatbázis, adatbázis-kezelő

Adatbázis, adatbázis-kezelő Adatbázisok I. rész Adatbázis, adatbázis-kezelő Adatbázis: Nagy adathalmaz Közvetlenül elérhető háttértárolón (pl. merevlemez) Jól szervezett Osztott Adatbázis-kezelő szoftver hozzáadás, lekérdezés, módosítás,

Részletesebben

Adattárház tiszta alapokon Oracle Day, Budapest, november 8.

Adattárház tiszta alapokon Oracle Day, Budapest, november 8. Adattárház tiszta alapokon Oracle Day, Budapest, 2011. november 8. WIT-SYS Consulting Zrt. Lévai Gábor gabor.levai@wit-sys.hu Tematika Az adattárházról általánosan Az adattárház definíciója Fő jellemzők

Részletesebben

Struktúra nélküli adatszerkezetek

Struktúra nélküli adatszerkezetek Struktúra nélküli adatszerkezetek Homogén adatszerkezetek (minden adatelem azonos típusú) osztályozása Struktúra nélküli (Nincs kapcsolat az adatelemek között.) Halmaz Multihalmaz Asszociatív 20:24 1 A

Részletesebben

Fájlszervezés. Adatbázisok tervezése, megvalósítása és menedzselése

Fájlszervezés. Adatbázisok tervezése, megvalósítása és menedzselése Fájlszervezés Adatbázisok tervezése, megvalósítása és menedzselése Célok: gyors lekérdezés, gyors adatmódosítás, minél kisebb tárolási terület. Kezdetek Nincs általánosan legjobb optimalizáció. Az egyik

Részletesebben

Történet John Little (1970) (Management Science cikk)

Történet John Little (1970) (Management Science cikk) Információ menedzsment Szendrői Etelka Rendszer- és Szoftvertechnológia Tanszék szendroi@witch.pmmf.hu Vezetői információs rendszerek Döntéstámogató rendszerek (Decision Support Systems) Döntések információn

Részletesebben

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei 1. Mi az elsődleges következménye a gyenge logikai redundanciának? inkonzisztencia veszélye felesleges tárfoglalás feltételes függés 2. Az olyan tulajdonság az egyeden belül, amelynek bármely előfordulása

Részletesebben

UML (Unified Modelling Language)

UML (Unified Modelling Language) UML (Unified Modelling Language) UML (+ Object Constraint Language) Az objektum- modellezés egy szabványa (OMG) UML A 80-as, 90-es években egyre inkább terjedő objektum-orientált analízis és tervezés (OOA&D)

Részletesebben

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter Bevezető az Oracle9i adattárházas újdonságaihoz Elemzési és vezetői információs igények 80:20 az adatgyűjtés javára! Adattárházak kínálta

Részletesebben

INFORMATIKA ÁGAZATI ALKALMAZÁSAI. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP-4.1.2-08/1/A-2009-0010

INFORMATIKA ÁGAZATI ALKALMAZÁSAI. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP-4.1.2-08/1/A-2009-0010 INFORMATIKA ÁGAZATI ALKALMAZÁSAI Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP-4.1.2-08/1/A-2009-0010 2. Adatbáziskezelés eszközei Adatbáziskezelés feladata Adatmodell típusai Relációs adatmodell

Részletesebben

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: ADATSZERVEZÉS Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: fájlrendszerek (a konvencionális módszer) és adatbázis rendszerek (a haladóbb

Részletesebben

7. előadás. Karbantartási anomáliák, 1NF, 2NF, 3NF, BCNF. Adatbázisrendszerek előadás november 3.

7. előadás. Karbantartási anomáliák, 1NF, 2NF, 3NF, BCNF. Adatbázisrendszerek előadás november 3. 7. előadás,,,, Adatbázisrendszerek előadás 2008. november 3. és Debreceni Egyetem Informatikai Kar 7.1 relációs adatbázisokhoz Mit jelent a relációs adatbázis-tervezés? Az csoportosítását, hogy jó relációsémákat

Részletesebben

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében): Követelményrendszer 1. Tantárgynév, kód, kredit, választhatóság: Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K 2. Felelős tanszék: Informatika Szakcsoport 3. Szak, szakirány, tagozat: Műszaki

Részletesebben

Adatmodellezés, alapfogalmak. Vassányi István

Adatmodellezés, alapfogalmak. Vassányi István Adatmodellezés, alapfogalmak Vassányi István Alapok A helyes modell az információs rendszer későbbi használhatóságánakazalapja, olyanmint a jómunkaruha: véd, de nem akadályozza a munkát Objektum-orientált

Részletesebben

I. RÉSZ. Tartalom. Köszönetnyilvánítás...13 Bevezetés...15

I. RÉSZ. Tartalom. Köszönetnyilvánítás...13 Bevezetés...15 Tartalom 5 Tartalom Köszönetnyilvánítás...13 Bevezetés...15 I. RÉSZ AZ ALAPOK... 17 1. fejezet Egy kis történelem...19 A korai MIS rendszerektől az alapgondolatig...19 Operatív és analitikus rendszerek

Részletesebben

Adatbázisok analitikus környezetben. Adatbázisok elmélete 4. előadás Gajdos Sándor

Adatbázisok analitikus környezetben. Adatbázisok elmélete 4. előadás Gajdos Sándor Adatbázisok analitikus környezetben Adatbázisok elmélete 4. előadás Gajdos Sándor Tartalom Döntéstámogatás általában OSS vs. DSS Multidimenziós modellezés Hozzáférési módok, BI eszközök Lekérdezés optimalizálás

Részletesebben

Adattárház kialakítása a Szövetkezet Integrációban, UML eszközökkel. Németh Rajmund Vezető BI Szakértő március 28.

Adattárház kialakítása a Szövetkezet Integrációban, UML eszközökkel. Németh Rajmund Vezető BI Szakértő március 28. Adattárház kialakítása a Szövetkezet Integrációban, UML eszközökkel Németh Rajmund Vezető BI Szakértő 2017. március 28. Szövetkezeti Integráció Központi Bank Takarékbank Zrt. Kereskedelmi Bank FHB Nyrt.

Részletesebben

Adatbázis-kezelés. alapfogalmak

Adatbázis-kezelés. alapfogalmak Adatbázis-kezelés alapfogalmak Témakörök Alapfogalmak Adatmodellek Relációalgebra Normalizálás VÉGE Adatbázis-kezelő rendszer Database Management System - DBMS Integrált programcsomag, melynek funkciói:

Részletesebben

Relációs algebra 1.rész alapok

Relációs algebra 1.rész alapok Relációs algebra 1.rész alapok Tankönyv: Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009 Lekérdezések a relációs modellben 2.4. Egy algebrai lekérdező nyelv, relációs

Részletesebben

Informatikai alapismeretek Földtudományi BSC számára

Informatikai alapismeretek Földtudományi BSC számára Informatikai alapismeretek Földtudományi BSC számára 2010-2011 Őszi félév Heizlerné Bakonyi Viktória HBV@ludens.elte.hu Titkosítás,hitelesítés Szimmetrikus DES 56 bites kulcs (kb. 1000 év) felcserél, helyettesít

Részletesebben

Programozás. Adatbázis-kezelés (alapok) Fodor Attila

Programozás. Adatbázis-kezelés (alapok) Fodor Attila Programozás Adatbázis-kezelés (alapok) Fodor Attila Pannon Egyetem Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék foa@almos.vein.hu 2010. április 22. Bevezetés Adatbáziskezelés

Részletesebben

Adattárházak. Gajdos Sándor, TMIT ősz

Adattárházak. Gajdos Sándor, TMIT ősz Adattárházak Gajdos Sándor, TMIT 2015. ősz Döntéstámogató rendszerek (DSS: decision support systems) Kommunikáció-orientált Adat-orientált Dokumentáció-orientált Tudás-orientált Modell-orientált Kommunikáció-orientált

Részletesebben

Több felhasználó párhuzamosan olvashatja, bővítheti, módosíthatja és törölheti az adatokat Az adatok konzisztenciájának és biztonságának biztosítása

Több felhasználó párhuzamosan olvashatja, bővítheti, módosíthatja és törölheti az adatokat Az adatok konzisztenciájának és biztonságának biztosítása 4. gyakorlat Több felhasználó párhuzamosan olvashatja, bővítheti, módosíthatja és törölheti az adatokat Az adatok konzisztenciájának és biztonságának biztosítása Eszközök az adatok biztonsági mentésére,

Részletesebben

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor VÁLLALATI INFORMÁCIÓS RENDSZEREK Debrenti Attila Sándor Információs rendszer 2 Információs rendszer: az adatok megszerzésére, tárolására és a tárolt adatok különböző szempontok szerinti feldolgozására,

Részletesebben

Adatbázis-kezelés az Excel 2013-ban

Adatbázis-kezelés az Excel 2013-ban Molnár Mátyás Adatbázis-kezelés az Excel 2013-ban Magyar nyelvi verzió Csak a lényeg érthetően! www.csakalenyeg.hu Csak a lényeg érthetően! Microsoft Excel 2013 Kimutatás készítés relációs adatmodell alapján

Részletesebben

Adatbázis rendszerek 6.. 6. 1.1. Definíciók:

Adatbázis rendszerek 6.. 6. 1.1. Definíciók: Adatbázis Rendszerek Budapesti Műszaki és Gazdaságtudományi Egyetem Fotogrammetria és Térinformatika 6.1. Egyed relációs modell lényegi jellemzői 6.2. Egyed relációs ábrázolás 6.3. Az egyedtípus 6.4. A

Részletesebben

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft. Data Vault 2.0 és az Oracle DW/BD referencia architektúra Gollnhofer Gábor Meta Consulting Kft. Az Oracle referencia architektúrák Rövid bevezető Az IT Strategies from Oracle (ITSO) része Átgondolt, bevált,

Részletesebben

ADATBÁZIS-KEZELÉS. Relációs modell

ADATBÁZIS-KEZELÉS. Relációs modell ADATBÁZIS-KEZELÉS Relációs modell Relációséma neve attribútumok ORSZÁGOK Azon Ország Terület Lakosság Főváros Földrész 131 Magyarország 93036 10041000 Budapest Európa 3 Algéria 2381740 33769669 Algír Afrika

Részletesebben

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

VIR alapfogalmai. Előadásvázlat. dr. Kovács László VIR alapfogalmai Előadásvázlat dr. Kovács László Információ szerepe Információ-éhes világban élünk Mi is az információ? - újszerű ismeret - jelentés Hogyan mérhető az információ? - statisztikai - szintaktikai

Részletesebben

Programozási technológia

Programozási technológia Programozási technológia Dinamikus modell Tevékenységdiagram, Együttműködési diagram, Felhasználói esetek diagramja Dr. Szendrei Rudolf ELTE Informatikai Kar 2018. Tevékenység diagram A tevékenység (vagy

Részletesebben

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,

Részletesebben

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése 1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Természetes nyelv feldolgozás 2 Tudásalapú információ-kereső rendszerek

Részletesebben

22. GRÁFOK ÁBRÁZOLÁSA

22. GRÁFOK ÁBRÁZOLÁSA 22. GRÁFOK ÁBRÁZOLÁSA A megoldandó feladatok, problémák modellezése során sokszor gráfokat alkalmazunk. A gráf fogalmát a matematikából ismertnek vehetjük. A modellezés során a gráfok több változata is

Részletesebben

Az indexelés újdonságai Oracle Database 12c R1 és 12c R2

Az indexelés újdonságai Oracle Database 12c R1 és 12c R2 Az indexelés újdonságai Oracle Database 12c R1 és 12c R2 Szabó Rozalinda Oracle adattárház szakértő, oktató szabo.rozalinda@gmail.com Index tömörítés fejlődése 8.1.3-as verziótól: Basic (Prefixes) index

Részletesebben

Adatszerkezetek Adatszerkezet fogalma. Az értékhalmaz struktúrája

Adatszerkezetek Adatszerkezet fogalma. Az értékhalmaz struktúrája Adatszerkezetek Összetett adattípus Meghatározói: A felvehető értékek halmaza Az értékhalmaz struktúrája Az ábrázolás módja Műveletei Adatszerkezet fogalma Direkt szorzat Minden eleme a T i halmazokból

Részletesebben

modell, amiben csak bináris sok-egy kapcsolatok (link, memberowner,

modell, amiben csak bináris sok-egy kapcsolatok (link, memberowner, Informatika szigorlat 10-es tétel: Adatmodellezés Adatmodellezésnek azt az absztrakciós folyamatot nevezzük, amelyben a valós (mikró)világ tényeit, valamint a tények közötti kapcsolatokat tükröző adatokat,

Részletesebben

Adatbázisok 1. Az egyed-kapcsolat modell (E/K)

Adatbázisok 1. Az egyed-kapcsolat modell (E/K) Adatbázisok 1 Az egyed-kapcsolat modell (E/K) Témakör: Az egyed-kapcsolat modell (E/K) Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009 4.1. Az egyed-kapcsolat (E/K)

Részletesebben

Adatbázis rendszerek. dr. Siki Zoltán

Adatbázis rendszerek. dr. Siki Zoltán Adatbázis rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati személyzeti

Részletesebben

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatelemzés - Gyakorlat Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Adatelemzés szerepe a rendszermodellezésben Lényeges paraméterek meghatározása

Részletesebben

RELÁCIÓS ADATBÁZISSÉMÁK. Egyed-kapcsolat modellről átírás

RELÁCIÓS ADATBÁZISSÉMÁK. Egyed-kapcsolat modellről átírás RELÁCIÓS ADATBÁZISSÉMÁK Egyed-kapcsolat modellről átírás A RELÁCIÓS ADATMODELL Az adatokat egyszerűen reprezentálja: kétdimenziós adattáblákban Minden sor azonos számú oszlopból áll; egy sor egy rekord,

Részletesebben

Szakterületi modell A fogalmak megjelenítése. 9. fejezet Applying UML and Patterns Craig Larman

Szakterületi modell A fogalmak megjelenítése. 9. fejezet Applying UML and Patterns Craig Larman Szakterületi modell A fogalmak megjelenítése 9. fejezet Applying UML and Patterns Craig Larman 1 Néhány megjegyzés a diagramokhoz Ez a tárgy a rendszer elemzésről és modellezésről szól. Noha például egy

Részletesebben

Adatbázisok* tulajdonságai

Adatbázisok* tulajdonságai Gazdasági folyamatok térbeli elemzése 4. előadás 2010. 10. 05. Adatbázisok* tulajdonságai Rendezett, logikailag összefüggő és meghatározott szempont szerint tárolt adatok és/vagy információk halmaza Az

Részletesebben

Az egyed-kapcsolat modell (E/K)

Az egyed-kapcsolat modell (E/K) Az egyed-kapcsolat modell (E/K) Tankönyv: Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009 4.1. Az egyed-kapcsolat (E/K) modell 4.2. Tervezési alapelvek 4.3. Megszorítások

Részletesebben

Adatbányászat és Perszonalizáció architektúra

Adatbányászat és Perszonalizáció architektúra Adatbányászat és Perszonalizáció architektúra Oracle9i Teljes e-üzleti intelligencia infrastruktúra Oracle9i Database Integrált üzleti intelligencia szerver Data Warehouse ETL OLAP Data Mining M e t a

Részletesebben

BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA

BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA Gollnhofer Gábor JET-SOL Kft. Nyilvántartási szám: 503/1256-1177 JET-SOL KFT. Alapadatok 2003-ban alakultunk Több mint 120 magasan képzett munkatárs Ügyfélkör Nagyvállalati

Részletesebben

Data Vault adatmodellezés.

Data Vault adatmodellezés. Data Vault adatmodellezés Nemeth.Zoltan@iqpp.hu Új adattárház adatmodellezési módszer Dan Linstedt nevéhez fűződik Ismérvei Részletes, tételes adatok Történetiség kezelése Data Vault Üzleti területek köré

Részletesebben

Bevezetés: az SQL-be

Bevezetés: az SQL-be Bevezetés: az SQL-be Tankönyv: Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009 2.3. Relációsémák definiálása SQL-ben, adattípusok, kulcsok megadása 02B_BevSQLsemak

Részletesebben

Adatbázismodellek. 1. ábra Hierarchikus modell

Adatbázismodellek. 1. ábra Hierarchikus modell Eddig az adatbázisokkal általános szempontból foglalkoztunk: mire valók, milyen elemekből épülnek fel. Ennek során tisztáztuk, hogy létezik az adatbázis fogalmi modellje (adatbázisterv), amely az egyedek,

Részletesebben

A relációs adatmodell

A relációs adatmodell A relációs adatmodell E. Codd vezette be: 1970 A Relational Model of Data for Large Shared Data Banks. Communications of ACM, 13(6). 377-387. 1982 Relational Databases: A Practical Foundation for Productivity.

Részletesebben

Számítógépes döntéstámogatás. Döntések fuzzy környezetben Közelítő következtetések

Számítógépes döntéstámogatás. Döntések fuzzy környezetben Közelítő következtetések BLSZM-09 p. 1/17 Számítógépes döntéstámogatás Döntések fuzzy környezetben Közelítő következtetések Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu

Részletesebben

Fogalmi modellezés. Ontológiák Alkalmazott modellező módszertan (UML)

Fogalmi modellezés. Ontológiák Alkalmazott modellező módszertan (UML) Fogalmi modellezés Ontológiák Alkalmazott modellező módszertan (UML) Fogalom képzés / kialakítás Cél: Példák: A fogalom képzés segít minket abban, hogy figyelmen kívül hagyjuk azt, ami lényegtelen idealizált

Részletesebben

AB1 ZH mintafeladatok. 6. Minősítse az állításokat! I-igaz, H-hamis

AB1 ZH mintafeladatok. 6. Minősítse az állításokat! I-igaz, H-hamis AB1 ZH mintafeladatok 1. Töltse ki, és egészítse ki! Matematikai formalizmus arra, hogy hogyan építhetünk új relációkat a régi relációkból. Az adatoknak egy jól strukturált halmaza, amelyből információ

Részletesebben

A digitális analóg és az analóg digitális átalakító áramkör

A digitális analóg és az analóg digitális átalakító áramkör A digitális analóg és az analóg digitális átalakító áramkör I. rész Bevezetésként tisztázzuk a címben szereplő két fogalmat. A számítástechnikai kislexikon a következőképpen fogalmaz: digitális jel: olyan

Részletesebben

NORMALIZÁLÁS. Funkcionális függés Redundancia 1NF, 2NF, 3NF

NORMALIZÁLÁS. Funkcionális függés Redundancia 1NF, 2NF, 3NF NORMALIZÁLÁS Funkcionális függés Redundancia 1NF, 2NF, 3NF FUNKCIONÁLIS FÜGGŐSÉG Legyen adott R(A 1,, A n ) relációséma, valamint P, Q {A 1,, A n } (magyarán P és Q a séma attribútumainak részhalmazai)

Részletesebben

KORMÁNYZATI SZEMÉLYÜGYI DÖNTÉSTÁMOGATÓ RENDSZER KÖFOP VEKOP 16

KORMÁNYZATI SZEMÉLYÜGYI DÖNTÉSTÁMOGATÓ RENDSZER KÖFOP VEKOP 16 KORMÁNYZATI SZEMÉLYÜGYI DÖNTÉSTÁMOGATÓ RENDSZER KÖFOP 2.1.5 VEKOP 16 Előadó: Balogh Csaba dátum: 2018.01.26. BEVEZETÉS BEVEZETÉS Előzmények KÖZIGTAD Jellemző strukturális hibák Gyenge adatszolgáltatási

Részletesebben

7. előadás. Karbantartási anomáliák, 1NF, 2NF, 3NF, BCNF, 4NF, 5NF. Adatbázisrendszerek előadás november 7.

7. előadás. Karbantartási anomáliák, 1NF, 2NF, 3NF, BCNF, 4NF, 5NF. Adatbázisrendszerek előadás november 7. 7. előadás,,,,, 4NF, 5NF Adatbázisrendszerek előadás 2016. november 7., és Debreceni Egyetem Informatikai Kar Az előadások Elmasry & Navathe: Database Systems alapján készültek. Nem hivatalos tervezési

Részletesebben

Mezők viszonya a relációs adatbázis tábláiban

Mezők viszonya a relációs adatbázis tábláiban Mezők viszonya a relációs adatbázis tábláiban A normalizálás megértéséhez szükségünk van néhány további fogalom ismeretére, ezért most kisebb kitérőt teszünk. Megismerjük - a funkcionális függés, - a teljes

Részletesebben

Adatbázisrendszerek 7. előadás: Az ER modell március 20.

Adatbázisrendszerek 7. előadás: Az ER modell március 20. Adatbázisrendszerek Jelölések, az 2018. március 20. Egyedtípusok 2 Definíció Azokat az egyedtípusokat, amelyek nem rendelkeznek saját kulcsattribútumokkal, gyenge egyedtípusoknak nevezzük. Ezzel ellentétben

Részletesebben

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt. Rendszermodernizációs lehetőségek a HANA-val Poszeidon Groma István PhD SDA DMS Zrt. Poszeidon EKEIDR Tanúsított ügyviteli rendszer (3/2018. (II. 21.) BM rendelet). Munkafolyamat támogatás. Papírmentes

Részletesebben

ADATBÁZIS-KEZELÉS FÉLÉVES FELADAT

ADATBÁZIS-KEZELÉS FÉLÉVES FELADAT ÓBUDAI EGYETEM Neumann János Informatikai Kar Nappali Tagozat ADATBÁZIS-KEZELÉS FÉLÉVES FELADAT NÉV: MÁK VIRÁG NEPTUN KÓD: A DOLGOZAT CÍME: Jani bácsi székadatbázisa Beadási határidő: 14. oktatási hét

Részletesebben

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek TSIMMIS egy lekérdezés centrikus megközelítés TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek 1 Információk heterogén információs forrásokban érhetk el WWW Társalgás Jegyzet papírok

Részletesebben

10-es Kurzus. OMT modellek és diagramok OMT metodológia. OMT (Object Modelling Technique)

10-es Kurzus. OMT modellek és diagramok OMT metodológia. OMT (Object Modelling Technique) 10-es Kurzus OMT modellek és diagramok OMT metodológia OMT (Object Modelling Technique) 1 3 Modell és 6 Diagram Statikus modell : OMT Modellek és diagramok: Statikus leírása az összes objektumnak (Név,

Részletesebben

Adattárházak. Méréstechnika és Információs Rendszerek Tanszék

Adattárházak. Méréstechnika és Információs Rendszerek Tanszék Adattárházak Méréstechnika és Információs Rendszerek Tanszék https://www.mit.bme.hu/oktatas/targyak/vimiac04 1 Adatfeldolgozási folyamat Döntés Modell Adatbányászat Adatok kinyerése, transzformálása Adattárház

Részletesebben

Adatbázisok. 4. gyakorlat. Adatmodellezés: E-K modellb l relációs adatbázisséma. Kötelez programok kiválasztása szeptember 24.

Adatbázisok. 4. gyakorlat. Adatmodellezés: E-K modellb l relációs adatbázisséma. Kötelez programok kiválasztása szeptember 24. Adatbázisok 4. gyakorlat Adatmodellezés: E-K modellb l relációs adatbázisséma. Kötelez programok kiválasztása 2014. szeptember 24. 2014. szeptember 24. Adatbázisok 1 / 20 Az adatbázisok szolgáltatásai

Részletesebben

ADATBÁZIS-KEZELÉS. Adatbázis-kezelő rendszerek

ADATBÁZIS-KEZELÉS. Adatbázis-kezelő rendszerek ADATBÁZIS-KEZELÉS Adatbázis-kezelő rendszerek Adat (Data) Észlelhető, felfogható ismeret Jelsorozat Tény, közlés Valakinek vagy valaminek a jellemzője Adatbázis (Data Base, DB) Hosszú ideig évekig meglévő

Részletesebben

Több mint BI (Adatból üzleti információ)

Több mint BI (Adatból üzleti információ) Több mint BI (Adatból üzleti információ) Vállalati műszaki adattárház építés és üzleti elemzések az ELMŰ-ÉMÁSZ Társaságcsoportnál Papp Imre Geometria Kft MEE, Mátraháza, 2013. szeptember 12. Visszatekintés

Részletesebben

Microsoft SQL Server telepítése

Microsoft SQL Server telepítése Microsoft SQL Server telepítése Az SQL Server a Microsoft adatbázis kiszolgáló megoldása Windows operációs rendszerekre. Az SQL Server 1.0 verziója 1989-ben jelent meg, amelyet tizenegy további verzió

Részletesebben

SQL jogosultság-kezelés. Privilégiumok Grant és Revoke Grant Diagrammok

SQL jogosultság-kezelés. Privilégiumok Grant és Revoke Grant Diagrammok SQL jogosultság-kezelés Privilégiumok Grant és Revoke Grant Diagrammok 1 Jogosultság-kezelés Egy fájlrendszer általában jogosultságokat rendel az általa kezelt objektumokhoz. Tipikusan olvasható, írható,

Részletesebben

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft. Oracle SQL Developer Data Modeler és a DW adatmodellezés Gollnhofer Gábor Meta Consulting Kft. Oracle Information Management & Big Data Reference Architecture 2 Mi a NoSQL modellezés célja? Forrás: Insights

Részletesebben

5. A kiterjesztési elv, nyelvi változók

5. A kiterjesztési elv, nyelvi változók 5. A kiterjesztési elv, nyelvi változók Gépi intelligencia I. Fodor János BMF NIK IMRI NIMGI1MIEM Tartalomjegyzék I 1 A kiterjesztési elv 2 Nyelvi változók A kiterjesztési elv 237 A KITERJESZTÉSI ELV A

Részletesebben

Adatszerkezetek 2. Dr. Iványi Péter

Adatszerkezetek 2. Dr. Iványi Péter Adatszerkezetek 2. Dr. Iványi Péter 1 Hash tábla A bináris fáknál O(log n) a legjobb eset a keresésre. Ha valamilyen közvetlen címzést használunk, akkor akár O(1) is elérhető. A hash tábla a tömb általánosításaként

Részletesebben

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

Adatbázis-kezelő rendszerek. dr. Siki Zoltán Adatbázis-kezelő rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati

Részletesebben

Marton József BME-TMIT. Adatbázisok VITMAB november 11.

Marton József BME-TMIT. Adatbázisok VITMAB november 11. Marton József BME-TMIT Gajdos Sándor diasorának felhasználásával Adatbázisok VITMAB00 2016. november 11. A lekérdezés-feldolgozás folyamata I. Cél: az adatok adatbázisból való kinyerése Mivel: egyértelmű,

Részletesebben

Adatbáziskezelés. Indexek, normalizálás NZS 1

Adatbáziskezelés. Indexek, normalizálás NZS 1 Adatbáziskezelés Indexek, normalizálás NZS 1 Fáljszervezés módjai Soros elérés: a rekordok a fájlban tetszőleges sorrendben, például a felvitel sorrendjében helyezkednek el. A rekord azonosítója vagyis

Részletesebben

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk?

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk? Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk? Nem szükséges informatikusnak lennünk, vagy mélységében átlátnunk az

Részletesebben

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok. ADATBÁZIS-KEZELÉS ALAPOK Főbb Adattípusok: Igen/Nem Bájt Ez az adattípus logikai adatok tárolására alkalmas. A logikai adatok mindössze két értéket vehetnek fel. (Igen/Nem, Igaz/Hamis, Férfi/Nő, Fej/Írás

Részletesebben

Számítógépes döntéstámogatás. Genetikus algoritmusok

Számítógépes döntéstámogatás. Genetikus algoritmusok BLSZM-10 p. 1/18 Számítógépes döntéstámogatás Genetikus algoritmusok Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu BLSZM-10 p. 2/18 Bevezetés 1950-60-as

Részletesebben

Példa 2012.05.11. Többértékű függőségek, 4NF, 5NF

Példa 2012.05.11. Többértékű függőségek, 4NF, 5NF Többértékű függőségek, 4NF, 5NF Szendrői Etelka datbázisok I szendroi@pmmk.pte.hu harmadik normálformáig mindenképpen érdemes normalizálni a relációkat. Legtöbbször elegendő is az első három normálformának

Részletesebben

Az adatbázis-alapú rendszerek tervezésének alapvető része az adatok modellezése. Ez legtöbbször két fázisban zajlik:

Az adatbázis-alapú rendszerek tervezésének alapvető része az adatok modellezése. Ez legtöbbször két fázisban zajlik: 2. gyakorlat Az adatbázis-alapú rendszerek tervezésének alapvető része az adatok modellezése. Ez legtöbbször két fázisban zajlik: Egyed-kapcsolat diagram szemléletes ábrázolás Relációs adatbázis séma implementáció-közeli

Részletesebben

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1 SZE INFORMATIKAI KÉPZÉS 1 ADATBÁZIS-KEZELÉS MS ACCESS 2010 A feladat megoldása során a Microsoft Office Access 2010 használata a javasolt. Ebben a feladatban a következőket fogjuk gyakorolni: Adatok importálása

Részletesebben

Adatbázisok-1 előadás Előadó: dr. Hajas Csilla

Adatbázisok-1 előadás Előadó: dr. Hajas Csilla Adatbázisok-1 előadás Előadó: dr. Hajas Csilla Áttekintés az I.zh-ig Áttekintés az 1ZH-ig // Adatbázisok-1 elıadás // Ullman (Stanford) tananyaga alapján // Hajas Csilla (ELTE IK) 1 Hol tartunk? Mit tanultunk

Részletesebben

Tartalomjegyzék. Tartalomjegyzék 1. Az SQL nyelv 1 Az SQL DDL alapjai 2

Tartalomjegyzék. Tartalomjegyzék 1. Az SQL nyelv 1 Az SQL DDL alapjai 2 Tartalomjegyzék Tartalomjegyzék 1 Az SQL nyelv 1 Az SQL DDL alapjai 2 Adatbázis parancsok 2 Táblaparancsok 2 A táblázat létrehozása 2 A táblázat módosítása 3 A tábla törlése 3 Indextábla létrehozása 3

Részletesebben

Tartalom. Konfiguráció menedzsment bevezetési tapasztalatok. Bevezetés. Tipikus konfigurációs adatbázis kialakítási projekt. Adatbázis szerkezet

Tartalom. Konfiguráció menedzsment bevezetési tapasztalatok. Bevezetés. Tipikus konfigurációs adatbázis kialakítási projekt. Adatbázis szerkezet Konfiguráció menedzsment bevezetési tapasztalatok Vinczellér Gábor AAM Technologies Kft. Tartalom 2 Bevezetés Tipikus konfigurációs adatbázis kialakítási projekt Adatbázis szerkezet Adatbázis feltöltés

Részletesebben

LOGISZTIKAI ADATBÁZIS RENDSZEREK JOIN, AGGREGÁCIÓ

LOGISZTIKAI ADATBÁZIS RENDSZEREK JOIN, AGGREGÁCIÓ LOGISZTIKAI ADATBÁZIS RENDSZEREK JOIN, AGGREGÁCIÓ Lénárt Balázs tanársegéd TANTERV Hét Dátum Előadó Előadások Időpont: szerda 8:30-10:00, helye: LFSZÁMG Dátum Gyakvezető 1. 9. 11. Tokodi Adatbázis kezelés

Részletesebben

Modellinformációk szabványos cseréje. Papp Ágnes, Debreceni Egyetem EFK

Modellinformációk szabványos cseréje. Papp Ágnes, Debreceni Egyetem EFK Modellinformációk szabványos cseréje Papp Ágnes, agi@delfin.unideb.hu Debreceni Egyetem EFK Tartalom MOF, UML, XMI Az UML és az XML séma MDA - Model Driven Architecture Networkshop 2004 2 Az OMG metamodell

Részletesebben

Adatszerkezetek 1. előadás

Adatszerkezetek 1. előadás Adatszerkezetek 1. előadás Irodalom: Lipschutz: Adatszerkezetek Morvay, Sebők: Számítógépes adatkezelés Cormen, Leiserson, Rives, Stein: Új algoritmusok http://it.inf.unideb.hu/~halasz http://it.inf.unideb.hu/adatszerk

Részletesebben

Web-programozó Web-programozó

Web-programozó Web-programozó Az Országos Képzési Jegyzékről és az Országos Képzési Jegyzékbe történő felvétel és törlés eljárási rendjéről szóló 133/2010. (IV. 22.) Korm. rendelet alapján. Szakképesítés, szakképesítés-elágazás, rész-szakképesítés,

Részletesebben

IV/1. sz. melléklet: Vállalati CRM, értékesítési terület funkcionális specifikáció

IV/1. sz. melléklet: Vállalati CRM, értékesítési terület funkcionális specifikáció IV/1. sz. melléklet: Vállalati CRM, értékesítési terület funkcionális specifikáció 1. A követelménylista céljáról Jelen követelménylista (mint a GOP 2.2.1 / KMOP 1.2.5 pályázati útmutató melléklete) meghatározza

Részletesebben

Vállalati modellek. Előadásvázlat. dr. Kovács László

Vállalati modellek. Előadásvázlat. dr. Kovács László Vállalati modellek Előadásvázlat dr. Kovács László Vállalati modell fogalom értelmezés Strukturált szervezet gazdasági tevékenység elvégzésére, nyereség optimalizálási céllal Jellemzői: gazdasági egység

Részletesebben

Adatbázisrendszerek. Karbantartási anomáliák, 1NF, 2NF, 3NF, BCNF, 4NF, 5NF március 13.

Adatbázisrendszerek. Karbantartási anomáliák, 1NF, 2NF, 3NF, BCNF, 4NF, 5NF március 13. Adatbázisrendszerek,,,,,, 4NF, 5NF 2018. március 13. Nem hivatalos tervezési relációs adatbázisokhoz 2, Mit jelent a relációs adatbázis-tervezés? Az csoportosítását, hogy jó relációsémákat alkossanak.

Részletesebben

ADATBÁZISKEZELÉS ADATBÁZIS

ADATBÁZISKEZELÉS ADATBÁZIS ADATBÁZISKEZELÉS 1 ADATBÁZIS Az adatbázis adott (meghatározott) témakörre vagy célra vonatkozó adatok gyűjteménye. - Pl. A megrendelések nyomon követése kereskedelemben. Könyvek nyilvántartása egy könyvtárban.

Részletesebben

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető 2012. október 4.

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető 2012. október 4. Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető 2012. október 4. Omnit Solutions 2007 óta a piacon BI & adattárház tanácsadás 20 fős csapat Oracle, IBM és Pentaho

Részletesebben

Statisztikai szoftverek esszé

Statisztikai szoftverek esszé Statisztikai szoftverek esszé Csillag Renáta 2011. Helyzetfelmérés Egy internetszolgáltató egy havi adatforgalmát vizsgáltam. A táblázatok az előfizetők letöltési forgalmát tartalmazzák, napi bontásban,

Részletesebben

8. előadás. Az ER modell. Jelölések, az ER séma leképezése relációs sémára. Adatbázisrendszerek előadás november 14.

8. előadás. Az ER modell. Jelölések, az ER séma leképezése relációs sémára. Adatbázisrendszerek előadás november 14. 8. előadás Jelölések, az Adatbázisrendszerek előadás 2016. november 14., és Debreceni Egyetem Informatikai Kar Az előadások Elmasry & Navathe: Database Systems alapján készültek. 8.1 Egyedtípusok Definíció

Részletesebben

T Adatbázisok-adatmodellezés

T Adatbázisok-adatmodellezés T Adatbázisok-adatmodellezés Adatbázis-kezelő feladatai: Az adatbázis hosszú ideig meglévő információk gyűjteménye, ezt az adatbázis-kezelő kezel. Lehetővé teszi az adatbázisok létrehozását( az adatdefiníciós

Részletesebben

Ismerkedjünk tovább a számítógéppel. Alaplap és a processzeor

Ismerkedjünk tovább a számítógéppel. Alaplap és a processzeor Ismerkedjünk tovább a számítógéppel Alaplap és a processzeor Neumann-elvű számítógépek főbb egységei A részek feladatai: Központi egység: Feladata a számítógép vezérlése, és a számítások elvégzése. Operatív

Részletesebben

ABR ( Adatbázisrendszerek) 2. Előadás : Műveletek a relációs modellben

ABR ( Adatbázisrendszerek) 2. Előadás : Műveletek a relációs modellben ABR ( Adatbázisrendszerek) 2. Előadás : Műveletek a relációs modellben 2.2 Műveletek a relációs modellben 2.2.1 Relációra vonatkozó megszorítások 2.2.2 Multihalmazon értelmezett műveletek 2.2.3 A relációs

Részletesebben