Adatelemzés és adatbányászat MSc



Hasonló dokumentumok
DW 5. előadás MD adatmodell műveletei

SQL OLAP 2. óra. Multi-dimenzionális adatmodell. A normalizált relációs modell bonyolult a felhasználók számára

ADATBÁZISOK gyakorlat: SQL 2. rész SELECT

AB1 ZH mintafeladatok. 6. Minősítse az állításokat! I-igaz, H-hamis

BASH script programozás II. Vezérlési szerkezetek

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei

Adatbázis Rendszerek

ADATBÁZISOK ELMÉLETE 5. ELŐADÁS 3/22. Az F formula: ahol A, B attribútumok, c érték (konstans), θ {<, >, =,,, } Példa:

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Adatbázis rendszerek 7. Matematikai rendszer amely foglal magában:

8. Gyakorlat SQL. DDL (Data Definition Language) adatdefiníciós nyelv utasításai:

Lekérdezések az SQL-ben 1.rész

Lekérdezések az SQL-ben 1.rész

Adatbázis-kezelés. 3. Ea: Viszonyított betűszámtan (2013) Relációs algebra alapok (átgondolt verzió) v: Szűcs Miklós - ME, ÁIT. 1.

7. Gyakorlat A relációs adatmodell műveleti része

5. téma XML DB. Az adatkezelés és XML kapcsolata. Miért fontos az XML használata az adatbázis kezelésben?

INFORMATIKA ÁGAZATI ALKALMAZÁSAI. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

Adatbázisok I. Az SQL nyelv

ADATBÁZIS-KEZELÉS FÉLÉVES FELADAT

Adatbázis-lekérdezés. Az SQL nyelv. Makány György

S z á m í t ó g é p e s a l a p i s m e r e t e k

SQL haladó. Külső összekapcsolások, Csoportosítás/Összesítés, Beszúrás/Törlés/Módosítás, Táblák létrehozása/kulcs megszorítások

Adatbázismodellek. 1. ábra Hierarchikus modell

Adatbázisok-1 előadás Előadó: dr. Hajas Csilla

Relációs algebra áttekintés és egy táblára vonatkozó lekérdezések

LOGISZTIKAI ADATBÁZIS RENDSZEREK UNIÓ, ALLEKÉRDEZÉSEK

Adatbázis Rendszerek II. 5. PLSQL Csomagok 16/1B IT MAN

Bevezetés: az SQL-be

5.előadás: Adatbázisok-I. dr. Hajas Csilla (ELTE IK)

Lekérdezések az SQL-ben 2.rész

Adatbázisok I. Definíció: DDL: - objektum létrehozás CREATE - objektum megszüntetés DROP - objektum módosítás ALTER

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető október 4.

B I T M A N B I v: T M A N

Komputeralgebra Rendszerek

SQL*Plus. Felhasználók: SYS: rendszergazda SCOTT: demonstrációs adatbázis, táblái: EMP (dolgozó), DEPT (osztály) "közönséges" felhasználók

Tartalomjegyzék. Tartalomjegyzék 1. Az SQL nyelv 1 Az SQL DDL alapjai 2

Relációs algebra 1.rész alapok

Adatbázis-kezelés. alapfogalmak

Adatbázis-kezelés az Excel 2013-ban

LOGISZTIKAI ADATBÁZIS RENDSZEREK JOIN, AGGREGÁCIÓ

SEGÉDLET ADATKEZELÉS MS EXCEL-BEN. Tároljuk az adatokat Excel munkalapon. Megjegyzés: A feladatokat MS Office Excel ban oldottuk meg.

A RELÁCIÓS ADATMODELL MŰVELETI RÉSZE (RELÁCIÓS ALGEBRA ÉS KALKULUS)


Adatbázis Rendszerek II. 2. Ea: Gyakorló környezet

A sorozat. A feladatlapon szereplő kérdések megválaszolásával és feladatok megoldásával maximum 100 pont érhető el.

Számítógéppel segített folyamatmodellezés p. 1/20

Informatikai alapismeretek Földtudományi BSC számára

Adatbázis Rendszerek II. 2. Gyakorló környezet

Adattípusok. Max. 2GByte

Adatbázisok. 9. gyakorlat SQL: SELECT október október 26. Adatbázisok 1 / 14

A PROGRAMOZÁS ALAPJAI 3. Készítette: Vénné Meskó Katalin

Adattípusok. Max. 2GByte

Adatbázis rendszerek 2. előadás. Relációs algebra

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

5. Gyakorlat. 5.1 Hálós adatbázis modell műveleti része. NDQL, hálós lekérdező nyelv:

Adatbázis-kezelés Access XP-vel. Tanmenet

SQL. Táblák összekapcsolása lekérdezéskor Aliasok Allekérdezések Nézettáblák

Adatmodellezés. 1. Fogalmi modell

Adatbázis, adatbázis-kezelő

Java és web programozás

SQL jogosultság-kezelés. Privilégiumok Grant és Revoke Grant Diagrammok

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

Programozás alapjai gyakorlat. 4. gyakorlat Konstansok, tömbök, stringek

Adatbázisok* tulajdonságai

Térbeli és időbeli elemzések multidimenzionális szemléletben

Dr. Pál László, Sapientia EMTE, Csíkszereda WEB PROGRAMOZÁS 4.ELŐADÁS. Adatbázis alapú alkalmazások készítése PHP-ben

Adatbázisok. 8. gyakorlat. SQL: CREATE TABLE, aktualizálás (INSERT, UPDATE, DELETE), SELECT október október 26. Adatbázisok 1 / 17

ABR ( Adatbázisrendszerek) 2. Előadás : Műveletek a relációs modellben

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk?

Cellák. Sorok számozás Oszlop betű Cellák jelölése C5

Lekérdezések I. Egyszerű választó lekérdezések

A relációs adatmodell

LOGISZTIKAI ADATBÁZIS RENDSZEREK EXCEL ALAPOK

Bevezetés az SQL-be. Tankönyv: Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009

WHERE záradék (további lehetıségek) SQL specialitások, nem írhatók át relációs algebrába: LIKE. NULL értékek. Az ismeretlen (unknown) igazságérték

Mveletek a relációs modellben. A felhasználónak szinte állandó jelleggel szüksége van az adatbázisban eltárolt adatok egy részére.

Adatbázis-kezelés. Harmadik előadás

Access gyakorlati feladatok lépésről lépésre

Analitikus adatfeldolgozás. Adattárház Adatkocka Adatbányászat

Gyakorlás: Hozzunk létre egy Alkalmazottak táblát AZO szám, Részleg szöveg, Munkakör szöveg és BelépésDátuma dátum típussal.

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

Programozás. Adatbázis-kezelés (alapok) Fodor Attila

1. Alapok. #!/bin/bash

Tankönyv példák kidolgozása

SQL ALAPOK. Bevezetés A MYSQL szintaxisa Táblák, adatok kezelésének alapjai

Programozási nyelvek JAVA EA+GY 1. gyakolat

Operációs Rendszerek II. labor. 2. alkalom

Operációs rendszerek. 11. gyakorlat. AWK - szintaxis, vezérlési szerkezetek UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

modell, amiben csak bináris sok-egy kapcsolatok (link, memberowner,

Java és web programozás

SQL PÉLDATÁR. készült a PTE TTK Iskolai informatika III. kurzus teljesítésére

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Tájékoztató. Használható segédeszköz: -

Adatbázisrendszerek április 17.

Imperatív programozás

Webprogramozás szakkör

Adatbázis alapú rendszerek

Adatbázis rendszerek. dr. Siki Zoltán

Programozási technikák Pál László. Sapientia EMTE, Csíkszereda, 2009/2010

Átírás:

Adatelemzés és adatbányászat MSc 4. téma Multi-dimenzionális adatmodell műveleti MD műveletek Felhasználói igény: - ad-hoc lekérdezések a kocka különböző szeleteire - táblázatos megjelentés (többdimenziós eredmény) - áttekinthető megjelenítés termelés alakulása a keleti régióra vonatkozóan az elmúlt három hónapra vonatkoztatva.. termékek Auto tipusok adatai 700 600 dátumok 500 400 300 200 fiat opel skoda 100 0 darab atlag ar 1

MD műveletek Nincs egységes modell gyakorlatban elterjedt műveletek: - szűrés - aggregálás - szintváltás - összekapcsolás - kibontás telep termek dátum mintaként a relációs algebra jöhet szóba adatkockán értelmezett, adatkockát előállító operátorok MD műveletek Szelekcio (slice and dice) - változó szelekció σ f(v) A feltételnek eleget tévő cellák maradnak meg, a többi cella NULL értékű lesz - attributum szelekció σ f(d.a) A feltételnek eleget tévő dimenzió értékek maradnak meg, a többi kikerül a kockából σ selejtdb > osszdb*0.2 (ertekesites) σ selejtdb > osszdb*0.2 (ertekesites) 2

MD műveletek Projekció (slice and dice) - változó projekció π v A kijelölt változók maradnak meg a cellában - attributum projekció π D.a A kijelölt attributumok maradnak meg a dimenziónál π selejtdb (ertekesites) π selejtdb (σ selejtdb > osszdb*0.2 (ertekesites)) MD műveletek Dimenzió összevon sszevonás (roll up) - attributum szintű ν D1.D2 A megadott dimenzióból a megadott dimenzióba való áttérés a dimenzió hierarchia mentén aggregáltabb adatokra való áttérés megváltozik a szint a megadott dimenziónál durvább felbontást kapunk ν termek.kategoria (ertekesites) 3

MD műveletek Dimenzió kibontás (drill down) - attributum szintű κ D A megadott attributum részletező dimenziójára val áttérés a dimenzió hierarchia mentén részletezőbb adatokra való áttérés megváltozik a szint az aktuális dimenziónál finomabb felbontást kapunk κ varos (ertekesites) MD műveletek Aggregáci ció (fold) - dimenzió szintű φ D, aggr A megadott dimenziók maradnak meg, az összevont cellák tartalmából az aggr aggregáció alapján képződik az eredő cella összesítőbb adatokra való áttérés szűkül a dimenzió készlet, csökken a dimenziószám durvább felbontást kapunk φ termek, termelte, sum() (ertekesites) 4

MD műveletek Kiterítés (unfold) - dimenzió szintű δ D Behozza a kockába a megadott dimenziót (ha lehet) részletezőbb adatokra való áttérés bővül a dimenzió készlet, növekszik a dimenziószám finomabb felbontást kapunk δ termek (ertekesites) MD műveletek Szorzás (natural join) - adatkocka szintű F 1 F 2 A megadott adatkockákból olyan eredő adatkocka készítése, melyre - dimenzióhalmaza a F 1 és F 2 dimenzió halmazának uniója - váltózólistája a két lista összevonása, párosa - változó értékei a megfelelő koordinátájú értékek párosa ertekesites rendeles 5

MD műveletek F 1 F 2 d24 2 d26 a d23 1 2 d24 a D2 d22 3 D2 d23 b d21 5 d21 c d11 d12 d31 d32 D1 F 1 F 2 D3 (d11, d23,d31) = (1,null) (d11, d24,d31) = (2,a) (d11, d26,d31) = (null,null) MD műveletek Dimenzió összevon sszevonás (cojoin) χ d1,d2( Két dimenzióból egyet állit elő, melyben minden értékpáros előfordul A dimenziószám eggyel változik, A cellák száma változatlan D1 (a,b,c) D2 (1, 2) => D12(a1,a2,b1,b2,c1,c2) Ilyen lesz az MDX-ben is és a PE cojoint dimension is ilyen 6

MD műveletek Mintapéldák - Az x-nél olcsóbb termékekre vonatkozó adatok σ TERMEK.ear > x (ERTEKESITES) - Az x-nél rosszabb selejtarányú eladásra vonatkozó adatok: σ selejtdb/osszdb > x (ERTEKESITES) - Adatkocka a selejtarányok nélkül π osszdb (ERTEKESITES) - Az x-nél nagyobb eladások ahol a terméknek csak a neve szerepel π TERMEK.nev (σ osszdb > x (ERTEKESITES)) Mintapéldák MD műveletek - Értékesítési adatok város szerinti bontásban ν TELEPHELY.varos (ERTEKESITES) -Az x-nél rosszabb selejtarányú eladásra vonatkozó adatok megye bontásban: ν VAROS.megye (ν TELEPHELY.varos (σ selejtdb/osszdb > x (ERTEKESITES))) - Áttérés hónap bontásról napi bontásra κ HO (C) ahol C = ν DATUM.ho (ERTEKESITES) - Értékesítési adatok termék és idő dimenzióban φ TERMEK, DATUM, Sum (ERTEKESITES) 7

MD műveletek Mintapéldák - Az x-nél rosszabb selejtarányú eladásra vonatkozó adatok megye és hónap bontásban: φ MEGYE, HONAP, Sum (ν DATUM.ho (ν VAROS.megye (ν TELEPHELY.varos (σ selejtdb/osszdb > x (ERTEKESITES)))) - Az értékesítési adatok összevonása egy KOLTSEG (ertek, TELEPHELY,HO) adatkockával: φ TELEPHELY, HONAP, Sum (ν DATUM.ho (ERTEKESITES)) KOLTSEG - Havi költségadatok megjelenítése dollárban φ TELEPHELY, Sum (α ertek/ 225 dollar (KOLTSEG)) MD műveletek Kezelő felületek típusai: - grafikus (menü vezérelt, drag and drop) - parancsorientált -- parancssori --- Oracle (PE) --- MDX -- OOP API --- MDO REPORT TOTAL (FORGALOM HONAP) SELECT {HONAP.HONAP} ON (0) FROM FORGALOM 8

PE : dimenzió hierarchia kezelése PE Relációk A reláció a dimenzió két kapcsolódó szintjét köti össze, 1:N kapcsolatot jelöl A dimenzió hierarchia felépítését teszi lehetővé reláció létrehozás DEFINE név RELATION dim1 <dim2> (1:N kapcsolat dim2:dim2 között) reláció megszüntetés DELETE név reláció felvitel TABLE EDIT név. MAINTAIN név DEFINE bolt DIMENSION TEXT DEFINE regio DIMENSION TEXT DEFINE boltreg RELATION regio <bolt> TABLE EDIT boltreg PE kapcsolt dimenziók Hatékonysági elem Riktán kitöltött kockáknál több dimenzió tengelyt egyetlen tengelybe vonunk össze. A kapcsolt dimenzió egy értéke a kapcsolt dimenziók értékeinek párosát jelöli kapcsolt dimenziók létrehozása (co-joint) DEFINE név DIMENSION <dim1 dim2,..> dimenzió megszüntetés DELETE név kapcsolat felvitel TABLE EDIT név. MAINTAIN név dimenzió értékek, értéklista rendezése SORT dim A D rendezési elv 9

Egyéb adatbázis elemek Formula: számított kifejezés Változóként használható, dimenzió köthető hozzá Formula létrehozása DEFINE név FORMULA kifejezés DEFINE név FORMULA tipus <dim > formula megszüntetés DELETE név DEFINE forgalom VARIABLE integer <ev termek> DEFINE koltseg VARIABLE integer <ev termek> DEFINE nyereseg FORMULA forgalom - koltseg PE modell eleme Modell: összetartozó formulák együttese megadott paraméterhalmazon kiértékelhetők Elemei: - független változók - függő változók (formulák) - tároló kocka - formulákat leíró program Működése - egy külön dimenzió tárolja a formulákat - a független változók saját dimenziót kapnak - a vizsgálandó paraméter értékeket ide vihetjük fel - a modellprogram futtatása kitölti a kockát a modellnek megfelelően 10

Modell működése Modell program létrehozás DEFINE név MODEL MODEL END DEFINE sor DIMENSION text MAINTAIN sor ADD ossz1, ossz2, ossz3 DEFINE v1 VARIABLE integer <aru sor> TABLE EDIT v1 DEFINE m1 MODEL EDIT m1 DIMENSION sor ossz2 = ossz1 + 100 ossz3 = ossz1 *2 m1 v1 TABLE v1 PE Információ lekérdezés Táblázatos lekérdezés TABLE kifejezés Grafikon lekérdezés GRAPH mód kifejezés (LINE, PIE, BAR, ) Jelentés REPORT mód kifejezés REPORT [NOHEAD] [GRANDTOTALS] [[SUBTOTALS] GROUP dimension] [DOWN dimension] - [ACROSS dimension] expression(s) 11

Szelekció, slice and dice megadása PE Információ lekérdezés LIMIT dimenzió TO valuelist értékhalmaz ADD reldim reldim-vals KEEP az adatkezelő, adatlekérdező műveletek előtt kell a szűkítés LIMIT parancsát kiadni A szűkítés a visszavonásig érvényes Visszavonás parancsa: LIMIT x TO ALL Szelekció, slice and dice megadása PE Információ lekérdezés a kapcsolt dimenziókon keresztül is lehet szűkíteni LIMIT X KEEP Y Hierarchia mentén történő szűkítés: 1. Szűkítés a szülőnél: LIMIT y TO lista 2. Szűkítés a gyereknél: LIMIT x KEEP y LIMIT regio TO KELET LIMIT regio TO ALL LIMIT bolt TO KEEP REGIO LIMIT termek TO TOTAL (forgalom termek) GT 100000 12

PE Információ lekérdezés Fold és roll up/ drill down műveletek megadása Az aggregációs függvények szolgálnak ezen funkciókra Fnev (alapkocka dim1 dim2 ) dim: az eredménykocka dimenziót jelöli, tetszőleges szinten állhat Aggregációs függvények TOTAL (kifejezés dim1 dim2..) COUNT(logikai kif. dim1 dim2 ) ANY (logikai kif. dim1 dim2 ) ALL (logikai kif. dim1 dim2 ) AVERAGE (kifejezés dim1 dim2 ) STDDEV (kifejezés dim1 dim2 ) SMALLEST (kifejezés dim1 dim2 ) LARGEST (kifejezés dim1 dim2 ) Minta lekérdezések PE Információ lekérdezés Teljes összforgalom: REPORT TOTAL (forgalom) Havonkénti forgalom: REPORT TOTAL (forgalom honap) Kategoriánkénti és havonkénti forgalom: REPORT TOTAL (forgalom kategoria honap) Januari termékenkénti forgalom: LIMIT honap TO jan REPORT TOTAL (forgalom termek) LIMIT honap TO ALL Januari termékenkénti forgalom az italokból: LIMIT honap TO jan LIMIT kategoria TO ital LIMIT termek KEEP kategoria REPORT TOTAL (forgalom termek) 13

Personal Express programozása Saját rutinok, függvények készíthetők megjegyzés VARIABLE változó típus ARGUMENT nev tipus SHOW üzenet WINDOW V = kifejezés RETURN DEFINE nev PROGRAM vtípus EDIT nev nev Első mintaprogram : Üdvözlő szöveg kiíratása DEFINE p1 PROGRAM EDIT p1 SHOW HELLO VILAG! WINDOW p1 Personal Express programozása Adatértéke beolvasása, Vezérlési szerkezetek V = GET (típus módosítók) PROMPT szöveg DEFAULT érték CHOOSE lista VERIFY kifejezés (VALUE) MANY IF kifejezés WHILE kifejezés THEN DO DO... DOEND DOEND SWITH kifejezés DO CASE v1 BREAK DEAFULT DOEND FOR dimenzió DO DOEND 14

Personal Express programozása Negyedik mintaprogram : új dimenzió érték felvitele VARIABLE uj TEXT uj = GET(TEXT PROMPT regio: ) IF ISVALUE(region, uj) THEN DO SHOW Mar letezik WINDOW RETURN DOEND MAINTAIN region ADD uj SHOW JOINCHARS( db=, CONVERT(STATLEN(region),TEXT)) WINDOW Feladatok 1. Adja meg a következő műveletek MD algebrai alakját az alábbi séma mellett. - a B1 bolt adatai - a T1 termék adatai a B2 boltnál - a T2 termék adatai a H1 hónapban - a K1 kategóriájú termékek adatai a H2 hónapban - az összforgalom a tárolt adatoknál - a B2 bolt összforgalma - a boltok összforgalma a T1 termékből - a boltok havonkénti összforgalma - a boltok havonkénti összforgalma a T3 terméknél termék kategória forgalom bolt dátum hónap munkahét 15

Feladatok 2. Készítse el a 1. feladatban megadott sémához a PE megvalósítást. 3. Készítsen el olyan PE programot, amellyel feltölthetők a kocka és dimenziók adatai 4. Adja meg az alábbi lekérdezések PE alakját, az előző sémára vonatkozólag: - a B1 bolt adatai - a T1 termék adatai a B2 boltnál - a T2 termék adatai a H1 hónapban - a K1 kategóriájú termékek adatai a H2 hónapban - az összforgalom a tárolt adatoknál - a B2 bolt összforgalma - a boltok összforgalma a T1 termékből - a boltok havonkénti összforgalma - a boltok havonkénti összforgalma a T3 terméknél Feladatok 5. Készítse el egy könyvesbolthálózat séma modelljét és a PE adatbázisát. A rendszernek a következő információkra kell kiterjednie: - könyvek és kiadott példányok - könyvek eladott példányai - könyvek kiadási éve - könyvek témaköre - kiadók és országaik - boltok és régióik 6. Adja meg az alábbi lekérdezések PE alakját, az előző sémára vonatkozólag: - a témakörök forgalma a X évben - v 16