Adattárházak Fekete Zoltán BI&W termékmenedzser Oracle Hungary
Adattárházak Bevezetés Oracle infrastruktúra A betöltési oldal - ETL Jelentések OLAP Adatbányászat
Üzleti környezet A kihívások... Dereguláció Technológiai lehetoségek Globalizáció Piac ismeret Az üzletmenet megértése Verseny Rövid ideig fennálló versenyelonyök Ügyfél lojalitás változása
Adattárház Az üzlet a vállalat versenyképességének növeléséhez kéri az informatika hozzájárulását Több információt igényel az ügyfelekrol, piacokról és ugyanakkor a belso muködésrol is Integráltságot követel meg, egy alapvetoen funcionalitás és üzletágak szerint széttagolt informatikai környezetben
Rakjuk össze az adatokat Adat és tudás INTEGRÁCIÓ sok adat egy forrás mindenkinek Ido! Infrastruktúra BI alap
Adattárház elemzésre optimalizált, nem tranzakciókra Terület orientált témákra koncentrál Integrált sok forrás, konzisztens formátum Nem változékony ami bekerült, nem változik Idoben változó hosszú idon át gyujtött adatok
Adattárház, elemzésre optimalizált OLTP Komplex adatstr., 3NF Kevés Indexek Adattárház Többdimenziós adatstr. Sok Sok Join-ok Néhány Normalizált Duplikált adat Denormalizált Ritka Származtatott, aggregált adat Gyakori
OLTP Jól tervezheto Gyakori módosítás Normalizált Bevitel, kis keresések Hetek, hónapok Terhelés Adat módosítás Séma Muveletek Történeti adatok Adattárház Ad-hoc, rugalmas Betöltés ütem. Felh. nem mód. Nem / részben normalizált Nagy keresések Idosorok, trendek
Csillag séma
Az Oracle infrastruktúra
Új üzleti intelligencia irányvonal Oracle 9i az E-üzleti intelligencia alapja Operatív adat E-Business Intelligencia csomag Oracle9i Reports Discoverer Web adat Warehouse Builder ETL Infrastructure and OLAP Services and Data Mining 9i Application Server BI Beans Külso adat Portal CWM Metadata
Oracle9i az e-üzleti intelligencia platformja
Oracle9i Database egyetlen üzleti intelligencia adatszerver Relációs ETL OLAP Adatbányászat M e t a d a t a
Oracle9i Alkalmazás szerver Futtatja az összes üzleti intelligencia lakalmazást Portál M e t a d a t a Lekérdezés és Jelentéskészítés BI komponensek Webhely elemzés
ETL Extraction, Transformation, Load
Oracle Warehouse Builder Tervezés és alkalmazás automatizálás 2 A cél DW tervezése 3 Forrás és cél összekapcsolása 1 Forrás def. 4 5 Kód generálás Warehouse létrehozása Relational Files Legacy Applications Oracle9i 6 Adatkinyerés és transzformáció
Oracle Warehouse Builder 3i Kiterjesztett tervezési környezet Fejlesztett mappelés Többlépcsos Több cél tábla Kifejezés építo (Expression Builder) Transzformációs elemkészlet Komplex text források feldolgozása PL/SQL visszafejtés
ETL Infrastruktúra 9i egy eroteljes transzformációs motorrá válik Adat változás érzékelés Külso táblák Tábla függvények Multi-tábla insert Upsert Felfüggesztett parancsvégrehajtás Párhuzamos adat pipeline Oracle9i ETL Infrastruktúra
Külso táblák Külso adatok mint adatbázis táblák jelennek meg metaadat definiálás DDL utasításokkal adatbázisból közvetlenül elérheto SQL, PL/SQL, Java nyelveken nincs szükség ideiglenes tárolásra (staging) állományok párhuzamos feldolgozása szükségtelenné teszi az állományok felszabdalását Csak olvasásra alkalmasak, nem indexelhetok
Tábla függvények stage 1 stage 2 T 1 T 2 forrás Transzformáció köztes tárolókkal Helyette... cél T 1 T 2 T 1 T 2 forrás T 1 T 2 cél Adatcsövezett, párhuzamos transzformáció
Lekérdezési teljesítmény The best approach for every query integrált átfogó Materialized Views Parallel Operations Query Optimizer Partitioning Index & Join Methods
Mi a Particionálás Tulajdonságok Táblák és indexek kisebb, jobban menedzselheto részekre bonthatóak. Haszon Menedzselhetoség: oszd meg és uralkodj technika a nagy objektumok kezeléséhez Teljesítmény: : partíció kihagyás Elérhetoség: : partíció függetlenség Transzparens s az alkalmazásoknak Jan Application SQL Sales Feb Mar CREATE TABLE sales (sales_id NUMBER, time_idid DATE, customer_id NUMBER, product_id NUMBER, sales_amountamount NUMBER) PARTITION BY RANGE (time_id) (PARTITION jan00 VALUES LESS THAN '01-FEB-2000', PARTITION feb00 VALUES LESS THAN 01-MAR-2000', PARTITION mar00 VALUES LESS THAN '01-APR-2000');
Jelentések, adatelemzés
Az adattárház felhasználása Eltolódás a magasabb hozzáadott érték felé Stratégiai Üzleti intelligencia Elemzés Menedzselt Ad Hoc lekérdezés Kivételkeresés Reaktív Jelentéskészítés
Önkiszolgáló adatpublikálás Lekérdezett adatok átadása az Expressnek Lefúrás a Discovererbe Discoverer Lekérdezés definiciók átadása a Reportsnak Express Adatbányászat Jelentések készitése az Express adataiból Reports
Standard és ad-hoc jelentések Melyik a 10 legnyereségesebb vásárlónk 2001. szeptemberben? Melyek azok a területek, ahol a legmagasabb a terv-tény eltérés? Mi volt az értékesítés megoszlása csatornák szerint? Kik azok a szállítók, akik idoben szállítottak és nem merült fel minoségi probléma? Hogyan alakultak a mérési veszteségek az elmúlt évben és mi volt a megoszlásuk?...
Oracle 9i AS Üzleti Intelligencia Lekérdezés és jelentéskészítés Portál Jelentéskészítés és lekérdezés BI komponensek Web Lap elemzés Oracle9i AS Discoverer Egyszeruen használható lekérdezo és elemzo eszköz nagy teljesítmény igényekre Reports Hatékony vállalati jelentéskészíto megoldás internetes és hagyományos adatpublikálásra
Oracle9iAS Reports Alkalmazás szerver alapú jelentéskészítés Kiterjedt információ publikálás Browser Email Wireless A jelentések dinamikusan készülnek a szerveren Batch idozítés Kimeneti cache Futásideju tesreszabás (XML) Web Listener 9iAS Reports Engine Engine Engine Multi Tiered Server Engine
Discoverer Ad-hoc lekérdezés és elemzés az IAS-ban 9iAS Internetes kliensek: Discoverer Viewer: HTML kliens támogatás Szélesköru felhasználásra Discoverer Plus: Pure Java, Firewall támogatás Power User számára Admininisztrátor EUL metaadat elokészítés az IDS része Discoverer Plus Discoverer Viewer
On-line Analytical Processing OLAP
OLAP követelmények Hagyományos elemzo alkalmazások Komplex analitikus lekérdezések és tervezés Azonnali válaszok Nagy számú konkurens felhasználó On-line üzleti intelligencia követelmények Nagymértékben skálázható Nyílt elérés Menedzselhetoség
Többdimenziós adatbázis - Az adatelemzési és tervezési szempontok, azaz dimenziók: projektek,termékek, alapanyagok, szervezeti felépítés, kategória (fokönyvi sorok), ido - A dimenziók elemei hierarchiákba csoportosíthatók (pl. év-negyedév-hónap). - A dimenziókra adatkockák és üzleti modellek épülnek. - Származtatott értékek. Termék Szervezet - Riport, grafikon, munkalap. termelési terv Idoszak Termék
Multidimenziós tárolás A végfelhasználók saját logikai nézete Termék manager nézete Szervezet Telep 3 Telep 2 Telep 1 Termék Termék1 Termék2 Termék3 Termék4... Telephely igazgató nézete Q1 Q2 Q3 Q4 Idoszak ügyintézo nézete Pénzügyi igazgató nézete
Az adatok egyszeru lépésekkel választhatók ki Több hierarchia Lefúrási lehetoség Kiválasztás szint, tulajdonság, család alapján Kivételkeresés Legjobb n, legrosszabb n Egyezéses kiválasztás
Felhasználói infrastruktúra Biztonság Elérési jogok Adatelosztás Elore definiált jelentések Ad-hoc elemzések Web, adatbevitel is
Oracle Financial Analyzer
Oracle Financial Analyzer: szélesköru kontrolling funkciók Elemzés Döntési forgatókönyvek ( Mi lenne ha elemzés ) Idosoros elemzés, trend felállítás, mutatók Tervezés Null és bázis tervezés Fentrol le, lentrol fel tervezés Gördülo tervezés Terv változatok, összehasonlítás Ellenorzés Egyszeru terv-tény-elorejelzés összehasonlítás Kivétel keresés OFA-Fokönyv kapcsolat
Az OLAP alap: Express Server
Express Server Az Oracle Express a világ legskálázhatóbb és leggyorsabb OLAP szervere. Az Express APB-1 OLAP világcsúcsot meg sem közelítik más szállítók. Lekérdezés, számítás, aggregálás...
OLAP hátrányok ma Multidimenziós adatbázis Replikált adat Többlet adminisztráció Elérhetetlen az SQL kliensek számára Korlátozott skálázhatóság Relációs adatbázis Részbeni OLAP megoldás
OLAP Services Mi ez, és mit csinál? Elemzo függvényeket és kalkulációkat ad az adatbázishoz Multimenzionális moldell biztosít Túlmutat az SQL lehetoségein Fejlesztési platformot biztosít az elemzo alkalmazások számára Adat kezelést, API felületet és fejleszto eszközöket biztosít Nem csak egy back end adatbázis szolgáltatás
Analitikus alkalmazás platform Oracle Business Intelligence Beans Gyors alkalmazás fejlesztés Elemzésre kész Oracle9i OLAP Services Oracle9i Java OLAP API Predictive analysis functions Skálázható adattár Integrált meta adatok Summary management SQL elemzo függvények
Oracle9i OLAP Services Business Intelligence Beans OLAP Services Java OLAP API Metadata Provider SQL Generator Query Processor Multidimensional Engine Metadata Provider Metadata Data Data Metadata Oracle Relational Database Data Warehouse - Query and Reporting Analytic Workspace Forecasts Models Allocations Consolidations Scenarios Custom Functions
Adatbányászat
Mi az adatbányászat? Röviden, az adatbányászat rejtett minták és kapcsolatok feltárása az adattömegben, a jobb üzleti döntések elosegítésére -- Robert Small, Two Crows
Adatbányászati feladatok Az ügyfél viselkedés megértése Sok adat gyors vizsgálata Jobb modellek építése BI létrehozás CRM adatok elemzése Az ügyfél kapcsolatok javítása
Adatbányászattal integrált megoldások Az adatokban rejtett információ gyors felszínre hozása Az Oracle adatbányászat prediktív és klasztering komponensei a részletes adatokból adnak információt Teljessé teszi az adattárház megoldásokat Növeli az IT infrastruktúra értékét és csökkenti a megtérülés idejét
Egy példa - tanuljunk a múltból Az adattárházból: válogassuk le az összes (leíró és viselkedési) részlet adatot az elozo évben elvándorolt ügyfelekrol Használjunk adatbányászatot: milyen közös jellemzokkel rendelkeznek ezek az (volt) ügyfelek és súlyozzuk az egyes jellemzoket az elvándorlás szempontjából Használjunk kampány menedzsment eszközöket: válogassuk le jelenlegi ügyfeleink közül azokat, akik megfelelnek a felismert (elvándorló) tulajdonsághalmaznak - hiszen ok esélyesek az elvándorlásra - és indítsunk akciót ezen ügyfelek lojalitásának növelésére
Döntési fák Fák (gráf) az adatösszefüggéseket szemléltetik Statisztikai módszerek alapján épülnek fel Tipikus alkalmazások Vásárlók / válaszolók Hibázók / csalók / elvándorlók Jövedelem > 80,000 Ft/hó Nem Igen Akt. munkahely > 5 év Magas tartozás Igen Nem Igen Nem Alacsony k. Nagy k. Nagy k. Alacsony k. Hiteligénylési kockázat becslése
Neurális hálózatok Az idegrendszer biológiai komplexitását az idegsejtek kapcsolatait hivatott modellezni Fekete doboz, A modellek nehezen szemléltethetoek Lineáris és nem lineáris problémákat is képes modellezni Kezelni kell a túltanulást 1 W 13 W 23 W 14 3 W 36 W 15 4 W 46 6 2 W 24 W 25 5 W 56
Modell típusok Klasszifikációs és regressziós fák (C&RT) Klasszifikáció és predikció bináris, többosztályú és folytonos változókra Csökkenés függvények: gini és entropy Nyeso függvények: cost és gini Maximum csúcs szám és suruség függvények a fa méret szabályozáshoz Eloszlás és költség opciók Neurális hálózatok Egyszeru tanítás, tanítás és tesztelés, kereszt-validálás Tanítás és teszteléshez automatikus megállás Klasszifikáció és predikció bináris, többosztályú és folytonos változókra Aktivációs függvények: sigmoid, hypertangent és linear Tanítási algoritmusok: conjugate gradient, modified Newton, steepest descent, backpropagation és genetikus algoritmus neurális hálózatok optimizálásához Cost függvények: square, pnorm és information divergence k-legközelebbi szomszédok (Memória alapú dönt.) Tanítható k-legközelebbi szonszédok Klasszifikáció és predikció bináris, többosztályú és folytonos változókra Szomszédok száma és bias opciók? Klasztering k-közép módszer, centroidok Input mezokre felhasználó által definiált súlyok Interaktív grafikus elemzés Szabályok Induction Tree Tree + - - + + + + + + +? - - - - - - Neural Nets Net + - - + + +? + + + + - - - - - - k-nearest Neighbors Match - + - + + +? + + + - + - - - - - Clustering Cluster????????????????
OMO Data Mining eredmények - Lift ábra LIFT
Data Mining az Oracle9i Database-be ágyazva Több algoritmus Naïve Bayes (osztályozás) - supervised Association Rules (asszociáció) - unsupervised Fejlodés: C&RT, neurális hálózatok, SOM... Alapértelmezett és részletes paraméterezés Több féle predikció Adott esemény valószínusége A legvalószínubb esemény Data Mining
Predikció és klasszifikáció Korábban rejtett információk a hívóközpont kezelonek. Predikció és valószínuség.
Oracle9i Perszonalizáció Valós ideju ajánlási motor Valós ideju ajánlási motor, 1:1 marketing kapcsolatok eléréséhez az Interneten Cross-selling és up-selling Web lap tartalom testreszabás, pl. hirdetések Tradicionális adatbányászat + Valós ideju Session környezet
Oracle9i Personalization architektúra Javaslat kérés Web Application Recommendation Engine Farms Mobile Application Hello! We have Recommendations recommendations for you. Call Center Application Predictív modellek Campaign Management Historikus adatok
Ismét a rejtett összefüggések...... az elemzok szerepe
Integráció a BI Portál segítségével Vállalati jelentéskészítés Ad-Hoc Lekérdezés és elemzés Weblap elemzés Sokoldalú elemzés