IBM SPSS Modeler 18.2 Újdonságok 1
2
Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3
Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 4
MODERN, LETISZTULT USER INTERFACE 5
Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 6
VIEW DATA A stream bármely pontján megnyitható ábrakészítő felület Modern, látványosabb diagramok Interaktív ábrák Bővült az ábrák köre 7
VIEW DATA A View Data ablakon belül, a stream adott pontján megtekinthető több node eredménye (azok külön-külön futtatása nélkül): az adatok (Table node), a változók jellemzői, az adatminőség (Data Audit node), változók statisztikai mutatói (Statistics node), változók közötti korreláció (Statistics node). 8
VIEW DATA - SPREADSHEET A stream adott pontján SQL lekérdezés is írható 9
VIEW DATA Új ábratípusok Újabb funkciók meglévő ábratípusokhoz Interaktív ábrák Modern, igényes design 10
VIEW DATA MAP Interaktív, szebb térképes ábrázolás 11
VIEW DATA MAP Interaktív térképes ábrázolás 12
VIEW DATA TREEMAP WORD CLOUD 13
VIEW DATA POPULATION Korfa ábrázolása 14
VIEW DATA CANDLESTICK Árfolyamváltozás ábrázolása High High Close Open Open Close Low Low 15
E-PLOT Plot node fejlesztett, interaktív változata Modernebb design Megadhatók plusz változók, melyek szerint változtatható az interaktív ablakban az ábra 16
T-SNE t-distributed Stochastic Neighbor Embedding Magas dimenziószámú adatok ábrázolására szolgál Dimenziószám-csökkentő eljárás (2D vagy 3D) Nem a teljes, hanem a lokális struktúrákat figyeli Eredeti sokdimenziós tér Új, alacsony dimenziószámú tér Normális eloszlás t-eloszlás 17
T-SNE t-distributed Stochastic Neighbor Embedding Magas dimenziószámú adatok ábrázolására szolgál Dimenziószám-csökkentő eljárás (2D vagy 3D) Nem a teljes, hanem a lokális struktúrákat figyeli Eredeti sokdimenziós tér Új, alacsony dimenziószámú tér Normális eloszlás t-eloszlás 18
T-SNE - PÉLDA Kézzel írott számjegyek 8x8 pixeles képek (64 dimenzió) 19
Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 20
GMM GAUSSIAN MIXTURE NODE K-Meanshez hasonló, interációs klaszterező eljárás Valószínűségi modell Alapfeltevés: az adatpontok különböző, nem ismert paraméterű normális eloszlásokból (komponens) származnak Az adathalmazt különböző paraméterű normális eloszlások lineáris kombinációjával írja le Pyhon alapú node (sklearn.mixture library) Ovális alakú klasztereket hoz létre 21
GMM- PÉLDA Kézzel írott számjegyek 8x8 pixeles képek (64 dimenzió) 22
HDBSCAN HIERARCHIAL DENSITY-BASED SPATIAL CLUSTERING Sűrűségalapú klaszterező eljárás Klaszter sűrű területek, melyeket ritka területek választanak el DBSCAN algoritmus kiterjesztése hierarchikus klaszterező eljárássá Klaszterek alakja bármilyen lehet Zajpontokat is azonosítja 23
KLASZTEREZŐ ALGORITMUSOK ÖSSZEHASONLÍTÁSA 24
CIRCLES 25
MOONS 26
KDE KERNEL DENSITY ESTIMATION Sűrűségbecslés és szimuláció Úgy tekint minden tanítópontra, mintha egy kis saját sűrűségfüggvényt (kernelt) generálna. Az eredő sűrűségfüggvény becslése ezen kis sűrűségfüggvények összege. 27
ÚJABB BIG DATA ALGORITMUSOK AS által támogatott modellek köre bővült Spark nativ algoritmusok Nem csak Analytic Serverhez kapcsolódva futtathatók XGBoost-AS A 18.1-es verzióban bevezetett XGBoost-Tree és XGBoost-Linear node-ok Spark implementációja MultiLayerPerceptron-AS A Neural Net node MLP beállításának Spark implementációja. Isotonic-AS 28
ISOTONIC-AS Monoton lépcsős függvénnyel közelíti a pontok eloszlását Nem feltételez semmilyen kötött formát (pl.: linearitás) a leíró függvénynek Egyetlen megkötés monotonitás (növekvő v. csökkenő) Legkisebb négyzetek módszerével becsül 29
EGYÉB ÚJÍTÁSOK JSON fájl kezelése Json source és export node UTF-8 kódolású JSON fájl Nested JSON formátum nem támogatott Random Forest Python scikit-learn algoritmusa Random Tree node-hoz hasonló modell IBM Data Warehouse In-Database Miningban elérhető adatbázis 30
Kérdések? 31