Longneck Data Integration



Hasonló dokumentumok
Big Data: a több adatnál is több

Data Integrátorok a gyakorlatban Oracle DI vs. Pentaho DI Fekszi Csaba Ügyvezető Vinnai Péter Adattárház fejlesztő február 20.

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető október 4.

Big Data adattárházas szemmel. Arató Bence ügyvezető, BI Consulting

Weblog elemzés Hadoopon 1/39

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

MMK-Informatikai projekt ellenőr képzés 4

Web harvesztelés. Automatikus módszerekkel

A webanalitika változó világa 4 felvonásban

Entity Resolution azonosságfeloldás

Szemléletmód váltás a banki BI projekteken

Adatbányászat és Perszonalizáció architektúra

BEVEZETÉS AZ ADATTÁRHÁZ AUTOMATIZÁLÁSBA

BME-Ipar. Win-Win. Intelligens környezetek és e-technológiák. Dr. Charaf Hassan Fókuszban a Műegyetem és az ipar kapcsolata

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Döbrönte Zoltán. Data Vault alapú adattárház - Fél óra alatt. DMS Consulting Kft.

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

Takács Gábor mérnök informatikus, okl. mérnöktanár

Big Data az adattárházban

Adatbázis, adatbázis-kezelő

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Szoftver-mérés. Szoftver metrikák. Szoftver mérés

Component Soft és tovább

API tervezése mobil környezetbe. gyakorlat

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

Csalásfelderítés és előrejelzési megoldás május 20.

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

Adattárház tiszta alapokon Oracle Day, Budapest, november 8.

Megfelelés, újragondolás a Data Governance égiszében. Mit látunk a RaDAR-on?

Adattárház és BigData Szimbiózisa. Baranyi Szabolcs IM Technical Sales

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

ETL keretrendszer tervezése és implementálása. Gollnhofer Gábor Meta4Consulting Europe Kft.

8. Gyakorlat SQL. DDL (Data Definition Language) adatdefiníciós nyelv utasításai:

MVC. Model View Controller

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

VvAaLlÓóSs IiıDdEeJjȷŰű OoDdSs goldengate alapokon a magyar telekomban

Ügyfél- és címadatok feldolgozása Talenddel

Új komponens a Talend Palettán: Starschema SAP Connector. Csillag Péter, Földi Tamás Starschema Kft.

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

A USER Kft - mint Open Text partner - bemutatása

Oracle adatkezelési megoldások helye az EA világában. Előadó: Tar Zoltán

HATÉKONY ETL FOLYAMATOK WORKSHOP

Cloud Akkreditációs Szolgáltatás indítása CLAKK projekt. Kozlovszky Miklós, Németh Zsolt, Lovas Róbert 9. LPDS MTA SZTAKI Tudományos nap

Virtuális Obszervatórium. Gombos Gergő

Hadoop és használata az LPDS cloud-on

IKT megoldások az ipar szolgálatában

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

LOGISZTIKAI ADATBÁZIS RENDSZEREK JOIN, AGGREGÁCIÓ

Több mint BI (Adatból üzleti információ)

KKV Adattárház. Presented to: Adattárház Fórum 2014 Date: Június 5, Presented by: Csippán János IT Director

Szolgáltatás mérés/riportolás magas fokon Egy valós megoldás Pepsi berkekben

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

JAVA webes alkalmazások

NAGY TELJESÍTM. Szerzők Dévai. István Automatizálási. és s Alkalmazott Informatikai Tanszék


SAS szoftverek felhasználási lehetőségei a felsőoktatásban

Adatbázisok* tulajdonságai

Végpont védelem könnyen és praktikusan

Pilot projekt az NFGM-ben: nyílt forráskódú kollaborációs dokumentumportál és üzleti dashboard projektek tapasztalatai

Adatbázis-lekérdezés. Az SQL nyelv. Makány György

Soltész Gábor. Önéletrajz Budapest, Lechner Ödön fasor em 26. a.

Papp Attila. BI - mindenkinek

Excel vagy Given-When-Then? Vagy mindkettő?

Dokumentum kompozíció

Adatbázis-kezelés. Harmadik előadás

Verziókezelt konfigurációmanagement++ Pásztor György, SZTE Klebelsberg Könyvtár

Adatbázisok I A relációs algebra

Üzleti folyamatok rugalmasabb IT támogatása. Nick Gábor András szeptember 10.

Adatbázis Rendszerek I. 10. SQL alapok (DML esettanulmány)

VÁLLALATI MOBILITÁS MOBIL ESZKÖZ FELÜGYELETTEL ÉS BIZTONSÁGOS WIFI-VEL

Szoftverminőségbiztosítás

Intervenciós röntgen berendezés teljesítményszabályozójának automatizált tesztelése

Valimed API. REST API a magyarországi orvos pecsétszámok validálására

Internet of Things az új mobil forradalom

Teljeskörű BI megoldás a gyakorlatban IBM eszközök használatával, Magyarországon

Táblakezelés: Open SQL Internal table. Tarcsi Ádám: Az SAP programozása 1.

Automatikus tesztgenerálás modell ellenőrző segítségével

A fejlesztéshez használható eszközök

Közösség, projektek, IDE

GDi Esri Magyarország Felhasználói Konferencia Timár Gábor: Konkurens adatfeldolgozás ArcGIS rendszerben

Újdonságok. Jancsich Ernő Ferenc

ELMÉLET ÉS GYAKORLAT

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

SCHNETv6 IPv6 a Schönherzben. 5/7/12 Tóth Ferenc - IPv6 a Schönherzben 1

SQL Server High Availability

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

AZ APACHE MAVEN ÉLETE ÉS HALÁLA.! Cservenák Tamás

Amit mindig is tudni akartál a Real Application Testing-ről. Földi Tamás Starschema Kft.

Webapp (in)security. Gyakori hibákról és azok kivédéséről fejlesztőknek és üzemeltetőknek egyaránt. Veres-Szentkirályi András

NIIF Központi Elosztott Szolgáltatói Platform

ADATTÁRHÁZ MENEDZSMENT ÉS METAADAT KEZELÉS

Marton József BME-TMIT. Adatbázisok VITMAB november 11.

Adatbázis rendszerek 7. előadás State of the art

Szálkezelés. Melyik az a hívás, amelynek megtörténtekor már biztosak lehetünk a deadlock kialakulásában?

Fogalomtár bevezetése a Magyar Telekomnál

Eseményvezérelt alkalmazások fejlesztése II 12. előadás. Objektumrelációs adatkezelés (ADO.NET) Giachetta Roberto

1. Gyakorlat: Telepítés: Windows Server 2008 R2 Enterprise, Core, Windows 7

Code review és continous integration toolok BME-MIT

Átírás:

Longneck Data Integration open source data quality eszköz MTA SZTAKI Üzleti Intelligencia és Adattárházak Csoport Big Data Üzleti Intelligencia Csoport Sidló Csaba sidlo@sztaki.mta.hu http://longneck.sztaki.hu http://dms.sztaki.hu http://bigdatabi.sztaki.hu 2013. november 6.

MTA SZTAKI Informatika Kutatólabor teljes innovációs lánc, kutatástól alkalmazásokig o adatbányászat, gépi tanulás, keresőtechnológiák, üzleti intelligencia, adattárházak, szociális hálózatok, bioinformatika o Big Data : Web, közösségi média elemzés és keresés smart city, mobilitás szenzoradatok (pl. szélerőmű), log-adatok dedikált csoportok: Lendület Big Data, Big Data Üzleti Intelligencia (partner: SZTAKI EMI)

Longneck történet eredeti feladatok: o adattárház: ügyféladatok o Web szerver + általános IT infrastruktúra log analitika o szenzor-adat feldolgozás megoldások: o egyedi scriptek 2005 o Giraffe ETL 2009 folyamathoz generált kód open source: 2010 o új általános ETL eszköz o Longneck: Java data quality tool open source: 2013 Lukács Gábor Molnár Peti Molnár András Neumark Peti Németh Tibi http://longneck.sztaki.hu https://github.com/mta-sztaki/longneck-*

Yet Another ETL Tool? Saját eszköz? o sok projektünkhöz kellett o most: a Longneck-et választanám o régen (jobbak persze ma már): Longneck nem volt, viszont Pentaho Kettle: o lassú (teszt: file egy az egyben másolása) kommerciális eszközök (pl. IBM Quality Stage, SAP, SAS, ) o drága, nem elég rugalmas / nem elérhető egymagában nem lehetett jó minőségben transzformációkat implementálni! Nyílt forráskódú, ingyen? o keretrendszer vs. szabálykészlet értéke a valódi érték a leírt iparági, üzleti tudásban van! o kívülről is fejlődhet Don t build your own ETL framework STAY AWAY from scripting languages If any of the existing ETL frameworks are not powerful enough, build your own! BI that avoids ETL processes entirely ETL is a methodology, not a tool

ETL / Data Integration / Quality Tool / heterogén, átfedő definíciók, nehezen általánosítható feladatok Gartner Data Quality Tools Magic Quadrant jobb felső: o Informatica, SAS / DataFlux, Trillium Software, SAP, IBM o Open Source eszközök? pl: Talend érdemes reklamálni, bekerültek riportokba kapcsolódó eszközeink: azonosságfeloldás (entity resolution, matching) ETL, job management riportozás, analitika, vizualizáció

Adatminőség javítás: a feladat Data Quality Tool (Gartner): o Parsing and standardization o Generalized cleansing o Matching o Profiling o Monitoring o Enrichment elvárások adatminőség javító megoldással szemben: o gyors! o pontos! o stabil, robusztus! o könnyen fejleszthető! o újrafelhasználható! o nincs@freemail.hu üres maik@szarvnet.huhu maik@szarvnet.hu maik szarvnet hu Hungary wwwcsomosmp@hu pl.: email cím hibajelzés: invalid e-mail address(es). cokos@indamail.hu ; cokos@freemail.hu két valid email címre bontás o olcsó, rövid projektek! o sok adatot képes kezelni! o olcsó, megbízható support! o könnyű módosítani! o jól kezeli a hibákat! o

Data vs. software quality Pilot erejéig mind nagyon szépen működik transzformáció-leírások vs. keretrendszer minősége: mindkettő feltétele a jó adatminőség előállításának jó minőségű megoldás (mint software mérnök): o megbízhatóság, biztonság, adatbiztonság, o mérhetőség, nyomonkövethetőség, o karbantarthatóság, adaptálhatóság, modularitás, hordozhatóság o dokumentáltság, könnyen elérhető tudás (szakértők ára), o tesztelhetőség (deploy után nem másnap látom a hibát) o hatékonyság, skálázhatóság, gyorsaság, o Tudják ezeket a meglévő eszközök? Mennyiért?

Egyszerűség kimenet, bemenet: adatbázis tábla, CSV, logfile-ok, rekord: elnevezett mezők halmaza rekordok egymástól független feldolgozása o adatfolyam szemlélet típustalan, minden érték String o pl: Java JDBC, DB program DB: 8-10 típusváltás entitások: elvárások különválasztása, leírása o ismert szabványok alapján blokkok: transzformációs szabályok o egymásba ágyazható, moduláris, specializálható, verziózható terv: XML, JSON, félig strukturált adatok jobb támogatása (bővítmény)

Repository pl.: zárt formátumú repository horror sztorik Longneck: XML <process xmlns="urn:hu.sztaki.ilab.longneck:1.0"> <source> <weblog-file-source name="cli" /> </source> <target> <csv-target target="out.csv"/> </target> <blocks> <block-ref id="weblogparser:parse"/> <if> <is-null apply-to="virtualserver"/> <then> <copy apply-to="virtualserver" from="requesturlhost"/> </then> </if> <check summary="virtualserver must not be null."> <not-null apply-to="virtualserver"/> </check> </blocks> </process> verziókövetés: saját + GIT kollaboratív munka támogatás újrahasznosítás, modularitás: o egymásba ágyazható o specializáció o bővíthető téma-orientált nyílt szabványok, coding convensions

Repository 2. kicsit bőbeszédű; talán jobb lenne, így utólag, ma már: domain specific language, pl. Groovy-val process { source { weblog-file-source "cli" } target { csv-target "out.csv" } blocks { block-ref "weblogparser:parse if (is-null virtualserver") { copy from: "requesturlhost" to: "virtualserver" } check summary: "virtualserver must not be null." { not-null "virtualserver" } } } implementáljuk ezt az alternatívát is a Longneck könnyen bővíthető! pl: o lookup dictionary o DNS resolver o GeoIP o BDB perzisztencia o log-parser o webes látogató azonosítás o GeoLocation o

Műveletek join, rendezés, group by: SQL adatbázis, Hadoop stb. o ezekben jók! <source> <database-source connection-name="client-db" /> <query> select * from p1_client c1 join p2_client c2 on (c1.id=c2.id) </query> </database-source> </source> o fölösleges még egy réteget ráhúzni, SQL pl. szép, deklaratív, jól működik kontroll struktúrák: szekvencia, beágyazás, if-then, case, regexp és string alapú felbontások, cserék, tesztek, szótár alapú behelyettesítések, ellenőrzések, Meglévő transzformáció-készletek név, cégnév, adószám, TB szám, nem, születési dátum, postai cím, geolocation, telefonszám, emailcím, webanalitikai események, http request, URL, user agent, IP cím, applikációs log események, attribútumok szenzor-adatok (pl. szélerőművek, location - smart city)

Robusztusság, hibakezelés do not let your ETL layer to corrupt or push wrong data into destination data layer Longneck: egy túlélőművész! mindig lefutnak a processek o adathibák: lokális hatások o beállítható szintű részletes logolás felderíthetőség, tesztelhetőség name tax_marking address phone Sidló Csaba Dr 11111111 1111 Bp Kende 13-17 XA (20)39323872 kimenet: Dr. Sidló Csaba 1111, Budapest, Kende, utca, 13-17 hiba kimenet: postal-address 1 Address error. 1111 Bp Kende 13-17 XA house-numberunit 2 Address err.: invalid house number unit. XA phone 1 Phone num. err. (20)39323872 phone-number 2 Phone num. err.: invalid number. 39323872

Tesztelhetőség, mérhetőség input, output mérete, hibák száma, futásidők, egyszerű és bevált tesztelő módszerek o blokkok tesztelése: egyedi adatok könnyű megadása még nem parancssori, de lesz GUI Nincs. Kell? jó lenne; üzlet számára egyszerűen érthető leírás kell viszont az XML repo nem kihagyható: o gyorsan szerkeszthető, precíz, könnyű deploy-olni stb. o pl: GUI-n folyamat 100 szabályának apró módosítása

Skálázhatóság és Big Data a Java futtató szálakra bomlik pl: ~12M alkalmazás log sor, authentikációs események szűrése és transzformációi, gyenge gép, sok regexp illesztés: szépen skálázódik o 8 szálnál már I/O korlát, memóriát igazából nem fogyaszt de még nem Big Data

Longneck-Storm Hadoop: kötegelt feldolgozás o megoldható, most nincs futtató Storm: adatfolyam feldolgozás valós időben o automatikus feladat elosztás o garantált adatfeldolgozás Longneck-Storm: o egyszerű futtató Storm klaszterre példa: Webszerver log o 32 gyengébb gépen o input: memóriából o közel lineáris!

Kapcsolódó megoldásunk: azonosságfeloldás Hány ügyfelünk van igazából? duplikátumok rekord-csoportok Longneck + azonosságfeloldás: nagyon erős kombináció más eszközök: ~10M rekordig max. Hadoop: kötegelt, Strom: valós idejű implementációk VLDB konf., 2011, Quality in Databases Workshop

Sidló Csaba sidlo@sztaki.mta.hu http://longneck.sztaki.hu -- próbálj ki! http://dms.sztaki.hu http://bigdatabi.sztaki.hu BI Fórum 2013 Open Analytics nap 2013. 11. 06