GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Hasonló dokumentumok
Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things

Alternatív adatbázisok Gráfadatbázisok

Gráf adatbázisok NoSql, neo4j. Gombos Gergő

Gartner: Hype Cycle for Big Data NoSQL Database Management Systems

Nem-relációs adatbáziskezelés. Gajdos Sándor május 8.

ADATBÁZIS RENDSZEREK. Adatbázisok története, alapfogalmak, adatmodellek. Krausz Nikol, Medve András, Molnár Bence

NoSQL technológiák. NoSQL Fórum Budapest, március 23. Diasablon: - a fotók sajátok :)

Elosztott adatbázis-kezelő formális elemzése

MongoDB THE NOSQL DATABASE. Készítette: Hugyák Tamás v2.1.1

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

Adatbázis rendszerek 7. előadás State of the art

MMK-Informatikai projekt ellenőr képzés 4

GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN

Adatbázis rendszerek. Molnár Bence. Szerkesztette: Koppányi Zoltán és Berényi Attila

SZERVER OLDALI JAVASCRIPT. 8. hét MongoDB, séma tervezés, performancia kérdések

Big Data az adattárházban

Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei. Földi Tamás

RDBMS fejlesztési irányok. Ferris Wheel (óriáskerék) Jim Gray törvényei. Elosztott adatbázisok problémái. Elosztott adatbázisok

Célkitűzések Az Oracle10 g felépítésének, használatának alapszíntű megismerése

Oracle SQL Developer Data Modeler és a DW adatmodellezés. Gollnhofer Gábor Meta Consulting Kft.

MySQL kontra MongoDB programozás. SQL és NoSQL megközelítés egy konkrét példán keresztül

Adatbázisok elmélete április 24. Gráfadatbázisok. Szárnyas Gábor

Adatbázis rendszerek I

Gráfadatbázisok. Tanulmány az Adatbázisok haladóknak c. tárgyhoz. Szárnyas Gábor. 2012/2013. tanév I. félév. 5. évf. mérnök informatikus szak

Adattárház kialakítása a Szövetkezet Integrációban, UML eszközökkel. Németh Rajmund Vezető BI Szakértő március 28.

Data Vault 2.0 és az Oracle DW/BD referencia architektúra. Gollnhofer Gábor Meta Consulting Kft.

Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok

Adatbázis-kezelés ODBC driverrel

Adatbázis, adatbázis-kezelő

Big Data. Benczúr András Big Data Lendület kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

30 MB INFORMATIKAI PROJEKTELLENŐR ADATBÁZISOK MEGVALÓSÍTÁSA (ADATBÁZISOK, ADATBÁZISKEZELŐK, ADATBÁZISOK FELÉPÍTÉSE, ADATBÁZISOK TERVEZÉSE)

Riak. Pronounced REE-ahk. Elosztott adattároló eszköz. Molnár Péter

Döbrönte Zoltán. Data Vault alapú adattárház - Fél óra alatt. DMS Consulting Kft.

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

LOGISZTIKAI ADATBÁZIS RENDSZEREK JOIN, AGGREGÁCIÓ

Adatbányászat és Perszonalizáció architektúra

Hogyan teremtsünk értéket strukturálatlan adatokból?

NoSql, Document Store, MongoDB. Gombos Gergő

Adatmodellezés. 1. Fogalmi modell

Tartalomjegyzék. Tartalomjegyzék 1. Az SQL nyelv 1 Az SQL DDL alapjai 2

Segítség, összementem!

Adatbázis rendszerek. Molnár Bence. Szerkesztette: Koppányi Zoltán

Oracle BI Administration Tool. Repository felépítése

IBM SPSS Modeler 18.2 Újdonságok

Az indexelés újdonságai Oracle Database 12c R1 és 12c R2

MapReduce paradigma a CAP-tétel kontextusában. Adatb haladóknak. Balassi Márton Adatbázisok haladóknak 2012.

INDEXSTRUKTÚRÁK III.

Adatbáziskezelő-szerver. Relációs adatbázis-kezelők SQL. Házi feladat. Relációs adatszerkezet

Takács Gábor mérnök informatikus, okl. mérnöktanár

Indexek és SQL hangolás

Szárnyas Gábor (BME) diáinak felhasználásával.

Adatbázis rendszerek 7. előadás State of the art

A szak specializációi

NoSQL adatbázisok. Adatb haladóknak. Trencséni Márton Adatbázisok haladóknak szeptember 25.

9.előadás: Adatbázisok-I. dr. Hajas Csilla (ELTE IK)

Multimédiás adatbázisok

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

Analitikai megoldások IBM Power és FlashSystem alapokon. Mosolygó Ferenc - Avnet

SQL Server High Availability

30 MB INFORMATIKAI PROJEKTELLENŐR

Kontrolling támogató rendszer bevezetése a NISZ-ben

INFORMATIKA ÁGAZATI ALKALMAZÁSAI. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

ADATBÁZIS-KEZELÉS FÉLÉVES FELADAT

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető október 4.

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Big Data tömeges adatelemzés gyorsan

Adatbázisok-1 előadás Előadó: dr. Hajas Csilla

LOGISZTIKAI ADATBÁZIS RENDSZEREK UNIÓ, ALLEKÉRDEZÉSEK

Bevezetés: Relációs adatmodell

Entity Resolution azonosságfeloldás

Adatbázis-kezelés alapok Adatbázisok című tárgyhoz, ismétlés kapcsán

Component Soft és tovább

Adatbázismodellek. 1. ábra Hierarchikus modell

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

AZ IKIR RENDSZER BEMUTATÁSA

Adatbáziskezelı-szerver SQL. Relációs adatbázis-kezelık. Relációs adatszerkezet. Házi feladat

Adatbázisok - 1. előadás

Big data áttekintés. Sidló Csaba. MTA Számítástechnikai és Automatizálási Kutatóintézet

Infor PM10 Üzleti intelligencia megoldás

Never-ending fight - A soha véget nem érő harc a Black Hat-hackerekkel

Pozícióinformáció. Sikeres helyfüggő szolgáltatások mobilra

<Insert Picture Here> Közeli jövőkép az üzleti intelligenciáról

Adatbázis-kezelés az Excel 2013-ban

Data Governance avagy adatvagyon kezelés Rövid bevezető. Gollnhofer Gábor DMS Consulting

Adatbázisok (relációs, objektum relációs, NoSQL) Adatbáziskezelő rendszerek Adatbázisok felépítése Adatbázisok tervezése

ADATBÁZIS-KEZELÉS - BEVEZETŐ - Tarcsi Ádám, ade@inf.elte.hu

Data Governance avagy adatvagyon kezelés Rövid bevezető. Gollnhofer Gábor DMS Consulting

Testreszabott alkalmazások fejlesztése Notes és Quickr környezetben

Oracle adatkezelési megoldások helye az EA világában. Előadó: Tar Zoltán

Az Oracle Fusion szakértői szemmel

webalkalmazások fejlesztése elosztott alapon

LOGISZTIKAI ADATBÁZIS RENDSZEREK EXCEL ALAPOK

XML alapú adatbázis-kezelés. (Katona Endre diái alapján)

A relációs adatmodell

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

Excel ODBC-ADO API. Tevékenységpontok: - DBMS telepítés. - ODBC driver telepítése. - DSN létrehozatala. -Excel-ben ADO bevonása

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Üzleti intelligencia eszköztár a SAS 9.2 platformon

Átírás:

INFORMATIKAI PROJEKTELLENŐR 30 MB Szendi-Varga János ÚJ GENERÁCIÓS ADATBÁZISOK A BIG DATA KÜLÖNBÖZŐ TERÜLETEIN 2016. 12. 31. MMK- Informatikai projektellenőr képzés

2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 2

Motiváció Fő motiváció a skálázhatóságvolt, illetve a hatékonyabb működés (Big data) Struktúrálatlan adatokmegjelenése Általában egy nagy cég kezdte el használni, és onnan fejlődött ki (Google, Facebook, Twitter) CAP tétel: Elosztott rendszerekalapképességei Konzisztencia (Consistency) Rendelkezésre állás (Availability) Particionálás-tűrés (Partition tolerability) 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 3

NoSQL adatbázisok 2000-es évek elején 2009-ben újrafelhasználták a fogalmat "open source distributed, non relational databases A NoSQL (egyes értelmezések szerintnot only SQL, azaz nem csak SQL, más értelmezés szerintegyszerűen csak nem SQL) adatbázis-kezelő rendszerekgyüjtőneve. A NoSQL adatbázisok elsősorban nem táblákban tárolják az adatokat, és általában nem használnak SQL nyelvet lekérdezésre. 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 4

Strukturálatlan adatok Nyers adat Tipikusan nem rendszerezett dokumentumok weboldalak mentések 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 5

Félig struktúrált adatok Metaadatok struktúráltak, de a tartalom nem Szerző Kiadás éve ISBN Naplófájlok pl. 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 6

NoSQL adatbázisok típusai Oszlop alapúak Dokumentumtárolók Kulcs-érték adatbázisok Gráf adatbázisok Multi-modell adatbázisok 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 7

Oszlop alapú adatbázisok Hasonló, mint a relációs adatmodell, de inkább oszlopokban tárolja az adatokat, mint sorokba. Ez inkább csak egy optimalizálttárolási forma pl. Facebook Messenger HBase-t: több milliárdüzenet havonta Accumulo, Cassandra, Druid, HBase, Vertica 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 8

Dokumentumtárolók XML, YAML, JSON, BSON, vagy PDF, DOC Legnépszerűbb a MongoDB Apache CouchDB, Clusterpoint, Couchbase, DocumentDB, HyperDex, Lotus Notes, MarkLogic, MongoDB, OrientDB, Qizx, RethinkDB 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 9

Kulcs-érték adatbázisok Ott hatékonyak, ahol egyszer írok, többször olvasok pl. mérési rendszerek szótárak Lehetnek esetenként konzisztensek, vagy rendezettek Nagy tranzakcióigén esetén, pl. Cache, MemDB-k Aerospike, Couchbase, Dynamo, FairCom c-treeace, FoundationDB, HyperDex, MemcacheDB, MUMPS, Oracle NoSQL Database, OrientDB, Redis, Riak, Berkeley DB 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 10

Gráf adatbázisok Euler Königsbergi hidak (1736) Összekapcsolt (connected) adathalmazokra A világ efelé megy (IoT, Social Networks) Két fő objektuma van, a csomópont (node) és a reláció vagy és (relation, edge) Ezeknek lehetnek különböző tulajdonságaik (property) Felhasználás: Útkeresés Csalásdetektálás Valós idejű ajánlórendszerek AllegroGraph, InfiniteGraph, Giraph, MarkLogic, Neo4J, OrientDB, Virtuoso, Stardog 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 11

Multi-modell adatbázisok Alchemy Database, ArangoDB, CortexDB, FoundationDB, MarkLogic, OrientDB 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 12

Összefoglalás A megfelelő szerszámota megfelelő feladatra Polyglot architektúra Data Model Key Value Store Column- Oriented Store Document- Oriented Store Graph Database Relational Database Performan ce Scalability Flexibility high high high none Complexit y Functional ity variable (none) high high moderate low minimal high variable (high) high low variable (low) variable variable high high graph theory variable variable low moderate relational algebra 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 13

BI érettségi szintek Standard riportok: Klasszikus riportok, előre definiált tartalommal, ismétlődő módon készítik őket, rendszerint read-only. Tipikusan ügyfélszám, árbevétel, stb. Ad-hoc riportok: Eseti jelleggel készített kimutatás. OLAP: Az OLAP nem más mint egy speciális adatbázis kezelő, amely úgy lett megtervezve, hogy abból nagyongyorsan le tudjukkérdezni a számunkra fontos információkat. Lehetőség van magasabb részletezettségű szintekre lefúrni, valamint ugyanazt a területet különböző dimenziókbólmegvizsgálni, mint például értékesítés régiónként, vagy termékenként. Alert: olyan előre definiált riasztások, amik jelzik, hogy beavatkozás szükségek, amikor az adatokelérnek egy definiáltszintet. Statisztikaielemzés: Rendszerint idősoroselemzések, átlagok, összesítések. Előrejelzés: Egy rendszer jövőbeli működésének előrejelzését célozza meg. Prediktív modellezés: Egy rendszer jövőbeli működését modellezi le. pl. cégbedőlés előrejelzése, ügyfél lemorzsolódás előrejelzése, csalás detektálás Optimalizáció (Data-driven): A folyamatainkat úgyalakítjuk ki, hogy üzletileg a legoptimálisabb döntéseket hozzuk meg a rendelkezésre álló információink alapján. 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 14

CRISP-DM (Cross Industry Standard Process for Data Mining) 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 15

Ajánlórendszerek Az ajánlórendszerek olyan informatikai rendszerek, amelyek előrejelzik hogy a felhasználómilyen értékelést adna egy adottdolognak, vagy melydolgokatrészesíteneelőnyben. Akkoraadathalmaz keletkezik az interneten, hogy muszáj segíteni az embereknek megtalálni azt az információt, amit keresnek 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 16

Ajánlóalgoritmusok fajtái Collaborative filtering (CF) Azt jelenti, hogy az ajánlatok megtétele más emberek preferenciái alapján történik meg. Content-Based filtering (CB) A felhasználónak olyan terméket ajánlunk, amelyek hasonlítanak az általa korábban megvásárolt, vagy magasra értékelt termékhez. Hybrid Az ajánlás testreszabottabb lehet, ha a tartalomalapú és a kollaboratív módszerek elemeit vegyítjük. 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 17

Gráf adatmodell ajánlórendszerekhez 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 18

Ann Bob Forrest Gump 3 10 Jurassic Park 8 8 The Dark Knight Trilogy 7 6 Avatar 5 6 Gladiator 2 4 The Social Network 9 5 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 19

Neo4j Cypher MATCH (p1:person {name: Ann'})-[s:SIMILARITY]-(p2:Person) WITH p2, s.similarity AS sim ORDER BY sim DESC LIMIT 5 RETURN p2.name AS Neighbor, sim AS Similarity Neighbor Similarity Puskás Bella 0.9930576629846721 Pusztai Aurelia 0.9799754572240132 Göröncsér Márkó 0.9723794178650612 Mayer Dominika 0.9701573611650006 Schmid Dorina 0.9699970140364248 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 20

Ajánlóalgoritmus MATCH (b:person)-[r:rated]->(m:movie), (b)-[s:similarity]-(a:person {name: Ann'}) WHERE NOT((a)-[:RATED]->(m)) WITH m, s.similarity AS similarity, r.rating AS rating ORDER BY m.name, similarity DESC WITH m.name AS movie, COLLECT(rating)[0..3] AS ratings WITH movie, REDUCE(s = 0, i IN ratings s + i)*1.0 / LENGTH(ratings) AS reco ORDER BY reco DESC RETURN movie AS Movie, reco AS Recommendation Movie The Bourne Trilogy 9 Recommendation Taken 8.333333333333334 Pan's Labyrinth 7.666666666666667 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 21

Neo4j gráf adatbázistovábbi felhasználási lehetőségei Valós idejűajánlások Csalás detektálás Szociális hálózatok Hírközlési és informatikai hálózatok Törzsadatkezelés Jogosultságkezelés Gráf alapúkeresések 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 22

Köszönöm a figyelmet! Szendi-Varga János szendi.varga.janos@nextent.hu 2016. 12. 31. MMK-Informatikai projekt ellenőr képzés 23