Adatbányászati technikák (VISZM185) 2015 tavasz

Hasonló dokumentumok

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Gondolatok a légköri energiák repülésben való jobb hasznosításáról

Poszeidon (EKEIDR) Irat és Dokumentumkezelő rendszer webes felület

Az anyagdefiníciók szerepe és használata az Architectural Desktop programban

A hierarchikus adatbázis struktúra jellemzői

DUMASZÍNHÁZ, FÉNYFESTÉS ÉS SÁRKÁNYHAJÓZÁS VISSZAESÉS A RENDEZVÉNYPIACON

Dokumentum száma. Oktatási segédlet. ESD Alapismeretek. Kiadás dátuma: ESD alapismeretek. Készítette: Kovács Zoltán

GOOGLE ANALITYCS VS. SPSS CLEMENTINE

Online ajánlórendszerek az elektronikus kereskedelemben. Dr. Révész Balázs

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás Döntési fák [Concepts Chapter 11]

AutoN cr. Automatikus Kihajlási Hossz számítás AxisVM-ben. elméleti háttér és szemléltető példák február

sikertörténet Interjú Wolf Gáborral Hiába vagy valamiben a legjobb, ha nem marketingezel A Kisvállalati Marketing Biblia szerzőjével

Rendszerelemzés. Konstantinusz Kft.

I S R G Gépi tanulás, neuronhálók

Mesterséges Intelligencia MI

Mesterséges intelligencia, 7. előadás október 13. Készítette: Masa Tibor (KPM V.)

MARKETINGTERVEZÉS. Készítette: a Regionális Humán Innováció Nonprofit Kft. megbízásából: Dr. Karaszi Andrea- Horváth Olga Szombathely, 2011.

Nemetz O.H. Tibor emlékére május 9.

ETELKA Szolgáltatói Dokumentáció v1.0 RITEK ZRt. 2009

Mit mondhat nekünk az, ami látszólag semmit nem mond?

Az MS Access adatbázis-kezelő program

Háttéranyag a Budapesti Békéltető Testület február 13-i sajtótájékoztatójára

Változó, alakuló (mobil) szakma. Partneri kapcsolatokra épített szakma.

Dinamikus programozás alapú szivattyú üzemvitel optimalizálási technikák (főként) kombinatorikus vízműhálózatokra

Gáspár Bencéné Vér Katalin * AZ ÜZLETI INTELLIGENCIA RENDSZEREINEK KIALAKULÁSÁRÓL

Az MTMT intézményi kezelése 2011 március 10. Dr. Makara B. Gábor akadémikus, az MTMT Felügyelő Testületének elnöke

SZÁMOLÁSTECHNIKAI ISMERETEK

Nem oldható kötések alkalmazása, szerszámai, technológiája

BME Menedzsment és Vállalatgazdaságtan Tanszék. Kérdőívszerkesztés. Kovács István

MARKETING MESTERSZAK Marketingkutatás 5. előadás KÉRDŐÍVSZERKESZTÉS Magyar Mária - BME MVT

Gépi tanulás a gyakorlatban. Bevezetés

Béta Software számlázó programok adóhatósági ellenőrzési adatszolgáltatása (AEA)

TERMÉK FEJLESZTÉS PANDUR BÉLA TERMÉK TERVEZÉSE

II. év. Adatbázisok és számítógépek programozása

Blonde. Szépségszalon, Szolárium, Spa, Fitness. Ügyviteli Rendszer. Funkcionális Specifikáció. Verzió 1.1

S Z Á M Í T Ó G É P E S

Vezetői információs rendszerek

A TANTÁRGY ADATLAPJA

Alba Radar. 7. hullám. Lakossági vélemények a Fehérvár Televízióról és a fogyasztóvédelemről a helyi médiában

2. fejezet Hálózati szoftver

Matematikai statisztikai elemzések 1.

Élpont osztályozáson alapuló robusztus tekintetkövetés

Ittfoglalomösszea legfontosabbtudnivalókat, részleteka honlapon, illetvea gyakorlatvezetőtől is kaptok információkat.

6. AZ EREDMÉNYEK ÉRTELMEZÉSE

MUNKAANYAG. Szabó László. Oldható kötések alkalmazása, szerszámai, technológiája. A követelménymodul megnevezése: Épületgépészeti alapfeladatok

Iskolai teljesítmény iskolai átszervezés

Tartalom. Matematikai alapok. Termékgyártási példafeladat. Keverési példafeladat Szállítási példafeladat Hátizsák feladat, egészértékű feladat

JELENTKEZÉSI ADATLAP

Peer-to-peer (P2P) gépi tanulás. Hegedűs István

REKURZIÓ. Rekurzív: önmagát ismétlő valami (tevékenység, adatszerkezet stb.) Rekurzív függvény: függvény, amely meghívja saját magát.

INTELLIGENS ADATELEMZÉS

Karbantartás. Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat:

Teljesen elosztott adatbányászat alprojekt

Bánhalmi Árpád * Bakos Viktor ** MIÉRT BUKNAK MEG STATISZTIKÁBÓL A JÓ MATEKOSOK?

User'sManual code for BSSV-2400BH :45 Page 1

Biológia a 7 8. évfolyama számára A biológia tantárgy tanításának céljai és feladatai

Mesterséges Intelligencia I. (I602, IB602)

PHP5 Új generáció (2. rész)

Alkalmazott modul: Programozás

Felhasználói kézikönyv

Általános Szerződési Feltételek

EEG mérések hardveres és szoftveres validációja

Ismétlődő műveletek elvégzésének automatizálása

NoSQL technológiák. NoSQL Fórum Budapest, március 23. Diasablon: - a fotók sajátok :)

ű Ö ű ű Ú Ú ű

Teszt generálás webes alkalmazásokhoz

Csima Judit február 19.

GS1 Logger for Staff. Felhasználói kézikönyv. Verzió 2.3, GS1 Logger Staff Felhasználói kézikönyv

Álmodjon egy nagyot és mi megvalósítjuk!

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Az enyhe értelmi fogyatékos fővárosi tanulók 2009/2010. tanévi kompetenciaalapú matematika- és szövegértés-mérés eredményeinek elemzése

Az irányelv-alapú elemzés, valamint az ön- és társértékelés módszereinek alkalmazása az informatikus képzésben

9. Áramlástechnikai gépek üzemtana

M ár meg isházasodik, ha tizenöt-tizenhat éves

A könyvtári minőségirányítás bevezetésére

Óravázlat. az ECDL oktatócsomaghoz. 5. modul. Adatbáziskezelés. Krea Kft Budapest, Szőlő u 21. Tel/fax: / krea@krea.

Big Data az adattárházban

A magyar pedagógusok munkaterhelése

ODR használói elégedettségmérés 2009.

Informatika. Magyar-angol két tanítási nyelvű osztály tanterve. 9. évfolyam

KÉZZEL FOGHATÓ TECHNOLÓGIAI MEGOLDÁSOK DANCSEVICS TIBOR

Használati útmutató gyi és gyb állományok importálásához

A Viszonteladói Árbevétel- Növelés Szisztémája Június 11.

AZ M3 METRÓVONAL SZERELVÉNYEINEK FELÚJÍTÁSSAL EGYBEKÖTÖTT KORSZERŰSÍTÉSE AJÁNLATTÉTELI DOKUMENTÁCIÓ MŰSZAKI LEÍRÁS május

Minőségi tartalom. Amely beindítja üzletét

HASZNÁLATI ÚTMUTATÓ DOLGOZÓK IMPORTÁLÁSA KULCS BÉR PROGRAMBÓL AZ ONLINE MUNKAIDŐ NYILVÁNTARTÓ RENDSZERBE. Budapest, november 08.

A családi háttér és az iskolai utak eltérései

Az információs portáloktól a tudásportálokig

SZET GYAK1: Követelmények ellenőrzése

o a Szervező vezető tisztségviselői, munkavállalói valamint az itt felsorolt személyek Ptk. 8:1 paragrafusában meghatározott hozzátartozói;

Szakközépiskola 9. évfolyam. I/1 gyakorló feladatsor

Átírás:

Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27

Bevezető Motiváció Miért érdekes az adatbányászat? Egyre több és több adat keletkezik: kereskedelem: vásárlói kosarak, bankkártya tranzakciók adatai, online vásárlások adatai webes log file-ok genome szekvenálás (űr)távcsövek, fényképek adatai műholdak időjárási adatai orvosi adatok Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 2 / 27

Bevezető Motiváció Miért kellenek, miért jók az algoritmusok? óriási mennyiségű adat: pl. genome szekvenálás, GenBank (NCBI) növekedése 1982: 6, 8 10 5 bázispár 2007: 8 10 8 bázispár (másfél évente duplázódott a méret) 2014. augusztus: 1, 65 10 11 (öt év alatt 200-szorosa lett és ez egyre durvább lesz) teljesen reménytelen ebben kézzel megtalálni bármit hagyományos adatfeldolgozási technikák nem jók de gyors, nagy memóriájú számítógépek vannak Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 3 / 27

Bevezető Motiváció Milyen haszon származhat az adatbányászatból? rejtett összefüggések kinyerése (emiatt pénz, tudományos eredmény, stb.) gyors, automatikus osztályozás: emberi, szakértői munka kiváltása Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 4 / 27

Bevezető Motiváció Néhány divatos alkalmazás ajánló rendszerek: online vásárlások, webes böngészés alapján osztályozás automatikusan ember helyett, előtt (csillagászat, diagnosztika) hírfigyelő portálok Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 5 / 27

Bevezető Eredete, háttér Mi is ez? Mi az adatbányászat? nem-triviális, rejtett, de hasznos(nak tűnő) információ kinyerése sokszor más célra, vagy direkt cél nélkül gyűjtött adatokból nagy adathalmazból automatikusan Óvatosan! Sok adatból sok olyan dolog is kinyerhető, ami csak a véletlennek köszönhetően van ott. (Data mining eredetileg pejoratív kifejezés volt). Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 6 / 27

Bevezető Eredete, háttér Óvatosan! adatok feldolgozása nem mindig adatbányászat leíró adatelemzés (pl. népszámlálási adatok ) összegzése még nem adatbányászat az összefüggések megtalálása adatbányászat, de: összefüggés (korreláció) nem jelent ok-okozati összefüggést ok-okozati összefüggések feltárása általában már nem adatbányászat: ahhoz randomizált vizsgálatok kellenek kontrollcsoportok felhasználásával, ellenőrzött körülmények között Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 7 / 27

Bevezető Eredete, háttér Eredete, hasonló tudományterületek machine learning (gépi tanulás), pattern recognition (alakfelismerés), statisztika, adatbáziskezelés ezekből mind átvett elemeket, de ezek egyike sem jó önmagában a nagy adathalmazok kezelésére (big data): rengeteg adat (sok sor), nagy dimenziószám (sok oszlop), heterogén, gyakran elosztott adathalmazok, nem tiszta adatok Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 8 / 27

Alapfeladatok Előrejelzés, predikció (prediction): néhány változó értékei alapján egy másik (cél)változó értékének előrejelzése Regresszió (regression): folytonos értékű célváltozó, supervised learning Osztályozás (classification): diszkrét értékű célváltozó, supervised learning Anomália detektálás, supervised learning Leíró módszerek: ember számára értelmezhető mintázatok keresése az adathalmazban Változók közötti kapcsolat leírása, adott modell paramétereinek beálĺıtása, modellválasztás Klaszterezés (clustering): önmagában is érdekes, illetve az exploratory elemzés részeként is Asszociációs szabályok keresése Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 9 / 27

Regresszió folytonos változó értékét meghatározni a többi változó értékéből pl.: lakások adatai: szobaszám, négyzetméter, van-e ablak a fürdőn, stb. alapján lakás ára blogbejegyzés jellemzői (kulcsszavak, hossz, stb.) alapján kommentszám előrejelzés új termék reklámjára fordított összeg, termék bizonyos jellemzői alapján várható eladási adatok film adatai (romantikus, kardozós, gyilkolászós, gyártási költség, szereplők) alapján várható bevétel vagy várható tetszési index Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 10 / 27

Regresszió lehet lineáris és nem-lineáris modellt alkotni erre: lineáris regresszió például egy ilyen modell kérdés, hogy mik a fontos változók, kellenek-e származtatott változók, lineáris modell kell-e, adott modellben mik a paraméterek (ez egy egész nagy terület önmagában) machine learning-ben jól kidolgozott elmélet mi nem (nagyon) tanulunk erről Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 11 / 27

Osztályozás Osztályozás: definíció angolul classification supervised learning rekordok adottak, több attribútummal (változóval) egyik változó a célváltozó (target vagy class): bináris vagy legalábbis diszkrét értékű ennek értékét kell megjósolni a többi változó értékéből: modellt kell választani és belőni a paramétereit lehetséges modellek: döntési fák, szabály alapú osztályozók, Bayes-osztályozók, neurális hálózatok cél: olyan modellt felépíteni, ami jól jelzi előre a célváltozó értékét Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 12 / 27

Osztályozás Osztályozás: módszertana adathalmaz két (esetleg három) részre osztása: training set: ezekből az adatokból tanítjuk be a modellt (paraméterek beálĺıtása úgy, hogy a training set-en minél kisebb legyen a hiba) test set: itt nézzük meg, hogy egy (a modell felépítésekor nem látott) adathalmazon mennyire jól jelez előre néha validation set: ha több modellt is kipróbálunk, akkor mindegyikhez belőjük a legjobb paramétert, a belőtt modelleket versenyeztetjük a validation set-en és a legjobbat kiértékeljük a test set-en modell értékeléséhez: kell valami számszerű, mérhető jóság, ez sok minden lehet (erről később, egész nagy elmélet ez is) Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 13 / 27

Osztályozás Példa osztályozásra: direkt marketing online áruházban adott vásárlót érdemes-e megkeresni egy új termék direkt reklámjával (várhatóan megveszi-e?) célváltozó itt bináris: igen/nem az alapján, hogy: miket vett eddig, családi állapot, életkor, stb. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 14 / 27

Osztályozás Példa osztályozásra még: csillagászat rengeteg kép készül, szakértő ember ehhez képest minimális osztályozzuk, hogy ami a képen van az csillag, galaxis vagy valami más esetleg különösen érdekes a különösen érdekeset majd megnézi az a kevés szakértő módszer: képszegmentálás, képekhez attribútumok rendelése, ezek alapján modellépítés Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 15 / 27

Osztályozás Példa osztályozásra még: karakterfelismerés kézzel írott számjegy micsoda? ez nem bináris, hanem 10 lehetséges érték van tipikus megközeĺıtés: 10 külön osztályozó a 10 külön értékre, mindegyikre egy valószínűség jön ki: p i valószínűséggel az i-es számjeggyel van dolgunk, válasszuk azt, amire p i a legnagyobb Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 16 / 27

Osztályozás Példa osztályozásra még: hezitáló ügyfelek felismerése adott ügyfél készül-e lelépni, szolgáltatót váltani? célváltozó itt is bináris: igen/nem az alapján, hogy milyenek az általa igénybe vett szolgáltatások jellemzői: hívásidők, hívások darabszáma, mikor telefonál, stb. training set: a szerződést felmondó ügyfelek felmondás előtti viselkedését leíró adatok előfeldolgozás kell Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 17 / 27

Osztályozás Példa osztályozásra még: spamszűrő adott email spam-e? célváltozó itt is bináris: igen/nem az alapján, hogy milyen szavak fordulnak elő a levélben (esetleg hogy honnan jön), van-e valami jellegzetessége a levélnek training set: egy csomó levél, amikről tudjuk ezeket a jellemzőket és azt, hogy spamek-e a felhasználók szerint Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 18 / 27

Anomália detektálás Anomália detektálás speciális osztályozás: bináris célváltozó: fura/nem fura a fura az ritka, emiatt más módszerek kellenek, mint egy sima osztályozásnál példa: bankkártya tranzakciók adatai (összeg, vásárlás helye, korábbi vásárlások adatai stb.) alapján eldönteni, hogy ez most egy lopott kártyás tranzakció-e példa még: data centerben számítógép adatai működés közben (memóriahasználat, processzoridő teĺıtettsége, disc elérések száma, stb.) alapján eldönteni, hogy el van-e romolva repülőgép motorok tesztelése: vibráció, melegedés, stb. alapján eldönteni, hogy oké-e vagy esetleg alaposabban meg kell nézni Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 19 / 27

Klaszterezés Klaszterezés: definíció unsupervised learning: nincs címkézés a pontokon hasonlósági mérték alapján (erről később) csoportokba sorolja a hasonló pontokat cél, hogy az egy csoportba kerülők hasonlóbbak legyenek egymáshoz, mint azok, akik külön kerülnek klaszterek számát gyakran előre kell tudni gyakran az adathalmazzal való ismerkedés része külön kérdés, hogy milyen változók alapján klaszterezünk és hogyan jelenítjük meg a klasztereket Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 20 / 27

Klaszterezés Iris data set R-ben > head(iris) Sep.Length Sep.Width Pet.Length Pet.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 21 / 27

Klaszterezés Iris klaszterezés Clusters Species Pet.Length 1 2 3 4 5 6 7 Pet.Length 1 2 3 4 5 6 7 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Sep.Length 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 Sep.Length Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 22 / 27

Klaszterezés Klaszterezés példa: market segmentation cél: a vásárlók felosztása csoportokra vásárlási szokások szerint (barkácsáruháznál: barkácsolós, kertészkedős, stb.; könyváruháznál: gyerekkönyvek, anime, romantikus regények, stb.) attribútumok: korábbi vásárlások adatai, vásárló adati (életkor, nem, lakóhely, stb.) távolság, klaszterzés jóságának mérése: mennyire hasonlóak az egy klaszterbe eső emberek vásárlásai Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 23 / 27

Klaszterezés Klaszterezés példa még: dokumentum osztályozás Dokumentumok osztályozása úgy, hogy a hasonló témájúak egy csoportba jussanak attribútumok, amik alapján csoportosítok: kulcsszavak előfeldolgozás munkás: mi a kulcsszó, minek a gyakorisága számít speciális alakú (ritka) adatmátrix jön létre, speciális technikák kellenek például a Google news szolgáltatás Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 24 / 27

Asszociációs szabályok keresése Asszociációs szabályok: vásárlói kosarak adatai egy rekord azt tartalmazza, hogy mit vett egyszerre egy ember (vásárlói kosár) pl. egy vásárlás az, hogy {kenyér, tej, kóla, pelenka, sör} cél: olyan szabályok felálĺıtás, amik azt írják le, hogy ha valaki vesz A terméket (vagy A 1, A 2,... A k termékeket együtt), akkor (valószínűleg) vesz B-t is valószínűleg: beálĺıtható paraméter, hogy mikor mondjuk ezt óvatosan: van sok triviális szabály, olyanok kellenek, amik meglepőek, érdekesek Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 25 / 27

Asszociációs szabályok keresése Asszociációs szabályok mire jók? Ha van egy {A,...} B szabályunk, akkor esélyes, hogy A árát csökkentve nő B eladása boltban áruk elhelyése a polcokon: amiket gyakran vesznek együtt az legyen hasonló helyen ezzel kezdődött az adatbányászat, sokat vizsgált terület, de aztán kissé elfelejtődött mostanában újra, mert gyakori elemhalmazok keresése érdekes sok helyen Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 26 / 27

Nehézségek Mik a kihívások? scalability: skálázhatóság nagy halmazokra, azaz sok sorral is el kell tudni bánni sok dimenzió: rengeteg attribútum lehet heterogén adatok, sok adattípus, speciális adatok adatminőség (hibák, nem konzisztens adatbázisok) elosztott számítás jó lenne privacy: ne legyenek beazonosítható egyedek, emberek, csak általános szabályok data streams: folyamatosan jövő adatok, mindenre csak egyszer nézhetünk rá Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 27 / 27