Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten)

Hasonló dokumentumok
Gépi tanulás a Rapidminer programmal. Stubendek Attila

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Data Mining. Slides for Chapter 2 of Data Mining by I. H. Witten, E. Frank and M. A. Hall

Gépi tanulás a gyakorlatban. Bevezetés

Bűnügyi adatok elemzése, QGIS Copiapó verzióra Wilpen L. Gorr oktatóanyaga alapján

Levelezők szűrésének beállítása

Kézikönyv. Szelekciós jegyzék 2.

Citációs index időintervallumra DE MTMT Adminisztrátorok

Szolgáltatási szerződés elektronikus aláírása

munkafüzet open eseményéhez

Szolgáltatási szerződés elektronikus aláírása

Szoftvertechnolo gia 7. gyakorlat

Mesh generálás. IványiPéter

ANTILOP A-8200C ÉS A8200B HASZNÁLATI UTASÍTÁS

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Ismétlődő műveletek elvégzésének automatizálása

Tanúsítvány feltöltése Gemalto.NET kártyára és Gemalto SIM termékre

SZE INFORMATIKAI KÉPZÉS 1

Az Outlook levelező program beállítása tanúsítványok használatához

A Microsoft Outlook 2003 levelezés beállítása

CAD-ART Kft Budapest, Fehérvári út 35.

Bevezetés a QGIS program használatába Összeálította dr. Siki Zoltán

5. Gyakorlat kiegészítő műveletek

NSR TAO rendszer használatához kiadott tanúsítvány megújításának lépései

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

HP Photo Printing referenciaútmutató

Diagramok/grafikonok használata a 2003-as verzióban

QGIS tanfolyam (ver.2.0)

A fényképezőgép-firmware frissítése

Tanúsítvány feltöltése Micardo kártyára

Diagram létrehozása. 1. ábra Minta a diagramkészítéshez

Teljesítményértékelések eredményeinek rögzítése a Neptun Egységes Tanulmányi Rendszerben

CÍMJEGYZÉK ÜDVÖZLÜNK A TALK FUSION CÍMJEGYZÉK HASZNÁLATI ÚTMUTATÓJÁBAN

QGIS gyakorló. --tulajdonságok--stílus fül--széthúzás a terjedelemre).

1. kép. A Stílus beállítása; új színskála megadása.

TESZTELÉSI SEGÉDLET. regisztráció I első naplóváz elkészítése I első napló kitöltése I applikáció letöltése I naplózás applikációval

Idő és nap beállítás

UNITIS Rt. Windchill PDMLink oktatóanyag PDMLink ügyességek Pro/ENGINEER Wildfire környezetben

Segédlet kriptográfiai szolgáltatást beállító szoftverhez (CSPChanger)

1. Jelgenerálás, megjelenítés, jelfeldolgozás alapfunkciói

Közegek és felületek megadása

Gépi tanulás a gyakorlatban. Lineáris regresszió

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

Kézikönyv ABAS-TOOLS használata

BMF, Kandó Kálmán Villamosmérnöki Kar, Híradástechnika Intézet. Aktív Szűrő Mérése - Mérési Útmutató

Rajz 06 gyakorló feladat

Rácsvonalak parancsot. Válasszuk az Elsődleges függőleges rácsvonalak parancs Segédrácsok parancsát!

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Tanúsítvány feltöltése Gemalto TPC IM CC és ID Classic 340 típusú kártyára

NSR TAO rendszer használatához kiadott tanúsítvány megújításának lépései

MOODLE segédlet a tananyagok feltöltéséhez

A LOGO MOTION TANÍTÁSA

Microsoft SQL Server telepítése

Egzinet Partner Portál

Vodafone Mobile Connect telepítése

DOKUMENTUMOK TÖMEGES LETÖLTÉSE ÉTDR-BŐL

BioAdmin 4.1 könnyű telepítés csak Kliens használatra

Az MS Access adatbázis-kezelő program

Az SHA256 hash algoritmus váltással kapcsolatos lépések

CareLink Personal telepítési útmutató. Első lépések a CareLink Personal adatfeltöltéshez

Georeferálás, leválogatás ArcGIS 10-ben

WINDOWS TELEPÍTÉSI ÉS AKTIVÁLÁSI ÚTMUTATÓ A FOTOBETYAR.HU - PHOTOSHOP PLUGINJEIHEZ

Vizuális adatelemzés

Tanúsítvány feltöltése Oberthur kártyára és Oberthur SIM termékre

Merevlemez üzembe helyezése, particionálása

Guarding Vision Beállítása

kommunikáció Megoldások

Gépi tanulás és Mintafelismerés

Az alábbiakban szeretnénk segítséget nyújtani Önnek a CIB Internet Bankból történő nyomtatáshoz szükséges böngésző beállítások végrehajtásában.

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Segédlet kriptográfiai szolgáltatást beállító szoftverhez (CSPChanger)

Kézikönyv. Szelekciós jegyzék létrehozása

Cserélhető lencsés vezeték nélküli távirányítható kamera használati útmutató

A Mozilla Thunderbird levelezés beállítása

Technikai tájékoztató - kérdések és válaszok TSD-QA89 (2011/11)

Kézikönyv. Dinamikus szelekció készítése és a "tartomány" kapcsoló használata

Acer kivetítők 3D technológiával. Gyorsútmutató

BOOKING GUIDE. itbroadcast - INFOTÉKA

Szabványok és számítási beállítások használata

Mobil Telefonon Keresztüli Felügyelet Felhasználói Kézikönyv

Országos Területrendezési Terv térképi mel ékleteinek WMS szolgáltatással történő elérése, Quantum GIS program alkalmazásával Útmutató 2010.

Másodlagos adatok beszerzése és külső adattábla csatolása ArcGIS 10-ben

5. Gyakorlat kiegészítő műveletek

Selling Platform Telepítési útmutató Gyakori hibák és megoldások

Mérési útmutató. Széchenyi István Egyetem Távközlési Tanszék. SDR rendszer vizsgálata. Labor gyakorlat 1 (NGB_TA009_1) laboratóriumi gyakorlathoz

Cím: Heatmap készítése

Adatbányászati technikák (VISZM185) 2015 tavasz

D: A digitális fényképezőgép objektíve E: "Beállítás" gomb (exponálás) F: USB-csatlakozó

GIROLOCK2 ROOT_CA ÉS ÜZEMI CA TANÚSÍTVÁNY IMPORTÁLÁSI SEGÉDLET

MEGÚJÍTOTT GIROLOCK_CA TANÚSÍTVÁNYCSERE

Pro Printer Telepítése és beállítása

Windows 8.1 frissítés, részletes útmutató

SAS OnDemand for Academics lehetőség használata hallgatóknak

1. DVNAV letöltése és telepítése

Bevezetés a QGIS program használatába 3.4 verzió Összeállította: dr. Siki Zoltán

HUG7211 Gyakran Ismételt Kérdések (GYIK) az Transformer TF201 modellhez

IEI (International Entity Identifier) felhasználói segédlet

Bluetooth Software frissítés leírása Android eszköz használata esetén IVE-W530BT

I. Internetes keresési feladatok (ajánlott idő: 20 perc)

Átírás:

Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten) Fejezet 1. - Lecke 1 Bevezető Egy gyakorlati kurzus, hogyan használjuk a Weka-t adatbányászatra. Megmagyarázza az alapelveit egyes népszerű algoritmusoknak Mi az adatbányászat? - elárasztanak minket az adatok - adatbányászat azt jelenti, hogy megyünk az adattól az információ felé, információ, amelyik hasznos előrejelzést jelenthet Példák?? - a nagyáruház kasszájánál vagy. Te boldog vagy az árukkal, amit megvettél, és az áruház boldog, hogy te megvettél tőlük bizonyos dolgokat - Mondjuk, hogy szeretnél gyereket, de a partnerednek nem lehet. Segíthet az adatbányászat ezen? Adatbányászat vs. gépi tanulás Mi a Weka? - egy madár, amelyik csak Új-Zélandon él? Adatbányászati munkakörnyezet Waikato Environment for Knowledge Analysis Gépi tanulási algoritmusok adatbányászati műveletekre 100+ algoritmus osztályozásra 75 adat-előkészítésre 25, hogy segítse a tulajdonságok kiválasztását 20 klszterezésre, asszociációs szabályok keresésére, stb. Miről fogunk tanulni? Adatokat töltünk be Weka-ba és megvizsgájuk, megnézzük Szűrőket (filters) használunk, hogy előfeldolgozást végezzünk az adatokon Felárjuk az adatokat, interaktív megjelenítést használva

Osztályozási algoritmusokat alkalmazunk Értelmezzük a kimenetet Megértjük az értékelési módszereket és a következményeit Megértjük a modelek különféle megjelenítését Megmagyarázzuk, hogyan működnek egyes gépi tanulási algoritmusok Tudatosul bennünk az adatbányászat kelepcéinek létezése Használjuk Weka-t saját adatainkon és értsük meg, mit csinálunk! 1 lecke: Kezdjünk el Weka-val dolgozni Telepítsük a Weka-t Fedezzük fel az Explorer-t Fedezzünk fel egy pár adattáblát Készítsünk el egy osztályozót Értelmezzük az eredményeket Használjunk szűrőket Jelenítsük meg az adatainkat

2 Lecke felfedezni az Explorert Letöltés: http://www.cs.waikato.ac.nz/ml/weka/downloading.html Weka 3.8.1

attribútumok: Outlook (felhőzet), Temp (hőmérséklet), Humidity (páratartalom), Windy (szeles), Play (játszani pl. freezby) instanciák (egyedek): minden sor egy egyed

Nyissuk ki (Open file) weather.nominal.arff

Attribútum értékek attribútumok Az eddigiekben: Telepítettük a Weka-t Beolvastuk az adatállományt Megnyitottuk az Explorer-t (weather.nominal.arff) Megnéztük az attribútumokat és azok értékeit Módosítottuk az adathalmazt Mentsük???

3 Lecke Felfedezni az adattáblákat Osztályozási probléma jelezzük előre az osztály értékét Itt az osztály értékét a Play attribútum tartalmazza Attribútum értékek attribútumok Osztály

Osztályozás sokszor felügyelt tanulásnak is nevezzük Adathalmaz: osztályozott példák Model osztályozza az új egyedeket 1-es sttributum 2-es attribútum... Instancia (egyed): Rögzített jellemzők Diszkrét ( névleges -nominal) Folytonos ( számszerű ) Besorolt példa n-edik attibútum Osztály (class) Nyissuk meg a weather.numeric.arff-ot. Nyissuk meg a glass.arff-ot. 1.3. Lecke Adathalmazok feltárása. Az osztályozási probléma weather.nominal, weather.numeric numerikus vs nominális (névleges) attribútumok ARFF állomány formátuma Attribútumok józan ellenőrzése diszkrét: osztályozási probléma folytonos: regressziós probléma

4 lecke felépíteni egy osztályozót Használjuk a J48-at, hogy elemezzük a glass adattáblát Nyissuk meg a glass.arff-ot Nézzük meg a fellelhető osztályozókat Válasszuk ki a J48 fa (tree) tanító módszert (trees>j48) Futtassuk Vizsgáljuk meg a kimenetet Nézzük meg a helyesen osztályozott egyedeket és a konfúziós mátrixot Vizsgáljuk a J48-at Nyissuk ki a konfigurációs panelt Kattintsunk a More information-ra Nézzük meg a lehetőségeket Használjunk unpruned (nyesetlen) fát Nézzük meg a levelek számosságát Állítsuk be a minnumobj értékét 15-re, hogy csökkentsük a levelek számát Jelenítsük meg a fát, használva a jobb-gomb menüt A C4.5-től a J48-ig ID3 (1979) C4.5 (1993) C4.8 (1996?) ebből lett a J48 C5.0 (üzleti) 1.4: Felépíteni egy osztályozót Osztályozók Weka-ban Osztályozni a glass adattáblát

Értelmezni a J48 kimenetét J48 konfigurációs panel opció: pruned vs unpruned (nyesett vagy nem nyesett) fák opció: elkerülni a sok falevelet J48 ~ C4.5

5 lecke használni egy szűrőt (filter) Használjunk egy szűrőt, hogy eltávolítsunk egy attribútumot Nyissuk meg a weather.nominal.arff állományt Nézzük meg a szűrőket - felügyelt vagy nem felügyelt - attribútum vs. instancia (egyed) Válasszuk a felügyelet nélküli szűrőt, a Remove-t Jelöljük ki a More information-t; nézzük meg a lehetőségeket Állítsuk be az attribútum indexét 3-ra, majd OK-zzuk le Emlékezzünk, hogy menteni tudjuk az eredményeket kattintsunk az Undo gombra Távolítsuk el azon egyedeket (sorokat, instanciákat), ahol a humidity értéke high Felülvigyázott vagy nem felülvigyázott (supervised or unsupervised) attribútum vagy instancia? Nézzük meg az adatokat Válasszuk ki a RemoveWithValues-t állítsuk be az aatributeindex-et Állítsuk be a nominalindice-t Alkalmazuk Undo Kevesebb attribútum, jobb osztályozás! Nyissuk meg a glass.arff-t futtassuk a J48-at iktassuk ki a Fe attribútumot Iktassuk ki minden attribútumot, kivéve RI és MG-t Nézzük meg a döntési fákat Használjuk a jobb-egérgombot a fa megjelenítésére

1.5 Lecke használjuk a szűrőket Szűrők Weka-ban Ellenőrzött vs ellenőrizetlen, attribútum vs instancia Hogy megtaláld az igazit, meg kell nézni Szűrők nagyon erősek lehetnek Megfelelően eltávolítva az attribútumokat - javíthatjuk a teljesítményt - megnövelhetjük az értelmezhetőséget

6-os lecke Megjeleníteni az adatokat Használjuk a Vizualize panelt Nyissuk meg az iris.arff-ot Hozzuk elő a Visualize panelt Kattintsunk az egyik diagramra; vizsgáljunk meg egypár instanciát Állítsuk az x tengelyértékhez a petalwidth-et és az y tengelyhez a petallength-et Kattintsunk a Class colour-ra, hogy megváltoztassuk a színt A jobboldalon meg tudjuk változtatni az x és y koordinátákhoz kapcsolt attribútumokat, bal gomb x attribútum, jobb gomb y attribútum Jitter használata Show Select Instance: Rectangle option Submit, reset, Clear és Save Megjeleníteni az osztályozási hibákat Futtassuk a J48-at Jelenítsük meg az osztályozási hibákat (a Result list-ből) Rajzoljuk meg az előrejelzett osztály és az osztály közötti összefüggést azonosítsuk a hibákat a konfúziós mátrix által 1.6 Az adatok megjelenítése Ugorjunk bele és mocskoljuk össze magunkat az adatainkkal Jelenítsük meg őket Takarítsuk meg őket úgy, hogy kitöröljük a kilógó sosokat Nézzünk rá az osztályozási hibákra - (van egy szűrő, amelyik megengedi, hogy új attribútumként bevegyük a model által megadott előrejelzett besorolást)