Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten) Fejezet 1. - Lecke 1 Bevezető Egy gyakorlati kurzus, hogyan használjuk a Weka-t adatbányászatra. Megmagyarázza az alapelveit egyes népszerű algoritmusoknak Mi az adatbányászat? - elárasztanak minket az adatok - adatbányászat azt jelenti, hogy megyünk az adattól az információ felé, információ, amelyik hasznos előrejelzést jelenthet Példák?? - a nagyáruház kasszájánál vagy. Te boldog vagy az árukkal, amit megvettél, és az áruház boldog, hogy te megvettél tőlük bizonyos dolgokat - Mondjuk, hogy szeretnél gyereket, de a partnerednek nem lehet. Segíthet az adatbányászat ezen? Adatbányászat vs. gépi tanulás Mi a Weka? - egy madár, amelyik csak Új-Zélandon él? Adatbányászati munkakörnyezet Waikato Environment for Knowledge Analysis Gépi tanulási algoritmusok adatbányászati műveletekre 100+ algoritmus osztályozásra 75 adat-előkészítésre 25, hogy segítse a tulajdonságok kiválasztását 20 klszterezésre, asszociációs szabályok keresésére, stb. Miről fogunk tanulni? Adatokat töltünk be Weka-ba és megvizsgájuk, megnézzük Szűrőket (filters) használunk, hogy előfeldolgozást végezzünk az adatokon Felárjuk az adatokat, interaktív megjelenítést használva
Osztályozási algoritmusokat alkalmazunk Értelmezzük a kimenetet Megértjük az értékelési módszereket és a következményeit Megértjük a modelek különféle megjelenítését Megmagyarázzuk, hogyan működnek egyes gépi tanulási algoritmusok Tudatosul bennünk az adatbányászat kelepcéinek létezése Használjuk Weka-t saját adatainkon és értsük meg, mit csinálunk! 1 lecke: Kezdjünk el Weka-val dolgozni Telepítsük a Weka-t Fedezzük fel az Explorer-t Fedezzünk fel egy pár adattáblát Készítsünk el egy osztályozót Értelmezzük az eredményeket Használjunk szűrőket Jelenítsük meg az adatainkat
2 Lecke felfedezni az Explorert Letöltés: http://www.cs.waikato.ac.nz/ml/weka/downloading.html Weka 3.8.1
attribútumok: Outlook (felhőzet), Temp (hőmérséklet), Humidity (páratartalom), Windy (szeles), Play (játszani pl. freezby) instanciák (egyedek): minden sor egy egyed
Nyissuk ki (Open file) weather.nominal.arff
Attribútum értékek attribútumok Az eddigiekben: Telepítettük a Weka-t Beolvastuk az adatállományt Megnyitottuk az Explorer-t (weather.nominal.arff) Megnéztük az attribútumokat és azok értékeit Módosítottuk az adathalmazt Mentsük???
3 Lecke Felfedezni az adattáblákat Osztályozási probléma jelezzük előre az osztály értékét Itt az osztály értékét a Play attribútum tartalmazza Attribútum értékek attribútumok Osztály
Osztályozás sokszor felügyelt tanulásnak is nevezzük Adathalmaz: osztályozott példák Model osztályozza az új egyedeket 1-es sttributum 2-es attribútum... Instancia (egyed): Rögzített jellemzők Diszkrét ( névleges -nominal) Folytonos ( számszerű ) Besorolt példa n-edik attibútum Osztály (class) Nyissuk meg a weather.numeric.arff-ot. Nyissuk meg a glass.arff-ot. 1.3. Lecke Adathalmazok feltárása. Az osztályozási probléma weather.nominal, weather.numeric numerikus vs nominális (névleges) attribútumok ARFF állomány formátuma Attribútumok józan ellenőrzése diszkrét: osztályozási probléma folytonos: regressziós probléma
4 lecke felépíteni egy osztályozót Használjuk a J48-at, hogy elemezzük a glass adattáblát Nyissuk meg a glass.arff-ot Nézzük meg a fellelhető osztályozókat Válasszuk ki a J48 fa (tree) tanító módszert (trees>j48) Futtassuk Vizsgáljuk meg a kimenetet Nézzük meg a helyesen osztályozott egyedeket és a konfúziós mátrixot Vizsgáljuk a J48-at Nyissuk ki a konfigurációs panelt Kattintsunk a More information-ra Nézzük meg a lehetőségeket Használjunk unpruned (nyesetlen) fát Nézzük meg a levelek számosságát Állítsuk be a minnumobj értékét 15-re, hogy csökkentsük a levelek számát Jelenítsük meg a fát, használva a jobb-gomb menüt A C4.5-től a J48-ig ID3 (1979) C4.5 (1993) C4.8 (1996?) ebből lett a J48 C5.0 (üzleti) 1.4: Felépíteni egy osztályozót Osztályozók Weka-ban Osztályozni a glass adattáblát
Értelmezni a J48 kimenetét J48 konfigurációs panel opció: pruned vs unpruned (nyesett vagy nem nyesett) fák opció: elkerülni a sok falevelet J48 ~ C4.5
5 lecke használni egy szűrőt (filter) Használjunk egy szűrőt, hogy eltávolítsunk egy attribútumot Nyissuk meg a weather.nominal.arff állományt Nézzük meg a szűrőket - felügyelt vagy nem felügyelt - attribútum vs. instancia (egyed) Válasszuk a felügyelet nélküli szűrőt, a Remove-t Jelöljük ki a More information-t; nézzük meg a lehetőségeket Állítsuk be az attribútum indexét 3-ra, majd OK-zzuk le Emlékezzünk, hogy menteni tudjuk az eredményeket kattintsunk az Undo gombra Távolítsuk el azon egyedeket (sorokat, instanciákat), ahol a humidity értéke high Felülvigyázott vagy nem felülvigyázott (supervised or unsupervised) attribútum vagy instancia? Nézzük meg az adatokat Válasszuk ki a RemoveWithValues-t állítsuk be az aatributeindex-et Állítsuk be a nominalindice-t Alkalmazuk Undo Kevesebb attribútum, jobb osztályozás! Nyissuk meg a glass.arff-t futtassuk a J48-at iktassuk ki a Fe attribútumot Iktassuk ki minden attribútumot, kivéve RI és MG-t Nézzük meg a döntési fákat Használjuk a jobb-egérgombot a fa megjelenítésére
1.5 Lecke használjuk a szűrőket Szűrők Weka-ban Ellenőrzött vs ellenőrizetlen, attribútum vs instancia Hogy megtaláld az igazit, meg kell nézni Szűrők nagyon erősek lehetnek Megfelelően eltávolítva az attribútumokat - javíthatjuk a teljesítményt - megnövelhetjük az értelmezhetőséget
6-os lecke Megjeleníteni az adatokat Használjuk a Vizualize panelt Nyissuk meg az iris.arff-ot Hozzuk elő a Visualize panelt Kattintsunk az egyik diagramra; vizsgáljunk meg egypár instanciát Állítsuk az x tengelyértékhez a petalwidth-et és az y tengelyhez a petallength-et Kattintsunk a Class colour-ra, hogy megváltoztassuk a színt A jobboldalon meg tudjuk változtatni az x és y koordinátákhoz kapcsolt attribútumokat, bal gomb x attribútum, jobb gomb y attribútum Jitter használata Show Select Instance: Rectangle option Submit, reset, Clear és Save Megjeleníteni az osztályozási hibákat Futtassuk a J48-at Jelenítsük meg az osztályozási hibákat (a Result list-ből) Rajzoljuk meg az előrejelzett osztály és az osztály közötti összefüggést azonosítsuk a hibákat a konfúziós mátrix által 1.6 Az adatok megjelenítése Ugorjunk bele és mocskoljuk össze magunkat az adatainkkal Jelenítsük meg őket Takarítsuk meg őket úgy, hogy kitöröljük a kilógó sosokat Nézzünk rá az osztályozási hibákra - (van egy szűrő, amelyik megengedi, hogy új attribútumként bevegyük a model által megadott előrejelzett besorolást)