Data Mining. Slides for Chapter 2 of Data Mining by I. H. Witten, E. Frank and M. A. Hall

Hasonló dokumentumok
Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten)

Bevezetés az SPSS program használatába

Adatmodellezés. 1. Fogalmi modell

A statisztika alapjai - Bevezetés az SPSS-be -

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Méréselmélet MI BSc 1

BASH script programozás II. Vezérlési szerkezetek

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mérés és modellezés Méréstechnika VM, GM, MM 1

ADATBÁZIS-KEZELÉS. Relációs modell

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Adatbányászat és Perszonalizáció architektúra

Magas szintű adatmodellek Egyed/kapcsolat modell I.

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Megoldások a mintavizsga kérdések a VIMIAC04 tárgy ellenőrzési technikák részéhez kapcsolódóan (2017. május)

Bevezetés: az SQL-be

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Mérés és modellezés 1

TÁJÉKOZTATÓ. Matematikai kompetenciák fejlesztése tréning Nyilvántartásba vételi szám: E /2014/D004

Adatbázis rendszerek 2. előadás. Relációs algebra

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

A félév során előkerülő témakörök

Java-ról Kotlinra. Ekler Péter AutSoft BME AUT. AutSoft

ADATBÁZISOK. 4. gyakorlat: Redundanciák, funkcionális függőségek

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Csima Judit október 24.

2019, Funkcionális programozás. 2. el adás. MÁRTON Gyöngyvér

BASH SCRIPT SHELL JEGYZETEK

Követelmény a 6. évfolyamon félévkor matematikából

Követelmény az 5. évfolyamon félévkor matematikából

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Struktúra nélküli adatszerkezetek

1. gyakorlat. Mesterséges Intelligencia 2.

Követelmény a 7. évfolyamon félévkor matematikából

7. előadás. Karbantartási anomáliák, 1NF, 2NF, 3NF, BCNF. Adatbázisrendszerek előadás november 3.

3. modul - Szövegszerkesztés

Szakterületi modell A fogalmak megjelenítése. 9. fejezet Applying UML and Patterns Craig Larman

Logika es sz am ıt aselm elet I. r esz Logika 1/36

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

modell, amiben csak bináris sok-egy kapcsolatok (link, memberowner,

A relációs adatmodell

Adatbázisok elmélete 12. előadás

Programozás alapjai. 5. előadás

RELÁCIÓS ADATBÁZISSÉMÁK. Egyed-kapcsolat modellről átírás

Modellkiválasztás és struktúrák tanulása

Szoftver-mérés. Szoftver metrikák. Szoftver mérés

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Adatbázis rendszerek 2. előadás. Relációs algebra

Matematika. 1. évfolyam. I. félév

Adatbázis, adatbázis-kezelő

Dinamikus modellek szerkezete, SDG modellek

A valós számok halmaza

Adatbázismodellek. 1. ábra Hierarchikus modell

Fogalmak: Adatbázis Tábla Adatbázis sorai: Adatbázis oszlopai azonosító mező, egyedi kulcs Lekérdezések Jelentés Adattípusok: Szöveg Feljegyzés Szám

Lekérdezések az SQL-ben 1.rész

SQL ALAPOK. Bevezetés A MYSQL szintaxisa Táblák, adatok kezelésének alapjai

Operációs Rendszerek II. labor. 2. alkalom

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

az Excel for Windows programban

Adatbázis rendszerek. dr. Siki Zoltán

ADATBÁZIS-KEZELÉS. Relációalgebra, 5NF

Szoftverminőségbiztosítás

Karakterkészlet. A kis- és nagybetűk nem különböznek, a sztringliterálok belsejét leszámítva!

Adatmanipuláció, transzformáció, szelekció SPSS-ben

Az informatika kulcsfogalmai

Adatbázis rendszerek Definíciók:

Informatikai alapismeretek Földtudományi BSC számára

Funkcionális és logikai programozás. { Márton Gyöngyvér, 2012} { Sapientia, Erdélyi Magyar Tudományegyetem }

ABR ( Adatbázisrendszerek) 1. Előadás : Műveletek a relációs medellben

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé. (Albert Einstein) Halmazok 1

5. A kiterjesztési elv, nyelvi változók

Adatbázisok-1 előadás Előadó: dr. Hajas Csilla

7. előadás. Karbantartási anomáliák, 1NF, 2NF, 3NF, BCNF, 4NF, 5NF. Adatbázisrendszerek előadás november 7.

Gépi tanulás a gyakorlatban. Lineáris regresszió

Számítógépes döntéstámogatás. Döntések fuzzy környezetben Közelítő következtetések

10-es Kurzus. OMT modellek és diagramok OMT metodológia. OMT (Object Modelling Technique)

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

Cellák. Sorok számozás Oszlop betű Cellák jelölése C5

Halmazelmélet. 1. előadás. Farkas István. DE ATC Gazdaságelemzési és Statisztikai Tanszék. Halmazelmélet p. 1/1

Microsoft Excel Gyakoriság

A benchmarking fogalma

Adatbázisok I. Jánosi-Rancz Katalin Tünde 327A 1-1

Lekérdezések az SQL-ben 1.rész

A digitális analóg és az analóg digitális átalakító áramkör

Circuit breaker control function funkcióhoz block description. Beállítási útmutató az árambemeneti

Bizonytalanság. Mesterséges intelligencia április 4.

Adatbányászati technikák (VISZM185) 2015 tavasz

Apple Swift kurzus 3. gyakorlat

2. Fejezet : Számrendszerek

Bonyolultságelmélet. Monday 26 th September, 2016, 18:50

Gyakorlatias tanácsok PLA fejlesztőknek

Adatbáziskezelés alapjai. jegyzet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatbányászati szemelvények MapReduce környezetben

Matematika. J a v í t ó k u l c s. 8. évfolyam. Oktatási Hivatal Közoktatási Mérési Értékelési Osztály 1054 Budapest, Báthory utca 10.

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Adatbázis tervezés normál formák segítségével

Matematikai geodéziai számítások 6.

INFORMATIKA ÁGAZATI ALKALMAZÁSAI. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

1. előadás: Halmazelmélet, számfogalom, teljes

Átírás:

Data Mining Machine Learning a gyakorlatban - eszközök és technikák Slides for Chapter 2 of Data Mining by I. H. Witten, E. Frank and M. A. Hall

Bemenet: Fogalmak, instanciák, attribútumok szaknyelv Mi egy fogalom? Klasszifikáció, asszociáció, csoportosítás, számszerű előrejelzés Mi egy példa? Összefüggések, sík állományok, rekurzió Mi egy attribútum? Névleges, sorrendi, intervallum, arány A bemenet előkészítése ARFF, attribútumok, hiányzó értékek, az adatok megismerése 2

Terminológia - szaknyelv A bemenet alkotóelemei: Fogalmak: bizonyos dolgok, amit tanulni lehet célkitűzés: érthető és múködőképes fogalomleírás Előfordulás: az egyed, független leírása a fogalomnak Megjegyzés: more complicated forms of input are possible Attribútumok: megmérik egy előfordulás aspektusát Mi a névleges re és numerikusra összpontosítunk 3

Mi egy fogalom? Tanulási stílusok: Osztályozási tanulás: predicting a discrete class Asszociációs tanulás: összefüggések felfedezése tulajdonságok között Csoportosítás: hasonló egyedek különböző csoportokba sorolása Számszerű előrejelzés: előrejelezni egy számban kifejezett mennyiséget Fogalom: dolog, amit meg kell tanulni Fogalom leírása: a tanulási séma kimenete 4

Osztályozási tanulás Példa problémák: időjárási adatok, kontakt lencsék, irisz virágok, munkahelyi tárgyalások Osztályozási tanulás felügyelt tanulás A séma elkészítése az aktuális kimenetke alapján történik A kimenetet a példa osztályának (class) nevezik Mérjük a sikert friss adatokkal, amelyekre az osztály-címkék tudottak (teszt adat) A gyakorlatban a sikert gyakran szubjektíven mérik 5

Asszociációs tanulás Alkalmazható abban az esetben, mikor nincs meghatározott osztály és bármiféle struktúra érdekes lehet. Különbség az osztályozási tanulástól: Előjelezheti bármely atribútum értékét, nemcsak az osztályét és több, mint egy attribútumét egyszerre Következmény: sokkal több asszociációs szabály, mint osztályozási szabály Tehát: megszorítások megadása szükséges Legkisebb lefödés és legkisebb pontosság 6

Csoportosítás (Clustering) Megtalálni olyan egyedeket amelyek hasonlóak A csoportosítás felügyelet nélküli tanulás Egy példa osztálya ismeretlen A siker mérése sokszor szubjektív Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 1.4 0.2 Iris setosa 51 7.0 3.2 4.7 1.4 Iris versicolor 52 6.4 3.2 4.5 1.5 Iris versicolor 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 5.1 1.9 Iris virginica 7

Számok általi előrejelzés Variant of classification learning where class is numeric (also called regression ) A tanulás felügyelettel történik A sémát a célérték szolgáltatja Teszt adatokon történik a sikerfelmérés Outlook Temperature Humidity Windy Play-time Sunny Hot High False 5 Sunny Hot High True 0 Overcast Hot High False 55 Rainy Mild Normal False 40 8

Mi egy példa? Instancia: egy példa specifikus tipusa Dolgok, amelyeket osztályozni, asszociálni vagy csoportosítani kell Egyedek, egymástól független példái a célfogalmaknak Jellemezve egy előre kiválasztott attribútumhalmazzal A A bemenet a tanuló sémára: instanciahalmaz/ adathalmaz Képviselve egy kapcsolattal/sík állomány Inkább korlátozott bemeneti minta Nincs összefüggés az objektumok között A leggyakoribb a gyakorlati data mining-ban 9

Egy családfa M = Peggy F Grace F = Ray M Steven M Graham M F = Ian M Pippa F Brian M Anna F Nikki F 10

Családfa táblázatban ábrázolva Name Gender Parent1 parent2 Male?? Peggy?? Steven Male Peggy Graham Male Peggy Peggy Ian Male Grace Ray Pippa Grace Ray Brian Male Grace Ray Anna Ian Nikki Ian 11

A sister-of reláció First person Second person Sister of? First person Second person Sister of? Peggy No Steven Steven No Graham Ian Pippa Steven No Brian Pippa Steven Graham No Anna Nikki Steven Nikki Anna All the rest No Ian Pippa Anna Nikki Closed-world assumption Nikki Anna yes 12

Teljes ábrázolás egyetlen táblában First person Second person Sister of? Name Gender Parent1 Parent2 Name Gender Parent1 Parent2 Steven Male Peggy Peggy Graham Male Peggy Peggy Ian Male Grace Ray Pippa Grace Ray Brian Male Grace Ray Pippa Grace Ray Anna Ian Nikki Ian Nikki Ian Anna Ian All the rest No If second person s gender = female and first person s parent = second person s parent then sister-of = yes 13

Sík állomány létrehozása A sík állománnyá tétel folyamata, a denormalizáció Pár relációt összekötünk, hogy egy táblává váljon Lehetséges akármilyen véges relációhalmazon Problematikus: kapcsolatok előre nem meghatározott számú objektummal Példa: nuclear-family fogalom Denormalizáció hamis szabályszerűségeket generálhatnak, amelyik az adatbázis struktúráját tükrözik Példa: beszállító előrejelzi a beszállító címét 14

Az ancestor-of reláció First person Second person Ancestor of? Name Gender Parent1 Parent2 Name Gender Parent1 Parent2 Male?? Steven Male Peggy Male?? Peggy Male?? Anna Ian Male?? Nikki Ian Peggy Nikki Ian Grace?? Ian Male Grace Ray Grace?? Nikki Ian Other positive examples here All the rest No 15

Rekurzió Végtelen reláció rekurziót igényel If person1 is a parent of person2 then person1 is an ancestor of person2 If person1 is a parent of person2 and person2 is an ancestor of person3 then person1 is an ancestor of person3 Alkalmas technikákat úgy ismerjük, mint induktív logikai programozás (pl. Quinlan nyelve: FOIL (First Order Inductive Learner)) Problémák: (a) zaj és (b) számítási komplexitás 16

Multi-instancia fogalmak Minden egyedi példa tartalmaz egy instanciahalmazt Minden instanciát ugyanaz az attribútumhalmaz írja le Egy, vagy több instancia egy példán belül felelős lehet az osztályozáshoz A tanulás célja még mindig az, hogy fogalmi leírást eredményezzen Lényeges valós alkalmazások pl. droggal kapcsolatos aktivitások előjelzése 17

Mi egy attribútum? Minden instanciát egy előre megadott tulajdonsághalmazzal írunk le, az attribútumok De: az attribútumok száma változhat a gyakorlatban Lehetséges megoldás: irreleváns érték zászló Kapcsolódó probléma: egy attribútum létezése függhet egy másik értékétől Lehetséges attribútum tipusok ( mérési szintek ): Névleges, sorrendi, intervallum és arány 18

Névleges mennyiségek Az értékek elkülönülő szimbólumok Az értékek maguk vagy címkék vagy neveket jelentenek Névleges a Latin name szóból ered (nominal) Példa: outlook attribútum az időjárás adatokból Értékek: sunny, overcast, and rainy (napos, felhős,esős) Semmilyen kapcsolat nem használható a névleges mennyiségek között (nincs sorbarendezési vagy távolsági mérték) Csak egyenlőségi ellenőrzést lehet elvégezni 19

Sorrendi mennyiségek Az értékeknek sorrendje van De: nincs távolság definiálva Példa: temperature attribútum az időjárási adatokban Értékek: hot > mild > cool Megjegyzés: összeadásnak és kivonásnak ninics értelme Példa szabály: temperature < hot play = yes Megkülönböztetés a névleges és a sorrendi között nem mindig tiszta (pl. outlook attribútum) 20

Intervallum mennyiségek Intervallum mennyiségek nem csak sorrendben vannak, hanem mérve fix és egyenlő egységekben 1 Példa: temperature attribútum Fahrenheit fokban kifejezve 2 Példa: year attribútum Két érték közötti különbségnek van értelme Összeg vagy szorzásnak nincs értelme Zéró pont nincs definiálva! 21

Arány mennyiségek Arány-mennyiségek azok, amelyekre a kezdőpontok definiálva vannak Példa: distance attributum Egy objektum saját magától zéró távolságra van Arány-mennyiségeket valós számként kezeljük Minden matematikai művelet megengedett De: van egy természeténél fogva meghatározott zéró pont? A válasz függ a tudományos tudástól (pl. Fahrenheitben nincs alsó határa a hőmérsékletnek) 22

Gyakorlatban használt attribútumok Legtöbb séma két szintet fogad csak el: névleges és sorrendi Névleges attribútumokat még kategória, felsorolás, vagy diszkrétnek is mondjuk De: felsorolás és diszkrét sorbarendezést feltételez Speciális eset: dichotómia ( logikai attribútum) Sorrendi attribútumokat numerikusnak, vagy folytonosnak nevezzük De: folytonos matematikai folytonosságot feltételez 23

Metaadat Az adatokról szóló információ, amelyik kódolja a háttértudást Használható a keresési tér beszűkítésére Példák: Mérettel kapcsolatos megfontolások (pl. a kifejezések dimenziós szempontból helyesek kell legyenek) Körkörös elrendezés (pl. fokok a szögmérőn) Részleges rendezés (pl. általánosítási/specializációs összefüggés) 24

Előkészíteni a bemenetet Denormalizáció nem az egyetlen opció Probléma: különböző adatforrások (pl. eladási osztály, ügyfélkifizetési osztály, ) Különbségek: adatfelvételi stílus, konvenciók, időperiódusok, adatösszevonás, elsődleges kulcsok, hibák Az adatokat össze kel rakni, integrálni, tisztítani Adattárház : belépési konszisztens pont Külső adatok szükségesek lehetnek ( burkoló adat ) Kritikus: adataggregáció tipusa és szintje 25

Az ARFF formátum % % ARFF file for weather data with some numeric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play? {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes... 26

További attribútumtipusok ARFF támogatja a string attribútumokat: @attribute description string Hasonlóképpen a névleges attribútumok listájához az értékek nincsenek előre megadva Ugyancsak támogatja a date attribútumokat: @attribute today date Használja ISO-8601 kombinált dátum és idő formátumot yyyy-mm-dd-thh:mm:ss 27

Relációs attribútumok Megengedi a multi-instancia probléma reprezentációját ARFF formátumban A relációs attribútum értéke egy különálló instancia halmaz @attribute bag relational @attribute outlook { sunny, overcast, rainy } @attribute temperature numeric @attribute humidity numeric @attribute windy { true, false } @end bag Beágyazott attribútum tömbök megadják a hivatkozott instanciák struktúráját 28

Több-instanciájú ARFF % % Multiple instance ARFF file for the weather data % @relation weather @attribute bag_id { 1, 2, 3, 4, 5, 6, 7 } @attribute bag relational @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play? {yes, no} @end bag @data 1, sunny, 85, 85, false\nsunny, 80, 90, true, no 2, overcast, 83, 86, false\nrainy, 70, 96, false, yes... 29

Gyér adatok Egyes alkalmazásoknál a legtöbb attribútum értéke zéró Pl.: szószámlálás egy szöveg kategóriába sorolási problémában ARFF támogatja a gyér adatokat 0, 26, 0, 0, 0,0, 63, 0, 0, 0, class A 0, 0, 0, 42, 0, 0, 0, 0, 0, 0, class B {1 26, 6 63, 10 class A } {3 42, 10 class B } Ez ugyanúgy működik a névleges attribútumoknál (ahol az első értéknek megfelel a zero ) 30

Attribútum tipúsok ARFF attribútumok tipusok értelmezése függ a tanulási sémától Numerikus attribútumok értelmezése, mint Használjuk a sorrendi skála if less-than és greater-than hasonlításait arány skála ha távolsági számításokat végzünk (normalizáció/standardizáció lehetséges követelmény) Instancia-alapú sémák távolságot definiálnak a névleges értékek között (0, ha az értékek egyenlőek, 1 másképp) Egész értékek egy adott állományban: névleges, sorrendi vagy arány skála? 31

Névleges vs. számszerű age (életkor) attribútum névleges If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft age attribútum sorbarendezhető (pl. young < pre-presbyopic < presbyopic ) If age pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft 32

Hiányzó értékek Gyakran jelezve tartományon kívüli bemenetekkel Tipusok: ismeretlen, feljegyzetlen, irreleváns Okok: Rosszul működő berendezések Gyakorlati tervezésbeli változások Különböző adat összeolvasztott adat halmazok Mérés lehetetlensége Hiányzó értékeknek lehet saját értelme (pl. hiányzó tesztek orvosi vizsgálatokban) A legtöbb séma feltételezi nem ez a helyzet: hiányzó adatokat kódolni kell, mint egy különleges érték 33

Pontatlan értékek Érv: az adatokat nem azért gyújtötték, hogy bányásszanak Eredmény: Tévedések és kihagyások, amelyek nem befolyásolják az adatbányászat eredeti céjait (pl. az ügyfél kora) Elütési hibák a nominális attribútumoknál az értékek konzisztenciáját le kell ellenőrizni Elütési és mérési hibák a numerikus attribútumoknál szélsőséges értékeket azonosítani kell A hibák lehetnek szándékosak(pl. rossz postakód) Más problémák: duplikátumok, banális adatok 34

Megtapasztalni az adatokat Egyszerű vizualizációs eszközök hasznosak Névleges attribútumok: hisztogramok (Az eloszlás összeférhető a háttértudással?) Számszerű attribútumok: gráfok (További egyértelmű szélsőségek?) 2-D és 3-D rajzok mutatják a függőségeket Szükséges területi szakértő bevonása Túl sok adat van, amit meg kell vizsgálni? Vegyél egy mintát! 35