Data Mining. Slides for Chapter 2 of Data Mining by I. H. Witten, E. Frank and M. A. Hall

Save this PDF as:
 WORD  PNG  TXT  JPG

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Data Mining. Slides for Chapter 2 of Data Mining by I. H. Witten, E. Frank and M. A. Hall"

Átírás

1 Data Mining Machine Learning a gyakorlatban - eszközök és technikák Slides for Chapter 2 of Data Mining by I. H. Witten, E. Frank and M. A. Hall

2 Bemenet: Fogalmak, instanciák, attribútumok szaknyelv Mi egy fogalom? Klasszifikáció, asszociáció, csoportosítás, számszerű előrejelzés Mi egy példa? Összefüggések, sík állományok, rekurzió Mi egy attribútum? Névleges, sorrendi, intervallum, arány A bemenet előkészítése ARFF, attribútumok, hiányzó értékek, az adatok megismerése 2

3 Terminológia - szaknyelv A bemenet alkotóelemei: Fogalmak: bizonyos dolgok, amit tanulni lehet célkitűzés: érthető és múködőképes fogalomleírás Előfordulás: az egyed, független leírása a fogalomnak Megjegyzés: more complicated forms of input are possible Attribútumok: megmérik egy előfordulás aspektusát Mi a névleges re és numerikusra összpontosítunk 3

4 Mi egy fogalom? Tanulási stílusok: Osztályozási tanulás: predicting a discrete class Asszociációs tanulás: összefüggések felfedezése tulajdonságok között Csoportosítás: hasonló egyedek különböző csoportokba sorolása Számszerű előrejelzés: előrejelezni egy számban kifejezett mennyiséget Fogalom: dolog, amit meg kell tanulni Fogalom leírása: a tanulási séma kimenete 4

5 Osztályozási tanulás Példa problémák: időjárási adatok, kontakt lencsék, irisz virágok, munkahelyi tárgyalások Osztályozási tanulás felügyelt tanulás A séma elkészítése az aktuális kimenetke alapján történik A kimenetet a példa osztályának (class) nevezik Mérjük a sikert friss adatokkal, amelyekre az osztály-címkék tudottak (teszt adat) A gyakorlatban a sikert gyakran szubjektíven mérik 5

6 Asszociációs tanulás Alkalmazható abban az esetben, mikor nincs meghatározott osztály és bármiféle struktúra érdekes lehet. Különbség az osztályozási tanulástól: Előjelezheti bármely atribútum értékét, nemcsak az osztályét és több, mint egy attribútumét egyszerre Következmény: sokkal több asszociációs szabály, mint osztályozási szabály Tehát: megszorítások megadása szükséges Legkisebb lefödés és legkisebb pontosság 6

7 Csoportosítás (Clustering) Megtalálni olyan egyedeket amelyek hasonlóak A csoportosítás felügyelet nélküli tanulás Egy példa osztálya ismeretlen A siker mérése sokszor szubjektív Sepal length Sepal width Petal length Petal width Type Iris setosa Iris setosa Iris versicolor Iris versicolor Iris virginica Iris virginica 7

8 Számok általi előrejelzés Variant of classification learning where class is numeric (also called regression ) A tanulás felügyelettel történik A sémát a célérték szolgáltatja Teszt adatokon történik a sikerfelmérés Outlook Temperature Humidity Windy Play-time Sunny Hot High False 5 Sunny Hot High True 0 Overcast Hot High False 55 Rainy Mild Normal False 40 8

9 Mi egy példa? Instancia: egy példa specifikus tipusa Dolgok, amelyeket osztályozni, asszociálni vagy csoportosítani kell Egyedek, egymástól független példái a célfogalmaknak Jellemezve egy előre kiválasztott attribútumhalmazzal A A bemenet a tanuló sémára: instanciahalmaz/ adathalmaz Képviselve egy kapcsolattal/sík állomány Inkább korlátozott bemeneti minta Nincs összefüggés az objektumok között A leggyakoribb a gyakorlati data mining-ban 9

10 Egy családfa M = Peggy F Grace F = Ray M Steven M Graham M F = Ian M Pippa F Brian M Anna F Nikki F 10

11 Családfa táblázatban ábrázolva Name Gender Parent1 parent2 Male?? Peggy?? Steven Male Peggy Graham Male Peggy Peggy Ian Male Grace Ray Pippa Grace Ray Brian Male Grace Ray Anna Ian Nikki Ian 11

12 A sister-of reláció First person Second person Sister of? First person Second person Sister of? Peggy No Steven Steven No Graham Ian Pippa Steven No Brian Pippa Steven Graham No Anna Nikki Steven Nikki Anna All the rest No Ian Pippa Anna Nikki Closed-world assumption Nikki Anna yes 12

13 Teljes ábrázolás egyetlen táblában First person Second person Sister of? Name Gender Parent1 Parent2 Name Gender Parent1 Parent2 Steven Male Peggy Peggy Graham Male Peggy Peggy Ian Male Grace Ray Pippa Grace Ray Brian Male Grace Ray Pippa Grace Ray Anna Ian Nikki Ian Nikki Ian Anna Ian All the rest No If second person s gender = female and first person s parent = second person s parent then sister-of = yes 13

14 Sík állomány létrehozása A sík állománnyá tétel folyamata, a denormalizáció Pár relációt összekötünk, hogy egy táblává váljon Lehetséges akármilyen véges relációhalmazon Problematikus: kapcsolatok előre nem meghatározott számú objektummal Példa: nuclear-family fogalom Denormalizáció hamis szabályszerűségeket generálhatnak, amelyik az adatbázis struktúráját tükrözik Példa: beszállító előrejelzi a beszállító címét 14

15 Az ancestor-of reláció First person Second person Ancestor of? Name Gender Parent1 Parent2 Name Gender Parent1 Parent2 Male?? Steven Male Peggy Male?? Peggy Male?? Anna Ian Male?? Nikki Ian Peggy Nikki Ian Grace?? Ian Male Grace Ray Grace?? Nikki Ian Other positive examples here All the rest No 15

16 Rekurzió Végtelen reláció rekurziót igényel If person1 is a parent of person2 then person1 is an ancestor of person2 If person1 is a parent of person2 and person2 is an ancestor of person3 then person1 is an ancestor of person3 Alkalmas technikákat úgy ismerjük, mint induktív logikai programozás (pl. Quinlan nyelve: FOIL (First Order Inductive Learner)) Problémák: (a) zaj és (b) számítási komplexitás 16

17 Multi-instancia fogalmak Minden egyedi példa tartalmaz egy instanciahalmazt Minden instanciát ugyanaz az attribútumhalmaz írja le Egy, vagy több instancia egy példán belül felelős lehet az osztályozáshoz A tanulás célja még mindig az, hogy fogalmi leírást eredményezzen Lényeges valós alkalmazások pl. droggal kapcsolatos aktivitások előjelzése 17

18 Mi egy attribútum? Minden instanciát egy előre megadott tulajdonsághalmazzal írunk le, az attribútumok De: az attribútumok száma változhat a gyakorlatban Lehetséges megoldás: irreleváns érték zászló Kapcsolódó probléma: egy attribútum létezése függhet egy másik értékétől Lehetséges attribútum tipusok ( mérési szintek ): Névleges, sorrendi, intervallum és arány 18

19 Névleges mennyiségek Az értékek elkülönülő szimbólumok Az értékek maguk vagy címkék vagy neveket jelentenek Névleges a Latin name szóból ered (nominal) Példa: outlook attribútum az időjárás adatokból Értékek: sunny, overcast, and rainy (napos, felhős,esős) Semmilyen kapcsolat nem használható a névleges mennyiségek között (nincs sorbarendezési vagy távolsági mérték) Csak egyenlőségi ellenőrzést lehet elvégezni 19

20 Sorrendi mennyiségek Az értékeknek sorrendje van De: nincs távolság definiálva Példa: temperature attribútum az időjárási adatokban Értékek: hot > mild > cool Megjegyzés: összeadásnak és kivonásnak ninics értelme Példa szabály: temperature < hot play = yes Megkülönböztetés a névleges és a sorrendi között nem mindig tiszta (pl. outlook attribútum) 20

21 Intervallum mennyiségek Intervallum mennyiségek nem csak sorrendben vannak, hanem mérve fix és egyenlő egységekben 1 Példa: temperature attribútum Fahrenheit fokban kifejezve 2 Példa: year attribútum Két érték közötti különbségnek van értelme Összeg vagy szorzásnak nincs értelme Zéró pont nincs definiálva! 21

22 Arány mennyiségek Arány-mennyiségek azok, amelyekre a kezdőpontok definiálva vannak Példa: distance attributum Egy objektum saját magától zéró távolságra van Arány-mennyiségeket valós számként kezeljük Minden matematikai művelet megengedett De: van egy természeténél fogva meghatározott zéró pont? A válasz függ a tudományos tudástól (pl. Fahrenheitben nincs alsó határa a hőmérsékletnek) 22

23 Gyakorlatban használt attribútumok Legtöbb séma két szintet fogad csak el: névleges és sorrendi Névleges attribútumokat még kategória, felsorolás, vagy diszkrétnek is mondjuk De: felsorolás és diszkrét sorbarendezést feltételez Speciális eset: dichotómia ( logikai attribútum) Sorrendi attribútumokat numerikusnak, vagy folytonosnak nevezzük De: folytonos matematikai folytonosságot feltételez 23

24 Metaadat Az adatokról szóló információ, amelyik kódolja a háttértudást Használható a keresési tér beszűkítésére Példák: Mérettel kapcsolatos megfontolások (pl. a kifejezések dimenziós szempontból helyesek kell legyenek) Körkörös elrendezés (pl. fokok a szögmérőn) Részleges rendezés (pl. általánosítási/specializációs összefüggés) 24

25 Előkészíteni a bemenetet Denormalizáció nem az egyetlen opció Probléma: különböző adatforrások (pl. eladási osztály, ügyfélkifizetési osztály, ) Különbségek: adatfelvételi stílus, konvenciók, időperiódusok, adatösszevonás, elsődleges kulcsok, hibák Az adatokat össze kel rakni, integrálni, tisztítani Adattárház : belépési konszisztens pont Külső adatok szükségesek lehetnek ( burkoló adat ) Kritikus: adataggregáció tipusa és szintje 25

26 Az ARFF formátum % % ARFF file for weather data with some numeric features outlook {sunny, overcast, temperature humidity windy {true, play? {yes, sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes... 26

27 További attribútumtipusok ARFF támogatja a string description string Hasonlóképpen a névleges attribútumok listájához az értékek nincsenek előre megadva Ugyancsak támogatja a date today date Használja ISO-8601 kombinált dátum és idő formátumot yyyy-mm-dd-thh:mm:ss 27

28 Relációs attribútumok Megengedi a multi-instancia probléma reprezentációját ARFF formátumban A relációs attribútum értéke egy különálló instancia bag outlook { sunny, overcast, rainy temperature humidity windy { true, false bag Beágyazott attribútum tömbök megadják a hivatkozott instanciák struktúráját 28

29 Több-instanciájú ARFF % % Multiple instance ARFF file for the weather data bag_id { 1, 2, 3, 4, 5, 6, 7 bag outlook {sunny, overcast, temperature humidity windy {true, play? {yes, 1, sunny, 85, 85, false\nsunny, 80, 90, true, no 2, overcast, 83, 86, false\nrainy, 70, 96, false, yes... 29

30 Gyér adatok Egyes alkalmazásoknál a legtöbb attribútum értéke zéró Pl.: szószámlálás egy szöveg kategóriába sorolási problémában ARFF támogatja a gyér adatokat 0, 26, 0, 0, 0,0, 63, 0, 0, 0, class A 0, 0, 0, 42, 0, 0, 0, 0, 0, 0, class B {1 26, 6 63, 10 class A } {3 42, 10 class B } Ez ugyanúgy működik a névleges attribútumoknál (ahol az első értéknek megfelel a zero ) 30

31 Attribútum tipúsok ARFF attribútumok tipusok értelmezése függ a tanulási sémától Numerikus attribútumok értelmezése, mint Használjuk a sorrendi skála if less-than és greater-than hasonlításait arány skála ha távolsági számításokat végzünk (normalizáció/standardizáció lehetséges követelmény) Instancia-alapú sémák távolságot definiálnak a névleges értékek között (0, ha az értékek egyenlőek, 1 másképp) Egész értékek egy adott állományban: névleges, sorrendi vagy arány skála? 31

32 Névleges vs. számszerű age (életkor) attribútum névleges If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft age attribútum sorbarendezhető (pl. young < pre-presbyopic < presbyopic ) If age pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft 32

33 Hiányzó értékek Gyakran jelezve tartományon kívüli bemenetekkel Tipusok: ismeretlen, feljegyzetlen, irreleváns Okok: Rosszul működő berendezések Gyakorlati tervezésbeli változások Különböző adat összeolvasztott adat halmazok Mérés lehetetlensége Hiányzó értékeknek lehet saját értelme (pl. hiányzó tesztek orvosi vizsgálatokban) A legtöbb séma feltételezi nem ez a helyzet: hiányzó adatokat kódolni kell, mint egy különleges érték 33

34 Pontatlan értékek Érv: az adatokat nem azért gyújtötték, hogy bányásszanak Eredmény: Tévedések és kihagyások, amelyek nem befolyásolják az adatbányászat eredeti céjait (pl. az ügyfél kora) Elütési hibák a nominális attribútumoknál az értékek konzisztenciáját le kell ellenőrizni Elütési és mérési hibák a numerikus attribútumoknál szélsőséges értékeket azonosítani kell A hibák lehetnek szándékosak(pl. rossz postakód) Más problémák: duplikátumok, banális adatok 34

35 Megtapasztalni az adatokat Egyszerű vizualizációs eszközök hasznosak Névleges attribútumok: hisztogramok (Az eloszlás összeférhető a háttértudással?) Számszerű attribútumok: gráfok (További egyértelmű szélsőségek?) 2-D és 3-D rajzok mutatják a függőségeket Szükséges területi szakértő bevonása Túl sok adat van, amit meg kell vizsgálni? Vegyél egy mintát! 35