Gyakorló feladatok adatbányászati technikák tantárgyhoz



Hasonló dokumentumok
Klaszterezés, 2. rész

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Közösség detektálás gráfokban

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

Adatelemzés és adatbányászat MSc

Adatbányászati szemelvények MapReduce környezetben

Adatbányászat. Gyakori elemhalmazok Asszociációs és döntési szabályok. Szegedi Tudományegyetem. Vásárlói kosarak Gyakori elemhalmazok FP-growth

KLASZTERANALÍZIS OSZTÁLYOZÁS

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Gyakori elemhalmazok kinyerése

Izgalmas újdonságok a klaszteranalízisben

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

7. Régió alapú szegmentálás

Adatbányászat. Klaszterezés Szociális hálózatok. Szegei Tudományegyetem. Lehetetlenségi tétel Hierarchikus eljárások Particionáló módszerek

Eredmények kiértékelése

Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján. Típusok: felügyelt és felügyelet nélküli tanuló eljárások

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Gráfok, definíciók. Gráfok ábrázolása. Az adott probléma megoldásához ténylegesen mely műveletek szükségesek. Ábrázolások. Példa:

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Hash-alapú keresések

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Gépi tanulás a gyakorlatban. Bevezetés

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Társadalmi és gazdasági hálózatok modellezése

Adatbányászat. Klaszterezés Szociális hálózatok Szegedi Tudományegyetem

A LEGKÖZELEBBI SZOMSZÉD ANALÍZISHEZ SZÜKSÉGES TERÜLETI ADATBÁZISOK KIALAKÍTÁSÁNAK MÓDSZERTANI KÉRDÉSEI

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

Gyakori elemhalmazok és asszociációs szabályok

Nagy adathalmazok labor

Felvételi tematika INFORMATIKA

A segédletben található esetleges hibákkal kapcsolatos visszajelzéseket szívesen veszem.

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Algoritmuselmélet. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 13.

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

Szociális hálózatok Gráf alapú módszerek. Adatbányászat. Klaszterezés Szociális hálózatok. Szegedi Tudományegyetem. Adatbányászat

Az objektum leírására szolgálnak. Mire jók? Sokszor maga a jellemző az érdekes: Tömörítés. Objektumok csoportosítására

Asszociációs szabályok

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Klaszterezés Alapok A hasonlóság és távolság tulajdonságai

Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok

Algoritmuselmélet. Legrövidebb utak, Bellmann-Ford, Dijkstra. Katona Gyula Y.

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Saj at ert ek-probl em ak febru ar 26.

Országos Szakiskolai Közismereti Tanulmányi Verseny 2008/2009 MATEMATIKA FIZIKA

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

MATEMATIKA HETI 5 ÓRA

MATEMATIKA ÉRETTSÉGI május 8. EMELT SZINT

Gépelésdinamika alapján történő személyazonosítás a SUCCESS semi-supervised osztályozási eljárás felhasználásával

Csima Judit május 10.

Matematikai statisztika Gazdaságinformatikus MSc október 15. Adatredukció. Klaszteranaĺızis. Diszkriminancia anaĺızis, Osztályozás

1. Olvassuk be két pont koordinátáit: (x1, y1) és (x2, y2). Határozzuk meg a két pont távolságát és nyomtassuk ki.

Matematikai statisztika Gazdaságinformatikus MSc október 15. Adatredukció. Klaszteranaĺızis. Diszkriminancia anaĺızis, Osztályozás

Gyakori elemhalmazok

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

Struktúra nélküli adatszerkezetek

Robotok inverz geometriája

Az egyenes egyenlete: 2 pont. Az összevont alak: 1 pont. Melyik ábrán látható e függvény grafikonjának egy részlete?

JÁTÉKELMÉLETTEL KAPCSOLATOS FELADATOK

Iceberg ajánlatok a BÉT-en Összefoglalás

Csima Judit április 29.

Csima Judit november 15.

Műveletek egész számokkal

I. rész. 1. feladat Oldjuk meg a következő egyenletrendszert, illetve egyenlőtlenséget a valós számok halmazán!

Adatbányászati technikák (VISZM185) 2015 tavasz

1. FELADAT: SZÁMÍTSD KI A KÖVETKEZŐ SZÁMKIFEJEZÉSEK ÉRTÉKEIT:

Gyakorló feladatok. Agbeko Kwami Nutefe és Nagy Noémi

1. Egy Kft dolgozóit a havi bruttó kereseteik alapján csoportosítottuk: Havi bruttó bér, ezer Ft/fő

Csima Judit BME, VIK, november 9. és 16.

Egész számok értelmezése, összehasonlítása

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Kollektív tanulás milliós hálózatokban. Jelasity Márk

A PEDAGÓGIAI HOZZÁADOTT ÉRTÉK KONCEPCIÓJÁRÓL

Segédlet: Főfeszültségek meghatározása Mohr-féle feszültségi körök alkalmazásával

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

15. LINEÁRIS EGYENLETRENDSZEREK

Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten)

1. szemináriumi. feladatok. Ricardói modell Bevezetés

Beltéri pozicionálási módszerek hatékonyságának javítása adatbányászati módszerek támogatásával

Tanszéki Általános Formai Követelmények

Kódverifikáció gépi tanulással

Szemantikus világháló a BME-n

Adatbázisok elmélete 9. előadás

értékel függvény: rátermettségi függvény (tness function)

Random Forests - Véletlen erdők

Numerikus matematika vizsga

Simon Károly Babes Bolyai Tudományegyetem

Csima Judit október 24.

Tanszéki Általános Formai Követelmények

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Grafikonok automatikus elemzése

Q 1 D Q 2 (D x) 2 (1.1)

(d) a = 5; c b = 16 3 (e) b = 13; c b = 12 (f) c a = 2; c b = 5. Számítsuk ki minden esteben a háromszög kerületét és területét.

Átírás:

Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem

Klaszterezés kiértékelése Feladat: Egy klaszterező algoritmus által adott csoportosítást referencia-csoportokhoz (osztályokhoz) viszonyítunk. Az alábbi táblázat mutatja az egyes klaszterekbe tartozó példányok számát osztályonként. Számítsa ki a klaszterező algoritmus eredményének aggregált F-measure-jét! Mikor teljesít az algoritmus jól: ha a kiszámított F-measure nagy vagy ha kicsi? 1. klaszter 2. klaszter 3. klaszter 4. klaszter 1. osztály 40 20 15 15 2. osztály 5 20 5 10 3. osztály 5 10 5 25

Klaszterezés kiértékelése Megoldás: 1. lépés: Úgy tekintjük, hogy a j-dik klaszter válasz egy olyan lekérdezésre, amelyre a helyes válasz az i-dik osztálybeli példányok halmaza. Kiszámoljuk az összes osztály-klaszter párra a precision-t és recall-t. Jelölés: precision(i,j) ill. recall(i,j) = j-dik klaszter i-dik osztályra vonatkozó precision-je ill. recall-ja 1. klaszter 2. klaszter 3. klaszter 4. klaszter 1. osztály 40 20 15 15 2. osztály 5 20 5 10 3. osztály 5 10 5 25

Klaszterezés kiértékelése Megoldás (folytatás): precision(1,1) = 40 / 50 precision(1,3) = 15 / 25 recall(1,1) = 40 / 90 recall(1,3) = 15 / 90 precision(1,2) = 20 / 50 precision(1,4) = 15 / 50 recall(1,2) = 20 / 90 recall(1,4) = 15 / 90 1. k. 2. k. 3. k. 4. k. Összesen 1. oszt. 40 20 15 15 90 2. oszt. 5 20 5 10 40 3. oszt. 5 10 5 25 45 Összesen 50 50 25 50

Klaszterezés kiértékelése Megoldás (folytatás): precision(2,1) = 5 / 50 precision(2,3) = 5 / 25 recall(2,1) = 5 / 40 recall(2,3) = 5 / 40 precision(2,2) = 20 / 50 precision(2,4) = 10 / 50 recall(2,2) = 20 / 40 recall(2,4) = 10 / 40 1. k. 2. k. 3. k. 4. k. Összesen 1. oszt. 40 20 15 15 90 2. oszt. 5 20 5 10 40 3. oszt. 5 10 5 25 45 Összesen 50 50 25 50

Klaszterezés kiértékelése Megoldás (folytatás): precision(3,1) = 5 / 50 precision(3,3) = 5 / 25 recall(3,1) = 5 / 45 recall(3,3) = 5 / 45 precision(3,2) = 10 / 50 precision(3,4) = 25 / 50 recall(3,2) = 10 / 45 recall(3,4) = 25 / 45 1. k. 2. k. 3. k. 4. k. Összesen 1. oszt. 40 20 15 15 90 2. oszt. 5 20 5 10 40 3. oszt. 5 10 5 25 45 Összesen 50 50 25 50

Klaszterezés kiértékelése Megoldás (folytatás): F-measure-t számolunk az osztály-klaszter-párokra F = 2*precision*recall / ( precision + recall ) precision(1,1) = 40 / 50 recall(1,1) = 40 / 90 f(1,1) = 2*0.8*0.44 / (0.8+0.44) = 0.57 precision(1,2) = 20 / 50 recall(1,2) = 20 / 90 f(1,2) = 2*0.4*0.22 / (0.4+0.22) = 0.28...

Klaszterezés kiértékelése Megoldás (folytatás): f(1,1) = 0.57 f(2,1) = 0.11 f(3,1) = 0.11 f(1,2) = 0.28 f(2,2) = 0.44 f(3,2) = 0.21 f(1,3) = 0.26 f(2,3) = 0.15 f(3,3) = 0.14 f(1,4) = 0.21 f(2,4) = 0.22 f(3,4) = 0.53 Aggregált F-measure: F = (90/175)*0.57 + (40/175)*0.44 + (45/175)*0.53 = 0.53 - minden osztályra megnézzük, hogy melyik klaszter adja a maximális F-measure-t - súlyozottan átlagolunk az osztályok mérete alapján (lásd még: Milos Radovanovic: Representations and Metrics in High- Dimensional Data Mining, Novi Sad, 2011)

k-means Feladat: A k-means i-dik iterációja után az ábrán jelölt klaszterközéppontok adódtak. Hajtsa végre az i+1-dik iterációt, és adja meg az i+1-dik iteráció végén az új klaszterközéppontokat! 1 0.5 0.25 0.25 0.75 1 2 2.5

k-means Megoldás: 1. lépés: minden pontot (példányt, rekordot...) a hozzá legközelebbi klaszterközépponthoz rendelünk hozzá. 1 0.5 0.25 0.25 0.75 1 2 2.5

k-means Megoldás: 2. lépés: kiszámoljuk az új középpontokat Piros klaszer: x = (0.25+0.25+0.5+0.75+0.75)/5 = 0.5 y = (0.25+0.5+1+0.25+0.5)/5=0.5 Zöld klaszter: x = (1+1+2+2+2.5+2.5+2.5)/7=1.92 y = (1+0.5+1+0.5+1+0.5+0.25)/7=0.68 1 0.5 0.25 0.25 0.75 1 2 2.5

k-means Új klaszterközéppontok: 1 0.5 0.25 0.25 0.75 1 2 2.5

Furthest First Feladat: A Furthest First algoritmussal 3 klasztert keresünk. Az adatpéldányok egy 2-dimenziós tér pontjainak feleltethetők meg (2 numerikus attribútummal rendelkeznek). Az első klaszterközéppontnak az ábrán jelölt pontot választottuk. Adja meg a FurthestFirst által választott további klaszterközéppontokat!

Furthest First Feladat: A Furthest First algoritmussal 3 klasztert keresünk. Az adatpéldányok egy 2-dimenziós tér pontjainak feleltethetők meg (2 numerikus attribútummal rendelkeznek). Az első klaszterközéppontnak az ábrán jelölt pontot választottuk. Adja meg a FurthestFirst által választott további klaszterközéppontokat! 3 2

Hierarchikus klaszterező Feladat: Adott az alábbi távolság mátrix. Mutassa meg egy dendogram segítségével, hogyan klaszterezi a példányokat a Single Linkage, Complete Linkage és Average Linkage! 1 2 3 4 5 1 0 0.5 1.5 2 6 2 0.5 0 1 4 7 3 1.5 1 0 5.5 6 4 2 4 5.5 0 2 5 6 7 6 2 0

Hierarchikus klaszterező - Kezdetben minden példány külön klaszter - Iteratíve mindig a két leghasonlóbb klasztert egyesíti Leállási feltétel: hasonlósági küszöbszám vagy klaszterek száma - Két klaszter hasonlósága: - Single Link: leghasonlóbb elempár alapján - Complete Link: legkevésbé hasonló elempár alapján - Average Link: páronkénti hasonlóságok/távolságok átlaga

Hierarchikus klaszterező A feladatban távolság mátrix adott: hasonló elempárok távolsága kicsi, különbözőké nagy. (Figyeljünk, hogy hasonlósági vagy távolság mátrix adott-e!) 1 2 3 4 5 1 2 3 4 5 Single link: jobboldai vagy baloldali Average link: baloldali Complete link: baloldali

Asszociációs szabályok Feladat: adott az alábbi tranzakciós adatbázis. Számolja ki a {csavarhúzó, kalapács} elemhalmaz támogatottságát (support-ját)! TID Elemek 1 csavarhúzó, kalapács, vezeték 2 csavarhúzó, tégla, csempe 3 csavarhúzó, szög, kalapács 4 csavarhúzó, alátét, csavar 5 csavarhúzó, szög 6 szög, kalapács, vezeték

Asszociációs szabályok Megoldás: {csavarhúzó, kalapács} elemhalmaz abszolút támogatottsága: 2 relatív támogatottsága: 2/6 = 0.33 TID Elemek 1 csavarhúzó, kalapács, vezeték 2 csavarhúzó, tégla, csempe 3 csavarhúzó, szög, kalapács 4 csavarhúzó, alátét, csavar 5 csavarhúzó, szög 6 szög, kalapács, vezeték

Asszociációs szabályok Feladat: adott az alábbi tranzakciós adatbázis. Számolja ki a {csavarhúzó, kalapács} {szög} asszociációs szabály támogatottságát, konfidenciájá és lift-mutatóját! TID Elemek 1 csavarhúzó, kalapács, vezeték 2 csavarhúzó, tégla, csempe 3 csavarhúzó, szög, kalapács 4 csavarhúzó, alátét, csavar 5 csavarhúzó, szög 6 szög, kalapács, vezeték

Asszociációs szabályok Megoldás: {csavarhúzó, kalapács} {szög} támogatottsága: {csavarhúzó, kalapács, szög} támogatottsága, azaz 1 ill. 1/6 (abszolút ill. relatív támogatottság) konfidencia: 1 / 2 = 0.5 (2-szer fordul elő {csavarhúzó, kalapács}, de ezek közül csak egy tranzakcióban szerepel szög) lift-mutató: (1/6) / ( (2/6)*(3/6) ) = 1 TID Elemek 1 csavarhúzó, kalapács, vezeték 2 csavarhúzó, tégla, csempe 3 csavarhúzó, szög, kalapács 4 csavarhúzó, alátét, csavar 5 csavarhúzó, szög 6 szög, kalapács, vezeték

Asszociációs szabályok Ábrázolja prefx-fában az elöbbi tranzakciós adatbázist. Az elemek sorrendezésnek válassza a) az ABC-szerinti sorrend fordítottját b) az alábbit: csavarhúzó, tégla, vezeték, kalapács, csempe, szög, alátét