Csima Judit május 10.

Hasonló dokumentumok
Csima Judit április 29.

Gyakori elemhalmazok kinyerése

Adatbányászat: Társítási szabályok Alapfogalmak és algoritmusok

Adatbányászat: Asszociációs szabályok Alapfogalmak és algoritmusok

Adatbányászat. Gyakori elemhalmazok Asszociációs és döntési szabályok. Szegedi Tudományegyetem. Vásárlói kosarak Gyakori elemhalmazok FP-growth

Gyakori elemhalmazok

Gyakori elemhalmazok és asszociációs szabályok

Klaszterezés, 2. rész

Csima Judit április 9.

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Csima Judit BME, VIK, november 9. és 16.

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

Csima Judit november 15.

Asszociációs szabályok

Mapping Sequencing Reads to a Reference Genome

(. 04 *A 0, 0 2* ( ( =!"#$!" #$% &' %& # () *+,-./ # 56789:; - 2 F G ()H2 IJKFLMNF O>? ; G 2.3G VWO&# 2 KXY; O [

Algoritmuselmélet. Gráfok megadása, szélességi bejárás, összefüggőség, párosítás. Katona Gyula Y.

Csima Judit október 24.

Dependency preservation

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Intelligens Rendszerek Elmélete IRE 4/32/1

Construction of a cube given with its centre and a sideline

Pletykaalapú gépi tanulás teljesen elosztott környezetben

Csima Judit február 19.

Statistical Dependence

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

DIGITÁLIS TECHNIKA GYAKORLÓ FELADATOK 2. Megoldások

Megoldás Digitális technika I. (vimia102) 3. gyakorlat: Kombinációs hálózatok minimalizálása, hazárdok, a realizálás kérdései

Algoritmuselmélet. Mélységi keresés és alkalmazásai. Katona Gyula Y.

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41


Csima Judit február 26.

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Minden amerikanisztika szakos vegye fel az az alábbi elıadásokat (a

Kérdőív a klímaváltozásról. Statisztikai értékelés. Készítette: Kovács Mária, Szépszó Gabriella, Szabó Péter, Krüzselyi Ilona

Cluster Analysis. Potyó László

Diszkrét matematika II. gyakorlat

Outsourcing és Cloud Biztonsági kérdések

GYAKORI RÉSZGRÁFOK KERESÉSE HÁLÓZATOKON

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Hallgatói preferencia rangsorok készítése a jelentkezések alapján

Computer Architecture

Mesterséges intelligencia 2. laborgyakorlat


Tárgyév adata december 31. Tárgyév adata december 31. A tétel megnevezése

Hortobágy Községi Önkormányzat Képviselő-testületének

On The Number Of Slim Semimodular Lattices

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Utolsó frissítés / Last update: február Szerkesztő / Editor: Csatlós Árpádné

Utolsó frissítés / Last update: Szeptember / September Szerkesztő / Editor: Csatlós Árpádné

Tranzakciókezelés PL/SQL-ben

A számítástudomány alapjai. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem

Angol szóbeli Információkérés

A B C D EF C D EF C C BF A BC DE F D A E E E E D C C E DC C E E DC C C E D D E A D A E A

2018, Diszkrét matematika

Kereső algoritmusok a diszkrét optimalizálás problémájához

Adatbányászati technikák (VISZM185) 2015 tavasz

Algoritmuselmélet. Bonyolultságelmélet. Katona Gyula Y.

Csima Judit március 9. és 16.

az Excel for Windows programban

Think customer Hatékony ügyfélszolgálat és megvalósítási módszertan. WorkShop

Kereső algoritmusok a diszkrét optimalizálás problémájához

Rotary District 1911 DISTRICT TÁMOGATÁS IGÉNYLŐ LAP District Grants Application Form

Statistical Inference

4. KOMBINÁCIÓS HÁLÓZATOK. A tananyag célja: kombinációs típusú hálózatok analízise és szintézise.

8/2014. (X.10.) KLIK elnöki utasítás

IT ADVISORY. Biztonság a felhőben. Gaidosch Tamás CISA, CISM, CISSP január 20.

3 függvény. Számítsd ki az f 4 f 3 f 3 f 4. egyenlet valós megoldásait! 3 1, 3 és 5 3 1

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Közösségek keresése nagy gráfokban

Minta ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA II. Minta VIZSGÁZTATÓI PÉLDÁNY

Tudományos Ismeretterjesztő Társulat

Genome 373: Hidden Markov Models I. Doug Fowler

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

URBAN PLANNING IN THE AGE OF BIG DATA A NEW EMPIRIUM TELEPÜLÉSTERVEZÁS AZ ADATBŐSÉG KORÁBAN EGY ÚJ EMPÍRIUM

Tulajdonságalapú tesztelés

- eqµah ³. -ry³eblbmebjkargar³

Teszt topológia E1/1 E1/0 SW1 E1/0 E1/0 SW3 SW2. Kuris Ferenc - [HUN] Cisco Blog -

GPU-Accelerated Collocation Pattern Discovery

ADATBÁZISOK. 4. gyakorlat: Redundanciák, funkcionális függőségek

Állapot minimalizálás

1. Lineáris leképezések

Travel Getting Around

13. Trigonometria II.

Számítógép hálózatok, osztott rendszerek 2009

sorozat CD4 Katalógus füzetek

Bevezetés a számítástechnikába

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

Algoritmuselmélet. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 13.

Mesterséges Intelligencia MI

% " 01. ( '+. 1 & 2.'. +" &!!% )'" " ! 9:"+.; " 9:"+.;!" # $% &' ()*+,-./ 01# :; ABCDDE ' ! # "#$% #$% &'! " # $% & '

Mangalica: The VM-MOE Treaty. Olmos és Tóth Kft. Monte Nevado

A Lee-Carter módszer magyarországi

Erdészettudományi Közlemények

Statisztika. Politológus képzés. Daróczi Gergely február 28. Politológia Tanszék

TÉRGAZDÁLKODÁS - A TÉR MINT VÉGES KÖZÖSSÉGI ERŐFORRÁS INGATLAN NYILVÁNTARTÁS - KÜLFÖLDI PÉLDÁK H.NAGY RÓBERT, HUNAGI

Megyei matematikaverseny évfolyam 2. forduló

BÍRÁLATOK ÉS KONFERENCIÁK

Átírás:

Asszociációs-szabályok, 3. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. május 10. Csima Judit Asszociációs-szabályok, 3. rész 1 / 21

Eddig mi volt? Apriori-algoval gyakori elemhalmazok generálása a zárt gyakoriak és a hozzájuk tartozó tárolt σ értékekből az összes gyakori és ezek σ-jának meghatározása gyakoriak elemhalmazokból a nagy megbízhatóságú szabályok előálĺıtása Csima Judit Asszociációs-szabályok, 3. rész 2 / 21

Most mi lesz? Apriori algo helyett más módszerek a gyakori elemhalmazok megtalálására: általános stratégiák az elemhalmazok hálójának bejárására Eclat algo Csima Judit Asszociációs-szabályok, 3. rész 3 / 21

Frequent Itemset Generation null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE ABCDE Given d items, there are 2 d possible candidate itemsets Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 8 Csima Judit Asszociációs-szabályok, 3. rész 4 / 21

Általános stratégiák a háló bejárására az Apriori algo lényegében egy szélességi bejárást valósít meg más stratégiák: mélységi bejárás ekvivalencia-osztályok szerinti bejárás mindegyik esetben alkalmazzuk az Apriori-elvet: ha egy EH nem gyakori, akkor egyetlen olyan halmaz sem gyakori, aki őt tartalmazza vagy (ami ugyanez): ha egy elemhalmaz gyakori, akkor minden része is az Csima Judit Asszociációs-szabályok, 3. rész 5 / 21

Alternative Methods for Frequent Itemset Generation Traversal of Itemset Lattice Breadth-first vs Depth-first (a) Breadth first (b) Depth first Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 34 Csima Judit Asszociációs-szabályok, 3. rész 6 / 21

Alternative Methods for Frequent Itemset Generation Traversal of Itemset Lattice General-to-specific vs Specific-to-general Frequent itemset border null null Frequent itemset border null............ {a 1,a 2,...,a n } {a 1,a 2,...,a n } Frequent itemset border {a 1,a 2,...,a n } (a) General-to-specific (b) Specific-to-general (c) Bidirectional Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 32 Csima Judit Asszociációs-szabályok, 3. rész 7 / 21

Alternative Methods for Frequent Itemset Generation Traversal of Itemset Lattice Equivalent Classes null null A B C D A B C D AB AC AD BC BD CD AB AC BC AD BD CD ABC ABD ACD BCD ABC ABD ACD BCD ABCD ABCD (a) Prefix tree (b) Suffix tree Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 33 Csima Judit Asszociációs-szabályok, 3. rész 8 / 21

ECLAT algo más szisztéma nem azt írjuk fel, hogy melyik tranzakciókban mik az elemek, hanem azt, hogy írjuk fel az egyes elemekről, hogy melyik tranzakciókban vannak benne ezt vertikális feĺırásnak is nevezik Csima Judit Asszociációs-szabályok, 3. rész 9 / 21

ECLAT For each item, store a list of transaction ids (tids) Horizontal Data Layout TID Items 1 A,B,E 2 B,C,D 3 C,E 4 A,C,D 5 A,B,C,D 6 A,E 7 A,B 8 A,B,C 9 A,C,D 10 B Vertical Data Layout A B C D E 1 1 2 2 1 4 2 3 4 3 5 5 4 5 6 6 7 8 9 7 8 9 8 10 9 TID-list Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 43 Csima Judit Asszociációs-szabályok, 3. rész 10 / 21

ECLAT algo DFS-sel járjuk be az elemhalmazok hálóját a példában legyen a gyakorisági-küszöb 2 ekkor E gyakori nézzük meg E gyerekeit: DE, CE, BE, AE gyakoriságai mik? pl. DE gyakorisága D és E oszlopának metszetének magassága hasonlóan kapható a többi kételemű gyakorisága is Csima Judit Asszociációs-szabályok, 3. rész 11 / 21

Továbblépés DFS-sel amelyik elemhalmazról éppen kiderült, hogy gyakori, arról tudom az őt tartalmazó tranzakciók halmazát az egy elemű bővítések gyakorisága ezen oszlop és a bővítő elem oszlopának metszetéből számolható Csima Judit Asszociációs-szabályok, 3. rész 12 / 21

ECLAT összefoglalás nem gyakori egy-eleműek kidobálása vertikális feĺırás elkészítése DFS a fenti módon, a hálót reprezentáló gráfban az éllistában a csúcsok gyakoriság szerint csökkenően (ez gyorsítja a nem gyakoriak felismerését) bővülő elemhalmazok gyakorisága oszlopmetszet alapján Csima Judit Asszociációs-szabályok, 3. rész 13 / 21

Lift-mutató Milyen szabályokat akarok? eddig: supp és conf legyen magas ezekhez min sup és min conf küszöbök ezek beálĺıtása nehéz ha magasak, akkor esetleg érdekes szabályok is kiesnek ha alacsonyak, akkor túl sok szabály marad bent, nehéz válogatni a tényleg jókat Csima Judit Asszociációs-szabályok, 3. rész 14 / 21

Lift-mutató Érdekes szabályok keresése a sok szabály közül, amire supp és conf elég nagy kiválogatni azokat, amik tényleg érdekesek: váratlanok hasznot hozhatnak ezek (mechanikus algoval) megfoghatatlan fogalmak megoldások: valami ember válogassa ki az előszűrt szabályokból az érdekeseket (ez nem járható út igazán) valami szakértő előszűri, hogy milyen szabályokat keresünk: pl. A és B termékcsoport között van-e valami asszociációs összefüggés) supp és conf-on kívül valami más, ami méri valahogyan az érdekességet Csima Judit Asszociációs-szabályok, 3. rész 15 / 21

Lift-mutató Computing Interestingness Measure Given a rule X Y, information needed to compute rule interestingness can be obtained from a contingency table Contingency table for X Y Y Y X f 11 f 10 f 1+ X f 01 f 00 f o+ f +1 f +0 T f 11 : support of X and Y f 10 : support of X and Y f 01 : support of X and Y f 00 : support of X and Y Used to define various measures support, confidence, lift, Gini, J-measure, etc. Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 58 Csima Judit Asszociációs-szabályok, 3. rész 16 / 21

Lift-mutató Drawback of Confidence Coffee Coffee Tea 15 5 20 Tea 75 5 80 90 10 100 Association Rule: Tea Coffee Confidence= P(Coffee Tea) = 0.75 but P(Coffee) = 0.9 Although confidence is high, rule is misleading P(Coffee Tea) = 0.9375 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 59 Csima Judit Asszociációs-szabályok, 3. rész 17 / 21

Lift-mutató Lift-mutató, motiváció az előző fólia mutatja, hogy a conf és supp nem elég lehet, hogy egy elég jó támogatottságú, nagyon magas megbízhatóságú szabály teljesen butaság próbáljuk valahogy kizárni az előző fólián látható jelenséget hasonĺıtsuk össze az X Y szabály conf-ját a Y relatív gyakoriságával (gyakoribb-e X mellett Y, mint általában?) Csima Judit Asszociációs-szabályok, 3. rész 18 / 21

Lift-mutató Lift-mutató conf (X Y ) Lift(X Y ) =, ahol n a tranzakciók száma σ(y ) n ez uaz, mint σ(x Y ) n σ(x ) σ(y ) = supp(x Y ) supp(x ) supp(y ) ez igazából X és Y előfordulásának függetlenségét méri ha Lift(X Y ) = 1 az azt jelenti, hogy függetlenek ha Lift(X Y ) > 1 az azt jelenti, hogy Y gyakoribb X mellett, mint általában, ez érdekel minket Csima Judit Asszociációs-szabályok, 3. rész 19 / 21

Lift-mutató Mindenféle mérőszámok persze Lift sem mindenható, simán lehet olyan szabály, amire supp, conf és Lift is jó, de mégis butaság sok más mérőszám szabályok jóságára (következő fólia, de csak illusztráció!) általában sup, conf és vmi Lift-szerű, függetlenséget mérő mérték Csima Judit Asszociációs-szabályok, 3. rész 20 / 21

Lift-mutató There are lots of measures proposed in the literature Some measures are good for certain applications, but not for others What criteria should we use to determine whether a measure is good or bad? What about Aprioristyle support based pruning? How does it affect these measures? Csima Judit Asszociációs-szabályok, 3. rész 21 / 21