Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

Hasonló dokumentumok
Asszociációs szabályok

Gyakori elemhalmazok és asszociációs szabályok

Gyakori elemhalmazok kinyerése

Gyakori elemhalmazok

Állapot minimalizálás

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Relációs adatbázisok tervezése ---2

Adatbányászat. Gyakori elemhalmazok Asszociációs és döntési szabályok. Szegedi Tudományegyetem. Vásárlói kosarak Gyakori elemhalmazok FP-growth

BIOMATEMATIKA ELŐADÁS

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Csima Judit október 24.

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Hálózati folyamok. Tétel: A maximális folyam értéke megegyezik a minimális vágás értékével.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

KOVÁCS BÉLA, MATEMATIKA I.

Adatbáziskezelés. Indexek, normalizálás NZS 1

A digitális számítás elmélete

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

(Independence, dependence, random variables)

Matematika A1a Analízis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Csima Judit május 10.

Adatbázisok elmélete 12. előadás

A Statisztika alapjai

Algoritmuselmélet. Függvények nagyságrendje, elágazás és korlátozás, dinamikus programozás. Katona Gyula Y.

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

1/50. Teljes indukció 1. Back Close

BME Nyílt Nap november 21.

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

6. Gyakorlat. Relációs adatbázis normalizálása

Hajnal Péter. Bolyai Intézet, TTIK, SZTE, Szeged április 8.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

KOVÁCS BÉLA, MATEMATIKA I.

A 2015/2016. tanévi Országos Középiskolai Tanulmányi Verseny döntő forduló MATEMATIKA III. KATEGÓRIA (a speciális tanterv szerint haladó gimnazisták)

2014. szeptember 24. és 26. Dr. Vincze Szilvia

Programkonstrukciók A programkonstrukciók programfüggvényei Levezetési szabályok. 6. előadás. Programozás-elmélet. Programozás-elmélet 6.

Függetlenségvizsgálat, Illeszkedésvizsgálat

Matematikai geodéziai számítások 6.

Relációs adatbázisok tervezése 2.rész (dekompozíció)

NP-teljesség röviden

Tananyag: Kiss Béla - Krebsz Anna: Lineáris algebra, többváltozós függvények, valószínűségszámítás,

HALMAZOK. A racionális számok halmazát olyan számok alkotják, amelyek felírhatók b. jele:. A racionális számok halmazának végtelen sok eleme van.

Kísérlettervezés alapfogalmak

Matematikai geodéziai számítások 5.

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

Matematikai geodéziai számítások 6.

Számelméleti alapfogalmak

Adatbázismodellek. 1. ábra Hierarchikus modell

I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE

(Diszkrét idejű Markov-láncok állapotainak

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

PISA2000. Nyilvánosságra hozott feladatok matematikából

Egy általános iskolai feladat egyetemi megvilágításban

Az optimális megoldást adó algoritmusok

Algoritmuselmélet. Függvények nagyságrendje, elágazás és korlátozás, dinamikus programozás. Katona Gyula Y.

First Prev Next Last Go Back Full Screen Close Quit. Matematika I

A szemantikus elemzés elmélete. Szemantikus elemzés (attribútum fordítási grammatikák) A szemantikus elemzés elmélete. A szemantikus elemzés elmélete

Algoritmuselmélet. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 13.

V. Békés Megyei Középiskolai Matematikaverseny 2012/2013 Megoldások 11. évfolyam

Szerencsejátékok. Elméleti háttér

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Érettségi előkészítő emelt szint évf. Matematika. 11. évfolyam. Tematikai egység/fejlesztési cél

ADATBÁZISOK. 4. gyakorlat: Redundanciák, funkcionális függőségek

Formális nyelvek és automaták

3. előadás. Programozás-elmélet. A változó fogalma Kiterjesztések A feladat kiterjesztése A program kiterjesztése Kiterjesztési tételek Példa

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Döntési rendszerek I.

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé. (Albert Einstein) Halmazok 1

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk?

van neve lehetnek bemeneti paraméterei (argumentumai) lehet visszatérési értéke a függvényt úgy használjuk, hogy meghívjuk

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Lineáris algebra (10A103)

Gyakorlatok. P (n) = P (n 1) + 2P (n 2) + P (n 3) ha n 4, (utolsó lépésként l, hl, u, hu-t léphetünk).

9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, Leontyev-modell

Makroökonómia. 6. szeminárium

Indexszámítási módszerek; Simpson-paradoxon

Egészrészes feladatok

Fogalmi modellezés. Ontológiák Alkalmazott modellező módszertan (UML)

Csima Judit BME, VIK, november 9. és 16.

ADATBÁZISOK ELMÉLETE 5. ELŐADÁS 3/22. Az F formula: ahol A, B attribútumok, c érték (konstans), θ {<, >, =,,, } Példa:

Országos Középiskolai Tanulmányi Verseny 2009/2010 Matematika I. kategória (SZAKKÖZÉPISKOLA) 2. forduló feladatainak megoldása

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Többváltozós lineáris regressziós modell feltételeinek

Adatszerkezetek. Nevezetes algoritmusok (Keresések, rendezések)

Adatszerkezetek 2. Dr. Iványi Péter

Közösség detektálás gráfokban

Relációk Függvények. A diákon megjelenő szövegek és képek csak a szerző (Kocsis Imre, DE MFK) engedélyével használhatók fel!

HÁZI FELADAT PROGRAMOZÁS I. évf. Fizikus BSc. 2009/2010. I. félév

Logisztikus regresszió

Statisztika elméleti összefoglaló

Valószínűségi változók. Várható érték és szórás

ANOVA összefoglaló. Min múlik?

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Megoldások MATEMATIKA II. VIZSGA (VK) NBT. NG. NMH. SZAKOS HALLGATÓK RÉSZÉRE (Kérjük, hogy a megfelelő szakot jelölje be!

Normák, kondíciószám

Átírás:

Asszociációs szabályok Budapesti Műszaki- és Gazdaságtudományi Egyetem 2012. április 5.

Tartalom 1 2 3 4 5 6 7

ismétlés A feladat Gyakran együtt vásárolt termékek meghatározása Tanultunk rá hatékony algoritmusokat Nagy profit lehetőségét rejti magában

definíciók 1. Termék Egy bolt különböző termékei Pl. sör, pelenka Nem definiáljuk, hogy pontosan mi a felbontás (különböző márkájú sörök egy terméknek számítanak-e) Kosár Ezek jelentik a vásárlásokat Hogy egy termékből milyen mennyiséget veszünk, az nem számít A termékek sorrendje sem számít A kosarak sorrendje sem számít

definíciók 2. Elemhalmaz Elemhalmaznak nevezzük termékek egy csoportját Ezeket a későbbiekben I -vel fogom jelölni Gyakori elemhalmaz Azok az elemhalmazok, amelyek sok kosárban előfordulnak Sok: több, mint min supp

Asszociációs szabály Jelölés I 1 I 2 I 1, I 2 elemhalmazok Jelentés Ha egy kosár tartalmazza I 1 -et, akkor valószínűleg tartalmazza I 2 -t is Hogy mennyire valószínűleg, azt a szabály erőssége mondja meg

Mire jó egy asszociációs szabály? Extra profit Legyen I 1 I 2 egy asszoc. szabály Óriási hírverés közepette csökkentsük az I 1 termék árát (-15%) Csendben emeljük az I 2 -ét (+30%) Mivel az eladások együtt mozognak, a profit összességében nőni fog (Az is előfordul, hogy az üzletek elő is írják az együtt vásárlást) Terméktérkép kialakítása Jó, ha a vásárló elhalad az őt érdeklő termékek mellett Ha ismerjük az asszociációs szabályokat, akkor ezt tudjuk segíteni (Persze ezt is az extra profit érdekében tesszük)

Mire jó egy asszociációs szabály?

Mennyire jó egy asszociációs szabály? Bizonyosság I 1 I 2 egy asszoc. szabály A bizonyosság megmondja, hogy ha egy kosárban benne van az I 1 termékhalmaz, akkor mekkora valószínűséggel van benne az I 2 termékhalmaz is Minél nagyobb a bizonyosság, annál értékesebb a szabály (Annál nagyobb profitot remélhetünk tőle) Támogatottság Azoknak a kosaraknak a száma, amik tartalmazzák I 1 U I 2 -t Igazán csak a nagy támogatottságú szabályok érdekesek

Definíció 1. Definíció (asszociációs szabály) c,s Az R:I 1 I 2 kifejezést c bizonyosságú, s támogatottságú asszociációs szabálynak nevezzük, ha I 1, I 2 diszjunkt elemhalmazok, és c = supp(i1 I2) supp(i 1) s = supp(i 1 I 2 )

Definíció 2. Definíció (érvényes asszociációs szabály) T kosarak sorozatában, min supp támogatottsági és min conf bizonyossági küszöb mellett az I 1 I 2 asszociációs szabály érvényes, amennyiben I 1 I 2 gyakori elemhalmaz, és c min conf Megfigyelés: az asszociációs szabály definíciójában nem követeltünk meg támogatottsági és bizonyossági küszöböt.

Előálĺıtás gyakori elemhalmazokból 1. at ki tudjuk nyerni Egy korábbi előadás pont ezzel foglalkozott Szétvágás Minden gyakori elemhalmazt bontsunk fel két diszjunk nem üres részre (minden lehetséges módon), majd ellenőrizzük, hogy teljesül-e a min conf feltétel Ezen a ponton már sejtjük, hogy asszociációs szabályból rengeteg lehet

Előálĺıtás gyakori elemhalmazokból 2. Észrevétel Amennyiben I 1, I gyakori elemhalmazok a T bemeneti sorozatban, és I 1 I, illetve I 1 I I 1 nem érvényes asszociációs szabály, akkor I 1 I I 1 sem érvényes semmilyen I 1 I 1 -re. Következmény Ezt felhasználva nem kell túl sok felesleges szétvágást végezni (Még így is sokat kell számolni)

Példa T={A,B,C,D,E,F} Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F} Min supp=2 Min conf=0.5 Asszoc. sz. Támogatottság Bizonyosság Érvényes A B B A C EF CD EF 1. táblázat.

Példa T={A,B,C,D,E,F} Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F} Min supp=2 Min conf=0.5 Asszoc. sz. Támogatottság Bizonyosság Érvényes A B 2 0.4 nem B A C EF CD EF 2. táblázat.

Példa T={A,B,C,D,E,F} Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F} Min supp=2 Min conf=0.5 Asszoc. sz. Támogatottság Bizonyosság Érvényes A B 2 0.4 nem B A 2 1 igen C EF CD EF 3. táblázat.

Példa T={A,B,C,D,E,F} Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F} Min supp=2 Min conf=0.5 Asszoc. sz. Támogatottság Bizonyosság Érvényes A B 2 0.4 nem B A 2 1 igen C EF 3 0.75 igen CD EF 4. táblázat.

Példa T={A,B,C,D,E,F} Kosarak: {A,B,C,E,F} {A,E,F} {C,D,E,F} {A,C,E,F} {A,B,C} {A,F} Min supp=2 Min conf=0.5 Asszoc. sz. Támogatottság Bizonyosság Érvényes A B 2 0.4 nem B A 2 1 igen C EF 3 0.75 igen CD EF 1 1 nem 5. táblázat.

Maximális következményű asszoc. szabály Levezetési szabályok Tegyük fel, hogy I 1 I 2 érvényes I 1 I 2 is érvényes minden I 2 I 2 -re I 1 {i} I 2 {i} is érvényes minden i I 2 -re Következmény A maximális következményrésszel rendelkező szabályokból az összes szabály levezethető A levezetett szabályok paramétereire viszont nem tudunk következtetni Pedig ez nagyon fontos lenne (később látni fogjuk, miért)

Asszoc. szabályok és osztályozás 1. Mi a hasonlóság? Mindkettőben attribútumok közötti összefüggéseket keresünk Asszociációs szabályok Tetszőleges két attribútum között Bináris attribútumok Csak akkor álĺıtunk valamit, ha a feltételrész 1 Fő cél a gyors algoritmus

Asszoc. szabályok és osztályozás 2. Osztályozás Egy kijelölt attribútumot hogyan határoz meg a többi Nincs megkötés az attribútumok típusára Mindig mondunk valamit Fő cél a pontosság

Korreláció implikáció 1. Ha A B egy érvényes asszociációs szabály I. A B II. B A III. C A, C B //vagy bonyolultabb IV. véletlen V. egymást is okozhatják (kölcsönösen megerősítő módon)

Korreláció implikáció 2. 2. ábra.

Gondok az asszociációs szabályokkal 1. Rengeteg van Az összes gyakori elemhalmazt (már ez is nagyon sok) többféleképp kettévágtuk Magasra álĺıtott küszöbbel kevesebb van, de így tipikusan sok érdekeset is elveszítünk Félrevezetőek lehetnek Az emberek egyharmada hot-dogot vesz, egyharmada hamburgert, a többi mindkettőt Azok és csak azok vesznek majonézt, akik hamburgert esznek A hot-dog majonéz szabály érvényes lesz!

Gondok az asszociációs szabályokkal 2. A legtöbb szabály nem érdekes Valami érdekesnek a speciális esetei (apró módosítások ritkán vannak hatással az érdekességre) Többet ér egy általános szabály, mint sok speciális Jó lenne a szabályokat érdekességük alapján sorba rendezni

Függetlenségi mutatók Szabályok függetlensége Megfigyelés: egy szabály nem érdekes, ha a feltétel és következményrészek függetlenek egymástól Ennek vizsgálata sok problémát megold A büfés példát is lebuktatja Függetlenségi mutatók Lift érték Empirikus kovariancia, empirikus korreláció χ 2 statisztika Binomiális próba...

Néhány képlet

Szabályok rangsora Három fő attribútum alapján Támogatottság Bizonyosság Függetlenség De hogyan? Külön-külön egyik sem elég Valamilyen függvényüket kell nézni Itt kezdődik a művészet

Általánosság, specialitás Az érdekes asszociációs szabályok között is lehet a többség haszontalan Érdekes, mint érvényes és a rangsor alapján előkelő helyen levő Pl. sok a nagy támogatottságú, más termékektől független termék Ha c db ilyen van (és n valóban érdekes szabály), akkor n 2 c érdekeset fogunk találni Az általános szabályok jobbak Egy lehetséges megoldás A feltételrész minden elemére megnézzük, hogy független-e a többitől Ha igen, akkor kidobjuk Az egész szabályt kidobhatjuk, mert az általánosabb szabályt már biztosan megtaláltuk

Hierarchikus asszociációs szabályok 4. ábra. A termékeket hierarchiába rendezhetjük Így túrós palacsinta üdítő jellegű szabályokat kaphatunk Ez az általánosítás teljesen ésszerű és hasznos Sajnos a számításigényt tovább növeli

Mit érdemes megjegyezni? Az asszociációs szabályok hasznosak Rengetegen vannak Nehéz megtalálni köztük az érdekeset Ha találtunk egyet, akkor is fenntartásokkal kell kezelni Elég hasznosak ahhoz, hogy a nehézségek ellenére is érdemes legyen velük foglalkozni Köszönöm a figyelmet!

Felhasznált irodalom [1] Bodon Ferenc. Adatbányászati algoritmusok. BME, Feb. 2010 [2] http://xkcd.com/552/