Asszociációs szabályok

Hasonló dokumentumok
Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

Gyakori elemhalmazok és asszociációs szabályok

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Bevezetés a hipotézisvizsgálatokba

Adatbányászat. Gyakori elemhalmazok Asszociációs és döntési szabályok. Szegedi Tudományegyetem. Vásárlói kosarak Gyakori elemhalmazok FP-growth

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

[Biomatematika 2] Orvosi biometria


STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika elméleti összefoglaló

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Nemparaméteres próbák

Segítség az outputok értelmezéséhez

Valószínűségszámítás összefoglaló

Függetlenségvizsgálat, Illeszkedésvizsgálat

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

ő ü ó í í í ő ó Ó í

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Kettőnél több csoport vizsgálata. Makara B. Gábor

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

í í í í í

ö ü í ú í ö ö í ú ü í ü ö í ú ö ü í ö ü ö ö ö Í ö ö

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

ö ö É ő ó ó ő ü ó ó Ü É É ö ö ó ű ü ó ó ö ű Í ö ó ö Í ő ü ü ö ö ő ö ó ö ó ó É ó ő ö ö ó Ö ü ő Í ű ó ő ü ő Ó Ö ű Í ó Ó ő ő ö ő ő ő ö

É É Í É É ö Í í í í ű ü ö í í Í

í ö ó í ö í Í ó ú ó ö ű ó ű ö í ó ó ó ó ó Í ú í ó í í ó Í ö ö ú í ú ó ö Í ó ó Í í ó ó ö ö ö ö ö í ö ó ű í ó ó ö ú ó ó ö ö ó í ö ö ó ó ö ö í ö ó í ű ö

ü ö í ü ö í ü ö ű í í í ö Ü í ü ü ö í í ü ö í ű í ö í í ú ö ö í í ü ű ö ü í í ü í ü í í ö ü í ö ö ü í ö ű ö í í ö ú ö í ö í ű ö ö ö í í í í ö ö

É ó Í É

ü É ü Ö ü ü ü Ü ü ü Í

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria. Visegrády Balázs


ű ö ű ö í í ö É ö ü ö ú ü ű ü ü ű ö ö ü ü ü ö ü ü ű ü ü ű í ü ü ö Ö ü í ű ö Ö ü ű

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

ö ű ü ü ö ü ö ö ü ö ö Í Ö ö ü ö Í ű ö ű ü ü ö ú ö ű ü ü ö ö ö ü ű ü ö ü ű ű ú ö ö ö ű ü ú ú

Matematikai statisztika c. tárgy oktatásának célja és tematikája

ű ú ú ö ö ö É ö ú ú ú ö ű Ó ű Ö Ö ú

ű í ú í ú í ü ü í í í Ö í Í É í ú í í í ű ű í í Í í í É í í í

Gyakori elemhalmazok

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

Készítette: Fegyverneki Sándor

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Az első számjegyek Benford törvénye

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

A maximum likelihood becslésről

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

[Biomatematika 2] Orvosi biometria

A valószínűségszámítás elemei

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

A Statisztika alapjai

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Gyakori elemhalmazok kinyerése

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

ö ő ő ü ü Ó ü ö ű Á ő ő ö ő Á Ó ű ö ü ő ő ű

É Í Á Á É Ü Ó É É É É Í Ó Ó Ő Á Á É Á É É É É Á É É Á Á É É Á É Í

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Ü

Ö Ö Ö Ö Ö Á Ű É Ö Ö Ö

í í É í ó ó É ö í ó í ó í ó ó í ó í í ó ó ó í ö ö ö ö í í í ó ó ö ó

ü ö ö ő ü ó ó ú ó

ó É ó í ó ó í í ö í ó í ö ö ö ü ö ó ó ó ü ú ö ü ó ó ö ö ü ü ü ö ö ó ö í ó ű Ü ó í ú í ö í ö í Í ó ó í í ö ü ö ö í ö í ö ö ö ü ó í ö ö ó í ú ü ó ö

É ö Ű ő ű ő ő ű ű

Í Ó ü ü í ü ü ü í Í í É í í Í Í ü ü ü í Í ü

ü É ö É É ö ö ö ü ö ö Á ű ö ű ű ű Á Í ö ö Ó ö

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

ú Ü Í ú ú ú ú ú ú

í ó ő í é ö ő é í ó é é ó é í é é í é í íí é é é í é ö é ő é ó ő ő é ö é Ö ü é ó ö ü ö ö é é é ő í ő í ő ö é ő ú é ö é é é í é é í é é ü é é ö é ó í é

ő ö ő ű ó ö ó ű Í Ö Ö Á Í Ó Ö Ü É Ö Ö Ö Á Á Ö É Á Ö

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

ö ü ü ú ó í ó ü ú ö ó ű ö ó ö í ó ö í ö ű ö ó Ú ú ö ü É ó í ö Ó Á í ó í í Ú ö ú ö ű ü ó

í ó í ó ó ó í í ü ú í ú ó ó ü ü í ó ü ú ó ü í í ü ü ü ó í ü í ü ü í ü ü í ó ó ó í ó í ü ó í Á

Í Í Í Ü Ó Ó Ö Á Ü Ü Ó Ü Ü Ó Ö Í É Ö

é ö é Ö é é ő í ó í é ő ö ú é ó é ő ü ü é ó ö é é ó é é ö é ő í é é ő é é ö é ű ö é í ó é é í ö í ó í ó é é ö ó í ó ó í ó é é ö ő í ó ó í ó ü é í ü

í Ó ó ó í ó ó ó ő í ó ó ó ó

ű ú ú Ö ó Ö ó ó ó Ö ű ó ű ű ü Á ó ó ó ó ü ó ü Ö ó ó ó Ö ű ű ü Ö ű Á ú ú ú ó ű í í Ő ú Á É Ö í ó ü ű í ó ű ó Ö ú Ő ú ó í ú ó

í í í í ó í ó ö ö í ű ü ó ó ü ú Á Á ó ó ó ó ó ó í ó ö ö ü Ó ö ü í ö ó ö í í ö í ó ó í ö í ú ó ú í ö ú ö ö ö í ó ó ó ú ó ü ó ö í ó ó í í í Á í ó ó ó

Ü ü Ü Ö Ó ö ü ö Ó Ú Ó ü Ó ö ö Á ö ö ö ö ü

ö ö Ö ó ó ö ó ó ó ü ö í ü ú ó ó í ö ö ö ó ö ü ú ó ü ö ü ö ö Ö ü ö ö Ö ó

ű í ú ü ü ü ü ü Ó í ü í í í É Á

ú ü ü ú Ö ú ü ü ü ü ü ú ü ú ü ű Í ü ü ű ü ű Ó ü Ü ű ú ú Á ü ű ű ü ü Ö ü ű ü Í ü ü

ö Ó ű ö ó í ó ü ö Ó ó í ö ö ó Ö ó ö í ó í ó Á í ó Á Á Ő ú ü ó Í ü ú ü

é ú é é é é é é é é é é é é ú é ö é é é ö Ő é é é ú é é é é é é é é ö é é é ö é Ö é é ö é ö é é é ű é ö ö é ö é é ö ö é é ö ö é ö é Ö é ú é é é é é é

Ö Ö Ú Ó Ö ű Ő Ő ű ű Ü Ő Ó Ő

í é ü í Í é í é ö ö í é é é ö é é é í ö é ö é é é ö ü í Ó é í í ö ö ü é í é ü í ö é é é í é ö é é é í é é é Ő Ó Ő í Ó é í í ö ö ü é í é ö ö í ú é ü ö

É Í ü ú É ü ő ő ő ő ú ő ú ü ü ő ü ú ü ű ú ú ü ü Í ü ű ő ő É ő

ű ú Í Ó Á ú Ű ű Ő Ö Á ú Ű Ü ú ú Á ú ű

ó ú ú ü ú ő ó ő ő ó ó ó ö ó ü ő ó ő ö ü ü ó ö ő É ó ö ö ö ó ó ö ü ü ö ü ó ó ő ó ü ó ü ü ö ö É ú ó ó ö ú ö ü ü ó ó ó ü Á ö ö ü ó ö ó ö ö ö ö ó ó ö ó ó

Átírás:

Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10.

Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában tartalmaznak sört is. Ha ez igaz, akkor a szupermarket extra profithoz juthat az alábbi módon: Óriási hírverés közepette csökkentsük a pelenka árát (mondjuk 15%-kal), miközben diszkréten megemeljük a sör árát (mondjuk 30%-kal), úgy hogy a pelenka árcsökkentéséből adódó profitcsökkenés kisebb legyen a sör áremeléséből adódó profitnövekedésnél.

Definíció Asszociációs szabály: :,, ahol =, és: bizonyosság: támogatottság: = ( ) ( ) = ( ) Érvényes asszociációs szabály: = ( ) _, _

Érvényes asszociációs szabályok meghatározása Minden gyakori termékhalmazt bontsunk fel két diszjunkt, nem üres részre: = Ellenőrizzük, hogy teljesül-e: ( ) ( ) _ Ha igen, akkor érvényes asszociációs szabály Észrevétel: ha \ nem érvényes, és -nek, akkor \ sem érvényes

Maximális következményű asszociációs szabály Ha érvényes asszociációs szabály, akkor - is érvényes, minden -re - \ is érvényes minden -re Tehát minden asszociációs szabály levezethető a maximális következményrésszel rendelkező asszociációs szabályokból

Probléma: büfé Emberek 1/3-a vesz hamburgert, 1/3-a hot-dogot, 1/3-a mindkettőt. A kosarak 66%-a tartalmaz hot-dogot, ezek 50%-a majonézt is. Így a hot-dog majonéz érvényes lehet, ezért a büfés csökkenti a hotdog árát és emeli a majonézét. A várakozással ellentétben azonban a profit csökken, mert a hamburger fogyasztók is inkább hot-dogot vesznek.

A probléma forrása A bizonyosság a következményrész feltételes valószínűségét próbálja becsülni: ( )= (, ) ( ) Ha ( )= ( ), vagyis ha és függetlenek, akkor a szabály nem hordoz hasznos információt (de ezt a bizonyosság és a támogatottság nem feltétlenül mutatja) Ötlet: vizsgáljuk a ( ) ( ) hányadost! Valószínűségek helyett persze relatív gyakoriságokkal lift érték

Lift érték Definíció: ( )= ( ) ( ) ( ) Például, ha lift(sör pelenka)=2, az azt jelenti, hogy a sört vásárlók körében dupla annyi a pelenkát vásárlók aránya, mint amúgy általában

Empirikus kovariancia és korreláció empirikus kovariancia: ( )= ( ) ( ) ( ) emlékeztető: X, Y valószínűségi változók (, )= ( )( ) = empirikus korreláció: ( )= ( ) = ( ) ( ) ( ) (1 ) (1 ) = ( ) ( ) ( ) ( ) ( ) ( ) ( ) (valószínűségi változókra: (, )= (, ) )

Kontingenciatábla rendelkezésre álló értékek X nem X Σ Y k 1,1 k 1,2 k 1. nem Y k 2,1 k 2,2 k 2. Σ k.1 k.2 n nem Σ ( ) ( ) nem Σ ( ) n A hiányzó értékek számíthatók.

.. A χ 2 -statisztika A = próbastatisztika eloszlása aszimptotikusan χ 2.. eloszlású lesz, ha X és Y függetlenek. (Valszám: Legyen olyan, hogy ( < )=1, ekkor ha <, akkor 1 szignifikanciával függetlenek.) Minél kisebb a próbastatisztika, annál inkább függetlenek az események. 2x2-es esetben =

Binomiális próba Tfh. és függetlenek, (, )= ( ) ( ). Legyen = = binomiális eloszlású val. vált. n és (, ) paraméterekkel, (, ) ( ) ( ) megfigyelések: (,, ) ellentmondanak-e ennek? legyen olyan a próba, hogy ha valójában függetlenek, akkor ε valószínűséggel mondjuk azt, hogy nem függetlenek:, : legszűkebb intervallum, melyre ( = ) 1 ha =,, akkor a hipotézisünk az, hogy függetlenek, egyébként az összefüggőség mellett döntünk

Fisher-féle egzakt próba Adott, ( ), ( ). Ha egyenletes eloszlás szerint vannak szétszórva és termékek a kosarakban, akkor mennyi az esélye annak, hogy az -et tartalmazó kosarakból X darabban lesz?,, ( ), ( ) = ( ) ( ) ( ) ( ) p-érték: az adott esetnél extrémebb esetek valószínűségének összege ( )= (,, ( ), ( )) : (,, ( ), ( )) ( ( ),, ( ), ( )) minél kisebb a p-érték, annál kisebb valószínűséggel függetlenek

Asszociációs szabályok rangsora A gyakorlatban sok érvényes szabályt találunk -> rangsorolni kellene Három paraméter: támogatottság, bizonyosság, függetlenség - pl. súlyok rendelése a paraméterekhez mi szerint? marketinges: támogatottság statisztikus: függetlenség - függetlenségre sok paraméter egymáshoz hogy viszonyulnak? empirikus korreláció, χ 2 -statisztika, p-érték: ugyanaz a sorrend empirikus kovariancia, lift érték: más sorrendeket adhatnak

Általánosság, specialitás Érdekes szabály mögé elbújva sok érdektelen szabály átmegy a szűrésen, és érdekesnek bizonyul. Legyen érvényes és érdekes, egy olyan gyakori termékhalmaz, amely független -től és -től, és olyan nagy a támogatottsága, hogy ( ) _ is fennáll Ekkor könnyű belátni, hogy is érvényes és érdekes asszociációs szabály lesz. A probléma kiküszöbölése: hagyjuk el a feltételrészből azt a részt, ami független a többi feltételtől és a következménytől is.

Hierarchikus asszociációs szabályok Előfordulhat, hogy termékkategóriák között vannak összefüggések Pl.: sört vásárlók 70%-a vesz valami chips-félét is Ismerni kell az elemek taxonómiáját - gyökeres, címkézett fa (fák)

Hierarchikus asszociációs szabályok Egy kosár tartalmazza az elemhalmazt, ha,h ő ( ). Hierarchikus asszociációs szabály (def.): Legyen T a taxonómiában található termékek és kategóriák halmaza., hierarchikus asszociációs szabály, ha,, =, továbbá egyetlen sem őse egyetlen -nek. és definíciója ugyanaz, mint a sima asszociációs szabálynál.

Hierarchikus asszoc. szabályok kinyerése Amikor a gyakori elemhalmazokat nyerjük ki (pl. apriori algoritmussal), akkor képzeletben töltsük fel a kosarakat az elemek ősével, amikor vizsgáljuk. Más megközelítés: kezdetben a gyökerekben található kategóriákkal határozzuk meg a gyakori elemhalmazokat, majd a következő lépésben vesszük a gyerekeiket stb.

Hierarchikus asszoc. szabályok érdekessége Lesznek semmitmondó szabályok: Pl.: élelmiszerbolt, háromféle (zsírszegény, félzsíros, normál) tej, az emberek egynegyede félzsíros tejet iszik, és: %,. %, h í é %,. %, h egy szabály nem érdekes, ha annak bizonyossága és támogatottsága nem tér el a nála általánosabb szabály paraméterei alapján becsült értékektől

Kategória asszociációs szabályok Ha az adatbázisban nem csak bináris attribútumok szerepelhetnek Minden olyan A attribútumot, amely k különböző értéket vehet fel (k > 2), helyettesítsünk k darab bináris attribútummal. Az így kapott bináris táblán már futtathatjuk a kedvenc asszociációs szabályokat kinyerő algoritmusunkat

A korreláció nem jelent implikációt Az asszociációs szabályok három paramétere közül egyik sem jelent okozatiságot Ha A és B között korreláció van, akkor lehet, hogy A okozza B-t, de lehet, hogy másféle kapcsolat áll fenn köztük. Az is lehet, hogy - B okozza A-t - egy harmadik C jelenség okozza A-t és B-t is pl.: cipőben alvás fejfájást okoz - A és B egymást is okozhatják kölcsönösen megerősítő módon - a korrelációt a véletlenek különös együttállása okozza (elsőfajú hiba)