Adatbányászat: Rendellenesség keresés. 10. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba

Hasonló dokumentumok
3. Gyakorlat. A soros RLC áramkör tanulmányozása

GAZDASÁGI ÉS ÜZLETI STATISZTIKA jegyzet ÜZLETI ELŐREJELZÉSI MÓDSZEREK

Gépi tanulás. Bagging, Boosting Adaboost

Tiszta és kevert stratégiák

5. Differenciálegyenlet rendszerek

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

ELEKTRONIKAI ALAPISMERETEK

3. feladatsor: Görbe ívhossza, görbementi integrál (megoldás)

2. gyakorlat: Z épület ferdeségmérésének mérése

Előszó. 1. Rendszertechnikai alapfogalmak.

ELEKTRONIKAI ALAPISMERETEK

ELEKTRONIKAI ALAPISMERETEK

DIFFÚZIÓ. BIOFIZIKA I Október 20. Bugyi Beáta

A BIZOTTSÁG MUNKADOKUMENTUMA

ELEKTRONIKAI ALAPISMERETEK

ELEKTRONIKAI ALAPISMERETEK

ÉLETTARTAM KOCKÁZAT A nyugdíjrendszerre nehezedő egyik teher

A sztochasztikus idősorelemzés alapjai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Intraspecifikus verseny

Statisztika II. előadás és gyakorlat 1. rész

A xilol gőz alsó robbanási határkoncentrációja 1,1 tf.%. Kérdés, hogy az előbbi térfogat ezt milyen mértékben közelíti meg.

ELEKTRONIKAI ALAPISMERETEK

Statisztika gyakorló feladatok

ELEKTRONIKAI ALAPISMERETEK

13 Wiener folyamat és az Itô lemma. Options, Futures, and Other Derivatives, 8th Edition, Copyright John C. Hull

8. előadás Ultrarövid impulzusok mérése - autokorreláció

MNB-tanulmányok 50. A magyar államadósság dinamikája: elemzés és szimulációk CZETI TAMÁS HOFFMANN MIHÁLY

ELEKTRONIKAI ALAPISMERETEK

3. ábra nem periodikus, változó jel 4. ábra periodikusan változó jel

(Nem jogalkotási aktusok) IRÁNYMUTATÁSOK

Területi ellátási egyenlőtlenségek az egészségügyben. Országos kórházi és egyéb ellátási tematikus térképek készítése és térbeli statisztikai elemzése

A termelési, szolgáltatási igény előrejelzése

Legfontosabb farmakokinetikai paraméterek definíciói és számításuk. Farmakokinetikai paraméterek Számítási mód

DIPLOMADOLGOZAT Varga Zoltán 2012

SZUPERKRITIKUS FLUID KROMATOGRÁFIA KROMATOGRÁFIÁS ELVÁLASZTÁSI TECHNIKÁK

A sebességállapot ismert, ha meg tudjuk határozni bármely pont sebességét és bármely pont szögsebességét. Analógia: Erőrendszer

ELEKTRONIKAI ALAPISMERETEK

Elektronika 2. TFBE1302

4. Fejezet BERUHÁZÁSI PROJEKTEK ÉRTÉKELÉSE Beruházási pénzáramok értékelése Infláció hatása a beruházási projektekre

Túlgerjesztés elleni védelmi funkció

Bevezetés a hipotézisvizsgálatokba

Mesterséges Intelligencia MI

HF1. Határozza meg az f t 5 2 ugyanabban a koordinátarendszerben. Mi a lehetséges legbővebb értelmezési tartománya és

1. Előadás: Készletezési modellek, I-II.

Síkalapok vizsgálata - az EC-7 bevezetése

A A. A hidrosztatikai nyomás a folyadék súlyából származik, a folyadék részecskéi nyomják egymást.

Szempontok a járműkarbantartási rendszerek felülvizsgálatához

STATISZTIKA 2. KÉPLETGYŰJTEMÉNY. idősorok statisztikai becslések hipotézisvizsgálat regressziószámítás

ELEKTRONIKAI ALAPISMERETEK

Hullámtan. Hullám Valamilyen közeg kis tartományában keltett, a közegben tovaterjedő zavar.

A diszkrimináns, paraméteres feladatok a gyökök számával kapcsolatosan

5. HŐMÉRSÉKLETMÉRÉS 1. Hőmérséklet, hőmérők Termoelemek

Fourier-sorok konvergenciájáról

SZABÁLYOZÁSI ESZKÖZÖK: Gazdasági ösztönzők jellemzői. GAZDASÁGI ÖSZTÖNZŐK (economic instruments) típusai. Környezetterhelési díjak

Megtelt-e a konfliktuskonténer?

II. Egyenáramú generátorokkal kapcsolatos egyéb tudnivalók:

ELEKTRONIKAI ALAPISMERETEK

Az árfolyamsávok empirikus modelljei és a devizaárfolyam sávon belüli elõrejelezhetetlensége

1997. évi LXXXI. törvény. a társadalombiztosítási nyugellátásról, egységes szerkezetben a végrehajtásáról szóló 168/1997. (X. 6.) Korm.

1 ZH kérdések és válaszok

MATEMATIKA I. KATEGÓRIA (SZAKKÖZÉPISKOLA)

Portfóliókezelési szabályzat

ÁLLAPOTELLENÕRZÉS. Abstract. Bevezetés. A tönkremeneteli nyomások becslése a valós hibamodell alapján

1. ábra A hagyományos és a JIT-elvű beszállítás összehasonlítása

Néhány betegség statisztikai adatainak idősori elemzése. Doktori (PhD) értekezés. Fazekasné Kis Mária

ELEKTRONIKAI ALAPISMERETEK

ELEKTRONIKAI ALAPISMERETEK

Mobil robotok gépi látás alapú navigációja. Vámossy Zoltán Budapesti Műszaki Főiskola Neumann János Informatikai Kar

GYAKORLÓ FELADATOK 5. Beruházások

IRÁNYMUTATÁSOK. tekintettel az Európai Unió működéséről szóló szerződésre és különösen annak 128. cikkére,

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

OKTATÁSGAZDASÁGTAN. Készítette: Varga Júlia Szakmai felelős: Varga Júlia június

Fizika A2E, 7. feladatsor megoldások

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

A hőérzetről. A szubjektív érzés kialakulását döntően a következő hat paraméter befolyásolja:

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Fizika A2E, 11. feladatsor

1. Feladatkör: nemzeti számvitel. Mikro- és makroökonómia

Ancon feszítõrúd rendszer

Üzemeltetési kézikönyv

Szilárdsági vizsgálatok eredményei közötti összefüggések a Bátaapáti térségében mélyített fúrások kızetanyagán

KELET-KÖZÉP EURÓPAI DEVIZAÁRFOLYAMOK ELİREJELZÉSE HATÁRIDİS ÁRFOLYAMOK SEGÍTSÉGÉVEL. Darvas Zsolt Schepp Zoltán

TÁJÉKOZTATÓ Technikai kivetítés és a költségvetési szabályok számszerűsítése

Aggregált termeléstervezés

Járműelemek I. Tengelykötés kisfeladat (A típus) Szilárd illesztés

ELOSZLÁS, ELOSZLÁSFÜGGVÉNY, SŰRŰSÉGFÜGGVÉNY

Erőmű-beruházások értékelése a liberalizált piacon

Összegezés az ajánlatok elbírálásáról

Opkut 2. zh tematika

Schmitt-trigger tanulmányozása

Izzítva, h tve... Látványos kísérletek vashuzallal és grafitceruza béllel

Jelzáloghitel-törlesztés forintban és devizában egyszerű modellek

Parametrikus nyugdíjreformok és életciklus-munkakínálat

Radnai Márton. Határidős indexpiacok érési folyamata

STATISZTIKAI IDŐSORELEMZÉS A TŐZSDÉN. Doktori (PhD) értekezés

6. szemináriumi. Gyakorló feladatok. Tőkekínálat. Tőkekereslet. Várható vs váratlan esemény tőkepiaci hatása. feladatok

Elektronika 2. INBK812E (TFBE5302)

GÖRBEELMÉLET ELMÉLETI ÖSSZEFOGLALÓ ÉS FELADATOK

7. KÜLÖNLEGES ÁRAMLÁSMÉRİK

Átírás:

Adabányásza: Rendellenesség keresés 10. fejeze Tan, Seinbach, Kumar Bevezeés az adabányászaba előadás-fóliák fordíoa Ispány Máron

Logók és ámogaás A ananyag a TÁMOP-4.1.2-08/1/A-2009-0046 számú Kele-magyarországi Informaika Tananyag Tárház projek kereében készül. A ananyagfejleszés az Európai Unió ámogaásával és az Európai Szociális Alap ársfinanszírozásával valósul meg.

Rendellenes/kiugró adaok keresése Mi érünk rendellenes/kiugró ada ala? A rekordoknak egy olyan halmaza, amely számoevően elér a öbbi adaól. Kapcsolódó feladaok: Ado D adabázisban aláljuk meg az összes olyan x D rekordo, amely rendelleneségi ponszáma nagyobb min egy küszöb. Ado D adabázisban aláljuk meg az összes olyan x D, rekordo, melynek f(x) rendellenessége az n legnagyobb közö van. Ado D adabázisban, mely jobbára normális rekordoka aralmaz, és egy x esz-pon eseén számoljuk ki x rendellenességi éréké D-re vonakozóan. Alkalmazások: Hielkárya csalások, elekommunikációs csalások, hálózai beörések, csalások keresése.

Miér keressünk rendellenességeke? Ózonréeg vékonyodása 1985: három kuaó (Farman, Gardinar és Shanklin) nyugalaníoák a Briish Anarcic Survey álal összegyűjö adaok, melyek az muaák, hogy az Anarkiszon az ózonszin 10%-kal a normális alá csökken. Miér nem jelze a Nimbus 7 műhold, melye ózonszin mérésre alkalmas műszerrel is felszerelek, hasonlóan alacsony koncenráció? A műhold álal mér ózonkoncenráció olyan alacsony vol, hogy a program kiugró adanak kezele és figyelmen kívül hagya! Forrás: hp://exploringdaa.cqu.edu.au/ozone.hml hp://www.epa.gov/ozone/science/hole/size.hml

Rendellenességek keresése Kihívások Mennyi kiugró érék van az adaok közö? Nemfelügyel felada Az ellenőrzés (éppen min a klaszerezésnél) nehéz is lehe. Tű keresése a szénakazalban. Munka hipoézis: Jóval öbb,,normális min,,abnormális (kiugró/ rendellenes) megfigyelés van az adaállományban.

Rendellenesség keresési sémák Álalános lépések Alkossunk profil a,,normális viselkedésről. Ez lehe mináza vagy összegző saiszika a eljes populációra. Alkalmazzuk ez a,,normális profil rendellenesség keresésre. Azoka a megfigyeléseke nevezzük rendellenesnek, amelyek lényegesen elérnek a normális profilól. Rendellenesség keresési sémák oszályozása Grafikus és saiszikus alapú Távolság alapú Modell alapú

Grafikus megközelíések Doboz ábra (1-D), pon diagram (2-D), érbeli diagram (3-D) Korláok Idő igény Szubjekív

Konvex burok módszer Az exrém helyű ponoka kiugróaknak ekinjük. Használjuk a konvex burko ezen ponok meghaározására. Mi örénik ha a kiugró ada középen van?

Saiszikus megközelíések Tegyük fel, hogy egy paraméeres modell írja le az adaok eloszlásá (pl. normális eloszlás). Alkalmazzunk saiszikai próbáka, melyek függnek az adaok eloszlásáól, az eloszlás paraméereiől (pl. várhaó érék, variancia), a kiugró érékek várhaó számáól (konfidencia haár).

Grubbs próba Kiugró érékeke keres egydimenziós adaokban. Feleszi az adaok normális eloszlásá. Egyszerre egy kiugró éréke keres, az elávolíja, majd megvizsgálja az alábbi hipoéziseke H 0 : Nincs kiugró érék az adaokban H A : Van legalább egy kiugró érék Grubbs próba saiszika : G max X s X H 0 - elvejük ha: G ( N N 1) N 2 ( / N, N 2 ) 2 2 ( / N, N 2 )

Saiszikai alapú: Likelihood módszer Tegyük fel, hogy a D adaállomány ké valségi eloszlás keverékéből származó miná aralmaz: M (öbbségi eloszlás), A (rendellenes eloszlás). Álalános megközelíés: Tegyük fel kezdeben, hogy az összes rekord M-beli. Legyen L (D) a D loglikelihoodja a időpillanaban. Minden M-hez arozó x rekordo mozgassunk á A-ba. Legyen L +1 (D) az új loglikelihood. Számoljuk ki a differenciá = L (D) L +1 (D). Ha > c (küszöbérék), akkor x - rendellenesnek minősíjük és véglegesen ámozgajuk M-ből A-ba.

Saiszikai alapú: Likelihood módszer Az adaok eloszlása: D = (1 ) M + A M egy az adaokból becsülheő valségi eloszlás. A becslés alapulha bármilyen modellen (naív Bayes, maximális enrópia sb). A- kezdeben egyenlees eloszlásúnak feléelezzük. Likelihood a időponban: i i i i A x i A M x i M A x i A A M x i M M N i i D x P A x P M D LL x P x P x P D L ) ( log log ) ( log ) 1 log( ) ( ) ( ) ( ) (1 ) ( ) ( 1

A saiszikus megközelíés korláai A legöbb próba csak egy aribuumra működik. Legöbbször nem ismer az adaok eloszlása. Magas dimenzióban nehéz becsülni az igazi eloszlás.

Távolság alapú módszerek Az adaoka jellemzők egy vekorával reprezenáljuk. Három fő megközelíés Legközelebbi árs módszer Sűrűség alapú Klaszer alapú

Legközelebbi árs alapú megközelíés Módszer: Számoljuk ki az összes ponpár közöi ávolságo. A kiugró érékek definiálásának öbbféle módja van: Azok a ponok, amelyeknek egy ado d sugarú környezeében kevesebb min p számú pon van. Az az n pon, amelynek a k-adik legközelebbi szomszédjáól ve ávolsága a legnagyobb. Az az n pon, amelynek az álagos ávolsága a k darab legközelebbi szomszédjáól a legnagyobb.

Kiugró érékek veüleekben Osszunk fel minden aribuumo egyenlő mélységű inervallumra. Minden inervallum f = 1/ rész aralmaz a rekordokból. Tekinsünk egy k dimenziós kocká, melye k különböző dimenzió meni részinervallum kijelölése ad. Ha az aribuumok függelenek akkor várhaóan f k részé aralmazza a rekordoknak. N pon eseén a D kocka rikaságá mérhejük a kövekező muaóval: Negaív rikaság a várnál kisebb számú pono jelez a kockában.

Példa N=100, = 5, f = 1/5 = 0.2, N f 2 = 4

Sűrűség alapú megközelíés: LOF Számoljuk ki az összes pon lokális környezeének sűrűségé. Számoljuk ki egy p mina lokális kiugró fakorá (LOF) úgy, min a mina és az ő legközelebbi szomszédjai sűrűségének az álagá. Kiugróak a legnagyobb LOF érékkel rendelkező ponok. p 2 p 1 A legközelebbi árs módszernél p 2 nem lesz kiugró, ezzel szemben a LOF módszer p 1 - és p 2 - egyarán kiugrónak alálja

Klaszer alapú megközelíés Alapöle: Klaszerosísuk az adaoka különböző sűrűségű csoporokra. Válasszuk kiugró jelöleknek a kis klaszerek ponjai. Számoljuk ki a kijelöl ponok és a nem kijelöl klaszerek közöi ávolságo. Ha a kijelöl ponok messze vannak a nem kijelöl ponokól, akkor ők kiugróak.

Téves kövekezeési arány Bayes éel: Álalánosabban:

Téves kövekezeési arány Legjobban egy példán kereszül lehe megéreni. Tegyük fel, hogy egy orvos álal végze esz ponossága 99%, azaz egy beeg populáción 99%-osan jelez beegsége, és egy egészségesen 99%-ban ad negaíva. Vizi uán az orvosnak van egy jó és egy rossz híre. Rossz hír: a esz poziív le. Jó hír: a (beegség) előfordulása a eljes populációban 1/10000. Mennyi a valószínűsége, hogy valóban beegek vagyunk.

Téves kövekezeési arány S beegség, P poziív esz Bár a esz 99%-osan ponos, annak esélye, hogy mégis beegek vagyunk 1%, mivel a populációban az egészséges emberek jóval öbben vannak min a beegek.

Téves kövekezeés behaolás észlelésnél I: beolakodó viselkedés, I: nem-beolakodó viselkedés, A: riaszás, A: nincs riaszás Észlelési arány (igaz poziív arány): P(A I) Hamis riszás arány: P(A I) A cél az, hogy egyarán maximalizáljuk a Bayes-i észlelési arány, P(I A), P(I A)

Észlelési illeve hamis riaszási arány Tegyük fel: Ekkor: A hamis riaszási arány fog dominálni amennyiben P(I) nagyon kicsi.

Észlelési illeve hamis riaszási arány Axelsson: Nagyon kis hamis riaszási arány kell ahhoz, hogy ésszerű Bayes-i észlelési arány érjünk el.