Adabányásza: Rendellenesség keresés 10. fejeze Tan, Seinbach, Kumar Bevezeés az adabányászaba előadás-fóliák fordíoa Ispány Máron
Logók és ámogaás A ananyag a TÁMOP-4.1.2-08/1/A-2009-0046 számú Kele-magyarországi Informaika Tananyag Tárház projek kereében készül. A ananyagfejleszés az Európai Unió ámogaásával és az Európai Szociális Alap ársfinanszírozásával valósul meg.
Rendellenes/kiugró adaok keresése Mi érünk rendellenes/kiugró ada ala? A rekordoknak egy olyan halmaza, amely számoevően elér a öbbi adaól. Kapcsolódó feladaok: Ado D adabázisban aláljuk meg az összes olyan x D rekordo, amely rendelleneségi ponszáma nagyobb min egy küszöb. Ado D adabázisban aláljuk meg az összes olyan x D, rekordo, melynek f(x) rendellenessége az n legnagyobb közö van. Ado D adabázisban, mely jobbára normális rekordoka aralmaz, és egy x esz-pon eseén számoljuk ki x rendellenességi éréké D-re vonakozóan. Alkalmazások: Hielkárya csalások, elekommunikációs csalások, hálózai beörések, csalások keresése.
Miér keressünk rendellenességeke? Ózonréeg vékonyodása 1985: három kuaó (Farman, Gardinar és Shanklin) nyugalaníoák a Briish Anarcic Survey álal összegyűjö adaok, melyek az muaák, hogy az Anarkiszon az ózonszin 10%-kal a normális alá csökken. Miér nem jelze a Nimbus 7 műhold, melye ózonszin mérésre alkalmas műszerrel is felszerelek, hasonlóan alacsony koncenráció? A műhold álal mér ózonkoncenráció olyan alacsony vol, hogy a program kiugró adanak kezele és figyelmen kívül hagya! Forrás: hp://exploringdaa.cqu.edu.au/ozone.hml hp://www.epa.gov/ozone/science/hole/size.hml
Rendellenességek keresése Kihívások Mennyi kiugró érék van az adaok közö? Nemfelügyel felada Az ellenőrzés (éppen min a klaszerezésnél) nehéz is lehe. Tű keresése a szénakazalban. Munka hipoézis: Jóval öbb,,normális min,,abnormális (kiugró/ rendellenes) megfigyelés van az adaállományban.
Rendellenesség keresési sémák Álalános lépések Alkossunk profil a,,normális viselkedésről. Ez lehe mináza vagy összegző saiszika a eljes populációra. Alkalmazzuk ez a,,normális profil rendellenesség keresésre. Azoka a megfigyeléseke nevezzük rendellenesnek, amelyek lényegesen elérnek a normális profilól. Rendellenesség keresési sémák oszályozása Grafikus és saiszikus alapú Távolság alapú Modell alapú
Grafikus megközelíések Doboz ábra (1-D), pon diagram (2-D), érbeli diagram (3-D) Korláok Idő igény Szubjekív
Konvex burok módszer Az exrém helyű ponoka kiugróaknak ekinjük. Használjuk a konvex burko ezen ponok meghaározására. Mi örénik ha a kiugró ada középen van?
Saiszikus megközelíések Tegyük fel, hogy egy paraméeres modell írja le az adaok eloszlásá (pl. normális eloszlás). Alkalmazzunk saiszikai próbáka, melyek függnek az adaok eloszlásáól, az eloszlás paraméereiől (pl. várhaó érék, variancia), a kiugró érékek várhaó számáól (konfidencia haár).
Grubbs próba Kiugró érékeke keres egydimenziós adaokban. Feleszi az adaok normális eloszlásá. Egyszerre egy kiugró éréke keres, az elávolíja, majd megvizsgálja az alábbi hipoéziseke H 0 : Nincs kiugró érék az adaokban H A : Van legalább egy kiugró érék Grubbs próba saiszika : G max X s X H 0 - elvejük ha: G ( N N 1) N 2 ( / N, N 2 ) 2 2 ( / N, N 2 )
Saiszikai alapú: Likelihood módszer Tegyük fel, hogy a D adaállomány ké valségi eloszlás keverékéből származó miná aralmaz: M (öbbségi eloszlás), A (rendellenes eloszlás). Álalános megközelíés: Tegyük fel kezdeben, hogy az összes rekord M-beli. Legyen L (D) a D loglikelihoodja a időpillanaban. Minden M-hez arozó x rekordo mozgassunk á A-ba. Legyen L +1 (D) az új loglikelihood. Számoljuk ki a differenciá = L (D) L +1 (D). Ha > c (küszöbérék), akkor x - rendellenesnek minősíjük és véglegesen ámozgajuk M-ből A-ba.
Saiszikai alapú: Likelihood módszer Az adaok eloszlása: D = (1 ) M + A M egy az adaokból becsülheő valségi eloszlás. A becslés alapulha bármilyen modellen (naív Bayes, maximális enrópia sb). A- kezdeben egyenlees eloszlásúnak feléelezzük. Likelihood a időponban: i i i i A x i A M x i M A x i A A M x i M M N i i D x P A x P M D LL x P x P x P D L ) ( log log ) ( log ) 1 log( ) ( ) ( ) ( ) (1 ) ( ) ( 1
A saiszikus megközelíés korláai A legöbb próba csak egy aribuumra működik. Legöbbször nem ismer az adaok eloszlása. Magas dimenzióban nehéz becsülni az igazi eloszlás.
Távolság alapú módszerek Az adaoka jellemzők egy vekorával reprezenáljuk. Három fő megközelíés Legközelebbi árs módszer Sűrűség alapú Klaszer alapú
Legközelebbi árs alapú megközelíés Módszer: Számoljuk ki az összes ponpár közöi ávolságo. A kiugró érékek definiálásának öbbféle módja van: Azok a ponok, amelyeknek egy ado d sugarú környezeében kevesebb min p számú pon van. Az az n pon, amelynek a k-adik legközelebbi szomszédjáól ve ávolsága a legnagyobb. Az az n pon, amelynek az álagos ávolsága a k darab legközelebbi szomszédjáól a legnagyobb.
Kiugró érékek veüleekben Osszunk fel minden aribuumo egyenlő mélységű inervallumra. Minden inervallum f = 1/ rész aralmaz a rekordokból. Tekinsünk egy k dimenziós kocká, melye k különböző dimenzió meni részinervallum kijelölése ad. Ha az aribuumok függelenek akkor várhaóan f k részé aralmazza a rekordoknak. N pon eseén a D kocka rikaságá mérhejük a kövekező muaóval: Negaív rikaság a várnál kisebb számú pono jelez a kockában.
Példa N=100, = 5, f = 1/5 = 0.2, N f 2 = 4
Sűrűség alapú megközelíés: LOF Számoljuk ki az összes pon lokális környezeének sűrűségé. Számoljuk ki egy p mina lokális kiugró fakorá (LOF) úgy, min a mina és az ő legközelebbi szomszédjai sűrűségének az álagá. Kiugróak a legnagyobb LOF érékkel rendelkező ponok. p 2 p 1 A legközelebbi árs módszernél p 2 nem lesz kiugró, ezzel szemben a LOF módszer p 1 - és p 2 - egyarán kiugrónak alálja
Klaszer alapú megközelíés Alapöle: Klaszerosísuk az adaoka különböző sűrűségű csoporokra. Válasszuk kiugró jelöleknek a kis klaszerek ponjai. Számoljuk ki a kijelöl ponok és a nem kijelöl klaszerek közöi ávolságo. Ha a kijelöl ponok messze vannak a nem kijelöl ponokól, akkor ők kiugróak.
Téves kövekezeési arány Bayes éel: Álalánosabban:
Téves kövekezeési arány Legjobban egy példán kereszül lehe megéreni. Tegyük fel, hogy egy orvos álal végze esz ponossága 99%, azaz egy beeg populáción 99%-osan jelez beegsége, és egy egészségesen 99%-ban ad negaíva. Vizi uán az orvosnak van egy jó és egy rossz híre. Rossz hír: a esz poziív le. Jó hír: a (beegség) előfordulása a eljes populációban 1/10000. Mennyi a valószínűsége, hogy valóban beegek vagyunk.
Téves kövekezeési arány S beegség, P poziív esz Bár a esz 99%-osan ponos, annak esélye, hogy mégis beegek vagyunk 1%, mivel a populációban az egészséges emberek jóval öbben vannak min a beegek.
Téves kövekezeés behaolás észlelésnél I: beolakodó viselkedés, I: nem-beolakodó viselkedés, A: riaszás, A: nincs riaszás Észlelési arány (igaz poziív arány): P(A I) Hamis riszás arány: P(A I) A cél az, hogy egyarán maximalizáljuk a Bayes-i észlelési arány, P(I A), P(I A)
Észlelési illeve hamis riaszási arány Tegyük fel: Ekkor: A hamis riaszási arány fog dominálni amennyiben P(I) nagyon kicsi.
Észlelési illeve hamis riaszási arány Axelsson: Nagyon kis hamis riaszási arány kell ahhoz, hogy ésszerű Bayes-i észlelési arány érjünk el.