Mintavételezés, szűrés, kilógó esetek detektálása

Hasonló dokumentumok
Mintavételezés, szűrés, kilógó esetek detektálása

Mintavételezés, szűrés, outlierek detektálása

Idősorok elemzése. Salánki Ágnes

Adatbányászati szemelvények MapReduce környezetben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Közösség detektálás gráfokban

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Vizuális adatelemzés

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Kísérlettervezés alapfogalmak

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Nagyméretű Adathalmazok Kezelése

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

Diszkréten mintavételezett függvények

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Felvételi tematika INFORMATIKA

Programozás alapjai II. (7. ea) C++ Speciális adatszerkezetek. Tömbök. Kiegészítő anyag: speciális adatszerkezetek

Speciális adatszerkezetek. Programozás alapjai II. (8. ea) C++ Tömbök. Tömbök/2. N dimenziós tömb. Nagyméretű ritka tömbök

Számítógép és programozás 2

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Adatelemzés és adatbányászat MSc

Gépi tanulás a gyakorlatban. Lineáris regresszió

Rendszermodellezés: házi feladat bemutatás

Az objektum leírására szolgálnak. Mire jók? Sokszor maga a jellemző az érdekes: Tömörítés. Objektumok csoportosítására

Teljesen elosztott adatbányászat alprojekt

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Társadalmi és gazdasági hálózatok modellezése

Programozás alapjai II. (7. ea) C++

Adatszerkezetek 2. Dr. Iványi Péter

Felhők teljesítményelemzése felhő alapokon

Érdekes informatika feladatok

Algoritmusok és Adatszerkezetek II. utolsó előadás Beszédtechnológiai algoritmusok. (csak egy kis felszínkapargatás)

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Programozási módszertan. Mohó algoritmusok

Rendezések. A rendezési probléma: Bemenet: Kimenet: n számot tartalmazó (a 1,a 2,,a n ) sorozat

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

7. Régió alapú szegmentálás

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján. Típusok: felügyelt és felügyelet nélküli tanuló eljárások

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék

Hidasi Balázs. Gravity R&D BME-TMIT február 20. Budapest

Struktúra nélküli adatszerkezetek

Ugrólisták. RSL Insert Example. insert(22) with 3 flips. Runtime?

Virtualizált környezetek teljesítménymérése és elemzése

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Hátralevı órák. Néhány fontos probléma. Többdimenziós adatbázisok. k dimenziós térbeli indexek

Közösségek keresése nagy gráfokban

Hálózati Folyamok Alkalmazásai. Mályusz Levente BME Építéskivitelezési és Szervezési Tanszék

Tartalom Keresés és rendezés. Vektoralgoritmusok. 1. fejezet. Keresés adatvektorban. A programozás alapjai I.

Klaszterezés, 2. rész

Hálózati Folyamok Alkalmazásai. Mályusz Levente BME Építéskivitelezési és Szervezési Tanszék

Konjugált gradiens módszer

3. Szűrés képtérben. Kató Zoltán. Képfeldolgozás és Számítógépes Grafika tanszék SZTE (

1. Ábrázolja az f(x)= x-4 függvényt a [ 2;10 ] intervallumon! (2 pont) 2. Írja fel az alábbi lineáris függvény grafikonjának egyenletét!

Keresés és rendezés. A programozás alapjai I. Hálózati Rendszerek és Szolgáltatások Tanszék Farkas Balázs, Fiala Péter, Vitéz András, Zsóka Zoltán

Algoritmizálás. Horváth Gyula Szegedi Tudományegyetem Természettudományi és Informatikai Kar

Hálózati réteg. WSN topológia. Útvonalválasztás.

PONTFELHŐ REGISZTRÁCIÓ

2) Írja fel az alábbi lineáris függvény grafikonjának egyenletét! (3pont)

Algoritmusok és adatszerkezetek gyakorlat 07

Gráfok 2. Legrövidebb utak, feszítőfák. Szoftvertervezés és -fejlesztés II. előadás. Szénási Sándor

Searching in an Unsorted Database

A programozás alapjai előadás. Amiről szólesz: A tárgy címe: A programozás alapjai

Képrekonstrukció 9. előadás

Ambiens szabályozás problémája Kontroll és tanulás-1

Adatszerkezetek II. 10. előadás

Teljesítménymodellezés

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Gépi tanulás a gyakorlatban. Bevezetés

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

Számítógép és programozás 2

A modellellenőrzés érdekes alkalmazása: Tesztgenerálás modellellenőrzővel

Csima Judit április 9.

Minimum követelmények matematika tantárgyból 11. évfolyamon

Összetett programozási tételek Rendezések Keresések PT egymásra építése. 10. előadás. Programozás-elmélet. Programozás-elmélet 10.

Biomatematika 2 Orvosi biometria

Valószínűségi modellellenőrzés Markov döntési folyamatokkal

Hasonlósági keresés molekulagráfokon: legnagyobb közös részgráf keresése

Intelligens adatelemzés

Mérnökgeodéziai hálózatok feldolgozása

Kódverifikáció gépi tanulással

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

Elengedhetetlen a játékokban, mozi produkciós eszközökben Nélküle kvantum hatás lép fel. Az objektumok áthaladnak a többi objektumon

A sz.ot.ag. III. Magyar Számítógépes Nyelvészeti Konferencia december 8. Bíró Tamás, ELTE, Budapest / RUG, Groningen, NL 1/ 16

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Hidraulikus hálózatok robusztusságának növelése

1. Házi feladat. Határidő: I. Legyen f : R R, f(x) = x 2, valamint. d : R + 0 R+ 0

Számítógépes döntéstámogatás. Genetikus algoritmusok

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Mesterséges intelligencia 2. laborgyakorlat

A félév során előkerülő témakörök

Funkcionális és logikai programozás. { Márton Gyöngyvér, 2012} { Sapientia, Erdélyi Magyar Tudományegyetem }

Átírás:

Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes salanki@mit.bme.hu Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems

Az alapfeladat ugyanaz Az aspektus más Alapfogalmak

Az alapfeladat ugyanaz Az aspektus más Alapfogalmak

OUTLIER DETEKTÁLÁS

Alapfeladat Ábra forrása: http://www.dpchallenge.com/image.php?image_id=636539

Alapfeladat Vannak-e egyáltalán? Ábra forrása: http://www.dpchallenge.com/image.php?image_id=636539

Alapfeladat Vannak-e egyáltalán? Hogy néznek ki? Ábra forrása: http://www.dpchallenge.com/image.php?image_id=636539

Alapfeladat Vannak-e egyáltalán? Hogy néznek ki? Hogyan szeparálhatóak? Miért? Ábra forrása: http://www.dpchallenge.com/image.php?image_id=636539

Alapfeladat Vannak-e egyáltalán? Vannak-e egyáltalán? Hogy néznek ki? Szakterület specifikus? Hogyan szeparálhatóak? Nagy adat: aggregálás? Miért? Hatások? Ábra forrása: http://www.dpchallenge.com/image.php?image_id=636539

Alapfeladat

Alapfeladat

Megközelítések Távolság alapúak Sűrűség alapúak

Megközelítések Távolság alapúak Sűrűség alapúak

Megközelítések Távolság alapúak Sűrűség alapúak

Megközelítések Távolság alapúak Sűrűség alapúak

TÁVOLSÁG ALAPÚ TECHNIKÁK

Befoglaló burok Féltér-mélység: Tukey, 1974 0 hds z : min x i : x i z, x j : x j z

Befoglaló burok Féltér-mélység: Tukey, 1974 1 2 3 4 5 6 7 8 0 hds z : min x i : x i z, x j : x j z

Befoglaló burok Féltér-mélység: Tukey, 1974 1 2 3 4 5 6 7 8 8 7 6 5 4 3 2 1 0 hds z : min x i : x i z, x j : x j z

Befoglaló burok Féltér-mélység: Tukey, 1974 1 2 3 4 5 6 7 8 8 7 6 5 4 3 2 1 Min.: 1 2 3 4 4 3 2 1 0 hds z : min x i : x i z, x j : x j z

Befoglaló burok Féltér-mélység: Tukey, 1974 1 2 3 4 5 6 7 8 8 7 6 5 4 3 2 1 Min.: 1 2 3 4 4 3 2 1 0 Extrém pontok hds z : min x i : x i z, x j : x j z

Befoglaló burok Féltér-mélység: Tukey, 1974 1 2 3 4 5 6 7 8 8 7 6 5 4 3 2 1 Min.: 1 2 3 4 4 3 2 1 0 Extrém Medián: majd a végén pontok hds z : min x i : x i z, x j : x j z

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

Befoglaló burok Féltér-mélység: Tukey, 1974

DEMO Befoglaló burok Csomag: depth Hasznos függvények: depth, isodepth Paraméterek: u pont, dpth mélység

DB Distance Based Outlier: szomszédok száma alacsony Paraméterek o r sugarú hipergömb o Szomszédok elvárt π aránya

DB Distance Based Outlier: szomszédok száma alacsony Paraméterek o r sugarú hipergömb o Szomszédok elvárt π aránya

DEMO DB Csomag: fields Függvény: fields.rdist.near Paraméterek: delta sugár

MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt!

MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt!

MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt! 0.0014 0.00041 0.00011

MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt! Kimerítő keresés? 0.0014 0.00041 choose(n = 1000, k = 900) [1] 6.385051e+139 0.00011

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján

Mahalanobis távolság D x, M = (x θ) T S 1 x θ o S kovarianciamátrix o θ súlypont Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

Mahalanobis távolság D x, M = (x θ) T S 1 x θ o S kovarianciamátrix o θ súlypont Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján o Legközelebbi x%

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján o Legközelebbi x%

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív X Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján o Legközelebbi x%

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján o Legközelebbi x% X

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív X Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján o Legközelebbi x%

Közelítő algoritmus FAST-MCD Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján o Legközelebbi x%

BACON Blocked Adaptive Computationally Efficient Outlier Nominators Kiinduló halmaz félig felügyelt módban is! Új halmaz: küszöbérték alapján

DEMO BACON Csomag: robustx Függvény: mvbacon Paraméterek o init. sel kezdőhalmaz manual man. sel kezdőhalmaz Mahalanobis, dunimedian m kezdőhalmaz mérete

DEMO BACON Csomag: robustx Függvény: mvbacon Paraméterek o init. sel kezdőhalmaz manual man. sel kezdőhalmaz Mahalanobis, dunimedian m kezdőhalmaz mérete

SŰRŰSÉG ALAPÚ TECHNIKÁK

DB alapötlete Hiába vagyunk a középpontban, ha nincsenek szomszédaink Distance-based approach

LOF motiváció: mikor jó a DB? p 2 sem, vagy C 1 is?

LOF Local Outlier Factor rd: reachability distance Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan

LOF Local Outlier Factor rd: reachability distance Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan

LOF Local Outlier Factor rd: reachability distance Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan

LOF Local outlier factor Ha a szomszédaim is magányosak, nincs nagy gond LOF: DMwR::lofactor

DEMO LOF Csomag: DMwR (Data Mining with R) Függvény: lofactor Paraméterek: k szomszédság mérete

OUTLIEREK ADATFOLYAMOKBAN

Ábra és a számértékes példák forrása: [1] Egyszer streamenként: Lokális maximum? Adatfolyamok Globális kérdések: Minden új maximumot jelezzünk Buffer, megengedett számítási memória igény korlátos 1. több forrásból, 2. ismeretlen sebességgel

IT Monitorozás Tőzsdei elemzések Banki csalásfelderítés Outlierek idősorokban Mindkét adattípus számít o Szenzorok: nagyrészt numerikus CPU_nice: 0.12, 0.13, 0.12, 0.13, o Naplózás: nagyrészt kategorikus VM_operations: Start, Stop, Start, Snapshot, Snapshot,

Additive outlier Hatások szerinti osztályozás o A rákövetkező elemekre teljesen hatástalan Level Shift Outlier o Permanens hatás Innovational Outlier o Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet Transient Change Outlier o ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra

Additive Basic types Level Shift Innovational Transient change

Outlierek szekvenciák között Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás? Feltételezések o Az idősorok hossza azonos o Keressük a legkiugróbbat

Ötletek Outlierek szekvenciák között o Képezzük le egy értékre az idősort variancia az első pillanat, amikor az érték elért egy küszöböt o Elemek egy hasonlósági mátrixba Innentől már akármelyik klasszikus klaszterezési módszer működik Távolságfüggvény a szomszédossághoz?

Idősorok távolságfüggvényei Euklideszi távolság o X tengely menti eltolás (offset)? Dynamic time warping o eleve kiugró értékek alapján hasonlítunk Length of common subsequence

Dinamikus idővetemítés Az idősorok pontjait nem indexenként hasonlítjuk össze o Motiváció pl. hangfelismerésnél

Dinamikus idővetemítés Az idősorok pontjait nem indexenként hasonlítjuk össze o Motiváció pl. hangfelismerésnél

Dinamikus idővetemítés számítása 1. n m-es D mátrixban rögzítjük a sorok egymástól való távolságát 2. Kell: p = p 1, p 2, p k útvonal a D 1,1 és D n, m között 3. Cél: minimális költség 4. Szabályok: 1. Minden lépésben előre haladunk (nem távolodhatunk, tehát i, j i, j esetén i i, j j) 2. Az út folytonos, mindig csak szomszédos cellákra léphetünk

Dinamikus idővetemítés Sakoe-Chiba sáv

Dinamikus idővetemítés Sakoe-Chiba sáv

Longest common subsequence Nem a pontos időpont számít Csak a sorrend x 1 : abcdefg lcs x 1, x 2 : abceg nlcs(x 1, x 2 ) = 5 x 2 : fabdceg

Longest common subsequence Nem a pontos időpont számít Csak a sorrend Általánosítás folytonos értékekre

Outlierek szekvenciákban A legkiugróbb pont megtalálása o abs(t[k] mean(t[k l],, T[k + l]) ): max

Outlierek szekvenciákban A legkiugróbb pont megtalálása o abs(t[k] mean(t[k l],, T[k + l]) ): max

Outlierek szekvenciákban A legkiugróbb pont megtalálása o abs(t[k] mean(t[k l],, T[k + l]) ): max

Outlierek szekvenciákban A legkiugróbb pont megtalálása o abs(t[k] mean(t[k l],, T[k + l]) ): max o Square Error regresszióból: min

Outlierek szekvenciákban A legkiugróbb pont megtalálása o abs(t[k] mean(t[k l],, T[k + l]) ): max o Square Error regresszióból: min

Outlierek szekvenciákban A legkiugróbb pont megtalálása o abs(t[k] mean(t[k l],, T[k + l]) ): max o Square Error regresszióból: min o A pont törlésével a minimum description length a lehető legjobban lecsökken. Eredeti: 5 különböző érték

Outlierek szekvenciákban A legkiugróbb pont megtalálása o abs(t[k] mean(t[k l],, T[k + l]) ): max o Square Error regresszióból: min o A pont törlésével a minimum description length a lehető legjobban lecsökken. Eredeti: 5 különböző érték -2 törlése után: 4 különböző érték is elég

Autokorrelációs módszerek Autokorrelációs módszerek o Hol térünk el nagyon a prediktált értéktől? o Hol változik legjobban az autokorrelációs modell?

Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat? Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni Variációk egy témára o Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)

Simaság Kiindulási feltételek o A többségi osztály eloszlásfüggvénye megfelelően sima Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés

Simaság Kiindulási feltételek o A többségi osztály eloszlásfüggvénye megfelelően sima Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés

Simaság Kiindulási feltételek o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell? Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés

Simaság Kiindulási feltételek o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell? Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés

Simaság Kiindulási feltételek o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell? Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés

Simaság Kiindulási feltételek o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell? Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés

NNDB 1. i-re NN = x S, d i, x r i, r i az adott ciklusban megengedhető maximális sugár 2. i -re s i = max NN i NN x x NN(i) 3. Sejtett ritka elem: i, amire s i maximális. 4. Ha i ritka, vége. 5. Ha nem, r i+1 = i + 1 r 1, ugrás 1-re. NN = 14 NN = 7

Apriori információval NNDB r i+1 = (i + 1) r 1, na de mekkora legyen r 1? Ötlet: ha a ritkák aránya p 2, akkor legyen K = p 2 S, számítsuk ki i-re a K. legközelebbi elem távolságát: n i. Legyen r 1 = min i S n i.

Apriori információval NNDB r i+1 = (i + 1) r 1, na de mekkora legyen r 1? Ötlet: ha a ritkák aránya p 2, akkor legyen K = p 2 S, számítsuk ki i-re a K. legközelebbi elem távolságát: n i. Legyen r 1 = min i S n i. Ha a ritkák tényleg nagyon közel vannak egymáshoz, akkor beleférnek egy körbe

Implementációs kérdések knn(x i ), majd NN(x i, r ) milyen adatszerkezettel? o ort x k, which x r Partíciós módszerek? o Pl. fák: k-d tree, VP-tree

Implementációs kérdések x r rr x r xxhcciiwwh knn(x i ), majd NN(x i, r ) milyen adatszerkezettel? Naiv o Távolságmátrixot tárolunk o sort x k, k, which x r Partíciós módszerek? o Pl. fák: k-d tree, VP-tree

Implementációs kérdések x r rr x r xxhcciiwwh knn(x i ), majd NN(x i, r ) milyen adatszerkezettel? Naiv o Távolságmátrixot tárolunk o sort x k, k, which x r Partíciós módszerek? o Pl. fák: k-d tree, VP-tree o Pl. fák: k-d tree, VP-tree

Implementációs kérdések 1. ÉPÍT Hierarchikus adatszerkezetben a közeli ponthalmazok

Implementációs kérdések 9 (7. zóna) = 10 2.1 r 9 (7. zóna) 2.1 r 9 (7. zóna) 2.2 r = 7 (5-8. zóna) 1. ÉPÍT Hierarchikus adatszerkezetben a közeli ponthalmazok

Implementációs kérdések 9 (7. zóna) = 10 2.2 r = 7 (5-8. zóna) 2.1 r 9 (7. zóna) 2.2 r = 7 (5-8. zóna) 1. ÉPÍT Hierarchikus adatszerkezetben a közeli ponthalmazok

Implementációs kérdések 9 (7. zóna) = 10 2.2 r = 7 (5-8. zóna) 2.1 r 9 (7. zóna) 2.2 r = 7 (5-8. zóna) Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt 1. ÉPÍT Hierarchikus adatszerkezetben a közeli ponthalmazok

Map-Reduce? n elég nagy muszáj bontani

Map-Reduce? n elég nagy muszáj bontani MAP Csomópont milyen más cspok knn-jeit frissítheti? REDUCE Ha megvan minden jelölt: tényleges távolságszámítás

Map-Reduce? n elég nagy muszáj bontani Mi van, ha már a felosztást is elosztottan MAP akarom végezni? Csomópont milyen más cspok knn-jeit frissítheti? REDUCE Ha megvan minden jelölt: tényleges távolságszámítás

Egy kis csalás.. Voronoi cellák U 1

Amiért jó: MapReduce n elég nagy muszáj bontani MAP2 Csomópont milyen más cspok knn-jeit frissítheti? REDUCE2 Ha megvan minden jelölt: tényleges távolságszámítás

Amiért jó: MapReduce n elég nagy muszáj bontani MAP1 Csomópont->tartomány hozzárendelések REDUCE1 Tartományok értékei MAP2 Csomópont milyen más cspok knn-jeit frissítheti? REDUCE2 Ha megvan minden jelölt: tényleges távolságszámítás

Hivatkozásjegyzék [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf o Coursera tárgy: https://www.coursera.org/course/mmds [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009