Adaptív dinamikus szegmentálás idősorok indexeléséhez

Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november 20.

Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Bevezetés Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Bevezetés Feladat Feladat Idősorok hatékony szegmentálása Adatsorok hasonlósági keresése Dinamikus, adaptív indexelés Empirikus eredmények

Bevezetés Motiváció Motiváció Széles alkalmazási terület Orvosi alkalmazás Tőzsde Szenzorhálózatok...

Bevezetés Motiváció Motiváció Széles alkalmazási terület Orvosi alkalmazás Tőzsde Szenzorhálózatok... Javítási ötlet Eddig globálisan indexelték az idősorhalmazokat Nem használtak felülről korlátozó függvényeket

Bevezetés Definíciók Definíciók Idősor A továbbiakban legyen adott n pozitív egész szám, valamint X = (x 1, x 2,..., x n ) és Y = (y 1, y 2,..., y n ) n hosszú, valós számokból álló idősorok. Ezek halmaza legyen T S.

Bevezetés Definíciók Definíciók Idősor A továbbiakban legyen adott n pozitív egész szám, valamint X = (x 1, x 2,..., x n ) és Y = (y 1, y 2,..., y n ) n hosszú, valós számokból álló idősorok. Ezek halmaza legyen T S. Távolság X és Y euklideszi távolsága D(X, Y ) = n i=1 (x i y i ) 2.

Bevezetés Definíciók Definíciók Távolság X és Y euklideszi távolsága D(X, Y ) = n i=1 (x i y i ) 2. Teljes illesztés Legyen adott Q T S és 0 < ɛ R. Keressük azokat az S idősorokat, melyekre D(Q, S) ɛ. Ha a hasonlósági mérték az euklideszi távolság, az idősorok pedig azonos hosszúságúak, ezt teljes illesztésnek nevezzük.

Bevezetés Korábbi eredmények Korábbi eredmények Alulról korlátozó dimenziócsökkentés Létezik D LB (, ) függvény, melyre ha S i (i {1, 2}) idősor reprezentációja S i (i {1, 2}), akkor D LB ( S 1, S 2 ) D(S 1, S 2 ).

Bevezetés Korábbi eredmények Korábbi eredmények Alulról korlátozó dimenziócsökkentés Létezik D LB (, ) függvény, melyre ha S i (i {1, 2}) idősor reprezentációja S i (i {1, 2}), akkor D LB ( S 1, S 2 ) D(S 1, S 2 ). Ekkor ha D LB ( Q, S) > ɛ, akkor az S által reprezentált idősorokat már nem kell vizsgálnunk, ugyanis azok tényleges távolsága Q-tól biztos, hogy ɛ-nál nagyobb.

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés A cikk fő eredményei A cikk fő eredményei Eredmények Felülről korlátozó dimenziócsökkentés DSTree Hisztogramkészítés

Módszerek Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció APCA Egy X idősort (X 1, X 2,..., X m ) szegmenseire bontjuk, ahol m n és j {1,..., m} : X j = (x rj 1 +1,..., x rj ) valamely 0 = r 0 < r 1 < < r m = n indexsorozatra.

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció APCA Egy X idősort (X 1, X 2,..., X m ) szegmenseire bontjuk, ahol m n és j {1,..., m} : X j = (x rj 1 +1,..., x rj ) valamely 0 = r 0 < r 1 < < r m = n indexsorozatra. Egy X j szegmens reprezentációja a (µ j, r j ) pár lesz, ahol µ j = r j k=r j 1 +1 s k r j r j 1 a szegmens értékeinek átlaga. X közelítő reprezentációja tehát X = ((µ 1, r 1 ),..., (µ m, r m )).

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció Illeszkedés Azt mondjuk, hogy X és Ỹ APCA reprezentációk illeszkednek, ha az előző bekezdés jelöléseivel az m és r 0,..., r m értékeik megegyeznek, vagyis: X = ((µ X 1, r 1 ),..., (µ X m, r m )), Ỹ = ((µ Y 1, r 1 ),..., (µ Y m, r m )).

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció Lemma Adott két egyforma hosszú idősor, X és Y, valamint illeszkedő APCA reprezentációik, X = ((µ X 1, r 1),..., (µ X m, r m )) és Ỹ = ((µ Y 1, r 1),..., (µ Y m, r m )).

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció Lemma Adott két egyforma hosszú idősor, X és Y, valamint illeszkedő APCA reprezentációik, X = ((µ X 1, r 1),..., (µ X m, r m )) és Ỹ = ((µ Y 1, r 1),..., (µ Y m, r m )). Ekkor: D(X, Y ) m (r i r i 1 )(µ X i µ Y i ) 2 i=1

Módszerek Bővített adaptív szakaszonként konstans approximáció Bővített adaptív szakaszonként konstans approximáció EAPCA A szegmensek reprezentációját az értékek szórásával egészíti ki, és ennek segítségével egy pontosabb alsó korlátot, valamint egy felső korlátot is definiál.

Módszerek Bővített adaptív szakaszonként konstans approximáció Bővített adaptív szakaszonként konstans approximáció EAPCA A szegmensek reprezentációját az értékek szórásával egészíti ki, és ennek segítségével egy pontosabb alsó korlátot, valamint egy felső korlátot is definiál. X = ((µ 1, σ 1, r 1 ),..., (µ m, σ m, r m )), ahol σ i = ri j=r i 1 +1 s2 ri j j=r ( i 1 +1 s j ) r i r i 1 r i r 2 i 1 értékek a reprezentált szegmens értékeinek szórása.

Módszerek Bővített adaptív szakaszonként konstans approximáció Bővített adaptív szakaszonként konstans approximáció Tétel Adott két egyforma hosszú idősor, X és Y, valamint illeszkedő EAPCA reprezentációik, X = ((µ X 1, σx 1, r 1),..., (µ X m, σ X m, r m )) és Ỹ = ((µ Y 1, σy 1, r 1),..., (µ Y m, σ Y m, r m )).

Módszerek Bővített adaptív szakaszonként konstans approximáció Bővített adaptív szakaszonként konstans approximáció Tétel Adott két egyforma hosszú idősor, X és Y, valamint illeszkedő EAPCA reprezentációik, X = ((µ X 1, σx 1, r 1),..., (µ X m, σm, X r m )) és Ỹ = ((µ Y 1, σy 1, r 1),..., (µ Y m, σm, Y r m )). Ekkor: D(X, Y ) m (r i r i 1 )[(µ X i µ Y i ) 2 + (σi X σi Y ) 2 ], i=1 D(X, Y ) m (r i r i 1 )[(µ X i µ Y i ) 2 + (σi X + σi Y ) 2 ]. i=1

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Feladat X idősor és Y 1,..., Y l egyforma hosszú idősorok esetén a min 1 j l D(X, Y j ) távolságot szeretnénk alulról becsülni.

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Jelölés Legyen X, Y 1,..., Y l mind egyforma hosszú, továbbá legyenek X = ((µ X 1, σ X 1, r 1 ),..., (µ X m, σ X m, r m )), Ỹ 1 = ((µ Y 1 1, σy 1 1, r 1),..., (µ Y 1 m, σ Y 1 m, r m )),..., Ỹ l = ((µ Y l 1, σy l 1, r 1),..., (µ Y l m, σ Y l m, r m )) az X, Y 1,..., Y l idősorok illeszkedő EAPCA reprezentációi.

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Jelölés Jelölje az Ỹ 1,..., Ỹ l halmazban i. szegmens minimális és maximális átlagát µ min i = min 1 j l µ Y j i és µ max i = max 1 j l µ Y j szórását pedig σ min i = min 1 j l σ Y j i és σ max i = max 1 j l σ Y j i. i,

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Tétel Adott X, Y 1,..., Y l egyforma hosszú idősorok és illeszkedő X, Ỹ 1,..., Ỹ l EAPCA reprezentációik. Ekkor:

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Tétel min D(X, Y j) 1 j l max D(X, Y j) 1 j l m (r i r i 1 )(LB µ i + LBi σ ) 2, i=1 m (r i r i 1 )(UB µ i + UBi σ ) 2. i=1

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Tétel min D(X, Y j) 1 j l max D(X, Y j) 1 j l m (r i r i 1 )(LB µ i + LBi σ ) 2, i=1 m (r i r i 1 )(UB µ i + UBi σ ) 2. i=1 Ahol LB µ i, LBi σ, UB µ i, UBi σ elemi függvényei a {µ i ; σ i } {min; max; X } halmaz elemeinek.

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Következmény Ha az illeszkedő EAPCA reprezentációval adott idősorok halmazától vett távolságot szeretnénk alulról becsülni, ahhoz elég a szegmensek átlagainak és szórásainak minimumát és maximumát számon tartanunk.

Módszerek DSTree DSTree Reprezentáció Az EAPCA szegmenseket meghatározza jobb végpontjuk, vagyis (r 1,..., r m ), ahol 0 < r 1 < r 2 < < r m = n.

Módszerek DSTree DSTree Reprezentáció Az EAPCA szegmenseket meghatározza jobb végpontjuk, vagyis (r 1,..., r m ), ahol 0 < r 1 < r 2 < < r m = n. Finomítás Adott SG 1 = (r 1,..., r m ) és SG 2 = (r 1,..., r m ) szegmentálásokra SG 2 egylépéses finomítása SG 1 -nek, ha m = m + 1, és i 0 : 1 i 0 < m, hogy 1 i i 0 esetén r i = r i, i 0 < i esetén pedig r i = r i+1. Jelölése: SG 1 1 SG 2. A reláció tranzitív lezártja a finomítás reláció.

Módszerek DSTree DSTree Konstrukció Bináris fával dolgozunk, egy csúcs a részfájába tartozó idősorok egy indexe.

Módszerek DSTree DSTree Konstrukció Bináris fával dolgozunk, egy csúcs a részfájába tartozó idősorok egy indexe. Minden csúcsban tároljuk a következő információkat: A csúcs által meghatározott részfában található idősorok C számát. Az SG = (r 1,..., r m ) szegmentálását a csúcs által indexelt idősoroknak. A felső és alsó korlát számításához felhasználható aggregált Z = (z 1,..., z m ) információt, ahol z i = (µ min i, µ max i, σi min, σi max ).

Módszerek DSTree DSTree Konstrukció Bináris fával dolgozunk, egy csúcs a részfájába tartozó idősorok egy indexe. Minden csúcsban tároljuk a következő információkat: A csúcs által meghatározott részfában található idősorok C számát. Az SG = (r 1,..., r m ) szegmentálását a csúcs által indexelt idősoroknak. A felső és alsó korlát számításához felhasználható aggregált Z = (z 1,..., z m ) információt, ahol z i = (µ min i, µ max i, σi min, σi max ). A levelek tárolnak egy mutatót egy legfeljebb ψ (levélkapacitás) idősort tároló fájlra, a belső csúcsok tárolják a hasítási stratégiát.

Módszerek DSTree Példa DSTree-re

Módszerek DSTree Beszúrás DSTree-be

Módszerek DSTree Hasítási startégiák Vízszintes hasítás (H-split) Függőleges hasítás (V-split)

Módszerek DSTree Hasítási startégiák Vízszintes hasítás (H-split) A szegmentálás nem változik, az utódok szegmentálása ugyanaz marad, csak kétfelé osztjuk őket. Függőleges hasítás (V-split) A szegmentálás finomodik, a szülő csúcs szegmentálásának ugyanazt az egylépéses finomítását fogja tartalmazni mindkét utód.

Módszerek DSTree Műveletek Hasonlósági keresés Hisztogram készítés

Módszerek DSTree Műveletek Hasonlósági keresés A heurisztikus hasonlósági keresés a beszúrás mintájára megnézi, hogy melyik levélbe kerülne a lekérdezés Q idősora, majd az ebben a levélben tárolt minden idősorra kiszámítja annak Q-tól vett távolságát, és visszaadja a legközelebbit. Hisztogram készítés A csúcsokban a Q-tól vett távolságra számított alsó és felső korlát, valamint a csúcs által indexelt idősorok száma alapján, azok összesítésével tudunk becslést adni adott távolság-intervallumon belül levő idősorok számára.

Eredmények Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Eredmények A cikk eredményei Tesztspecifikáció Alternatív módszerek Piecewise Aggregate Approximation (PAA) & R-fa isax2.0

Eredmények A cikk eredményei Tesztspecifikáció Alternatív módszerek Piecewise Aggregate Approximation (PAA) & R-fa isax2.0 Tesztadatok Szintetikus Valódi

Eredmények A cikk eredményei Tesztspecifikáció Inputgenerálás Véletlen bolyongás, a [ 5, 5]-ből egyenletesen véletlen kezdőponttal, valamint a [0, 2]-ből egyenletesen véletlen lépéshosszal. Normális eloszlással generálódnak az idősor pontjai. A középpont a [ 5, 5]-ből, szórása pedig a [0, 2]-ből kerül egyenletesen véletlenül kiválasztásra. Az előző módszerrel generálunk legalább 3, legfeljebb 10 idősort, majd ezeket konkatenáljuk. Több szinuszfüggvény összekeveréséből mintavételezéssel. A függvények periódusa a [2, 10]-ből, amplitúdója a [2, 10]-ből, átlaga pedig a [ 5, 5]-ből egyenletesen véletlen.

Eredmények A cikk eredményei Indexméret összehasonlítása a szintetikus (felül) és valódi (alul) adathalmazokon

Eredmények A cikk eredményei Keresés hatékonysága szintetikus (felül) és valódi (alul) adathalmazokon

Eredmények A cikk eredményei APCA (M) és EAPCA (M+SD) alsó korlát értékek összehasonlítása

Eredmények A cikk eredményei Skálázhatóság összehasonlítása

Eredmények A cikk eredményei Keresési idő összehasonlítása

Eredmények Saját implementáció Implementáció DSTree implementáció A cikk alapján megvalósítottuk az adatszerkezetet és műveleteit. Feltöltünk egy DSTree-t idősorokkal Keresünk közöttük egy új idősorhoz hasonlót

Eredmények Saját implementáció Implementáció DSTree implementáció A cikk alapján megvalósítottuk az adatszerkezetet és műveleteit. Illusztráljuk ezt a következő példán: Feltöltünk egy DSTree-t idősorokkal Keresünk közöttük egy új idősorhoz hasonlót

Eredmények Saját implementáció Idősorok 1.ts 2.ts 3.ts Variable 1 2 3 4 5 6 7 8 Variable 1 2 3 4 5 6 7 8 Variable 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 Time 4.ts 1 2 3 4 5 6 7 Time 5.ts 1 2 3 4 5 6 7 Time 6.ts Variable 1 2 3 4 5 6 7 8 Variable 1 2 3 4 5 6 7 8 Variable 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 Time 1 2 3 4 5 6 7 Time 1 2 3 4 5 6 7 Time

Eredmények Saját implementáció DSTree felépítése

Eredmények Saját implementáció Heurisztikus keresés 6.ts Variable 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 Time

Eredmények Saját implementáció Heurisztikus keresés

Összefoglalás Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Összefoglalás Összefoglalás Útravaló Adaptív, dinamikus szegmentálással jelentősen javítani lehet a keresési időn Érdemes lehet áttérni EAPCA reprezentációra DSTree-t fontos tovább vizsgálni Standard tesztadatok hiánya

Összefoglalás Köszönetnyilvánítás Köszönjük a figyelmet!