Adaptív dinamikus szegmentálás idősorok indexeléséhez

Hasonló dokumentumok
Nagyméretű Adathalmazok Kezelése

Általános algoritmustervezési módszerek

Elemi statisztika fizikusoknak

A valós számok halmaza

Fraktálok. Kontrakciók Affin leképezések. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék. TARTALOMJEGYZÉK Kontrakciók Affin transzformációk

Amortizációs költségelemzés

Diszkrét matematika 2. estis képzés

17. előadás: Vektorok a térben

Számítógép és programozás 2

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Explicit hibabecslés Maxwell-egyenletek numerikus megoldásához

Markov-láncok stacionárius eloszlása

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Idősorok elemzése. Salánki Ágnes

Analízis előadás és gyakorlat vázlat

B-fa. Felépítés, alapvető műveletek. Programozás II. előadás. Szénási Sándor.

A fontosabb definíciók

[Biomatematika 2] Orvosi biometria

A számítástudomány alapjai. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Diszkrét matematika 2. estis képzés

Pontműveletek. Sergyán Szabolcs Óbudai Egyetem Neumann János Informatikai Kar február 20.

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Adatszerkezetek I. 8. előadás. (Horváth Gyula anyagai felhasználásával)

Bevezetés az algebrába 2 Vektor- és mátrixnorma

Nagy Gábor compalg.inf.elte.hu/ nagy

f(x) vagy f(x) a (x x 0 )-t használjuk. lim melyekre Mivel itt ɛ > 0 tetszőlegesen kicsi, így a a = 0, a = a, ami ellentmondás, bizonyítva

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

6. Előadás. Vereb György, DE OEC BSI, október 12.

Rendezések. Összehasonlító rendezések

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Diszkrét matematika 2.C szakirány

Térinformatikai algoritmusok Elemi algoritmusok

Mérés és adatgyűjtés

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Sarokba a bástyát! = nim

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

Algoritmusok és adatszerkezetek gyakorlat 07

Algoritmizálás. Horváth Gyula Szegedi Tudományegyetem Természettudományi és Informatikai Kar

Alap fatranszformátorok II

10. előadás Speciális többágú fák

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Algoritmuselmélet. Legrövidebb utak, Bellmann-Ford, Dijkstra. Katona Gyula Y.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Más szavakkal formálisan:, ahol olyan egész szám, hogy. Más szavakkal formálisan:, ahol olyan egész szám, hogy.

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

A gyakorlat célja a fehér és a színes zaj bemutatása.

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Analízis I. Vizsgatételsor

Térinformatikai algoritmusok Elemi algoritmusok

Az előadás tartalma. Debrecen 110 év hosszúságú csapadékadatainak vizsgálata Ilyés Csaba Turai Endre Szűcs Péter Ciklusok felkutatása

A Lee-Carter módszer magyarországi

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

A maximum likelihood becslésről

Valószínűségi változók. Várható érték és szórás

Valószínűségszámítás összefoglaló

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Kétszemélyes játékok Gregorics Tibor Mesterséges intelligencia

Sorozatok határértéke SOROZAT FOGALMA, MEGADÁSA, ÁBRÁZOLÁSA; KORLÁTOS ÉS MONOTON SOROZATOK

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Sorozatok. 5. előadás. Farkas István. DE ATC Gazdaságelemzési és Statisztikai Tanszék. Sorozatok p. 1/2

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Diszkrét matematika 2.C szakirány

KÖZELÍTŐ INFERENCIA II.

Diszkrét matematika 2. estis képzés

Fuzzy halmazok jellemzői

2010. október 12. Dr. Vincze Szilvia

Az optimális megoldást adó algoritmusok

Biostatisztika VIII. Mátyus László. 19 October

Diagnosztika és előrejelzés

Térinformatikai adatszerkezetek

Abszolút folytonos valószín ségi változó (4. el adás)

ANTAL Margit. Sapientia - Erdélyi Magyar Tudományegyetem. Jelfeldolgozás. ANTAL Margit. Adminisztratív. Bevezetés. Matematikai alapismeretek.

Számítógép hálózatok, osztott rendszerek 2009

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Kereső algoritmusok a diszkrét optimalizálás problémájához

Diszkrét matematika 2.C szakirány

Hipotézis vizsgálatok

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

A társadalomkutatás módszerei I. Outline. 1. Zh Egyéni eredmények. Notes. Notes. Notes. 9. hét. Daróczi Gergely november 10.

Gráfelmélet. I. Előadás jegyzet (2010.szeptember 9.) 1.A gráf fogalma

Hiszterézises káoszgenerátor vizsgálata

Dr. habil. Maróti György

Korreláció és lineáris regresszió

7. Régió alapú szegmentálás

Autoregresszív és mozgóátlag folyamatok

A valós számok halmaza 5. I. rész MATEMATIKAI ANALÍZIS

Principal Component Analysis

Diszkrét Matematika MSc hallgatók számára. 11. Előadás. Előadó: Hajnal Péter Jegyzetelő: Szarvák Gábor november 29.

Kereső algoritmusok a diszkrét optimalizálás problémájához

Genetikus algoritmusok

Diszkrét matematika 1. estis képzés

Számítógépes döntéstámogatás. Genetikus algoritmusok

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Átírás:

Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november 20.

Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Bevezetés Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Bevezetés Feladat Feladat Idősorok hatékony szegmentálása Adatsorok hasonlósági keresése Dinamikus, adaptív indexelés Empirikus eredmények

Bevezetés Feladat Feladat Idősorok hatékony szegmentálása Adatsorok hasonlósági keresése Dinamikus, adaptív indexelés Empirikus eredmények

Bevezetés Feladat Feladat Idősorok hatékony szegmentálása Adatsorok hasonlósági keresése Dinamikus, adaptív indexelés Empirikus eredmények

Bevezetés Motiváció Motiváció Széles alkalmazási terület Orvosi alkalmazás Tőzsde Szenzorhálózatok...

Bevezetés Motiváció Motiváció Széles alkalmazási terület Orvosi alkalmazás Tőzsde Szenzorhálózatok...

Bevezetés Motiváció Motiváció Széles alkalmazási terület Orvosi alkalmazás Tőzsde Szenzorhálózatok...

Bevezetés Motiváció Motiváció Széles alkalmazási terület Orvosi alkalmazás Tőzsde Szenzorhálózatok...

Bevezetés Motiváció Motiváció Széles alkalmazási terület Orvosi alkalmazás Tőzsde Szenzorhálózatok... Javítási ötlet Eddig globálisan indexelték az idősorhalmazokat Nem használtak felülről korlátozó függvényeket

Bevezetés Motiváció Motiváció Széles alkalmazási terület Orvosi alkalmazás Tőzsde Szenzorhálózatok... Javítási ötlet Eddig globálisan indexelték az idősorhalmazokat Nem használtak felülről korlátozó függvényeket

Bevezetés Definíciók Definíciók Idősor A továbbiakban legyen adott n pozitív egész szám, valamint X = (x 1, x 2,..., x n ) és Y = (y 1, y 2,..., y n ) n hosszú, valós számokból álló idősorok. Ezek halmaza legyen T S.

Bevezetés Definíciók Definíciók Idősor A továbbiakban legyen adott n pozitív egész szám, valamint X = (x 1, x 2,..., x n ) és Y = (y 1, y 2,..., y n ) n hosszú, valós számokból álló idősorok. Ezek halmaza legyen T S. Távolság X és Y euklideszi távolsága D(X, Y ) = n i=1 (x i y i ) 2.

Bevezetés Definíciók Definíciók Távolság X és Y euklideszi távolsága D(X, Y ) = n i=1 (x i y i ) 2. Teljes illesztés Legyen adott Q T S és 0 < ɛ R. Keressük azokat az S idősorokat, melyekre D(Q, S) ɛ. Ha a hasonlósági mérték az euklideszi távolság, az idősorok pedig azonos hosszúságúak, ezt teljes illesztésnek nevezzük.

Bevezetés Korábbi eredmények Korábbi eredmények Alulról korlátozó dimenziócsökkentés Létezik D LB (, ) függvény, melyre ha S i (i {1, 2}) idősor reprezentációja S i (i {1, 2}), akkor D LB ( S 1, S 2 ) D(S 1, S 2 ).

Bevezetés Korábbi eredmények Korábbi eredmények Alulról korlátozó dimenziócsökkentés Létezik D LB (, ) függvény, melyre ha S i (i {1, 2}) idősor reprezentációja S i (i {1, 2}), akkor D LB ( S 1, S 2 ) D(S 1, S 2 ). Ekkor ha D LB ( Q, S) > ɛ, akkor az S által reprezentált idősorokat már nem kell vizsgálnunk, ugyanis azok tényleges távolsága Q-tól biztos, hogy ɛ-nál nagyobb.

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés Korábbi eredmények Korábbi eredmények Felhasznált módszerek Dimenziócsökkentésre: diszkrét Fourier-transzformációt szinguláris felbontás diszkrét wavelet transzformáció... Indexelésre: R-fa SAX isax

Bevezetés A cikk fő eredményei A cikk fő eredményei Eredmények Felülről korlátozó dimenziócsökkentés DSTree Hisztogramkészítés

Bevezetés A cikk fő eredményei A cikk fő eredményei Eredmények Felülről korlátozó dimenziócsökkentés DSTree Hisztogramkészítés

Bevezetés A cikk fő eredményei A cikk fő eredményei Eredmények Felülről korlátozó dimenziócsökkentés DSTree Hisztogramkészítés

Módszerek Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció APCA Egy X idősort (X 1, X 2,..., X m ) szegmenseire bontjuk, ahol m n és j {1,..., m} : X j = (x rj 1 +1,..., x rj ) valamely 0 = r 0 < r 1 < < r m = n indexsorozatra.

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció APCA Egy X idősort (X 1, X 2,..., X m ) szegmenseire bontjuk, ahol m n és j {1,..., m} : X j = (x rj 1 +1,..., x rj ) valamely 0 = r 0 < r 1 < < r m = n indexsorozatra. Egy X j szegmens reprezentációja a (µ j, r j ) pár lesz, ahol µ j = r j k=r j 1 +1 s k r j r j 1 a szegmens értékeinek átlaga. X közelítő reprezentációja tehát X = ((µ 1, r 1 ),..., (µ m, r m )).

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció Illeszkedés Azt mondjuk, hogy X és Ỹ APCA reprezentációk illeszkednek, ha az előző bekezdés jelöléseivel az m és r 0,..., r m értékeik megegyeznek, vagyis: X = ((µ X 1, r 1 ),..., (µ X m, r m )), Ỹ = ((µ Y 1, r 1 ),..., (µ Y m, r m )).

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció Lemma Adott két egyforma hosszú idősor, X és Y, valamint illeszkedő APCA reprezentációik, X = ((µ X 1, r 1),..., (µ X m, r m )) és Ỹ = ((µ Y 1, r 1),..., (µ Y m, r m )).

Módszerek Bővített adaptív szakaszonként konstans approximáció Adaptív szakaszonként konstans approximáció Lemma Adott két egyforma hosszú idősor, X és Y, valamint illeszkedő APCA reprezentációik, X = ((µ X 1, r 1),..., (µ X m, r m )) és Ỹ = ((µ Y 1, r 1),..., (µ Y m, r m )). Ekkor: D(X, Y ) m (r i r i 1 )(µ X i µ Y i ) 2 i=1

Módszerek Bővített adaptív szakaszonként konstans approximáció Bővített adaptív szakaszonként konstans approximáció EAPCA A szegmensek reprezentációját az értékek szórásával egészíti ki, és ennek segítségével egy pontosabb alsó korlátot, valamint egy felső korlátot is definiál.

Módszerek Bővített adaptív szakaszonként konstans approximáció Bővített adaptív szakaszonként konstans approximáció EAPCA A szegmensek reprezentációját az értékek szórásával egészíti ki, és ennek segítségével egy pontosabb alsó korlátot, valamint egy felső korlátot is definiál. X = ((µ 1, σ 1, r 1 ),..., (µ m, σ m, r m )), ahol σ i = ri j=r i 1 +1 s2 ri j j=r ( i 1 +1 s j ) r i r i 1 r i r 2 i 1 értékek a reprezentált szegmens értékeinek szórása.

Módszerek Bővített adaptív szakaszonként konstans approximáció Bővített adaptív szakaszonként konstans approximáció Tétel Adott két egyforma hosszú idősor, X és Y, valamint illeszkedő EAPCA reprezentációik, X = ((µ X 1, σx 1, r 1),..., (µ X m, σ X m, r m )) és Ỹ = ((µ Y 1, σy 1, r 1),..., (µ Y m, σ Y m, r m )).

Módszerek Bővített adaptív szakaszonként konstans approximáció Bővített adaptív szakaszonként konstans approximáció Tétel Adott két egyforma hosszú idősor, X és Y, valamint illeszkedő EAPCA reprezentációik, X = ((µ X 1, σx 1, r 1),..., (µ X m, σm, X r m )) és Ỹ = ((µ Y 1, σy 1, r 1),..., (µ Y m, σm, Y r m )). Ekkor: D(X, Y ) m (r i r i 1 )[(µ X i µ Y i ) 2 + (σi X σi Y ) 2 ], i=1 D(X, Y ) m (r i r i 1 )[(µ X i µ Y i ) 2 + (σi X + σi Y ) 2 ]. i=1

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Feladat X idősor és Y 1,..., Y l egyforma hosszú idősorok esetén a min 1 j l D(X, Y j ) távolságot szeretnénk alulról becsülni.

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Jelölés Legyen X, Y 1,..., Y l mind egyforma hosszú, továbbá legyenek X = ((µ X 1, σ X 1, r 1 ),..., (µ X m, σ X m, r m )), Ỹ 1 = ((µ Y 1 1, σy 1 1, r 1),..., (µ Y 1 m, σ Y 1 m, r m )),..., Ỹ l = ((µ Y l 1, σy l 1, r 1),..., (µ Y l m, σ Y l m, r m )) az X, Y 1,..., Y l idősorok illeszkedő EAPCA reprezentációi.

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Jelölés Jelölje az Ỹ 1,..., Ỹ l halmazban i. szegmens minimális és maximális átlagát µ min i = min 1 j l µ Y j i és µ max i = max 1 j l µ Y j szórását pedig σ min i = min 1 j l σ Y j i és σ max i = max 1 j l σ Y j i. i,

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Tétel Adott X, Y 1,..., Y l egyforma hosszú idősorok és illeszkedő X, Ỹ 1,..., Ỹ l EAPCA reprezentációik. Ekkor:

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Tétel min D(X, Y j) 1 j l max D(X, Y j) 1 j l m (r i r i 1 )(LB µ i + LBi σ ) 2, i=1 m (r i r i 1 )(UB µ i + UBi σ ) 2. i=1

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Tétel min D(X, Y j) 1 j l max D(X, Y j) 1 j l m (r i r i 1 )(LB µ i + LBi σ ) 2, i=1 m (r i r i 1 )(UB µ i + UBi σ ) 2. i=1 Ahol LB µ i, LBi σ, UB µ i, UBi σ elemi függvényei a {µ i ; σ i } {min; max; X } halmaz elemeinek.

Módszerek Korlátok idősorok halmazaitól vett távolságra Korlátok idősorok halmazaitól vett távolságra Következmény Ha az illeszkedő EAPCA reprezentációval adott idősorok halmazától vett távolságot szeretnénk alulról becsülni, ahhoz elég a szegmensek átlagainak és szórásainak minimumát és maximumát számon tartanunk.

Módszerek DSTree DSTree Reprezentáció Az EAPCA szegmenseket meghatározza jobb végpontjuk, vagyis (r 1,..., r m ), ahol 0 < r 1 < r 2 < < r m = n.

Módszerek DSTree DSTree Reprezentáció Az EAPCA szegmenseket meghatározza jobb végpontjuk, vagyis (r 1,..., r m ), ahol 0 < r 1 < r 2 < < r m = n. Finomítás Adott SG 1 = (r 1,..., r m ) és SG 2 = (r 1,..., r m ) szegmentálásokra SG 2 egylépéses finomítása SG 1 -nek, ha m = m + 1, és i 0 : 1 i 0 < m, hogy 1 i i 0 esetén r i = r i, i 0 < i esetén pedig r i = r i+1. Jelölése: SG 1 1 SG 2. A reláció tranzitív lezártja a finomítás reláció.

Módszerek DSTree DSTree Konstrukció Bináris fával dolgozunk, egy csúcs a részfájába tartozó idősorok egy indexe.

Módszerek DSTree DSTree Konstrukció Bináris fával dolgozunk, egy csúcs a részfájába tartozó idősorok egy indexe. Minden csúcsban tároljuk a következő információkat: A csúcs által meghatározott részfában található idősorok C számát. Az SG = (r 1,..., r m ) szegmentálását a csúcs által indexelt idősoroknak. A felső és alsó korlát számításához felhasználható aggregált Z = (z 1,..., z m ) információt, ahol z i = (µ min i, µ max i, σi min, σi max ).

Módszerek DSTree DSTree Konstrukció Bináris fával dolgozunk, egy csúcs a részfájába tartozó idősorok egy indexe. Minden csúcsban tároljuk a következő információkat: A csúcs által meghatározott részfában található idősorok C számát. Az SG = (r 1,..., r m ) szegmentálását a csúcs által indexelt idősoroknak. A felső és alsó korlát számításához felhasználható aggregált Z = (z 1,..., z m ) információt, ahol z i = (µ min i, µ max i, σi min, σi max ).

Módszerek DSTree DSTree Konstrukció Bináris fával dolgozunk, egy csúcs a részfájába tartozó idősorok egy indexe. Minden csúcsban tároljuk a következő információkat: A csúcs által meghatározott részfában található idősorok C számát. Az SG = (r 1,..., r m ) szegmentálását a csúcs által indexelt idősoroknak. A felső és alsó korlát számításához felhasználható aggregált Z = (z 1,..., z m ) információt, ahol z i = (µ min i, µ max i, σi min, σi max ).

Módszerek DSTree DSTree Konstrukció Bináris fával dolgozunk, egy csúcs a részfájába tartozó idősorok egy indexe. Minden csúcsban tároljuk a következő információkat: A csúcs által meghatározott részfában található idősorok C számát. Az SG = (r 1,..., r m ) szegmentálását a csúcs által indexelt idősoroknak. A felső és alsó korlát számításához felhasználható aggregált Z = (z 1,..., z m ) információt, ahol z i = (µ min i, µ max i, σi min, σi max ). A levelek tárolnak egy mutatót egy legfeljebb ψ (levélkapacitás) idősort tároló fájlra, a belső csúcsok tárolják a hasítási stratégiát.

Módszerek DSTree Példa DSTree-re

Módszerek DSTree Beszúrás DSTree-be

Módszerek DSTree Hasítási startégiák Vízszintes hasítás (H-split) Függőleges hasítás (V-split)

Módszerek DSTree Hasítási startégiák Vízszintes hasítás (H-split) A szegmentálás nem változik, az utódok szegmentálása ugyanaz marad, csak kétfelé osztjuk őket. Függőleges hasítás (V-split) A szegmentálás finomodik, a szülő csúcs szegmentálásának ugyanazt az egylépéses finomítását fogja tartalmazni mindkét utód.

Módszerek DSTree Műveletek Hasonlósági keresés Hisztogram készítés

Módszerek DSTree Műveletek Hasonlósági keresés A heurisztikus hasonlósági keresés a beszúrás mintájára megnézi, hogy melyik levélbe kerülne a lekérdezés Q idősora, majd az ebben a levélben tárolt minden idősorra kiszámítja annak Q-tól vett távolságát, és visszaadja a legközelebbit. Hisztogram készítés A csúcsokban a Q-tól vett távolságra számított alsó és felső korlát, valamint a csúcs által indexelt idősorok száma alapján, azok összesítésével tudunk becslést adni adott távolság-intervallumon belül levő idősorok számára.

Eredmények Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Eredmények A cikk eredményei Tesztspecifikáció Alternatív módszerek Piecewise Aggregate Approximation (PAA) & R-fa isax2.0

Eredmények A cikk eredményei Tesztspecifikáció Alternatív módszerek Piecewise Aggregate Approximation (PAA) & R-fa isax2.0

Eredmények A cikk eredményei Tesztspecifikáció Alternatív módszerek Piecewise Aggregate Approximation (PAA) & R-fa isax2.0 Tesztadatok Szintetikus Valódi

Eredmények A cikk eredményei Tesztspecifikáció Alternatív módszerek Piecewise Aggregate Approximation (PAA) & R-fa isax2.0 Tesztadatok Szintetikus Valódi

Eredmények A cikk eredményei Tesztspecifikáció Inputgenerálás Véletlen bolyongás, a [ 5, 5]-ből egyenletesen véletlen kezdőponttal, valamint a [0, 2]-ből egyenletesen véletlen lépéshosszal. Normális eloszlással generálódnak az idősor pontjai. A középpont a [ 5, 5]-ből, szórása pedig a [0, 2]-ből kerül egyenletesen véletlenül kiválasztásra. Az előző módszerrel generálunk legalább 3, legfeljebb 10 idősort, majd ezeket konkatenáljuk. Több szinuszfüggvény összekeveréséből mintavételezéssel. A függvények periódusa a [2, 10]-ből, amplitúdója a [2, 10]-ből, átlaga pedig a [ 5, 5]-ből egyenletesen véletlen.

Eredmények A cikk eredményei Tesztspecifikáció Inputgenerálás Véletlen bolyongás, a [ 5, 5]-ből egyenletesen véletlen kezdőponttal, valamint a [0, 2]-ből egyenletesen véletlen lépéshosszal. Normális eloszlással generálódnak az idősor pontjai. A középpont a [ 5, 5]-ből, szórása pedig a [0, 2]-ből kerül egyenletesen véletlenül kiválasztásra. Az előző módszerrel generálunk legalább 3, legfeljebb 10 idősort, majd ezeket konkatenáljuk. Több szinuszfüggvény összekeveréséből mintavételezéssel. A függvények periódusa a [2, 10]-ből, amplitúdója a [2, 10]-ből, átlaga pedig a [ 5, 5]-ből egyenletesen véletlen.

Eredmények A cikk eredményei Tesztspecifikáció Inputgenerálás Véletlen bolyongás, a [ 5, 5]-ből egyenletesen véletlen kezdőponttal, valamint a [0, 2]-ből egyenletesen véletlen lépéshosszal. Normális eloszlással generálódnak az idősor pontjai. A középpont a [ 5, 5]-ből, szórása pedig a [0, 2]-ből kerül egyenletesen véletlenül kiválasztásra. Az előző módszerrel generálunk legalább 3, legfeljebb 10 idősort, majd ezeket konkatenáljuk. Több szinuszfüggvény összekeveréséből mintavételezéssel. A függvények periódusa a [2, 10]-ből, amplitúdója a [2, 10]-ből, átlaga pedig a [ 5, 5]-ből egyenletesen véletlen.

Eredmények A cikk eredményei Tesztspecifikáció Inputgenerálás Véletlen bolyongás, a [ 5, 5]-ből egyenletesen véletlen kezdőponttal, valamint a [0, 2]-ből egyenletesen véletlen lépéshosszal. Normális eloszlással generálódnak az idősor pontjai. A középpont a [ 5, 5]-ből, szórása pedig a [0, 2]-ből kerül egyenletesen véletlenül kiválasztásra. Az előző módszerrel generálunk legalább 3, legfeljebb 10 idősort, majd ezeket konkatenáljuk. Több szinuszfüggvény összekeveréséből mintavételezéssel. A függvények periódusa a [2, 10]-ből, amplitúdója a [2, 10]-ből, átlaga pedig a [ 5, 5]-ből egyenletesen véletlen.

Eredmények A cikk eredményei Indexméret összehasonlítása a szintetikus (felül) és valódi (alul) adathalmazokon

Eredmények A cikk eredményei Keresés hatékonysága szintetikus (felül) és valódi (alul) adathalmazokon

Eredmények A cikk eredményei APCA (M) és EAPCA (M+SD) alsó korlát értékek összehasonlítása

Eredmények A cikk eredményei Skálázhatóság összehasonlítása

Eredmények A cikk eredményei Keresési idő összehasonlítása

Eredmények Saját implementáció Implementáció DSTree implementáció A cikk alapján megvalósítottuk az adatszerkezetet és műveleteit. Feltöltünk egy DSTree-t idősorokkal Keresünk közöttük egy új idősorhoz hasonlót

Eredmények Saját implementáció Implementáció DSTree implementáció A cikk alapján megvalósítottuk az adatszerkezetet és műveleteit. Illusztráljuk ezt a következő példán: Feltöltünk egy DSTree-t idősorokkal Keresünk közöttük egy új idősorhoz hasonlót

Eredmények Saját implementáció Implementáció DSTree implementáció A cikk alapján megvalósítottuk az adatszerkezetet és műveleteit. Illusztráljuk ezt a következő példán: Feltöltünk egy DSTree-t idősorokkal Keresünk közöttük egy új idősorhoz hasonlót

Eredmények Saját implementáció Implementáció DSTree implementáció A cikk alapján megvalósítottuk az adatszerkezetet és műveleteit. Illusztráljuk ezt a következő példán: Feltöltünk egy DSTree-t idősorokkal Keresünk közöttük egy új idősorhoz hasonlót

Eredmények Saját implementáció Idősorok 1.ts 2.ts 3.ts Variable 1 2 3 4 5 6 7 8 Variable 1 2 3 4 5 6 7 8 Variable 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 Time 4.ts 1 2 3 4 5 6 7 Time 5.ts 1 2 3 4 5 6 7 Time 6.ts Variable 1 2 3 4 5 6 7 8 Variable 1 2 3 4 5 6 7 8 Variable 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 Time 1 2 3 4 5 6 7 Time 1 2 3 4 5 6 7 Time

Eredmények Saját implementáció DSTree felépítése

Eredmények Saját implementáció DSTree felépítése

Eredmények Saját implementáció DSTree felépítése

Eredmények Saját implementáció DSTree felépítése

Eredmények Saját implementáció DSTree felépítése

Eredmények Saját implementáció Heurisztikus keresés 6.ts Variable 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 Time

Eredmények Saját implementáció Heurisztikus keresés

Összefoglalás Tartalom Bevezetés Módszerek Eredmények Összefoglalás

Összefoglalás Összefoglalás Útravaló Adaptív, dinamikus szegmentálással jelentősen javítani lehet a keresési időn Érdemes lehet áttérni EAPCA reprezentációra DSTree-t fontos tovább vizsgálni Standard tesztadatok hiánya

Összefoglalás Összefoglalás Útravaló Adaptív, dinamikus szegmentálással jelentősen javítani lehet a keresési időn Érdemes lehet áttérni EAPCA reprezentációra DSTree-t fontos tovább vizsgálni Standard tesztadatok hiánya

Összefoglalás Összefoglalás Útravaló Adaptív, dinamikus szegmentálással jelentősen javítani lehet a keresési időn Érdemes lehet áttérni EAPCA reprezentációra DSTree-t fontos tovább vizsgálni Standard tesztadatok hiánya

Összefoglalás Összefoglalás Útravaló Adaptív, dinamikus szegmentálással jelentősen javítani lehet a keresési időn Érdemes lehet áttérni EAPCA reprezentációra DSTree-t fontos tovább vizsgálni Standard tesztadatok hiánya

Összefoglalás Köszönetnyilvánítás Köszönjük a figyelmet!