Adaptív dinamikus szegmentálás idősorok indexeléséhez

Adaptív dnamkus szegmentálás dősorok ndexeléséhez Balass Márton (FW8FCC) Englert Péter (PKOAMN) Tömösy Péter (DAMHR6) 2013. október 22. Absztrakt Egy khívásokkal tel és aktív kutatás területtel, dősorok ndexelésével foglalkozk Yang Wang, Peng Wang, Jan Pe, We Wang és Sheng Huang A Data-adaptve and Dynamc Segmentaton Index for Whole Matchng on Tme Seres című publkácója, melyet a 2013-as Very Large Databases konferencán mutattak be. A ckkben vzsgált fő probléma adatsorok hasonlóság keresése. Ennek hatékony megvalósítására egy DSTree nevű új ndexet írnak le, amely jelentősen eltér az eddg megközelítésektől. Az adatsorok dmenzóját ezek jellemzően egy globáls, mnden dősornál és ndexnél azonos szegmentálás alapján végzk. Az új megközelítés ezzel szemben dnamkusan, adaptív módon alakítja k a szegmenseket, továbbá az ndexet s újszerűen, úgynevezett hasítás stratégákat alkalmazva épít fel. Ennek elmélet előnyet kterjedt emprkus vzsgálatokkal, teszteléssel és mérésekkel támasztják alá. Ezt a ckket szeretnénk most kontextusban elhelyezn, összefoglaln, majd javaslatokat tenn tovább lehetséges kutatás rányokra. 1

Tartalomjegyzék 1. Bevezetés 3 2. Irodalm áttekntés 5 3. Módszerek 6 3.1. Bővített adaptív szakaszonként konstans approxmácó.......... 6 3.2. Korlátok dősorok halmazatól vett távolságra............... 7 3.3. A DSTree ndex............................... 8 3.3.1. Felépítés.............................. 10 3.3.2. Hasítás stratégák......................... 11 3.3.3. Műveletek............................. 12 4. Eredmények 14 5. Dszkusszó 18 2

1. Bevezetés Az dősorok dőben egymás után mért értékek sorozata. Rengeteg különböző tudományterületen találkozhatunk velük, orvos alkalmazásoktól (EKG, EEG) kezdve szenzorhálózatokon keresztül a pénzügy alkalmazásokg (tőzsde). Manapság nap mnt nap hatalmas mennységű lyen jellegű adat termelődk a vlágban. Nem meglepő tehát, hogy népszerű, és sok khívást rejtő kutatás terület az dősorok tárolása és elemzése. Az első gazán jelentős ckkek a témában az 1990-es évek közepén jelentek meg [6], az nnen számított az első évtzed kutatás eredményeről már kváló összefoglalók születtek [8], azonban még ma s aktív kutatás terület. Ha különböző megoldásokat szeretnénk összehasonlítan, ahhoz először s tudnunk kell, hogy mlyen elemzéseket, lekérdezéseket szeretnénk az dősorokon végrehajtan. Sok alkalmazásban van szükség például hasonlóság keresésre. Ehhez először defnálnunk kell egy D(, ) hasonlóság mértéket két dősor között, ez jellemzően az eukldesz távolság. A feladat ekkor dősorok egy adott T S halmazán, adott Q dősor és 0 < ε R érték mellett, hogy megkeressük azokat az S dősorokat, melyekre D(Q,S) ε. Ha a hasonlóság mérték az eukldesz távolság, az dősorok pedg azonos hosszúságúak, akkor ezt a feladatot teljes llesztésnek (whole matchng) hívjuk. Ha a Q dősor rövdebb az adatbázsban (T S halmaz) találhatóaknál, és olyan dősorokat keresünk, amelyeknek valamely részsorozata ε távolságon belül van Q-tól, akkor a részsorozat llesztés (subsequence matchng) problémáról beszélünk. Ez az összefoglaló Yang Wang, Peng Wang, Jan Pe, We Wang és Sheng Huang A Data-adaptve and Dynamc Segmentaton Index for Whole Matchng on Tme Seres című publkácója [13] alapján készült, amelyet a 2013-as Very Large Databases konferencán mutattak be. A továbbakban erről a ckkről lesz szó. Témája egy adatszerkezet dősorok ndexelésére, amelynek segítségével hatékonyan megvalósítható a teljes llesztés. Az adatszerkezet segítségével könnyen adhatunk ajánlást a megfelelő ε megválasztásához s, azáltal, hogy támogatja az adatbázsban tárolt dősorok egy adott dősortól vett távolságáról közelítő hsztogram készítését s. Egy tovább művelet, amely hatékonyan megvalósítható az általuk leírt reprezentácóval, az adatbázsban tárolt dősorok egy adott dősortól vett távolságáról közelítő hsztog- 3

ram készítése. Utóbb hasznos lehet például amatt, hogy a hsztogram alapján könnyebb megválasztan az ε értéket a teljes llesztéshez. Az dősorokon értelmezett teljes llesztés probléma hatékony kezelésére több különböző ndexet találhatunk a szakrodalomban. Két közös vonást s felfedezhetünk bennük. Az egyk az, hogy az dősorok dmenzóját csökkenten próbálják valamlyen globálsan (mnden dősorra egyformán) értelmezett szegmentálással, a másk pedg hogy keresés során alsó korlátok számításával próbálják vágn a keresés fa ágat, csökkenten annak méretét. A dmenzócsökkentés megértését könnyít, ha úgy tekntünk egy n értékből álló dősorra, mnt egy pontra az n dmenzós eukldesz térben. Alkalmazható rá például a szngulárs felbontás, a dszkrét Fourer-transzformácó, de lleszthető rá polnom vagy splne s. Ezek (esetleg a kevésbé fontos tagok elhagyása után) egy alacsonyabb dmenzójú közelítését adják az eredet dősornak. Így már alkalmazhatóak rájuk térbel ndexek, mnt például az R-fa [7], melyek a magasabb dmenzójú adatokat nehezen kezelk. Fontos megemlíten, hogy ezek mnd globáls módszerek, vagys mnden dősorhoz ugyanúgy számítanak k egy egységes dmenzójú közelítést, általában annak adott sűrűséggel történő szegmentálása, majd a szegmensek közelítése révén. A ckkben megjelenő egyk fő ötlet, hogy előnyös lenne dnamkusan, az adattól függően szegmentáln az dősorokat. Ezt szemléltet a ckkből kragadott 1. ábra. Az ábrán az S1 és S2 dősorokat érdemes 3 szegmensre bontan, ha konstanssal jól közelíthető szegmenseket szeretnénk kapn, ugyanakkor az S3 és S4 dősorok két szegmensre bontásával s alacsony szórású értékeket tartalmazó szegmenseket kapunk. Ilyen módon tömörebb reprezentácót hozhatunk létre anélkül, hogy feláldoznánk a közelítés mnőségét. 1. ábra. Példa dnamkusan hatékonyabban szegmentálható dősorokra. A másk közös vonás a szakrodalomban fellelhető megoldások többsége között, hogy alsó korlátozást használnak a teljes llesztéshez a hasonlóság keresés során. Ennek lényege, hogy létezk egy, a csökkentett dmenzójú reprezentácókon értelmezett D LB (, ) 4

függvény, melyre gaz, hogy ha S ( {1,2}) dősor reprezentácója S ( {1,2}), akkor D LB ( S 1, S 2 ) D(S 1,S 2 ). Egy lyen függvény smeretében ha az ndexben tárolt S tömör reprezentácóra, valamnt a lekérdezés Q dősorának hasonló módon tömörített reprezentácójára ( Q) gaz, hogy D LB ( Q, S) > ε, akkor az S által reprezentált dősorokat már nem kell vzsgálnunk, ugyans azok tényleges távolsága Q-tól bztos, hogy ε-nál nagyobb. A ckk újítása közé tartozk egyrészt egy elterjedt alsó korlát számítás módszer kegészítése, pontosabbá tétele, másrészt felső korlátozás használata. A felső korlátozás lényege, hogy létezk egy D UB (, ) függvény, melyre gaz, hogy mnden dősorra (az előző bekezdés jelölésevel) D UB ( S 1, S 2 ) D(S 1,S 2 ). Ennek smeretében ha Q dősorhoz hasonló dősorok keresésre során találunk egy S értéket, amelyre D UB ( Q, S) ε, akkor tudjuk, hogy az S által reprezentált összes dősor Q-tól ε távolságon belül van, így része az eredménynek. 2. Irodalm áttekntés A teljes llesztés problémával kapcsolatos első eredmények közé talán a legjelentősebb Agrawal és tsa. műve [1], melyben távolságfüggvénynek az eukldesz távolságot, dmenzócsökkentésnek a dszkrét Fourer-transzformácót, a transzformáltak ndexelésére pedg R-fát [7] használtak. Faloutsos és tsa. [6] a problémát kterjesztették a részsorozat llesztésre. A később ckkek főleg különböző módszerekkel foglalkoztak az dősorok dmenzójának csökkentésére, úgy, hogy a csökkentett dmenzójú adatokhoz lehessen adn jó D LB alulról korlátozó távolságfüggvényt. A használt módszerek közé tartozk például a dszkrét Fourer-transzformácó mellett a szngulárs felbontás [11], a dszkrét wavelet transzformácó [5], a szakaszonként lneárs approxmácó [10], a szakaszonként aggregácó [14], az adaptív szakaszonként konstans approxmácó [4] és a Csebsev-polnomokkal történő közelítés [2]. Az ndexelésre a legnépszerűbb eszköz az R-fa, ezt módosítás nélkül [1], vagy az adott csökkentett dmenzójú dősor-reprezentácóhoz gazítva [4] s alkalmazzák. Egy meglehetősen új megközelítése az SAX [12, 3], mely egyben egy reprezentácó (SAX) és egy hozzá tartozó ndexelés módszer. 5

3. Módszerek 3.1. Bővített adaptív szakaszonként konstans approxmácó Először bemutatjuk a ckk által leírt és használt dmenzócsökkentés módszert, a bővített adaptív szakaszonként konstans approxmácót (Extended Adaptve Pecewse Constant Approxmaton, EAPCA), mely nevéhez híven az smert adaptív szakaszonként konstans approxmácó (Adaptve Pecewse Constant Approxmaton, APCA) egy kegészítése. Ebben az alfejezetben leírjuk a két reprezentácót, valamnt a rajtuk értelmezett, a bevezetőben említett f LB és f UB alsó és felső korlátozó függvényeket, melyek segítségével az dősorok távolságát tudjuk alulról és felülről becsüln. A továbbakban legyen adott n poztív egész szám, valamnt X = (x 1,x 2,...,x n ) és Y = (y 1,y 2,...,y n ) n hosszú, valós számokból álló dősorok. X és Y eukldesz távolsága D(X,Y ) = n =1 (x y ) 2. A ckk korább ckkek bevett gyakorlatára és elemzésre [9] támaszkodva ezt használja távolságmértéknek, így ezentúl két dősor távolsága (D(X,Y )) alatt eukldesz távolságukat értjük. Az APCA reprezentácóban egy X dősort (X 1,X 2,...,X m ) szegmensere bontjuk, ahol m n és j {1,...,m} : X j = (x r j 1 +1,...,x r j ) valamely 0 = r 0 < r 1 < < r m = n ndexsorozatra. Egy X j szegmens közelítő reprezentácója a (µ j,r j ) páros lesz, ahol µ j = r j k=r j 1 +1 s k r j r j 1 a szegmens értékenek átlaga. X közelítő reprezentácója tehát X = ((µ 1,r 1 ),...,(µ m,r m )). Azt mondjuk, hogy X és Ỹ APCA reprezentácók lleszkednek, ha az előző bekezdés jelölésevel az m és r 0,...,r m értékek megegyeznek, vagys X = ((µ X 1,r 1),...,(µ X m,r m )). és Ỹ = ((µ Y 1,r 1),...,(µ Y m,r m )). Illeszkedő reprezentácók alapján a 3.1. Lemma segítségével tudunk alsó korlátot számítan két dősorra. 3.1. Lemma. Adott két egyforma hosszú dősor, X és Y, valamnt lleszkedő APCA reprezentácók, X = ((µ X 1,r 1),...,(µ X m,r m )) és Ỹ = ((µ Y 1,r 1),...,(µ Y m,r m )). Ekkor: D(X,Y ) m (r r 1 )(µ X µ Y )2 =1 Az EAPCA reprezentácó a szegmensek reprezentácóját az értékek szórásával egészít k, és ennek segítségével egy pontosabb alsó korlátot, valamnt egy felső korlátot 6

s defnál. X dősor EAPCA reprezentácója az APCA reprezentácóhoz hasonlóan X = ((µ 1,σ 1,r 1 ),...,(µ m,σ m,r m )) lesz, ahol a megjelenő új σ = r j=r 1 +1 s2 j r r 1 ( r j=r 1 +1 s j r r 1 ) 2 értékek a reprezentált szegmens értékenek szórása. Illeszkedő reprezentácókat s hasonlóan defnálhatunk, alsó és felső korlátot pedg a 3.2. Tétel alapján számíthatunk. 3.2. Tétel. Adott két egyforma hosszú dősor, X és Y, valamnt lleszkedő EAPCA reprezentácók, X = ((µ X 1,σX 1,r 1),...,(µ X m,σ X m,r m )) és Ỹ = ((µ Y 1,σY 1,r 1),...,(µ Y m,σ Y m,r m )). Ekkor: D(X,Y ) m (r r 1 )[(µ X µ Y )2 + (σ X σ Y )2 ] =1 és D(X,Y ) m (r r 1 )[(µ X µ Y )2 + (σ X + σ Y )2 ] =1 Az alsó korlát nylvánvalóan pontosabb, hszen a gyökjel alatt levő összeg mnden tagja egy (r r 1 )(σ X σ Y )2 nemnegatív értékkel van megnövelve. A 3.2. Tétel bzonyítását a ckk [13] részletesen taglalja. 3.2. Korlátok dősorok halmazatól vett távolságra Az alsó korlátot EAPCA reprezentácó mellett kterjeszthetjük dősorok halmazától vett távolságra s. Ez alatt azt értjük, hogy egy dősor a halmaz bármely elemétől vett távolságát, vagys X dősor és Y 1,...,Y l egyforma hosszú dősorok esetén a mn 1 j l D(X,Y j ) távolságot szeretnénk alulról becsüln. Legyen tehát X az dősor, amelynek a távolságát az Y 1,...,Y l dősorokból álló halmaztól alulról szeretnénk becsüln. Legyen X,Y 1,...,Y l mnd egyforma hosszú, továbbá legyenek X = ((µ X 1,σX 1,r 1),...,(µ X m,σ X m,r m )), Y 1 = ((µ Y 1 1,σY 1 1,r 1),...,(µ Y 1 m,σ Y 1 m,r m )),..., Ỹ l = ((µ Y l 1,σY l 1,r 1),...,(µ Y l m,σ Y l m,r m )) az X,Y 1,...,Y l dősorok lleszkedő EAPCA reprezentácó. Jelölje az Y 1,...,Ỹ l halmazban. szegmens mnmáls és maxmáls átlagát µ mn σ max = mn 1 j l µ Y j = max 1 j l σ Y j. és µ max = max 1 j l µ Y j, szórását pedg σ mn = mn 1 j l σ Y j 3.3. Tétel. Adott X,Y 1,...,Y l egyforma hosszú dősorok és lleszkedő X, Y 1,...,Ỹ l EAPCA reprezentácók. Ekkor m mn D(X,Y j) (r r 1 )(LB µ + LB σ 1 j l )2 =1 és 7

és m max D(X,Y j) (r r 1 )(UB µ +UB σ 1 j l )2 =1 ahol és A 3.3. Tétel bzonyítását a ckk [13] részletesen taglalja. A tétel következménye, hogy ha lleszkedő EAPCA reprezentácóval adott dősorok halmazától vett távolságot szeretnénk alulról becsüln, ahhoz elég a szegmensek átlaganak és szórásanak mnmumát és maxmumát számon tartanunk. 3.3. A DSTree ndex A ckk fő eredménye egy, az EAPCA reprezentácóra épülő új ndex, a DSTree (dynamc splttng tree) bevezetése. Ennek leírásához először defnáljuk a reprezentácóhoz tartozó szegmentálások között a fnomítás relácót. Mnt láttuk, az EAPCA reprezentácó szegmensekre bontja az dősort. A szegmenseket meghatározza jobb végpontjuk, vagys a reprezentácó leírásakor használt jelölésekkel (r 1,...,r m ), ahol 0 < r 1 < r 2 < < r m = n, egyértelműen meghatározza a szegmentálást. Adott SG 1 = (r 1,...,r m ) és SG 2 = (r 1,...,r m ) szegmentálásokra azt mondjuk, hogy SG 2 egylépéses fnomítása SG 1 -nek, ha m = m + 1, és létezk olyan 1 0 < m, hogy 1 0 esetén r = r, 0 < esetén pedg r = r +1. Jelölése: SG 1 1 SG 2. Azt mondjuk, hogy SG 2 fnomítása SG 1 -nek, ha létezk SG 1,...,SG l szegmentálások egy olyan sorozata (l 2), melyre 8

SG 1 = SG 1 SG 2 SG l = SG 2. A DSTree a 2. ábrán látható módon bnárs fa struktúrába szerveződk, egy csúcs a részfájába tartozó dősorok egy ndexe. Megkülönböztetünk belső csúcsokat és leveleket. Mnden csúcsban tároljuk a következő nformácókat: A csúcs által meghatározott részfában található dősorok C számát. Az SG = (r 1,...,r m ) szegmentálását a csúcs által ndexelt dősoroknak. A felső és alsó korlát számításához felhasználható aggregált Z = (z 1,...,z m ) nformácót, ahol z = (µ mn, µ max,σ mn,σ max ). Ezeken kívül a levelek tárolnak egy mutatót egy legfeljebb ψ dősort tároló fájlra, ahol ψ a fa előre megadott levélkapactása, a belső csúcsok pedg tárolják a hasítás stratégát, amely a 3.3.2. fejezetben lesz kfejtve. 2. ábra. DSTree ndex A DSTree mnden csúcsára gaz, hogy a részfájában található csúcsokhoz tartozó szegmentálások vagy a saját szegmentálásával azonosak, vagy fnomabbak annál. Ez megenged azt, hogy különböző csúcsok szegmentálása különböző legyen. A szegmensek száma s különbözhet, de ezek egyezése esetén s lehet különbség két szegmentálás között. A 2. ábrán az N 2 és N 4 csúcsok az előbb, az N 4 és N 7 csúcsok az utóbb esetre mutatnak példát. 9

3.3.1. Felépítés A DSTree felépítése az ncalzácóval kezdődk, majd az dősorokat egyesével beszúrjuk a fába. A fát úgy ncalzáljuk, hogy egyetlen csúcsból, a gyökérből (N R ) álljon, az ahhoz tartozó szegmentálás pedg SG = (n) legyen, vagys egyetlen szegmensre bontsa az dősorokat az ndex. A beszúrás művelet algortmusa a 3. ábrán látható (a ckkből [13] másolva). Az dősorokat úgy próbáljuk elhelyezn, hogy a hasonló dősorok egy levélbe kerüljenek. Ennek elérése érdekében beszúráskor a gyökértől ndulva heursztkusan a csúcshoz tartozó hasítás stratéga alapján döntjük el, hogy melyk részfájába szúrjuk be az új dősort. Ha levélhez értünk, beszúrjuk az új dősort. Ha ezzel meghaladná az dősorok száma a levél ψ kapactását, akkor a levelet hasítan kell, amnek következtében a levélből belső csúcs lesz két új levéllel. 3. ábra. Beszúrás DSTree-be Krtkus lépés az algortmusban az alkalmazott hasítás stratéga kválasztása (BestSplt()). Ezt, valamnt a két utódcsúcs közül a hasítás stratéga alapján választó routetochld() függvényt a következő fejezet tárgyalja. 10

3.3.2. Hasítás stratégák Egy belső csúcsnál többféle módon lehet eldönten, hogy melyk dősor melyk részfába kerüljön. Egy lyen módot hasítás stratégának hívunk. Amkor egy levélből csúcs lesz, akkor rendelünk hozzá az ott található dősorok alapján egy hasítás stratégát, majd a később dősorok beszúrásánál a hozzárendelt hasítás stratégát követjük. A ckk megkülönböztet vízszntes hasítást (horzontal splttng, H-splt) és függőleges hasítást (vertcal splt, V-splt). Az előbb esetén a szegmentálás nem változk, az utódok szegmentálása ugyanaz marad, míg az utóbb esetén a szegmentálás fnomodk, a szülő csúcs szegmentálásának ugyanazt az egylépéses fnomítását fogja tartalmazn mndkét utód. A ckk kétféle vízszntes hasítás stratégát használ. Az egyk esetén kválasztjuk az egyk szegmenst, majd az dősorokat a megfelelő szegmensen felvett átlaguk alapján partconáljuk. Ha az átlag ksebb, mnt a mnmáls és a maxmáls átlag (a csúcsban tárolt µ mn és µ max értékek) számtan közepe, akkor az egyk részfába kerül az dősor, ha nagyobb vagy egyenlő, akkor a máskba. A másk stratéga hasonló, csak átlag helyett szórást használunk. A függőleges hasítás a következő módon történk. Az egyk szegmenst kválasztjuk és megfelezzük, majd a keletkező két szegmens közül valamelykre vízszntes hasítást alkalmazunk. Kérdés, hogy hogyan válasszunk stratégát, lletve stratégán belül szegmenst, amre alkalmazzuk. Célunk, hogy mnél hasonlóbb dősorok kerüljenek egy részfába. Ha ezt szem előtt tartva szeretnénk mnden lehetséges stratégához kszámítan az egy részfába kerülő dősorok páronként hasonlóságát, az meglehetősen számításgényes lenne. Éppen ezért a ckk, abból kndulva, hogy a hasonlóság keresés során kapott alsó és felső korlát különbségét szeretnénk mnmalzáln, a következő mértéket vezet le arra, hogy mennyre előnyös számunkra egy csúcs: Qos = m =1 (r r 1 )((µ max µ mn ) 2 + (σ max ) 2 ) A stratéga választása tehát úgy történk, hogy mnden lehetséges stratégára (azokat mnden lehetséges szegmensre alkalmazva) kszámítjuk a keletkező R jobb és L bal utód Qos értékét, valamnt a hasított N csúcsét s, és azt a stratégát választjuk, amelyre a Qos(N) Qos(R)+Qos(L) 2 érték maxmáls. Ez a 3. ábrán a BestSplt() függvény. A 11

routetochld() a már adott hasítás stratéga alapján mondja meg, hogy egy dősor melyk részfába kerül. 3.3.3. Műveletek A DSTree kétféle lekérdező műveletet támogat, hasonlóság keresést, amely a leghasonlóbb dősort adja vssza, valamnt a távolságok eloszlásának becslését. Előbbből az egzakt algortmus mellett létezk egy heursztkus változat s, mely gyors, és bár jó eséllyel hasonlót, de nem bztos, hogy a leghasonlóbb dősort adja vssza. Egy adott Q dősortól a távolságok eloszlásának becslése egy közelítő hsztogramot kszámítását takarja. 4. ábra. Hasonlóság keresés A heursztkus hasonlóság keresés a beszúrás mntájára megnéz, hogy melyk levélbe kerülne a lekérdezés Q dősora, majd az ebben a levélben tárolt mnden dősorra kszámítja annak Q-tól vett távolságát, és vsszaadja a legközelebbt. A 4. ábrán látható egzakt algortmus ezt felhasználja arra, hogy gyorsan találjon egy jó közelítő megoldást, amely 12

alapján jó eséllyel sok ágat tud vágn a keresés fán. A csúcsokban az smertetett módon tudunk alsó korlátot számítan az általa ndexelt csúcsok Q-tól vett távolságára. A bejárás egy prortás sor alapján történk, mndg a legígéretesebbnek tűnő csúcsból lépünk tovább. Ha ez egy levél, akkor kszámítjuk a benne tárolt dősoroktól vett pontos távolságot. Ha már a legígéretesebbnek tűnő csúcsról s látszk az alsó korlát alapján, hogy az általa ndexelt dősorok távolabb vannak Q-tól, mnt az eddg talált legjobb megoldás, akkor befejezhetjük a keresést. Az 5. ábrán látható a közelítő hsztogram készítő algortmus. A csúcsokban a Q-tól vett távolságra számított alsó és felső korlát, valamnt a csúcs által ndexelt dősorok száma alapján, azok összesítésével tudunk becslést adn adott távolság-ntervallumon belül levő dősorok számára. A ckkben ennek részletezése mellett egy alternatív megközelítés s felmerül, amely esetén a gyökérből a levelekbe vezető utakat adott α arányban osztó (vagy ehhez legközelebb eső) csúcsokat vesszük fgyelembe a hsztogram készítésénél. 5. ábra. Közelítő hsztogram kszámítása 13

4. Eredmények A leírt adatszerkezetet alapos tesztelésnek vetették alá. A tesztelés során összehasonlítás alapul szolgált kettő különböző ndexelés módszer. Az egyk a szakaszonként aggregácó [14] (Pecewse Aggregate Approxmaton, PAA) segítségével csökkent az dősorok dmenzóját, majd R-fával ndexel azokat. Ezt a szerzők maguk mplementálták. A másk az SAX2.0 [3] ndex, melynek az eredet mplementácóját használták. Az algortmusok paraméterezését s részletesen taglalja a ckk. A tesztadatok két fő csoportra oszthatóak: szntetkus és valód. A szntetkus adatok a következő módszerekkel lettek előállítva: Véletlen bolyongás, a [ 5, 5] ntervallumból egyenletesen véletlenül választott kezdőponttal, valamnt a [0,2] ntervallumból egyenletesen véletlenül választott lépéshosszal. Normáls eloszlással generálódnak az dősor pontja. Az eloszlás középpontja a [ 5, 5] ntervallumból, szórása pedg a [0, 2] ntervallumból kerül egyenletesen véletlenül kválasztásra. Az előző módszerrel generálunk legalább 3, legfeljebb 10 dősort, majd ezeket konkatenáljuk. A konkatenált szegmensek száma egyenletesen véletlenül kerül kválasztásra. Több sznuszfüggvény összekeveréséből mntavételezéssel. A függvények peródusa a [2, 10] ntervallumból, ampltúdója a [2, 10] ntervallumból, átlaga pedg a [ 5,5] ntervallumból kerül egyenletesen véletlenül kválasztásra. Az előállítás mód szntén egyenletese véletlenül kerül kválasztásra. Ezzel a módszerrel négy adathalmazt generáltak, egy 64, egy 128, egy 256 és egy 512 érték hosszú dősorokból állót. A skálázhatóság tesztelése során használtak tovább, akár 200 10 6 dősorból álló szntetkus adathalmazokat s. A valód adathalmazok hdak állapotát mérő szenzoroktól származnak. 10 6 dősor lett összegyűjtve több mnt 20 féle szenzortól, mnt például hőmérők vagy gyorsulásmérők. Mnden dősor hossza 256 érték, ez összesen nagyjából 3GB adat. 14

A futtatások mnd egy Intel Core 5 2.5GHz processzorral és 4 GB memórával rendelkező asztal számítógépen történtek, továbbá mnden feltüntetett érték 50 futtatás átlaga. Az első összehasonlítás szempont az ndex mérete. Konkrétan a csúcsok száma, az ndex fzka mérete, az egy levélben tárolt dősorok átlagos száma, valamnt egy csúcs szegmentálásának átlagos szegmensszáma. Ezek az értékek láthatóak összehasonlítva a 6. ábrán, felül a szntetkus, alul a valód adathalmazokon. 6. ábra. Indexméret összehasonlítása a szntetkus (felül) és valód (alul) adathalmazokon A mérés eredmények nem meglepőek, de gazolják a dnamkus hasítás stratégák hatékonyságát: az átlagos szegmensszám csak mérsékelten nő az dősorok hosszával, a csúcsok száma pedg alacsony marad. Ezek mellett az ndex magasságáról s készült statsztka. Ennek tanulsága például, hogy bár az SAX2.0 ndexben az átlagos gyökértől levélg vezető úthossz alacsonyabb, mnt a DSTree-ben, de maxmáls úthosszban rosszabbul teljesít. A következő összehasonlítás szempont a keresés hatékonysága, az de tartozó méréseket a 7. ábra mutatja. A heursztkus keresés hatékonyságát az E = D(Q,X) D(Q,X) D(Q,X) hbarátával (error rate) mérjük, ahol Q a lekérdezés, X az optmáls megoldás, X pedg a heursztkus keresés által vsszaadott dősor. Az egzakt keresés hatékonyságát a vágás rátával (prunng power) mérjük, amely azon dősorok száma, amelyeket a lemezről felolvasásuk és pontos távolságuk kszámítása nélkül elvetettünk, osztva az összes dősor 15

számával. 100 lekérdezést végeztek, melyeknek felét az adathalmazból származó, felét a szntetkus adatokhoz hasonlóan generált dősorok tették k. 7. ábra. Keresés hatékonysága szntetkus (felül) és valód (alul) adathalmazokon A mérések alapján a DSTree jelentősen jobban teljesít a több ndexnél, heursztkus és egzakt keresés terén s. Ennek több oka s lehet, például a pontosabb alsó korlát, amelyet a 8. ábra szemléltet, vagy a dnamkus hasítás stratégák. 8. ábra. APCA (M) és EAPCA (M+SD) alsó korlát értékek összehasonlítása. Az értékek az egzakt keresés teszteléséből származnak, és normálva vannak a közelített távolsággal. Tesztelve lett a közelítő hsztogram, valamnt az ndex skálázhatósága s. A skálázhatóságot a vágás rátán (prunng power) és az ndex felépítéséhez szükséges dőn keresztül 16

mérték, ezeket hasonlítják össze a 9. ábrán. Az összehasonlítás alapjául az SAX2.0 ndex szolgál. Az adathalmazok az SAX2.0-hoz tartozó szntetkus adatot generáló programmal készültek, 10, 50, 100 lletve 200 mlló dősort tartalmaznak. Az dősorok hossza mndegykben 256, a levelek kapactása pedg mndenhol ψ = 5000. 9. ábra. Skálázhatóság összehasonlítása. A keresés dőt szntén az SAX2.0 ndexszel hasonlítják össze, ezt mutatja a 10. ábra. A tesztadat 200 10 6 db, 256 hosszú dősorból állt, a 100 lekérdezés fele az adatok közt szereplő, fele véletlenszerűen generált dősor. A teljes ndex mnden esetben elfért a memórában. 10. ábra. Keresés dő összehasonlítása. A mért futásdő alapján a DSTree egyértelműen hatékonyabb. Hogy könnyebb legyen ennek az okát vzsgáln, a futásdőt processzordőre (ndex bejárása, dősorok összehasonlítása) és IO-dőre (dősorok beolvasása a merevlemezről) bontjuk. Így látszk, hogy a processzordő ks hányadát tesz k a keresésnek mnden ndex esetén, a különbséget az IO műveletekkel töltött dő különbsége okozza. Ennek oka vélhetően a DSTree jobb vágás rátája, valamnt az, hogy kevesebb levelet tartalmaz. 17

5. Dszkusszó A ckk egyk fő következtetése, hogy dősorok ndexelésénél a globáls szegmentálás feleslegesen megnövelhet az ndex méretét, valamnt annak mnőségén s ronthat; adaptív, dnamkus szegmentálással jelentősen javítan lehet a keresés dőn. Ennek alapján meg lehetne vzsgáln az dősorok ndexelésének smert módszeret, hogy lehetséges-e dnamkus szegmentálást alkalmazn a globáls szegmentálás helyett. Előnyös lehet továbbá az eddg APCA reprezentácót használó módszerek kpróbálása az új EAPCA reprezentácót és a rajta defnált pontosabb alsó korlátot használva. A DSTree ndex felépítése szntén tovább kutatásra ad lehetőséget. A jelenleg módszerrel az ndex hatékonysága függhet az dősorok beszúrás sorrendjétől. Ezzel szemben fel lehetne használn, hogy az összes dősor rendelkezésre áll az ndex felépítésekor, és ez a többletnformácó esetleg optmálsabb fa felépítését tenné lehetővé. Egy lehetséges módszer például az dősorok herarchkus klaszterezése, majd a fa ez alapján történő kalakítása. Tovább érdekes kérdés, hogy mlyen tovább hasítás stratégákat, lletve a stratégák között választásra használható mértéket defnálhatunk, és ezek hatékonysága hogyan vszonyul a ckkben leírtakéhoz. A végzett mérések a leghasonlóbb dősor megkeresésére koncentráltak, míg a ckk bevezetője a legfeljebb ε távolságra levő dősorok lekérdezését vet fel, mnt probléma. Ennek a lekérdezésnek a megvalósítása a DSTree adatszerkezeten trváls, így érdemes lenne ennek hatékonyságát s összevetn az eddg smert megoldásokkal. Tekntve, hogy az dősorok ndexelése aktív kutatás terület, ajánlatos lenne a különböző módszerek összehasonlítására szabványos kereteket létrehozn. A ckk saját valós adatokon, és saját módszerrel generált szntetkus adatokon végz az ndex tesztelését. Az összehasonlításra sok saját maguk által defnált értéket használ, mnt például a hbaráta vagy a vágás ráta. Kérdéses, hogy az eredményeket nem befolyásolja-e jelentősen ezek megválasztása, vagy például olyan döntések, hogy a hasonlóság lekérdezések felében a tárolt dősorok közül kerül k a bemenet. Ezt a bzonytalanságot erősen csökkentené szabvány tesztelésre használható adatok, módszerek és optmalzálandó statsztkák létrehozása. 18

Hvatkozások [1] Rakesh Agrawal, Chrstos Faloutsos, and Arun Swam. Effcent smlarty search n sequence databases. In DavdB. Lomet, edtor, Foundatons of Data Organzaton and Algorthms, volume 730 of Lecture Notes n Computer Scence, pages 69 84. Sprnger Berln Hedelberg, 1993. [2] Yuhan Ca and Raymond Ng. Indexng spato-temporal trajectores wth Chebyshev polynomals. In SIGMOD 04: Proceedngs of the 2004 ACM SIGMOD nternatonal conference on Management of data, pages 599 610, New York, NY, USA, 2004. ACM. [3] Alessandro Camerra, Thems Palpanas, Jn Sheh, and Eamonn Keogh. SAX 2.0: ndexng and mnng one bllon tme seres. In Proceedngs of the 2010 IEEE Internatonal Conference on Data Mnng, ICDM 10, pages 58 67, Washngton, DC, USA, 2010. IEEE Computer Socety. [4] Kaushk Chakrabart, Eamonn Keogh, Sharad Mehrotra, and Mchael Pazzan. Locally adaptve dmensonalty reducton for ndexng large tme seres databases. ACM Trans. Database Syst., 27(2):188 228, June 2002. [5] Kn-Pong Chan and Ada Wa-chee Fu. Effcent tme seres matchng by wavelets. In Proceedngs of the 15th Internatonal Conference on Data Engneerng, ICDE 99, pages 126 133, Washngton, DC, USA, 1999. IEEE Computer Socety. [6] Chrstos Faloutsos, M. Ranganathan, and Yanns Manolopoulos. Fast subsequence matchng n tme-seres databases. SIGMOD Rec., 23(2):419 429, May 1994. [7] Antonn Guttman. R-trees: a dynamc ndex structure for spatal searchng. SIG- MOD Rec., 14(2):47 57, June 1984. [8] Eamonn Keogh. A decade of progress n ndexng and mnng large tme seres databases. In Proceedngs of the 32nd nternatonal conference on Very large data bases, VLDB 06, pages 1268 1268. VLDB Endowment, 2006. 19

[9] Eamonn Keogh and Shrut Kasetty. On the need for tme seres data mnng benchmarks: A survey and emprcal demonstraton. Data Mn. Knowl. Dscov., 7(4):349 371, October 2003. [10] Eamonn J. Keogh and Mchael J. Pazzan. An enhanced representaton of tme seres whch allows fast and accurate classfcaton, clusterng and relevance feedback, 1998. [11] K. V. Rav Kanth, Dvyakant Agrawal, and Ambuj Sngh. Dmensonalty reducton for smlarty searchng n dynamc databases. SIGMOD Rec., 27(2):166 176, June 1998. [12] Jn Sheh and Eamonn Keogh. SAX: ndexng and mnng terabyte szed tme seres. In Proceedngs of the 14th ACM SIGKDD nternatonal conference on Knowledge dscovery and data mnng, KDD 08, pages 623 631, New York, NY, USA, 2008. ACM. [13] Yang Wang, Peng Wang, Jan Pe, We Wang, and Sheng Huang. A data-adaptve and dynamc segmentaton ndex for whole matchng on tme seres. In Proceedngs of the 39th Internatonal Conference on Very Large Data Bases, VLDB 13. VLDB Endowment, 2013. [14] Byoung-Kee Y and Chrstos Faloutsos. Fast tme sequence ndexng for arbtrary lp norms. In Proceedngs of the 26th Internatonal Conference on Very Large Data Bases, VLDB 00, pages 385 394, San Francsco, CA, USA, 2000. Morgan Kaufmann Publshers Inc. 20