Idősorok elemzése. Salánki Ágnes

Hasonló dokumentumok
STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

Adatbányászati szemelvények MapReduce környezetben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Idősorok elemzése előadás. Előadó: Dr. Balogh Péter

Autoregresszív és mozgóátlag folyamatok

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Nagyméretű Adathalmazok Kezelése

Fraktálok. Kontrakciók Affin leképezések. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék. TARTALOMJEGYZÉK Kontrakciók Affin transzformációk

Diszkréten mintavételezett függvények

Statisztika I. 13. előadás Idősorok elemzése. Előadó: Dr. Ertsey Imre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Fourier transzformáció

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Gépi tanulás a gyakorlatban. Lineáris regresszió

Idősorok. Nagyméretű adathalmazok kezelése. Bartók Ferenc

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai

Szezonális kiigazítás az NFSZ regisztrált álláskeresők idősorain. Készítette: Multiráció Kft.

Gyakorló feladatok. Agbeko Kwami Nutefe és Nagy Noémi

Digitális Domborzat Modellek (DTM)

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

A HŐMÉRSÉKLET ÉS A CSAPADÉK HATÁSA A BÜKK NÖVEKEDÉSÉRE

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

Mérési adatok illesztése, korreláció, regresszió

Numerikus matematika. Irodalom: Stoyan Gisbert, Numerikus matematika mérnököknek és programozóknak, Typotex, Lebegőpontos számok

Több valószínűségi változó együttes eloszlása, korreláció

Algoritmusok és Adatszerkezetek II. utolsó előadás Beszédtechnológiai algoritmusok. (csak egy kis felszínkapargatás)

Matematika gyógyszerészhallgatók számára. A kollokvium főtételei tanév

Numerikus matematika vizsga

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

Numerikus módszerek beugró kérdések

Idő-frekvencia transzformációk waveletek

1 Lebegőpontos számábrázolás

Wavelet transzformáció

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Programozási módszertan. Dinamikus programozás: A leghosszabb közös részsorozat

Regresszió számítás az SPSSben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Fourier térbeli analízis, inverz probléma. Orvosi képdiagnosztika 5-7. ea ősz

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

1.9. B - SPLINEOK B - SPLINEOK EGZISZTENCIÁJA. numerikus analízis ii. 34. [ a, b] - n legfeljebb n darab gyöke lehet. = r (m 1) n = r m + n 1

Idő-frekvencia transzformációk waveletek

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

LNM folytonos Az interpoláció Lagrange interpoláció. Lineáris algebra numerikus módszerei


Shor kvantum-algoritmusa diszkrét logaritmusra

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

A LEGKÖZELEBBI SZOMSZÉD ANALÍZISHEZ SZÜKSÉGES TERÜLETI ADATBÁZISOK KIALAKÍTÁSÁNAK MÓDSZERTANI KÉRDÉSEI

Számítógépes döntéstámogatás. Statisztikai elemzés

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Idő-frekvencia transzformációk waveletek

1. Házi feladat. Határidő: I. Legyen f : R R, f(x) = x 2, valamint. d : R + 0 R+ 0

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Szezonális kiigazítás munkaügyi idősorokra

Termelés- és szolgáltatásmenedzsment

Fehérzajhoz a konstans érték kell - megoldás a digitális szűrő Összegezési súlyok sin x/x szerint (ez akár analóg is lehet!!!)

Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Adatok statisztikai értékelésének főbb lehetőségei

Digitális jelfeldolgozás

Bevezetés Standard 1 vállalatos feladatok Standard több vállalatos feladatok 2017/ Szegedi Tudományegyetem Informatikai Intézet

Mérési hibák

CSAPADÉK ÉS TALAJVÍZSZINT ÉRTÉKEK SPEKTRÁLIS ELEMZÉSE A MEZŐKERESZTES-I ADATOK ALAPJÁN*

Shift regiszter + XOR kapu: 2 n állapot

Mintavételezés, szűrés, kilógó esetek detektálása

Fourier-sorok. Lengyelné Dr. Szilágyi Szilvia április 7.

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Matematika alapjai; Feladatok

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Irányításelmélet és technika II.

Gépi tanulás és Mintafelismerés

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Molekuláris dinamika I. 10. előadás

Geofizikai kutatómódszerek I.

Statisztikai módszerek a skálafüggetlen hálózatok

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

Valószínűségszámítás összefoglaló

Matematikai statisztikai elemzések 7.

Az előadás tartalma. Debrecen 110 év hosszúságú csapadékadatainak vizsgálata Ilyés Csaba Turai Endre Szűcs Péter Ciklusok felkutatása

A KLT (Kanade Lucas Tomasi) Feature Tracker Működése (jellegzetes pontok választása és követése)

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Legkisebb négyzetek módszere, Spline interpoláció

Alapfogalmak. Trendelemzés Szezonalitás Modellek. Matematikai statisztika Gazdaságinformatikus MSc október 29. 1/49

3. Lineáris differenciálegyenletek

Az éghajlati modellek eredményeinek alkalmazhatósága hatásvizsgálatokban

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

A keveredési réteg magasságának detektálása visszaszóródási idősorok alapján

Grafikonok automatikus elemzése

Termeléstervezés és -irányítás Termelés és kapacitás tervezés Xpress-Mosel FICO Xpress Optimization Suite

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Sapientia - Erdélyi Magyar TudományEgyetem (EMTE) Csíkszereda IRT- 4. kurzus. 3. Előadás: A mohó algoritmus

17. előadás: Vektorok a térben

Átírás:

Idősorok elemzése Salánki Ágnes salanki.agnes@gmail.com 2012.04.13. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 1

Idősorok analízise Alapfogalmak Komponenselemzés Összehasonlítás Tárolás/Indexelés 2

Alapfogalmak Eddig: rekordok egy adatbázisban (valami struktúrával), a sorrend nem számít o Pl. vásárló kosara (pelenka sör) Sorrend is: szekvenciaelemzés o Pl. időben különböző vásárlások (fényképezőgép fényképnyomtató egy hónapon belül) Időbélyeg is: idősorelemzés 3

Alapfogalmak Idősor-adatbázis megadott időközönként rögzített érték- vagy esemény szekvenciák o Megj.: tehát minden idősor egy szekvencia is Alkalmazások o Természeti jelenségek adatai: hőmérséklet, légnyomás o Tőzsdeelemzés és jóslás o Folyamatirányítási rendszerek 4

Idősor 5

Idősor 6

Idősor 7

Idősor 8

Komponensek Y = T + S + C + I Trendmozgás Szezonális mozgás Ciklikus mozgás Irreguláris mozgás 9

Komponensek Y = T + S + C + I Trendmozgás Szezonális mozgás Ciklikus mozgás általános irány egy hosszú időszakon belül Irreguláris mozgás 10

Komponensek Y = T + S + C + I Trendmozgás Szezonális mozgás Ciklikus mozgás időszakok szerint rendszeres mozgás; pl. Valentin napi virágeladás Irreguláris mozgás 11

Komponensek Y = T + S + C + I Trendmozgás Szezonális mozgás Ciklikus mozgás hosszú távú változások a trend körül; megj.: nem feltétlenül periodikus Irreguláris mozgás 12

Komponensek Y = T + S + C + I Trendmozgás Szezonális mozgás Ciklikus mozgás véletlenszerű, előre semmilyen módon nem jósolható Irreguláris mozgás 13

Idősorok elemzése Egyedi idősorok jellemzése o dekompozíció o becslések a jövőre nézve Idősorok viszonya egymáshoz o távolságok meghatározása o összehasonlítás 14

Trendelemzés Dekompozíció, becslések 15

Szabad kéz módszere Trendelemzés 16

Módszer Szabad kéz módszere Leírás 17

Szabad kéz módszere Analitikus módszer o regresszió Trendelemzés 18

Módszer Regresszió Adott: x = x 1, x 2, x n független és y = y 1, y 2,, y m függő változók. Keressük: y = f(x, β) összefüggést és ebben a β paramétert Lineáris regresszió o a függő változó a függetlenek lineáris kombinációja Nemlineáris regresszió o paramétereiben lineáris függvények o interpoláció spline-okkal 19

Lineáris regresszió Sejtés: az y és az x között lineáris kapcsolat Legyen n a tanítóhalmaz mérete, illesszünk rá hipersíkot: y = β 0 + n β j x j j=1 A β paraméter meghatározása: legkisebb négyzetek módszere a teljes adathalmazra N RSS β = (y i β 0 x i,j β j i=1 n j=1 Innen megvan az optimális β paramétervektor DE: csak óvatosan ) 2 20

Paramétereiben Paraméterében lineáris lineáris r. r. y = a b x y = a + b 1 x y = a + b log x y = a x b 21

Spline-ok Interpoláció Paraméterében spline-okkal lineáris r. Regressziós modellezés: általános modell Interpoláció: egy-egy pontra lokális függvény Alkalmazás: o Korlátozott számú mérőpont o Mérési hiba o Tehát előrejelzést nem tudunk adni! 22 Kép forrása: http://exchange.autodesk.com/autocadlt/hun/

Szabad kéz módszere Analitikus módszer o Regresszió Trendelemzés Simítás? o Mozgó átlag! 23

Módszer k-adrendű mozgóátlag k hosszú ablak, a benne szereplő elemek átlagát vesszük Eredeti 3 5 1 0 8 10 6 2 1 3 k = 3 NA 3 2 3 6 8 6 3 2 NA k = 4 NA NA 2.9 4.1 5.4 6.3 5.6 4.4 NA NA Súlyozással is k 2,3 = 3 + 5 + 1 k3 7,4 = 0. 5 8 + 10 + 6 + 2 + 0. 5 1 Eredeti 3 5 1 0 8 10 6 2 1 3 k = 3 NA 3 2 3 6 8 6 3 2 NA k = 3 ( 1,3,1 ) NA 3.8 1.6 1.8 6.8 8.8 6 2.6 1.8 NA 4 24

k-adrendű mozgóátlag 25

k-adrendű mozgóátlag 26

Szezonális mozgások Cél: a szezonális mozgások kiiktatása/becslése o Minden, ami naptári intervallumhoz köthető o Példa: pékség és virágüzlet január-március Szezonális index: havi átlagtól való eltérés %-ban o Ezekkel kell leosztani/ezeket kell kivonni 27

Szezonális mozgások Alapfeladat: kezdeményezett mobilhívások (millió) Év I. negyedév II. negyedév IIII. negyedév IV. negyedév 2001 777 975 1044 984 2002 963 1115 1159 1162 2003 1068 1207 1206 1219 2004 1138 1307 1347 1332 28

Szezonális mozgások Alapfeladat: kezdeményezett mobilhívások (millió) Év I. negyedév II. negyedév IIII. negyedév IV. negyedév 2001 777 975 1044 984 2002 963 1115 1159 1162 2003 1068 1207 1206 1219 2004 1138 1307 1347 1332 Lépések: 1. Trend kiszámítása (itt: negyedrendű mozgóátlag) 29

Szezonális mozgások Alapfeladat: kezdeményezett mobilhívások (millió) Év I. negyedév II. negyedév IIII. negyedév IV. negyedév 2001 968.3 1009 2002 1040.9 1077.5 1112.9 1137.5 2003 1154.9 1167.9 1183.8 1205 2004 1235.1 1266.9 Lépések: 1. Trend kiszámítása (itt: negyedrendű mozgóátlag) 30

Szezonális mozgások Alapfeladat: kezdeményezett mobilhívások (millió) Év I. negyedév II. negyedév IIII. negyedév IV. negyedév 2001 968.3 1009 2002 1040.9 1077.5 1112.9 1137.5 2003 1154.9 1167.9 1183.8 1205 2004 1235.1 1266.9 Lépések: 1. Trend kiszámítása (itt: negyedrendű mozgóátlag) 2. Szezonális index kiszámítása 31

Szezonális mozgások Alapfeladat: kezdeményezett mobilhívások (millió) Év I. negyedév II. negyedév IIII. negyedév IV. negyedév 2001 1.08 0.98 2002 0.89 1.04 1.04 1.02 2003 0.93 1.03 1.02 1.01 2004 0.92 1.03 Lépések: 1. Trend kiszámítása (itt: negyedrendű mozgóátlag) 2. Szezonális index kiszámítása 32

Szezonális mozgások Alapfeladat: kezdeményezett mobilhívások (millió) Év I. negyedév II. negyedév IIII. negyedév IV. negyedév 2001 1.08 0.98 2002 0.89 1.04 1.04 1.02 2003 0.93 1.03 1.02 1.01 2004 0.92 1.03 Lépések: 1. Trend kiszámítása (itt: negyedrendű mozgóátlag) 2. Szezonális index kiszámítása 3. Átlagolás 33

Szezonális mozgások Alapfeladat: kezdeményezett mobilhívások (millió) Év I. negyedév II. negyedév IIII. negyedév IV. negyedév 2001 1.08 0.98 2002 0.89 1.04 1.04 1.02 2003 0.93 1.03 1.02 1.01 2004 0.92 1.03 Átlag 0.91 1.03 1.05 1.00 Lépések: 1. Trend kiszámítása (itt: negyedrendű mozgóátlag) 2. Szezonális index kiszámítása 3. Átlagolás 34

Ciklikus mozgások Cél: ciklikus komponens meghatározása Szezonmentesített adatokon: Ciklikus = mozgóátlag- trendfüggvény Lépések: 1. Trend kiszámítása (mozgóátlag) 2. A mozgóátlagra trendfüggvényt illesztünk 3. Ciklikus = mozgóátlag - trendfüggvény 35

Ciklikus mozgások 2. 36

Ciklikus mozgások 2. 37

Ciklikus mozgások 2. 38

Összehasonlítás Távolságfüggvények, dinamikus idővetemítés 39

Összehasonlítás motivációk Teljes egyezés (whole sequence matching) o egy szekvencia-halmazban talál hasonlóakat egymáshoz o Pl. olyan termékek, amiknek az eladási mutatói hasonlóak Rész-szekvencia keresése (subsequence matching) o egy előre definiált rész-szekvenciát keresünk az idősorokban o Pl. EKG-ban adott rendellenesség keresése 40

Minkowski távolság Két n dimenziós adatvektor távolsága lehet például: p d p x, y = (x k y k ) p n k=1 = x y p 41

Manhattan távolság p = 1 Speciális Minkowskik o d 1 x, y = x k y k Euklideszi távolság p = 2 2 o d 2 x, y = ( (x k y k ) 2 ) Chebyshev távolság p o gyakorlatilag a megegyező indexű elemek távolságai közül a legnagyobb 42

Speciális Minkowskik A (0, 0) ponttól 1 egységre lévő pontok halmaza p = 1, p = 2 és p = esetén 43

Outlierek o Mozgóátlag o Zajszűrés Euklideszi problémák Y tengely menti eltolás különböző Y tengely menti skálázás különböző normalizálás : y i = y i Átlag(y) SZÓRÁS(y) 44

Euklideszi problémák 45

Euklideszi problémák 46

Euklideszi problémák 2 X tengely menti eltolás? Összehasonlítás kiugró értékek alapján? Különböző hosszúságú idősorok? Dinamikus idővetemítés 47

Dinamikus idővetemítés Dynamic Time Wraping Az idősorok pontjait nem indexenként hasonlítjuk össze o Motiváció pl. hangfelismerésnél Kép forrása: http://homepages.inf.ed.ac.uk/group/sli_archive/slip0809_c/s0562005/img/dtwexplain.png 48

Dinamikus idővetemítés számítása Lépések 1. n m-es D mátrixban rögzítjük a sorok egymástól való távolságát 2. Lépkedünk a szomszédos mezőkön Kell: p = p 1, p 2, p k útvonal a D 1, 1 és D n, m között Cél: minimális költségű út Szabályok: 1. Minden lépésben előre haladunk (nem távolodhatunk, tehát i, j i, j esetén i i, j j) 2. Az út folytonos, mindig csak szomszédos cellákra léphetünk 49

Dinamikus idővetemítés Sakoe-Chiba sáv (**Ikatura par.) Kép forrása: http://homepages.inf.ed.ac.uk/group/sli_archive/slip0809_c/s0562005/theory.html 50

Más hasonlóságok Befoglaló négyszögek hasonlósága o Inkább a különbözőek szűrhetőek ki o Nem túl hatékony Burkolt szegmensek hasonlósága o Két konfigurációs paraméter Szegmensek közötti megengedett eltérés: ε Azonos szegmensek minimális értéke: min_supp o Gyakorlatban is alkalmazott 51

Tárolás/Indexelés DFT, szegmentálás, fontos pontok 52

Idősorok hatékony tárolása k-adrendű átlagolás Szegmentálás Fontos pontok Diszkrét Fourier-transzformáció 53

k-adrendű átlagolás Alkalmazása főleg DTW-nél (Keogh+Pazzani, 2000) Lépések 1. n hosszúságú idősort N darab egyenlő hosszúságú részre bontunk 2. mindenhová az átlagot helyettesítjük be: n N i x i = N n x j j= n N i 1 +1 54

Szegmentálás Cél: az idősort egyenes szakaszokkal közelítsük o Minél kevesebb egyenes legyen VAGY o Minél pontosabban közelítsen Kép forrása: Keogh, Chu, Hart, Pazzani. Segmenting Time Series: A Novel Approach 55

Szegmentálás 2 Csúszóablakos algoritmus o Egyszerű, online, de ha nagyon rezeg, nem jó o pl. egészségügy Top Down o Minden lehetséges töréspontot megvizsgál o A legkisebb hibájúnál vág Bottom Up o A legfinomabb felbontással kezdjük o A legjobban illeszkedző i. és i + 1. szakaszt összeolvasztjuk, majd frissítjük a távolságokat 56

Magyarázat Összehasonlítás o E maximális hiba egy adott szegmensre o ME teljes közelítő hiba o K szegmensek száma o L a szegmens átlagos hossza Algoritmus Konfiguráció Online Bonyolultság Csúszóablakos E IGEN O(Ln) Top-Down E, ME, K NEM O(Kn 2 ) Bottom-Up E, ME, K NEM O(Ln) 57

Fontos pontok módszere Válasszuk ki a reprezentatív pontokat, a többieket hagyjuk el Összehasonlításnál a többi idősornak is csak a fontos pontjait vesszük figyelembe Miért lehet egy a m pont fontos minimum? o Minimális az a i,, a m,, a j szekvenciában o sokkal kisebb, mint az intervallumhatárok: a i a m R és a j a m R Kép forrása: Fink, Pratt. Indexing of Compressed Time Series 58

Diszkrét Fourier-transzformáció Cél: időtartományból frekvenciatartományba transzformálni az adatokat Miért jó? o a zajszűrés könnyebb o a transzformálás lineáris (af 1 t + bf 2 t = af 1 ω + bf 2 (ω)) o a tengelyeken való eltolások megjelennek (kompenzálni tudunk a fr.t.-ban is) o azonos Euklideszi távolság az idősorok és tr.-ik között 59

Diszkrét Fourier-transzformáció 2 Képzése N 1 1 F k = f i e 2πjki N N k=0 0 k N 1-re 1. Amit kapunk: Fourier-együtthatók 2. Tömörítés: az első néhány együttható alapján jellemzünk csak 3. Készítünk az együtthatók alapján egy keresőfát, amiben már könnyű lesz keresni 60

Idősorok analízise Összefoglalás Alapfogalmak Komponenselemzés Összehasonlítás Tárolás/Indexelés 61