Idősoros adatok bemutatása Dekompozíció Előrejelzés Simító eljárások Távolságmetrikák

Átírás

1

2 2 Idősoros adatok bemutatása Dekompozíció Előrejelzés Simító eljárások Távolságmetrikák 2

3 3 Az idősor egy l elemű számsorozat x = (x 0, x 1,, x l 1 ) Az értékek időpontokhoz vannak rendelve Időben egymás után következő megfigyelések sorozata Az idősor matematikailag nem sor, hanem sorozat A világsajtóban megjelent cikkek egy 4000-es véletlen mintáját megvizsgálva az ábrák több mint 75%-a idősorokat ábrázolt. (Tufte, 1983)

4 4 Időjárási adatok 4

5 5 Pénzügyi adatok 5

6 6 Energetika 6

7 7 Sport 7

8 8 Egészségügyi adatok 8

9 9 Egészségügyi adatok 9

10 10 Az idősorok komplex mintázatai különböző komponesek együttes hatásának eredményei Bármely idősor felbontható: trendhatásra Ciklikus hatásra Szezonalitásra Maradványra (zaj) Egymásra is hatással vannak 10

11 11 11

12 12 Hosszútávú trendmozgások (trend görbe): az idősor alakulsát leginkább meghatározó irányvonal vagy görbe Ciklikus mozgások és szórások: szintén hosszútávú ingadozások a trendvonal körül Pl. üzleti időszakok, jellemzően periodikus Szezonális mozgások és szórások Időben visszatérő, azonos hatású jelenségek, pl. Karácsony Zaj okozta szabálytalanság és véletlen mozgások Az idősor elemzés során e négy komponens együttes hatását vizsgáljuk Additív kapcsolat: TS = T + C + S + I Multiplikatív kapcsolat: TS = T C S I April 2, 2015

13 13 Felosztás Egyváltozós Többváltozós Főbb tulajdonságok Az idősorok egymás utáni értékei erősen korrelálnak (autokorreláció) Hagyományos elemzési módszerek esetén magas dimenziószám Erősen zajos A mintavételezés időköze eltérhet A sorozatok hossza eltérhet 13

14 14 14 Korrelációszámítás idősorokon A szokásos összefüggések továbbra is érvényesülnek n i n i i i n i i i xy x x y y x x y y r ) ( ) ( ) )( ( r xy = r yx, r [ 1; +1 ]

15 15 15 Egy idősor jelenlegi és későbbi értékei közötti kapcsolat mértékét fejezi ki. A k lépéses autokorreláció az idősor és a k lépéssel eltolt idősor közötti korreláció. k. rendű autokorreláció számítása autocorr k = corr x t, x t + k t re E E E E z k t t k t t k t t k z z z z z z autocorr

16 16 Egy idősor jelenlegi és későbbi értékei közötti kapcsolat mértékét fejezi ki. A k lépéses autokorreláció az idősor és a k lépéssel eltolt idősor közötti korreláció. k. rendű autokorreláció számítása autocorr i = corr x t, x t i t re 16

17 ARMA(p,q): autoregresszív és mozgóátlag modell Két komponens: AR és MA Az autoregresszív (AR) modell, az idősor jelenlegi értékét, saját előző értékeinek függvényében fejezi ki k a yk 1 a yk p AR p) a y... p ( 0 1 A mozgóátlag (MA) modell az idősor jelenlegi értékét, a jelenlegi és a múltbeli véletlen változók függvényében fejezi ki q c ek c ek 1... c ek q MA q 0 1 Variáció: ARIMA(p,q,d)

18 Az ARMA modell trendhatás nélküli idősort vár Trendhatás megállapítása a mozgóátlag módszerrel

19 19 Trend görbe számítás N-ed rangú mozgóátlag csúszóablakkal Simító hatással van az idősor egészére Kiszűri a ciklikusság, a szezonalitás és a zaj hatását Az idősor elején és végén adatvesztés Érzékeny a kiugró értékekre April 2, 2015

20 20 Mozgóátlag módszer Exponenciális simítás Idősor simítása: kiszűri a rövidtávú ingadozások hatását, eltünteti a szezonalitást Determinisztikus működés, nem veszi figyelembe az idősorral reprezentált folyamat véletlenszerűségét 20

21 21 Egyszerű átlag - gyors, olcsó, csak stacionárius esetben Mozgóátlag módszer - az utolsó n érték figyelmbevételével dolgozik, ebből számolja a következő becslést. Feltételezi a folyamat időbeli stabilitását Az ablak mérete meghatározó, befolyásolja a közeli értékek súlyozását, simítás mértékét (utolsó n érték) Moving Average = n 21

22 24 Egyszeres exponenciális simítás A közeli értékeket felülsúlyozza, idővel exponenciálisan csökkenő súlyokkal számol Trend és szezonális hatás nélküli sorokon A t = αy t-1 + (1 α) A t-1 Új érték= α (előző megfigyelés) + (1- α) előző érték Kétszeres exponenciális simítás Kezeli a trend hatást 24

23 25 Egyszeres exponenciális simítás A közeli értékeket felülsúlyozza, idővel exponenciálisan csökkenő súlyokkal számol Trend és szezonális hatás nélküli sorokon 25

24 Véletlenszerű (normális eloszlású független sorozat) Tipikus autokorreláció függvények Autokorrelált (véletlen sorozat mozgóátlaga) Periodikus (szinusz függvény, zajmentes)

25 ARMA modell alkalmazása 18.5 Stacionárius idősor acf pacf Javasolt modell : AR(2)

26 ARMA modell alkalmazása Az eredeti adatsor és az egy lépésre tett előrejelzések Idősor Előrejelzés

27 29 Miért fontos ez? time Az összehasonlíthatóság kérdése X = x 1, x 2,, x n and Y = y 1, y 2,, y n Hogyan számítsuk: Sim(X, Y) =? Hasonlóan alakul-e X és Y árfolyama? 29

28 Elvárások a távolságfüggvényekkel szemben D(A,B) = D(B,A) szimmetria D(A,A) = 0 ön-távolság D(A,B) >= 0 pozitivitás D(A,B) D(A,C) + D(B,C) háromszög egyenlőtlenség

29 Euklideszi távolság: Minden sorozat egy pont az n dimenziós térben X és Y sorozatok hasonlósága L p ( n i1 x i y i p 1/ ) p p=1 Manhattan távolság p=2 Euklidészi távolság

30 Sim(X,Y) = LCS /n Gap skipped

31 Karakterláncokon értelmezett Két karakterlánc esetén a szerkesztési műveletek számát adja meg, amely az egyik karakterláncot a másikba viszi Szerkesztési műveletek: beszúrás, törlés, helyettesítés Egyezőség helyett legfeljebb ε távolságot várunk el Dinamikus programozással kalkulálható O(mn) ed(i,j) = ed(i-1, j-1) min (ed(i-1,j) +1, ed(i, j-1) +1, ed(i-1, j-1)+1) if x i = y j if x i y j

32 i i i i i+2 time time Bármely távolságmetrika (Euklideszi, Manhattan, ) mely az egyik idősor i. elemét a másik i. elemével veti össze gyenge eredményt hoz. Egy nemlineáris, rugalmas megfeleltetés jobban közelíti a valóságot, segítségével összerendelhetők a hasonló alakzatok, akkor is ha időben eltolva jelennek meg.

33 Time Series A m 1 i s n p k A és B idősor közötti legjobb összerendelést a mátrixon keresztül vezető útvonal adja meg P = p 1,, p s,, p k j s p s p s = (i s, j s ) ahol P jelenti a legkisebb költségű útvonalat. Time Series B 1 p 1 P összerendelést hívjuk vetemítő függvénynek.

34 Time Series A 1 m i s n p k Idővel normált távolság A és B között: k d( ps ) ws s1 D(A, B ) = k ws s1 d(p s ): i s és j s távolsága w s > 0: súlytényező. j s p s Legjobb útvonal A és B között : Time Series B 1 p 1 P 0 = arg min (D(A, B )). P

35 Time Series A m 1 i s n A lehetséges vetemítő útvonalak a mátrixban az idősorok hosszával hatványozottan növekszik Keresési tér csökkentése A vetemítő fgv megkötései: monoton Time Series B j s 1 folytonos korlátozó feltételek ablakozás meredekségi kikötések

36 Egyszerű megoldás O(n 2 ) n jelöli az idősorok hosszát minden (i, j) párra el kell végezni a számítást Ablakozási megkötéssel O(nw) [Ratanamahatana, Keogh, 2004] Csak azokra az (i, j) párokra, ahol i j <= w

37 42 A távolság és sűrűség alapú klaszterezők adaptálhatóak a DTW használatával K-means K-medoids Hierarchikus klaszterezők DBSCAN 42

38 43 DTW segítségével alkalmazhatóak a távolságfüggvényes megoldások, pl. KNN A DTW-n alapuló KNN idősor osztályozó versenyképes a komplexebb megoldásokkal (Ding, 2008) Az általános KNN esetén megismert gyorsítási megoldások itt is alkalmazhatóak A reprezentatív idősorok kiválasztása azonban ekvivalens a halmaz-fedési problémával, így NP-teljes 43

39 44 Regressziós technikákkal történhet Visszavezetés a hagyományos adatbányászati problémákra (lásd esettanulmány) Fa alapú megoldások SVM Együttes osztályozók 44

40 45 Megválasztjuk az előrejelző módszert - megkötések Két részre bontjuk az adathalmazt egy tanító és egy teszt részre A választott modell paramétereit a tanító halmaz alapján választjuk meg A választott modell és annak paraméterezése alapján előrejelzéseket adunk a teszt halmaz értékeire Kiértékeljük a modell pontosságát (MAD, MPE, MSD, MAPE) Ha szükséges finomítunk a modellen és paraméterezésén 45

41 46 Tanított modell pontosságának fő mértékei: MAPE, MAD and MSD Hiba mértékek, így minimalizáljuk őket. Megteremtik a különböző megoldások összehasonlíthatóságát. MAPE (Mean Absolute Percentage Error) az átlagos eltérést százalékos alakban adja meg (y t -y t )/y t MAPE = (y t 0) n 46

42 47 MAD (Mean Absolute Deviation) a pontosságot az abszolút eltérés átlagaként adja meg Az összes hiba nagyságáról ad képet y t -y t MAD = n 47

43 MSD(Mean Squared Deviation) a kiugróan nagy eltéréseket a négyzetes taggal bünteti. (y t -y t ) 2 MSD = n 48

44

45 50 Valós probléma megoldása Historikus adatok: Előrejelzési időszak: január 13-tól február 11-ig Kiértékelés valós időben Célfüggvény: RMSE, legalább 25%-os pontosság (MAPE) A megrendelő számára fontos a magyarázó változók, főbb vezérlő tényezők behatárolása is 50

46 51 51

47 52 52

48 53 Growth in Asian economies in particular, which account for 50 percent of all copper use, is another important factor. Building, for example, accounts for approximately half of all copper use, with engineering accounting for nearly 25 percent, and electrical applications accounting for approximately 17 percent. Industry body International Copper Study Group has forecast a global deficit of 200,000 tonnes this year. Next year, it expects another deficit as production grows by 3.4% while demand rises 3.6%. the world refined copper production On the demand side, the US dollar is set to get stronger always a headwind for commodity prices, Mr Morgan said while Chinese demand has been a little weak lately. Used in China as collateral for bank loans 53

49 54 Morgan Stanley expects copper prices to rise to $7,397 per ton in 2015 CLSA tips copper to reach $US3.13 per pound at the end of the year, $US3.30 at the end of 2015 and $US3.60 at the end of JPMorgan's forecast is $US3.20 for the end of 2014, $US3.22 for the end of 2015 and $US3.40 for the end of Codelco Glencore Xstrata XTA:LN -> GLEN:LN Rio Tinto RIO:LN BHP Billiton BLT:LN Vale XNYS:VALE Minmetals 230:HK Jiangxi Copper Co 358:HK Chinalco Mining Corp. International 3668:HK 54

50 55 Open positions Official interest rate China, India GDP Growth Rate China, India U.S. Dollar Index Helyettesítő termék: steel billet price Historical stock prices Bhp Billiton Ltd, Rio Tinto Ltd (RIO.AX)., Freeport-McMoRan Copper & Gold,, GLENCORE XSTRATA PLC, GRUPO MEXICO SA B SH, MINMETALS LAND, JIANGXI COPPER, AAL: ANGLO AMERICAN, SCCO: Southern Copper Corporation Com Naptár alapú változók Month Day of year Day of month Day of week Week of year 55

51 56 56

52 57 57

53 58 Error measure GBR RF ENS MDE MAPE nrmse RMSE

54 59 Important factors include Trade Weighted U.S. Dollar Index Steel billet prices tickers for major mining companies Anglo American, BHP Billiton, Southern Copper Company. Attribute Mean importance YAHOO/L_AAL.6_Adjusted_Close DTWEXM_DTWEXM OFDP/STEELBILLET_46.3_Mid YAHOO/ASX_BHP_AX.6_Adjusted_Close YAHOO/SCCO.6_Adjusted_Close Date of year Open Interest YAHOO/GLCNF.6_Adjusted_Close YAHOO/HK_0358.6_Adjusted_Close YAHOO/ASX_RIO_AX.6_Adjusted_Close YAHOO/SCCO.5_Volume YAHOO/GMBXF.6_Adjusted_Close YAHOO/L_AAL.5_Volume YAHOO/FCX.5_Volume

55 60 60

56 61 61

57 62 62

58 63 63

59 64 64

60 65 65

61

62 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 67 Clustering Creating groups Questions: Which grouping is better? Input attributes How are the groups created? Age Income House size Number of children Number of cars

63 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 68 Clustering Creating groups

64

65 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 70 Clustering Hierarchical clustering

66 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 71 Clustering Hierarchical clustering

67 Questions How to measure similarity? How to recode categorical variables? How to standardize or normalize numerical variables? How many clusters we expect to uncover?

68 Error (SSE) Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 73 Clustering Hierarchical clustering # Clusters

69 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 74 Clustering Density-based clustering

70 Selecting appropriate variables is important Select variables that are: Meaningful to the analysis Relatively independent Limited in number Numeric (for certain types of clustering algorithms) Low kurtosis and skewness Transformation of variables is important to have compatible measurement scales

71 Clustering a dataset by income and age Use Euclidean distance d(x,y) = sqrt((income 1 -income 2 )^2+(age 1 +age 2 )) Income mean: Age mean: Income will dominate the distance Standardize/normalize the dataset: Range normalization (transform values to 0-1) Z-transform income = (income-mean(income))/std(income) age= (age - mean(age))/std(age) Means will become 0 scales are compatible

72 CLUSTER PROFILING Profiling can be defined as the generation of cluster descriptions (class labels) from the input variables. At least two forms of cluster profiling exist: Comparing the clusters means (centroids) Building a decision tree model with cluster labels as target variable and using rules of tree as cluster descriptions

73 Churn dataset: Live demos: