Idősoros adatok bemutatása Dekompozíció Előrejelzés Simító eljárások Távolságmetrikák
|
|
- Rudolf Biró
- 6 évvel ezelőtt
- Látták:
Átírás
1
2 2 Idősoros adatok bemutatása Dekompozíció Előrejelzés Simító eljárások Távolságmetrikák 2
3 3 Az idősor egy l elemű számsorozat x = (x 0, x 1,, x l 1 ) Az értékek időpontokhoz vannak rendelve Időben egymás után következő megfigyelések sorozata Az idősor matematikailag nem sor, hanem sorozat A világsajtóban megjelent cikkek egy 4000-es véletlen mintáját megvizsgálva az ábrák több mint 75%-a idősorokat ábrázolt. (Tufte, 1983)
4 4 Időjárási adatok 4
5 5 Pénzügyi adatok 5
6 6 Energetika 6
7 7 Sport 7
8 8 Egészségügyi adatok 8
9 9 Egészségügyi adatok 9
10 10 Az idősorok komplex mintázatai különböző komponesek együttes hatásának eredményei Bármely idősor felbontható: trendhatásra Ciklikus hatásra Szezonalitásra Maradványra (zaj) Egymásra is hatással vannak 10
11 11 11
12 12 Hosszútávú trendmozgások (trend görbe): az idősor alakulsát leginkább meghatározó irányvonal vagy görbe Ciklikus mozgások és szórások: szintén hosszútávú ingadozások a trendvonal körül Pl. üzleti időszakok, jellemzően periodikus Szezonális mozgások és szórások Időben visszatérő, azonos hatású jelenségek, pl. Karácsony Zaj okozta szabálytalanság és véletlen mozgások Az idősor elemzés során e négy komponens együttes hatását vizsgáljuk Additív kapcsolat: TS = T + C + S + I Multiplikatív kapcsolat: TS = T C S I April 2, 2015
13 13 Felosztás Egyváltozós Többváltozós Főbb tulajdonságok Az idősorok egymás utáni értékei erősen korrelálnak (autokorreláció) Hagyományos elemzési módszerek esetén magas dimenziószám Erősen zajos A mintavételezés időköze eltérhet A sorozatok hossza eltérhet 13
14 14 14 Korrelációszámítás idősorokon A szokásos összefüggések továbbra is érvényesülnek n i n i i i n i i i xy x x y y x x y y r ) ( ) ( ) )( ( r xy = r yx, r [ 1; +1 ]
15 15 15 Egy idősor jelenlegi és későbbi értékei közötti kapcsolat mértékét fejezi ki. A k lépéses autokorreláció az idősor és a k lépéssel eltolt idősor közötti korreláció. k. rendű autokorreláció számítása autocorr k = corr x t, x t + k t re E E E E z k t t k t t k t t k z z z z z z autocorr
16 16 Egy idősor jelenlegi és későbbi értékei közötti kapcsolat mértékét fejezi ki. A k lépéses autokorreláció az idősor és a k lépéssel eltolt idősor közötti korreláció. k. rendű autokorreláció számítása autocorr i = corr x t, x t i t re 16
17 ARMA(p,q): autoregresszív és mozgóátlag modell Két komponens: AR és MA Az autoregresszív (AR) modell, az idősor jelenlegi értékét, saját előző értékeinek függvényében fejezi ki k a yk 1 a yk p AR p) a y... p ( 0 1 A mozgóátlag (MA) modell az idősor jelenlegi értékét, a jelenlegi és a múltbeli véletlen változók függvényében fejezi ki q c ek c ek 1... c ek q MA q 0 1 Variáció: ARIMA(p,q,d)
18 Az ARMA modell trendhatás nélküli idősort vár Trendhatás megállapítása a mozgóátlag módszerrel
19 19 Trend görbe számítás N-ed rangú mozgóátlag csúszóablakkal Simító hatással van az idősor egészére Kiszűri a ciklikusság, a szezonalitás és a zaj hatását Az idősor elején és végén adatvesztés Érzékeny a kiugró értékekre April 2, 2015
20 20 Mozgóátlag módszer Exponenciális simítás Idősor simítása: kiszűri a rövidtávú ingadozások hatását, eltünteti a szezonalitást Determinisztikus működés, nem veszi figyelembe az idősorral reprezentált folyamat véletlenszerűségét 20
21 21 Egyszerű átlag - gyors, olcsó, csak stacionárius esetben Mozgóátlag módszer - az utolsó n érték figyelmbevételével dolgozik, ebből számolja a következő becslést. Feltételezi a folyamat időbeli stabilitását Az ablak mérete meghatározó, befolyásolja a közeli értékek súlyozását, simítás mértékét (utolsó n érték) Moving Average = n 21
22 24 Egyszeres exponenciális simítás A közeli értékeket felülsúlyozza, idővel exponenciálisan csökkenő súlyokkal számol Trend és szezonális hatás nélküli sorokon A t = αy t-1 + (1 α) A t-1 Új érték= α (előző megfigyelés) + (1- α) előző érték Kétszeres exponenciális simítás Kezeli a trend hatást 24
23 25 Egyszeres exponenciális simítás A közeli értékeket felülsúlyozza, idővel exponenciálisan csökkenő súlyokkal számol Trend és szezonális hatás nélküli sorokon 25
24 Véletlenszerű (normális eloszlású független sorozat) Tipikus autokorreláció függvények Autokorrelált (véletlen sorozat mozgóátlaga) Periodikus (szinusz függvény, zajmentes)
25 ARMA modell alkalmazása 18.5 Stacionárius idősor acf pacf Javasolt modell : AR(2)
26 ARMA modell alkalmazása Az eredeti adatsor és az egy lépésre tett előrejelzések Idősor Előrejelzés
27 29 Miért fontos ez? time Az összehasonlíthatóság kérdése X = x 1, x 2,, x n and Y = y 1, y 2,, y n Hogyan számítsuk: Sim(X, Y) =? Hasonlóan alakul-e X és Y árfolyama? 29
28 Elvárások a távolságfüggvényekkel szemben D(A,B) = D(B,A) szimmetria D(A,A) = 0 ön-távolság D(A,B) >= 0 pozitivitás D(A,B) D(A,C) + D(B,C) háromszög egyenlőtlenség
29 Euklideszi távolság: Minden sorozat egy pont az n dimenziós térben X és Y sorozatok hasonlósága L p ( n i1 x i y i p 1/ ) p p=1 Manhattan távolság p=2 Euklidészi távolság
30 Sim(X,Y) = LCS /n Gap skipped
31 Karakterláncokon értelmezett Két karakterlánc esetén a szerkesztési műveletek számát adja meg, amely az egyik karakterláncot a másikba viszi Szerkesztési műveletek: beszúrás, törlés, helyettesítés Egyezőség helyett legfeljebb ε távolságot várunk el Dinamikus programozással kalkulálható O(mn) ed(i,j) = ed(i-1, j-1) min (ed(i-1,j) +1, ed(i, j-1) +1, ed(i-1, j-1)+1) if x i = y j if x i y j
32 i i i i i+2 time time Bármely távolságmetrika (Euklideszi, Manhattan, ) mely az egyik idősor i. elemét a másik i. elemével veti össze gyenge eredményt hoz. Egy nemlineáris, rugalmas megfeleltetés jobban közelíti a valóságot, segítségével összerendelhetők a hasonló alakzatok, akkor is ha időben eltolva jelennek meg.
33 Time Series A m 1 i s n p k A és B idősor közötti legjobb összerendelést a mátrixon keresztül vezető útvonal adja meg P = p 1,, p s,, p k j s p s p s = (i s, j s ) ahol P jelenti a legkisebb költségű útvonalat. Time Series B 1 p 1 P összerendelést hívjuk vetemítő függvénynek.
34 Time Series A 1 m i s n p k Idővel normált távolság A és B között: k d( ps ) ws s1 D(A, B ) = k ws s1 d(p s ): i s és j s távolsága w s > 0: súlytényező. j s p s Legjobb útvonal A és B között : Time Series B 1 p 1 P 0 = arg min (D(A, B )). P
35 Time Series A m 1 i s n A lehetséges vetemítő útvonalak a mátrixban az idősorok hosszával hatványozottan növekszik Keresési tér csökkentése A vetemítő fgv megkötései: monoton Time Series B j s 1 folytonos korlátozó feltételek ablakozás meredekségi kikötések
36 Egyszerű megoldás O(n 2 ) n jelöli az idősorok hosszát minden (i, j) párra el kell végezni a számítást Ablakozási megkötéssel O(nw) [Ratanamahatana, Keogh, 2004] Csak azokra az (i, j) párokra, ahol i j <= w
37 42 A távolság és sűrűség alapú klaszterezők adaptálhatóak a DTW használatával K-means K-medoids Hierarchikus klaszterezők DBSCAN 42
38 43 DTW segítségével alkalmazhatóak a távolságfüggvényes megoldások, pl. KNN A DTW-n alapuló KNN idősor osztályozó versenyképes a komplexebb megoldásokkal (Ding, 2008) Az általános KNN esetén megismert gyorsítási megoldások itt is alkalmazhatóak A reprezentatív idősorok kiválasztása azonban ekvivalens a halmaz-fedési problémával, így NP-teljes 43
39 44 Regressziós technikákkal történhet Visszavezetés a hagyományos adatbányászati problémákra (lásd esettanulmány) Fa alapú megoldások SVM Együttes osztályozók 44
40 45 Megválasztjuk az előrejelző módszert - megkötések Két részre bontjuk az adathalmazt egy tanító és egy teszt részre A választott modell paramétereit a tanító halmaz alapján választjuk meg A választott modell és annak paraméterezése alapján előrejelzéseket adunk a teszt halmaz értékeire Kiértékeljük a modell pontosságát (MAD, MPE, MSD, MAPE) Ha szükséges finomítunk a modellen és paraméterezésén 45
41 46 Tanított modell pontosságának fő mértékei: MAPE, MAD and MSD Hiba mértékek, így minimalizáljuk őket. Megteremtik a különböző megoldások összehasonlíthatóságát. MAPE (Mean Absolute Percentage Error) az átlagos eltérést százalékos alakban adja meg (y t -y t )/y t MAPE = (y t 0) n 46
42 47 MAD (Mean Absolute Deviation) a pontosságot az abszolút eltérés átlagaként adja meg Az összes hiba nagyságáról ad képet y t -y t MAD = n 47
43 MSD(Mean Squared Deviation) a kiugróan nagy eltéréseket a négyzetes taggal bünteti. (y t -y t ) 2 MSD = n 48
44
45 50 Valós probléma megoldása Historikus adatok: Előrejelzési időszak: január 13-tól február 11-ig Kiértékelés valós időben Célfüggvény: RMSE, legalább 25%-os pontosság (MAPE) A megrendelő számára fontos a magyarázó változók, főbb vezérlő tényezők behatárolása is 50
46 51 51
47 52 52
48 53 Growth in Asian economies in particular, which account for 50 percent of all copper use, is another important factor. Building, for example, accounts for approximately half of all copper use, with engineering accounting for nearly 25 percent, and electrical applications accounting for approximately 17 percent. Industry body International Copper Study Group has forecast a global deficit of 200,000 tonnes this year. Next year, it expects another deficit as production grows by 3.4% while demand rises 3.6%. the world refined copper production On the demand side, the US dollar is set to get stronger always a headwind for commodity prices, Mr Morgan said while Chinese demand has been a little weak lately. Used in China as collateral for bank loans 53
49 54 Morgan Stanley expects copper prices to rise to $7,397 per ton in 2015 CLSA tips copper to reach $US3.13 per pound at the end of the year, $US3.30 at the end of 2015 and $US3.60 at the end of JPMorgan's forecast is $US3.20 for the end of 2014, $US3.22 for the end of 2015 and $US3.40 for the end of Codelco Glencore Xstrata XTA:LN -> GLEN:LN Rio Tinto RIO:LN BHP Billiton BLT:LN Vale XNYS:VALE Minmetals 230:HK Jiangxi Copper Co 358:HK Chinalco Mining Corp. International 3668:HK 54
50 55 Open positions Official interest rate China, India GDP Growth Rate China, India U.S. Dollar Index Helyettesítő termék: steel billet price Historical stock prices Bhp Billiton Ltd, Rio Tinto Ltd (RIO.AX)., Freeport-McMoRan Copper & Gold,, GLENCORE XSTRATA PLC, GRUPO MEXICO SA B SH, MINMETALS LAND, JIANGXI COPPER, AAL: ANGLO AMERICAN, SCCO: Southern Copper Corporation Com Naptár alapú változók Month Day of year Day of month Day of week Week of year 55
51 56 56
52 57 57
53 58 Error measure GBR RF ENS MDE MAPE nrmse RMSE
54 59 Important factors include Trade Weighted U.S. Dollar Index Steel billet prices tickers for major mining companies Anglo American, BHP Billiton, Southern Copper Company. Attribute Mean importance YAHOO/L_AAL.6_Adjusted_Close DTWEXM_DTWEXM OFDP/STEELBILLET_46.3_Mid YAHOO/ASX_BHP_AX.6_Adjusted_Close YAHOO/SCCO.6_Adjusted_Close Date of year Open Interest YAHOO/GLCNF.6_Adjusted_Close YAHOO/HK_0358.6_Adjusted_Close YAHOO/ASX_RIO_AX.6_Adjusted_Close YAHOO/SCCO.5_Volume YAHOO/GMBXF.6_Adjusted_Close YAHOO/L_AAL.5_Volume YAHOO/FCX.5_Volume
55 60 60
56 61 61
57 62 62
58 63 63
59 64 64
60 65 65
61
62 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 67 Clustering Creating groups Questions: Which grouping is better? Input attributes How are the groups created? Age Income House size Number of children Number of cars
63 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 68 Clustering Creating groups
64
65 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 70 Clustering Hierarchical clustering
66 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 71 Clustering Hierarchical clustering
67 Questions How to measure similarity? How to recode categorical variables? How to standardize or normalize numerical variables? How many clusters we expect to uncover?
68 Error (SSE) Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 73 Clustering Hierarchical clustering # Clusters
69 Task: We have a training dataset where we know the attributes We need to separate the cases into groups so that similar cases go to the same group. different cases go to different groups 74 Clustering Density-based clustering
70 Selecting appropriate variables is important Select variables that are: Meaningful to the analysis Relatively independent Limited in number Numeric (for certain types of clustering algorithms) Low kurtosis and skewness Transformation of variables is important to have compatible measurement scales
71 Clustering a dataset by income and age Use Euclidean distance d(x,y) = sqrt((income 1 -income 2 )^2+(age 1 +age 2 )) Income mean: Age mean: Income will dominate the distance Standardize/normalize the dataset: Range normalization (transform values to 0-1) Z-transform income = (income-mean(income))/std(income) age= (age - mean(age))/std(age) Means will become 0 scales are compatible
72 CLUSTER PROFILING Profiling can be defined as the generation of cluster descriptions (class labels) from the input variables. At least two forms of cluster profiling exist: Comparing the clusters means (centroids) Building a decision tree model with cluster labels as target variable and using rules of tree as cluster descriptions
73 Churn dataset: Live demos:
Klaszterezés, 2. rész
Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket
Correlation & Linear Regression in SPSS
Petra Petrovics Correlation & Linear Regression in SPSS 4 th seminar Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Correlation
STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés
Mit nevezünk idősornak? STATISZTIKA 10. Előadás Idősorok analízise Egyenlő időközökben végzett megfigyelések A sorrend kötött, y 1, y 2 y t y N N= időpontok száma Minden időponthoz egy adat, reprodukálhatatlanság
Bevezetés a Korreláció &
Bevezetés a Korreláció & Regressziószámításba Petrovics Petra Doktorandusz Statisztikai kapcsolatok Asszociáció 2 minőségi/területi ismérv között Vegyes kapcsolat minőségi/területi és egy mennyiségi ismérv
Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta
Autoregresszív és mozgóátlag folyamatok Géczi-Papp Renáta Autoregresszív folyamat Az Y t diszkrét paraméterű sztochasztikus folyamatok k-ad rendű autoregresszív folyamatnak nevezzük, ha Y t = α 1 Y t 1
Autoregresszív és mozgóátlag folyamatok
Géczi-Papp Renáta Autoregresszív és mozgóátlag folyamatok Autoregresszív folyamat Az Y t diszkrét paraméterű sztochasztikus folyamatok k-ad rendű autoregresszív folyamatnak nevezzük, ha Y t = α 1 Y t 1
Idősorok elemzése. Salánki Ágnes
Idősorok elemzése Salánki Ágnes salanki.agnes@gmail.com 2012.04.13. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék 1 Idősorok analízise Alapfogalmak Komponenselemzés
Cluster Analysis. Potyó László
Cluster Analysis Potyó László What is Cluster Analysis? Cluster: a collection of data objects Similar to one another within the same cluster Dissimilar to the objects in other clusters Cluster analysis
Diagnosztika és előrejelzés
2018. november 28. A diagnosztika feladata A modelldiagnosztika alapfeladatai: A modellillesztés jóságának vizsgálata (idősoros adatok esetén, a regressziónál már tanultuk), a reziduumok fehérzaj voltának
Correlation & Linear Regression in SPSS
Correlation & Linear Regression in SPSS Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Exercise 1 - Correlation File / Open
Regresszió számítás az SPSSben
Regresszió számítás az SPSSben Kvantitatív statisztikai módszerek Petrovics Petra Lineáris regressziós modell X és Y közötti kapcsolatot ábrázoló egyenes. Az Y függ: x 1, x 2,, x p p db magyarázó változótól
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.
Correlation & Linear Regression in SPSS Petra Petrovics PhD Student Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Exercise
Idősorok elemzése előadás. Előadó: Dr. Balogh Péter
Idősorok elemzése előadás Előadó: Dr. Balogh Péter Idősorok elemzése A társadalmi - gazdasági jelenségek időbeli alakulásának törvénszerűségeit kell vizsgálni a változás, a fejlődés tendenciáját. Az idősorokban
Termelés- és szolgáltatásmenedzsment
Termelés- és szolgáltatásmenedzsment egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék Termelés- és szolgáltatásmenedzsment 13. Előrejelzési módszerek 14. Az előrejelzési modellek felépítése
Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.
Termelés- és szolgáltatásmenedzsment egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék Termelés- és szolgáltatásmenedzsment 13. Ismertesse a legfontosabb előrejelzési módszereket és azok gyakorlati
Csima Judit április 9.
Osztályozókról még pár dolog Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. április 9. Csima Judit Osztályozókról még pár dolog 1 / 19 SVM (support vector machine) ez is egy
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests
Nonparametric Tests Petra Petrovics Hypothesis Testing Parametric Tests Mean of a population Population proportion Population Standard Deviation Nonparametric Tests Test for Independence Analysis of Variance
2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!
GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.
Hypothesis Testing Petra Petrovics PhD Student Inference from the Sample to the Population Estimation Hypothesis Testing Estimation: how can we determine the value of an unknown parameter of a population
Alapfogalmak. Trendelemzés Szezonalitás Modellek. Matematikai statisztika Gazdaságinformatikus MSc október 29. 1/49
Matematikai statisztika Gazdaságinformatikus MSc 8. előadás 2018. október 29. 1/49 alapfogalmak Elméleti idősor - valószínűségi változók egy indexelt {X t, t T } családja, avagy időtől függő véletlen mennyiség.
Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH
Idősorok Idősor Statisztikai szempontból: az egyes időpontokhoz rendelt valószínűségi változók összessége. Speciális sztochasztikus kapcsolat; a magyarázóváltozó az idő Determinisztikus idősorelemzés esetén
IBM SPSS Modeler 18.2 Újdonságok
IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern
Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka
Geokémia gyakorlat 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek Geológus szakirány (BSc) Dr. Lukács Réka MTA-ELTE Vulkanológiai Kutatócsoport e-mail: reka.harangi@gmail.com ALAPFOGALMAK:
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.
Nonparametric Tests Petra Petrovics PhD Student Hypothesis Testing Parametric Tests Mean o a population Population proportion Population Standard Deviation Nonparametric Tests Test or Independence Analysis
Statistical Dependence
Statistical Dependence Petra Petrovics Statistical Dependence Deinition: Statistical dependence exists when the value o some variable is dependent upon or aected by the value o some other variable. Independent
A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon
A rosszindulatú daganatos halálozás változása és között Eredeti közlemény Gaudi István 1,2, Kásler Miklós 2 1 MTA Számítástechnikai és Automatizálási Kutató Intézete, Budapest 2 Országos Onkológiai Intézet,
Statistical Inference
Petra Petrovics Statistical Inference 1 st lecture Descriptive Statistics Inferential - it is concerned only with collecting and describing data Population - it is used when tentative conclusions about
Építőipar, 2007. augusztus
Közzététel: 2007. 18. Következik: 2007. 25. Foglalkoztatottság és munkanélküliség Sorszám:176. Építőipar, 2007. augusztus Az építőipari termelés 2007 augusztusában kiigazítatlan adatok alapján 15,3, munkanaptényezővel
Esetelemzések az SPSS használatával
Esetelemzések az SPSS használatával Az idegenforgalmi statisztikai adatok közül vizsgáljuk meg, hogy a Magyarországra utazó külföldiek száma hogyan alakult 1998 2001 között havi bontásban. Az adatok a
Adatbányászati szemelvények MapReduce környezetben
Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt
Minden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41
Minden az adatról Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Minden az adatról 1 / 41 Adat: alapfogalmak Adathalmaz elvileg bármi, ami információt
Adatmanipuláció, transzformáció, szelekció SPSS-ben
Adatmanipuláció, transzformáció, szelekció SPSS-ben Statisztikai szoftver alkalmazás Géczi-Papp Renáta Számított változó A már meglévő adatokból (változókból) további adatokat származtathatunk. munkavállalók.sav
Exponenciális kisimítás. Üzleti tervezés statisztikai alapjai
Exponenciális kisimítás Üzleti tervezés statisztikai alapjai Múlt-Jelen-Jövő kapcsolat Egyensúlyi helyzet Teljes konfliktus Részleges konfliktus: 0 < α < 1, folytatódik a múlt, de nem változatlanul módosítás:
Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás
Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás A feladatok megoldásához használandó adatállományok: potzh és potolando (weboldalon találhatók) Az állományok kiterjesztése sas7bdat,
Szomszédság alapú ajánló rendszerek
Nagyméretű adathalmazok kezelése Szomszédság alapú ajánló rendszerek Készítette: Szabó Máté A rendelkezésre álló adatmennyiség növelésével egyre nehezebb kiválogatni a hasznos információkat Megoldás: ajánló
Statisztika I. 13. előadás Idősorok elemzése. Előadó: Dr. Ertsey Imre
Statisztika I. 13. előadás Idősorok elemzése Előadó: Dr. Ertse Imre A társadalmi - gazdasági jelenségek időbeli alakulásának törvénszerűségeit kell vizsgálni a változás, a fejlődés tendenciáját. Ezek a
Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák
Statisztikai hipotézisvizsgálatok Paraméteres statisztikai próbák 1. Magyarországon a lakosság élelmiszerre fordított kiadásainak 2000-ben átlagosan 140 ezer Ft/fő volt. Egy kérdőíves felmérés során Veszprém
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
SOFI State of the Future Index
SOFI State of the Future Index http://www.millenniumproject.org/millennium/sofi.html BARTHA ZOLTÁN, SZITA KLÁRA MTA IX.O. SJTB JTAB ÜLÉS 2015.02.13. Főbb kérdések Mit takar a SOFI Módszertan Eredmények
Descriptive Statistics
Descriptive Statistics Petra Petrovics DESCRIPTIVE STATISTICS Definition: Descriptive statistics is concerned only with collecting and describing data Methods: - statistical tables and graphs - descriptive
Szezonális kiigazítás az NFSZ regisztrált álláskeresők idősorain. Készítette: Multiráció Kft.
az NFSZ regisztrált álláskeresők idősorain Készítette: Multiráció Kft. SZEZONÁLITÁS Többé kevésbe szabályos hullámzás figyelhető meg a regisztrált álláskeresők adatsoraiban. Oka: az időjárás hatásainak
Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2
Kabos: Ordinális változók Hipotézisvizsgálat-1 Minta: X 1, X 2,..., X N EVM (=egyszerű véletlen minta) X-re Feltesszük, hogy a mintaelemek között nincs két azonos. Rendezett minta: X (1), X (2),..., X
7-8-9. előadás Idősorok elemzése
Idősorok elemzése 7-8-9. előadás 2015. október 19-26. és november 2. Idősor fogalma sokasági szemlélet: elméleti idősor - valószínűségi változók egy indexelt {Y t, t T } családja, avagy időtől függő véletlen
Választási modellek 3
Választási modellek 3 Prileszky István Doktori Iskola 2018 http://www.sze.hu/~prile Forrás: A Self Instructing Course in Mode Choice Modeling: Multinomial and Nested Logit Models Prepared For U.S. Department
Többváltozós lineáris regressziós modell feltételeinek tesztelése I.
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós
Regressziós vizsgálatok
Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga
Adaptív dinamikus szegmentálás idősorok indexeléséhez
Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november
Nagyméretű Adathalmazok Kezelése
Nagyméretű Adathalmazok Kezelése Idősorok Elemzése Márta Zsolt BME-SZIT (Hallgató) 2011.04.01 Márta Zsolt (BME-SZIT (Hallgató)) Idősorok Elemzése 2011.04.01 1 / 34 Tartalom 1 Bevezetés 2 Hasonlósági mértékek
SQL/PSM kurzorok rész
SQL/PSM kurzorok --- 2.rész Tankönyv: Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009 9.3. Az SQL és a befogadó nyelv közötti felület (sormutatók) 9.4. SQL/PSM Sémában
Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 11. Előadás Portfólió probléma Portfólió probléma Portfólió probléma Adott részvények (kötvények,tevékenységek,
Searching in an Unsorted Database
Searching in an Unsorted Database "Man - a being in search of meaning." Plato History of data base searching v1 2018.04.20. 2 History of data base searching v2 2018.04.20. 3 History of data base searching
A Lee-Carter módszer magyarországi
A Lee-Carter módszer magyarországi alkalmazása Baran Sándor, Gáll József, Ispány Márton, Pap Gyula Alkalmazott Matematika és Valószínűségszámítás Tanszék, Debreceni Egyetem, Informatikai Kar 1 Feladatok:
16F628A megszakítás kezelése
16F628A megszakítás kezelése A 'megszakítás' azt jelenti, hogy a program normális, szekvenciális futása valamilyen külső hatás miatt átmenetileg felfüggesztődik, és a vezérlést egy külön rutin, a megszakításkezelő
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis
Factor Analysis Factor analysis is a multiple statistical method, which analyzes the correlation relation between data, and it is for data reduction, dimension reduction and to explore the structure. Aim
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok 9. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046
Idősoros elemzés minta
Idősoros elemzés minta Ferenci Tamás, tamas.ferenci@medstat.hu A felhasznált adatbázisról Elemzésemhez a francia frank árfolyamának 1986.01.03. és 1993.12.31. közötti értékeit használtam fel, mely idősorban
Vizsgafeladatok. 1. feladat (3+8+6=17 pont) (2014. január 7.)
Vizsgafeladatok 1. feladat (3+8+6=17 pont) (2014. január 7.) Az elmúlt négy év a 2010. I. és a 2013. IV. negyedéve között csapadék mennyiségének alakulásáról az alábbiakat ismerjük: Időszak Csapadék mennyiéség
Idősoros elemzés. Ferenci Tamás, ft604@hszk.bme.hu 2009. január 7.
Idősoros elemzés Ferenci Tamás, ft604@hszk.bme.hu 2009. január 7. A felhasznált adatbázisról Elemzésemhez a tanszéki honlapon rendelkezésre bocsátott TimeSeries.xls idősoros adatgyűjtemény egyik idősorát,
Statisztikai következtetések Nemlineáris regresszió Feladatok Vége
[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell
Construction of a cube given with its centre and a sideline
Transformation of a plane of projection Construction of a cube given with its centre and a sideline Exercise. Given the center O and a sideline e of a cube, where e is a vertical line. Construct the projections
Mérési adatok illesztése, korreláció, regresszió
Mérési adatok illesztése, korreláció, regresszió Korreláció, regresszió Két változó mennyiség közötti kapcsolatot vizsgálunk. Kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában,
Mérési hibák 2006.10.04. 1
Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség
Decemberben 2,2%-kal csökkent az építőipari termelés volumene
Közzététel: 2015. február 12. Következik: 2015. február 13. Bruttó hazai termék (GDP) Sorszám: 24. Decemberben 2,2%-kal csökkent az építőipari termelés volumene Építőipar, 2014. január december 2014. decemberben
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
Statisztika II előadáslapok. 2003/4. tanév, II. félév
Statisztika II előadáslapok 3/4 tanév, II félév BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Egyik konzervgyár vágott zöldbabot exportál A szabvány szerint az üvegek nettó töltősúlyának az átlaga 3 g, a szórása 5 g Az
Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet
Elemszám becslés Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet Miért fontos? Gazdasági okok: Túl kevés elem esetén nem tudjuk kimutatni a kívánt hatást Túl kevés elem esetén olyan eredmény
Többváltozós lineáris regressziós modell feltételeinek
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p
Sebastián Sáez Senior Trade Economist INTERNATIONAL TRADE DEPARTMENT WORLD BANK
Sebastián Sáez Senior Trade Economist INTERNATIONAL TRADE DEPARTMENT WORLD BANK Despite enormous challenges many developing countries are service exporters Besides traditional activities such as tourism;
Create & validate a signature
IOTA TUTORIAL 7 Create & validate a signature v.0.0 KNBJDBIRYCUGVWMSKPVA9KOOGKKIRCBYHLMUTLGGAV9LIIPZSBGIENVBQ9NBQWXOXQSJRIRBHYJ9LCTJLISGGBRFRTTWD ABBYUVKPYFDJWTFLICYQQWQVDPCAKNVMSQERSYDPSSXPCZLVKWYKYZMREAEYZOSPWEJLHHFPYGSNSUYRZXANDNQTTLLZA
Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió
SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás
3. Nemzetközi talajinformációs rendszerek
Magyar Tudományos Akadémia Agrártudományi Kutatóközpont Talajtani és Agrokémiai Intézet Környezetinformatikai Osztály Pásztor László: Térbeli Talajinformációs Rendszerek/ Bevezetés a digitális talajtérképezésbe
Ökonometria gyakorló feladatok - idősorok elemzése
Ökonometria gyakorló feladatok - idősorok elemzése 2019. május 7. 1. Egy gazdálkodó szervezetben az átlagos készletérték alakulása negyedéves periódusokban mérve a következő: évek negyedévek 1 2 3 4 2007
Széchenyi István Egyetem www.sze.hu/~herno
Oldal: 1/6 A feladat során megismerkedünk a C# és a LabVIEW összekapcsolásának egy lehetőségével, pontosabban nagyon egyszerű C#- ban írt kódból fordítunk DLL-t, amit meghívunk LabVIEW-ból. Az eljárás
36% more maize was produced (Preliminary production data of main crops, 2014)
Release date: 22 January 2015 Next release: 26 January 2015. Vital events, January November 2014 Number 13 36% more maize was produced (Preliminary data of main crops, 2014) In 2014 the of all major crops
Mapping Sequencing Reads to a Reference Genome
Mapping Sequencing Reads to a Reference Genome High Throughput Sequencing RN Example applications: Sequencing a genome (DN) Sequencing a transcriptome and gene expression studies (RN) ChIP (chromatin immunoprecipitation)
Építőipar, 2009. szeptember
Közzététel: 2009. 17. Sorszám: 182. Következik: 2009. 17. Létszám és kereset a nemzetgazdaságban Tájékoztatjuk Felhasználóinkat, hogy a 2009. évi adatok publikálása az európai uniós szabályozásoknak megfelelően
Az OECD PISA adatbázis elemzése
Az OECD PISA adatbázis elemzése A program Emlékeztető a múlt hétről A PISA val kapcsolatos honlapok tartalma és az online elérhető dokumentáció A PISA adatbázisának felépítése A PISA makróinak használata,
Irodavilágítás színes képek vizsgálatához, CIE TC 8-10 felmérése. Schanda János
Irodavilágítás színes képek vizsgálatához, CIE TC 8-10 felmérése Schanda János Áttekintés Színes képek vizsgálata A CIE TC 8-10 célkitűzései A felmérés előkészületei Előkísérletek Az előkísérletek tanulságai
Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))
Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok
Eredmények kiértékelése
Eredmények kiértékelése Nagyméretű adathalmazok kezelése (2010/2011/2) Katus Kristóf, hallgató Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti Tanszék 2011. március
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Építőipar, 2009. október
Közzététel: 2009. 17. Sorszám: 203. Következik: 2009. 18. A KSH jelenti Tájékoztatjuk Felhasználóinkat, hogy a 2009. évi adatok publikálása az európai uniós szabályozásoknak megfelelően a TEÁOR'08 nómenklatúra
Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN
TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN Mályusz Levente ELŐZMÉNYEK 1 A tanulási görbét először egy 19 századi pszichológus Hermann Ebbinghaus írta le. Azt vizsgálta, hogy milyen gyorsan memorizál valaki különböző
INFO-CAPITALISM IN CENTRAL EUROPE: THE VISEGRAD STRATEGY. By Pál TAMÁS [Institute of Sociology, HAS, Budapest]
INFO-CAPITALISM IN CENTRAL EUROPE: THE VISEGRAD STRATEGY By Pál TAMÁS [Institute of Sociology, HAS, Budapest] A typology of FUAs, based on 5 functions: - population - transport - manufacturing GVA - no
: az i -ik esélyhányados, i = 2, 3,..I
Kabos: Adatelemzés Ordinális logisztikus regresszió-1 Többtényezős regresszió (az adatelemzésben): Y közelítése b 1 X 1 + b 2 X 2 +... + b J X J alakban, y n = b 1 x n,1 + b 2 x n,2 +... + b J x n,j +
Supporting Information
Supporting Information Cell-free GFP simulations Cell-free simulations of degfp production were consistent with experimental measurements (Fig. S1). Dual emmission GFP was produced under a P70a promoter
Statisztika elméleti összefoglaló
1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11
Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
Tavaszi Sporttábor / Spring Sports Camp. 2016. május 27 29. (péntek vasárnap) 27 29 May 2016 (Friday Sunday)
Tavaszi Sporttábor / Spring Sports Camp 2016. május 27 29. (péntek vasárnap) 27 29 May 2016 (Friday Sunday) SZÁLLÁS / ACCOMODDATION on a Hotel Gellért*** szálloda 2 ágyas szobáiban, vagy 2x2 ágyas hostel
TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN
TANULÁSI GÖRBÉK AZ ÉPÍTŐIPARBAN Mályusz Levente ELŐZMÉNYEK 1 Tanulási görbe T.P. Wright 1936; Repülőgép alkatrészeket gyártó vállalatnál végezte kísérleteit Alapelv: Az ismétlődő munkát végző ember a betanulás
Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel
Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel Timea Farkas Click here if your download doesn"t start
Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37
Klaszterezés Kovács Máté BME 2012. március 22. Kovács Máté (BME) Klaszterezés 2012. március 22. 1 / 37 Mi a klaszterezés? Intuitív meghatározás Adott dolgokból halmazokat klasztereket alakítunk ki úgy,
Eladni könnyedén? Oracle Sales Cloud. Horváth Tünde Principal Sales Consultant 2014. március 23.
Eladni könnyedén? Oracle Sales Cloud Horváth Tünde Principal Sales Consultant 2014. március 23. Oracle Confidential Internal/Restricted/Highly Restricted Safe Harbor Statement The following is intended
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression
Correlation & Regression Types of dependence association between nominal data mixed between a nominal and a ratio data correlation among ratio data Correlation describes the strength of a relationship,
Korreláció és lineáris regresszió
Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.
STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika
Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,
Matematikai statisztika. elıadás, 9.5.. Továbblépés Ha nem fogadható el a reziduálisok korrelálatlansága: Lehetnek fel nem tárt periódusok De más kapcsolat is fennmaradhat az egymáshoz közeli megfigyelések
EXKLUZÍV AJÁNDÉKANYAGOD A Phrasal Verb hadsereg! 2. rész
A Phrasal Verb hadsereg! 2. rész FONTOS! Ha ennek az ajándékanyag sorozatnak nem láttad az 1. részét, akkor mindenképpen azzal kezdd! Fekete Gábor www.goangol.hu A sorozat 1. részét itt éred el: www.goangol.hu/ajandekok/phrasalverbs
Varianciaanalízis 4/24/12
1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása