Kabos Sándor. Térben autokorrelált adatrendszerek

Hasonló dokumentumok
Idősoros elemzés minta

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Idősoros elemzés. Ferenci Tamás, január 7.

1., Egy területen véletlenszerűen kihelyezet kvadrátokban megszámlálták az Eringium maritimum (tengerparti ördögszekér) egyedeit.

Statisztikai becslés

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Statistical Inference

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

: az i -ik esélyhányados, i = 2, 3,..I

Correlation & Linear Regression in SPSS

Az R statisztikai programozási környezet: az adatgyűjtéstől a feldolgozáson és vizualizáción át a dinamikus jelentéskészítésig

Többváltozós lineáris regressziós modell feltételeinek

KISTERV2_ANOVA_

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

BIOMETRIA_ANOVA_2 1 1

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Cluster Analysis. Potyó László

Logisztikus regresszió október 27.

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

Correlation & Linear Regression in SPSS

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Bevezetés a Korreláció &

Hipotézis vizsgálatok

A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában

Statistical Dependence

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Sztochasztikus kapcsolatok

Bevezetés a hipotézisvizsgálatokba

Számítógéppel irányított rendszerek elmélete. A rendszer- és irányításelmélet legfontosabb részterületei. Hangos Katalin. Budapest

Több laboratórium összehasonlítása, körmérés

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Korreláció és lineáris regresszió

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Minőség-képességi index (Process capability)

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Diagnosztika és előrejelzés

Csima Judit április 9.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

6. Előadás. Vereb György, DE OEC BSI, október 12.

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

IBM SPSS Modeler 18.2 Újdonságok

Bevezetés az ökonometriába

Diszkriminancia-analízis

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Kísérlettervezés alapfogalmak

Descriptive Statistics

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

A Statisztika alapjai

Adatok statisztikai értékelésének főbb lehetőségei

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Ökonometria gyakorló feladatok - idősorok elemzése

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Biostatisztika VIII. Mátyus László. 19 October

Több valószínűségi változó együttes eloszlása, korreláció

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Autoregresszív és mozgóátlag folyamatok

Klaszterezés, 2. rész

Statisztika II. feladatok

KÖZELÍTŐ INFERENCIA II.

Normális eloszlás tesztje

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

STATISZTIKA PRÓBAZH 2005

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

[Biomatematika 2] Orvosi biometria

Esetelemzések az SPSS használatával

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Regresszió számítás az SPSSben

Statisztika. Politológus képzés. Daróczi Gergely május 4. Politológia Tanszék

Mérnökgeodéziai hálózatok feldolgozása

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Többváltozós Regresszió-számítás

ISMÉTELT MÉRÉSES MODELLEK R-KÖRNYEZETBEN

Kísérlettervezés alapfogalmak

KÖZELÍTŐ INFERENCIA II.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Logisztikus regresszió

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Választási modellek 3

Faktoranalízis az SPSS-ben

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Lineáris regresszió vizsgálata resampling eljárással

THS710A, THS720A, THS730A & THS720P TekScope Reference

Átírás:

Kabos Sándor Térben autokorrelált adatrendszerek elemzése

Összefoglalás az előadás példákon szemlélteti a térben autokorrelált adatok blokkosításának és összefüggésvizsgálatának jellemző tulajdonságait. Fő üzenet néhány statisztikai eljárás a független mintán megszokotthoz képest másképp viselkedik, amikor megjelenik a mintán belüli autokorreláció.

256x256 binary image, p=0.3 white noise a realization of a field with zero autocorrelation 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 rel.frequency of white = 0.3

A képen 256x256=65 536 pixel van, 30% -uk fehér (=világoskék) és 70% -uk fekete (=sötétkék) és teljesen véletlenszerűen helyezkednek el. Ez a kép annak a valószínűségi mezőnek egy realizációja, ahol a pixelek random módon p=0.3 vséggel fehérek és 1-p=0.7 vséggel feketék, és ezt egymástól függetlenül teszik (nem pontosan az, de majdnem).

256x256 binary image a realization of a field with high autocorrelation 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 rel.frequency of white = 0.3

Ez a kép nem fehérzaj, hanem a CAR mező(lásd később) reguláris grid 4-es szomszédsági topológia ρ = 0.2499 és p = 0.3 paramétereivel készült szimuláció. Ilyen adatrendszerek készítésére alkalmas a RandomFields R-csomagban található GaussRF() fügvény.

A képen 256x256=65 536 darab pixel van, 30% -uk fehér (=világoskék). A fehér pixelek véletlenszerűen, ámde erős pozitív (ρ = 0.2499) autokorreláció mellett választották a helyüket.

Valódi szimuláció során sohasem egyetlen realizáció alapján következtetünk. Most mégis ezt tesszük, ezért az előadó becsületszavát adja, hogy ő sok ezer realizációt megnézett, és azokból is hasonló következtetésekre jutott. Ezt röviden így mondjuk: az ábrák az előadás következtetései szempontjából tipikus realizációkat mutatnak.

Binary image with grid of 32x32 pixels 32x32 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 rel.frequency of white = 0.3 rel.frequency of white = 0.141

32x32 pixel méretű blokkokat képeztünk, ahogyan az ábra bal oldalán a sárga vonalak mutatják. A 256x256-os képen 8x8 darab blokk van. A jobb oldalon pontosan azok a blokkok fehérek, ahol a pixel többség fehér (ha éppen 50% fehér, akkor ez a blokk 50% eséllyel lett fehér).

Világos, hogy a blokkosítás szabálya olyan, hogy a fehérek tipikusan területet veszítenek. A most bemutatott szimulációk (illetve ezek több ezer ismétlésben való elvégzése) alapján tudunk arra következtetni, hogy a területveszteséget milyen módon befolyásolja a blokkméret és az autokorreláció.

Binary image with grid of 16x16 pixels 16x16 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 16 14 12 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 12 14 16 rel.frequency of white = 0.3 rel.frequency of white = 0.188

Binary image with grid of 8x8 pixels 8x8 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 32 29 26 23 20 17 14 11 9 7 5 3 1 1 3 5 7 9 11 14 17 20 23 26 29 32 rel.frequency of white = 0.3 rel.frequency of white = 0.225

Binary image with grid of 4x4 pixels 4x4 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 64 59 54 49 44 39 34 29 24 19 14 9 5 1 1 5 9 13 18 23 28 33 38 43 48 53 58 63 rel.frequency of white = 0.3 rel.frequency of white = 0.251

Binary image with grid of 2x2 pixels 2x2 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 128 116 104 94 85 76 67 58 49 40 31 22 13 5 1 8 16 25 34 43 52 61 70 79 88 97 107 119 rel.frequency of white = 0.3 rel.frequency of white = 0.283

A következő képen 256x256=65 536 darab pixel van, 30% -uk fehér. A fehér pixelek véletlenszerűen, ámde az előzőnél gyengébb pozitív (ρ = 0.23) autokorreláció mellett választották a helyüket.

256x256 binary image a realization of a field with slight autocorrelation 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 rel.frequency of white = 0.3

Binary image with grid of 32x32 pixels 32x32 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 8 7 6 5 4 3 2 1 1

Binary image with grid of 32x32 pixels 32x32 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 rel.frequency of white = 0.3 rel.frequency of white = 0

A blokkokat ugyanúgy képeztük, mint az előbb. Mint látjuk, a 32x32-es blokkok között egy sem akadt, ahol a fehérek többségbe kerültek volna. Hogyan változik a fehérek blokkosítás során elszenvedett területvesztesége a blokkméret és az autokorreláció függvényében? Az autokorrelálatlan esetre az előadó nem hozott szimulációt. Miért?

Binary image with grid of 16x16 pixels 16x16 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 16 14 12 10 9 8 7 6 5 4 3 2 1 1 2 3

Binary image with grid of 16x16 pixels 16x16 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 16 14 12 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 12 14 16 rel.frequency of white = 0.3 rel.frequency of white = 0.004

Binary image with grid of 8x8 pixels 8x8 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 32 29 26 23 20 17 14 11 9 7 5 3 1 1 3 5 7 9 11 14 17 20 23 26 29 32 rel.frequency of white = 0.3 rel.frequency of white = 0.05

Binary image with grid of 4x4 pixels 4x4 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 64 59 54 49 44 39 34 29 24 19 14 9 5 1 1 5 9 13 18 23 28 33 38 43 48 53 58 63 rel.frequency of white = 0.3 rel.frequency of white = 0.164

Binary image with grid of 2x2 pixels 2x2 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 128 116 104 94 85 76 67 58 49 40 31 22 13 5 1 8 16 25 34 43 52 61 70 79 88 97 107 119 rel.frequency of white = 0.3 rel.frequency of white = 0.258

A következő két kép CAR reguláris grid 4-es szomszédsági topológia ρ = 0.24 paraméterével készített két, egymástól független realizáció.ez azt jelenti, hogy két pixel értéke pozitívan korrelált, ha ugyanazon a képen vannak és egymáshoz elég közeliek (lásd később). Ha két pixel különböző képen van, nincs az értékeik között semmilyen sztochasztikus kapcsolat.

two independently simulated data sets X and Y data set X with high positive autocorrelation data set Y with high positive autocorrelation 32 24 16 8 1 32 24 16 8 1 1 8 16 24 32 1 8 16 24 32 pixelwise cross correlation(x,y)= 0.07182 p value= 0.022

Fontos kellően elcsodálkozni azon, hogy miközben X és Y egymástól függetlenek, a korrelációjuk mégis szignifikáns. Emlékezzünk az előadó becsületszavára a tipikus realizációkról: nem az van, hogy kihalászott egy esetet az ezerből, ahol éppen szignifikáns a korreláció, hanem a szimuláció során többnyire szignifikáns korreláció jön ki.

rook neighbourhood CAR residuals of two independently simulated data sets X and Y CAR residuals of data set X CAR residuals of data set Y 32 24 16 8 1 32 24 16 8 1 1 8 16 24 32 1 8 16 24 32 pixelwise cross correlation(x,y)= 0.02274 p value= 0.467

Itt a megfejtés: ha elvégezzük az izotróp CAR reguláris grid 4-es szomszédsági topológia (a cellánkénti a várható érték = 0) modell illesztését, akkor az előző X és Y reziduumok közötti korreláció szignifikanciája eltűnik. Ilyen modell illesztésére alkalmas az spdep R-csomagban található spautolm() fügvény.

Tekintsünk el egy pillanatra a pixelek térbeli elhelyezkedésétől. Ekkor úgy áll előttünk a 32 32 -méretű kép, mint egy 1024 -elemű minta. Vizsgáljuk meg ezt az eloszlást szokott statisztikai eljárásainkkal.

Histogram of.x.x Frequency 3 2 1 0 1 2 3 0 50 150 Histogram of.y.y Frequency 3 2 1 0 1 2 3 0 50 150 3 2 1 0 1 2 3 3 1 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles 3 2 1 0 1 2 3 3 1 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles

Histogram of.x.residual.x.residual Frequency 3 2 1 0 1 2 3 0 50 150 250 Histogram of.y.residual.y.residual Frequency 3 2 1 0 1 2 3 0 50 150 3 2 1 0 1 2 3 2 0 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles 3 2 1 0 1 2 3 2 0 1 2 Normal Q Q Plot Theoretical Quantiles Sample Quantiles

Az ábrák alapján hajlamosak vagyunk azt mondani, hogy ezek az eloszlások sem egymástól, sem a st.normális eloszlásból vett mintától nem különböznek lényegesen.

Nézzük meg, elfogadja-e a t-próba, hogy az X egy 0 várhatóértékű normális eloszlásból vett i.i.d. minta. Ne feledjük, hogy ez a próba mit sem tud a pixelek szomszédsági viszonyairól.

Call: lm(formula = X ~ 1) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.09168 0.03036-3.02 0.00259 ** Residual standard error: 0.9714 on 1023 degrees of freedom

Ez a t-próba úgy látja, hogy az 1024-elemű X minta alapján el kell utasítani azt a hipotézist, hogy az alapsokaság várhatóértéke = 0.

Most egy olyan t-próbát végzünk, amely ismeri a pixelek térbeli szomszédsági viszonyait, és olyan modellt illeszt, mely az autokorrelációt is figyelembe veszi.

Call: spautolm(formula = X ~ 1, listw = LW1, family = "CAR") Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -0.091365 0.059001-1.5485 0.1215 ML residual variance (sigma squared): 0.67403 Number of observations: 1024

Azt látjuk, hogy az autokorrelációt figyelembe vevő t-próba elfogadja, hogy az alapsokasági várhatérték = 0.

Az eljárást végző R függvény: spautolm(formula = X ~ 1, listw = LW1, family = "CAR") listw = a szomszédsági topológia family = a modellcsalád meghatározása

Az autokorrelációt figyelembe vevő két legegyszerűbb modell a CAR és a SAR regresszió.

A spatial data of lattice type is a realization of a random field {Y s : s S} where S is the set of sites.

Topology on S can be given by a neighbourhood system N s = {t S : s and t are neighbours} or by a contiguity matrix W w t,s = 1 if s and t are neighbours 0 elsewhere

Stationarity of {Y s : s S} means, that the joint distribution of { Y s1, Y s2,..., Y sk } is identical to that of { Ys1 +h, Y s2 +h,..., Y sk +h}

Second-order stationarity of {Y s : s S} means, that E {Y s } = µ (does not depend on s) and Cov { Y s, Y s+h } = c(h) (does not depend on s)

Intrinsic Hypothesis of {Y s : s S} means, that E {Y s } = µ (does not depend on s) and E ( Ys Y s+h) 2 = 2 γ(h) (does not depend on s) The intrinsic hypothesis is weaker than the second-order stationarity.

SAR: Simultaneous Autoregressive Random Field is a Gaussian random field {Y s : s S} specified by the set of regression equations:

Y s = a s + r N s b r,s y r + ε s {s S} where {ε s } are zero-mean, independent Gaussian and V ar {ε s } = σ 2 s The simplest form is the isotropic case: a s = 0 and σ s = σ and [b r,s ] = ρ W

CAR: Conditional (Autoregressive) Gauss-Markov Random Field is a Gaussian random field {Y s : s S} specified by its conditional expectations and conditional variances as follows:

conditional expectations: E {Y s Y r = y r, r S} = = µ s + r N s c r,s (y r µ r )

and conditional variances: V ar {Y s Y r = y r, r S} = σ 2 s The simplest form is the isotropic case: µ s = 0 and σ s = σ and [c r,s ] = ρ W

A fent írt fogalmak mind ismerősek azoknak, akik foglalkoztak idősorok elemzésével. A stacionárius és izotróp térbeli statisztikai modellek működését (amint az idősorelemzésben is) jól szemlélteti a kovariancia-függvény, ill. annak standardizált változata, a korrelogramm.

Books: Ripley, B.D.: Statistical Inference for Spatial Processes, 1988, Cambridge Cressie, N.: Statistics for Spatial Data, Second Edition, 1993, Wiley. Diggle, P.J.: Statistical Analysis of Spatial Point Patterns, Second Edition, 2003,Oxford.

Roger Bivand (2009): The Problem of Spatial Autocorrelation: forty years on. a vignette in R package spdep: Spatial dependence http://cran.r-project.org/package=spdep http://cran.r-project.org/package=sp http://cran.r-project.org/package=ncf http://cran.r-project.org/package=gstat http://cran.r-project.org/package=randomfields