Kabos Sándor Térben autokorrelált adatrendszerek elemzése
Összefoglalás az előadás példákon szemlélteti a térben autokorrelált adatok blokkosításának és összefüggésvizsgálatának jellemző tulajdonságait. Fő üzenet néhány statisztikai eljárás a független mintán megszokotthoz képest másképp viselkedik, amikor megjelenik a mintán belüli autokorreláció.
256x256 binary image, p=0.3 white noise a realization of a field with zero autocorrelation 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 rel.frequency of white = 0.3
A képen 256x256=65 536 pixel van, 30% -uk fehér (=világoskék) és 70% -uk fekete (=sötétkék) és teljesen véletlenszerűen helyezkednek el. Ez a kép annak a valószínűségi mezőnek egy realizációja, ahol a pixelek random módon p=0.3 vséggel fehérek és 1-p=0.7 vséggel feketék, és ezt egymástól függetlenül teszik (nem pontosan az, de majdnem).
256x256 binary image a realization of a field with high autocorrelation 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 rel.frequency of white = 0.3
Ez a kép nem fehérzaj, hanem a CAR mező(lásd később) reguláris grid 4-es szomszédsági topológia ρ = 0.2499 és p = 0.3 paramétereivel készült szimuláció. Ilyen adatrendszerek készítésére alkalmas a RandomFields R-csomagban található GaussRF() fügvény.
A képen 256x256=65 536 darab pixel van, 30% -uk fehér (=világoskék). A fehér pixelek véletlenszerűen, ámde erős pozitív (ρ = 0.2499) autokorreláció mellett választották a helyüket.
Valódi szimuláció során sohasem egyetlen realizáció alapján következtetünk. Most mégis ezt tesszük, ezért az előadó becsületszavát adja, hogy ő sok ezer realizációt megnézett, és azokból is hasonló következtetésekre jutott. Ezt röviden így mondjuk: az ábrák az előadás következtetései szempontjából tipikus realizációkat mutatnak.
Binary image with grid of 32x32 pixels 32x32 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 rel.frequency of white = 0.3 rel.frequency of white = 0.141
32x32 pixel méretű blokkokat képeztünk, ahogyan az ábra bal oldalán a sárga vonalak mutatják. A 256x256-os képen 8x8 darab blokk van. A jobb oldalon pontosan azok a blokkok fehérek, ahol a pixel többség fehér (ha éppen 50% fehér, akkor ez a blokk 50% eséllyel lett fehér).
Világos, hogy a blokkosítás szabálya olyan, hogy a fehérek tipikusan területet veszítenek. A most bemutatott szimulációk (illetve ezek több ezer ismétlésben való elvégzése) alapján tudunk arra következtetni, hogy a területveszteséget milyen módon befolyásolja a blokkméret és az autokorreláció.
Binary image with grid of 16x16 pixels 16x16 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 16 14 12 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 12 14 16 rel.frequency of white = 0.3 rel.frequency of white = 0.188
Binary image with grid of 8x8 pixels 8x8 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 32 29 26 23 20 17 14 11 9 7 5 3 1 1 3 5 7 9 11 14 17 20 23 26 29 32 rel.frequency of white = 0.3 rel.frequency of white = 0.225
Binary image with grid of 4x4 pixels 4x4 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 64 59 54 49 44 39 34 29 24 19 14 9 5 1 1 5 9 13 18 23 28 33 38 43 48 53 58 63 rel.frequency of white = 0.3 rel.frequency of white = 0.251
Binary image with grid of 2x2 pixels 2x2 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 128 116 104 94 85 76 67 58 49 40 31 22 13 5 1 8 16 25 34 43 52 61 70 79 88 97 107 119 rel.frequency of white = 0.3 rel.frequency of white = 0.283
A következő képen 256x256=65 536 darab pixel van, 30% -uk fehér. A fehér pixelek véletlenszerűen, ámde az előzőnél gyengébb pozitív (ρ = 0.23) autokorreláció mellett választották a helyüket.
256x256 binary image a realization of a field with slight autocorrelation 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 rel.frequency of white = 0.3
Binary image with grid of 32x32 pixels 32x32 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 8 7 6 5 4 3 2 1 1
Binary image with grid of 32x32 pixels 32x32 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 rel.frequency of white = 0.3 rel.frequency of white = 0
A blokkokat ugyanúgy képeztük, mint az előbb. Mint látjuk, a 32x32-es blokkok között egy sem akadt, ahol a fehérek többségbe kerültek volna. Hogyan változik a fehérek blokkosítás során elszenvedett területvesztesége a blokkméret és az autokorreláció függvényében? Az autokorrelálatlan esetre az előadó nem hozott szimulációt. Miért?
Binary image with grid of 16x16 pixels 16x16 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 16 14 12 10 9 8 7 6 5 4 3 2 1 1 2 3
Binary image with grid of 16x16 pixels 16x16 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 16 14 12 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 12 14 16 rel.frequency of white = 0.3 rel.frequency of white = 0.004
Binary image with grid of 8x8 pixels 8x8 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 32 29 26 23 20 17 14 11 9 7 5 3 1 1 3 5 7 9 11 14 17 20 23 26 29 32 rel.frequency of white = 0.3 rel.frequency of white = 0.05
Binary image with grid of 4x4 pixels 4x4 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 64 59 54 49 44 39 34 29 24 19 14 9 5 1 1 5 9 13 18 23 28 33 38 43 48 53 58 63 rel.frequency of white = 0.3 rel.frequency of white = 0.164
Binary image with grid of 2x2 pixels 2x2 blocks, classified by majority of pixels 256 224 192 160 128 96 64 32 1 1 32 64 96 128 160 192 224 256 128 116 104 94 85 76 67 58 49 40 31 22 13 5 1 8 16 25 34 43 52 61 70 79 88 97 107 119 rel.frequency of white = 0.3 rel.frequency of white = 0.258
A következő két kép CAR reguláris grid 4-es szomszédsági topológia ρ = 0.24 paraméterével készített két, egymástól független realizáció.ez azt jelenti, hogy két pixel értéke pozitívan korrelált, ha ugyanazon a képen vannak és egymáshoz elég közeliek (lásd később). Ha két pixel különböző képen van, nincs az értékeik között semmilyen sztochasztikus kapcsolat.
two independently simulated data sets X and Y data set X with high positive autocorrelation data set Y with high positive autocorrelation 32 24 16 8 1 32 24 16 8 1 1 8 16 24 32 1 8 16 24 32 pixelwise cross correlation(x,y)= 0.07182 p value= 0.022
Fontos kellően elcsodálkozni azon, hogy miközben X és Y egymástól függetlenek, a korrelációjuk mégis szignifikáns. Emlékezzünk az előadó becsületszavára a tipikus realizációkról: nem az van, hogy kihalászott egy esetet az ezerből, ahol éppen szignifikáns a korreláció, hanem a szimuláció során többnyire szignifikáns korreláció jön ki.
rook neighbourhood CAR residuals of two independently simulated data sets X and Y CAR residuals of data set X CAR residuals of data set Y 32 24 16 8 1 32 24 16 8 1 1 8 16 24 32 1 8 16 24 32 pixelwise cross correlation(x,y)= 0.02274 p value= 0.467
Itt a megfejtés: ha elvégezzük az izotróp CAR reguláris grid 4-es szomszédsági topológia (a cellánkénti a várható érték = 0) modell illesztését, akkor az előző X és Y reziduumok közötti korreláció szignifikanciája eltűnik. Ilyen modell illesztésére alkalmas az spdep R-csomagban található spautolm() fügvény.
Tekintsünk el egy pillanatra a pixelek térbeli elhelyezkedésétől. Ekkor úgy áll előttünk a 32 32 -méretű kép, mint egy 1024 -elemű minta. Vizsgáljuk meg ezt az eloszlást szokott statisztikai eljárásainkkal.
Histogram of.x.x Frequency 3 2 1 0 1 2 3 0 50 150 Histogram of.y.y Frequency 3 2 1 0 1 2 3 0 50 150 3 2 1 0 1 2 3 3 1 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles 3 2 1 0 1 2 3 3 1 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles
Histogram of.x.residual.x.residual Frequency 3 2 1 0 1 2 3 0 50 150 250 Histogram of.y.residual.y.residual Frequency 3 2 1 0 1 2 3 0 50 150 3 2 1 0 1 2 3 2 0 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles 3 2 1 0 1 2 3 2 0 1 2 Normal Q Q Plot Theoretical Quantiles Sample Quantiles
Az ábrák alapján hajlamosak vagyunk azt mondani, hogy ezek az eloszlások sem egymástól, sem a st.normális eloszlásból vett mintától nem különböznek lényegesen.
Nézzük meg, elfogadja-e a t-próba, hogy az X egy 0 várhatóértékű normális eloszlásból vett i.i.d. minta. Ne feledjük, hogy ez a próba mit sem tud a pixelek szomszédsági viszonyairól.
Call: lm(formula = X ~ 1) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.09168 0.03036-3.02 0.00259 ** Residual standard error: 0.9714 on 1023 degrees of freedom
Ez a t-próba úgy látja, hogy az 1024-elemű X minta alapján el kell utasítani azt a hipotézist, hogy az alapsokaság várhatóértéke = 0.
Most egy olyan t-próbát végzünk, amely ismeri a pixelek térbeli szomszédsági viszonyait, és olyan modellt illeszt, mely az autokorrelációt is figyelembe veszi.
Call: spautolm(formula = X ~ 1, listw = LW1, family = "CAR") Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -0.091365 0.059001-1.5485 0.1215 ML residual variance (sigma squared): 0.67403 Number of observations: 1024
Azt látjuk, hogy az autokorrelációt figyelembe vevő t-próba elfogadja, hogy az alapsokasági várhatérték = 0.
Az eljárást végző R függvény: spautolm(formula = X ~ 1, listw = LW1, family = "CAR") listw = a szomszédsági topológia family = a modellcsalád meghatározása
Az autokorrelációt figyelembe vevő két legegyszerűbb modell a CAR és a SAR regresszió.
A spatial data of lattice type is a realization of a random field {Y s : s S} where S is the set of sites.
Topology on S can be given by a neighbourhood system N s = {t S : s and t are neighbours} or by a contiguity matrix W w t,s = 1 if s and t are neighbours 0 elsewhere
Stationarity of {Y s : s S} means, that the joint distribution of { Y s1, Y s2,..., Y sk } is identical to that of { Ys1 +h, Y s2 +h,..., Y sk +h}
Second-order stationarity of {Y s : s S} means, that E {Y s } = µ (does not depend on s) and Cov { Y s, Y s+h } = c(h) (does not depend on s)
Intrinsic Hypothesis of {Y s : s S} means, that E {Y s } = µ (does not depend on s) and E ( Ys Y s+h) 2 = 2 γ(h) (does not depend on s) The intrinsic hypothesis is weaker than the second-order stationarity.
SAR: Simultaneous Autoregressive Random Field is a Gaussian random field {Y s : s S} specified by the set of regression equations:
Y s = a s + r N s b r,s y r + ε s {s S} where {ε s } are zero-mean, independent Gaussian and V ar {ε s } = σ 2 s The simplest form is the isotropic case: a s = 0 and σ s = σ and [b r,s ] = ρ W
CAR: Conditional (Autoregressive) Gauss-Markov Random Field is a Gaussian random field {Y s : s S} specified by its conditional expectations and conditional variances as follows:
conditional expectations: E {Y s Y r = y r, r S} = = µ s + r N s c r,s (y r µ r )
and conditional variances: V ar {Y s Y r = y r, r S} = σ 2 s The simplest form is the isotropic case: µ s = 0 and σ s = σ and [c r,s ] = ρ W
A fent írt fogalmak mind ismerősek azoknak, akik foglalkoztak idősorok elemzésével. A stacionárius és izotróp térbeli statisztikai modellek működését (amint az idősorelemzésben is) jól szemlélteti a kovariancia-függvény, ill. annak standardizált változata, a korrelogramm.
Books: Ripley, B.D.: Statistical Inference for Spatial Processes, 1988, Cambridge Cressie, N.: Statistics for Spatial Data, Second Edition, 1993, Wiley. Diggle, P.J.: Statistical Analysis of Spatial Point Patterns, Second Edition, 2003,Oxford.
Roger Bivand (2009): The Problem of Spatial Autocorrelation: forty years on. a vignette in R package spdep: Spatial dependence http://cran.r-project.org/package=spdep http://cran.r-project.org/package=sp http://cran.r-project.org/package=ncf http://cran.r-project.org/package=gstat http://cran.r-project.org/package=randomfields