Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Hasonló dokumentumok
Lineáris regresszió vizsgálata resampling eljárással

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek

Statisztika II. feladatok

Regresszió számítás az SPSSben

Bevezetés a Korreláció &

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Korreláció és lineáris regresszió

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Hipotézis vizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Diagnosztika és előrejelzés

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Esetelemzések az SPSS használatával

Többváltozós Regresszió-számítás

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

MÓDSZERTANI ESETTANULMÁNY. isk_4kat végzettségek négy katban. Frequency Percent Valid Percent. Valid 1 legfeljebb 8 osztály ,2 43,7 43,7

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Statisztikai szoftverek esszé

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Idősoros elemzés. Ferenci Tamás, január 7.

Idősoros elemzés minta

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Normális eloszlás tesztje

PDF created with FinePrint pdffactory Pro trial version Adott egy X folytonos változó, ami normális eloszlású.

Adatok statisztikai értékelésének főbb lehetőségei

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

Bevezetés a hipotézisvizsgálatokba

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Correlation & Linear Regression in SPSS

Logisztikus regresszió október 27.

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Correlation & Linear Regression in SPSS

: az i -ik esélyhányados, i = 2, 3,..I

Normál eloszlás. Gyakori statisztikák

Statisztika elméleti összefoglaló

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Kísérlettervezés alapfogalmak

KÖVETKEZTETŐ STATISZTIKA

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Normális eloszlás paramétereire vonatkozó próbák

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

y ij = µ + α i + e ij

Esetelemzés az SPSS használatával

Több valószínűségi változó együttes eloszlása, korreláció

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Mérési adatok illesztése, korreláció, regresszió

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

- BESZÁMOLÓ - ALKALMAZOTT GEOMATEMATIKA, MODELLEZÉS ÉS SZIMULÁCIÓ C. TANTÁRGYHOZ. Készítette: BERTALAN LÁSZLÓ Geográfus MSc. I. évf. DEBRECEN 2011.

X PMS 2007 adatgyűjtés eredményeinek bemutatása X PMS ADATGYŰJTÉS

Magyarországon személysérüléses közúti közlekedési balesetek okozóik és abból alkoholos állapotban lévők szerinti elemzése. Rezsabek Tamás GSZDI

MI MOZGATJA A HATÁRIDŐS DEVIZAPOZÍCIÓKAT? A magyar piac elemzése

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Biomatematika 13. Varianciaanaĺızis (ANOVA)

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Biometria gyakorló feladatok BsC hallgatók számára

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Biostatisztika VIII. Mátyus László. 19 October

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Varianciaanalízis 4/24/12

Statisztikai becslés

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Regressziós vizsgálatok

BIOMETRIA_ANOVA_2 1 1

Hipotézis vizsgálatok

KISTERV2_ANOVA_

A többváltozós lineáris regresszió 1.

A gravitációs modell felhasználása funkcionális távolságok becslésére

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Ökonometria gyakorló feladatok 1.

GyőrBike a győri közösségi bérkerékpár rendszer első éve

Logisztikus regresszió

Diszkriminancia-analízis

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Ökonometria gyakorló feladatok - idősorok elemzése

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Átírás:

Esettanulmány A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre Tartalomjegyzék 1. Bevezetés... 2 2. A lineáris modell alkalmazhatóságának feltételei... 2 3. A feltételek teljesülésének ellenőrzése... 4 4. Szimuláció... 6 5. Melléklet... 12

1. Bevezetés Esettanulmányomban azt vizsgálom, hogy milyen következményekkel járhat a reziduumok homoszkedaszticitására vonatkozó feltétel megsértése, a regressziós becslés eredményére. Először röviden bemutatom a lineáris modell alkalmazhatóságának reziduumokra vonatkozó feltételeit. Ezután egy konkrét példán keresztül mutatom be ezen feltételek teljesülésének ellenőrzését. Végül a homoszkedaszticitás feltételének megsértését, illetve ennek hatását mutatom be egy szimuláción keresztül. 2. A lineáris modell alkalmazhatóságának feltételei Az egyik leggyakrabban használt adatelemzési eljárás a lineáris regresszió. A módszert a legkülönbözőbb területeken alkalmazzák, azonban használói gyakran elfeledkeznek arról, hogy alkalmazhatóságának számos előfeltétele van. Ezek közül a legtöbb a reziduumokra a regresszió által becsült értékek és a tényleges értékek közötti különbségekre vonatkoznak. Ezen feltevések a következők: a rezidumok várhatóértéke 0 2

a hibatagok szórásnégyzete állandó (homoszkedaszticitás) a hiba normáleloszlású a hibatagok lineárisan függetlenek (nincs közöttük autokorreláció) Fontos, hogy mi előtt a lineáris modellt alkalmazzuk, ellenőrizzük a fenti feltételek teljesülését. Az autokorreláció esetén a hibatagok lineárisan nem függetlenek. Az autokorreláció különböző rendű lehet, attól függően, hogy a hibatag i-edik értéke melyik értékkel van kapcsolatban. Ha a hibatag i-edik értéke közvetlenül az előtte lévő értékkel áll korrelációs kapcsolatban, akkor elsőrendű autokorreláció-ról beszélünk. Ha a reziduálisok elsőrendű autokorrelációt mutatnak, akkor sérül az a feltételezés, hogy a megfigyelések függetlenek. Az autokorreláció hiányának feltétele a leggyakrabban idősoros adatoknál sérül. Az első rendű autokorreláció ellenőrzésének egyik módszere a Durbin-Watson teszt. A reziduálisok normális eloszlását különböző nem paraméteres próbákkal ellenőrizhetjük, úgymint a Kolmogorov-Szmirnov teszt. Azt, hogy a reziduálisok várhatóértéke 0, t-próbával ellenőrizhetjük. A t-próba alkalmazásának előfeltevése a normális eloszlás. Amennyiben a Kolmogorov-Szmirnov teszt ezt alátámasztja, úgy ez a feltétel teljesül. Amennyiben a normális eloszlás hipotézisét a próba alapján elutasítottuk, akkor is alkalmazhatjuk a t-próbát kellően nagy minta esetén a centrális határeloszlás tétel alapján. Egy adekvát regressziós modellben azt várjuk, hogy a reziduálisok szórása állandó legyen (például ne tudjunk jobb regressziós becslést adni az alacsonyabbakra, mint a magasabbakra). Amikor teljesül az a feltétel, hogy a regressziós egyenes vagy hipersík minden pontján azonos szórású reziduálisok találhatók, akkor ezeket a reziduálisokat homoszkedasztikusnak nevezzük. Ennek a feltételnek a megsértése az sejteti, hogy a lineáris regresszió talán nem volt a legmegfelelőbb modell. A feltétel teljesülésének ellenőrzésére egyszerűen kérhetünk egy pontdiagramot a reziduálisokról. Ha a modell homoszkedasztikus, akkor a pontok egy felhőt formáznak, amely beszorítható két, egymástól nem túl messze eső párhuzamos egyenes közé. A homoszkedaszticitás hiányát például az mutatja, ha a pontok egy tölcsért formáznak, jelezve, hogy a függő változó értékének növekedésével nő a reziduálisok szórása. Ez a módszer azonban jelentős teret enged a szubjektivitásnak. Egy másik lehetséges módszer, ha a függő változóból létre hozunk egy csoportosító változót, majd a Levene féle szórás-homogenitás teszttel ellenőrizzük a homoszkedaszticitás teljesülését. 3

3. A feltételek teljesülésének ellenőrzése Esettanulmányom elkészítéséhez az ISSP 2007-es Leisure Time and Sports című adatállományát használtam. Az adatbázist leszűkítettem a franciaországi adatokra, majd ezen belül azokra az esetekre, melyek nem tartalmaztak hiányzó értékeket. Így egy 1956 esetből álló adatbázist kaptam. Magyarázóváltozóként a testmagasságot választottam, függő változóként, pedig a súlyt szerepeltettem a modellben. Az alábbi ábra a két változó együttes eloszlását, valamint az adatokra illesztett regressziós egyenest szemlélteti. A lent látható táblázat, pedig a lineáris regresszió eredményeit tartalmazza. Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) -78,466 4,807-16,323,000 Q19a Height of Respondent: cm,881,028,574 30,949,000 a. Dependent Variable: Q19b Weight of Respondent: kg A táblázat adatai alapján elmondható, hogy a testmagasság 1 cm-es emelkedése a súly 0,881 kg-al történő emelkedésével jár együtt. A testmagasságot a testsúly segítségével a következő képlet alapján becsülhetjük előre: Y = 0,881*X-78,466, ahol Y a testtömeg kg-ban, X pedig a magasság cm-ben mérve. A táblázat adatai szignifikánsnak mutatják a regressziós becslés paramétereit. 4

A regresszió futtatása mellett elvégeztem a Durbin-Watson tesztet, hogy ellenőrizhessem a reziduumok autokorrelációját. Az eredmények alapján elutasíthatjuk az elsődleges autokorreláció létét. Model Summary b Adjusted R Std. Error of the Model R R Square Square Estimate Durbin-Watson 1,574 a,329,329 11,105 1,881 a. Predictors: (Constant), Q19a Height of Respondent: cm b. Dependent Variable: Q19b Weight of Respondent: kg Ezután t-próba segítségével ellenőriztem, hogy a reziduumok várhatóértéke egyenlő-e 0-val. Az eredmények alapján elfogadhatjuk azt a feltevést, hogy a várhatóérték 0. One-Sample Test Test Value = 0 t df Sig. (2-tailed) Mean Difference 95% Confidence Interval of the Difference Lower Upper resfrancia,170 1955,865,04277 -,4496,5351 Következő lépésként a reziduumok homoszkedaszticitását vizsgáltam meg Levene-féle szórás-homogenitás teszttel. Az eredmények alapján ez a feltétel az általam vizsgált adatok esetén nem teljesül. Test of Homogeneity of Variances resfrancia Levene Statistic df1 df2 Sig. 19,111 3 1952,000 Végül Kolmogorov-Szmirnov tesztet alkalmaztam, hogy a reziduumok normális eloszlásának feltételét ellenőrizzem. Az eredmények alapján a reziduumok eloszlása nem normális. One-Sample Kolmogorov-Smirnov Test resfrancia 5

4. Szimuláció N 1956 Normal Parameters a,,b Mean,0428 Std. Deviation 11,10258 Most Extreme Differences Absolute,061 Positive,061 Negative -,039 Kolmogorov-Smirnov Z 2,686 Asymp. Sig. (2-tailed),000 a. Test distribution is Normal. b. Calculated from data. A következőkben azt szerettem volna megvizsgálni, hogy milyen hatással van a regressziós paraméterek becslésére az a tény, hogy nem teljesül a reziduumok homoszkedaszticitásának feltevése. Először a kimeneti változó és a reziduumok különbségéből létrehoztam egy új változót, mely minden magasság mellett a regresszióval becsült testsúly értéket adja, azaz ebben az esetben a pontok tökéletesen illeszkednek regressziós egyenesre. Következő lépésben 0 várhatóértékű normális eloszlásból generáltam számokat konstans szórással, majd ezeket az értékeket adtam hozzá az előbbiekben létrehozott változóhoz. Ezzel az eljárással egy olyan változót hoztam létre, melynek esetében teljesülnek a reziduumokra vonatkozó előfeltevések, köztük a homoszkedaszticitás is. Ezután ismételten véletlen számokat generáltam 0 várható értékű normális eloszlásból, de ezúttal a szórást a magyarázóváltozó értékének függvényében szisztematikusan változtattam. Az így kapott értékeket hozzáadva az eredeti regressziós egyenesre illeszkedő értékekhez egy olyan változót kaptam, melynek esetében egyértelműen heteroszkedaszticitás áll fenn a reziduumokra. A szimulációhoz bootstrap eljárást alkalmaztam, azaz 500-szor 1956 elemű mintát vettem visszatevéssel az eredeti adatok közül. Az 500 minta esetében kétféle regressziót futtattam le. Az első esetben a magyarázó változó a testmagasság volt, a függő változó pedig az általam létrehozott konstans szórású hibával terhelt változó. A második esetben a magyarázóváltozó ismételten a testmagasság volt, a függőváltozóként azonban a változó szórású hibataggal rendelkező változót vontam be az elemzésbe. A kapott regressziós paraméterek eloszlását szemléltetik az alábbi hisztogramok. 6

7

8

Az eredmények azt mutatják, hogy a vizsgált esetben nem eredményezett számottevő különbséget a homoszkedaszticitás feltételének megsértése. Mind a négy esetben az eredeti értékek bele esnek a 95%-os konfidencia intervallumba. A paraméterek szórásában sincs számottevő különbség, viszont meglepő módon éppen a konstans szórású reziduumok esetében volt nagyobb a szórás. A hisztogramokon látható, hogy a regressziós paraméterek eloszlása közelít a normálishoz. Ezt Kolmogorov-Szmirnov teszttel is ellenőriztem (az eredményeket tartalmazó táblázatok a mellékletben találhatók). Az eredmények alapján mind a négy esetben elfogadható az a nullhipotézis, hogy a paraméterek eloszlása normális, azonban a konstans szórású hibatagok esetében az eloszlás jobban közelít a normálishoz, mint a másik esetben. A szimuláció második részében arra törekedtem, hogy az adatokban eredetileg fellelhető tendenciákat vizsgáljam meg. Először pontdiagram segítségével vizsgáltam meg a függőváltozó és a reziduumok közötti kapcsolatot. Ez látható az alábbi ábrán. Ahogy látható egy J-alakú mintázat rajzolódik ki a diagramon. Annak érdekében, hogy ezt az adatokban rejlő tendenciát felerősítsem, valamint hatását a regressziós paraméterek becslésére megvizsgáljam reziduum-resampling eljárást alkalmaztam. Az eljárás lényege, hogy a regressziós egyenesen kapott értékeket adottnak vesszük, és a reziduumokból újramintavételezéssel kapott értékeket adjuk ezekhez. Ezt az eljárást is 500 alkalommal ismételtem meg. A regressziós paraméterek eloszlását mutatják az alábbi hisztogramok. 9

10

Ahogy az ábrákon látható, a meredekség esetében az eredeti paraméter nem esik bele a reziduum-resampling módszerrel kapott értékek esetén adódó 95%-os konfidencia intervallumba. A kapott paraméterek szórása azonban ebben az esetben kisebb, mint a korábban bemutatott két esetben. Ebben az esetben is megvizsgáltam a paraméterek eloszlását Kolmogorov-Szmirnov teszttel. Az eredmények alapján ebben az esetben is nagybiztonsággal elfogadhatjuk a normális eloszlásra vonatkozó nullhipotézist (lásd melléklet), azonban az elméleti és tapasztalati eloszlás közötti eltérés ebben az esetben mutatkozott a legnagyobbnak. Összefoglalásként elmondható, hogy ahogyan az általam végzett szimulációs eljárások is bizonyítják a lineáris regresszió paramétereit, illetve azok eloszlását nagymértékben befolyásolja a reziduumok szórása. 11

5. Melléklet 1. Reziduum resampling eljárással kapott regressziós meredekség értékek normalitásának ellenőrzése One-Sample Kolmogorov-Smirnov Test rezmer N 500 Normal Parameters a,,b Mean,8800 Std. Deviation,02825 Most Extreme Differences Absolute,040 Positive,040 Negative -,023 Kolmogorov-Smirnov Z,898 Asymp. Sig. (2-tailed),396 a. Test distribution is Normal. b. Calculated from data. 2. Reziduum resampling eljárással kapott tengelymetszet értékek normalitásának ellenőrzése One-Sample Kolmogorov-Smirnov Test rezmetszet N 500 Normal Parameters a,,b Mean -78,2706 Std. Deviation 4,76398 Most Extreme Differences Absolute,034 Positive,016 Negative -,034 Kolmogorov-Smirnov Z,753 Asymp. Sig. (2-tailed),623 a. Test distribution is Normal. b. Calculated from data. 12

3. Meredekség értékek normalitásának ellenőrzése a homoszkedaszticitás teljesülése esetén One-Sample Kolmogorov-Smirnov Test merkonstzans N 500 Normal Parameters a,,b Mean,9615 Std. Deviation,10662 Most Extreme Differences Absolute,023 Positive,023 Negative -,019 Kolmogorov-Smirnov Z,509 Asymp. Sig. (2-tailed),958 a. Test distribution is Normal. b. Calculated from data. 4. Tengelymetszet értékek normalitásának ellenőrzése a homoszkedaszticitás teljesülése esetén One-Sample Kolmogorov-Smirnov Test metszetkonstans N 500 Normal Parameters a,,b Mean -91,4260 Std. Deviation 17,97102 Most Extreme Differences Absolute,022 Positive,017 Negative -,022 Kolmogorov-Smirnov Z,488 Asymp. Sig. (2-tailed),971 a. Test distribution is Normal. b. Calculated from data. 13

5. Meredekség értékek normalitásának ellenőrzése a heteroszkedaszticitás esetén One-Sample Kolmogorov-Smirnov Test nemkonstansmer N 500 Normal Parameters a,,b Mean,9111 Std. Deviation,08280 Most Extreme Differences Absolute,028 Positive,020 Negative -,028 Kolmogorov-Smirnov Z,629 Asymp. Sig. (2-tailed),824 a. Test distribution is Normal. b. Calculated from data. 6. Tengelymetszet értékek normalitásának ellenőrzése a heteroszkedaszticitás esetén One-Sample Kolmogorov-Smirnov Test nemkonstansmet szet N 500 Normal Parameters a,,b Mean -82,9236 Std. Deviation 13,64131 Most Extreme Differences Absolute,025 Positive,025 Negative -,022 Kolmogorov-Smirnov Z,553 Asymp. Sig. (2-tailed),919 a. Test distribution is Normal. b. Calculated from data. 14