STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Hasonló dokumentumok
Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós Regresszió-számítás

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika elméleti összefoglaló

Regressziós vizsgálatok

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Regressziós vizsgálatok

Korreláció és lineáris regresszió

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Diagnosztika és előrejelzés

y ij = µ + α i + e ij

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Ökonometriai modellek paraméterei: számítás és értelmezés

Bevezetés a Korreláció &

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Diszkriminancia-analízis

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis vizsgálatok

Korrelációs kapcsolatok elemzése

Regresszió számítás az SPSSben

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

5. előadás - Regressziószámítás

Idősoros elemzés. Ferenci Tamás, január 7.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Több valószínűségi változó együttes eloszlása, korreláció

Idősoros elemzés minta

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Logisztikus regresszió október 27.

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Statisztika II előadáslapok. 2003/4. tanév, II. félév

A többváltozós lineáris regresszió 1.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Lineáris regressziószámítás 1. - kétváltozós eset

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6.

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

Kvantitatív statisztikai módszerek

Bevezetés a hipotézisvizsgálatokba

Varianciaanalízis 4/24/12

Matematikai statisztikai elemzések 6.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

[Biomatematika 2] Orvosi biometria

Bevezetés az ökonometriába

TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS

GVMST22GNC Statisztika II.

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Korreláció és Regresszió

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

KÖVETKEZTETŐ STATISZTIKA

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

A standard modellfeltevések, modelldiagnosztika

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Autoregresszív és mozgóátlag folyamatok

A Statisztika alapjai

Adatok statisztikai értékelésének főbb lehetőségei

Hipotézis vizsgálatok

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Kettőnél több csoport vizsgálata. Makara B. Gábor

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Korreláció számítás az SPSSben

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

[Biomatematika 2] Orvosi biometria

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

(Independence, dependence, random variables)

Mérési adatok illesztése, korreláció, regresszió

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Korreláció és Regresszió (folytatás) Logisztikus telítıdési függvény Több független változós regressziós függvények

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Függetlenségvizsgálat, Illeszkedésvizsgálat

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Kísérlettervezés alapfogalmak

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Logisztikus regresszió

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Ökonometria BSc Gyakorló feladatok a kétváltozós regresszióhoz

Átírás:

Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése Szükség van további olyan magyarázó változók vizsgálatára, amik a jelenség egzaktabb leírását teszik lehetővé Azokat a kapcsolatokat, amelyeknél az egyik tényezőre több másik tényező is hatással van többszörös kapcsolatoknak nevezzük, a kapcsolatok mennyiségi jellemzőinek, illetve szorosságának vizsgálatát pedig többszörös korreláció- és regresszió-analízisnek hívjuk A standard lineáris modell A standard lineáris regressziós modell mátrixalgebrai jelölése ( = = 11 12 21 22 nm = = Eredménytáblázat Alkalmazhatósági feltételek Koefficiensek Standard hiba t érték p-érték Alsó 95% Felső 95% Ugyanazok, mint a kétváltozós regressziónál Tengelymetszet 1,234563411 3,866114742 0,31932922 0,750955-6,552191393 9,021318 Nepesseg 2,23675E-05 9,05174E-06 2,47107595 0,017323 4,1364E-06 4,06E-05 Analfabetak 4,14283659 0,874353193 4,73817288 2,19E-05 2,381798861 5,903874 Jovedelem 1,61062E-06 1,70924E-05 0,09422998 0,925345-3,28153E-05 3,6E-05 Fagyos_napok 0,000581306 0,01005366 0,05782029 0,954148-0,019667806 0,02083 1

Miért nem teljesülhetnek a feltételek? Multikollinearitás: a magyarázó változók nem lineárisan függetlenek Autokorreláció: a hibatagok lineárisan nem függetlenek Heteroszkedaszticitás: a hibák szórásnégyzete nem konstans Multikollinearitás (Ragnar Frisch) A standard lineáris regressziós modell feltételezi, hogy a magyarázó változók egymástól lineárisan függetlenek Ha azonban valamelyik magyarázó változó kifejezhető a többi tényező lineáris kombinációjaként (azaz függvényszerű kapcsolatban áll a többi magyarázó változóval) akkor multikollinearitásról beszélünk Nagymértékű redundáns információk Ha a magyarázó változók lineárisan nem függetlenek A becslés és az előrejelzés torzított marad A regressziós együtthatók standard hibái nőnek A becsléseink bizonytalanná válnak A multikollinearitás mérése szintetikus mutatóval A magyarázó változók determinációs együtthatóinak összege, ha megegyezik a többszörös determinációs együttható értékével, akkor nem áll fenn a magyarázó változók között multikollinearitás Az egyes magyarázó változók hatásainak elkülönítése nem lehetséges VIF (Variance Inflation Factors) Varianciainflációs tényező azt mutatja, hogy a j- edik változó becsült együtthatójának varianciája hányszorosa annak, ami a multikollinearitás teljes hiányakor lenne Ezért ezt a mutatószámot a j-edik változóhoz tartozó variancianövelő tényezőnek nevezzük VIF Minimális értékét, az 1-et akkor veszi fel, amikor a j-edik magyarázó változó nem korrelál a többivel Ahogy nő az R 2 j, úgy nő a VIF értéke is, jelezve, hogy a kollinearitás hányszorosára növeli a varianciával mért becslési hibát Ha R 2 j =1 a VIF mutató nem értelmezhető, ez a teljes vagy extrém multikollinearitás A VIF reciprokát toleranciamutatónak nevezik 2

VIF meghatározása A magyarázó változók korrelációs mátrixának inverzéből A főátló elemei Nepesseg Analfabetak Jovedelem Fagyos_napok Nepesseg 1,25 0,08-0,35 0,55 Analfabetak 0,08 2,17 0,63 1,34 Jovedelem -0,35 0,63 1,35 0,00 Fagyos_napok 0,55 1,34 0,00 2,08 VIF értékei 1 2 gyenge 2 5 erős (zavaró) 5 felett nagyon erős (káros) multikollinearitás Multikollinearitás csökkentése Változók törlése Ridge regresszió használata Ez a többszörös regresszió-analízis olyan változata, amely kezeli a multikollinearitást Autokorreláció A hibatagok lineárisan nem függetlenek Az autokorreláció különböző rendű lehet, attól függően, hogy a hibatag i-edik értéke melyik értékkel van kapcsolatban Ha a hibatag i-edik értéke közvetlenül az előtte lévő értékkel áll korrelációs kapcsolatban, akkor elsőrendű autokorreláció-ról beszélünk Az elsőrendű autokorreláció modellje: Az elsőrendű autokorreláció mérése Durbin-Watson teszt: Durbin-Watson teszt döntési táblája Alternatív hipotézis Ho: ró=0 Elfogadjuk Elutasítjuk Nincs döntés Ró>0 d>du d<dl dl d du Ró<0 d<4-du D>4-dL 4-dL d 4-dU Lineáris autokorrelációs együttható: Ha a teszt alapján nem tudunk döntést hozni, vagyis a próbafüggvény értéke a semleges zónák valamelyikébe esik, akkor több lehetőséggel is élhetünk: A modell paramétereinek a becslését újra el kell végezni, de nagyobb minta alapján Meg kell változatni a szignifikancia-szintet úgy, hogy döntési helyzetbe kerüljünk Más próbafüggvényt kell alkalmazni 3

A Durbin-Watson teszt döntési szabálya Heteroszkedaszticitás Heteroszkedaszticitás tesztelése Ki kell számítani külön az egyes magyarázó változóknak, illetve a becsült eredményváltozóknak a reziduumok abszolút értékeivel való szorosságát jellemző lineáris korrelációs együtthatót, amelyek közül a legnagyobb abszolút értékű kerül tesztelésre Ha a nullhipotézist elvetjük, akkor a modell heteroszkedasztikusnak tekinthető A többszörös lineáris regressziószámítás lépései 1 Modellalkotás, változók bevonása 2 Illeszkedés vizsgálata 3 Korrelációs index, determinációs együttható 4 Variancia-analízis, F-próba 5 Együtthatók t-próbája 6 Validálás Korrelációs mátrix Multikollinearitás Gyilkossag Nepesseg Analfabetak Jovedelem Fagyos_napok Gyilkossag 1,00 0,34 0,70-0,23-0,54 Nepesseg 0,34 1,00 0,11 0,21-0,33 Analfabetak 0,70 0,11 1,00-0,44-0,67 Jovedelem -0,23 0,21-0,44 1,00 0,23 Fagyos_napok -0,54-0,33-0,67 0,23 1,00 M 1 =0,39 4

Illeszkedésvizsgálat Gyilkossag = Nepesseg + Analfabetak + Jovedelem + Fagyos_napok Együtthatók: Estimate Std Error t value Pr(> t ) (Intercept) 1,235e+00 3,866e+00 0,319 0,7510 Nepesseg 2,237e-05 9,052e-06 2,471 0,0173 * Analfabetak 4,143e+00 8,744e-01 4,738 2,19e-05 *** Jovedelem 1,611e-06 1,709e-05 0,094 0,9253 Fagyos_napok 5,813e-04 1,005e-02 0,058 0,9541 --- Signif codes: 0 *** 0,001 ** 0,01 * 0,05 0,1 1 Residual standard error: 2,535 on 45 degrees of freedom Multiple R-squared: 0,567, Adjusted R-squared: 0,5285 F-statistic: 14,73 on 4 and 45 DF, p-value: 9,133e-08 Magyarázó változók bevonása, törlése 1 Lépésenkénti (Stepwise) regresszió Fordward Backward Vegyes módszer (mixed) 2 Hatványhalmaz regresszió (All subset regresszió) Halmaz részhalmazainak száma Hatványhalmaz regresszió 2 = Pl négyelemű halmaz Részhalmaz Száma Egy elemű 4 Két elemű 6 Három elemű 4 Négy elemű 1 A legjobb modell kritériumai Nem létezik egyetlen legjobb modell mérőszám A végső modell kiválasztása a becslési pontosság és az egyszerűség kompromisszuma Ockham borotvája filozófiai elv Modellek vizsgálata Beágyazott modellek vizsgálata ANOVAval AIC (Akaike information criterion) A kisebb érték jelenti az adekvátabb modellt Nem feltétel, hogy a modell beágyazott legyen 5

Beágyazott modellek 1 Modell Gyilkosságok=a+b 1 Analfabéták+b 2 Lakosság 2 Modell Gyilkosságok=a+b 1 Analfabéták+b 2 Lakosság +b 3 Jövedelem+b 4 Fagyos_napok AIC (Akaike, 1973) = ln / +2 Ahol n: a minta elemszáma RSS: a maradékok eltérés-négyzetösszege P: a modell paramétereinek száma (konstans is) Mérések, megfigyelések korrigálása 1 Töröljük a befolyásos értékeket 2 Transzformáljuk a változókat 3 Töröljünk vagy adjunk hozzá változókat 4 Használjunk másik regressziós modellt 1 Megfigyelések törlése A kiugró értékek törlése sokszor javít a normális eloszlás feltételén A befolyásos értékek törlése után a modellt újból becsülni kell Az újabb diagnosztika lehet, hogy újabb befolyásos vagy kiugró értékeket jelez Ekkor addig kell ismételni a modell becslést, amíg elfogadható eredményt nem kapunk 2 Változók transzformálása 1 A modell nem teljesíti a normális eloszlást 2 A linearitás feltétele nem teljesül 3 Heteroszkedasztikus a modell 21 Nem normális eloszlás esetén A függő változó (y) transzformálása segíthet y értékét y λ értékére cserélhetjük Arány, hányados esetén logit transzformáció λ gyakori értékei: -2; -1; -0,5; 0,5; 2 vagy log(y) balra ferde eloszlás esetén EZ NEVEZIK BOX-COX TRANSZORMÁCIÓNAK 6

22 Nemlinearitás esetén A magyarázó változók (x) transzformálása segíthet A hatványkitevők becslése a 23 Heteroszkedasztikus modell esetén Függő változó (y) transzformációja, hatványkitevő keresése BOX-TIDWELL TRANSZFORMÁCIÓ 3 Változók törlése vagy hozzáadása Törlés Multikollinearitás VIF (variance inflation factor) változása 4 Egyéb modellek Multikollinearitás esetén ridge regresszió Sok kiugró vagy befolyásos érték esetén robusztus regresszió Nem normális eloszlás esetén nemparaméteres regresszió Nemlinearitás esetén nemlineáris regresszió Maradékok nem függetlenek többlépcsős regresszió A modell általánosíthatósága Hogyan működne a modellünk a valóságban, milyen pontos előrejelzést tehetünk vele? Kereszt validálás (crossvalidation) Különböző adatokon végezzük el a regressziós modell illesztését és a validációt Szigorúbb validálási eljárások Paraméterek becslése ( training sample ) Validáció ( hold-out sample ) 7

K-szoros kereszt-validáció Svájci bicska A teljes mintát k-számú véletlen mintára osztjuk A k számú alminták egy csoportja a validációt, a maradék k-1 csoportok kombinációja a modell optimalizálását szolgálja Amikor a k egyenlő n-nel, a megfigyelések számával, ezt nevezik az angol szakirodalomban jackknifing -nek Törölt maradékok = " () A magyarázó változók relatív jelentősége Standardizált regressziós együtthatók becslése Változókat standardizáljuk Standardizált együttható = Path koefficiens Standardizált regressziós együtthatók Estimate Std Error t value Pr(> t ) Nepesseg 0,270510 0,108274 2,498 0,0161 * Analfabetak 0,684050 0,142792 4,791 1,77e-05 *** Jovedelem 0,010724 0,112560 0,095 0,9245 Fagy_napok 0,008185 0,140019 0,058 0,9536 Std regressziós együttható értelmezése A magyarázó változó egy szórásnyi növekedése a függő változó szórását a standardizált regressziós együttható értékével növeli meg vagy csökkenti, attól függően, hogy milyen az előjele A többi magyarázó változó értéke ilyenkor állandó, nem változik Nincs tengelymetszet! 8

Több változó ábrázolása Háromdimenziós ábra Regressziós sík Több változó ábrázolása Háromdimenziós ábra Regressziós sík 9