Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Hasonló dokumentumok
STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Többváltozós Regresszió-számítás

Többváltozós lineáris regressziós modell feltételeinek

Statisztika elméleti összefoglaló

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Regressziós vizsgálatok

Regressziós vizsgálatok

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Korreláció és lineáris regresszió

Diagnosztika és előrejelzés

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Bevezetés a Korreláció &

y ij = µ + α i + e ij

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Regresszió számítás az SPSSben

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Korrelációs kapcsolatok elemzése

Diszkriminancia-analízis

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Ökonometriai modellek paraméterei: számítás és értelmezés

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Statisztika II előadáslapok. 2003/4. tanév, II. félév

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Hipotézis vizsgálatok

Több valószínűségi változó együttes eloszlása, korreláció

5. előadás - Regressziószámítás

Bevezetés a hipotézisvizsgálatokba

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Idősoros elemzés. Ferenci Tamás, január 7.

Lineáris regressziószámítás 1. - kétváltozós eset

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

GVMST22GNC Statisztika II.

A többváltozós lineáris regresszió 1.

Idősoros elemzés minta

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Kvantitatív statisztikai módszerek

Autoregresszív és mozgóátlag folyamatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

Logisztikus regresszió október 27.

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS

Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

Matematikai geodéziai számítások 6.

[Biomatematika 2] Orvosi biometria

Matematikai statisztikai elemzések 6.

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Matematikai geodéziai számítások 6.

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Varianciaanalízis 4/24/12

[Biomatematika 2] Orvosi biometria

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Bevezetés az ökonometriába

Adatok statisztikai értékelésének főbb lehetőségei

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

A standard modellfeltevések, modelldiagnosztika

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Korreláció számítás az SPSSben

KÖVETKEZTETŐ STATISZTIKA

A Statisztika alapjai

Korreláció és Regresszió

Hipotézis vizsgálatok

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Kettőnél több csoport vizsgálata. Makara B. Gábor

Függetlenségvizsgálat, Illeszkedésvizsgálat

Nemparaméteres próbák

Normális eloszlás tesztje

Gyakorlat: Sztochasztikus idősor-elemzés alapfogalmai II. Egységgyök-folyamatok és tesztek. Dr. Dombi Ákos

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

(Independence, dependence, random variables)

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Kísérlettervezés alapfogalmak

Az állat becsült kor. teljes súly. teljes hossz orrtól. törzs hossza. pocak körkörös méret. hátsó láb hossza kör

Logisztikus regresszió

Átírás:

Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése Szükség van további olyan magyarázó változók vizsgálatára, amik a jelenség egzaktabb leírását teszik lehetővé Azokat a kapcsolatokat, amelyeknél az egyik tényezőre több másik tényező is hatással van többszörös kapcsolatoknak nevezzük, a kapcsolatok mennyiségi jellemzőinek, illetve szorosságának vizsgálatát pedig többszörös korreláció- és regresszió-analízisnek hívjuk Alkalmazhatósági feltételek Magas mérési szintű változók Normális eloszlásúak A megfigyelések száma több, mint 30 A magyarázó változó nem sztochasztikus A magyarázó változók függetlenek egymástól A két változó között lineáris a kapcsolat A standard lineáris modell = β + β + β + + β + ε + 1 < A standard lineáris regressziós modell mátrixalgebrai jelölése Projekciós mátrix, P = ( ) = = = 11 12 21 22 np = + = X= a független változók mátrixa: = 11 12 21 22 np 1

Becsült értékek = ( ) = ( ) = Együtthatók becslése = ( ) = ( ) Maradékok becslése = = vagy Projekciós mátrix tulajdonságai Szimmetrikus: P=P T Idempotens: P=P n Pozitív szemidefinit: minden sajátértéke nem negatív (minden sajátérték 0 vagy 1) = Eredménytáblázat Koefficiensek Standard hiba t érték p-érték Alsó 95% Felső 95% Tengelymetszet 1,234 3,866114742 0,319 0,75-6,552 9,021 Nepesseg 2,236E-05 9,05174E-06 2,471 0,017 4,136E-06 4,06E-05 Analfabetak 4,142 0,874353193 4,738 2,19E-05 2,381 5,9 Jovedelem 1,61E-06 1,70924E-05 0,094 0,925-3,281E-05 3,6E-05 Fagyos_napok 0,00058 0,01005366 0,057 0,954-0,019 0,021 Miért nem teljesülhetnek a feltételek? Multikollinearitás: a magyarázó változók nem lineárisan függetlenek Autokorreláció: a hibatagok lineárisan nem függetlenek Heteroszkedaszticitás: a hibák szórásnégyzete nem konstans 2

Multikollinearitás (Ragnar Frisch) A standard lineáris regressziós modell feltételezi, hogy a magyarázó változók egymástól lineárisan függetlenek Ha azonban valamelyik magyarázó változó kifejezhető a többi tényező lineáris kombinációjaként (azaz függvényszerű kapcsolatban áll a többi magyarázó változóval) akkor multikollinearitásról beszélünk Ha a magyarázó változók lineárisan nem függetlenek A becslés és az előrejelzés torzított marad A regressziós együtthatók standard hibái nőnek A becsléseink bizonytalanná válnak Az egyes magyarázó változók hatásainak elkülönítése nem lehetséges Nagymértékű redundáns információk A multikollinearitás mérése szintetikus mutatóval A magyarázó változók determinációs együtthatóinak összege, ha megegyezik a többszörös determinációs együttható értékével, akkor nem áll fenn a magyarázó változók között multikollinearitás =,,, VIF (Variance Inflation Factors) Varianciainflációs tényező azt mutatja, hogy a j- edik változó becsült együtthatójának varianciája hányszorosa annak, ami a multikollinearitás teljes hiányakor lenne Ezért ezt a mutatószámot a j-edik változóhoz tartozó variancianövelő tényezőnek nevezzük = 1 1 VIF Minimális értékét, az 1-et akkor veszi fel, amikor a j-edik magyarázó változó nem korrelál a többivel Ahogy nő az R 2 j, úgy nő a VIF értéke is, jelezve, hogy a kollinearitás hányszorosára növeli a varianciával mért becslési hibát Ha R 2 j =1 a VIF mutató nem értelmezhető, ez a teljes vagy extrém multikollinearitás A VIF reciprokát toleranciamutatónak nevezik VIF meghatározása A magyarázó változók korrelációs mátrixának inverzéből A főátló elemei Nepesseg Analfabetak Jovedelem Fagyos_napok Nepesseg 1,25 0,08-0,35 0,55 Analfabetak 0,08 2,17 0,63 1,34 Jovedelem -0,35 0,63 1,35 0,00 Fagyos_napok 0,55 1,34 0,00 2,08 3

VIF értékei 1 2 gyenge 2 5 erős (zavaró) 5 felett nagyon erős (káros) multikollinearitás Multikollinearitás csökkentése Változók törlése Ridge regresszió használata Ez a többszörös regresszió-analízis olyan változata, amely kezeli a multikollinearitást Autokorreláció A hibatagok lineárisan nem függetlenek Az autokorreláció különböző rendű lehet, attól függően, hogy a hibatag i- edik értéke melyik értékkel van kapcsolatban Ha a hibatag i-edik értéke közvetlenül az előtte lévő értékkel áll korrelációs kapcsolatban, akkor elsőrendű autokorreláció-ról beszélünk Az elsőrendű autokorreláció modellje: Az elsőrendű autokorreláció mérése Durbin-Watson teszt: Lineáris autokorrelációs együttható: Durbin-Watson teszt döntési táblája A Durbin-Watson teszt döntési szabálya Alternatív hipotézis Ho: ró=0 Elfogadjuk Elutasítjuk Nincs döntés Ró>0 d>du d<dl dl d du Ró<0 d<4-du D>4-dL 4-dL d 4-dU Ha a teszt alapján nem tudunk döntést hozni, vagyis a próbafüggvény értéke a semleges zónák valamelyikébe esik, akkor több lehetőséggel is élhetünk: A modell paramétereinek a becslését újra el kell végezni, de nagyobb minta alapján Meg kell változatni a szignifikancia-szintet úgy, hogy döntési helyzetbe kerüljünk Más próbafüggvényt kell alkalmazni 4

Heteroszkedaszticitás Heteroszkedaszticitás tesztelése Ki kell számítani külön az egyes magyarázó változóknak, illetve a becsült eredményváltozóknak a reziduumok abszolút értékeivel való szorosságát jellemző lineáris korrelációs együtthatót, amelyek közül a legnagyobb abszolút értékű kerül tesztelésre Ha a nullhipotézist elvetjük, akkor a modell heteroszkedasztikusnak tekinthető A többszörös lineáris regressziószámítás lépései 1 Modellalkotás, változók bevonása 2 Illeszkedés vizsgálata 3 Korrelációs index, determinációs együttható 4 Variancia-analízis, F-próba 5 Együtthatók t-próbája 6 Validálás Korrelációs mátrix Gyilkossag Nepesseg Analfabetak Jovedelem Fagyos_napok Gyilkossag 1,00 0,34 0,70-0,23-0,54 Nepesseg 0,34 1,00 0,11 0,21-0,33 Analfabetak 0,70 0,11 1,00-0,44-0,67 Jovedelem -0,23 0,21-0,44 1,00 0,23 Fagyos_napok -0,54-0,33-0,67 0,23 1,00 M 1 =0,39 Multikollinearitás Illeszkedésvizsgálat Gyilkossag = Nepesseg + Analfabetak + Jovedelem + Fagyos_napok Együtthatók: Estimate Std Error t value Pr(> t ) (Intercept) 1,235e+00 3,866e+00 0,319 0,7510 Nepesseg 2,237e-05 9,052e-06 2,471 0,0173 * Analfabetak 4,143e+00 8,744e-01 4,738 2,19e-05 *** Jovedelem 1,611e-06 1,709e-05 0,094 0,9253 Fagyos_napok 5,813e-04 1,005e-02 0,058 0,9541 --- Signif codes: 0 *** 0,001 ** 0,01 * 0,05 0,1 1 Residual standard error: 2,535 on 45 degrees of freedom Multiple R-squared: 0,567, Adjusted R-squared: 0,5285 F-statistic: 14,73 on 4 and 45 DF, p-value: 9,133e-08 5

Magyarázó változók bevonása, törlése 1 Lépésenkénti (Stepwise) regresszió 1 Fordward 2 Backward 3 Vegyes módszer (mixed) 2 Hatványhalmaz regresszió (All subset regresszió) Halmaz részhalmazainak száma Pl négyelemű halmaz Részhalmaz 2 = Egy elemű 4 Két elemű 6 Három elemű 4 Négy elemű 1 Száma Hatványhalmaz regresszió A legjobb modell kritériumai Nem létezik egyetlen legjobb modell mérőszám A végső modell kiválasztása a becslési pontosság és az egyszerűség kompromisszuma Ockham borotvája filozófiai elv Occam elve Mindig a legegyszerűbb, a legkevesebb feltételezéssel élő magyarázatot kell elfogadni William Ockham, XIV sz, angol filozófus (1285 vagy 1300 1349 vagy 1350) Modellek vizsgálata Beágyazott modellek vizsgálata ANOVA-val AIC (Akaike information criterion) A kisebb érték jelenti az adekvátabb modellt Nem feltétel, hogy a modell beágyazott legyen 6

Beágyazott modellek 1 Modell Gyilkosságok=a+b 1 Analfabéták+b 2 Lakosság 2 Modell Gyilkosságok=a+b 1 Analfabéták+b 2 Lakosság +b 3 Jövedelem+b 4 Fagyos_napok AIC (Akaike, 1973) = / + 2 Ahol n: a minta elemszáma SSE: a maradékok eltérés-négyzetösszege P: a modell paramétereinek száma (konstans is) Mérések, megfigyelések korrigálása 1 Töröljük a befolyásos értékeket 2 Transzformáljuk a változókat 3 Töröljünk vagy adjunk hozzá változókat 4 Használjunk másik regressziós modellt 1 Megfigyelések törlése A kiugró értékek törlése sokszor javít a normális eloszlás feltételén A befolyásos értékek törlése után a modellt újból becsülni kell Az újabb diagnosztika lehet, hogy újabb befolyásos vagy kiugró értékeket jelez Ekkor addig kell ismételni a modell becslést, amíg elfogadható eredményt nem kapunk 2 Változók transzformálása 1 A modell nem teljesíti a normális eloszlást 2 A linearitás feltétele nem teljesül 3 Heteroszkedasztikus a modell 21 Nem normális eloszlás esetén A függő változó (y) transzformálása segíthet y értékét y λ értékére cserélhetjük Arány, hányados esetén logit transzformáció λ gyakori értékei: -2; -1; -0,5; 0,5; 2 vagy log(y) balra ferde eloszlás esetén EZ NEVEZIK BOX-COX TRANSZORMÁCIÓNAK 7

22 Nemlinearitás esetén A magyarázó változók (x) transzformálása segíthet A hatványkitevők becslése a 23 Heteroszkedasztikus modell esetén Függő változó (y) transzformációja, hatványkitevő keresése BOX-TIDWELL TRANSZFORMÁCIÓ 3 Változók törlése vagy hozzáadása Törlés Multikollinearitás VIF (variance inflation factor) változása 4 Egyéb modellek Multikollinearitás esetén ridge regresszió Sok kiugró vagy befolyásos érték esetén robusztus regresszió Nem normális eloszlás esetén nemparaméteres regresszió Nemlinearitás esetén nemlineáris regresszió Maradékok nem függetlenek többlépcsős regresszió A modell általánosíthatósága Hogyan működne a modellünk a valóságban, milyen pontos előrejelzést tehetünk vele? Szigorúbb validálási eljárások Kereszt validálás (crossvalidation) Különböző adatokon végezzük el a regressziós modell illesztését és a validációt Paraméterek becslése ( training sample ) Validáció ( hold-out sample ) 8

K-szoros kereszt-validáció Svájci bicska A teljes mintát k-számú véletlen mintára osztjuk A k számú alminták egy csoportja a validációt, a maradék k-1 csoportok kombinációja a modell optimalizálását szolgálja Amikor a k egyenlő n-nel, a megfigyelések számával, ezt nevezik az angol szakirodalomban jackknifing -nek Törölt maradékok A magyarázó változók relatív jelentősége = ( ) Standardizált regressziós együtthatók becslése Változókat standardizáljuk Standardizált együttható = Path koefficiens Standardizált regressziós együtthatók Estimate Std Error t value Pr(> t ) Nepesseg 0,270510 0,108274 2,498 0,0161 * Analfabetak 0,684050 0,142792 4,791 1,77e-05 *** Jovedelem 0,010724 0,112560 0,095 0,9245 Fagy_napok 0,008185 0,140019 0,058 0,9536 Std regressziós együttható értelmezése A magyarázó változó egy szórásnyi növekedése a függő változó szórását a standardizált regressziós együttható értékével növeli meg vagy csökkenti, attól függően, hogy milyen az előjele A többi magyarázó változó értéke ilyenkor állandó, nem változik Nincs tengelymetszet! 9

Több változó ábrázolása Háromdimenziós ábra Regressziós sík Több változó ábrázolása Háromdimenziós ábra Regressziós sík 10