GVMST22GNC Statisztika II.

Hasonló dokumentumok
Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Korrelációs kapcsolatok elemzése

Statisztika elméleti összefoglaló

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Regressziós vizsgálatok

Korreláció és lineáris regresszió

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Matematikai statisztikai elemzések 6.

Többváltozós lineáris regressziós modell feltételeinek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Lineáris regressziószámítás 1. - kétváltozós eset

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Bevezetés a Korreláció &

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Regresszió számítás az SPSSben

5. előadás - Regressziószámítás

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Többváltozós Regresszió-számítás

Matematikai geodéziai számítások 6.

Kvantitatív statisztikai módszerek

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Matematikai geodéziai számítások 6.

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

A valószínűségszámítás elemei

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

KÖVETKEZTETŐ STATISZTIKA

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Regressziós vizsgálatok

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

[Biomatematika 2] Orvosi biometria

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

[Biomatematika 2] Orvosi biometria

Függetlenségvizsgálat, Illeszkedésvizsgálat

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai statisztika c. tárgy oktatásának célja és tematikája

A leíró statisztikák

Adatok statisztikai értékelésének főbb lehetőségei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Korreláció számítás az SPSSben

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

(Independence, dependence, random variables)

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biostatisztika VIII. Mátyus László. 19 October

BIOMATEMATIKA ELŐADÁS

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A Statisztika alapjai

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

A többváltozós lineáris regresszió 1.

Mérési adatok illesztése, korreláció, regresszió

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Számítógépes döntéstámogatás. Statisztikai elemzés

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

y ij = µ + α i + e ij

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Az állat becsült kor. teljes súly. teljes hossz orrtól. törzs hossza. pocak körkörös méret. hátsó láb hossza kör

Biometria gyakorló feladatok BsC hallgatók számára

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Normális eloszlás tesztje

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Hipotézis vizsgálatok

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Diagnosztika és előrejelzés

GYAKORLÓ FELADATOK KORRELÁCIÓ- ÉS REGRESSZIÓ-SZÁMÍTÁS

TÖBBVÁLTOZÓS KORRELÁCIÓ- ÉS

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

egyetemi jegyzet Meskó Balázs

Készítette: Fegyverneki Sándor

Ökonometriai modellek paraméterei: számítás és értelmezés

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Valószínűségi változók. Várható érték és szórás

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Segítség az outputok értelmezéséhez

[Biomatematika 2] Orvosi biometria

Átírás:

GVMST22GNC Statisztika II. 4. előadás: 9. Kétváltozós korreláció- és regressziószámítás Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Korrelációszámítás Mennyiségi ismérvek közötti összefüggés vizsgálata. Korrelációszámítás Fennáll-e kapcsolat az ismérvek között, milyen erősségű. Regressziószámítás Összefüggésekben rejlő tendenciák matematikai függvényekkel való leírása.

Kétváltozós korrelációszámítás Korrelációszámítás Kapcsolat intenzitásának és irányának mérése. A kapcsolat mérőszámainál elvárt tulajdonságok: Ha nincs összefüggés: az érték 0. Ha (lineáris) függvényszerű kapcsolat: az érték 1, vagy -1. A kapcsolat szorosságának mérőszámai: 1 Kovariancia 2 Lineáris korrelációs együttható 3 Rangkorrelációs együttható

Kovariancia Kovariancia Két valószínűségi változó, ξ és η kovarianciája cov(ξ, η) = M([ξ M(ξ)] [η M(η)]) Az átlagtól való eltérések szorzatának átlaga. Tulajdonságok 1 cov(ξ, η) = M(ξη) M(ξ)M(η). 2 Ha ξ, η függetlenek cov(ξ, η) = 0. Fordítva NEM igaz! 3 HA ξ, η eloszlása kétváltozós normális, akkor cov(ξ, η) = 0 függetlenek.

Kovariancia számítás Adott sokaság, 2 ismérv, lehetséges értékei X 1,..., X s ; Y 1,..., Y t. Az együttes valószínűség p ij = P(X = X i, Y = Y j ); a peremvalószínűségek p i = P(X = X i ), p j = P(Y = Y j ). Ekkor cov(x, Y ) = t j=1 i=1 s p ij X i X j M(X ) M(Y ) ahol M(X ) = s i=1 p i X i, M(Y ) = t j=1 p jy j

Kovariancia véges sokaság Adott sokaság, 2 ismérv, lehetséges értékei X 1,..., X s ; Y 1,..., Y t. Az együttes gyakoriság a peremgyakoriságok p ij = f ij N = g ij; p i = f i N = g i, p j = f j N = g j. C XY = 1 N = = t t s j=1 i=1 j=1 i=1 t j=1 i=1 ( s f ij X i X j 1 N 2 i=1 ( s s g ij X i X j i=1 s g ij X i X j X Ȳ g i X i ) f i X i ) t j=1 t j=1 g j Y j f j Y j =

Egyedi adatok Ha minden értékpár csak egyszer fordul elő Ekkor C XY = 1 N N i=1 (X i X )(Y i Ȳ ) = N i=1 d X i d Yi N

Tulajdonságok 1 Előjelét a d Xi d Yi szorzatösszeg előjele adja meg 2 Elemszámtól független 3 Szorosabb korreláció nagyobb érték 4 Korrelátlanság esetén C XY = 0 5 Ismérvek függetlensége esetén C XY = 0. 6 Ha C XY 0 értéke függ a mértékegységtől normált (0 és 1 közötti) mérőszámot keresünk. 7 Mennyi a maximális érték??

Lineáris kapcsolat Tegyük fel, hogy lineáris a kapcsolat X és Y között: Y i = a + b X i d Yi = Y i Ȳ = (a + b X i ) (a + b X i ) = b d Xi Ebből: C XY = 1 N N i=1 d X i d Yi = σx σ Y. Fordítva is igaz! Ha C XY = σ X σ Y, a kapcsolat lineáris.

Lineáris korrelációs együttható Korrelációs együttható Sztochasztikus kapcsolatok szorosságát mérő dimenzió nélküli mérőszám. Lineáris (Pearson-féle) korrelációs együttható R(ξ, η) = cov(ξ, η) D(ξ)D(η) 0 R(ξ, η) 1 Szoros kapcsolat esetén R(ξ, η) közel az 1-hez. Ha R(ξ, η) = 0 akkor függetlenek. Véges sokaság esetén R XY = C XY σ X σ Y

Lineáris korreláció becslése ahol ˆR XY = 1 n n i=1 ξ iη i ˆµ X ˆµ Y ˆσ X ˆσ Y ˆµ X, ˆµ Y lehetséges mintaátlagok ˆσ X, ˆσ Y szórásbecslések n a minta elemszáma x, ȳ a mintaátlagok s x, s y tapasztalati szórások Konkrét minta esetén: 1 n xi y i xȳ dxi d yi r xy = = s x s y d 2 xi = d 2 yi xi y i n xȳ x 2 i n x 2 y 2 i nȳ 2

Rangkorrelációs együttható lineáris korreláció arányskálán mérhető ismérvek esetén rangkorreláció sorrendi (ordinális) skálán mérhető ismérvek esetén ρ = 1 6 N i=1 (X i Y i ) 2 N(N 2 1) becslőfüggvénye: ˆρ = 1 6 N i=1 (ξ i η i ) 2 n(n 2 1)

Az elméleti regresszió az egyik ismérv (változó) hogyan hat a másikra Feltételes várható érték Ha ξ {x 1,..., x s }, η {y 1,..., y t } diszkrét valósz.-i változók, h η (x i ) = M (η ξ = x 1 ) = M (η x 1 ) = t y j P(η = y j ξ = x i ) = j=1 az η várható értéke a ξ = x i feltétel esetén. A h η az η valószínűségi változó ξ-re vonatkozó regressziós függvénye. Grafikonja diszkrét pontokból áll. Ha ξ, η folytonos valószínűségi változók, h η = M(η ξ = x) = yf (y x)dy t j=1 p ij p i

Az elméleti regresszió tulajdonságok Ha ξ és η függetlenek, akkor h η (x) = M(η ξ = x) = M(η) független x-től. Az együttes eloszlás ismeretében a regressziófüggvény egyértelműen megadható Ha ξ, η együttes eloszlása normális, egymásra vonatkozó regressziófüggvényeik lineárisak: h η (x) = β 0 + β 1 x, ahol cov(ξ, η) β 0 = M(η) D 2 (ξ) M(ξ) β 1 = M(ξη) M(ξ)M(η) M(ξ 2 ) M 2 (ξ) = cov(ξ, η) D 2 (ξ).

A tapasztalati regresszió Diszkrét értékek esetén p ij = P(X = X i Y = Y j ) = f ij N így h Y (X i ) = t j=1 ahol Y i, X j részátlagok. p i = P(X = X i ) = f i N s Y j f ij f i = Y i h X (Y i ) = i=1 X i f ij f j = X j

Tapasztalati regresszió Grafikus ábrázolás Bruttó átlagkereset (e Ft) Bruttó átlagkereset (e Ft) Szolgálati idő Szolgálati idő Tapasztalati regressziófüggvény. A különböző ismérvértékekre (v. osztályközökre) számolt részátlagok (h X (Y i )) alkotta függvény.

A tapasztalati regressziófüggvény tulajdonságai Bruttó átlagkereset (e Ft) Szolgálati idő Korrelációs kapcsolat esetén a pontok a regressziófüggvény körül szóródnak. Kisebb szóródás szorosabb kapcsolat. Függvényszerű kapcsolat esetén a pontok a függvényre esnek Függetlenség esetén a függvény konstans.

A regressziófüggvény paramétereinek meghatározása A függvénykapcsolatot v. közeĺıtését nem mindig egy egyenes írja le a legjobban. 1 A regressziófüggvény szabálytalan 2 A regressziófüggvény ismeretlen. Analitikus függvényt választunk melyre M ( [ξ h ξ (η)] 2) és M ( [η h η (ξ)] 2) minimális. Ez az analitikus regressziófüggvény. lineáris regresszió hatványkitevős (v. multiplikatív) regresszió exponenciális regresszió parabolikus regresszió hiperbolikus regresszió

A legkisebb négyzetek módszere A függvénytípus után meg kell határozni paramétereit is. A legkisebb négyzetek módszere Lineáris regresszió; a függvény h Y (x) = y = β 0 + β 1 x ahol β 0, β 1 minimalizálja E(β 0, β 1 )-t. E(β 0, β 1 ) = N i=1 E 2 i = N (Y i β 0 β 1 X i ) 2 i=1 Bruttó átlagkereset (e Ft) Szolgálati idő β 0 = ( Y i ) ( Xi 2 ) ( Xi ) ( ) X i Y i N Xi 2 ( X i ) 2 = Ȳ X C XY σx 2 β 1 = N X i Y i ( X i ) ( Y i ) N Xi 2 ( X i ) 2 = C XY σx 2

A regressziófüggvény értelmezése A regressziós egyenes egyenlete y Ȳ = C XY σx 2 lényegében y = C XY x (x X ), X a független-, v. magyarázóváltozó, Y a függő- v. eredményváltozó β 1 az egyenes meredeksége; X egységnyi változása mekkora változást okoz Y -ban β 0 a függvény értéke az X = 0 helyen (pl pályakezdők fizetése).

A lineáris regresszió együtthatóinak becslése A (torzítatlan!) becslőfüggvények ˆβ 0 = ( η i ) ( ξi 2 ) ( ξi ) ( ξ i η i ) n ξi 2 ( ξ i ) 2 ˆβ 1 = n ξ i η i ( ξ i ) ( η i ) n ξ 2 i ( ξ i ) 2 Konkrét mintában b 0 = ( y i ) ( xi 2 ) ( xi ) ( ) x i y i n xi 2 ( x i ) 2 b 1 = n x i y i ( x i ) ( y i ) n x 2 i ( x i ) 2

A normálegyenletek megoldása Explicit képlettel (ld. fent) Transzformált normálegyenletekkel Mátrixalgebrai műveletekkel (ez főleg később lesz segítség).

A változók felcserélhetősége Kölcsönhatás esetén tetszőleges a változók szerepe. ŷ = b 0 (y x) + b 1 (y x)x b 1 (y x) = dx d y d 2 x ˆx = b 0 (x y) + b 1 (x y)y b 1 (x y) = dx d y d 2 y A két egyenes nem esik egybe. Legyen r 2 xy = b 1 (x y)b 1 (y x) Ha nincs korreláció: r xy = b 1 = 0, az egyenesek a tengellyel párhuzamosak, egymásra merőlegesek. Lineáris kapcsolat esetén r xy = 1, így b 1 (x y) = 1 b 1 (y x), a két egyenes egybeesik. Sztochasztikus kapcsolat esetén a közelség a kapcsolat szorosságától függ.

A rugalmassági együttható (elaszticitás) Elaszticitás Az egyik változó relatív változása a másik változó milyen mértékű relatív változását eredményezi. Mérésére a rugalmassági (elaszticitási) együttható (E) szolgál. E (y x) = dy dx x y. y-t becsüljük, így esetünkben Ê (y x) = dŷ dx x ŷ. E < 1 Y rugalmatlan X változásaival szemben E = 1 Y arányosan változik X változásaival szemben Itt E > 1 Y rugalmas X változásaival szemben Ê (y x) = b 1 x b 0 +b 1 x Szokásosan átlagpontban vizsgálva: Ê (y x= x) = b 1 x b 0 +b 1 x = b 1 x ȳ

A standard lineáris modell A lineáris sztochasztikus kapcsolat: M(Y X = X i ) = β 0 + β 1 X i. Ȳ i = β 0 + β 1 X i, azaz ha Y i = β 0 + β 1 X i + E i, akkor M(E) = 0. minta alapján η i = β 0 + β 1 X i + ε i, ε i valószínűségi változó. Bármi lehet! Standard lineáris modell 1 ε i (illetve η i ) normális eloszlásúak 2 cov(ε i, ε j ) = 0 ha i j 3 M(ε i ) = 0 4 D(ε i ) = σ (független X i -től)

Becslés során elkövetett hibák Kétféle hiba: 1 Mintából becsült paraméterek; becslés tehát nem pontos. 2 Az ismérvek között csak sztochasztikus kapcsolat van, nem függvényszerű, csak azt a részt kapjuk meg Y -ból, ami X -ből következik. Ha X i rögzített, a becslőfüggvények ˆβ 0 = ( η i ) ( Xi 2 ) ( Xi ) ( X i η i ) n Xi 2 ( X i ) 2 ˆβ 1 = n X i η i ( X i ) ( η i ) n Xi 2 ( X i ) 2 = ( (Xi X ) 2 η i ) (Xi X ) 2 Mindkettő az η i valószínűségi változók lineáris kombinációja.

A becslőfüggvények tulajdonságai 1 M( ˆβ 0 ) = β 0, M( ˆβ 1 ) = β 1 torzítatlanok 2 Szórásuk, azaz a becslés standard hibája megadható: D( ˆβ 0 ) = σ ˆβ0 = σ D( ˆβ 1 ) = σ ˆβ1 = σ 3 A becslés konzisztens. X 2 i n d 2 X 1 n d 2 X Itt σ az ε (nem ismert) szórása külön becsülni kell a mintából.

Minta szórásának becslése Az elméleti szórás: D(ε) = σ ε A mintából becsült szórás: ˆσ ε = 1 n (ηi ŷ i ) 2 Konkrét mintából becsült szórás: s e = e 2 i n 2 Itt ei 2 a minimalizálni kívánt négyzetösszeg, n 2 pedig a szabadságfokok száma torzítatlan becslés.

A regressziós becslés abszolút és relatív hibája Abszolút hiba Kifejezi, hogy a regressziós becslések (ŷ i ) átlagosan mennyivel térnek el az eredményváltozó (y i ) megfigyelt értékeitől. Itt s e, ld. fent, vagy s e = s y 1 r 2 Relatív hiba Kifejezi, hogy a regressziós becslések átlagosan hány %-kal térnek el az eredményváltozó megfigyelt értékeitől. Itt: V e = sē y. A gyakorlatban 10% alatti relatív hiba esetén jó a regressziós becslés.

A paraméterek intervallumbecslése Belátható, hogy β 1 ˆβ 1 σ ˆβ 1 n 2 szabadságfokú Student t-eloszlást követ. 1 α valószínűségi szint esetén ( ) β 1 b 1 t α (1 2 ) s b 1 ; b 1 + t α (1 2 ) s b 1 ( ) β 0 b 0 t α (1 2 ) s b 0 ; b 0 + t α (1 2 ) s b 0

Regressziós becslések és prognózisok A regressziós függvény minden x 0 értékre kidob egy ŷ 0 -t. Ez mit jelent? 1 Az Ȳ 0 = M(Y X = X 0 ) becslése. 2 Annak becslése, hogy (X 0, Y 0 ) minta esetén y 0 mekkora lehet. 1. Az x 0 értékhez tartozó feltételes várható érték intervallumbecslése. A ŷ 0 szórása meghatározható (itt: konkrét mintára): 1 sŷ0 = s e n + (x 0 x) 2 (x x) 2 (Ez x közelében a legjobb, távolodva romlik a becslés.) A konfidenciaintervallum pedig: ( ) ŷ 0 t α (1 2 ) s 1 e n + (x 0 x) 2 (x x) 2 ; ŷ 0 + t α (1 2 ) s 1 e n + (x 0 x) 2 (x x) 2

Regressziós becslések és prognózisok 2. Az egyedi y 0 becslések konfidenciaintervalluma... ha egy hiányzó Y 0 adatot kívánunk becsülni adott X 0 helyen. Y 0 = ˆβ 0 + ˆβ 1 X 1 + ε 0 = ŷ 0 + ε 0 σ 2 Y 0 = σ 2 ŷ 0 + σ 2 e A Y 0 szórása meghatározható (itt: konkrét mintára): 1 sŷ0 = s e n + (x 0 x) 2 (x x) 2 + 1 A ( konfidenciaintervallum pedig: ŷ 0 t α (1 2 ) s e 1 n + (x 0 x) 2 (x x) 2 + 1; ŷ 0 + t (1 α 2 ) s e ) 1 n + (x 0 x) 2 (x x) 2 + 1

A regressziófüggvény hipotézis-ellenőrzése A regressziófüggvény mintából származik, kérdés érvényes-e a sokaságra is. 1 Szignifikáns-e β 1? 2 Szignifikáns-e maga a regressziófüggvény? (két ismérv esetén a kettő ugyanaz)

A regressziós együttható (β 1 ) tesztelése Feltételezzük, hogy nincs korreláció, a tapasztalati paraméter b 1 0-tól való eltérését a véletlen okozza. H 0 : β 1 = 0, H 1 : β 1 0. n elemű minta esetén β 1 ˆβ 1 ˆσ ˆβ1 n 2 szabadságfokú t-eloszlást követ. α szignifikanciaszinten elfogadjuk, ha t = b 1 s b1 < t (n 2) 1 α 2

Varianciaanaĺızis a regressziószámításban y i = ŷ i + e i 1 y i : az Y megfigyelt értéke (X = x i ) 2 ŷ i = b 0 + b 1 x i : az x i -hez tartozó regressziós becslés 3 e i : maradéktag v. reziduum. n i=1 (y i ȳ) 2 = n i=1 (ŷ i ȳ) 2 + n i=1 (y i ŷ) 2 SST = SSR + SSE reziduális négyzetösszeg SSE = 0 függvényszerű kapcsolat. SSE 0 sztochasztikus kapcsolat.

Varianciaanaĺızis 2 A szórásnégyzet Eltérés- Szabadságfok Átlagos forrása négyzetösszeg négyzetösszeg Regresszió SSR = (ŷ i ȳ) 2 1 (ŷi ȳ) 2 1 (yi ŷ) 2 Hibatényező SSE = (y i ŷ) 2 n 2 Teljes SST = (y i ȳ) 2 n 1 Hipotézisvizsgálat: tagadjuk a regresszió létezését. H 0 : β 1 = 0 és H 1 : β 1 0 SSR = külső; SSE = belső szórás F -próba. Konkrét minta esetén: F 0 = SSR 1 SSE F (1) (n 2) n 2 n 2

Szorosság mérése varianciaanaĺızis-tábla alapján Determinációs együttható (r 2 ) A regresszió által megmagyarázott eltérés-négyzetösszegnek az y teljes eltérés-négyzetösszegéhez való aránya. r 2 = SSR SST = SST SSE SST = 1 SSE SST

Diagnosztikai tesztek Diagnosztikai teszt Értékeli a modellt; levont következtetések valódiságát támasztja alá. A reziduális változó tapasztalati értékeit (e i ) vizsgáljuk. Megfelel az elméleti ε i -nek hasonló tulajdonságokkal kell, hogy rendelkezzen. Például: a hibatényező szórása állandó nem jó, ha nő a szórás!

Robusztus becslési módszerek Mérési hibák: pontatlan adatok, eĺırás, stb. robusztus becslési módszerek: kevésbé érzékenyek. Nyesett átlag: elhagyunk nα megfigyelést a rangsor két szélén, majd újra becslés.

Nemlineáris regresszió Ha az X változó hatása Y -ra függ X nagyságától nemlineáris regresszió. Fontosabb típusai: hatványkitevős exponenciális parabolikus hiperbolikus A paraméterek meghatározására legkisebb négyzetek módszere.

Parabolikus regressziófüggvény Az eltérés-négyzetösszeg: ŷ = b 0 + b 1 x + b 2 x 2 f (b 0, b 1, b 2 ) = (y i ŷ i ) 2 = (y i b 0 b 1 x i b 2 x 2 i ) 2 A 0-val egyenlővé tett b 0, b 1, b 2 szerinti parciális deriváltakból kapjuk a normálegyenleteket: yi =b 0 n +b 1 xi +b 2 x 2 i xi y 1 =b 0 xi +b i x 2 i +b 2 x 3 i x 2 i y i =b 0 x 2 i +b 1 x 3 i +b 2 x 4 i Mikor használjuk? Ha a két változó közötti összefüggés iránya megváltozik Gyakori, hogy azt vizsgáljuk, hol maximális.

Hatványkitevős regressziófüggvény ŷ = b 0 x b 1 log ŷ = log b 0 + b 1 log x lineáris kapcsolat log x és log y között. Megoldás, mint a lineáris regressziónál A hatványkitevő a rugalmassági együtthatóval azonos. 1%-kal nagyobb x értékhez hány %-kal nagyobb y tartozik.

Exponenciális regressziófüggvény ŷ = b 0 b 1 x log ŷ = log b 0 + log b 1 x lineáris kapcsolat x és log y között. A b 1 arra ad választ, hogy a tényezőváltozó egységnyi növekedése hányszorosára változtatja az eredményváltozó értékét.

9.8. Feladat 19 ország adatai alapján vizsgálták az 1 lakosra jutó GDP, X és az 1000 lakosra jutó személygépkocsik száma, Y közötti összefüggést. Számítási eredmények: Lineáris regressziófüggvény: ŷ = 83, 4 + 0, 0935x. A megfigyelt változók szórásai: σ (x) = 1149; σ (y) = 120, 5. lg x = 67, 57, (lg y) 2 = 107, 5812, lg y = 44, 7463, (lg x lg y) = 160, 0585, (lg x) 2 = 240, 8056.

9.8. Feladat Feladat: a) Milyen szoros a kapcsolat a két ismérv között? b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? c) Írjuk fel a hatványkitevős regresszió normálegyenleteit és számítsuk ki a paramétereket! d) Értelmezzük mindkét regressziófüggvény b 1 paraméterét! e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár!

9.8. Feladat Megoldás a) Milyen szoros a kapcsolat a két ismérv között? A kapcsolat szorosságát a kovarianciával, vagy lineáris korrelációs együtthatóval mérhetjük. Tudjuk, hogy β 1 = cov(ξ, η) D 2 (ξ) cov(ξ, η) = β 1 D 2 (ξ) cov(ξ, η) = 0, 0935 1149 2 = 123439 R(ξ, η) = cov(ξ, η) D(ξ)D(η) R(ξ, η) = 123439 = 89, 1% 1149 120, 5

9.8. Feladat Megoldás b) Hány %-ban játszik szerepet az X ismérv az Y szórásában? A determinációs együttható (r 2 ) határozza meg. r 2 = R 2 (ξ, η) = 0, 891 2 = 79, 5%. Az X ismérv az Y szórását 79,5%-ban határozza meg.

9.8. Feladat Megoldás c) Írjuk fel a hatványkitevős regresszió normálegyenleteit és számítsuk ki a paramétereket! Hatványkitevős regressziófüggvény:ŷ = b 0 x b 1 azaz lg ŷ = lg b 0 + b 1 lg x. Normálegyenletek: lg yi = n lg b 0 + b 1 lg xi lg xi lg y i = lg b 0 lg xi + b 1 lg x 2 i 44, 75 = 19 lg b 0 + 67, 57b 1 160, 06 = 67, 57 lg b 0 + 240, 81b 1 b 1 = 1, 83, lg b 0 = 4, 165, azaz b 0 = 0, 000068, így ŷ = 0, 000068x 1,83.

9.8. Feladat Megoldás d) Értelmezzük mindkét regressziófüggvény b 1 paraméterét! Lineáris regresszió: Ha a GDP 1000 dollárral nő, akkor 1000 lakosonként 93,5 autóval több lesz. Hatványkitevős regresszió: Ha a GDP 1%-kal nő, (kb.) hány %-kal nő az 1000 lakosra jutó gépkocsik száma.

9.8. Feladat Megoldás e) Adjunk becslést egy olyan országra, amelynek az 1 lakosra jutó GDP-mutatója 7200 dollár! Lineáris regresszió: ŷ = 83, 4 + 0, 0935x = 83, 4 + 0, 0935 7200 = 589, 8. Hatványkitevős regresszió: ŷ = 0, 000068x 1,83 = 0, 000068 7200 1,83 = 807, 2.