A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

Hasonló dokumentumok
Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Korreláció és lineáris regresszió

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Statisztika elméleti összefoglaló

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Többváltozós lineáris regressziós modell feltételeinek

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai becslés

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Regressziós vizsgálatok

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Mérési adatok illesztése, korreláció, regresszió

Segítség az outputok értelmezéséhez

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

A leíró statisztikák

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézis vizsgálatok

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Adatok statisztikai értékelésének főbb lehetőségei

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

: az i -ik esélyhányados, i = 2, 3,..I

Bevezetés a hipotézisvizsgálatokba

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezetés a Korreláció &

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Logisztikus regresszió október 27.

Regresszió számítás az SPSSben

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Lineáris regresszió vizsgálata resampling eljárással

Biomatematika 13. Varianciaanaĺızis (ANOVA)

A Statisztika alapjai

A többváltozós lineáris regresszió 1.

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Számítógépes döntéstámogatás. Statisztikai elemzés

Nemparaméteres próbák

Matematikai geodéziai számítások 6.

Diagnosztika és előrejelzés

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Matematikai geodéziai számítások 6.

Biostatisztika VIII. Mátyus László. 19 October

Valószínűségszámítás összefoglaló

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

[Biomatematika 2] Orvosi biometria

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Lineáris regressziószámítás 1. - kétváltozós eset

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Több valószínűségi változó együttes eloszlása, korreláció

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Valószínűségi változók. Várható érték és szórás

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Elemi statisztika fizikusoknak

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Biomatematika 2 Orvosi biometria

Minitab 16 újdonságai május 18

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Regresszió számítás. Tartalomjegyzék: GeoEasy V2.05+ Geodéziai Kommunikációs Program

5. előadás - Regressziószámítás

[Biomatematika 2] Orvosi biometria

Többváltozós Regresszió-számítás

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

[Biomatematika 2] Orvosi biometria

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Alkalmazott statisztika feladatok

Mérési hibák

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

13. Túlélési analízis. SURVIVAL ANALYSIS Nyári Tibor Ph.D., Boda Krisztina Ph.D.

Kettőnél több csoport vizsgálata. Makara B. Gábor

y ij = µ + α i + e ij

Az egyenlőtlenség mindkét oldalát szorozzuk meg 4 16-al:

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Megoldások. 1. Az alábbi hozzárendelések közül melyik függvény? Válaszod indokold!

1. Görbe illesztés a legkissebb négyzetek módszerével

Átírás:

Kabos: Adatelemzés Regresszió-1 Regresszió (az adatelemzésben): Y (x n ) = l(x n ) + ε n, n = 1, 2,.., N, ahol ε 1,.., ε N független N(0, σ 2 ) eloszlású valószínűségi változók, és σ ismeretlen paraméter, és l( ) ismert paraméteres függvény, és {x 1, x 2,.., x N } ismert értékek. Lineáris regresszió: l(x n a, b) = a + b x n ahol a és b ismeretlen paraméterek. Bemenő adatok: {(x 1, y 1 ), (x 2, y 2 ),.., (x N, y N )} ahol y n egy megfigyelés Y (x n )-re, n = 1, 2,.., N A modellben az X és Y változó szerepe nem egyenrangú: Y (x n ) valószínűségi változó, mely az X = x n esemény bekövetkezése mellett van értelmezve. X lehet valószínűségi változó (pl ha X=testmagasság és Y =testsúly, akkor Y (x n ) eloszlása írja le a populációban az x n testmagasságú emberek testsúlyának eloszlását), de az is lehet, hogy X nem-valószínűségi jellegű (pl x 1, x 2,.., x n ismert időpontok, amikor Y megfigyelhető). Lin.regresszió legkisebb négyzetes (LS) paraméterbecslése: az l(x a, b) függvény a és b paramétereinek azon értékei, melyre a ( 2 y n l(x n a, b)) négyzetösszeg a eléri a minimumát. Jelölés: â és ˆb és ˆσ 2 a lineáris regressziós modell paramétereinek LS becslése, és ŷ n SSQ Y = SSQ Y.R = SSQ Y.W = = l(x n â, ˆb) ( y n y ) 2 ( ŷ n ŷ ) 2 ( y n ŷ n ) 2 (az Y változón megfigyelt teljes SSQ) (a regresszió által megmagyarázott SSQ) (a meg nem magyarázott SSQ)

Kabos: Adatelemzés Regresszió-2 Ezek között a mennyiségek között fennáll az ANOVA egyenlet: SSQ Y = SSQ Y.R + SSQ Y.W Jegyezzük meg, hogy az ŷ n -ek átlaga = y n -ek átlaga, képletben: ŷ = 1 ŷ n = 1 y n = y N N és a lin.regressziós LS egyenes átmegy a (x, y ) ponton. LS paraméterbecslések: ˆσ 2 = 1 N 2 SSQ SCP XY Y.W és ˆb = SSQ X és â = y x ˆb ahol x = 1 N x n és SCP XY = (x n x ) (y n y ) SSQ X = (x n x ) 2 és SSQ Y = (y n y ) 2 r XY = SCP XY SSQX SSQ Y (tapasztalati korrelációs együttható) A tapasztalati korrelációs együttható négyzete: r 2 XY = SSQ Y.R SSQ Y A H 0 : b = 0 hipotézis azt jelenti, hogy az X változónak nincs lineáris hatása az Y változóra, de azt nem jelenti, hogy X és Y függetlenek lennének. H 0 vizsgálára a próbastatisztika S = (N 2) SSQ Y.R SSQ Y.W S F 1,(N 2) (szavakban: S eloszlása 1, (N 2) szab.fokú F ), ha H 0 igaz. Egyoldali próbát kell végezni, azaz a 0.05 szignifikancia szintű elfogadási tartomány felső határa az F 1,(N 2) eloszlás 0.95 kvantilise.

Kabos: Adatelemzés Regresszió-3 A regressziós egyenes illeszkedésére vonatkozó próbák, illetve a modell egyes paramétereire vonatkozó próbák az alábbi állításokon alapulnak: SSQ Y.W khi-négyzet eloszlású (N 2 szabadságfok mellett), SSQ Y.R khi-négyzet eloszlású (1 szabadságfok mellett) és függetlenek, â szórásnégyzete = 1 N σ2, ˆb szórásnégyzete = 1 SSQ X σ 2 Durbin-Watson próba statisztikája / N S = (y n ŷ n ) (y n 1 ŷ n 1 ) (y n ŷ n ) 2, ahol az n=2 y indexek úgy vannak rendezve, hogy x 1 x 2... x N teljesüljön. Ez a teszt azt vizsgálja, hogy az x-ben szomszédos y reziduumokban kimutatható-e autokorreláció. Regressziós függvény (a matematikai statisztikában) az l(x) = E { Y X = x } feltételes várhatóérték. Belátható, hogy ha {(x 1, y 1 ), (x 2, y 2 ),.., (x N, y N )} EVM az (X, Y ) valószínűségi változópárra, melynek eloszlása kétdimenziós normális, akkor l(x) lineáris függvény, melynek paramétereire az előző lapon írtak szerint lehet becslést adni ill. hipotézisvizsgálatot végezni. A lineáris regresszió LS paraméterbecslései max. likelihood tulajdonságúak és torzítatlanok. LS függvényillesztés: adott a G = { } g(x a, b, c, d,...) paraméteres függvény-család, az {(x 1, y 1 ), (x 2, y 2 ),.., (x N, y N )} ponthalmazhoz ( ) 2 megkeressük G azon elemét, melyre a y n g(x n a, b) négyzetösszeg eléri a minimumát.

Kabos: Adatelemzés Regresszió-4 Akkor beszélünk lineáris LS függvényillesztésről, amikor G az a, b, c,.. paraméterekben lineáris, tekintet nélkül arra, hogy az x argumentumban lineáris-e. Fix osztópontokkal vett szakaszonként lineáris függvényillesztés: { } G = szakaszonként lineáris, az osztópontokban (is) folytonos függvény függvény-családból választjuk ki az {(x 1, y 1 ), (x 2, y 2 ),.., (x N, y N )} ponthalmazhoz LS értelemben legjobban illeszkedő függvényt. Spline függvényillesztés egyik legegyszerűbb változatában G szakaszonként harmadfokú polinomokból áll, melyek az osztópontokban (is) folytonosak, első és második deriváltjaik szintén. G minden elemén értelmezve van egy simasági pontszám (a simább függvény kisebb pontszámot kap). A másik tekintetbe vett tényező az {(x 1, y 1 ), (x 2, y 2 ),.., (x N, y N )} pontoktól vett LS távolság. A felhasználó megadhat egy váltószámot (trade-off), amely meghatározza, hogy a célfüggvény milyen arányban vegye számításba a függvény simaságát, és milyen arányban az illeszkedést. A spline módszer ezekután kiválasztja a G családból a célfüggvény szerinti optimális elemet (optimalizálva az osztópontok számát és elhelyezkedését is). Fontos észrevenni, hogy az LS függvényillesztés és az azt követő módszerek tárgyalásakor nem volt szó statisztikai modellről, így itt a statisztikai következtetés szokott módszereit nem használhatjuk. Az itt elmondott heurisztikus eljások az elemzési gyakorlatban eléggé elterjedtek. Léteznek olyan standard statisztikai modellek, melyek hasonlóan flexibilisek, ámde ezek többnyire sztochasztikus szimuláción alapulnak, és eléggé intenzív a számításigényük.

Lineáris Regresszió Temperature monthly averages, April, 1901-2000 temperature ave 8 10 12 14 1900 1920 1940 1960 1980 2000 years Az 1901-2000 évek áprilisi havi középhőmérsékleti adatok és a (legkisebb négyzetek módszerével illesztett) regressziós egyenes. A megfigyelt adatokat zöld színű, a regressziós egyenest piros pontok jelzik. Az egyenes elhelyezkedése olyan, hogy a "lehető legközelebb" legyen az összes megfigyelt adathoz. A pont "távolsága" a regressziós egyenestől nem a mértani távolság szerint értendő. A mértanban az egyenesre merőlegesen kell mérni a távolságot, itt mindig az y-tengellyel párhuzamosan. Estimate Std. Error t value Pr(> t ) (Intercept) 10.76101 0.32049 33.576 0 (Slope) 0.01421 0.00551 2.578 0.0114 A lineáris regressziós becslés szerint az egyenes meredeksége 0.05 szinten szignifikáns, értéke pozitív. A számítás SSQ Y.R és SSQ Y.W értelmezésével kezdődik:

Lineáris regresszió Temperature monthly averages, April, 1976 2000 temperature ave 9 10 11 12 13 14 15 ŷ n y n ŷ n y n 1980 1985 1990 1995 2000 years A meg nem magyarázott négyzetösszeg = SSQ Y.W = (y n ŷ n ) 2 = a mintabeli értékek y n (zöld pont) és a regressziós egyenesen a megfelelő ŷ n (piros pont) távolságnégyzeteinek összege. A megmagyarázott négyzetösszeg = SSQ Y.R = (ŷ n ŷ ) 2

1901-2000 április hónapjainak napi átlaghőmérsékletei, boxplot ábrázolásban. A szaggatott vonal a mintaterjedelem (range), a doboz az interkvartilis, a fekete csillag a medián helyét jelenti. A kiugró értéket különálló pont ábrázolja. A piros pont = havi átlaghőmérséklet. Regresszió: X az évek 1901-2000, Y: a 3000 áprilisi napi átlaghőmérséklet Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 10.76101 0.142723 75.40 0 (Slope) 0.01421 0.002454 5.79 0.0000000078 R-squared: 0.01106 F-statistic: 33.52 on 1 and 2998 DF, p-value: 0.0000000078 Regresszió: X az évek 1901-2000, Y: a 100 áprilisi havi átlaghőmérséklet Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 10.76101 0.32049 33.576 0 (Slope) 0.01421 0.00551 2.578 0.0114 R-squared: 0.06352 F-statistic: 6.647 on 1 and 98 DF, p-value: 0.01142 Az együtthatók becslése változatlan, de változik az SH, a megmagyarázott szórásnégyzet aránya, a szignif szint.

Széria-korrelációs teszt Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.228691 0.602081 0.38 0.705 (Slope) 0.100622 0.005068 19.86 <2e-16 *** Multiple R-squared: 0.8009 F-statistic: 394.2 on 1 and 98 DF, p-value: < 2e-16

Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 4.56966 0.697176 6.555 2.62e-09 *** (Slope) 0.12003 0.006001 20.001 < 2e-16 *** Multiple R-squared: 0.8032 F-statistic: 400.1 on 1 and 98 DF, p-value: < 2e-16 Az ábrákon jól látjuk, hogy az első példában valóban lineáris kapcsolat van a két változó között, viszont a második példában nem. Arra kell felfigyelni, hogy az R 2 (korreláció négyzet) statisztika nem mutatja ezt a különbséget, sőt a 2. példában egy picit még nagyobb is a korreláció, mint az 1. példában. Kiválóan mutatja viszont a különbséget a Durbin-Watson széria-korrelációs teszt, mely az 1. példában nem szignifikáns, viszont a 2. példában igen.

40 000 érmedobás Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 9.883e+01 8.379e-01 118.0 <2e-16 *** (Slope) 6.561e-03 3.628e-05 180.8 <2e-16 *** Multiple R-squared: 0.4498 F-statistic: 3.24e+04 on 1 and 39998 DF, p-value:< 2e-16 A lineáris regresszió (az N = 40 000 mintanagyság ellenére) teljesen félrevezető eredményt ad, a regressziós egyenesnek sem a tengelymetszete, sem a meredeksége nem különbözhetne szignifikánsan 0-tól.

ISSP sport2007 adatfelvétel. tesmagasság és testsúly adatok Lineáris regresszió, két csoport WEIGHT 40 60 80 100 120 140 160 Finland Uruguay 120 140 160 180 200 HEIGHT Egy ábrán látjuk a finn (piros) és az uruguayi (kék) mintát, és a két mintára külön-külön illesztett regressziós egyenest. A Finnországi mintanagyság N = 1328 az átlagos magasság = 170.28 cm, átlagos súly = 75.26 kg Az Uruguayi mintanagyság N = 1298 az átlagos magasság = 166.81 cm, átlagos súly = 71.22 kg A két minta együtt: N = 2626 az átlagos magasság = 168.56 cm, átlagos súly = 73.25 kg Azt vizsgáljuk, különbözik-e a két mintában 1. a testsúly, 2. a testmagasság, 3. a testsúly és a testmagasság kapcsolata.

Regression HEIGHT ~ COUNTRY Analysis of Variance Table Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 166.8097 0.2588 644.628 <2e-16 *** COUNTRY 3.4697 0.3639 9.535 <2e-16 *** Regression WEIGHT ~ COUNTRY Analysis of Variance Table Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 71.2165 0.4290 166.019 < 2e-16 *** COUNTRY 4.0410 0.6032 6.699 2.55e-11 *** A regresszió magyarázó változója (COUNTRY) kétértékű, és azt jelzi, hogy az illető melyik országban él. A regresszió kimeneti változója a (HEIGHT) testmagasság ill. a(weight) testsúly. Az eredmények azt mutatják, hogy szignifikáns különbség van finnek és urugayiak között, mind testsúly, mind testmagasság tekintetében.

A most következő regressziós elemzésben becsült együtthatók: a tengelymetszet, az országonként különböző tengelymetszet, a testmagasság regressziós együtthatója, a testmagasság országonként különböző regressziós együtthatója. Multiple Regression WEIGHT ~ COUNTRY + HEIGHT + HEIGHT:COUNTRY Analysis of Variance Table Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -78.00582 15.19245-5.135 3.04e-07 *** COUNTRY 9.14895 9.51667 0.961 0.336 HEIGHT 0.90781 0.08944 10.150 < 2e-16 *** HEIGHT:COUNTRY -0.06147 0.05637-1.090 0.276 Multiple R-squared: 0.2549 F-statistic: 299.1 on 3 and 2622 DF, p-value: < 2.2e-16 Ha azokat a statisztikusokat követjük, akik a nem szignifikáns tényezőket eltávolítják a modellből, akkor az országonként különböző együtthatók kiesnek. Ezzel azt a választ kapjuk a bevezetőben írt 3. kérdésre, hogy ugyanaz a regressziós egyenes írja le a testsúly és testmagasság kapcsolatát mindkét országban.

Ebben az elemzésben a következő sorrendben vonjuk be a magyarázó változókat a modellbe: COUNTRY, HEIGHT, COUNTRY&HEIGHT interakcó Sequential ANOVA Analysis of Variance Table Model 1: WEIGHT ~ 1 Model 2: WEIGHT ~ COUNTRY Model 3: WEIGHT ~ COUNTRY + HEIGHT Model 4: WEIGHT ~ COUNTRY + HEIGHT + COUNTRY:HEIGHT Res.Df RSS Df Sum of Sq F Pr(>F) 1 2625 637451 2 2624 626732 1 10719 59.1780 2.024e-14 *** 3 2623 475154 1 151578 836.8168 < 2.2e-16 *** 4 2622 474939 1 215 1.1891 0.2756 Az eredmény úgy értelmezhető, hogy a COUNTRY önmagában jelentős magyarázóerőt képvisel, de a HEIGHT bevonása után az interakciós tagra már nincs szükség.

Ebben az elemzésben a következő sorrendben vonjuk be a magyarázó változókat a modellbe: HEIGHT, COUNTRY, HEIGHT&COUNTRY interakcó Sequential ANOVA Analysis of Variance Table Model 1: WEIGHT ~ 1 Model 2: WEIGHT ~ HEIGHT Model 3: WEIGHT ~ HEIGHT + COUNTRY Model 4: WEIGHT ~ HEIGHT + COUNTRY + HEIGHT:COUNTRY Res.Df RSS Df Sum of Sq F Pr(>F) 1 2625 637451 2 2624 476087 1 161364 890.8461 < 2e-16 *** 3 2623 475154 1 933 5.1487 0.02335 * 4 2622 474939 1 215 1.1891 0.27560 Az eredmény úgy értelmezhető, hogy a COUNTRY még a HEIGHT bevonása után is eléggé jelentős magyarázóerőt képvisel, de az interakciós tagra már nincs szükség.

Lineáris regresszió, két csoport WEIGHT 40 60 80 100 120 140 160 Finland Uruguay 120 140 160 180 200 HEIGHT Finland Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -68.85687 7.02370-9.803 <2e-16 *** (Slope) 0.84634 0.04119 20.548 <2e-16 *** Multiple R-squared: 0.2415 F-statistic: 422.2 on 1 and 1326 DF, p-value: < 2e-16 Uruguay Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -59.70792 6.42966-9.286 <2e-16 *** (Slope) 0.78487 0.03848 20.395 <2e-16 *** Multiple R-squared: 0.243 F-statistic: 416 on 1 and 1296 DF, p-value: < 2e-16

Lineáris regresszió, két csoport WEIGHT ~ polinom(height) WEIGHT 40 60 80 100 120 140 160 Finland Uruguay 120 140 160 180 200 HEIGHT Finland Coefficients: Estimate Std.Error t value Pr(> t ) (Intercept) 156.482210 108.38744 1.444 0.1491 (Slope) -1.790404 1.26627-1.414 0.1576 (2nd order) 0.007691 0.00369 2.083 0.0374 * Multiple R-squared: 0.244 F-statistic: 213.8 on 2 and 1325 DF, p-value: < 2e-16 Uruguay Coefficients: Estimate Std.Error t value Pr(> t ) (Intercept) 249.001457 73.32131 3.396 0.000704 *** (Slope) -2.915899 0.87645-3.327 0.000903 *** (2nd order) 0.011056 0.00261 4.226 2.54e-05 *** Multiple R-squared: 0.2533 F-statistic: 219.6 on 2 and 1295 DF, p-value: < 2e-16

Transzformált regresszió, két csoport log(weight) ~ HEIGHT WEIGHT 40 60 80 100 120 140 160 Finland Uruguay 120 140 160 180 200 HEIGHT Finland Multiple R-squared: 0.2671 F-statistic: 483.3 on 1 and 1326 DF, p-value: < 2e-16 Uruguay Multiple R-squared: 0.2549 F-statistic: 443.4 on 1 and 1296 DF, p-value: < 2e-16 A lineáris regressziós illeszkedés R 2 értékét felülmúlja a 2-rendű polinomiális illesztés, ezt felülmúlja a log transzormált illesztése, mindez azonban nem jelent statisztikai bizonyítékot arra, hogy a legjobban illeszkedő modell írja le legjobban az összefüggést.

160 170 180 190 200 60 80 100 120 140 160 180 Kvantilis regresszió HEIGHT WEIGHT : 0.95 kvantilis : 0.75 kvantilis : 0.5 kvantilis : 0.25 kvantilis : 0.05 kvantilis LS regresszió: a ( y n l(x n )) 2 min feltételt teljesítő egyenest választjuk. 0.5-kvantilis (=medián) regresszió: ugyanez, csak a y n l(x n ) min feltételt teljesítő egyenest választjuk. q kvantilis regresszió: legyen h(t) = { q t, ha t 0 (1 q) t, ha t < 0 és a h ( y n l(x n ) ) min feltételt teljesítő egyenest választjuk.

Monoton regresszió 300 EUR/HUF 280 260 240 2008JUL25 2008AUG14 2008SEP03 2008SEP23 2008OCT13 2008OCT31 2008NOV21 2008DEC12 2008DEC31 2009JAN21 2009FEB10 2009MAR02 2009MAR20 2009APR08 Monoton növekedő függvény f(x), ha x 1 < x 2 esetén f(x 1 ) f(x 2 ) teljesül. Monoton növekedő LS regresszió: ( 2 y n g(x n )) min feltételt teljesítő g G függvényt választjuk. Ez a g görbe egy lépcsősfüggvény. Az algoritmus az x-ek tartományát osztópontokkal intervallumokra osztja, a g függvény értéke egy-egy intervallumon belül nem változik, és egyenlő az ebbe az intervallumba eső x-ekhez tartozó y-ok átlagával. Ahol az EUR/HUF értéke folyamatosan emelkedik, ott ezek az intervallumok egészen rövidek (egy-egy nap), ahol EUR/HUF ingadozik, ott hosszabb intervallumok vannak (2008 október közepétől december végéig egy intervallum).

Lokális függvényillesztés Fix osztópontokkal vett szakaszonként lineáris függvényillesztésnél az x változó értéktartományában megadott osztópontok (az 1. példában egyenletesen elhelyezett 4 osztópont szerepel) meghatározta szakaszokon lineáris, az osztópontokban folytonosan illeszkedő töröttvonal közelíti az adathalmazt. A bemutatott példák rávilágítanak arra, hogy az osztópontok önkényes meghatározása jelentősen befolyásolja az eljárás megbízhatóságát.

A spline regressziós függvény itt alkalmazott változatában szakaszonként harmadfokú polinomokból áll, melyek az osztópontokban másodrendben folytonosan illeszkednek, ami azt jelenti, hogy az osztópontokban a függvény baloldali és jobboldali határértéke egyenlő, és ugyanez teljesül az első deriváltakra és a második deriváltakra is. A bemutatott 1. példában a spline függvény simább, de kevésbé illeszkedik az adathalmaz pontjaihoz, a 2. és a 3. példában a spline függvény egyre kevésbé sima, de ennek árán egyre jobb az adathalmaz pontjaihoz való illeszkedés.