11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

Hasonló dokumentumok
Korreláció és Regresszió (folytatás) Logisztikus telítıdési függvény Több független változós regressziós függvények

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Regressziós vizsgálatok

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika elméleti összefoglaló

[Biomatematika 2] Orvosi biometria

Variancia-analízis (folytatás)

Korreláció és Regresszió

Korreláció és lineáris regresszió

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mérési adatok illesztése, korreláció, regresszió

Variancia-analízis (VA)

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Eloszlás-független módszerek 13. elıadás ( lecke)

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Többváltozós lineáris regressziós modell feltételeinek

[Biomatematika 2] Orvosi biometria

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Matematika III előadás

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Több valószínűségi változó együttes eloszlása, korreláció

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Regresszió számítás az SPSSben

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Matematikai statisztikai elemzések 6.

y ij = µ + α i + e ij

Adatok statisztikai értékelésének főbb lehetőségei

Regressziós vizsgálatok

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

6. előadás - Regressziószámítás II.

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Nemlineáris modellek

Statisztika I. 13. előadás Idősorok elemzése. Előadó: Dr. Ertsey Imre

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6.

Diagnosztika és előrejelzés

1. Görbe illesztés a legkissebb négyzetek módszerével

Nagy András. Feladatok a logaritmus témaköréhez 11. osztály 2010.

Termoelektromos hűtőelemek vizsgálata

Idősorok elemzése előadás. Előadó: Dr. Balogh Péter

3. Lineáris differenciálegyenletek

FIZIKAI KÉMIA II. házi dolgozat. Reakciókinetikai adatsor kiértékelése (numerikus mechanizmusvizsgálat)

Feladatok a logaritmus témaköréhez 11. osztály, középszint

Bevezetés a Korreláció &

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Bevezetés a hipotézisvizsgálatokba

Gépi tanulás a gyakorlatban. Lineáris regresszió

Lineáris regressziószámítás 1. - kétváltozós eset

A mérési eredmény megadása

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Többváltozós Regresszió-számítás

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

5. fejezet. Differenciálegyenletek

Compton-effektus. Zsigmond Anna. jegyzıkönyv. Fizika BSc III.

Túlélés analízis. Probléma:

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Számítógépes döntéstámogatás. Statisztikai elemzés

3. Egyenletek, egyenletrendszerek, egyenlőtlenségek

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

6. Folytonosság. pontbeli folytonosság, intervallumon való folytonosság, folytonos függvények

Bevezetés az ökonometriába

DIFFERENCIÁLEGYENLETEK. BSc. Matematika II. BGRMA2HNND, BGRMA2HNNC

Gyakorló feladatok. Agbeko Kwami Nutefe és Nagy Noémi

6. Függvények. 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban?

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

GVMST22GNC Statisztika II.

y + a y + b y = r(x),

1. Görbe illesztés a legkisebb négyzetek módszerével

Az állat becsült kor. teljes súly. teljes hossz orrtól. törzs hossza. pocak körkörös méret. hátsó láb hossza kör

6. feladatsor: Inhomogén lineáris differenciálegyenletek (megoldás)

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

A Föld középpontja felé szabadon eső test sebessége növekszik, azaz, a

Egyenletek, egyenlőtlenségek VII.

BIOMATEMATIKA ELŐADÁS

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

A többváltozós lineáris regresszió 1.

BIOMATEMATIKA ELŐADÁS

Korrelációs kapcsolatok elemzése

2. Hangfrekvenciás mechanikai rezgések vizsgálata jegyzőkönyv. Zsigmond Anna Fizika Bsc II. Mérés dátuma: Leadás dátuma:

Variancia-analízis (folytatás)

Folyadékszcintillációs spektroszkópia jegyz könyv

Gyakorló feladatok a 2. zh-ra MM hallgatók számára

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Bevezetés az elméleti zikába

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztikai módszerek a skálafüggetlen hálózatok

EGYENES ILLESZTÉSE (OFFICE

Line aris f uggv enyilleszt es m arcius 19.

Matematika gyógyszerészhallgatók számára. A kollokvium főtételei tanév

Egyenletek, egyenlőtlenségek V.

(Independence, dependence, random variables)

Modern Fizika Labor. A mérés száma és címe: A mérés dátuma: Értékelés: Infravörös spektroszkópia. A beadás dátuma: A mérést végezte:

Tartalomjegyzék. Tartalomjegyzék Valós változós valós értékű függvények... 2

Átírás:

Korreláció és Regresszió (folytatás) 11. elıadás (21-22. lecke) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények 21. lecke Linearitás ellenırzésének egyéb lehetıségei Konfidencia sáv Lineárissá transzformálható görbék (1) Hiperbolikus és logaritmikus függvény

2.) A modell módosítása Illesszünk egyenest az adatokra, az illeszkedési együtthatót jelölje R 2 L Illesszünk valamely görbülı függvényt az adatokra, ennek illeszkedése legyen R 2 M Ha R 2 M szignifikánsan nagyobb, mint R 2 L, akkor a lineáris tendencia feltevését elvethetjük Ajánlás: próbálkozzunk elıször másodfokú regressziós függvény (parabola) illesztésével, ha ennek illeszkedési együtthatója (R 2 Q) szignifikánsan felülmúlja az egyenes illeszkedését, akkor máris elvethetjük a lineáris kapcsolat feltételezését. Erre késıbb még kitérünk.

3.) Ismétléseink is vannak az egyes x i értékekhez Ha az X ható-változó változataihoz több y mért érték is tartozik (ez esetben X értékei általában nem véletlen, hanem beállított értékek (pl. dózis, évek /idısoroknál/), akkor az e i maradékokból leválasztható az ismétlések közötti szóródás ez utóbbi képezi a tiszta hibát, amelyhez tesztelhetjük az eltérésekbıl megmaradó variancia-hányadot, ami a nemlinearitás mértékét jelzi Az eljárást számpéldán mutatjuk be

Ismétlések is vannak (számpélda) Adatok x 1,5 2,1 2,8 3,5 y 2,9 4,5 5,9 5,7 3,7 4,4 6,6 6,3 3,3 3,8 6,4 6,1 4,9 6,7 6,2 Továbbá kell még f 3 4 3 5 n= f=15 SS 0,32 0,62 0,26 0,52 SShiba= SS=1,72 df= (f-1)=11 8 7 6 5 4 3 2 1 0 0 1 2 3 4 y Lineáris (y)

Ismétlések is vannak (a számpélda folytatása) A fenti adatokra egyenest illesztünk (Excel,Regresszió) df SS MS F P-érték Lin.Regresszió 1 19,28 19,28 56,4 0,000 Eltérés (maradék) 13 4,44 0,342 --- --- Összesen 14 23,72 --- --- --- A maradékot ketté bontjuk (nem.lin + hiba) és a HibaMS-hez viszonyítunk df SS MS F P-érték Lin.komponens 1 19,28 19,28 123,6 0,000 Nemlin.komponens 2 2,72 1,36 8,7 0,005 Hiba (ism.között) 11 1,72 0,156 --- --- Összesen 14 23,72 --- --- --- Megállapítás: A kapcsolat lineáris volta nem igazolt (P=0,005)

Konfidencia sáv Adott x értékhez a mintából számított ŷ becsült érték még hibával terhelt (itt ŷ = a + bx) Az α + ßx érték 95%-os konfidencia intervalluma ŷ ±t {HibaMS*[1/n + (x- x)/ss x ]}, itt t 5% szab.foka n-2 A felírt függvényt, mint x függvényét ábrázolva kapjuk a regressziós egyenes konfidencia sávját Hasonlóan nyerjük adott x-hez jósolható egyedi y érték konfidencia intervallumát és az ezekhez tartozó konfidencia sávot ŷ ±t {HibaMS*[1 + 1/n + (x- x )/SS x ]}

Konfidencia sáv képe 80 60 y 40 20 0 0 10 20 30 40 x Legszőkebb az x-átlag fölött

További megjegyzések a Lineáris Regresszióról A regressziós egyenes egyenlete felírható az alábbi alakokban is: a) y = y + b(x - x) b) ~ y= r ~ x ahol ~ ~ ~ és y a standardizált értékek: x i = ( x x) / sx x x és y szerepének felcserélésével az illesztett egyenes is megváltozik. Minél nagyobb r, annál közelebb van a két egyenes egymáshoz. Pontosabban: b yx b xy = r 2, ahol b yx az x y irányú regressziós együttható, b xy pedig az y x irányúé Ha y feltétezhetıen tendenciában arányos x-szel (azaz a=0), akkor az origón átmenı y = bx egyenest illesztjük (Excelben kipipáljuk a zéró legyen a konstans -t)

Nemlineáris Regressziók (görbe-illesztés) I. Lineárissá transzformálható kapcsolatok Jónéhány regressziós görbe-típus a változók alkalmas transzformációjával kiegyenesíthetı. Gyakran e transzformációk az eredetileg inhomogén hibaszórásokat is homogenizálják. Áttekintjük a gyakoribb típusokat - hiperbolikus- - logaritmus- - exponenciális- - és hatvány-függvénnyel leírható regressziós kapcsolatok

1) Két hiperbolikus regresszió a) y = a + b/x b) y = 1/(a + bx) Az a) esetben az x* =1/x reciprok transzformáció után y = a +bx* (lineáris), itt tehát az y i és az 1/x i adatokkal számolunk lineáris regressziós elemzést A b) esetben az y* = 1/y reciprok transzformáció után y* = a + bx (lineáris), itt tehát az 1/y i és az x i adatokkal számolunk lineáris regressziós elemzést Rajzoljuk fel a két görbét pozitív és negatív b-vel, telítıdési ill. kimerülési tendenciákat látunk

2) Logaritmikus regresszió y = a + b log(x), a log. alapja tetszıleges A kapcsolat lényege: y megváltozása ( y) arányos x relatív megváltozásával ( x/x-szel) Például, ha x-et megduplázzuk, y ugyanannyival nı, bármi volt is x (vagy y) Az x* = log(x) transzformáció után y = a +bx* (lineáris), itt az y i és a log(x i ) adatokkal számolunk lineáris regressziót E kapcsolatra példa: a hatás általában a dózis logaritmusával arányos dózis-hatás vizsgálatoknál.

KÖSZÖNÖM TÜRELMÜKET

22. lecke Az exponenciális és a hatvány tendencia linearizálása Parabola illesztés Mitscherich-féle tendencia

3) Exponenciális tendencia y = A*B x avagy b=lnb jelöléssel y = A*e bx A kapcsolat lényege:y relatív megváltozása ( y/y) arányos x megváltozásával ( x-szel). Speciálisan, ha x egy egységgel nı, közben y a B-szeresére változik (nı,ha B>1,csökken,ha B<1) A görbe x=0-nál a A szintrıl indul és exponenciálisan emelkedik (B>1) vagy 0-hoz közeledve csökken (B<1) Linearizálása: mindkét oldal logaritmusát véve lny = lna + (lnb)x = a + bx, tehát az y i *=lny i és az x i adatok között számolhatunk lineáris regressziót A gazdaságban és a biológiában a kezdeti fellendülı szakasz (B>1) ill. a leépülı szakasz (B<1) exponenciális

4) Hatványfüggvény kapcsolat (Cobb-Douglas függv.) y = A*x b, logaritmizálva logy = loga + blogx = a +bx* A linearizálás tehát: y* =logy, x* =logx A kapcsolat lényege:y relatív megváltozása ( y/y) arányos x relatív megváltozásával ( x/x-szel). Speciálisan, ha x egy %-kal emelkedik, eközben y b %-kal változik. b neve: elaszticitás x=1-nél y=a, innen a görbe fokozódó ütemben emelkedik, ha b>1,csökkenı ütemben nı, ha b 0 és 1 közé esik, és hiperbolaszerően csökken, ha b negatív A közgazdasági kapcsolatok jórésze hatványfüggvény alakú

Melyik regresszió-típust válasszuk A leginkább hiteles választási mód az elméleti megfontolás: felállítjuk a kapcsolat differenciál alakját, ebbıl már következik a megfelelı regresszió típusa, mint fentebb láttuk. Ez persze ritkán megy, ezért Ajánlható az adatpárok ábrázolása: különbözı transzformációk után mikor kapunk leginkább lineáris tendenciát. Az alkalmazott transzformáció egyértelmően jelzi a megfelelı görbe típusát, mint fentebb láttuk

Nemlineáris Regressziók (görbe-illesztés) II. Lineárissá nem transzformálható kapcsolatok Néhány olyan regresszió-típusról szólunk, ahol a kiegyenesítés nem lehetséges, vagy körülményes, vagy nem célszerő, mert megzavarja az alkalmazás feltételeit (normalitás, a varianciák homogenitása) - parabolikus regresszió - Mitscherlich-féle telítıdési görbe - logisztikus függvény

1) Parabolikus (másodfokú) regresszió A sokasági modell: Y i = α + ßx i + γx i2 + ε i A mintára átírt modell: y i = a + bx i + cx i2 + e i A paraméterek jelentése: - a= ŷ (fiktív) értéke x=0-nál, - b= a görbe meredeksége (változás sebessége) x=0-nál, - c= a görbülés mértéke (c=0-val egyenest kapunk) Az ε i hibatagokról feltesszük, hogy független N(0;σ) eloszlásúak Az a,b,c becslések (regressziós együtthatók) meghatározása az e i eltérések négyzetösszegének minimálásával történik

Parabola illesztés (fiktív numerikus példa) Adatok (az Excelben a számításokhoz csatolni kell az x 2 oszlopot) y x x 2 5,5 1 1 6,1 2 4 7,3 3 9 7,7 4 16 8,1 5 25 7,9 6 36 y 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 Var.Anal. df SS MS F P-érték R 2 Regresszió(parabola) 2 5,454 2,727 55,9 0,004 97,4% Eltérés (maradék) 3 0,146 0,049 --- --- Összesen 5 5,60 --- --- --- x

Parabola illesztés (példa folytatása) A Var. táblázatból leolvasható a parabolikus regresszió szignifikanciája (P=0,004<5%) Az Excel közli az a,b,c együtthatók értékeit, ezek szignifikanciáját és konfidencia határait is becslés P-érték 95%-os konfidencia-határok a= 4,06 0,002 2,80-5,32 b= 1,43 0,012 0,60-2,25 c= -0,129 0,038-0,244 - -0,014 A táblázat szerint mindhárom paraméter szignifikánsan eltér 0-tól A regressziós parabola becsült egyenlete: y = 4,06 + 1,43x 0,129x 2

Parabola illesztés: kiegészítések 1) Kell-e parabola (nem elég-e az egyenes?) Erre a kérdésre már a c paraméter szignifikancia-foka is válaszol, mégis nézzük meg, mi áll a háttérben - Illesszünk egyenest a pontokra (a var.táblázatot itt nem közöljük, beépítjük az alábbi bontott táblázatba Var.Anal. df SS MS F P-érték R 2 Regresszió(parabola) 2 5,454 2,727 55,9 0,004 97,4% = R Q 2 Ebbıl Lineáris hatás 1 4,837 4,837 98,7 0,002 86,4% = R L 2 Négyzetes hat. 1 0,617 0,617 12,7 0,038 11,0% Eltérés (maradék) 3 0,146 0,049 --- --- Összesen 5 5,60 --- --- ---

Parabola kiegészítések folytatása A példában a négyzetes hatás szignifikáns (P=0,038<5%), tehát a parabola jobb itt mint az egyenes 2) Az illeszkedés javulása az R 2 -ek alapján is megítélhetı: F = df hibaq (R Q2 R L2 )/(1 R Q2 )= 3(0,974-0,864)/(1-0,974) = 12,7 (mint fent) (itt Q a négyzetes /Quadratikus/ szóra utal) 3) Ha az egyes x értékekhez több y értét is tartozik, akkor a parabola illesztésének indokolt volta is tesztelhetı hasonló módon, ahogy azt a Valóban lineáris-e szakaszban tárgyaltuk

2) Mitscherlich-féle függvény y = A - Be -cx, (c>0 a hatás-koefficiens ) A görbe a A telítıdési szinthez emelkedıen közeledik, ha B pozitív. Ha B negatív, csökkenve közeledik a A kimerülési szinthez A kapcsolat differencia-alakja: y = c(a-y) x, azaz y változási üteme arányos A és y eltérésével Ha A ismert, a kapcsolat linearizálható, különben a paraméterek becslése csak valamely fokozatos közelítı módszer alkalmazásával megy

KÖSZÖNÖM TÜRELMÜKET