Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hasonló dokumentumok
Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Többváltozós lineáris regressziós modell feltételeinek

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Korreláció és lineáris regresszió

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Lineáris regressziószámítás 1. - kétváltozós eset

[Biomatematika 2] Orvosi biometria

Statisztika elméleti összefoglaló

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Bevezetés a hipotézisvizsgálatokba

[Biomatematika 2] Orvosi biometria

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Adatok statisztikai értékelésének főbb lehetőségei

Bevezetés a Korreláció &

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

A mérési eredmény megadása

GVMST22GNC Statisztika II.

Regressziós vizsgálatok

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Regresszió számítás az SPSSben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mérési adatok illesztése, korreláció, regresszió

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Többváltozós Regresszió-számítás

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

5. előadás - Regressziószámítás

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Az állat becsült kor. teljes súly. teljes hossz orrtól. törzs hossza. pocak körkörös méret. hátsó láb hossza kör

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Hipotézis vizsgálatok

Normális eloszlás tesztje

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Korrelációs kapcsolatok elemzése

Statisztika Elıadások letölthetık a címrıl

Diagnosztika és előrejelzés

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Több valószínűségi változó együttes eloszlása, korreláció

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

A többváltozós lineáris regresszió 1.

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

y ij = µ + α i + e ij

A Statisztika alapjai

Segítség az outputok értelmezéséhez

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Biometria gyakorló feladatok BsC hallgatók számára

A leíró statisztikák

Számítógépes döntéstámogatás. Statisztikai elemzés

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

[Biomatematika 2] Orvosi biometria

Mérési hibák

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Kísérlettervezés alapfogalmak

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Varianciaanalízis 4/24/12

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Ökonometria gyakorló feladatok 1.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biostatisztika VIII. Mátyus László. 19 October

KÖVETKEZTETŐ STATISZTIKA

egyetemi jegyzet Meskó Balázs

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Kísérlettervezés alapfogalmak

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Hipotézis vizsgálatok

Regressziós vizsgálatok

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Matematikai statisztika c. tárgy oktatásának célja és tematikája

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Átírás:

Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: November 4, 2006 Version 1.25

Table of Contents 1 Lineáris regresszió 3 2 A hibatag 9 3 Az α és β paraméterek becslése 10 3.1 ε szórásának becslése........ 17 4 A paraméterek konfidencia-intervallumai 18 5 A korrelációs és determinációs együttható 19

Section 1: Lineáris regresszió 3 1. Lineáris regresszió Eddig egyszerre csak egy valószínűségi változót vizsgáltunk. Most két valószínűségi változóközti kapcsolatról, összefüggésről lesz szó. Példa. Hogyan függ a szarvasmarhák övmérete a testsúlyuktól? 10 elemű mintánkat az alábbi táblázat tartalmazza.

Section 1: Lineáris regresszió 4 testsúly övméret 440 180 442 182 450 182 458 183 460 184 470 184 475 185 480 186 490 187 495 188

Section 1: Lineáris regresszió 5 Általában, minél nagyobb a testsúly, annál nagyobb az övméret. Legyen X a testsúlya, Y pedig az övmérete ugyanannak az állatnak. Feltesszük, hogy a kapcsolat lineáris a két változó között, amely a következő egyenlettel írható le: Y = β X + α + ε, ahol α és β két ismeretlen paraméter. Ezek mutatják meg, hogy milyen a kapcsolat a két változó között. A regresszióanaĺızis segítségével becsüljük meg a két paraméter értékét.

Section 1: Lineáris regresszió 6 Az ε pedig a véletlentől függő hibatag. Ez okozza a különbözőségeket egy adott X értékhez tartozó Y értékek között. X a magyarázó, vagy független változó, míg Y a magyarázott, vagy függő változó. A két változó közti kapcsolat pozitív, ha növekvő X értékekhez egyre nagyobb Y értékek tartoznak (azaz β > 0). Negatív kapcsolat esetén pedig növekvő X értékekhez egyre kisebb Y értékek tartoznak (vagyis β < 0).

Section 1: Lineáris regresszió 7 Készítsünk szórásdiagramot a fenti táblázat alapján: Jól látható az összefüggés pozitív jellege.

Section 1: Lineáris regresszió 8 A következő ábrákon példát láthatunk pozitív, negatív öszzefüggésre, illetve olyan esetre, amikor nincs összefüggés a két változó között (β = 0).

Section 2: A hibatag 9 2. A hibatag Az ε véletlen hibatag származhat a mérés pontatlanságából, elhanyagolt hatásokból, valamint a mintavételi hibából. A következőket tételezzük fel ε-ról: 1. ε várható értéke nulla. (Ezért Y várható értéke βx + α.) 2. ε szórása minden megfigyelt értékre ugyanaz. 3. ε értékei függetlenek az X változótól és egymástól (azaz, minden X érték esetén a fellépő ε értékek függetlenek egymástól). Ezért Y ak-

Section 3: Az α és β paraméterek becslése 10 tuális értékét csak a hozzá tartozó X érték befolyásolja, a többi nem. 4. ε normális eloszlású minden X esetén (így adott X esetén Y normális eloszlású). 3. Az α és β paraméterek becslése Ezeket az X és Y mért értékeiből kell becsülnünk, a legkisebb négyzetek módszerével. A mért értékpárokat reprezentáló (x i, y i ) pontok és az ezekre legjobban illeszkedő egyenes:

Section 3: Az α és β paraméterek becslése 11 Tehát y i a mért pontok második koordinátái, Y i pedig az egyenes x i -hez tartozó pontjának második koordinátája. A legkisebb négyzetek módszere azt

Section 3: Az α és β paraméterek becslése 12 az egyenest határozza meg, amelyre a n (Y i y i ) 2 i=1 kifejezés a legkisebb. Ez az összeg a becslés hibája. Jelöljük az α és β becsült értékeit a-val (ez a tengelymetszet) és b-vel (ez a regressziós együttható). Ezek értékei a minta alapján:

Section 3: Az α és β paraméterek becslése 13 b = n (x i x)(y i ȳ) i=1, n (x i x) 2 i=1 a = ȳ b x, ahol n a megfigyelések száma. A példánkban: b = 0, 125 és a = 125.5. Nyilvánvaló, hogy a és b értéke függ azon pontoktól, amelyekre illesztjük az egyenest. Tehát a és b is

Section 3: Az α és β paraméterek becslése 14 valószínűségi változó. A b eloszlása normális, várható értéke β, szórása pedig σ s x n, ahol s x = n (x i x) 2 i=1 n 1 σ pedig az ε hiba elméleti szórása.,

Section 3: Az α és β paraméterek becslése 15 Az a eloszlása normális, várható értéke α, szórása pedig ahol még σx 2 s x n, x 2 = n i=1 x2 i n.

Section 3: Az α és β paraméterek becslése 16 Megfigyelések: Ha ε szórása (σ) kicsi, akkor b szórása kicsi. Minél több adatunk van, b szórása annál kisebb (sok adat esetén a pozitív és negatív hibák kiegyenĺıtik egymást). b szórása annál kisebb, minél nagyobb X szórása.

Section 3: Az α és β paraméterek becslése 17 3.1. ε szórásának becslése Legyen e i := y i (α + βx i ). Ennek alapján az ε szórásának becslése: n e 2 i i=1 s ε = n 2 Itt n 2-vel osztunk, mert két becsült paraméter szerepel a képletben. Példánkban s ε = 0.558.

Section 4: A paraméterek konfidencia-intervallumai 18 Mivel ismerjük ε szórásának becslését, meg tudjuk becsülni a és b szórását is: s b = s ε n sx, s a = s ε x 2 n sx Példánkban s a = 4.52 és s b = 0.0097. 4. A paraméterek konfidencia-intervallumai Az a és b paraméterekre vonatkozó 95%-os konfidenciaintervallumok:

Section 5: A korrelációs és determinációs együttható 19 [b 2s b, b + 2s b ], [a 2s a, a + 2s a ] Magához az illesztett egyeneshez is megadható 95%- os konfidenciaintervallum (konfidencia sáv). 5. A korrelációs és determinációs együttható Kérdés: az előbbi módon adatainkra illesztett egyenes mennyire jól írja le a kapcsolatot? Mennyire szorosan illeszkednek a pontok az egyeneshez? Milyen erős lineáris kapcsolat van a két változónk között?

Section 5: A korrelációs és determinációs együttható 20 A kapcsolat erősségét a korrelációs együttható méri. Ezt R(X, Y ) jelöli. Tulajdonságai: 1 R(X, Y ) 1 R(X, Y ) előjele egyenlő β előjelével. Ha a megfigyelések pontosan illeszkednek az egyeneshez, akkor pozitív irányú kapcsolat esetén R(X, Y ) = 1, negatív irányú kapcsolat esetén R(X, Y ) = 1.

Section 5: A korrelációs és determinációs együttható 21 Ha R(X, Y ) = 0, akkor a két változó korrelálatlan. R(X, Y ) lehet 0 akkor is, ha létezik kapcsolat X és Y között, de az nem lineáris. A korrelációs együttható becslése a mintából: Megfigyeléseink: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) (n darab). Ekkor

Section 5: A korrelációs és determinációs együttható 22 r xy = n (x i x) (y i ȳ) i=1 (n 1) s x s y, ahol x, ȳ a változók mintaátlaga, s x és s y a becsült szórások. Belátható, hogy

Section 5: A korrelációs és determinációs együttható 23 r xy = n (x i x) (y i ȳ) i=1 n (x i x) 2 i=1 i=1, n (y i ȳ) 2 Francis Anscombe (Yale University): négy olyan adathalmaz, amelyek főbb jellemzői (korreláció, a, b) ugyanazok. Azonban a két változó közti kapcsolat teljesen más jellegű.

Section 5: A korrelációs és determinációs együttható 24 1. Jó illeszkedés:

Section 5: A korrelációs és determinációs együttható 25 2. Görbe:

Section 5: A korrelációs és determinációs együttható 26 3. Kiütő érték:

Section 5: A korrelációs és determinációs együttható 27 4. Izolált pont:

Section 5: A korrelációs és determinációs együttható 28 Hipotézisvizsgálat a korrelációs együtthatóra: H 0 : R(X, Y ) = 0, H 1 : R(X, Y ) 0. A vizsgálat menete hasonló az eddigiekéhez. Például: egy 10 elemű mintában két dolgot mértünk. Legyen r xy = 0.35. A hipotézisvizsgálat során annak valószínűségét számítjuk ki, hogy ekkora értéket kapjunk, ha a két változó korrelálatlan. Ha ez a valószínűség kicsi (pl. < 95%), akkor elutasítjuk a

Section 5: A korrelációs és determinációs együttható 29 H 0 -t; ellenkező esetben elfogadjuk. Nézzük meg, hogy pontosan mit számolunk ki. Itt is eltérés négyzetösszegeket vizsgálunk, mint egy általános varianciaanaĺızis esetén. Az Y változó teljes eltérés négyzetösszege: SSQ t = n (y i ȳ) 2. i=1 Ennek szabadsági foka n 1, hiszen ȳ becsült paraméter. A reziduumok négyzetösszege:

Section 5: A korrelációs és determinációs együttható 30 SSQ r = n [y i (a + bx i )] 2. i=1 Ennek a szabadsági foka n 2, hiszen a is és b is becsült paraméter. Belátható, hogy minden esetben SSQ t SSQ r. Az SSQ r SSQ t különbséget regressziós négyzetösszegnek, vagy magyarázott négyzetösszegnek, vagy a modellhez tartozó négyzetösszegnek is szokták ne-

Section 5: A korrelációs és determinációs együttható 31 vezni. Két mennyiséget szokás figyelni: 1. F = SSQ r SSQ t SSQ r n 2 Ez nagy, ha X és Y között szoros a kapcsolat; egyébként kicsi. 2. R 2 = SSQ r SSQ t SSQ r Ez 0 és 1 közti értékeket vehet fel, és F -hez hasonlóan viselkedik.

Section 5: A korrelációs és determinációs együttható 32 Ha X-ről és Y -ról tudjuk, hogy normális eloszlásúak, akkor bebizonyítható, hogy ha semmi kapcsolat nincs közöttük, akkor a fenti F -statisztika F -eloszlású (1, n 2) szabadsági fokokkal, így hipotézisvizsgálatot végezhetünk az alábbi hipotézisekre: H 0 : H 1 : X és Y független (a regresszió a semmit magyarázza), X és Y között van kapcsolat. Az R 2 -ről pedig belátható, hogy a korrelációs e- gyüttható négyzete. Ezt szokták determinációs

Section 5: A korrelációs és determinációs együttható 33 együtthatónak is nevezni, és azt fejezi ki, hogy az X változó milyen mértékben határozza meg az Y változó értékét. Példánk esetén: F = 162.22 és R 2 = 0.9546.