4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Hasonló dokumentumok
[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Korreláció és lineáris regresszió

Adatok statisztikai értékelésének főbb lehetőségei

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Hipotézis vizsgálatok

Regressziós vizsgálatok

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

y ij = µ + α i + e ij

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Matematikai geodéziai számítások 6.

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Bevezetés a hipotézisvizsgálatokba

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Matematikai geodéziai számítások 6.

Mérési adatok illesztése, korreláció, regresszió

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Több valószínűségi változó együttes eloszlása, korreláció

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A mérési eredmény megadása

Varianciaanalízis 4/24/12

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika elméleti összefoglaló

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

6. Előadás. Vereb György, DE OEC BSI, október 12.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Többváltozós Regresszió-számítás

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Bevezetés a Korreláció &

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

[Biomatematika 2] Orvosi biometria

Számítógépes döntéstámogatás. Statisztikai elemzés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kettőnél több csoport vizsgálata. Makara B. Gábor

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Biomatematika 2 Orvosi biometria

Hipotézis vizsgálatok

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Lineáris regressziószámítás 1. - kétváltozós eset

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Biometria gyakorló feladatok BsC hallgatók számára

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Korrelációs kapcsolatok elemzése

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Biostatisztika VIII. Mátyus László. 19 October

Mérési hibák

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Biostatisztika Összefoglalás

Logisztikus regresszió október 27.

A leíró statisztikák

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Biomatematika 2 Orvosi biometria

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biostatisztika Összefoglalás

Regresszió. Fő cél: jóslás Történhet:

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Kísérlettervezés alapfogalmak

Likelihood, deviancia, Akaike-féle információs kritérium

Alkalmazott statisztika feladatok

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Minitab 16 újdonságai május 18

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Matematikai statisztikai elemzések 6.

Regresszió számítás az SPSSben

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Least Squares becslés

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Átírás:

1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb 16,4 évnél? Regresszióanalízis Két vagy több mennyiség egymástól való függésének mértékét határozza meg relációanalízis azt vizsgáljuk, hogyan változik egy vagy több változó értéke egy másik változó változásának függvényében. (független változónak (predictor) függő vagy eredmény (outcome) változó) Két vagy több változó közöq a függvényszerű kapcsolatot, az egyenletben szereplő állandók azonban nem szükségszerűen ismertek A regresszióanalízis technikát szolgáltat az állandók meghatározásához adoq megbízhatósági intervallummal. Korrelációanalízis A stasszskai eljárás egy állandót (korrelációs együ:ható) határoz meg, amely a változók közöt kapcsolat szorosságát méri; a módszer a korrelációanalízis. A császármetszéssel születeq csecsemők gyakorisága az anya cipőméretétől függően. A változókat törvények kapcsolják össze, ezért a változók közöt kapcsolat egyenlet formájában fejezhető ki. Előfordul, hogy nincs törvényszerű kapcsolat a változók közöq. Ebben az esetben is megkísérelhetünk egy függvényszerű kapcsolatot felállítani a változók közöq, ez a regressziós függvény vagy egyenlet. két változó közöt szignifikáns regressziós kapcsolat nem jelens feltétlenül, hogy közöqük oksági összefüggés van, a kapcsolat csupán egy érvényes jóslást ad arra nézve, hogyan változik a függő változó a független változó változásának hatására. 1

Lineáris regresszió A regresszióanalízis speciális esete, amikor a két vagy több változó közöq lineáris kapcsolat van. A lineáris kapcsolat grafikus képe két változó esetén egyenes, a kapcsolatot kifejező egyenest regressziós egyenesnek; többváltozós esetben regressziós síknak nevezzük. Legyenek két egymástól nem független véletlen változó (X, Y) egymáshoz tartozó értékpárjai a következők: Ha a független változót X - el, a függő változót Y - nal jelöljük, a lineáris kapcsolatra jellemző egyenlet a következő: a kis cipőméret (angol mértékegység) jelezhes a keskeny csípővel járó szülési nehézséget. a tengelymetszet, b az egyenes meredeksége, E pedig egy véletlen változó, amelynek átlaga 0. E a hiba változó, amely Y - nak azt a részét reprezentálja, amely nem magyarázható meg X változásával. A legkisebb négyzetek módszere Az egyenes egyenlete: Az a és b állandók megfelelő megválasztásával elérhető, hogy a véletlen eltérések négyzeteinek összege minimális legyen az egyenes körül: A matemaskai eljárás végeredményeként az egyenes meredeksége: Az illeszkedés akkor lesz a lehető legjobb, ha elhelyezkedését úgy választjuk meg, hogy az eltérések összege minimális legyen az Y egyenes körül, azaz a regresszióval nem megmagyarázható különbség a lehető legkisebb legyen. Az Y változó X változóra vonatkozó regressziós egyenletének hívjuk Standard deviáció számítása Ahhoz, hogy kiszámítsuk a b regressziós együqható standard deviációját, hasonlítsuk össze a mérésekhez kapcsolódó y i adatok szóródását a regressziós egyenes pontjainak (Y i ) szóródásával az körül 2

A regressziós becslés standard hibáját a maradék négyzetösszeg, a regresszióval nem megmagyarázható variancia adja: A regressziós együqhatóra vonatkozó hipotézisvizsgálat A regresszióval nem megmagyarázható eltérés az esetek nagy hányadában véletlen hibáknak tulajdonítható ezért feltételezhetjük, hogy a különböző x i hez tartozó y i mérési eredmények a valódi vagy populáció regressziós egyenes körül normális eloszlást alkotnak, és a variancia nem függ x től. A regressziós együqható b normális eloszlású véletlen változó, így a b/se(b) véletlen változó egy (n- 2) szabadsági fokú t- eloszlást követ. A populáció regressziós együqhatójára (β) vonatkozó nullhipotézis segítségével megvizsgálhatjuk, hogy a két változó kapcsolata valós összefüggést takar- e, vagy a kapcsolat csupán látszólagos. 1. t- teszt Nullhipotézis: a populáció β regressziós együqhatójának nullától való eltérése véletlen hatásoknak tulajdonítható. AlternaLv hipotézis: a β regressziós együqható a két változó közöt valós kapcsolatra utal. A nullhipotézis eldöntésére vonatkozó teszt stamszmka: Mivel b egyaránt lehet poziav és negaav, ezért a valószínűséget az eloszlás mindkét szélén meg kell vizsgálnunk (kétoldalú hipotézisvizsgálat). 2. ANOVA Nullhipotézis: a két variancia azonos populációból származik, a regresszióval magyarázható és a maradék variancia legfeljebb véletlen hatások miaq különbözhet egymástól. AlternaLv hipotézis: a két variancia eltérő populációból származik, a két változó kapcsolata reális összefüggést takar. 3

Példa Nullhipotézis: az anskoaguláns dózisa és a protrombin idő nincs kapcsolatban egymással. Ezzel egyenértékű megfogalmazás, hogy a populáció regressziós egyenesének együqhatója zérus AlternaLv hipotézis: a protrombin idő lineárisan függ az anskoaguláns koncentrációjától, azaz a valódi regressziós egyenes együqhatója zérustól különböző A hipotézis ellenőrzését elvégezhetjük akár a t- próba, akár az F- próba segítségével. Logisz5kus regresszió (dózis- válasz probléma) A betegségek gyógyszeres kezelésének alapvető problémája, hogy az azonos betegségben szenvedő páciensek hogyan reagálnak azonos gyógyszerrel történő kezelésre. Nyilvánvaló, hogy a biológiai variabilitás miaq adoq dózisra a válasz eltérő, egyesek már kisebb, mások csak nagyobb dózisra adják ugyanazt a választ. A dózis - válasz probléma megoldásának alapvető feltevése, hogy a dózisra adoq válasz valószínűsége egy viszonylag egyszerű, folytonos függvénnyel írható le. 4

Duncan és munkatársai (Anaesthesia 39. 426-428, 1984) 137 gyermeken (1-12 éves) végeztek megfigyeléseket. Trimeprazinnal történő előkezelés után, 2.0-2.8 mg/kg thiopentont adagoltak 0.5 mg/kg lépésekben minden páciensnek 10 másodperces intervallumban, és ezt követően a szempillareflexet figyelték 20 sec - en keresztül: Y = 1, ha volt válasz, Y = 0, ha nem volt válasz (12.7. ábra). Teszt a regresszió linearitásának ellenőrzésére Ha regressziós problémáról van szó, rendszerint először a lineáris kapcsolatot tételezzük fel az X és Y változók közöq, és kíséreljük meg az analízist a lineáris modell alapján. Sokszor ez a modell nem adekvát a probléma megoldására. A linearitás ellenőrzésének egy egyszerű sorrendbe állítoq y i - Y i különbségek előjelsorozatának véletlenségét vizsgálja. Fiatal leányok - 8 és 20 év közöq - átlagos szisztolés vérnyomása nem lineáris relációt követ. Az yi - Yi különbségeket vizsgálva, nagyobb életkorban ezek mind negaav előjelűnek adódnak Részletesebb vizsgálat azt mutatná, hogy a lineáris modell ebben az életkori tartományban elemzésre nem alkalmas. Célszerű választás a másodfokú parabolikus illesztés. 5