1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb 16,4 évnél? Regresszióanalízis Két vagy több mennyiség egymástól való függésének mértékét határozza meg relációanalízis azt vizsgáljuk, hogyan változik egy vagy több változó értéke egy másik változó változásának függvényében. (független változónak (predictor) függő vagy eredmény (outcome) változó) Két vagy több változó közöq a függvényszerű kapcsolatot, az egyenletben szereplő állandók azonban nem szükségszerűen ismertek A regresszióanalízis technikát szolgáltat az állandók meghatározásához adoq megbízhatósági intervallummal. Korrelációanalízis A stasszskai eljárás egy állandót (korrelációs együ:ható) határoz meg, amely a változók közöt kapcsolat szorosságát méri; a módszer a korrelációanalízis. A császármetszéssel születeq csecsemők gyakorisága az anya cipőméretétől függően. A változókat törvények kapcsolják össze, ezért a változók közöt kapcsolat egyenlet formájában fejezhető ki. Előfordul, hogy nincs törvényszerű kapcsolat a változók közöq. Ebben az esetben is megkísérelhetünk egy függvényszerű kapcsolatot felállítani a változók közöq, ez a regressziós függvény vagy egyenlet. két változó közöt szignifikáns regressziós kapcsolat nem jelens feltétlenül, hogy közöqük oksági összefüggés van, a kapcsolat csupán egy érvényes jóslást ad arra nézve, hogyan változik a függő változó a független változó változásának hatására. 1
Lineáris regresszió A regresszióanalízis speciális esete, amikor a két vagy több változó közöq lineáris kapcsolat van. A lineáris kapcsolat grafikus képe két változó esetén egyenes, a kapcsolatot kifejező egyenest regressziós egyenesnek; többváltozós esetben regressziós síknak nevezzük. Legyenek két egymástól nem független véletlen változó (X, Y) egymáshoz tartozó értékpárjai a következők: Ha a független változót X - el, a függő változót Y - nal jelöljük, a lineáris kapcsolatra jellemző egyenlet a következő: a kis cipőméret (angol mértékegység) jelezhes a keskeny csípővel járó szülési nehézséget. a tengelymetszet, b az egyenes meredeksége, E pedig egy véletlen változó, amelynek átlaga 0. E a hiba változó, amely Y - nak azt a részét reprezentálja, amely nem magyarázható meg X változásával. A legkisebb négyzetek módszere Az egyenes egyenlete: Az a és b állandók megfelelő megválasztásával elérhető, hogy a véletlen eltérések négyzeteinek összege minimális legyen az egyenes körül: A matemaskai eljárás végeredményeként az egyenes meredeksége: Az illeszkedés akkor lesz a lehető legjobb, ha elhelyezkedését úgy választjuk meg, hogy az eltérések összege minimális legyen az Y egyenes körül, azaz a regresszióval nem megmagyarázható különbség a lehető legkisebb legyen. Az Y változó X változóra vonatkozó regressziós egyenletének hívjuk Standard deviáció számítása Ahhoz, hogy kiszámítsuk a b regressziós együqható standard deviációját, hasonlítsuk össze a mérésekhez kapcsolódó y i adatok szóródását a regressziós egyenes pontjainak (Y i ) szóródásával az körül 2
A regressziós becslés standard hibáját a maradék négyzetösszeg, a regresszióval nem megmagyarázható variancia adja: A regressziós együqhatóra vonatkozó hipotézisvizsgálat A regresszióval nem megmagyarázható eltérés az esetek nagy hányadában véletlen hibáknak tulajdonítható ezért feltételezhetjük, hogy a különböző x i hez tartozó y i mérési eredmények a valódi vagy populáció regressziós egyenes körül normális eloszlást alkotnak, és a variancia nem függ x től. A regressziós együqható b normális eloszlású véletlen változó, így a b/se(b) véletlen változó egy (n- 2) szabadsági fokú t- eloszlást követ. A populáció regressziós együqhatójára (β) vonatkozó nullhipotézis segítségével megvizsgálhatjuk, hogy a két változó kapcsolata valós összefüggést takar- e, vagy a kapcsolat csupán látszólagos. 1. t- teszt Nullhipotézis: a populáció β regressziós együqhatójának nullától való eltérése véletlen hatásoknak tulajdonítható. AlternaLv hipotézis: a β regressziós együqható a két változó közöt valós kapcsolatra utal. A nullhipotézis eldöntésére vonatkozó teszt stamszmka: Mivel b egyaránt lehet poziav és negaav, ezért a valószínűséget az eloszlás mindkét szélén meg kell vizsgálnunk (kétoldalú hipotézisvizsgálat). 2. ANOVA Nullhipotézis: a két variancia azonos populációból származik, a regresszióval magyarázható és a maradék variancia legfeljebb véletlen hatások miaq különbözhet egymástól. AlternaLv hipotézis: a két variancia eltérő populációból származik, a két változó kapcsolata reális összefüggést takar. 3
Példa Nullhipotézis: az anskoaguláns dózisa és a protrombin idő nincs kapcsolatban egymással. Ezzel egyenértékű megfogalmazás, hogy a populáció regressziós egyenesének együqhatója zérus AlternaLv hipotézis: a protrombin idő lineárisan függ az anskoaguláns koncentrációjától, azaz a valódi regressziós egyenes együqhatója zérustól különböző A hipotézis ellenőrzését elvégezhetjük akár a t- próba, akár az F- próba segítségével. Logisz5kus regresszió (dózis- válasz probléma) A betegségek gyógyszeres kezelésének alapvető problémája, hogy az azonos betegségben szenvedő páciensek hogyan reagálnak azonos gyógyszerrel történő kezelésre. Nyilvánvaló, hogy a biológiai variabilitás miaq adoq dózisra a válasz eltérő, egyesek már kisebb, mások csak nagyobb dózisra adják ugyanazt a választ. A dózis - válasz probléma megoldásának alapvető feltevése, hogy a dózisra adoq válasz valószínűsége egy viszonylag egyszerű, folytonos függvénnyel írható le. 4
Duncan és munkatársai (Anaesthesia 39. 426-428, 1984) 137 gyermeken (1-12 éves) végeztek megfigyeléseket. Trimeprazinnal történő előkezelés után, 2.0-2.8 mg/kg thiopentont adagoltak 0.5 mg/kg lépésekben minden páciensnek 10 másodperces intervallumban, és ezt követően a szempillareflexet figyelték 20 sec - en keresztül: Y = 1, ha volt válasz, Y = 0, ha nem volt válasz (12.7. ábra). Teszt a regresszió linearitásának ellenőrzésére Ha regressziós problémáról van szó, rendszerint először a lineáris kapcsolatot tételezzük fel az X és Y változók közöq, és kíséreljük meg az analízist a lineáris modell alapján. Sokszor ez a modell nem adekvát a probléma megoldására. A linearitás ellenőrzésének egy egyszerű sorrendbe állítoq y i - Y i különbségek előjelsorozatának véletlenségét vizsgálja. Fiatal leányok - 8 és 20 év közöq - átlagos szisztolés vérnyomása nem lineáris relációt követ. Az yi - Yi különbségeket vizsgálva, nagyobb életkorban ezek mind negaav előjelűnek adódnak Részletesebb vizsgálat azt mutatná, hogy a lineáris modell ebben az életkori tartományban elemzésre nem alkalmas. Célszerű választás a másodfokú parabolikus illesztés. 5