Nyugat-magyarországi Egyetem Geoinformatikai Kara Prof. Dr. Závoti József Matematikai statisztikai elemzések 6. MSTE6 modul Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió SZÉKESFEHÉRVÁR 2010
Jelen szellemi terméket a szerzői jogról szóló 1999. évi LXXVI. törvény védi. Egészének vagy részeinek másolása, felhasználás kizárólag a szerző írásos engedélyével lehetséges. Ez a modul a TÁMOP - 4.1.2-08/1/A-2009-0027 Tananyagfejlesztéssel a GEO-ért projekt keretében készült. A projektet az Európai Unió és a Magyar Állam 44 706 488 Ft összegben támogatta. Lektor: Bischof Annamária Projektvezető: Dr. hc. Dr. Szepes András A projekt szakmai vezetője: Dr. Mélykúti Gábor dékán Copyright Nyugat-magyarországi Egyetem Geoinformatikai Kar 2010
Tartalom 6. Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió... 1 6.1 Bevezetés... 1 6.2 Kétváltozós lineáris regresszió... 1 6.2.1 A lineáris regresszió modellje:... 1 6.2.2 A lineáris regresszió alkalmazásának feltételei... 1 6.2.3 Legkisebb négyzetek módszere... 2 6.2.4 Elaszticitás... 3 6.2.5 A lineáris regresszió tulajdonságai:... 3 6.2.6 A és mintavételi eloszlása... 3 6.2.7 Konfidencia intervallum számítása a β paraméterekre... 4 6.2.8 Hipotézisvizsgálat... 4 6.2.9 Determinációs együttható:... 4 6.3 Nemlineáris regresszió... 5 6.3.1 Hiperbolikus függvény:... 5 6.3.2 Exponenciális függvény:... 5 6.3.3 Hatványkitevős regresszió függvény... 5 6.4 Többváltozós regresszió számítás... 5 6.4.1 Regressziós paraméterek meghatározása... 6 6.4.2 A paraméterek standard hibái... 7 A paraméterek tesztelése... 7 6.5 Összefoglalás... 8
6. fejezet - Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió 6.1 Bevezetés Jelen modul a Matematika III. tárgy hatodik fejezete, modulja. Az itt következő ismeretek megértéséhez javasoljuk, hogy olvassa el a Tárgy korábbi moduljainál írottakat. Amennyiben ez még nem lenne elég a megértéshez, akkor forduljon a szerzőhöz segítségért. Jelen modul célja, hogy az Olvasó megismerkedjen a regressziószámítás fő típusaival. 6.2 Kétváltozós lineáris regresszió A regressziószámítás a mennyiségi ismérvek közötti sztochasztikus tendenciát vizsgálja, és a kapcsolat természetét valamilyen függvénnyel írja le. Lineáris regresszió esetén egyenest illesztünk az adatokra. 6.2.1 A lineáris regresszió modellje: y x (x 1,y 1 ) (x 2,y 2 ) (x n,y n ) N(0,σ) eloszlások (x 1,y 1 ), (x 2,y 2 ),..., (x n,y n ) pontokra szeretnénk egy regressziós egyenest illeszteni. A megoldáshoz meg kell határozni a paramétereket. A megoldás során a legjobb egyenest azt, amelyik a legkevésbé tér el a pontoktól keressük. Ezt az egyenest a legkisebb négyzetek módszerének segítségével fogjuk megkeresni. 6.2.2 A lineáris regresszió alkalmazásának feltételei 1. Linearitás: Az Y eloszlások várható értéke az ún. alapsokasági regressziós egyenesre esik. 2. A variancia állandó: 3. Függetlenség: Az valószínűségi változók függetlenek. 4. Az eloszlás normális: Az változók normális eloszlásúak. 5. A hibatényező: Az normális eloszlású, egymástól független változók, amelyek várható értéke 0, varianciája pedig.
Matematikai statisztikai elemzések 6. 2010 6.2.3 Legkisebb négyzetek módszere Függő változó (y) (x 2,y 2 ) * * * * * (x 1,y 1 ) * * (x n,y n ) Független változó (x) l i (x i,y i ) * A becsült regressziófüggvény: Keressük a függvény paramétereinek azon becslését,, amely mellett a megfigyelésből származó és a regressziófüggvény alapján becsült Y értékek különbségének eltérésnégyzet-összege a legkisebb: A regressziófüggvényt behelyettesítve a célfüggvénybe: A paramétereket a szélsőérték-számítás szabályai alapján határozhatjuk meg. A és szerinti parciális deriváltjai vesszük, és ezeket nullával tesszük egyenlővé (stacionárius pont meghatározása): Így eljutunk az ún. normál egyenletekhez: MSTE6-2 Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010
Prof. Dr. Závoti József Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió A normálegyenletek megoldásával a és paraméterek meghatározhatók. A megoldásra különböző módszerek léteznek. Mi az ismeretleneket a Cramer-szabály felhasználásával határozzuk meg. Cramer szabály: A paramétert az alábbi egyenletből kapjuk: Ha a normálegyenleteket oly módon transzformáljuk, hogy az eredeti X és Y változókat átlaguktól vett eltéréseiket helyettesítjük, akkor a következő transzformált egyenleteket kapjuk: ahol,. Mivel a paraméter meghatározása: A paramétert az alábbi egyenletből kapjuk: A lineáris regresszió függvény paraméterét regressziós együtthatónak nevezzük. A regressziós együttható arra ad választ, hogy az X magyarázó változó egységnyi változása átlagosan mekkora változással jár együtt az Y eredményváltozóban. A együttható, az egyenlet konstans tagja, az X = 0 helyhez ad regressziós becslést. 6.2.4 Elaszticitás Az X és Y változóknak nemcsak különbségeit, hanem relatív változásait is szembeállíthatjuk, így jutunk el az elaszticitás fogalmához. Az elaszticitás arra ad választ, hogy az X magyarázó változó adott értékének egy 1%- os változása az Y függő változóban milyen átlagos relatív változást eredményez. 6.2.5 A lineáris regresszió tulajdonságai: 1. 2. 3. 4. Az kifejezés az értéknél veszi fel a minimumát. A legkisebb négyzetek módszerével kapott becslések az Y változó lineáris kombinációi. A becsült paraméterek tehát valószínűségi változók, amelyek jellemzőinek megismerése lehetővé teszi, hogy konfidencia intervallumokat készítsünk a sokasági regressziófüggvény paramétereire. Ehhez először a paraméterbecslések mintavételi eloszlásával ismerkedünk meg. 6.2.6 A és mintavételi eloszlása Tétel: Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010 MSTE6-3
Matematikai statisztikai elemzések 6. 2010, azaz torzítatlan becslése -nek. Tétel: szórásnégyzete Tétel: azaz torzítatlan becslése -nak. Tétel: szórásnégyzete 6.2.7 Konfidencia intervallum számítása a β paraméterekre A mintából becsült paraméterek eloszlásának ismeretében valószínűségi megállapításokat tehetünk a sokasági paraméterekre. A paraméterre tett (1-α) valószínűségi megállapítás: Ezt úgy értelmezhetjük, hogy ha ismételt mintavételeket hajtunk végre, és minden mintavételi eredmény alapján elkészítjük a konfidencia intervallumot, az intervallumok 100(1-α) %-a tartalmazni fogja a sokasági paramétert. Az egyenes meredekségére vonatkozó konfidencia intervallum: Az egyenes konstans tagjára vonatkozó konfidencia intervallum: 6.2.8 Hipotézisvizsgálat Fontos annak vizsgálata, hogy az X és Y változók szignifikáns kapcsolatban vannak-e egymással. Ennek vizsgálatára az alábbi hipotéziseket fogalmazzuk meg: A hipotézisellenőrzést a t-próbával végezzük, amely a becsült regressziós együttható és a standard hiba hányadosa: Ha a, a H 0 hipotézist elfogadjuk. Ebben az esetben a paraméter nem különbözik szignifikánsan a nullától. A konfidencia intervallum ilyenkor tartalmazza a nulla értéket is. Ha a, a H 0 hipotézist elvetjük. A mintabeli információk ekkor azt mutatják, hogy releváns kapcsolat van az X és Y változó között. 6.2.9 Determinációs együttható: Az r 2 mutatót determinációs együtthatónak nevezzük, amelynek értéke 0 és 1 közé esik. Ha a lineáris regresszió paramétere nulla, akkor az r 2 értéke is nulla. Ilyen esetben a változók között nincs korrelációs kapcsolat. A determinációs együttható a maximális értékét akkor veszi fel, ha a változók között determinisztikus összefüggés van, vagyis valamennyi megfigyelt Y érték a regressziós egyenesen helyezkedik el. A 0 és 1 közötti r 2 értékek a változók közötti kapcsolat erősségét, a regressziófüggvény illeszkedésének jóságát jellemzik. MSTE6-4 Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010
Prof. Dr. Závoti József 6.3 Nemlineáris regresszió Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió A statisztikai módszertan szempontjából a nemlineáris összefüggések két fő csoportját különböztetjük meg: a lineárisra visszavezethető és a lineárisra nem transzformálható modelleket. Az alábbiakban mi csak az első csoporttal, vagyis a lineárisra visszavezethető modellekkel foglalkozunk. Vannak olyan nemlineáris összefüggések, amelyeknél a magyarázó változó transzformálásával jutunk a lineáris összefüggéshez. Az alábbi függvény-típusokat sorolhatjuk ide: 6.3.1 Hiperbolikus függvény: Ha a függvényben az X változót az változóval helyettesítjük, a transzformált változóra lineáris összefüggést írhatunk fel: A regressziófüggvény paramétereinek becslésére a lineáris regressziónál megismert becslési eljárásokat alkalmazhatjuk. A nemlineáris regressziós modellek egy részénél mind a függő, mind a magyarázó változókat transzformáljuk. A függő és magyarázó változók együttes transzformálására leggyakrabban a logaritmikus transzformálást alkalmazzuk. Jellegzetes példaként említhetjük az exponenciális és a hatványkitevős függvényt. 6.3.2 Exponenciális függvény: A linearizált regresszió függvény a becsült paraméterekkel: Az exponenciális függvényekre az jellemző, hogy lineáris összefüggés van a függő változó logaritmusa és az X változó között. 6.3.3 Hatványkitevős regresszió függvény Olyan esetekben alkalmazzuk, amikor az X és Y változók logaritmusai között van lineáris összefüggés. A regressziós együttható azt fejezi ki, hogy az X magyarázó változó egységnyi relatív (egy százalékos) változása mekkora relatív (hány százalékos) változást idéz elő az eredményváltozóban. A linearizált regresszió függvény a becsült paraméterekkel: 6.4 Többváltozós regresszió számítás A kétváltozós regressziós modell azzal a feltételezéssel él, hogy a megfigyelt eredményváltozó csupán egyetlen magyarázóváltozó hatására jött létre. Azonban a jelenségek többségére inkább az igaz, hogy kialakulásukért több tényező a felelős. (pl.: egy használtautó eladási ára nemcsak a korának, de a futott kilométereknek is a függvénye.) Ezeket a jelenségeket már nem lehet az eddig ismertetett kétváltozós regressziós modellek segítségével modellezni, szükség van annak kiterjesztésére. Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010 MSTE6-5
Matematikai statisztikai elemzések 6. 2010 A többváltozós lineáris modell a következőképpen írható fel: A fenti egyenleteket mátrixos alakban így írhatjuk: 6.4.1 Regressziós paraméterek meghatározása A paraméterek meghatározásához ismét a legkisebb négyzetek elvét használjuk. A minimalizálandó függvény: A paraméterek parciális deriváltjait nullával egyenlővé téve a kapott normálegyenletek: A normálegyenleteket megoldva megkaphatóak a becsült paraméterértékek. Az pedig a szemlélet alapján adódik, hogy az így kapott stacionárius pont valóban minimum hely. A számítások végrehajtását a háromváltozós modell esetére mutatjuk be: Egyszerűsíthetjük a számításokat, ha a normálegyenletekben az eredeti változókat (X 1, X 2, Y) az átlagtól vett eltéréseikkel helyettesítjük: A konstans tag becslése: Az egyenlet paramétereinek értelmezése: A becsült paraméter az X j egységnyi változásának a hatását fejezi ki az Y eredményváltozóra, a többi magyarázó változó értékének változatlansága mellett. A együtthatókat parciális regressziós együtthatóknak nevezzük. Mátrixos alak: A fenti egyenleteket a lineáris algebrát felhasználva az alábbi módon is felírhatjuk fel. Ekkor a regressziós modell: Most a regressziós együtthatóvektor a legkisebb négyeztek elve alapján kapható meg a következő összefüggésből: feltéve, ha az inverz létezik 1. A fenti kifejezés részletesen kifejtve így alakul: Számunkra az m=2 speciális eset a gyakorlat szempontjából különösen fontos, felírjuk explicite: 1 Egy mátrix inverze akkor létezik, ha az (m+1)*(m+1)-es mátrix rangja (m+1). MSTE6-6 Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010
Prof. Dr. Závoti József Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió A mátrixinverznek a meghatározására bármelyik ismert mátrix-invertálási eljárás alkalmazható lenne, segítségül megadunk egy egyszerű mátrix-invertálási módszert. Jelölje: A bevezetett jelöléssel meghatározandó az alábbi mátrix inverze: Vezessük be az alábbi jelöléseket: Ekkor a mátrix inverze az alábbi módon számolható: Ezek után az ismeretlen paraméterek meghatározhatók. Bármely módszerrel meghatározva a paraméterek értékét, azok jelentése ugyanaz marad. Vagyis paraméter azt fogja megmutatni, hogy amennyiben a k-dik magyarázó változó ( ) egységnyivel növekszik, miközben az összes többi változó értéke változatlan marad 2, mennyivel nő/csökken az eredményváltozó értéke. 6.4.2 A paraméterek standard hibái A többváltozós modellnél is van lehetőség meghatározni, hogy a sokasági paraméterek értéke ismételt mintavétel esetén az esetek százalékában milyen tartományba esne. Ehhez ismerni kell a k-dik paraméter standard hibáját:, ahol - az inverzmártix főátlójának k-dik elemét jelöli. Ekkor a keresett intervallum: Az intervallum meghatározása a kétváltozós esettel analóg, azzal a különbséggel, hogy a t-eloszlás szabadságfoka n-m-1, azaz a magyarázóváltozók függvénye 3. A paraméterek tesztelése A szignifikancia ellenőrzése itt is elengedhetetlen a becslések megkezdése előtt. Mint ahogyan a kétváltozós esetnél, itt is van mód a paraméterek tesztelése mellett a modell jóságának tesztelésére. Paraméterek tesztelésekor a null hipotézis általános formája: Az ellenhipotézis ennek tagadásából áll, és azt jelenti, hogy igenis van összefüggés a k-adik magyarázóváltozó és az eredményváltozó között. A kiszámítandó próbastatisztika:, 2 Ezt a feltételt cp, azaz ceteris paribus feltételnek szokták hívni. 3 A kétváltozós esetnél a magyarázóváltozók száma 1, azaz a szabadságfoka n-1-1=n-2 lesz. Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010 MSTE6-7
Matematikai statisztikai elemzések 6. 2010 a kritikus értékhez meghatározandó t értéknél a szabadságfok n-m-1. Az alaphipotézis elfogadása most is akkor történik meg, ha a számított t értéke az elfogadási tartományban van, s ez azt jelenti, hogy a modell nem megfelelő. 6.5 Összefoglalás 1. Példa a lineáris regresszió számításra 14 tőzsdén jegyzett társaság adatai: Nettó árbevétel (milliárd Ft) 111 12,4 31 5,2 55 5,5 65 7,6 14 1,6 32 4,3 105 9,0 82 7,8 130 10,5 88 9,8 28 2,0 61 3,7 65 3,5 98 7,6 Adózott eredmény a.) Írja fel a lineáris regressziófüggvényt és értelmezze a paramétereket! b.) Számítsa ki és értelmezze a lineáris együtthatót, a determinációs együtthatót, a regresszióbecslés relatív hibáját! Megoldás: x y dx dy dx*dy e 2 111 12,4 42,07 5,94 249,72 9,94 6,05 12,09 31 5,2-37,93-1,26 47,95 3,32 3,55 9,91 55 5,5-13,93-0,96 13,43 5,30 0,04 1,35 65 7,6-3,93 1,14-4,46 6,13 2,16 0,11 14 1,6-54,93-4,86 267,19 1,91 0,10 20,75 32 4,3-36,93-2,16 79,92 3,40 0,81 9,39 105 9,0 36,07 2,54 91,47 9,44 0,20 8,88 82 7,8 13,07 1,34 17,46 7,54 0,07 1,16 130 10,5 61,07 4,04 246,47 11,51 1,03 25,50 88 9,8 19,07 3,34 63,62 8,04 3,11 2,47 28 2,0-40,93-4,46 182,72 3,07 1,14 11,53 61 3,7-7,93-2,76 21,92 5,80 4,41 0,44 MSTE6-8 Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010
Prof. Dr. Závoti József Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió 65 3,5-3,93-2,96 11,65 6,13 6,93 0,11 98 7,6 29,07 1,14 33,02 8,86 1,60 5,76 965 91 1322,06 31,18 109,44 Határozza meg a lineáris regressziófüggvényt! b) Számítsa ki és értelmezze a lineáris együtthatót, a determinációs együtthatót, a regresszióbecslés relatív hibáját! A standard hiba: Determináció együttható: 1. Példa a nemlineáris regressziószámítás alkalmazására Vizsgálták a tokaji aszú életkora (év) és export eladási ára (dollár) közötti összefüggést. 10 véletlenszerűen kiválasztott palack megfigyelt adatait az alábbi táblázat tartalmazza: Sorszám Életkor (év) Eladási ár (dollár) 1. 25 2100 2. 19 700 3. 16 400 4. 10 100 5. 9 79 6. 8 55 7. 7 39 8. 6 25 9. 5 8 10. 4 9 Határozza meg az exponenciális regressziófüggvényt! Megoldás: x y lg y dx dx 2 dy dx*dy 25 2100 3,32 14,1 198,81 1,40 19,70 19 700 2,85 8,1 65,61 0,92 7,45 16 400 2,60 5,1 26,01 0,68 3,45 10 100 2,00-0,9 0,81 0,07-0,07 9 79 1,90-1,9 3,61-0,03 0,05 Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010 MSTE6-9
Matematikai statisztikai elemzések 6. 2010 8 55 1,74-2,9 8,41-0,19 0,54 7 39 1,59-3,9 15,21-0,33 1,30 6 25 1,40-4,9 24,01-0,53 2,58 5 8 0,90-5,9 34,81-1,02 6,03 4 9 0,95-6,9 47,61-0,97 6,70 109 19,25 424,9 47,74 Az exponenciális függvény logaritmikus transzformációja: Legyen: A paraméterek logaritmusait az alábbi módon becsüljük: A linearizált regressziófüggvény:, ahol Az exponenciális regressziófüggvény: A regressziófüggvény paramétere azt mutatja, hogy ha a tokaji aszú életkora egy évvel nő, akkor az eladási ára átlagosan 29,54%-kal növekszik. 1. Példa a többváltozós regresszió számítás alkalmazására Vizsgáljuk meg, hogy milyen összefüggés van a statisztika zárthelyi dolgozat eredménye (y), a felkészülési idő (x 1 ) és az intelligencia hányados (x 2 ) között! Felkészülési idő (h) IQ Eredmény (%) x 1 x 2 1 8 98 56 2 5 99 44 3 11 118 79 4 13 94 72 5 10 109 70 6 5 116 54 7 18 97 94 8 15 100 85 9 2 99 33 10 8 114 65 a. Illesszen kétváltozós lineáris regressziós függvényt! y MSTE6-10 Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010
Prof. Dr. Závoti József Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió b. Adja meg a becsült paraméterek standard hibáit! i. Végezzen F és t próbákat! (α = 0.05) a. Az inputra adja meg a rendszer válaszát és konstruáljon szignifikancia értékhez konfidencia intervallumot! Megoldás: x 1 x 2 y x 1 2 x 2 2 x 1 *x 2 y*x 1 y*x 2 e 2 8 98 56 64 9604 784 448 5488 55,57 0,19 5 99 44 25 9801 495 220 4356 44,39 0,16 11 118 79 121 13924 1298 869 9322 79,05 0,00 13 94 72 169 8836 1222 936 6768 72,82 0,68 10 109 70 100 11881 1090 700 7630 69,86 0,02 5 116 54 25 13456 580 270 6264 54,36 0,13 18 97 94 324 9409 1746 1692 9118 94,18 0,03 15 100 85 225 10000 1500 1275 8500 84,18 0,67 2 99 33 4 9801 198 66 3267 32,63 0,13 8 114 65 64 12996 912 520 7410 64,95 0,00 95 1 044 652 1 121 109 708 9 825 6 996 68 123 2,01 a) Illesszen kétváltozós lineáris regressziós függvényt! A lineáris regressziófüggvény: Az 1 órával több felkészülésre fordított idő esetében azonos IQ esetén átlagosan 3,92%-kal magasabb az elért eredmény. Az egységnyivel magasabb IQ azonos felkészülési idő mellett átlagosan 0,59%-kal növeli az eredményt. b) Adja meg a becsült paraméterek standard hibáit! Hipotézisvizsgálat: Táblázati érték: Számolt értékek: Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010 MSTE6-11
Matematikai statisztikai elemzések 6. 2010 Értékelés: 95%-os megbízhatósági szinten megállapíthatjuk, hogy a felkészülési idő és az eredmény, valamint az IQ és az eredmény között szignifikáns kapcsolat van. d) Az inputra adja meg a rendszer válaszát és konstruáljon szignifikancia értékhez konfidencia intervallumot! A feltételes várható érték becslése: A becslés standard hibája: A Student táblázatból vett érték: A várható eredmény: Irodalomjegyzék Hunyadi - Vita: Statisztika közgazdászoknak, KSH, Budapest, 2002. Keresztély-, Sugár-, Szarvas: Statisztika példatár közgazdászoknak, BKE, Nemzeti Tankönyvkiadó, 2005. Korpás A.: Általános statisztika I-II., Nemzeti Tankönyvkiadó, Budapest, 1996. Csanády V., Horváth R., Szalay L.: Matematikai statisztika, EFE Matematikai Intézet, Sopron, 1995. Závoti-, Polgárné-, Bischof: Statisztikai képletgyűjtemény és táblázatok, NYME Kiadó, Sopron, 2009. Csernyák L.: Valószínűségszámítás, Nemzeti Tankönyvkiadó, Budapest, 1990. Obádovics J. Gy.: Valószínűségszámítás és matematikai statisztika, Scolars Kiadó, Budapest, 2003. Reimann J. - Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1991. Solt Gy.: Valószínűségszámítás, Műszaki Könyvkiadó, Budapest, 1971. Denkinger G.: Valószínűségszámítás, Nemzeti Tankönyvkiadó, Budapest, 1978. MSTE6-12 Nyugat-magyarországi Egyetem Geoinformatikai Kar, 2010