Regresszióanalízis. Példák. A regressziószámítás alapproblémája. A regressziószámítás alapproblémája. Informatikai Tudományok Doktori Iskola

Hasonló dokumentumok
Matematikai statisztika elıadás III. éves elemzı szakosoknak. Zempléni András 9. elıadásból (részlet)

A paramétereket kísérletileg meghatározott yi értékekre támaszkodva becsülik. Ha n darab kisérletet (megfigyelést, mérést) végeznek, n darab

? közgazdasági statisztika

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Matematikai statisztika

Változók függőségi viszonyainak vizsgálata

Megállapítható változók elemzése Függetlenségvizsgálat, illeszkedésvizsgálat, homogenitásvizsgálat

Regresszió. Fő cél: jóslás Történhet:

? közgazdasági statisztika

Feladatok és megoldások a 11. heti gyakorlathoz

Hipotéziselmélet. Statisztikai próbák I. Statisztikai próbák II. Informatikai Tudományok Doktori Iskola

Regresszió és korreláció

PDF created with FinePrint pdffactory Pro trial version Adott egy X folytonos változó, ami normális eloszlású.

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

Regresszió és korreláció

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Korreláció- és regressziószámítás

Lineáris regresszió. Statisztika I., 4. alkalom

Regresszióanalízis. Példák. A regressziószámítás alapproblémája. Informatikai Tudományok Doktori Iskola

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Statisztika. Eloszlásjellemzők

A heteroszkedaszticitásról egyszerûbben

A matematikai statisztika elemei

GEOFIZIKA / 4. GRAVITÁCIÓS ANOMÁLIÁK PREDIKCIÓJA, ANALITIKAI FOLYTATÁSOK MÓDSZERE, GRAVITÁCIÓS ANOMÁLIATEREK SZŰRÉSE

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

Tapasztalati eloszlás. Kumulált gyakorisági sorok. Példa. Értékösszegsor. Grafikus ábrázolás

Ismérvek közötti kapcsolatok szorosságának vizsgálata. 1. Egy kis ismétlés: mérési skálák (Hunyadi-Vita: Statisztika I o)

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

Azonos névleges értékű, hitelesített súlyokból alkotott csoportok együttes mérési bizonytalansága

BIOMATEMATIKA ELŐADÁS

Ha n darab standard normális eloszlású változót négyzetesen összegzünk, akkor kapjuk a χ 2 - eloszlást: N

Statisztika feladatok

Statisztika 1. zárthelyi dolgozat március 21.

Sorozatok október 15. Határozza meg a következ sorozatok határértékeit!

) ( s 2 2. ^t = (n x 1)s n (s x+s y ) x +(n y 1)s y n x+n y. +n y 2 n x. n y df = n x + n y 2. n x. s x. + s 2. df = d kritikus.

3. SOROZATOK. ( n N) a n+1 < a n. Egy sorozatot (szigorúan) monotonnak mondunk, ha (szigorúan) monoton növekvő vagy csökkenő.

A peremeloszlások. Valószínőségszámítás elıadás III. alk. matematikus szak. Példa. Valószínőségi vektorváltozók eloszlásfüggvénye.

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Miért pont úgy kombinálja kétfokozatú legkisebb négyzetek módszere (2SLS) az instrumentumokat, ahogy?

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Matematikai statisztika

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

Geostatisztika c. tárgy a BSc földrajz alapszak hallgatóinak

Intelligens adatelemzés ea. vázlat 1. rész

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Geostatisztika. Dr. Szabó Norbert Péter. BSc műszaki földtudományi alapszak hallgatóinak

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Matematika B4 I. gyakorlat

Statisztika I. 4. előadás. Előadó: Dr. Ertsey Imre

Mérési adatok feldolgozása Méréselmélet PE_MIK MI_BSc, VI_BSc 1

2. fejezet. Számsorozatok, számsorok

Táblázatok 4/5. C: t-próbát alkalmazunk és mivel a t-statisztika értéke 3, ezért mind a 10%-os, mind. elutasítjuk a nullhipotézist.

1. előadás: Bevezetés. Irodalom. Számonkérés. A valószínűségszámítás és a statisztika tárgya. Cél

Méréselmélet PE_MIK MI_BSc, VI_BSc 1

Befektetett munka. Pontosság. Intuícióra, tapasztalatra épít. Intuitív Analóg Parametrikus Analitikus MI alapú

Tartalomjegyzék. 4.3 Alkalmazás: sorozatgyártású tűgörgő átmérőjének jellemzése

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

2. METROLÓGIA ÉS HIBASZÁMíTÁS

MÉRÉSTECHNIKA. DR. HUBA ANTAL c. egy. tanár BME Mechatronika, Optika és Gépészeti Informatika Tanszék 2011

STATISZTIKA II. kötet

Geostatisztika I. Dr. Szabó Norbert Péter. BSc geográfus alapszak hallgatóinak

A MATEMATIKAI STATISZTIKA ELEMEI

ALGEBRA. egyenlet megoldásait, ha tudjuk, hogy egész számok, továbbá p + q = 198.

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli tételek. Készítette: Szántó Ádám Tavaszi félév

AZ OPTIMÁLIS MINTANAGYSÁG A KAPCSOLÓDÓ KÖLTSÉGEK ÉS BEVÉTELEK RELÁCIÓJÁBAN

Statisztika segédlet*

Kutatói pályára felkészítı modul

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Regresszió-számítás. 2. előadás. Kvantitatív statisztikai módszerek. Dr.

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

10.M ALGEBRA < <

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Korreláció-számítás. 1. előadás. Döntéselőkészítés módszertana. Dr.

Információs rendszerek elméleti alapjai. Információelmélet

Gyakorló feladatok II.

Tulajdonságok. Teljes eseményrendszer. Valószínőségi változók függetlensége. Példák, szimulációk

Számsorozatok. 1. Alapfeladatok december 22. sorozat határértékét, ha. 1. Feladat: Határozzuk meg az a n = 3n2 + 7n 5n létezik.

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

VII. A határozatlan esetek kiküszöbölése

Wilcoxon-féle előjel-próba. A rangok. Ismert eloszlás. A nullhipotézis megfogalmazása H 1 : m 0 0. A medián 0! Az eltérés csak véletlen!

Bevezetés a Korreláció &

Megoldás a, A sebességből és a hullámhosszból számított periódusidőket T a táblázat

Izsák János. ELTE TTK Állatrendszertani és Ökológiai Tanszék. Kézirat

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

Példák 2. Teljes eseményrendszer. Tulajdonságok. Példák diszkrét valószínőségi változókra

1. A radioaktivitás statisztikus jellege

STATISZTIKA. ltozók. szintjei, tartozhatnak: 2. Előad. Intervallum skála. Az adatok mérési m. Az alacsony mérési m. Megszáml Gyakoriság módusz

7. MÉRÉSEK KIÉRTÉKELÉSE FÜGGVÉNYILLESZTÉSSEL

Regresszió számítás. Mérnöki létesítmények ellenőrzése, terveknek megfelelése. Geodéziai mérések pontok helyzete, pontszerű információ

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

13. Tárcsák számítása. 1. A felületszerkezetek. A felületszerkezetek típusai

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

1. gyakorlat - Végtelen sorok

Adatfeldolgozás, adatértékelés. Dr. Szűcs Péter, Dr. Madarász Tamás Miskolci Egyetem, Hidrogeológiai Mérnökgeológiai Tanszék

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

1. feladatlap megoldása. Analízis II. 1. Vizsgálja meg az alábbi sorokat konvergencia szempontjából! a) n 2 n = 1 1X 1

Sztochasztikus tartalékolás és a tartalék függése a kifutási háromszög időperiódusától

Átírás:

A regresszószámítás alapproblémája egresszóaalízs egresszószámításkor egy változót egy (vagy több) másk változóval becslük. Y,,... p függıváltozó függetle változók Y f(,,... p ) becslés f F Iformatka udomáyok Doktor Iskola E(Y- f * (,,... p )) = m E(Y- f(,,... p )) f F Példák. A Dua vízállásáak elırejelzése Budapeste. A paradcsom beérés dejéek becslése 3. Mőholdkép alapjá a búza terméshozamáak becslése. Mőholdkép alapjá a Mars vastartalmáak becslése 5. Predkcók, tredek dısorokál. Leárs közgazdaság modellek A regresszószámítás alapproblémája Ha smerjük az Y és az,,... p együttes eloszlását, akkor a probléma elméletleg megoldott: f (,,... p ) = E ( Y,,... p ). Gyakorlatba azoba csak egy adatmátr adott: Y Y M Y M M L p L p O M L p Feltételes teles várhatv rható érték, folytoos eset I. Feltételes teles várhatv rható érték, folytoos eset II.

Feltételes teles várhatv rható érték, folytoos eset III. A regresszó tulajdosága Az összes függvéy közül a regresszós görbével lehet legpotosabba közelíte! egresszó ormáls eloszlás s eseté Elmélet leárs regresszó f Y σ πσ ρ σ ( y) = σ ( ) ρ e µ + ρ( y µ ) Normáls kompoesek eseté a regresszós összefüggés leárs! Elmélet leárs regresszó A regresszószámítás alapproblémája F = {f(,,, p, a,b,c, a, b, c, valós paraméterek} Láttuk, hogyha,y együttes eloszlása ormáls, akkor a regresszó leárs lesz! A függvéyhalmazból azt az elemet fogjuk kválaszta, amelyél: h(a,b,c,...) = Σ (Y - f(,,..., p, a,b,c,... )) = m a,b,c,... Ez a legksebb égyzetek módszere! m

A regresszóaalízs fajtá A regresszóaalízs fajtá Leárs regresszó f() = B + B Nemleárs regresszók két változó között I. öbbváltozós leárs regresszó f(,,..., p ) = B + B + B +...+ B p p Polomáls regresszó f(,,..., p ) = B + B + B +...+ B p p =, =,..., p = p Kétparaméteres (leársra vsszavezethetı) regresszó pl. Y=f() = B o e B ly = B + l B o f( ) = B + B ep(b 3 ) aszmptotkus I. f( ) = B - B (B 3 ) aszmptotkus II. f( ) = (B + B ) -/B3 sőrőség f( ) = B (- B 3 ep(b )) Gauss f( ) = B ep( - B ep( - B 3 ))) Gompertz f( ) = B ep( - B /( + B 3 )) Johso-Schumacher A regresszóaalízs fajtá Nemleárs regresszók két változó között II. B f() ) = (B + B 3 ) log-módos dosított f() ) = B - l( + B ep( - B 3 ) f() ) = B + B ep( - B 3 ) log-logsztkus logsztkus Metcherlch f() ) = B / ( ( + B ) Mchaels Mete f() ) = (B B +B 3 B )/(B + B ) Morga-Merczer Merczer-Flor A regresszóaalízs fajtá Nemleárs regresszók két változó között III. f() = (B + B +B 3 + B 3 )/ B 5 3 köbök aráya f() = (B + B +B 3 )/ B égyzetek aráya f() = B /((+B 3 ep(b )) (/B) chards f() = B /((+B 3 ep(b )) Verhulst f() = (B (-B) B ep( - B 3 )) /(-B) Vo Bertalaffy f() = B - B ep( -B 3 B ) Webull f() ) = B /(+B ep( - B 3 +B + B 5 3 )) Peal-eed f() = /(B + B +B 3 ) Yeld sőrőség A regresszóaalízs fajtá Szakaszokét leárs regresszó Polgoáls regresszó A regresszóaalízs fajtá 3

A regresszóaalízs fajtá A regresszóaalízs fajtá öbbváltozós leárs regresszó kategóra-változóval Logsztkus regresszó Y dchotóm Y= {, ha az A eseméy bekövetkezk, ha az A eseméy em következk k be A eseméy,,..., p A választó fog szavaz A pácesek szívfarktusa lesz Az üzletet meg fogják köt ordáls sztő függetle változv ltozók eddg háyszor met el, kor, skola, jövedelem ap cg, ap pohár, kor, stressz ár, meység, pac forgalom, raktárkészlet A regresszóaalízs fajtá Logsztkus regresszó P(Y=) = P(A) - e -Z Z = B + B + B +...+ B p p P(A) ODDS = - P(A) log (ODDS) = e Z Z = B + B + B +...+ B p p Logsztkus regresszó A legagyobb valószíőség elve L(ε,ε,...,ε ) = P(Y = ε, Y = ε,..., Y = ε ) = = P(Y = ε ) P(Y = ε ) L P(Y = ε ) A regresszóaalízs fajtá L - e -Z - e -Z - e -Z l L(ε,ε,...,ε ) = Σ ( l ) - ep (B + B + B +...+ B p p ) Leárs regresszó A leárs kapcsolat ktütetett: () a legegyszerőbb és leggyakorbb, köyő a két paramétert értelmez () két dmezós ormáls eloszlás eseté a kapcsolat em s lehet más (vagy leárs vagy egyáltalá cs) Leárs regresszó Az emprkus leárs regresszó együtthatót a legksebb égyzetek módszerével kaphatjuk meg: Az emprkus leárs regresszó együttható az elmélet regresszós egyees együtthatótól ayba külöbözek, hogy a képletekbe az elmélet mometumok helyett a mtából számolt megfelelı emprkus mometumok állak:

Leárs regresszó A teljes égyzetösszeg A leárs regresszó Q = Q res + Q reg A maradékösszeg y res (, y ) reg (, ˆ ) y A regresszós összeg (, y ) yˆ = b + a A leárs regresszó A teljes égyzetösszeg felbotása: Q = Q res + Q reg f reg szabadság foka -, mert tagú az összeg, de ezek között két összefüggés va. Ha cs leárs regresszó, a varacák háyadosa (, -) szabadság fokú F eloszlást követ. Q reg s f Q ( ) reg reg reg F = = = s Q res res Q res f res f res szabadság foka mdössze, mert az átlag kostas A leárs regresszó A legksebb égyzetek módszere alapelve: y yˆ = b + a ( 3, y 3) (, y ) e e (, y ) ( 5, y 5) e 5 e 3 e (, y ).. Megjegyzések: A leárs regresszó A leárs regresszó ervezett (determsztkus) megfgyelés Fıleg mőszak alkalmazasokba gyakor, hogy a méréseket Y -ra elıírt beálltásokál végzk el, és így keresk az smeretle Y~f() függvéykapcsolatot. A modell lyekor az, hogy Y = f() +ε, ahol ε a mérés hbát jeletı valószíőség változó, melyre E ε = és σ ε véges. 5

Gauss-Markov-tétel Leársra vsszavezethetı kétparaméteres regresszó I = { f ( ; a, b) } E * * ( Y f ( ; a, b )) = m E( Y f ( ; a, b f I )) Ameybe találhatók olya alkalmas g, h, k, k függvéyek, amvel a probléma learzálható: y = f ( ; a, b) g( y) = k( a, b) h( ) + k( a, b) * * E( g( Y) k h( ) k ) = m E( g( Y ) k h( ) k ) k, k A trükkel em az eredet mmalzálás feladat megoldását * * * * * * a k ( k, k), b k ( k, k) kapjuk meg, csak attól em túl messze esı közelítéseket! Leársra vsszavezethetı kétparaméteres regresszó Leársra vsszavezethetı kétparaméteres regresszó epoecáls függvéykapcsolat: y = a e b hatváyfüggvéy: y = a b H A V y=**5 3 E P y=ep(.*) * y = l y = b + l a = k + k - 5 growth függvéy: compoud függvéy: 3 y = ep( a + b) y = a b * y = l y = a + b * y = l y = l a + l b Arrheus: y = a e b * * y = l y = b + l a = k + b = k, a = e k k A H y=ep(-5/)..... -. Leársra vsszavezethetı kétparaméteres regresszó recprok: y = a + b y = * = a + b y y=/(+5*). E. C I........ Leársra vsszavezethetı kétparaméteres regresszó homogé kvadratkus: y = a + b * y y = = a + b K V A D y=*+5* 5 3 racoáls: a y = + b A C I y=/(+5*)..9..7. hperbolkus: H I P E y=+5/ 7 5 b y = a + logartmkus: y = a l b = a l b + a l y=l(5*) 5. L O G.5. 3.5 ( ) y * b * k = = + = k + k a =, b, y a a k = k 3 3..5..5

Learzálás, pl. Polomáls regresszó A polomáls regresszós feladatot többváltozós leárs regresszóval oldhatjuk meg, a predktor változók lyekor az változó hatváya: =! Polomáls regresszó Polomáls regresszó A regresszó közelítése Nadaraja módszerével Az és Y változók között a tökéletes függvéykapcsolatot az r()=e(y =) regresszós görbe adja meg. Nadaraja emparaméteres módszere a sőrőségfüggvéy Parze-oseblatt becslését haszálja. A sőrőségfüggvéy becslését felhaszálva a E( Y = ) = r( ) = + regresszós görbét közvetleül becsl. f, Y (, y) y dy f ( ) A regresszó közelítése Nadaraja módszerével étel: Legye az (, Y ), (, Y ),, (, Y ) mta együttes sőrőségfüggvéye f(,y). Legye továbbá k() olya páros sőrőségfüggvéy, amelyre gazak a következık: () k() korlátos függvéy () k() ha () k() másodk mometuma véges Legye a h > számsorozat olya, hogy (v) h ullsorozat Pl. k()=ϕ() és h = -/3 jó választás, ε > : P( r (v) h ( ) r( ) > ε ) (, I Akkor az Y k = = h r ( ) k = h az r() regressós görbe kozsztes becslése. 7

A regresszó közelítése Nadaraja módszerével Mvel mde esetbe bár agy, de mégscsak véges mtával végezzük a becslést, a h sorozat megadása helyett a Egy példa az alkalmazásra Egy meteorológa mérıballo segítségével külöbözı magasságokba megmérték a levegı ap ózo sztjét. Az összese =33 apo mértek: y k = = h r ( ) k h kfejezésbe a h paraméterrel mmalzáluk. Egy példa az alkalmazásra A két változó szóródásábrája: Egy példa az alkalmazásra Gauss magfüggvéyt haszálva: Egy példa az alkalmazásra A regresszó Nadaraja becslése: A függetle változók azo leárs kombácóját keressük, amelyél a függıváltozót legksebb égyzetes hbával tudjuk közelíte: ~ Y = Y + ε = b + b + b +... + b + ε k k = Y ( ) = = ~ ε ε = ( Y b) ( Y b) = Y Y Y b Y Y = b + b b = = = Y Y Y b + b b = Q( b) m b

Az együtthatók meghatározása a legksebb égyzetek módszerével: Q = Y + b = b b = Y ( ) Y b = Szórásaalízs (ANOVA) a modell érvéyességéek eldötésére A ullhpotézs az, hogy a függetle változók mdegyke, vagys egyk predktor változó sem magyarázza a célváltozót! H : β = β =... = β k = SS ( k ) SSE ( k) F k, k F-próbával döthetük a ullhpotézsrıl. Béta-együtthatók S BEA = b S y b S S y = (,,..., k) A béta-együtthatók egyfajta az -edk regresszós szempotból együttható, mısítk a változók fotosságát a leárs összefüggésbe. Ha egy változóak agy az együtthatója abszolút az -edk változó stadard szórása, értékbe, akkor fotos, ha kcs, kevésbé fotos. a célváltozó stadard szórása. (coeffcet of determato) meghatározottság együttható Az érték megmutatja a leárs kapcsolat mértékét Ha csak egy SS SSE magyarázó változó = =, va, akkor éppe a SSO SSO korrelácós együttható égyzete! = ± SS SSO = ( )( Y Y ) = ( ) ( Y Y ) = = Megmutatja, hogy a leárs regresszóval a célváltozó varacájáak mekkora háyadát lehet magyaráz,. 9

Korrgált (adjusztált) meghatározottság mutató adj = p a függetle változók száma ( ) SSE / = p SSO ( p ) /( ) A korrekcó azért szükséges, mert újabb változók bevoásával automatkusa ı, és túl optmsta képet mutat a modell lleszkedésérıl. Az adjusztált változatba bütetjük a túl sok változó bevoását a modellbe. p= esetbe em korrgáluk. Modell-építés techkák Egy tpkus többváltozós leárs regresszós problémáál adott az Y célváltozó és agy számú,,, p magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amk bekerülek, és melyek azok, amk em kerülek majd be a modellbe. Ha mde lehetséges kombácót k akarák próbál, akkor összese Már változó p p p eseté 5 modellt = kellee lleszteük! k = k modellllesztést kellee elvégezük! Modell-építés techkák Nylvá szőkíteük kell kell az llesztedı modellek számát! Alkalmazhatjuk az ENE eljárást, amelybe azokat a magyarázó változókat vesszük be a változólstából a modellbe, amely változókat szereték, hogy bee legyeek. Ezeket a modelleket utólag értékel kell a meghatározottság együttható agysága, és a regresszós együtthatók szgfkaca sztje alapjá. A módosításokkal újra el kell végez az llesztést. Modell-építés techkák Automatkus modellépítés techkák: SEPWISE FOEWAD BACKWAD EMOVE A felhaszálóak csak az dulás magyarázó változó lstát kell specfkála, az SPSS program ebbıl választva állít elı jó modelleket, amk közül választhatuk végsı megoldást. A parcáls F-próba együk fel, hogy bevotuk a p-edk magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhayagolható, akkor az alább statsztka, -p- szabadságfokú Fsher-eloszlást követ: F p = p ( ) az új p változós modell meghatározottság együtthatója, a rég p- változós modell meghatározottság együtthatója, A parcáls F-próba A p-edk változót akkor vojuk be a modellbe, ha ahol K ε ε ( ) ( p ) K < olya krtkus érték, hogy: ( < K ) = ε P F,-p- ε

FOEWAD modell-építés BACKWAD modell-építés Alulról építkezı modellépítés eljárás. Mde modellépítés lépésbe a lstából azt a változót vojuk be, amely F-tesztjéhez a legksebb ε szt tartozk. A bevoás folyamat addg tart, amíg ez a legksebb ε szt egy beállított PIN korlát alatt marad. Elıye, hogy vszoylag kevés magyarázó változó lesz a modellbe, így köyebb a modellt értelmez. Felülrıl lebotó eljárás. Kezdetbe az összes változót berakjuk a modellbe. Mde lépésbe azt a változót hagyjuk el a modellbıl, amelyél parcáls F-próbáál a legagyobb ε érték tartozk. Akkor álluk meg, ha az elıre beállított POU küszöbérték alá megy ez az ε. A BACKWAD modellépítéssel vszoylag sok magyarázó változó marad be a modellbe. SEPWISE modell-építés EMOVE modell-építés A FOEWAD eljárást úgy módosítjuk, hogy mde lépésbe elleırzzük a modellbe korábba már bevot változókhoz tartozó ε szgfkaca-sztet, és azt elhagyjuk, ahol ez a szt agyobb mt POU. Nem kerülük végtele cklusba, ha PIN<POU. (Szokásos beállítás: PIN=,5 és POU=,. A EMOVE eljárás az ENE beállításából dul k, egyszerre hagy el változókat a modellbıl, összehasolításkét csak a kostas tagot tartalmazó modell eredméyet közl. Multkolleartás Multkolleartáso a magyarázó változók között fellépı leárs kapcsolat meglétét értjük. A multkolleartás jeleléte rotja a modell értékelhetıségét. A multkolleartás mérıszáma: toleraca varaca fláló faktor (VIF) kodícós de (CI) varaca háyad A multkolleartás mérıszáma. toleraca azt mér, hogy az -edk magyarázó változót az összes több mlye szorosa határozza meg. A ullához közel toleraca jelet azt, hogy közel függvéyszerő kapcsolat va a magyarázó változók között. Értéke -, ahol az -edk változóak a többvel vett leárs regresszójáak a korrelácós együtthatója, a többszörös korrelácós együttható. A varaca fláló faktor (VIF) a toleraca recproka: VIF=/(- ). Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtele agy s lehet. Ha a magyarázó változók korrelálatlaok, a VIF értéke.

A multkolleartás mérıszáma. A kodícós de (CI) a magyarázó változók korrelácós mátráak sajátértékebıl számolt statsztka. A legagyobb és legksebb sajátértékek háyadosáak égyzetgyöke. A CI>5 esetébe megállapítható az erıs kolleartás. CI = λ λ ma m Varaca háyad s utalhat multkolleartásra. Ha egy-egy agy kodícós de sorába több regresszós együtthatóak va magas varaca háyada. A regresszós együtthatók varacát a sajátértékek között szétosztjuk. A becslést befolyásoló potok feltárása A leárs regresszós modell értékeléséek fotos lépése az egyes adatpotok fotosságáak feltárása. Melyek azok az adatpotok, amelyek a végleges összefüggést legerısebbe mutatják, erısítk, és melyek azok az ú. outler potok, melyek legkevésbé lleszkedek az adott regresszós összefüggésbe. A becslést befolyásoló potok feltárása A Y célváltozó és a leárs becslés között kapcsolat: ~ Y = B = ~ e = Y Y = ( E H )Y ( ) Y = H Y A becslés hbavektora, maradékösszeg, regresszós összeg: SSE Y ( E H )Y H = ( ) = SS = Y H Y ( y ) ( ) H = a leverage (hatalom) vagy hat mátr A mátr szmmetrkus, h dagoáls eleme azt mutatják, hogy az -edk eset mekkora hatást fejt k a regresszós becslésre. h A becslést befolyásoló potok feltárása ( ) =, ahol = h = p + az -edk esetvektor h A becslést befolyásoló potok feltárása p + Az -edk eset befolyása átlagos, ha ezek a tpkus h esetek! Az -edk eset befolyása jeletıs, ha Ha <, h p + h > az -edk eset bevoható az elemzésbe Ha, h <, 5 kockázatos az -edk eset bevoása,5 h az -edk esetet k kell hagy, outler pot A maradéktagok (rezduálsok) elemzése Közöséges rezduáls: e = Y Yˆ e örölt rezduáls: e = Y Yˆ ( ) ( ) = h e Stadardzált rezduáls: z = p Belsıleg studetzált rezduáls: = e r = A leárs becslés elkészítésekor em számoluk az -edk esettel, töröljük. e e = p h

Példa kétváltozós leárs regresszóra A maradéktagok (rezduálsok) elemzése Heteroszkedasztctás: A maradéktagok ulla szt körül szóródásáak lehetséges típusa a.) a szóródás megfelel a leárs modellek, b.) em a leárs modellhez tartozak a maradéktagok, c.) a szóródások em azoosak, d.) a hbatagok em függetleek egymástól. Keressük leárs összefüggést az employee data állomáyba a kezdıfzetés és a jeleleg fzetés között! Példa kétváltozós leárs regresszóra Példa kétváltozós leárs regresszóra Példa kétváltozós leárs regresszóra a maradéktagok Példa kétparaméteres emleárs regresszóra Keressük emleárs kapcsolatot Cars állomáyba a lóerı és a fogyasztás között! Heteroszkedasztctás jelesége megfgyelhetı: agyobb -hez agyobb szórás tartozk! 3

Példa kétparaméteres emleárs regresszóra Példa kétparaméteres emleárs regresszóra Depedet Varable: Mles per Gallo Model Summary ad Parameter Estmates Equato Lear Logarthmc Iverse Power Epoetal Logstc Model Summary Parameter Estmates Costat b Square F df df Sg.,595 57,79 39, 39,55 -,57,5 75, 39,,5 -,53,59 75,3 39, 3,93,7,75 933,57 39, 3,77 -,3,9 7,3 39, 7,3 -,7,9 7,3 39,,,7 he depedet varable s Horsepower. Példa kétparaméteres emleárs regresszóra Példa kétparaméteres emleárs regresszóra Depedet Varable: Mles per Gallo Model Summary ad Parameter Estmates Equato Power Model Summary Parameter Estmates Costat b Square F df df Sg.,75 933,57 39, 3,77 -,3 he depedet varable s Horsepower. Példa többváltozós leárs regresszóra Végezzük leárs elemzést az employee data állomáyo! A jeleleg fzetés legye a célváltozó, a magyarázó változók a kezdıfzetés, alkalmazás deje (jobtme) és a dolgozó kora legye! Példa többváltozós leárs regresszóra A kostas szerepe elhayagolható a modellbe.