A PARCIÁLIS LEGKISEBB NÉGYZETEK REGRESSZIÓ. Horváth Vivien

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "A PARCIÁLIS LEGKISEBB NÉGYZETEK REGRESSZIÓ. Horváth Vivien"

Átírás

1 EÖTVÖS LORÁND TUDOMÁNYEGYETEM TERMÉSZETTUDOMÁNYI KAR A PARCIÁLIS LEGKISEBB NÉGYZETEK REGRESSZIÓ Szakdolgozat Horváth Vivien Matematika BSc Matematikai elemz szakirány Témavezet : Pröhle Tamás Valószín ségelméleti és Statisztika Tanszék Budapest,2012

2 Tartalomjegyzék 1. Bevezetés 3 2. F komponens-elemzés A f komponensek meghatározása Faktoranalízis Az általános modell F faktorok módszere Maximum likelihood faktoranalízis A kanonikus korreláció A módszer leírása A függ változók regressziós becslése a kanonikus változók segítségével SEM módszer A latens változós modell Iteratív eljárás PLS regresszió Az általános modell Az egyváltozós PLS A többváltozós PLS A módszerek bemutatása R program segítségével 45 Köszönetnyilvánítás 50 Irodalomjegyzék 51 2

3 1. fejezet Bevezetés Az információ-technológia és a számítástudomány gyors fejl désével nagy mértékben növekszik a piacgazdaság szerepl inek információigénye. Az adatok mennyiségének rohamos növekedése nem jár együtt a megfelel mérték információnövekedéssel. Az adatok felhasználóinak nem azok hiányával, hanem b ségével kell szembenézniük, mivel a legnomabb becslések szerint is, az elektronikusan tárolt adatok mennyisége évente legalább megkétszerez dik. A rendelkezésre álló adatok nagy mennyisége növeli ezek elemzésének összetettségét és az adatelemz kkel szemben támasztott elvárásokat. Az ilyen esetekben muszáj matematikai statisztikához fordulni a minél pontosabb információ kinyerés és precíz becslések érdekében. Az elemzésekhez többféle eljárást is lehet használni, melyek közül mindegyiknek megvan a maga el nye. A választásunk els sorban az adatok tuladonságait l függ, úgy mint paraméterek száma, meggyelések száma és az egyes változók közötti kapcsolat.[11] Szakdolgozatomban a parciális legkisebb négyzetek módszerét szeretném bemutatni és összehasonlítani négy másik népszer eljárással úgy mint f komponens-analízis, faktoranalízis, kanonikus korreláció és a SEM módszer. A dolgozat els felében ezen eljárások algoritmusát és elméleti hátterét kívánom ismertetni, míg a második részben a PLS eljárást szeretném bemutatni egy valós adathalmazon. A PLS eljárást els sorban abban az esetben tekinthetjük az egyik leghitelesebb eljárásnak, amikor a paraméterek száma nagy a meggyelések számához képest. 3

4 2. fejezet F komponens-elemzés A f komponens-analízis a legegyszer bb többváltozós statisztikai eljárások egyike. Els dleges célja az összegzés és dimenziócsökkentés. A faktoranalízissel ellentétben, ahol az els dleges cél a a mérési változók komplex, szerteágazó kapcsolatrendszerének egyszer sítése közvetlenül nem mérhet, kevés számú tulajdonság úgynevezett latens változó vagy másképpen faktor alakulására visszavezetni, addíg a f komponensanalízis els dleges célja a teljes variancia nagy hányadát kevés változónak tulajdonítani. A fejezet logikai felépítésében leginkább az [1],[2] és [3] m veket vettem alapul. Az egész eljárást érdemes úgy felfogni, hogy az X 1, X 2... X p változók egy p dimenziós teret feszítenek ki, de nem ortogonálisan. Mi az eljárás során el szeretnénk készíteni a tér egy ortogonális bázisát. Az új bázis az F 1, F 2,... F p tehát ortogonális és F t az X 1, X 2... X p (t = 1... p) lineáris kombinációja. Nyilván 1-re normált lineáris kombinációk jöhetnek szóba, hogy az össz-szórás (covariancia mátrix normája) ne változzon. Szukcesszívan maximalizálni akarjuk a változók egy lineáris kombinációjának szórását. Lényegileg egy olyan irányt, dimenziót amely mentén a valószín ségi változók maximálisan szóródnak. A f komponensek a mérési változók olyan lineáris kombinációi, amelyek páronként ortogonális rendszert alkotnak. A mérési változókat jelölje : x j (j = 1,..., p) ezek lineáris kombinációit: k t (t = 1,..., p) A f komponensek az i = 1... N elem sokaságban értelmezett, δk 2 t szóródási mértékeikkel a mérési változók szóródására vonatkozó, összesített δx 2 információt maradék 4

5 nélkül visszaadják: p δx 2 = δx 2 j = p j=1 t=1 Ha a változónkénti szóródást az egyes változók λ másodrend momentumával mérjük akkor: p δx 2 = λ xj = p j=1 t=1 Amennyiben a mérési változók centrált, zérus átlagúak, akkor a f komponensek is zérus átlagúak, s így varianciáik összegével a mérési változók varianciáinak összegét, vagyis szórásaik négyzetösszegét tudjuk teljes egészében magyarázni. A páronkénti ortogonalitásuk pedig páronkénti korrelálatlanságukat jelenti: δ 2 k t λ kt δ 2 x = p σx 2 j = tr(c xx ) = j=1 p σk 2 t = tr(c kk ) t=1 ahol C xx a mérési változók kovariancia mátrixa, C kk pedig a f komponensek diagonális kovariancia mátrixa. Abban az esetben, ha a centrált mérési változók standardizáltak is, akkor kovariancia mátrixuk megegyezik korrelációs mátrixukkal, varianciáik összege pedig e változók számával: p j=1 σ 2 x j = p p σx 2 j = tr(r xx ) = j=1 p σk 2 t = tr(c kk ) t=1 A mérési változókat az X mátrix oszlopaiba helyezve, és képezve: D xx = 1 N XT X szóródási mátrixot, ennek a mátrixnak a diagonális δx 2 j elemei megadják az egyes mérési változók szóródását, diagonális elemeinek összege pedig a mérési változók összesített δ 2 x szóródását: tr(d xx ) = Az ilyen tulajdonságú f komponensekkel szemben további követelmény, hogy szóródásuk mértéke monoton csökkenjen valamint, hogy az adott f komponens az összes δ 2 x információból a t le nagyobb szóródásúak által nem reprodukált hányad maximális részét reprodukálja: p j=1 δ 2 x j δ 2 k 1 δ 2 k 2 δ 2 k p 0 A f komponensek létrehozásával az a célunk, hogy ilyen tulajdonságú f komponensek egy k 1, k 2,... k m<p sz k csoportjával helyettesítsük a sokaság egyedeinek a 5

6 jellemzésére szolgáló változókat. A következ mutató a szóródásra vonatkozó összes információból megmagyarázott hányadot mutatja, melyet jelöljön IP m 0 IP = δk 2 t t=1 δx 2 1 A változók számának csökkentésével további céljaink a következ k: 1. A mérési változók össz-szóródásában rejl információ nagy részét kevés számú változóba tömöríteni. 2. Az x mérési változókat a velük legszorosabban korreláló f komponenshez rendelve olyan X k1, X k2,... X km homogén csoportosulásait "kirajzolni", amely e- setén az x változók csoporton belül egymással szorosan, más csoportok változóival viszont gyengén korrelálnak. Fontos megjegyezni, hogy a szóródási mutatók δx 2 összesítésének csak akkor van értelme, ha a mérési változók azonos mértékegység ek, vagy ha normáltak, illetve standardizáltak. Ezenkívül, míg az egyes x változók magyarázatához való hozzájárulás mértékének megítélése egyenl szóródású, azaz normált addíg az összesített szóródás reprodukálásához való hozzájárulás megítélése maximális szóródású f komponensek alkalmazását igényli. Könnyen megállapítható, hogy a leginkább szóródó f komponensek tartalmát adó mérési változókra vonatkozóan szóródik a leginkább, és a legkevésbé szóródó f komponensekkel szorosan korreláló változók tekintetében szóródik a legkevésbé a sokaság. A f komponensek abban az esetben alkalmasak további elemzésre, ha kevés számú f komponens minimális információvesztéssel képes helyettesíteni a mérési változókat. Az így nyert f komponensek további felhasználási lehet sége az egyes f komponensek meggyelési egységekre számított értékének a hasznosítása. E területek az alábbiak: 1. A meggyelési egységeket rangsorolhatjuk és csoportosíthatjuk az egyes f komponensekben felvett értékeik alapján ezáltal a rangsor egyidej leg több meggyelési változó tekintetében jellemzi a meggyelési egységek rangpozicióit. 2. Az extrém nagy vagy kicsiny f komponens értékek lehet vé teszik az úgynevezett "outlierek" felismerését, kisz rését. 3. A f komponensváltozók létrehozása további statisztikai eljárások alapjául is szolgál. 6

7 2.1. A f komponensek meghatározása A mérési változók szóródási mátrixának vegyük a következ alakú spektrál felbontását: D xx = 1 N XT X = V ΛV T Ahol V = [v jt ] jelöljön egy ortonormált mátrixot, oszlopaiban a v 1, v 2,..., v p sajátvektorokkal. Λ jelöljön egy diagonális mátrixot, diagonálisát képezzék a λ 1 λ 2 λ p sajátértékek. A v jt általános elem sorindexe mérési változóra, oszlopindexe pedig f komponensre utal. Ezen információk birtokában a súlyozást az alábbi mátrix szemlélteti : változó k (λ 1) 1 k p (λp) x 1 v 11 v 1p... x p v p1 v pp Ezek alapján a t-edik maximalizált f komponens meghatározása a megfelel v t sajátvektor segítségével: kt λt = v 1t x 1 + v 2t x v pt x p = pv jt x j j=1 Ekkor a t-edik normált f komponenst úgy kapjuk meg, hogy f komponens elemeit a λ t négyzetes átlaggal normáljuk: ahol a k (1) t = 1 λt k λt t = p j=1 v jt λt x j = p q jt x j q jt = v jt λ t súlyokat a normált f komponens-értékek el állítására szolgáló faktor együtthatójának hívjuk. Ha a mérési változók zérus átlagúak, akkor a lineáris kombinációjukként deniált f komponensek is zérus átlagúak. A súlyozási séma adott sorát tekintve, a j-edik mérési változó reprodukálása a maximalizált f komponensekb l: j=1 x j = v j1 k λ v j2 k λ v jp k λp p = p t=1 v jt k λt t Ez alapján, a mérési változó reprodukálása a normált f komponensek felhasználásával az a jt = v jt λt 7

8 úgynevezett faktorsúlyok segítségével történik: p x j = a jt k (1) t t=1 Látható, hogy mind a f komponensek, mind a mérési változók, kölcsönösen egymás lineáris kombinációi, és a súlyok megválasztásától függ en: 1. A maximalizált f komponenseknek a sajátvektorok megfelel sor elemeivel súlyozott lineáris kombinációit mérési változónak hívjuk. 2. A mérési változóknak a megfelel sajátvektor elemeivel súlyozott lineáris kombinációja a maximalizált f komponens. 3. A mérési változóknak a faktor-együtthatókkal súlyozott lineáris kombinációja a normált f komponens. 4. A normált f komponenseknek a faktorsúlyokkal súlyozott lineáris kombinációja a mérési változó. A f komponensek további jellemzése miatt fontos, hogy a f komponensek és a mérési változók kapcsolatrendszerét mátrix algebrai formában is megfogalmazzuk. Alkossák a K (1) mátrix oszlopai a normált k (1), a K (λ) mátrix oszlopait pedig a k (λt) maximalizált f komponensek. Ezen jelölésekkel a mérési változók X mátrixának SVD felbontása: az 1 N K(1)T X = K (1) Λ 1 2 V T = K (λ) V T = K (1) A T (2.1) K (1) = V T V = I (2.2) ortonormáltsági követelmények mellett, ahol A a faktorsúlyok mátrixa. A (2.1) feladat egyben a mérési változók szóródási mátrixának: spektrálfelbontása is. 1 N XT X = D xx = V ΛV T A szóródási mátrix nyoma a szóródási mátrix sajátértékeinek az összege: tr(d xx ) = tr(v T V Λ) = tr(a) (2.3) A (2.1) modell els azonosságának átrendezésével (mivel V T f komponensek mátrixa: = V 1 ) a normált K (1) = X(V Λ 1 2 ) = XQ (2.4) 8

9 ahol Q mátrix elemeit az el z ekben bevezetett faktor-együtthatók alkotják. Ha a mérési változók zérus átlagúak, akkor a lineáris kombinációjukként deniált f komponensek is zérus átlagúak, tehát normált voltuk egyben standardizált voltukat is jelenti. A (2.3) második azonosságának átrendezésével a maximalizált f komponensek K (λ) mátrixa: K (λ) = XV Mivel a fenti azonosságokból (2.4) ortonormáltsági követelmények miatt a maximalizált f komponensek diagonális szóródási mátrixa: 1 N K(λ)T K (λ) = D kk = V T D xx = V T D xx V = Λ (2.5) Ezért a (2.2) és (2.4) egybevételéb l látható, hogy: tr(d xx ) = tr(λ) = D kk tehát a páronkénti ortogonális f komponensek négyzetes átlagainak négyzetösszege megegyezik a mérési változók négyzetes átlagainak négyzetösszegével, vagyis másodrend momentumaik összegével. Nézzük most az: A = V Λ 1 2 mátrixba foglalt faktorsúlyokat, e mátrix sorainak skaláris szorzatai maradék nélkül reprodukálják a mérési változók szóródási mátrixát: AA T = (V Λ 1 2 )(V Λ 1 2 ) T = V ΛV T = D xx (2.6) oszlopainak skaláris szorzatai pedig a f komponensek diagonális szóródási mátrixát reprodukálják maradék nélkül: A T A = Λ 1 2 V T V Λ 1 2 = Λ = Dxx A (2.5) azonosságból következik a reprodukált szóródási mátrix invariancia tulajdonsága. Nézzük a súlymátrix els m számú oszlopát tartalmazó A m mátrixot és T legyen a transzformációs mátrix, melyre T T T = I. Egyszer átrendezéssel: (A m T )(A m T ) T = A m T T T A T m = A m A T m (2.7) vagyis a: ˆD xx(m) = A m A T m 9

10 reprodukált szóródási mátrix (csak m = p esetén egyezik meg az eredeti szóródási mátrixszal) invariáns az ortogonális transzformációkra. Innen kivonással megkaphatjuk a reziduális szóródási mátrixot is: D e(m) = D xx ˆD xx (m) Faktorstruktúrának nevezzük a mérési változók és a normált f komponensek közötti páronkénti kapcsolatrendszerét leíró kovariancia (korrelációs) mátrixot, melyet a kovariancia (2.6) szerinti aszimmetrikus számítási lehet sége alapján a következ képpen írhatunk fel: C xk = 1 N XT d K (1) és innen kifejezhetjük mind a faktorsúlyok, mind a faktor-együtthatók felhasználásával. Mivel a (2.1) harmadik egyenletét centrált változókra felírva, és behelyettesítve a fenti egyenletbe: C xk = A 1 N K(1)T d K(1) = AC kk adódik, vagyis a faktorstruktúra egyrészt a faktorsúlyok, másrészt a f komponensközi kovarianciák függvénye. Ha a korrelálatlan f komponensek egyben standardizáltak is, akkor C kk egységmátrix, tehát ekkor a faktorstuktúra megegyezik a faktorsúlyok mátrixával: C xk = A. A (2.5) azonosságot balról szorozva az 1 N XT d C xk = 1 N XT d XQ = C xx Q ahonnan a faktor-együtthatók mátrixa (az invertálhatóságot feltételezve): mátrixszal: Q = C 1 xx C xk (2.8) Ha a f komponensek korrelálatlanok, akkor a faktor-együtthatók mátrixa a következ módon is számolható: Q = C 1 xx A A (2.8) formulának az a gyakorlati jelent sége, hogy ha csak az els m f komponenst tartjuk meg, akkor a normált változatuk el állításához szükséges súlyok mátrixa: Q m = C 1 xx C xkm (2.9) ahol C xkm a struktúra mátrix els m oszlopát tartalmazza. Ha az els m orthogonális f komponens A m súlymátrixán olyan transzformációt hajtunk végre, amelynek eredményeképpen A m már korrelált f komponensekre vonatkozik, akkor az els m korrelált f komponens meghatározása a (2.9) alkalmazást igényli. 10

11 Az olyan statisztikai elemzések melyek variancia tömörítésre épülnek a mérési változók összesített varianciáját ismert arányban felosztó f komponensekre épülnek. Ha a mérési változók átlagos értékei tetsz legesek, akkor semmilyen általános következtetés nem vonható le a f komponensek átlagaira, s így varianciáikra vonatkozóan sem. Viszont ha a mérési változók zérus átlagúak, akkor lineáris kombinációjukként létrehozott f komponensek is zérus átlagúak, és ekkor másodrend momentumuk a varianciájukkal egyezeik meg. Tehát a variancia tömörítésére szolgáló f komponenseket standardizált vagy nem standardizált de zérus átlagú mérési változók f komponenseinek a meghatározásával nyerjük. 11

12 3. fejezet Faktoranalízis A faktoranalízis során gyelmünket els sorban nem a mérési változók összes varianciájára, hanem e változók kapcsolatrendszere felé fordítjuk. Szemben a f komponens analízissel, mely a teljes variancia nagy hányadát kísérli meg kevés változónak tulajdonítani, a faktoranalízis a mérési változók komplex, szerteágazó kapcsolatrendszerét próbálja meg egyszer síteni közvetlenül nem mérhet, kevés számú tulajdonság úgynevezett latens változó vagy másképpen faktor alakulására visszavezetni, azok eredményének betudni. Ehhez a részhez az [2] és a [3] forrást vettem alapul. Az eljárások során jelent sen csökkentjük a változók számát. Bizonyos változók a meggyelések során alig változnak, szórásuk kicsi, ezeket tehát nem tekinthetjük jellemz nek, ha tudjuk melyek ezek elhagyhatjuk ket. Gyakran nem egy változó kis szórású, hanem kett összege, vagy valamelyik másik lineáris kombinációja, tehát ezeket keressük, illetve az eljárás szempontjából inkább azokat, amelyeknek nagy a szórása tehát nem hagyhatóak el. A faktoranalízis alapvet en nem variancia, hanem kovariancia, korreláció-orientált módszer. Az eljárás során megkeressük az eredeti változók egymással szorosabb korrelációban lév csoportjait, ezeket a változókat egy faktorhoz tartozónak tekintjük. Olyan faktorokat keresünk tehát amelyek közvetlenül nem gyelhet ek meg, de feltételezésünk szerint a vizsgált mérési változók alakulását befolyásolják, ily módon összekapcsolva azokat. Amennyiben sikerült ilyen csoportokat elkülönítenünk, a következ feladat a faktorok értelmezése. Így a nagyszámú eredeti változót néhány faktorban összesíthetjük, és ezekkel mint új változókkal dolgozhatunk tovább. 12

13 Annak eldöntésére, hogy mikor alkalmazzunk faktoranalízist a következ statisztikák segítenek: 1. Ha a korrelációs mátrix alapján a változók úgy csoportosíthatóak, hogy az egy csoporton belüli változók között viszonylag magas a korreláció, ezzel szemben a csoportok között pedig alacsony. 2. A parciális korrelációk kicsik. 3. A Kaiser-féle mutatószám, amelyet neveznek Kaiser-Meyer-Olkin statisztikának is, 0.8-nél nagyobb. Ha ez a mutatószám viszont 0.5-nél kisebb, akkor nem ajánlott faktoranalízis végrehajtása. KMO = i j r 2 ij rij 2 + i j i ahol r ij az i -dik és j-dik meggyelt változó közötti korrelációs együttható, a ij az i-dik és j -dik meggyelt változók közötti parciális korrelációs együttható. A faktoranalízis egyaránt támaszkodhat a kovariancia illetve a korrelációs mátrix elemzésére. A választás azon múlik, hogy meg akarjuk-e rizni az eredeti skálát vagy sem. A faktormodellben azt mondjuk meg, hogyan függnek az egyes változók a faktoroktól, mely lineáris kombinációval állíthatjuk el ket. Fontos tudni, hogy a faktoranalízist többféle módszerrel hajthatjuk végre. j a 2 ij 3.1. Az általános modell Tegyük fel, hogy a faktorok korrelálatlanok és 0 várható érték ek. Ennek megfelel en a faktoranalízis mátrixos modellje: X = AF + D X jelöli a meggyelt változókból álló n dimenziós véletlen vektort, F a faktorok k dimenziós véletlen vektorát (k < n), A = (a ij ) egy n k méret rögzített mátrixot, ennek a neve átviteli (loading) mátrix, elemei a faktorsúlyok, D pedig az X változóhoz tartozó egyedi hibafaktort. Valamennyi faktor valamennyi mérési változó magyarázatához hozzájárul valamilyen mértékben, s az egyes változók alakulásának ily módon meg nem magyarázott 13

14 részét változóként külön-külön egy további véletlen változó, a D faktor képviseli. Az olyan faktort, amely valamenyi mérési változó alakulását befolyásolja, közös faktornak nevezzük. Látható, hogy a faktormodell egyenletei tulajdonképpen speciális regressziós egyenletek, a mérési változók az eredmény jelleg, a faktorok pedig a magyarázó jelleg változók. A feltételünkb l, hogy az egyedi faktorok páronként korrelálatlanok, következik, hogy a kovariancia mátrixuk diagonális lesz: C DD = Ψ = 1 n DT D =< ψ1, 2... ψp 2 > ahol ψj 2, a j-dik egyedi faktor varianciája. Mivel az egyedi és a nem egyedi faktorok egymással korrelálatlanok, ezért: Cov(F k, D j ) = 0 (k = 1,..., m; ) (j = 1,..., p) Ezek után a mérési változók kovariancia mátrixa a faktorokról rendelkezésre álló információk alapján az alábbi módon reprodukálható : C xx = 1 n XT X = 1 n (F ΦT + D) T (F Φ T + D) = = Φ( 1 n F T F )Φ T + 1 n DT D = = ΦC F F Φ T + C DD (3.1) ahol C F F a latens faktorok kovariancia mátrixa. A (3.1) egyenletet nevezzük a faktoranalízis általános alapegyenletének. Ha a mérési változók és a faktorok is mind standardizáltak, akkor a faktoranalízis alapegyenlete a következ képpen változik: R xx = ΦR F F Φ T + C DD = R + C DD (3.2) ahol R F F a latens faktorok, R pedig a redukált korrelációs mátrix. A faktorok korrelálatlanságán kívül tegyük fel, hogy a meggyelt változók standardizáltak, ekkor kapjuk meg a faktoranalízis alapegyenletének azt a formáját, mely a legtöbb megszorítást tartalmazza a vizsgált változókra vonatkozóan: R xx = ΦΦ T + C DD Ezek szerint a meggyelt változók páronkénti korrelációs rendszere, vagyis az átlón kívül es elemek teljesen reprodukálhatóak a faktorsúlyok segítségével, viszont az átlón elhelyezkezd egységnyi standardizált változók reprodukálásához az egyedi faktorok ψ 2 varianciáinak az ismerete is szükséges. r xj x t = φ j1 φ t1 + + φ jm φ tm (j t) 14

15 és r xj x j = 1 = φ 2 j1 + + φ 2 jm + ψ 2 j (j = 1,..., p) A mérési változók korrelációs rendszeréért a modell szerint tehét kizárólag a latens faktorok felel sek. A közös variancia A faktoranalízis általános modelljében az x j részre bontható: mérési változó két korrelálatlan x j = c j + D j ahol c j = φ j1 F φ jm F m a változóknak azon része, mely közös a többi meggyelt változóval, míg D j az egyes változók egyediségét jelenti. Mivel azt tettük fel, hogy a változók közös és egyedi része korrelálatlan, ezért az x j változó varianciája is két részre bontható: V ar(x j ) = V ar(c j ) + V ar(d j ) (3.3) ahol V ar(c j ) a latens faktorok által közösen magyarázott, V ar(d j ) pedig e változó egyedi varianciáját képviseli. A közös varianciát az x j változó kommunalitásának nevezzük. Valamely mérési változó kommunalitása az illet változó varianciájából a latens faktorok által adott megmagyarázott hányadot adja meg. Jelölje az x i változó kommunalitását h 2 j, ahol h 2 j = k a 2 ij i=1 Figyelembe véve, hogy V ar(d) = ψj 2, a varianciát a következ képpen bonthatjuk fel: V ar(x j ) = h 2 j + ψj 2 Mivel a faktoranalízis során a célunk nem a teljes variancia tömörítése, ezért az egyes változók varianciájának csak az a része érdekes amelyet a közös faktorok segítségével magyarázni tudunk. A mérési változók R xx korrelációs mátrixában a diagonális e- lemeket a megfelel változók h 2 j kommunalitásaival helyettesítve az R úgynevezett redukált korrelációs mátrixot nyerjük: h 2 1 r 12 r 1p R r 12 h 2 2 r 2p =..... r p1 r p2 h 2 p 15

16 Standardizált és korrelálatlan faktorok esetében a h 2 j mátrix j-dik sorában a súlyok öszege: kommunalitás a faktorsúly h 2 j = m φ 2 jk = φ 2 j k=1 Mivel φ 2 jk az adott x j mérési változó és az F k faktor korrelációs kapcsolatát jellemz determinációs együttható, ezért erre az x j mérési változó F k faktorra vonatkozó egyedi kommunalitásaként tekinthetünk. Jelölje VP a faktorsúly mátrixot, k-dik oszlopában a súlyokat pedig: V P k = p φ 2 jk = φ 2.k j=1 négyzetösszege adja meg, ami megmutatja, hogy az F k járul hozzá a mérési változók összes varianciájának a magyarázatához. faktor milyen mértékben A faktorok meghatározatlansága A faktorok meghatározása nem egyértelm, mivel a faktorok elforgathatóak, és a kommunalitások nem ismertek az eljárás elején. Faktorok elforgatásán a következ t értjük: ha egy n n-es T mátrix olyan, hogy T T T = I ahol I az egységmátrixot jelöli, akkor minden B T megoldása az alapegyenletnek. Ha már tudjuk a faktormodell egy megoldását, akkor a faktorok bármilyen ortogonális forgatása az ortonormált T transzformációs mátrixszal az m dimenziós térben kielégíti a (3.2) alapegyenletet: (ΦT )(T T R F F T )(ΦT ) T = ΦT T T R F F T T T Φ T = ΦR F F Φ T Vagyis, a transzformációs mátrixszal a faktorsúlyoknak és a faktorkorrelációnak olyan új, elforgatott változatait tudjuk létrehozni, melyek a mérési változók korrelációs rendszerét változatlanul hagyják. Ilyen transzformációs mátrix viszont végtelen számú van, és mindegyikük más és más faktormodellt deniál. A faktoranalízis alkalmazásának kulcskérdése, hogy végülis melyik faktorstruktúrát válasszuk. Viszont a redukált korrelációs mátrix összeállítása sem egyértelm. A faktorok által megmagyarázott kommunalitások kiszámítása a faktorok ismereteit igényli, de a faktorok meghatározásának kiindulási pontja a redukált korrelációs mátrix ismerete. Ebb l következik, hogy a kommunalitásnak mindíg induló becslést kell nyújtanunk, melyek az eljárás során egyre pontosabbakká válnak. 16

17 Ennek leggyakrabban használt módjai a következ k: Az x j változó kommunalitására azt a hányadot tekintjük induló becslésnek, amelyet e változóból az összes többi x változó megmagyaráz. Ez az arány megegyezik a kérdéses változónak az összes többi meggyelt változóval vett többszörös determinációs együtthatójával: ĥ 2 j = R2 j.1,...,j 1,j+1,...p. A becsült kommunalitás lehet a meggyelt változók korrelációs mátrixának j-dik sorának maximális abszolút érték eleme. A kommunalitásokra úgy is adhatunk induló becslést, hogy x j kommunalitásnak az összes többi meggyelt változóval vett korrelációi abszolút értékeinek a számtani átlagát tekintjük: ĥ 2 j = 1 p 1 p r jt (T j) t=1 Egy elöz lépésben végrehajtott f komponens analízisb l származó, az egyes f komponensek által magyarázott többszörös determinációs arányokat induló becslésként szerepeltetjük. A faktormodell felhasználása Az általános faktormodell két alapvet felhasználási területe az exploratív és konrmatív faktoranalízis. Az exploratív faktoranalízisben nincs el zetes információnk a faktorok számáról valamint a faktor struktúráról. Ebben az esetben az adatállományt arra használjuk, hogy feltárjuk mindazon faktor jellemz ket, melyek a mérési változók korrelációs kapcsolatrendszerét a legjobban magyarázzák. meghatározzuk a faktorok minimális számát megkeressük a legmegfelel bb faktorsúlyokat meghatározzuk a kommunalitásokat és az egyediségeket értelmezzük a faktorokat ha szükséges becsüljük a faktorokat meggyelési egységekhez tartozó értékeit Ezzel ellentétben a konrmatív faktoranalízis során a priori hipotézissel élünk a faktorstruktúrára vonatkozóan, és azt vizsgáljuk, hogy a mintánk ellentmond-e ennek a hipotézisnek, vagy nem. 17

18 Exploratív faktoranalízis A faktoranalízis alapvet célja el bb a faktorsúlyok, majd a közös faktorok el állítása. Mivel a faktorsúlyok számítása nem egzakt, ezért különböz képpen indulhatunk ki a faktorsúlyok meghatározása során. Az alábbiakban két eljárást: 1. f faktor analízis 2. maximum likelihood faktoranalízist mutatjuk be, a faktoranalízis végrehajtására. Az exploratív faktor megoldások közös jellemz je, hogy a kommunalitásokra adott induló becsléseken alapulnak F faktorok módszere A Faktoranalízisnek ez az eljárása a f komponensek meghatározására vezeti viszsza a faktorsúlyok becslését. Tegyük fel, hogy a közös faktorok száma m, azonban sem m értékét sem az m számú latens faktorhoz tartozó kommunalitásokat nem ismerjük. Az ismeretlen redukált korrelációs mátrixot ekkor az alábbi módon írhatjuk fel: R = A m A t m A faktorok számára vonatkozóan tehát hipotézissel, a kommunalitásokra vonatkozóan pedig becsléssel kell élnünk. Legyen a faktorok számára vonatkozó hipotetikus érték q < m. Ha téves a hipotézisünk, és kevesebb faktort sz rünk ki, mint valójában kellene, akkor a redukált korrelációs mátrix még akkor is csak maradékkal reprodukálható, ha egyébként ismernénk az egzakt kommunalitásokat. Természetesen a redukált korrelációs mátrix a latens faktorok egzakt számának az ismeretében is csak maradékkal reprodukálható, ha nem ismerjük a valódi kommunalitásokat. Ekkor a reziduális korrelációs mátrix: R e(q) = R xx φ q φ T q A f faktoranalízis célja olyan közös f faktorok el állítása, amelyek közül az els maximális arányban magyarázza a mérési változók összes varianciáját, majd a második a maradék varianciát magyarázza maximális arányban, miközben korrelálatlan az els faktorral, és így tovább, egészen F q faktorig. A varianciából megmagyarázott hányad maximalizálásával egyid ben az is teljesül, hogy a reziduális korrelációs mátrix elemeinek a négyzetösszege minimális bármely másik q közös faktor esetéhez képest. 18

19 A f faktoranalízis megoldása a következ lépésekb l áll. El ször induló becslést adunk az ismeretlen kommunalitásnak, s az így kapott értékekkel helyettesítve az R xx mátrix átlóját, a redukált korrelációs mátrix egy induló becslését kapjuk, amit R (0) jelöl. Ezt követ en q számú faktort feltételezve a becsült redukált korrelációs mátrixból kiindulva iteratív f komponens-analízist hajtunk végre. Az els iterációs lépés során meghatározzuk az R (0) els q f komponenséhez tartozó f komponens súlyok A mátrixát. A megfelel x változók kommunalitásaira nyerhetünk újabb becslést ha a f komponens súlyok soronkénti négyzetösszegeit képezzük. Most ezen becsléseket helyettesítve az eredeti R xx korrelációs mátrix átlójára kapjuk a redukált korrelációs mátrix újabb R (1) becslését. A második iterációs lépésben már ez utóbbi R (1) redukált korrelációs mátrix els q f komponenséhez tartozó A súlymátrixot határoztuk meg, majd a súlyok segítségével újra becsüljük a kommunalitásokat. Ezeket az értékeket R xx diagonálisában szerepeltetve, a redukálált korrelációs mátrix következ, R (2) becslésével rendelkezünk. Általánosságban az i-dik iterációs lépésben a megel z lépésb l származó becsült R (i 1) redukált korrelációs mátrix els q f komponensének A súlyait keressük, majd ezek felhasználásával nyerjük a redukált korrelációs mátrix R (i) becslését. Mivel valamennyi iterációs lépés egy-egy önálló f komponens-analízis, ezért a sajátértékek, a sajátvektorok, s így a f komponens súlyok és a kommunalitások iterációról iterációra változnak. A f faktoranalízis során minden egyes iteráció után megvizsgáljuk, hogy jelent sen változnak-e a kommunalitások meggyelt változóként külön: h 2 j(i 1) h 2 j(i) < δ (j = 1,..., p) ahol δ el re rögzített kicsi pozitív szám. Ha ez a leállási feltétel éppen az i-dik lépés után mindegyik x j esetén teljesül akkor az m = q hipotézis mellett végs megálláshoz jutottunk: Φ q = A q(i) Az m = q hipotézis nem biztos, hogy helytálló. Ezért célszer a faktorokat szekvenciálisan, fokazatosan léptetni be a hipotézisünkbe, s mindig megvizsgálni a reziduális korrelációs mátrix elemeit. Ha a q-dik lépésben Re elemei már nagyon kicsik, akkor 19

20 nincs értelme a (q+1)-dik faktort is meghatározni, s önkényesen elfogadjuk az m = q számú latens faktor létezésének hipotézisét. Fontos, hogy ha mégis ki akarjuk sz rni a (q + 1)-dik faktort akkor valamely x változók kommunalitása nagyobb lehet mint 1, ami értelmetlen. Ezért lehetséges, hogy a becsült redukált korrelációs mátrix nem pozitív szemidenit, s így negatív sajátértékei is lehetnek. Mivel azonban ˆR sajátértékeinek az összege egyenl a kommunalitások összegével, ami az els m sajátérték m k=1 λ k összege is egyben, ezért a pozitív sajátértékek összege meghaladja a teljes kommulitás értékét. Ilyenkor maximum annyi faktort lehet és érdemes meghatározni, amelyek pozitív sajátértékeinek az összege felülr l közelíti a teljes kommunalitást Maximum likelihood faktoranalízis Tegyük fel, hogy m számú közös, standardizált faktor van, s ezen faktorok korrelálatlanok. Célunk, hogy a Φ és Ψ paramétereket a maximális likelihood elv alapján becsüljük. Mivel a ML módszer valamely paraméterekre rögzített eloszlás típus mellett nyújt becsl függvényt, ezért a ML faktoranalízis során további feltételezéseket is kell tennünk. Tegyük fel, hogy az F közös és D egyedi faktorok független, többváltozós normális eloszlást követnek zérus átlagvektorral. Ebb l következik, hogy mivel a mérési változók a faktorok lineáris kombinációi, feltételezésünk szerint a mérési változók is többváltozós normális eloszlást követnek zérus átlagvektorral, kovariancia mátrixszal. Az n számú meggyelésünket egy n elem független mintának tekintve a mintából számított korrigált kovariancia mátrix: S = 1 n 1 XT X ezért a maximum likelihood elvnek megfelel en az L likelihood függvény: lnl = n 2 (ln + tr(sσ 1 )) + konst. max. szerinti logaritmusát maximalizáljuk. Paraméterbecslés Mivel a modell szerint Σ = ΦΦ T + Ψ, ezért nyilván a likelihood is függvénye a Φ és Ψ paramétereknek, tehát változókként kezelve e paramétereket keressük azon ˆΦ és ˆΨ paraméterket, amelyekre lnl maximális. Hipotézisvizsgálati szempontból azonban el nyösebb az F k (Φ, Ψ) = ln Σ + tr(sσ 1 ) ln S p (3.4) 20

21 célfüggvényt minimalizálni. A maximum likelihood normál egyenletekhez az F k célfüggvény parciális deriválása útján jutunk: δf k δφ = 2Σ 1 (Σ S)Σ 1 Φ δf k δφ = diag.(σ 1 (Σ S)Σ 1 ) ahol diagonlis(z) egy olyan diagonális mátrix, amelyet Z-b l úgy képezzük, hogy a nem diagonális elemeit 0-val helyettesítjük. Ezután az F függvény minimumát két lépés beiktatásával keressük: 1. Az els lépésben rögzített Ψ 0 egyediség mellett keressük F feltételes minimumát Φ-ben, amit jelöljön F k (Φ 0, Ψ 0 ) = f k (Ψ 0 ). Ekkor Φ 0 olyan értéke Φ- nek, amely eleget tesz az els egyenletnek. 2. Ezután pedig keressük a Ψ paramétert, amely már f k -t feltétel nélkül minimalizálja. Ebb l egy új Ψ 1 diagonális mátrixhoz jutunk, amelyb l egy újabb Φ 1 mátrixot származtatunk, amelyb l viszont egy újabb Ψ 2 számítható a nem lineáris minimalizálási eljárás révén. A maximum likelihood faktoranalízis egy iterációs eljárást igényel, melynek során rögzítünk egy kiindulási Ψ 0 mátrixot, majd újabb és újabb Ψ 1 Ψ 2,... Ψ s, Ψ s+1 mátrixokhoz jutva vizsgáljuk, hogy az: f(ψ s+1 ) < f(ψ s ) csökkenés jelent s-e? Ha a csökkenés már nem nagyobb egy el re rögzített pozitív értéknél, akkor a végs ˆΨ mátrixhoz jutottunk el, amib l ˆΦ már következik. A maximum likelihood faktoranalízis fontos tulajdonsága, hogy skálainvariáns vagyis mindegy, hogy számításainkban az S az R korrelációs, vagy a C kovariancia mátrixot jelöli. Hipotézisvizsgálat A ML faktoranalízis el nye, hogy a maximum likelihood arány kritérium felhasználása lehet vé teszi azon H m hipotézis tesztelését, miszerint éppen m számú közös faktor létezik. Jelölje Ω a p-ed rend szimmetrikus pozitív denit mátrixok halmazát, ω pedig azt a részhalmazt, amelyre: Σ = φ m φ T m + Φ m 21

22 teljesül, összhangban a H m hipotézissel. Jelölje továbbá L Ω a likelihood maximumát az Ω halmazon, L ω pedig az ω részhalmazon. Ekkor a likelihood arány: a likelihood arány teszt pedig: λ = L ω L Ω 2lnλ = n(ln ˆΣ + tr(s ˆΣ 1 ) ln S p) Ez viszont nem más mint a (3.4) célfüggvény minimumhelyén vett értékének az n- szerese. A H m hipotézis helyessége és nagy mintaelemszám esetén a likelihood arány próbafüggvény közelít leg χ 2 eloszlású: p(p + 1) 2 szabadságfokkal. + ( pm + p m(m 1) ) = 1 ( ) (p m) 2 p m

23 4. fejezet A kanonikus korreláció Kanonikus korreláció esetén a változó halmaz természetes módon két részre van bontva, és a két változóhalmaz kapcsolatát vizsgáljuk. Különbséget teszünk a változók között aszerint, hogy függ vagy független, magyarázott vagy magyarázó, becsült vagy becsl változóról van szó. A kanonikus korreláció elemzést tekinthetjük a többszörös korreláció általánosításának is. Ezen fejezet alapjául a [4] és [6] irodalom szolgált. A kanonikus korreláció esetén több x i (i = 1, m 1 ) magyarázó változó sztochasztikus kapcsolatát több y j (j = 1, m 2 ) magyarázott változóval vizsgáljuk. A kanonikus korrelációs modellben az x i és y j változók olyan lineáris függvényeit keressük, amelyek közötti korreláció maximális. A kanonikus korrelációt úgy is felfoghatjuk, hogy az eljárás során faktorokat hozunk létre, ahol a két változóhalmaz azon faktorait keressük, amelyek közötti korreláció maximális A módszer leírása Jelölje X az x i változók n-szeri meggyelésének mátrixát. Y pedig az y j változók n-szeri meggyelésének mátrixát. Tegyük fel az általános eset korlátozása nélkül, hogy m 2 < m 1. Standardizáljuk a változókat, mivel ebben az esetben a kovarianciamátrix megegyezik a korrelációs mátrixszal. Tehát tegyük fel, hogy x i és y j változók standardizáltak. A kanonikus korreláció elemzés során az x = [x 1, x 2, x m1 ] és az y = [y 1, y 2, y m2 ] vektorváltozók sztochasztikus kapcsolatát vizsgáljuk az x és y vektorváltozók komponenseinek lineáris függvényein keresztül. Legyenek a vektor elemei az x i változók lineáris függvényei: 23

24 v = X c ahol a c vektor (m 1 l)-es méret elemeit súlyoknak nevezzük. Hasonlóan deniáljuk az y i változók lineáris kombinációját: w = Y d ahol d egy (m 2 l)-es vektor és az úgynevezett következmény súlyokat tartalmazza. Kanonikus korrelációelemzés esetén a cél megtalálni a c és d súlyokat, amelyek mellett a v és w kanonikus változók közötti korreláció maximális. A v és w közötti korrelációt nevezzük kanonikus korrelációs együtthatónak. Az eljárás során két változó halmazból állítunk el nem meggyelt változópárokat, melyek maximálisan korrelálnak. Tegyük fel, hogy x i és y j változók standardizáltak, ekkor a korreláció mátrix megegyezik a kovarincia mátrixszal, és a következ képpen írhatjuk fel: 1. Az x i valószín ségi változók között R xx = 1 n X X (m 1 m 1 ), 2. az y i valószín ségi változók között: R yy = 1 n Y Y (m 2 m 2 ), 3. és az x i és y i változók között R xy = 1 n X Y (m 1 m 2 ) A fenti mátrixokat egy általános korrelációmátrix R = 1 n (XY ) (XY ) partícióinak nevezhetjük. Tegyük fel, hogy a v és w kanonikus változók standardizáltak, vagyis 1 n v v = 1 n c X Xc = c R xx c = 1 (4.1) 1 n w w = 1 n d Y Y d = d R yy d = 1. Ha a kanonikus változók standardizáltak akkor a v és w közötti korreláció: 1 n v w = 1 n c X Y d = λ (4.2) Olyan c és d súlyokat szeretnénk találni, gyelembe véve az (4.1) egyenlet szerinti feltételeket, hogy λ értéke maximális legyen. Vagyis egy feltételes széls értékfeladatot kell megoldanunk, ahol a feltételek egyenl ség formájában adottak. Erre a Lagrange-féle multiplikátor-módszer talál megoldást. A Lagrange-függvény: L = c R xy d 1 2 µ[c R xx c 1] 1 2 ρ[d R yy d 1] (4.3) Az L függvény maximuma ott keresend, ahol a parciális deriváltak egyenl k nullával. A µ és a ρ multiplikátor el tti 1 szorzó egyszer síti a deriválás után kapott 2 egyenleteket. A parciális deriváltak: δl δc = R xy d µr xx c = 0 (4.4) 24

25 innen: δl δd = R yx c ρr yy d = 0 R xy d = µr xx c és R yx c = ρr yy d (4.5) Ha az (4.5) egyenletek közül az els t szorozzuk balról c-vel, a másodikat balról d -vel akkor kapjuk, hogy c R xy d = µc R xx c = µ (4.6) d R yx d = ρd R yy d = ρ A (4.2) egyenlet szerint c R xy d = d R yx c = λ amib l következik, hogy µ = ρ = λ. Így a (4.4) egyenlet helyett a következ ket írhatjuk: λr xx c + R xy d = 0 (4.7) R xy c λr yy d = 0 Tehát deniáltunk egy m 1 + m 2 = m homogén egyenletb l álló rendszert m ismeretlennel (c és d) és egy ismeretlen λ együtthatóval. Ekkor a (4.7) egyenletrendszert a következ képpen írhatjuk : [ λrxx R yx Ryx λr yy ] [ c d ] Látható, hogy az egyenletrendszernek akkor és csak akkor van a triviálistól (c 0 és d 0) különböz megoldása, ha a determinánsa egyenl nullával, tehát: [ ] λrxx R yx = 0 (4.8) Ryx λr yy Felhasználva a determinánsokra vonatkozó megfelel tulajdonságokat: ha egy oszlopot vagy egy sort szorzunk (vagy osztunk) egy konstanssal, a determináns értéke is szorzódik (vagy osztódik) a konstanssal. Ha a (4.8) determináns els m 1 sorát megszorozzuk ( λ)-val, és az utolsó m 2 oszlopát elosztjuk ( λ)-val, a determináns értéke 0 marad. Így kapjuk, hogy: [ ] λ 2 R xx R yx = 0 (4.9) Ryx Ha a determinánst kifejtjük λ 2 -nek egy m 1 -ed fokú polinomjához jutunk, így m 1 különböz megoldást kapunk. A legnagyobb érték érdekel bennünket el ször, ugyanis ez adja a maximális korrelációt: jelöljük λ 1 -gyel. Ha ezt a λ 1 becslést beírjuk a (4.7) egyenletbe, és az így adódó homogén egyenleteket megoldjuk, megkapjuk a c és a 25 R yy

26 d ismeretlenek becsléseit, amelyeket szintén indexszel látunk el c 1 és d 1. A (4.7) egyenletet röviden a következ alakban írhatjuk le: c 1 = 1ˆλ1 R 1 xx R xy d 1 és d 1 = 1ˆλ1 R 1 yy R yx c 1 Viszont nem biztos, hogy kielégítik a (4.1) egyenlet szerinti feltételeket ezek a megoldások, mivel egy önkényesen megválasztott skalár (λ 1 ) is befolyásolja ket. Jelöljük a (4.7) egyenletek megoldásait c 1 -gyel és d 1 -gyel. Végezzük el a következ korrekciót : c 1 = c 1 ( c 1 R xx c 1 ) 1 2 és d 1 = d 1 ( d 1 R xx d1 ) 1 2 akkor az így kapott c 1 és d 1 már kielégíti a (4.1) egyenletek szerinti feltételeket. A továbbiakban a transzformáció után kapott c 1 és d 1 értékekkel dolgozzunk. Ezekután a maradék gyökök közül választjuk a legnagyobbat λ 2 -t, majd behelyettesítjük a (4.7) egyenletbe és a korrekciót elvégezve kapjuk a hozzá tartozó c 2 és d 2 értékeket, és így általánosságban megkapjuk a λ i -hez tartozó c i -t és d i - t. Jelölje a c i vektorokat tartakmazó mátrixot C, és D tartalmazza a d i vektorokat. A kanonikus korreláció-együtthatókat (λ i ) helyezzük el az L diagonális mátrix diagonál elemeibe. Tartalmazzák a nem meggyelt v és w kanonikus változókat pedig a V és W mátrixok. Általánosságban a c és d vektorokban lév súlyokat a következ egyenletekb l számíthatjuk ki a (4.7) egyenlet átalakított változatával: C = R 1 xx R xy DL 1 és D = R 1 yy R yx CL 1 Ha nagy a változók száma, az el z eljárást nehéz elvégeznünk. Különösen a (4.9) egyenlet determináns kifejtése és megoldása okoz gondot. Ezt a problémát megkerülve nézzünk egy másik eljárást! Induljunk ki az (4.5) egyenletekb l. Szorozzuk be a második egyenlet mindkét oldalát balról λ 1 R 1 yy -zel (ha az inverz létezik): Ezt az els be behelyettesítve: d = λ 1 R 1 yy R yx c (4.10) R xy R 1 yy R yx c = λ 2 R xx c 26

27 Balról mindkét oldalt szorozva R 1 xx -zel (ha az inverz létezik): Ez a következ alakban írható fel: R 1 xx R xy R 1 yy R yx c = λ 2 c (4.11) (R 1 xx R xy R 1 yy R yx ( λ 2 )E)c = 0 Látszik, hogy λ 2 megegyezik az R 1 xx R xy R 1 yy R yx mátrix sajátértékével, c pedig a hozzátartozó sajátvektorral. A maximális kanonikus korrelációt a legnagyobb λ 1 sajátérték adja. Az ehhez tartozó c 1 ismeretében (4.10) egyenletb l kiszámolhatjuk d 1 -et. Ebben az esetben is ugyanaz a probléma mint elöz esetben. Ahhoz, hogy az (4.1) egyenlet szerinti feltételt teljesíteni tudjuk, normalizálni kell a c 1 és a d 1 vektorokat (hogy c R xx c = 1 legyen). Világos, hogy ha el ször c-t fejezzük ki az (4.5) egyenletb l, nem d-t, az eredmény ugyanaz lesz. Mivel az R 1 xx R xy R 1 yy R yx mátrix nem szimmetrikus, a sajátérték és a sajátvektor számolásnál ez problémát okozhat. Mivel a legtöbb sajátértéket meghatározó algorimtus feltételezi, hogy a mátrix szimmetrikus, ezért meg kell határoznunk a (4.11) egyenlet egy szimmetrikus alternatíváját. Deniáljuk a következ kisegít vektort: g = R 1 2 xx c amelyb l c = R 1 2 xx q (4.12) Ezt beírva a (4.11) egyenletbe, és balról megszorozva az egyenlet mindkét oldalát R 1 2 xx -vel, olyan egyenlethez jutunk, amelyben a bal oldali mátrix már bizonyíthatóan szimmetrikus: R 1 2 xx R xy R 1 yy R yx R 1 2 xx q = λ 2 q (4.13) A (4.13) egyenletben található mátrix (m 1 m 1 )-es, m 1 különböz sajátértéke és m 1 különböz sajátvektora van. A Q mátrix ezeket a sajátvektorokat tartalmazza. Mivel a Q Q szorzatmátrix diagonális lesz, és feltételezve hogy a sajátvektorok egységnyi hosszúságúak, akkor Q Q = E. A (4.12) egyenlet alapján Q Q = C R xx C = E amely éppen az (4.1) egyenlet szerinti feltétel kielégítését jelenti. Mivel V = XC, a kanonikus változók szórásnégyzete a következ képpen írható fel: V V n = C R xx C = E (4.14) Ebb l következik, hogy a V oszlopvektorai ortonormáltak. Tehát a lineáris kombinációval képzett v i kanonikus változók páronként korrelálatlanok, valamint standardizáltak. Ugyanez belátható W -re is (azaz az y változókból képzett w i kanonikus változók egymással korrelálatlanok és standardizáltak). A V és W közötti korrelációról: V W m = C R xy D 27

28 pedig tudjuk látni, hogy diagonális mátrix:(l) A (4.5) egyenletb l: amit balról beszorozva C -vel: R xy D = R xx CL C R xy D = C R xx CL = L (4.15) Ez azt jelenti, hogy minden v i -hez létezik egy w j, amellyel maximálisan korrelál, míg a többi w j -vel korrelálatlan, v i w j = { 0 ha i j λ i ha i = j A kanonikus korrelációs együttható nagyságának vizsgálata mellett fontos a kanonikus változók értelmezése is. A c és d együtthatók ismeretében tudjuk, hogy az eredeti változók milyen súlyú lineáris kombinációi állítják el a kanonikus faktorokat. Ha kiszámítjuk a faktorelemzésnél jól bevált faktorsúlyok mátrixához hasonló, kanonikus faktorsúlyok mátrixát, akkor a kanonikus faktoroknak könnyen értelmezhet módjához jutunk. A két változóhalmaz között maximális korrelációt adó els kanonikus faktorpárt és az azokat el állító változók közötti korrelációkat tartalmazó kanonikus faktorstruktúrát a következ képpen számíthatjuk ki: Az els bal oldali kanonikus faktor (v = Xc) és a bal oldali változók x közötti korrelációk: s 1 = 1 n X v = 1 n X Xc = R xx c Ily módon az els jobb oldali kanonikus faktor struktúrája: s 2 = 1 n Y w = 1 n Y Y d = R yy d A többi kanonikus faktor esetén is ugyanígy kapjuk meg, hogy az adott kanonikus faktor el állításában melyek a legjelent sebb változók. A kanonikus faktorsúlyok segítségével kiszámíthatjuk, hogy a kanonikus faktorok a változók varianciájának milyen arányát magyarázzák. Az els bal oldali kanonikus faktor (v) a bal oldali változók varianciájának: arányát magyarázza. s 1s 1 m 1 Ha ezt az arányt megszorozzuk az els kanonikus korreláció négyzetével, akkor a bal oldali változók varianciájának a jobb oldali változók els kanonikus faktora által magyarázott arányát kapjuk: r x = s 1s 1 m 1 λ

29 Ezt nevezzük a bal oldali változóhalmaz redundanciájának az adott jobb oldali változóhalmaz kanonikus faktora esetén. Az els jobb oldali kanonikus faktor a jobb oldali változóhalmaz varianciájának: 100 %-át magyarázza. A jobb oldali teljes variancia: ( s 2 s ) 2 m 2 r y = s 2s 2 m 2 λ 2 1 arányát magyarázza a bal oldali változóhalmaz els kanonikus faktora, és az lesz a jobb oldali változóhalmaz redundanciája az els bal oldali kanonikus faktorra. A két arány, r x és r y nem kell hogy megegyezzen. Ha a bal oldali els kanonikus faktor az els f komponenshez hasonló, a jobb oldali kanonikus faktor pedig a jobb oldali változóhalmaz egy kis varianciájú f komponenséhez hasonlít, akkor a bal oldali változóhalmazhoz tartozó redundancia nagyobb lesz (r x > r x ) Mivel több kanonikus faktorpár is számítható, ezért egy bal oldali változóhalmaz teljes redundanciáját, adott jobb oldali változóhalmaz esetén az egy-egy kanonikus faktorpárra számított redundanciák összege adja: m 1 r d1 = Ez alapján a jobb oldali változóhalmaz teljes redundanciáját a kanonikus modell szerint az alábbi adja: i=1 m 2 r d2 = i=1 A Bartlett-féle χ 2 próba alapján fogjuk a kanonikus korrelációs együtthatók szignikancia-próbáját elvégezni. E próba elvégzéséhez fel kell tennünk, hogy x és y többváltozós normális eloszlású valószín ségi-változók. A próbához deniálnunk kell a Wilks-féle Λ: r xi r yi m 2 Λ 1 = (1 λ 2 i ) (4.16) i=1 Nézzük a következ változót (amely Λ függvénye): χ 2 = [n 1 0, 5(m 1 + m 2 + 1)]lnΛ 1 (4.17) amely közelít en χ 2 eloszlású, (m 1 m 2 ) szabadságfokkal. Az a nullhipotézisünk, hogy x vektorváltozó korrelálatlan y vektorváltozóval. A próbát a szokásos módon végezzük el. Ha elvetjük a hipotézist, akkor az els (maxi- 29

30 mális) kanonikus korrelációt hagyjuk el a Λ 1 -b l és a maradék (m 2-1) kanonikus korrelációs együttható szignikanciáját vizsgáljuk. Ekkor az új Λ 2 és χ 2 a következ m 2 Λ 2 = (1 λ 2 i ) i=2 és χ 2 = [n 1 0, 5(m 1 + m 2 + 1)]lnΛ 2 (m 1 1)(m 2 1) szabadságfokkal. Ha Λ-ból (r 1) kanonikus korrelációs együtthatót hagyunk el akkor: m 2 Λ r = (1 λ 2 i ) (4.18) i=r és χ 2 = [n 1 0, 5(m 1 + m 2 + 1)]lnΛ r (4.19) (m 1 r + 1)(m 2 r + 1) szabadságfokkal. Összességében megállapíthatjuk, hogy azok a kanonikus korrelációs együtthatók fognak szignikánsan különbözni 0-tól, amelyeknél elvetettük a nullhipotézist A függ változók regressziós becslése a kanonikus változók segítségével Kanonikus változók segítségével két változóhalmaz közötti sztochasztikus kapcsolatot vizsgáltuk. A kapcsolat szorosságán kívül az is érdekel bennünket, hogy a két halmaz közül a függ nek tekintett változóhalmaz hogyan becsülhet a magyarázó változók segítségével. Ezt a fajta regressziós problémát a kanonikus változók felhasználásával oldjuk meg. Tegyük fel, hogy az x változók függetlenek, azaz R xx = I valamint, hogy az összes független változó hatást gyakorol az összes függ változóra. Ebb l az következik, hogy a függ változók között érvényesülnek kölcsönhatások. Tehát a kanonikus korrelációs együtthatók és a kanonikus változók becsléseit az el zöek alapján kapjuk meg. A kanonikus változók az el z ek alapján: V = XC és Y = W D ezenkívül a variancia-kovarianciamátrixok: V V n = I, W W n = I, V W = L (4.20) El ször a "kanonikus függ " változókat becsüljük a "kanonikus független" változók segítésével. W = V B ahol B becslését a legkisebb négyzetek módszerével kaphatjuk meg. ˆB = (V V ) 1 V W = L (4.21) 30

31 Ŵ = V L Ezután V kanonikus változókkal gyeljük az Y meggyelt függ változókat: Ŷ = V A Az A becslését a legkisebb négyzetek módszerével határozzuk meg, és felhasználjuk a (4.20) egyenletben megadott feltételeket: Ŷ = XC(C X XC) 1 C X Y Ŷ = XC(nE) 1 C R xy n (4.22) Ŷ = XCC R xy A (4.7) egyenletb l: R yx C = R yy DL Ha transzponáljuk, behelyettesíthetünk vele a (4.22) egyenletbe: C R yx = L D R yy Így a kanonikus korrelációs együttható, a kanonikus változók, a kanonikus súlyok segítségével megadtuk az y függ változók regressziós becslését. Megmutatható, hogy ez megegyezik a legkisebb négyzetek módszerével közvetlenül kapható becsléssel. 31

32 5. fejezet SEM módszer A fejezet az [5] cikk alapján íródott. A SEM modell egy olyan statisztikai technika mely a path analízisb l ered, amelynek lényege, hogy a különböz változók között ok-okozati viszonyt tételezünk fel, és ez alapján írunk fel regressziós egyenleteket, amelyek összekapcsolják ket. A változók közötti kapcsolatok szemléltetésére egy irányított gráfot rajzolunk fel, melyben a csúcsok a változók és a köztük futó irányított élek a regressziós együttható. Tehát a SEM ennek a modellnek az egyenletekkel felírt rejtett változókat is tartalmazó továbbfejlesztése. Azonban ez a módszer sokkal jobb mint a szokásos latens változós eljárások, mivel itt a rejtett változók közötti strukturális viszonyt is felírhatjuk, és a modell illesztésekor ezt is gyelembe tudjuk venni. Ennek következtében az egyenleteket és a változókat is két csoportba sorolhatjuk. A változók lehetnek exogén (vagy küls ) és endogén (vagy bels ) változók. Az exogén változók alatt olyan változókat értünk, melyekre nincs másik olyan latens változó, amely rájuk közvetlen hatással lenne, más szóval ezek a magyarázó változók. Endogén változók alatt olyan változókat értünk melyeket más latens változók magyaráznak. Az egyenletek azon csoportját fogjuk strukturális egyenleteknek nevezni amelyek a látens változók közötti viszonyt írják le, míg mérési egyenleteknek azokat amelyek a mért és a latens változók kapcsolatát írják le A latens változós modell A modellt l a következ ket követeljük meg: - minden változó 0 várható érték - a hibák egymástól és a latens változóktól is függetlenek - diagonlis(b) = 0 32

33 Legyen η egy oszlopvektor amely m exogén latens változóból áll és ξ egy olyan oszlopvektor amely k endogén centrált latens változóból áll. Ekkor a struktúrált latens változós modell a következ képpen írható fel: η = Bη + Γξ + ζ ahol B egy m m-es regressziós együtthatókból álló null-diagonálisú mátrix. Γ egy m k mátrixa a regressziós együthatóknak, ζ egy m dimenziós vektor. Mind az exogén, mind az endogén változókhoz tartozik egy egy mérési modell: y = Λ y η + ɛ x = Λ x ξ + Σ Ezért ez a három egyenlet együttesen a SEM modell. Ha nem nulla várható érték esetet szeretnénk, akkor egyszer en minden egyenletben hozzá kell adnunk a jobb oldalhoz a bal oldal várható értékét. A modellünk ezen felírása még elég általános, hiszen itt csak az x és y, és az tapasztalati kovariancia mátrixukat ismerjük, és nagyon sok ismeretlen változónk van. Ellenben a Λ x, Λ y, Γ és B együttható mátrixoknak speciális alakja van, amit mindig az adott modell felírás határoz meg. Ezeknek a mátrixoknak az elemei a legtöbb esetben zérusok, mivel azt el re meghatároztuk, hogy mely mért változókra mely latens változók hatnak. Ez a modell általános esetként magában foglal más eljárást is például a többváltozós regressziót. A meggyelt változók kovariancia mátrixának faktorizációja Legyen Φ = Cov(ξ) = E(ξξ ) Ψ = Cov(ζ) = E(ζζ ) Θ ɛ = Cov(ɛ) = E(ɛɛ ) Θ δ = Cov(δ) = E(δδ ) A faktoranalízishez hasonlóan, a SEM-et is a a tapasztalati kovarianciamátrix aproximációjával számoljuk. Az a célunk, hogy a modell által számolt kovarianciamátrix minél jobban közelítse a minta alapján számolt tapasztalati kovarianciamátrixot. A tapasztalati kovarianciamátrixot deniálljuk a következ képpen : [ ] Σyy Σ yx Σ = Σ xy 33 Σ xx

34 A fenti egyenletb l az egyes részeket már könnyen ki tudjuk számolni. I legyen egységmátrix és (I B) invertálható. Σ xx = Λ x φλ x + Θ δ Σ yy = Λ y [(I B) 1 (ΓφΓ + Ψ)][Λ y [(I B) ] 1 Λ y + Θ ɛ Σ xy = Λ x φγ [(I B) ] 1 Λ y Amib l megkaphatjuk, hogy: Σ = [ Σyy Σ yx Σ xy Σ xx ] = = [ Λy [(I B) 1 (ΓφΓ + Ψ)][Λ y [(I B) ] 1 Λ y + Θ ɛ Λ y [(I B) ] 1 ΓφΛ y Λ x φγ [(I B) ] 1 Λ y Λ x φλ x + Θ δ ] Az egyenletek megoldására explicit képlet csak nagyon ritkán adódik mivel annak az a feltétele, hogy pontosan ugyanannyi egyenlet legyen, mint paraméter. Két f módszer létezik a SEM modellek illesztésére, az iteratív és a Bayesi eljárás. Az iteratív eljárások számítják például a legkisebb négyzetes becslést Iteratív eljárás Többféle program létezik amely SEM illesztésre alkalmas (AMOS, LISREL). Ezek a programok iteratív módszerrel számolnak, de a konkrét számolási módok eltér ek. Röviden ismertetve a módszert, els lépésként be kell állítanunk egy kezd értéket minden ismeretlennek, ezek után ki kell számolni a modellb l a kovarianciamátrixot. Ennek a mátrixnak és a tapasztalati kovarianciamátrixnak valamely függvénye fogja megadni a mátrixok közötti távolságot. Ezután ki tudjuk számolni a kezdeti értékben a távolságfüggvény parciális deriváltjait minden ismeretlen szerint, és az értékeiket ez alapján megváltoztatjuk. Az illeszkedés jóságának mérésére leggyakrabban három mér számot használunk. Ezek a legkisebb négyzetes eltérés, az általánosított legkisebb négyzetes eltérés és a maximum likelihood mér szám. Jelöljük S-sel a tapasztalati kovarianciamátrixot és Σ-val a modellb l számolt kovarianciamátrixot, melyek mérete m m. OLS = tr(s Σ) 2 GLS = 1 2 [(S Σ)S 1 ] 2 ML = log[det(σ)] log[det(s)] + trs(σ) 1 + m 34

35 az egyenleteinkben tr jelöli a nyomoperátort, det a deteminánst és log a természetes alapú logaritmust. Ezekenek a mér számoknak két f célja van, egyrészt a keresést segítsék az algoritmus minden lépésében másrészt a kapott eredményt értékeljék. Illeszkedés-vizsgálat Az eljárás végén szükségünk van valamilyen mutatószámra, amely meghatározza, a modell illeszkedés-jóságát. Ilyen szempontból többféle mutatószám áll a rendelkezésünkre, amely mind támpontot adnak arra, hogy mennyire elfogadható a modellünk. Fontos azonban gyelembe venni, hogy alternatív modellek illeszkedését is meg tudjuk vizsgálni. Ha egy adott modellt elfogadtunk, attól még nem zárhatjuk ki, hogy létezik egy másik modell, ami az el z nél lényegesen jobban írja le az adatainkat. Ebben az esetben mindkét modellre kiszámoljuk az illeszkedési mutatókat. Létezhetnek olyan esetek amikor két modell összehasonlítására van lehet ségünk. Akkor beszélünk ilyen modellekr l, ha az egyik modell megkapható a másikból úgy, hogy ez utóbbiban egyes paraméterek értékeit rögzítjük. Ennek segítségével meg tudjuk vizsgálni, hogy a regressziós együttható fontos része e a modellünknek. Az illeszkedés jóságának egyik lehet sége, hogy a négyzetes eltérések összegét vizsgáljuk, ennek a neve Goodness-of-Fit Index, röviden GFI. Különösképpen akkor hasznos ez az eljárás, ha a mátrixok elemei nem azonos skálán mozognak, vagy eltér nagyságrend ek. GF I = 1 S ( ˆΛ x, ˆΛ y, ˆB, ˆφ, ˆΨ, ˆΓ, ˆΘ ɛ, ˆΘ δ 2 S 2 A modell akkor fogadható el, ha a GFI nagyobb mint

36 6. fejezet PLS regresszió Az eljárás pontos és precíz megértését valamint leírását a [7], [8], [9] és [10] cikkek segítették. Regressziószámítás során két vagy több véletlen változó között fennálló kapcsolatot modellezzük, valamint több jellemz által az eredményváltozóra gyakorolt hatását vizsgáljuk. A regressziós egyenletben a magyarázandó vagy más néven célváltozót (Y)-t a magyarázó változók vagy regresszorok (X) mint független változók segítségével magyarázzuk. A regressziós modellek szerkesztésekor a legels feladat, hogy megkeressük azokat a változókat, amelyek az eredményváltozóval szignikáns kapcsolatban vannak. Az eljárás során arra próbálunk választ adni, hogy a független változók egységnyi változása, a függ változó milyen mérv megváltozását vonhatja maga után. A regressziós egyenlet fontos része a maradék vagy más néven rezidum vagyis a modellünk által nem magyarázott rész. A parciális legkisebb négyzetek elve egy módszer, amellyel regressziós egyenlet együtthatóit becsüljük, melyek mellett a meggyelésb l származó és a regressziófüggvény alapján becsült Y értékek különbségének eltérésnégyzet-összege a legkisebb. Következésképpen a kapott együtthatók nem valódi mért adatok együtthatói azokat ugyanis nem ismerjük. Az együtthatókból a regressziós egyenlet segítségével kiszámolhatjuk az eredeti adatokat, vagyis megnézhetjük, hogy az ismert független változókhoz az egyenlet alapján milyen függ változóbeli értékek tartoznak. A PLS f ként akkor hasznos paraméteres egyenletek konstruálására amikor sok magyarázó változó és viszonylag kevés mintaadat van. Ahhoz, hogy meg tudjuk határozni a kapcsolatot az Y változó, és az X 1, X 2,... X m magyarázó változók között a PLS során latens változót konstruálunk, úgy hogy mindegyik latens változó az X 1, X 2,... X m változók kombinációja. A módszer hasonlít a f komponens analízishez azzal a különbséggel, hogy míg ott a f komponenseket kizárólag az X változó adatértékei határozzák meg, addig a PLS-ben X és Y adat értékei is befolyásolják azt. A f célja a PLS-nek olyan komponensek létrehozása, amelyekkel a lehet legtöbb információt nyerjük ki az X 36

37 változokból ez pedig az Y változók minél pontosabb becslését eredményezi Az általános modell Legyenek: Y 1, Y 2,..., Y l a magyarázott változók X 1, X 2,..., X m a magyarázó változók A parciális regressziós modellt az alábbi matematikai egyenlettel írjuk fel: Y = β 0 + β 1 T 1 + β 2 T β p T p + ɛ ahol: β 1, β 2,... β p az együtthatók T k az X j lineáris kombinációja ahol k = 1... p és p m β 0 a függvény konstans tagja ɛ a regressziós hibatag Egy egyenlet minél több paramétert foglal magában, annál könnyebben befolyásolható véletlen hibákkal. Ezért a regressziós módszereknek az a célja, hogy csökkentsék a tagok számát a regressziós modellben. A β 1, β 2,... β p parciális regressziós együtthatókat a következ képpen értelmezzük: ha T i értékét egy egységgel növeljük miközben a többi értékét változatlan hagyjuk akkor az eredményváltozó becsült értéke éppen B i egységgel változik. A regressziós együttható tehát kifejezi, hogy egy adott latens változó egységnyi növekedése mekkora növekedést vagy csökkenést okoz az eredményváltozó becsült értékében, miközben a többi tényez változó értéke változatlan. F feladatunk az ɛ hibatag minimalizálása, amit akkor érünk el, ha a becsl függvény értékei minimálisan térnek el az eredeti tapasztalati értékt l. A legkisebb négyzetek módszere szerint minimalizálnunk kell: m e 2 = [Y (β 0 + β 1 T 1 + β 2 T β p T p )] 2 min i=1 A többváltozós függvények illesztésének pontosságát a regressziós függvény hibájának nagysága alapján ítélhetjük meg. 37

38 Az illeszkedés hibája S e Az illeszkedés relatív hibája S e = e 2 m p V Se = S e Ŷ 100 A relatív hiba azt fejezi ki, hogy a számított y i értékek azaz a regressziós becslések, átlagosan hány százalékkal térnek el az eredeti eredményváltozó mért Y i értékeit l Az egyváltozós PLS Adott n darab meggyelés, ekkor: Y jelölje a meggyelésünkb l származó egy darab magyarázott változót, X 1, X 2... X m jelölje az m darab magyarázó változót. A komponensek között a korreláció 0. Az i.-dik adatot jelölje az [X 1 (i), X 2 (i),... X m (i); Y i ] x j és y pedig jelölje az X j és Y meggyelt vektorok értékét. y = [y(1), y(2)... y(n)] x j = [x j (1), x j (2),... x j (n)] j = 1... m n A minta átlaga Ȳ = y(i) n x j (i) és Xj = n n. i i A minta alapján vett regressziós egyenletet a következ képpen írhatjuk fel: Ŷ = β 0 + β 1 T 1 + β 2 T β p T p (6.1) 38

39 A könnyebb jelölés érdekében vezessük be a következ két változót: U 1 = Y Ȳ V 1j = X j X j j = 1... m (6.2) A minta átlaga U 1 -re és V 1 (j) -re 0. A komponenseket egymás után határozzuk meg, ezen konstrukció alatt a korreláció a V 1 (j)-k között elhanyagolható. Az els komponens amit meghatározunk T 1 a V 1 j vektor lineáris kombinációja. Mivel a minta átlaga 0, ezért a regressziós egyenletet a következ alakban írhatjuk fel: Û 1 (j) = b 1j V 1j ahol b 1j = v 1ju 1 v 1j v 1j (6.3) V 1j adott értékei az m egyenlet mindegyikében biztosítják U 1 becslését, tehát ezeket a becsléseket összegeznünk kell. Els lépésként ehhez vegyük a súlyozott átlagot: w ij = 1. j Ekkor: T 1 = j w ij b 1j V 1j = j w ij Û 1 (j). (6.4) Az X változó potenciálisan további információkat hodoz magában az Y -nal kapcsolatban, viszont az X j -ben lév információk nincsenek benne T 1 -ben, ezeket az információkat az X j -nek a T 1 -en végzett regressziós maradékával becsülhetjük meg, ami azonos a V 1j -nek a T 1 -en végzett regressziós maradékával. Ezen maradékok segítségel ki tudjuk számolni V 2j -t V 1j által és U 2(j) -t U 1(j) által. A következ komponens, amit megtudunk határozni az T 2, amely a lineáris kombinációja V 2j -nek, ugyanakkor U 2 meghatározásában is segít. Tehát a fenti eljárás segítségével találhatunk egy természetes módot a T 1, T 2,... T p komponensek meghatározására ahol mindegyik komponens meghatározható a regressziós maradékokból és a korábbi komponensek segítségével. Ahhoz, hogy megtudjuk határozni T (i+1)j ahogy azt az el bb már láthattuk el ször V (i+1)j -t és U i+1 -t kell meghatároznunk. V (i+1)j meghatározásához T i -szer kell regresszállnunk V ij -t az új regressziós együtthatóval. Vagyis: Hasonlóan deniálhatjuk U i+1 -et is: ( ui t ) i U i+1 = U i t i t T i i ( vij t ) i V (i+1)j = V ij t i t T i (6.5) i 39

40 tehát U i+1 -et úgy kapjuk meg ha T i -szer regresszálljuk U i -t az új regressziós együtthatóval. Az X j -ben lév "információs maradék"-ot V (i+1)j, a j-dik regressziós hozamot pedig V (i+1)j b (i+1)j jelöli ahol: b (i+1)j = v (i+1)j u i+1 v (i+1)j v (i+1)j (6.6) Ezeknek a paramétereknek a lineáris kombinációját véve kapjuk meg a következ komponenst: T i+1 = j w (i+1)j b (i+1)j V (i+1)j = j w (i+1)j Û i+1 (j) (6.7) Ha ezt a módszert megismételjük akkor már meg tudjuk határozni T i+2, T i+3,... T p. Miután megkaptuk az összes komponenst és beírtuk ket a (6.1) egyenletbe, megkapjuk a regressziós modell egy becslését. Egy ismert tulajdonsága a PLS-nek, hogy a komponensek között a korreláció 0. Ennek oka, hogy: (a) T i+1... T p komponensek a lineáris kombinációi a V (i+1)j -nek, (b) a regressziós maradékok korrelálatlanok a regresszorral és ezekb l következik, hogy korrelálatlanok a T i -vel. A komponensek korrelálatlanságának következménye, hogy a (6.1) egyenletben a regressziós együttható egy egyszer egyváltozós regresszorral becsülhet. További következménye még, hogy u i+1 és v (i+1)j a megfelel vektora az X j -nek a T 1, T 2,... T i - n végzett regressziós maradékához, ami egyben le is egyszer síti az értelmezését U i+1 -nek és V (i+1)j -nek. Miután meghatároztuk a regressziós modell egy becslését a (6.2),(6.5),(6.7) egyenletet felhasználva ki tudjuk fejezni az eredeti változókkal X j - t. Így tehát egy sokkal alkalmasabb egyenletet kapunk Y becslésére, és ez további mintákat eredményez X értékei alapján A többváltozós PLS Többváltozós PLS esetén adott a meggyelésünkb l származó l db magyarázott változó Y 1, Y 2,... Y l és m db magyarázó változó X 1, X 2... X m. A többváltozós eljárás célja, megkeresni azokat a magyarázó változókat, melyek a magyarázott Y változók minél pontosabb becslését eredményezik. A modellt a következ képpen írhatjuk fel: Ŷ k = β k0 + β k1 T 1 + β k2 T β kp T p k = 1... l (6.8) 40

41 ahol mindegyik T 1, T 2,... T p komponens az X változók lineáris kombinációja. Fontos megjegyezni, hogy azonos komponensek el fordulhatnak a modellben minden Y változóra, csak a regressziós együtthatók változnak. A célunk az, hogy konstruáljunk egy olyan algoritmust, ami világossá teszi a hasonlóságot és a különbséget az egyváltozós és a többváltozós PLS között. Az X változóra használjuk ugyanazt a jelölést, mint korábban, az Y változóra pedig vezessük be a következ t: Y k = [Y k (1),... Y k (n)] k = 1... l X j = [X j (1), X j (2),... X j (n)] j = 1... m n A minta átlaga: Ȳ = y k (i) n és X n j = i i A könnyebb számolás érdekében, legyen: x(i) n. R 1k = Y k ŷ k (6.9) V 1j = X j X j j = 1... m. Az els komponens meghatározásához, deniálnunk kell a következ két mátrixot: V 1 = (v 11,... v 1m ) R 1 = (r 11,... r 1l ) Az R 1V 1 V 1R 1 mátrix legnagyobb sajátértékéhez c 1 legyen a megfelel sajátvektor, és u 1 -et deniáljuk úgy mint: u 1 = R 1 c 1 (6.10) Ezután T 1 -et könnyen megtudjuk konsturálni [u 1, v 11, v v 1m ]-b l ugyanúgy, mint az egyváltozós esetben. U 1 konstruálásának ezen módját Hoskuldsson mutatta meg [7], felhasználva, hogy ha veszünk két egységhosszú vektort f és g, és maximalizáljuk a [ cov(v ˆ 1 f, R 1 g)] 2, akkor R 1 g megfelel u 1 -nek. Ahhoz, hogy meg tudjuk határozni T i -t, V ij -t és R ij -t meg kell adnunk az algoritmus általános lépését. Az általános lépés megadása után már meg tudjuk mutatni, hogy hogyan kapjuk meg ezeket a komponenseket az i-dik lépés után, vagyis hogyan tudjuk meghatározni i i + 1-et. El ször is, V (i+1)j azon regressziós maradék, amit akkor kapunk ha V ij -t regresszáljuk T i -n tehát V (i+1)j -t a (6.5) egyenlet alapján lehet kiszámolni. Hasonlóan R (i+1)j az a maradék amit akkor kapunk ha R ij -t regresszáljuk T i -n ez alapján: ( t R (i+1)k = R ik i r ) ik t i t T l i 41 ahol r ik a minta értéke

42 Világos, hogy amikor Y k -t regresszálljuk a T 1, T 2,... T i -n akkor r (i+1)k maradék is. Legyen: R i+1 = (r (i+1)1, r (i+1)2... r (i+1)l ) egyben a V i+1 = (v (i+1)1, v (i+1)2... v (i+1)m ) c i+1 legyen az R i+1v i+1 V i+1r i+1 mátrix legnagyobb sajátértékéhez a megfelel sajátvektor, és u i+1 -et deniáljuk úgy mint: u i+1 = R i+1 c i+1 T i+1 -et ugyanúgy tudjuk meghatározni, mint az egyváltozós esetben, felhasználva a (6.6) és (6.7) egyenleteket. Miután meghatároztuk a T 1, T 2,... T p komponenseket, mindegyik Y változót regresszálljuk újra külön-külön, és ezek a komponensek fogják a β együtthatókat megbecsülni a (6.8) egyenletben. Az, hogy pontosan hány latens változót érdemes létrehoznunk azt a cross validation eljárás segítségével tudjuk meghatározni. A következ lépés, hogy megmutatjuk, a korábbi algoritmus megegyezik a többváltozós PLS standard verziójával. Jelölje V 1 és R 1 az Ω 1 és Φ 1 -el centrált adatmátrixokat, azon feltétel mellett, hogy Ω i és Φ i már meg van határozva. 1. Legyen φ a Φ i els oszlopa 2. Legyen ψ = Ω i φ φ φ 3. τ = Ω i ψ 4. Legyen ζ = Φ i τ τ τ ahol ψ arányos az egységhosszal és ζ arányos az egységhosszal 5. Legyen φ = Φ i ζ ha ez konvergens, akkor következzen a 6. lépés különben pedig újra a 2. lépés. 6. θ = Ω i τ τ τ 7. λ = τ φ ττ 8. maradék mátrix: Ω i+1 = Ω i τθ és Φ i+1 = Φ i λτζ Tegyük fel, hogy Ω i = V i és Ψ i = R i, és mivel w ij a (6.7) egyenletben választott súly, ezért w ij = v ijv ij. Be kell látnunk, hogy: a) τ t i 42

43 b) Ω i+1 = V i+1 c) Φ i = R i+1 a) bizonyítása: Hoskuldsson mutatta meg, hogy ha konvergencia van az 5. lépésben, akkor ζ egy megfelel sajátvektor a Φ iω i Ω iφ i mátrix legnagyobb sajátértékéhez. A feltétel szerint Φ iω i Ω iφ i = R iv i V i R i, ezért ζ arányos lesz c i -vel, vagyis az 5. lépésb l és a (6.10) egyenletb l következik, hogy θ u i. A konvergencia után mindenféle következmény nélkül, megismételve a 2-5 lépést, arra a következtetésre jutunk, hogy: - 2. lépésb l következik, az ψ Ω iφ V i u i, - a 3. lépésb l következik, hogy τ V i V i u i. - a (6.6) egyenlet alapján a j-dik komponense a V i u i -nek w ij b ij, - tehát a (6.7)-b l t i = V i V i u i. Ezek alapján kapjuk, hogy: τ t i. b) bizonyítása: - A 6. és 8. lépésb l következik, hogy Ω i Ω i+1 = τθ = ττ Ω i τ τ τ t i és Ω i = V i = t it i V i t i t i mivel - A j.-dik oszlopa a t it i V i t i t i mátrixnak t it i v ij t i t i = t i(t i v ij) t i t i - A (6.5) egyenletb l és a legutóbbi kifejezésb l ez egyenl lesz v ij v (i+1)j Ezért Ω i Ω i+1 = V i V i+1 c) bizonyítása: - Legyen ζ = Kφ i τ τ τ ahol K egy konstans melyre ζ ζ = 1. - Ezek után az 5. és a 7. lépésb l λ = τ φ = τ Φ i ζ τ τ τ τ = ζ ζ K = 1 K - Tehát λζ Z ζ K = τ Φ i τ τ. - A 8. lépésb l Φ i φ i+1 = λτζ, tehát Φ i φ i+1 = ττ Φ i τ τ = t it i R i. t i t i A (6.9) egyenletb l az utóbbi kifejezés egyenl R i R i+1. 43

44 Abban az esetben ha több Y változónk van és csak többváltozós PLS-t tudunk használni, egy alternatíva az, hogy többször megismételjük az egyváltozós PLS-t. Mindegyik Y változóra egymás után kerül rá a sor, és a mintaértékek valamint a magyarázó változók alapján határozzuk meg a regressziós egyenletet. Összehasonlítva az egyváltozós és a többváltozós PLS-t, azt reméljük, hogy a regressziós egyenletet az egyik magyarázott változó Ỹ határozza meg, és ez meghatároz egy olyan analógiát, ami alapján meg tudjuk konstruálni T i+1 -et miután a T 1, T 2,... T p -et már meghatároztuk. Mindegyik módszer T i+1 -et u i+1 -b l és v (i+1)j -b l határozza meg, ahol v (i+1)j az X j -nek a T 1, T 2,... T l -en végzett regressziós maradéka. Az egyetlen különbség a két módszernél az u i+1 konstruálásában van. Az egyváltozós PLS esetén az u i+1 az a maradék, amit akkor kapunk ha Ỹ -ot regresszáljuk a T 1, T 2,... T l, amíg a többváltozós esetben mindegyik Y k -t külön külön regresszáljuk T 1, T 2,... T i -n és az u i+1 ezen maradékok lineáris kombinációja, ahogy azt a (6.10) egyenlet is mutatja. Az egyváltozós és a többváltozós PLS közötti választás ekvivalens azzal, hogy meghatározzuk hogy az u i+1 -et milyen úton szeretnénk megkapni, bár azt gondolnánk, hogy a többváltozós PLS során több információt használunk fel, mint az egyváltozós e- setben, de valójában azonos mérték információt használunk, csak az algoritmus más más lépéseiben. 44

45 7. fejezet A módszerek bemutatása R program segítségével A szakdolgozatomban tárgyalt eljárásokat az R program segítségével szeretném bemutatni. A program nagy el nye, hogy bárki számára elérhet és letölthet, valamint az alkalmazáshoz szükséges függvényeket megtaláljuk benne. A módszer interpretációjára azokat az adatokat használjuk fel, amiket a Kiskörei tározó területén az Óhalászi-Holt-Tisza vízmin ségével kapcsolatban az ezeredforduló környékén mértek. Ezekre az adatokra a gyelmet Márialigeti Károly [13] hívta fel. Az adatok Teszárné Nagy Mariann [12] dolgozatában érhet ek el. Az Óhalászi-Holt-Tisza egy, a Tisza szabályozásakor levágott folyó kanyarulatból keletkezett. A folyó vízével közvetlenül csak magasabb vízállás mellett érintkez állóvíz. Vizsgálata a Tisza él világának megértése szempontjából igen fontos eszköz. Emiatt is került ismételten a kutatók (Dévai György [14]) érdekl désének központjába. Az él víz nem homogén. H foka, zikai, biológiai, kémiai állapota rétegesen változik. A változás módja évszakonként is különböz. Az idézett kutatók igen nagy gondossággal, sok év kitartó munkájval egy olyan referencia méréssort állítottak el ami centis rétegenként különböz id pontokban, pontosan ugyanazon a helyen vett minták alapján, a holtág vízmin ségét mutatják. Jelen feldolgozás csak interpretációs céllal készült, a nyomtatásban megjelent adatok kézzel való beirása alapján. Vagyis az adatok ebben a formában nem tekinthet ek hitelesnek. Emiatt az eredmények közvetlen hirológiai vonatkoztatása hibás volna. De az eredmények interpretációs jellegének több további fontos oka is van. A rendelkezésre álló adatsorok hiányosak a rendkívül gondos gyüjtés ellenére. A kutatók alkalmanként és rétegenként 32 változót vizsgáltak. Ezt és az adatsorok hiányosságát az alábbi táblázat szemlélteti: 45

46 Az adatsorok hiányosságának oka tipikusan szerkezeti: a vizállás korlátozza, hogy maximálisan milyen mélységü adatok létezhetnek egyáltalán. De feltehet en technonógia zavar is el fordult egy-két esetben. Megjegyzend, hogy az eredményeket elemezgetve látható néhány olyan kiugró érték aminek értelmezése az adatokhoz ért hidrológus segítsége nélkül aligha lehetséges. A PLS eljárás és annak az általunk alkalmazott implementációja is alkalmas arra, hogy hiányzó és kiugró adatokat kezeljen. De az efajta feldolgozás olyan részletességet igényel ami meghaladja ennek a dolgozatnak a keretét. Emiatt a rendelkezésre álló adatoknak csak azt a részét használhattuk ami teljes, nem tartalmaz hiányzó adatokat. Öt olyan méréssor áll rendelkezésre ami "teljes vízmélység", azaz 500 cm mellett keletkezett. Az azonos vízmélység (a számunkra jelent s technikai könnyebbség mellett) azért jelent s, mert ahogyan van a rétegek egy a rétegnek a vízfelszint l mért távolsága alapján leírható jellegzetessége, ugyanúgy van egy rétegnek a fenékt l mért távolsága alapján leírható jellegzetessége is. Ezt, tárgyszerü modell esetén, több vízjellemz modelljében feltétlen gyelembe kellene venni. Azaz gondos modellezés esetén egy-egy réteget két réteg paraméterrel a felszín alatti mélység, és a talaj feletti magasság kell leírni. Az öt 500 centiméteres mintából egy speciális: jégalól vett minta. A másik négy két egymást követ évben egy-egy nyári illetve szi minta, b l. Ezeket az adatokat elemeztük. 46

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus

Részletesebben

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Principal Component Analysis Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták

Részletesebben

Saj at ert ek-probl em ak febru ar 26.

Saj at ert ek-probl em ak febru ar 26. Sajátérték-problémák 2018. február 26. Az alapfeladat Adott a következő egyenlet: Av = λv, (1) ahol A egy ismert mátrix v ismeretlen, nem zérus vektor λ ismeretlen szám Azok a v, λ kombinációk, amikre

Részletesebben

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2) Legyen adott a P átmenetvalószín ség mátrix és a ϕ 0 kezdeti eloszlás Kérdés, hogy miként lehetne meghatározni az egyes állapotokban való tartózkodás valószín ségét az n-edik lépés múlva Deniáljuk az n-lépéses

Részletesebben

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla Kvadratikus alakok és euklideszi terek (előadásvázlat, 0. október 5.) Maróti Miklós, Kátai-Urbán Kamilla Az előadáshoz ajánlott jegyzet: Szabó László: Bevezetés a lineáris algebrába, Polygon Kiadó, Szeged,

Részletesebben

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek Lineáris algebra 2 Filip Ferdinánd filipferdinand@bgkuni-obudahu sivabankihu/jegyzetek 2015 december 7 Filip Ferdinánd 2016 februar 9 Lineáris algebra 2 1 / 37 Az el adás vázlata Determináns Determináns

Részletesebben

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz Debreceni Egyetem Közgazdaságtudományi Kar Feladatok a Gazdasági matematika II tárgy gyakorlataihoz a megoldásra ajánlott feladatokat jelöli e feladatokat a félév végére megoldottnak tekintjük a nehezebb

Részletesebben

A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek

A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek 10. gyakorlat Mátrixok sajátértékei és sajátvektorai Azt mondjuk, hogy az A M n mátrixnak a λ IR szám a sajátértéke, ha létezik olyan x IR n, x 0 vektor, amelyre Ax = λx. Ekkor az x vektort az A mátrix

Részletesebben

Lineáris leképezések. 2. Lineáris-e az f : R 2 R 2 f(x, y) = (x + y, x 2 )

Lineáris leképezések. 2. Lineáris-e az f : R 2 R 2 f(x, y) = (x + y, x 2 ) Lineáris leképezések 1 Lineáris-e az f : R 2 R 2 f(x, y = (3x + 2y, x y leképezés? A linearitáshoz ellen riznünk kell, hogy a leképzés additív és homogén Legyen x = (x 1, R 2, y = (y 1, y 2 R 2, c R Ekkor

Részletesebben

Vektorterek. =a gyakorlatokon megoldásra ajánlott

Vektorterek. =a gyakorlatokon megoldásra ajánlott Vektorterek =a gyakorlatokon megoldásra ajánlott 40. Alteret alkotnak-e a valós R 5 vektortérben a megadott részhalmazok? Ha igen, akkor hány dimenziósak? (a) L = { (x 1, x 2, x 3, x 4, x 5 ) x 1 = x 5,

Részletesebben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision

Részletesebben

5. előadás - Regressziószámítás

5. előadás - Regressziószámítás 5. előadás - Regressziószámítás 2016. október 3. 5. előadás 1 / 18 Kétváltozós eset A modell: Y i = α + βx i + u i, i = 1,..., T, ahol X i független u i -től minden i esetén, (u i ) pedig i.i.d. sorozat

Részletesebben

Taylor-polinomok. 1. Alapfeladatok. 2015. április 11. 1. Feladat: Írjuk fel az f(x) = e 2x függvény másodfokú Maclaurinpolinomját!

Taylor-polinomok. 1. Alapfeladatok. 2015. április 11. 1. Feladat: Írjuk fel az f(x) = e 2x függvény másodfokú Maclaurinpolinomját! Taylor-polinomok 205. április.. Alapfeladatok. Feladat: Írjuk fel az fx) = e 2x függvény másodfokú Maclaurinpolinomját! Megoldás: A feladatot kétféle úton is megoldjuk. Az els megoldásban induljunk el

Részletesebben

Vektorok, mátrixok, lineáris egyenletrendszerek

Vektorok, mátrixok, lineáris egyenletrendszerek a Matematika mérnököknek I. című tárgyhoz Vektorok, mátrixok, lineáris egyenletrendszerek Vektorok A rendezett valós számpárokat kétdimenziós valós vektoroknak nevezzük. Jelölésükre latin kisbetűket használunk.

Részletesebben

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei A Gauss-Jordan elimináció, mátrixinvertálás Gauss-Jordan módszer Ugyanazzal a technikával, mint ahogy a k-adik oszlopban az a kk alatti elemeket kinulláztuk, a fölötte lévő elemeket is zérussá lehet tenni.

Részletesebben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége [GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell

Részletesebben

Statisztika elméleti összefoglaló

Statisztika elméleti összefoglaló 1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11

Részletesebben

Regressziós vizsgálatok

Regressziós vizsgálatok Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga

Részletesebben

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35 Szinguláris értékek Wettl Ferenc 2016. április 12. Wettl Ferenc Szinguláris értékek 2016. április 12. 1 / 35 Tartalom 1 Szinguláris érték 2 Norma 3 Mátrixnorma 4 Alkalmazások Wettl Ferenc Szinguláris értékek

Részletesebben

Matematika (mesterképzés)

Matematika (mesterképzés) Matematika (mesterképzés) Környezet- és Településmérnököknek Debreceni Egyetem Műszaki Kar, Műszaki Alaptárgyi Tanszék Vinczéné Varga A. Környezet- és Településmérnököknek 2016/2017/I 1 / 29 Lineáris tér,

Részletesebben

Végeselem modellezés alapjai 1. óra

Végeselem modellezés alapjai 1. óra Végeselem modellezés alapjai. óra Gyenge alak, Tesztfüggvény, Lagrange-féle alakfüggvény, Stiness mátrix Kivonat Az óra célja, hogy megismertesse a végeselem módszer (FEM) alkalmazását egy egyszer probléma,

Részletesebben

Lineáris leképezések (előadásvázlat, szeptember 28.) Maróti Miklós, Kátai-Urbán Kamilla

Lineáris leképezések (előadásvázlat, szeptember 28.) Maróti Miklós, Kátai-Urbán Kamilla Lineáris leképezések (előadásvázlat, 2012. szeptember 28.) Maróti Miklós, Kátai-Urbán Kamilla Ennek az előadásnak a megértéséhez a következő fogalmakat kell tudni: homogén lineáris egyenletrendszer és

Részletesebben

II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés

II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés Nagyon könnyen megfigyelhetjük, hogy akármilyen két számmal elindítunk egy Fibonacci sorozatot, a sorozat egymást követő tagjainak

Részletesebben

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus. Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza

Részletesebben

Korreláció és lineáris regresszió

Korreláció és lineáris regresszió Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre

Részletesebben

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28 Szinguláris értékek Wettl Ferenc 2015. április 3. Wettl Ferenc Szinguláris értékek 2015. április 3. 1 / 28 Tartalom 1 Szinguláris érték 2 Alkalmazások 3 Norma 4 Mátrixnorma Wettl Ferenc Szinguláris értékek

Részletesebben

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

11. Előadás. 11. előadás Bevezetés a lineáris programozásba 11. Előadás Gondolkodnivalók Sajátérték, Kvadratikus alak 1. Gondolkodnivaló Adjuk meg, hogy az alábbi A mátrixnak mely α értékekre lesz sajátértéke a 5. Ezen α-ák esetén határozzuk meg a 5 sajátértékhez

Részletesebben

Diszkrét matematika I., 12. előadás Dr. Takách Géza NyME FMK Informatikai Intézet takach november 30.

Diszkrét matematika I., 12. előadás Dr. Takách Géza NyME FMK Informatikai Intézet   takach november 30. 1 Diszkrét matematika I, 12 előadás Dr Takách Géza NyME FMK Informatikai Intézet takach@infnymehu http://infnymehu/ takach 2005 november 30 Vektorok Definíció Egy tetszőleges n pozitív egész számra n-komponensű

Részletesebben

2. SZÉLSŽÉRTÉKSZÁMÍTÁS. 2.1 A széls érték fogalma, létezése

2. SZÉLSŽÉRTÉKSZÁMÍTÁS. 2.1 A széls érték fogalma, létezése 2 SZÉLSŽÉRTÉKSZÁMÍTÁS DEFINÍCIÓ 21 A széls érték fogalma, létezése Azt mondjuk, hogy az f : D R k R függvénynek lokális (helyi) maximuma (minimuma) van az x 0 D pontban, ha van olyan ε > 0 hogy f(x 0 )

Részletesebben

Matematikai geodéziai számítások 5.

Matematikai geodéziai számítások 5. Matematikai geodéziai számítások 5 Hibaterjedési feladatok Dr Bácsatyai László Matematikai geodéziai számítások 5: Hibaterjedési feladatok Dr Bácsatyai László Lektor: Dr Benedek Judit Ez a modul a TÁMOP

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Nyugat-magyarországi Egyetem Geoinformatikai Kara Dr. Bácsatyai László Matematikai geodéziai számítások 6. MGS6 modul Lineáris regresszió számítás elektronikus távmérőkre SZÉKESFEHÉRVÁR 2010 Jelen szellemi

Részletesebben

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 1. előadás Előadó: Dr. Ertsey Imre Regresszió analízis A korrelációs együttható megmutatja a kapcsolat irányát és szorosságát. A kapcsolat vizsgálata során a gyakorlatban ennél messzebb

Részletesebben

Line aris f uggv enyilleszt es m arcius 19.

Line aris f uggv enyilleszt es m arcius 19. Lineáris függvényillesztés 2018. március 19. Illesztett paraméterek hibája Eddig azt néztük, hogy a mérési hiba hogyan propagál az illesztett paraméterekbe, ha van egy konkrét függvényünk. a hibaterjedés

Részletesebben

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony.

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony. Determinánsok A determináns fogalma olyan algebrai segédeszköz, amellyel jól jellemezhető a mátrixok invertálhatósága, a mátrix rangja. Segítségével lineáris egyenletrendszerek megoldhatósága dönthető

Részletesebben

Vektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27

Vektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27 Vektorterek Wettl Ferenc 2015. február 17. Wettl Ferenc Vektorterek 2015. február 17. 1 / 27 Tartalom 1 Egyenletrendszerek 2 Algebrai struktúrák 3 Vektortér 4 Bázis, dimenzió 5 Valós mátrixok és egyenletrendszerek

Részletesebben

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás) Matematika A2c gyakorlat Vegyészmérnöki, Biomérnöki, Környezetmérnöki szakok, 2017/18 ősz 1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás) 1. Valós vektorterek-e a következő

Részletesebben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás

Részletesebben

Lagrange-féle multiplikátor módszer és alkalmazása

Lagrange-féle multiplikátor módszer és alkalmazása Eötvös Loránd Tudományegyetem Természettudományi Kar Nemesné Jónás Nikolett Lagrange-féle multiplikátor módszer és alkalmazása Matematika BSc, Matematikai elemz szakirány Témavezet : Szekeres Béla János,

Részletesebben

A maximum likelihood becslésről

A maximum likelihood becslésről A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának

Részletesebben

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az

Részletesebben

1. Parciális függvény, parciális derivált (ismétlés)

1. Parciális függvény, parciális derivált (ismétlés) Operációkutatás NYME Gazdaságinformatikus mesterképzés El adó: Kalmár János (kalmar[kukac]inf.nyme.hu) Többváltozós széls érték számítás Parciális függvény, parciális derivált Széls érték korlátos zárt

Részletesebben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris

Részletesebben

Lineáris algebra és a rang fogalma (el adásvázlat, szeptember 29.) Maróti Miklós

Lineáris algebra és a rang fogalma (el adásvázlat, szeptember 29.) Maróti Miklós Lineáris algebra és a rang fogalma (el adásvázlat, 2010. szeptember 29.) Maróti Miklós Ennek az el adásnak a megértéséhez a következ fogalmakat kell tudni: (1) A mátrixalgebrával kapcsolatban: számtest

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p

Részletesebben

Szélsőérték feladatok megoldása

Szélsőérték feladatok megoldása Szélsőérték feladatok megoldása A z = f (x,y) függvény lokális szélsőértékének meghatározása: A. Szükséges feltétel: f x (x,y) = 0 f y (x,y) = 0 egyenletrendszer megoldása, amire a továbbiakban az x =

Részletesebben

3. Lineáris differenciálegyenletek

3. Lineáris differenciálegyenletek 3. Lineáris differenciálegyenletek A közönséges differenciálegyenletek két nagy csoportba oszthatók lineáris és nemlineáris egyenletek csoportjába. Ez a felbontás kicsit önkényesnek tűnhet, a megoldásra

Részletesebben

8. Egyenletek, egyenlőtlenségek, egyenletrendszerek II.

8. Egyenletek, egyenlőtlenségek, egyenletrendszerek II. 8 Egyenletek, egyenlőtlenségek, egyenletrendszerek II Elméleti összefoglaló Az a + b+ c, a egyenletet másodfokú egyenletnek nevezzük A D b ac kifejezést az egyenlet diszkriminánsának nevezzük Ha D >, az

Részletesebben

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( ) Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel: 463-6-80 Fa: 463-30-9 http://www.vizgep.bme.hu Alap-ötlet:

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria Bódis Emőke 2016. 04. 25. J J 9 Korrelációanalízis Regresszióanalízis: hogyan változik egy vizsgált változó értéke egy másik változó változásának függvényében. Korrelációs

Részletesebben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,

Részletesebben

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35 9. Előadás (9. előadás) Lineáris egyr.(3.), Sajátérték 2019. április 24. 1 / 35 Portfólió-analízis Tegyük fel, hogy egy bank 4 különböző eszközbe fektet be (réz, búza, arany és kakaó). Az ügyfeleinek ezen

Részletesebben

: s s t 2 s t. m m m. e f e f. a a ab a b c. a c b ac. 5. Végezzük el a kijelölt m veleteket a változók lehetséges értékei mellett!

: s s t 2 s t. m m m. e f e f. a a ab a b c. a c b ac. 5. Végezzük el a kijelölt m veleteket a változók lehetséges értékei mellett! nomosztással a megoldást visszavezethetjük egy alacsonyabb fokú egyenlet megoldására Mivel a 4 6 8 6 egyenletben az együtthatók összege 6 8 6 ezért az egyenletnek gyöke az (mert esetén a kifejezés helyettesítési

Részletesebben

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Elméleti összefoglaló a Valószín ségszámítás kurzushoz Elméleti összefoglaló a Valószín ségszámítás kurzushoz Véletlen kísérletek, események valószín sége Deníció. Egy véletlen kísérlet lehetséges eredményeit kimeneteleknek nevezzük. A kísérlet kimeneteleinek

Részletesebben

Korrelációs kapcsolatok elemzése

Korrelációs kapcsolatok elemzése Korrelációs kapcsolatok elemzése 1. előadás Kvantitatív statisztikai módszerek Két változó közötti kapcsolat Független: Az X ismérv szerinti hovatartozás ismerete nem ad semmilyen többletinformációt az

Részletesebben

Lineáris egyenletrendszerek

Lineáris egyenletrendszerek Lineáris egyenletrendszerek 1 Alapfogalmak 1 Deníció Egy m egyenletb l álló, n-ismeretlenes lineáris egyenletrendszer általános alakja: a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a

Részletesebben

y ij = µ + α i + e ij

y ij = µ + α i + e ij Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai

Részletesebben

rank(a) == rank([a b])

rank(a) == rank([a b]) Lineáris algebrai egyenletrendszerek megoldása a Matlabban Lineáris algebrai egyenletrendszerek a Matlabban igen egyszer en oldhatók meg. Legyen A az egyenletrendszer m-szer n-es együtthatómátrixa, és

Részletesebben

Matematika A2 vizsga mgeoldása június 4.

Matematika A2 vizsga mgeoldása június 4. Matematika A vizsga mgeoldása 03. június.. (a (3 pont Definiálja az f(x, y függvény határértékét az (x 0, y 0 helyen! Megoldás: Legyen D R, f : D R. Legyen az f(x, y függvény értelmezve az (x 0, y 0 pont

Részletesebben

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre Összefüggés vizsgálatok A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek

Részletesebben

10. Előadás. Megyesi László: Lineáris algebra, oldal. 10. előadás Sajátérték, Kvadaratikus alak

10. Előadás. Megyesi László: Lineáris algebra, oldal. 10. előadás Sajátérték, Kvadaratikus alak 10. Előadás Megyesi László: Lineáris algebra, 98. 108. oldal. Gondolkodnivalók Mátrix inverze 1. Gondolkodnivaló Igazoljuk, hogy invertálható trianguláris mátrixok inverze is trianguláris. Bizonyítás:

Részletesebben

Konjugált gradiens módszer

Konjugált gradiens módszer Közelítő és szimbolikus számítások 12. gyakorlat Konjugált gradiens módszer Készítette: Gelle Kitti Csendes Tibor Vinkó Tamás Faragó István Horváth Róbert jegyzetei alapján 1 LINEÁRIS EGYENLETRENDSZEREK

Részletesebben

Matematikai geodéziai számítások 5.

Matematikai geodéziai számítások 5. Nyugat-magyarországi Egyetem Geoinformatikai Kara Dr Bácsatyai László Matematikai geodéziai számítások 5 MGS5 modul Hibaterjedési feladatok SZÉKESFEHÉRVÁR 2010 Jelen szellemi terméket a szerzői jogról

Részletesebben

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31 Lineáris leképezések Wettl Ferenc 2015. március 9. Wettl Ferenc Lineáris leképezések 2015. március 9. 1 / 31 Tartalom 1 Mátrixleképezés, lineáris leképezés 2 Alkalmazás: dierenciálhatóság 3 2- és 3-dimenziós

Részletesebben

9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, Leontyev-modell

9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, Leontyev-modell 9. Előadás Megyesi László: Lineáris algebra, 75. 84. oldal. Gondolkodnivalók Mátrix rangja 1. Gondolkodnivaló Tegyük fel, hogy egy elemi bázistranszformáció kezdetekor a sor- és oszlopindexek sorban helyezkednek

Részletesebben

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz Elméleti összefoglaló a Sztochasztika alapjai kurzushoz 1. dolgozat Véletlen kísérletek, események valószín sége Deníció. Egy véletlen kísérlet lehetséges eredményeit kimeneteleknek nevezzük. A kísérlet

Részletesebben

15. LINEÁRIS EGYENLETRENDSZEREK

15. LINEÁRIS EGYENLETRENDSZEREK 15 LINEÁRIS EGYENLETRENDSZEREK 151 Lineáris egyenletrendszer, Gauss elimináció 1 Definíció Lineáris egyenletrendszernek nevezzük az (1) a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a

Részletesebben

Lineáris regressziós modellek 1

Lineáris regressziós modellek 1 Lineáris regressziós modellek 1 Ispány Márton és Jeszenszky Péter 2016. szeptember 19. 1 Az ábrák C.M. Bishop: Pattern Recognition and Machine Learning c. könyvéből származnak. Tartalom Bevezető példák

Részletesebben

Lin.Alg.Zh.1 feladatok

Lin.Alg.Zh.1 feladatok Lin.Alg.Zh. feladatok 0.. d vektorok Adott három vektor ā (0 b ( c (0 az R Euklideszi vektortérben egy ortonormált bázisban.. Mennyi az ā b skalárszorzat? ā b 0 + + 8. Mennyi az n ā b vektoriális szorzat?

Részletesebben

Függvények július 13. f(x) = 1 x+x 2 f() = 1 ()+() 2 f(f(x)) = 1 (1 x+x 2 )+(1 x+x 2 ) 2 Rendezés után kapjuk, hogy:

Függvények július 13. f(x) = 1 x+x 2 f() = 1 ()+() 2 f(f(x)) = 1 (1 x+x 2 )+(1 x+x 2 ) 2 Rendezés után kapjuk, hogy: Függvények 015. július 1. 1. Feladat: Határozza meg a következ összetett függvényeket! f(x) = cos x + x g(x) = x f(g(x)) =? g(f(x)) =? Megoldás: Összetett függvény el állításához a küls függvényben a független

Részletesebben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis 1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I. Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós

Részletesebben

Függvények határértéke, folytonossága

Függvények határértéke, folytonossága Függvények határértéke, folytonossága 25. február 22.. Alapfeladatok. Feladat: Határozzuk meg az f() = 23 4 5 3 + 9 a végtelenben és a mínusz végtelenben! függvény határértékét Megoldás: Vizsgáljuk el

Részletesebben

1. Példa. A gamma függvény és a Fubini-tétel.

1. Példa. A gamma függvény és a Fubini-tétel. . Példa. A gamma függvény és a Fubini-tétel.. Az x exp x + t )) függvény az x, t tartományon folytonos, és nem negatív, ezért alkalmazható rá a Fubini-tétel. I x exp x + t )) dxdt + t dt π 4. [ exp x +

Részletesebben

7. gyakorlat. Lineáris algebrai egyenletrendszerek megoldhatósága

7. gyakorlat. Lineáris algebrai egyenletrendszerek megoldhatósága 7. gyakorlat Lineáris algebrai egyenletrendszerek megoldhatósága Egy lineáris algebrai egyenletrendszerrel kapcsolatban a következ kérdések merülnek fel: 1. Létezik-e megoldása? 2. Ha igen, hány megoldása

Részletesebben

azonosságot minden 1 i, l n, 1 j k, indexre teljesítő együtthatókkal, amelyekre érvényes a = c (j) i,l l,i

azonosságot minden 1 i, l n, 1 j k, indexre teljesítő együtthatókkal, amelyekre érvényes a = c (j) i,l l,i A Cochran Fisher tételről A matematikai statisztika egyik fontos eredménye a Cochran Fisher tétel, amely a variancia analízisben játszik fontos szerepet. Ugyanakkor ez a tétel lényegét tekintve valójában

Részletesebben

6. Függvények. 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban?

6. Függvények. 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban? 6. Függvények I. Nulladik ZH-ban láttuk: 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban? f x g x cos x h x x ( ) sin x (A) Az f és a h. (B) Mindhárom. (C) Csak az f.

Részletesebben

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis. i Matematikai statisztika Gazdaságinformatikus MSc 6. előadás 2018. október 8. 1/52 - Hol tartottunk? Modell. Y i = β 0 + β 1 X 1,i + β 2 X 2,i +... + β k X k,i + u i i minden t = 1,..., n esetén. 2/52

Részletesebben

Komplex számok trigonometrikus alakja

Komplex számok trigonometrikus alakja Komplex számok trigonometrikus alakja 015. február 15. 1. Alapfeladatok 1. Feladat: Határozzuk meg az alábbi algebrai alakban adott komplex számok trigonometrikus alakját! z 1 = 4 + 4i, z = 4 + i, z =

Részletesebben

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis. i Matematikai statisztika Gazdaságinformatikus MSc 6. előadás 2018. október 8. 1/52 - Hol tartottunk? Modell. Y i = β 0 + β 1 X 1,i + β 2 X 2,i +... + β k X k,i + u i i minden t = 1,..., n esetén. X i

Részletesebben

Németh Ádám A faktoranalízis alkalmazhatósága

Németh Ádám A faktoranalízis alkalmazhatósága Eötvös Loránd Tudományegyetem Természettudományi Kar Németh Ádám A faktoranalízis alkalmazhatósága Matematika BSc szakdolgozat Alkalmazott matematikus szakirány Témavezet : Pröhle Tamás Matematikai Intézet

Részletesebben

Lineáris egyenletrendszerek

Lineáris egyenletrendszerek Lineáris egyenletrendszerek Lineáris egyenletrendszernek nevezzük az a 11 x 1 + a 12 x 2 +... +a 1n x n = b 1 a 21 x 1 + a 22 x 2 +... +a 2n x n = b 2.. a k1 x 1 + a k2 x 2 +... +a kn x n = b k n ismeretlenes,

Részletesebben

3. el adás: Determinánsok

3. el adás: Determinánsok 3. el adás: Determinánsok Wettl Ferenc 2015. február 27. Wettl Ferenc 3. el adás: Determinánsok 2015. február 27. 1 / 19 Tartalom 1 Motiváció 2 A determináns mint sorvektorainak függvénye 3 A determináns

Részletesebben

1.1. Vektorok és operátorok mátrix formában

1.1. Vektorok és operátorok mátrix formában 1. Reprezentáció elmélet 1.1. Vektorok és operátorok mátrix formában A vektorok és az operátorok mátrixok formájában is felírhatók. A végtelen dimenziós ket vektoroknak végtelen sok sort tartalmazó oszlopmátrix

Részletesebben

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben Faktoranalízis az SPSS-ben = Adatredukciós módszer Petrovics Petra Doktorandusz Feladat Megnyitás: faktoradat_msc.sav Forrás: Sajtos-Mitev 250.oldal Fogyasztók materialista vonásai (Richins-skála) Faktoranalízis

Részletesebben

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1 Megoldott feladatok 00. november 0.. Feladat: Vizsgáljuk az a n = n+ n+ sorozat monotonitását, korlátosságát és konvergenciáját. Konvergencia esetén számítsuk ki a határértéket! : a n = n+ n+ = n+ n+ =

Részletesebben

Első zárthelyi dolgozat megoldásai biomatematikából * A verzió

Első zárthelyi dolgozat megoldásai biomatematikából * A verzió Első zárthelyi dolgozat megoldásai biomatematikából * A verzió Elméleti kérdések: E. Mikor nevezünk egy gráfot gyengén és mikor erősen összefüggőnek? Adjon példát gyengén összefüggő de erősen nem összefüggő

Részletesebben

Least Squares becslés

Least Squares becslés Least Squares becslés A négyzetes hibafüggvény: i d i ( ) φx i A négyzetes hibafüggvény mellett a minimumot biztosító megoldás W=( d LS becslés A gradiens számítása és nullává tétele eredményeképp A megoldás

Részletesebben

Többváltozós lineáris regresszió 3.

Többváltozós lineáris regresszió 3. Többváltozós lineáris regresszió 3. Orlovits Zsanett 2018. október 10. Alapok Kérdés: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot (pl. férfi/nő, egészséges/beteg, szezonális hatások,

Részletesebben

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles Matematika szigorlat, Mérnök informatikus szak I. 2013. jan. 10. Név: Neptun kód: Idő: 180 perc Elm.: 1. f. 2. f. 3. f. 4. f. 5. f. Fel. össz.: Össz.: Oszt.: Az elérhető pontszám 40 (elmélet) + 60 (feladatok)

Részletesebben

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben Faktoranalízis az SPSS-ben Kvantitatív statisztikai módszerek Petrovics Petra Feladat Megnyitás: faktor.sav Fogyasztók materialista vonásai (Richins-skála) Forrás: Sajtos-Mitev, 250.oldal Faktoranalízis

Részletesebben

LNM folytonos Az interpoláció Lagrange interpoláció. Lineáris algebra numerikus módszerei

LNM folytonos Az interpoláció Lagrange interpoláció. Lineáris algebra numerikus módszerei Legkisebb négyzetek módszere, folytonos eset Folytonos eset Legyen f C[a, b]és h(x) = a 1 φ 1 (x) + a 2 φ 2 (x) +... + a n φ n (x). Ekkor tehát az n 2 F (a 1,..., a n ) = f a i φ i = = b a i=1 f (x) 2

Részletesebben

Matematika elméleti összefoglaló

Matematika elméleti összefoglaló 1 Matematika elméleti összefoglaló 2 Tartalomjegyzék Tartalomjegyzék... 2 1. Sorozatok jellemzése, határértéke... 3 2. Függvények határértéke és folytonossága... 5 3. Deriválás... 6 4. Függvényvizsgálat...

Részletesebben

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26 ANOVA,MANOVA Márkus László 2013. március 30. Márkus László ANOVA,MANOVA 2013. március 30. 1 / 26 ANOVA / MANOVA One-Way ANOVA (Egyszeres ) Analysis of Variance (ANOVA) = szóráselemzés A szórásokat elemezzük,

Részletesebben

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek Az november 23-i szeminárium témája Rövid összefoglaló Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek felfrissítése? Tekintsünk ξ 1,..., ξ k valószínűségi változókat,

Részletesebben

A 2014/2015. tanévi Országos Középiskolai Tanulmányi Verseny második forduló MATEMATIKA I. KATEGÓRIA ( SZAKKÖZÉPISKOLA ) Javítási-értékelési útmutató

A 2014/2015. tanévi Országos Középiskolai Tanulmányi Verseny második forduló MATEMATIKA I. KATEGÓRIA ( SZAKKÖZÉPISKOLA ) Javítási-értékelési útmutató OktatásiHivatal A 014/01. tanévi Országos Középiskolai Tanulmányi Verseny második forduló MATEMATIKA I. KATEGÓRIA ( SZAKKÖZÉPISKOLA ) Javítási-értékelési útmutató 1. feladat: Adja meg az összes olyan (x,

Részletesebben

Hajlított tartó elmozdulásmez jének meghatározása Ritz-módszerrel

Hajlított tartó elmozdulásmez jének meghatározása Ritz-módszerrel Hajlított tartó elmozdulásmez jének meghatározása Ritz-módszerrel Segédlet az A végeselem módszer alapjai tárgy 4. laborgyakorlatához http://www.mm.bme.hu/~kossa/vemalap4.pdf Kossa Attila (kossa@mm.bme.hu)

Részletesebben

Problémás regressziók

Problémás regressziók Universitas Eotvos Nominata 74 203-4 - II Problémás regressziók A közönséges (OLS) és a súlyozott (WLS) legkisebb négyzetes lineáris regresszió egy p- változós lineáris egyenletrendszer megoldása. Az egyenletrendszer

Részletesebben