Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Hasonló dokumentumok
Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

5. előadás - Regressziószámítás

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

A többváltozós lineáris regresszió 1.

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Korreláció és lineáris regresszió

Többváltozós lineáris regresszió 3.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Faktoranalízis az SPSS-ben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Faktoranalízis az SPSS-ben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

y ij = µ + α i + e ij

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Korrelációs kapcsolatok elemzése

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

A többváltozós lineáris regresszió III. Főkomponens-analízis

Ökonometriai modellek paraméterei: számítás és értelmezés

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Diszkriminancia-analízis

Többváltozós Regresszió-számítás

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Regressziós vizsgálatok

Lineáris regressziószámítás 1. - kétváltozós eset

Faktor- és fıkomponens analízis

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

LINEÁRIS MODELLBEN május. 1. Lineáris modell, legkisebb négyzetek elve

Bevezetés a hipotézisvizsgálatokba

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Regresszió a mintában: következtetés

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Statisztika elméleti összefoglaló

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Regressziós vizsgálatok

Statisztika Elıadások letölthetık a címrıl

Principal Component Analysis

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

GVMST22GNC Statisztika II.

Matematikai geodéziai számítások 6.

Bevezetés a Korreláció &

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Kettőnél több csoport vizsgálata. Makara B. Gábor

Matematikai geodéziai számítások 6.

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Diagnosztika és előrejelzés

Hipotézis vizsgálatok

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Regresszió számítás az SPSSben

Typotex Kiadó. Tartalomjegyzék

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Hipotézis vizsgálatok

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

[Biomatematika 2] Orvosi biometria

Varianciaanalízis 4/24/12

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, Leontyev-modell

Korreláció és Regresszió

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

[Biomatematika 2] Orvosi biometria

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Kísérlettervezés alapfogalmak

5. elıadás március 22. Portfólió-optimalizálás

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Szinguláris érték felbontás Singular Value Decomposition

9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, mátrixegyenlet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Ökonometria gyakorló feladatok Többváltozós regresszió

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Normák, kondíciószám

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Line aris f uggv enyilleszt es m arcius 19.

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

1/ gyakorlat. Lineáris Programozási feladatok megoldása szimplex módszerrel. Pécsi Tudományegyetem PTI

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kvantitatív statisztikai módszerek

Átírás:

i Matematikai statisztika Gazdaságinformatikus MSc 6. előadás 2018. október 8. 1/52

- Hol tartottunk? Modell. Y i = β 0 + β 1 X 1,i + β 2 X 2,i +... + β k X k,i + u i i minden t = 1,..., n esetén. 2/52

- Hol tartottunk? Modell. Y i = β 0 + β 1 X 1,i + β 2 X 2,i +... + β k X k,i + u i i minden t = 1,..., n esetén. X i -k a magyarázó változók, Y a magyarázott, u t nulla várható értékű, azonos eloszlású, korrelálatlan hibasorozat. 2/52

- Hol tartottunk? Modell. Y i = β 0 + β 1 X 1,i + β 2 X 2,i +... + β k X k,i + u i i minden t = 1,..., n esetén. X i -k a magyarázó változók, Y a magyarázott, u t nulla várható értékű, azonos eloszlású, korrelálatlan hibasorozat. Legyen y = (Y 1,..., Y n ) T, β = (β 1,..., β k ) T, u = (u 1,..., u n ) T és X az a n k-as mátrix, amelynek az első oszlopa a csupa 1, 2 i k-ra az i-dik oszlop pedig az (X 1,i,..., X n,i ) T, akkor kompakt formában fel tudjuk írni: y = X β + u 2/52

i Ha b R k tetszőleges becslővektor, akkor ennek hibája e(b) = y Xb. 3/52

i Ha b R k tetszőleges becslővektor, akkor ennek hibája e(b) = y Xb. Tehát a költségfüggvényre kapjuk, hogy V (b) = e T e = (y Xb) T (y Xb) = y T y 2b T X T y + b T X T Xb. 3/52

i Ha b R k tetszőleges becslővektor, akkor ennek hibája e(b) = y Xb. Tehát a költségfüggvényre kapjuk, hogy V (b) = e T e = (y Xb) T (y Xb) = y T y 2b T X T y + b T X T Xb. Ezt kellett minimalizálni, amiből számolás után kijött, hogy a minimum ˆβ = (X T X ) 1 X T y, feltéve, hogy teljes rangú a mátrixom. 3/52

- a közeĺıtés mértéke i Többszörös determináció együttható: TSS= n i=1 (Y i Y ) 2 RSS=ŷ T ŷ ny 2 ESS=e T e 4/52

- a közeĺıtés mértéke i Többszörös determináció együttható: TSS= n i=1 (Y i Y ) 2 RSS=ŷ T ŷ ny 2 ESS=e T e Ezekkel a mennyiségekkel a determinációs együttható: R 2 = RSS TSS. Azaz hány százalékát magyarázzák a szóródásnak a faktorok. 4/52

Modell relevanciája - ANOVA i Első körben a modell egészének relevanciája érdekes számunkra, azaz hogy a H 0 : β 1 = β 2 =... = β k = 0 hipotézis fennáll-e. 5/52

Modell relevanciája - ANOVA i Első körben a modell egészének relevanciája érdekes számunkra, azaz hogy a H 0 : β 1 = β 2 =... = β k = 0 hipotézis fennáll-e.így H 1 : : β i 0 5/52

Modell relevanciája - ANOVA i Első körben a modell egészének relevanciája érdekes számunkra, azaz hogy a H 0 : β 1 = β 2 =... = β k = 0 hipotézis fennáll-e.így H 1 : : β i 0 Azaz azt vizsgáljuk, hogy a modell eltér-e lényegesen a nullmodelltől, vagy sem. Implikálja az egyes változók irrelevanciáját külön-külön, tehát először ezt vizsgáljuk. 5/52

Modell relevanciája - ANOVA i Első körben a modell egészének relevanciája érdekes számunkra, azaz hogy a H 0 : β 1 = β 2 =... = β k = 0 hipotézis fennáll-e.így H 1 : : β i 0 Azaz azt vizsgáljuk, hogy a modell eltér-e lényegesen a nullmodelltől, vagy sem. Implikálja az egyes változók irrelevanciáját külön-külön, tehát először ezt vizsgáljuk. Próbastatisztika. RSS/k ESS/(n k 1) F k,n k 1, azaz egy ANOVA-próba. 5/52

i Ezután a változók relevanciájáról egyesével dönthetünk. Egy változó releváns, ha a regressziós együtthatója nem nulla, ezekről t-próbákkal dönthetünk, tehát minden 1 i n-re, hogy H 0 : β i = 0 hipotézis fennáll-e. 6/52

i Ezután a változók relevanciájáról egyesével dönthetünk. Egy változó releváns, ha a regressziós együtthatója nem nulla, ezekről t-próbákkal dönthetünk, tehát minden 1 i n-re, hogy H 0 : β i = 0 hipotézis fennáll-e.így H 1 : : β i 0 6/52

i Ezután a változók relevanciájáról egyesével dönthetünk. Egy változó releváns, ha a regressziós együtthatója nem nulla, ezekről t-próbákkal dönthetünk, tehát minden 1 i n-re, hogy H 0 : β i = 0 hipotézis fennáll-e.így H 1 : : β i 0 Próbastatisztika. ˆβ i β i s ˆβ i, 6/52

i Ezután a változók relevanciájáról egyesével dönthetünk. Egy változó releváns, ha a regressziós együtthatója nem nulla, ezekről t-próbákkal dönthetünk, tehát minden 1 i n-re, hogy H 0 : β i = 0 hipotézis fennáll-e.így H 1 : : β i 0 Próbastatisztika. ˆβ i β i s ˆβ i, ami egy n 2 szabadsági fokú t eloszlás H 0 esetén. Tehát adott szignifikanciaszinten döntehtünk külön-külön minden regressziós együtthatóról. 6/52

i 7/52

i 8/52

i i A modellszelekción feladata nem más, mint a magyarázó változók körének optimális kiválasztása. 9/52

i i A modellszelekción feladata nem más, mint a magyarázó változók körének optimális kiválasztása. Eddig egyetlen minősítőjét láttuk a modellnek: az R 2 mutatót. 9/52

i i A modellszelekción feladata nem más, mint a magyarázó változók körének optimális kiválasztása. Eddig egyetlen minősítőjét láttuk a modellnek: az R 2 mutatót. Kérdés: új változó felvétele a modellbe változtatja-e R 2 értékét? Az világos, hogy ekkor R 2 értéke csökkeni biztosan nem fog, hiszen jobban magyarázzuk Y -t, azaz egy nagyobb változókészleten minimalizáljuk a veszteségfüggvényt. Ezzel együtt viszont nő a modell bonyolultága, ami nem mindig jó! 9/52

i i A modellszelekción feladata nem más, mint a magyarázó változók körének optimális kiválasztása. Eddig egyetlen minősítőjét láttuk a modellnek: az R 2 mutatót. Kérdés: új változó felvétele a modellbe változtatja-e R 2 értékét? Az világos, hogy ekkor R 2 értéke csökkeni biztosan nem fog, hiszen jobban magyarázzuk Y -t, azaz egy nagyobb változókészleten minimalizáljuk a veszteségfüggvényt. Ezzel együtt viszont nő a modell bonyolultága, ami nem mindig jó! Tehát, ha R 2 -tel jellemezzük a modellünket, akkor mindig az összes potenciális magyarázó változó felhasználása lesz a legjobb döntés. A valóságban azonban ez korántsem biztos! Mert R 2 a minta jó leírását adja, de mi a sokaságot akarjuk megragadni. 9/52

i i A korábbi R 2 mutató olyan módosítása, mely figyelembe veszi a modell változóinak számát is, és meghatározható vele az optimális magyarázóváltozók köre. 10/52

i i A korábbi R 2 mutató olyan módosítása, mely figyelembe veszi a modell változóinak számát is, és meghatározható vele az optimális magyarázóváltozók köre. Definíció. Korrigált determinációs együttható R 2 = 1 ESS(n 2) TSS(n k). Tehát büntetjük a magyarázó változók számának növelését. Könnyen látható, hogy R 2 R 2, azaz 1-nél biztosan kisebb ez is, de vigyázat, lehet negatív is! 10/52

i i A korábbi R 2 mutató olyan módosítása, mely figyelembe veszi a modell változóinak számát is, és meghatározható vele az optimális magyarázóváltozók köre. Definíció. Korrigált determinációs együttható R 2 = 1 ESS(n 2) TSS(n k). Tehát büntetjük a magyarázó változók számának növelését. Könnyen látható, hogy R 2 R 2, azaz 1-nél biztosan kisebb ez is, de vigyázat, lehet negatív is!a gyakorlatban heurisztikus stratégiákat használunk (forward, backward és stepwise szelekciós módszerek), hogy ne kelljen az összes 2 k kombinációt tesztelni. (automatikus modellszelekció) 10/52

i i Nyilván szűkítenünk kell kell az illesztendő modellek számát! 11/52

i i Nyilván szűkítenünk kell kell az illesztendő modellek számát! Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. 11/52

i i Nyilván szűkítenünk kell kell az illesztendő modellek számát! Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. Ezeket a modelleket utólag értékelni kell a meghatározottsági együttható nagysága, és a regressziós együtthatók szignifikancia szintje alapján. A módosításokkal újra el kell végezni az illesztést. 11/52

i i Automatikus modellépítési : STEPWISE FOREWARD BACKWARD REMOVE 12/52

i i Automatikus modellépítési : STEPWISE FOREWARD BACKWARD REMOVE A felhasználónak csak az indulási magyarázó változó listát kell specifikálnia, az SPSS program ebből választva álĺıt elő jó modelleket, amik közül választhatunk végső megoldást. 12/52

i i Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n p 1 szabadságfokú Fisher-eloszlást követ. 13/52

i i Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n p 1 szabadságfokú Fisher-eloszlást követ. Próbastatisztika. R 2 R 2 0 1 R 2 (n p 1) F 1,n p 1, 13/52

i i Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n p 1 szabadságfokú Fisher-eloszlást követ. Próbastatisztika. ahol R 2 R 2 0 1 R 2 (n p 1) F 1,n p 1, R 2 az új modell determinációs együtthatója R 2 a (p 1) változót tartalmazó modell determinációs ehatója 13/52

i i Tehát átrendezve a p-edik változót akkor vonjuk be a modellbe, ha K ε (1 R 2 ) n p 1 < R2 R 2 0, 14/52

i i Tehát átrendezve a p-edik változót akkor vonjuk be a modellbe, ha K ε (1 R 2 ) n p 1 < R2 R 2 0, ahol K ε az F 1,n p 1 eloszlásnak ε szignifikanciaszinthez tarozó kritikus értéke. 14/52

i - FOREWARD i Alulról építkező modellépítési eljárás. Minden modellépítési lépésben a listából azt a változót vonjuk be, amely F-tesztjéhez a legkisebb ε szint tartozik. 15/52

i - FOREWARD i Alulról építkező modellépítési eljárás. Minden modellépítési lépésben a listából azt a változót vonjuk be, amely F-tesztjéhez a legkisebb ε szint tartozik. A bevonási folyamat addig tart, amíg ez a legkisebb ε szint egy beálĺıtott PIN korlát alatt marad. Előnye, hogy viszonylag kevés magyarázó változó lesz a modellben, így könnyebb a modellt értelmezni. 15/52

i - BACKWARD i Felülről lebontó eljárás. Kezdetben az összes változót berakjuk a modellbe. Minden lépésben azt a változót hagyjuk el a modellből, amelynél parciális F-próbánál a legnagyobb ε érték tartozik. Akkor állunk meg, ha az előre beálĺıtott POUT küszöbérték alá megy ez az ε. 16/52

i - BACKWARD i Felülről lebontó eljárás. Kezdetben az összes változót berakjuk a modellbe. Minden lépésben azt a változót hagyjuk el a modellből, amelynél parciális F-próbánál a legnagyobb ε érték tartozik. Akkor állunk meg, ha az előre beálĺıtott POUT küszöbérték alá megy ez az ε. A BACKWARD modellépítéssel viszonylag sok magyarázó változó marad benn a modellben. 16/52

i - STEPWISE i A FOREWARD eljárást úgy módosítjuk, hogy minden lépésben ellenőrizzük a modellbe korábban már bevont változókhoz tartozó ε szignifikancia-szintet, és azt elhagyjuk, ahol ez a szint nagyobb mint POUT. Nem kerülünk végtelen ciklusba, ha PIN< POUT. (Szokásos beálĺıtás: PIN=0,05 és POUT=0,10. 17/52

i - REMOVE i A REMOVE eljárás az ENTER beálĺıtásából indul ki, egyszerre hagy el változókat a modellből. 18/52

Multikollinearitás i Multikollinearitáson a magyarázó változók között fellépő lineáris kapcsolat meglétét értjük. A multkollinearitás jelenléte rontja a modell értékelhetőségét. 19/52

Multikollinearitás i Multikollinearitáson a magyarázó változók között fellépő lineáris kapcsolat meglétét értjük. A multkollinearitás jelenléte rontja a modell értékelhetőségét. A multikollinearitás mérőszámai: tolerancia variancia infláló faktor (VIF) kondíciós index (CI) 19/52

Multikollinearitás i Tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerű kapcsolat van a magyarázó változók között. 20/52

Multikollinearitás i Tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerű kapcsolat van a magyarázó változók között. Értéke 1 R 2 i, ahol R i az i-edik változónak a többivel vett jának a determinációs együtthatója (tehát most az i-edik magyarázó változót fejezzük ki a többiből és számoljuk ki R 2 -t). A variancia infláló faktor (VIF) a tolerancia reciproka: 1 VIF = 1 Ri 2. Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtelen nagy is lehet. Ha a magyarázó változók korrelálatlanok, a VIF értéke 1. 20/52

Multikollinearitás i Tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerű kapcsolat van a magyarázó változók között. Értéke 1 R 2 i, ahol R i az i-edik változónak a többivel vett jának a determinációs együtthatója (tehát most az i-edik magyarázó változót fejezzük ki a többiből és számoljuk ki R 2 -t). A variancia infláló faktor (VIF) a tolerancia reciproka: 1 VIF = 1 Ri 2. Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtelen nagy is lehet. Ha a magyarázó változók korrelálatlanok, a VIF értéke 1. 20/52

Multikollinearitás i A kondíciós index (CI) a magyarázó változók korrelációs mátrixának sajátértékeiből számolt statisztika. A legnagyobb és legkisebb sajátértékek hányadosának négyzetgyöke. A CI>15 esetében megállapítható az erős kollinearitás. 21/52

Heteroszkedaszticitás i A homoszkedaszticitási feltétel azt kötötte ki, hogy a hibák különböző megfigyelésekhez tartozó szórása állandó legyen, azaz nem függ attól, hogy melyik megfigyelésről van szó, avagy a becsült értékek szóródása a tényleges körül állandó. 22/52

Heteroszkedaszcitás i 23/52

i Adatredukciós eljárások 24/52

Adatredukció i Olyan statisztikai módszerek tartoznak ide, melyek lehe- tővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot. 25/52

Adatredukció i Olyan statisztikai módszerek tartoznak ide, melyek lehe- tővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot. A redukált adatmennyiségből levont statisztikai következtetések érvényesek maradnak az eredeti statisztikai sokaságra is. A csökkentés vonatkozhat az esetszám csökkentésére és a változók számának a csökkentésére egyaránt. 25/52

Adatredukció i Olyan statisztikai módszerek tartoznak ide, melyek lehe- tővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot. A redukált adatmennyiségből levont statisztikai következtetések érvényesek maradnak az eredeti statisztikai sokaságra is. A csökkentés vonatkozhat az esetszám csökkentésére és a változók számának a csökkentésére egyaránt. Pl: 25/52

i Nagyszámú, sztochasztikusan erősen összefüggő változónk van. A változók redundáns információt hordoznak. Ismeretlen, kisszámú faktorváltozót keresünk. 26/52

i Nagyszámú, sztochasztikusan erősen összefüggő változónk van. A változók redundáns információt hordoznak. Ismeretlen, kisszámú faktorváltozót keresünk. Hogyan lehet a változók által közösen magyarázott információt korrelálatlan faktorokkal kifejezni? 26/52

i Nagyszámú, sztochasztikusan erősen összefüggő változónk van. A változók redundáns információt hordoznak. Ismeretlen, kisszámú faktorváltozót keresünk. Hogyan lehet a változók által közösen magyarázott információt korrelálatlan faktorokkal kifejezni? A faktorok milyen mértékben magyarázzák az eredeti változókat? 26/52

i Nagyszámú, sztochasztikusan erősen összefüggő változónk van. A változók redundáns információt hordoznak. Ismeretlen, kisszámú faktorváltozót keresünk. Hogyan lehet a változók által közösen magyarázott információt korrelálatlan faktorokkal kifejezni? A faktorok milyen mértékben magyarázzák az eredeti változókat? Mely változók vannak ugyanazokkal a faktorokkal kifejezve? 26/52

i Nagyszámú, sztochasztikusan erősen összefüggő változónk van. A változók redundáns információt hordoznak. Ismeretlen, kisszámú faktorváltozót keresünk. Hogyan lehet a változók által közösen magyarázott információt korrelálatlan faktorokkal kifejezni? A faktorok milyen mértékben magyarázzák az eredeti változókat? Mely változók vannak ugyanazokkal a faktorokkal kifejezve? Hogyan lehet ezek alapján a változóinkat csoportosítani? 26/52

i Nagyszámú, sztochasztikusan erősen összefüggő változónk van. A változók redundáns információt hordoznak. Ismeretlen, kisszámú faktorváltozót keresünk. Hogyan lehet a változók által közösen magyarázott információt korrelálatlan faktorokkal kifejezni? A faktorok milyen mértékben magyarázzák az eredeti változókat? Mely változók vannak ugyanazokkal a faktorokkal kifejezve? Hogyan lehet ezek alapján a változóinkat csoportosítani? Mi lehet az egyes faktorok jelentése? 26/52

i A változók számának csökkentése, de úgy, hogy ezáltal a megfigyelésekben rejlő információ ne csökkenjen lényegesen; lényegkiemelés. 27/52

i A változók számának csökkentése, de úgy, hogy ezáltal a megfigyelésekben rejlő információ ne csökkenjen lényegesen; lényegkiemelés. Nehezen megadható fogalmak (pl. gazdasági fejlettség) definiálása összetett mutatórendszerrel való jellemzés útján. 27/52

i A változók számának csökkentése, de úgy, hogy ezáltal a megfigyelésekben rejlő információ ne csökkenjen lényegesen; lényegkiemelés. Nehezen megadható fogalmak (pl. gazdasági fejlettség) definiálása összetett mutatórendszerrel való jellemzés útján. Osztályozási (csoportosítási) feladatok: a csoportképző ismérvnek kijelölt változók nem függetlenek és nem azonos szórásúak, ezért nem lehet azonos súllyal venni figyelembe őket a változókat kialakító közös faktorok alapján csoportosítunk. 27/52

i A módszert olyan esetekben lehet alkalmazni, amikor a sokaságot nagyszámú változóval jellemezzük, és feltételezhetően a változóink egymást átfedő (koherens) információt hordoznak. Az elemzés egyik célja éppen az, hogy a közös információt egymástól korrelálatlan faktorokkal jellemezzük. 28/52

i A módszert olyan esetekben lehet alkalmazni, amikor a sokaságot nagyszámú változóval jellemezzük, és feltételezhetően a változóink egymást átfedő (koherens) információt hordoznak. Az elemzés egyik célja éppen az, hogy a közös információt egymástól korrelálatlan faktorokkal jellemezzük. A faktor módszere alapvetően abban különbözik a regresszió módszerétől, hogy a prediktor változók a vizsgálat megkezdődésekor nem ismertek, azok előálĺıtása és értelmezése a feladat. Csak akkor van esély jó faktorelemzésre, ha a vizsgálatba bevont változók között erős összefüggés van. 28/52

Parciális Korrelációs együttható, KMO mérték Ha vannak változóim X 1,..., X n, akkor i 29/52

Parciális Korrelációs együttható, KMO mérték Ha vannak változóim X 1,..., X n, akkor korrelációs együttható r ij = corr(x i, X j ) parciális korrelációs együttható legyen ρ ij i 29/52

Parciális Korrelációs együttható, KMO mérték i Ha vannak változóim X 1,..., X n, akkor korrelációs együttható r ij = corr(x i, X j ) parciális korrelációs együttható legyen ρ ij Kaiser-Meyer-Olkin mérték: 29/52

Parciális Korrelációs együttható, KMO mérték i Ha vannak változóim X 1,..., X n, akkor korrelációs együttható r ij = corr(x i, X j ) parciális korrelációs együttható legyen ρ ij Kaiser-Meyer-Olkin mérték: 29/52

Measure of sampling adequacy i 30/52

Measure of sampling adequacy i Az indulási n db változóból azokat érdemes elhagyni, amelyeknél az MSA i érték a legkisebb. 30/52

Bartlett-féle gömbpróba i Elvégezhető még a Bartlett-féle gömb próba. Itt az a nullhipotézis, hogy a vizsgált változók függetlenek egymástól. Akkor érdemes továbbmenni, ha ez a próba nem szignifikáns! 31/52

Bartlett-féle gömbpróba i Elvégezhető még a Bartlett-féle gömb próba. Itt az a nullhipotézis, hogy a vizsgált változók függetlenek egymástól. Akkor érdemes továbbmenni, ha ez a próba nem szignifikáns! Azt a nullhipotézist teszteli, hogy a változóink korrelációs mátrixa egységmátrix-e. Ebben az esetben a változók páronként korrelálatlanok lennének, vagyis a változók nem hordoznának redundáns információt. 31/52

Bartlett-féle gömbpróba i Elvégezhető még a Bartlett-féle gömb próba. Itt az a nullhipotézis, hogy a vizsgált változók függetlenek egymástól. Akkor érdemes továbbmenni, ha ez a próba nem szignifikáns! Azt a nullhipotézist teszteli, hogy a változóink korrelációs mátrixa egységmátrix-e. Ebben az esetben a változók páronként korrelálatlanok lennének, vagyis a változók nem hordoznának redundáns információt. A nullhipotézist akkor vetjük el, ha a próbastatisztika számított értéke nagy, azaz a próba szignifikancia-szintje nullához közeli érték. 31/52

Bartlett-féle gömbpróba i Elvégezhető még a Bartlett-féle gömb próba. Itt az a nullhipotézis, hogy a vizsgált változók függetlenek egymástól. Akkor érdemes továbbmenni, ha ez a próba nem szignifikáns! Azt a nullhipotézist teszteli, hogy a változóink korrelációs mátrixa egységmátrix-e. Ebben az esetben a változók páronként korrelálatlanok lennének, vagyis a változók nem hordoznának redundáns információt. A nullhipotézist akkor vetjük el, ha a próbastatisztika számított értéke nagy, azaz a próba szignifikancia-szintje nullához közeli érték. Amennyiben a próba szignifikáns, nincs értelme belefogni 31/52

SPSS Szerencsés esetben kijön egy ilyen: i 32/52

Modell - k-faktoros modell i Adottak X 1,..., X n változók, akkor k- fakotoros modellen a következő feĺırást értjük X = A F + U + m, 33/52

Modell - k-faktoros modell i Adottak X 1,..., X n változók, akkor k- fakotoros modellen a következő feĺırást értjük ahol A az n k-as átviteli mátrix X = A F + U + m, F a k dimenziós közös faktor vektor U az egyedi faktor vektor EX = m 33/52

Modell feltételei i Modell feltételei: F 1,..., F k páronként korrelálatlan, EF i = 0, σ 2 (F i ) = 1 34/52

Modell feltételei i Modell feltételei: F 1,..., F k páronként korrelálatlan, EF i = 0, σ 2 (F i ) = 1 U 1,..., U n páronként korrelálatlan, EU i = 0, σ 2 (U i ) = Ψ ii 34/52

Modell feltételei i Modell feltételei: F 1,..., F k páronként korrelálatlan, EF i = 0, σ 2 (F i ) = 1 U 1,..., U n páronként korrelálatlan, EU i = 0, σ 2 (U i ) = Ψ ii F 1,..., F k és U 1,... U n páronként korrelálatlanok egymással 34/52

Modell i Egy k-faktoros modell pontosan akkor oldható meg, ha Σ = AA T + Ψ, 35/52

Modell i Egy k-faktoros modell pontosan akkor oldható meg, ha Σ = AA T + Ψ, ahol Σ az X kovarianciamátrixa, Ψ az U kovarianciamátrixa. 35/52

Modell i Egy k-faktoros modell pontosan akkor oldható meg, ha ahol Σ az X kovarianciamátrixa, Ψ az U kovarianciamátrixa. Σ = AA T + Ψ, De nem ismertek módszerek, hogy általában ezt mikor lehet megtenni. 35/52

Mikor oldható meg? i Az tudjuk, hogy egy ilyenelőálĺıtásban X i = amiből k a ij F j + U i + m i, i=1 k σ 2 (X i ) = aij 2 + Ψ ii. i=1 36/52

Mikor oldható meg? i Az tudjuk, hogy egy ilyenelőálĺıtásban amiből Itt az X i = k a ij F j + U i + m i, i=1 σ 2 (X i ) = k aij 2 + Ψ ii. a ij (= cov(x i, F j )) együtthatókat kumuláns együtthatóknak nevezzük, Ψ ii az egyedi variancia. i=1 36/52

Mikor oldható meg? i Az tudjuk, hogy egy ilyenelőálĺıtásban amiből Itt az X i = k a ij F j + U i + m i, i=1 σ 2 (X i ) = k aij 2 + Ψ ii. a ij (= cov(x i, F j )) együtthatókat kumuláns együtthatóknak nevezzük, Ψ ii az egyedi variancia. i=1 k j=1 a2 ij σ 2 (X i ) Tehát azt fejezi ki, hogy X i -ből hány százalékot magyaráznak meg a faktorok. 36/52

Vegyük észre, hogy i Σ = AA T + Ψ = AGG T A T + Ψ, 37/52

Vegyük észre, hogy i Σ = AA T + Ψ = AGG T A T + Ψ, ha GG T = E, tehát bármely olyan mátrixra, amelyre ez teljesül, igaz, hogy megoldható a k-faktoros modell (ha az eredeti megoldható volt). Most a faktorok GF. 37/52

Vegyük észre, hogy i Σ = AA T + Ψ = AGG T A T + Ψ, ha GG T = E, tehát bármely olyan mátrixra, amelyre ez teljesül, igaz, hogy megoldható a k-faktoros modell (ha az eredeti megoldható volt). Most a faktorok GF. Varimax = azon változók száma kevés lesz, melyekhez sok faktor szerepel nagy súllyal 37/52

Vegyük észre, hogy i Σ = AA T + Ψ = AGG T A T + Ψ, ha GG T = E, tehát bármely olyan mátrixra, amelyre ez teljesül, igaz, hogy megoldható a k-faktoros modell (ha az eredeti megoldható volt). Most a faktorok GF. Varimax = azon változók száma kevés lesz, melyekhez sok faktor szerepel nagy súllyal Quartimax = a magyarázó faktorok számát minimalizálja 37/52

i Tudjuk, hogy Σ (X 1,..., X n kovarianciamátrixa) szimmetrikus, akkor vegyük a spekrálfelbontását Σ = n λ i u i ui T, i=1 38/52

i Tudjuk, hogy Σ (X 1,..., X n kovarianciamátrixa) szimmetrikus, akkor vegyük a spekrálfelbontását Σ = n λ i u i ui T, i=1 ahol λ 1... λ n 0 a sajátértékei és u 1,..., u n egy ortonormált bázis. 38/52

i Tudjuk, hogy Σ (X 1,..., X n kovarianciamátrixa) szimmetrikus, akkor vegyük a spekrálfelbontását Σ = n λ i u i ui T, i=1 ahol λ 1... λ n 0 a sajátértékei és u 1,..., u n egy ortonormált bázis. Ekkor Y = U T X lesz X főkomponensvektora, ahol U az u 1,..., u n oszlopvektorokból álló mátrix. 38/52

i Tudjuk, hogy Σ (X 1,..., X n kovarianciamátrixa) szimmetrikus, akkor vegyük a spekrálfelbontását Σ = n λ i u i ui T, i=1 ahol λ 1... λ n 0 a sajátértékei és u 1,..., u n egy ortonormált bázis. Ekkor Y = U T X lesz X főkomponensvektora, ahol U az u 1,..., u n oszlopvektorokból álló mátrix. Ez a legjobb faktormodell abban az értelemben, hogy Y 1 irányban a legnagyobb a szórás, utána Y 2 irányban etc. 38/52

i Tétel (Watanabe) Belátható, hogyha n dimenziót lecsökkentünk k < n dimenzióra, akkor az összes lehetséges dimenziócsökkentési eljárással összevetve, a főkomponens sel végrehajtott dimenziócsökkentés minimalizálja az információ-veszteséget! Az eredeti változók totális varianciája és a k főfaktor totális varianciája van egymáshoz a legközelebb! Ezt az optimális arányt fejezi ki a kovariancia-mátrix sajátértékeiből számítható arány, amely jó esetben közel esik 1-hez: k i=1 λ i n i=1 λ i 39/52

i 40/52

i 41/52

i 42/52

i 43/52

i 44/52

i 45/52

i 46/52

i 47/52

2. i 48/52

2. i 49/52

2. i 50/52

2. i 51/52

i Folyt. köv. 52/52