Diszkriminancia-analízis

Hasonló dokumentumok
Bevezetés a Korreláció &

Sztochasztikus kapcsolatok

Korreláció számítás az SPSSben

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Logisztikus regresszió

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Logisztikus regresszió

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Kvantitatív statisztikai módszerek

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Regresszió számítás az SPSSben

Többváltozós Regresszió-számítás

Hátrányok: A MANOVA elvégzésének lépései:

Correlation & Linear Regression in SPSS

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

BIOMETRIA_ANOVA_2 1 1

Typotex Kiadó. Tartalomjegyzék

KISTERV2_ANOVA_

Korreláció és lineáris regresszió

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Varianciaanalízis 4/24/12

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Correlation & Linear Regression in SPSS

Többváltozós lineáris regresszió 3.

Korrelációs kapcsolatok elemzése

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

5. előadás - Regressziószámítás

Klaszterelemzés az SPSS-ben

Esetelemzés az SPSS használatával

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Regressziós vizsgálatok

Regressziós vizsgálatok

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézis vizsgálatok

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Statisztikai szoftverek esszé

A Fertő tó magyarországi területén mért vízkémiai paraméterek elemzése többváltozós feltáró adatelemző módszerekkel

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

A statisztika alapjai - Bevezetés az SPSS-be -

Klaszterelemzés az SPSS-ben

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Statisztika elméleti összefoglaló

A többváltozós lineáris regresszió III. Főkomponens-analízis

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Logisztikus regresszió október 27.

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Bevezetés a hipotézisvizsgálatokba

Hipotézis vizsgálatok

Centura Szövegértés Teszt

Módszertani hozzájárulás a Szegénység

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Statistical Dependence

Korreláció és Regresszió (folytatás) Logisztikus telítıdési függvény Több független változós regressziós függvények

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Heckman modell. Szelekciós modellek alkalmazásai.

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

y ij = µ + α i + e ij

Matematikai geodéziai számítások 6.

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

DISZKRIMINANCIA ANALÍZIS ALKALMAZÁSA EGY,

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

Matematikai geodéziai számítások 6.

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

A többváltozós lineáris regresszió 1.

Ökonometriai modellek paraméterei: számítás és értelmezés

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

KÖVETKEZTETŐ STATISZTIKA

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Statisztika II. feladatok

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

Több valószínűségi változó együttes eloszlása, korreláció

Korreláció és Regresszió

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Melléklet 1. A knn-módszerhez használt változólista

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

(Independence, dependence, random variables)

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Átírás:

Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz

Diszkriminancia-analízis folyamata

Feladat Megnyitás: Employee_data.sav Milyen tényezőktől függ a dolgozók beosztása? Nem metrikus Független változó (x) Metrikus Függő változó (y) Nem metrikus Metrikus Kereszttábla elemzés Varianciaanalízis Diszkriminancia-analízis, Logisztikus regresszió Korreláció- és regresszióelemzés

2. Feltételek vizsgálata 1. Adatok, változók X: Metrikus változók / Dummy változók (age, education level, current salary, beginning salary, month since hire, previous experience, minority classification) Adatok kizárólagossága: Pl. aki vezető, az nem hivatalnok Mindenki valamelyik csoport tagja, stb

2. Feltételek vizsgálata 2. Normális eloszlás Graph / Histogram Stb. Nonparametric Tests / 1-Sample K-S Test n Mahalanobis távolság

2. Feltételek vizsgálata 3. Multikollinearitás (vagy Pooled Within-Groups Matrices) Faktoranalízis (?)

2. Feltételek vizsgálata 4. Outlier: Mahalanobis távolság 5. Homoszkedaszticitás: Box s M Analyze / Classify / Discriminant Elemzés lefuttatásával

Multikollinearitás (r) Homoszkedaszticitás: nemcsak variancia állandóság, de varianciakovariancia mátrixok egyezősége is feltétel Outlier Normál eloszlás Változók bevonása: milyen mértékben csökken a Wilks λ Milyen mértékben csökken a nem magyarázott variancia Kisebb M-távolság Legnagyobb F-érték Rao s V értékének növekedése

mert nem ugyanannyi menedzser van, mint pl. hivatalnok 5. Érvényesség vizsgálat

- Month since hire - Minority - Age (?) STEPWISE Megmutatja, hogy vannak-e különbségek a csoportosító változó által kialakított csoportok átlagai között: ha a csoportosító változó a varianciának nagy részét magyarázza, akkor a csoportok átlagai között szignifikáns eltérés mutatkozik, és a mutató értéke 0-hoz közelít. Így az egyes változók az alapján kerülhetnek bevonásra a diszkriminanciaelemzésbe, hogy milyen mértékben képesek a Wilks λ értékét csökkenteni. Magas F érték, alacsony Wilks Lambda!!! A kevés diszkriminatív értékkel bíró változók a stepwise diszkriminanciaelemzés segítségével eltávolíthatók.

Stepwise Statistics: 1. Education Level 2. Previous Experience 3. Current Salary 4. Age 5. Beginning Salary

Group Statistics Employment Category Mean Std. Deviation Valid N (listwise) Unweighted Weighted Clerical Educational Level (years) 12.86 2.330 362 362.000 Current Salary 27818.90 7569.196 362 362.000 Beginning Salary 14079.05 2893.376 362 362.000 Months since Hire 81.11 10.093 362 362.000 Previous Experience (months) 85.12 95.393 362 362.000 Minority Classification.24.428 362 362.000 age 33.06 12.140 362 362.000 Custodial Educational Level (years) 10.19 2.219 27 27.000 Current Salary 30938.89 2114.616 27 27.000 Beginning Salary 15077.78 1341.235 27 27.000 Months since Hire 81.56 8.487 27 27.000 Previous Experience (months) 298.11 101.426 27 27.000 Minority Classification.48.509 27 27.000 age 48.59 9.532 27 27.000 Manager Educational Level (years) 17.25 1.612 84 84.000 Current Salary 63977.80 18244.776 84 84.000 Beginning Salary 30257.86 9980.979 84 84.000 Months since Hire 81.15 10.410 84 84.000 Previous Experience (months) 77.62 73.260 84 84.000 Minority Classification.05.214 84 84.000 age 31.50 6.433 84 84.000 Total Educational Level (years) 13.49 2.886 473 473.000 Current Salary 34418.45 17093.723 473 473.000 Beginning Salary 17009.25 7877.562 473 473.000 Months since Hire 81.14 10.048 473 473.000 Previous Experience (months) 95.95 104.680 473 473.000 Minority Classification.22.415 473 473.000 age 33.67 11.784 473 473.000

Vs.

Egyező log determinánsok (nagyon alacsony log determinánssal rendelkező csoportokat célszerű törölni, ha M szignifikáns minél magasabb kritikus p-érték) H 0 : homoszkedasztikus (egyező kovariancia mátrixok) H 1 : heteroszkedasztikus p<0.000 szignifikancia-szinten fogadjuk el, hogy homoszkedasztikus (nagy mintaelemszámnál a szignifikancia eredménye kevésbé jelentős)

3. Diszkriminancia függvény Stepwise: Nő a magyarázó erő Kevésbé járul a magyarázó erő növekedéséhez Szignifikáns diszkriminancia függvény p=0.000 λ=22,3% a nem magyarázott variancia ( ANOVA H 2 inverze) KANONIKUS DISZKRIMINANCIA FÜGGVÉNY Min {p;y kategóriáinak száma-1} = 2 A különbözőség azon része, amit a DF 1 nem foglal magába

DF külső szórásnégyzet DF belső szórásnégyzet DF által magyarázott különbözőség DF által nem magyarázott különbözőség DF-k a magyarázott különbözőség hány %-t magyarázzák ( 100%) Az DF 1 83,4%-ban járul hozzá a különbözőség magyarázatához, míg a DF 2 csak 16,6%-ban. Többszörös korreláció a magyarázó változók és a diszkriminancia fv. között H komplementere 1 fv. esetében a négyzete R 2 (modell illeszkedés) A DF 1 0,826 2 =68,23%-ban magyarázza a csoportosító változó varianciáját

3-4. DF, Értelmezés Diszkrimináló hatás értelmezése DF elnevezése Változók fontossága Kapcsolat iránya β együtthatók (parciális) Pl. DF 1 -t a leginkább a jelenlegi fizetés, míg DF 2 -t a korábbi munkatapasztalat határozza meg DF-k és a magyarázó változók közötti korreláció Változók relatív fontossága (a korreláció abszolút mértékének sorrendjében) faktor loading (határ: >0,3 fontos)

Diszkriminancia függvény paraméterei: b i együtthatók (A mértékegységek különbözősége miatt nem látszik a jelentősége, de ezek is diszkriminálnak) DF DF 1 2 = = 0,082-0,201 education education level - 0,002 level + 0,013 previous previous experience experience 0,019 0,038 b: a változók parciális hozzájárulása a DF-ekhez (a többi változó változatlansága mellett) + age - age 4,923 + 1,748 Dummy változók használata esetén: elemzés a használatuk nélkül használatukkal (a kanonikus korreláció négyzetében mért különbség a Dummy változók magyarázó ereje)

Átlagos D értékek Egy egyed ahhoz a csoporthoz tartozik, amely csoport centroidjához a legközelebb esik a diszkriminancia értéke (discriminant score) (Mahalanobis távolság alapján) Pl: 1. személy: manager Predicted group Discriminant membership score

5. Érvényesség vizsgálat Találati arány Helyes kategorizálás Új dolgozó: abba csoportba tartozik, amelyik centroidjától a kiszámított Mahalanobis távolság értéke a legalacsonyabb

Köszönöm a figyelmet!