Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz
Diszkriminancia-analízis folyamata
Feladat Megnyitás: Employee_data.sav Milyen tényezőktől függ a dolgozók beosztása? Nem metrikus Független változó (x) Metrikus Függő változó (y) Nem metrikus Metrikus Kereszttábla elemzés Varianciaanalízis Diszkriminancia-analízis, Logisztikus regresszió Korreláció- és regresszióelemzés
2. Feltételek vizsgálata 1. Adatok, változók X: Metrikus változók / Dummy változók (age, education level, current salary, beginning salary, month since hire, previous experience, minority classification) Adatok kizárólagossága: Pl. aki vezető, az nem hivatalnok Mindenki valamelyik csoport tagja, stb
2. Feltételek vizsgálata 2. Normális eloszlás Graph / Histogram Stb. Nonparametric Tests / 1-Sample K-S Test n Mahalanobis távolság
2. Feltételek vizsgálata 3. Multikollinearitás (vagy Pooled Within-Groups Matrices) Faktoranalízis (?)
2. Feltételek vizsgálata 4. Outlier: Mahalanobis távolság 5. Homoszkedaszticitás: Box s M Analyze / Classify / Discriminant Elemzés lefuttatásával
Multikollinearitás (r) Homoszkedaszticitás: nemcsak variancia állandóság, de varianciakovariancia mátrixok egyezősége is feltétel Outlier Normál eloszlás Változók bevonása: milyen mértékben csökken a Wilks λ Milyen mértékben csökken a nem magyarázott variancia Kisebb M-távolság Legnagyobb F-érték Rao s V értékének növekedése
mert nem ugyanannyi menedzser van, mint pl. hivatalnok 5. Érvényesség vizsgálat
- Month since hire - Minority - Age (?) STEPWISE Megmutatja, hogy vannak-e különbségek a csoportosító változó által kialakított csoportok átlagai között: ha a csoportosító változó a varianciának nagy részét magyarázza, akkor a csoportok átlagai között szignifikáns eltérés mutatkozik, és a mutató értéke 0-hoz közelít. Így az egyes változók az alapján kerülhetnek bevonásra a diszkriminanciaelemzésbe, hogy milyen mértékben képesek a Wilks λ értékét csökkenteni. Magas F érték, alacsony Wilks Lambda!!! A kevés diszkriminatív értékkel bíró változók a stepwise diszkriminanciaelemzés segítségével eltávolíthatók.
Stepwise Statistics: 1. Education Level 2. Previous Experience 3. Current Salary 4. Age 5. Beginning Salary
Group Statistics Employment Category Mean Std. Deviation Valid N (listwise) Unweighted Weighted Clerical Educational Level (years) 12.86 2.330 362 362.000 Current Salary 27818.90 7569.196 362 362.000 Beginning Salary 14079.05 2893.376 362 362.000 Months since Hire 81.11 10.093 362 362.000 Previous Experience (months) 85.12 95.393 362 362.000 Minority Classification.24.428 362 362.000 age 33.06 12.140 362 362.000 Custodial Educational Level (years) 10.19 2.219 27 27.000 Current Salary 30938.89 2114.616 27 27.000 Beginning Salary 15077.78 1341.235 27 27.000 Months since Hire 81.56 8.487 27 27.000 Previous Experience (months) 298.11 101.426 27 27.000 Minority Classification.48.509 27 27.000 age 48.59 9.532 27 27.000 Manager Educational Level (years) 17.25 1.612 84 84.000 Current Salary 63977.80 18244.776 84 84.000 Beginning Salary 30257.86 9980.979 84 84.000 Months since Hire 81.15 10.410 84 84.000 Previous Experience (months) 77.62 73.260 84 84.000 Minority Classification.05.214 84 84.000 age 31.50 6.433 84 84.000 Total Educational Level (years) 13.49 2.886 473 473.000 Current Salary 34418.45 17093.723 473 473.000 Beginning Salary 17009.25 7877.562 473 473.000 Months since Hire 81.14 10.048 473 473.000 Previous Experience (months) 95.95 104.680 473 473.000 Minority Classification.22.415 473 473.000 age 33.67 11.784 473 473.000
Vs.
Egyező log determinánsok (nagyon alacsony log determinánssal rendelkező csoportokat célszerű törölni, ha M szignifikáns minél magasabb kritikus p-érték) H 0 : homoszkedasztikus (egyező kovariancia mátrixok) H 1 : heteroszkedasztikus p<0.000 szignifikancia-szinten fogadjuk el, hogy homoszkedasztikus (nagy mintaelemszámnál a szignifikancia eredménye kevésbé jelentős)
3. Diszkriminancia függvény Stepwise: Nő a magyarázó erő Kevésbé járul a magyarázó erő növekedéséhez Szignifikáns diszkriminancia függvény p=0.000 λ=22,3% a nem magyarázott variancia ( ANOVA H 2 inverze) KANONIKUS DISZKRIMINANCIA FÜGGVÉNY Min {p;y kategóriáinak száma-1} = 2 A különbözőség azon része, amit a DF 1 nem foglal magába
DF külső szórásnégyzet DF belső szórásnégyzet DF által magyarázott különbözőség DF által nem magyarázott különbözőség DF-k a magyarázott különbözőség hány %-t magyarázzák ( 100%) Az DF 1 83,4%-ban járul hozzá a különbözőség magyarázatához, míg a DF 2 csak 16,6%-ban. Többszörös korreláció a magyarázó változók és a diszkriminancia fv. között H komplementere 1 fv. esetében a négyzete R 2 (modell illeszkedés) A DF 1 0,826 2 =68,23%-ban magyarázza a csoportosító változó varianciáját
3-4. DF, Értelmezés Diszkrimináló hatás értelmezése DF elnevezése Változók fontossága Kapcsolat iránya β együtthatók (parciális) Pl. DF 1 -t a leginkább a jelenlegi fizetés, míg DF 2 -t a korábbi munkatapasztalat határozza meg DF-k és a magyarázó változók közötti korreláció Változók relatív fontossága (a korreláció abszolút mértékének sorrendjében) faktor loading (határ: >0,3 fontos)
Diszkriminancia függvény paraméterei: b i együtthatók (A mértékegységek különbözősége miatt nem látszik a jelentősége, de ezek is diszkriminálnak) DF DF 1 2 = = 0,082-0,201 education education level - 0,002 level + 0,013 previous previous experience experience 0,019 0,038 b: a változók parciális hozzájárulása a DF-ekhez (a többi változó változatlansága mellett) + age - age 4,923 + 1,748 Dummy változók használata esetén: elemzés a használatuk nélkül használatukkal (a kanonikus korreláció négyzetében mért különbség a Dummy változók magyarázó ereje)
Átlagos D értékek Egy egyed ahhoz a csoporthoz tartozik, amely csoport centroidjához a legközelebb esik a diszkriminancia értéke (discriminant score) (Mahalanobis távolság alapján) Pl: 1. személy: manager Predicted group Discriminant membership score
5. Érvényesség vizsgálat Találati arány Helyes kategorizálás Új dolgozó: abba csoportba tartozik, amelyik centroidjától a kiszámított Mahalanobis távolság értéke a legalacsonyabb
Köszönöm a figyelmet!