Logisztikus regresszió

Hasonló dokumentumok
Logisztikus regresszió

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Logistic regression. Quantitative Statistical Methods. Dr.

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Diszkriminancia-analízis

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Többváltozós lineáris regressziós modell feltételeinek

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Regresszió számítás az SPSSben

Többváltozós Regresszió-számítás

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Bevezetés a Korreláció &

Statisztika elméleti összefoglaló

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

: az i -ik esélyhányados, i = 2, 3,..I

Korreláció számítás az SPSSben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Logisztikus regresszió október 27.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Regressziós vizsgálatok

Adatok statisztikai értékelésének főbb lehetőségei

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

y ij = µ + α i + e ij

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Likelihood, deviancia, Akaike-féle információs kritérium

GYORSTESZTEK ALKALMAZÁSA A

Faktoranalízis az SPSS-ben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Logisztikus regresszió

Sztochasztikus kapcsolatok

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Lineáris regressziószámítás 1. - kétváltozós eset

Az első számjegyek Benford törvénye

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

6. előadás - Regressziószámítás II.

Több diszkrét kimenet multinomiális és feltételes logit modellek

Typotex Kiadó. Tartalomjegyzék

Egészségügyi mérnöki mesterszak hallgatói adatainak elemzése. Computational Biomedicine (Combine) workgroup

Többváltozós lineáris regresszió 3.

Kvantitatív statisztikai módszerek

Korrelációs kapcsolatok elemzése

Lineáris regresszió vizsgálata resampling eljárással

Magyarországon személysérüléses közúti közlekedési balesetek okozóik és abból alkoholos állapotban lévők szerinti elemzése. Rezsabek Tamás GSZDI

11.Négymezős táblázatok. Egyezés mérése: kappa statisztika Kockázat becslés: esélyhányados (OR) Kockázat becslés: relatív kockázat (RR)

Diagnosztika és előrejelzés

A LAKOSSÁGI ENERGIAFELHASZNÁLÁS ÉS AZ ÉLETSZÍNVONAL KÖZÖTTI ÖSSZEFÜGGÉS SZUBJEKTÍV TÉNYEZŐK ASPEKTUSÁBÓL

Egy és (többváltozós) logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Több valószínűségi változó együttes eloszlása, korreláció

Függetlenségvizsgálat, Illeszkedésvizsgálat

DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

9.1.1 Az között megjelent lapcímek település szerinti bontásban, korszakonként

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Faktoranalízis az SPSS-ben

[Biomatematika 2] Orvosi biometria

A többváltozós lineáris regresszió III. Főkomponens-analízis

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

5. előadás - Regressziószámítás

KÖVETKEZTETŐ STATISZTIKA

Centura Szövegértés Teszt

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Heckman modell. Szelekciós modellek alkalmazásai.

Korreláció és lineáris regresszió

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Egy és (többváltozós) logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Least Squares becslés

Varianciaanalízis 4/24/12

Kísérlettervezés alapfogalmak

A gravitációs modell felhasználása funkcionális távolságok becslésére

PDF created with FinePrint pdffactory Pro trial version Adott egy X folytonos változó, ami normális eloszlású.

Átírás:

Logisztikus regresszió 9. előadás Kvantitatív statisztikai módszerek Dr. Szilágyi Roland

Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó () Nem metrikus Metrikus Kereszttábla elemzés Varianciaanalízis Diszkriminancia-analízis, Logisztikus regresszió Korreláció- és regresszióelemzés Logisztikus regresszió előnyei: Mind metrikus, mind nem metrikus független változók használatát megengedi Kevesebb feltétel teljesülését kívánja meg

Logisztikus regresszió Olyan többváltozós módszer, amely segítségével esetek kategorizálását végezhetjük el a függő változó kategóriái szerint. Ellenőrizzük, hogy a csoporthoz való tartozás becsülhető-e, és ha igen, milyen arányban. Lehet: Kétváltozós (a függő változó bináris) Többváltozós

A logisztikus regresszió számítás célja A megfigyelési egységek valamely csoportba sorolása. A csoportosítás pontosságának mérése. Tehát beazonosítani azokat a tényezőket, amelyek szignifikánsan megkülönböztetik az esetek csoportjait, és ellenőrizni, hogy a csoporthoz való tartozás becsülhető-e adott független változókkal, és ha igen, hány százalékban.

Alkalmazási területei Piackutatás Vásárlási modellezés (vásárol - nem vásárol) Megbízhatóság (vissza fizeti a hitelt, vagy nem) Cégvizsgálat (csődös, vagy nem) Stb.

A vizsgálat menete 1 Cél, probléma megfogalmazása 2 Feltételek vizsgálata 3 Elemzés elvégzése 4 Eredmények értelmezése 5 Érvényesség értékelése

A logisztikus regresszó-számítás feltételei 1. A változók mérési szintje A függő változó nominális skálán mérhető, - -lehet kétcsoportos ilyen esetben (binomiális 0/1), -lehet több csoportos is (multinomiális). A független változók bármilyen skálán mérhetők. (A nominális változók interakciói is szerepeltethetők a modellben).

A logisztikus regresszó-számítás feltételei 2. Az adatok függetlensége Az összes megfigyelésnek függetlennek kell lennie egymástól, vagyis az adatok nem lehetnek korreláltak. Erre az adatgyűjtésnél, mintavételnél komoly figyelmet kell fordítani.

A logisztikus regresszó-számítás feltételei 3. A mintanagyság Itt is kritikus pont a megfigyelések számának és a független változók számának aránya. Legalább 60 elemű minta szükséges. A teljes mintanagyság legalább tízszer nagyobb legyen a független változók számánál.

A logisztikus regresszó-számítás feltételei 4. Normalitás A független változóknak normális eloszlásúnak kell lenniük. A feltétel sérülhet a kiugró értékek és a helytelen skálás miatt is. Egyváltozós normalitás tesztelése: boplot, QQ ábra, hipotézis vizsgálat. Többváltozós normalitás tesztelése: Mahalanobis-mutató

A logisztikus regresszó-számítás feltételei 5. Multikollinearitás Számos eddigi feltétel a többváltozós regresszió számításnál is megtalálható volt, hasonlóan a multikollinearitáshoz. A logisztikus regressziónál is feltételeznünk kell, hogy a független változók csak a függő változóval függnek össze, egymással nem.

Logisztikus regresszió A logisztikus regresszió két egymást kölcsönösen kizáró kategória bekövetkezési esélyeinek az egymáshoz való arányát, vagyis az odds mértékét modellezi i magyarázó változók értékeinek az ismeretében. odds Forrás: Hajdu Ottó: Többváltozós statisztikai számítások; KSH, Budapest, 2003. P 1 P

Logisztikus regresszió Y A logisztikus regresszió feltételezése szerint az odds logaritmusa másképpen a siker valószínűségének logitja a magyarázó változók lineáris függvénye. ln( odds ) logit( P ) 0 1 1... p p odds e 0 1 1... p p Forrás: Hajdu Ottó: Többváltozós statisztikai számítások; KSH, Budapest, 2003.

Logisztikus regresszió Forrás: Hajdu Ottó: Többváltozós statisztikai számítások; KSH, Budapest, 2003. p p p p e e P...... 1 1 0 1 1 0 1 P P odds 1

Maimum Likelihood módszer A maimum likelihood módszer célja, hogy adott mérési értékekhez, az ismeretlen paramétereknek olyan becslését adja meg, amely mellett az adott érték a legnagyobb valószínűséggel következik be. Az eljárás a likelihood függvény maimalizálásával történik. Forrás: Wikipedia

Maimum Likelihood módszer Az adott kimenet valószínűségét előrejelző függvény paramétereinek (β) becsült értékei adott i magyarázó változók mellett a Likelihood függvény maimumában találhatók, vagyis ahol:. L n 0 e 1 e i1 0 1 1... 1 1 p p... p p ma Forrás: Hajdu Ottó: Többváltozós statisztikai számítások; KSH, Budapest, 2003.

Modell tesztelés A modell illeszkedésének jóságát a Hosmer- Lemeshow teszt segítségével vizsgáljuk. Ho: illeszkedik H1: nem illeszkedik Az egyedeket a becsült valószínűségek alapján rangsorba rendezi, majd valamely kvantilis (decilis) által meghatározott csoportokon χ 2 tesztet hajt végre.

β paraméterek tesztelése H H 0 1 : i 0 : 0 i Wald i = bi s(b i ) 2

A modell magyarázóereje Reziduális négyzetösszegre alapozott mutató (lineáris regresszió) Likelihood arányra alapozott mutatók (az elkészített modell Likelihoodját egy alapmodelléhez viszonyítja) A helyes előrejelzések részaránya

Pseudo R 2 A Co and Snell R 2 a modell log likelihoodjának értékét egy alapmodell log likelihood értékéhez viszonyítja. A mutató elméleti maimális értéke (ami egy tökéletes modellt feltételez) kisebb, mint egy. A Nagelkerke R 2 az előző mutató skálázási problémáinak korrigálásával határozható meg.

Outputok Step 0 Observed Previously defaulted Classification Table a,b Predicted Selected Cases c Unselected Cases d,e Previously Previously defaulted Percenta defaulted Percenta ge ge No Yes Correct No Yes Correct No 375 0 100,0 142 0 100,0 Yes 124 0,0 59 0,0 Overall Percentage 75,2 70,6 a. Constant is included in the model. b. The cut value is,500 Forrás: Help- IBM SPSS Statistics

Hosmer and Lemeshow Test Step Chi-square df Sig. 1 3,292 8,915 2 11,866 8,157 3 9,447 8,306 4 4,027 8,855 Forrás: Help- IBM SPSS Statistics

Model Summary -2 Log Co & Snell R Nagelkerke R Step likelihood Square Square 1 498,012 a,116,172 2 447,301 b,201,299 3 411,553 b,257,381 4 394,721 c,281,417 Forrás: Help- IBM SPSS Statistics

Classification Table a Step 1 Step 2 Step 3 Step 4 Observed Previously defaulted Predicted Selected Cases b Unselected Cases c,d Previously defaulted Previously defaulted Percentage Percentage No Yes Correct No Yes Correct No 361 14 96,3 137 5 96,5 Yes 100 24 19,4 45 14 23,7 Overall Percentage 77,2 75,1 Previously defaulted No 351 24 93,6 136 6 95,8 Yes 80 44 35,5 36 23 39,0 Overall Percentage 79,2 79,1 Previously defaulted No 348 27 92,8 135 7 95,1 Yes 72 52 41,9 28 31 52,5 Overall Percentage 80,2 82,6 Previously defaulted No 352 23 93,9 130 12 91,5 Yes 67 57 46,0 27 32 54,2 Overall Percentage 82,0 80,6

Classification table (Confusion matri) valós állapot (observed) előrejelzés (predicted) no (0) yes (1) no (0) valós negatív (VN) álpozitív (ÁP) yes (1) álnegatív (ÁN) valós pozitív (VP) negatív prediktív érték VN/(VN+ÁN) pozitív prediktív érték relevancia/precizitás VP/(ÁP+VP) specificitás VN/(VN+ÁP) szenzitivitás VP/(ÁN+VP) pontosság (VP+VN)/ (VN+ÁP+ÁN+VP)

Előrejelzési képesség értelmezése Szenzitivitás: annak a valószínűsége, hogy az előrejelzés 1 lesz egy olyan ügyfél esetében, aki késik (default). Specificitás: annak a valószínűsége, hogy az előrejelzés 0 lesz egy olyan ügyfél esetében, aki nem késik. Pozitív prediktív érték: annak a valószínűsége, hogy az 1 előrejelzés esetében az ügyfél valóban késik. Negatív prediktív érték: annak a valószínűsége, hogy 0 előrejelzés esetében az ügyfél nem késik.

Variables in the Equation 95% C.I.for EXP(B) B S.E. Wald df Sig. Ep(B) Lower Upper Step 1 a Debt to income ratio (100),121,017 52,676 1,000 1,129 1,092 1,166 Constant -2,476,230 116,31 1,000,084 5 Step 2 b Years with current employer -,140,023 38,158 1,000,869,831,909 Debt to income ratio (100),134,018 54,659 1,000 1,143 1,103 1,185 Constant -1,621,259 39,038 1,000,198 Step 3 c Years with current employer -,244,033 54,676 1,000,783,734,836 Debt to income ratio (100),069,022 9,809 1,002 1,072 1,026 1,119 Credit card debt in thousands,506,101 25,127 1,000 1,658 1,361 2,021 Constant -1,058,280 14,249 1,000,347 Step 4 d Years with current employer -,247,034 51,826 1,000,781,731,836 Years at current address -,089,023 15,109 1,000,915,875,957 Debt to income ratio (100),072,023 10,040 1,002 1,074 1,028 1,123 Credit card debt in thousands,602,111 29,606 1,000 1,826 1,470 2,269 Constant -,605,301 4,034 1,045,546

Paraméter értekmezés X i 1 egységnyi növekedése esetén az 1 -es előrejelzés esélye átlagosan EXP(B) szeresére változik, minden egyéb változatlansága mellett.

Forrás: Help- IBM SPSS Statistics Gazdaságtudományi Kar

Köszönöm a figyelmet strolsz@uni-miskolc.hu