Logisztikus regresszió

Hasonló dokumentumok
Logisztikus regresszió

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Logistic regression. Quantitative Statistical Methods. Dr.

Diszkriminancia-analízis

Többváltozós lineáris regressziós modell feltételeinek

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Bevezetés a Korreláció &

Regresszió számítás az SPSSben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós Regresszió-számítás

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Korreláció számítás az SPSSben

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika elméleti összefoglaló

Logisztikus regresszió október 27.

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

: az i -ik esélyhányados, i = 2, 3,..I

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Likelihood, deviancia, Akaike-féle információs kritérium

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Regressziós vizsgálatok

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Több valószínűségi változó együttes eloszlása, korreláció

Lineáris regresszió vizsgálata resampling eljárással

6. előadás - Regressziószámítás II.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Egy és többváltozós logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Adatok statisztikai értékelésének főbb lehetőségei

Faktoranalízis az SPSS-ben

Korrelációs kapcsolatok elemzése

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

y ij = µ + α i + e ij

Logisztikus regresszió

Magyarországon személysérüléses közúti közlekedési balesetek okozóik és abból alkoholos állapotban lévők szerinti elemzése. Rezsabek Tamás GSZDI

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Lineáris regressziószámítás 1. - kétváltozós eset

A LAKOSSÁGI ENERGIAFELHASZNÁLÁS ÉS AZ ÉLETSZÍNVONAL KÖZÖTTI ÖSSZEFÜGGÉS SZUBJEKTÍV TÉNYEZŐK ASPEKTUSÁBÓL

Többváltozós lineáris regresszió 3.

Kvantitatív statisztikai módszerek

GYORSTESZTEK ALKALMAZÁSA A

Diagnosztika és előrejelzés

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Életkor (Age) és szisztolés vérnyomás (SBP)

A többváltozós lineáris regresszió III. Főkomponens-analízis

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Több diszkrét kimenet multinomiális és feltételes logit modellek

Függetlenségvizsgálat, Illeszkedésvizsgálat

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Sztochasztikus kapcsolatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Egy és (többváltozós) logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Az első számjegyek Benford törvénye

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Mérési hibák

5. előadás - Regressziószámítás

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Egészségügyi mérnöki mesterszak hallgatói adatainak elemzése. Computational Biomedicine (Combine) workgroup

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

A Statisztika alapjai

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Faktoranalízis az SPSS-ben

DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI

Korreláció és lineáris regresszió

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

Typotex Kiadó. Tartalomjegyzék

Centura Szövegértés Teszt

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

[Biomatematika 2] Orvosi biometria

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Minőség-képességi index (Process capability)

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

11.Négymezős táblázatok. Egyezés mérése: kappa statisztika Kockázat becslés: esélyhányados (OR) Kockázat becslés: relatív kockázat (RR)

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Bevezetés az ökonometriába

Egy és (többváltozós) logisztikus regressziós vizsgálatok és alkalmazásaik a klinikumban

Elektronikus kommunikáció jelentősége a fiatalok baráti kapcsolataiban

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

9.1.1 Az között megjelent lapcímek település szerinti bontásban, korszakonként

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

Átírás:

Logisztikus regresszió Kvantitatív statisztikai módszerek Dr. Szilágyi Roland

Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó (x) Nem metrikus Metrikus Kereszttábla elemzés Varianciaanalízis Diszkriminancia-analízis, Logisztikus regresszió Korreláció- és regresszióelemzés Logisztikus regresszió előnyei: Mind metrikus, mind nem metrikus független változók használatát megengedi Kevesebb feltétel teljesülését kívánja meg

Logisztikus regresszió Olyan többváltozós módszer, amely segítségével esetek kategorizálását végezhetjük el a függő változó kategóriái szerint. Ellenőrizzük, hogy a csoporthoz való tartozás becsülhető-e, és ha igen, milyen arányban. Lehet: Binomiális (a függő változónak két változata van) Multinomiális (polychotom)

A logisztikus regresszió számítás célja A megfigyelési egységek valamely csoportba sorolása. A csoportosítás pontosságának mérése. Tehát beazonosítani azokat a tényezőket, amelyek szignifikánsan megkülönböztetik az esetek csoportjait, és ellenőrizni, hogy a csoporthoz való tartozás becsülhető-e az adott független változókkal, és ha igen, hány százalékban.

Alkalmazási területei Piackutatás Vásárlási modellezés (vásárol - nem vásárol) Megbízhatóság (vissza fizeti a hitelt, vagy nem) Cégvizsgálat (csődös, vagy nem) Stb.

A vizsgálat menete 1 Cél, probléma megfogalmazása 2 Feltételek vizsgálata 3 Elemzés elvégzése 4 Eredmények értelmezése 5 Érvényesség értékelése

A logisztikus regresszó-számítás feltételei 1. A változók mérési szintje A függő változó nominális skálán mérhető, - -lehet kétcsoportos ilyen esetben (binomiális 0/1), -lehet több csoportos is (multinomiális). A független változók bármilyen skálán mérhetők. (A nominális változók interakciói is szerepeltethetők a modellben).

A logisztikus regresszó-számítás feltételei 2. Az adatok függetlensége Az összes megfigyelésnek függetlennek kell lennie egymástól, vagyis az adatok nem lehetnek autokorreláltak. Erre az adatgyűjtésnél, mintavételnél komoly figyelmet kell fordítani.

A logisztikus regresszó-számítás feltételei 3. A mintanagyság Itt is kritikus pont a megfigyelések számának és a független változók számának aránya. Legalább 60 elemű minta szükséges. A teljes mintanagyság legalább tízszer nagyobb legyen a független változók számánál. A függő változó kimeneteinek mindkét változatából elégséges mennyiség álljon rendelkezésre az adatbázisban.

A logisztikus regresszó-számítás feltételei 4. Normalitás A független változóknak normális eloszlásúnak kell lenniük. A feltétel sérülhet a kiugró értékek és a helytelen skálás miatt is. Egyváltozós normalitás tesztelése: boxplot, QQ ábra, hipotézis vizsgálat. Többváltozós normalitás tesztelése: Mahalanobis-mutató

A logisztikus regresszó-számítás feltételei 5. Multikollinearitás Számos eddigi feltétel a többváltozós regresszió számításnál is megtalálható volt, hasonlóan a multikollinearitáshoz. A logisztikus regressziónál is feltételeznünk kell, hogy a független változók csak a függő változóval függnek össze, egymással nem.

Logisztikus regresszió A logisztikus regresszió két egymást kölcsönösen kizáró kategória bekövetkezési esélyeinek az egymáshoz való arányát, vagyis az odds mértékét modellezi x i magyarázó változók értékeinek az ismeretében. odds x Forrás: Hajdu Ottó: Többváltozós statisztikai számítások; KSH, Budapest, 2003. P 1 x P x

Az alapgondolat A lineáris regresszió összefüggéseit próbáljuk felhasználni, de ebben az esetben nem az Y változó értékeit szeretnénk/tudjuk megbecsülni, hanem azt, hogy mekkora a valószínűsége annak, hogy Y=1 értéket vesz fel adott X i független változó-értékek mellett. Ez a valószínűség (P x )

Az alapgondolat Azonban (P x ) értéke csak [0,1] intervallumban mozoghat, mivel egy valószínűséget mutat, így nem lehet a lináris regressziós modell függő változója számítás során, hiszen egy lineáris függvénnyel a [0,1] intervallumon kívüli értékeket is kapnánk becsült értékként. Ezért az eredményváltozó matematikai transzformációjára van szükség.

A logit transzformáció A logit transzformáció egy egyértelmű matematikai megfeleltetést biztosít a [0,1] és a [-, + ] tartományok között. Általánosságban: y logit(y) = ln 1 y A logisztikus regresszió esetében tehát logit(p x ) = ln P x 1 P x

Logisztikus regresszió Y A logisztikus regresszió feltételezése szerint az odds logaritmusa másképpen a siker valószínűségének logitja a magyarázó változók lineáris függvénye. ln( odds ) logit( P ) x x x 0 1 1... p x p odds e x x 0 1 1... p x p Forrás: Hajdu Ottó: Többváltozós statisztikai számítások; KSH, Budapest, 2003.

Logisztikus regresszió Forrás: Hajdu Ottó: Többváltozós statisztikai számítások; KSH, Budapest, 2003. p p p p x x x x x e e P...... 1 1 0 1 1 0 1 x x x P P odds 1

Maximum Likelihood módszer A maximum likelihood módszer célja, hogy adott mérési értékekhez, az ismeretlen paramétereknek olyan becslését adja meg, amely mellett az adott érték a legnagyobb valószínűséggel következik be. Az eljárás a likelihood függvény maximalizálásával történik. Forrás: Wikipedia

Maximum Likelihood módszer Az adott kimenet valószínűségét előrejelző függvény paramétereinek (β) becsült értékei adott x i magyarázó változók mellett a Likelihood függvény maximumában találhatók, vagyis ahol:. L = n i=1 e y i (β 0+β1x1+ +βpxp) 1+e β 0+β1x1+ +βpxp max! Forrás: Hajdu Ottó: Többváltozós statisztikai számítások; KSH, Budapest, 2003.

Modell tesztelés A modell illeszkedésének jóságát a Hosmer- Lemeshow teszt segítségével vizsgáljuk. Ho: illeszkedik H1: nem illeszkedik Az egyedeket a becsült valószínűségek alapján rangsorba rendezi, majd valamely kvantilis (decilis) által meghatározott csoportokon χ 2 tesztet hajt végre.

β paraméterek tesztelése H H 0 1 : i 0 : 0 i Wald i = bi s(b i ) 2

A modell magyarázóereje Reziduális négyzetösszegre alapozott mutató (lineáris regresszió) Likelihood arányra alapozott mutatók (az elkészített modell Likelihoodját egy alapmodelléhez viszonyítja) A helyes előrejelzések részaránya

Pseudo R 2 A Cox and Snell R 2 a modell log likelihoodjának értékét egy alapmodell log likelihood értékéhez viszonyítja. A mutató elméleti maximális értéke (ami egy tökéletes modellt feltételez) kisebb, mint egy. A Nagelkerke R 2 az előző mutató skálázási problémáinak korrigálásával határozható meg.

Outputok Step 0 Observed Previously defaulted Classification Table a,b Predicted Selected Cases c Unselected Cases d,e Previously Previously defaulted Percenta defaulted Percenta ge ge No Yes Correct No Yes Correct No 375 0 100,0 142 0 100,0 Yes 124 0,0 59 0,0 Overall Percentage 75,2 70,6 a. Constant is included in the model. b. The cut value is,500 Forrás: Help- IBM SPSS Statistics

Hosmer and Lemeshow Test Step Chi-square df Sig. 1 3,292 8,915 2 11,866 8,157 3 9,447 8,306 4 4,027 8,855 Forrás: Help- IBM SPSS Statistics

Model Summary -2 Log Cox & Snell R Nagelkerke R Step likelihood Square Square 1 498,012 a,116,172 2 447,301 b,201,299 3 411,553 b,257,381 4 394,721 c,281,417 Forrás: Help- IBM SPSS Statistics

Variables in the Equation 95% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper Step 1 a Debt to income ratio (x100),121,017 52,676 1,000 1,129 1,092 1,166 Constant -2,476,230 116,31 1,000,084 5 Step 2 b Years with current employer -,140,023 38,158 1,000,869,831,909 Debt to income ratio (x100),134,018 54,659 1,000 1,143 1,103 1,185 Constant -1,621,259 39,038 1,000,198 Step 3 c Years with current employer -,244,033 54,676 1,000,783,734,836 Debt to income ratio (x100),069,022 9,809 1,002 1,072 1,026 1,119 Credit card debt in thousands,506,101 25,127 1,000 1,658 1,361 2,021 Constant -1,058,280 14,249 1,000,347 Step 4 d Years with current employer -,247,034 51,826 1,000,781,731,836 Years at current address -,089,023 15,109 1,000,915,875,957 Debt to income ratio (x100),072,023 10,040 1,002 1,074 1,028 1,123 Credit card debt in thousands,602,111 29,606 1,000 1,826 1,470 2,269 Constant -,605,301 4,034 1,045,546

Paraméter értelmezés X i 1 egységnyi növekedése esetén az 1 -es előrejelzés esélye átlagosan EXP(B) szeresére változik, minden egyéb változatlansága mellett.

Classification Table a Step 1 Step 2 Step 3 Step 4 Observed Previously defaulted Predicted Selected Cases b Unselected Cases c,d Previously defaulted Previously defaulted Percentage Percentage No Yes Correct No Yes Correct No 361 14 96,3 137 5 96,5 Yes 100 24 19,4 45 14 23,7 Overall Percentage 77,2 75,1 Previously defaulted No 351 24 93,6 136 6 95,8 Yes 80 44 35,5 36 23 39,0 Overall Percentage 79,2 79,1 Previously defaulted No 348 27 92,8 135 7 95,1 Yes 72 52 41,9 28 31 52,5 Overall Percentage 80,2 82,6 Previously defaulted No 352 23 93,9 130 12 91,5 Yes 67 57 46,0 27 32 54,2 Overall Percentage 82,0 80,6

Classification table (Confusion matrix) valós állapot (observed) előrejelzés (predicted) no (0) yes (1) no (0) valós negatív (VN) álpozitív (ÁP) yes (1) álnegatív (ÁN) valós pozitív (VP) negatív prediktív érték VN/(VN+ÁN) pozitív prediktív érték relevancia/precizitás VP/(ÁP+VP) specificitás VN/(VN+ÁP) szenzitivitás VP/(ÁN+VP) pontosság (VP+VN)/ (VN+ÁP+ÁN+VP)

Előrejelzési képesség értelmezése Szenzitivitás: annak a valószínűsége, hogy az előrejelzés 1 lesz egy olyan ügyfél esetében, aki késik (default). A ténylegesen későknek hány %-át tudtuk azonosítani. Specificitás: annak a valószínűsége, hogy az előrejelzés 0 lesz egy olyan ügyfél esetében, aki nem késik. A ténylegesen nem későknek hány %-át tudtuk azonosítani. Pozitív prediktív érték: annak a valószínűsége, hogy az 1 előrejelzés esetében az ügyfél valóban késik. A kését előrejelzett esetekben hány % tényleges késő volt. Negatív prediktív érték: annak a valószínűsége, hogy 0 előrejelzés esetében az ügyfél nem késik. A nem kését előrejelzett esetekben hány % tényleges nem késő volt.

Forrás: Help- IBM SPSS Statistics Gazdaságtudományi Kar

Köszönöm a figyelmet strolsz@uni-miskolc.hu