Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ferenci Tamás 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Nyolcadik fejezet

Tartalom V. esettanulmány 1 V. esettanulmány Csődelőrejelzés 2 Általános gondolatok 3 becslése és jellemzése

Tartalom V. esettanulmány Csődelőrejelzés 1 V. esettanulmány Csődelőrejelzés 2 Általános gondolatok 3 becslése és jellemzése

Csődmodellezési adatbázis Csődelőrejelzés Mérlegadataikkal adott cégek alkotják a mintánkat feladat megmondani, hogy melyik fog valamilyen vizsgált időhorizonton belül csődbe menni

Csődelőrejelzés Csődmodellezési adatbázis Mérlegadataikkal adott cégek alkotják a mintánkat feladat megmondani, hogy melyik fog valamilyen vizsgált időhorizonton belül csődbe menni A demonstráció kedvéért egyszerűsítünk: a mérlegadat csak két (fiktív) változót jelent: nyereség és adósság

Csődelőrejelzés Csődmodellezési adatbázis Mérlegadataikkal adott cégek alkotják a mintánkat feladat megmondani, hogy melyik fog valamilyen vizsgált időhorizonton belül csődbe menni A demonstráció kedvéért egyszerűsítünk: a mérlegadat csak két (fiktív) változót jelent: nyereség és adósság Mindkettő kis egész szám, jelzi a megfelelő (nyilván fiktív) jellemzőt

Csődelőrejelzés Csődmodellezési adatbázis Mérlegadataikkal adott cégek alkotják a mintánkat feladat megmondani, hogy melyik fog valamilyen vizsgált időhorizonton belül csődbe menni A demonstráció kedvéért egyszerűsítünk: a mérlegadat csak két (fiktív) változót jelent: nyereség és adósság Mindkettő kis egész szám, jelzi a megfelelő (nyilván fiktív) jellemzőt Eredményváltozó: csődbe ment-e a cég ténylegesen (ugye a mintában lévő megfigyelési egységekre ismerjük az eredményváltozó tényleges értékét ez itt múltbeli)

Csődelőrejelzés Csődmodellezési adatbázis Mérlegadataikkal adott cégek alkotják a mintánkat feladat megmondani, hogy melyik fog valamilyen vizsgált időhorizonton belül csődbe menni A demonstráció kedvéért egyszerűsítünk: a mérlegadat csak két (fiktív) változót jelent: nyereség és adósság Mindkettő kis egész szám, jelzi a megfelelő (nyilván fiktív) jellemzőt Eredményváltozó: csődbe ment-e a cég ténylegesen (ugye a mintában lévő megfigyelési egységekre ismerjük az eredményváltozó tényleges értékét ez itt múltbeli) Súlyozott adatbázis, n = 50 összesen

Csődelőrejelzés Csődmodellezési adatbázis Mérlegadataikkal adott cégek alkotják a mintánkat feladat megmondani, hogy melyik fog valamilyen vizsgált időhorizonton belül csődbe menni A demonstráció kedvéért egyszerűsítünk: a mérlegadat csak két (fiktív) változót jelent: nyereség és adósság Mindkettő kis egész szám, jelzi a megfelelő (nyilván fiktív) jellemzőt Eredményváltozó: csődbe ment-e a cég ténylegesen (ugye a mintában lévő megfigyelési egységekre ismerjük az eredményváltozó tényleges értékét ez itt múltbeli) Súlyozott adatbázis, n = 50 összesen (A gyakorlaton valós mérlegadatokkal fogunk dolgozni, ez most szemléltető)

Az adatbázis madártávlatból Csődelőrejelzés

Tartalom V. esettanulmány Általános gondolatok Az osztályozási feladat 1 V. esettanulmány Csődelőrejelzés 2 Általános gondolatok 3 becslése és jellemzése

Általános gondolatok Az osztályozási feladat Kvalitatív változó eredményváltozó pozíciójában Itt a feladat tehát egy csődbe megy-e vagy sem jellegű változó modellezése

Általános gondolatok Az osztályozási feladat Kvalitatív változó eredményváltozó pozíciójában Itt a feladat tehát egy csődbe megy-e vagy sem jellegű változó modellezése Ez bináris változó mint az eddig tárgyalt dummy változók, csak ezúttal eredményváltozóként

Általános gondolatok Az osztályozási feladat Kvalitatív változó eredményváltozó pozíciójában Itt a feladat tehát egy csődbe megy-e vagy sem jellegű változó modellezése Ez bináris változó mint az eddig tárgyalt dummy változók, csak ezúttal eredményváltozóként Jelent ez módosulást? (Hiszen például magyarázó változóként mindegy volt, hogy egy változó bináris, az OLS-t nem zavarta, hogy történetesen csak 0 és 1 értékeket vesz csak fel)

Általános gondolatok Az osztályozási feladat Kvalitatív változó eredményváltozó pozíciójában Itt a feladat tehát egy csődbe megy-e vagy sem jellegű változó modellezése Ez bináris változó mint az eddig tárgyalt dummy változók, csak ezúttal eredményváltozóként Jelent ez módosulást? (Hiszen például magyarázó változóként mindegy volt, hogy egy változó bináris, az OLS-t nem zavarta, hogy történetesen csak 0 és 1 értékeket vesz csak fel) Most drasztikusan más a helyzet: Y nem modellezhető OLS-sel

OLS és a bináris eredményváltozó Általános gondolatok Az osztályozási feladat Matematikai részletekbe nem megyünk bele

Általános gondolatok Az osztályozási feladat OLS és a bináris eredményváltozó Matematikai részletekbe nem megyünk bele Intuitíve: gondoljatok arra, hogy az OLS elvileg bármilyen értéket becsülhet és között egy ilyen hogyan lenne értelmezhető egy csődbe megy-e vagy sem kérdés válaszaként?!

Általános gondolatok Az osztályozási feladat OLS és a bináris eredményváltozó Matematikai részletekbe nem megyünk bele Intuitíve: gondoljatok arra, hogy az OLS elvileg bármilyen értéket becsülhet és között egy ilyen hogyan lenne értelmezhető egy csődbe megy-e vagy sem kérdés válaszaként?! De: mégis lineáris struktúrában fogjuk megoldani a problémát... csak trükkösebben alkalmazzuk: bináris Y helyett egy transzformált változóra

A mostani feladat általánosabban Általános gondolatok Az osztályozási feladat Tegyük fel, hogy elkészült a bináris Y -ra adott modellünk, és azt előrejelzésre használjuk

Általános gondolatok Az osztályozási feladat A mostani feladat általánosabban Tegyük fel, hogy elkészült a bináris Y -ra adott modellünk, és azt előrejelzésre használjuk Vegyük észre, hogy az Y szerinti érték egyfajta csoporttagságot jelent: becsődölő, működő

Általános gondolatok Az osztályozási feladat A mostani feladat általánosabban Tegyük fel, hogy elkészült a bináris Y -ra adott modellünk, és azt előrejelzésre használjuk Vegyük észre, hogy az Y szerinti érték egyfajta csoporttagságot jelent: becsődölő, működő Az előrejelzés ebben a kontextusban lényegében besorolás egy csoportba!

Általános gondolatok Az osztályozási feladat A mostani feladat általánosabban Tegyük fel, hogy elkészült a bináris Y -ra adott modellünk, és azt előrejelzésre használjuk Vegyük észre, hogy az Y szerinti érték egyfajta csoporttagságot jelent: becsődölő, működő Az előrejelzés ebben a kontextusban lényegében besorolás egy csoportba! Tehát mégegyszer: a megfigyelési egység két csoport valamelyikébe tartozik, mi a csoporttagságával összefüggő adatok alapján tippeljük meg a csoporttagságot

Általános gondolatok Az osztályozási feladat A mostani feladat általánosabban Tegyük fel, hogy elkészült a bináris Y -ra adott modellünk, és azt előrejelzésre használjuk Vegyük észre, hogy az Y szerinti érték egyfajta csoporttagságot jelent: becsődölő, működő Az előrejelzés ebben a kontextusban lényegében besorolás egy csoportba! Tehát mégegyszer: a megfigyelési egység két csoport valamelyikébe tartozik, mi a csoporttagságával összefüggő adatok alapján tippeljük meg a csoporttagságot Ezt a feladatot általában osztályozásnak (klasszifikáció) nevezik

Az osztályozási feladat Általános gondolatok Az osztályozási feladat A klasszifikáció hatalmas gyakorlati jelentőségű feladat: melyik cég megy csődbe (a mérlegadatai alapján), melyik beteg fog meghalni (a laboreredmények alapján), melyik család vállal 2-nél több gyereket (demográfiai adatok alapján), kit vesznek fel adott munkahelyre (egyéni jellemzők alapján) stb. stb.

Általános gondolatok Az osztályozási feladat Az osztályozási feladat A klasszifikáció hatalmas gyakorlati jelentőségű feladat: melyik cég megy csődbe (a mérlegadatai alapján), melyik beteg fog meghalni (a laboreredmények alapján), melyik család vállal 2-nél több gyereket (demográfiai adatok alapján), kit vesznek fel adott munkahelyre (egyéni jellemzők alapján) stb. stb. Ennek legelemibb eszközét fogjuk most tárgyalni

Általános gondolatok Az osztályozási feladat Az osztályozási feladat A klasszifikáció hatalmas gyakorlati jelentőségű feladat: melyik cég megy csődbe (a mérlegadatai alapján), melyik beteg fog meghalni (a laboreredmények alapján), melyik család vállal 2-nél több gyereket (demográfiai adatok alapján), kit vesznek fel adott munkahelyre (egyéni jellemzők alapján) stb. stb. Ennek legelemibb eszközét fogjuk most tárgyalni Ezen kívül könyvtárnyi további módszer van, melyek a gépi tanulás, még általánosabban a mesterséges intelligencia területéhez tartoznak (az adatbányászat is gyakran vizsgál ilyen problémákat)

Tartalom V. esettanulmány becslése és jellemzése 1 V. esettanulmány Csődelőrejelzés 2 Általános gondolatok 3 becslése és jellemzése

A feladat átalakítása becslése és jellemzése Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra

A feladat átalakítása becslése és jellemzése Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra Az egységes terminológia kedvéért az Y = 1 kimenetetet siker -nek, az Y = 0-t kudarc -nak nevezzük

A feladat átalakítása becslése és jellemzése Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra Az egységes terminológia kedvéért az Y = 1 kimenetetet siker -nek, az Y = 0-t kudarc -nak nevezzük Először is: nem a siker Y tényét, hanem annak P X feltételes valószínűségét fogjuk modellezni

A feladat átalakítása becslése és jellemzése Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra Az egységes terminológia kedvéért az Y = 1 kimenetetet siker -nek, az Y = 0-t kudarc -nak nevezzük Először is: nem a siker Y tényét, hanem annak P X feltételes valószínűségét fogjuk modellezni Az alsó index értelme: a siker valószínűsége, feltéve, hogy a magyarázó változók X értékűek

A feladat átalakítása becslése és jellemzése Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra Az egységes terminológia kedvéért az Y = 1 kimenetetet siker -nek, az Y = 0-t kudarc -nak nevezzük Először is: nem a siker Y tényét, hanem annak P X feltételes valószínűségét fogjuk modellezni Az alsó index értelme: a siker valószínűsége, feltéve, hogy a magyarázó változók X értékűek (Most inkább csak jelölési egyszerűsítésként egy magyarázó változót feltételezünk, többre teljesen hasonlóan minta X vektor lenne)

A feladat átalakítása becslése és jellemzése Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra Az egységes terminológia kedvéért az Y = 1 kimenetetet siker -nek, az Y = 0-t kudarc -nak nevezzük Először is: nem a siker Y tényét, hanem annak P X feltételes valószínűségét fogjuk modellezni Az alsó index értelme: a siker valószínűsége, feltéve, hogy a magyarázó változók X értékűek (Most inkább csak jelölési egyszerűsítésként egy magyarázó változót feltételezünk, többre teljesen hasonlóan minta X vektor lenne) Azaz precízen: P X = P ( Y = 1 X )

A feladat átalakítása becslése és jellemzése Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra Az egységes terminológia kedvéért az Y = 1 kimenetetet siker -nek, az Y = 0-t kudarc -nak nevezzük Először is: nem a siker Y tényét, hanem annak P X feltételes valószínűségét fogjuk modellezni Az alsó index értelme: a siker valószínűsége, feltéve, hogy a magyarázó változók X értékűek (Most inkább csak jelölési egyszerűsítésként egy magyarázó változót feltételezünk, többre teljesen hasonlóan minta X vektor lenne) Azaz precízen: P X = P ( Y = 1 X ) Ezzel a {0, 1} változó helyett egy [0, 1]-on lévőt kell modellezni

A feladat további átalakítása becslése és jellemzése Ez persze még mindig kevés, ezért újabb transzformációt alkalmazunk

A feladat további átalakítása becslése és jellemzése Ez persze még mindig kevés, ezért újabb transzformációt alkalmazunk Odds (esélyhányados): a siker valószínűsége a kudarc valószínűségéhez viszonyítva

A feladat további átalakítása becslése és jellemzése Ez persze még mindig kevés, ezért újabb transzformációt alkalmazunk Odds (esélyhányados): a siker valószínűsége a kudarc valószínűségéhez viszonyítva A kudarc feltételes valószínűségét jelöljük Q X = 1 P X -szel

A feladat további átalakítása becslése és jellemzése Ez persze még mindig kevés, ezért újabb transzformációt alkalmazunk Odds (esélyhányados): a siker valószínűsége a kudarc valószínűségéhez viszonyítva A kudarc feltételes valószínűségét jelöljük Q X = 1 P X -szel Ekkor odds X = P X Q X = P X 1 P X

A feladat további átalakítása becslése és jellemzése Ez persze még mindig kevés, ezért újabb transzformációt alkalmazunk Odds (esélyhányados): a siker valószínűsége a kudarc valószínűségéhez viszonyítva A kudarc feltételes valószínűségét jelöljük Q X = 1 P X -szel Ekkor odds X = P X Q X = És fordítva (megoldva ezt P X -re): P X 1 P X P X = odds X 1 + odds X

És még egy átalakítás becslése és jellemzése Az odds már a [0, ) intervallumon van

És még egy átalakítás becslése és jellemzése Az odds már a [0, ) intervallumon van Majdnem jó, egy utolsó trükk: bevezetjük a logit fogalmát, mint log-odds: logit X = ln odds X

És még egy átalakítás becslése és jellemzése Az odds már a [0, ) intervallumon van Majdnem jó, egy utolsó trükk: bevezetjük a logit fogalmát, mint log-odds: logit X = ln odds X És ez már a (, )-n van (és szimmetrikusabbá is tettük a siker és kudarc eloszlását rajta)!

És még egy átalakítás becslése és jellemzése Az odds már a [0, ) intervallumon van Majdnem jó, egy utolsó trükk: bevezetjük a logit fogalmát, mint log-odds: logit X = ln odds X És ez már a (, )-n van (és szimmetrikusabbá is tettük a siker és kudarc eloszlását rajta)! Na, ezt fogjuk lineáris struktúrával modellezni! logit X = α + βx

És még egy átalakítás becslése és jellemzése Az odds már a [0, ) intervallumon van Majdnem jó, egy utolsó trükk: bevezetjük a logit fogalmát, mint log-odds: logit X = ln odds X És ez már a (, )-n van (és szimmetrikusabbá is tettük a siker és kudarc eloszlását rajta)! Na, ezt fogjuk lineáris struktúrával modellezni! logit X = α + βx A módszer neve: logit regresszió, vagy logisztikus regresszió

A logisztikus regresszió visszafejtése becslése és jellemzése Játszuk el mindezt visszafelé, feltéve, hogy α és β már ismert: logit X = α + βx odds X = e α+βx P X = eα+βx 1 + e α+βx

A logisztikus regresszió visszafejtése becslése és jellemzése Játszuk el mindezt visszafelé, feltéve, hogy α és β már ismert: logit X = α + βx odds X = e α+βx P X = eα+βx 1 + e α+βx... tehát α és β ismeretében egyszerű algebrai műveletekkel kapjuk a siker valószínűségeit

A logisztikus regresszió visszafejtése becslése és jellemzése Játszuk el mindezt visszafelé, feltéve, hogy α és β már ismert: logit X = α + βx odds X = e α+βx P X = eα+βx 1 + e α+βx... tehát α és β ismeretében egyszerű algebrai műveletekkel kapjuk a siker valószínűségeit És az utolsó lépés: hogy becsüljük α-t és β-t (ill. általában β-kat)?

A logisztikus regresszió visszafejtése becslése és jellemzése Játszuk el mindezt visszafelé, feltéve, hogy α és β már ismert: logit X = α + βx odds X = e α+βx P X = eα+βx 1 + e α+βx... tehát α és β ismeretében egyszerű algebrai műveletekkel kapjuk a siker valószínűségeit És az utolsó lépés: hogy becsüljük α-t és β-t (ill. általában β-kat)? Sajnos az OLS ahogy már mondtuk nem jó, új módszer kell: maximum likelihood (ML) becslés

Pár szó általában az ről becslése és jellemzése Legegyszerűbb eset: egyetlen sokasági paraméter becslése mintából (pl. sokasági várhatóérték)

Pár szó általában az ről becslése és jellemzése Legegyszerűbb eset: egyetlen sokasági paraméter becslése mintából (pl. sokasági várhatóérték) Alapötlet: ha tudnánk, hogy mennyi a sokasági paraméter értéke, meg tudnánk mondani minden egyes mintára, hogy mekkora valószínűséggel kapjuk épp azt a mintát véletlen mintavétel eredményeképp

Pár szó általában az ről becslése és jellemzése Legegyszerűbb eset: egyetlen sokasági paraméter becslése mintából (pl. sokasági várhatóérték) Alapötlet: ha tudnánk, hogy mennyi a sokasági paraméter értéke, meg tudnánk mondani minden egyes mintára, hogy mekkora valószínűséggel kapjuk épp azt a mintát véletlen mintavétel eredményeképp Mit jelent az, hogy mekkora valószínűséggel kapjuk a mintát? legegyszerűbb függetlenség feltételezésével: ekkor a konkrét (kezünkben lévő) minta megkapásának valószínűsége az egyes mintaelemek megkapásának valószínűségeinek szorzata

Pár szó általában az ről becslése és jellemzése Legegyszerűbb eset: egyetlen sokasági paraméter becslése mintából (pl. sokasági várhatóérték) Alapötlet: ha tudnánk, hogy mennyi a sokasági paraméter értéke, meg tudnánk mondani minden egyes mintára, hogy mekkora valószínűséggel kapjuk épp azt a mintát véletlen mintavétel eredményeképp Mit jelent az, hogy mekkora valószínűséggel kapjuk a mintát? legegyszerűbb függetlenség feltételezésével: ekkor a konkrét (kezünkben lévő) minta megkapásának valószínűsége az egyes mintaelemek megkapásának valószínűségeinek szorzata Például, ha 3 elemű x mintát veszünk, melyek elemei 0,5, 2, 0,2, akkor P (X = x) = P (X 1 = 0,5) P (X 2 = 2) P (X 3 = 0,2)

Pár szó általában az ről becslése és jellemzése Ennyi pontosítás után rendben vagyunk, gondolhatnánk, hiszen ha ismernénk a sokasági paraméter értékét (az egyetlen dolgot, ami ismeretlen volt!), akkor azt valóban meg tudnánk mondani, hogy mekkora valószínűséggel kapunk egy adott elemet

Pár szó általában az ről becslése és jellemzése Ennyi pontosítás után rendben vagyunk, gondolhatnánk, hiszen ha ismernénk a sokasági paraméter értékét (az egyetlen dolgot, ami ismeretlen volt!), akkor azt valóban meg tudnánk mondani, hogy mekkora valószínűséggel kapunk egy adott elemet De valójában a kérdés így pontatlan: folytonos sokaság esetén minden mintaelem valószínűsége nulla (P (X = x) = 0, pl. P (X 1 = 0,5) = 0 a pdf folytonossági pontjában!)

Pár szó általában az ről becslése és jellemzése Ennyi pontosítás után rendben vagyunk, gondolhatnánk, hiszen ha ismernénk a sokasági paraméter értékét (az egyetlen dolgot, ami ismeretlen volt!), akkor azt valóban meg tudnánk mondani, hogy mekkora valószínűséggel kapunk egy adott elemet De valójában a kérdés így pontatlan: folytonos sokaság esetén minden mintaelem valószínűsége nulla (P (X = x) = 0, pl. P (X 1 = 0,5) = 0 a pdf folytonossági pontjában!) Ötlet: ne is törődjünk ezzel az apró bökkenővel, használjuk akkor is a sűrűségfüggvény helyettesítési értékét a valószínűség gyanánt (intuitív indoklás: a pont, pl. itt a 0,5 kis környezetébe esés valószínűsége arányos ezzel az értékkel)

Pár szó általában az ről becslése és jellemzése Ennyi pontosítás után rendben vagyunk, gondolhatnánk, hiszen ha ismernénk a sokasági paraméter értékét (az egyetlen dolgot, ami ismeretlen volt!), akkor azt valóban meg tudnánk mondani, hogy mekkora valószínűséggel kapunk egy adott elemet De valójában a kérdés így pontatlan: folytonos sokaság esetén minden mintaelem valószínűsége nulla (P (X = x) = 0, pl. P (X 1 = 0,5) = 0 a pdf folytonossági pontjában!) Ötlet: ne is törődjünk ezzel az apró bökkenővel, használjuk akkor is a sűrűségfüggvény helyettesítési értékét a valószínűség gyanánt (intuitív indoklás: a pont, pl. itt a 0,5 kis környezetébe esés valószínűsége arányos ezzel az értékkel) Itt már a valószínűséget idézőjelbe kellett tennünk (a pdf helyettesítési értéke nem valószínűség, pl. simán lehet 1-nél nagyobb is!), ezért inkább új szót használunk rá: likelihood

A likelihoodról V. esettanulmány becslése és jellemzése Nézzünk erre egy példát: 3 elemű minta standard normális eloszlásból; mekkora a valószínűsége, hogy a 3 elem 0,5, 2, 0,2?

A likelihoodról V. esettanulmány becslése és jellemzése Nézzünk erre egy példát: 3 elemű minta standard normális eloszlásból; mekkora a valószínűsége, hogy a 3 elem 0,5, 2, 0,2? Nulla! (Ugyebár... )

A likelihoodról V. esettanulmány becslése és jellemzése Nézzünk erre egy példát: 3 elemű minta standard normális eloszlásból; mekkora a valószínűsége, hogy a 3 elem 0,5, 2, 0,2? Nulla! (Ugyebár... ) És a likelihoodja? L (x) = f X (0,5) f X (2) f X ( 0,2), ahol X N (0, 1) és ezért f X (x) = φ 0,1 (x), ahol φ a normális eloszlás pdf-e

A likelihoodról V. esettanulmány becslése és jellemzése Nézzünk erre egy példát: 3 elemű minta standard normális eloszlásból; mekkora a valószínűsége, hogy a 3 elem 0,5, 2, 0,2? Nulla! (Ugyebár... ) És a likelihoodja? L (x) = f X (0,5) f X (2) f X ( 0,2), ahol X N (0, 1) és ezért f X (x) = φ 0,1 (x), ahol φ a normális eloszlás pdf-e Figyelem, ez a szorzat felírás (általában: L (x) = n i=1 f X (x i )) csak fae esetre működik, nyilván

A likelihoodról V. esettanulmány becslése és jellemzése Nézzünk erre egy példát: 3 elemű minta standard normális eloszlásból; mekkora a valószínűsége, hogy a 3 elem 0,5, 2, 0,2? Nulla! (Ugyebár... ) És a likelihoodja? L (x) = f X (0,5) f X (2) f X ( 0,2), ahol X N (0, 1) és ezért f X (x) = φ 0,1 (x), ahol φ a normális eloszlás pdf-e Figyelem, ez a szorzat felírás (általában: L (x) = n i=1 f X (x i )) csak fae esetre működik, nyilván Világos, hogy a 3, 2,8, 3,5 mintának sokkal kisebb a likelihood-ja

A likelihoodról V. esettanulmány becslése és jellemzése Nézzünk erre egy példát: 3 elemű minta standard normális eloszlásból; mekkora a valószínűsége, hogy a 3 elem 0,5, 2, 0,2? Nulla! (Ugyebár... ) És a likelihoodja? L (x) = f X (0,5) f X (2) f X ( 0,2), ahol X N (0, 1) és ezért f X (x) = φ 0,1 (x), ahol φ a normális eloszlás pdf-e Figyelem, ez a szorzat felírás (általában: L (x) = n i=1 f X (x i )) csak fae esetre működik, nyilván Világos, hogy a 3, 2,8, 3,5 mintának sokkal kisebb a likelihood-ja N (3, 1) sokasági eloszlást feltételezve (tehát ha f X (x) = φ 3,1 (x)) akkor persze épp fordítva

Az V. esettanulmány becslése és jellemzése És most fordítsuk meg a logikát: csak a mintát ismerjük, de a sokasági paramétert nem

Az V. esettanulmány becslése és jellemzése És most fordítsuk meg a logikát: csak a mintát ismerjük, de a sokasági paramétert nem Minden sokasági paraméterhez meg tudjuk mondani, hogy fennállása esetén mekkora likelihood-ú, hogy épp azt az adott mintát kapjuk

Az V. esettanulmány becslése és jellemzése És most fordítsuk meg a logikát: csak a mintát ismerjük, de a sokasági paramétert nem Minden sokasági paraméterhez meg tudjuk mondani, hogy fennállása esetén mekkora likelihood-ú, hogy épp azt az adott mintát kapjuk Ha tippelnünk kellene, akkor tippeljük azt, hogy az a sokasági paraméter áll fenn, ami mellett ez a likelihood a maximális! (Totálisan egybevág a józan paraszti ésszel.)

Az V. esettanulmány becslése és jellemzése És most fordítsuk meg a logikát: csak a mintát ismerjük, de a sokasági paramétert nem Minden sokasági paraméterhez meg tudjuk mondani, hogy fennállása esetén mekkora likelihood-ú, hogy épp azt az adott mintát kapjuk Ha tippelnünk kellene, akkor tippeljük azt, hogy az a sokasági paraméter áll fenn, ami mellett ez a likelihood a maximális! (Totálisan egybevág a józan paraszti ésszel.) Ennyi, ez a maximum likelihood (ML) becslés!

LR modell becslése V. esettanulmány becslése és jellemzése Minden α, β-hoz meghatározható a minta (itt: adatbázisunk) likelihood-ja (precízen: adott α, β mellett mekkora likelihood-dal jött volna ki a mintánk)

LR modell becslése V. esettanulmány becslése és jellemzése Minden α, β-hoz meghatározható a minta (itt: adatbázisunk) likelihood-ja (precízen: adott α, β mellett mekkora likelihood-dal jött volna ki a mintánk) Ezt fogjuk α, β-ban maximalizálni

LR modell becslése V. esettanulmány becslése és jellemzése Minden α, β-hoz meghatározható a minta (itt: adatbázisunk) likelihood-ja (precízen: adott α, β mellett mekkora likelihood-dal jött volna ki a mintánk) Ezt fogjuk α, β-ban maximalizálni Kérdés: hogyan kapjuk a minta likelihood-ját?

LR modell becslése V. esettanulmány becslése és jellemzése Minden α, β-hoz meghatározható a minta (itt: adatbázisunk) likelihood-ja (precízen: adott α, β mellett mekkora likelihood-dal jött volna ki a mintánk) Ezt fogjuk α, β-ban maximalizálni Kérdés: hogyan kapjuk a minta likelihood-ját? Annyira nem nehéz, hiszen egy mintaelemre a kijövetelének valószínűsége P X (ha az eredményváltozója 1), Q X (ha eredményváltozója 0), mely P X és Q X értékek kiszámíthatóak α, β-hoz (már láttuk)

LR modell becslése V. esettanulmány becslése és jellemzése Minden α, β-hoz meghatározható a minta (itt: adatbázisunk) likelihood-ja (precízen: adott α, β mellett mekkora likelihood-dal jött volna ki a mintánk) Ezt fogjuk α, β-ban maximalizálni Kérdés: hogyan kapjuk a minta likelihood-ját? Annyira nem nehéz, hiszen egy mintaelemre a kijövetelének valószínűsége P X (ha az eredményváltozója 1), Q X (ha eredményváltozója 0), mely P X és Q X értékek kiszámíthatóak α, β-hoz (már láttuk) Már csak az egész mintára (nem egyes mintaelemekre) kell kiszámítani, itt függetlenség feltételezésével élünk

Az egész minta likelihoodja becslése és jellemzése

A becslési feladat V. esettanulmány becslése és jellemzése Az egész minta likelihood-ja tehát: L (α, β) = P X,i Q X,i Y i =1 Y i =0

A becslési feladat V. esettanulmány becslése és jellemzése Az egész minta likelihood-ja tehát: L (α, β) = Ezzel a megoldandó feladat: P X,i Q X,i Y i =1 Y i =0 max L (α, β) α,β

A becslési feladat V. esettanulmány becslése és jellemzése Az egész minta likelihood-ja tehát: L (α, β) = Ezzel a megoldandó feladat: P X,i Q X,i Y i =1 Y i =0 max L (α, β) α,β E helyett a gyakorlatban inkább a vele ekvivalens min 2 ln L (α, β) α,β feladatot oldjuk meg (nem csak numerikus okokból)

A becslési feladat V. esettanulmány becslése és jellemzése Az egész minta likelihood-ja tehát: L (α, β) = Ezzel a megoldandó feladat: P X,i Q X,i Y i =1 Y i =0 max L (α, β) α,β E helyett a gyakorlatban inkább a vele ekvivalens min 2 ln L (α, β) α,β feladatot oldjuk meg (nem csak numerikus okokból) Ennek megoldása szolgáltatja a LR modell paramétereinek becslését

Elemzés V. esettanulmány becslése és jellemzése Értelmezzük az együtthatókat: odds X+1 odds X = eα+β(x+1) e α+βx = eα+βx+β e α+βx = eα+βx e β e α+βx = eβ

Elemzés V. esettanulmány becslése és jellemzése Értelmezzük az együtthatókat: odds X+1 odds X = eα+β(x+1) e α+βx = eα+βx+β e α+βx = eα+βx e β e α+βx = eβ Ezért az e β -kat is meg szokták adni a programok ( exp. coeff )

Elemzés V. esettanulmány becslése és jellemzése Értelmezzük az együtthatókat: odds X+1 odds X = eα+β(x+1) e α+βx = eα+βx+β e α+βx = eα+βx e β e α+βx = eβ Ezért az e β -kat is meg szokták adni a programok ( exp. coeff ) Marginális hatás: dp X dx j = βp X Q X

Előrejelzés V. esettanulmány becslése és jellemzése Még egy megfontolást kell tenni: csak csődvalószínűséget kaptunk... de az előrejelzésben konkrét kimenet kell! Mikor soroljuk becsődölőbe? Ha ez a valószínűség 0,5-nél nagyobb? 0,1-nél? 0,99-nél...?

Előrejelzés V. esettanulmány becslése és jellemzése Még egy megfontolást kell tenni: csak csődvalószínűséget kaptunk... de az előrejelzésben konkrét kimenet kell! Mikor soroljuk becsődölőbe? Ha ez a valószínűség 0,5-nél nagyobb? 0,1-nél? 0,99-nél...? Jelölje ezt a határt C (cut-off point, cut value): Ŷ = 1 : P X > C

Előrejelzés V. esettanulmány becslése és jellemzése Még egy megfontolást kell tenni: csak csődvalószínűséget kaptunk... de az előrejelzésben konkrét kimenet kell! Mikor soroljuk becsődölőbe? Ha ez a valószínűség 0,5-nél nagyobb? 0,1-nél? 0,99-nél...? Jelölje ezt a határt C (cut-off point, cut value): Ŷ = 1 : P X > C Ekkor különböző C-khez különböző konkrét klasszifikációk

C hatása a klasszifikációra becslése és jellemzése

A klasszifikáció jóságának mérése becslése és jellemzése Legalapvetőbb eszköz a klasszifikációs mátrix: Pred Y 1 0 Obs. Y 1 6 1 0 5 38

A klasszifikáció jóságának mérése becslése és jellemzése Legalapvetőbb eszköz a klasszifikációs mátrix: Pred Y 1 0 Obs. Y 1 6 1 0 5 38 Főátlóban a helyes osztályozások, ezek aránya a helyes osztályozási ráta (itt 6+38 6+1+5+38 = 0,88)

A klasszifikáció jóságának mérése becslése és jellemzése Legalapvetőbb eszköz a klasszifikációs mátrix: Pred Y 1 0 Obs. Y 1 6 1 0 5 38 Főátlóban a helyes osztályozások, ezek aránya a helyes osztályozási ráta (itt 6+38 6+1+5+38 = 0,88) Mellékátlóban: első- és másodfajú hibák (specificitás, szenzitivitás)

A klasszifikáció jóságának mérése becslése és jellemzése Legalapvetőbb eszköz a klasszifikációs mátrix: Pred Y 1 0 Obs. Y 1 6 1 0 5 38 Főátlóban a helyes osztályozások, ezek aránya a helyes osztályozási ráta (itt 6+38 6+1+5+38 = 0,88) Mellékátlóban: első- és másodfajú hibák (specificitás, szenzitivitás) Gondoljuk végig, hogyan változik ezek aránya C növelésére, ill. csökkentésére

becslése és jellemzése C megválasztása a klasszifikációs mátrix alapján Ha tudjuk, hogy az egyes hibák milyen költséget jelentenek, akkor analitikusan választhatunk optimális C-t

becslése és jellemzése C megválasztása a klasszifikációs mátrix alapján Ha tudjuk, hogy az egyes hibák milyen költséget jelentenek, akkor analitikusan választhatunk optimális C-t Veszteség-mátrix: 0 1 1 0 1 0 0,2-0,2

becslése és jellemzése C megválasztása a klasszifikációs mátrix alapján Ha tudjuk, hogy az egyes hibák milyen költséget jelentenek, akkor analitikusan választhatunk optimális C-t Veszteség-mátrix: 0 1 1 0 1 0 0,2-0,2 Ezzel az előző klasszifikációs mátrix költsége: 6 0 + 1 1 + 5 0,2 + 38 ( 0,2) = 5,6

becslése és jellemzése C megválasztása a klasszifikációs mátrix alapján Ha tudjuk, hogy az egyes hibák milyen költséget jelentenek, akkor analitikusan választhatunk optimális C-t Veszteség-mátrix: 0 1 1 0 1 0 0,2-0,2 Ezzel az előző klasszifikációs mátrix költsége: 6 0 + 1 1 + 5 0,2 + 38 ( 0,2) = 5,6 Azt a C-t választjuk, aminél ez minimális!

becslése és jellemzése C megválasztása a klasszifikációs mátrix alapján Ha tudjuk, hogy az egyes hibák milyen költséget jelentenek, akkor analitikusan választhatunk optimális C-t Veszteség-mátrix: 0 1 1 0 1 0 0,2-0,2 Ezzel az előző klasszifikációs mátrix költsége: 6 0 + 1 1 + 5 0,2 + 38 ( 0,2) = 5,6 Azt a C-t választjuk, aminél ez minimális! (Ez nem becslési feladat)

Modelljellemzés pszeudo-r 2 mutatóval becslése és jellemzése Az OLS-nél látott R 2 -hez hasonló elvű ( hol járunk az úton? ) mutató szeretnénk LR-re is

Modelljellemzés pszeudo-r 2 mutatóval becslése és jellemzése Az OLS-nél látott R 2 -hez hasonló elvű ( hol járunk az úton? ) mutató szeretnénk LR-re is Az ESS helyett itt a 2 ln L jellemzi a modellt

Modelljellemzés pszeudo-r 2 mutatóval becslése és jellemzése Az OLS-nél látott R 2 -hez hasonló elvű ( hol járunk az úton? ) mutató szeretnénk LR-re is Az ESS helyett itt a 2 ln L jellemzi a modellt Mi a tökéletes modell? P X = 1 ha Y = 1 és Q X = 1 ha Y = 0 mennyi ennek a likelihoodja?

Modelljellemzés pszeudo-r 2 mutatóval becslése és jellemzése Az OLS-nél látott R 2 -hez hasonló elvű ( hol járunk az úton? ) mutató szeretnénk LR-re is Az ESS helyett itt a 2 ln L jellemzi a modellt Mi a tökéletes modell? P X = 1 ha Y = 1 és Q X = 1 ha Y = 0 mennyi ennek a likelihoodja? Épp 1, 2 ln L = 0

Modelljellemzés pszeudo-r 2 mutatóval becslése és jellemzése Az OLS-nél látott R 2 -hez hasonló elvű ( hol járunk az úton? ) mutató szeretnénk LR-re is Az ESS helyett itt a 2 ln L jellemzi a modellt Mi a tökéletes modell? P X = 1 ha Y = 1 és Q X = 1 ha Y = 0 mennyi ennek a likelihoodja? Épp 1, 2 ln L = 0 Az üres semmilyen magyarázó változót nem tartalmazó modell 2 ln L-je analitikusan meghatározható (analóg a helyzet az OLS-sel)

Modelljellemzés pszeudo-r 2 mutatóval becslése és jellemzése Az OLS-nél látott R 2 -hez hasonló elvű ( hol járunk az úton? ) mutató szeretnénk LR-re is Az ESS helyett itt a 2 ln L jellemzi a modellt Mi a tökéletes modell? P X = 1 ha Y = 1 és Q X = 1 ha Y = 0 mennyi ennek a likelihoodja? Épp 1, 2 ln L = 0 Az üres semmilyen magyarázó változót nem tartalmazó modell 2 ln L-je analitikusan meghatározható (analóg a helyzet az OLS-sel) Az alapján a McFadden-féle pszeudo-r 2 : R 2 = ( 2 ln L null) ( 2 ln L targy ) 2 ln L null

Modellszelekció V. esettanulmány becslése és jellemzése Nested modellszelekció, H 0 : β q+1 = β q+2 =... = β q+m = 0

Modellszelekció V. esettanulmány becslése és jellemzése Nested modellszelekció, H 0 : β q+1 = β q+2 =... = β q+m = 0 Ha nagy mintánk van, akkor rendkívül kényelmesen vizsgálható egy új próbakészítési elvvel, az ún. likelihood-hányados (LR) elven konstruált teszttel: ( 2 ln L ) H0 ( 2 ln L ) H1 χ 2 m

Modellszelekció V. esettanulmány becslése és jellemzése Nested modellszelekció, H 0 : β q+1 = β q+2 =... = β q+m = 0 Ha nagy mintánk van, akkor rendkívül kényelmesen vizsgálható egy új próbakészítési elvvel, az ún. likelihood-hányados (LR) elven konstruált teszttel: ( 2 ln L ) H0 ( 2 ln L ) H1 χ 2 m Üres modelltől való szignifikáns különbözés tesztelése: függetlenségvizsgálat (szeretjük a H 1 -et)

Modellszelekció V. esettanulmány becslése és jellemzése Nested modellszelekció, H 0 : β q+1 = β q+2 =... = β q+m = 0 Ha nagy mintánk van, akkor rendkívül kényelmesen vizsgálható egy új próbakészítési elvvel, az ún. likelihood-hányados (LR) elven konstruált teszttel: ( 2 ln L ) H0 ( 2 ln L ) H1 χ 2 m Üres modelltől való szignifikáns különbözés tesztelése: függetlenségvizsgálat (szeretjük a H 1 -et) Szaturált modelltől van szignifikáns különbözés tesztelése: illeszkedésvizsgálat (szeretjük a H 0 -t)