Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék



Hasonló dokumentumok
Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

6. előadás - Regressziószámítás II.

Többváltozós lineáris regresszió 3.

A többváltozós lineáris regresszió III. Főkomponens-analízis

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezetés az ökonometriába

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezetés az ökonometriába

Logisztikus regresszió

Logisztikus regresszió október 27.

Logisztikus regresszió

A maximum likelihood becslésről

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Bevezetés az ökonometriába

(Independence, dependence, random variables)

Regressziós vizsgálatok

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Least Squares becslés

Heckman modell. Szelekciós modellek alkalmazásai.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Dualitás Dualitási tételek Általános LP feladat Komplementáris lazaság 2017/ Szegedi Tudományegyetem Informatikai Intézet

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

[Biomatematika 2] Orvosi biometria

Matematikai statisztikai elemzések 6.

Lineáris regressziós modellek 1

Lineáris regressziószámítás 1. - kétváltozós eset

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Adatok statisztikai értékelésének főbb lehetőségei

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Nemlineáris modellek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Matematikai geodéziai számítások 6.

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Loss Distribution Approach

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai geodéziai számítások 6.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

A Statisztika alapjai

6. Előadás. Vereb György, DE OEC BSI, október 12.

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Foglalkoztatási modul

Mesterséges Intelligencia I.

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Bevezetés a hipotézisvizsgálatokba

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Diagnosztika és előrejelzés

Segítség az outputok értelmezéséhez

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

A leíró statisztikák

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Mérési hibák

5. előadás - Regressziószámítás

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

egyetemi jegyzet Meskó Balázs

Több valószínűségi változó együttes eloszlása, korreláció

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Valószínűségi változók. Várható érték és szórás

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

y ij = µ + α i + e ij

KÖVETKEZTETŐ STATISZTIKA

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

[Biomatematika 2] Orvosi biometria

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Diszkrét, egészértékű és 0/1 LP feladatok

Lineáris regresszió vizsgálata resampling eljárással

11. Matematikai statisztika

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Kutatásmódszertan és prezentációkészítés

I. LABOR -Mesterséges neuron

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Többváltozós lineáris regressziós modell feltételeinek

Mesterséges Intelligencia MI

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

Mesterséges Intelligencia MI

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Átírás:

Ferenci Tamás 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Nyolcadik fejezet

Tartalom V. esettanulmány 1 V. esettanulmány Csődelőrejelzés 2 Általános gondolatok 3 becslése és jellemzése

Csődelőrejelzés Csődmodellezési adatbázis Mérlegadataikkal adott cégek alkotják a mintánkat feladat megmondani, hogy melyik fog valamilyen vizsgált időhorizonton belül csődbe menni A demonstráció kedvéért egyszerűsítünk: a mérlegadat csak két (fiktív) változót jelent: nyereség és adósság Mindkettő kis egész szám, jelzi a megfelelő (nyilván fiktív) jellemzőt Eredményváltozó: csődbe ment-e a cég ténylegesen (ugye a mintában lévő megfigyelési egységekre ismerjük az eredményváltozó tényleges értékét ez itt múltbeli) Súlyozott adatbázis, n = 50 összesen (A gyakorlaton valós mérlegadatokkal fogunk dolgozni, ez most szemléltető)

Az adatbázis madártávlatból Csődelőrejelzés

Általános gondolatok Az osztályozási feladat Kvalitatív változó eredményváltozó pozíciójában Itt a feladat tehát egy csődbe megy-e vagy sem jellegű változó modellezése Ez bináris változó mint az eddig tárgyalt dummy változók, csak ezúttal eredményváltozóként Jelent ez módosulást? (Hiszen például magyarázó változóként mindegy volt, hogy egy változó bináris, az OLS-t nem zavarta, hogy történetesen csak 0 és 1 értékeket vesz csak fel) Most drasztikusan más a helyzet: Y nem modellezhető OLS-sel

OLS és a bináris eredményváltozó Általános gondolatok Az osztályozási feladat Matematikai részletekbe nem megyünk bele Intuitíve: gondoljatok arra, hogy az OLS elvileg bármilyen értéket becsülhet és között egy ilyen hogyan lenne értelmezhető egy csődbe megy-e vagy sem kérdés válaszaként?! De: mégis lineáris struktúrában fogjuk megoldani a problémát... csak trükkösebben alkalmazzuk: bináris Y helyett egy transzformált változóra

A mostani feladat általánosabban Általános gondolatok Az osztályozási feladat Tegyük fel, hogy elkészült a bináris Y -ra adott modellünk, és azt előrejelzésre használjuk Vegyük észre, hogy az Y szerinti érték egyfajta csoporttagságot jelent: becsődölő, működő Az előrejelzés ebben a kontextusban lényegében besorolás egy csoportba! Tehát mégegyszer: a megfigyelési egység két csoport valamelyikébe tartozik, mi a csoporttagságával összefüggő adatok alapján tippeljük meg a csoporttagságot Ezt a feladatot általában osztályozásnak (klasszifikáció) nevezik

Az osztályozási feladat Általános gondolatok Az osztályozási feladat A klasszifikáció hatalmas gyakorlati jelentőségű feladat: melyik cég megy csődbe (a mérlegadatai alapján), melyik beteg fog meghalni (a laboreredmények alapján), melyik család vállal 2-nél több gyereket (demográfiai adatok alapján), kit vesznek fel adott munkahelyre (egyéni jellemzők alapján) stb. stb. Ennek legelemibb eszközét fogjuk most tárgyalni Ezen kívül könyvtárnyi további módszer van, melyek a gépi tanulás, még általánosabban a mesterséges intelligencia területéhez tartoznak (az adatbányászat is gyakran vizsgál ilyen problémákat)

A feladat átalakítása becslése és jellemzése Hogy a kérdést a magyarázó változók lineáris kombinációjával tudjuk kezelni, áttérünk más változóra Az egységes terminológia kedvéért az Y = 1 kimenetetet siker -nek, az Y = 0-t kudarc -nak nevezzük Először is: nem a siker Y tényét, hanem annak P X feltételes valószínűségét fogjuk modellezni Az alsó index értelme: a siker valószínűsége, feltéve, hogy a magyarázó változók X értékűek (Most inkább csak jelölési egyszerűsítésként egy magyarázó változót feltételezünk, többre teljesen hasonlóan minta X vektor lenne) Azaz precízen: P X = P (Y = 1 X) Ezzel a {0, 1} változó helyett egy [0, 1]-on lévőt kell modellezni

A feladat további átalakítása becslése és jellemzése Ez persze még mindig kevés, ezért újabb transzformációt alkalmazunk Odds (esélyhányados): a siker valószínűsége a kudarc valószínűségéhez viszonyítva A kudarc feltételes valószínűségét jelöljük Q X = 1 P X -szel Ekkor odds X = P X = P X Q X 1 P X És fordítva (megoldva ezt P X -re): P X = P X 1 = P X (1 P X ) + P X = = P X /Q X 1 + P X /Q X = odds X 1 + odds X P X Q X + P X =

És még egy átalakítás becslése és jellemzése Az odds már a [0, ) intervallumon van Majdnem jó, egy utolsó trükk: bevezetjük a logit fogalmát, mint log-odds: logit X = ln odds X És ez már a (, )-n van (és szimmetrikusabbá is tettük a siker és kudarc eloszlását rajta)! Na, ezt fogjuk lineáris struktúrával modellezni! logit X = α + βx A módszer neve: logit regresszió, vagy logisztikus regresszió

A logisztikus regresszió visszafejtése becslése és jellemzése Játszuk el mindezt visszafelé, feltéve, hogy α és β már ismert: logit X = α + βx odds X = e α+βx P X = eα+βx 1 + e α+βx... tehát α és β ismeretében egyszerű algebrai műveletekkel kapjuk a siker valószínűségeit És az utolsó lépés: hogy becsüljük α-t és β-t (ill. általában β-kat)? Sajnos az OLS ahogy már mondtuk nem jó, új módszer kell: maximum likelihood (ML) becslés

Pár szó általában az ről becslése és jellemzése Legegyszerűbb eset: egyetlen sokasági paraméter becslése mintából (pl. sokasági várhatóérték) Alapötlet: ha tudnánk, hogy mennyi a sokasági paraméter értéke, meg tudnánk mondani minden egyes mintára, hogy mekkora valószínűséggel kapjuk épp azt a mintát véletlen mintavétel eredményeképp Mit jelent az, hogy mekkora valószínűséggel kapjuk a mintát? legegyszerűbb függetlenség feltételezésével: ekkor a konkrét (kezünkben lévő) minta megkapásának valószínűsége az egyes mintaelemek megkapásának valószínűségeinek szorzata Például, ha 3 elemű x mintát veszünk, melyek elemei 0,5, 2, 0,2, akkor P (X = x) = P (X 1 = 0,5) P (X 2 = 2) P (X 3 = 0,2)

Pár szó általában az ről becslése és jellemzése Ennyi pontosítás után rendben vagyunk, gondolhatnánk, hiszen ha ismernénk a sokasági paraméter értékét (az egyetlen dolgot, ami ismeretlen volt!), akkor azt valóban meg tudnánk mondani, hogy mekkora valószínűséggel kapunk egy adott elemet De valójában a kérdés így pontatlan: folytonos sokaság esetén minden mintaelem valószínűsége nulla (P (X = x) = 0, pl. P (X 1 = 0,5) = 0 a pdf folytonossági pontjában!) Ötlet: ne is törődjünk ezzel az apró bökkenővel, használjuk akkor is a sűrűségfüggvény helyettesítési értékét a valószínűség gyanánt (intuitív indoklás: a pont, pl. itt a 0,5 kis környezetébe esés valószínűsége arányos ezzel az értékkel) Itt már a valószínűséget idézőjelbe kellett tennünk (a pdf helyettesítési értéke nem valószínűség, pl. simán lehet 1-nél nagyobb is!), ezért inkább új szót használunk rá: likelihood

A likelihoodról V. esettanulmány becslése és jellemzése Nézzünk erre egy példát: 3 elemű minta standard normális eloszlásból; mekkora a valószínűsége, hogy a 3 elem 0,5, 2, 0,2? Nulla! (Ugyebár... ) És a likelihoodja? L (x) = f X (0,5) f X (2) f X ( 0,2), ahol X N (0, 1) és ezért f X (x) = φ 0,1 (x), ahol φ a normális eloszlás pdf-e Figyelem, ez a szorzat felírás (általában: L (x) = n i=1 f X (x i )) csak fae esetre működik, nyilván Világos, hogy a 3, 2,8, 3,5 mintának sokkal kisebb a likelihood-ja N (3, 1) sokasági eloszlást feltételezve (tehát ha f X (x) = φ 3,1 (x)) akkor persze épp fordítva

Az V. esettanulmány becslése és jellemzése És most fordítsuk meg a logikát: csak a mintát ismerjük, de a sokasági paramétert nem Minden sokasági paraméterhez meg tudjuk mondani, hogy fennállása esetén mekkora likelihood-ú, hogy épp azt az adott mintát kapjuk Ha tippelnünk kellene, akkor tippeljük azt, hogy az a sokasági paraméter áll fenn, ami mellett ez a likelihood a maximális! (Totálisan egybevág a józan paraszti ésszel.) Ennyi, ez a maximum likelihood (ML) becslés!

LR modell becslése V. esettanulmány becslése és jellemzése Minden α, β-hoz meghatározható a minta (itt: adatbázisunk) likelihood-ja (precízen: adott α, β mellett mekkora likelihood-dal jött volna ki a mintánk) Ezt fogjuk α, β-ban maximalizálni Kérdés: hogyan kapjuk a minta likelihood-ját? Annyira nem nehéz, hiszen egy mintaelemre a kijövetelének valószínűsége P X (ha az eredményváltozója 1), Q X (ha eredményváltozója 0), mely P X és Q X értékek kiszámíthatóak α, β-hoz (már láttuk) Már csak az egész mintára (nem egyes mintaelemekre) kell kiszámítani, itt függetlenség feltételezésével élünk

Az egész minta likelihoodja becslése és jellemzése

A becslési feladat V. esettanulmány becslése és jellemzése Az egész minta likelihood-ja tehát: L (α, β) = Ezzel a megoldandó feladat: P X,i Q X,i Y i =1 Y i =0 max L (α, β) α,β E helyett a gyakorlatban inkább a vele ekvivalens min 2 ln L (α, β) α,β feladatot oldjuk meg (nem csak numerikus okokból) Ennek megoldása szolgáltatja a LR modell paramétereinek becslését

Elemzés V. esettanulmány becslése és jellemzése Értelmezzük az együtthatókat: odds X+1 odds X = eα+β(x+1) e α+βx = eα+βx+β e α+βx = eα+βx e β e α+βx = eβ Ezért az e β -kat is meg szokták adni a programok ( exp. coeff ) Marginális hatás: dp X dx j = βp X Q X

Előrejelzés V. esettanulmány becslése és jellemzése Még egy megfontolást kell tenni: csak csődvalószínűséget kaptunk... de az előrejelzésben konkrét kimenet kell! Mikor soroljuk becsődölőbe? Ha ez a valószínűség 0,5-nél nagyobb? 0,1-nél? 0,99-nél...? Jelölje ezt a határt C (cut-off point, cut value): Ŷ = 1 : P X > C Ekkor különböző C-khez különböző konkrét klasszifikációk

C hatása a klasszifikációra becslése és jellemzése

A klasszifikáció jóságának mérése becslése és jellemzése Legalapvetőbb eszköz a klasszifikációs mátrix: Pred Y 1 0 Obs. Y 1 6 1 0 5 38 Főátlóban a helyes osztályozások, ezek aránya a helyes osztályozási ráta (itt 6+38 6+1+5+38 = 0,88) Mellékátlóban: első- és másodfajú hibák (specificitás, szenzitivitás) Gondoljuk végig, hogyan változik ezek aránya C növelésére, ill. csökkentésére

becslése és jellemzése C megválasztása a klasszifikációs mátrix alapján Ha tudjuk, hogy az egyes hibák milyen költséget jelentenek, akkor analitikusan választhatunk optimális C-t Veszteség-mátrix: 0 1 1 0 1 0 0,2-0,2 Ezzel az előző klasszifikációs mátrix költsége: 6 0 + 1 1 + 5 0,2 + 38 ( 0,2) = 5,6 Azt a C-t választjuk, aminél ez minimális! (Ez nem becslési feladat)

Modelljellemzés pszeudo-r 2 mutatóval becslése és jellemzése Az OLS-nél látott R 2 -hez hasonló elvű ( hol járunk az úton? ) mutató szeretnénk LR-re is Az ESS helyett itt a 2 ln L jellemzi a modellt Mi a tökéletes modell? P X = 1 ha Y = 1 és Q X = 1 ha Y = 0 mennyi ennek a likelihoodja? Épp 1, 2 ln L = 0 Az üres semmilyen magyarázó változót nem tartalmazó modell 2 ln L-je analitikusan meghatározható (analóg a helyzet az OLS-sel) Az alapján a McFadden-féle pszeudo-r 2 : R 2 = ( 2 ln L null) ( 2 ln L targy ) 2 ln L null

Modellszelekció V. esettanulmány becslése és jellemzése Nested modellszelekció, H 0 : β q+1 = β q+2 =... = β q+m = 0 Ha nagy mintánk van, akkor rendkívül kényelmesen vizsgálható egy új próbakészítési elvvel, az ún. likelihood-hányados (LR) elven konstruált teszttel: ( 2 ln L ) H0 ( 2 ln L ) H1 χ 2 m Üres modelltől való szignifikáns különbözés tesztelése: függetlenségvizsgálat (szeretjük a H 1 -et) Szaturált modelltől van szignifikáns különbözés tesztelése: illeszkedésvizsgálat (szeretjük a H 0 -t)