Regression games and applications TDK prezentáció Budapesti Corvinus Egyetem
Áttekintés Bevezetés Regressziós játékok és alkalmazásaik Autoregresszív játékok G N AR Abszolút eltérés regressziós játékok G N LAD Bináris kimenetű regressziós játékok G N BR Összefoglalás
Bevezetés A célunk regressziós modell illeszkedésének felbontása a magyarázó változók között Releváns, ha a prediktorok korreláltak Lehetséges megoldások: 1. Parciális illeszkedés 2. Egyváltozós illeszkedés 3. Standardizált β értékek 4. Szekvenciális négyzetösszegek 5. Arányos marginális variancia felbontás (PMVD) A Shapley-érték alkalmazható-e illeszkedés felbontásra egyes általánosított lineáris regressziós modellek esetében? Vannak-e előnyös tulajdonságai más mutatókkal szemben?
Kooperatív játékok 1. Definíció Legyen N játékosok véges halmaza, és legyen v : P(N) R egy olyan függvény, hogy v( ) = 0, ahol P(N) az N halmaz hatványhalmaza. Ekkor a v-t karakterisztikus függvénnyel adott, átruházható hasznosságú (TU) játéknak nevezzük. 2. Definíció A v G N játékon, legyen v (S) = v(s {i}) v(s), az v (S) az i játékos határhozzájárulása az S koalícióhoz a v játékban, ahol i N, S P(N). Továbbá bármely i N-re legyen S! ( N S 1)! DSh i (S) =, ha i / S N! 0 különben egy valószínűségi eloszlás P(N)-n. Ekkor az i játékos Shapley-értéke (Shapley, 1953) a v játékban az alábbi: Sh i (v) = v (S)DSh i (S) (1) S P(N)
A regressziós játékok az irodalomban 1. Averaging-over-orders (Kruskal, 1987) 2. Axiomatizácó hiánya (Feldman, 2000; Lipovetsky, Conklin, 2001, 2005) 3. Általánosított lineáris regressziós megközelítés (Lipovetsky, Conklin, 2004; Huettner, Sunder, 2012) 4. Axiomatikus megközelítés (Pintér, 2006, 2007) 5. Kritikai megközelítés (Grömping, 2007)
Lineáris regressziós játékok G N LR 3. Definíció Legyen N = {ξ 1,..., ξ n } az n magyarázó változóból képzett játékos halmaz. Legyen N a legbővebb modell, amely n magyarázóváltozót tartalmaz. Vizsgáljuk meg a következő optimalizációs problémát: ( var(η) var η ) β i ξ i max (2) i S ft.h. β i, R, i S 4. Definíció Legyen η a függő változó, és ξ 1,..., ξ n a magyarázó változók halmaza. Bármely S P(N)-re, legyen v(s) az (2) probléma megoldása. A v függvény egy TU játék.
A Shapley-érték mint relatív fontossági mutató Egy illeszkedési mutató felbontásának relatív fontossági mutatónak (Grömping, 2007) szerint teljesítenie kell az alábbiakat: 1. Teljes felbontás Proper decomposition 2. Nem negatív részesedés Non negativity 3. Kizárás Exclusion 4. Belefoglalás Inclusion A Shapley-érték pusztán az axiomatizáció miatt tartja a (Grömping, 2007) által elvárt 1., 2. és 4. tulajdonságot mindig. A 3. elvárt tulajdonság azonban nem fontos valójában - gyakorlatban hiba elvárni. 5. Definíció A továbbiakban az feltételezzük, hogy a valószínűségi változóink ξ : N R függvények, amelyek ismertek nem becsüljük őket.
Autoregresszív játékok 6. Definíció Legyen N = {ξ 1,..., ξ n, η 1,..., η k } az n + k magyarázó változóból képzett játékos halmaz. Legyen N a legbővebb modell, amely n + k magyarázóváltozót tartalmaz. Vizsgáljuk meg a következő optimalizációs problémát: var(η) var η β i ξ i φ j η j max (3) i S j S ft.h. β i, φ j R, i, j S 7. Definíció Legyen η a függő változó, és ξ 1,..., ξ n, η 1,..., η k a magyarázott változó. Bármely S P(N)-re, legyen v(s) az (3) probléma megoldása. A v függvény egy TU játék.
Shapley-érték alapú modell szelekció Prediktorok választása Kifizetés vektor számítása Shapley-érték számítás Relatív fontossági rendezés Nagy koalíció kifizetése változatlan Legkevésbé fontos változó elhagyása Nagy koalíció kifizetése csökken Elhagyott változó visszavétele Nagy koalíció kifizetése mindenképpen csökken Modell azonosítva 1. ábra. Shapley-érték alapú modell szelekciós algoritmus
Az algoritmus alkalmazása Adott egy autoregresszív folyamat, az első 7 késleltetéshez tartozó korrelációs mátrix: η 1 0.51 0.88 0.52 0.87 0.51 0.81 0.51 η 1 0.51 1 0.51 0.88 0.52 0.87 0.51 0.81 η 2 0.88 0.51 1 0.51 0.88 0.52 0.87 0.51 η C = 3 0.52 0.88 0.51 1 0.51 0.88 0.52 0.87 η 4 0.87 0.52 0.88 0.51 1 0.51 0.88 0.52 η 5 0.51 0.87 0.52 0.88 0.51 1 0.51 0.88 η 6 0.81 0.51 0.87 0.52 0.88 0.51 1 0.51 η 7 0.51 0.81 0.51 0.87 0.52 0.88 0.51 1 Az adatgeneráló folyamat: η = β 0 + φ 2 η 2 + φ 3 η 3 + φ 4 η 4 + ε, ε WN(µ, σ) A szimulációs paraméterek: β 0 = 5 φ 2 = 0.5 φ 3 = 0.05 φ 4 = 0.4 µ = 0 σ = 2
Abszolút eltérés (LAD) regressziós játékok G N LAD 8. Definíció Legyen N = {ξ 1,..., ξ n } az n magyarázó változóból képzett játékos halmaz. Legyen N a legbővebb modell, amely n magyarázóváltozót tartalmaz. Vizsgáljuk meg a következő optimalizációs problémát: ( E ( η ) E η ) β i ξ i max (4) i S ft.h. β i R, i S 9. Definíció Legyen η a függő változó, és ξ 1,..., ξ n a magyarázó változók halmaza. Bármely S P(N)-re, legyen v(s) az (4) probléma megoldása. A v függvény egy TU játék.
Bináris kimenetű regressziós játékok G N BR Adott az alábbi regressziós modell: η = β 0 + n β i ξ i (5) Az η egy látens valószínűségi változó.(maddala, 1999), és ξ i, i = 1,..., n a magyarázó változók. A hibát így definiájuk: n ε η β 0 + β i ξ i (6) i=1 i=1 Az alábbi kikötéseket tesszük: { 1, ha η η = > 0 0 különben Azt is feltételezzük, hogy a maradék eloszlása szimmetrikus (Wooldridge, 2012). (7)
A (7) azonosság alapján a feltételes valószínűség az η = 1 esetre egy rögzített változó halmaz mellett: P(η = 1) = P(η > 0) Ez a (5) és (6) egyenlet alapján ennyit jelent: ( ) n P(η = 1) = P β 0 + β i ξ i + ε > 0 10. Definíció Legyen N = {ξ 1,..., ξ n } az n magyarázó változóból képzett játékos halmaz. Legyen N a legbővebb modell, amely n magyarázóváltozót tartalmaz. Vizsgáljuk meg a következő optimalizációs problémát: P(η = 1) P(η = 0) max (8) i=1 ft.h. β i R, i S 11. Definíció Bármely S P(N) esetén, legyen v(s) a (8) probléma optimális célfüggvény értéke. A v függvény egy TU játék.
Hozzájárulások A hozzájárulások így foglalhatóak össze: 1. Egységes keretrendszer regressziós játékok osztályainak bevezetése 1.1 Autoregresszív játékok 1.2 LAD játékok 1.3 Bináris kimenetű játékok 2. Shapley-érték alapú szelekciós algoritmus 3. Lineáris regressziós játékok MATLAB implementációi
Továbblépési lehetőségek 1. Más megoldáskoncepciók alkalmazása 2. Általánosított nemlineáris modellek vizsgálata 3. Strukturális törések és interakciók tesztelése 4. Becsléselméleti axiomatizáció 5. Idősori autoregressziós szelekció MATLAB implementációja
Köszönöm a figyelmet!
Felhasznált irodalom I Michael Feldman. The Proportional Value of a Cooperative Game. In Manuscript for a contributed paper at the Econometric Society World Congress, 2000. Ulriche Grömping. Estimators of Relative Importance in Linear Regression Based on Variance Decomposition. The American Statistician, 61:139 146, 2007. Frank Huettner, Marco Sunder. Axiomatic Argument for Decomposing the Goodness of Fit According to Shapley and Owen values. Electronic Journal of Statistics, 6:1239 1250, 2012. William Kruskal. Relative Importance by Averaging Over Orderings. The American Statistician, 41:6 10, 1987.
Felhasznált irodalom II Stan Lipovetsky, Michael Conklin. Analysis of Regression in Game Theory Approach. Applied Stochastic Models in Business and Industry, 17:319 330, 2001. Stan Lipovetsky, Michael Conklin. Decision Making by Variable Contribution in Discriminant, Logit, and Regression Analyses. Internation Journal of Information Technology and Decision Making, 3:265 279, 2004. Stan Lipovetsky, Michael Conklin. Incremental Net Effects in Multiple Regression. International Journal of Mathematical Education in Science and Technology, 36(4):361 373, 2005. Kameswari (G.S.) Maddala. Introduction to Econometrics. Wiley and sons, 1999. Miklós Pintér. A regressziós játékok alkalmazása modellszelekcióra. 2006.
Felhasznált irodalom III Miklós Pintér. Regressziós játékok. Szigma, 38(4):131 148, 2007. Lloyd Shapley. A Value for n-person Games. Contributions to the Theory of Games Volume II, 28:307 317, 1953. Jeffrey Wooldridge. Introductory Econometrics: A Modern Approach. Cengage Learning, 2012.