INVERZ FERTŐZÉSI PROBLÉMA Bóta András SZTE, Informatika Pluhár András SZTE, Informatika
Tartalom Fertőzési modellek Domingos-Richardson (kaszkád) modell Általánosított Kaszkád modell Inverz fertőzési probléma Particle Swarm optimalizálás Pénzügyi alkalmazás
Eredet Epidemiológia SI, SIR, SIRS, Szociológia Linear Threshold (Granovetter, 1978) Gazdaságtan Independent Cascade Model (Domingos-Richardson, 2001) Generalized Cascade Model (Bóta et al., 2011)
Fertőzési modellek Input G(V, E) gráf Egy e él súlya w e 0 w e 1 Kezdetben fertőzöttek A 0 Output A t időpontban fertőzöttek A t Iteráció Állapotok Susceptible (veszélyeztetett) Infected (fertőzött) Recovered (gyógyult)
Független kaszkád (D-S) modell Minden iterációban, amíg A t Az újonnan aktivált pontok halmaza: A i Minden v A i megfertőzi az inaktív u pontot w u,v valószínűséggel Ha ez sikeres, az u fertőzött lesz az i + 1 iterációban
Általánosított kaszkád modell Kezdeti fertőzés A priori eloszlás Fertőzött pontok A poszteriori eloszlás Az eloszlás forrása Lemorzsolódás (churn) valószínűség Kredit default valószínűség gyakoriságok Fertőzési folyamat Független kaszkád modell Ha adott a G súlyozott gráf és a p v a priori eloszlás minden v V (G), a modell megadja a p v a posteriori fertőzési eloszlást minden v V (G).
A fertőzési modellek alkalmazása Fertőzés maximalizálás probléma Találjunk olyan k elemű kezdő halmazt, amely a legnagyobb várható fertőzést okozza (adott k -ra) NP-nehéz (Kempe-Kleinberg-Tardos, 2003) Fertőzési valószínűségek kiszámítása Adott kezdeti fertőzés esetén, számoljuk ki egy tetszőleges v V G pont fertőződésének a valószínűségét. #P-teljes (Chen et al., 2009) Inverz fertőzési probléma Honnan vegyük a w e értékeket?
Inverz fertőzési probléma Ha adott a G gráf, a p v és p v a priori és a poszteriori eloszlások, számoljuk ki az ezt eredményező w e él fertőzési valószínűségeket, e E G. Feltételek (egyszerűsítések) Az éleknek attribútumai vannak w e az attribútumok függvénye Csak a függvények paramétereit becsüljük Attribútum függvények Polinomok Normalizálás
Inverz fertőzési probléma Becslés A poszteriori eloszlás a referencia halmaz Véletlen kezdeti paraméterekből indulunk A GC modellt futtatjuk ismételten Minimalizáljuk a referencia halmaz és az aktuális fertőzés eltérését Heurisztikák az IC/GC modellekre DAG, LDAG (Chen et al., 2011) CompleteSim, EdgeSim, NBH, ALE (Bóta et al., 2012)
Particle Swarm optimalizálás Hiba felület A dimenziók száma 1 és 20 között A heurisztikától függő zaj Alul determinált probléma: hegyek/völgyek Fully Informed Particle Swarm (Kennedy-Mendes, 2006) A részecskéknek van pozíciója (paraméterek) sebessége Egymással környezet definícióknak megfelelően hatnak kölcsön A pozíciók és sebességek szinkronban változnak minden iterációban
Input Network OTP Bank Plc. Corporate (B2B) tranzakciós adatbázis A tranzakciók (utalások) havi összegzése Időszak: 2012 április és 2013 március között Bizonyos összegkorlát felett Bizonyos gyakoriság felett A priori fertőzés Az ügyfél defaultba került 2013 január és március között A poszteriori fertőzés Az ügyfél defaultba került 2013 április és június között
Attribútumok 1. Az utalások száma 2. Az átutalt összeg 3. Az ügyfélhez befolyó teljes összeg 4. Közösségi információ: az adott él egy közösség belső éle-e (bináris változó) 5. Relatív forgalom, az él forgalma osztva a pontba befolyó összeggel 6. A cég kora 7. Esetleges sorban állás (követelés) a számlán 8. Hitelkeret túllépés 9. A megrendelő önkormányzat-e vagy sem (bináris)
Tapasztalatok A becslés leghatékonyabb a legrosszabb ügyfelekre TOP % default rate average default rate Constant weights NBH ES CS TOP 1% 0,79 7,77 7,82 8,09 TOP 3% 2,17 8,51 8,77 8,46 TOP 5% 2,89 7,97 7,97 7,74 TOP 10% 3,16 4,97 4,99 4,92 Other measurements AUC 65,39% 72,40% 72,49% 71,6% AUC (lower bound) 62,97% 69,90% 69,99% 69,2% AUC (upper bound) 67,81% 74,90% 74,98% 74,1% GINI 7,69% 11,20% 11,24% 10,8%
Tapasztalatok Irányított vs. irányítatlan Számít az irányítás Az élek szűrése javít a viselkedésen Fertőzési valószínűségek Folytonos Bináris A leghasznosabb változók Relatív forgalom Közösségi információ
KÖSZÖNETNYILVÁNÍTÁS Jelen kutatást a futurict.hu nevű, TÁMOP-4.2.2.C- 11/1/KONV-2012-0013 azonosítószámú projekt támogatta az Európai Unió és az Európai Szociális Alap társfinanszírozása mellett.