Szegedi Tudományegyetem Természettudományi és Informatikai Kar Számítógépes Optimalizálás Tanszék Informatika Doktori Iskola Módszerek valós hálózatokon játszódó folyamatok leírására és elemzésére Doktori értekezés tézisei Bóta András Témavezet k: Dr. Krész Miklós Dr. Pluhár András Szeged, 2014.
Bevezet 1 1. Bevezet A gráfelmélet gyökerei a Königsbergi hidak rejtvényéhez vezetnek vissza. A rejtvényt és a megoldását egy 1736-os cikkében publikálta Leonhardt Euler. Azóta sok minden kiderült a gráfok matematikai tulajdonságairól és alkalmazhatóságáról más tudományterületeken, mint például a szociológia, a biológia vagy akár az optimalizálás és az operációkutatás. A dolgok menete azonban megváltozott, amikor a számítógépek elérhet vé és megzethet vé váltak a legtöbb kutató számára. Ezek az eszközök lehet vé tették nekik, hogy összegy jtsék, tárolják, megosszák és tanulmányozzák a valós életben meggyelt hálózatokat és a hozzájuk kapcsolódó nagyméret adathalmazokat. Ez a változás vezetett el a hálózatkutatás nev interdiszciplináris tudományterület kialakulásához, amelyet alapítói a valós hálózatok meggyelésének és elemzésének szenteltek, a módszertanát pedig a matematika, zika, szociológia és az informatika területér l kölcsönözték. A hálózatkutatás témái közé tartozik a hálózat szervez dési elveinek, például a fokszám eloszlásnak és a csoportok születésének vizsgálata, valamint a hálózatokon játszódó folyamatok leírása. A disszertáció célja, hogy ismertesse a szerz munkásságát a hálózatkutatás három nagy témakörében: az átfed közösségkeresés, a dinamikus közösségkeresés és a fert zési folyamatok területén. Az ismert közösségkeres algoritmusokkal kapcsolatos tapasztalataink és Csizmadia et al. munkája alapján kifejlesztettük a hub perkolációs közösségkeres algoritmust, amely képes különböz szerkezet valós hálózatok kezelésére, illetve egy adott hálózatban a közösségek különböz rétegeinek felfedezésére. A módszerünket többek között Newman ismert benchmark hálózatain és Lancichinetti gráf generátora segítségével teszteltük. Két esettanulmányt is bemutattunk. Az egyik magyar cégek tulajdonosi hálózatát vizsgálja, a másik egy magyar és egy angol szóasszociációs hálózat szerkezetét hasonlítja össze. A közösségi és gazdasági hálózatokkal kapcsolatos tapasztalataink vezettek minket a közösségkeresés egy másik változatához, a dinamikus közösségkereséshez. Palla et al. munkája alapján létrehoztunk egy módszert, amely képes két id ben szomszédos gráf közösségeinek egymáshoz rendelésére. A módszerünk tizenegy esemény azonosítására képes, és m ködése független a használt statikus közösségkeres tulajdonságaitól. A módszerünket két valós életb l származó példán teszteltük. A disszertáció utolsó témaköre a gráfokon játszódó fert zési folyamatok vizsgálata különös tekintettel ezek gazdasági alkalmazásaira. Gyakori probléma, hogy a fert zési folyamatok alapjául szolgáló él fert zési valószín ségek nem állnak rendelkezésre, ilyenkor ezeket becslik vagy valamilyen konstans értéket használnak helyettük. Ennek a feladatnak a hatékony megoldására hoztuk létre az inverz fert zési problémát, melynek feladata, hogy kiszámítsa az él fert zési valószín ségeket a fert zési folyamat bemeneteinek és eredményének ismeretében. Bemutattuk az inverz fert zési probléma alapjául szolgáló általánosított kaszkád modellt, annak heurisztikáit, és megadtunk egy tanuló algoritmust a probléma megoldására. A módszerünket el ször mesterséges fert zési feladatokon teszteltük, majd egy részletes esettanulmányt is publikáltunk, melynek célja a cs d események el rejelzése volt banki tranzakciós hálózatokon.
2 Alapfogalmak 2. Alapfogalmak A dolgozatban lév algoritmusok és módszerek gráfokon alapulnak. Jelölje G gráf pont- és élhalmazait V (G) és E(G). Majdnem minden esetben irányítatlan gráfokat használunk. A gráf élein élsúlyok formájában, a pontjain és élein attribútumok formájában tárolhatunk numerikus információt. A gráfok minden esetben összefügg ek, ez lehet valamilyen, a dolgozatban nem említett sz rési folyamat eredménye. A disszertációban szerepl gráfok mindegyike komplex hálózat, és a valós életb l vett meggyeléseken alapszik. Ezek, ellentétben az egyszer bb gráf osztályokkal, mint a fák vagy a rácsok, gyakran nem triviális topológiai tulajdonságokkal rendelkeznek. A komplex hálózatokat a forrásuk szerint többféle csoportba sorolhatjuk: ismertségi hálózatok, információs hálózatok, technológiai hálózatok, gazdasági hálózatok, stb. A hálózatkutatás legfontosabb eredményei közé tartozik az a felismerés, hogy a forrásuktól függetlenül, ezeknek a gráfoknak a viselkedése hasonló. Közösségkeresés A társadalmi kapcsolatokban meggyelhet az a fajta viselkedés, hogy az emberek hajlamosak csoportokba szervez dni az érdekl désük, munkájuk vagy hobbijaik szerint. Az ismertségi hálózatokon ez a viselkedés úgy jelenik meg, hogy a gráf pontjai olyan halmazokba rendez dnek, melyeken belül s r k a kapcsolatok, köztük pedig viszonylag kevés. Ezt a jelenséget közösségstruktúrának nevezzük, a közösségstruktúra kiszámítását pedig közösségkeresésnek. A jelenség azonban nem csak az ismertségi hálózatok jellemz je, más komplex hálózatokban is megtalálható. A közösségek jelensége ismert, azonban pontos deníciót nehéz rájuk találni. A hagyományos közösségkeres módszerek a közösségeket diszjunkt ponthalmazokként értelmezik, és a következ intuíciót használják. A ponthalmaz olyan partícióit keresik, melyek maximalizálják a halmazokon belül futó élek számát és minimalizálják a közöttük lév élek mennyiségét. További cél, hogy értelmes közösségeket találjanak, például elvetik azt a triviális megoldást, mely csak egy minden pontot magába foglaló halmazt tartalmaz. A közösségkeresésr l egy átfogó összefoglalót itt olvashatunk [14]. A hagyományos közösségkeres k csak diszjunkt ponthalmazokat engednek meg. A valós életben tapasztaltak szerint viszont egy pont több közösségnek is tagja lehet, így eljuthatunk az átfed közösségek fogalmához. Ezzel a fogalommal komolyabban el ször Palla et al. foglalkozott munkájában [29]. Ugyanitt deniálták a klikk perkolációs átfed közösségkeres algoritmust is. A maximális klikkek keresése és összef zése más közösségkeres alapjául is szolgál, de sok más megközelítési mód is szerepel a szakirodalomban [17, 18, 25]. A közösségkeresés egy másik módja a közösségek id beni változásának követése, ez a dinamikus közösségkeresés. A dinamikus közösségkeresés gráfok egy {G i } i T sorozatán alapul, ahol T = {1,..., l} egy diszkrét id skálát jelez, a cél pedig annak a felderítése, hogy egy gráf közösségstruktúrája milyen kapcsolatban van a sorozatban szerepl többi gráf struktúrájával. A dinamikus közösségkeres algoritmusok az id ben szomszédos gráfok párjait hasonlítják össze, illetve deniálják a közösségek közti lehetséges események vagy történések halmazát. A deníció után a szomszédos grá-
Alapfogalmak 3 1. ábra. Egy közösségi háló egy szeletének közösségstruktúrája. A közösségeket Girvan és Newman módszerével találtuk meg [26]. fok közösségeit egy algoritmus egymáshoz rendeli, és mindegyikhez hozzákapcsolja az események egyikét. A legismertebb algoritmusok itt olvashatóak [1, 28]. Fert zési modellek Gráfokon sokféle folyamatot lehet értelmezni. A disszertáció egy nagyobb része gazdasági események terjedésével foglalkozik, ez pedig a fert zési vagy diúziós modellek területe. Ezek a modellek sokféle jelenség terjedésével foglalkoznak: viselkedési minták, információ, betegségek, stb. Ezeket a modelleket ugyancsak sokféle tudományterület használja. Számunkra a legfontosabb modell a független kaszkád (Independent Cascade) modell, amit Domingos és Richardson vezetett be [12, 19]. A fert zési modellek állapotokat rendelnek a gráf pontjaihoz, amelyek a fert zési bizonyos fázisait jelzik. A független kaszkád modell állapotai a következ k. Egy pont lehet fert zhet, ekkor nem fert zött de más pontok megfert zhetik. Egy pont lehet fert zött, ekkor más pontokat is meg tud fert zni, végül egy pont lehet eltávolított, ekkor fert zött de már nem képes más pontokat megfert zni. Ezekre az állapotokra inaktív, újonnan aktivált és aktív pontokként is fogunk hivatkozni. Egy fert zési modellt olyan folyamatként lehet felírni, melynek két bemenete van. Az els egy súlyozott gráf, melyek élein 0 és 1 közötti valós számok vannak deniálva: e E(G), 0 w u,v 1 ezek az él fert zési valószín ségek. A második bemenet a kezdeti fert zött pontok A 0 V (G) halmaza. Ezek a pontok a folyamatot fert zött állapotban kezdik. Maga a folyamat lépésekben vagy iterációkban történik, és t iterációban fejez dik be amennyiben A t =, az eredménye pedig a folyamat során megfert z dött A = t i=0 A i pontok halmaza. A modellt eredetileg irányított gráfokra fogalmazták meg, de könny általánosítani irányítatlan esetre is, ekkor az él fert zési valószín ségek szimmetrikusak w u,v = w v,u.
4 A disszertáció új tudományos eredményei A fert zési modell meghatározza, hogy a pontok hogyan fert zhetik meg egymást. Legyen az i-edik iterációban újonnan aktivált pontok halmaza A i V (G). Az i + 1 iterációban minden u A i pont megpróbálja aktiválni az v V \ 0 j i A j inaktív szomszédait a köztük lév w u,v él fert zési valószín ség szerint. Amennyiben ez sikeres a következ iterációban v újonnan aktivált lesz. Ha több mint egy pont akarja ugyanazt a pontot aktiválni, a próbálkozások egymástól függetlenül bármilyen sorrendben történhetnek. Ha A t = akkor a folyamat véget ért a t iterációban. Könny belátni, hogy a folyamat véges számú lépésben véget ér. 3. A disszertáció új tudományos eredményei A disszertáció eredményei három tézispontba sorolhatóak: 1. Nagy felbontású rugalmasan paraméterezhet átfed közösségkeres algoritmus kifejlesztése és alkalmazásai. 2. Dinamikus közösségkeres algoritmus kifejlesztése, ami alkalmas nagy méret valós hálózatok kezelésére. 3. Él fert zési valószín ségek becslésére szolgáló módszertan és fert zési modell fejlesztése és banki alkalmazásai. Ebben a fejezetben mindhárom pontot ismertetni fogjuk. 3.1. A hub perkolációs módszer A hub perkolációs módszert [4] azzal a céllal hoztuk létre, hogy rugalmasságával minél több alkalmazás feltételeinek képes legyen megfelelni. Ez egy klikk alapú átfed közösségkeres algoritmus komplex hálózatokra, melynek paraméterei képesek a megtalált közösségstruktúra nomhangolására. Ez lehet vé teszi, hogy közösségeket többféle felbontásban is meggyeljük, legyenek ezek nagy, kevéssé átfed csoportok, vagy akár kis, szorosan összekapcsolódó közösségek. Az algoritmus fejlesztésére nagy hatással voltak azok a benyomások, melyeket más algoritmusok, mint a klikk perkolációs vagy az N ++ módszer [3] használata során szereztünk. Ezen felül segítették a munkánkat Newman [15,27] és Zachary [30] ismert benchmark hálózataival kapcsolatos tapasztalataink, melyeknek nyomai az algoritmus sok részleteiben megtalálhatóak. A hub perkolációs algoritmus két fogalmon alapul: a klikkeken és a hub-okon. A klikkek adott k számú ponttal rendelkez teljesen összefügg részgráfok. Egy klikk maximális, ha nem részhalmaza egyetlen más klikknek sem. A maximális klikkek halmazának megadása általános esetben nagyon nehéz feladat, komplex hálózatokon azonban a Bron-Kerbosch algoritmus változatai [10, 13] elfogadható teljesítményt nyújtanak. A klikkeken belül minden pont kapcsolatban van egymással, így ezek a közösségek legtisztább formájának tekinthet k. Ezt az intuíciót a legtöbb klikk alapú közösségkeres használja. A valós életb l származó példák alapján egy másik meggyelést is tehetünk. A közösségeken belül nem mindegyik pont egyenrangú. A csoportok összetartásában
A disszertáció új tudományos eredményei 5 egyes pontoknak nagyobb szerep jut másoknál. Ezeket a pontokat hub-oknak nevezzük és segítségükkel kapcsoljuk össze és terjesztjük ki a klikkeket. A hub-ok azonosítása a hub kiválasztási stratégia feladata. A disszertációban több stratégiát is megadtunk. A módszert a következ lépésekre lehet felosztani: 1. Keressük meg a 3-nál nagyobb maximális klikkek halmazát. 2. Válasszuk ki a hub-okat a hub kiválasztási stratégia szerint. Ennek a stratégiának lehet egy q paramétere. 3. Találjuk meg a hub-okból álló k-klikkeket, és terjesszük ki ket egy korlátozott perkolációs szabály szerint. 4. Olvasszuk össze azokat a közösségeket, melyekben ugyanazok a hub-ok szerepelnek. A módszer m ködését kétféle módon befolyásolhatjuk. Az egyik a k sz rési paraméter, a másik a hub kiválasztási stratégia, és annak lehetséges q paramétere. Ezek a paraméterek teszik lehet vé módszerünk sokrét felhasználhatóságát. Azt, hogy a paraméterek milyen hatással vannak a megtalált közösségstruktúrára, sokféleképpen mértük: a közösségek számával, a közösségek méretének eloszlásával, a közösségek közti átlagos átfedéssel és a közösségen kívüli pontok számával. Erre a célra Newman benchmark hálózatait [15, 27] használtuk. 2. ábra. Zachary karate klub hálózatának közösségei [30]. A hub-okat rombuszok jelölik. A többszín pontok több közösséghez is tartoznak. A medián hub kiválasztási stratégiát használtuk k = 2 paraméterrel. A 9, 3, 33 pontok egy külön közösséget alkotnak, és a 9-es pont három közösséghez is tartozik egyszerre.
6 A disszertáció új tudományos eredményei Eredmények és esettanulmányok A módszerünk hatékonyságát többféle módon mértük. Lancichinetti és Fortunato közösség alapú gráf generátorát [25] használtuk arra, hogy összemérjük módszerünk eredményeit a népszer klikk perkolációs módszer [29] eredményeivel. A mutual information [24] nev mér számot használtuk arra, hogy összehasonlítsuk a gráfok természetes közösség struktúráját 1 az említett két módszer által találtakkal. Megmutattuk, hogy a módszerünk jobban közelíti a természetes közösségeket, amennyiben ezek között nagyok az átfedések. Két esettanulmányt is megadtunk. Megvizsgáltuk a magyar céginformációs adatbázisból készített tulajdonosi hálózat közösségstruktúráját, és megállapítottuk a vállalatok csoportjainak földrajzi elhelyezkedését, ipari tevékenységeit és korát. A meg- gyelt cégfajtára (Kft) jellemz, hogy cégeinek közösségei földrajzilag egymáshoz közel helyezkednek el, és jellemz en ugyanabban a gazdasági szektorban tevékenykednek. A cégek közösségeinek kora azonban szórást mutat. Egy részletes esettanulmányban megvizsgáltuk és összehasonlítottuk egy magyar és egy angol szó-asszociációs hálózat közösségstruktúráját [9]. Azonosítottuk azokat a szavakat, melyek a közösségek középpontjaiban állnak, ezek tipikusan kategórianevek, gyakori melléknevek vagy kollektív f nevek. A szavak egy része mindkét hálózatban szerepel, ezek jellemz en alapvet igényekhez vagy mindennapi eseményekhez kapcsolódnak, de nagyok a különbségek a két gráf között. 3.2. Dinamikus közösségkeresés A dinamikus közösségkeres algoritmusunk [6] kifejlesztéséhez két valós életb l származó feladat vezetett el minket. Ezeknek a feladatoknak több olyan követelményük is volt, amelyeket a meglév módszerek nem tudtak egyidej leg teljesíteni. Az els a gyorsaság volt. A vizsgált feladatokban nagy gráfok szerepeltek, amelyek rendelkeztek ugyan a komplex hálózatok tulajdonságaival, de nagyon sok ponttal és éllel rendelkeztek. A második probléma az általunk kiválasztott statikus közösségkeres algoritmus volt. Mindenképpen átfed közösségkeres algoritmust szerettünk volna használni, de a disszertációban említett okok miatt nem voltunk megelégedve a klikk perkolációs módszerrel. Palla et al. [28] dinamikus közösségkeres módszere azonban ennek az algoritmusnak az egyik különleges tulajdonságát használja. Végül az N ++ módszert [3] választottuk közösségkeres nek, és elvetettük Palla módszerének használatát. Az utolsó követelmény a közösségekkel kapcsolatos események száma és jellege volt. A Palla által javasoltakat nem találtuk alkalmasnak arra, hogy leírják a vizsgált gráfjaink dinamikáját. Az általunk használt megközelítés Palla et al. munkáján alapszik, de ezt sok helyen módosítottuk, hogy használhatóbbá tegyük a módszert. Kib vítettük a közösség-események halmazát, és átalakítottuk az összehasonlítást végz algoritmust, így az már nem függ a felhasznált közösségkeres különleges tulajdonságaitól. 1 Ezeket a gráf generátor adta meg.
A disszertáció új tudományos eredményei 7 A módszerünk egy gráfsorozat két szomszédos G 1 és G 2 elemét hasonlítja össze a következ módon. 1. Határozzuk meg G 1 és G 2 közösségeit egy közösségkeres segítségével. 2. Számoljuk ki G 1 és G 2 unióját G U -t, majd futtassuk le a közösségkeres t ezen is. 3. Rendeljük hozzá G U közösségeit G 1 és G 2 közösségeihez. 4. A hozzárendelések összegzésével megkapjuk a G 1 és G 2 közötti eseményeket. A módszerünkkel két valós életb l származó hálózat közösség struktúrájának dinamikáját vizsgáltuk. Az eredményeink azt mutatják, hogy lényeges különbség van a két hálózat viselkedése között. Az egyik hálózat stabil, de lassan és folyamatosan veszít a közösségeib l, a másik gyorsan változik, de megtartja közösségeinek számát. 3.3. Inverz fert zés Az inverz fert zés vizsgálatának ötlete Csernenszky et al. 2009-ben publikált munkájából [11] származik. A dolgozatuk célja a fert zési modellek használhatóságának vizsgálata volt banki tranzakciós hálózatokon, az eredményeik pedig azt mutatták, hogy cs d el rejelzésre használt módszerek pontosságát javítja, ha gyelembe veszik azt a hatást, melyet a hálózat pontjai egymásra fejtenek ki. Ez az úgynevezett hálózati hatás, annak a valószín sége, hogy egy pont viselkedése hat a szomszédjaira is. Ez a jelenség adta az ötletet, hogy kifejlesszünk egy módszert, amely képes ezeknek a valószín ségeknek a becslésére, ez pedig az inverz fert zési problémához [8] vezetett el minket. A mi módszerünk lényegesen különbözik a szakirodalomban meglév kt l [16,22], bár a terület kevéssé kutatott. A meglév módszerekkel ellentétben a mienknek nem el feltétele a fert zési folyamat lépéseinek ismerete. Ehelyett a banki tranzakciós hálózatokkal kapcsolatos tapasztalatainkra épít, mint a vállalati cs d-valószín ségek becsléseinek használata, vagy a pont és él attribútumok jelenléte. Az inverz fert zési probléma létrehozásához szükséges volt további algoritmusok és módszerek kifejlesztése. Az egyik legfontosabb ezek közül az általánosított kaszkád fert zési modell [7]. Ez a modell a független kaszkád modellre épül, és egy valószín ségeken alapuló keretrendszert használ a fert zési folyamat bemeneteinek és kimeneteinek a megadására. Az általánosított kaszkád modell Az általánosított kaszkád (Generalized Cascade) modell minden egyes ponthoz egy 0 és 1 közötti valós p v értéket rendel, amely azt a valószín séget jelzi, amivel az adott pont még a folyamat kezdete el tt megfert z dik. Ezeket az értékeket a priori eloszlásnak nevezzük. A hálózat pontjai még a fert zési folyamat kezdete el tt egymástól függetlenül megfert z dhetnek ezekkel a valószín ségekkel. Az a priori eloszlás fog megfelelni a független kaszkád modell kezdeti fert z pontjainak ebben a modellben. Az általánosított kaszkád modell képes az a priori fert zéseknek és ezek
8 A disszertáció új tudományos eredményei hálózati hatásainak a kiszámítására. Az a priori eloszláshoz hasonlóan a modell kimenetét egy a posteriori eloszlás adja meg, melynek p v értékei jelzik, hogy a pontok mekkora valószín séggel fert z dnek meg a folyamat során. A pontok közötti fert zés terjedésének módja ugyanaz, mint a független kaszkád modellnél megismert, bár az általánosított modell képes más fert zési modellek leírására is. A következ módon deniálhatjuk az általánosított kaszkád modellt: Az általánosított kaszkád modelll: Legyen adott egy megfelel en súlyozott G gráf és a p v a priori fert zési értékek, a modell ezek alapján kiszámolja az a posteriori eloszlás p v értékeit minden v V (G)-re. Az általánosított kaszkád modell kiszámítása #P-nehéz, ezért négy heurisztikus módszert adtunk meg a felgyorsítására [5]. A teljes szimulációs módszer (Complete Simulation) Kempe et al. [20] módszerének átalakítása az általánosított kaszkád modell feltételeinek megfelel en. Az élszimulációs módszer (Edge Simulation) a szimuláció és az algebrai számítások olyan kombinációja, mely csökkenti a szimulációkra annyira jellemz szórás értékét. Ha az él fert zési valószín ségek kicsik, akkor a fert zések nem terjednek túl messze a kiindulópontjaiktól. A korlátozott szomszédság heurisztika (Neighborhood Bound Heuristics) ezt a jelenséget használja ki. A kaszkád fert zési folyamatot le lehet cserélni egy könnyebben kiszámolható modellre, ez az ALE heurisztika. Az inverz fert zési probléma Az inverz fert zési probléma (Inverse Infection Problem) [8] deníciója hasonló az általánosított kaszkád modell deníciójához: Az inverz fert zési probléma: Legyen adott egy súlyozatlan G gráf, a p v a priori és a p v a posteriori fert zési értékek. Számoljuk ki ezekb l a w e él fert zési valószín ségeket minden e E(G)-re. Minden egyes élvalószín séget kiszámolni egyrészt nehéz, másrészt a probléma maga aluldeniált, még akkor is, ha a hálózat nagyon kicsi. Ehelyett feltételezzük, hogy az éleken lév valószín ségek a pontokon és éleken lev más attribútumoknak egy (normalizált) függvényeként állnak el. Így csak ezeknek a függvényeknek az együtthatóit kell kiszámolnunk, és mivel az attribútumok és együtthatók száma korlátozott, a probléma megoldhatóvá válik. A fentiek alapján deniálhatunk egy tanuló módszert. A deníció szerint az a posteriori eloszlás a probléma bemeneteihez tartozik. Ezt felhasználhatjuk egy tanuló módszer referencia adathalmazaként. Az attribútum függvények kezdeti együtthatóit véletlenszer en választjuk észszer korlátok közül.
Tézispontok 9 Az attribútum függvények, az együtthatók és az a priori eloszlás segítségével kiszámolhatunk egy, az együtthatókhoz kapcsolható a posteriori eloszlást. Egy hibafüggvény segítségével meghatározzuk az eltérést a referencia eloszlás és az újonnan számolt a posteriori eloszlás között. Ez a feladat a globális optimalizálás tipikus esete, a megoldás módszerének pedig néhány egyéb próbálkozás után Kennedy és Mendes FPSO algoritmusát [21] választottuk. A módszerünk korlátait mesterséges fert zési feladatokkal fedeztük fel. Megállapítottuk az optimalizálás stabilitását és pontosságát, egy általános megközelítési módot adtunk a megfelel attribútum függvény kiválasztására, megvizsgáltuk milyen hatásai vannak a használt heurisztikáknak a módszer eredményeire, és kipróbáltuk hogyan viselkedik a módszerünk, ha a bemenetei hiányosak vagy hibásak. A módszer alkalmas arra, hogy kevés lépésszámmal is pontos becslést adjon az él fert zési valószín ségekre, ezt az attribútumok száma és az attribútum függvények alakja csak kevéssé befolyásolja még pontatlan bemenetek esetében is. A dolgozat végén bemutattuk az inverz fert zi probléma alkalmazását egy banki tranzakciós hálózaton [2]. Az alkalmazás célja a cs desemények el rejelezet ségének javítása volt. Mivel az inverz fert zési probléma fejlesztésekor gyelembe vettünk banki alkalmazásokkal kapcsolatos követelményeket, így az esettanulmányt könny volt megvalósítani. A módszerünk jobb becsléseket nyújtott, mint a hagyományos módszerek, képes volt arra, hogy azonosítsa a cs dre leginkább hajlamos cégeket, és 2013-ban hozzávették az OTP Bank eszközrendszeréhez. 4. Tézispontok A dolgozat eredményeit a következ tézispontokban összegezzük. 4.1. Átfed közösségkeresés Az els pontunkban egy új nagy felbontású rugalmasan paraméterezhet átfed közösségkeres algoritmust és alkalmazásait ismertettünk. 1. Részletes leírását adtuk a hub perkolációs közösségkeres algoritmusnak és több hub kiválasztási stratégiának beleértve egy olyat is, mely képes súlyozott hálózatok kezelésére. Megvizsgáltuk, hogy a módszer paraméterei milyen hatással vannak a megtalált közösségstruktúrára, és ezt a hatást Newman [15,27] ismert hálózatain demonstráltuk. 2. Lancichinetti közösség alapú gráf generátorát [25] használtuk arra, hogy összemérjük módszerünk eredményeit a népszer klikk perkolációs módszer [29] eredményeivel. 3. Módszerünk segítségével megvizsgáltuk a magyar céginformációs adatbázisból készített tulajdonosi hálózat közösségstruktúráját.
10 Tézispontok 4. Egy részletes esettanulmányban megvizsgáltuk és összehasonlítottuk egy magyar és egy angol szó-asszociációs hálózat közösségstruktúráját [9]. A hub perkolációs módszert magát, a paraméterek hatásának demonstrációját Newman hálózatain, valamint a gazdasági esettanulmányt (1-3) egy publikáció foglalja össze, melyet egy nemzetközi folyóirathoz nyújtottuk be [4]. Elfogadásáról még nem kaptunk visszajelzést. A szó-asszociációs hálózatokkal kapcsolatos esettanulmány (4) egy nemzetközi konferencia kiadványában fog megjelenni [9]. 4.2. Dinamikus közösségkeresés A disszertáció második tézispontja egy dinamikus közösségkeres algoritmus kifejlesztése volt, ami alkalmas nagy méret valós hálózatok kezelésére. 1. Bevezettük a módszerünk által értelmezett tizenegy dinamikus közösségi eseményt. Részletes leírást adtunk a dinamikus közösségkeres algoritmushoz, és ismertettük az id bonyolultságát is. 2. A módszerünkkel két valós életb l származó hálózat közösségstruktúrájának dinamikáját vizsgáltuk. A tézisponttal kapcsolatos eredményeink egy nemzetközi folyóiratban jelentek meg [6]. 4.3. Inverz fert zés Az utolsó tézispont egy él fert zési valószín ségek becslésére szolgáló módszertan és fert zési modell kifejlesztése volt valamint ennek banki alkalmazásai. 1. Deniáltuk az általánosított kaszkád fert zési modellt, amely az inverz fert zési probléma alapjául szolgál. 2. Az általánosított kaszkád modell kiszámítása nehéz, ezért létrehoztunk négy különböz heurisztikus módszert a számítások felgyorsítására: teljes szimuláció, élszimuláció, korlátozott szomszédság heurisztika és az ALE heurisztika. 3. Deniáltuk az inverz fert zési problémát. Legyen adott egy súlyozatlan G gráf, a p v a priori és a p v a posteriori fert zési értékek. Számoljuk ki ezekb l a w e él fert zési valószín ségeket minden e E(G)-re. 4. Megadtunk egy tanuló módszert, ami a problémát egy optimalizálási feladatra egyszer síti. 5. A módszerünk korlátait mesterséges fert zési feladatokkal fedeztük fel. Megállapítottuk az optimalizálás stabilitását és pontosságát, egy általános megközelítési módot adtunk a megfelel attribútum függvény kiválasztására, megvizsgáltuk milyen hatásai vannak a használt heurisztikáknak a módszer eredményeire, és kipróbáltuk hogyan viselkedik a módszerünk, ha a bemenetei hiányosak vagy hibásak.
Tézispontok 11 6. Végül ismertettük az inverz fert zési probléma alkalmazását egy banki tranzakciós hálózaton. Az inverz fert zéssel és az általánosított kaszkád modellel kapcsolatos el zetes eredményeinket (1, 3) egy rövid publikációban közöltük egy nemzetközi folyóiratban [7]. Az általánosított kaszkád modell részletes leírását, elemzését, valamint a kapcsolódó heurisztikákat (1, 2) egy nemzetközi folyóiratban jelentettük meg [5]. Az inverz fert zési probléma, a tanuló módszer és ezeknek a kiértékelése mesterséges fert zési feladatokon (3-5) egy nemzetközi konferencia kiadványában található meg [8]. A banki alkalmazás (6) egy ismert nemzetközi folyóiratban fog megjelenni [2].
Irodalomjegyzék [1] S. Asur, S. Parthasarathy and D. Ucar, An event-based framework for characterizing the evolutionary behavior of interaction graphs. ACM Transactions on Knowledge Discovery from Data 3(4), 2009. [2] A. Bóta, A. Csernenszky, L. Gy ry, Gy. Kovács, M. Krész, A. Pluhár, Applications of the Inverse Infection Problem on bank transaction networks. Accepted for publication in: Central European Journal of Operations Research. [3] A. Bóta, L. Csizmadia, A. Pluhár, Community detection and its use in Real Graphs. Proceedings of the 2010 Mini-Conference on Applied Theoretical Computer Science, 9599, 2010. [4] A. Bóta, M. Krész, A high resolution clique-based overlapping community detection algorithm for small-world networks. Submitted. [5] A. Bóta, M. Krész and A. Pluhár, Approximations of the Generalized Cascade Model. Acta Cybernetica 21 3751, 2013. [6] A. Bóta, M. Krész, A. Pluhár, Dynamic Communities and their Detection. Acta Cybernetica 20 3552, 2011. [7] A. Bóta, M. Krész and A. Pluhár, Systematic learning of edge probabilities in the Domingos-Richardson model. Int. J. Complex Systems in Science, 1(2) (2011) 115118. [8] A. Bóta, M. Krész and A. Pluhár, The inverse infection problem. Proceedings of the 2014 Federated Conference on Computer Science and Information Systems, 7583, IEEE, 2014. http://dx.doi.org/10.15439/978-83-60810-58-3. [9] A. Bóta, L. Kovács, The community structure of word association graphs. Accepted for publication in: The Proceedings of the 9th International Conference on Applied Informatics, Eger, 2014. [10] C. Bron, J. Kerbosch, Algorithm 457: nding all cliques of an undirected graph. Communications of the ACM 16 (9): 575577, 1973. doi:10.1145/362342.362367. [11] A. Csernenszky, Gy. Kovács, M. Krész, A. Pluhár, T. Tóth, The use of infection models in accounting and crediting. Challenges for Analysis of the Economy, the Businesses, and Social Progress Szeged (2009) pp. 617623. 12
IRODALOMJEGYZÉK 13 [12] P. Domingos, M. Richardson, Mining the Network Value of Costumers. Proceedings of the 7th International Conference on Knowledge Discovery and Data Mining, ACM (2001) 5766. [13] D. Eppstein, D. Strash, Listing all maximal cliques in large sparse real-world graphs. Experimental Algorithms, Springer Berlin Heidelberg, 364375, 2011. [14] S. Fortunato, Community detection in graphs. Physics Report, 486(3):75174, 2010. [15] M. Girvan, M. E. J. Newman, Community structure in social and biological networks. Proc. Natl. Acad. Sci., 99(12):78217826, 2002. [16] A. Goyal, F. Bonchi, L.V.S. Lakshmanan, Learning inuence probabilities in social networks. Proceedings of the third ACM International Conference on Web search and data mining. ACM (2010) 241250. [17] S. Gregory, Finding overlapping communities in networks by label propagation. New J. Phys., 12(10):103018, 2010. [18] E. Griechisch, A. Pluhár, Community Detection by using the Extended Modularity. Acta Cybernetica, 10:6985, 2011. [19] D. Kempe, J. Kleinberg, E. Tardos, Maximizing the Spread of Inuence though a Social Network. Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM (2003) 137146. [20] D. Kempe, J. Kleinberg, E. Tardos, Inuential Nodes in a Diusion Model for Social Networks. Proceedings of the 32nd International Colloquium on Automata, Languages and Programming (ICALP), Springer-Verlag (2005) 1127 1138. [21] J. Kennedy, R. Mendes, Neighborhood topologies in fully informed and bestof-neighborhood particle swarms. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews. 36 (4) (2006) 515519. [22] M. Kimura, K. Saito, Tractable models for information diusion in social networks. Knowledge Discovery in Databases, Lecture Notes in Computer Science Springer Berlin / Heidelberg, (2006), 259271. [23] A. Lancichinetti, S. Fortunato, Benchmarks for testing community detection algorithms on directed and weighted graphs with overlapping communities. Phys. Rev. E, 80(1):016118, 2009. [24] A. Lancichinetti, S. Fortunato, J. Kertész Detecting the overlapping and hierarchical community structure in complex networks. New Journal of Physics, 11(3):033015, 2009. [25] A. Lancichietti, F. Radicchi, J. J. Ramasco, S. Fortunato, Finding statistically signicant communities in networks. PLoS One, 6(4):e18961, 2011.
14 IRODALOMJEGYZÉK [26] M. E. J. Newman, Detecting community structure in networks. Eur. Phys. J. B 38, 321330 (2004). [27] M. E. J. Newman, The structure of scientic collaboration networks. PNAS, 98(2):404409, 2001. [28] G. Palla, A.-L. Barabási and T. Vicsek, Quantifying social group evolution. Nature 446, 664667 (2007). [29] G. Palla, I. Derényi, I. Farkas, T. Vicsek, Uncovering the overlapping community structure of complex networks in nature and society. Nature, 435(7043):814818, 2005. [30] W. W. Zachary, An information ow model for conict and ssion in small groups. Journal of anthropological research, 452473, 1977.