Átfed modularitás optimalizálása hálózatokban



Hasonló dokumentumok
Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Biztosítási ügynökök teljesítményének modellezése

Tűgörgős csapágy szöghiba érzékenységének vizsgálata I.

12. Vig Zoltán: Vizsgálatok a felsıoktatásban tanulók internethasználatával

MATEMATIKA évfolyam

MATEMATIKA TANTERV Bevezetés Összesen: 432 óra Célok és feladatok

Dr. Ábrahám István * A BOLOGNAI FOLYAMAT ÉS A TANKÖNYVEK

MATEMATIKA I. RÉSZLETES ÉRETTSÉGI VIZSGAKÖVETELMÉNY A) KOMPETENCIÁK

Rendezettség. Rendezettség. Tartalom. Megjegyzés

Fókuszált fénynyalábok keresztpolarizációs jelenségei

A beszerzési logisztikai folyamat tervezésének és működtetésének stratégiái II.

Innováció és együttm ködési hálózatok Magyarországon

A hierarchikus adatbázis struktúra jellemzői

ÜGYFÉLSZOLGÁLATI MONITORING VIZSGÁLAT A FŐTÁV ZRT. RÉSZÉRE MÁSODIK FÉLÉV

MATEMATIKA 5 8. ALAPELVEK, CÉLOK

Hallgatói szemmel: a HÖK. A Politológus Műhely közvélemény-kutatásának eredményei

AZ ÖNEMÉSZTÉS, SEJTPUSZTULÁS ÉS MEGÚJULÁS MOLEKULÁRIS SEJTBIOLÓGIÁJA

Puskás Béla: Hálózatelméleti alapok

Dr. Saxné Dr. Andor Ágnes Márta. Immateriális javak a számviteli gyakorlatban

GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN

OBJEKTUMORIENTÁLT TERVEZÉS ESETTANULMÁNYOK. 2.1 A feladat

A munkaügyi ellenőrzés tapasztalatai (2015. I. félév)

Bánhalmi Árpád * Bakos Viktor ** MIÉRT BUKNAK MEG STATISZTIKÁBÓL A JÓ MATEKOSOK?

KOVÁCS BÉLA, MATEMATIKA I.

Stratégiai menedzsment

EGÉSZTESTSZÁMLÁLÁS. Mérésleírás Nukleáris környezetvédelem gyakorlat környezetmérnök hallgatók számára

A NŐK GAZDASÁGI AKTIVITÁSA ÉS FOGLALKOZTATOTTSÁGA*

IV. Szakmai szolgáltatások funkcionális tervezése

A szolgáltatástervezési koncepciók készítésének gyakorlata. online kutatás elemzése

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

Munkába, de hány keréken?

hogy a megismert fogalmakat és tételeket változatos területeken használhatjuk Az adatok, táblázatok, grafikonok értelmezésének megismerése nagyban

JÁSZAPÁTI VÁROS ÖNKORMÁNYZATÁNAK SZERVEZETFEJLESZTÉSE

Apor Vilmos Katolikus Iskolaközpont. Helyi tanterv. Matematika. készült. a 51/2012. (XII. 21.) EMMI rendelet 3. sz. melléklet 9-12./

Szakdolgozat GYIK. Mi az a vázlat?

Intézményi helyzetelemzések módszertani leírása, eljárásrendje, Bevezetési útmutatók a Szakképzési Önértékelési Modell (SZÖM) alkalmazásához - 1/94 -

Energiaipar: a jég hátán is megél?

A.26. Hagyományos és korszerű tervezési eljárások

IDŐSOROS ROMA TANULÓI ARÁNYOK ÉS KIHATÁSUK A KOMPETENCIAEREDMÉNYEKRE*

A vezetői számvitel gyakorlati alkalmazása az Eurovan Miskolc Kft számviteli rendszerében

Hosszú Zsuzsanna Körmendi Gyöngyi Tamási Bálint Világi Balázs: A hitelkínálat hatása a magyar gazdaságra*

A CIKLONOK SZEMLÉLETES TANÍTÁSA KÖZÉPISKOLÁBAN THE SUGGESTIVE TEACHING OF THE CYCLONES IN A SECONDARY SCHOOL

OTDK-DOLGOZAT

Hajdúsági Kistérség Területfejlesztési Koncepciója és Programja HELYZETÉRTÉKELÉS 2005.

Analízisfeladat-gyűjtemény IV.

Szakiskolai Fejlesztési Program II. XII. Monitoring jelentés III. negyedév. Monitoring I. szakasz zárójelentés

ESETTANULMÁNY II. A nagyváros és környéke területpolitikai sajátosságai a kistérségi rendszer működése szempontjából. című kutatás

Projekt: ÁROP-1.A Gyöngyös Város Önkormányzatának szervezetfejlesztése

KÖZIGAZGATÁSI JOG 3.

A nemzetközi vándorlás hatása a magyarországi népesség számának alakulására között 1

Matematika tanmenet (A) az HHT-Arany János Tehetségfejleszt Program el készít -gazdagító évfolyama számára

ERserver. iseries. Szolgáltatási minőség

HELYI TANTERV MATEMATIKA tanításához Szakközépiskola évfolyam

Sztojka Miroszláv LINEÁRIS ALGEBRA Egyetemi jegyzet Ungvár 2013

Matematika. Specializáció évfolyam

1. K ORLÁTLAN SÁVSZÉLESSÉG ÉS

SZENT ISTVÁN EGYETEM

TARTALOM AZ INFORMATIKA FOGALMA A fogalom kialakítása Az informatika tárgyköre és fogalma Az informatika kapcsolata egyéb

Regressziószámítás alkalmazása kistérségi adatokon

A migrációs statisztika fejlesztésének lehetőségei

Soroksár Kommunikációs- és médiastratégiája

A növénytermesztési technológiák élelmiszerbiztonsági kérdései július 9.

AZ ÉPÍTÉSI MUNKÁK IDŐTERVEZÉSE

J/ A Magyar Köztársaság legfőbb ügyészének. országgyűlési beszámolója. az ügyészség évi tevékenységéről

A TISZÁNTÚL A KÁRPÁT MEDENCE SZÁZADI REGIONÁLIS TAGOLÓDÁSÁBAN

Készült: Készítette: IBS Kutató és Tanácsadó Kft

Pécsi Tudományegyetem Közgazdaságtudományi Kar Regionális Politika és Gazdaságtan Doktori Iskola

4. sz. Füzet. A hibafa számszerű kiértékelése 2002.

J/55. B E S Z Á M O L Ó

A távmunka és a távdolgozók jellemzői

TATABÁNYAI TÖBBCÉLÚ KISTÉRSÉGI TÁRSULÁS

21. szám 124. évfolyam július 3. TARTALOM. Utasítások 48/2009. (VII. 3. MÁV Ért. 21.) VIG számú

Szakmai ajánlat 7. lot: Társadalmi fejlesztések 1

DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI KAPOSVÁRI EGYETEM

AZ EU KÖZÖS ÁRUSZÁLLÍTÁSI LOGISZTIKAI POLITIKÁJA

3 He ionokat pedig elektron-sokszorozóval számlálja. A héliummérést ismert mennyiségű

RÖVID ÁTTEKINTÉS PROF. EM. DR. KOVACSICS JÓZSEF SZAKIRODALMI MUNKÁSSÁGÁRÓL

Bevezetés a játékelméletbe Kétszemélyes zérusösszegű mátrixjáték, optimális stratégia

A két csapatra osztás leggyakoribb megvalósításai: Lyukas teli (vagy sima vagy nem lyukas)

Ittfoglalomösszea legfontosabbtudnivalókat, részleteka honlapon, illetvea gyakorlatvezetőtől is kaptok információkat.

A TÖMEGKÖZLEKEDÉSI KÖZSZOLGÁLTATÁS SZOLGÁLTATÓ JELLEGÉNEK MEGALAPOZÁSA: MEGÁLLÓHELY ELLÁTOTTSÁG BUDAPESTEN. Összefoglaló

Rendszert a rendszerekben! avagy gondolatok a nyilvántartások rendszertanáról

2. előadás: További gömbi fogalmak

3. Állapítsa meg, hogy 1 db. KÖNYV 5. kötete és annak egyes részei szerzői jogvédelem alatt állnak-e.

ERKÖLCSTAN évfolyam

MultiMédia az oktatásban Zsigmond Király Fıiskola Budapest, szeptember

Tartalomjegyzék. 5. A közbeszerzési eljárás főbb eljárási cselekményei. 6. Eljárási időkedvezmények a közbeszerzési törvényben

Gödöllő Város Önkormányzata TANULMÁNY

KÖZIGAZGATÁSI SZAKVIZSGA KÖZSZOLGÁLTATÁSOK SZERVEZÉSE ÉS IGAZGATÁSA

Györgyi Zoltán. Képzés és munkaerőpiac

Matematika 9. nyelvi előkészítő évfolyam. 1 óra/hét (37 óra) Kiselőadások tartása, interjúk készítése (matematikatörténeti

4. A GYÁRTÁS ÉS GYÁRTÓRENDSZER TERVEZÉSÉNEK ÁLTALÁNOS MODELLJE (Dudás Illés)

Kétszemélyes négyes sor játék

Online kérd íves felmérés a Gazdálkodás olvasóinak és szerz inek körében

ZÁRÓ TANULMÁNY a "FoglalkoztaTárs társ a foglalkoztatásban" kiemelt projekt (TÁMOP / ) keretében

Felmérés a hitelezési vezetők körében, a bankok hitelezési gyakorlatának vizsgálatára Az első három felmérés összesített eredményének ismertetése

Károlyi Mihály Két Tanítási Nyelvű Közgazdasági Szakközépiskola Kémia Helyi Tanterv. A Károlyi Mihály Két Tanítási Nyelvű Közgazdasági Szakközépiskola

Lehet vagy nem? Konstrukciók és lehetetlenségi bizonyítások Dr. Katz Sándor, Bonyhád

Eötvös Loránd Tudományegyetem Társadalomtudományi Kar Szociológia Doktori Iskola Szociálpolitika program. Tézisfüzet.

INFORMATIKA Emelt szint

Átírás:

Átfed modularitás optimalizálása hálózatokban Diplomamunka írta: Tóth Bálint MSc zikushallgató Témavezet : Dr. Palla Gergely ELTE TTK, Biológiai Fizika Tanszék Budapest, 2012

Az egész több, mint a részek összessége. Arisztotelész

Tartalomjegyzék 1. Bevezetés 5 1.1. A hálózatkutatás kezdetei........................ 7 1.2. A valós hálózatok............................. 8 1.3. Véletlen gráf modellek.......................... 11 1.3.1. Erd srényi modell (1959).................... 11 1.3.2. A WattsStrogatz modell (1998)................. 12 1.3.3. A BarabásiAlbert modell (1999)................ 13 2. Csoportkeresési eljárások 15 2.1. Lokális csoport deníciók......................... 17 2.2. Elterjedt algoritmusok nem-átfed csoportok keresésére........ 19 2.2.1. Particionálás........................... 19 2.2.2. Hierarchikus klaszterezés..................... 20 2.3. A modularitás............................... 22 2.4. A klikk-perkolációs módszer....................... 24 2.5. Átfed modularitás fogalmak....................... 25 2.5.1. A Newman-féle modularitás általánosításai........... 25 2.5.2. A Lázár-féle modularitás..................... 26 3. A k-klikk perkoláció kritikus pontjának vizsgálata 28 3.1. Vizsgálati módszerek........................... 29 3.1.1. A kritikus pont meghatározása................. 29 3.1.2. A Lázár-féle modularitás vizsgálata............... 29 2

3.1.3. A Shen- és Chen-féle modularitás mérése............ 31 3.1.4. A Pearson-korreláció, mint mérték................ 31 3.1.5. A Kendall-féle rang-korreláció, mint mérték.......... 33 3.1.6. Az adatfeldolgozás........................ 34 3.2. Eredmények................................ 36 3.2.1. Mobiltelefon hívások hálózata.................. 36 3.2.2. Kollaborációs hálózatok..................... 36 3.2.3. Szóasszociációs hálózat...................... 43 3.2.4. Egyetemisták online szociális hálózata............. 46 3.2.5. Összefoglalás........................... 46 4. Az átfed modularitás optimalizációja 49 4.1. A szimulált h kezelésr l......................... 50 4.2. Az algoritmus elemei........................... 51 4.2.1. A Lázár-féle átfed modularitás pontosítása.......... 51 4.2.2. A szomszédos megoldások hálózata............... 52 4.2.3. Könyvelés............................. 54 4.2.4. Az összes szomszédos megoldás meglátogatásához szükséges id 55 4.2.5. Egyéb részletek.......................... 56 4.3. Eredmények................................ 56 4.3.1. A vizsgált hálózatok....................... 56 4.3.2. Teljesítmény............................ 57 4.3.3. Az algoritmus eredményei példahálózatokon.......... 57 4.4. Az elkészült algoritmusról........................ 58 5. Összefoglalás 61 5.1. Célok és motivációk............................ 61 5.2. A Lázár-féle modularitásról....................... 61 5.3. Köszönetnyilvánítás............................ 62 3

A Fontos fogalmak, jelölések 63 A.1. Gráfok típusai............................... 63 A.2. A fokszám................................. 64 A.3. Legrövidebb út és átmér........................ 65 A.4. Gráfok alapvet metrikái......................... 66 4

1. fejezet Bevezetés particle physics astrophysics graph theory network theory Előfordulás 1,6% 1,4% 1,2% 1,0% 0,8% 0,6% 0,4% 0,2% 0,0% 1930 1940 1950 1960 1970 1980 1990 2000 1.1. ábra. A Google az ngrams projektje keretében mérte az egyes kifejezések el fordulását a nyomtatásban megjelent m vekben. A fenti ábrán a zika egyes népszer ágai mellett feltüntettem a network theory és a graph theory 2-gramok el fordulását is az 1930-as évekt l 2008-ig. (A projektben a 2008-ig megjelent könyveket vizsgálták. A százalékos arány a kifejezést tartalmazó kötetek arányát jelenti. Forrás: books.google.com/ngrams) Év Az elmúlt években jelent sen megnövekedett a hálózatok iránti érdekl dés, amit jól érzékeltet a témában megjelent publikációk száma (1.1. ábra). Érdekes a publikáló kutatók eredeti kutatási területeinek gazdagsága is: zikusok, biológusok, szo- 5

ciológusok, villamosmérnökök, vegyészek, informatikusok, hogy csak a legfontosabb területeket soroljam fel. Ennek oka a hálózat, mint fogalom egyetemes mivolta. Ez az egy egyszer fogalom jelenségek széles skáláját képes hatékonyan leírni mint például a perkoláció, vírus terjedés vagy önszervez dés, ami a sz kebb értelemben a statisztikus zika, tágabb értelemben a természet- és társadalomtudományok kikerülhetetlen eszközévé teszik azt. A természetben meggyelhet, úgynevezett valós hálózatoknak számos olyan tulajdonságát sikerült meggyelnünk, amelyek egyre-másra visszaköszönnek. Ez egyik ilyen tulajdonság a csoportstruktúra, vagyis az a tény, hogy a legtöbb valós hálózat csoportokra - más szóhasználatban modulokra, klaszterekre vagy közösségekre - bontható bizonyos szempontok alapján. Persze az ördög a részletekben rejlik, mivel ezek a bizonyos szempontok nagyon különböz ek tudnak lenni. Gondoljunk csak arra, hogy hányféle szociális vagy gazdasági csoportosulás létezhet az emberek ismertségi hálózatában: családok, iskolai osztályok, munkatársak, focicsapatok, stb. A csoport fogalmára éppen a lehetséges szempontok sokfélesége miatt nem lehet általánosan érvényes deníciót adni. Kés bb látni fogjuk azonban, hogy mégis léteznek olyan tulajdonságok, amelyek minden hálózaton értelmezett csoporton teljesülni fognak: például egy csoport elemei egymáshoz er sebben kapcsolódnak, mint a hálózat többi részéhez. A hálózatokon felvett csoportok érdekes tulajdonsága, hogy általában átfednek, vagyis vannak olyan elemek, amelyek több csoportnak is egyszerre tagjai. Ezen tulajdonság fontosságának a felismerése az utóbbi évek egyik fontos tanulsága [1]. Ennek a dolgozatnak a központi témája az átfed modularitás, vagyis egy olyan mérték, amely segítségével egy valós hálózat egymással átfed csoportjait lehet kvantitatív módon jellemezni, vagy adott esetben a hálózatban csoportokat megtalálni. A dolgozat két részre bomlik. Az els két fejezetben bemutatom a hálózatkutatás jelenlegi helyzetét, és röviden összefoglalom a szakirodalomban fellelhet csoportkeresési eljárásokat. A második részben ismertetem az átfed modularitással, illetve a klikk-perkolációs módszer kritikus pontjával kapcsolatos, az elmúlt másfél évre visszanyúló vizsgálódásainkat, amelyek egy részét azóta témavezet mmel, Palla Gerg vel, és Vicsek Tamás professzor úrral közösen már online publikáltunk [2]. A dolgozatban felmerül alapfogalmakat és jelöléseket a függelék A. fejezetében foglalom össze. 6

1.1. A hálózatkutatás kezdetei A hálózatkutatás a lehet legtömörebben megfogalmazva a komplex rendszerek vizsgálata gráfok segítségével. A hálózatkutatás alapjait a gráfelmélet adja. Az els gráfelmélettel foglalkozó cikk Leonhard Euler az 1736-ban a königsbergi hidakról írt tanulmánya volt 1, melyben egy összetett problémát miszerint létezik-e olyan útvonal amely Königsberg mind a hét hídján egyszer, és csak is egyszer megy át a csúcsok és élek, mint absztrakt fogalmak bevezetésével oldott meg. Magát a gráf kifejezést J. J. Sylvester egy 1878-as, a Nature-ben publikált cikkében vezette be, a kémiában a molekulák ábrázolásához használt diagramok analógiájára. Euler cikke után matematikusok serege kezdte el alkalmazni az újonnan létrejött fogalmi rendszert különféle algebrai, topológiai és kombinatorikai problémák megoldásához. A terület fejl dése a huszadik század elején a kombinatorikai gráfelmélet megjelenésével új lendületet vett, amelyben kiemelked jelent sége van a magyar kutatók hozzájárulásának. Ezt jelzi, hogy az els gráfelméleti kézikönyvet egy magyar tudós, K nig Dénes írta 1936-ban, de a huszadik század legtermékenyebb matematikusa, Erd s Pál is kiemelt gyelmet szentelt a területnek. Az nevéhez f z dik az els véletlen gráf modell, (Erd srényi modell [3]) ami a mai napig használt és fontos eszköz a hálózatkutatók kezében. Erd s hagyatéka a gráfelméletben is meghatározó. Ezt jelzi, hogy több tanítványa, munkatársa nevéhez fontos gráfelméleti tételek f z dnek. Szemerédi Endre idén, 2012-ben Lax Péter után második magyarként nyerte el a matematikai Nobel-díjként emlegetett Ábel-díjat, Erd s Pál és Turán Pál egy kombinatorikai sejtésének bizonyításával. A kezdetekt l fogva folyamatos volt az igény arra, hogy a természetben, illetve a társadalomban meggyelhet nagy (úgynevezett valós) hálózatok kialakulására és fejl désére kielégít modellt alkossunk, meggyeljük ezek legfontosabb tulajdonságait. Az áttörést a kilencvenes évek informatikai forradalma és az internet, mint a legnagyobb ember-alkotta mesterséges hálózat vizsgálata hozta el. A hálózatkutatás leginkább ekkor vált a gráfelmélet alapjain nyugvó, önálló kutatási területté. A valós hálózatokkal kapcsolatos alapvet tudnivalókat foglalom össze az 1.2. alfejezetben. A valós hálózatok legfontosabb vizsgálati eszközei a véletlen gráf modellek, ezekr l az 1.3. alfejezetben írok b vebben. 1 Solutio problematis ad geometriam situs pertinentis 7

1.2. A valós hálózatok 1.2. ábra. Az ismer seim hálózata a myfnetwork Facebook-alkalmazásával megjelenítve. A három, láthatóan jól elkülönül csoport a családom barátai, az egyetemi, illetve a középiskolai ismer seim. Komplex rendszereknek olyan rendszereket nevezünk a zikában, amelyek egymással kölcsönható részekre oszthatók, de a rendszer egésze olyan viselkedést mutat, amely a részek viselkedéséb l nem triviális módon következik. Talán az egyik legszebb példa a sejt, amit végs soron leírhatunk egymással kölcsönható vegyületek összességeként, de egyben mégis az élet elemi egysége. Az egymással kölcsönható részek legegyszer bb absztrakciója a gráf. A gráf minden egyes csúcsa egy-egy részt jelent: egy atomot a molekulában, egy vegyületet a sejtben, egy neuront az idegrendszerben, vagy egy embert a tömegben. A csúcsokat összeköt élek jelentik a kölcsönhatást a komplex rendszer részei között. A hálózatok természetesen a biológián túl a természetes és mesterséges környezetünkben rengeteg helyen el fordulnak. Ugyanilyen komplex rendszer, és így gráfokkal modellezhet a madarak vonulása [4, 5], vagy a tápláléklánc. A mesterséges környezetünkb l kézenfekv példa az internet [6], illetve az interneten jelen lév virtuális hálózatok, mint a WWW, vagy egy letöltés köré szervez d torrent-közösségek. A mérnöki hálózatokra 8

az internethez hasonlóan fontos példa a mikroprocesszorokon a vezetékek és tranzisztorok hálózata, vagy akár a villamos [7], illetve a telefon hálózat[8]. A közlekedésb l kiváló példa Budapest tömegközlekedési hálózata, vagy Magyarország úthálózata. A 2008-ban indult pénzügyi válság újonnan rámutatott a bankszektorban mutatkozó hálózatok (kölcsönök és derivatívák hálózata) fontosságára. A hálózatok és a gráfelmélet a zikával is szoros kapcsolatban van, a két terület rendszeresen merít egymás eredményeib l: A kés bb ismertetend perkoláció a fázisátalakulások els, analitikus módon is egyszer en vizsgálható elméletét adta, míg az Ising-modell, mint a ferromágneses átalakulások modellje egyes csoportkeres eljárásokban (pl. [9]) is visszaköszön. A hálózatkutatás egyik leginkább magától értet d alkalmazási területe a szociológia, ahol a harmincas évek óta szociogramok segítségével vizsgálják egy-egy közösség szerkezetét, illetve a közösségek fennmaradásának vagy bukásának okait. Az internet elterjedése magával hozta a szociális hálózatok tanulmányozásának min ségi változását is; a közösségi oldalakra feltöltött ismertségi kapcsolatokból (1.2. ábra), vagy az e-mail [10] hálózatok vizsgálatával sokat tudhatunk meg az egyén és a társadalom viszonyáról. A fentihez hasonló, valós hálózatoknak általában négy fontos tulajdonsága van (lásd 1.1. táblázat), ezek az alábbiak: 1. A ritkaság, vagyis hogy egy átlagos csúcsnak a hálózat teljes méretéhez képest kevés szomszédja van. Másképpen megfogalmazva a hálózat éls r sége (vagyis annak a valószín sége, hogy két véletlenszer en választott csúcs össze van kötve) kicsi, az átlagos fokszám nem függ a hálózat méretét l. 2. A klaszterezettség, vagyis hogy a csúcsok szomszédai nagy valószín séggel egymással is szomszédosak. Ennek a kritériumnak a gráfelméletbeli megfogalmazása, hogy a hálózat klaszterezettségi együtthatója vagyis a csúcsok szomszédait összeköt élek, és a szomszédok között lehetséges élek hányadosának átlaga jóval magasabb, mint egy megegyez méret és s r ség Erd srényi gráfban. 3. A kis-világ tulajdonság, vagyis hogy két csúcs közötti út hossza jóval elmarad attól, amit szabályos, rácsszer struktúráktól várnánk. Precízebben ez azt jelenti, hogy a hálózatban az átlagos legrövidebb úthossz a rendszer méretének logaritmusával, vagy annál lassabban növekszik. 9

4. A negyedik tulajdonság a skálafüggetlen viselkedés, vagyis hogy egy átlagos csúcs szomszédjainak számában jelent s eltérések mutatkoznak, a fokszámeloszlás jellemz en hatványfüggvény-eloszlást követ. Hálózat N d l l rand C C rand WWW linkek hálózata 153 10 3 35,21 3,1 6,3 0,2 2,3 10 4 Internet, domain szint 6209 4,11 3,76 6,18 0,3 1,0 10 3 Színészek hálózata 2,25 10 5 61 3,65 2,99 0,79 2,7 10 4 Orvosi társszerz ség 1,52 10 6 16,1 4,6 4,91 0,066 1,8 10 4 Matematikusok társszerz sége Ythan torkolat tápláléklánc Silwood park tápláléklánc 7 10 4 3,9 9,5 8,2 0,59 5,4 10 5 134 8,7 2,43 2,26 0,22 0,06 154 4,75 3,40 3,23 0,15 0,03 Elektromos hálózat 4,941 2,67 18,7 12,4 0,08 5 10 3 Szinonimák 2,2 10 4 13,48 4,5 3,84 0,7 6 10 4 C. Elegans gy r sféreg idegrendszere 282 14 2,65 2,25 0,28 0,05 1.1. táblázat. Valós példahálózatok tulajdonságai. N a hálózat csúcsainak száma, d a hálózat koordinációs száma. l az átlagos legrövidebb úthossz, míg C a hálózat klaszterezettségi együtthatója. l rand és C rand ugyanezek a mennyiségek azonos méret és éls r ség Erd s-rényi gráfban. Forrás: [11] A kis-világ tulajdonságot a feljebb már említett Erd srényi gráf is teljesítette. A magas klaszterezettség és a kis világ tulajdonság kapcsolatára mutatott rá Duncan J. Watt és Steven Strogatz, 1998-ban, a Nature-ben publikált cikkükkel [7], míg a skálafüggetlen viselkedésre Albert Réka és Barabási Albert-László 1999- ben megjelent cikkükkel [15] adtak egy lehetséges magyarázatot. Watts és Barabási mindamellett, hogy nagyon eredményes, új paradigmákat vezettek be a hálózatkutatásban, ismeretterjeszt könyveikkel ([12], [13]) segítettek a tágabb társadalom körében is népszer síteni a hálózatkutatást, és kiemelni a hálózatok fontosságát, ami nagy mértékben hozzájárult a terület napjainkban tapasztalható, gyors fejl déséhez. 10

1.3. Véletlen gráf modellek 1.3.1. Erd srényi modell (1959) p=0,02 p=0,04 p=0,078 1.3. ábra. Egy Erd srényi gráf 50 csúcson, különböz p élbekötési valószín ségek mellett. A legnagyobb, ún. óriás komponenst mindenhol fehér csúcsokkal jelöltük. Az els ábrán p = 0,02 a hálózat kritikus pontja. p = 0,04-nél már ez a komponens tartalmazza a házat jelent s részét, egy-egy izolált pont vagy különálló komponens látható csak. p = 0,072-nél a hálózat teljesen összefügg vé válik. Az els, és egyben legismertebb modellt, amellyel a valós hálózatok tulajdonságait próbálták magyarázni, 1960-ban készítette Rényi Alfréd és Erd s Pál [3], amit azóta Erd srényi modellnek, vagy egyszer en klasszikus véletlen gráf modellnek nevezünk. A modellben paraméterként adottak N és p, azaz a gráf mérete, és az élbekötési valószín ség. A gráfot úgy kapjuk, ha minden egyes lehetséges csúcspárját egymástól független, p valószín séggel összekötünk. Erd s Pál és Rényi Alfréd a perkoláció jelensége miatt vizsgálta ezt a modellt [14]. Žk azt a fázisátalakulást vizsgálták, ahogyan a véletlen gráf a p 0 mellett jellemz, nem összefügg elemekb l álló, úgynevezett erd szer struktúrából, a p 1 értékeire jellemz, teljes gráf szer, összefügg struktúrává alakul át. Vizsgálódásuk eredménye az volt, hogy az átalakulás p függvényében nagyon gyorsan, p c kritikus pontban következik be: p c = N 1 (1.1) 11

Ekkor ugyanis N határesetben mindig megjelenik az úgynevezett óriás komponens, vagyis a többi összefügg komponensnél jóval nagyobb összefügg részgráf. Az óriás komponens méretének várható értéke p C -nél N 2/3. Az óriás komponens az élbekötési valószín séget tovább emelve egészen addig növekedni fog, amíg p = = N 1 ln N élbekötési valószín ségnél már az egész gráfot magába nem foglalja. A folyamatot egy ötven csúcsból álló gráfon mutatom be az 1.3. ábrán. Ezen gráf a valós hálózatok szempontjából legjelent sebb tulajdonsága, hogy teljesíti a kis-világ tulajdonságot, mivel a legrövidebb utak átlagos hossza ln N/ ln pn. Ez a gráf rendezetlenségének köszönhet. A csúcsok fokszámeloszlása azonban nem skálafüggetlen, hanem binomiális-eloszlást követ, és az átlagos klaszterezettség megegyezik az éls r séggel. Egyszerre tehát a magas klaszterezettség és a ritkaság nem teljesülhet. Ez utóbbi két tulajdonság hiánya a bels struktúra, a hierarchia vagy a csoportok hiányának következménye. Ezen ellentmondás feloldására a kilencvenes évek végéig várni kellett, amikor is az internet vizsgálatának köszönhet en megjelent két újabb, napjainkig is fontos véletlen gráf modell. 1.3.2. A WattsStrogatz modell (1998) β=0,0 β=0,3 β=1,0 1.4. ábra. Egy WattsStrogatz-féle kisvilág gráf 15 csúcson, K = 4 kezdeti els szomszéd és különböz β élátkötési valószín ségek mellett. β = 0 esetén a kiinduló 2 dimenziós rácsot látjuk. β = 0,3 mellett már megjelennek a véletlenszer átkötések, ami miatt jelent sen lecsökken az átlagos úthossz, míg a klaszterezettség magas marad. β = 1 esetén az eredeti, szabályos struktúra teljesen elt nik. A WattsStrogatz modellben [7] egy olyan N méret szabályos, periodikus rácsból indulunk ki, amelynek minden csúcsának pontosan K szomszédja van. A véletlen 12

gráfot ebb l úgy kapjuk, hogy minden egyes él egy bizonyos végpontját β valószín séggel a gráf egy véletlenszer en kiválasztott, másik csúcsára cseréljük. Egy ilyen hálózat szerkezetét szemléltetem β különböz értékei mellett az 1.4. ábrán. β = 0 esetén a gráf egy szabályos, rács szer struktúrát alkot, az átlagos legrövidebb út ennek megfelel en hosszú, N/2K. β értékét növelve a gráf folytonosan megváltozik, és β = 1 esetén egy Erd srényi gráfhoz nagyon hasonló struktúrájú hálózat alakul ki. A numerikus tapasztalatok azt mutatják, hogy kezdetben az átlagos legrövidebb úthossz gyorsan csökken, míg a klaszterezettség sokáig magas marad, és csak a β = 1-hez közeledve kezd el lecsökkenni. Összefoglalva tehát a modell magától teljesíti a ritkaság kritériumát, ezen kívül választhatók a paraméterei úgy, hogy az egyszerre teljesítse a kis-világ eektust és a magas klaszterezettséget. Emiatt a modell nagyon hasonló a természetben és társadalomban meggyeltekhez. Bizonyos mértékben korlátozza a használhatóságát azonban, hogy a kialakuló hálózat túlságosan homogén struktúrájú, emiatt nem skálafüggetlen a viselkedése. 1.3.3. A BarabásiAlbert modell (1999) Átlagos legrövidebb úthossz 1,59 3,25 N=50 N=35 N=20 1.5. ábra. Egy BarabásiAlbert-féle skálafüggetlen hálózat a növekedés különböz szakaszaiban. Az ábrán az egyes csúcsokat aszerint színeztem, hogy átlagosan hány lépésben érhet el bel le a hálózat többi része. A BarabásiAlbert modellben [15] egy tetsz leges, kis méret gráfból, úgyneve- 13

zett magból indulunk ki. Ezután minden lépésben növeljük a gráf méretét úgy, hogy hozzáadunk egy csúcsot, amit m éllel (m modellparaméter) hozzákötünk a gráf korábbi csúcsaihoz úgy, hogy a régi csúcsok közül mindegyiket a fokszámával arányos valószín séggel választjuk ki. Ennek az algoritmusnak a legfontosabb tulajdonsága, hogy az általa generált gráf fokszámeloszlása γ = 3 exponens hatványfüggvényeloszlást követ. (Kisebb módosításokkal [16, 17] a csúcshoz kötés valószín ségén elérhet ett l eltér paraméter is.) További vizsgálódások azt mutatják, hogy a kialakuló gráf faszer, er sen hierarchikus struktúrát mutat, ahol az öregebb csúcsok hubokként, vagyis magas fokszámú, központi elemekként funkcionálnak. Ezen hierarchikus, fa struktúrának az egyik fontos következménye, hogy az ilyen gráfok rendelkeznek a kis-világ tulajdonsággal. Az átlagos legrövidebb úthossz a modellben: l ln N ln ln N A fa struktúrának másik fontos következménye azonban az, hogy a Barabási Albert modell klaszterezettsége elmarad a valós hálózatokban meggyeltekt l, és pl. m = 2 esetén N 3/4 -nel arányos. A fenti modell két szempontból fontos mérföldk a hálózatkutatásban. Az egyik, hogy a vizsgált gráf tulajdonságait a kialakulásának leírásával próbálja megmagyarázni, ami egy mer ben új koncepció a WattsStrogatz, vagy az Erd srényi modell után. A másik a preferenciális kapcsolódás elve, ami a skálafüggetlen viselkedés megjelenéséhez vezetett, és egyúttal egy lehetséges magyarázata a természetben oly sok helyen felbukkanó skálafüggetlen eloszlásnak. Hiányossága azonban, hogy nem ad kielégít magyarázatot a valós hálózatok magas klaszterezettségére. 14

2. fejezet Csoportkeresési eljárások A valós hálózatoknak egy fontos tulajdonsága, hogy csoport szerkezettel bírnak. Tulajdonképpen az összes valós hálózatban meggyelhet k csoportok: sejtcsoportok, szócsokrok, szociális közösségek, törzsek, országok, protein komplexek, falkák és csordák, és még sorolhatnám. A csoportok annyira gyakoriak, hogy a különböz típusú hálózatok klasztereire különböz szavaink vannak. Ha azonban általános de- níciót kéne adnunk arra, hogy mi is egy csoport, annyit tudnánk csupán mondani, hogy hasonló tulajdonságú elemek halmaza. A milliónyi csúcs és él feldolgozása komoly számítástechnikai kihívást is jelent. Egy ekkora adathalmaz kezelése, felfogása is közel lehetetlen. Az ilyen jelleg problémákat csak adatredukcióval lehet kezelni. Hálózatok esetén ez úgy lehetséges, ha renormáljuk a hálózatot, vagyis az eredeti hálózat alapján elkészítünk egy új hálózatot, amiben minden egyes csúcs az eredeti hálózatban a hasonló tulajdonságú vagy funkciójú csúcsok egy csoportját jelenti. Az ilyen módon nyert hálózat sok tekintetben tükrözi az eredeti hálózat tulajdonságait, ezen kívül jelent sen megkönnyítheti bizonyos problémák kezelését. Éppen emiatt hálózatkutatáson belül a csoportkeresés központi jelent séggel bír. Különösen érdekessé teszi a problémát, hogy a hálózatkutatásban nem létezik a csoportokra adható egyetlen, univerzális deníció. Ennek egyik oka, hogy a különböz valós hálózatokban alkalmazott mérési és adatgy jtési technikák eltér ek lehetnek, ami sokszor abban nyilvánul meg, hogy két csúcs közötti él jelentése modellr l modellre változhat. Másrészt a valós hálózatokban kialakuló csoportosulások funkciói, a kialakuló kollektív viselkedés bels és küls okai is eltér k lehetnek. 15

Ezek miatt az okok miatt sok deníció és algoritmus jelent meg, amelyek ezt a problémát igyekeznek megoldani. A csoportok megközelítése is változott az id k folyamán. Kezdetben a kombinatorikus gráfelmélet alapjain f leg a gráfok optimális particionálásait keresték, vagyis a csúcsokat igyekeztek úgy csoportokba sorolni, hogy egy csúcs ne lehessen két csoportnak egyszerre tagja. Az ilyen partíciók jellemz en valamilyen tulajdonságot (legkézenfekv bb a csoportok közötti élek száma) minimalizáltak. Mint arra többek között Palla Gergely és kollégái [1] is rámutattak, a valós hálózatok csoportjai nem ilyenek, hanem jellegükb l adódóan is átfed ek. Ha a csúcsokat nem átfed csoportokba próbáljuk beleer ltetni, akkor sokszor alapvet információkat veszítünk az eredeti hálózat szerkezetér l. Az alábbi fejezet célja ezen fogalmak az átfed, és a nem átfed csoportok áttekintése, és összefoglalása. Ebben nagy segítséget jelentett Santo Fortunato 2010-ben megjelent összefoglaló cikke [18]. Az átfed - és nem-átfed csoport deníciók külön-külön is három, többé-kevésbé elkülönül kategóriába sorolhatók. Az els kategóriába tartozó módszerek egy egzakt, matematikai deníciót választanak a csoport fogalmának, ezek az úgynevezett lokális deníciók, ilyenekkel találkozhatunk a 2.1 alfejezetben. A második, tágabb kategóriába sorolhatók azok a módszerek, amelyeknél a csoportoknak egy egyértelm deníciót adni nehézkes lenne, emiatt a szerz k a csoportokat megtaláló algoritmussal deniálják az általuk bevezetni kívánt csoport fogalmát. Ezek közül a fontosabb, mai napig használt módszereket mutatom be a nem átfed csoportokra, illetve az átfed csoportokra a a 2.2., illetve a a 2.4. fejezetekben. Bár lokális csoport deníciót ad, metodikája miatt mégis ez utóbbi fejezetben ejtek pár szót a CFinder-r l, mint az ELTE TTK Biológiai Fizika Tanszéken kifejlesztett, és nagyon elterjedt módszerr l, melyr l dolgozatom kés bbi részeiben b vebben is szót ejtek. A csoportok keresésének harmadik módszere, hogy egy, a csoportfelbontás min ségét kvantitatívan jellemz, mérhet mennyiség optimalizációjával próbáljuk meg elérni a megfelel csoportfelbontást. Az ilyen mennyiségeket összefoglaló névvel modularitásnak nevezzük. A modularitás fogalmak se a Newman-féle modularitás [19], amelyet nem-átfed csoportok jellemzésére használunk. A fogalomról részletesebben írok a 2.3. alfejezetben. Átfed csoportok jellemzésére is találtak ki hasonló fogalmakat, és jelen diplomamunka egyik legfontosabb feladata ezeknek a fogalmak- 16

nak a mélyre ható vizsgálata. A szakirodalomban megjelent átfed modularitás fogalmakat kívánja összefoglalni a 2.5. alfejezet, különös tekintettel a tanszékünk munkatársainak eredményére [20], amelyre a kés bbiekben Lázár-féle modularitásként fogok hivatkozni. A diplomamunkám egyik legfontosabb célja az ezen modularitást optimalizáló módszerek megalkotása. 2.1. Lokális csoport deníciók A legáltalánosabban három feltételt támasztunk a csoportokkal szemben, és ezek a nagy éls r ség, az összefügg ség, illetve a hálózat többi részét l való viszonylagos függetlenség, vagy másképpen az alacsony kimen fokszám. Ez a három tulajdonság szorosan összefügg egymással, bár nem következményei egymásnak. Például egy magas éls r ség részgráf valószín leg összefügg is. Fontos azt is észrevenni, hogy nem szükséges ismernünk a gráf egészét ahhoz, hogy a három tulajdonság teljesültét ellen rizhessük egy adott részgráfra és környezetére. Ezt gyakran a vizsgált csoportfogalommal szemben támasztott negyedik elvárásban, a lokalitásban fogalmaznak meg. A hatvanas-hetvenes években a szociológiában kialakult lokális csoport deníciók ezt a gondolatmenetet követve próbálnak egy olyan, könnyen megfogható deníciót adni, amely ha a hálózat egy részgráfjára fennáll, akkor teljesíti a fenti három kritériumot. Ezek a deníciók kis hálózatokon jól használhatók, nagy hálózatokon azonban rendszerint túlságosan szigorú feltételeket támasztanak, bár kétségtelen el nyük, hogy átfed csoportokat adnak. Ezeket a deníciókat [18] alapján a 2.1. táblázatban foglaltam össze, itt külön csak a klikkekkel foglalkozom, kiemelked jelent ségük miatt. Egy szociális hálózatban kiindulhatunk abból, hogy egy baráti körben mindenki ismer mindenkit. Ha felrajzoljuk az ismertségi hálózatot, akkor ez azt jelenti, hogy a csoportok teljes részgráfokat jelentenek. Ezeket a csoportokat röviden klikknek nevezzük. A maximális klikkek (olyan klikkek, amelyek csúcsait nem tartalmazza egy nagyobb klikk) megtalálása NP-teljes probléma, s gyakorlatban azonban valós hálózatokra a ritkaságuk miatt a BornKerbosh algoritmus [21] általában gyorsan eredményt ad. A klikkek legfontosabb tulajdonsága, hogy az éls r ségük 1. Mivel mindegyik 17

klikk n-klikk n-klán n-klub k-plex k-core LS-set Gyenge csoport Lambda-set Maximális teljes részgráf. Azon csúcsok halmaza, amelyek egymástól vett távolsága legfeljebb n. (Egy n-klikk két csúcsa közötti legrövidebb útnak tehát nem kell a csoportban futnia.) Legfeljebb n átmér j n-klikk. N átmér j maximális részgráf. Olyan n méret részgráf, amelyben bármely csúcs legfeljebb k másik csúccsal nem szomszédos. Olyan n méret részgráf, amelyben bármely csúcs legalább k másikkal szomszédos. Olyan részgráf, amelyben bármely csúcs-csoport fokszáma nagyobb a teljes fokszámának felénél, azaz több éllel köt dik a halmaz többi részéhez, mint a halmazon kívüli csúcsokhoz. Olyan részgráf, amelynek a bels fokszáma nagyobb, mint a küls fokszáma. Olyan részgráf, amelyben bármely két csúcs közötti független utak száma magasabb, mint az egyik csúcs és bármely, a lambda-set-en kívüli csúcs közötti független utak száma. 2.1. táblázat. Lokális csoport deníciók összefoglaló táblázata [18] alapján. csúcs mindegyik másikkal kapcsolatban áll, így a legrövidebb utak hossza, és a klikk átmér je is 1. Egy klikkben, mint feszített részgráfban a csúcsok teljesen ekvivalensek. Mindemellett a maximális klikkek természetesen át tudnak fedni egymással. Az egyetlen kritérium, aminek a maximális klikkek nem felelnek meg, az a kis kimen fokszám. Ennél komolyabb probléma, hogy nem jelentenek túl robusztus csoport deníciót: Amennyiben egy maximális klikkb l például egy mérési hiba miatt egyetlen él hiányzik, az szétesik két különálló maximális klikkre, amelyek egyetlen csúcsban különböznek egymástól. Célravezet ek tehát az olyan csoportfogalmak, amelyek a klikkek fogalmát úgy lazítják fel, hogy az eredményképpen létrejöv csoportok kimen fokszáma csökken, de a kapott csoport mégis klikkszer 18

marad. 2.2. Elterjedt algoritmusok nem-átfed csoportok keresésére A nem-átfed csoportok keresése mögötti motiváció többnyire az, hogy megadjuk a csúcsok egy olyan osztályozását, amivel valamilyen jól mérhet, fontos mennyiséget optimalizálunk. Az, hogy mi az optimalizálandó mennyiség, függ a hálózat típusától, és az elvégzend feladattól. Amennyiben ez a mennyiség a csoportok között futó élek számával, vagy összsúlyával arányos, és a csoportok mérete, vagy száma x, particionálásról beszélünk. Amennyiben az egymáshoz hasonló csúcsokat próbáljuk megtalálni, klaszterezésr l beszélünk. A hierarchikus klaszterezés célja többnyire egy gráf csoportstruktúrájának (azaz az egymást tartalmazó, egyre nagyobb csoportok) feltérképezése. 2.2.1. Particionálás Elektronikus áramkörök tervezésénél például érdekes lehet az a kérdés, melyik lapkára melyik áramköri elemek kerüljenek ahhoz, hogy a lapkák között minimális számú vezeték fusson. Egy nagyobb program párhuzamosításánál fontos kérdés, hogy lehetséges-e a futó szálakat úgy szétosztani az egyes magok között, hogy minimális legyen közöttük a kommunikáció. Ehhez egy hasonló, bár majdnem ugyanolyan fontos probléma, amikor egy esküv tervezésénél hogyan ültessük le a vendégeket úgy, hogy az egymást ismer személyek egy asztalhoz kerüljenek. A fent felsorolt problémák közül az els kett nél a csoportok száma el re adott, és az els esetben a csoportok közötti élek számát, a második esetben pedig a köztük lév kommunikáció volumenét (azaz az élek súlyának összegét) szeretnénk minimalizálni. A harmadik példánál x méret csoportok mellett igyekszünk a csoportok között futó élek számát minimalizálni. Az ilyen jelleg problémákat nevezi a számítástudomány összefoglaló néven particionálási problémának. Ezek megoldása többnyire NP-nehéz, de ügyes heurisztikákkal gyakran optimális, vagy közel optimális eredmények érhet k el polinomiális id alatt. A legegyszer bb feladat, ha egy összefügg gráfot két részre szeretnénk vágni 19

úgy, hogy a részgráfok közötti élek száma minimális legyen, vagyis egy minimális biszekciót keresünk. A KernighanLin algoritmus [22] ezt a feladatot egy mohó optimalizációval N 2 log N komplexitás mellett képes elvégezni. Az algoritmus iteratív módon minden lépésben megkeresi azokat a csúcsokat, amelyeket a másik csoportba helyezve a legnagyobb mértékben képes növelni a biszekció méretéb l, és a csúcsok bels fokszámából felállított tness-függvény mértékét. A másik híres megoldása a problémának a spektrális biszekció módszere, melynek során a hálózat Laplace-mátrixának (L ij = d i A ij, ahol d i fokszám, A ij szomszédsági mátrix) Fiedler-vektorának 1 adott csúcson felvett értékének el jele alapján döntjük el, hogy az adott csúcs melyik csoportba kerül. 2.2.2. Hierarchikus klaszterezés Vizsgáljuk meg gondolatban egy ország úthálózatát. Egy városon belül több út, vagy utca található, amelyek rendszerint kisebb forgalmat bonyolítanak le. A városokat, vagy városrészeket ezzel szemben kevesebb de forgalmasabb útvonalak, f utak és autópályák kötik össze. Egy másik idevágó példa az internet, ahol az autonóm rendszereken, vagy akár lokális hálózatokban az egyes eszközöket (routereket, szervereket) több vezeték is összeköti egymással, míg az alhálózatok egymással kevesebb, de egyenként nagyobb sávszélesség vonallal kapcsolódnak egymáshoz. Ford és Fulkerson max-ow min-cut tétele [23] alapján egy ilyen, forgalmon alapuló hálózatban két csomópont között a legsz kebb keresztmetszet összkapacitása (minimal cut) forgalom korlátozza az egész hálózat átereszt képességét (maximal ow). Ilyesformán a legforgalmasabb élek azonosításával egy olyan heurisztikához juthatunk, amivel könnyebben megtalálhatjuk a fontos csoportokat összeköt éleket. Másképpen megközelítve, amennyiben szisztematikusan mindig a legnagyobb forgalmú éleket távolítjuk el, a hálózat szétesik er sen összefügg komponensekre, amelyeket a robosztusság alapú megközelítést követve könnyen azonosíthatunk csoportokként. Az ilyen típusú algoritmusokat divizív hierarchikus klaszterez algoritmusoknak nevezzük. Divizív, mivel a teljes összefügg gráfot élek eltávolításával egyre több komponensre bontjuk, és hierarchikus, mivel egy komponens mindig két különböz komponensre esik szét. Ennek a folyamatnak az ábrázolásai a dendrogramok. Egy ilyen dendrogram látható a 2.1. ábrán. 1 a második legkisebb magnitúdójú sajátértékhez tartozó sajátvektor 20

2.1. ábra. Zachary karate klub hálózata, és a hozzá tartozó dentogram shortest path betweenness esetére, bal oldalt az egyes felbontásokhoz tartozó modularitással. Forrás: [24] Amennyiben nem állnak rendelkezésünkre forgalmi adatok, úgy becsülnünk kell ket. A szakirodalom számtalan módszert ismer az élek fontosságának becslésére, melyek alkalmazási területben és algoritmikus komplexitásban is széles spektrumot fednek le. Az egyik leggyakrabban használt ezek közül a GirwanNewman módszer [24], amely az egyes éleken áthaladó legrövidebb utak számát számolja össze. (Az úgynevezett shortest path betweenness-re egy igen gyors - O(V E) - komplexitású algoritmust ad meg [25].) De léteznek mér számok a csúcsok fontosságának mérésére is. Mivel a divizív hierarchikus algoritmusok minden egyes lépésben újra és újra kiszámítják ezeket a mennyiségeket, ezért a megfelel mennyiségek alkalmazási területét leginkább a komplexitásuk határozza meg. Mindezzel ellentétes megközelítés az agglomeratív hierarchikus klaszterezés. (Meg kell azt is jegyeznem, hogy hierarchikus klaszterezés alatt sz kebb értelemben általában agglomeratív hierarchikus klaszterezést értünk.) Itt el ször valamilyen metrikus térbe ágyazzuk be a gráf csúcsait, például a szomszédsági mátrix megfelel vektorainak a hasonlósága alapján. Ezt a hasonlóságot természetesen többfajta mérték is kifejezheti. Ezek után mindig a leghasonlóbb csúcsokat összevonva egyre nagyobb klasztereket építünk, a klaszterek tulajdonságait és távolságát egy megfelel en kiválasztott módon számolva, míg végül az egymáshoz hasonló összes csoportot összevonva egy nagy klasztert alkot az egész gráf. 21

2.3. A modularitás A hálózatok méretével a hálózatban lehetséges csoportok száma exponenciálisnál is gyorsabb ütemben növekszik. A dendrogramok lehet séget adnak ezen csoportok közötti összefüggések megismerésére, de felvet dik a kérdés, hogy hol van az a pont, ahol a klaszterek a hálózatot legjobban jellemz csoportokat jelentik? Ezt a kérdést igyekeznek orvosolni az egyes modularitás mennyiségek. A modularitás szó olyan mennyiséget jelent, amely hálózatok csoportfelbontásának min ségét hivatott kvantitatív módon jellemezni. Ezek közül kiemelkedik a Michelle Girvan és Mark Newman [19] által alkotott fogalom. Foglaljuk össze egy gráfról alkotott ismereteinket P ij a priori valószín ségekkel. P ij megadja, hogy amennyiben az adott gráf topológiáját nem ismerjük, mekkora annak valószín sége, hogy i és j csúcsok szomszédosak. Az ezen a priori valószín ség megalkotására létrehozott modellt nullmodellnek nevezzük. A nullmodell alapján a Newmann-féle modularitás alakja irányítatlan hálózatokra a következ : Q N = 1 2M v i,v j (A ij P ij )δ(α i, α j ) (2.1) Ahol M jelenti a hálózat éleinek számát, A ij a szomszédsági mátrixot, α i és α j az i., illetve j. csúcsok csoportját, amelyekre δ(α i, α j ) = 1 akkor, ha α i = α j, különben δ(α i, α j ) = 0. A ij δ(α i, α j ) = d αα tulajdonképpen megadja a csoport bels fokszámát, míg P ij δ(α i, α j ) annak várható értékét a nullmodellben. Végeredményben Q N tehát egy szám a [ 1, 1] intervallumban, ami azt fejezi ki, hogy hogyan alakul a csoportok bels fokszáma a nullmodellben várható bels fokszámához képest. Vegyük nullmodellnek azt az esetet, hogy egy él a fokszámával arányos mértékben van összekötve bármely másik csúccsal. Ezt a nullmodellt kongurációs modellnek hívjuk, mert egyenérték azzal a sokasággal, amit az eredeti gráf éleinek végpontjainak véletlenszer cserélgetésével kapunk. Ekkor P ij = d i d j /2M, amit felhasználva Q N modularitást már kétféleképpen is felírhatjuk: Q N = 1 2M v i,v j ( A ij d ) id j δ(α i, α j ) = 2M α ( ( ) ) 2 d αα 2M dα 2M (2.2) Ahol a második szumma a csúcspárok helyett már az egyes csoportokon fut végig. d αα, az adott csoport bels fokszámát, d α a teljes fokszámát jelenti. A mennyisé- 22

2.2. ábra. Két, húsz csúcsból álló Erd srényi gráf p = 0,13 és p = 0,22 élbekötési valószín ségekkel, ahol a CPM (k = 3) csoportokat szürke és fekete jelöli. Mindkét Erd srényi gráf perkolál, viszont a 3-klikkek hálózatán a kritikus élbekötési valószín ség p x 0,16, ami miatt a jobb oldali ábrán a csúcsok nagy része egy nagy közösségbe állt össze. Forrás: [29] get a szerz k el ször különböz betweenness mennyiségekkel kombináltan hierarchikus klaszterezésre mutatták be (a már említett GirwanNewman módszer ben, [24]), majd Newman egy agglomeratív, úgynevezett gyors módszert is bemutatott [26], amely már közvetlenül ezt a mennyiséget optimalizálta. A modularitásnak számos olyan vonzó tulajdonsága van, ami központi jelent ség vé teszi azt a nem-átfed csoportok keresésében. Azonban fontos megemlíteni a korlátait is. Mint azt Fortunato [27] kiemeli, a modularitás globális optimalizációja elfedi a kis M nagyságrend (M a hálózat éleinek száma) csoportokat, mivel ezek a csoportok összeolvadnak egy-egy nagyobb csoportba, és nincsen semmilyen lehet ség arra, hogy ezeket egymástól szétválasszuk. Ez a valós hálózatoknál, ahol a kis méret csoportok a nagy csoportok mellett nagy számban el fordulnak, komoly probléma. Egy új paraméter bevezetésével, vagy a képlet módosításával [28] a felbontási határ állíthatóvá válik, de teljesen sosem szüntethet meg. 23

2.4. A klikk-perkolációs módszer A csoportok közti átfedések fontossága miatt az utóbbi id ben számos átfed módszer is született [30, 31, 9, 32], ezek között az egyik els és talán a legnépszer bb a CPM, vagyis a klikk perkolációs módszer, amit a CFinder nev program [33] implementál. A módszer els lépése az eredeti hálózat alapján a k-klikkek (k méret teljes részgráfok) hálózatának felvétele. A k-klikknek hálózatában minden csúcs egy klikknek felel meg, és két csúcs akkor szomszédos, ha a két klikk k 1 elemben átfed egymással. A módszer alapján a hálózat csoportjai a k-klikkek hálózatának összefügg komponensei. A módszer m ködését a 2.2. ábra szemlélteti. A perkoláció, mint azt már említettem, az a jelenség, ahogyan egy nem összefügg gráf élbekötési valószín ségét növelve az hirtelen összefügg vé válik. A [29] cikk alapján Erd srényi hálózatok k-klikk hálózatán ez a folyamat ugyanúgy lejátszódik, mint az eredeti hálózaton, és az élperkolációra kapott 1.1. egyenlettel konzisztensen a perkolációs küszöb: p c (k) = 1. (2.3) [(k 1)N] 1/(k 1) Mivel egy csúcs egyszerre több klikknek is eleme lehet, a fent részletezett módszer nyilvánvalóan átfed csoportokat ad. Mivel a CPM klikk-keresésen alapul, így exponenciális a várt futásideje. Valós hálózatokon ennek ellenére igen gyors, és emiatt nagyon elterjedt algoritmus a hálózatkutatásban. Az elterjedtségének egy másik oka a robusztussága: A módszer által a csoportokra adott deníció lokális, vagyis a hálózat egy részének megváltoztatása nincsen semmilyen hatással a hálózat távoli részeinek csoportfelbontására. A CPM sikerének harmadik oka a paraméterezhet sége. A módszert kiterjesztették (a [34] és a [35] cikkekben) irányított és súlyozott hálózatokra is, habár a gyengébb élek elhanyagolásával adott a lehet ség súlyozott hálózatok súlyozatlanná tételére is. 24

2.5. Átfed modularitás fogalmak 2.5.1. A Newman-féle modularitás általánosításai A Newman-féle modularitás mintájára különböz szerz k igyekeztek az átfed csoportok jellemzésére különböz modularitás fogalmakat bevezetni. Az egyik legkézenfekv bb megoldás a Newman-féle modularitás általánosítása az alábbi módon [36]: Q = 1 2M α {i,j} ( A ij d ) id j u αi u αj, (2.4) 2M ahol a korábbiakhoz hasonlóan d i az i. csúcs fokszáma, 2M = i d i, és α index a csoportokon fut végig. u αi a csoporthoz tartozás mértékét fejezi ki, és fuzzy csoporttagsági mátrixnak nevezzük. Bevezetve s ij = α u α i u αj skalárszorzatot a fenti képlet az alábbi, egyszer bb alakot ölti: Q = 1 2M {i,j} ( A ij d ) id j s ij, (2.5) 2M Nepusz és munkatársai [36] bemutattak egy h kezeléses eljárást Q közvetlen optimalizációjára a u αi mátrix függvényében. Egy fontos megállapításuk, hogy u αi csak akkor értelmezhet, ha kikötjük α u αi = 1 peremfeltételt. Egy másik lehetséges módszer, hogy a boolean csoporttagsági mátrix függvényeként határozzuk meg az u αi értékeket. Az egyik legkényelmesebb ilyen jelleg megoldás Hua-Wei Shen nevéhez köthet [37], aki egyszer en az alábbi módon deniálta az u αi mátrixot: u αi = B αi q i, (2.6) ahol a B αi boolean csoporttagsági mátrix értéke 1, ha i α, különben 0. q i = = c Bc i a csúcs úgynevezett degeneráltsága. Ez a módszer tehát úgy szorítja meg a megoldások terét, hogy egy csúcs számára minden lehetséges, a csúcsot tartalmazó csoport egyenrangú. Szintén Shen nevéhez f z dik a módszer, ahol u αi -t a teljes klikkekb l kiindulva számolja ki a fuzzy tagsági mátrix elemeit [38]: 25

u αi j α O α ij O ij A ij (2.7) Ahol O ij az (i, j) élt tartalmazó maximális klikkek számát, míg O α ij az α csoporton belüli, (i, j) élt tartalmazó maximális klikkek számát jelenti. A fenti képlet el nye, hogy a csoporttagság additív mennyiség lesz, azaz u α β,i = u αi + u αj. Chen [39] abból indul ki, hogy a csúcs-csoport bels fokszám fejezi ki leginkább a csoporthoz tartozás mértékét: u αi d αi (2.8) A tapasztalat azonban azt mutatja (a 3.1.3. fejezetben külön foglalkozom a kérdéssel), hogy az eltér súlyozásokkal kapott modularitás értékek nem térnek el egymástól jelent s mértékben. 2.5.2. A Lázár-féle modularitás Egyes szerz k [31, 30] bizonyos kezdeti, nem átfed csoportokból kiindulva a csoportok valamilyen fontos tulajdonságának lokális minimumát megtalálva keresnek átfed csoportokat. Ilyen mennyiség lehet a csoport éls r sége, vagy a bels fokszám és a teljes fokszám aránya. A Lázár-féle [20] modularitás egy csoportfelbontás min ségét úgy jellemzi, hogy a benne található csoportok fontos jelz it kombinálva ad egy kifejez mér számot. A teljes képlet megértéséhez célszer egyesével végigvenni ezeket a mennyiségeket. Ha jellemezni szeretnénk egy csúcs és egy csoport kapcsolatát, azt legkönnyebben két mér számmal tehetjük meg. Az els a csúcs-csoport fokszám és a csúcs fokszámának hányadosa. Ez a szám 0 és 1 közötti értékeket vehet fel. Ha értéke 0, úgy a csúcs izolált a csoporttól, és biztosak lehetünk benne, hogy nem tagja annak. Ha értéke 1, úgy minden éle az adott csoportba tart, tehát joggal elvárható a csúcstól, hogy eleme legyen annak a csoportnak. Lázár és munkatársai ennél egy szorosabb feltételezéssel éltek. Szerintük egy csúcs éleinek els sorban egy csoportba kell tartania ahhoz, hogy biztonsággal kijelenthessük, hogy az adott csúcs tagja annak a csoportnak. Ezt a feltételt biztosíthatjuk úgy, ha az egyszer hányados helyett az alábbi mennyiséget használjuk: 26

v j α A ij v j / c A ij d i = 2 d αi d i 1 (2.9) A másik ilyen mennyiség a csoport éls r sége, vagyis ρ α = 2M α /N α (N α 1). E két mennyiség szorzata már eléggé jó jellemzését adja egy csoportnak. Közvetlen optimalizációja azonban ebben a formában még nem lehetséges; ennek az oka, hogy semmi sem zárja ki egy jó modularitású csoport esetén a degenerált csoportok vagyis a közel, vagy teljesen azonos csoportok párhuzamos megjelenését egy hálózatban. Ennek a problémának az orvoslására Lázár és munkatársai egy csoport modularitását az alábbi módon határozta meg: Q α L = [ 1 N α v i α v j c A ij v j / c A ] ij d i q i 2M α N α (N α 1), (2.10) ahol q i az i. csúcs degeneráltsága, vagyis a csoportfelbontásban hozzá rendelt csoportok száma, N c pedig a csoport csúcsainak száma. Jó kérdés, hogy a csoportok modularitásából hogyan keverjük ki a csoportfelbontás modularitását. Az eredeti cikkben a szerz k a Q α L mennyiségek egyszer átlagát javasolják, azaz: Q L = 1 Q α L (2.11) K ahol K a csoportok teljes száma. A gyakorlati tapasztalatok azonban azt mutatják, hogy ez félrevezet eredményre vezet. Ennek a problémának a megoldására a 3.1.2. fejezetben adok megoldást. α 27

3. fejezet A k-klikk perkoláció kritikus pontjának vizsgálata Amennyiben súlyozott hálózatban szeretnénk csoportokat keresni, azonnal beleütközünk a problémába, hogy a legtöbb csoportkeres eljárást súlyozatlan hálózatokra találták ki. Ilyenkor az egyik legkézenfekv bb megközelítés az élek súlyára egy alsó küszöböt bevezetni, azaz egy gondosan kiválasztott küszöbérték alatti súlyú, így kevésbé fontos éleket eldobni, és a megmaradt élekkel pedig egységes súllyal továbbszámolni. Ha a klikk-perkolációs módszert egy elégségesen s r hálózaton próbáljuk a fenti módszerrel alkalmazni, egy érdekes dilemmával szembesülünk: Ha túl magas küszöbértéket állítunk be, úgy sok fontos információt dobunk el, ami a gyakorlatban úgy jelentkezik, hogy az eljárás csak néhány, kis méret csoportot fog megtalálni. Amennyiben viszont túl alacsony küszöbértéket alkalmazunk, elégségesen s r hálózatban a k-klikkek hálózata összefügg vé válik, vagyis az összes k-klikk egyetlen CPM csoportot fog alkotni. Mivel a küszöbérték mind a két széls értéke mellett rossz min ség csoportfelbontás jelentkezik, az intuíciónk azt súgja, hogy kell léteznie egy optimális küszöbértéknek, ráadásul ennek a küszöbértéknek valamelyest nagyobbnak kell lennie, mint annak a pontnak, ahol a k-klikkek hálózata összefügg vé válik. Az egyik feladatom az volt, hogy megvizsgáljam, tényleg létezik-e optimális küszöbérték, és ez tényleg a kritikus pont környékén jelentkezik-e. Az alábbi fejezetben tehát ismert valós hálózatokon megvizsgálom, hogy jelentkezik-e bennük a k-klikk perkoláció jelensége, és 28

ha igen, a fent ismertetett átfed modularitás mennyiségek közül néhány segítségével megvizsgálom, hogy a kritikus pont környékén a CPM optimális felbontást ad-e. 3.1. Vizsgálati módszerek 3.1.1. A kritikus pont meghatározása Ahhoz, hogy megállapítsuk, hogy k-klikkek hálózata egy adott alsó küszöbérték mellett perkolál-e, két mennyiséget célszer vizsgálni. Az els a legnagyobb csoport mérete (N G ) a teljes csoportlefedés méretéhez (N C ) képest; azt várjuk ugyanis, hogy egy id után az egész hálózat egyetlen óriás komponensb l fog állni. Ennek megfelel en az alábbi mennyiségeket vizsgáltam: S G = N G N, illetve S C = N C N, (3.1) A másik lehet ség a csoportméretek szórásának vizsgálata: A perkolációs átalakulás alatt a csoportméret-eloszlás skálafüggetlen, így szórása a végtelenbe tart. A csoportméret-eloszlás szórása helyett az ún. módosított szórását szokás vizsgálni, azaz a csoportméretek gigantikus komponens nélküli szórását. Ez a mennyiség a maximumát a gigantikus komponens megjelenésekor veszi fel, így kiválóan nyomon követhet rajta a hálózat fázisátalakulása. Ezt a mennyiséget történeti okokból szuszceptibilitásnak szokás nevezni, és emiatt a jele χ. χ = N 2 α α αg N α α α G 2, (3.2) 3.1.2. A Lázár-féle modularitás vizsgálata Amennyiben alkalmazni szeretnénk a Lázár-féle modularitást a CFinder csoportfelbontások min ségének jellemzésére, újabb problémákba ütközünk. Ezek a problémák az alábbiak: Mi történik azokkal a csúcsokkal, amelyek nem szerepelnek egyetlen csoportban sem? Milyen súlyozást használjunk a csoportok modularitásának kiszámításához? 29

Hogyan vegyük gyelembe az élsúlyokat? Egy hálózat csoportfelbontásától azt várjuk, hogy az eredeti hálózat topológiai információit tömöríti. Ha a modularitás egy valós szám [ 1, 1] halmazon, akkor azt várjuk, hogy egyfajta korrelációs együtthatóhoz hasonlóan a magnitúdója arányos lesz a hálózatról szolgáltatott információ mennyiségével, illetve arányos lesz azzal is, hogy ez az információ mennyire helytálló. Pontosabban amennyiben az élek a csoportokon belül futnak, úgy a csoportok alapján a topológia jól becsülhet, és a modularitás el jele is pozitív. Amennyiben az élek a csoportok között futnak, a csoportfelbontás inkább dezinformációt hordoz, emiatt azt várjuk, hogy a modularitás el jele negatív lesz. A Lázár-féle modularitással az eredeti deníció szerint, a csoportok modularitásának egyszer átlagolásával az a probléma, hogy az els kívánságunkat nem teljesíti. Extrém esetben például elképzelhet, hogy a hálózatban egyetlen klikket ismerünk fel csoportként. Ekkor a modularitásra egy magas értéket kapunk, annak ellenére, hogy a gyakorlatban ez a felbontás nem sok információt hordoz az eredeti hálózatról. Ezt az problémát kiküszöbölhetjük azzal, ha az egyszer átlagolás helyett egy olyan súlyozott átlagot alkalmazunk, ami kifejezi az egyes csoportok méretét az egész hálózathoz képest. Az elemzéseimben tehát a Lázár-féle modularitás (2.11. képlet) módosított alakját alkalmaztam: ˆQ L = α v i α q 1 i Q α N L, (3.3) ahol q i v i csúcs csoportjainak száma, v i α q 1 i az α csoport redukált mérete (azaz az egyes csúcsokból a csoportokba jutó töredék részek összege), N pedig a szokásos módon a teljes gráf mérete. A fenti kifejezés el nye, hogy ez már arányos a csoportfelbontás által lefedett csúcsok számával, ezen kívül gyelembe veszi, hogy a nagyobb csoportok nagyobb mértékben járuljanak hozzá a teljes modularitáshoz. Amennyiben a fenti módon számoljuk a modularitást, úgy a nem lefedett csúcsok kérdése okafogyottá válik; ezek a csúcsok úgy viselkednek, mintha egy 0 modularitású - vagyis semmilyen információt nem hordozó - csoport elemei lennének. Az egyetlen megmaradt kérdés, hogy hogyan vegyük gyelembe az élsúlyokat. Bár d αi /d i mennyiségekben a fokszámokat gond nélkül kicserélhetnénk az élsúlyok 30