Szociális hálózatok Gráf alapú módszerek. Adatbányászat. Klaszterezés Szociális hálózatok. Szegedi Tudományegyetem. Adatbányászat

Hasonló dokumentumok
Adatbányászat. Klaszterezés Szociális hálózatok Szegedi Tudományegyetem

Szalai Péter. April 17, Szalai Péter April 17, / 36

Közösség detektálás gráfokban

7. Régió alapú szegmentálás

Diszkrét matematika 2. estis képzés

A segédletben található esetleges hibákkal kapcsolatos visszajelzéseket szívesen veszem.

Diszkrét matematika 2.C szakirány

Diszkrét matematika 2.C szakirány

Diszkrét matematika 2.

Összefoglalás és gyakorlás

Csima Judit BME, SZIT február 18.

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

1. tétel - Gráfok alapfogalmai

Véletlen gráfok, hálózatok

Diszkrét matematika 2. estis képzés

Algoritmuselmélet. Gráfok megadása, szélességi bejárás, összefüggőség, párosítás. Katona Gyula Y.

Közösségek keresése nagy gráfokban

Gráf-algoritmusok ERŐS / GYENGE KÖTÉSEK

Algoritmuselmélet. Mélységi keresés és alkalmazásai. Katona Gyula Y.

Szociális hálók klaszterezése

Algoritmusok bonyolultsága

Gráfelmélet. I. Előadás jegyzet (2010.szeptember 9.) 1.A gráf fogalma

Diszkrét matematika 2. estis képzés

Hálózatok fejlődése A hatványtörvény A preferential attachment A uniform attachment Vertex copy. SZTE Informatikai Intézet

Csima Judit BME, SZIT február 17.

Adatszerkezetek 2. Dr. Iványi Péter

Gráfelmélet/Diszkrét Matematika MSc hallgatók számára. 13. Előadás

Társadalmi és gazdasági hálózatok modellezése

Diszkrét matematika 2.

Diszkrét matematika 2.C szakirány

Gráfalgoritmusok ismétlés ősz

A Barabási-Albert-féle gráfmodell

Gráfelméleti alapfogalmak

Komplex hálózatok: alapfogalmak, modellek, módszerek

Diszkrét matematika 2.

Euler tétel következménye 1:ha G összefüggő síkgráf és legalább 3 pontja van, akkor: e 3

Adatbányászat. Klaszterezés Szociális hálózatok. Szegei Tudományegyetem. Lehetetlenségi tétel Hierarchikus eljárások Particionáló módszerek

HAMILTON ÚT: minden csúcson PONTOSAN egyszer áthaladó út

A MATEMATIKA NÉHÁNY KIHÍVÁSA

26. MINIMÁLIS KÖLTSÉGŰ UTAK MINDEN CSÚCSPÁRRA

Diszkrét matematika 1. estis képzés

HAMILTON KÖR: minden csúcson PONTOSAN egyszer áthaladó kör. Forrás: (

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Betekintés a komplex hálózatok világába

Gráfok, definíciók. Gráfok ábrázolása. Az adott probléma megoldásához ténylegesen mely műveletek szükségesek. Ábrázolások. Példa:

Gráfok 2. Legrövidebb utak, feszítőfák. Szoftvertervezés és -fejlesztés II. előadás. Szénási Sándor

Hierarchikus skálafüggetlen gráfok generálása fraktálokkal

Számítógép és programozás 2

Lin.Alg.Zh.1 feladatok

Operációkutatás. Vaik Zsuzsanna. Budapest október 10. First Prev Next Last Go Back Full Screen Close Quit

Diszkrét matematika 2.C szakirány

SzA II. gyakorlat, szeptember 18.

A szimplex algoritmus

Statisztikai módszerek a skálafüggetlen hálózatok

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Társadalmi és gazdasági hálózatok modellezése

Lin.Alg.Zh.1 feladatok

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Alapfogalmak a Diszkrét matematika II. tárgyból

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Diszkrét matematika 2.C szakirány

Példa Hajtsuk végre az 1 pontból a Dijkstra algoritmust az alábbi gráfra. (A mátrixban a c i j érték az (i, j) él hossza, ha nincs él.

Gráfelméleti feladatok programozóknak

1. zárthelyi,

Diszkrét matematika 1. estis képzés

Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok

Ramsey-féle problémák

Algoritmuselmélet 7. előadás

Gál Attila Péter. Reguláris és erősen reguláris gráfok

Dijkstra algoritmusa

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Matematika alapjai; Feladatok

Próbaérettségi feladatsor_b NÉV: osztály Elért pont:

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Optimalizálási eljárások MSc hallgatók számára. 11. Előadás

Bonyolultságelmélet gyakorlat 06 Gráfos visszavezetések II.

Markov-láncok stacionárius eloszlása

Diszkrét matematika 2. estis képzés

Mesterséges Intelligencia MI

Lineáris algebra Gyakorló feladatok

2. csoport, 8. tétel: Gráfok

Bevezetés a számításelméletbe (MS1 BS)

NeMa: Fast Graph Search with Label Similarity

Képrekonstrukció 9. előadás

Számítógép hálózatok, osztott rendszerek 2009

A számítástudomány alapjai

GRÁFELMÉLET. 7. előadás. Javító utak, javító utak keresése, Edmonds-algoritmus

Síkbarajzolható gráfok Április 26.

Lineáris algebra gyakorlat

Algebrai módszerek a kombinatorikában

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Az állítást nem bizonyítjuk, de a létezést a Paley-féle konstrukció mutatja: legyen H a

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

30. ERŐSEN ÜSSZEFÜGGŐ KOMPONENSEK


Algoritmuselmélet 2. előadás

Átírás:

Klaszterezés Szegedi Tudományegyetem

Élei lehetnek címkézettek (pl. ellenség, barát), továbbá súlyozottak (pl. telefonbeszélgetés) Megjelenési formái Ismeretségi, társszerzőségi gráf (Erdős-Bacon szám) Levelezési gráf: G = (V, E ), hogy (x, y ) E x, y V (írt(x, y ) írt(y, x)) Mi lenne, ha az utolsó helyén állna? Valami egzotikusabb: páros (k-részű) gráfok ( social bookmarking ) A hagyományos klaszterező eljárások nem (vagy legalábbis csak korlátozottan) működnek esetükben Okai Skálázódás (hiánya) Két csúcs között lévő kapcsolat mértékének számszerűsítése Címkézett élek kezelése

Ilyenek a szociális hálózatok? Nem mondhatnánk. Ez sokkal inkább egy véletlen (Erdős-Rényi) gráf

Példa szociális hálózat Zachary karate klub gráfja

Kisvilággráfok sajátosságai fokszámeloszlás lineáris skálán 0.3 0.25 0.2 0.15 0.1 5 10 2 2 4 6 8 10 12 14 16

Kisvilággráfok sajátosságai fokszámeloszlás log-log skálán 10 0.6 10 0.8 10 1 10 1.2 10 1.4 100 100.2 100.4 100.6 100.8 101 101.2

Kisvilággráfok sajátosságai fokszámeloszlás egy valós nagyságú példán 10 1 10 2 10 3 10 4 10 5 100 101 102 103

Kisvilággráfok sajátosságai Hatványeloszlás Fokszámok eloszlása hatványeloszlást követ (valami barátságos eloszlás helyett) p(x) exp (x µ)2 helyett p(x) x1β Milyen hatása lesz ennek log p(x) alakulására?

Kisvilággráfok sajátosságai Kis átmérő d(g ) = 2 V ( V 1) P u,v V u v log ( V ) Kis átmérő: alacsony a pontpárok közötti átlagos távolság (Milgram, Karinthy)

Kisvilággráfok sajátosságai Klaszterezettség, összefüggőség ha A csúcs szomszédja B és C is, akkor B és C csúcsok véletlennél nagyobb valószínűséggel szomszédok X G = (V, E ) csúcsának klaszterezettsége: között menő élek száma c(x ) = 2 X Xszomszédjai szomszédjai ( X szomszédjai 1) G klaszterezettsége: a csúcsok klaszterezettségének átlaga Hogy jelenik meg mindez a szomszédsági gráfban? Néhány további nevezetes gráf típus/modell Watts-Strogatz Páros (k-részes) gráfok Rácsok

Mi is a célunk tulajdonképp? Gráfok vágásai Egy G = (V, E ) hasonlósági gráf csúcsainak olyan particionálására (S T = S T = V ) vágyunk, ami minimális él eltávolításával (Cut(S, T )) jár minimális vágás továbbá közel azonos méretű részhalmazokat eredményez ) Cut(S,T ) Normalizált vágás = Cut(S,T Vol(S) + Vol(T ), ahol Vol(S), illetve Vol(T ) azon élek számát adja meg, amely legalább egy csúcsa S-ben, illetve T -ben található Laplace mátrix: L = D A aij = 1, ha (i, j) E 0, különben dij = V P aik, ha i = j k=1 0, különben Állítás: L szimmetrikus és pozitív szemidefinit. Biz.: táblán x Lx = 1 2 V P V P aij (xi xj )2 L sajátértékei valósak és 0 i=1 j=1

Spektrálklaszterezés alapja és a Rayleigh-Ritz tétel Lehet-e λ1 = 0? Ha igen, mikor? Lehet-e λi = 0, i > 1? Ha igen, mikor? P V P V Végső soron x Lx = 21 i=1 j=1 aij (xi xj )2 minimalizálása a cél, úgy, hogy k x k= 1, és x ~1 Rayleigh-Ritz tétel: M = M -re min xx Mx x = λ1, valamint x Mx arg min x x = x1, ahol λ1 M legkisebb sajátértéke, x1 -pedig a hozzátartozó sajátvektor Továbbá minden sajátvektorra xi = arg minx x1,...,xi 1 x Mx x x Mit von mindez az általános eredmény maga után a Laplace mátrixra nézve?

Spektrálklaszterezés ~ Minimalizálni akarjuk xx Lx x -t, hogy k x k= 1 és x 1 ez épp x2, az ún. Fiedler-vektor lesz (Rayleigh-Ritz tétel értelmében) Egy lehetséges (korántsem egyedüli) forgatókönyv, hogy a pontokat kettéválasztjuk a pozitív és negatív értéket felvevő sajátvektorkomponenseknek megfelelően Egyáltalán biztosak lehetünk benne, a Fiedler-vektor fog > 0 és < 0 elemeket tartalmazni egyszerre? A 0 mentén való szeparáció helyett hagyatkozhattunk volna a mediánra is, vagy további sajátvektorokra is akár A probléma visszavezethető még többek között: minimális vágásra, véletlen sétákra,...

Girvan-Newman algoritmus (a, b) él köztessége = azon pontpárok száma, amelyek között menő legrövidebb út tartalmazza (a, b) élet A magas érték jó vagy rossz? A gráf minden X pontjából indulva határozzuk meg (X, b) csúcspárok köztességét (szélességi bejárás) A szélességi bejárás után lássuk el az egyes csúcsokat azokkal az értékekkel, hogy a gyökérből hányféle legrövidebb út vezet hozzájuk A szélességi bejárás azonos szintjén belüli élek nem lehetnek részei a gyökérelemből induló legrövidebb utaknak Ellenben a többi, ún. DAG-élek legalább egy legrövidebb úton fekszenek A gyökérhez 1 értéket társítva haladjunk szintenként, és egy gyerekcsúcs értéke legyen a szülei értékeinek összege

Girvan-Newman algoritmus folytatás Az aktuális X gyökérelem viszonyában lássuk el a gráf egyes éleit köztességértékekkel (alulról felfele haladva) Minden élhez határozzuk meg, hogy adott X gyökérelem viszonyában a legrövidebb utak mekkora hányada megy rajtuk keresztül A levelekhez 1 értéket társítunk Nemlevél csúcsok := 1 + kimenő DAG élek értékeinek összege Egy csúcs köztességének felterjesztése során a szülők felé vezető éleken a szülők a hozzájuk X -ből vezető legrövidebb utak arányában osztozkodnak Formálisabban: amennyiben egy nemlevél Z csúcs szülei Y1,..., Yk, πy i pedig az Yi -ig menő legrövidebb utak száma, úgy az (Yi, Z ) élhez társított köztességérték egyezzen meg Z πi csúcs köztességértékének P -szeresével k j=1 πj

Köztesség alapú particionálás A szélességi keresést ismételjük meg minden (minél több) csúcsból kiindulva, a csúcsokhoz társított köztességértékeket pedig aggregáljuk Az élekhez köztességértékeit tekinthetjük egyfajta távolságnak (még ha metrikának nem is) Iteratív módon összevonhatjuk a legkisebb köztességű élek végén lévő pontokat Eljárhatunk fordítva is: az eredeti gráfot a legnagyobb köztességértékű éleket elhagyva komponensekre bonthatjuk

A korábbi ismereteink is kapóra jönnek Véletlen séták (extrémmód) Perszonalizált PageRank (PRP) segítségével Elfogult teleportálás: (1 β) valószínűséggel induljunk újra Rendezzük a csúcsokat PRP szerint és vegyük a normalizált vágások értékeit a k legmagasabb PRP értékű csúcsok mentén A normalizált vágások lokális minimumai tekinthetők klaszterhatároknak 1.2 1.1 7 1 Normalized Cut 0.9 6 0.8 4 0.7 5 1 0.6 2 10 8 0.5 3 0.4 0.3 1 2 3 4 5 6 Personalized PageRank 7 8 9 9

A korábbi ismereteink is kapóra jönnek Gyakori elemhalmazok Gyakori elemhalmazok keresése páros gráfokon Kosarak:?, Termékek:? Kst : páros gráf azon s + t csúcsú részgráfja, melyben a csúcsok között megfigyelhető s t él mindegyike jelen van s-gyakori t-elemhalmazokat keresünk Tfh. a páros gráfunk mindkét oldalán n csúcs található és d a n P di csúcsok átlagos fokszáma termék t-s = Ω n dt t i=1 található a tranzakciós adatbázisban n(dt ) egy termék t-s előfordulásának várható értéke (nt) t t Ez n d t esetén n dn, vagyis n dn s Kst