Statisztikai módszerek a skálafüggetlen hálózatok

Hasonló dokumentumok
Többváltozós lineáris regressziós modell feltételeinek

Loss Distribution Approach

A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Hálózatok fejlődése A hatványtörvény A preferential attachment A uniform attachment Vertex copy. SZTE Informatikai Intézet

Számítógépes döntéstámogatás. Statisztikai elemzés

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Bevezetés. 1. előadás, február 11. Módszerek. Tematika

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Least Squares becslés

Összefoglalás és gyakorlás

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Több valószínűségi változó együttes eloszlása, korreláció

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Véletlen gráfok, hálózatok

5. előadás - Regressziószámítás

Diszkrét idejű felújítási paradoxon

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A maximum likelihood becslésről

Gépi tanulás a gyakorlatban. Lineáris regresszió

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Likelihood, deviancia, Akaike-féle információs kritérium

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Társadalmi és gazdasági hálózatok modellezése

Matematika A3 Valószínűségszámítás, 5. gyakorlat 2013/14. tavaszi félév

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

egyenletesen, és c olyan színű golyót teszünk az urnába, amilyen színűt húztunk. Bizonyítsuk

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztika elméleti összefoglaló

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Lineáris regressziós modellek 1

Betekintés a komplex hálózatok világába

[Biomatematika 2] Orvosi biometria

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

Abszolút folytonos valószín ségi változó (4. el adás)

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

A Termelésmenedzsment alapjai tárgy gyakorló feladatainak megoldása

Segítség az outputok értelmezéséhez

A mérési eredmény megadása

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Van-e kapcsolat a változók között? (példák: fizetés-távolság; felvételi pontszám - görgetett átlag)

CHT& NSZT Hoeffding NET mom. stabilis november 9.

Algoritmuselmélet. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 13.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hierarchikus skálafüggetlen gráfok generálása fraktálokkal

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Kísérlettervezés alapfogalmak

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Kockázatalapú változó paraméterű szabályozó kártya kidolgozása a mérési bizonytalanság figyelembevételével

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Lineáris regressziószámítás 1. - kétváltozós eset

Szalai Péter. April 17, Szalai Péter April 17, / 36

Autoregresszív és mozgóátlag folyamatok

Bevezetés a hipotézisvizsgálatokba

Statisztikai becslés

A HŐMÉRSÉKLET ÉS A CSAPADÉK HATÁSA A BÜKK NÖVEKEDÉSÉRE

A Barabási-Albert-féle gráfmodell

BIOMATEMATIKA ELŐADÁS

ÚJDONSÁGOK A MINITAB STATISZTIKAI SZOFTVER ÚJ KIADÁSÁNÁL (MINITAB 18)

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

A Statisztika alapjai

[Biomatematika 2] Orvosi biometria

Minősítéses mérőrendszerek képességvizsgálata

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

IBNR számítási módszerek áttekintése

A hallgatói preferenciák elemzése statisztikai módszerekkel

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

egyetemi jegyzet Meskó Balázs

Valószínűségszámítás összefoglaló

Függetlenségvizsgálat, Illeszkedésvizsgálat

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A negatív binomiális eloszlás paramétereinek becslése

Logisztikus regresszió október 27.

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

F(x) α,β = 1. f(x) α,β = α β. = αβα

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

Kockázatalapú szabályozó kártyák tervezése, kiválasztása és folyamatra illesztése

Feladatok és megoldások a 13. hétre

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Minőség-képességi index (Process capability)

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Kalkulus S af ar Orsolya F uggv enyek S af ar Orsolya Kalkulus

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

A kálium-permanganát és az oxálsav közötti reakció vizsgálata 9a. mérés B4.9

Módszertani hozzájárulás a Szegénység

Átírás:

Statisztikai módszerek a skálafüggetlen hálózatok vizsgálatára Gyenge Ádám1 1 Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Számítástudományi és Információelméleti Tanszék 2007. november 17. Konzulens: Dr. Telcs András Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 1 / 14

Skálafüggetlen gráfok Nagyméretű hálózatok Fokszámeloszlásuk hatványfüggvény alakú Rengeteg helyen előfordulnak. Pl. p(k) k γ Hálózat csúcsok élek WWW weboldalak hiperlinkek Hollywood színészek közös film Tudományos kutatások kutatók közös cikk Cél: a fokszámeloszlás eddigieknél precízebb vizsgálata (ez sok tulajdonságot meghatároz) Ezáltal jobb modellezés ( pl. szimulációk: vírusok, támadások, pletykák,...) Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 2 / 14

Pareto eloszlás Sűrűségfüggvénye: f (x) = α β Illesszünk Pareto eloszlást a fokszámokra! ( ) x (α+1), x > β β Paraméterek (amiket keresünk) α: lecsengés gyorsasága (ez a lényegesebb) β: távolság az origótól Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 3 / 14

Paraméterbecslés - klasszikus módszerek Visszavezetés lineáris regresszióra: y Cx (α+1) lny lnc (α + 1)ln x Hisztogramfüggvény loglog ábrán erre egy egyenes illesztése Momentum módszer: a H : (α,β) (m 1,m 2 ) leképezés invertálása Maximum likelihood módszer: ˆα = n n i=1 lnx i n lnx 1 Ezek mind torzított becslések. ˆβ = x 1 = min x i A maximum likelihood torzítatlanná tehető korrigált maximum likelihood becslés, CMLE: ( ) n 2 ˆα = ˆα MLE n Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 4 / 14

Csonkított momentumok módszere Tétel (Glänzel) Minden abszolút folytonos eloszlású X valószínűségi változóra megfelelő g, h és λ függvényekkel igaz, hogy: E(g(X) X x) = E(h(X) X x)λ(x) v(t) {}}{ Következmény: a Pareto eloszlásra igaz hogy 1 = α+1 α E(X 1 X x)x A v(t) függvény becslése egy t helyen: ˆv(t) = 1 {x i x i t} Ezt vegyük fel a t = (t 1,...,t n ) pontokban v Erre: 1 α+1 α v t 0 lineáris regresszióval megtalálható az együttható x i t x 1 i Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 5 / 14

A becslési módszerek összehasonĺıtása Statisztikai eredmények az α becslésére 10000 méretű, α=2.5, β=3 paraméterű minta esetén, 50 futás eredményeit átlagolva: Becslési módszer átlag szórás MLE 2.5005 0.024 CMLE 2.5000 0.024 MoE 2.6001 0.119 LSF 1.8992 0.257 TME 2.5004 0.027 Látható, hogy a CMLE a legpontosabb. A β becslésekre is hasonló eredményeket tapasztaltunk (a CMLE volt a legjobb). Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 6 / 14

Illeszkedésvizsgálat Előfordulhat, hogy csak az eloszlás lecsengő vége követi a hatványfüggvényt (példák később) Álĺıtás Ha X Pareto eloszlású (α,β) paraméterekkel, akkor Y x = X X x Pareto eloszlású (α, x) paraméterekkel minden rögzített x > β esetén. Adott mintára egy t pontbeli csonkítás: a t-nél kisebb elemek elhagyása Az álĺıtás miatt az α változatlan a felsőbb tartományokra. Küszöbkeresés algoritmus: meghatározza, hogy milyen küszöb felett illeszthető Pareto eloszlás a mintára (adott bizonyossággal) Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 7 / 14

Alkalmazás: VoIP forgalom VoIP kommunikáció: inaktív és aktív periódusok váltakoznak Aktív periódusok hosszaira vonatkozó mérés részletei: Alsó határ ˆα ˆβ OK 9.4403 2.2614 9.4326 1 6.8394 2.1845 6.8365 1 5.4595 2.0336 5.4578 0 4.6208 1.9410 4.6197 0 3.9601 1.8174 3.9593 0 Eredmény: 6.8 sec fölött α = 2.18 paraméterű Pareto Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 8 / 14

Gráffejlődési modellek A skálafüggetlen gráfok kialakulására rengeteg modellt javasoltak. Néhány ezek közül: 1 BA modell folyamatosan növekvő hálózat az i. régi csúcshoz való kapcsolódás valószínűsége p(i) = d(i)/ j d(j) 2 GLP modell 1 p valószínűséggel egy új pont lép be p valószínűséggel két régi pont között épül fel új kapcsolat az i. csúcshoz való kapcsolódás valószínűsége p(i) = (d(i) β)/ j (d(j) β), β (, 1) 3 IG modell egy új pont 1 vagy 2 régi ponthoz kapcsolódhat lineáris preferencia szerint ez az 1 vagy 2 pont új kapcsolatokat alakíthat ki (az új pont által generált forgalom elvezetése céljából) Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 9 / 14

A modellek tulajdonságai Mindhárom modell szerint 50-50 nagyméretű (n = 7368) generált gráf. Átlagos küszöbértékek: BA - 4.94, GLP - 8.9, IG - 5.14 A 15 feletti fokszámokra szinte mindegyik gráfban teljesült a Pareto eloszlás A 15 feletti tartományok α értékei: Modell α avg α σ BA 1.9292 0.1530 GLP 1.8448 0.0372 IG 1.2714 0.0451 Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 10 / 14

AS gráf Internet: hálózatok összekapcsolva AS gráf: csomópont = hálózat, él = fizikai kapcsolat a két hálózat között 2007. októberben 7368 pontú gráf Küszöb: 7 körül, e felett α = 1.346 IG kiválóan modellezi Az AS gráf fokszámainak hisztogramja: 10 0 Histogram of degrees (AS) empirical values Pareto, alpha=1.35 10 1 relative frequency 10 2 10 3 10 4 10 0 10 1 10 2 10 3 degree Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 11 / 14

iwiw gráf iwiw: közösségi site Ennek egy 14060 pontú részgráfját vizsgáltuk Küszöb: 60 körül (!), e felett α = 1.477 Ez meglepően magas, egyik bemutatott modell sem generál hasonlót Másik meglepő eredmény: a küszöb alatt is hatványfüggvény alakú az eloszlás, de α = 0.246 10 0 Histogram of degrees (iwiw) empirical values Pareto, alpha=1.477 0.4 0.35 Histogram of low degrees (iwiw) empirical values Pareto, alpha=0.246 10 1 0.3 relative frequency 10 2 10 3 relative frequency 0.25 0.2 0.15 10 4 0.1 0.05 10 5 10 0 10 1 10 2 10 3 10 4 degree 0 0 10 20 30 40 50 60 degree Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 12 / 14

Összefoglalás Láthattuk hogy a skálafüggetlen hálózatok és a Pareto eloszlás rengeteg helyen előfordulnak Paraméterbecslésre a CMLE módszer a legjobb Küszöbkeresés algoritmussal megtalálható a Pareto eloszlás alsó határa VoIP kommunikáció aktív periódusaira a küszöb kb. 6 sec, α = 2.18 Az AS gráfban a küszöb 7, α = 1.34 és az IG modell erre jól illeszkedik Az iwiw gráfban a küszöb 60, α = 1.47 De ez utóbbinál a küszöb alatt is hatványfüggvény alakú az eloszlás, α = 0.245 Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 13 / 14

Köszönetnyilvánítás Szeretnék köszönetet mondani: Dr. Telcs Andrásnak Somogyi Róbertnek Molnár Sándornak Balogh Miklósnak Köszönöm a figyelmet! Kérdések? Gyenge Ádám (BME-VIK) Skálafüggetlen hálózatok TDK Konferencia 14 / 14