Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Hasonló dokumentumok
Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Túlmunkaidő óra Összesen: Egyéb óra Összesen: Éjszakai pótlékos óra Összesen: 100 % pótlékos óra Összesen: Összesen: Összesen: Összesen: Összesen:

HAWK-3. Az OMSZ saját fejlesztésű időjárási megjelenítő rendszere

A tér, ami megtérül...

Nagy Gábor compalg.inf.elte.hu/ nagy ősz

Külhoni Magyar Fiatalok Találkozója

COOKIE (SÜTI) SZABÁLYZAT

Horgásznaptár - részletes szolunáris naptár 2015

INFORMATIKAI RENDSZER FEJLESZTÉSE. TÁMOP D-12/1/KONV A Szolnoki Főiskola idegen nyelvi képzési rendszerének fejlesztése

A szakmai vizsgák felépítése. 1. vizsgarész A hozzárendelt szakmai követelménymodul azonosítója és megnevezése: Korszerű munkaszervezés

Felhő demonstráció Gergely Márk MTA SZTAKI

TELJESÍTÉNYMÉRÉS FELHŐ ALAPÚ KÖRNYEZETBEN AZURE CLOUD ANALÍZIS

Hova tart a cross platform mérés?

A Telekom MoziKlub Piknik oldalon használt sütik

Hogy miért akarnak lehallgatni minket az lehallgatónként változik.

ADATVÉDELEM. Adatvédelem

Adatkezelési tájékoztató

Hétfő Kedd Hétfő Kedd Hétfő. Tanulástechnikai tréning oktató: Szamosi Judit Szünet Szünet Szünet Szünet Szünet

7.D Hétfő Kedd Szerda Csütörtök Péntek 8.D Hétfő Kedd Szerda Csütörtök Péntek

Adatszolgáltatás a Postai Informatikai Rendszer számára. Dr. Nyuli Attila Alkalmazásfejlesztési és Üzemeltetési Osztály

A Magyar Hang a regisztrált látogatók személyes adatait bizalmasan, a hatályos jogszabályi előírásoknak megfelelően kezeli.

Nagy Gábor compalg.inf.elte.hu/ nagy ősz

Adatkezelési tájékoztató

Alapismeretek. Tanmenet

Capri Consulting Korlátolt Felelősségű Társaság (a továbbiakban: Szolgáltató)

TestLine - zsoltix83 hálozat 1 Minta feladatsor

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

Adatkezelési tájékoztató

Hálózati alapismeretek

Tudásalapú információ integráció

Dr. Pál László, Sapientia EMTE, Csíkszereda WEB PROGRAMOZÁS 5.ELŐADÁS. Sütik és munkamenetek kezelése

Cookie-k használatának irányelve

Alapismeretek. Tanmenet

GOOGLE ANALITYCS VS. SPSS CLEMENTINE

Az internet az egész világot behálózó számítógép-hálózat.

Image Processor BarCode Service. Felhasználói és üzemeltetői kézikönyv

HÉTFŐ Ebéd Korrepetálás Ebéd Korrepetálás

Mobil Peer-to-peer rendszerek

IP Thermo for Windows

A számítástechnika gyakorlata WIN 2000 I. Szerver, ügyfél Protokoll NT domain, Peer to Peer Internet o WWW oftp opop3, SMTP. Webmail (levelező)

Diszkrét matematika I.

Számítógép felépítése

Weblog elemzés Hadoopon 1/39

1.3. A honlap a sütik alábbi típusait használja, amely sütik terjedelmére és funkciójára vonatkozó magyarázat alább található:

A polgármesteri hivatal informatikai rendszere a városirányítás szolgálatában

FELHASZNÁLÁSI FELTÉTELEK ÉS ADATVÉDELEM

Miért jó nekünk kutatóknak a felhő? Kacsuk Péter MTA SZTAKI

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Informatika szóbeli vizsga témakörök

Adatkezelési tájékoztató

Személyes adatok védelmi alapelvei

HÉTFŐ

TESZ INTERNET ÉS KOMMUNIKÁCIÓ M7

Nagy Gábor compalg.inf.elte.hu/ nagy ősz

Adatkezelési tájékoztató

AZ ELSŐÉVES HALLGATÓK INFORMATIKA TANULÁSI SZOKÁSAINAK VIZSGÁLATA ADATBÁNYÁSZATI ESZKÖZÖKKEL A BUDAPESTI MŰSZAKI FŐISKOLÁN

A kötelező átvételi rendszer módosításai a partnerek visszajelzései alapján

MŰSZAKKIOSZTÁSI PROBLÉMÁK A KÖZÖSSÉGI KÖZLEKEDÉSBEN

C programozás. { Márton Gyöngyvér, 2009 } { Sapientia, Erdélyi Magyar Tudományegyetem }

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Alapismeretek. Tanmenet

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Cookie-szabályzat panelekre és felmérésekre vonatkozóan

TUDNIVALÓK A WEB-FEJLESZTÉS I. KURZUSRÓL

Telenor Webiroda. Kezdő lépések

Technológia az adatszivárgás ellen

Book24 Könyvkereskedelmi Zártkörűen Működő Részvénytársaság. Adatkezelési tájékoztató a book24.hu weboldalon elhelyezett sütik használatáról

Mobil szolgáltatások és alkalmazások fejlesztése

SÜTISZABÁLYZAT. Pontok

Szárazföldi autonóm mobil robotok vezérlőrendszerének kialakítási lehetőségei. Kucsera Péter ZMNE Doktorandusz

Projektvezetői döntések támogatása webbányászattal

KELER KID Internetwork System (KIS)

Szolgáltatás és Minőségfejlesztés a Corvinus Egyetemen Kiss György János Mogyorósi János

6. óra Mi van a számítógépházban? A számítógép: elektronikus berendezés. Tárolja az adatokat, feldolgozza és az adatok ki és bevitelére is képes.

A J2EE fejlesztési si platform (application. model) 1.4 platform. Ficsor Lajos Általános Informatikai Tanszék Miskolci Egyetem

HunGrid Grid technológiák hozzáférési lehetőségei az intézetben

A CAPICOM ActiveX komponens telepítésének és használatának leírása Windows 7 operációs rendszer és Internet Explorer 9 verziójú böngésző esetén

TestLine - GINOP teszt Minta feladatsor

Baár-Madas Elektronikus Tanúsítvány

Digitális technika (VIMIAA02) Laboratórium 5.5

RapidAnalytics Enterprise Edition bevezetés a Telenor Magyarországnál. Szakács Balázs - Telenor Magyarország Szücs Imre United Consult

Elektronikus Információs és Nyilvántartási Rendszer a Doktori Iskolák fiatal kutatói részére

fesz.org ADATKEZELÉSI TÁJÉKOZTATÓ

2017 május május 2. kedd 19:00 A padlás Vígszínház május 2. kedd 19:00 Toldi Pesti Színház

2017 május május 2. kedd 19:00 A padlás Vígszínház május 2. kedd 19:00 Toldi Pesti Színház

Adatvédelem & Cookie szabályzat

NAGY TELJESÍTM. Szerzők Dévai. István Automatizálási. és s Alkalmazott Informatikai Tanszék

Felhasználás. Adatvédelem. Felhasználási feltételek

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

Felhívjuk a figyelmet, hogy az MS Windows XP operációs rendszer támogatását a Microsoft már év április 8-án megszüntette!

Tájékoztató a sütikről (cookie)

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

Adatbázisok elleni fenyegetések rendszerezése. Fleiner Rita BMF/NIK Robothadviselés 2009

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

Cookie / Süti tájékoztató

Magyar Labdarúgó Szövetség ÉVI NEMZETKÖZI ILLETVE FÉRFI FELNŐTT NAGYPÁLYÁS NEMZETI BAJNOKSÁGOK ÉS KUPÁK VERSENYNAPTÁRA

Irányítópult Összehasonlítva a következővel: Webhely látogatás. 34,19% Visszafordulások aránya

2017 május május 1. hétfő 19:00 Mikve Pesti Színház május 1. hétfő 19:00 A Pál utcai fiúk Vígszínház

Információ és kommunikáció

Hegyi Béla, technikai tanácsadó. Cisco MARS Bemutatása

Átírás:

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján Schrádi Tamás schraditamas@aut.bme.hu Automatizálási és Alkalmazott Informatikai Tanszék BME

A feladat A webszerverek naplóállományainak hasznosítása Felhasználói profilok kialakítása Tipikus felhasználói csoportok hasznosítható tudás a szolgáltatók számára

Cookie alapú felhasználó követés A weboldalak third party cookie k (C3) raknak le a kliensek böngészőjébe (1x1pixel méretű háttérszínű kép, hivatkozás a vizsgálatot végző szerverre). A hivatkozás az oldal első letöltésekor egy, a központi szerver által kiadott cookie t tesz le a kliens böngészőjében. A C3 azonosító egyedi és azonos a webhelyek meglátogatása során. Ha egy tetszőlegesen figyelt oldalra látogat a felhasználó, akkor a böngésző felküldi a C3 sütijét a központi szerverre, így megoldható a felhasználó követése

Cookie alapú felhasználó követés A C3 cookie kat egyre gyakrabban törlik First party cookie k használata (C1) Összekapcsolható a két technika, a pontosabb azonosítás érdekében

Az internetező definíciója Internetezőt az alábbi hármas definiálja: az operációs rendszer az operációs rendszerbe belépett felhasználó azonosítója a használt böngésző A cookie alapú követés indokolja Kifinomultabb definíció, mint az IP cím alapú azonosítás

Adatbányászati lépések A CRISP-DM szerint

Kihívás Nagy adatmennyiség megnövekedett futási idő Egyetlen hónaphoz tartozó adat méretei: Kb. 16 GB Több mint 6 milliárd elemi rekord (32 és 64 bites egész számok) (15 állományban) Nyers formájában nem dolgozható fel, nehezen értelmezhető

Distribution of number of clicks of user: 1192655428681 4 3 Distribution of number of clicks of user: 1519625299 25 2 2 1 Number of clicks 15 1 Mon Tue Wed Thu Fri Sat Sun Days 5 Mon Tue Wed Thu Fri Sat Sun Days

Nyers erő. megközelítés: csak operatív memóriát használ A neve ellenére néhány megfontolás Hash alapú tároló a hatékony feldolgozás biztosításáért Ennek out of core kiterjesztését alkalmazzuk

Szakaszos feldolgozás Out of core módszer Kisebb részekben dolgozzuk fel a naplóállományokat Folyamatos mentés és összefésülés a merevlemezen Propagálja a háttértáron a megoldást Az utolsó összefésülés után végleges eredmény Rendezés Hibatűrés

K utas összefésülés Out of core módszer A naplóállományokat külön külön feldolgozza Rendezetten menti a háttértárra A rendezett, feldolgozott állományokon egy k utas összefésülés Rendezés Hibatűrés

Az out of core módszerek szükségessége

Melyik feldolgozási módszert érdemes? A két bemutatott out of core módszer a k utas összefésülés alapú módszernek nagyobb a háttértárigénye, míg a szakaszos feldolgozás memóriaigénye magasabb Mindkét módszer: hibatűrő, hatékony memóriakorlátos környezetben is (akár PC n is)

Klaszterezés Elemek csoportosítása, ahol előre nem adottak a csoportdefiníciók Az egy csoportba kerülők hasonlítsanak jobban egymásra Nem egyértelmű Az adatbányászat egyik régi problémája

K közép Egy alap algoritmus klaszterezésre Egy fizikai rendszer súlypontjának analógiájára épít Iteratív módszer Szegmentálásra is alkalmas A tapasztalat azt mutatja, hogy gyorsan lefut Lokális optimumba ragadhat A kialakítandó klaszterek számát ismerni kell

K közép A lokális optimumba való ragadás ellen, többszöri futtatás Heurisztika a klaszterek meghatározására: sok klasztert kialakítani, majd a hasonlókat összevonni (a szegmentálás miatt)

A kialakított klaszterek

A kialakított klaszterek Kattintások száma [db] 3 25 2 15 1 5 :- :59 1:- 1:59 2:- 2:59 3:- 3:59 4:- 4:59 A nappal közel azonosan aktív felhasználók átlagos óránkénti kattintás-megoszlása 5:- 5:59 6:- 6:59 7:- 7:59 8:- 8:59 9:- 9:59 1:- 11:- 1:59 11:59 12:- 12:59 13:- 13:59 14:- 14:59 15:- 15:59 16:- 17:- 16:59 17:59 18:- 18:59 19:- 19:59 2:- 2:59 21:- 21:59 22:- 23:- 22:59 23:59 Kattintások száma [db] 5 45 4 35 3 25 2 15 1 5 A nappal közel azonosan aktív felhasználók átlagos naponkénti kattintás-megoszlása Hétfő Kedd Szerda Csütörtök Péntek Szombat Vasárnap Kattintások száma [db] 3 25 2 15 1 5 :- :59 1:- 1:59 2:- 2:59 3:- 3:59 4:- 4:59 5:- 5:59 Az estére aktívabb felhasználók átlagos óránkénti kattintás-megoszlása 6:- 6:59 7:- 7:59 8:- 8:59 9:- 9:59 1:- 1:59 11:- 11:59 12:- 13:- 12:59 13:59 14:- 14:59 15:- 15:59 16:- 16:59 17:- 18:- 17:59 18:59 19:- 19:59 2:- 2:59 21:- 21:59 22:- 23:- 22:59 23:59 Kattintások száma [db] 5 45 4 35 3 25 2 15 1 5 Hétfő Kedd Szerda Csütörtök Péntek Szombat Vasárnap Kattintások száma [db] 3 25 2 15 1 5 Az estére aktívabb felhasználók átlagos naponkénti kattintásmegoszlása :- :59 1:- 1:59 2:- 2:59 3:- 3:59 4:- 4:59 Munkaidőben aktívabb felhasználók átlagos óránkénti kattintás-megoszlása 5:- 5:59 6:- 6:59 7:- 7:59 8:- 8:59 9:- 9:59 1:- 11:- 1:59 11:59 12:- 12:59 13:- 13:59 14:- 15:- 14:59 15:59 16:- 16:59 17:- 17:59 18:- 19:- 18:59 19:59 2:- 2:59 21:- 21:59 22:- 23:- 22:59 23:59 Kattintások száma [db] 5 45 4 35 3 25 2 15 1 5 Munkaidőben aktívabb felhasználók átlagos naponkénti kattintásmegoszlása Hétf ő Kedd Szerda Csütörtök Péntek Szombat Vasárnap

A kialakított klaszterek Kattintások száma [db] 3 25 2 15 1 5 :- :59 1:- 1:59 Nappal közel azonosan aktív és több kattintással rendelkező felhasználók átlagos óránkénti kattintás-megoszlása 2:- 2:59 3:- 3:59 4:- 4:59 5:- 5:59 6:- 6:59 7:- 7:59 8:- 8:59 9:- 9:59 1:- 1:59 11:- 11:59 12:- 13:- 12:59 13:59 14:- 14:59 15:- 16:- 15:59 16:59 17:- 17:59 18:- 18:59 19:- 2:- 19:59 2:59 21:- 21:59 22:- 23:- 22:59 23:59 Kattintások száma [db] 5 45 4 35 3 25 2 15 1 5 Nappal közel azonosan aktív és több kattintással rendelkező felhasználók átlagos naponkénti kattintás-megoszlása Hétfő Kedd Szerda Csütörtök Péntek Szombat Vasárnap Kattintások száma [db] 9 8 7 6 5 4 3 2 1 :- :59 1:- 1:59 2:- 2:59 3:- 3:59 4:- 4:59 5:- 5:59 6:- 6:59 A Web robotok átlagos óránkénti kattintás-megoszlása 7:- 7:59 8:- 8:59 9:- 9:59 1:- 1:59 11:- 11:59 12:- 12:59 13:- 13:59 14:- 14:59 15:- 15:59 16:- 16:59 17:- 17:59 18:- 18:59 19:- 19:59 2:- 2:59 21:- 21:59 22:- 23:- 22:59 23:59 Kattintások száma [db] 25 2 15 1 5 A Web robotok átlagos naponkénti kattintás-megoszlása Hétf ő Kedd Szerda Csütörtök Péntek Szombat Vasárnap

A kialakított klaszterek

A kialakított klaszterek

Köszönöm a figyelmet!