BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Hasonló dokumentumok
Support vektor alapú tanulás alkalmazásai

Support vektor alapú tanulás alkalmazásai

Gépi tanulás a gyakorlatban. Bevezetés

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Heurisztikák BitTorrent hálózatok max-min méltányos sávszélesség-kiosztására

Online ajánlórendszerek az elektronikus kereskedelemben. Dr. Révész Balázs

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

A fejlesztés várt eredményei a 1. évfolyam végén

Teljesen elosztott adatbányászat alprojekt

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Matematika. 1. osztály. 2. osztály

Szomszédság alapú ajánló rendszerek


Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

1. gyakorlat. Mesterséges Intelligencia 2.

Nagyméretű adathalmazok kezelése Ajánló rendszerek

Billentyűzési ritmus alapú azonosítás és hitelesítés érintőképernyős mobileszközökön

Mire jók az ajánlórendszerek? Tikk Domonkos

Kollektív tanulás milliós hálózatokban. Jelasity Márk

Peer-to-Peer (P2P) hálózatok

Linux Linux rendszeren a Wine segédprogram segítségével telepíthető az Adobe Digital Editions.

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

MATE-INFO UBB verseny, március 25. MATEMATIKA írásbeli vizsga

MÉRY Android Alkalmazás

1. hét. Neptun kód. Összesen. Név

Grafikonok automatikus elemzése

Kísérlettervezés alapfogalmak

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

GGMM M4. Használati útmutató. M4 vezeték nélküli hangrendszer csomag tartalma. Kezelő egység:

Gépi tanulás a gyakorlatban. Lineáris regresszió

Gyakran ismételt kérdések

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

10. modul: FÜGGVÉNYEK, FÜGGVÉNYTULAJDONSÁGOK

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2.

SilverCrest Action Camcorder Alkalmazás

Informatikai tehetséggondozás:

Kísérlettervezés alapfogalmak

2. Cím: Nézettségmérés új módszerei avagy Audience measurement Kulcsszavak: IPTV, felhasználói viselkedés, média, ajánlórendszerek

Előítéletesség a szabadúszóknak szóló online piactereken. Aniko Hannak Claudia Wagner

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

3. OSZTÁLY A TANANYAG ELRENDEZÉSE

Közösség detektálás gráfokban

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Tények és tévhitek az Országos kompetenciamérés adatairól. Oktatási Hivatal Köznevelési Programok Főosztálya

TANÚSÍTVÁNY. tanúsítja, hogy a Magyar Posta Biztosító Zrt. és a Magyar Posta Életbiztosító Zrt., illetve a Magyar Posta Zrt. által üzemeltetett

5. feladat A zöld könyv 3994-es feladata, a helyes megoldás 8432.

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Használati útmutató a ProQuest adatbázisban elérhető elektronikus könyvekhez

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN

Biológiai rendszerek modellellenőrzése bayesi megközelítésben

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

epostabox Szolgáltatásismertető Adja meg a felhasználó nevét és jelszavát (2), majd kattintson a Belépés (3) gombra

A használat közbeni szoftvertermék minőség mérése eltérő használói csoportokban

A program telepítése. A letöltés lépései: 1. nyissa meg a WEB-oldalt, majd válassza a Letöltés menüpontot: 2. Kattintson a DbérWIN 2017 hivatkozásra:

Hódmezővásárhelyi Városi Matematikaverseny április 14. A osztályosok feladatainak javítókulcsa

R3-COP. Resilient Reasoning Robotic Co-operating Systems. Autonóm rendszerek tesztelése egy EU-s projektben

Analízis évfolyam. Szerkesztette: Surányi László július 5.

K&H e-posta és K&H e-kivonat felhasználói kézikönyv. legutolsó frissítés dátuma:

Helvécia-Ballószög Általános Iskola Feketeerdői Általános Iskolája 6034 Helvécia, Korhánközi dülő 1. OM azonosító: Telephely kódja: 003

A tanulók oktatási azonosítójára és a két mérési területen elér pontszámukra lesz szükség az elemzéshez.

Navigáci. stervezés. Algoritmusok és alkalmazásaik. Osváth Róbert Sorbán Sámuel

SzIP kompatibilis sávszélesség mérések

Használati útmutató Az online példatárhoz

Matematika. 1. évfolyam. I. félév

MATEMATIKAI KOMPETENCIATERÜLET C

MÉLYFÚRÁSI GEOFIZIKAI ADATOK ÉRTELMEZÉSÉNEK MODERN INVERZIÓS MÓDSZEREI

Teljesítményprognosztizáló program FELHASZNÁLÓI KÉZIKÖNYV

Engedy Balázs. Nagy adathalmazok kezelése

6. Előadás. Vereb György, DE OEC BSI, október 12.

Pacemaker készülékek szoftverének verifikációja. Hesz Gábor

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

TÁMOP / Kapcsolatokat irányító és szervező csoport Árnyalt értékelés

Bodó / Csató / Gaskó / Sulyok / Simon október 9. Matematika és Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár

A program telepítése. A letöltés lépései: 1. nyissa meg a WEB-oldalt, majd válassza a Letöltés menüpontot a felső sorban:

Az ügyfélprogram és a ViCA applikáció használata. Bejelentkezés

InCites bemutató. Tóth Szász Enikő Solution Specialist

Least Squares becslés

SÜDI ILONA. Bemeneti pillanatkép a 2010/2011. tanévi kilencedikesekről OKM FIT változások

Felhasználói dokumentáció. a TávTagTár programhoz. Készítette: Nyíri Gábor, hdd@nc-studio.com GDF Abakusz regisztrációs kód: GDFAba43

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

DIAGNOSZTIKUS MÉRÉS. 33. modul

Telenor Webiroda. Kezdő lépések

Útmutató a MATARKA adatbázisból való adatátvételhez

Az egyenes egyenlete: 2 pont. Az összevont alak: 1 pont. Melyik ábrán látható e függvény grafikonjának egy részlete?

Felhasználói útmutató CVR mobil kliens, ios rendszerhez.

11. modul: LINEÁRIS FÜGGVÉNYEK

Bevezetés a laboratóriumi gyakorlatba és biológiai számítások GY. Jegyzőkönyv írása. Vajna Balázs 2019

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Kódverifikáció gépi tanulással

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Intézményi jelentés. 6. évfolyam

Átírás:

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján Hegedűs István

Ajánló rendszerek Napjainkban egyre népszerűbb az ajánló rendszerek alkalmazása A cégeket is hasznos információval látja el Amazon.com Felhasználók értékelik a megvett/megrendelt termékeket Értékelések alapján ajánlat tétele Keresések felgyorsítására Üzleti modell készítése Ajánló rendszerek használata

Ajánló rendszerek (2) Adott: Felhasználók halmaza Termékek halmaza Valamit a felhasználók bizonyos termékekre vonatkozó értékelései (mátrix) Különféle módszerek az ajánlásra: Collaborative filtering Mátrix faktorizáció Propagációs algoritmusok Gépi tanuló módszerek

Probléma Ha adottak az értékelések megfelelő algoritmus alkalmazása Ha NEM adottak az értékelések??? Felhasználók nem szeretnek információt közzé tenni a weben Nincs lehetőségük az értékelésekre régi az adatbázis (nincs benne a megfelelő információ) A felhasználó nem foglalkozik az értékeléssel Erősen torzított (random, csak rossz érték)

Értékelések következtetése Nem adott kellő információ Esetleg értékelések pontosítása Egy BitTorrent tracker-ből kinyert információkat használtunk Próbáljuk meg valahogy kitalálni a felhasználó tevékenysége alapján, a letöltött file tetszett-e vagy nem Cél: A file megléte alapján következtetni a file értékelésére (szereti/nem szereti)

A BitTorrent trace Filelist.org privát bittorent oldalról származik a megfigyelés 93 nap, ~5 percenként, 91745 felhasználó, 3068 torrent Az adatbázisban lévő információk: Időbélyeg Felhasználó azonosító Torrent (file) azonosító File töltésének állapota (%-ban)

A BitTorrent trace (2) Egy konkrét felhasználó file pár a következőképpen képzelhető el: Mérési pontok File valós megléte (ismeretlen) online intervallumok (leech, seed) Mérési pontok: idővonal kék = file letöltve zöld = letöltés < 100% fekete = nincs információ

Előfeldolgozás kezdeti időpontok színezése Nem ismert a file tényleges megléte, de közelíthető Feladat: töltsük ki a definiálatlan időpontokat Minden online szakaszban lévő mérési pont tartalmazza az online időszak kezdetét Mérési pontok File valós megléte (ismeretlen) online intervallumok (leech, seed) idővonal A kezdőpontokat ki tudjuk színezni (1.lépés) Mérési pontok: kék = file letöltve, zöld = letöltés < 100%, fekete = nincs információ

Előfeldolgozás belső időpontok színezése Az alábbi heurisztika alkalmazása a belső pontokra: A fennmaradó pontokat offline szakasznak tekintjük Rövid szakaszok elveszhetnek File valós megléte (ismeretlen) online intervallumok (leech, seed) idővonal Belső pontok színezése (2. lépés) Mérési pontok: kék = file letöltve, zöld = letöltés < 100%, fekete = nincs információ

Előfeldolgozás fennmaradó időpontok színezése A fennmaradó pontok az alábbi heurisztika alapján lett közelítve: Ezzel a végső lépéssel közelíthető a letöltött file megléte, minden egyes felhasználó file párra. File valós megléte (ismeretlen) online intervallumok (leech, seed) idővonal Fennmaradó pontok színezése (3. lépés) Mérési pontok: kék = file letöltve, zöld = letöltés < 100%, fekete = nincs információ

File tartalmazás közelítése Az előfeldolgozó lépések elvégzése után minden egyes felhasználó file párra tudunk közelítést adni a file meglétére minden egyes időpillanatban Ezt az információt mátrixok sorozataként képzelhetjük el (minden egyes időponthoz tartozik egy mátrix, mely jelöli melyik felhasználónál melyik file van letöltve) A célunk ezen mátrix sorozatok alapján a tetszik/nem tetszik (like/dislike) értékek közelítése u1 u2 u3 i1 i2 i3 1 0 0 1 0 1 0 1 0 File valós megléte (ismeretlen) File meglétének közelítése

Az adatbázis ritkasága Mielőtt a tetszés közelítésére rátérnénk vizsgáljuk meg az adatbázis ritkaságát Ritkaság: egy adott időponthoz tartozó mátrixban lévő 1-esek száma osztva a cellák számával Ajánlások számításának a nehézségét/pontosságát befolyásolja

Értékelések közelítése az előfeldolgozott adatokból Előfeldolgozó lépések elvégzése után a feladat a felhasználók értékelésének közelítése a viselkedésük alapján Az időpontokhoz tartozó mátrixsorozatok alapján a tetszik/nem tetszik értékek becslése Két módszert alkalmaztunk: Naiv megközelítés időcsúsztatásos megközelítés

Értékelések közelítése naiv megközelítés Vegyünk egy konkrét időponthoz tartozó mátrixot Ha a felhasználónak le van töltve a file, akkor pozitív értékelés Ha nincs, akkor hiányzó értékelés Azaz a naiv megközelítésben nincs negatív értékelés, mivel nincs róla információ Ezt a módszert tekintjük baseline-nak

Értékelések közelítése időcsúsztatásos megközelítés Vegyünk három időpontot és a hozzá tartozó mátrixokat Az időcsúsztatásos eljárás az alábbi heurisztikán alapul: File valós megléte (ismeretlen) Értékelés közelítése: 0

Értékelések közelítése időcsúsztatásos megközelítés (2) Egy másik, részletesebb példa: t-n időpontban a 3. felhasználónak nem volt letöltve a 3. file t időpontban le volt töltve t+n időpontban szintén le volt töltve A 3. felhasználónak tetszik a 3. file

Értékelések közelítése időcsúsztatásos megközelítés (3) A kérdés: Hogyan válasszuk ki a Δt időt, azaz a 3 konkrét időponthoz tartozó mátrixot? Ha túl kicsi a Δt, nincs nagy változás Ha túl nagy a Δt, elveszhet információ Az ábrán a Δt időkhöz tartozó mátrixok hasonlósága látható

Kiértékelés Mivel nem tudjuk az igazságot indirekten teszteltük a módszert Megvizsgáltuk a különböző címkézések tanulhatóságát (2 osztályos tanítások) Base 1 : naiv értékelés közelítés, a pozitív és random jelöletlen példák 0 : időcsúsztatásos módszer, negatív és random jelöletlen példák 1 : időcsúsztatásos módszer, pozitív és random jelöletlen példák Kiértékelési mérték: F-mérték Használt tanuló algoritmusok: SMO J48 Logistic Regression Naive Bayes Jellemző kinyerés [1]

Eredmények

Publikált adatbázis A méréseink alapján közzétettünk egy általunk ajánlott ajánló adatbázist Véletlenül kiválasztott időpillanat Δt = 60 intervallum alapján Tanulók teljesítménye az ajánlott adatbázison (MAE)

Konklúzió Mutattunk egy módszert az értékelések következtetésére Heurisztika alapú, így nem feltétlenül pontos Viszont a tanuló algoritmusok eredményességéből valószínűsíthetjük a helyességét Készítettünk egy ajánló rendszer adatbázist a felhasználók viselkedése alapján Valamint publikáltuk az eredményeinket [2] a COPS 2010 konferencián, ahol megkaptuk a Best Paper díjat.

Hivatkozások [1] Park Yoon-Joo,Tuzhilin Alexander. The long tail of recommender systems and how to leverage it. Proceedings of the 2008 ACM conference on Recommender systems [2] Róbert Ormándi, István Hegedűs, Kornél Csernai, Márk Jelasity. Towards inferring ratings from user behavior in BitTorrent communities. 2010 19th IEEE International Workshops on Enabling Technologies: Infrastructures for Collaborative Enterprises, 2010