Nagyméretű adathalmazok kezelése Ajánló rendszerek

Hasonló dokumentumok
Szomszédság alapú ajánló rendszerek

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Adatbányászati szemelvények MapReduce környezetben

Gépi tanulás a gyakorlatban. Bevezetés

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék


Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Intelligens adatelemzés

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Adatbányászat és Perszonalizáció architektúra

Modellkiválasztás és struktúrák tanulása

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Least Squares becslés

Mesterséges Intelligencia I.

Termék modell. Definíció:

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

A maximum likelihood becslésről

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Mérési struktúrák

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

6. Előadás. Vereb György, DE OEC BSI, október 12.

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

Üzleti modellen alapuló webes tudásprezentáció

Mérési hibák

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

Programozás alapjai II. (7. ea) C++ Speciális adatszerkezetek. Tömbök. Kiegészítő anyag: speciális adatszerkezetek

Online ajánlórendszerek az elektronikus kereskedelemben. Dr. Révész Balázs

Speciális adatszerkezetek. Programozás alapjai II. (8. ea) C++ Tömbök. Tömbök/2. N dimenziós tömb. Nagyméretű ritka tömbök

BASH script programozás II. Vezérlési szerkezetek

Genetikus algoritmusok

Programozás alapjai II. (7. ea) C++

ÉRZÉKELŐK ÉS BEAVATKOZÓK I. 3. MÉRÉSFELDOLGOZÁS

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

3D számítógépes geometria és alakzatrekonstrukció

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Biológiai rendszerek modellellenőrzése bayesi megközelítésben

A Markowitz modell: kvadratikus programozás

Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2007/2008

Több valószínűségi változó együttes eloszlása, korreláció

Információ megjelenítés Diagram tervezés

Grafikonok automatikus elemzése

Adatbányászati technikák (VISZM185) 2015 tavasz

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Intézeti Tanszék

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Számítógépes döntéstámogatás. Genetikus algoritmusok

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

3D-s számítógépes geometria és alakzatrekonstrukció

Matematikai geodéziai számítások 6.

Veszély- és kockázatbecslés alapú rekonfigurált eljárás-befolyásolás a polgári légiközlekedésben

GCF 1.1 Gas Consumption Forecast

Megerősítéses tanulás 7. előadás

Függvények növekedési korlátainak jellemzése

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Mátrix-alapú projektkockázatmenedzsment

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

Likelihood, deviancia, Akaike-féle információs kritérium

Multimédiás adatbázisok

Hálózati tudásmenedzsment rendszerek sajátosságai, bevezetési tapasztalatai

Gépi tanulás és Mintafelismerés

Mátrixhatvány-vektor szorzatok hatékony számítása

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Perszonalizált tartalomajánló szolgáltatás IPTV és OTT rendszerek számára

GROVER-algoritmus. Sinkovicz Péter. ELTE, MSc II dec.15.

Adatok statisztikai értékelésének főbb lehetőségei

Problémás regressziók

Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2.

I. LABOR -Mesterséges neuron

Regresszió. Fő cél: jóslás Történhet:

RHadoop. Kocsis Imre Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Adja meg, hogy ebben az esetben mely handshake üzenetek kerülnek átvitelre, és vázlatosan adja meg azok tartalmát! (8p)

[Biomatematika 2] Orvosi biometria

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

IBNR számítási módszerek áttekintése

Számítógép és programozás 2

(Teszt)automatizálás. Bevezető

Diszkriminancia-analízis

Az alállomási kezelést támogató szakértői funkciók

Együttmőködés és innováció

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

1. Alapfogalmak Algoritmus Számítási probléma Specifikáció Algoritmusok futási ideje

Az idegrendszeri memória modelljei

Mire jók az ajánlórendszerek? Tikk Domonkos

CEBS Consultative Paper 10 (folytatás) Krekó Béla PSZÁF, szeptember 15.

Átírás:

Nagyméretű adathalmazok kezelése Gubek Andrea BME SZIT

1 Tartalom alapú ajánló rendszerek Együttműködés alapú ajánló rendszerek 2 The Movie Genome és a Jinni Movie Genome Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 2 / 47

Tartalom alapú ajánló rendszerek Megjegyzések: user = felhasználó = vásárló item = tétel = áru = dokumentum Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 3 / 47

Ajánló rendszer Tartalom alapú ajánló rendszerek Az ajánló rendszerek olyan szoftveres technikák és eszközök, amelyek javaslatokat nyújtanak a felhasználó számára hasznos tételekről, árukról (item). Ezek a javaslatok arra hivatottak, hogy segítsék a felhasználót különféle döntésekben. Fejlesztéshez szakemberek több területről Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 4 / 47

Tartalom alapú ajánló rendszerek Tartalom alapú ajánló rendszerek Olyan árukat próbálnak ajánlani, amelyek hasonlóak a vásárló által már régebben kedveltekhez Információk tömkelege + dinamikusság és heterogén természet egyre nehezebb megtalálni, amire szükségünk van Szükségünk van segítségre a hatalmas adathalmazokban való keresgéléshez Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 5 / 47

Tartalom alapú ajánló rendszerek Az ajánló algoritmusok a vásárló érdeklődési köreit használják (amazon) Két irányvonal: Szomszédság alapú (vásárló eddigi választásai alapján) Együttműködő (hasonló véleményeken levő felhasználók választásai alapján) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 6 / 47

Működés Tartalom alapú ajánló rendszerek Content analyzer: előfeldolgozó lépés, amikor az információknak nincs struktúrájuk. Komponens fő feladata, hogy az adatokat az árukról megfelelő formába hozza a következő lépés számára. Profile learner: begyűjti a felhasználó érdeklődési körének adatait, általánosítja őket, a user profile létrehozásának érdekében (általában gépi tanuló technikákon keresztül) Filtering component: feldolgozza a user profile-t, annak reprezentációit összehasonlítja az ajánlandó tételekkel Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 7 / 47

Tartalom alapú ajánló rendszerek Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 8 / 47

Explicit feedback Tartalom alapú ajánló rendszerek Like/dislike: binárisan osztályozódnak a tételek Ratings: értékelés, egy diszkrét numerikus skálán (pl. 1-től 5-ig) Szöveges megjegyzések: segítenek a többi vásárlónak megítélni a termék jóságát Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 9 / 47

Jelölések Tartalom alapú ajánló rendszerek u a : aktív user profilja TR a : tanító halmaz r k : az u a user által adott értékelés az I k árucikkre vonatkoztatva TR a = I k, r k L a : ajánlások listája, Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 10 / 47

Tartalom alapú ajánló rendszerek TR a Profile learner user profile (prediktív modell) Filtering component User profile L a (list of recommendations) Profil legyen up-to-date Feedback Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 11 / 47

Előnyök Tartalom alapú ajánló rendszerek User független: csak a user saját értékeléseit használja fel a profil kiépítésére Transzparens: működésükről magyarázatot lehet adni, szimplán felsorolva a tulajdonságokat és leírásokat, amely egy elemnél arra vezetett, hogy bekerüljön az L a -ba. Új elem: a tartalom alapú rendszerek képesek olyan tételeket is ajánlani, amelyeket még senki nem értékelt (nem szenvednek a first-rater problémától) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 12 / 47

Hátrányok Tartalom alapú ajánló rendszerek Korlátolt tartalom analízis: tételekhez rendelt tulajdonságok száma és típusa terén határoltak, domain információk is kellhetnek Túlrészletezés: nincs megfelelő metódusuk arra, hogy ha valami nem várt dologgal kerülnek szembe (serendipity probléma) Új felhasználó: megfelelő mennyiségű értékelést be kell gyűjteni, mielőtt a rendszer rendesen felmérheti a felhasználó által előnyben részesített tételeket, és pontos ajánlásokat tud tenni Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 13 / 47

Item reprezentáció Tartalom alapú ajánló rendszerek Tételek attribútumok és tulajdonságok Általában a tétel leírások szövegesek Nincsenek jól definiált értékkel rendelkező attribútumok Szöveges leírások bonyodalom (kétértelműség) Szöveg illesztés problémái: Többjelentésűség (polysemy) Rokonértelműség (synonymy) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 14 / 47

Szemantikus analízis Tartalom alapú ajánló rendszerek Kétféle módon: Ontológiák használatával Enciklopédikus tudásforrások használatával Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 15 / 47

Szemantikus analízis 2 Tartalom alapú ajánló rendszerek A főbb stratégiák szempontjai: a tudásbázis típusa (lexikon, ontológia stb.) a tételek reprezentálására választott módszerek a user profilban előforduló tartalom típusa tétel-profil illesztési stratégia Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 16 / 47

Tartalom alapú ajánló rendszerek Módszerek user profilok tanulására Gépi tanulási módszerek jól alkalmazhatók szöveg kategorizálásra következtető eljárás Tanuló dokumentumok szöveg osztályozó User profilok tanulása bináris szöveg osztályozás Kategóriák halmaza: C = {c +, c } c + : a pozitív osztály (user-likes) c a negatív osztály (user-dislikes) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 17 / 47

Tartalom alapú ajánló rendszerek Valószínűségi módszerek, naiv Bayes Tanulmányozott adatok alapján kialakítják a valószínűségi modellt A modell megbecsüli a P(c d) valószínűséget P(c): annak a valószínűsége, hogy egy c-beli dokumentummal van dolgunk P(d c): annak a valószínűsége, hogy d dokumentummal van dolgunk c-n belül P(d): annak a valószínűsége, hogy d-vel van dolgunk Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 18 / 47

Tartalom alapú ajánló rendszerek Bayes tétel alapján: P(c d) = c = argmax cj P(c j )P(d c j ) P(d) P(d)-vel egyszerűsíthetünk P(c)P(d c) P(d) P(d c) és P(c) értékét kikövetkeztetjük Gond: az adat kevés a jó valószínűségi értékek meghatározásához Feltételezés: dokumentumban található szavak egymástól feltételesen függetlenek az osztályon belül Szavak valószínűségei egyenként kerülnek meghatározásra Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 19 / 47

Két modell Tartalom alapú ajánló rendszerek Dokumentum = vektor a szótár teste (V ) felett Vektor elemei = előfordult-e a dokumentumban Többváltozós Bernoulli (multivariate): szavakat binárisan kódolja Többtagú (multinomial) esemény modell: megszámlálja az előfordulást is Különbség csak nagy szótárak esetén vehető észre Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 20 / 47

Tartalom alapú ajánló rendszerek Relevancia feedback, Rocchio algoritmusa Alapelv: felhasználók visszajeleznek a rendszernek user profil finomítás Vektoros reprezentáció Vektor elemei = dokumentum elemei (szavak) Súlyozás TF-IDF-fel Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 21 / 47

TF-IDF Tartalom alapú ajánló rendszerek a ritka szavak nem kevésbé fontosak, mint a gyakoriak (IDF feltétel) a szavak többszöri előfordulása egy dokumentumban nem kevésbé fontos, mint az egyszeriek (TF feltétel) a hosszú dokumentumok nem részesülnek előnyben a rövidebbekhez képest (normalizációs feltevés) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 22 / 47

Tartalom alapú ajánló rendszerek C-beli osztályhoz prototípus vektor Új d dokumentum osztályozásához hasonlósági érték számítása Abba az osztályba sorol, ahol ez maximális Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 23 / 47

Együttműködés alapú ajánló rendszerek Együttműködés alapú ajánló rendszerek CF - Collaborative filtering Felhasználó specifikus ajánlások Nincs szüksége különleges információkra az ajánlott tételekről vagy a felhasználókról Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 24 / 47

Netflix Együttműködés alapú ajánló rendszerek 2006 októberben kezdődött Először jutottak hozzá nagyméretű adathalmazhoz: 100480507 szavazatot tartalmazott 480189 felhasználótól 17770 filmre vonatkozóan Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 25 / 47

Netflix 2 Együttműködés alapú ajánló rendszerek Tanító osztályzások: <felhasználó, film, értékelés dátuma, értékelés> Ismert filmek címe és megjelenési éve Teszt halmaz: 2817131 db <felhasználó, film, értékelés dátuma> Cél: eredmények RMSE-ének minimalizálása (Root Mean Squared Error, négyzetes középérték hiba) RMSE(ˆθ) = E((ˆθ θ) 2 ) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 26 / 47

Netflix 3 Együttműködés alapú ajánló rendszerek 2009 júliusában ért véget Két csapat is megütötte a kellő mércét (Netflix algoritmusánál min. 10%-kal jobb teljesítmény) A nyertes a korábban beküldő lett Újabb forduló nem indult Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 27 / 47

Együttműködés alapú ajánló rendszerek Sokféle bemenet Legjobb: explicit feedback Gond: nem mindig elérhető sok ajánló rendszer az implicit feedbacket használja (browsing history, keresési minták) Ajánlások létrehozásához: felhasználók és tételek összefüggésbe hozása Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 28 / 47

Két fő módszer Együttműködés alapú ajánló rendszerek Szomszédsági megközelítés (neighborhood approach) látens (rejtett) faktor modellek (latent factor models) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 29 / 47

A feladat Adott: Együttműködés alapú ajánló rendszerek m felhasználó (vásárló) értékelése n tétel (termék) Indexelések: u, v: felhasználók i, j, l: termékek r ui : az u felhasználó ismert értékelése az i termékre ˆr ui : jósolt értékelések t ui : az értékelés időpontja Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 30 / 47

A feladat 2 Együttműködés alapú ajánló rendszerek Általában az értékelések nagy %-a hiányzik (Netflixnél 99%) Jelölések: κ = {(u, i) rui ismert} R(u): u felhasználó ismert értékelései R(i): az i termék értékei (N(u): amelyet u impliciten véleményezett) Cél: ismert adatok alapján ismeretlen felhasználói értékelések megjóslása Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 31 / 47

Baseline predictorok Együttműködés alapú ajánló rendszerek Olyan effektusokat gyűjtői, amelyek nem tartalmaznak felhasználó-tétel kölcsönhatásokat b ui = µ + b u + b i µ: az átlagos osztályozás b u és b i változók jelzik az u felhasználó és az i termék megfigyelt eltéréseit az átlagostól Leon, a profi - Bob Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 32 / 47

Együttműködés alapú ajánló rendszerek b u és b i becsléséhez meg kell oldani a legkisebb négyzet problémát: min (r ui µ b u b i ) 2 + (u,i) κ λ 1 ( u b 2 u + i b 2 i ) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 33 / 47

Szomszédsági modellek Együttműködés alapú ajánló rendszerek U: a felhasználók halmaza I: a tételek halmaza R: az ismert értékelések halmaza S: az értékelések lehetséges értékeinek a halmaza (S = [1, 5] vagy S = {like, dislike}) U i : az i terméket értékelt felhasználók halmaza (feltesszük, hogy egy u U user egy i I termékre csak egy értékelést adhat, r ui ) I u : az u user által értékelt tételek halmaza I uv = I u I v U ij = U i U j Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 34 / 47

Problémák Együttműködés alapú ajánló rendszerek Legjobb tétel (best item): feladat egy u felhasználó számára megtalálni azt az új i I \ I u elemet, ami a legjobban érdekelné őt Top-N Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 35 / 47

Best item Együttműködés alapú ajánló rendszerek Ha az elemekről elérhetőek értékelések gyakran regresszióként vagy osztályozásként definiálják Cél: f : U I S függvény megtanulása f megjósolja az u felhasználó f (u, i) értékelését az i tételre f -et felhasználják i ajánlására, amire a jósolt érték a legmagasabb i = argmax j I\I u f (u a, j) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 36 / 47

Együttműködés alapú ajánló rendszerek értékelése pontosságuk alapján Tipikusan az értékelések R halmazát szétvágják R train és R test halmazokra Pontosság mérésére átlagos abszolút hiba (Mean Absolute Error, MAE) négyzetes középérték hiba (Root Mean Squared Error, RMSE) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 37 / 47

Együttműködés alapú ajánló rendszerek 1 MAE(f ) = f (u, i) r ui R test rui R test 1 RMSE(f ) = (f (u, i) r ui) 2 R test rui R test Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 38 / 47

Együttműködés alapú ajánló rendszerek Ha nem ismertek a tételek értékelései: Nem lehet megállapítani a jóslás pontosságát Legjobb item megtalálás L(u a ) lista ajánlása, amely N olyan tételt tartalmaz, amely feltehetőleg érdekelni fogja Tételek I halmazát kettébontják egy tanuló és teszthalmazra T (u): azon elemek halmaza, amelyeket az adott felhasználó relevánsnak tartott Adott tételek listája használható T (u)-ként Nagy hátrány: minden tétel ugyanolyan fontosnak értékel a user számára Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 39 / 47

Együttműködés alapú ajánló rendszerek Pontosság: Precision(L) = 1 U u U Recall(L) = 1 U u U L(u) T (u) L(u) L(u) T (u) T (u) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 40 / 47

Előnyök Együttműködés alapú ajánló rendszerek Egyszerűség: könnyű implementálni, a legegyszerűbb esetben csak egy paraméternek van szüksége finomításra Igazolhatóság: a módszerek biztosítanak ellenőrzést is a jósolt eredményekhez Stabilitás: kevésbé gyakorolnak rájuk hatást az újonnan felvett felhasználók, itemek vagy értékelések. Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 41 / 47

Előnyök 2 Együttműködés alapú ajánló rendszerek Hatékonyság: nem igényel költséges tanuló fázisokat. Ugyan az ajánlási lépés költségesebb, a legközelebbi szomszédok egy offline lépésben előre kiszámolhatóak, tárolásuk kis memóriát igényel, milliós nagyságrendű felhasználókra és tételekre is használható Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 42 / 47

The Movie Genome és a Jinni Movie Genome Movie Genome Human Genome Project: összes emberi gén feltérképezése Movie Genome - filmek génjei Hasonló kezdeményezés: Music Genome Project (Pandora) Pl. hangulat, árnyalat, cselekmény, felépítés (mood, tone, plot, structure) Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 43 / 47

Jinni The Movie Genome és a Jinni Movie Genome Genome alapvetően két részre: Experience: a hangulata a tartalomnak Story: cselekmény elemek (one man army), felépítés (nemlineáris, story-within-a-story), flagek (erőszak) + sok külső tényező Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 44 / 47

Jinni 2 The Movie Genome és a Jinni Movie Genome Minden filmnek kb. 50 génje Több ezer lehetséges érték Jinni algoritmusa automatikusan besorolja az új filmeket Konzisztencia, egyesít több véleményt Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 45 / 47

Jinni 3 The Movie Genome és a Jinni Movie Genome ún. Movie Personality alapján ajánl filmeket/sorozatokat Ezt hasonlítja össze a többi film génjeivel Felhasználóként szomszédainktól is kapunk ajánlásokat Minden felhasználóhoz gének egy klaszterját rendeli Ezeket a géneket folyamatosan módosítja, finomítja Egyszerűsített változata a Movie Personality Sketch Gubek Andrea (BME SZIT) Elosztott algoritmusok hiperkockán 2012. május 10. 46 / 47

Köszönöm a figyelmet!