Szomszédság alapú ajánló rendszerek

Hasonló dokumentumok
Nagyméretű adathalmazok kezelése Ajánló rendszerek

Valószínűségi változók. Várható érték és szórás

Közösség detektálás gráfokban

Hash-alapú keresések

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Megerősítéses tanulás 7. előadás

Betekintés a komplex hálózatok világába

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

(Independence, dependence, random variables)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

Sztochasztikus folyamatok alapfogalmak

Normális eloszlás tesztje

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Szalai Péter. April 17, Szalai Péter April 17, / 36

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

A Richardson-extrapoláció és alkalmazása a Dániai Euleri Modellben

Dr. habil. Maróti György

Az Informatika Elméleti Alapjai

Regressziós vizsgálatok

Ajánló rendszerek áttekintés

Engedy Balázs. Nagy adathalmazok kezelése

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Osztályozóvizsga követelményei

Metaanalízisek. Ferenci Tamás május 16. Ferenci Tamás Metaanalízisek május 16.

Deep Learning a gyakorlatban Python és LUA alapon Felhasználói viselkedés modellezés

A leíró statisztikák

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Diagnosztika és előrejelzés

Király Zoltán, Kondé Zoltán, Kovács Antal, Lévai Annamária 2006

Egy újabb látószög - feladat

Maradandó digitális transzformációk Oracle HOUG Konferencia 2018

Tudásmenedzsment szerepe a minőségkultúra fejlesztésében


ÜGYVITELI UTASÍTÁS A PANASZOK ÉS VISSZAJELZÉSEK KEZELÉSÉRŐL ÉS A FELHASZNÁLÓI ELÉGEDETTSÉG VIZSGÁLATÁNAK RENDJÉRŐL

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

MUNKAGAZDASÁGTAN. Készítette: Köllő János. Szakmai felelős: Köllő János január

IBM SPSS Modeler 18.2 Újdonságok

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

A HŐMÉRSÉKLET ÉS A CSAPADÉK HATÁSA A BÜKK NÖVEKEDÉSÉRE

Bevezetés a Korreláció &

A villamos energia ellátás javítása érdekében tett intézkedések az ELMŰ-ÉMÁSZ Társaságcsoportnál

Diszkriminancia-analízis

Informatikai fejlesztések a hatékonyság növelése érdekében. Richter Gedeon Nyrt. Dr. Benkő Béla

A sokaság/minta eloszlásának jellemzése

Nagy méretű adathalmazok vizualizációja

Z Generáció - MeGeneráció

Nyilvántartási Rendszer

Eredmények kiértékelése

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Korreláció számítás az SPSSben

y ij = µ + α i + e ij

ACTA CAROLUS ROBERTUS

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

Bevásárlóközpontok energiafogyasztási szokásai

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

[Biomatematika 2] Orvosi biometria

Mátrixhatvány-vektor szorzatok hatékony számítása

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

Centrális határeloszlás-tétel

A képzett szakemberekért. SZFP II. Hazai Peer Review 2009

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft

Mi a karbantartás feladata. Karbantartás-fejlesztés korszerűen Nyílt képzés Fekete Gábor, A.A. Stádium Kft.

Diszkrét idejű felújítási paradoxon

HOGYAN JELEZHETŐ ELŐRE A

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

8. Pontmegfeleltetések

Gráfalgoritmusok ismétlés ősz

nem kezelt 1.29, 1.60, 2.27, 1.31, 1.81, 2.21 kezelt 0.96, 1.14, 1.59

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Számítógép és programozás 2

Populációbecslések és monitoring 1. gyakorlat. Elvonásos módszerek az adatokat pl. a vadászok is gyűjthetik, olcsóbb

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

1. Olvassuk be két pont koordinátáit: (x1, y1) és (x2, y2). Határozzuk meg a két pont távolságát és nyomtassuk ki.

Szerven belül egyenetlen dóziseloszlások és az LNT-modell

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

A könyvvizsgálat színvonalának növelése a minőségellenőrzésen keresztül

Az igazság pillanatai

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

Antropogén eredetű felszínváltozások vizsgálata távérzékeléssel

A szellemivagyon-értékelés alapjai

18. modul: STATISZTIKA

Többváltozós lineáris regressziós modell feltételeinek

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

KÖVETKEZTETŐ STATISZTIKA

ÉRTÉKELÉS MÁSKÉPP Készítette: Cselikné Juhász Ildikó

Az értékelés során következtetést fogalmazhatunk meg a

Átírás:

Nagyméretű adathalmazok kezelése Szomszédság alapú ajánló rendszerek Készítette: Szabó Máté

A rendelkezésre álló adatmennyiség növelésével egyre nehezebb kiválogatni a hasznos információkat Megoldás: ajánló rendszer Olyan szoftver ami megkísérli előre jelezni, hogyan fog egy felhasználó értékelni egy eddig még nem ismert terméket.

Az ajánló rendszerek céljai Több termék eladása Többféle termék eladása Felhasználó elégedettségének növelése A felhasználó igényeinek feltérképezése

Elvárások Stabilitás Hatékonyság Pontosság Novelty Serendipity

Felhasználói visszajelzések Implicit A felhasználó normális tevékenységének rögzítése Explicit Unáris Bináris Skaláris

A probléma formálisan U - felhasználó I - árucikk R - a rendszer által már ismert értékelések S - a lehetséges érékelések értékkészlete Ekkor a feladat: az függvény becslése

Validálás Mean Absolute Error Root Mean Squared Error

Validálás Precision Recall

Információszűrő rendszer Ajánló rendszer Együttműködő Tartalom alapú Szomszédsági Hibrid Modell alapú

Szomszédság alapú ajánló rendszer User alapú Item alapú a b c d e A 2 1 4 3 2 B 5 3 1 1 4 C 1 3 3 4 2 D 5 2 3? 4 E 4 2 2 1 3

User-based rating prediction Egyszerű Súlyozott Súlyozott és normalizált

User-based classification Súlyozott Normalizált és súlyozott

Különbség a két módszer között Ha az értékelések folytonosak, akkor inkább az előbbit, ha diszkrétek, akkor az utóbbit alkalmazzuk Gondoljunk arra az esetre ha egy terméket mindenki vagy 1 vagy 10 pontosra értékelt

Item-based rating prediction Súlyozott és normalizált

Item-based classification Súlyozott és normalizált

Az hogy item vagy user alapú megoldást választunk, alapvetően a felhasználók és az árucikkek számának arányától függ a b c d e A 1 5 4 3 2 B 1 4 5 3 1 C 4 3 2 2 1 Ne feledkezzünk meg a tár- és számításigényről sem

Szomszédság alapú ajánló rendszerek általános működése Normalizálás Hasonlósági súlyok kiszámítása Szomszédok kiválasztása

Normalizálás A felhasználók azonos skálán értékelnek, de nem azonos szempontok szerint Az egyes értékeléseket nem lehet összevetni Normalizálni kell a b c d A 5 5 5 4 B 3 2 2 4

Normalizálás Mean centering a b c d A 0,25 0,25 0,25-0,75 B 0,25-0,75-0,75 1,25 Z-score normalization a b c d A 0,5 0,5 0,5-1,5 B 0,26-0,78-0,78 1,31

Hasonlósági súlyok kiszámítása Koszinusz hasonlóság Pearson korreláció Még sok más

Hasonlósági súlyok kiszámítása Mean squared difference Spearman rank korreláció

Szomszédok kiválasztása Nem gazdaságos minden értéket eltárolni, valamilyen előszűrést kell alkalmazni Top-N filtering Threshold filtering Negative filtering A fentiek keveréke

Szomszédok kiválasztása k MSD SRC PC 5 0.7898 0.7855 0.7829 10 0.7718 0.7636 0.7618 20 0.7634 0.7558 0.7545 60 0.7602 0.7529 0.7518 80 0.7605 0.7531 0.7523 100 0.7610 0.7533 0.7528 Christian Desrosiers, George Karypis - A comprehensive survey of neighborhood-based recommendation methods

A szomszédsági alapú rendszerek gyengéi A felhasználók nem feltétlenül adnak értékelést ugyanazokra a termékekre Gyakorlatban az értékelés eloszlása nem egyenletes Sok termékhez nincs, vagy nem elég az értékelés (pl. újonnan a rendszerhez adott tétel)

Lehetséges megoldások Dimenzió csökkentés Gráf alapú megoldások Legrövidebb út Véletlen bolyongás

A szomszédság alapú módszerek előnyei Egyszerűség Hatékonyság Igazolhatóság Stabilitás Véletlenszerű felfedezés

Köszönöm a figyelmet!