Kontextus-vezérelt faktorizációs módszerek
|
|
- Lajos Bakos
- 8 évvel ezelőtt
- Látták:
Átírás
1 Kontextus-vezérelt faktorizációs módszerek implicit feedback alapú ajánlási problémákra Tézisfüzet Hidasi Balázs Témavezető: Dr. Magyar Gábor Külső konzulens: Dr. Tikk Domonkos Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék május
2 Tartalomjegyzék 1 Bevezetés 2 2 Témavázlat További információ felhasználása mátrix faktorizációban, inicializálás segítségével Kontextus-vezérelt faktorizációs algoritmusok ALS alapú faktorizáció gyorsítása GFF és preferencia modellezés kontextussal A disszertáció felépítése 10 4 Új eredmények összefoglalása 12 5 Eredmények alkalmazása 16 Tézisekhez kapcsolódó publikációk 17 A szerző további publikációi 18 Hivatkozások 20 1
3 1 Bevezetés Az ajánlórendszerek olyan információszűrő eszközök, amik segítik az információs túlterheltségben szenvedő felhasználókat azáltal, hogy számukra érdekes/megfelelő/hasznos termékeket (tartalmat, stb) javasolnak nekik. A felhasználók személyre szabott ajánlási listákat kapnak, amik tipikusan csak néhány terméket tartalmaznak; ezek a termékek ráadásul nagy valószínűséggel megfelelnek a felhasználó érdeklődésének. A termékek megfelelőségét (az egyes felhasználóknak) az ajánlóalgoritmusok jelzik előre; a felhasználónak a legmagasabb előre jelzett megfelelőségi értékkel rendelkező termékeket mutatja a rendszer. Az ajánlórendszerek központi része az ajánlóalgoritmus, ami a megfelelőségük alapján rangsorolja a termékeket. Az ajánlóalgoritmusokat öt nagyobb csoportba szokás sorolni [13], amelyek közül a két legjelentősebb stratégia a kollaboratív szűrést (collaborative filtering CF) és a tartalom alapú szűrést (content-based filtering CBF) alkalmazó módszerek csoportja. A CF algoritmusok csak a felhasználó termék interakciókat (eseményeket, tranzakciókat) használják fel a működésük során. Ezen módszerek felteszik, hogy két felhasználó hasonló, ha hasonló termékeket fogyasztottak; és két termék hasonló, ha hasonló felhasználók fogyasztották őket [15]. A CBF algoritmusok a termékek metaadatait (pl. szerző, műfaj, stb) használják. Első lépésként a termékek metaadatait a szövegbányászatból és az információ kinyerés (information retrieval) területéről ismert módszerekkel elemzik [2]. Ezután felhasználói profilokat képeznek, felhasználva, hogy a felhasználók mely termékeket kedvelték. A preferenciák előrejelzése a termékek metaadatainak és a felhasználói profilok összevetésével történik [9]. Általánosságban a CF módszerek a legpontosabbak a vegytiszta módszerek közül, pl. pontosabbak a CBF módszereknél, amennyiben elég esemény áll rendelkezésre [10]. A CF algoritmusokat két osztályba szokás sorolni, a memória alapú és modell alapú megoldások közé. Az előbbibe tartoznak a szomszéd módszerek, amik a termékek vagy a felhasználók értékelés vektorait vetik össze, és ezáltal definiálnak hasonlóságokat köztük. Az ajánlások a hasonló termékek vagy felhasználók súlyozott átlagaként állnak elő (pl. [5, 12, 7]). Az elmúlt évtizedben a modell alapú módszerek váltak népszerűvé, mivel sokkal jobban teljesítettek a Netflix Prize versenyen [4], egy 2006-ban indult nyilvános versenyen, ami hosszú ideig a legnagyobb és legjelentősebb méretű bechmarknak számított. A modell alapú módszerek általánosítanak az adatokból és olyan modelleket építenek, amik jól képesek előre jelezni a felhasználók preferenciáit. Ezek közül is a faktorizációs algoritmusok bizonyultak a legsikeresebb megoldásnak. Ezek minden terméket és felhasználót egy K dimenziós látens jellemzőtérben reprezentálnak, mint egy K hosszú jellemzővektor. Matrix faktorizáció: A legismertebb látens jellemzőket használó algoritmusok a mátrix faktorizációs módszerek (pl. [3, 16, 11, 17, 6, 14]). Ezek a megfigyelt értékeléseket egy preferencia mátrixba (R) rendezik, aminek a két dimenziója a felhasználóknak és a termékeknek felel meg. Ha a u felhasználó r-rel értékeli az i terméket, akkor R u,i = r. R egy nagy méretű, de igen ritka mátrix. A mátrix faktorizáció alapja, hogy ezt az R mátrixot és alacsony rangú mátrix szorzatára bontjuk fel ( ˆR = (M (U) ) T M (I) ), amikre jellemzőmátrixként hivatkozunk. Az egyik jellemzőmátrix a felhasználókhoz (M (U) ) a másik a termékekhez tartozik (M (I) ). A felhasználók jellemzőmátrixának u. sora az u felhasználó (K hosszú) látens jellemzővektora. A termékek jellemzővektorait hasonló módon értelmezzük. Az u felhasználó előre jelzett értékelése/preferenciája az i termékre 2
4 a jellemzővektoraik skalárszorzata, azaz ˆR u,i = (M u (U) ) T M (I) i. Interakciók típusai: A felhasználó termék interakciók típusától függően az ajánlási problémák lehetnek explicit vagy implicit visszajelzés (feedback) alapúak. Explicit visszajelzést a felhasználók aktív hozzájárulásként biztosítanak, leggyakrabban értékelések formájában. Ez expliciten kódolja a preferenciáikat a termék(ek)kel kapcsolatban. A klasszikus explicit feedback alapú feladat az értékelés előrejelzés, azaz a cél a hiányzó értékelések minél pontosabb előrejelzése. Ezzel szemben egy ajánló feladata néhány érdekesnek/hasznosnak ítélt termék kiválasztása az egyes felhasználók számára. Ehhez a termékeket először rangsorolni kell (a felhasználók számára való megfelelőségük alapján), majd a rangsor első néhány termékét visszaadhatjuk ajánlásként. Ez a topn ajánlási feladat. Az értékelés előrejelzési feladat eredménye átalakítható topn ajánlássá úgy, hogy a legnagyobb előre jelzett értékeléssel rendelkező termékeket ajánljuk. Ugyanakkor a jó értékelés előrejelzés nem mindig eredményez jó topn ajánlást. Implicit feedbacket a felhasználók viselkedésének passzív megfigyelésével nyerhetünk, miközben a szolgáltatást (pl. egy webshopot) használják. Mivel nincs szükség a felhasználó aktív hozzájárulására, ezért nagy mennyiségben gyűjthető. Ez kifejezetten fontos szempont a gyakorlatban. Viszont a preferenciákat ki kell következtetni az így gyűjtött interakciókból. Ha a felhasználó interakcióba lépett egy termékkel az egy zajos visszajelzés pozitív preferenciáról. A negatív visszajelzések gyűjtése még problémásabb, mivel az interakció hiányának több oka lehet, amik közül a leggyakoribb az, hogy a felhasználó nem is tud a termék létezéséről. Az implicit feedbackkel dolgozó algoritmusoknak ezért figyelembe kell venniük a hiányzó eseményeket is. Kontextus-vezéreltség: A kontextus-vezérelt 1 ajánlórendszerek (context-aware recommender systems CARS) [1] a tranzakciókon felül egyéb információt is figyelembe vesznek, amire összefoglaló néven kontextusnak nevezünk. A kontextus-vezérelt ajánlás jelentősen megnövelheti az ajánlás pontosságát: (1) Az algoritmus képes kezelni a kontextus függő hatásokat a tanulási fázisban. Például, bizonyos változások a felhasználók viselkedésében, mint a szezonális hatások csak a kontextus ismeretében érthetőek. A kontextust nem használó algoritmusoknak a hasonló hatások véletlenszerűnek tűnnek és a helytelen kezelés folyományaként hasonló helyzet áll elő, mint zajos adatokon való tanulásnál. (2) Az ajánlási listák a kontextus függvényében változnak, így jobban alkalmazkodnak a felhasználók aktuális igényeihez. Ajánlóalgoritmusok kiértékelése: A topn ajánlók kiértékelése ajánlási pontosság szempontjából a következők szerint történik. A termékeket egy adott felhasználó számára az adott kontextuson belül rangsoroljuk az előre jelzett megfelelőségük alapján (ˆr). A kiértékelést különböző mértékek segítségével végezzük egy, a tanítóhalmazzal diszjunkt, teszt adatbázison. Egy adott felhasználó kontextus (azaz lekérdezés) számára a teszthalmaz ezen felhasználójának ebben a kontextusban előforduló eseményeinek termékei számítanak relevánsnak. Az ajánlott termékek a lekérdezés számára generált rangsor első N darab eleme. A disszertációban általában N = 20-at használok; az eredmények N = 10 és N = 5 mellett erősen korrelálnak ezzel. Fontos megemlíteni, hogy a kiértékelés során az összes terméket rangsorolom. Az ajánlási pontosságot több mértékkel lehet mérni. A disszertációban főként a re- 1 A terület nevének a fordítása nem teljesen pontos. A terület algoritmusai figyelembe veszik a kontextust és az ajánlások is ennek megfelelően változhatnak, ugyanakkor nem közvetlenül a kontextus vezérli az ajánlásokat. 3
5 mértékre támaszkodok, ami az ajánlott releváns termékek és a releváns termékek aránya. Más szavakkal, ez azon tesztesemények aránya, amiknek a terméke a megfelelő ajánlási listák első N eleme között van. A recall jól közelít bizonyos gyakorlati ajánlási környezeteket és jól korrelál az átkattintási aránnyal (click-through rate CTR), egy gyakran használt online mértékkel. 2 Témavázlat A kutatás központi eleme a kontextus-vezérelt, implicit feedback alapú ajánlási probléma megoldása faktorizációval; és jelentősen befolyásolják gyakorlatból vett szempontok. A kutatás célja, hogy integrálja a kontextust (valamint egyéb információkat, pl. metaadatokat) faktorizációs algoritmusokba, így növelve azok pontosságát implicit feedbackre építő topn ajánlási problémák esetén. A kontextust, mint esemény kontextust (azaz a tranzakciókhoz és nem az egyes entitásokhoz kapcsolódó információt) definiálom. Az ajánlási pontosság fő mérőszámaként a recall@20 mértéket használom. Kétféle kontextust használok, a szezonalitást és a szekvenciális kontextust. Ezen kontextusok gyakorlati hasznossága abban rejlik, hogy könnyen létrehozhatóak szinte minden implicit adatsor esetén, mivel a származtatásukhoz csak arra van szükség, hogy az események időbélyege is rendelkezésre álljon. Szezonalitás: A legtöbb olyan terület, ahol ajánlórendszereket alkalmazunk, mutat valamilyen szezonális viselkedési mintázatot, mivel az emberi viselkedés sok esetben periodikus. Emiatt a szezonális információ kontextusként való használata nyilvánvaló [8]. A származtatásához első lépésként a szezon hosszát kell definiálni. A szezonon belül nem számítunk szabályszerű ismétlődésekre a felhasználók aggregált viselkedésében. Két különböző szezonban ugyanazon, a kezdéstől számított relatív időpontjánál az aggregált viselkedés hasonlóságára számítunk. A szezon optimális hossza az adatoktól függ. Második lépésként idősávokat határozunk meg a szezonon belül, ezek lesznek a kontextus lehetséges állapotai. Az idősávok határozzák meg a szezonalitás felbontását és optimális kialakításuk szintén az adatoktól függ. Az események kontextusát az időbélyegük alapján határozzuk meg, attól függően, hogy melyik idősávba esnek. Szekvenciális kontextus: Bizonyos alkalmazási területeken, mint például filmeknél vagy zenénél, a felhasználók hasonló termékeket fogyasztanak. Más esetekben, mint például elektronikus eszközök vásárlásánál vagy az e-kereskedelemben viszont pont hogy kerülik a hasonló termékeket és inkább kiegészítőket keresnek. Mindkét típusú területen megfigyelhetőek viszont szekvenciális mintázatok. A szekvenciális kontextust a [T2] cikkben javasoltam. Egy tranzakció szekvenciális kontextusa az eseményben résztvevő felhasználó előző eseményének terméke. Ez az információ segít az ismétlődésekhez kapcsolódó használati mintázatok és a sorrendfüggő fogyasztási szokások modellezésében. A módszerek és algoritmusok kiértékeléséhez öt implicit feeback alapú adatbázist használok, amik közül három nyilvánosan elérhető. 2.1 További információ felhasználása mátrix faktorizációban, inicializálás segítségével A kutatás első fázisa annak a megvizsgálása, hogy a tisztán CF faktorizációs eljárásokba bevihető-e valamilyen más információ, anélkül, hogy az algoritmusokon változtatni kell- 4
6 jen, és ezáltal megnövelhető-e ezen módszerek hatékonysága. A mátrix faktorizációs algoritmusok első lépése, hogy véletlenszerűen inicializálják a jellemzőmátrixokat, és a tanítási eljárás ezen érétkeket fogja megváltoztatni. Az elképzelés az, hogy ehelyett indítsuk a faktorizációt egy olyan pontból, ami jobban jellemzi az adatainkat, azaz a jellemzővektorok inicializálásához használjunk valamilyen külső információt. Ezáltal ezt a külső információt képesek vagyunk bevinni a modellbe. Bár ez a megoldás még nem kontextus-vezérelt, az ajánlási pontosságot megnövelheti. Három fő inicializálási megoldást vizsgálok meg. Az inicializálás arra a megfigyelésre épít, hogy a hasonló termékek (tanított) jellemzővektorai is hasonlóak. A termékek hasonlóságát többféle módon is definiálhatjuk, és ehhez a külső információkat is felhasználhatjuk. Az első lépés mindhárom módszer esetében egy termék (vagy felhasználó) leírómátrix definiálása a külső információk (pl. metaadat, kontextus) segítségével. Ezután ezt a leírómátrixot faktorizáljuk, így megkapjuk az egyes termékek és a leíró dimenzió entitásainak (metaadat kifejezések vagy kontextus állapotok) látens jellemzővektorait. Innen többféle módon is továbbléphetünk: Mivel a hasonló termékek jellemzővektorai hasonlóak a faktorizálás után, használhatjuk a termék jellemzővektorokat az inicializáláshoz. A leíróvektorok közötti hasonlóságot is definiálhatjuk, de a teljes hasonlósági mátrix kiszámítása a gyakorlatban megvalósíthatatlan. Viszont a hasonlóságok közelíthetőek a látens jellemzővektorok segítségével. Mivel a hasonlóságmátrix a leírómátrixnak és a transzponáltjának a szorzata, olyan jellemzővektorok is kiszámíthatóak a faktorizáció után keletkező termék és entitás jellemzővektorok segítségével amik hasonlóságai jobban közelítik az eredeti hasonlóságokat. Ezek a vektorok használhatóak az inicializáláshoz. A hasonlóságot úgy is definiálhatjuk, mint a többi termékhez való hasonlóság vektorok közötti hasonlóságot. Bár a pontos hasonlóságok kiszámítása ebben az esetben sem valósítható meg a gyakorlatban, az előző pontban leírt módszerhez hasonló megoldással ezek is közelíthetőek. Ezeket a módszereket kipróbáltam az ials, egy gyakran használt, implicit feedback alapú mátrix faktorizáció javítására. Az ajánlási pontosság jelentősen megnőtt a véletlenszerű inicializáláshoz képest. Összehasonlítottam a metaadat és kontextus alapú inicializálásokat is, és azt találtam, hogy a kontextussal jobb eredményt lehet elérni. A két információtípus kombinálása pedig tovább növeli a pontosságot. 2.2 Kontextus-vezérelt faktorizációs algoritmusok A kutatás következő fázisában kifejlesztettem két kontextus vezérelt faktorizációs algoritmust, amik hatékonyan képesek tanulni az implicit adatokon. Mindkét algoritmus egy N D dimenziós tenzorban reprezentálható tenzoron (R) dolgozik. A tenzor egyegy dimenziója megfelel a felhasználóknak (felhasználó azonosítók) és a termékeknek (termékazonosítók), a maradék N D 2 pedig a kontextus dimenzióknak. R nullákat és egyeseket tartalmaz: r u,i,c1,,c ND 2 = 1, ha az u felhasználónak volt legalább egy eseménye az i terméken, miközben a j. kontextus állapota c j volt. R minden eleme ismert (azaz nincsenek hiányzó értékelések ), de az egyesek száma jelentősen alacsonyabb a nullákénál. Ez a fajta kialakítás azt feltételezi, hogy egy esemény megléte pozitív, hiánya pedig negatív preferenciát kódol. Mivel a hiányzó esemény és a negatív preferencia között sokkal gyengébb a kapcsolat, mint az esemény és a pozitív preferencia 5
7 között, egy súlyfüggvény létrehozására is szükség van. A W(i 1,..., i ND ) súlyfüggvény minden egyes lehetséges entitás kombinációhoz egy valós értéket rendel. A gyakorlati szempontból jó W( ) az adatoktól függ és befolyásolhatja a tanítás hatékonyságát is. Az egyszerűség kedvéért tegyük fel, hogy W( ) érétke 1 a hiányzó eseményeknél és 100 #(i 1,..., i ND ) a többi helyen. Az algoritmusok a súlyozott négyzetes hibaösszegre optimalizálnak (ami ekvivalens az RMSE-re való optimalizálással), ahol a célváltozók az R beli értékek és a súlyokat W( ) szolgáltatja. Az optimalizáláshoz az alternáló legkisebb négyzetes hibák módszerét (alternating least squuares - ALS) használom. Ez azt jelenti, hogy egy adott időpillanatban egy kivételével az összes jellemzőmátrix fix, és csak és kizárólag a nem fixált mátrix jellemzőinek értékét számítjuk ki, mint legkisebb négyzetes megoldást. Ez az eljárás iteratív módon csökkenti a hibát. Egy teljesen kitöltött tenzoron (mint amilyen az R is) a naiv ALS rosszul skálázódik. De a számítások okos szétválasztása és bizonyos statisztikák előzetes kiszámítása lehetővé teszi a hatékony tanítást. A két algoritmus közötti különbség az eltérő preferencia modellek használata, azaz a becsült preferencia kiszámításához használt képlet eltérő. itals: Az itals algoritmus az u felhasználó preferenciáját az i terméken adott kontextus állapotok mellett, mint a megfelelő jellemzővektorok elemenkénti (Hadamard) szorzataként előálló vektor koordinátáinak összegeként (azaz N D vektor skalárszorzataként ) becsüli. Ez az N-utas (N-way) interakció modell. Az alábbi kifejezés formálisan leírja a modellt 2 : ( ) ˆr i1,...i ND = 1 T Mi 1 1 Mi 2 2 M N D i ND (1) Ez a modell azt feltételezi, hogy a preferenciák az összes dimenzió együttes interakciójaként alakulnak ki. Az ajánlások szempontjából a modell a felhasználó termék interakció újrasúlyozása egy kontextus függő jellemzővektor által (ami N D > 3 esetén több jellemzővektor elemenkénti szorzataként áll elő). italsx: Ez a módszer alapvetően háromdimenziós problémákhoz (felhasználó, termék és egy kontextus) lett kifejlesztve. Az u felhasználó preferenciája az i terméken adott kontextus mellett, mint a megfelelő jellemzővektorok páronkénti skalárszorzatainak összegeként áll elő. Azaz a felhasználó és termék, a felhasználó és a kontextus, valamint a termék és a kontextus jellemző vektorok skalárszorzatainak összegével becsüljük a preferenciát. Ez a modell a páronkénti interakció modell. A modellt a következő módon fejezhetjük ki formálisan: ˆr u,i,c = 1 T ( M (U) u M (I) i + M (U) u M (C) c + M (I) i ) M c (C) Ebben a modellben a preferencia a felhasználó termék interakció, egy kontextus függő termék és egy kontextus függő felhasználó bias összegeként áll elő. A kontextus függő felhasználó bias nem vesz részt ugyan a termékek rangsorolásban hiszen mindig egy adott felhasználónak ajánlunk egy adott kontextus mellett, így az értéke minden termékre megegyezik de képes csökkenteni a kontextus-függő mintázatok hatását a tanítás során, amit egy klasszikus mátrix faktorizáció számára zajként jelenne meg. Algoritmikus komplexitás: Mindkét algoritmus esetében egy epoch (azaz minden jellemzőmátrix egyszeri újraszámolásának) komplexitása O(N D N + K 2 + N D i=1 S ik 3 ), 2 Az eltolás (bias) értékek nem kerülnek feltűntetésre a könnyebb érthetőség végett. (2) 6
8 ahol N D, N+, K a dimenziók, események és (vektoronkénti) látens jellemzők száma, S i pedig a tenzor i. dimenziójának mérete (azaz a felhasználók/termékek/kontextus állapotok száma). Az algoritmus lineárisan skálázódik az események számával. Ez a gyakorlatban kifejezetten fontos a rendelkezésre álló sok esemény és az eseményhalmaz gyors növekedése miatt. Az algoritmus elméletben köbösen skálázódik a látens jellemzők számával. Viszont mivel N D N + N D i=1 S i és K érétke alacsony a gyakorlatban, az első tag a domináns. Így az algoritmus négyzetesen skálázódik a gyakorlatban használt K érétkekre. Módszerek összehasonlítása: Az itals-t és italsx-et (a) mátrix faktorizációval, (b) mátrix faktorizációk összességére építő alapvető kontextus-vezérelt eljárással és (c) egymással is összehasonlítottam. A kísérletek során mind szezonalitást, mind szekvenciális kontextust is használtam. A főbb eredmények az alábbiak: Mind az itals és az italsx jelentősen jobban teljesít az ajánlási pontosságot tekintve, mint a mátrix faktorizáció és a kontextus-vezérelt alap megoldás. A javasolt szekvenciális kontextussal jelentősen jobb pontosság érhető el, mint kontextus használata nélkül vagy a szezonalitással. Az ITALS tanulási kapacitása magasabb, de az N-utas modell érzékenyebb a zajokra és az alacsony faktorszám összemosó hatására. Ezért az itals akkor teljesít jobban, mint az italsx, ha a jellemzők száma kellően nagy vagy az adatbázis kellően sűrű. Az eredmények azt mutatják, hogy ritka adatok esetén és alacsony jellemzőszám esetén az italsx-et érdemes használni. 2.3 ALS alapú faktorizáció gyorsítása Gyakorlati alkalmazhatóság szempontjából az algoritmusok tanítási ideje különlegesen fontos jelentőséggel bír. A gyorsabb tanítás lehetővé teszi, hogy (1) a modellezett rendszernek egy újabb állapotát modellezzük (különösen fontos akkor, ha a termékek életciklusa rövid vagy ha gyorsan jelennek meg új termékek); (2) gyakrabban tanítsuk újra a modelleket; (3) jobb kompromisszumokat találjunk a tanítás sebessége és a pontosság között azáltal, hogy magasabb faktorszámot vagy több epochot használunk. Két közelítő megoldást javasolok az ALS tanulás felgyorsítására, amik különösen magasabb faktorszám esetén hatékonyak (azaz a gyorsulás annál nagyobb, minél több jellemzőt használunk). Az ALS esetén a számítási komplexitás amiatt magas, mert magába foglalja egy K K méretű lineáris egyenletrendszer megoldását. A javasolt módszerek ennek a direkt megoldását kerülik el. ALS-CD: Az első megoldás jellemzőnkénti optimalizálásra (coordinate descent - CG) épít. Ebben a módszerben egy adott pillanatban egy kivételével minden modellparaméter fix, és egyszerre mindig egy jellemző kerül kiszámításra. Így a mátrix invertálása helyett elég egy egyszerű osztást használni. Implicit feedback esetén nem egyértelmű ennek a stratégiának a használata, mivel a negatív (hiányzó) eseményeket is figyelembe kell venni. A probléma megoldása, hogy a hiányzó eseményeket K + 1 példába tömörítjük. Az ALS-CD nem közelíti közvetlenül az ALS megoldását, de hasonló eredményeket ad. A módszer használatával az itals/italsx komplexitása O(N D K 3 +N D N + N I K + ND i=1 S ik 2 ) lesz ahol N I a belső iterációk száma ami a gyakorlatban használt K értékek tartományán lineáris skálázódást jelent, mivel ott N D N + N I elnyomja az N D és 7
9 ND i=1 S i szorzókat. ALS-CG: A második megoldás konjugált gradienst használ az egyenletrendszer megoldásának közelítésére. A módszer hatékonysága attól, függ, hogy milyen hatékonyan tudjuk kiszámolni az együtthatómátrix és egy tetszőleges vektor szorzatát. Itt az együtthatómátrix egy előre kiszámolt mátrix és egy diádösszeg összegeként áll elő. Így a szorzás is hatékonyan elvégezhető. Ha a belső iterációk száma megegyezik K-val, akkor az ALS-CG pontosan az ALS megoldását adja. Viszont már jóval alacsonyabb belső iteráció szám mellett is jó közelítések adhatóak. A módszer használatával az itals/italsx komplexitása O(N D N + N I K + N I K 2 N D i=1 S i), ami a gyakorlatban használt K értékek tartományán lineáris skálázódást jelent. Összehasonlítás: Az ALS-hez képest jelentős a gyorsulás: a CG 10.6-szer a CD 2.9-szer gyorsabb, mint az ALS K = 200 esetén (és a különbség tovább nő, ahogy K-t növeljük). A gyakorlatban gyakrabban használt K = 80 esetén a gyorsulás 3.5- szeres CG és 1.3-szeres CD esetén. A három módszer pontossága nagyon hasonló és az eltérések általában jelentéktelenek, Ez azt jelenti, hogy a javasolt gyorsítások anélkül használhatóak, hogy feláldoznánk a módszer pontosságát. Egymással összehasonlítva kijelenthető, hogy a CG-nek több előnyösebb tulajdonsága van: gyorsabb, stabilabb, egy kicsit pontosabb és az ALS direkt közelítése is előnyös. 2.4 GFF és preferencia modellezés kontextussal Ahogy az itals és ITALSx összehasonlításánál is láttuk, különféle preferencia modellek jók különféle szituációkban. A faktorizáció és az adatsor bizonyos tulajdonságai (pl. faktorszám, ritkaság) az egyik vagy a másik modell számára előnyösek. A faktorizációs módszerek többsége az N-utas vagy a páronkénti modell közül használja az egyiket, miközben a lehetséges modellek száma a dimenziók számának növekedésével exponenciálisan nő. Szintén érdemes megjegyezni, hogy ezek a modellek szimmetrikusak, azaz minden dimenzió ugyanazt a szerepet tölti be; az ajánlási problémánál viszont mindig van két kitűntetett dimenzió: a felhasználóké és a termékeké. A preferencia modell hatással van a tanulás folyamatára is. Ez különösen akkor jelentős, ha a tanulás magába foglal különböző transzformációkat és a számítások okos szétválasztását, hogy a módszer komplexitása alacsony legyen. Az implicit feedback alapú problémánál pontosan ez a helyzet. Például hiába nagyon hasonló az itals és az italsx, néhány kulcsfontosságú lépés eltérő és más előre kiszámított statisztikákra van szükségük a hatékony tanításhoz. A preferencia modellezés rendes feltérképezésének hiánya azon rugalmas eszközök hiányára vezethető vissza, amikkel a különféle modellek könnyen kipróbálhatóak, anélkül, hogy minden egyes új modellhez új algoritmust kelljen implementálni. Ez motivált az általános faktorizációs keretrendszer (General Factorization Framework - GFF) megalkotására, ami egy olyan rugalmas algoritmus, aminek az egyik bemenete a preferencia modell, és képes kiszámítani a modellnek (és az adatoknak) megfelelő látens jellemzőmátrixokat. A GFF lehetővé teszi, hogy egyszerűen kísérletezzünk különböző lineáris modellekkel a kontextus-vezérelt ajánlási feladatra, legyen szó implicit vagy explicit feedbackről. A GFF új kutatási irányokat nyit a kontextussal való modellezés területén. 8
10 Az alábbi tulajdonságok voltok fontosak a GFF megalkotásakor. Szabad kontextus használat: A GFF bármilyen kontextus vezérelt ajánlási problémán működik, függetlenül a dimenziók jelentésétől és számától. Nagy preferencia modell osztály: Az egyetlen megszorítás a preferencia modellel kapcsolatban, hogy a probléma dimenzióiban lineáris legyen. 3 Ez az intuitív korlátozás a gyakorlati problémák szempontjából nem jelentős. Adatfüggetlenség: a gyakorlatiasabb implicit eset mellett a GFF képes kezelni az explicit feedbacket is, amihez mindössze a súlyfüggvényt kell átállítani. Rugalmasság: a GFF súlyfüggvénye kellően általános ahhoz, hogy azon keresztül extra információkat vigyünk a modellbe, például csökkenthetjük a régebbi események súlyát (event decay) vagy az események nem véletlenszerű hiányára (not missing at random) vonatkozó hipotéziseinket is integrálhatjuk. Skálázhatóság: a GFF mind a tranzakciók számával, mind a faktorszámmal (a gyakorlatban használt tartományon) lineárisan skálázódik. Így éles ajánló szolgáltatásokban is jól használható. A GFF segítségével könnyen kísérletezhetünk új preferencia modellekkel. A következő komponenseket definiáltam egy 4 dimenziós (felhasználó, termék, szezonalitás, szekvenciális kontextus) kontextus-vezérelt problémán, amikből a modell összeállítható. UI: Interakció a felhasználó és a termék között, a klasszikus CF modell. U SI, U QI, U SQI: A felhasználó termék interakció kontextus függő újrasúlyozása, azaz a kontextus befolyásolja az interakciót. Több kontextus dimenzió is használható a súlyozáshoz. De több dimenzió használata esetén a komponens érzékenyebb a zajokra, és csak magasabb faktorszám mellett ad jó eredményt. [T4]. U S, U Q: Kontextus függő felhasználó bias, ami a felhasználó kontextus interakcióból származik. Nem vesz részt a termékek rangsorolásban, de tanítás közben szűri a kontextus függő változásokat az adatban. Ebben a komponensben csak egy kontextus dimenziót engedek meg, mert több dimenzió használata azt modellezné, hogy a kontextus dimenziók is interakcióba lépnek egymással. IS, IQ: Kontextus függő termék bias, ami a termék kontextus interakcióból származik. Mind a termékek rangsorolásában, mind a tanulás segítésében részt vesz. Ebben a komponensben is csak egy kontextus dimenzió engedélyezett. SQ: Kontextus dimenziók interakciója. A tradicionális páronkénti modellhez szükséges. A fenti komponensekből modelleket állítottam össze, amik az ajánlási probléma bizonyos speciális aspektusait is figyelembe veszik. Az általam vizsgált modellek a következők: Interakció modell (UI + USI + UQI): Ez a modell az alap felhasználói viselkedés (U I) és a kontextus által befolyásolt viselkedések (U SI és U QI) összessége. A modell feltevése, hogy a felhasználók preferenciája egy kontextus független és egy kontextus függő részből tevődik össze. Az utóbbiban a felhasználó termék interakciókat egy kontextus függő jellemző vektorral átsúlyozzuk. Az U SQI a több dimenzióval való átsúlyozás zajossága miatt nem szerepel a modellben. Kontextus interakció modell (USI + UQI): Ebben a modellben a prefer- 3 Ez azt jelenti, hogy egy dimenzió nem léphet interakcióba önmagával a modellben. 9
11 encia kizárólag kontextus függő részekből áll. A modell azt feltételezi, hogy az preferenciát erősen befolyásolja a kontextus, és ez a befolyás a felhasználó termék interakcióra van hatással, nem pedig az egyes entitásokra (felhasználó, termék) külön-külön. Redukált páronkénti modell (UI + US + IS + UQ + IQ): Ez a modell a tradicionális páronkénti modell egy variációja, amiből kihagyjuk a kontextus dimenziók interakcióját (SQ). A kontextus és a felhasználók, illetve termékek interakciója az egyes entitásokkal külön-külön történik, azaz itt a kontextus nem a felhasználó termék interakciót befolyásolja. Felhasználó bias modell (U I+U S+U Q): A modell feltevése, hogy kizárólag a felhasználó lép interakcióba a többi dimenzióval. Az eredmény egy olyan modell, amiben a felhasználó termék interakciót kiegészítik kontextus függő felhasználó biasok. Bár a termékek sorrendjét ezek a biasok nem befolyásolják, a tanítást zajszűrő hatásukkal segítik. Termék bias modell (UI + IS + IQ): Ebben a modellben a kontextus hatását kontextus függő termék biasokkal írjuk le (pl. bizonyos termékek más és más körülmények között népszerűek). A termék biasok mind a rangsorolásban, mind a tanítás segítésében részt vesznek. Egy komplex model (UI +US +IS +UQ+IQ+USI +UQI): Ez a modell a redukált páronkénti és az interakció modell összessége. Szintén tekinthető egy redukált 3-utas interakciós modellnek, amiből a kontextus-kontextus interakciókat elhagytuk. A kísérleti eredmények alapján ezek az új modellek jobban illenek az ajánlási problémához, mint a tradicionálisan használt modellek és pontosabbak is. Az interakció modell teljesít a legjobban és közelről követi a kontextus interakció modell. Ez a két modell intuitíve is illik a feladathoz. A faktorszám befolyásolja a modellek pontosságának rangsorát. Kevesebb jellemző esetén az alacsonyabb szintű interakciókat tartalmazó modellek jobban teljesítenek, miközben a több dimenzió interakcióját tartalmazó modellek több jellemző esetén jobbak. Az interakció modell végig jól teljesít a gyakorlatban használt faktorszámok tartományán. 3 A disszertáció felépítése A disszertáció első fejezete magas szinten áttekinti az ajánlórendszerek területét, részletezi az implicit feedback alapú kontextus-vezérelt faktorizáció témaköréhez tartozó fogalmakat, specifikálja a kutatási problémát és ismerteti a kiértékelés általános menetét. A második fejezet áttekinti a kapcsolódó irodalmat. A következő négy fejezet (a harmadik fejezettől a hatodikig) fedi le a saját kutatásom fővonalát és ismerteti a téziseimet: A 3. fejezet megvizsgálja, hogy a mátrix faktorizáció inicializálása miként használható további információ (pl. termék metaadatok, kontextus) felhasználására a faktorizációs algoritmusokban az alap módszerek megváltoztatása nélkül. A módszerek és a kísérleti eredmények alkotják az első téziscsoportot. A 4. fejezet ismerteti az általam az implicit feedback alapú ajánlási problémára kidolgozott kontextus-vezérelt faktorizációs algoritmusokat. Mind az itals (második téziscsoport), mind az italsx (harmadik téziscsoport) algoritmus jól 10
12 skálázódó módon oldja meg a feladatot. A két módszer összehasonlítása és különféle problémákra való megfelelőségük vizsgálata a negyedik téziscsoportban van összefoglalva. Szintén ez a fejezet mutatja be a szekvenciális kontextust, ami jelentősen képes javítani az ajánlási pontosságon és szinte minden implicit feedback alapú adatsorhoz könnyen létrehozható. Az ötödik fejezet a faktorizációs megoldásokban mint az előbb említett két algoritmus használt ALS tanítás gyorsítására és a látens jellemzők számában való skálázódásának javítására koncentrál, miközben nem ront jelentősen az ajánlási pontosságon. Két gyorsítási módszert javaslok és vizsgálok meg. Az egyik az elemenkénti optimalizálásra (coordinate descent), a másik a konjugált gradiensre épít. A két módszert egymással és az alap ALS-sel is összehasonlítom. A módszerek és a kísérleti megfigyelések alkotják az ötödik téziscsoportot. A hatodik fejezetben javaslom az általános faktorizációs keretrendszert (General Factorization Framework GFF), egy algoritmust, ami hatékony kísérletezést tesz lehetővé különféle preferencia modellekkel az implicit feedback alapú kontextusvezérelt ajánlási környezetben. A GFF segítségével javaslok és megvizsgálok több újszerű modellt, amik figyelembe veszik az ajánlási feladat specialitásait. Ezeket a módszereket összehasonlítom a terület tradicionális modelljeivel, az N-utas és a páronkénti interakció modellel. GFF, az új modellek és a kísérleti eredmények alkotják a hatodik téziscsoportot. A disszertáció utolsó három fejezete összegzi az eredményeket, áttekinti az eredmények alkalmazását és felvázol több lehetséges jövőbeli kutatási irányt. 11
13 4 Új eredmények összefoglalása 1. téziscsoport: Javasoltam, hogy a mátrix faktorizációs módszerek inicializálásához használjunk fel egyéb, a termékekről (vagy a felhasználókról) rendelkezésre álló információt, hogy megnöveljük az ajánlások pontosságát. (A módszerek és az eredmények a következő cikkekben kerültek publikálása: [T1, T3].) 1.1. tézis Javasoltam, hogy a mátrix faktorizációt a szokásos véletlenszerű kiindulási mátrixok helyett az entitások hasonlóságát kihasználó mátrixokból indítsuk. Az így kapott inicializáló séma általános és bármilyen mátrix faktorizáció esetén felhasználható. A séma két lépése a következő: (1) rendeljünk leíróvektorokat az entitásokhoz; (2) tömörítsük a leíróvektorokat, hogy a tömörített információ mérete megegyezzen a jellemzővektorokéval. Az implicit ALS módszeren és öt adatsoron alkalmazva megmutattam, hogy az inicializáló séma jelentősen megnöveli az ajánlási pontosságot (recall és MAP mérőszámok tekintetében) tézis Javasoltam a SimFactor algoritmust, ami olyan jellemzővektorok előállítására képes, amelyek jobban megőrzik az entitások közötti hasonlóságokat. A SimFactor nem igényli a gyakorlatban nehezen kiszámítható teljes hasonlóságmátrix kiszámítását. Öt adatsoron megmutattam, hogy a módszer által létrehozott jellemzővektorok jobban közelíti a hasonlóságokat, mint a leíróvektorok egyszerű tömörítésével kapottak. Megmutattam, hogy az így kapott vektorok általában az inicializálás során is jobban teljesítenek tézis Javasoltam a Sim 2 Factor algoritmust, ami olyan jellemző vektorok előállítására képes, amik az entitások egymáshoz való hasonlósága alapján definiált hasonlóság értékeket képesek közelíteni. A Sim 2 Factor nem igényli a gyakorlatban nehezen kiszámítható teljes hasonlóságmátrix kiszámítását. Megmutattam, hogy az így kapott jellemzővektorok hasznosak az inicializáláskor tézis Javasoltam, hogy az entitások leírásához használjuk a kontextust. Megmutattam, hogy a kontextus alapú leírók jobbak az inicializáláshoz, mint a metaadat alapúak. Megmutattam, hogy a kontextus és metaadat alapú inicializálások kombinálása tovább javítja az ajánlási pontosságot. 12
14 2. téziscsoport: Javasoltam az itals algoritmust az implicit feedback alapú kontextus-vezérelt ajánlási problémára. (A módszerek és az eredmények a következő cikkben kerültek publikálása: [T2].) 2.1. tézis Kifejlesztettem az itals algoritmust, egy tenzor faktorizációs algoritmust, ami pontszerű preferenciabecslést végez azáltal, hogy a négyzetes hiba súlyozott négyzetösszegére optimalizál. A preferenciákat az N-utas modellel, azaz dimenziónként egy-egy jellemző vektor elemenkénti szorzatában lévő elemek összegével közelíti. Megmutattam, hogy az itals jól használható az implicit feedback alapú kontextus-vezérelt problémára úgy, hogy egyeseket használunk a pozitív és nullákat a hiányzó események esetén, mint preferencia értéket, miközben az előbbieket jelentősen felülsúlyozzuk tézis Megmutattam, hogy az itals jelentősen jobban teljesít a recallal kifejezett ajánlási pontosság szempontjából, mint a kontextust figyelembe nem vevő implicit mátrix faktorizáció, valamint egy előszűrésre építő kontextus-vezérelt módszer tézis Megmutattam, hogy az itals hatékonyan tanítható ALS-sel az implicit feedback alapú kontextus-vezérelt ajánlási problémán. Megmutattam, hogy az itals a gyakorlatban is hatékonyan tanítható, mivel lineárisan skálázódik az események számával, és négyzetesen a gyakorlatban használt tartományon a látens jellemzők számával. 3. téziscsoport: Javasoltam az italsx algoritmust, mint egy alternatív megoldást az implicit feedback alapú kontextus-vezérelt ajánlási problémára. (A módszerek és az eredmények a következő cikkben kerültek publikálása: [T4].) 3.1. tézis Kifejlesztettem az italsx algoritmust, egy tenzor faktorizációs algoritmust, ami pontszerű preferencia becslést végez azáltal, hogy a négyzetes hiba súlyozott négyzetösszegére optimalizál. A preferenciákat a páronkénti interakció modellel, azaz dimenziópáronként a megfelelő jellemzővektorok skalárszorzatainak összegével közelíti. Megmutattam, hogy az italsx jól használható az implicit feedback alapú kontextus-vezérelt problémára úgy, hogy egyeseket használunk a pozitív és nullákat a hiányzó események esetén, mint preferencia értéket, miközben az előbbieket jelentősen felülsúlyozzuk tézis Megmutattam, hogy az italsx jelentősen jobban teljesít a recallal kifejezett ajánlási pontosság szempontjából, mint a kontextust figyelembe nem vevő implicit mátrix faktorizáció, valamint egy előszűrésre építő kontextus-vezérelt módszer tézis Megmutattam, hogy az italsx hatékonyan tanítható ALS-sel az implicit feedback alapú kontextus-vezérelt ajánlási problémán. Megmutattam, hogy az italsx a gyakorlatban is hatékonyan tanítható, mivel lineárisan skálázódik az események számával, és négyzetesen a gyakorlatban használt tartományon a látens jellemzők számával. 13
15 4. téziscsoport: Kísérleteket folytattam itals és italsx algoritmusokkal, összehasonlítottam őket, valamint meghatároztam egy könnyen használható kontextus dimenziót. (A módszerek és az eredmények a következő cikkekben kerültek publikálása: [T2, T4].) 4.1. tézis Javasoltam egy újszerű kontextus dimenzió, szekvenciális kontextus, használatát ajánlási problémáknál. Egy esemény szekvenciális kontextusa az ugyanezen felhasználó előző eseményének terméke. Megindokoltam, hogy a kontextus széles körben elérhető a gyakorlatban, hiszen csak az események sorrendezhetőségére épít, ami a legtöbb esetben adott. Megmutattam, hogy a szekvenciális kontextus használatával az ajánlás pontossága széles körben (különböző adatsorok, algoritmusok, modellek, jellemző számok esetén) jelentősen megnövelhető a kontextust nem, valamint a szezonalitást használó esetekhez képest tézis Összehasonlítottam az itals (N-utas modell) és az italsx (páronkénti modell) algoritmusokat. Az N-utas modell használata megfelelőbb akkor, ha a jellemzők száma magas és/vagy az adatsor sűrűbb; egyébként pedig a páronkénti modell használatát javaslom. 5. téziscsoport: Javasoltam két közelítő módszert az ALS tanítás felgyorsítására. (A módszerek és az eredmények a következő cikkben kerültek publikálása: [T6, T7].) 5.1. tézis Javasoltam egy konjugált gradiens alapú ALS közelítést, ami általánosan használható ALS alapú faktorizációs algoritmusokban. Megmutattam, hogy a módszer a gyakorlatban használt értékek esetén lineárisan skálázódik a látens jellemzők számával. Megmutattam, hogy a megoldás lehetővé teszi magas számú látens jellemző használatát és jobb kompromisszumok felfedezését a futási idő és a pontosság között. Megmutattam, hogy a módszer csak minimálisan módosítja az ajánlások pontosságát az ALS-hez hasonlítva tézis Javasoltam egy jellemzőnkénti optimalizálásra építő ALS variánst, ami általánosan használható ALS alapú faktorizációs algoritmusokban. Megmutattam, hogy a módszer a gyakorlatban használt értékek esetén lineárisan skálázódik a látens jellemzők számával. Megmutattam, hogy a megoldás lehetővé teszi magas számú látens jellemző használatát és jobb kompromisszumok felfedezését a futási idő és a pontosság között. Megmutattam, hogy a módszer csak minimálisan módosítja az ajánlások pontosságát az ALS-hez hasonlítva tézis Több szempont szerint is összehasonlítottam a konjugált gradiensre és a jellemzőnkénti optimalizálásra építő közelítő megoldásokat. Megmutattam, hogy a konjugált gradiens alapú módszer jobb, mivel (a) a pontossága jobban közelíti az ALS-ét; (b) gyorsabb; (c) jobban skálázódik; és (d) stabilabb tézis Meghatároztam egy jó kompromisszumot a futási idő és az ajánlás pontossága között a közelítő módszerekhez. Ennek eléréséhez azt javasoltam, hogy a belső iterációk számát állítsuk 2-re. 14
16 6. téziscsoport: Javasoltam egy rugalmas algoritmust (GFF), ami lehetővé teszi, hogy kísérletezzünk újszerű preferencia modellekkel. (A módszerek és az eredmények a következő cikkben kerültek publikálása: [T5, T7].) 6.1. tézis Kifejlesztettem az általános faktorizációs keretrendszert (General Factorization Framework GFF), egy rugalmas faktorizációs algoritmust az implicit feedback alapú kontextus-vezérelt ajánlási problémára. A GFF rugalmassága abban rejlik, hogy a preferencia modell megadható, mint az algoritmus bemenete. A modell tetszőleges számú dimenziót képes kezelni, valamint a köztük lévő lehetséges interakciók halmazának bármely részhalmazát. Bemutattam, hogy ez a rugalmasság lehetővé teszi, hogy kísérletezzünk újszerű preferencia modellekkel. A GFF az egy attribútumos MDM adatmodellre épít, ami megfelelő a gyakorlatban előforduló kontextus-vezérelt problémákhoz tézis Különféle, újszerű preferencia modelleket javasoltam a kontextusvezérelt ajánlási problémára. Egy négydimenziós kontextus-vezérelt ajánlási problémán kiértékeltem az új modelleket ajánlási pontosság szempontjából. A felhasznált kontextus dimenziók olyanok, hogy minden a gyakorlatban előforduló adatsornál létrehozhatóak, amennyiben az események rendelkeznek időbélyeggel, és emiatt különösen fontosak. Megmutattam, hogy több újszerű modell is jobban teljesít, mint az irodalomban megtalálható tradicionális modellek tézis Megmutattam, hogy a javasolt modellek egyike, az interakció modell, általában is jól teljesít. Ez a modell a felhasználó termék (U I) és a kontextustól függően súlyozott felhasználó termék (U CI) relációk összessége. Öt adatsorból négy esetén ezt volt a legjobb modell, a maradék egy esetben pedig második helyen végzett. Az utóbbi adatsoron a legjobb modell a kontextus interakció modell volt, ami közeli rokonságban áll az interakció modellel tézis Összehasonlítottam a GFF-fel legjobban teljesítő újszerű modelleket a legkorszerűbb faktorizációs módszerekkel. A GFF az újszerű modellekkel jelentősen jobbnak bizonyult, mint a vizsgált módszerek öt adatsorból háromnál és hasonlóan teljesített egyen tézis Kiterjesztettem a GFF algoritmust, hogy teljesen kompatibilis legyen a többdimenziós adattér modellel (Multidimensional Dataspace Model MDM) és így képes legyen további információt, mint például az aktuális session eseményeit vagy termék metaadatokat, is hatékonyan figyelembe venni. Előzetes kísérleteimmel megmutattam, hogy a session események figyelembe vétele jelentősen megnöveli az ajánlási pontosságot. 15
17 5 Eredmények alkalmazása A kutatásom egészét erősen befolyásolták gyakorlati követelmények. Az első téziscsoport egy relatíve olcsó megoldást javasol extra információ figyelembevételére mátrix faktorizációs megoldásokban és így jelentősen megnöveli a pontosságukat. A második, harmadik és negyedik téziscsoportok olyan kontextus-vezérelt faktorizációs algoritmusokat javasolnak, amik a gyakorlati, implicit feedback alapú környezetben jól használhatóak. Mind itals, mint italsx lineárisan skálázódik az események számával. Az itt használt kontextus dimenziók szintén jelentősek gyakorlati szempontból, mivel minden olyan adatsornál rendelkezésre állnak, ahol az eseményekhez időbélyeget is eltárolunk. Az általam javasolt szekvenciális kontextus kifejezetten jól teljesít és jelentősen megnöveli az ajánlási pontosságot. Az ötödik téziscsoport a faktorizációnál használt ALS tanítás sebességének és a látens jellemzők számában való skálázódásának javítására koncentrál, miközben nem áldoz jelentősen az ajánlási pontosságból. Ez kifejezetten fontos gyakorlati szempontból, mivel a rövidebb tanítási idők lehetővé teszik a gyakoribb tanítást, valamint jobb kompromisszumokat tesznek lehetővé a futási idő és a pontosság között (pl. azáltal, hogy több látens jellemzőt vagy több epochot használunk) és hatékonyabbá teszik a rendelkezésre álló erőforrások kihasználását. A hatodik téziscsoport egy olyan algoritmust javasol, ami rugalmas kísérletezést tesz lehetővé különféle kontextus-vezérelt preferencia modellekkel. Az algoritmus kifejlesztése mögötti motiváció szintén a gyakorlatból származik, mivel a tradicionális kontextus-vezérelt modellek nem veszik figyelembe az ajánlási feladat specialitásait (pl. kitűntetett dimenziók, realisztikus interakciók a dimenziók között, stb). Az algoritmusokat és a kutatásból származó know-howt sikeresen alkalmaztam a gyakorlatban is. Az algoritmusok egy részét implementáltam a Gravity Research & Development Zrt. különféle alkalmazási területen ajánló szolgáltatást biztosító cég, nemzetközi ügyfélkörrel ajánlómotorjában. Az algoritmusokat sikerrel használtam az éles ajánlórendszerben, valamint különböző egyéb ajánlási projektekben, tenderekben és POC-kben. A megoldások alkalmazási köre kiterjed, a teljesség igénye nélkül, az online bevásárlásra, VoD és TV műsorok ajánlására IPTV környezetben [P3], e-kereskedelemre és apróhirdetéses oldalakra. Emellett az eredmények nagyban hozzájárultak az Európai Unió Seventh Framework Programme (FP7/ ) által támogatott CrowdRec projekthez 4. A CrowdRec projekt célja az ajánlórendszerek új generációjának kifejlesztése, így többek között a kontextus használata, a felhasználókkal való interakció, stream jellegű ajánlások és heterogén információforrások felhasználása. A kutatásom a CrowdRec projekt kontextussal foglalkozó részéhez kapcsolódik. 4 Azonosítószám: n
18 Tézisekhez kapcsolódó publikációk [T1] Balázs Hidasi and Domonkos Tikk. Enhancing matrix factorization through initialization for implicit feedback databases. In Proceedings of the 2Nd Workshop on Context-awareness in Retrieval and Recommendation, CaRR 12, pages 2 9, New York, NY, USA, ACM. ISBN doi: / URL [T2] Balázs Hidasi and Domonkos Tikk. Fast als-based tensor factorization for contextaware recommendation from implicit feedback. In Peter A. Flach, Tijl De Bie, and Nello Cristianini, editors, Machine Learning and Knowledge Discovery in Databases, volume 7524 of Lecture Notes in Computer Science, pages Springer Berlin Heidelberg, ISBN doi: / URL [T3] Balázs Hidasi and Domonkos Tikk. Initializing matrix factorization methods on implicit feedback databases. Journal of Universal Computer Science, 19(12): , jun ISSN x. URL 12/initializing_matrix_factorization_methods. [T4] Balázs Hidasi. Factorization models for context-aware recommendations. Infocommunications Journal, VI(4):27 34, ISSN [T5] Balázs Hidasi and Domonkos Tikk. General factorization framework for contextaware recommendations. Data Mining and Knowledge Discovery, pages 1 30, ISSN doi: /s y. URL org/ /s y. [T6] Balázs Hidasi and Domonkos Tikk. Speeding up ALS learning via approximate methods for context-aware recommendations. Knowledge and Information Systems, pages 1 25, ISSN doi: /s URL [T7] Balázs Hidasi. Context-aware preference modeling with factorization. In Proceedings of the 9th ACM Conference on Recommender Systems, RecSys 15, pages , New York, NY, USA, ACM. ISBN doi: / URL
19 A szerző további publikációi [P1] Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, and Domonkos Tikk. Session-based recommendations with recurrent neural networks. Accepted for International Conference on Learning Representations, [P2] Benjamin Kille, Fabian Abel, Balázs Hidasi and Sahin Albayrak. Using interaction signals for job recommendations. In Mobile Computing, Applications and Services: 7th International Conference, MobiCASE2015., Berlin, Germany, November 12-13, Revised selected papers. [P3] Dávid Zibriczky, Balázs Hidasi, Zoltán Petres, and Domonkos Tikk. Personalized recommendation of linear content on interactive tv platforms: beating the cold start and noisy implicit user feedback. In UMAP Workshops. Proceedings of the International Workshop on TV and Multimedia Personalization, [P4] Balázs Hidasi and Domonkos Tikk. Context-aware item-to-item recommendation within the factorization framework. In Proceedings of the 3rd Workshop on Context-awareness in Retrieval and Recommendation, CaRR 13, pages 19 25, New York, NY, USA, ACM. ISBN doi: / URL [P5] Balázs Hidasi and Domonkos Tikk. Approximate modeling of continuous context in factorization algorithms. In Proceedings of the 4th Workshop on Context- Awareness in Retrieval and Recommendation, CARR 14, pages 3 9, New York, NY, USA, ACM. ISBN doi: / URL [P6] Balázs Hidasi and Csaba Gáspár-Papanek. Shifttree: An interpretable modelbased approach for time series classification. In Dimitrios Gunopulos, Thomas Hofmann, Donato Malerba, and Michalis Vazirgiannis, editors, Machine Learning and Knowledge Discovery in Databases, volume 6912 of Lecture Notes in Computer Science, pages Springer Berlin Heidelberg, ISBN doi: / URL _4. [P7] Balázs Hidasi. Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására. Heszberger Zalán (szerk.), Proceedings of the évi Végzős Konferencia. ISBN [P8] Balázs Hidasi. Modell alapú idősor-osztályozó fejlesztése és kiterjesztése. M.Sc. Thesis, Budapest University of Technology and Economics, Department of Telecommunications and Mediainformatics. [P9] Balázs Hidasi. Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására. B.Sc. Thesis, Budapest University of Technology and Economics, Department of Telecommunications and Mediainformatics. 18
Hidasi Balázs. Nyilvános vita Témavezető: Dr. Magyar Gábor Külső konzulens: Dr. Tikk Domonkos
Context-aware factorization methods for implicit feedback based recommendation problems (Kontextus-vezérelt faktorizációs módszerek implicit feedback alapú ajánlási problémákra) Hidasi Balázs Nyilvános
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján Hegedűs István Ajánló rendszerek Napjainkban egyre népszerűbb az ajánló rendszerek alkalmazása A cégeket is hasznos információval
Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására
VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs hidasi@tmit.bme.hu Konzulens: Gáspár-Papanek Csaba Budapesti
Kollektív tanulás milliós hálózatokban. Jelasity Márk
Kollektív tanulás milliós hálózatokban Jelasity Márk 2 3 Motiváció Okostelefon platform robbanásszerű terjedése és Szenzorok és gazdag kontextus jelenléte, ami Kollaboratív adatbányászati alkalmazások
Perszonalizált tartalomajánló szolgáltatás IPTV és OTT rendszerek számára
MEDIANET 2015 Perszonalizált tartalomajánló szolgáltatás IPTV és OTT rendszerek számára ZIBRICZKY DÁVID ImpressTV david.zibriczky@impresstv.com Kulcsszavak: ajánlórendszer, IPTV, OTT, adatbányászat, gépi
Szomszédság alapú ajánló rendszerek
Nagyméretű adathalmazok kezelése Szomszédság alapú ajánló rendszerek Készítette: Szabó Máté A rendelkezésre álló adatmennyiség növelésével egyre nehezebb kiválogatni a hasznos információkat Megoldás: ajánló
ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ
ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ 1 TARTALOM 1.1 A MODELLEZÉS ÉS SZIMULÁCIÓ META-SZINTŰ HATÉKONYSÁGÁNAK JAVÍTÁSA A. Az SMM definiálása, a Jackson Keys módszer kiterjesztése
Függvények növekedési korlátainak jellemzése
17 Függvények növekedési korlátainak jellemzése A jellemzés jól bevált eszközei az Ω, O, Θ, o és ω jelölések. Mivel az igények általában nemnegatívak, ezért az alábbi meghatározásokban mindenütt feltesszük,
1 2 3 4 5 Meta adat: bármilyen adat, ami a tartalomhoz kapcsolódik. Pl. filmek esetén a rendező, a főszereplő, a műfaj. Tranzakciós adat: felhasználó és az elemek közötti interakció során keletkező adat.
The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz Szekér Szabolcs 1, Dr. Fogarassyné dr. Vathy Ágnes 2 1 Pannon Egyetem Rendszer- és Számítástudományi Tanszék, szekersz@gmail.com
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN Supporting Top-k item exchange recommendations in large online communities Barabás Gábor Nagy Dávid Nemes Tamás Probléma Cserekereskedelem
Megerősítéses tanulás 7. előadás
Megerősítéses tanulás 7. előadás 1 Ismétlés: TD becslés s t -ben stratégia szerint lépek! a t, r t, s t+1 TD becslés: tulajdonképpen ezt mintavételezzük: 2 Akcióértékelő függvény számolása TD-vel még mindig
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák
2. Cím: Nézettségmérés új módszerei avagy Audience measurement Kulcsszavak: IPTV, felhasználói viselkedés, média, ajánlórendszerek
ImpressTV Zrt. kutatási témák 1. Cím: Média tartalmak automatikus címkézése és adatbővítése Kulcsszavak: adatbányászat, statisztika, metaadat, felhasználói viselkedés, ajánlórendszerek Probléma: A média
Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István
Teljesen elosztott adatbányászat pletyka algoritmusokkal Jelasity Márk Ormándi Róbert, Hegedűs István Motiváció Nagyméretű hálózatos elosztott alkalmazások az Interneten egyre fontosabbak Fájlcserélő rendszerek
Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))
Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok
Teljesen elosztott adatbányászat alprojekt
Teljesen elosztott adatbányászat alprojekt Hegedűs István, Ormándi Róbert, Jelasity Márk Big Data jelenség Big Data jelenség Exponenciális növekedés a(z): okos eszközök használatában, és a szenzor- és
Termelés- és szolgáltatásmenedzsment
Termelés- és szolgáltatásmenedzsment egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék Termelés- és szolgáltatásmenedzsment 13. Előrejelzési módszerek 14. Az előrejelzési modellek felépítése
9. gyakorlat Lineáris egyenletrendszerek megoldási módszerei folyt. Néhány kiegészítés a Gauss- és a Gauss Jordan-eliminációhoz
9. gyakorlat Lineáris egyenletrendszerek megoldási módszerei folyt. Néhány kiegészítés a Gauss- és a Gauss Jordan-eliminációhoz. Mindkét eliminációs módszer műveletigénye sokkal kisebb, mint a Cramer-szabályé:
I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE
I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE Komplex termékek gyártására jellemző, hogy egy-egy termékbe akár több ezer alkatrész is beépül. Ilyenkor az alkatrészek általában sok különböző beszállítótól érkeznek,
Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2.
Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2. 1. Feladat kiírása A második forduló feladata hasonlóan az előző fordulóhoz egy ajánló rendszer modelljének elkészítése.
6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján
Közelítő és szimbolikus számítások 6. gyakorlat Sajátérték, Gersgorin körök Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor Vinkó Tamás London András Deák Gábor jegyzetei alapján . Mátrixok sajátértékei
Kódverifikáció gépi tanulással
Kódverifikáció gépi tanulással Szoftver verifikáció és validáció kiselőadás Hidasi Balázs 2013. 12. 12. Áttekintés Gépi tanuló módszerek áttekintése Kódverifikáció Motiváció Néhány megközelítés Fault Invariant
STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése
4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól
AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA
AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA Kovács Ernő 1, Füvesi Viktor 2 1 Egyetemi docens, PhD; 2 tudományos segédmunkatárs 1 Eletrotechnikai és Elektronikai Tanszék, Miskolci Egyetem
Bozóki Sándor. MTA SZTAKI, Budapesti Corvinus Egyetem. Vitaliy Tsyganok
A feszítőfákból számolt súlyvektorok mértani közepének optimalitása a logaritmikus legkisebb négyzetes célfüggvényre nézve Bozóki Sándor MTA SZTAKI, Budapesti Corvinus Egyetem Vitaliy Tsyganok Laboratory
Pozícióinformáció. Sikeres helyfüggő szolgáltatások mobilra
Distributed Systems A hely nem elég MTA SZTAKI Elosztott Rendszerek Osztály - Mátételki Péter matetelki@sztaki.hu Mihez nem elég a hely? Sikeres helyfüggő szolgáltatások mobilra Navigáció (hely + térkép
Előítéletesség a szabadúszóknak szóló online piactereken. Aniko Hannak Claudia Wagner
Előítéletesség a szabadúszóknak szóló online piactereken Aniko Hannak Claudia Wagner David Garcia Markus Strohmaier Christo Wilson Algoritmusok és Diszkrimináció Algoritmusok és Diszkrimináció Algoritmusok
Dr. Kalló Noémi. Termelés- és szolgáltatásmenedzsment. egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék. Dr.
Termelés- és szolgáltatásmenedzsment egyetemi adjunktus Menedzsment és Vállalatgazdaságtan Tanszék Termelés- és szolgáltatásmenedzsment 13. Ismertesse a legfontosabb előrejelzési módszereket és azok gyakorlati
Konjugált gradiens módszer
Közelítő és szimbolikus számítások 12. gyakorlat Konjugált gradiens módszer Készítette: Gelle Kitti Csendes Tibor Vinkó Tamás Faragó István Horváth Róbert jegyzetei alapján 1 LINEÁRIS EGYENLETRENDSZEREK
4. Fejezet : Az egész számok (integer) ábrázolása
4. Fejezet : Az egész számok (integer) ábrázolása The Architecture of Computer Hardware and Systems Software: An Information Technology Approach 3. kiadás, Irv Englander John Wiley and Sons 2003 Wilson
Gauss-Seidel iteráció
Közelítő és szimbolikus számítások 5. gyakorlat Iterációs módszerek: Jacobi és Gauss-Seidel iteráció Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor London András Deák Gábor jegyzetei alapján 1 ITERÁCIÓS
Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.
Asszociációs szabályok Budapesti Műszaki- és Gazdaságtudományi Egyetem 2012. április 5. Tartalom 1 2 3 4 5 6 7 ismétlés A feladat Gyakran együtt vásárolt termékek meghatározása Tanultunk rá hatékony algoritmusokat
15. LINEÁRIS EGYENLETRENDSZEREK
15 LINEÁRIS EGYENLETRENDSZEREK 151 Lineáris egyenletrendszer, Gauss elimináció 1 Definíció Lineáris egyenletrendszernek nevezzük az (1) a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a
1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007
Hálózatok II 2007 1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok 1 Az előadáshoz Előadás: Szerda 17:00 18:30 Gyakorlat: nincs Vizsga írásbeli Honlap: http://people.inf.elte.hu/lukovszki/courses/g/07nwii
Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.
Tudásmodellezés Kereskedelmi Alkalmazásokban Dezsényi Csaba Ovitas Magyarország kft. Tudásmenedzsment Adat -> Információ -> Tudás Intézményi tudásvagyon hatékony kezelése az üzleti célok megvalósításának
Strukturált Generátorrendszerek Online Tanulása és Alk-ai
Strukturált Generátorrendszerek Online Tanulása és Alkalmazásai Problémamegoldó Szeminárium 2010. nov. 5 Tartalomjegyzék Motiváció, példák Regressziós feladatok (generátorrendszer fix) Legkisebb négyzetes
y ij = µ + α i + e ij
Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai
Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)
1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)
Matematika A2c gyakorlat Vegyészmérnöki, Biomérnöki, Környezetmérnöki szakok, 2017/18 ősz 1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás) 1. Valós vektorterek-e a következő
Normák, kondíciószám
Normák, kondíciószám A fizika numerikus módszerei I. mf1n1a06- mf1n2a06 Csabai István Lineáris egyenletrendszerek Nagyon sok probléma közvetlenül lineáris egyenletrendszer megoldásával kezelhetı Sok numerikus
Szezonális kiigazítás az NFSZ regisztrált álláskeresők idősorain. Készítette: Multiráció Kft.
az NFSZ regisztrált álláskeresők idősorain Készítette: Multiráció Kft. SZEZONÁLITÁS Többé kevésbe szabályos hullámzás figyelhető meg a regisztrált álláskeresők adatsoraiban. Oka: az időjárás hatásainak
Általános algoritmustervezési módszerek
Általános algoritmustervezési módszerek Ebben a részben arra mutatunk példát, hogy miként használhatóak olyan általános algoritmustervezési módszerek mint a dinamikus programozás és a korlátozás és szétválasztás
Gyakorló feladatok adatbányászati technikák tantárgyhoz
Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:
Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel p. 1/29. Ábele-Nagy Kristóf BCE, ELTE
Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel Ábele-Nagy Kristóf BCE, ELTE Bozóki Sándor BCE, MTA SZTAKI 2010. november 4. Nem teljesen kitöltött páros
Panorámakép készítése
Panorámakép készítése Képregisztráció, 2009. Hantos Norbert Blaskovics Viktor Összefoglalás Panoráma (image stitching, planar mosaicing): átfedő képek összeillesztése Lépések: Előfeldolgozás (pl. intenzitáskorrekciók)
A mátrix faktorizáció csapdája
A mátrix faktorizáció csapdája Buza Antal, B. Kis Piroska Összefoglalás Az utóbbi időben egyre több cikk, előadás sugallja, hogy az ajánlórendszerekben általánosságban is milyen jól használható a mátrix
Súlyozott automaták alkalmazása
Súlyozott automaták alkalmazása képek reprezentációjára Gazdag Zsolt Szegedi Tudományegyetem Számítástudomány Alapjai Tanszék Tartalom Motiváció Fraktáltömörítés Súlyozott véges automaták Képek reprezentációja
Közösség detektálás gráfokban
Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a
Osztott jáva programok automatikus tesztelése. Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január
Osztott jáva programok automatikus tesztelése Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január Osztott alkalmazások Automatikus tesztelés Tesztelés heurisztikus zaj keltés Tesztelés genetikus
Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH
Idősorok Idősor Statisztikai szempontból: az egyes időpontokhoz rendelt valószínűségi változók összessége. Speciális sztochasztikus kapcsolat; a magyarázóváltozó az idő Determinisztikus idősorelemzés esetén
Gyakorló feladatok. Agbeko Kwami Nutefe és Nagy Noémi
Gyakorló feladatok Agbeko Kwami Nutefe és Nagy Noémi 25 Tartalomjegyzék. Klasszikus hibaszámítás 3 2. Lineáris egyenletrendszerek 3 3. Interpoláció 4 4. Sajátérték, sajátvektor 6 5. Lineáris és nemlineáris
Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben
Department of Distributed Systems Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben MTA SZTAKI Elosztott Rendszerek Osztály - Mátételki Péter matetelki@sztaki.hu
Körkép a lakossági felhasználók fogyasztásának készülékszintű becsléséről (NILM)
Körkép a lakossági felhasználók fogyasztásának készülékszintű becsléséről (NILM) MEE Vándorgyűlés, Siófok, 2015. szeptember 17. Dr. Raisz Dávid, docens, csoportvezető Dr. Divényi Dániel, adjunktus Villamos
Legkisebb négyzetek módszere, Spline interpoláció
Közelítő és szimbolikus számítások 10. gyakorlat Legkisebb négyzetek módszere, Spline interpoláció Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor Vinkó Tamás London András Deák Gábor jegyzetei alapján
Intelligens adatelemzés
Antal Péter, Antos András, Horváth Gábor, Hullám Gábor, Kocsis Imre, Marx Péter, Millinghoffer András, Pataricza András, Salánki Ágnes Intelligens adatelemzés Szerkesztette: Antal Péter A jegyzetben az
Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17
Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott
26. MINIMÁLIS KÖLTSÉGŰ UTAK MINDEN CSÚCSPÁRRA
26. MINIMÁLIS KÖLTSÉGŰ UTAK MINDEN CSÚCSPÁRRA Az előző két fejezetben tárgyalt feladat általánosításaként a gráfban található összes csúcspárra szeretnénk meghatározni a legkisebb költségű utat. A probléma
Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával
Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával * Pannon Egyetem, M szaki Informatikai Kar, Számítástudomány
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
Számítógépes döntéstámogatás. Genetikus algoritmusok
BLSZM-10 p. 1/18 Számítógépes döntéstámogatás Genetikus algoritmusok Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu BLSZM-10 p. 2/18 Bevezetés 1950-60-as
Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok
STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris
A Richardson-extrapoláció és alkalmazása a Dániai Euleri Modellben
A Richardson-extrapoláció és alkalmazása a Dániai Euleri Modellben Faragó István 1, Havasi Ágnes 1, Zahari Zlatev 2 1 ELTE Alkalmazott Analízis és Számításmatematikai Tanszék és MTA-ELTE Numerikus Analízis
Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások
Pannon Egyetem Informatikai Tudományok Doktori Iskola Tézisfüzet Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások Kovács Levente Képfeldolgozás és Neuroszámítógépek Tanszék Témavezet
Automatikus tesztgenerálás modell ellenőrző segítségével
Méréstechnika és Információs Rendszerek Tanszék Automatikus tesztgenerálás modell ellenőrző segítségével Micskei Zoltán műszaki informatika, V. Konzulens: Dr. Majzik István Tesztelés Célja: a rendszerben
Csoport-struktúrált generátorrendszerek online tanulása
Csoport-struktúrált generátorrendszerek online tanulása ELTE, Informatikai Kar TÁMOP Kutatószeminárium 2011. jan. 28 Tartalomjegyzék Motiváció Regressziós feladatok (generátorrendszer fix) Legkisebb négyzetes
Numerikus módszerek I. zárthelyi dolgozat (2017/18. I., A. csoport) Megoldások
Numerikus módszerek I. zárthelyi dolgozat (2017/18. I., A. csoport) Megoldások 1. Feladat. (6p) Jelöljön. egy tetszőleges vektornormát, ill. a hozzá tartozó indukált mátrixnormát! Igazoljuk, hogy ha A
1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba
Hibaforrások Hiba A feladatok megoldása során különféle hibaforrásokkal találkozunk: Modellhiba, amikor a valóságnak egy közelítését használjuk a feladat matematikai alakjának felírásához. (Pl. egy fizikai
Valószínűségi modellellenőrzés Markov döntési folyamatokkal
Valószínűségi modellellenőrzés Markov döntési folyamatokkal Hajdu Ákos Szoftver verifikáció és validáció 2015.12.09. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek
A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006.
ÖNELLENŐRZÉS ÉS FUTÁSIDEJŰ VERIFIKÁCIÓ SZÁMÍTÓGÉPES PROGRAMOKBAN OTKA T-046527 A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006. Témavezető: dr. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem
Akilencvenes évek elejétõl a magyar gazdaság és társadalom gyors átrendezõdésen. tanulmány
Csapó Benõ Molnár Gyöngyvér Kinyó László SZTE, Neveléstudományi Intézet, MTA-SZTE Képességkutató Csoport SZTE, Neveléstudományi Doktori Iskola A magyar oktatási rendszer szelektivitása a nemzetközi összehasonlító
Adatbányászat és Perszonalizáció architektúra
Adatbányászat és Perszonalizáció architektúra Oracle9i Teljes e-üzleti intelligencia infrastruktúra Oracle9i Database Integrált üzleti intelligencia szerver Data Warehouse ETL OLAP Data Mining M e t a
Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban
Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban Nagy Attila Mátyás 2016.12.07. Áttekintés Bevezetés Megközelítés Pilot tanulmányok
Mesterséges Intelligencia MI
Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés
First Prev Next Last Go Back Full Screen Close Quit. Matematika I
Matematika I (Analízis) Készítette: Horváth Gábor Kötelező irodalom: Ács László, Gáspár Csaba: Analízis 1 Oktatási segédanyagok és a tantárgyi követelményrendszer megtalálható a http://rs1.szif.hu/ horvathg/horvathg.html
3. Előadás. Megyesi László: Lineáris algebra, oldal. 3. előadás Lineáris egyenletrendszerek
3. Előadás Megyesi László: Lineáris algebra, 47. 50. oldal. Gondolkodnivalók Determinánsok 1. Gondolkodnivaló Determinánselméleti tételek segítségével határozzuk meg a következő n n-es determinánst: 1
Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában
Budapesti Műszaki és Gazdaságtudományi Egyetem Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában Cselkó Richárd 2009. október. 15. Az előadás fő témái Soft Computing technikák alakalmazásának
TERMÉKTERVEZÉS NUMERIKUS MÓDSZEREI. 1. Bevezetés
TERMÉKTERVEZÉS NUMERIKUS MÓDSZEREI Dr. Goda Tibor egyetemi docens Gép- és Terméktervezés Tanszék 1. Bevezetés 1.1. A végeselem módszer alapjai - diszkretizáció, - szerkezet felbontása kicsi szabályos elemekre
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
Hidraulikus hálózatok robusztusságának növelése
Dr. Dulovics Dezső Junior Szimpózium 2018. Hidraulikus hálózatok robusztusságának növelése Előadó: Huzsvár Tamás MSc. Képzés, II. évfolyam Témavezető: Wéber Richárd, Dr. Hős Csaba www.hds.bme.hu Az előadás
Gauss-eliminációval, Cholesky felbontás, QR felbontás
Közelítő és szimbolikus számítások 4. gyakorlat Mátrix invertálás Gauss-eliminációval, Cholesky felbontás, QR felbontás Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor London András Deák Gábor jegyzetei
Közgazdaságtan alapjai. Dr. Karajz Sándor Gazdaságelméleti Intézet
Közgazdaságtan alapjai Dr. Karajz Sándor Gazdaságelméleti 4. Előadás Az árupiac és az IS görbe IS-LM rendszer A rövidtávú gazdasági ingadozások modellezésére használt legismertebb modell az úgynevezett
S01-7 Komponens alapú szoftverfejlesztés 1
S01-7 Komponens alapú szoftverfejlesztés 1 1. A szoftverfejlesztési modell fogalma. 2. A komponens és komponens modell fogalma. 3. UML kompozíciós diagram fogalma. 4. A szoftverarchitektúrák fogalma, összetevői.
Mérési struktúrák
Mérési struktúrák 2007.02.19. 1 Mérési struktúrák A mérés művelete: a mérendő jellemző és a szimbólum halmaz közötti leképezés megvalósítása jel- és rendszerelméleti aspektus mérési folyamat: a leképezést
A FLOW projekt eredménytermékeinek bemutatása
A FLOW projekt eredménytermékeinek bemutatása Vagyis mit is csinál(t)unk 3 éven keresztül FLOW Workshop Kerékpározás és Forgalmi Modellezés Budapest, 2017. augusztus 7-8. Funded by the Horizon 2020 Framework
Mire jók az ajánlórendszerek? Tikk Domonkos
Mire jók az ajánlórendszerek? Tikk Domonkos 10 February 2009 MI FÁN TEREM AZ AJÁNLÓRENDSZER? Speciális információszűrők, amelyek felhasználói és termékprofilokat építenek tanuló algoritmusok segítésével.
Diszkrét matematika I., 12. előadás Dr. Takách Géza NyME FMK Informatikai Intézet takach november 30.
1 Diszkrét matematika I, 12 előadás Dr Takách Géza NyME FMK Informatikai Intézet takach@infnymehu http://infnymehu/ takach 2005 november 30 Vektorok Definíció Egy tetszőleges n pozitív egész számra n-komponensű
Vektorok, mátrixok, lineáris egyenletrendszerek
a Matematika mérnököknek I. című tárgyhoz Vektorok, mátrixok, lineáris egyenletrendszerek Vektorok A rendezett valós számpárokat kétdimenziós valós vektoroknak nevezzük. Jelölésükre latin kisbetűket használunk.
Az optimális megoldást adó algoritmusok
Az optimális megoldást adó algoritmusok shop ütemezés esetén Ebben a fejezetben olyan modellekkel foglalkozunk, amelyekben a munkák több műveletből állnak. Speciálisan shop ütemezési problémákat vizsgálunk.
Software project management Áttekintés
Software project management Áttekintés Miskolci Egyetem Általános Informatikai Tanszék PMAN / 1 Miért szükséges? A software fejlesztési tevékenység Csoportmunkát igényel Jelentős erőforrásokat használ
Adaptív dinamikus szegmentálás idősorok indexeléséhez
Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november
Relációs algebra lekérdezések optimalizációja. Adatbázisok használata
Relációs algebra lekérdezések optimalizációja Adatbázisok használata Mi a cél? Moore-törvénye: (Gordon Moore) szerint az integrált áramkörök sok jellemzőjének fejlődése exponenciális, ezek az értékek 18
Algoritmuselmélet 7. előadás
Algoritmuselmélet 7. előadás Katona Gyula Y. Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi Tsz. I. B. 137/b kiskat@cs.bme.hu 2002 Március 11. ALGORITMUSELMÉLET 7. ELŐADÁS 1 Múltkori
Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László)
Szimuláció RICHARD M. KARP és AVI WIGDERSON A Fast Parallel Algorithm for the Maximal Independent Set Problem című cikke alapján (Készítette: Domoszlai László) 1. Bevezetés A következőkben megadott algoritmus