2. Cím: Nézettségmérés új módszerei avagy Audience measurement Kulcsszavak: IPTV, felhasználói viselkedés, média, ajánlórendszerek



Hasonló dokumentumok

Gépi tanulás a gyakorlatban. Bevezetés

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Beszerzési és elosztási logisztika. Előadó: Telek Péter egy. adj. 2008/09. tanév I. félév GT5SZV

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

Perszonalizált tartalomajánló szolgáltatás IPTV és OTT rendszerek számára

RapidAnalytics Enterprise Edition bevezetés a Telenor Magyarországnál. Szakács Balázs - Telenor Magyarország Szücs Imre United Consult

Dr. habil. Maróti György

A szak specializációi

Takács Gábor mérnök informatikus, okl. mérnöktanár

Webanalitika a mindennapokban

Tudományos célú videoportál

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Hatékony műszaki megoldások lineáris és lekérhető médiaszolgáltatások esetén Ajánlástervezet ismertetése

Enabling and Capitalising of Urban Technologies

TV MÉG MINDIG CSÚCSFORMÁBAN

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Üzleti modellen alapuló webes tudásprezentáció

Tévénézési trendek Magyarországon és innovatív megoldások

Big Data az adattárházban

TÉVÉNÉZÉS AZ INTERNETEN 2015

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Tudásalapú információ integráció

Teljesen elosztott adatbányászat alprojekt

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

MTA Cloud Use cases MTA Cloud workshop. Hernáth Szabolcs MTA WIGNER FK

SSADM Dokumentáció Adatbázis Alapú Rendszerek

AZ ÚJGENERÁCIÓS TANKÖNYVEK FEJLESZTÉSE

Innovatív trendek a BI területén

Képzés hatékonyságának növelése. felnőttképzést kiegészítő tevékenység. Tematikai vázlat - 16 óra

A NÉZŐI VÁLASZTÁS SZABADSÁGA. Vörös Csilla március 19.

FIGYELEMFELKELTŐ HIRDETÉS BANNERES KAMPÁNY TÖBB REKLÁMHÁLÓZATBAN

Felhasználói Segédlet. A Set Top Box beállítása, a távirányító használata, TV nézés

Kollektív tanulás milliós hálózatokban. Jelasity Márk

Mire jók az ajánlórendszerek? Tikk Domonkos

Témaválasztás, kutatási kérdések, kutatásmódszertan

Ön a megfelelő mennyiségű és minőségű információk alapján hozza meg döntéseit? Stratis Kft. / Autonomy üzleti reggeli /

Változások előtt hol áll a banki (adat)elemzés? Nándorfi György

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Smart Strategic Planner

Multimédia anyagok szerkesztése kurzus hatékonyságnövelése web alapú projekt módszer alkalmazásával

Méréselmélet MI BSc 1

K+F a Hálózattervezés területén

A SEPA megvalósítását támogató szabályozói háttér

S atisztika 1. előadás

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Adaptív menetrendezés ADP algoritmus alkalmazásával

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR MATEMATIKAI INTÉZET SZAKDOLGOZATI TÉMÁK

TANTÁRGYI ADATLAP I. TANTÁRGYLEÍRÁS

OPEN SPACE FÓRUM TÉMA JEGYZET

PLATFORMOK, KÉPERNYŐK ÉS NÉZŐK

y ij = µ + α i + e ij

A FÖLDFELSZÍNI PLATFORM SIKERE ÉS KIHÍVÁSAI. Dóbé Sándor

A Java EE 5 plattform

VÁLTOZÓ VIDEÓ VILÁG: MILYEN KÉPERNYŐN NÉZNEK? ELŐADÓ: VÖRÖS CSILLA. Digitalia szeptember 10.

Önkiszolgáló BI Az üzleti proaktivítás eszköze. Budapest,

Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben

Output menedzsment felmérés. Tartalomjegyzék

Az adatelemző felelőssége tapasztalatok a biztosítási analitikában

Multimédia mintarendszerek a Sulinet + hálózatban

TÉVÉNÉZÉS AZ INTERNETEN

Palaczk Péter A marketing folyamatok adattárház alapú támogatása

A BETEGBIZTONSÁG FEJLESZTÉSI LEHETŐSÉGEI. 40. Betegbiztonsági Fórum június 8.

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Az Invitel Távközlési Zrt.

1 Mit értünk cookie, böngésző helyi tárolás ("cookie és hasonló technológia") alatt?

Feladataink, kötelességeink, önkéntes és szabadidős tevékenységeink elvégzése, a közösségi életformák gyakorlása döntések sorozatából tevődik össze.

AZ ORSZÁGOS KOMPETENCIAMÉRÉS EREDMÉNYEI 2016/2017-ES TANÉV

Gyors sikerek adatbányászati módszerekkel

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

CÍM. Hybrid Broadcast Broadband TV

TV mindenhol. Vantsa László Magyarországért, Csehországért és Szlovákiáért felelős kereskedelmi és terjesztési igazgató Discovery Networks CEEMEA

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

Elektronikus oktatástámogató rendszer bevezetésének tapasztalatai. Jókai Erika Vig Zoltán

Ionogram releváns területeinek meghatározása és elemzésének automatikus megvalósítása

Videóportálok a felsőoktatásban

TERC V.I.P. hardverkulcs regisztráció

TPM egy kicsit másképp Szollár Lajos, TPM Koordinátor

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Bevezetés a kvantum informatikába és kommunikációba Féléves házi feladat (2013/2014. tavasz)

Cafeteria szolgáltatások

Adatbányászat és Perszonalizáció architektúra

COMPANY PROFILE SZOFI ALGORITHMIC RESEARCH KFT

Cloud Akkreditációs Szolgáltatás indítása CLAKK projekt. Kozlovszky Miklós, Németh Zsolt, Lovas Róbert 9. LPDS MTA SZTAKI Tudományos nap

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA CLOUD-ON KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN, HAJNAL ÁKOS, LOVAS RÓBERT

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Alternatív zártláncú tartalomtovábbítás értékesítőhelyek számára

Sorsz. Feladat Időtart. Ütemezés Új arculattal jelenjen meg a portál: főoldalhoz 1.1

az MTA SZTAKI elearning osztályának adaptív tartalom megoldása Fazekas László Dr. Simonics István Wagner Balázs

Lukovich Gábor Logisztikai rendszerfejlesztő

Programozási módszertan. Mohó algoritmusok

ENELFA záró konferencia január. 21. századi oktatási trendek, e-learning - Cesim OnService pilot tréningek

Hőmennyiségmérők elektronikus leolvasásának

TDK tájékoztató Gazdaságinformatika Intézeti Tanszék szeptember

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető október 4.

Átírás:

ImpressTV Zrt. kutatási témák 1. Cím: Média tartalmak automatikus címkézése és adatbővítése Kulcsszavak: adatbányászat, statisztika, metaadat, felhasználói viselkedés, ajánlórendszerek Probléma: A média tartalmak (elsősorban filmek) ajánlására fejlesztett rendszerek esetében azzal szembesülünk, hogy nem minden tartalomra rendelkezünk megfelelő mennyiségű, a filmes tartalmakra vonatkozó metaadattal, illetve azzal, hogy a rendelkezésre álló metaadat minősége erősen ingadozik. Ez a televíziós szolgáltatók (IPTV és kábeltelevíziós szolgáltatók, Over the Top szolgáltatók) számára azért jelent problémát, mert az általuk megvásárolt és on-demand szolgáltatások keretében ajánlott tartalmak esetén fontos az, hogy a felhasználó rendkívül gyorsan megtalálja a neki tetsző tartalmakat, illetve hogy egy tartalom a lehető leggyorsabban ajánlható legyen (item cold start probléma). Feladat: A feladat egy olyan rendszer kialakítása, amely segítségével a felhasználói eseményekből (eventek) vonunk le a tartalmakra vonatkozó következtetéseket, illetve amelynek segítségével képesek leszünk arra, hogy a média tartalmakat automatikusan a rájuk vonatkozó címkékkel (tagekkel) lássuk el, elősegítve ezzel a tartalmak gyorsabb besorolását, a tartalom és metaadat alapú ajánló algoritmusok sebességének növelését, illetve az érthetőbb ajánlás magyarázatokat. Opcionális irány olyan módszerek kidolgozása, melyek külső forrásból további információkat szereznek (metaadat szolgáltatók, wikipedia, műsorok feliratainak feldolgozása, kommentek értelmezése) és beleépítik a meglévő adatok közé. Előfeltétel: programozói tudás, gépi tanulás, statisztikai ismeretek 2. Cím: Nézettségmérés új módszerei avagy Audience measurement Kulcsszavak: IPTV, felhasználói viselkedés, média, ajánlórendszerek Probléma: Annak ellenére, hogy az IPTV szolgáltatók és a kábeltelevíziós szolgáltatók elvben minden Set Top Boxról származó információt képesek loggolni, mérnöki szempontból mind a mai napig rendkívül kezdetleges megoldásokat használnak a szolgáltatók a televíziós tartalomfogyasztás pontos mérésére. A probléma sok esetben annyi, hogy a szolgáltatók hiába képesek 20 másodpercenként információt gyűjteni a felhasználói szokásokról, nem tudják az összegyűjtött nagy mennyiségű adatot kezelni. Feladat: A feladat főbb megoldandó kérdései a következők: hogyan tudjuk a nézettséget értelmezni (mi az, amit mérnünk kell, és mely adatok a fontosak) és vizualizálni (mit és hogyan tudunk megjeleníteni, illetve értelmezni), illetve hogyan nyerjük ki azt a preferenciát, hogy a felhasználó egy adott csatornát néz vagy pedig egy az adott csatorna programján belül egy adott tartalom (item) érdekli, valamint a szerkesztők milyen hatékonyan pozícionálják a műsorujságot az egyes csatornákon. A feladatot a hallgatók akár egyénileg, akár több hallgató csoportosan is választhatja, a feladat pedig több féléven át is folytatható. Előfeltétel: programozói tudás, statisztikai és adatvizualizációs eszközök, klaszterezési módszerek ismerete 1

3. Kereszt domén (cross domain) ajánlások Kulcsszavak: ajánlórendszerek, felhasználói viselkedés, IPTV Probléma: A Netflixhez hasonló videós tartalomszolgáltatók elterjedésével együtt jelentős probléma az európai IPTV és kábeltelevíziós szolgáltatók számára az, hogy az on-demand tartalomfogyasztás (VOD fogyasztás, PayTV fogyasztás) alacsony, a felhasználók az esetek 90%-ában elő televíziós tartalmakat fogyasztanak. Az üzleti cél tehát az, hogy a felhasználó számára releváns fizetős tartalmakat ajánljunk, ehhez azonban olyan ajánló algoritmusok kifejlesztésére van szükség, amelyek képesek arra, hogy az élő adásokon megismert felhasználói / tartalomfogyasztási szokások alapján on-demand (VOD vagy PayTV) tartalmakat ajánljanak. Feladat: A megoldandó ajánlási probléma az, hogy nem minden élő tartalomfogyasztási eseménynek (eventnek) van reális tartalma a számunkra, illetve nem minden felhasználónak van on-demand kölcsönzési eseménye, emiatt a lineáris tartalomfogyasztásból ki kell emelni azokat a faktorokat, amelyekből következtethetünk a VOD fogyasztásra (pl: míg az esti blockbuster film megnézése relevás ebből a szempontból, az esti hírek már kevésbé). A cél tehát az, hogy meg kell találni a két domain közötti összefüggést. A feladat első lépése az, hogy meg kell vizsgálni, hogy a tudományos világban más területeken milyen kutatások vannak hasonló cross-domain ajánlásokra, és a más tudományterületeken levő módszereket kell adaptálni a televíziós világra. A feladat megoldásához igény esetén az ImpressTV Zrt. a saját fejlesztésű adatbányászati keretrendszerét biztosítja, amihez Java programozói ismeret szükséges. A feladatot a hallgatók akár egyénileg, akár több hallgató csoportosan is választhatja, a feladat pedig több féléven át is folytatható. Előfeltétel: gépi tanulási és programozási ismeretek, illetve az ajánlórendszerben alkalmazott algoritmusok 4. Hibrid filtering média tartalmakra Kulcsszavak: adatbányászat, statisztika, felhasználói viselkedés, metaadatok, ajánlórendszerek Probléma: Az ajánlórendszerek fejlesztése során egyre inkább látszik az, hogy szükség van metaadat alapú rendszerek (Content-based filtering) és a felhasználói viselkedés alapú rendszerek (collaborative filtering) egyesítésére. Az általunk fejlesztett, a világ egyik legnagyobb tube oldalán, a Dailymotion.com-on futó ajánlórendszernél például azzal a problémával kerültünk szembe, hogy egy videóhoz sok címke (tag) tartozik, de ténylegesen csak a címkék kis része releváns. A hibrid szűrés egyik előnye pontosan az lenne, hogy a fogyasztási szokások elemzésével következtethetnénk arra, hogy mely tagek relevánsak, és melyek nem. Másik előnye a két megközelítés előnyének ötvözése (pl: újonnan bevezetett tartalmak ajánlása a meglévő fogyasztási szokások alapján) Feladat: A feladat során a hallgató egy modellt építene arra vonatkozóan hogy melyik metaadat releváns, és melyik nem. A feladat során első lépésben a kollaboratív szűréssel elősegítjük a metaadat szignifikancia feltárását, második lépésben pedig kombinálnánk a két eltérő algoritmus családot és kialakítanánk egy olyan rendszer prototípusát, amely az ajánlás generálás során a már ismert tartalmakra felhasználói viselkedést elemző algoritmusokat használ, az új tartalmakra pedig metaadat alapú szűrést. A feladat megoldásához igény esetén az ImpressTV Zrt. a saját fejlesztésű adatbányászati keretrendszerét biztosítja, amihez Java programozói ismeret szükséges. A feladatot a hallgatók akár egyénileg, akár több hallgató csoportosan is választhatja, a feladat pedig több féléven át is folytatható. Előfeltétel: programozás (Java), kollaborative és tartalom alapú szűrés, ajánlórendszer algoritmusok ismerete 2

5. Ajánlási stratégiák, avagy «the Winner Takes it all» Kulcsszavak: felhasználói viselkedés, metaadatok, ajánlórendszerek Probléma: Az ajánlórendszerek televíziós szolgáltatóknál történő telepítése során többször szembesülünk azzal a problémával, hogy a felhasználónak többféle tartalomfogyasztási preferenciája van: pld az esetek 75%-ában komédiákat néz, 25%-ban pedig horrorfilmeket. A collaborative filtering algoritmusok esetén jellemző megfigyelés a The Winner Takes it all jelenség, mely szerint a user alapú modellezés során a legjellemzőbb preferencia érvényesül. Emiatt az ajánlások egysíkúvá válhatnak (elsősorban a mátrix faktorizációs módszereknél). Feladat: A feladat tehát az, hogy úgy ajánljuk az egyes videós és televíziós tartalmakat, hogy azok egyrészt illeszkedjenek a felhasználói preferenciákhoz, másrészt lehessen jól külön vehető preferenciákat kialakítani, illetve az ajánlási listában a preferenciák elosztását megfelelően kialakítani. Másik feladat annak a problémának a megoldása, hogyan lehet olyan ajánló algoritmust kialakítani, amely megfelelően diverz ajánlásokat szolgáltat, ugyanakkor megmarad az ajánlások pontossága is. A feladat megoldásához igény esetén az ImpressTV Zrt. a saját fejlesztésű adatbányászati keretrendszerét biztosítja, amihez Java programozói ismeret szükséges. A feladat több féléven át is folytatható. Előfeltétel: programozás (Java), algoritmuselmélet, statisztika 6. Tartalomajánló algoritmusok inkrementális tanulása Kulcsszavak: ajánlórendszer modellek, gépi tanulás Probléma: Az ajánlórendszerek ipari alkalmazásánál jelentős probléma a felhasználói és tartalom modellek frissen tartása és adaptív modellezése. Ennek az egyik legelterjedtebb megközelítése a teljes modellbázis időszakos újratanítása (pl: teljes mátrix faktorizációs algoritmus futtatása az összes felhasználóra és termékre), azonban ebben az esetben a tanítási idő (függően az ügyfél domain méretétől) nagyon hosszú is lehet. A megoldandó probléma ilyenkor az, hogy lehet megoldani a modellek frissitését anélkül hogy teljesen ujratanitsuk a modellt. Feladat: A feladat annak vizsgálata, hogyan lehet ezt mérni, és milyen tanítási stratégiát kell alkalmazni: pl Δt-ben érkező információt milyen matematikai formulával építsuk be a meglévő modellekbe, hogy az az elméleti modellhez konvergáljon. A feladat része emellett a meglevő, az adatbányászatban már ismeri algoritmusok(ials Implicit Alternating Least Squares, SGD Stochastic Gradient Descent vagy szomszéd módszer) kipróbálása, illetve annak kutatása, hogy az általunk preferált rendszerekhez van-e inkrementális módszer. A feladat több féléven át is folytatható: az első félév során a cél irodalmazás alapján a preferált módszer kiválasztása, második félében a kiválasztott módszerek implementálása. A feladathoz az ImpressTV Zrt. a saját fejlesztésű adatbányászati keretrendszerét biztosítja. Előfeltétel: programozói tudás (Java), analízis, gépi tanulás 3

7. Magas rendelkezésre állású, elosztott rendszerű taralomajánló módszerek Kulcsszavak: elosztott rendszerek, ajánlórendszer modellek, gépi tanulás Probléma: A big data elterjedésével egyre komolyabb probléma az, hogy egy adott felhasználónak egyre nagyobb halmazból kell ajánlanunk. A probléma minden esetben az, hogyan lehet predikciós időben elosztottá tenni az egyes kiértékeléseket úgy, hogy a szolgáltatási szerződésben (SLA-ban) meghatározott időn belül (100-200 millisecumdum) választ adjunk. A megoldás érdekében elengedhetetlen az, hogy bizonyos számításokat párhuzamosítsunk. Feladat: A feladat a rendelkezésre álló elosztott rendszerek feltérképezése, illetve a feladatra leginkább alkalmas elosztott rendszer (pld Hadoop alváltozatai) felmérése és kiválasztása, majd következő félében a kiválasztott rendszer alapszintű implementálása. Meg kell találni azt a rendszert, amely a leginkább alkalmas az általunk használt ajánló algoritmusok futtatására, illetve ezen algoritmusok párhuzamosítására. A feladatot a hallgatók akár egyénileg, akár több hallgató csoportosan is választhatja, a feladat pedig több féléven át is folytatható. Előfeltétel: programozási tapasztalat, elosztott rendeszerek ismerete 8. Tartalomajánló algoritmusok elosztott rendszerű tanítása Kulcsszavak: elosztott rendszerek, adatbázisok, ajánlórendszer modellek, gépi tanulás Probléma: A big data elterjedésével egyre komolyabb probléma az, hogy az adatokon futatott gépi tanulás egy szerveren mind memória kapacítási korlátok miatt, mind a futási idő szignifikáns növekedése miatt az ajánlórendszer szolgáltatóknak egyre nehezebben kivitelezhető. Fontos szempont, hogy az algoritmusok tanulási ideje egy korláton belül maradjon ezzel fenntartva a modellfrissítés megfelelő gyakoriságát, illetve hogy a rendszertelepítések során rendelkezésre álló időben (change window) el tudják végezni mind a beállítási műveleteket, mind a gépi tanulás és élesítés folyamatát. A megoldás a standard modell építési módszerek (pl: mátrix faktorizáció, szomszéd módszerek) párhuzamosítása, illetve az elosztott környezet implementálása. Feladat: A feladat első lépése az ajánlórendszerek területén alkalmazott adatbányászati algoritmusok megismerése, illetve irodalomkutatás, hogy milyen párhuzamosított megodások születtek ezen módszerekre, opcionálisan a meglévő módszerek továbbfejlesztése. Következő lépés a rendelkezésre álló elosztott rendszerek feltérképezése (adatbázis, ill processzek futtatása), illetve a feladatra leginkább alkalmas megoldások felmérése és kiválasztása. A feladat több féléven át is folytatható: az első félév során a cél irodalmazás alapján a preferált módszer kiválasztása, második félében a kiválasztott módszerek implementálása. A feladatot a hallgatók akár egyénileg, akár több hallgató csoportosan is választhatja, a feladat pedig több féléven át is folytatható. Előfeltétel: programozási tapasztalat, elosztott rendszerek és adatbázisok ismerete Az ImpressTV-ről Az ImpressTV öt kontinensen jelen lévő, ajánlórendszer-szolgáltatást nyújtó vállalat, amely a Netflix Prize fináléjába jutott, magyar Gravity R&D Zrt. televíziós portfóliójának felvásárlásával jött létre 2014-ben. A céget brit, telekommunikációs területen tapasztalt befektetők vezetik, budapesti technológiai központjában pedig összeszokott, magyar fejlesztői csapat tevékenykedik. A vállalat főbb szolgáltatásai: személyre szabott ajánlások nyújtása, hirdetések targetálása, adatelemzés, prediktív elemzés és felhasználói adatbázissal kapcsolatos mérések, jellemzően nemzetközi telekommunikációs vállalatok és egyéb tartalomszolgáltatók számára. 4

Az ImpressTV ügyfelei között tudhatja többek közt a Magyar Telekomot, az Ivi.ru-t, Oroszország vezető video streaming szolgáltatóját, valamint a CenturyLink-et, az USA egyik legnagyobb telekommunikációs vállalatát is. Az ImpressTV 21 algoritmus optimális kombinációját használja a lehető legpontosabb, valós idejű ajánlások megtalálásához. A metaadatok felhasználása mellett a cég élen jár az ajánlások fogyasztói viselkedés és fogyasztási körülmények (eszköz, hely, idő, stb.) alapján történő kialakításában. Az ImpressTV a végfelhasználót helyezi a működése középpontjába: a legfontosabb cél nem a filmes tartalmak katalogizálása, hanem a tévénézők ízlésének mélyebb megismerése és kiszolgálása. 5