Tudásalapú ajánlórendszer adatszegény környezetben



Hasonló dokumentumok
Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

A hierarchikus adatbázis struktúra jellemzői

Gépi tanulás a gyakorlatban. Bevezetés

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

Alkalmazott Informatikai Intézeti Tanszék MŰSZAKI INFORMATIKA Dr.Dudás László 0. A Wolfram Alpha tudásgép.

Perszonalizált tartalomajánló szolgáltatás IPTV és OTT rendszerek számára

Szomszédság alapú ajánló rendszerek

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

4. Fuzzy relációk. Gépi intelligencia I. Fodor János NIMGI1MIEM BMF NIK IMRI

Adatszerkezetek és algoritmusok

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft

Méréselmélet MI BSc 1

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Érettségi vizsgatárgyak elemzése tavaszi vizsgaidőszakok FÖLDRAJZ

Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai. Kiezer Tamás

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Inkontinencia termékek szállítása

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Miért válaszd az E-business menedzsment szakirányt?

MINTA BIZTONSÁGI KATEGORIZÁLÁS SEGÉDLET


Ütemezési modellek. Az ütemezési problémák osztályozása

MultiMédia az oktatásban Zsigmond Király Fıiskola Budapest, szeptember

Üzleti modellen alapuló webes tudásprezentáció

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

4. sz. Füzet. A hibafa számszerű kiértékelése 2002.

A szolgáltatástervezési koncepciók készítésének gyakorlata. online kutatás elemzése

Önálló labor feladatkiírásaim tavasz

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Delikát Gyűjtsön Osztálykirándulásra! Játék Részvételi- és Játékszabályzata

Mellékhatások és minőségi hibák kombinációs előfordulása Dr. Oláh Attila, Dr. Mészáros Márta (Magyarországi Gyógyszertörzskönyvezők Társasága)

Az alapvető jogok biztosának Jelentése az AJB-2350/2016. számú ügyben

Bevezetés s a szemantikus technológi

AllBestBid. Felhasználói kézikönyv az AllBestBid online aukciós szolgáltatás használatához március DFL Systems Kft.

Regió-portálok Magyarországon

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

1. A környezet fogalma. A természeti környezet (víz, talaj, levegő, élővilág)

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

L'Hospital-szabály március 15. ln(x 2) x 2. ln(x 2) = ln(3 2) = ln 1 = 0. A nevez határértéke: lim. (x 2 9) = = 0.

Papír irodaszerek, irodai fogyóanyagok, irodaszerek, irodatechnikai eszközök beszerzése

Klasszikus alkalmazások

Mérés és modellezés 1

a Magyar Nemzeti Bank 5/2015. (V. 05.) számú ajánlásáról.

Az e-kereskedelem elvárásai a biometriával szemben

TARTALOMJEGYZÉK. V. Játékos Balaton projekt marketingkommunikációs terve VI. Mellékletek... 11

A tudás alapú társadalom iskolája

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Integrált ügyviteli rendszer: Kettős könyvelés modul

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Térképek jelentése és elemzése

Mérés és modellezés Méréstechnika VM, GM, MM 1

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

Struktúra nélküli adatszerkezetek

Eljárást megindító felhívás évi ideiglenes munkaerő kölcsönzés

Pozícióinformáció. Sikeres helyfüggő szolgáltatások mobilra

Diszkrét matematika 1. középszint

Multimédiás adatbázisok

KÖZPONTI STATISZTIKAI HIVATAL NÉPESSÉGTUDOMÁNYI KUTATÓ INTÉZET KUTATÁSI JELENTÉSEI 51.

P-GRADE fejlesztőkörnyezet és Jini alapú GRID integrálása PVM programok végrehajtásához. Rendszerterv. Sipos Gergely

ZÁRÓ TANULMÁNY a "FoglalkoztaTárs társ a foglalkoztatásban" kiemelt projekt (TÁMOP / ) keretében

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Tranzakciós költségek: optimum, méretgazdaságosság, egyensúly

IV. Szakmai szolgáltatások funkcionális tervezése

Vérhiganyszint és vérnyomás összefüggése a halfogyasztással

Az Alkotmány érintett paragrafusai a következők:

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

Tárgy: Kiskunmajsa Város Önkormányzatának évi költségvetési koncepciója.

Stratégiai menedzsment

J/55. B E S Z Á M O L Ó

Intelligens elektronikus szótár és lexikai adatbázis

Hely- és kontextusfüggő alkalmazások fejlesztését támogató keretrendszer mobil környezetben

Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.

Széchenyi István Szakképző Iskola

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

matematikus-informatikus szemével

Salgótarján Megyei Jogú Város alpolgármesterétől

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Feltáró jellegű kutatás a Pécsi Tudományegyetem tanári, egyéni összefüggő gyakorlatának megvalósulásáról

INFORMATIKA Emelt szint

Digitális kártyák vizsgálata TESTOMAT-C" mérőautomatán

Hajlított tartó elmozdulásmez jének meghatározása Ritz-módszerrel

Előterjesztés Békés Város Képviselő-testülete december 16-i ülésére

TARTALOM AZ INFORMATIKA FOGALMA A fogalom kialakítása Az informatika tárgyköre és fogalma Az informatika kapcsolata egyéb

Készült: Készítette: IBS Kutató és Tanácsadó Kft

5. INDEXELÉS. Összeáll. dr. Pálvölgyi Mihály. BDF KIT, tanév, 1. félév

Ingrid Signo Felhasználói kézikönyv. Pénztári használatra

Az Egységes Szakképzési Minőségirányítási Keretrendszer bevezetésének szükségessége a felnőttképzésben

ÜGYFÉLSZOLGÁLATI MONITORING VIZSGÁLAT A FŐTÁV ZRT. RÉSZÉRE MÁSODIK FÉLÉV

Mély neuronhálók alkalmazása és optimalizálása

TÁMOP VIR alprojekt VIR felhasználói kézikönyv

IConS 1 - az elektronikus tartalmak Ford-T modellje K+F projektjavaslat

Függvények növekedési korlátainak jellemzése

Az építési műszaki ellenőr képzés a gyakorló szakemberek szemével

Kaszás Tímea: Corvina OPAC az SZTE Mez gazdasági Könyvtárában

Pedagógus továbbképzések. a Bakonyi Szakképzés szervezési Társulás. intézményeiben

Átírás:

Szeged, 2014. január 1617. 990 Tudásalapú ajánlórendszer adatszegény környezetben Oravecz Csaba, Sárközy Csongor, Mittelholcz Iván MTA Nyelvtudományi Intézet e-mail:{oravecz.csaba,sarkozy.csongor,mittelholz.ivan}@nytud.mta.hu Kivonat Az ajánlórendszerek általában a felhasználói tranzakciókból és a termékekr l rendelkezésre álló adatokból kinyert információkra támaszkodnak. Adatszegény környezetben azonban más információforrások felhasználására van szükség. A tanulmány olyan megoldás prototípusát mutatja be, ahol a felhasználó tevékenységét jellemz szöveges adatok automatikus feldolgozása és egy részletes ontológiában tárolt tudásbázis felhasználása segítségével válik lehet vé a releváns termékek (szolgáltatások) kiválasztása. 1 Kulcsszavak: ajánlórendszer, tudásbázis, ontológia 1. Bevezetés Az online felhasználók számára az igényeiknek megfelel termékek és szolgáltatások keresése, azonosítása és beszerzése a kérdéses termék, szolgáltatás komplexitásának függvényében komoly kihívást jelent feladat lehet, melyben a felhasználó megfelel támogatása kritikus fontosságú. A legegyszer bb keres alkalmazások általában azzal a feltételezéssel m ködnek, hogy a felhasználó pontosan tisztában van az általa keresett termék releváns paramétereivel és kimerít en ismeri az elérhet termékek halmazát is. Ez azonban ritkán vagy így, ezért az adott döntési folyamatban helye van annak az (automatikus) asszisztenciának, amely képes a felhasználót hatékonyan segíteni. Azokat az internetes alkalmazásokat, melyek a felhasználók érdekl désére számot tartó termékek és szolgáltatások felderítésében és kiválasztásában nyújtanak automatikus segítséget, ajánló rendszereknek (recommender systems) (Ricci et al., 2011) nevezzük. Esetünkben olyan ökoinnovációs intézkedések, szolgáltatások személyre szabott kiajánlását végzi egy automatikus rendszer 2, melyek alkalmazásával a felhasználók (vállalkozások) jelent s megtakarítást érhetnek el. Az alkalmazás felépítésében és funkciójában sok hasonlóságot mutat az ajánlórendszerek klasszikus típusaival, ezen belül is a tudás- és megszorítás alapú 1 A kutatást a KMR_12-1-2012-0036 számú, Piacorientált kutatás-fejlesztési tevékenység támogatása a közép- magyarországi régióban pályázat támogatta. 2 A továbbiakban ECOINNO rendszerként hivatkozott alkalmazás.

Szeged, 2014. január 1617. 991 rendszerekkel (Burke, 2000; Thompson és Langley, 2004), de az általunk fejlesztett rendszer m ködési tartományának és környezetének egyúttal számos olyan paramétere van, melyek egyedileg kidolgozott megoldásokat követelnek meg, túlmutatva a klasszikus ajánlórendszerekben felhasznált módszerek és algoritmusok szolgai alkalmazásán. 2. Kihívások az ECOINNO rendszerben Alapvet en három szempont szerint érdemes megvizsgálni azokat a tulajdonságokat, melyek lényeges eltéréseket jelentenek a megszokott ajánlási paradigmához képest. Feladat és kontextus: Mind a kínálati, mind a keresleti oldalon speciális paramétereket kell gyelembe venni. A termékek igen komplex szolgáltatások, melyek releváns tulajdonságainak meghatározása és reprezentációja nem triviális, ennek a feladatnak automatikus, gépi módszerekkel történ megoldása nagy kihívást jelent probléma. Másrészt a kínálati halmaz számossága nem akkora, hogy a humán szakért i beavatkozást eleve ki kellene zárni, vagyis a terméktulajdonságok (automatikusan segített) manuális annotációja reális alternatíva. Ez a megközelítés a kés bbi esetleges kiterjesztés során is fenntartható, hiszen a kérdéses szolgáltatások várható jöv beli b vülése messze nem olyan ütem, ami a kézi feldolgozást lehetetlenné tenné. A keresleti oldalon megjelen felhasználók többsége el ször kerül kapcsolatba a rendszerrel illetve a rendszer által ajánlott terméktípussal. Egyrészt tehát gyakorlatilag minimális mértékben tudja explicit módon megfogalmazni a valós igényeit, másrészt kezdetben semmilyen információ nem áll rendelkezésre arra vonatkozóan, hogy korábban milyen hasonló termékeket vett igénybe. Ezen túl, a rendszer használata során sem várható olyan mennyiség ilyen jelleg adat felhalmozódása adott felhasználóval kapcsolatban, melyre a további ajánlatokat alapozni lehetne, így ez a fajta információ csak minimális mértékben vehet gyelembe. Fontos szempont, hogy a rendszer alkalmazási területe jól meghatározott, zártnak tekinthet, ezért az ezzel kapcsolatos háttértudás egyértelm meghatározása és formális rögzítése természetesen kínálkozó lehet ség. Információforrás: Mindkét oldalon igen változatosak a nyers, közvetlenül elérhet információ formai és tartalmi jellegzetességei. Termékoldalról: A szolgáltatások strukturálatlan vagy félig strukturált 3 leírásai, melyek a legritkább esetben készültek azzal a céllal, hogy automatikus számítógépes módszerekkel feldolgozhatók, értelmezhet k legyenek. 3 Strukturált információ a rendszer szempontjából olyan formátumú adat, mely explicit, géppel értelmezhet formális reprezentációba közvetlenül, nyelvi, logikai feldolgozás nélkül leképezhet.

992 X. Magyar Számítógépes Nyelvészeti Konferencia Felhasználói oldalról: Minden olyan információforrás, mely a felhasználó tevékenységére, környezetére vonatkozóan tartalmaz adatot, és a rendszer számára a felhasználó minimális közrem ködésével hozzáférhet, releváns lehet (weboldal URL, prospektusok, ismertet k, beszámolók, jelentések stb.). Ez a fajta információ alapvet en strukturálatlan szöveges formában jelenik meg 4, és független a felhasználó és az ajánlórendszer közötti interakciótól, nem abból származik. Kívánt eredmény: A felhasználói igényeknek megfelel szolgáltatások rangsorolt listája jelenik meg a rendszer kimeneteként 5. 3. A megvalósítás általános elvei A rendszer m ködése során alapvet en egy információ-visszakeresési ( information retrieval (IR)) problémát old meg, ahol a klasszikus alkotóelemek, mint a dokumentumgy jtemény és a keresési kifejezés speciális formában jelennek meg. Ezért a megfelel módosításokkal a IR paradigma illetve meghatározott sztenderd algoritmusok alkalmazása nyitva áll a feladat megoldása során. Ha kínálati oldalon elérhet termékek (mint dokumentumok) és a keresleti oldalon megjelen felhasználók igényei (mint keres kifejezés) alkalmas módon meghatározhatók és reprezentálhatók, a feladat ezen reprezentációk közötti hasonlóság kiszámítására redukálódik (mint klasszikus IR probléma). Két feladatot kell tehát megoldani. Egyrészt a felhasználói prol és a terméktulajdonságok olyan reprezentációját meghatározni, mely lehet vé teszi ezen reprezentációk között egy hasonlóságmérték deniálását és kiszámítását, másrészt a rendelkezésre álló információforrások adatait (és esetleg további információforrásokat) felhasználva mindkét oldalon el állítani ezeket a reprezentációkat. Nyilvánvaló, hogy az el z ekben említett zárt és korlátos domén lehet séget ad arra, hogy a releváns háttérismeret, fogalmi rendszer és összefüggések egy formális explicit leírásban (ontológiában) megadhatóak legyenek (Castells et al., 2007; Vallet et al., 2005), ennek a tudásbázisnak a felhasználása kritikus fontosságú. 4. Reprezentáció A kínálati oldalon a reprezentációk el állítása a szolgáltatások deskriptív jellemzését tartalmazó szöveges leírások számítógépes nyelvészeti elemzését, felcímkézését majd ezen címkézés manuálisan segített, a tudásbázis (ontológia) által deniált fogalmi térbe történ leképezését foglalja magában. A keresleti oldalon ugyanez történik azzal a különbséggel, hogy a folyamat teljesen automatikus, 4 Természetesen a szöveg f bb alkotóelemeire (cím, fejléc, bekezdés stb) tagolt és ebben az értelemben strukturált lehet, de ez a rendszer számára csak segédinformáció, mely további feldolgozásra vár annak érdekében, hogy a kivont információ a megel z lábjegyzetben leírt értelemben is strukturált legyen. 5 Ebb l a szempontból az ECOINNO rendszer nem különbözik a sztenderd ajánlórendszerekt l.

Szeged, 2014. január 1617. 993 forrásként a felhasználóról elérhet minden lehetséges deskriptív adatot felhasznál, illetve támaszkodhat a felhasználótól irányított formában bekért további adatokra (preferenciákra). A rendszer az alkalmazási doménre vonatkozó háttértudást, releváns objektumokat, kategóriákat, fogalmakat és relációkat egy explicit formális tudásbázisban (ontológiában) tárolja. Az ontológia az OWL Web Ontology Language formalizmusban implementált, építésének munkakörnyezete a Protégé ontológia szerkeszt re és a hozzá kapcsolódó Java API-ra épül 6. Tegyük fel, hogy a rendszer alkalmazási tartományában lehetséges a releváns háttértudást kimerít en leírni. 7 Ebben az esetben mind a kínálati oldal intézkedései, mind a keresleti oldal felhasználói proljai megfogalmazhatók, leírhatók a tudásbázis segítségével, mint olyan fogalomhalmazok, melynek elemei az ontológia adott csomópontjaihoz tartozó fogalmak. Alapvet en tehát mindkét oldalon a kérdéses reprezentáció egy többdimenziós fogalomvektor, ahol a vektor koordinátái az ontológia által specikált fogalmak, értékei pedig kétfélék lehetnek: bináris vektor esetén 0 vagy 1, valós vektor esetén pedig az adott fogalom relevanciáját reprezentáló súlyérték. Bináris vektorok el állítása rendkívül egyszer, amennyiben az adott fogalom hozzárendelhet az intézkedés illetve felhasználói prolhoz, az érték 1, egyébként 0. Valós vektor esetén meg kell határozni azt a módszert, melynek segítségével az értékek kiszámíthatók. 4.1. Az intézkedésprol el állítása Mivel a kiajánlható szolgáltatások halmazának számossága nem kirívóan nagy, elvileg a teljesen manuális annotáció sem kivitelezhetetlen. Célszer azonban az annotációs folyamatot automatikus módszerekkel segíteni. Ekkor a szolgáltatásokról rendelkezésre álló szöveges információt egy nyelvi elemz lánc dolgozza fel és annotálja egy el re deniált címkehalmazból (amely az ontológia alacsony szint specikus fogalmainak feleltethet meg) választott címkékkel. A humán annotátor ezek után ellen rzi és javítja a hozzárendelést, illetve a kezdeti változatban súlyokat rendel a megfelel címkékhez. Az így kialakított reprezentáció a 4.3. részben ismertetett módon kerül további feldolgozásra. 4.2. A felhasználói prol el állítása A feladat a felhasználói oldalon elérhet jórészt strukturálatlan adatokból az ajánlórendszer számára releváns információ kinyerése és leképezése a tudásbázis által specikált vektortérbe. Ez több lépésben történik. Forrás-el feldolgozás. Els lépés a szöveges adatok típusától függ en (pl. HTML dokumentum, pdf ismertet, word dokumentum stb.) a dokumentumstruktúra elemeinek azonosítása (keletkezési id, cím, fejléc, bekezdés 6 http://protege.stanford.edu/overview/protege-owl.html 7 Nyilván ezt közvetlenül mérni nem lehetséges, a tudásbázis min ségére gyakorlati szempontból a rendszer m ködési hatékonyságából, pontosságából lehet következtetni.

994 X. Magyar Számítógépes Nyelvészeti Konferencia stb.), mely lehet vé teszi az információ pontos lokalizálását (ezáltal pl. súlyozását) az adott forráson belül. Információazonosítás. Ebben a lépésben a szöveges adatok nyelvi, szemantikai elemzésére kerül sor, ahol részletes annotációt kapnak a tartalmas nyelvi elemek és szerkezetek, megtörténik a kulcskifejezések és a köztük lév viszonyok meghatározása. Leképezés. Jelen specikáció szerint a doménontológia alsó szint fogalmaihoz vannak hozzárendelve azok a nyelvi elemek és relációk, melyek a kérdéses fogalmakat a szöveges adatokban instanciálják. Alapvet en tehát a tudásbázis deniálja a felhasználói adatok annotációjából az ontológiai fogalmakba történ leképezést. Mind a fogalmi csomópontok, mind a releváns nyelvi elemek azonosításában nagy szerepet játszanak azok a lexikális er források, melyeket a rendelkezésre álló szöveges adatokból sztenderd statisztikai eljárások segítségével készültek (lásd 1. és 2. ábra). 1993.55969884557 1356 hulladék 1553.50432823931 1087 környezeti 1529.70377199569 1104 megtakarítás 1385.73629885459 1115 intézkedés 1068.88348017766 786 tonna 1065.25227892306 824 környezetvédelmi 895.661275426298 730 kft 709.212863548727 639 beruházás 675.285411574036 608 termék... 1. ábra. Felhasználói dokumentumokból el állított kulcsszólista. nyers<>f részpor<>10 12.2717 3.1616 10 14 34 kompakt<>fénycs <>15 11.7500 3.4631 12 20 41 szabadleveg s<>h tés<>16 11.7395 3.4631 12 14 59 szerves<>oldószer<>32 10.7642 3.8708 15 29 70 mart<>aszfalt<>15 12.7571 3.1618 10 10 34 hulladékh <>hasznosítás<>44 9.9866 3.1592 10 16 145 épület<>f tés<>73 8.5454 3.4548 12 108 70 maradékanyag<>mennyiség<>74 8.5424 3.3077 11 16 434... 2. ábra. Felhasználói dokumentumokból el állított kollokációs lista.

Szeged, 2014. január 1617. 995 A felhasználói prolvektorhoz súlyokat hozzárendelni legegyszer bben instanciagyakoriság alapján lehet: w i,j = freq i,j max k freq k,j (1) ahol w i,j a j felhasználóprolban instanciálódott i fogalomhoz tartozó súlyérték, freq i,j i el fordulási gyakorisága j-ben, max k freq k,j pedig a leggyakoribb fogalomhoz tartozó gyakorisági érték. A reprezentációkat az 1. táblázat illusztrálja. 1. táblázat. Prolreprezentációk.... C n(szennyvíz) C n+1(talaj) C n+2(zaj)... intézkedés i... 0.023 0.001 0... intézkedés j... 0 0.001 0.145... intézkedés k... 0 0.326 0.002...... vállalkozás i... 0.001 0.001 0... vállalkozás j... 0.423 0.003 0... vállalkozás k... 0.003 0.377 0.005... 4.3. A fogalmi vektorok kiterjesztése A fogalmak közötti viszonyokat explicit módon specikáló doménontológia lehet séget ad arra, hogy a közvetlenül instanciált fogalmak mellett a velük meghatározott módon kapcsolatban álló további csomópontok (fogalmak, fogalmi osztályok) is hozzáadódjanak a reprezentációs vektorhoz. Ez a kiterjesztés például az ún. megszorítottan terjed aktiváció (constrained spreading activation ) alkalmazásával valósítható meg (Crestani és Lee, 2000; Grith et al., 2006), melynek során különböz megszorítások által korlátozott módon az egyes csomópontokhoz további kapcsolódó csomópontok rendelhet k hozzá, ily módon az eredeti fogalomvektor kib vül a kapcsolódó fogalmakkal. 8 A prolok választott vektortér alapú reprezentációja lehet vé teszi, hogy sztenderd hasonlósági mértékek segítségével természetes módon rangsorolhatók legyenek a felhasználókra szabott ajánlatok. A jelenleg alkalmazott mérték a koszinusz hasonlóság. 5. Javító stratégiák A rendszer kézenfekv kiterjesztését adják olyan szabály alapú megszorítások, melyek mind a felhasználói prol nyelvi szemantikai elemzéséb l származó annotáció, mind az intézkedések tulajdonságai, mind a doménontológia szintjén 8 A kapcsolt fogalmakhoz rendelt súly számítható pl. az eredeti súlyból lépésenként konstans érték levonásával (decay).

996 X. Magyar Számítógépes Nyelvészeti Konferencia megfogalmazhatók, és bizonyos kapcsolatokat, következményeket egyértelm en deniálnak 9. További hasonló megszorítások származtathatók az audit kérd ívekre adott felhasználói válaszokból. Ezek egyértelm és kiterjedt specikálása a rendszer szempontjából kritikus fontosságú, mivel nagy mértékben lesz kíthetik az illesztési probléma keresési terét, javítva az ajánlati válaszlistát. Nincs olyan mesterséges intelligenciára támaszkodó alkalmazás, amely kimerít en képes lenne kezelni egy adott tárgykört, tartományt. El fordulhat, hogy a rendszer tudásbázisa hiányos, és nem lehet megbízható prolt, reprezentációt el állítani a felhasználóról a rendelkezésre álló adatok alapján. Ilyenkor lehet ség van arra, hogy a rendszer alacsonyabb szint, kulcsszóalapú illesztést végezzen, illetve a tudásalapú és a kulcsszóalapú illesztést kombinálja. Ennek a megoldásnak a pontos paraméterei a részletes tesztelés során határozhatók meg. 6. Kiértékelési módszerek Az ajánlórendszerek kiértékelésére nincs egységes, minden feladatban megbízhatóan alkalmazható módszertan (Gunawardana és Shani, 2009). Mind a tesztadatok kiválasztására, mind a felhasználói visszajelzésekb l származó információ felhasználására számos megoldás lehetséges, ahol a konkrét alkalmazás teljesítményét legpontosabban mér eljárás kidolgozása nem triviális. A projekt jelenlegi szakaszában egy mintegy 300 intézkedést tartalmazó tesztadatbázisra és 10-15 felhasználó bináris szelekciót tartalmazó válaszaira támaszkodik a kiértékelés 10. Ebben a kontextusban a sztenderd fedés, pontosság értékek értelmezhet k, a tesztelési folyamat keresztvalidációval elvégezhet. Ez a megközelítés azonban meglehet sen durva modelljét adja a felhasználói elégedettségnek, ezért nem tekinthet végleges megoldásnak. 7. Összefoglalás és további feladatok A tanulmányban bemutattuk egy olyan ajánlórendszer prototípusát, mely alkalmazási tartományának jellegéb l nem rendelkezik azzal a jelent s méret adathalmazzal, melyre a klasszikus rendszerek általában támaszkodnak, így a m ködéshez szükséges információt, tudást a sztenderd módszerekt l eltér úton kell megszerezni, illetve el állítani. Mint nagyon sok valós környezetben használt nyelvtechnológiai alkalmazás, az ECOINNO rendszer is hibrid megoldásokat alkalmaz, illeszkedve a feladat peremfeltételeihez. A rendszer alapvet en a tudásalapú megközelítéshez áll közel, de nem zárja ki más megközelítések kedvez tulajdonságainak kihasználását (pl. a felhasználói visszacsatolások gyelembe vétele, elegend felhalmozott adat esetén a felhasználóprolok hasonlóságának monitorozása stb.). 9 Pl. adott tulajdonsággal rendelkez, vagyis adott dimenzióban nem 0 érték vektorral jellemzett intézkedés nem járhat együtt egy másik meghatározott módon speci- kált intézkedéssel. 10 A tudásbázis folyamatos fejlesztése miatt publikus adatok még nem állnak rendelkezésre.

Irodalomjegyzék Burke, R. Knowledge-based recommender systems. In: Kent, A. szerk. Encyclopedia of Library and Information Systems, 69. kötet. New York: Marcel Dekker, 2000. Castells, P., Fernández, M. és Vallet, D. An Adaptation of the Vector-Space Model for Ontology-based Information Retrieval. IEEE Transactions on Knowledge and Data Engineering, Special Issue on "Knowledge and Data Engineering in the Semantic Web Era", 2007, 19(2):261272. Crestani, Fabio és Lee, Puay Leng. Searching the web by constrained spreading activation. Information Processing & Management, 2000, 36(4):585605. Grith, Josephine, O'Riordan, Colm és Sorensen, Humphrey. A Constrained Spreading Activation Approach to Collaborative Filtering. In: Gabrys, Bogdan, Howlett, RobertJ. és Jain, LakhmiC. szerk. Knowledge-Based Intelligent Information and Engineering SystemsLecture Notes in Computer Science, 4253. kötet. Springer Berlin Heidelberg, 2006, 766773. Gunawardana, Asela és Shani, Guy. A survey of accuracy evaluation metrics of recommendation tasks. The Journal of Machine Learning Research, 2009, 10: 29352962. Ricci, Francesco, Rokach, Lior, Shapira, Bracha és Kantor, Paul B. szerk. Recommender Systems Handbook. Springer, 2011. Thompson, M., C.and Göker és Langley, P. A Personalized System for Conversational Recommendations. Journal of Articial Intelligence Research, 2004, 21: 393428. Vallet, D., Fernández, M. és Castells, P. An Ontology-based Information Retrieval Model. In: Proceedings of the 2nd European Semantic Web Conference (ESWC 2005), Heraklion, Greece. 2005, 455470.