Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai. Kiezer Tamás



Hasonló dokumentumok
EFFICIENT METHODS IN THE PRACTICE OF INFORMATION RETRIEVAL HATÉKONY MÓDSZEREK AZ INFORMÁCIÓ- VISSZAKERESÉS GYAKORLATÁBAN. DOKTORI (Ph.D.

OTKA nyilvántartási szám: T ZÁRÓJELENTÉS

Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra

műszaki tudomány doktora 1992 Beosztás: stratégiai tanácsadó, tudományos tanácsadó Munkahelyek: Nokia -Hungary kft Veszprémi Egyetem

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

VÉKONYLEMEZEK ELLENÁLLÁS-PONTKÖTÉSEINEK MINŐSÉGCENTRIKUS OPTIMALIZÁLÁSA

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

Óbudai Egyetem Neumann János Informatikai Kar. Intelligens Mérnöki Rendszerek Intézet

A megerosítéses tanulás és a szimulált hutés kombinált használata: algoritmusok és alkalmazások

JÓVÁHAGYÁS. szervezet. Név Dr. Szakonyi Lajos KPI Oktatási Minisztérium

Irányítási struktúrák összehasonlító vizsgálata. Tóth László Richárd. Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola

Publikációk. Könyvek, könyvfejezetek:

ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ

PUBLIKÁCIÓS ÉS ALKOTÁSI TEVÉKENYSÉG ÉRTÉKELÉSE, IDÉZETTSÉG Oktatói, kutatói munkakörök betöltéséhez, magasabb fokozatba történı kinevezéshez.

Honlap szerkesztés Google Tudós alkalmazásával

Teszt generálás webes alkalmazásokhoz

TÁVOKTATÁSI TANANYAGOK FEJLESZTÉSÉNEK MÓDSZERTANI KÉRDÉSEI

MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

A szemantikus világháló oktatása

Mi is volt ez? és hogy is volt ez?

1. Katona János publikációs jegyzéke

AZ A PRIORI ISMERETEK ALKALMAZÁSA

KÉPI INFORMÁCIÓK KEZELHETŐSÉGE. Forczek Erzsébet SZTE ÁOK Orvosi Informatikai Intézet. Összefoglaló

Pannon Egyetem Vegyészmérnöki és Anyagtudományok Doktori Iskola

Pécsi Tudományegyetem Közgazdaságtudományi Kar Regionális Politika és Gazdaságtan Doktori Iskola

TEHETSÉGGONDOZÁS HAZAI ÉS NEMZETKÖZI PROJEKTEKKEL NURTURING THE TALENTS WITH NATIONAL AND INTERNATIONAL PROJECTS

GÉPI ÉS EMBERI POZICIONÁLÁSI, ÉRINTÉSI MŰVELETEK DINAMIKÁJA

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE

MŰSZAKI TUDOMÁNY AZ ÉSZAK-KELET MAGYARORSZÁGI RÉGIÓBAN 2012

SZÉN NANOCSŐ KOMPOZITOK ELŐÁLLÍTÁSA ÉS VIZSGÁLATA

Módszer köztes tárolókat nem tartalmazó szakaszos működésű rendszerek ütemezésére

Diagnosztikai szemléletű talajtérképek szerkesztése korrelált talajtani adatrendszerek alapján

Arculat fontossága & Akadálymentesítés

EBSCO Tartalom licenszelése

19.Budapest Nephrologiai Iskola/19th Budapest Nephrology School angol 44 6 napos rosivall@net.sote.hu

Süle Zoltán publikációs listája

NÉMETH MÁRTON Networkshop 2014 Pécs. Discovery alapú katalógus szoftvereszközök tudományos könyvtári környezetben

SZÁMÍTÓGÉPES VIZUALIZÁCIÓ A MATEMATIKA TANÍTÁSÁBAN: ESZKÖZÖK, FEJLESZTÉSEK, TAPASZTALATOK

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

Oktatói önéletrajz Kő Andrea

Köztesréteg adatbiztonsági protokollok megvalósítására

VI. Magyar Földrajzi Konferencia

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

A USER Kft - mint Open Text partner - bemutatása

Szakdolgozat, diplomamunka és TDK témák ( )

A döntésorientált hibamód és hatáselemzés módszertanának tapasztalatai az AUDI Motor Hungária Kft.-nél

Számítási intelligencia

Nemzetközi konferencia-kiadványban megjelent lektorált cikk

1. Fejezet: Számítógép rendszerek

SZOMSZÉDSÁGI SZEKVENCIÁK ÉS ALKALMAZÁSAIK A KÉPFELDOLGOZÁSBAN ÉS KÉPI ADATBÁZISOKBAN

}w!"#$%&'()+,-./012345<ya

MIT IS MONDOTT? HOGY IS HÍVJÁK? ELIGAZODÁS A KÁRTEVŐK VILÁGÁBAN

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

VÁLTOZTATÁSMENEDZSMENT A HAZAI GYAKORLATBAN

Tevékenység szemléletű tervezés magyarországi felsőoktatási intézmények pályázataiban

Karbantartási játék. Dr. Kovács Zoltán, egyetemi tanár, Pannon Egyetem Kovács Viktor, PhD hallgató, Budapest Műszaki és Gazdaságtudományi Egyetem

Szakdolgozat, diplomamunka, TDK és PhD témák Témavezető: Dr Tóth László ( )

Baranyáné Dr. Ganzler Katalin Osztályvezető

PÁLYÁZAT. a SZÉCHENYI ISTVÁN EGYETEM MŰSZAKI TUDOMÁNYI KAR KUTATÁSI FŐIRÁNY pályázati felhívásához. 1. A pályázó kollektíva vezetőjének adatai:

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

A nyilvános kulcsú infrastruktúra önálló kialakításának szükségessége

A TÖBBDIMENZIÓS KÉPFELDOLGOZÁS PROGRAMJAI ÉS OKTATÁSUK

Publikációk. Libor Józsefné dr.

Szakmai CD-ROM és online adatbázisok

Szakmai önéletrajz. Nyelvvizsga: Angol orvosi szaknyelv középfok (Bizonyítvány száma: D A 794/1997), orosz alapfok.

Zárójelentés a "Mikro-kontinuumok képlékeny alakváltozása" című OTKA kutatási témához

Publikációs lista. Dr. Molnárka-Miletics Edit Széchenyi István Egyetem Matematika és Számítástudományi Tanszék

Kollektív tanulás milliós hálózatokban. Jelasity Márk

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

XSLT XML. DEIM Forum 2013 B2-1 XML XML XML XML XSLT XSLT XSLT XML XSLT XSLT

Entity Resolution azonosságfeloldás

Jelentésváltozás nélküli interkulturális üzenetváltások a neten

Rezisztens keményítők minősítése és termékekben (kenyér, száraztészta) való alkalmazhatóságának vizsgálata

MultiMédia az oktatásban

Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel p. 1/29. Ábele-Nagy Kristóf BCE, ELTE

BIZONYTALANSÁG A KOCKÁZATBECSLÉSBEN 1. BEVEZETÉS

Műszaki Informatikai Kar Három Dimenzióban

CURRICULUM VITAE. Végzettség:

Klotz Tamás earchitect Oracle

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Kémiai és bioipari adatrendszerek és folyamatok minőségellenőrzésének informatikai eszközei. Viczián Gergely

Doktori disszertáció. szerkezete

P-gráf alapú workflow modellezés fuzzy kiterjesztéssel

A PET szerepe a gyógyszerfejlesztésben. Berecz Roland DE KK Pszichiátriai Tanszék

Pletykaalapú gépi tanulás teljesen elosztott környezetben

List of Publications (Pánovics János)

BIZTONSÁGI AUDIT. 13. óra

BIOSZORBENSEK ELŐÁLLÍTÁSA MEZŐGAZDASÁGI HULLADÉKOKBÓL SZÁRMAZÓ, MÓDOSÍTOTT CELLULÓZROSTOK FELHASZNÁLÁSÁVAL

Hogy keres a Google?

Oktatói önéletrajz Dr. Vas Réka Franciska

Realisztikus 3D modellek készítése

módszertan 1. Folyamatosság - Kockák 2. Konzultáció 2 Konzulens, szakértők 4. Bibliográfia - Jegyzetek

Publikációs jegyzék (Pánovics János)

Pannon Egyetem Vegyészmérnöki- és Anyagtudományok Doktori Iskola

PREDIKCIÓN ALAPULÓ DIAGNOSZTIKA

FOLYÓIRATOK, ADATBÁZISOK

A bemeneti feszültség 10 V és 20 V között van. 1. ábra A fuzzy tagsági függvény

Autópálya forgalomszabályozás felhajtókorlátozás és változtatható sebességkorlátozás összehangolásával és fejlesztési lehetőségei

Átírás:

Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai Doktori (PhD) értekezés tézise Kiezer Tamás Témavezetı: Dr. Dominich Sándor (1954-2008) Pannon Egyetem Mőszaki Informatikai Kar Informatikai Tudományok Doktori Iskola 2010

1 Tartalmi összefoglaló Az Internet és a World Wide Web megjelenése mind gyakorlati, mind elméleti szempontból jelentıs mértékben növelte az információ-visszakeresés fontosságát. Sokféle visszakeresı módszer került kidolgozásra az elmúlt fél évszázad során, melyeket ma is folyamatosan fejlesztenek tovább. A klasszikus módszerek egyike a vektortér módszer (Vector Space Model VSM). Már két évtizede tudjuk, hogy a VSM nem vezethetı le következetesen azon matematikai fogalmakból, melyeken alapszik, de ezidáig nem született megfelelı megoldás a problémára. Disszertációmban egy egységes, következetes, formális információ-visszakeresı keretrendszert adok meg és bemutatom, hogy ennek alkalmazásával az általánosított vektortér módszer (Generalised Vector Space Model GVSM), az LSI módszer (Latent Semantic Indexing model) és a VSM helyes matematikai formalizmust kap, amely konzisztens a gyakorlattal. - 2 -

Az egységes keretrendszerben új, konzisztens visszakeresı módszereket adok meg: az entrópia- és valószínőség-alapú módszert, valamint a kifejezetten Webes információvisszakeresésre használható kombinált fontosság-alapú módszert. Utóbbit a WebCIR Webes keresımotorban implementáltuk, mely szintén bemutatásra kerül a dolgozatban. A megadott módszerek relevancia-hatékonyságát kísérleti úton vizsgáltam meg. Az entrópia- és valószínőség-alapú módszerek in vitro kiértékelése során 5 és 19 százalék közti javulás volt mérhetı a VSM és LSI módszerekkel szemben. A WebCIR keresımotor in vivo tesztelése során kapott eredmények alapján a Yahoo!, Altavista, és MSN kereskedelmi keresımotorok eredményeivel összehasonlítva mondhatjuk, hogy a WebCIR visszakeresı és rangsoroló technológiája versenyképes alternatívát jelent. - 3 -

2 Tézisek Az értekezés új tudományos eredményei az alábbiakban foglalhatók össze: 1. Információ-visszakeresı módszerek egységes keretrendszere Az információ-visszakeresésre adott definíciókat megvizsgálva észrevehetjük, hogy azok nem különbözı interpretációi az IR-nek, hanem nagyon hasonlóak. Ezt alapul véve megadtam az információ-visszakeresés egységes formális keretrendszerét. (a) Megadtam a visszakeresés elvének matematikai mértékelméleten alapuló definícióját. A dokumentumokat (és a keresıkérdéseket) a fuzzy halmazelmélet segítségével határoztam meg [Chapter 3.2]. Majd a visszakeresést, mint két fuzzy halmaz metszetének számosságával definiált függvényt tekintettem [Lemma 4.1]. (b) Megmutattam, hogy az így megadott egységes keretrendszerben, az általánosított vektortér-modellt, a rejtett szemantikus indexelést (LSI) és a klasszikus vektortér-modellt újradefiniálva azok helyes - 4 -

matematikai formalizmust kapnak, melyek konzisztensek a gyakorlattal [Chapter 4]. 2. Entrópia- és valószínőség alapú visszakeresı módszerek Az új mértékelméleti megközelítés lehetıvé teszi további, új és az elmélettel konzisztens visszakeresı módszerek megadását. A fuzzy entrópiát és a fuzzy valószínőséget alapul véve új visszakeresı módszereket adtam meg, melyek konzisztensek a matematikai hátterükkel. (a) A visszakeresı függvényben a fuzzy entrópiát véve mértéknek megadtam az Entrópia-alapú visszakeresı módszert [Chapter 5.1]. (b) A visszakeresı függvényben a fuzzy valószínőséget véve mértéknek megadtam a Valószínőség-alapú visszakeresı módszert [Chapter 5.2]. (c) A módszerek relevancia-hatékonyságát sztenderd teszt-kollekciókon mértem. A gyakorlati eredmények alapján a VSM és LSI módszerekéhez képest átlagosan 5% és 19% közti hatékonyság növekedést tapasztaltam, mely azt mutatja, hogy a mértékelméleti megközelítésen alapuló egységes keretrendszer jó - 5 -

alapja lehet új és hatékony visszakeresı módszerek kifejlesztésének [Chapter 5.3]. - 6 -

3. Kombinált fontosság-alapú Webes információvisszakeresı módszer A World Wide Web speciális tulajdonságai miatt a modern webes keresık jellemzıen olyan visszakeresı módszereket használnak, melyek részben klasszikus visszakeresı módszereken, részben pedig a Webgráf speciális tulajdonságain alapulnak. (a) Az (1.a) és (2.b) tézispontokban megfogalmazott keretrendszert és valószínőség alapú módszert használva új webes információ-visszakeresı módszert adtam meg, mely tartalmi- és link alapú fontosságon, valamint hasonlóságon alapul. A módszert a WebCIR nevő keresımotorban implementáltam [Chapters 6.4 and 7]. (b) A WebCIR keresı relevancia-hatékonyságának kiértékelésére 4 különbözı módszert alkalmaztam, majd az eredményeket az Altavista, Yahoo!, és MSN keresık eredményeivel hasonlítottam össze. A kísérletek eredményei azt jelzik, hogy a Kombinált fontosság-alapú Webes visszakeresı módszer versenyképes alternatívát jelenthet [Chapter 7.7]. - 7 -

3 Publikációk Az értekezés témájához közvetlenül kapcsolódó publikációk [P1] DOMINICH, S., KIEZER, T., ERDÉLYI, M. (2008). WebCIR: Web ranking and search engine using combined method. Studies on information and knowledge processes 13. Infota, pp.: 53-74. [thesis 2, 3] [P2] DOMINICH, S., KIEZER, T. (2007). A Measure Theoretic Approach to Information Retrieval. Journal of the American Society for Information Science and Technology. John Wiley & Sons, Vol. 58, no 8, pp.: 1108-1122, ISSN 1532-2882, IF=1.773. [thesis 1, 2] Az értekezést megelızı, azt megalapozó publikációk [P3] DOMINICH, S., GÓTH, J., KIEZER, T. (2006). Web-based Neuroradiological Information Retrieval System using three methods to satisfy different user's aspect. Computerized Medical Imaging and Graphics, ISSN 0895-6111, pp: 263-272, IF=1.090. [P4] DOMINICH, S., KIEZER, T. (2005). Hatványtörvény, kis világ és magyar nyelv. Alkalmazott Nyelvtudomány, pp: 5-25, ISSN 1587-1061. - 8 -

[P5] DOMINICH, S., GÓTH, J., KIEZER, T. (2005). NeuRadIR: A Web-Based NeuroRadiological Information Retrieval System. ERCIM News, vol. 61., pp:52-53, ISSN 0926-4981. [P6] DOMINICH, S., GÓTH, J., M. HORVÁTH, KIEZER, T. (2005). Beauty of the World Wide Web Cause, Goal, or Principle. Lecture Notes in Computer Science, Springer Verlag, Volume 3408/2005, pp:67-80, ISSN 0302-9743, IF=0.515. [P7] DOMINICH, S., GÓTH, J., KIEZER, T., SZLÁVIK, Z. (2004). Entropy-based interpretation of Retrieval Status Value-based Retrieval, and its application to the computation of term and query discrimination value. Journal of the American Society for Information Science and Technology. John Wiley & Sons, Vol. 55, no 7, pp: 613-627, ISSN 1532-2882, IF=1.773. Hivatkozások [C1] Bujdosó, I. (2006) Rangado vortstatistika ekzamenado de la plurlingva teksto de la konstitucipropono de Europa Unio. Proceedings Internacia Kongresa Universitato Florenco, Italio, 29 julio 5 augusto, pp: 134-143 [C2] Ianeva, T., Boldareva, L., Westerweld, T., Cornacchia, R., Hiemstra, D., and de Vries, A.P. (2004). Probabilistic approaches to video retrieval. Proceedings of TRECVID International Conference, National Institute of Standards, NIST, USA, pp: 1-10 - 9 -

[C3] Lafouge, T., Prime-Claverie, C. (2005). Production and use of information. Characterization of informetric distri-butions using effort function and density function. Exponential informetric process. Information Processing and Management, vol. 41, pp: 1387-1394, Elsevier, ISSN 0306-4573, IF=1,295 [C4] Janssens, F., Leta, J., Glanzel, W., Moor, B. (2006). Towards mapping library and information science. Information Processing and Management. Elsevier, vol 42, no 2, pp: 1614-1642. ISSN 0306-4573, IF=1,215 [C5] Bordogna, G., Pagani, M., Pasi, G. (2006). A dynamic hierarchical fuzzy clustering algorithm for information filtering. Studies in Fuzziness and Soft Computing, Springer, vol. 197, pp: 3-23, ISSN 1434-9922. - 10 -