Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára



Hasonló dokumentumok
Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Grafikus keretrendszer komponensalapú webalkalmazások fejlesztéséhez

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A DALNET24 projekt aktualitásai

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

SABLONOZÓ KERETRENDSZER

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Nyilvántartási Rendszer

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

Kulcsár Attila. A második szint GeoCalc GIS 2. GISopen 2012 konfrencia.

BIRDIE. Business Information Reporter and Datalyser. Előadó: Schneidler József

Önálló labor feladatkiírásaim tavasz

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Kiss Gergő, Kovács László, Micsik András, Moldován István

Példa webáruház kialakítás rendszerdokumentáció

Termeléshatékonyság mérés Ipar 4.0 megoldásokkal a nyomdaiparban

HecPoll a vezérlő rendszer

Savaria Egyetemi Könyvtár Katalógusa. Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

Multimédiás adatbázisok

Zimbra levelező rendszer

Digitális tartalombővítés és távmunka bevezetése a Veszprémi Egyetemi Könyvtárban

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

Történet John Little (1970) (Management Science cikk)

A plágiumkeresés dilemmái és megoldásai. Nagy István Monguz Kft. Networkshop 2016

Online információkeresés. Dr. Nyéki Lajos 2016

Projekt beszámoló. NEWSIT News basedearlywarning System forintradaytrading: Hír alapú Korai Figyelmeztető Rendszer Napon belüli Kereskedéshez

MŰSZAKI KÖVETELMÉNYEK, A KÖRKERESŐ SZOFTVER SPECIFIKÁCIÓJA, KÖLTSÉGVETÉS. A) Műszaki követelmények

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

NAGY TELJESÍTM. Szerzők Dévai. István Automatizálási. és s Alkalmazott Informatikai Tanszék

A HunTéka elektronikus könyvtár modulja

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Projekt beszámoló. Könyvelési Szakértői Rendszer Kifejlesztése Repetitív Könyvelési Feladatok Szabályalapú Feldolgozására

Vonalkód olvasó rendszer. Specifikáció Vonalkód olvasó rendszer SoftMaster Kft. [1]

E-Kataszteri rendszer ismertető

WebCenter. Online jóváhagyás és együttműködés. Gönczi Zsolt Október

Nagy bonyolultságú rendszerek fejlesztőeszközei

Az egységes tartalomkezelés üzleti előnyei

BOC Information Technologies Consulting GmbH. Minőségmenedzsment

Városi tömegközlekedés és utastájékoztatás szoftver támogatása

Automatikus tesztgenerálás modell ellenőrző segítségével

A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK

KnowledgeTree dokumentumkezelő rendszer

I. A változások összefoglalása

VALUTAISMERTETŐ FUNKCIÓNÁLIS SPECIFIKÁCIÓ

Hálózat hidraulikai modell integrálása a Soproni Vízmű Zrt. térinformatikai rendszerébe

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

Rostás Sándor szds. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.)

1. JELENTKEZŐ ADATBÁZIS MODUL

Digitális kincstár digitális kincskereső Elektronikus szolgáltatások az MTA Könyvtárában

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

Struktúra nélküli adatszerkezetek

emberi kivonatolás Lengyelné dr. Molnár Tünde

Három az egyben. Közös keresõ az elektronikus könyvtárban

Szövegbányászat Információ Visszakeresés és egyéb alkalmazások

Kaszás Tímea: Corvina OPAC az SZTE Mez gazdasági Könyvtárában

Testreszabott alkalmazások fejlesztése Notes és Quickr környezetben

Cikkarchívum fejlesztése

Új fejlesztések, együttműködések a Magyar Elektronikus Könyvtárban, 2011-ben

HELYI TANTERV. Informatika

Csináljunk az adatból információt! A Lone-Soft listázó keretrendszerrel

Első lépések a KRÉTA-Poszeidon modul használatához. Gyors Áttekintő Segédlet

Egy családfaszerkesztő alkalmazás leírása

Tisztelt Ügyfelünk! Változások a 6-os verzióhoz képest:

Országos Területrendezési Terv térképi mel ékleteinek WMS szolgáltatással történő elérése, Quantum GIS program alkalmazásával Útmutató 2010.

NEMZETI KÖZNEVELÉSI PORTÁL

Beszámoló a 13. ECDL (European Conference on Digital Libraries) konferenciáról

IMOLA. Integrált MOKKA2, ODR2 és OLA. Vándorgyűlés Szombathely, 2008 július 25. Monguz MTA SZTAKI konzorcium

Adattárház kialakítása a Szövetkezet Integrációban, UML eszközökkel. Németh Rajmund Vezető BI Szakértő március 28.

Országos Rendezési Tervkataszter

LEADER. Helyi Fejlesztési Stratégiák. tervezését támogató alkalmazás

Kedves Openhouse-os munkatársak!

Tájékoztató. A folyószámla adatok lekérdezésének bemutatása az 1. számú mellékletben található. Budapest, VPRK

Bevezetés az informatikába

Tudásalapú információ integráció

Fordító részei. Fordító részei. Kód visszafejtés. Izsó Tamás szeptember 29. Izsó Tamás Fordító részei / 1

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

KUTATÁSTÁMOGATÁS SOROZAT. Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez

Adatszerkezetek 2. Dr. Iványi Péter

OBO TS használati útmutató. OBO TS online. használati útmutató. Verzió: 3.0. Dátum: január 16.

Kézikönyv HABEL 1 dokumentumkezelés bizonylat archiválás

Az ELDORADO-projekt. Káldos János Az ELDORADO projekt Magyar Könyvtárosok VII. Világtalálkozója Budapest,

Excel IV. Haladó ismeretek. További fontos függvények Függvényhasználat ellenőrzése

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Web service fenyegetések e- közigazgatási. IT biztonsági tanácsadó

MÁV-START Tudáspróba Felhasználói kéziköny

Dokumentumok Information kezelése? Management Információ - management. Professzionális dokumentumkezelés hiteles másolat készítés. Offisys Kft.

MTMT adminisztrátori felület és teendők. Mátyás Melinda, Szabó Panna november 4. ELTE Egyetemi Könyvtár

Hamisítás, kalózkodás a szellemi tulajdon vizein Budapest, november 20. Magyar Szabadalmi Hivatal

Használd jól a könyvtári katalógust!

Jelnyelvi szótár használati útmutató

Fülöp Csaba, Kovács László, Micsik András

Személyügyi nyilvántartás szoftver

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

Átírás:

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára Vázsonyi Miklós VÁZSONYI Informatikai és Tanácsadó Kft. BME Információ- és Tudásmenedzsment Tanszék 1/23

Tartalom A MEK jelenlegi dokumentumkezelése Infopark Alapítvány támogatás Szöveges információvisszakeresés modell Szövegbányászati rendszer előnyei Elektronikus könyvtárak szolgáltatásai Veszteségmentes dokumentum reprezentáció Információ visszakeresési módszer Rendszer architektúra Összefoglalás 2/23

A MEK jelenlegi dokumentumkezelése Kb. 3500 digitalizált könyv, manuálisan készített metafájlok Változatos formátumok (html, rtf, pdf) Kezdetleges keresési és hiányzó feldolgozási lehetőségek 3/23

Infopark Alapítvány támogatás Szinergiák IT Alkalmazásokban 2005 pályázat által támogatott projekt. Átadás: 2006. június Az Infopark Alapítvány második spin-off cége További kereskedelmi értékesítésekhez starter támogatás A MEK pilot projekt szerepet tölt be A projekt során kifejlesztésre kerül egy olyan szövegbányászati keretrendszer, amely alkalmas nagy méretű szöveges adatbázisok gyors intelligens gépi feldolgozására, a legmodernebb szövegbányászati műveletek elvégzésére. Ezek közé tartozik az automatikus indexálás, kulcsszó generálás, a nagy találati relevanciát eredményező teljes-szövegű információ visszakeresés, automatikus és felügyelt dokumentum klaszterizáció, továbbá intelligens ismeret kinyerési funkciók. A MEK a rendszert ingyen megkapja, és szerverén legalább 3 évig üzemeleteti szabadon hozzáférhető módon 4/23

Szöveges információvisszakeresés modell 5/23

Szövegbányászati rendszer előnyei Tömeges méretben rendelkezésre álló digitális szöveges tartalom sokrétű felhasználása Tudományos igényeket kielégítő szövegfeldolgozási funkciók elérhetővé tétele Rejtett szöveges összefüggések kinyerése, tudásbányászat Emberi erővel megoldhatatlan szövegfeldolgozási műveletek automatizálása és gépi intelligenciával történő megoldása 6/23

Elektronikus könyvtárak szolgáltatásai Korpusz szűkítések Keresések Találatok megjelenítése Szójegyzékek Karakter szintű és egyéb kimutatások Metafájlok automatikus készítése 7/23

Elektronikus könyvtárak szolgáltatásai SZŰKÍTÉSEK: gyűjtemény szerinti szűkítés témakör szerinti szűkítés szerzőre való szűkítés konkrét dokumentumra való szűkítés formátum szerinti szűkítés dátum szerinti szűkítés dokumentumtípus szerinti szűkítés nyelv szerinti szűkítés 8/23

Elektronikus könyvtárak szolgáltatásai KERESÉSEK: keresőkifejezések fuzzy keresés csonkolt keresés szótő szerinti keresés ékezet nélküli keresés nagybetű-helyes keresés szótárból választott keresőkérdés szövegrészletre szűkített keresés (subset) 9/23

Elektronikus könyvtárak szolgáltatásai TALÁLATOK: találatok száma egy lapon találatok formátuma további találatok találatok rendezése új keresés találati halmazban találati halmazok kombinálása keresési profil elmentése 10/23

Elektronikus könyvtárak szolgáltatásai SZÓJEGYZÉKEK: konkordancia listák gyakorisági listák szóhossz szerinti listák ABC és fordított ABC listák grafikonok 11/23

Veszteségmentes dokumentum reprezentáció (I.) Cél: olyan veszteségmentes és kompakt dokumentum reprezentáció kialakítása, amely alkalmas a szövegbányászati műveleti igények hatékony és gyors kiszolgálására Megoldás: A veszteségmentes és kompakt dokumentum reprezentáció komponensei: Végesállapotú automata (Finite State Automaton: FSA) az egyedi szavak redundanciamentes tárolására Korpusz TAPE: a korpusz végtelenített szalagként való ábrázolása, azonosítva a sztringeket, szimbólumokat és formázó tag-eket. 12/23

Veszteségmentes dokumentum reprezentáció (II.) Egyedi szavak és szótövesített szóalakok tárolása végesállapotú automatában (kb. 200.000 egyedi szó) Node struktúra: Karakter (UNICODE/UTF-8) Előre mutató pointer (gyermek node-ra) Vissza mutató pointer (ős node-ra) Előny: kis tárhelyigény, memóriába tölthető, leggyorsabb ismert módszer, redundanciamentes 13/23

Veszteségmentes dokumentum reprezentáció (III.) Korpusz reprezentáció a végesállapotú automata által tárolt kódokkal Sztring TAPE TAG TAPE Symbol TAPE Korpusz HTML, XML Szimbólumok, szavai FSA formázó és írásjelek, speciális kódokkal markup tag-ek karakterek Korpusz strukturálás Section (a TAPE egy blokkja, pl. irodalomjegyzék) Subset (Section-ök halmaza, pl. összes abstract) Előny: párhuzamosítható implementáció, az FSA kódok alkalmazása miatt kis tárhelyigényű, veszteségmentes korpusz reprezentáció, bővíthető 14/23

Információ visszakeresési módszer (I.) Cél: Adott lekérdezésre (query vektor) a legrelevánsabb dokumentumok kiszűrése adott dokumentum korpusz felett minél rövidebb futásidő mellett és minél kisebb tárhelyigény felhasználásával. Kihívás: Csak a releváns dokumentumok kiszűrése, a jelenlegi módszerek esetében tapasztalható kellemetlenül sok irreleváns találatok számának csökkentése. Felhasználó igényeinek ismerete. Megoldás: Iteratív klaszterizáció. 15/23

Információ visszakeresési módszer (II.) Iteratív klaszterizáció: 1. Kereső sztring által visszaadott találatok klaszterizálása a vektortérben 2. Kívánt klaszter kiválasztása a felhasználó által 3. Kiválasztott klaszter dokumentumainak újbóli klaszterizálása 4. Vissza 2-re vagy 5-re 5. Találatok megjelenítése relevancia sorrendben Klaszter leíró: Kulcsszavak (pl. perifériák, rágcsálók) Később természetes nyelvi feldolgozás alapú mondatokba foglalt kivonat. 16/23

Információ visszakeresési módszer (III.) Klasszikus vektortér modell Term-Dokumentum Mátrix (vektortérbeli reprezentáció) Gyakorisági értékek súlyozása TFIDF formulával: Eredmény találati lista előállítása: [ Σ i d = 1 (X i,j ) ] j є {0,n} max 17/23

Információ visszakeresési módszer (III.) Term szignálok előállítása [00100000110000110000..] [00001010000001010000..] Lekérdezési vektor: keresőszavak term szignáljának unioja: pl.: travelling whales : [00101010110001110000..] Szignálok súlyainak meghatározása, finomhangolás Eredmény találati lista előállítása (hullámok szuperponálása): [ Σ d i = 1 (F i,j ) ] j є {0,korpusz hossza} max Módszer előnye: Szemantikai viszonyok megörzése 18/23

Rendszer architektúra (I.) 19/23

Rendszer architektúra (II.) Elosztott működés megvalósítása és a számítások masszív párhuzamosítása SOAP interfészelés: rugalmas csatlakozási lehetőségek külső rendszerekből Főbb architekturális elemek: Szövegbányászati kliens: ez a rendszer felhasználói felülete, amin keresztül a szövegbányászati műveletek elvégezhetőek (keresés, klaszterizálások, elemzések). SOAP szabványos interfészen keresztül kommunikál a lekérdezés menedzser modullal. A SOAP interfészen keresztül bármilyen más modul vagy alkalmazás is kapcsolódhat a rendszerhez külső alkalmazásként, növelve ezzel a szövegbányászati rendszer alkalmazási lehetőségeit. Lekérdezés menedzser: ez a modul felelős a GUI-van való kapcsolattartásra (SOAP interfészen keresztül). A felhasználó által megadott kereső sztringet, paramétereket és egyéb szövegbányászati kéréseket ez a modul fordítja le a dokumentum reprezentációs adatbázison értelmezhető műveletekre. Terhelés kiegyenlítő: ez a modul osztja szét az adatbázisok felé a beérkező kérést. A rendszer működésének párhuzamosíthatósága teszi lehetővé a használatát. DB engine: ez a modul végzi el az elemi lekérdezéseket a dokumentum reprezentációs adatbázis felett. Szinkronizáló: ez a modul szinkronizálja az egyes adatbázisok felöl érkező részeredményeket, majd a végső kiértékelést és az eredmények összeállítását ez a komponens végzi el. DB szervező: ez a modul felelős az elosztott architektúrában lévő több adatbázis között egyenletesen elosztani a beérkező dokumentumokat. Dokumentum hozzáadó modul: ez a komponens teszi lehetővé az új dokumentumok hozzáadását a dokumentum reprezentációs adatbázishoz. 20/23

Dokumentum hozzáadó modul folyamatábrája Rendszer architektúra (III.) 21/23

Összefoglalás Infopark Alapítvány támogatásával megvalósuló innovatív projekt Társadalmi érdekek szolgálata a MEK-nek történő átadás révén, a rendszer az Interneten szabadon elérhető 2006. júniusától Elosztott architektúra, párhuzamosított számítás támogatása További értékesítési lehetőségek az üzleti szférában, mint a tudásmenedzsment egyik hatékony eszköze 22/23

Köszönöm a figyelmet! Kérdések... Vázsonyi Miklós miklos@vazsonyi.com http://www.itm.bme.hu/vazsonyi 23/23