10 A KERESNYELVEK KUTATÁSA, FEJLESZTÉSE, ALKALMAZÁSA- HELYZETKÉP ÉS TRENDEK Összeáll. dr. Pálvölgyi Mihály. BDF KIT, 2006-07. tanév, 1. félév
TARTALOMJEGYZÉK 10.1. A KERESNYELVEK ALKALMAZÁSI TRENDJEI 10.2. ALKALMAZOTT NYELVÉSZETI ALAPOK 10.3. NYELVTECHNOLÓGIAI STRATÉGIÁK, SZINTEK, MÓDSZEREK 10.4. HASZNÁLÓI, ALKALMAZÓI SZEMPONTOK 10.5. ÉRTÉKELÉS ÉS FEJLESZTÉS 10.6. A NYELVTECHNOLÓGIA A KERESSZOLGÁLTATÁSOKBAN 10.7 HOGYAN TOVÁBB?
10.1. A KERESNYELVEK ALKALMAZÁSI TRENDJEI 10.1.1. A keresnyelvekkel szemben támasztott követelmények 10.1.2 A keresnyelvek alkalmazásának változásai 10.1.3 keresnyelvekkel kapcsolatos felmérés, értékelés, helyzetkép 10.1.4. Az integráció követelménye
10.1.1. A keresnyelvekkel szemben támasztott követelmények (1) A keresnyelvekkel szemben támasztható kritériumcsoportok. (1)a keresés pontosságának, teljességének segítése, (2)a fejlesztés, alkalmazás segítése, támogatása, lehetvé tétele. Ezek támpontot nyújtanak értékelésükhöz
10.1.1. A keresnyelvekkel szemben támasztott követelmények (2) a keresés teljességének vagy pontosságának segítése Egyértelmség az osztályozási rendszer minden szavának egy és csakis egy jelentése legyen. Minden fogalomnak csakis egy szó/kifejezés feleljen meg Áttekinthetség tükrözze az osztályozandó tudomány, szakterület stb. logikai szerkezetét. Legyen áttekinthet, jelzetei lehetség szerint beszéljenek. Mélységbeni rugalmasság - a keresés során lehessen navigálni a fogalmi szintek között, a fölérendelt fogalmak, ill. alárendelt fogalmak felé Értelmi összefüggések kimutatása - legyen képes a fogalmak közötti összefüggések kifejezésére. Hívja fel a figyelmet ezekre az összefüggésekre! (pl. nem faj, egész rész, rokonsági viszony, szinonima stb.) Egyszeri összefüggések ábrázolása - legyen képes az egyedi dokumentumok differenciált egyedi tartalmának tükrözésére! Legyen képes az IKNY-szavak következetes összekapcsolására. Biztosítsa logikai összefüggések, ill. a szerepösszefüggések ábrázolását Sokszempontú megközelítés - tegye lehetvé, hogy egy-egy fogalmat, tárgyi, szakmai, földrajzi, id, formai, stb. szempontból is lehessen feltárni, keresni
10.1.1. A keresnyelvekkel szemben támasztott követelmények (3) - fejlesztési alkalmazási tényezk Változtathatóság, rugalmasság - legyen alkalmas az új fogalmak, összefüggések elhelyezésére illetve kifejezésére a keresnyelven Gyakorlati alkalmazhatóság - legyen alkalmas mind a feltárásra, mind a keresésre, legyen a gyakorlatban megvalósítható, ne pedig csak elméleti konstrukció Széleskör alkalmazhatóság - legyen alkalmas az egyetemes és nemzetközi információáramlás elsegítésére (nemzetközi információcserére, vagy összekapcsolhatóságra más keresnyelvekkel Könny megtanulhatóság - mind az információs szakember, mind pedig a használó számára legyen kényelmes, érthet és viszonylag egyszer a használata Elektronikus környezetben való alkalmazhatóság - legyen alkalmazható különféle technikai megoldásában, online, CD- ROM, Internet
10.1.2. (1) A keresnyelvek alkalmazására ható trendek Legfontosabb hatást gyakorló tényezk: technológiai tényezk ( az automatizálás, az integrált könyvtári rendszerek, a webes szolgáltatások,) emberi tényezk (a minségi források kiválasztásának igénye). komplex tényezk (a hálózati együttmködés),
10.1.2. (2) A keresnyelvek alkalmazásának változásai a 3 irányzat A keresrendszerek történetileg kialakult három irányzata jelents változáson mennek át a fenti tényezk hatására a tudományfelosztáson alapuló irányzat, mely az osztályozási rendszerekre koncentrál, a nyelvészeti irányzat, mely a természetes nyelveken alapuló rendszerek fejlesztésére koncentrál, s az ún. statisztikai irányzat, mely az automatikus osztályozásra, indexelésre, a teljes szövegben való keresésre koncentrál. E tétel ezeket a változásokat, a keresnyelvek irányzatainak sajátos integrációját követi nyomon.
10.1.2. (3) A keresnyelvek alkalmazásának változásai -1990-es évek Az 1990-es évek els felében: a könyvtárakban és információs intézményekben használt felosztáselv osztályozórendszerek használata a következ volt: Egyetemes Tizedes Osztályozás (25%), Dewey Tizedes Osztályozás (25 %), tezauruszok /különféle szaktezauruszok/ (10%), Kongresszusi Könyvtár Osztályozási Rendszere /LCC/ (5%) az Orosz/szovjet BBK (2%), Bliss Osztályozási Rendszere /Bliss Classification/ (1%), egyéb osztályozási rendszerek /könyvtárakban/ (32%) (Andrian, Alex C, 1996)
10.1.2. (4) A keresnyelvek alkalmazásának változásai - 2000-es évek A %-os arányok azóta tovább változtak. Bár pontos adatok nem állnak rendelkezésre, a felhasználói igények kutatása, a módszertani szakirodalom és a gyakorlat tanulmányozása alapján kijelenthet: A globális ETO szerepe csökkent, A volt szovjet BBK-é megsznt, a tezauruszoké, illetve az egyéb kategóriába sorolható internetes keresrendszereké, internetes katalógusok kategóriarendszereié meghatározó lett.
10.1.4. (1) A keresnyelvekkel kapcsolatos felmérések, értékelések - alapelvek Fontosak a többször is hivatkozott kritériumok (egyértelmség, mélységbeni rugalmasság stb.). N a jelentsége annak, hogy a dokumentumok feltártságával, a feltárás mélységével, minségével kapcsolatos felméréseket végezzünk a keresnyelvek megválasztásával, fejlesztésével kapcsolatos döntések elkészítésére Fontos a relevancia, pontosság, teljesség, zaj, zavar, jelveszteség, veszteség elemzése. Figyelni kell arra, hogy a teljesség és a pontosság fordított viszonyban áll egymással. (Így pl. szabadszavas rendszerek nagy teljességet, a tezauruszok nagyobb pontosságot eredményeznek) Mindezekbl következen abból kell kiindulni, hogy a keresnyelvek és módszerek nem kizárják, hanem kiegészítik egymást.
10.1.3. (2) A keresnyelvek felmerése, értékelése, együttes használata alapelvek 2 Felismerték, hogy nincs és nem is lehet. egyetlen üdvözít keresnyelv! A különböz keresnyelvek együttes alkalmazását indokolja, hogy nem lehet egyetlen olyan keresnyelv, mely tökéletesen eleget tesz az osztályozás minden követelményének (ld. 10.1.1.) eleget tenne, mindenféle megközelítést lehetvé tenne Másrészt az együttes alkalmazás révén összességében eleget tudunk tenni minden követelménynek, S az együttmködés révén jobban lehetvé válik az információcsere a hazai, európai és globális intézmények és szolgáltatások között.
10.1.3. (3) A keresnyelvek felmerése, értékelése, együttes használata - Magyarországon Helyzetkép Egyes könyvtárak és könyvtári hálózatok helyi és osztott katalógusaiban. (pl. ETO, tárgyszó, kulcsszó stb.) Közepes és nagy közmveldési könyvtárakban, felsoktatási könyvtárakban stb. gyakori, hogy többféle keresnyelvet használnak, pl. könyvek, egyes különgyjtemények (például helyismereti, szakdolgozati) esetében. Bibliográfiákban, például az MNB online, illetve CD-ROM változata segítségével a tárgyi feltárást segít szövegszavak, az egységesített testületi nevek, személynevek, földrajzi.nevek széleskör alkalmazása.
10.1.4 Az integráció követelménye horizontális és vertikális (1) A horizontális integráció - egy keresrendszerben érhetk el a különböz információforrások adatai, vagy legalábbis egy felhasználói felületen. Példa: OPAC-ok, helyt adva a legkülönfélébb dokumentumtípusok szurrogátumainak (hagyományos, AV-, elektronikus dokumentumok stb.)
10.1.5 Az integráció követelménye horizontális és vertikális (2) A vertikális integráció a feldolgozási láncban egy mveletet csak egyszer kell elvégezni, a késbbiekben annak kimenetét a következ mvelet bemeneteként használják. Példa: integrált könyvtári rendszer a különféle moduljaival.
10.2 ALKALMAZOTT NYELVÉSZETI ALAPOK 10.2.1. Az információtudomány nyelvészeti alapjai 10.2.2. A számítógépes nyelvészet fejldéstörténeti szakaszai 10.2.3. A nyelvtechnológia fogalma 10.2.4. Igények és szolgáltatások 10.2.5. A számítógépes nyelvészet kutatásai és alkalmazásai
10.2.1. Az információtudomány nyelvészeti alapjai a számítógépes nyelvészet Az UNESCO 1988-ban közzétett nomenklatúrájában a könyvtártudomány kifejezés nem szerepel. Ami szakmánkra vonatkozik, az 57-es kódszám - alkalmazott nyelvtudomány alatt - : referálás, automatikus dokumentáció, dokumentációs nyelvek, dokumentáció/. Az UNESCO tehát az egész információtudományt tudományként a közlemények nyelvének adott célú,» dokumentációs «vizsgálatára korlátozza. Egyéb ismeretet nem tagad, de nem tekint tudománynak. Az álláspont vitatható, ám elgondolkodtató. /Horváth Tibor, 1999. 19. p. /
10.2.1. Az információtudomány nyelvészeti alapjai a számítógépes nyelvészet - A számítógépes nyelvészet a nyelvészet és a számítógépes szakma interdiszciplináris területe, - amely abból indul ki, hogy a számítógép nagymértékben felhasználható nyelvészeti problémák megoldásában.
10.2.1. Az információtudomány nyelvészeti alapjai a számítógépes nyelvészet - fejldési fázisok 1950-es évek - gépi fordítás és a nyelvészeti eszközökkel végzett információkeresés, -1960-as évek - elssorban a mesterséges-intelligenciakutatás hatására általánosabb diszciplína, számítógépes nyelvészet (computational linguistics, CL) kialakulása. 1970-es évek - a gyakorlati alkalmazások kerülnek az eltérbe - természetesnyelv-feldolgozás (Natural Language Processing, NLP). 1980-as évek - az NLP helyett nyelvtechnológia (language technology, LT), illetve nyelvmérnökség (language engineering, LE)
10.2.1. Az információtudomány nyelvészeti alapjai a számítógépes nyelvészet - legújabb tendenciák 1990-es évek óta - egyre gyakrabban használják az Európai Unióban meghonosodott szóhasználattal nyelvi iparról (language industry, LI) kifejezést.
10.2.3. A nyelvtechnológia fogalma Az alkalmazott nyelvészet területe, olyan automatikus eszközök alkalmazása a tartalmi, jelentésbeli azonosság vagy hasonlóság megállapítására, melyek képesek a sokrét, mély, gazdag nyelvtani, szintaktikai összefüggések felismerésére. (PRÓSZÉKY, 2002)
10.2.4. Igények és szolgáltatások A nyelvtechnológia fejlesztések igényli A magyar nyelvi szoftvereszközöket többszázezren használják naponta. E szoftvereszközök hatása egyre meghatározóbb az információt A nyelvtechnológiai szolgáltatók, szolgáltatások köre (1) MorphoLogic - nyelvhelyességi programok, szótárak készítése mellett a szöveges keresést támogató eszközöket, a morfológia elemzket, a mondatelemzket, a szótárkeres modulokat. http://www.morphologic.hu/h_prod.htm A MorphoLogic kutatóinak tudományos és szakmai publikációi részben teljes szövegben is elérhetk. (2) MTA Nyelvtudományi Intézete (3) interdiszciplináris kutatási mhelyek /Szószablya, Szavak hálójában/.
10.2.4. Igények és szolgáltatások a bövülés területei ember-ember kommunikáció: / természetes nyelvek, non-verbális, képi stb. nyelv/ ember-dokumentum kommunikáció / természetes nyelvek, természetes nyelven alapuló információkeres nyelvek, képi nyelv/, ember-gép kommunikáció - programnyelvek, jelölnyelvek, lekérdez nyelvek, természetes nyelvek, természetes nyelven alapuló információkeres nyelvek, alakzatkeres nyelvek/. ember-eszköz kommunikáció / eszközök, kezelésük, mködtetésük folyamata, lépései/
10.2.5. A számítógépes nyelvészet jellegzetes kutatási és alkalmazási termékei - szavak szintje Karakterkonverterek optikai karakterfelismerk beszédfelismerk, -generátorokhelyesírás-ellenrzk elválasztó programok automatikus korrektorok (pl. beszéd-, karakterfelismeréshez) Szövegindexelk keresprogramok elektronikus szótárak
10.2.5. A számítógépes nyelvészet jellegzetes kutatási és alkalmazási termékei - mondatok szintje Modern nyelvtechnológiai alkalmazások nyelvtani és stiláris ellenrzk gépi és géppel segített fordítás nyelvi ellenrzés (pl. beszéd-, karakterfelismeréshez) helyes intonáció elállítása (beszédszintetizáláshoz) nyelvtani és stiláris ellenrzk gépi és géppel segített fordítás nyelvi ellenrzés (pl. beszéd-, karakterfelismeréshez) helyes intonáció elállítása (beszédszintetizáláshoz)
10.2.5. A számítógépes nyelvészet jellegzetes kutatási és alkalmazási termékei - szöveg szintje szövegkivonatoló rendszerek szövegszrk szövegszinkronizációk természetes nyelv gép-ember kapcsolat Forrás: Prószéky Gábor: Természetesnyelv-feldolgozás számítógéppel. (bevezetés a nyelvmérnökségbe) http://sziami.cs.bme.hu/~gervarro/teny/tn y.doc
10.3. NYELVTECHNOLÓGIAI STRATÉGIÁK, SZINTEK, MÓDSZEREK 10.3.1. A nyelvtechnológiai stratégiák 10.3.2. Nyelvtechnológiai kutatási és alkalmazási szintek
10.3.1. A nyelvtechnológiai stratégiák Az információfeltárás és keresés fejlesztése megoldandó ismeretelméleti kérdés lett. A számítógépnek nincs eszköze a tartalmi, jelentésbeli azonosság vagy hasonlóság megállapítására. Ez pedig lassan megkérdjelezi a hálózat mint információforrás használatát, hiszen - a fentiekbl láthatóan igencsak korlátozott képesség - számítógép az egyetlen eszköz, amelyen keresztül hozzáférhetünk a weben tárolt dokumentumokhoz. (PRÓSZÉKY, 2002) Az internetes keresés tömegessége olyan feltárási és keresési stratégiát követel, mely szerint az adatbázisokban kialakult bonyolult parancsnyelvek, jelöl nyelvek, lekérdez nyelvek mellett /helyett/ az átlagembert segít egyszer, könnyen alkalmazható nyelvtechnológiai eszközök álljanak rendelkezésre.
10.3.2. Nyelvtechnológiai kutatási és alkalmazási szintek 10.3.2. Nyelvtechnológiai kutatási és alkalmazási szintek 10.3.2.1. A szavak szintje 10.3.2.2. A mondatok szintje 10.3.2.3. A szöveg szintje
10.3.2.1. A szavak szintje morfológiai elemzés szerepe A morfológiai elemzés a szavak szintjén megy végbe. Feladata a szóalakok vizsgálata, a szótövek, toldalékok vizsgálata, egyes nyelvekben (például angol) a szótári alakok megállapítása. Választ adnak arra a kérdésre, hogy mibl és hogyan épül fel egy szó. Az eljárásnak az indexelés szempontjából az a lényege, hogy meghatározza azokat a szóalakokat, amelyek egy tárgyszólistába, szótárba, tezauruszba kerülve biztosítják az indexkifejezés függetlenségét a szövegben elforduló megjelenési formától.
10.3.2. A mondatok szintje A szintaktikai elemzés feladata A közlés tartalmának megragadásához a szavaknál és szintagmáknál nagyobb egységek megismerése is kívánatos. Nagyobb egység a mondat. A szintaktikai elemzés terepe a mondatok szintje, vizsgálatának tárgyai a mondatrészek. Az elemzések választ adnak arra a kérdésre, hogyan alkotják az egyes szavak a mondatot. Az elemzés eredménye a mondat szerkezete. Az ún. kontextusfüggetlen grammatika elemei alkalmasak arra, hogy megállapíthassuk, melyek a lehetséges kulcsszavak. Kulcsszóként szóba jöhetnek például a mondatok alanyai és tárgyai, míg a hozzájuk kapcsolódó jelzs és határozós szerkezetek esetenként a többtagú indexkifejezések forrásai lehetnek. Ahhoz, hogy késbb a mondatot elemezni tudjuk, elször meg kell határoznunk a szavak típusait, azaz a szófajokat. Ezek a következk lehetnek: fnév, ige, melléknév, elöljáró (angol), határozószó, egyéb
10.3.3. A szöveg szintje - a szövegelemzés feladata Az elemzés legátfogóbb szintje. A teljes dokumentumot (szöveget) veszi górcs alá, hogy az elemzés alacsonyabb szintjein megállapított elemek elfordulásai között a szöveg szintjén ható tartalmi összefüggéseket megállapítsa. Az elemzés a kontextusfügg tudás feltérképezését szolgálja abból a célból, hogy egy szöveget jelentésfügg egységekre bonthassunk. A célt két lépésben fogalmazhatjuk meg: /1/ a kognitívumok megállapítása / a szöveg szegmentálása./ /2/ a tartalomfeltárást támogató eszközök, például tezauruszok vagy szemantikus hálók automatikus generálása. A szövegtani elemzés fontos segítje a korpusz. A korpusz ténylegesen elforduló írott, vagy lejegyzett beszélt nyelvi adatok gyjteménye, melyben a szövegeket valamilyen szempont szerint válogatják és rendezik.
10.4 HASZNÁLÓI, ALKALMAZÓI SZEMPONTOK 10.4.1. A keresést, alkalmazást szolgáló fejlesztések 10.4.2. A keresést segít eszközök és szolgáltatások példái 10.4.3. Információkinyerési technikák
10.4.1. A keresést, alkalmazást szolgáló fejlesztések Napjainkban az ún. intelligens keresésekkel kapcsolatos fejlesztések kerültek eltérbe. /1/ az internetes kereseszközöket tömegesen igénybevev laikus felhasználók tudásszintjének és attitdjeinek növelése /ez bizonyos körben járható és követend út/. /2/ A gépi kereséstámogató technológiák olyan szintre fejlesztése, hogy azok képesek legyenek kiszolgálni az egzakt keresnyelvek használatára nem képes felhasználókat. /http://szavak.hu projektbeszamolo alapján/
10.4.2. A keresést, alkalmazást segit eszközök és szolgáltatások példái Gyakoriság lekérdezése - lehetséget adnak a gyakoriság lekérdezésére, amely a tezaurusz kifejezéseit elfordulási gyakoriságuk szerint rangsorolja bármely keresésben Permutálás - a kifejezések alkotóelemeinek permutálása Külön hozzáférés az összetett szavakba beágyazott kifejezések külön hozzáférhetségének biztosítása. A természetes nyelv kérdések elemzése és értelmezése - / a keresés indexelése / viszonylag egyszer, ugyanakkor látványos, hatásos felhasználóbarát eljárás. Keres (böngész) szolgáltatások fejlesztése, új keresési formák, a hagyományos keresési formák és lehetségek továbbfejlesztése Az ember-gép-dokumentum kommunikáció területén a használatos nyelvek, információkeres nyelvek illetve az ezekkel kapcsolatos különféle problémák megoldása
10.4.3. Információkinyerési technikák A nagy adatbázisokban (esetleg elszórtan) tárolt információk kinyerésének 2 legfontosabb problémaköre: (1) Felsfokú keresési technikák - A szóalapú és a szövegbl szintaktikailag információt kinyer technikákat kiegészítik s a tartalom szerinti, szemantikus kereséssel ötvözik (XML) (2) Adatbányászat - A szövegbl történ információkinyerést parzolással történ automatizálása. Megj: Parzolás: az a folyamat, ahogy a gép megérti az emberi mondatot valamilyen séma szerint, s képes kiszrni belle a szavak közti relációkat.
10.5. ÉRTÉKELÉS ÉS FEJLESZTÉS 10.5.1. Értéknövel hatások, a szemantikus web 10.5.2. A kutatások-fejlesztések aktuális irányai
10.5.1. Értéknövel hatások, a szemantikus web A szemantikus web a jelenlegi web kiegészítését szolgálja, melyben az információnak jól meghatározott jelentést adnak, lehetvé téve a számítógépek és emberek együttmködését. (Forrás: BERNERS-LEE HENDLER LASSILA, 2001) A szemantikus weben (a jelentésen alapuló weben) olyan kifejezéseket használhatunk, melyeket a nyelvtechnológiai fejlesztéseknek köszönheten - a számítógép értelmezni és változtatni tud. Így lehetvé válik, hogy az unalmas, rendkívül idigényes problémákat, azok egy részét számítógéppel oldassuk meg, de megkönnyíti és meggyorsítja az információkeresést is (szakterületi, ill. gyakorlati problémákkal kapcsolatos információk, stb).
10.5.2. A kutatások-fejlesztések aktuális irányai a precizitás növelése, az információkinyerés hatékonyságának növelése, az intelligens elektronikus szótárfejlesztés, a természetes nyelvfeldolgozás, korpuszkutatás és fejlesztés a weboldalak kutatása, valamint a képi- és hanganyagok kereseszközeinek fejlesztése
10.6. NYELVTECHNOLÓGIA A KERESSZOLGÁLTATÁSOKBAN 10.6.1. Problémák és a megoldási irányai 10.6.2. Kereséspontossági problémák és megoldások 10.6.3. Keresésteljességi problémák és megoldások 10.6.4. A felületi és mély web integrálása 10.6.5. Szoftvereszközök 10.6.6. Szolgáltató-használói kommunikáció (A felsorolás szintjén kell csak tudni!)
10.7. HOGYAN TOVÁBB? Pierre Bourdieu, francia szociológus: Egy nyelv annyit ér, amennyit beszéli érnek. Ez az érték nem feltétlenül gazdasági jelleg; kommunikációs, kulturális, tudományos, politikai, vallásos, turisztikai, sporttal kapcsolatos, földrajzi, személyes mozzanatai is lehetnek. Az egyes nyelvek (pl. magyar nyelv) jövõbeli státusát /és így a könyvtár-és információtudományi alkalmazásait is/ az fogja meghatározni, hogy kinek lesz rá szüksége. Erre egyelre nem nagyon áll rendelkezésre semmilyen stratégia. /forrás: SZÉPE, é.n./
KÉRDÉSEK Tanulmányozza az elektronikus anyagban szerepl 21 kérdést, és legyen képes azokra választ adni!
Jó felkészülést kíván A szerz