4 A KERESNYELVEK NYELVÉSZETI IRÁNYZATA Oktató: dr. Pálvölgyi Mihály Szombathely, BDF KIT, 2006-07.tanév, I. félév.
1. TARTALOMJEGYZÉK 4.1. Áttekintés, alapfogalmak, történet 4.2. A keresnyelvek típusai a nyelv szabályozottsága szerint 4.3. Tipizálás további kritériumok szerint 4.4. A keresnyelvek alkalmazása és fejlesztése
4.1. ÁTTEKINTÉS, ALAPFOGALMAK, TÖRTÉNET 4.1.1. A keresnyelv fogalma, forrásai 4.1.2. Az alapvet követelmények kérdése 4.1.3. A természetes nyelvi indexelés terjedése
4.1.1. A keresnyelv fogalma, forrásai Keresnyelv információkeres nyelv, rövidítve IKNY. Az információk feldolgozását, tárolását, keresését lehetvé tev nyelv, mely épülhet természetes nyelvre (pl. magyar, angol stb.)., vagy mesterséges nyelvre (szakemberek által kidolgozott, bevezetett nyelvek) és a kett kombinációjára (pl. mesteséges rendszerben névalosztások)
4.1.1. A keresnyelv fogalmai, forrásai folyt. : mesterséges nyelvre épül keresnyelvek Mesterséges nyelvre épülnek az Egyetemes Tizedes Osztályozás (ETO), a Dewey Decimal Classification (DDC) A Kongresszusi Könyvtár osztályozási rendszere stb.
4.1.1. a keresnyelv fogalma, forrásai folyt.: a természetes nyelvre épül keresnyelv fogalma, példái A természetes nyelvre épít keresnyelv Olyan normalizált nyelv, melynek a természetes nyelvhez hasonlóan van --morfológiája /jól meghatározott, körülhatárolt szókincse/, --szintaxisa /a természetes nyelvre épül szókincse szavaiból létrehozható értelmes szóláncok kialakításának meghatározott szabályrendszere/. Természetes nyelvre épül keresnyelvek példái: Kulcsszavas nyelvek, pl. KWIC-index (kulcsszó szövegkörnyezetben) Tárgyszavas nyelvek, pl. Új Könyvek tárgyszórendszere Deszkiptoros nyelvek, pl. OSZK tezaurusz- köztaurusz stb.
4.1.2. A keresnyelvekkel szembeni alapvet követelmények Ön szerint melyik a jobb keresnyelv: az ETO, vagy egy természetes nyelvi IKNY, pl. az Új Könyvek tárgyszónyelve? Ennek megválaszolásához ismételjük át, mik az alapvet elvárások az osztályozási indexelési rendszerekkel szemben: /1/ Segítsenek kialakítani az azonos vagy hasonló témájú dokumentumok csoportjait, osztályait! /2/ Segítsenek leírni az egyedi információkat! /3/ Segítsenek megszervezni az ismeretek tartalmi-tematikai szerkezetét tükröz rendszert! /4/ Segítsenek kimutatni az újdonságokat, novumokat!
4.1.2. A keresnyelvekkel szembeni részletes, összesen 12 követelmény 1. a fogalmak egyértelm jelölése, 2. a fogalmak /keresnyelvi szavak/ áttekinthetsége, 3. a keresés mélységben rugalmassága, 4. az indexkifejezések közötti értelmi összefüggések jelölése
4.1.2. A keresnyelvvel szembeni részletes követelmények folyt. 5. a forrásokban rögzített egyszeri összefüggések, tényállások jelölése 6. Specifikusság - az eredeti szöveg olyan mélységben való osztályozása, ahogy a szerz megírta. 7. a precedens-nélküliség érvényesítése, a szövegekben megjelen újdonságok leírása, 8. relációmegelz transzformáció: az eredeti szöveg relációinak átmentése a szurrogátumba.
4.1.2. A keresnyelvvel szembeni részletes követelmények folyt. 9. új fogalmak, indexkifejezések gyors, rugalmas felvétele, 10. sokszempontú, kombinált kereshetség, 11. egyszer, könny, kényelmes használat, 12. költséghatékony feldolgozás/keresési módszerek
4.1.3. Természetes nyelvi indexelés tört. A természetes nyelvet alapul vev indexelési/keresési irányzat a II. vh után indult és az 50-es években vett lendületet. (1) Mortiber Taube USA, 1953-ban létrehozta az uniterm rendszert. Az uni egyet, egyedit, a term pedig terminust, szót, kifejezést jelent. Az uniterm 2 f jellemzje: (a) az uniterm olyan egyedi osztályozó, indexel fogalom, mely már nem bontható tovább az értelme lényegi megváltozása nélkül, illetve az ezt kifejez indexel szó, kifejezés. (b)forrása maga az eredeti dokumentum, ahonnan kötetlenül, szabályozatlanul emelik be a keresrendszerbe (szerzk által használt szavak) (2) Hans Peter Luhn az USA-ban 1958-ban létrehozta a KWICindexet.
Mik a természetes nyelven alapuló keresnyelvek sikerének f okai? 1, kiválóan alkalmazhatók az egyedi információk feltárására, az ujdonságok kimutatására 2, könnyen, gyorsan használhatók, 3, a természetes nyelv problémáit (szinonima, homonima stb.) a fejlesztk egyre hatékonyabban kezelik 3. többféle megközelítést (feltárást, keresést) tesznek lehetvé ugyanazon a nyelvi alapon 4. Ily módon diverzifikált és kombinált fejlesztésiszabályozási stratégiák érvényesülhetnek az internetes, adatbázisos, OPAC-os környezetekben.
4.2. A KERESNYELVEK TÍPUSAI A SZABÁLYOZOTTSÁG SZERINT 4.2.1. Tipizálási kérdések 4.2.2. Szabályozatlan nyelv keresnyelvek 4.2.3. Átmenetek 4.2.4. Szabályozott nyelv keresnyelvek szabályozási szintek és példák 4.2.5 A keresnyelv mondattana, az indextétel összeállítása
4.2.1. Tipizálási kérdések, a szabályozás szintjei Három alapvet kérdéshez kötdik a tipizálás: (1) Mekkora mérték egy keresnyelv használatában összességében, általánosságban a kontroll, a szabályozás, a kötöttség? (2) Mekkora mérv nyelvi szabályozásnak vetjük alá az egyes keresnyelvi szavakat? (3) A nyelvi szabályozás mellett alávetjük-e ezeket a szavakat logikai szabályozásnak is? A fentiek figyelembevételével a két f keresnyelvi típus: (1) szabályozatlan, (2) szabályozott. Ezekhez kapcsolódik (3) a kett közötti átmenet
4.2.1. folyt. A két f típus a nyelvi szabályozás szintje szerint (1)Szabályozatlan IKNY-ek - gyakorlatilag semmi vagy minimális a kontroll, - A természetes nyelv szavait nem vetjük alá szabályozásnak, ellenrzésnek. - (Abszolút) kötetlenül, szabadon választhatunk a természetes nyelvi szavak - kulcsszavak, szövegszavak között (2)A szabályozott nyelv IKNY-ek -A természetes nyelv szavait bizonyos mérték (esetleg abszolút) szabályozásnak vetjük alá. - A kötött, adott fogalomra kötelezen használandó szavakat, nyelvi és logikai kapcsolatokat tartalmazza (3) A kett közötti átmenetek (lásd külön).
4.2.2. Szabályozatlan nyelv IKNY-ek A feldolgozó szakember az osztályozási kifejezéseket változtatás nélkül emeli ki a dokumentum címébl, referátumából, szövegébl szabályozott, ellenrzött szótár alkalmazása nélkül A felhasználó a keresszavakat és kifejezéseket szabadon, szabályozott, ellenrzött szótár alkalmazása nélkül fogalmazza meg, és keresi vagy keresteti
4.2.3. Átmeneti keresnyelvek Indokai Bizonyos fogalmak /pl. az új gazdasági, mszaki fogalmak/ tükrözésére vagy még nem alakultak ki szabványos, kötött kifejezések, vagy bizonyos fajta fogalmak egyáltalán nem is kerülnek be az abszolút kötött IKNY-szótárakba, pl. rendszernevek, típusnevek - ALEPH, Hewlett Packard a cím és a referátum szövegébl kigyjtött kifejezések, melyek a tanulmány stb. szerzjének szóhasználatát tükrözik ( szabad tárgyszavak identifikátorok), melyek esetleg nincsenek benne semmilyen szabványos, ellenrzött IKNY-szótárban, (de bekerülhetnek abba)
4.2.4. Szabályozott nyelv keresnyelvek Bennük rögzített szabályrendszerek biztosítják az alaktani és jelentéstani egyértelmséget, s határozzák meg a szóalakokat és ezek használatát, indextételbe való koordinálását. A szabályozás nyelvi és logikai szinten valósul meg: NYELVI SZABÁLYOZÁS célja, hogy az IKNY alakilag és jelentésbelileg egyértelm, következetes legyen, tehát a szabályozatlan természetes nyelv hátrányait kiküszöböljük. LOGIKAI SZABÁLYOZÁS célja, hogy a nyelvi szabályozáson túl az osztályozási kifejezések egymás közti kapcsolatait is meghatározzuk és beépítsük az IKNY-einkbe
4.2.5. A keresnyelv mondattana, az indextétel összeállítása Az ismeretreprezentálást, tudásreprezentálást indexelésnek is nevezzük, ami a tudást tárgyilag leképez indextétel összeállítását, az indexkifejezésekkel való ellátását jelent. Az indextétel összetett egység - az eredeti dokumentum, kognitívum tárgyi-tematikus reprezentációjára. Az indextétel indexkifejezésekbl áll. Ezek a szabályozottság mértéke szerint lehetnek kulcsszavak, tárgyszavak, deszkriptorok.
4.2.5. Az indextétel összefüggése az indexkifejezések elzetes és utólagos egymáshoz rendelésével Indexkifejezés és indextétel összefüggése: Az indexkifejezések - keresnyelvi szavak - az indextételnek egy-egy jellemzjét, oldalát mutatják. Az indexkifejezések összességében alkotják az indextételt. Az indexkifejezések egymáshoz rendelésének módjai: A prekoordinált rendszerben az indexkifejezéseket szintaktikai szabályok szerint fzzük indextételbe, azokat egymáshoz kapcsoljuk: keresnyelvi mondatokat képezünk (pl. UK tárgyszórendszer alapján). A posztkoordinált rendszerben az indexkifejezéseket külön-külön adjuk meg, az egyes keresnyelvi szavak a felhasználónál kapcsolódnak össze keresési stratégiájában, keresési igényei szerint (pl. BDF Központi Könyvtár)
4.3. A KERESNYELVEK TIPIZÁLÁSA TOVÁBBI MEGKÖZELÍTÉSEK SZERINT 4.3.0. Bevezetés 4.3.1. az osztályozási kifejezések közötti függség szerint hierarchikus, mellérendel 4.3.2. a feltárás mélysége szerint generalizáló individualizó 4.3.3. a szerkezetük szerint prekoordinált- posztkoordinált 4.3.4. a tartalmuk szerint - egyetemesek, szakterületiek (speciálisak) 4.3.5. az automatizálás mértéke szerint nem-automatikus, félautomatikus, automatikus 4.3.6 a földrajzi elterjedés szerint - nemzetközi, nemzeti, helyi-regionális
4.4. A KERESNYELVEK ALKALMAZÁSA ÉS FEJLESZTÉSE 4.4.1./2. Helyzetkép és trendek 4.4.3.Keresnyelvek/eszközök és kombinációik 4.4.4./5. Felmérések, tapasztalatok- A természetes nyelven alapuló keresnyelvek megfelelése a követelményeknek 4.4.6. Az integráció követelménye horizontális és vertikális
4.4.1 Helyzetkép a keresrendszerek fejldésére ható trendek Technológiai tényezk (az automatizálás, az integrált könyvtári rendszerek, a webes szolgáltatások,) Komplex tényezk (a hálózati együttmködés), Emberi tényezk (a minségi források kiválasztásának igénye). Az ezredfordulóra a világméret Internet kialakulásával gyökeresen átalakult mind az osztályozási, mind pedig az információkeres tevékenység. Teljesen új szakmai csoportok kezdtek foglalkozni a hálózaton belül használt rendez és keresrendszerek készítésével.
4.4.1 Helyzetkép (folyt)- a természetes alapú keresnyelvek alkalmazása (1) Tárgyszavazás (manuálisan) - a 19. század derekától (2) Kulcsszavas indexelés (manuálisan) - a 19. századtól (pl. név, tárgymutató) (3) Kulcsszavas indexelés (félautomatikusan) az 1950-es évek végétl (KWIC-index stb.) (4) Kulcsszavas és tárgyszavas (deszkriptoros) indexelés (automatikusan adatbázisokban) az 1960-as évektl, majd OPAC-okban 1980-as évektl (5) Internetes indexel rendszerek - 1990-es évektl (6) Új szemantikai eljárások és módszerek - a 2000-es években Több dudás is megfér egy csárdában. (Paczolay)
4.4.3. Keresnyelvek és kombinációk Válas György szerint többféle keresnyelv alkalmazása szükséges egy rendszerben, és a konkrét keresésnél kell eldönteni, hogy az alábbiak közül melyiket vagy melyek kombinációját használjuk. 1) tezaurusz; 2) "szabad" tárgyszavas keresés; 3) hierarchikus osztályozási rendszer; 4) speciális adatmezk kötött formátumú keresése; 5) szabad szöveges keresés. (VÁLAS, 1999.) Mindehhez tudatosítani kell a különféle IKNY-ek sajátos elnyeit és lehetségeit.
4.4.4./5 A kötetlen, szabályozatlan keresnyelvek megfelelése a követelményeknek - elnyök Szókincse az aktuális, "él" (szak)nyelvbl táplálkozik, azt tükrözi, az új témakörök szabadon, gyorsan kereshetk benne, az osztályozás mélysége a téma tárgyalásának mélységével mindig egybeesik. könnyen megtanulható és használható, elég a nyelvet, betrendet ismerni. A betrendben gyorsan követhetk a tudományos és egyéb eredmények, a terminológia változásai, ha elég pontosan tudjuk, mire is vagyunk kíváncsiak, Egyaránt alkalmasak egyedi információk és csoportok leírására, Szabadszavas keresés olyan a szövegben szerepl információkhoz is "utat nyit", amelyek a szigorúan ellenrzött IKNY útján gyakorlatilag nem elérhetk (pl. személynevek, földrajzi nevek, specifikus tárgyi megnevezések, márkanevek, géptípus nevek, szoftvernevek). A szavak kombinációi jól kereshetk a keresés pontosítása érdekében /posztkoordináció/ A szavak viszonylag kényelmesen böngészhetk (pl. adatbázisokban nyelvi, kiadás, kiadó, tárgyi, földrajzi, személynév stb. indexek szerint)
4.4.4./5 A kötetlen, szabályozatlan keresnyelvek miben nem felelnek a követelményeknek? mivel a természetes nyelv soha nem egyértelm, a kereskifejezések egyértelmvé tétele nagy körültekintést igényel - nehéz a homonima-, szinonimaproblémát kezelni, csak igen terjengõsen lehet osztályozni, a kulcsszavas keresésnál fontos lehet a kulcsszavak közvetlen szövegkörnyezete, mely annak jelentését is meghatározza. a szövegekben gyakoriak az összetett szavak, amelyeket nem könny megragadni, s így megtalálni sem, a fogalmi struktúra kidolgozatlan, a felhasználót nem segítik (eléggé) a kulcsszavak közötti összefüggések meglátásában, az egyes tárgykörök fogalmai teljesen szétszóródnak a betrendben, a felhasználó nem kap semmilyen képet a tudományok, szakterületek egészére stb. vonatkozóan..1. Alapfogalmak, történet, elterjedés
4.4.4./.5 Hogyan lehet a hátrányokat kiküszöbölni - a szókapcsolatok elemzésének példája A hátrányok kiküszöbölésére a vizsgálatot kiterjesztették a szókapcsolatok elemzésére is. Gyakran egy fogalom nyelvi megfelelje ugyanis nem egyetlen szó, hanem valamilyen szintagma (szókapcsolat, kifejezés), pl. "információs társadalom", " élethosszig tartó tanulás", "nyitott és távoktatás "stb. Ezek keresése a helyzeti operátorok segítségével történhet, pl. információs(1w) társadalom a Dialog rendszerben való keresésnél azt jelenti, hogy a természetes szövegbl azokat a szókapcsolatokat választjuk ki, amelyekben az információs illetve a társadalom kifejezések 1w (w= word, szó) azaz egy szó távolságra állnak csak egymástól. A Google-ban idézjelek ( -k) közé téve biztosíthatjuk egy szókapcsolat, kifejezés egyértelm keresését stb.
4.4.6 Az integráció követelménye horizontális és vertikális Horizontális integráció egy keresrendszerben érhetk el a különböz információforrások adatai, vagy legalábbis egy felhasználói felületen. Az OPAC-okban pl. helyet kapnak a legkülönfélébb dokumentumtípusok szurrogátumai (hagyományos, AV-, elektronikus dokumentumok). A használt keresnyelvek nem mindig ugyanazok (könyvek, idszaki kiadványok, szakdolgozatok stb. esetén eltérhetnek, ami gyakran indokolható is) Vertikális integráció a feldolgozási láncban egy mveletet csak egyszer kell elvégezni, a késbbiekben annak kimenetét a következ mvelet bemeneteként használják ( pl. integrált könyvtári rendszerben, közös, osztott katalogizálási rendszerekben). Ehhez elengedhetetlen a keresnyelvek egymásraépül, közös fejlesztése, egységes elvek, szempontok, szabályok alkalmazása.
KÉRDÉSEK - Alapfogalmak Mik a természetes nyelven alapuló keresnyelvek fejldésének f hajtóeri? Mik voltak a f állomásai? Hogyan értelmezi a nyelvészeti irányzat a IKNYeket? Mit jelent a specifikusság elve? Mit jelent a precedens-nélküliség elve? Mit jelent a relációmegelz transzformáció? Mik az uniterm f jellemzi?
KÉRDÉSEK keresnyelvek szabályozottsága Mik a nyelvi szabályozottság szintjei, hozzon példákat is! Mi volt Luhn négy kiinduló hipotézise? Mik a szabályozatlan IKNY f jellemzi - elnyei és hátrányai? Mik a szabályozott nyelv IKNY-ek f jellemzi elnyei és hátrányai?
KÉRDÉSEK további hat felosztási szempont Hogyan, milyen szempontok szerint csoportosíthatók az IKNY-ek? Az osztályozási kifejezések függsége szerinti rendszereknek mik a f jellemzik? A feltárás mélysége szerint milyen rendszerek vannak és mik a f jellemzik? A szerkezetük szerint milyen rendszerek vannak és mik a f jellemzik? A tartalmuk szerint milyen rendszerek vannak és mik a f jellemzik? Az automatizálás mértéke szerint milyen rendszerek vannak és mik a f jellemzik? A földrajzi elterjedés szerint milyen rendszerek vannak és mik a f jellemzik?
KÉRDÉSEK a keresnyelvek alkalmazása és fejlesztése Milyen tényezk befolyásolják az IKNY-ek fejldését? Milyen kombinációk lehetségesek az IKNYek között? Mit jelent az integráció, milyen két ága van? Alapfogalmak, történet, elterjedés
1. MEGJEGYZÉSEK..