Milyen szótár készíthet a nagyszótári korpuszból? Pajzs Júlia A magyar irodalmi és köznyelv nagyszótárának munkálatai 1984 végén indultak meg újból 1, Kiss Lajos 1986-ban vette át a munka irányítását. E több mint tíz év alatt els sorban a szótár forrásanyagául szánt szövegrészletek (korpusz) számítógépre vitele és lekérdezhet vé tétele volt f feladatunk. Tekintettel arra, hogy az el zetesen tervezettnél már lényegesen több szövegszó rögzítésre került és számítógépen on-line elérhet formában van, lehet ségünk van annak megvizsgálásra, hogy a korpusz milyen mértékben alkalmas a tervezett nagyszótár forrásanyagául. 1. A korpusz legfontosabb jellemz i A számítógépre rögzítend szövegrészleteket irodalomtudósok jelölték ki számunkra. Feladatuk az volt, hogy az így összeállítandó válogatás a lehet legjobban reprezentálja a magyar irodalmi és köznyelv szókincsét. Az eredeti terv szerint mintegy 13 millió szövegszónyi korpuszt kellett volna kijelölniük az alábbi korszakok szerinti bontásban: XVI. század 1.000.000 XVII. század 1.000.000 XVIII. század 2.000.000 XIX. század 4.000.000 XX. század 5.000.000 A szövegrészletek kiválasztását az egyes korszakok kiváló irodalomtudósai végezték el. A válogatás közben azonban az egyes részletek terjedelmét csak többé-kevésbé tudták megbecsülni, így csak a rögzítés során tudatosult bennünk, hogy a XIX. század gépre vitt anyaga ténylegesen mintegy 7 millió szövegszó, a XX. század eddig felvitt és lekérdezhet formában lév szövegszavainak száma mintegy 10 millió, és további legalább 5 millió bevitelét tervezzük a kijelölt forrásanyagból. Így a most on-line elérhet XIX-XX. századi korpusz mérete (közel 17 millió szövegszó) jelent sen meghaladja az el zetesen tervezett teljes korpusz méretét. Sajnálatos módon azonban a korábbi századok anyagának bevitele korántsem haladt ilyen ütemben, mivel ezek rögzítése és lekérdezhet vé tétele lényegesen nagyobb szakértelmet igényel. Terjedelmét tekintve azonban a jelenleg lekérdezhet korpusz már mindenképp alkalmas annak megvizsgálására, hogy milyen mennyiség és min ség szócikk készíthet ennek alapján. 2. Gyakorisági vizsgálatok Tihanyi László 1994-ben készített egy lemmatizált gyakorisági listát a korpuszból nyert adatok alapján. A szövegeket az általa fejlesztett HUMOR morfológiai elemz programmal lemmatizálta, majd szétválogatta az így nyert adatokat a program által felismert és fel nem ismert szavakra. Mindkett r l készített gyakorisági összefoglalást, a szótár szempontjából itt els sorban a felismert szavak jöhetnek szóba címszóként, azonban a fel nem ismert adatokat sem hagyhatjuk figyelmen kívül, hiszen abban számos olyan alakváltozat, írásváltozat fordul el, amelyet a program t tára nem tartalmaz, s t el fordulnak régebbi szavak is, amelyeket 1
egy nagyszótárba fel kell vennünk. Els dlegesen azonban mindenképp a felismert lexémák összesített gyakorisági adatait érdemes megvizsgálnunk. Mivel ez az összesítés néhány évvel ezel tt készült, csupán az akkor gépen lév szövegszómennyiségb l indulhatott ki (14.200.000 szó), az alábbi adatok tehát erre vonatkoznak. A leggyakoribb szavak természetesen azonosak az egyéb magyar gyakorisági listák elejével: a 955145 az 478652 és 235381 nem 188474 s 185227 hogy 179748 ez 165250 is 146465 van 143327 egy 122000 de 84708 82507 én 74273 csak 68654 ki 67202 meg 66093 ha 64601 mi 64237 még 54912 már 52864 Összesen: 3479720 Azaz a leggyakoribb 20 szó lefedi a szövegszók 24.5% százalékát. Az összes felismert különböz lexéma száma (a homonimákat és homográfokat figyelmen kívül hagyva) 165.441. Ezek eloszlása gyakoriság szerint: lexémák száma összgyakoriságuk legalább tízszer el fordul 33.600 11.605.836 3-9 el fordulás 30.489 150.301 2 el fordulás 18.946 37.892 1 el fordulás 82.406 82.406 Összesen 165.441 11.876.435 A legalább tízszer el forduló lexémák alapul szolgálhatnak kétnyelv kisszótárak címszóanyagául, a nagyszótári munkákhoz azonban úgy gondolom legalább 3 el fordulásra van szükségünk (még azok közül is sok ténylegesen csak egyszer jöhet számításba idézetként, ha ugyanabban a szövegben található). Ebb l az adódik, hogy a 14 milliós korpuszból mindössze egy kb. 60.000-65.000 címszót tartalmazó kéziszótár készíthet! Mint látjuk a lexémák több mint fele, csaknem kétharmada (101.352 lexéma) csupán egyszer-kétszer fordul el. Az alábbiakban egy rövid részletet mutatunk be a csupán egyszer el fordult szavak közül. Mint látható, e szólista nem tekinthet valódi lexéma listának, csupán az elemz által t ként értelmezhet szavak listájának (összetett vagy képzett alakok is el fordulhatnak, illetve 2
feltételezett összetételek és képzések ajándékozóját-is, akadémia-jutalmaz). ajándékkészít ajándéklevél ajándékozóját-is ajándékszivar ajándéktöml ajándékösszeg ajánlattev ajánlatú ajánlgató ajánltatható ajánlástok ajánló-levél ajánlólap ajánlósor ajókagy r akadozň akadékosság akadémia-alapító akadémia-jutalmaz akadémista-klasszikus Ezek között találhatunk feltételezhet rögzítési vagy elemzési hibát (akadozň, ajánlástok), egy részük azonban mérlegelést igényel, vajon bekerüljön-e a nagyszótárba esetleg az összetétel el tagjának vagy a képzés alaptagjának címszavához, vagy önállóan. A lexémagyakorisági lista ábécében is rendezhet, bár a valódi magyar ábécébe rendezéshez bonyolultabb programra van szükség. Itt az ábránd származékszavainak és összetételeinek gyakorisági listáját láthatjuk: ábránd 385 ábrándérték 1 ábrándfoszlány 1 ábrándh s 2 ábrándít 2 ábrándja-vesztett 1 ábrándkép 18 ábrándkór 1 ábrándlény 1 ábrándorzó 1 ábrándos 174 ábrándosság 3 ábrándos-barna 1 ábrándoz 7 ábrándozás 71 ábrándozik 140 ábrándozó 59 ábrándrajz 1 ábrándrontó 1 3
ábrándú 1 ábrándul 5 ábrándvilág 2 ábránd-alak 1 ábránd-élet 1 ábránd-élv 1 ábránd-ihlet 1 ábránd-kép 1 ábránd-lélek 1 Ezek a listák nyilván nagymértékben segíthetik a címszólista összeállítását, de mint láthatjuk, semmiképp sem biztosítható, hogy valamilyen mennyiségi kritérium alapján a gép válassza ki a címszavakat számunkra, hiszen a gyakoribbak között vannak olyan képzett alakok (ábrándozó, ábrándul) amelyek feltehet leg nem fognak önálló címszóként szerepelni, másrészt a ritkábban el fordultak felvétele esetenként indokolt lehet (ábrándvilág?). A korpusz méretének növelése természetesen módosítja a gyakorisági adatokat, az arányokon azonban jelent sen nem változtat. Tapasztalataink szerint els sorban a már amúgy is gyakori szavak el fordulási száma növekszik, és az egyszer el forduló hapaxok száma. Éppen a kritikus 2-3-4 el fordulási számú szavakra nem feltétlen kapunk számottev en több idézetet (némelyikre természetesen igen). A korpusz közelmúltban történt b vítésekor például (amikor a szövegszavak száma 14 millióról 17 millióra n tt) az ábránd 1, 2 el fordulási számú lexémái közül csupán az ábrándít gyakorisága emelkedett 5-re, az ábrándvilág 4-re, és további hapaxok kerültek a listára (ábrándkoncepció, ábrándöl, ábrándokbahurkoló). Ugyanakkor viszont az általam éppen vizsgált abszolút szó el fordulási száma (ebben az írásváltozatban) 220-ról 455-re n tt. Ezekkel az adatokkal csupán arra szeretném felhívni a figyelmet, hogy a korpusz egyszer mennyiségi b vítése nem feltétlenül hozza meg a kívánt eredményt. Másfel l természetesen hiba lenne elzárkóznunk a szövegarchívum folyamatos b vítését l, karbantartásától, de az új és új adatoknak a szótárba való beépítését alaposan át kell gondolnunk (hiszen akkor sosem tekinthetnénk egy szócikket lezártnak). 3. Számítástechinkai eszközök a szótáríráshoz A lekérdez program A korpusz szövegszavainak konkordanciáját az OPEN TEXT (korábbi nevén PAT) program segítségével kérdezhetjük le. A korábbi változathoz kifejlesztettünk egy olyan magyar nyelv interfészt 2, amelynek segítségével a korpusz minden el zetes ismeret nélkül, menüvezérelt módon érhet el bárki számára a telnet-en keresztül. Az egyetlen tudnivaló a bejelentkezés módja: telnet sun1.nytud.hu login: patuser password: Patuser Sikeres bejelentkezés esetén a program elindul, el sz r ki kell választanunk az általunk használni kívánt karakterkészletet, ebben is segítségünkre van a program a különféle lehet ségek megjelenítésével. Ezután rátérhetünk a keresésre, egyszer en be kell gépelnünk a keresett szót vagy szókapcsolatot, a talált konkordanciát pedig többféle méretben kiírathatjuk a 4
képerny re. A keresésnél sajnos újra problémát jelenthetnek az ékezetes karakterek, attól függ en, hogy milyen gépr l, milyen szoftver segítségével jelentkeztünk be, különböz módon írhatók be ezek, és abban sem lehetünk biztosak, hogy a hálózaton való konverziók után pontosan az az ékezetes karakter érkezik-e meg, amit el szerettünk volna küldeni. E problémák kiküszöbölésére melegen ajánljuk az ún. Prószéky kódok használatát, amit egyébként a program a megjelenítés lehet ségeként is említ. (Ebben az á=a1, é=e1, ö=o2, =o3 stb.) Ha meg tudjuk szokni az így kódolt szövegek írását-olvasását, akkor biztonságosan használhatjuk a rendszert, hiszen az ékezetes karakterek átvitele az eredmények kimentésekor és e-mail-en való elküldésekor is gondokat okozhat. A lekérdez program segítségével kereshetjük több szó együttes el fordulását is, és sz kíthetjük a keresést m faj, szerz vagy a keletkezés éve szerint. Ilyenkor azt is kiírja a program, hány olyan m részlet szerepel a korpuszban amely az általunk leírt kritériumnak megfelel. Így tudhatjuk meg például, hogy az egyes szerz kt l eddig hány részletet vittünk fel, vagy bizonyos évekb l, évtizedekb l milyen mennyiség adatunk van. Sajnos a m faji besorolás egyel re nem kell en alapos és egységes (e kötetben Váradi Tamás tanulmánya foglalkozik ezzel a kérdéssel), többek között azért, mert a szótárírás szempontjából a m faj nem els dleges fontosságú. A korpusz többcélú felhasználhatósága érdekében azonban törekszünk ennek egységesítésére. A szócikkírást segít szövegszerkeszt program Mindent szótárt, de különösen az ilyen nagyterjedelm nek tervezetteket érdemes azonnal adatbázisformában tárolni a számítógépen (Pajzs 1993, 1994). Célszer az erre nemzetközileg elterjedt szabvány, az ún. SGML 3 használata: ennek a szövegek kódolására kialakított konvenciója a TEI 4 ajánlás. Ennek figyelembevételével próbáltam kidolgozni a NSz. szócikkeinek feltételezhet struktúráját. Az egyes szerkezeti elemek jelölésében törekedtem az ÉKsz. leend adatbázisában alkalmazandó kódokkal való azonosságra is, hogy minél jobban megkönnyítsem a majdani két szótári adatbázis integrált együttes használatát. Jelenlegi elképzeléseink szerint a következ módon alakul a szócikkek szerkezete: <!DOCTYPE HistDict -- az NSz. DTD-je -- -- els változat 1997. február 14. utolsó módosítás: márc. 21. -- [ <!ENTITY % deftext "(gloss hint abbr tr mention)*" > <!ELEMENT HistDict o o (entry)+ > <!ELEMENT entry - -(head, (sense* sengr* xr),coll*) > <!ATTLIST entry type(space xrf affix abbr) "space" > <!ELEMENT head o o (lemma, gramgrp?, variant*, usg?) > <!ELEMENT lemma - - ((oref ovar)?,hom?) > <!ELEMENT hom - - (#PCDATA) > <!ELEMENT variant - - (#PCDATA) > <!ELEMENT gramgrp - - (subc*, pos*, lbl*) > <!ELEMENT pos - - (#PCDATA) > <!ATTLIST pos type (space rep) "space" > <!ELEMENT subc - - (#PCDATA) > <!ELEMENT lbl - - (mention*) > 5
<!ELEMENT mention - - ((hint*,hom*)*) > <!ELEMENT usg - -(#PCDATA) > <!ELEMENT sense - -(gramgrp?,def, eg+, coll*,sense*) > <!ATTLIST sense ncdata #REQUIRED> <!ELEMENT sengr - - (gramgrp, sense*) > <!ATTLIST sengr n CDATA #REQUIRED> <!ELEMENT def- -(%deftext;) > <!ATTLIST deftype (space rep) "space" > <!ELEMENT phr- -(#PCDATA) > <!ELEMENT hint- -((ovar*,oref*)*) > <!ELEMENT coll- -(phr,def?,eg*) > <!ELEMENT eg - -(cit, wdate, pubdate?, author, pubtitle, p, id?) > <!ELEMENT xr - -(#PCDATA)> <!ELEMENT wdate- -(#PCDATA)> <!ELEMENT pubdate- -(#PCDATA) > <!ELEMENT cit - - (#PCDATA) > <!ELEMENT author- - (#PCDATA) > <!ELEMENT pubtitle - - (#PCDATA) > <!ELEMENT p - - (#PCDATA) > <!ELEMENT id - - (#PCDATA) > <!ELEMENT oref - o (#PCDATA) > <!ELEMENT ovar - o (#PCDATA) > <!ELEMENT gloss - - ((hint*,usg*,mention*)*) > <!ELEMENT tr - - (#PCDATA) > <!ELEMENT abbr - - (#PCDATA) > ]> Az egyes mez nevek ("tag"-ek) jelentése: <def> <entry> Szócikk. <lemma> Címszó. <variant> Alakváltozat. <gramgrp> A grammatikai információk összefoglaló blokkja. <pos> Szófaj. <pos type=rep> Szófajt helyettesít körülírás. <subc> Szófaji kiegészítések, amelyek megel zik a szófajt, grammatikai alkategóriáknak is tekinthet k pl. "tn", "ts" "hat-ragos". <lbl> A szófaji és nyelvtani kiegészítésb l az, amely a szófajt zárójelben követi. <mentioned>az lbl-en belül id nként el forduló kurzívval szedett szövegrészek, hivatkozások más címszóra, vagy egyéb d ltbet s utalások (pl: "-t ragos hat-val"). <usg> Stílusmin sítés. <sense n='1'> (n=2, 1.1, 1.2..stb) egy önálló jelentés blokkja. <sengr n='i'> Grammatikai blokk, többszófajú szavak esetén. Értelmezés. <def type=rep> Helyettesít értelmezés. <gloss> A "< >" közötti kiegészít értelmezés. 6
<hint>az értelmezésben, esetleg a szókapcsolatban vagy a példában el forduló olyan "( )" zárójelbe tett részek, amelyek a vagylagosságot jelölik. <tr>az értelmezés szövegében el forduló olyan "( )" zárójeles részek, amelyek latin fordítást tartalmaznak (pl. növénynevek). <eg> Az idézetet tartalmazó egység. <cit> Maga az idézet. <wdate> A keletkezés dátuma. <pubdate> A kiadás dátuma. <author> Szerz neve. <pubtitle> A kötet címe, esetleg sorszáma stb. <p> Oldalszám. <id> A forrásrészlet azonosító kódszáma. <coll> Az értelmezett szókapcsolat, szólás stb. egysége. <phr>az értelmezett szókapcsolat, szólás, szójárás, szóláshasonlat d lt bet vel szedett része, amelyet kett spont és állóbet s értelmezés követ. A szerkezeti leírásban (DTD: Document Type Definition) alkalmazott fontosabb jelölési konvenciók:? 0 vagy egy el fordulás * 0 vagy akárhány el fordulás + legalább egy el fordulás A jelöletlen elemek el fordulása kötelez, a felsorolt sorrendben. Hangsúlyoznom kell azonban, hogy a fent ismertetett szerkezeti ábra csupán ideiglenes, a szócikkek írása közben folyamatosan módosítjuk a felmerül igények alapján, legalábbis a szótárírás kezdeti stádiumában. A szócikkek készítésekor a felsorolt mez határoló jeleket a WriterStation program segítségével visszük számítógépre. Ez a program jelent sen megkönnyíti az ilyen formátumú bevitelt, legalábbis egy hagyományos, közönséges (nem SGML editor) használatához képest. Számontartja, hogy a struktúra aktuális szintjén melyek a megengedett és kötelez elemek, és csak ezek bevitelét kínálja fel. Mivel azonban a rendelkezésünkre álló programverzió meglehet sen régi, számos gyengesége van. Reméljük, hogy a közeljöv ben módunk nyílik egy korszer bb SGML editor beszerzésére. Az ilyen módon rögzített adatbázisból azután egy konverziós program segítségével elkészíthet a szótár nyomtatott változata. El nye még, hogy a végleges tipográfiai képet elegend közvetlenül a kiadás el tt eldöntenünk. Az adatbázisként tárolt változatból pedig bármilyen SGML lekérdez vel kikereshetjük, csoportosíthatjuk a már elkészült szócikkeket, például a korpusz lekérdezésére is használt Open Text programmal. 4. A próbaszócikk irás tapasztalatai Bár a próbaszócikkek írásának még az elején tartunk, annyit az eddigi kísérletekb l megállapíthattunk, hogy a korpusz már jelenlegi állapotában is alkalmas a szócikkek jelent s részének kidolgozására (legalábbis arra a kb. 65.000-re, amelyre legalább 3 adatunk van), különösen akkor, ha a hagyományos cédulás gy jtésb l származó forrásokat is figyelembe vesszük. Miel bb ki kell b vítenünk a számítógépes korpuszt a XVIII. századi szövegekkel, és törekednünk kell arra, hogy a XX. századi anyag eddig kijelölt részének bevitele belátható id n belül befejez djön. Ezután célszer nek látszik áttérnünk a korpusz b vítésének manapság korszer módjára, a már elektronikus formában tárolt szövegek átvételére. Ugyan, mint 7
rámutattunk, a korpusz méretének növelése nem pontosan az általunk kívánt min ségi változást eredményezi, a mai igényeknek és lehet ségeknek csak ez a módszer felelhet meg. Tekintve azonban, hogy a nagyságrendekkel terjedelmesebb korpusz gy jtése, karbantartása, hozzáférhet vé tétele messze meghaladná a lexikográfiai osztály lehet ségeit, inkább a mások által gy jtött anyagok (pl. Magyar Elektronikus Könyvtár) felhasználására kell törekednünk. Els dleges feladatunknak a tényleges szótárírást kell tekintenünk, és ehhez kapcsolódóan eljárásokat kell kidolgoznunk a korpusz minél gazdaságosabb lexikográfiai felhasználhatóságára. Ha ugyanis a korpusz mérete 200-300 millió szövegszónyi lesz, ami manapság a nemzetközi gyakorlat, nyilván id rabló a gyakori szavak több száz, s t több ezer szónyi konkordanciáját végigolvasnunk, hogy abból azt az 5-25 idézetet kiválasszuk, amely majd a szótárba kerül. A jelenlegi lekérdez programmal is megadhatjuk, hogy csupán 60 véletlenszer en kiválasztott el fordulást kelljen átnéznünk a gyakoribb szavak esetén, nem lehetünk azonban biztosak abban, hogy ilyenkor kapunk példát valamennyi lényeges jelentésárnyalatra. Kutatásokat kell tehát folytatnunk abban a tekintetben, hogy miként tehet a mintavételi eljárás kifinomultabbá. Tovább kell fejlesztenünk a lemmatizált keresést szolgáló elemz algoritmust is több irányban: egyrészt optimális megoldást kell találnunk a homográfok egyértelm sítésére, másrészt meg kell oldanunk a történeti karaktereket tartalmazó szövegek lexémára való kereshet ségét is. ------------------------ A jelenleg rendelkezésünkre álló korpusz és a számítástechnnikai eszközök lehet vé teszik a nagyszótár tényleges szótárírói munkájának megindítását. A próbaszókikkek szerkesztése során b víthetjük tapasztalatainkat azon a téren is, hogy milyen irányban kell b vítenünk a korpuszt, és hogyan kell továbbfejlesztenünk a kezeléséhez használt számítástechnikai eljárásokat. Jegyzetek 1. A munkálatot az alábbi támogatások tették lehet vé: TPB KKFA-ATA 1985-1989, OTKA 1989-1990.,OTKA 1991-1994. Nysz:T 003207, OTKA infrastruktúrális m szer pályázat 1992, Nysz: C 008, OTKA 1995-1998. Nysz: T 014798, 2. Az interfész elkészítését az NIIF 1996 Nysz: M-668-96 pályázata tette lehet vé. A programot Váradi Tamás fejlesztette. 3. Standard Generalized Markup Language. 4. Text Encoding Initiative. Bibliográfia Kiss L. - Pajzs J.: A magyar irodalmi és köznyelv nagyszótára (1533-1990) Magyar Nyelv 1989. évf. 2. szám. p. 129-136. Pajzs J.: A számítógépes nagyszótári korpusz felhasználásának lehet ségei Magyar Nyelv 1994. 3. pp. 287-302. Pajzs J.: Számítógépes szótárak mint adatbázisok. NyK 93. kötet 1-2. szám Budapest, 1992-1993. pp. 161-177. 8