A SZÓTÁR adatbázis felhasználása a Szószablya projektben

Átírás

1 A SZÓTÁR adatbázis felhasználása a Szószablya projektben Kornai András Kézirat, v0.95, okt Bevezetés Bár a SZÓTÁR adatbázis kutatási célokra már két évtizede elérhető (a SZTAKI-ban 1984-ben volt a bemutatója), a teljes anyag minden korlátozás nélküli nyilvánosságra hozatalára csak most, a Szószablya projekt honlapján kerülhet sor, mivel húsz évvel ezelőtt a fájlméretek még nem engedték meg a széleskörű hozzáférést. Eredetileg az Éltető László által a SZTAKI-ban kifejlesztett assembler alapú adatbázis-kezelő (részletesen ismerteti Éltető 1985) tette lehetővé, hogy az anyagban keresni tudjunk, most külön figyelmet fordítottunk arra, hogy mindent a Unix héj által kínált eszközökkel, különösen a grep, awk, sed, perl programcsaláddal könnyen kezelhető formába konvertáljunk. Miután a 8-bites karakterek sokszor még ma is zavart okoznak, mindent meghagytunk az akkor használt 7-bites formában, ahol ékezetek helyett az 1-3 számokat használjuk (Prószéky 1985). Moore törvényének hála ma már az egész anyag, mintegy 40MB, minden nehézség nélkül feldolgozható akár átlagos személyi számítógépen is. Húsz éve a magyar szókészletről még csupán két nagyobbnak mondható számítógépes feldolgozás készült: a SZÓTÁR rendszer magját e kettő egyesítése adja (Kornai 1986). Az első, a Papp Ferenc féle a tergo szótár (a továbbiakban VégSz, ld. Papp 1969a) alapját képező ún. Debreceni Thesaurus, nemcsak úttörő munka volt, hanem egyben kulcsot ad a hagyományos magyar lexikográfia eredményeinek a digitális korszakba való átmentéséhez is, hiszen a VégSz az Értelmező Szótár (ÉrtSz) kis híján hatvanezer címszaván alapult (bár Papp és munkatársai ezekhez még számos igen fontos kódot adtak hozzá, a szókészletet egyes durva sajtóhibák javításától eltekintve adottnak vették). A második, a Füredi Kelemen-féle gyakorisági szótár (a továbbiakban GyakSz, ld. Füredi Kelemen 1988) mintegy félmillió szövegszavas mintán alapult, ebből sajnos a tulajdonnevek már kikerültek mire az anyag a SZTAKI gépére került, így 487 ezer szövegszó (91 ezer különböző szóalak), mintegy 42 ezer lemma állt rendelkezésünkre. Azóta természetesen sokkal nagyobb számitógépes lexikográfiai munkák is elkezdődtek: ezek közül külön kiemeljük a Nyelvtudományi Intézetben Pajzs Júlia vezetésével zajló nagyszótári projektet (ld. és a Váradi Tamás vezetésével ugyanott készülő digitális korpuszt (ld. Kornai 2001-ben készített egy jóval nagyobb (4.5 millió weblapon, több milliárd szövegszón alapuló) gyakorisági felmérést, amelyet a kutatást támogató Axelero Internet szíves engedélyével most szintén nyilvánosságra hozunk a Pilot0 könyvtárban, és természetesen ebbe a sorba tartozik a Szószablya projekt is, amely terveink szerint mintegy ötmilliárd szavas mintán alapul majd: ez utóbbit itt most a Web0 korpusszal illusztráljuk. Az egyes anyagok főbb jellemzőit mutatja az alábbi táblázat: VégSz GyakSz Pilot0 Web0 szövegszó NA k 1.26 g 196 m szóalak NA-2 91k k 31.1 m 4.4 m lemma 58 k 42 k NA k 1A. táblázat: a cikkben tárgyalt anyagok főbb jellemzői Jogos a kérdés, hogyha egyszer a GyakSz anyagánál három nagyságrenddel nagyobb felmérések is elérhetők (és a közeljövőben várható a négy nagyságrenddel nagyobb Magyar Webkorpusz), akkor ugyan mi értelme van a SZÓTÁR nyilvánosságra hozatalának, a tudománytörténeti érdekesség? Bár nincs kizárva, hogy az anyag ilyen szempontból is érdekes lehet még a magyarországi számítógépes nyelvészet történetét kutatóknak, a szerző ennek megítélésére nyilván nem hivatott, és nem is célja a tudománytörténeti vizsgálódás. Az ebben a cikkben adott válasz három részből áll. Az első részben egyfajta OLVASS.EL-t adunk a SZÓTÁR-ban megtalálható számos olyan (pl. etimológiai) információról, amelyek a későbbi, nagyobb felmérésekből hiányoznak, tehát közzétételük mindenképpen indokolt. A második részben összehasonlítjuk a különböző, most nyilvánosságra 1

2 kerülő anyagok szerkesztési elveit: mint látni fogjuk, a metaadatok eltérő volta miatt az adatok (tehát a fenti táblázat oszlopai) nem vethetőek mechanikusan össze, ami már önmagában is elég ok a nyers adatok közzétételére. Végül a harmadik részben tárgyaljuk azokat a módszereket, különösen Zipf és Herdan törvényeit, melyekkel a táblázat NA (nincs adat) elemeit meg lehet becsülni: mint ebből kiderül, valójában a SZÓTÁR jóval nagyobb, a Pilot0 pedig jóval kisebb, mint amekkorának az 1A. táblázat alapján látszik. Cikkünk magja a harmadik rész, amelyben nemcsak bevezetjük az olvasót a modern számítógépes nyelvészetben központi szerepet betöltő statisztikai modellek információelméleti alapelveibe, hanem ezeket az elveket a gyakorlatban, konkrét numerikus becslésekre is felhasználjuk. Végső soron a SZÓTÁR és a többi anyag nyilvánosságra hozatalát nemcsak a tudományos etika elemi reprodukálhatósági követelménye teszi szükségessé (Marshall 2003), hanem a statisztikai módszer alapjai is: a nyelv tényeinek vizsgálatához nemcsak nagy és egyre nagyobb mintákra van szükség, hanem arra is, hogy ezek egymástól függetlenek legyenek, hiszen az eredmények alkalmazhatóságát csak ez garantálhatja. A SZÓTÁR teljes nyilvánosságra kerülése biztosítja, hogy mostantól az adatbázis ne csak a Szószablya projektet, hanem általában a magyar számítógépes nyelvészet egészét robusztusabbá, elméletileg és gyakorlatilag megalapozottabbá tehesse. 1. A SZÓTÁR mezőről mezőre Az Éltető László által kifejlesztett rendszer (amelyet a SZÓTÁR-on 1984 végén demonstráltunk) klasszikus, rekordorientált adatbázis-kezelő, amelyben minden szó (vagy lemma) mellett fix hosszúságú, fix értelmezésű mezők állnak. Eredetileg maga a szó is egy 31 karakter hosszú mezőt foglalt le, a mai rendszerben már természetesen nincs szükség arra hogy a mezőket szóközökkel töltsük fel csak azért hogy minden szó pontosan 31 karaktert foglaljon el. Példaképpen álljon itt néhány rekord a szótár fájlból: kedv n CVcvcc F8 O9 T01 A04 PL00 PO04 J03 kedvel v CVcvccvc F7 S78 O9 D1 Gt VY01 IK2 J03 kedves a CVcvccvc F7 O9 D1 T01 HA03 AD04 BB04 J09 FK032 SZF20 kedves a CVcvccvc F8 kedves n CVcvccvc F7 O9 D1 T01 A03 PL04 PO04 J09 FK032 kedvez v CVcvccvc F0 O9 D1 G00504 VY18 IK2 J03 kedvezés n CVcvccvcvvc F0 S78 O9 D1 T01 A03 PL04 PO04 kedvezmény n CVcvccvccvvc F4 Ö D1 T01 A03 PL04 PO04 J02 kedvezményes a CVcvccvccvvcvc F0 Ö D1 T01 HA00 AD07 BB03 J02 kedvez}o a CVcvccvcvv F6 O9 D1 T01 HA00 AD99 BB02 J02 kedvez}otlen a CVcvccvcvvccvc F3 O9 D1 T01 HA00 AD09 BB03 A szót (illetve szóalakot, ld. lentebb) követő első mező a szófaj: ez egy egybetűs kód, amely az alábbi értékeket veheti fel (baloldalt található az adott kategória számossága): n f}onév v ige a melléknév 1519 d határozószó 482 u számnév 340 e indulatszó 305 s névmás 180 c köt}oszó 90 p névutó 57 i igeköt}o 27 k kötött morféma 2 l latin prefix 1 r mutatószó Ezek a szófajkódok az ÉrtSz távolról sem vitathatatlan szófajbesorolásait tükrözik ahol ezek nem egyeznek meg a GyakSz által adott besorolással, ott ez utóbbiakat is feltüntetjük. A kódok jelentését a rendszer eredetileg FU 2

3 fájlokban tárolta (ld. Kornai 1986), ezeket most a Kulcs könyvtárban érheti el az olvasó: az SZF kódok (tehát a GyakSz szófajkódjai) Kulcs/gyak.faj alatt találhatók meg. A szófajt követi a szavak mássalhangzó magánhangzó szerkezetét mutató ún. CV-csontváz (angolul CV skeleton, ld. pl. Clements Keyser 1983). Egy célprogram segítségével minden szóhoz (például illemtanár) új, a CVcsontvázat tartalmazó mezőt rendeltünk (a példában vccvccvcvvc). A program természetesen nem tudott minden digráfról, trigráfról, illetve hangzókiesésről automatikusan dönteni, így a vízsugár típusú szavak CV-csontvázát kézzel kellett kijavítani. (Az összes kétes esetet, tehát mintegy 15 ezer szót át kellett nézni, de szerencsére csak néhány százat kellett kijavítani.) A CV-csontvázat követi a F(rekvencia) mező, amely a GyakSz részletes adataiból csak egyszámjegyű kivonatot ad: ez 0 akkor, ha a szó nem szerepel a GyakSz-ban; 1 akkor, ha 1 gyakorisággal szerepel; 2 akkor, ha többször szerepel, de ugyanabban az anyagrészben; 3 akkor, ha kétszer szerepel, de különböző anyagrészekben; 4 akkor, ha a statisztikai eszközökkel kialakított ún. módosított gyakoriság (Fmod, ld. lentebb) 0 és 2 közé esik; 5 akkor, ha Fmod 2 és 4 közé esik; 6 akkor, ha Fmod 4 és 8 közé esik; 7 akkor, ha Fmod 8 és 20 közé esik, végül 8 akkor, ha Fmod legalább 20 (ld. Kulcs/szótár.f). Mint a cikk második részében látni fogjuk, az F-ben tárolt információ a gyakoriságról ugyan durva, viszont megbízható tájékoztatást ad. Az adatok statisztikai természete miatt több tizedesjegyre csak a felső zónában lévő (F=8,9) szavak gyakoriságát lett volna érdemes megadni, ezek az adatok (melyek kézi használatra a GyakSz-ban eddig is elérhetők voltak), most digitális formában is elérhetővé válnak. Ezután O kulccsal az eredet (a Bárczi-féle Szófejtő Szótár alapján, ld. Kulcs/szótár.ere), majd a VégSz paradigmakódjai következnek. Átvettünk a GyakSz-ból néhány olyan kódot is (SZF, T-kód, homonímia-kód, utóbbiakról ld. Kulcs/gyak.t, Kulcs/gyak.hom), amelyek az egyes homonímák azonosítását könnyítik meg: tekintve, hogy a homonímák beosztása a két anyagban nem ugyanolyan, ezek összefésülése csak kézi munkával, esetről esetre haladva lenne megvalósítható. Ezek a rekordok tehát valójában nem jelentenek új szócikkeket, a SZÓTÁR kibővülése (jelenleg durván 72 ezer rekordból áll) tehát azoknak a szavaknak köszönhető, amelyeket a VégSz nem tartalmazott, ellenben a GyakSz igen. A GyakSz és a VégSz egyesítése azzal következménnyel járt, hogy a CV-csontváz kivételével egyik szempont szerint sem teljes a kódolás: azok mellől a szavak mellől, amelyek csak a GyakSz-ból származnak, hiányzik a debreceni kód, és azok mellől, amelyek a GyakSz félmillió szavas kiinduló anyagában nem szerepeltek (a gyakorisági kód 0) ez persze már önmagában elárul valamit az ilyen szavak gyakoriságáról. Természetesen ezeket a hiányokat jó lenne megszüntetni, ez azonban meglehetősen összetett feladat. Tekintve, hogy a SZÓTÁR kutatási célokra jelen állapotában is jól felhasználható, a teljességre törés önmagában nem indokolhatja a pótlólagos kódolással járó hatalmas munkát: célszerűbbnek tűnik az anyagot a HunSpell nyilvánosan elérhető tőtárával harmonizálni, hiszen a VégSz (és így a SZÓTÁR is) meglehetősen részletes információt tartalmaz a hangrendről, egyes toldalékokról, és paradigma-osztályba sorolást is ad (bár az anyag inhomogén, és ezt csak fokozta az az eljárás, hogy a tőszavak esetén a kódolók átvették az ÉrtSz minősítéseit, de összetételek esetén saját nyelvérzékükre hagyatkoztak ld. VégSz o.). 2. Az adatgyűjtés módszerei A szövegmintákon alapuló nyelvi feldolgozás során három munkafázist különíthetünk el: az első a szövegszavakra bontás avagy tokenizálás, majd a szövegszavak gyakorisági elemzése; a második a morfológiai alapú lemmatizálás, majd a szótövek gyakorisági elemzése; a harmadik az egyértelműsítés avagy dizambiguálás, majd az egyes szójelentések gyakorisági elemzése Szövegszavakra bontás Bár a nagyobb léptékű szótárak hagyományosan szövegmintákon, pontosabban az ezekből készült cédulakatalóguson alapulnak, a szövegszavakra bontás mint probléma fel sem szokott merülni, mert azt a kézi előfeldolgozás során a lexikográfusok mintegy észrevétlenül elvégzik. Egészen más a helyzet a gépi alapú feldolgozásnál, hiszen a gépnek semmi nem magától értetődő, sem az, hogy a nagy- és kisbetűs alakokat egybeejtjük-e (Aztat, AZTAT és aztat hány szövegszó-típusba kerül), sem az, hogy mit kezdünk az ilyen normatív szempontból esetleg szubstandard alakokkal. Általában már a szövegszavakra bontás során meg kell hozni számos olyan döntést, ami a későbbi fázisok eredményét nagyban befolyásolja, ezeket itt csak címszavakban soroljuk fel, durván az algoritmizálás növekvő nehézsége szerinti sorrendben. 3

4 Határoló elemek A tipikus határoló elem a szóköz (whitespace), de az algoritmusnak gondoskodnia kell a szóköz-értékű egyéb elemek, pl. a sorhagyó szóköz (HTML-ben ), a tabulátorjel (horizontal tab), a soremelés (carriage return, linefeed, vertical tab), a csengőjel (visible bell) és egyéb nyomdai értékkel nem rendelkező (non-printing) karaktereknek, illetve ezek sorozatainak helyes kezeléséről is Elhagyandó elemek A szavak elején és végén gyakran találunk olyan írásjeleket, mint a pont, vessző, különféle zárójelek, melyeket szótárkészítési szempontból nem szokás a szó részének tekinteni. Ezek törlése nem mindig triviális feladat, hiszen esetenként mégis a szó részének számítanak, pl. Compute! magazin, Dr. Schwartz. Külön kiemeljük a kötőjeleket, amelyek szó végén az elválasztást jelölik, vagyis tisztán nyomdatechnikai okokból jelennek meg, és így a tokenizálásnál elhagyandóak. A kisés nagybetű jellegű esetek ez alól kivételt jelentenek, hiszen a kötőjel itt összetételből törölt elemet jelző konvenció, nem pedig a *kisés szó elválasztására szolgál Karakternormalizálás A modern (pl. a világhálón található) szövegekben igen sokféle karakter-kódolás található, ezek közül külön kiemeljük az ISO és szabványokat, és a HTML-entitások rendszerét. Például az ő betű (és egyben teljes jogú szó) lekódolható mint oktális 221, 265 és mint HTML ô is. Ide tartozik a fontosabb szövegszerkesztő programok, pl. a TeX/LaTeX által használatos kódok helyes kezelése is és a hálózaton sajnos rendkívül elterjedt ekezettelen irasmod is Nagy- és kisbetű Gyakorlati szempontból négyféle mintázatot szokás elkülöníteni: MINDNAGY, Elejenagy, mindkicsi és MindenEgyéb. Bár minden (számokat és írásjeleket már nem tartalmazó) szóalak minden előfordulása beleilleszthető ezen minták valamelyikébe, algoritmikus szempontból külön nehézséget okoz a kontrasztív és egyéb hangsúlyt jelző nagybetűk (erre MOST vigyázz) elkülönítése a betűszók inherens nagybetűitől (FTC), továbbá a mondat eleji és a mondaton belüli nagybetűhasználat megkülönböztetése Egybe, külön, kötőjellel, elszakítva Az akadémiai helyesírási szabályok pedagógiai szempontból igen kudarcos részét alkotják az egybe- és különírás szabályai: az empirikus anyag igen komoly számmal tartalmaz olyan alakokat, ahol a szabályt a szerző nem tartja be. Külön megemlítjük az elváló igekötők (nem pistul bele lehetőleg belepistul nem pedig pistul bele alatt gyűjtendő) és a klitikumok (tényleg pesti-e) esetét ban kitérünk a konvencionálisan szóközzel írt, de valójában összetett szót (frázist) alkotó alakokra is (Magyar Nemzeti Bank, 12 pont) Gyakoriság A fenti kérdések kezelésére kialakított szerkesztői elvek ismerete nélkül még azok a látszólagosan triviális kérdések sem válaszolhatók meg értelmesen, hogy hány szó(alak)ból álló szövegminta alapján készült a vizsgálat, hány különféle alakot találtunk, és ezeknek mi a gyakorisága (ld. fentebb az 1A. táblázatban). A VégSz és a GyakSz elveit jól leírja ezek bevezetője, a Magyar Webkorpusz esetén pedig a fenti feladatokat végző algoritmusok (is) nyilvánosan, forráskóddal együtt elérhetőek lesznek, így itt csak a már említett Pilot0 felmérés tokenizálási hátterét tárgyaljuk. A Northern Light keresőmotor belső felépítéséből adódó okok miatt a szövegszavak mind nagybetűs alakra vannak konvertálva, ezekben 8-bites magyar ékezetek nincsenek (az ékezetek 123-kóddal szerepelnek), a szövegszavak elválasztása agresszív (a kötőjel kizárólag szó elején, az előjeles számokban megengedett), az írásjelek törlése (a számokban megengedett tizedespont kivételével) hasonlóan. Tokenizálásra kerülnek viszont az URL-ek, így lett a leggyakoribb szóalak a HU, hiszen ez minden vizsgált lapnál legalább egyszer előfordul. Külön hangsúlyozzuk, hogy ebben a felmérésben nem egyszerűen szógyakoriságot (text frequency, TF), hanem dokumentumgyakoriságot (document frequency, DF) mértünk, tehát ha egy alak mellett a 3 szám szerepel, az nem azt jelenti hogy 1.26 milliárd szóból háromszor fordult elő, hanem azt, hogy 3 olyan weblap volt ahol előfordult, esetleg laponként többször is. Illusztráció gyanánt álljon itt a Pilot0 gyakorisági lista első 10 eleme (zárójelben a GyakSz megfelelő adatai): 4

5 HU (0) A (42655) LISTS (0) DIRECTORIES (0) AZ (13168) ÉS (8759) IS (4426) (0) E (164) NEM (8624) Mint látható, az adatok mechanikus összevetésére nincs mód, de annyi azért már a fentiekből is kikövetkeztethető hogy a Pilot0 hiába alapul több ezerszer nagyobb mintán, mint a GyakSz, adatai ilyen formában még nem alkalmasak a GyakSz eredményeinek finomítására. Az ehhez szükséges statisztikai módszerek alapjaival a 3.2. részben foglalkozunk Tövezés A szótő (illetve összetételek esetén szótövek) megtalálása igen komplex nyelvészeti feladat, melynek nehézségeit itt nem is tárgyaljuk, hiszen a morfológiai szakirodalom nagy része valamilyen formában ezzel foglalkozik. Számítógépes lexikográfiai szempontból azonban e nehézségek igen nagy része kikerülhető az alább felsorolt általános elvek következetes érvényesítésével Ragok és jelek igen, képzők és összetételek nem A leíró nyelvészet hagyományosan két affixum-kategóriát különböztet meg: derivációs és inflexiós elemeket; a magyar nyelvészeti hagyomány ezzel szemben három kategóriával dolgozik: képző, jel, rag. Mint Antal (1977) kimutatta, a képzők derivációs, a ragok és jelek inflexiós elemek, így a továbbiakban a jeleket mi is a ragokhoz soroljuk. Különösen az információ-visszakeresés (IV, angolul information retrieval, IR) szempontjából fontos, hogy azokat a szóalakokat, amelyek ugyanazt jelentik, csupán mondatbeli szerepük más, ugyanahhoz a lemmához soroljuk (utazásra, utazáshoz, utazások stb.) és megfordítva, olyan szóalakokat, amelyek nem jelentik ugyanazt (út, utas, utazás) ne soroljunk egy lemma alá, még akkor sem, ha teljesen világos, hogy egy tőből képezzük őket Összetett szavak nem Információ-visszakeresési kontextusban magától értetődő, hogy aki talajgyalut keres annak a talajjal vagy a gyalukkal foglalkozó weblapok nem lesznek különösebben érdekesek, így az összetett szavak elemzése, bár tisztán morfológiai szempontból teljesen indokolt, az IV szempontjából egyenesen káros. Kivételt jelentenek az elváló elemek (a magyarban tehát elsősorban az igekötők), hiszen ezeknél a különböző szóalakok (pl. belehúzott, húzzál bele) valóban ugyanazt a jelentést belehúz, iparkodik hordozzák Produktív, átlátható, (szófajváltó) képzők igen Kivételt jelentenek alól azok a képzők, amelyek az alábbi három, egymást többnyire támogató kritériumnak mind megfelelnek: legyenek produktívak (diakrón szempontból a szótárban gyakran tűnjenek fel új ilyen elemek), legyenek átláthatóak (a képzett szó jelentése a tő és a képző jelentéséből előre megjósolható legyen), és a bemenő tő szófaját változtassák meg. Világosan ide tartozik pl. a melléknévből főnevet képző -ság/ség vagy a főnévből melléknevet képző -as/es/os/ös. Természetesen ezeknél is vigyázni kell a túlelemzés elkerülésére, tehát fürdőszobás annyi mint fürdőszobával rendelkező de házas tipikusan házasságban élő nem pedig házzal rendelkező, tehát a lexikalizálódott forma elérésénél az elemzést abba kell hagyni. A Szószablya projekt keretében fejlesztett HunStem tövezőben a felhasználó által beállítható, hogy mely képzőket választunk le. A -ság és -os mellett ezek alapértelmezésben a következőek: -i, -jú, -nyi (ha külön melléknévként nincs felvéve); -gat (csak az l, z, zik, szt végű igéknél, ahol a gyakorító mozzanat a jelentést csak igen kevéssé befolyásolja); -cska kicsinyítő (bár ez nem szófajváltó); a melléknévi igenévi alakok -andó, -ott, -ó; végül a feltételes -hat. Viszont tulajdonnevek esetében akkor is eltávolítjuk az -i képzőt ha a képzett alak szerepel a szótárban: budapesti Budapest. 5

6 Gyakoriság Hogy a Szószablyában mi kerül egy (morfológiai alapú) lemmába azt a fentebb összefoglalt tövezési elvek definiálják. Miután ezek nem esnek teljesen egybe sem a magyar lexikográfiai hagyományt hűen követő VégSz, sem a saját jóval kifinomultabb logikáját követő GyakSz lemmatizálási elveivel, az 1A. táblázat oszlopainak összehasonlítását ez is nehezíti, bár nem teszi lehetetlenné. A Pilot0 esetén a fő problémát valójában nem a tokenizálási és lemmatizálási konvenciók eltérő volta, de még csak nem is a gyakorisági számadatok eltérő jellege (TF helyett DF) jelenti, hanem a kiinduló adatok tisztítatlan volta. Míg a VégSz és a GyakSz (tehát a SZÓTÁR egésze) nyilvánvalóan magyar nyelvű anyagokon alapszik, a Pilot0 mintában a.hu tartományba tartozó angol, német, és más nyelvű lapok szabadon keverednek a magyar nyelvűekkel. Mint későbbi vizsgálataink mutatják, a teljes minta jelentős részét ezek adják! Az alábbiakban közöljük az 1A. táblázat egy korrigált változatát, melynek első oszlopában megelőlegezünk néhány olyan becslést, melyet csak a 3. részben indoklunk majd meg részletesen. A Pilot0 oszlopban szereplő összesítésből kivettük azokat az alakokat, melyeket a Szószablya keretében kifejlesztett hunspell helyesírás-ellenőrző (Németh 2003) nem fogad el Egyértelműsítés VégSz GyakSz Pilot0 Web0 szövegszó 2.7 m 487 k 786 m 191 m szóalak 140 k 91k k 2.9 m 4.4 m lemma 58 k 42 k 702 k 611 m 1B. táblázat: a főbb jellemzők korrigált (becsült) értékei A szótárkészítés fontos lépése az egyes szójelentések (pl. nap 1 égitest és nap 2 időszak ) megkülönböztetése. A probléma nehézségének legfontosabbb mérőszáma az elágazási fok, mely durván azt méri, hogy egy szóalakhoz átlagban hány értelem tartozik: ez a GyakSz alapján megközelítőleg 1.17 (tehát a legtöbb szó egyértelmű). A lentebb részletesen tárgyalt technikai okok miatt (ld rész) nem is ezt a számot érdemes használni, hanem ennek 2 alapú logaritmusát, amely a többértelműséget bitekben méri: a GyakSz alapján ez a mennyiség 0.23 bit. Az egyértelműsítés feladatát logikailag két részre bonthatjuk: szófaj szerinti, illetve jelentés szerinti egyértelműsítés Szófaj szerinti egyértelműsítés Igen gyakran a szavak (mind a szótövek mind a szóalakok) különféle értelmei már a szófaj alapján elkülönülnek: pl. az ég 1 égbolt főnév, az ég 2 tűz emészti pedig ige. A morfológiai elemzés a szófaj felismeréséhez igen gyakran jelentős segítséget ad: égek nyilván ige, egek főnév. Bár vannak szép számmal a morfológia alapján eldönthetetlen esetek (pl. legyek többes számú főnév vagy egyes szám első személyű ige), ha a rendelkezésünkre áll egy szófajbesoroló algoritmus (angolul part of speech tagger), akkor ezzel a többértelműségek igen nagy részét kezelni tudjuk: a GyakSz anyagán mérve 0.20 bitet Egy szófajon belüli egyértelműsítés Kiinduló példánk (nap 1 égitest és nap 2 időszak ) egyértelműsítéséhez a szófaji információ nem elegendő, itt ezen túlmenő kontextusra van szükség. Az esetek egy részében ezt a közvetlen szövegkörnyezet megadja (sikeres nap nyilván időszak míg fősorozatbeli nap nyilván égitest ), de máshol még ez sem elég, pl. millió nap. Ahol a megoldás olyan sok szintaktikai, szemantikai, sőt gyakran pragmatikai változó függvénye, mint ebben a problémában, és ahol e változók pontos mibenléte nem is ismert, ott előtérbe kerül a statisztikai elemzés. Ennek alapján a szófajon belüli többértelműségek elágazási foka jóval kisebb, a GyakSz anyagán mindössze 1.02: a biteket összevetve tehát azt mondhatjuk, hogy a morfológiai elemzés az egyértelműsítés problémáját több mint 87%-ban megoldja. 3. A gyakoriság kvantitatív törvényei 3.1.-ben bevezetünk egy meglepően egyszerű valószínűségszámítási modellt, amely a további tárgyalás alapja lesz. (A részletes levezetéseket elhagyjuk, mindvégig csupán a középiskolás matematikaanyag ismeretét tételezzük fel.) A hagyományos nyelvészet legfontosabb adatstruktúrája a szótár, a modern nyelvészeté pedig a rejtett Markov modell (Hidden Markov Model, HMM): 3.2.-ben bemutatjuk, hogy a matematikai modell hogyan alkalmazható nem csak 6

7 e két alapvető struktúrára, hanem a számítógépes nyelvészetnek számos olyan látszólag más területhez tartozó algoritmusára is, mint a 2.1.-ben tárgyalt szavakra bontás (tokenizálás), a 2.2.-ben tárgyalt morfológiai elemzés (lemmatizálás), és a 2.3.-ban említett szófajmeghatározás. A gyakoriság Zipf és Herdan nevéhez kapcsolódó törvényeit a 3.3. szakaszban tárgyaljuk Az egyszerű (unigram) modell Legyen egy nagy csomag kártyánk, melyeknek előlapján nemcsak a szokásos szimbólumok (makk hetes, pikk dáma) hanem egy absztrakt F i (1 i K) szimbólumkészlet bármely eleme szerepelhet. A kártyák hátlapjáról egy másik (diszjunkt) B j (1 j L) szimbólumrendszer elemei olvashatók le nem kötjük ki sem azt, hogy F i és B i között egy-egy megfeleltetés legyen, sem azt hogy a csomagban minden F i, B j feliratozású kártya előforduljon. Ahhoz sem ragaszkodunk, hogy az F i (vagy B j ) valószínűségei egyenletesek legyenek, viszont ahhoz igen, hogy amikor a csomagból újabb és újabb lapokat húzunk (elemi Bernoulli kísérlet), akkor ezt a lap visszatételével és a csomag újbóli megkeveréssel kössük össze (azért hogy minden lap ugyanabból az eloszlásból vett véletlen minta legyen). Lehet célunk például egy olyan magyar-angol szótár, amely (i) nem csak lemmákat, hanem szóalakokat is tartalmaz, továbbá (ii) nemcsak alternatív fordításokat, hanem ezek gyakoriságát is megadja. Ebben az esetben a kártyák látható oldalán (előlapján) a magyar szavakat, hátlapjukon pedig ezek angol fordításait tüntetjük fel, ügyelve arra, hogy a magyar szavak a magyar, az angol szavak pedig az angol szövegben vett előfordulási gyakoriságukkal legyenek szerepeltetve. Külön említésre érdemes az a standard eljárás, hogy a szótárat mindkét oldalon kiegészítjük egy ismeretlen F 0, illetve B 0 szóval: erre részben az ad okot, hogy a szótárból mind a magyar mind az angol oldalról természetesen hiányoznak elemek, részben pedig az, hogy a fordítások listája sem mindig teljes. A két eloszlás, tehát P (F i ) és P (B j ) empirikusan vizsgálható. Például megmérhetjük hogy az angol oldal entrópiája (az információ továbbításához átlagban szükséges bitek száma) H(F ) 12.7, míg a magyar oldalé H(B) Az ehhez szükséges adatok akár egynyelvű gyakorisági szótárakból, illetve egynyelvű korpuszokból is könnyen beszerezhetők/számolh az alábbi módon. Az információelmélet alapvető definíciója szerint a P (F i ) valószínűségekkel adott eloszlás entrópiája H F = i P (F i ) log(p (F i )), (1) ahol szokás szerint 2 alapú logaritmust és a 0 log(0) = 0 konvenciót használjuk. Bár a P (F i ) számokat pontosan nem ismerjük, rendelkezésre áll ezeknek a korpuszban mért (korrigálatlan) becslése: ha a korpusz az F i alakot n i -szer tartalmazza, és összesen N szövegszóból áll, akkor ez P (F i ) = n i /N. Ezt a maximum likelihood becslést alkalmazva például a GyakSz alapján a magyar széppróza entrópiája nak adódik. A Shannon-féle kódolási tétel alapján tehát a széppróza minden egyes szövegszava átlagban ennyi bit információt továbbít. Ez a szám lényegesen kisebb a fentebb idézett 15.4 bitnél, amit elsősorban azzal magyarázhatunk, hogy a képletet a tulajdonnevek elhagyása (tehát a korpusz információtartalmának jelentős csökkentése) után alkalmaztuk A morfológiai elemzés mint unigram modell Legyenek a kártyák előlapján a szóalakok, hátoldalán pedig a szótövek (szótári alakok, lemmafejek). Az (1) képlettel kiszámolhatjuk nemcsak a szövegszavak alapján vett H F, hanem a lemmák alapján vett H B entrópiát is: ez a GyakSz esetében bitnek adódik. A kettő különbsége éppen azt fejezi ki, hogy a morfológiai alapú lemmatizálás mennyit mos el a részletekből: mint látható az eredmény meglehetősen alacsony, mindössze 1.38 bit, ami azt jelzi hogy egy szótő (lemma) átlagban = 2.6 alakban fordul elő. Bár az egyértelműsítés hatását (amely mintegy 0.2 bitre tehető) ebben a számításban elhanyagoltuk (ld. lentebb), a 2.6-os szorzó lényegesen jobban kifejezi a morfológiai rendszer bonyolultságát, mint az egy lemmához tartozó szövegszavak (gyakorisággal súlyozott) átlaga, amely ugyanezen a korpuszon csak Ezeket az értékeket felhasználhatjuk az 1A. táblázat első oszlopából a VégSz hiányzó szóalakszámának (NA-2) megbecslésére: mint látni fogjuk az alak/lemma arány segítségével alulról (127 k alak), a reálisabb elágazási szám segítségével pedig felülről becslünk (151 k alak) meg: az 1B. táblázatban szereplő 140 k egyszerűen ezek középértéke. Miután a dolog az információelméletben járatlanoknak szokatlannak tűnhet, tekintsük egy egyszerű példanyelvet, amelyben csupán 4 szó van: lesz, lett, meleg, és hideg, és tegyük fel, hogy a korpusz végig meleg lett, illetve hideg lesz és hasonló mondatokból áll. Miután a négy szó mindegyike egyforma, 1/4-es valószínűséggel szerepel, az eloszlás entrópiája H F pontosan 2 bit. A morfológiai elemzés során 3 tövet különítünk el: len- a lesz, lett alakok töve, a meleg, hideg szavak pedig önmaguk tövei. Mivel az igei tő kétszer olyan valószínű, mint a melléknéviek, a kártyák 7

8 hátlapjának valószínűségi eloszlása (0.5, 0.25, 0.25), ennek entrópiája pedig 1.5 bit. A morfológiai elemzés hozadéka közvetlenül kiszámolható, hiszen a meleg, hideg tövek ismeretében a pontos alak meghatározásához 0 bit, a lenismeretében pedig 1 bit információra van szükség, ezek valószínűségekkel súlyozott átlaga tehát 0.5 bit. Általában, ha a kártyák hátlapja és előlapja közti asszociáció az egyik irányban egyértelmű (mint példánkban, ahol minden alakhoz egyértelmű tő tartozik), akkor az asszociáció H F B információtartalmát egyszerűen az előlapi és a hátlapi entrópiák különbségeként nyerjük, példánkban 0.5= Az ebből számolt elágazási 2 H elágazási fok példánkban = 1.41, míg a kvantitatív nyelvészetben gyakran mért alak/lemma arány ennél a példánál 4/3=1.33. Bár ez jóval egyszerűbben számolható (ezért igen hasznos) mérőszám, mint a példa is mutatja, a valós morfológiai komplexitásra csupán alsó becslést ad, és annak sem túl pontosat. Összefoglalva az eddigieket, minden olyan rendszer, ahol valószínűségi súllyal szereplő bemenethez (előlapi szimbólumok) valószínűségi súllyal rendelkező kimenetet (hátlapi szimbólumok) rendelünk, felfogható úgy, mint egy P (F i, B j ) (kártya)modell. Ezen valószínűségekből már kiszámolható az előlapok eloszlásának H F, a hátlapok eloszlásának H B, és az egész rendszernek H F,B entrópiája. Gyakorlati szempontból különösen fontosak a P (B j F i ) feltételes eloszlások és P (F i B j ) duálisaik, hiszen ezek mondják meg, hogy milyen gyakorisággal fordítjuk a nap szót, mint sun, illetve, mint day, vagy, hogy milyen valószínűséggel rendeljük például a kapunk szóalakhoz a kapu, illetve a kap tövet. A GyakSz anyagában a megtesz tőnek a legnagyobb az entrópiája (78 alak, 5.00 bit), ezt követi az elvisz (108 alak, 4.94 bit). Mint ez a példa is mutatja, az alaktani változatosságot sokkal jobban jellemzik a feltételes entrópiák, mint az alakok leszámolása: a megtesz = 32.1, az elvisz pedig = 30.7 elágazási fokkal fordul csak elő. Ha a rögzített F i -hez tartozó P (B j F i ) eloszlás entrópiáját H Fi -vel jelöljük, akkor az asszociáció egészének H B F entrópiáját ezek súlyozott átlagai adják meg, képletben: H B F = i P (F i )H Fi. (2) A gyakorlati számításokat nagyban megkönnyíti, hogy érvényesek az alábbi összefüggések: H F + H B F = H B + H F B = H F,B. (3) Hangsúlyozzuk, hogy az asszociáció nem szimmetrikus: pl. annak az ismeretéből, hogy a magyar szóalakok entrópiája 15.4 míg az angoloké csak 12.7, egyáltalán nem következik, hogy a fordítás feladatának komplexitása éppen a különbség (2.7 bit/szó) lenne. (Valójában a magyar-angol rendszer teljes entrópiája csak párhuzamos szövegen mérhető, és ha ez mondjuk 20 bit, akkor a magyar-angol fordítás =4.6, az angol-magyar fordítás pedig tehát 7.3 bit megadását igényli.) Ha az ilyen valószínűségi információkkal kiegészített szótárat invertáljuk, tehát a kártyákat hátulról nézzük (a P (B j F i ) ismeretében P (F i B j ) triviálisan számolható), akkor már el is jutottunk a rejtett Markov modellek (Hidden Markov Model, HMM) alapjaihoz. Az ilyen modellekben a kártyák hátoldalára a modell rejtett állapota, a kártyák elejére pedig a modell felszíni megfigyelései (angolul observables) vannak felírva: az unigram HMM ezt még az egyes állapotok közti átmenetvalószínűségek táblájával (és esetleg bemeneti valószínűségekkel) egészíti ki. Az unigram HMM tehát a gyakorisági szótár fogalmának általánosítása. Az n-gram HMM még ennél is tovább lép, vagyis az állapotok kimeneti valószínűségeit nem csak a közvetlenül megelőző, hanem az előző n állapot mibenlététől teszi függővé Zipf és Herdan törvényei Ha a szavakat gyakoriság szerint csökkenő sorrendbe állítjuk, Zipf klasszikus törvénye azt mondja ki, hogy az i-edik szó gyakorisága, p i arányos 1/i B -vel, ahol B 1-nél valamivel nagyobb konstans (Mandelbrot 1959), tehát log(p i ) log(i)-nek B iránytangensű lineáris függvénye lesz. Ezt mutatja az alábbi ábra: 8

9 12 "gyaksz" "pilot0" "web0" ábra: Zipf törvénye A normalizálatlan Zipf-görbék tengelymetszetei a korpusz méretével együtt nőnek, tehát az egyenesek feljebb és feljebb csúszása természetes. Ahol viszont az iránytangens jelentős megváltozását látjuk ott joggal gyanakodhatunk strukturális okokra (ld. lentebb). Zipf törvényével lényegében ekvivalens Herdan (1960) törvénye, mely szerint egy N elemű mintában N C különböző elemet találunk: a Herdan-törvény C konstansa éppen a Zipf-törvény B konstansának reciproka (Kornai 1999). Valójában B nem becsülhető jól a fentihez hasonló görbék lineáris regressziójával, sokkal célszerűbb a becslést Herdan törvényén keresztül végezni: ha a minta mérete N, és ezek közt V különböző van, akkor C = log(v )/log(n), B = log(n)/log(v ). Ügyelni kell arra, hogy a minták növekedtével a becsült érték C-hez felülről, és viszonylag csak lassan konvergál, ezért kis minták C-re csak felső, B-re pedig csak alsó becslést adnak (Mandelbrot 1961). Ebből a szempontból a félmillió szavas GyakSz még nagyon kicsi, az ebből számított C = 0.87 érték ezért csak durva felső becslésnek tekinthető. Miután a Pilot0 DF és nem TF alapú, ezért C-re alsó becslést ad: ez Ismét a kettő középértékét véve, C = 0.8- cal nyerjük az 1A. táblázat első oszlopából a VégSz hiányzó tokenszámának (NA-1) becslését: 140 k szóalakhoz durván 2.7 m szót kell átnézni. Azt állítjuk tehát, hogy ha veszünk egy ekkora random mintát a magyarból, akkor ebben lesz legalább 140 k különböző szóalak, és ezek morfológiai elemzés után legalább 58 k lemmába fognak tartozni. (A jelentés szerinti egyértelműsítés hatása, mint fentebb láttuk, elhanyagolható, de ez természetesen a lemmaszám növekedését, nem pedig csökkenését hozná.) Azt viszont nem állítjuk, hogy ez az eljárás éppen a VégSz szókincsét, tehát a magyar szótárkészítési hagyomány szerint legfontosabbnak ítélt szavakat eredményezné! Arra természetesen nem adható becslés, hogy pontosan ezeket a szavakat mennyi anyag átnézése után találnánk meg lehet hogy soha, mert egyik vagy másik szó a szótárban csak a cédulakatalógusban ejtett hiba miatt szerepel. Értelmesebb az a kérdés, hogy mekkora mintában garantálhatjuk hogy a VégSz 58 k szavának mondjuk 95% már szerepelni fog: ennek okai a VégSz és a GyakSz anyagának szisztematikus összevetéséből már világosak. Fenti konzervatív becsléseink alapján egy GyakSz-méretű (487 k szavas) mintában durván = szóalakot várhatunk, melyek durván 14 k lemmába sorolhatók, tehát a VégSz anyagának java, 58-14=44 k lemma, a GyakSz-ban eleve nem szerepelhetne. Bár a GyakSz ennél jóval nagyobb változatosságot mutat, lévén tudatosan válogatott (nem-random) minta, a két anyag összevetéséből az derül ki, hogy mintegy 36 k lemma, tehát a VégSz anyagának többsége, valóban nem szerepel a GyakSz-ban. Ha ezen szavak listáját megvizsgáljuk a jóval nagyobb Pilot0 felmérésben abban a reményben, hogy a félmillió szavas GyakSz hiányosságait a több milliárd szavas web majd bepótolja, akkor arra a meghökkentő eredményre jutunk, hogy ez távolról sincs így. A több ezerszeres korpusznövekedés a hiányzó 36 k lemmának mindössze negyedét pótolja, vagyis összesen 9 k olyan lemmát találunk, amelyik a GyakSzban még nem, de a Pilot0-ban már szerepel. 9

10 A maradék kézi átnézése rögtön világossá teszi, hogy mi az eltérés oka: a VégSz tele van olyan lemmákkal, mint ágfa vagy áfium, melyekről a kortárs magyar beszélő legfeljebb homályosan tudja, hogy mit jelentenek. Amíg a Török Áfium Ellen Való Orvosság ki nem kerül a világhálóra, addig az áfiumot a Pilot0 és Web0 jellegű felmérések egyszerűen nem fogják megtalálni. Ami tehát a VégSz erénye, a magyar lexikográfiai hagyomány követése, az a egyben hátránya is: a hagyomány diakrón alapú. Miután a kortárs nyelv számára ez csak egy a vizsgálható nyelvi rétegek közül, és a szótárkészítésben nincs is kitüntetett szerepe, az elsősorban a kortárs nyelvhasználat felé forduló nyelvtechnológiai alkalmazások nem fogadhatják be kritika nélkül a hagyományos magyar lexikográfia eredményeit. Ezeknek digitális formában való közzététele azonban mindenképpen hasznos, nemcsak azért, mert a SZÓTÁR számos olyan adatot és szempontot tartalmaz amelyek a korszerűbb és nagyobb felmérésekből hiányoznak, hanem azért is, mert a statisztikai elemzést ezen adatok bevonása jóval robusztusabbá teszi. Köszönetnyilvánítás Ez úton is szeretnék köszönetet mondani Füredi Mihálynak és Prószéky Gábornak, Könyves-Tóth Kálmánnak, aki a VégSz lyukkártyáit megmentette az enyészettől, és mindazoknak, akik annak idején az SZTAKI-ban a SZÓTÁR létrehozásához hozzájárultak: Bodó Évának, Détári Györgynek, Éltető Lászlónak, Tóth Péternek, és Vámos Tibornak. Az anyag nyilvánosságra hozatalát az Axelero Internet hathatós támogatása tette lehetővé, e munka megírását pedig az IHM IKTA programja. Külön köszönet a Szószablya projekt résztvevőinek, akik a cikk megírásához számos hasznos tanáccsal, anyaggal, és észrevétellel járultak hozzá. Irodalom Antal L. 1977: Egy új magyar nyelvtan felé. Magvető, Budapest. Clements, N. Keyser, S. 1983: CV Phonology. MIT Press, Cambridge, Mass. Éltető L. 1985: Uj adatbáziskezelő rendszer VM/CMS alatt. Információ Elektronika. Kornai A 1986: Szótári adatbázis az akadémiai nagyszámítógépen. MTA Nyelvtudományi Intézet Working Papers II Kornai A. 1999: Zipf s law outside the middle range. Proc. Sixth Meeting on Mathematics of Language, University of Central Florida, Mandelbrot, B. 1961: On the thory of word frequencies and on related markovian models of discourse. In R. Jakobson (ed): Structure of language and its mathematical aspects. American Mathematical Society, Providence RI, Marshall, E. 2003: The UPSIDE of Good Behavior: Make Your Data Freely Available. Science v 299 Feb 14 p 900. Papp F. 1969a: A Magyar Nyelv Szóvégmutató Szótára. Akadémiai Kiadó. Budapest. Prószéky G. 1985: Automatizált morfológiai elemzés a nagyszótári munkálatokban. Kézirat, MTA Nyelvtudományi Intézet 10