Megjelent: Zsengellér József (szerk.): A pergamentől a számítógépig. Acta theologica Papensia 8. Pápa, Pápai Református Teológiai Akadémia 2004. 109-119.o. Kodácsy Tamás: Héber kéziratok a bitek világában 1. Bevezetés Ma már a számítástechnika nem csak a természettudományok és a matematika világában van jelen, hanem mindennapos eszközzé vált a teológiai munkában is, különösen a bibliai szövegek elemzése és az elektronikus konkordancia használata kapcsán. Tapasztalatom szerint a teológusok alapvetően kétféle módon viszonyulnak az elektronikus bibliai szövegek használatához: merev elutasítással, vagy feltétlen bizalommal. Mindkét hozzáállás veszélyes. Akik elutasítják ezeknek a használatát, olyan eszközöktől fosztják meg magukat, amelyeket hagyományos módszerekkel csak évekig, vagy évtizedekig tartó szorgalmas munkával lehetne pótolni. Egy elektronikus konkordancia, amely az igényeknek megfelel ő mintakeresést pillanatok alatt képes végrehajtani egy több kötetes szövegen, messze hatékonyabb, mint bármilyen nyomtatott konkordancia. Hiába idegenkednek némelyek a számítógép használatától, előbb-utóbb úgy is rá lesznek kényszerítve arra, hogy használják ezeket a szöveg-feldolgozó alkalmazásokat. Ez a cikk nem azért íródott, hogy őket meggyőzze, hanem azért, hogy vázlatosan bemutassa azt a folyamatot és annak buktatóit, hogy mi módon kerül egy kézirat a számítógépre. Mai világunkban két alapvet ő módon továbbítjuk az információt: hang és kép formátumban. E két információhordozó közül informatikai szempontból a hang az, ami bizonytalanabb és kényesebb. Vegyünk szemügyre egy számítógépes hálózatot, ahol az összekötött számítógépek pillanatok alatt képesek egy több ezer oldalas könyvet file-ként az egyik gépről a másikra szállítani. Azonban ha hangról van szó, akkor mintha azt tapasztalnánk, hogy a gép legbelül összerezzen, a futó alkalmazásai esetleg lefagynak, és minden idegszála arra összpontosít, hogy a kívánt hangot kipréselje a hangszórókon. Az ok a hang természetében rejlik: ahhoz, hogy a hang valóban információ legyen, nem elég, hogy a hangot tartalmazó információt gyorsan az egyik helyről a másikra lehessen szállítani, hanem mindezt folyamatosan kell szállítani. A hang, hullám természete miatt csak akkor információ, ha folyamatosan, megszakítatlanul érkezik. Összefoglalva: amíg van értelme álló képről beszélni, addig nincs értelme az álló hangnak. Megjegyzem, csodálatos módon az Isten mégis a kényesebb információhordozó, a hangot választotta ki arra, hogy a legfontosabb üzenetet, az evangéliumot továbbadjuk. Azért a hit hallásból van, a hallás pedig Isten Igéje által (Róm. 10:17) A szó elszáll az írás marad szólás azt sugallja, hogy a leírt szöveg biztonságos, abban meg lehet bízni. Tudnunk kell azonban, hogy azok a szövegek, amelyeket számítógépen használunk egy hosszú munkafolyamat eredményeként jöttek létre. Akármilyen szövegről is legyen szó, azt a szöveget valahogyan kódolni kellett ahhoz, hogy a számítógép memóriájába kerülhessen. A számítógép memóriája csak azokat
az információkat rögzíti és onnantól kezdve csak azok elérhetőek, amelyekről a szöveg kódolója úgy döntött, hogy értékes információ, és rögzíteni kell. A szöveg számítógépre vitele tehát döntések sorozata, amelyeket emberek hoznak. 2. Szöveg-feldolgozási projektek A teológusok által használt bibliai segédprogramok (Bible Works, Logos) elkészítésse mögött több olyan csoport áll, amelyek a bibliai szövegeket feldolgozták. Néhányat felsorolok a legfontosabbak közül: Werkgroep Informatica, 1977-ben alapították az amszterdami Vrije Egyetem Teológiai Fakultásán, ószövetségi szövegek feldolgozásával foglalkozik. Nem csak a szövegek számítógépre vitelével, hanem az egyes alakok analizálásával is foglalkozott. Sőt, itt jelenik meg a szöveg analizálásának egy magasabb szintje, a szöveg klózokra (több szóból álló egység) bontása, és az ezek közötti viszony implementálása. Együtt dolgoztak az amszterdami Katolikus Egyetem Teológiai Fakultásán alapított Ézsaiás Projekt csoporttal, illetve a bielefeldi főiskola munkatársaival együtt készítették a PC-s adatbázis keretet. Maredsous, a Maredsous Apátság (Belgium) keretén belül működ ő csoport, akik a kódolás során az egységet egy héber szóban határozták meg, így 257 byte egy héber szóról minden információt tartalmazott a szövegbeli pozíciójától (könyv, fejezet, vers, stb.) a szó nyelvtani meghatározásáig. Westminster (Philadelphia, USA), akik elsősorban a meglévő szövegfeldolgozásokat uniformizálták, összehasonlították, elemezték és a hibákat javították. A Westminster által kidolgozott egységes kódolási rendszer majdnem mindenben azonos a Bible Works által használt kódrendszerrel. CATSS (Computer Assisted Tools for Septuagint Studies), 1981-ben kezdték munkájukat a jeruzsálemi Héber Egyetem és a philadelphiai Westminster csoport közös projektje. Célja a héber és a görög Ószövetség összehangolása, a párhuzamos szöveg kódolása. Azt figyelhetjük meg, hogy a Biblia elektronikus feldolgozása során a héber nyelvű szövegek kódolása lendületesebb volt, mint a görög vagy más nyelv ű szövegek kódolása. Azt hiszem, ez azzal is magyarázható, hogy egyrészt a fordított írásmód és a pontozás reprezentálása az informatikusok számára eleve nagy kihívás volt, másrészt a kódoláshoz elengedhetetlenül szükséges absztrakció, és az ezzel járó fantázia itt kézenfekvőbb, harmadrészt a héber kvadrát írásmód a maga négyzetességével szinte önként kínálja magát informatikai feldolgozásra. A cikk további részében a héber szövegek feldolgozására szorítkozom, ezen belül is három nagy fázisát mutatom be a feldolgozásnak: hogyan kerül a kézirat a képernyőre, hogyan állnak össze a betűk szavakká, és hogyan lesznek a szavakból klózok és mondatok. 3. Hogyan kerül a kézirat a képernyőre? Két válasz adható erre a kérdésre: valaki begépeli, vagy valaki lapolvasóval beviszi a szöveget. A két mód között nagy különbség van, nem csak a munkaigényre
nézve, hanem a kódolt tartalom szöveghűsége, tárigénye és hordozhatósága (kompatibilitása) szempontjából is. A képernyőn megjelen ő betűk képpontokból állnak. Miként tárolódik ez a számítógép memóriájában? A bitképes szövegben minden egyes betűről minden képpont, a kódolt szövegnél pedig egy betűt egy kód azonosít. Az alábbi ábra bitekre és bájtokra (8 bit) lebontva mutatja be azt, ahogyan egy bet ű, nevezetesen az alef megjelenik a képernyőn. [ALEF] 0123456789ABCDEF 1...##...###. -> 2 4 +2 5 +2 12 +2 13 +2 13 +2 14 = 28720 2...###...###. -> 2 3 +2 4 +2 5 +2 12 +2 13 +2 13 +2 14 = 28728 3.#####...###.. stb. 4...##...###... 5...##...###... 6...##...###... 7...##.######... 8...#####...##.. 9...###...##.. 10...###...##.. 11...###...##.. 12..###...##... 13.####...####.. Az eredmény egy 13 tagú számsorozat: [28720, 28728, ]. A bitképes szövegnél közvetlenül ez a számsorozat tárolódik a memóriában is. A begépelt szöveg betűihez nem számsorozat, hanem csak egy szám tartozik, például az alábbi módon: [ALEF] -> a héber ABC els ő betűje, ezért legyen a kódja: 1. [BÉTH] -> a héber ABC második betűje, kód: 2. stb. A betűkhöz jeleket is rendelünk, pl.: [ALEF] -> A [BÉTH] -> B stb. 3. A bitképes szöveg A lapolvasóval bekerült szöveg bevitele teljesen mechanikus, a bevitelkor nem igényel döntést az embertől. A beolvasott szöveget a számítógép kvázi-fényképként kezeli, alapértelmezésben egyáltalán nincs meg a lapon található jelek szétválasztása és csoportosítása. Azt a döntési folyamatot, hogy egy képponthalmaz éppen milyen karakter a szövegben, egy intelligens algoritmus végzi el helyettünk. A szöveg alapvetően úgy tárolódik, mint egy fekete-fehér fénykép. A szöveg területe apró kis rácsokra (képpontokra) osztódik, és attól függően, hogy a kéziratban éppen az adott pontban írtak-e vagy sem, a képpont értéke 1 vagy 0 lesz
(bit), ezért nevezzük ezt a formátumot bitképes szövegnek. 1 Képfelbontásnak nevezzük egy adott szakaszban a képpontok sűrűségét, mértékenysége: DPI (= dot per inch). A képfelbontások tekintetében számunkra az a lényeges, hogy a felbontási minőség legalább megközelítse a szabad szemmel látható szöveg felbontási minőségét, hiszen a kódexmásolók is szabad szemmel dolgoztak. A mai képolvasók teljesítménye messze kielégíti ezt a követelményt. A bitképes szöveg tárigénye messze nagyobb, mint a begépelt szövegé, hiszen itt a kódexlapról minden egyes képpontot tárolni kell. 2 Természetesen léteznek tömörített képek (jpg,gif), amelyek kisebb helyen képesek az adott képet rögzíteni, némi adatveszteséggel, ám ez az adatveszteség a szabad szemmel látható minőséget nem veszélyezteti. Ahhoz, hogy egy bitképes szövegben keressünk, egy képmintában kell megfogalmaznunk azt, amit keresni szeretnénk. Hiába keresnénk egy betűt, ha nem tudnánk lerajzolni, milyen az a bet ű pontosan. Nagyon sokszor azonban nem minden bet ű pontosan egyforma, arról nem is szólva, hogy kisebb-nagyobb szennyeződések (hibák) kerülhetnek a bitképes szövegbe. Tudnunk kell azt is, hogy hol állnak a sorok a bitképen, és azt is, hogy a soron belül hol kezdődik egy bet ű, és hol van vége. A bitképes szöveg felismerése rendkívül bonyolult és időigényes folyamat 3, egyrészt az illesztés és felismerési algoritmus összetettsége miatt, másrészt a feldolgozandó információ nagysága miatt. A felismerés hatékonyságára nagymértékben befolyással van a feldolgozandó szövegkép tisztasága és rendezettsége. 4. A kódolt szöveg Amikor valaki begépeli a szöveget, akkor a kritikus döntés, hogy a kéziratban egy bizonyos jel milyen bet ű vagy írásjel, annak a kezében van, aki a gépelést végzi. Az emberi agyban történik meg a felismerés, a memóriába már csak a felismert kód kerül. De vajon milyen kód legyen az? A kód kérdése a felhasználókat vajmi kevéssé érdekli. A fontos az, ahogyan a szöveg megjelenik a képernyőn és a nyomtatón. Amikor meglátnak egy héber fontkészletet, akkor elsősorban az alapján osztályozzák, hogy mennyire szép a megjelenése, mennyire fedi le azokat a jeleket, amelyeket használni akarnak, és mennyire könny ű a kezelése. Ám informatikai szempontból sokkal fontosabb az, hogy a fontkészlet mennyire hordozható, mennyire alakítható át más fontkészletté, egyszóval mennyire világos és következetes a kódolása. A felhasználóknak talán érdemesebb lenne abban megállapodni, hogy milyen egységes kódolást használnak a karakterek tárolására, így egy konverter segítségével az egyértelm ű kódokat később mindenki tetszőleges betűkészlethez rendelheti. Az alábbi táblázat egy 1 Általában ezt a formátumot bmp (= bitmap) kiterjesztéssel jelöljük a számítástechnikában. 2 A Révay Lexikon számítógépes változatát (CyberstonE Entertainment, 1996.) bitképes tárolással készítették el. A kiadás hűen tükrözi a lexikon kinézetét, mondhatjuk, hogy egy elektonikus facsimile kiadást nyertünk. Ám az elektronikus változat 4 CD-ből áll, mintegy 2600 Mbyte-ot foglal el, ráadásul úgy, hogy a bitképeket tömörítették. Ugyanez a m ű karakteres tárolása (21 kötet, kötetenként átlagosan 800 oldal, oldalanként két hasáb, egy hasáb 67 sor és átlagosan 40 leütés) megközelítőleg 86 Mbyte-ot foglalna el tömörítés nélkül, ami kb. 3%-a a bitképes tárolási területnek. 3 Az ilyen szoftverek gyártása nagy szaktudást és ötletességet igényel, az ágazat egyik vezető szoftvere a nemzetközileg is elismert és használt magyar Recognita rendszer.
nemzetközileg elfogadott átírást mutat be, amelyet többek közt a Bible Works program is használ. 4 5. Michigan-Claremont átírás Mássalhangzók Magánhangzók Álef ) Patah A Bét B Qámec F Gímel G Szegól E Dálet D Céré " Hé H Híreq I Váv W Hólem OW Zajin Z Qámec hatúf F Hét X Qibbúc U Tét + Súreq W. Jód Y Sheva : Kaf K Hatéf-patah :A Lámed L Hatéf-szegól :E Mém M Hatéf-qámec :F Nún N Számek S Egyéb jelek Ájin ( Pé P Maqqef - Cádé C Ketiv * Qóf Q Qere ** Rés R Dáges. Szín/Sín # (pont nélkül) Hangsúlyjel ^ Szín & Sín $ Táv T 6. UDCH Projekt A bitképes és a kódolt szöveget összehasonlítva világos, hogy a kódolt szöveget sokkal könnyebb tárolni és kezelni. Mindez lehet, hogy a pontosság és szöveghűség rovására megy, hiszen a kódolás után már nincs módunkban egy bevitt kódot felülbírálni, hacsak nem kódoljuk a felülbírálási lehetőségeket is. A bitképes szövegnek viszont az a vitathatatlan előnye, hogy maximálisan hűséges a kézirathoz. Az Utrechti Egyetem Teológiai Fakultánsán 2000-ben kísérletet tettek arra, hogy egy olyan kódolási mechanizmust vezessenek be, amivel a kéziratokban az eltéréseket és variációs lehetőségeket is tárolni lehet. Ez a szöveghűség tekintetében óriási lépés lett volna, ugyanakkor a kódolási technikával pedig megmaradt volna a könnyen kezelhetőség és tárolás lehetősége. A projekt neve: Unit Delimination in Classical Hebrew (UDCH) volt, de tudomásom szerint sajnos anyagi támogatás hiányában nem indulhatott be. 4 A. Groves: On Computers and Hebrew Morphology, in: Computer Assisted Analysis of Biblical Texts, editor: E. Taltsra, Free University Press 1989.
Az UDCH az alábbi hat alapelvet fogalmazta meg a kódolt szöveggel kapcsolatban: 5 1. Minden felhasználó számára áttekinthet ő legyen. 2. Minden lehetséges határolójelet tartalmazzon, ami a héber, görög és szír bibliai kéziratokban előfordulhat. 3. Bármilyen számítógépes felületen működjön (platformfüggetlenség). 4. Ne legyen szükség hozzá semmilyen drága vagy bonyolult alkalmazáshoz. 5. A file-ok cseréje e-mail útján lehetséges legyen. 6. A formátum specifikációja olyan legyen, hogy a tartalom a világhálón keresztül könnyen elérhet ő legyen. Az UDHC egy rekordja egy szót ír le, amely a szövegben betöltött pozícióját, a környezetét, és lehetséges olvasatát tartalmazza. 4. Hogyan állnak össze a betűk szavakká? A legegyszerűbb módon úgy tudunk szavakat kódolni, hogy nem vesszük figyelembe azt, hogy a szó tulajdonképpen betűkből áll. Ez azt jelenti, hogy a szövegben nem a betűket kódoljuk, hanem a szavakat. A héber Ószövetség és a görög Újszövetség bármennyire is nagy mennyiség ű szövegnek látszik, mégis csak véges számú szóból áll, így megtehetjük azt, hogy egyszerűen megszámozzuk a szavakat. Így egy szóra hivatkozhatunk úgy, hogy a hozzárendelt számot adjuk meg. Ez a kódolási technika nem a számítástechnika vívmánya, hanem jóval előbb, 1890- ben Dr. James Strong és munkatársai 35 évnyi munka után készítették el konkordanciájukat, amely azóta többszöri revízión esett át. A mai elektronikus konkordanciák is úgy ismerik a szavakhoz rendelt számkódokat mint a Strong's number. A szavak egyszerűen egy számot kapnak pl: [ [ALEF][MÉM][RÉS] ] -> A héber nyelvben egy szó, kódja: 559. (Strong s number). Az így lekódolt szöveg ugyan irodalmilag kiábrándító, de keresésre és a szó ismételt előfordulásainak megjelölésére remekül alkalmazható. A Strong's number legnagyobb hátránya az, hogy a kódon kívül nem tartalmaz információt a szó szemantikai és szintaktikai állapotáról. Ehhez egy sokkal összetettebb és árnyaltabb jelölésrendszerre volt szükség, amely már az informatikai korszakban alakult ki. A különböz ő szöveg-feldolgozási projektek különböző formátumot használtak a szavak lekódolására. A héber szavak kódolására többszöri átdolgozás után az ún. Westminster kódrendszer vált be a legjobban, pl. a Bible Works is ezt a kódrendszert használja. Ez a kódrendszer a következ ő: 6 A WESTMINSTER adatformátumban egy rekord 7 mezőből áll az alábbi felosztásban (# számot jelent): fejezet# vers# szó# morféma# morféma lemma/ gyök @analízis 5 UDCH, 2000. Utrecht. 6 Bible Works, 1995. Michael S. Bushell
Pl. a Genesis 1:1 második rekordja az alábbi módon kódolható: 1 1 1 2 R )$I^YT R )$IYT @ncfs A morféma és a gyök a fenn leírt Michigan-Claremont átírással alapján kódolt, az @analízis mez ő kódolása pedig a következ ő: A @ lemmákat vagy gyököket választ el egymástól. @x @x @P- @Pa = @Pc = @Pd = @Pg = @Pi = @Pn = @Po = @Pp = @Pr = @pi- #1 Kategória Paragrafus jel Paragrafus jel /Nun (P@x, S@x, N@x csak) #2 Kategória Kisebb egységek nével ő (elválaszthatatlan elöljáróval = @Pp+Pa) kötőszó határozószó kérdőszó indulatszó tagadószó közvetlen tárgy elöljárószó viszonyszó #3 Kategória Névmás @pii = kérdőnévmás @pi[pg#]* = önálló (p személy, g nem, # szám) @ps[pg#]* = suffixumos (p személy, g nem, # szám) (pl. 'pi3ms' = egyes szám 3. személy ű masculinum önálló személyes névmás) @n- #4 Kategória Főnév @np = tulajdonnév @ng = nem héber (csak az arámban fordul el ő) @nc[g#s]* = köznév (p nem, # szám, s státusz) (pl. 'ncmpc' = többesszámú masculinum köznév status constructus-ban) @a- #5 Kategória Melléknév/Számnév @a[g#s]* = melléknév (p nem, # szám, s státusz) (p.l. 'afs' = femininum egyesszámú melléknév) @-X- #6 Kategória Suffixumok @[szó_analízis]xh = paragogikus heh (Westminster: @sh) @[szó_analízis]xd = iránymutató heh (Westminster: @sd) @[szó_analízis]xn = paragogikus nun (Westminster: @sn) @[szó_analízis]x[pg#]* = névmási suffixum (főnevek) / tárgy suffixum (igék) (pl. 'ncfpcx2mp' = egy pluralis femininum főnév constructus-ban, egy pluralis 2. személy ű masculinum suffixummal) @v- #7 Kategória Igék @vsapg#s** = ige (az igegyök pontozatlanul) (s igetörzs, a igeid ő, p személy, g nem, # szám, s status) (e.g. 'vqi3ms' = qal imperfect third person masculine singular) Pl: (minden példa Qal igetörzsben van)
vqp3ms = sing. 3. szem. perf. masc. vqi3ms = sing. 3. szem. imperf. masc. vqi3msj = sing. 3. szem. imperf. masc. apokopált vqvms = sing. masc. imperativus vqa = infinitivus absolutus vqc = infinitivus constructus vqpms = sing. masc. participium vqpmsc = sing. masc. participium constructus vqsms = sing. masc. passiv participium vqsmsc = sing. masc. passiv participium constructus *Személy/nem/szám névmások, köznevek, igék és határozószók számára: (pg# = személy, nem, szám; g#s = nem, szám, alak) A p = személy g = nem # = szám s = státusz 1 = els ő személy m = hímnem (masc.) s = egyes szám absulutus-hoz 2 = második személy 3 = harmadik személy f = nőnem (fem.) b = mindkettő (főnév) c = közös (ige) (sing.) p = többesszám (plur.) d = duális nincs jelölés c = constructus d = meghatározott (arám) **Igéknél: (sapg#s = igetörzs/igeid ő/személy/nem/szám/státusz. ld. fenn: pg#s.) s = igetörzs q = Qal n = Nifal p = Piél P = Pual t = Hitpaél h = Hifíl H = Hofal Q = valódi Qal passzív Az arám igetörzsek: a = igeid ő / aspektus p = perfectum i = imperfectum v = imperativus c = infinitivus constructus a = infinitivus absolutus p = participium s = Qal passiv participium egyéb j = apokopált forma h = cohortativus A B C D E F G H I J K L M N O P Q R S aph haph heph hoph htap htpe htpo hish ish ith itpa itpe pael peal peil pol saph shap htpa
5. Hogyan állnak össze a szavak mondatokká? A Biblia szövege versekre, fejezetekre és könyvekre van osztva, ezek jelölése nem okoz különösebb problémát, az ismert módon hivatkozunk rá az elektronikus szövegben is, pl. Deut. 1,1 a Deuteronomium els ő fejezetének els ő verséről van szó. Ugyanakkor felmerül az a kérdés, hogy lehetséges-e más elemi egységekre bontani a szöveget mint vers? A Werkgroep Informatica csoport kisebb egységekre, klózokra bontotta a héber Biblia szövegét, azaz néhány szóból álló, szintaktikailag összetartozó mondat-egységeket. Nem csak a klózokra tagolást végezték el, hanem a klózok közötti kapcsolatot is ábrázolták. A kapcsolatoknak számokat adtak az alábbi típusok szerint: Szabályos kódok: 200: kötőszóval és igével összekapcsolt formálisan identikus klózok 201: ua. mint a 200 csak kötőszó nélkül 220: klóz H-relativummal 222: második része a klóznak, egy beágyazott klóz által elválasztva az elsőtől Rendhagyó klózok: 161: ipf. - partic. 113: imp. - ipf. + L) 130: W(TH - imp. 123: imp. - perf. 62: -- - inf.cs. + L Kötőszótól függ ő kapcsolatok: 10: -- - klóz H-relativummal 12: -- - )#R + perf. 16: -- - )#R + partic. 321: ipf.- - W + perf. 306: ptv.- - W + nom. klóz 526: ptc.- KY + prf. 713: imp.- LM(N + ipf. Az alábbi részlet a Deut. 4:1-2 verseit bontja klózokra és a klózok közötti kapcsolatot vonallal és a kapcsolat kódokkal ábrázolja. 7 7 E.Talstra, F. Postma: A short history of "Werkgroep Informatica" in: Computer Assisted Analysis of Biblical Texts, editor: E. Taltsra, Free University Press 1989.