Nyelvtörténet, nyelvváltozat, adatbázis 1

Hasonló dokumentumok
Az ó- és középmagyar kori magánéleti nyelvhasználat morfológiailag elemzett adatbázisa

Tanulmányok a középmagyar kor mondattana köréből

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

A HUNGLISH PÁRHUZAMOS KORPUSZ

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Magyar nyelvű történeti korpuszok

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Lexikon és nyelvtechnológia Földesi András /

A két projekt valamelyikét említő előadásaink listája

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A magyar létige problémái a számítógépes nyelvi elemzésben

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

FŐURAK LEVELEI, BOSZORKÁNYOK PEREI ÉS EGY ÚJONNAN ÉPÜLT ADATBÁZIS: A TÖRTÉNETI MAGÁNÉLETI KORPUSZ

Kétféle ismeret van: magunk rendelkezünk a szükséges információval, vagy tudjuk, hogy az hol lelhető fel. Samuel Johnson

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

2 A MAGYAR STILISZTIKA A KEZDETEKTÕL A XX. SZÁZAD VÉGÉIG

A MAGYAR TUDOMÁNYOS AKADÉMIA NYELVTUDOMÁNYI INTÉZETE. Szervezeti és Működési Szabályzata. Budapest, 2010.

Különírás-egybeírás automatikusan

Nyelvészet. I. Témakör: Leíró nyelvtan

FELHÍVÁS ELŐADÁS TARTÁSÁRA

FELHASZNÁLÓI SEGÉDLET

Az URaLUID adatbázis bemutatása

Tájékoztató az Íráskészség feladatok értékeléséről május-júniusi vizsgaidőszaktól. Angol nyelv

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

ETA tárgyfelelős. Munka az ETA-ban tárgyfelelősként

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Szakirodalom-kutatás. Szakmai közösség: eredetiség. nem lehet egyedül megalapozni és elkészíteni egy tudományos művet

A Hunglish Korpusz és szótár

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

Olvass. Tanulj. Vidd magaddal.

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Angol nyelv. A feladatlapon az alábbi figyelmeztetés és tájékoztatás jelenik meg: A szószámra vonatkozó szabályok részletezése

SZEMLE. Szemle 89. Cambridge University Press, Cambridge, lap

Partner adatainak betöltése a CKB Trend rendszerbe.

Klasszikus héber nyelv 4.: Szintaxis

Nyelvtudományi Doktori Iskola - Japán filológia Doktori Program

Igekötős szerkezetek a magyarban

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

A könyvtári rendszer

Tér, idő, társadalom és kultúra metszéspontjai a magyar nyelvben

Cs. Nagy Lajos. Dialektológiai kutatások a PPKE BTK Magyar Nyelvészeti Tanszékén

SZAKMAI ÖNÉLETRAJZ Farkas Judit

SYLLABUS. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar magyar nyelv és irodalom

Magyar nyelvtan tanmenet 4. osztály

A Mazsola KORPUSZLEKÉRDEZŐ

7 ~ idegen nyelven: 9

Formai követelmények, DOSZ Közgazdász Doktoranduszok és Kutatók V. Nemzetközi Téli Konferenciája

Szakdolgozati szeminárium

INGATLANVAGYON-KATASZTER SZAKRENDSZER

BSc hallgatók szakdolgozatával szemben támasztott követelmények SZTE TTIK Földrajzi és Földtani Tanszékcsoport

O & ko zèpmaǵar zoalactanÿ èlèmzo

Közlemények kézi felvitele

Osztályozóvizsga 1/13. K ANGOL NYELV

Tudományos láthatóság vizsgálata a gazdálkodás- és szervezéstudományok területén

Magyar nyelvű néprajzi keresőrendszer

Oktatói önéletrajz dr. Veszelszki Ágnes

Alkalmazott Nyelvészeti Közlemények, Miskolc, VIII. évfolyam, 2. szám (2013), pp

Grammatikalizálódott kopula és prenominális módosítok a magyarban

középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

A deixis megjelenési formái a prozódiában

MTMT adminisztrátori felület és teendők. Mátyás Melinda, Szabó Panna november 4. ELTE Egyetemi Könyvtár

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Értékelés a BUS programhoz elkészült termékek magyar változatáról Készítette: Animatus Kft. Jókay Tamás január 07.

5. osztályos tananyag

Syllabus. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

Gépi tanulás a gyakorlatban. Bevezetés

Mi a szociolingvisztika?

Geográfus MSc és Földtudomány MSc szakos hallgatók diplomamunkájával szemben támasztott követelmények SZTE TTIK Földrajzi és Földtani Tanszékcsoport

Open Access - tájékoztató, dokumentáció szerzőknek és adminisztrátoroknak

Országos Rendezési Tervkataszter

Minta. Javítási-értékelési útmutató az emelt szintű írásbeli vizsgához. Íráskészség

Tájékoztatás a Közbeszerzési Hatóság elektronikus rendszereinek főbb változásairól (Ajánlatkérők és megbízott képviselők számára)

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Digitális kompetenciák, digitális munka

Angol-Amerikai Intézet (SEAS): ANN/AKN/AMN/AFN BBN BMA TANM-ANG ekvivalenciák

A SZAKIRODALOM HASZNA ÉS SZERKEZETE

YANG ZIJIAN GYŐZŐ 杨子剑

Amit a törtekről tudni kell Minimum követelményszint

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Az InCites használata az intézményi produktivitás

BA Germanisztika alapképzés mintatanterve (180 kredit, 6 félév)

BŐVÍTMÉNYEK TELEPÍTÉSE ÉS SZERKESZTÉSE WORDPRESS-BEN

TÁRKI Adatbank Letéti Nyilatkozat és Adatlap

ELTE Néderlandisztikai Központ II. szemeszter

1 STÍLUS ÉS JELENTÉS

ANGLISZTIKA ALAPKÉPZÉSI SZAK ZÁRÓVIZSGA

A két projekt munkatársainak hivatkozással ellátott publikációi (OTKA K 81189, NKFIH OTKA K )

A kibővített Magyar történeti szövegtár új keresőfelülete

Irodalom Szövegértés, szövegfeldolgozás 9. NY Órakeret:36 óra

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

JOURNAL CITATION REPORTS Tóth Szász Enikő Customer Education Specialist

Útmutató a BSc szakdolgozatok összefoglalójának megszerkesztéséhez

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem,

A hivatkozások megkönnyítése végett a sorokat beszámoztam, jelezve, hogy hányadik versszak melyik felének melyik sora. Temetésre szól az ének

Használati útmutató Az online példatárhoz

MAGYAR NYELV ÉS IRODALOM VIZSGA 8. ÉVFOLYAM

Átírás:

Nyelvtörténet, nyelvváltozat, adatbázis 1 Dömötör Adrienne A Magyar Tudományos Akadémia Nyelvtudományi Intézete, Budapest, Magyarország domad13@gmail.com Abstract: Nowadays electronic databases play an important role in collecting linguistic data. My paper describes the project called Morphologically analysed corpus of Old and Middle Hungarian texts, representative of informal language use. This is in progress in the Research Institute for Linguistics (Hungarian Academy of Sciences, Budapest). The lecture focuses on this database and its importance in research and teaching. Kulcsszavak: eletktronikus adatbázis, magánéleti nyelvhasználat, XVI XVIII. századi magyar nyelv 1. BEVEZETÉS A nyelvtörténet természetéből következően adatigényes tudományág: korábbi korok nyelvi változásait csak megfelelő mennyiségű és gondosan mérlegelt gyűjtött anyag birtokában lehet felrajzolni. A szinkrón nyelvészet lehetőségei ezzel szemben sokkal szélesebbek: a leíró nyelvésznek az anyaggyűjtés mellett lehetősége van az introspekcióra éppúgy, mint a teszteléses módszerre. A különböző hátterű kutatási iskolák hagyományosan más és más adatolási módokat részesítenek előnyben; megfigyelhető azonban, hogy az utóbbi években sokat oldódott az a korábbi merev szembenállás, amely az adatgyűjtés vs. introspekció híveit jellemezte. Ahogyan az egyik chomskyánus hátterű, de korpuszadatokkal dolgozó kutató fogalmaz [1]: nem szükségszerű, hogy kibékíthetetlen ellentét legyen a racionalista és az empirikus nézőpont között; ma már sokan tudják: adaton nem a nyelvész noteszába beírt privát bejegyzést kell érteni, hanem azt a nyersanyagot, amelyen állnak vagy buknak az elméletek. Az adatolás presztízsének növekedése főképp a korpusznyelvészet megerősödésének köszönhető [2], de jelentős szerephez jutnak benne a veszélyeztetett nyelvek dokumentálásának tapasztalatai [3] s nem utolsó sorban a grammatikalizációkutatások eredményei is [4]. 2. AZ ADATBÁZIS Az elektronikus adatbázisok megépülésével a felhasználók összehasonlíthatatlanul könnyebben és gyorsabban jutnak adatokhoz, mint korábban, amikor a kutatásokat meglehetősen időigényes módon és előzetes vizsgálódások után saját adatgyűjtésnek (cédulázásnak) kellett megelőznie. Nem kétséges, hogy ez a könnyebbség minden eddiginél nagyobb vonzerőt kölcsönöz az adatoknak. Fontos azonban kiemelni azt is, hogy az adatbázisok létrehozása nemhogy nem teszi értelmetlenné a korábbi úgynevezett filologizálgatást (amely kevéssé érthető módon nem minden fórumon számított üdvözlendő tudományos tevékenységnek), éppen ellenkezőleg, visszamenőleg is jelentősen megnöveli annak értékét, hiszen korpuszt építeni csak a már rendelkezésre álló, filológiailag maximálisan szakszerű anyagokból lehet, illetve érdemes. És nem teszi feleslegessé magukat a forrásokat publikáló könyveket sem, hiszen átfogó anyagismeret nélkül, pusztán kiragadott korpuszadatokból aligha születhetnek megbízható elemzések. Az adatbázisokra épülő grammatikaírásnak mintaadói lehetnek az olyan munkák, mint például a Longman Grammar of Spoken and Written English [5], amely az angol nyelvtan funkcionális, korpusz alapú megközelítését tartalmazza, nagy súlyt fektetve a nyelvhasználati rétegenkénti megoszlásra és a regionális, szociális és szituációs változók szerinti jellemzésekre (gyakorisági adatokat is közölve és elemezve). Az MTA Nyelvtudományi Intézetének Finnugor és nyelvtörténeti osztályán külső kutatók és hallgatók bevonásával nemrégiben indult az a munkálat, amely 1772 előtti (XVI., XVII., XVIII. századi) levelek és periratok szövegét készül közzétenni. A projektum címe: Morfológiailag elemzett nyelvtörténeti korpusz a magánéleti nyelvhasználat köréből. (A számítógépes koncepciót Novák Attila programozó nyelvész dolgozta ki, a munkát a jelen cikk szerzője vezeti.) Az adatbázis alapanyagául egyrészt az utóbbi évtizedekben megjelent perkiadások szolgálnak, másrészt a XIX. század második felétől napvilágot látott magánlevél-kiadások közül azok, amelyek a filológiai követelményeknek megfelelnek. A munkálat célja: anyagot szolgáltatni a középmagyar kori magánéleti nyelvváltozat(ok) nyelvészeti felhasználásához. Azaz: elektronikus gyűjteményt készíteni a nyelvhasználathoz legközelebb álló műfajokból legelsősorban a történeti morfológiai, lexikológiai, szociolingvisztikai kutatásokhoz, de segítségül a történeti mondattani és pragmatikai vizsgálatokhoz is, valamint mindezen területek oktatásához. Az adatbázis filológiailag megbízható és jelentős terjedelmű lesz, pontos szófaji és morfológiai elemzéseket fog tartalmazni, bárhonnan el lehet majd érni, és kereshető lesz mind szavaira, mind nyelvtani elemeire, kategóriáira egyaránt. Az anyaggyűjtés során jelentős figyelem jut a szociolingvisztikai szempontoknak: a perek szövegei változatos időkört és 1 A dolgozat az OTKA 81189. sz. projektum támogatásával jött létre.

területi megoszlást képviselnek, a leveleknél mindezeken túlmenően további szempontok is figyelembe vétetnek: az író társadalmi státusza, neme, a címzetthez fűződő kapcsolata és a levél létrejöttének módja (saját kezűleg íródott-e vagy másvalaki által). 2.1. Elektronikus szöveggyűjtemény A nyelvtörténeti adatok publikálása terén az is igen jelentős előrelépés lenne, ha semmi más nem történne, mint hogy elektronikusan közzéteszünk több millió karatkernyi szöveget zömmel a középmagyar korból, amelyek kiadásai még szakmai körökben sem feltétlenül közismertek, sőt részben nem is könnyen hozzáférhetők, és amelyek nagy haszonnal vonhatók be mind a kutatásba, mind az egyetemi oktatásba (nemcsak tanárok, hanem akár diákok számára is). Ha csak elektronikus szöveggyűjteményt állítanánk össze, meghatározott betűsorokat (szavakat és szóelemeket) akkor is nagy mennyiségben lehetne kigyűjteni az anyagból, anélkül, hogy a korábban megszokott módon hosszas kutatóidőt kellene szánni a könyvek fellelése és beszerzésére után a kézi erővel történő (hagyományos) adatgyűjtésre. Ha azonban valaki egy-egy szó vagy nyelvtani jelenség előfordulásainak teljes listáját szeretné összeállítani az anyagból, egyrészt a keresőprogramok kínálta lehetőségekben kell meglehetősen jártasnak lennie, másrészt magában a tudományterületben is, hiszen sokoldalú ismeretanyagot igényel azt felmérni, miféle alakokra is kell rákeresni, amikor egy adott szó összesfajta előfordulását meg akarjuk kapni; a jelenség pontos ismeretére, előzetes tanulmányozására tehát éppúgy szükség van, mint az adott szöveg hangjelölési, helyesírási sajátosságainak körültekintő felmérésére. Egy ilyen korpuszban elsősorban csak a magyar nyelvtörténet szakemberei tudnának megbízható gyűjtéseket végezni. S nekik is további esetleg jelentős pluszmunkára volna szükségük, hiszen a megcélzott betűsorokra kapott találatok között nagy mennyiségű homonim betűsorok is előfordul(hat)nak. 2.2. Morfológiailag elemzett adatsor Az adatbázis, amely dolgozatom tárgyát képezi, lényegesen többre törekszik annál, semminthogy pusztán elektronikus szöveggyűjteményt adjon közre: a szövegek minden magyar szava alatt tartalmazza majd az adott szó morfológiai elemzését. Ennek felbecsülhetetlen jelentősége a majdani felhasználó számára az, hogy célirányos adatkeresésre nyílik lehetősége, hiszen így már nemcsak adott betűsorokra (szavakra, szóelemekre) kereshet rá, hanem morfológiai kategóriákra is. A keresés eredményeként kizárólag a megcélzott elem(csoport) listázódik ki, az viszont minden nyelvi, illetve helyesírási hangjelölési változatában. A morfológiailag elemzett adatbázis emellett arra is lehetőséget ad, hogy a gyűjteményt a kifejezetten magyar nyelvtörténeti képzettségű felhasználókon kívül mások is egyéb nyelvészeti részdiszciplínák kutatói, egyetemi hallgatók, külföldi nyelvészek stb. megbízhatóan kezelhessék adatforrásként. (Ami azonban természetesen nem jelenti azt, hogy ne lenne mindenképpen kívánatos a vizsgálatra kiválasztott anyag átfogó előtanulmányozása). Szemléltesse a fentebbieket egy példa! Az egyik levélben ez a mondat olvasható: istennek sekétsékét es kérem hogy Nagyságot sziksékit és parancsolatidat mint beteleséteném (= Istennek segítségét is kérem, hogy nagyságod szükségét és parancsolataidat mind beteljesíteném; a saját kiemeléseim) [6]. Ha a felhasználó például mai magyar nyelvi kompetenciájával a segítség, az is, a szükség vagy a beteljesít szavak valamelyikére vagy akár a többes szám második személyű, több birtokra utaló -aid nyelvtani elemkombinációra mint betűsorra keresne rá egyszerű kereséssel, egyértelmű, hogy a fentebbi mondatból (és számtalan más szövegrészletből) egyik adat sem jelenne meg a keresése során. Mint látható, az okok között egyaránt szerepelnek történeti grammatikaiak, nyelvjárásiak és lejegyzésbeliek is. Kellő körültekintéssel a segítség szó várható megfelelőire például a következő változatokat és a változatok összes lehetséges együttállását számításba kellene venni: s/ſ; i/í; e/é (a szó két helyén is); g/k (a szó két helyén is); ts/cs/cz; tts/ccs/ccz és akkor még mindig kimaradhatnak szóalakok, amelyeket a várakozásoktól eltérően (akár hibásan) írtak le. Megfelelő nyelvtörténeti és helyesírás-történeti ismeretek birtokában, valamint a szöveg sajátosságainak feltérképezése után a rutinos számítógép-felhasználó az összes opciót megadja a keresőkérdésében (a rutintalanabb felhasználó pedig végigfuttatja a jelentékeny számú egyenkénti keresést). A morfológiailag elemzett adatbázisban viszont az összes lehetséges változat egyetlen kereséssel megkapható anélkül, hogy a felhasználónak előre meg kellene adnia a várható eltéréseket, mivel mindegyik szöveghelyen egyöntetűen a sztenderd módon leírt szótő, a segítség van bekódolva (s hasonlóan a többi példaszó esetében: az is, a szükség, a beteljesít szótövek, illetve az aid/-eid nyelvtani elemnek megfelelő szimbólum). Ez úgy érhető el, hogy egy számítógépes program Novák Attila fejlesztése; l. pl. [7] a szöveg összes szavához automatikusan morfológiai elemzést rendel, amely megmutatja, hogy milyen szófajú szótő milyen (számú, személyű, idejű, milyen névszóraggal ellátott stb.) alakjával van dolgunk. Ezt az automatizált munkaszakaszt azonban mind programozói oldalról, mind a korpuszt építő nyelvtörténész oldaláról számos, aprólékosan elvégzett, nagy kitartást igénylő munkafolyamatnak kell megelőznie, illetve követnie. Az alábbiakban arról lesz szó vázlatosan, hogyan járul hozzá a nyelvtörténész az adatbázis megépítéséhez. 2.2.1. Az építkezés folyamata Az első lépés: a szövegeket elektronikusan olvashatóvá és feldolgozhatóvá kell tenni. Az

olvashatóvá tétel abból áll, hogy a szövegkiadásokat be kell szkennelni (illetve rövid, különálló és nyomdatechnikailag bonyolult szövegek esetében olykor célszerűbb begépelni). A beszkennelt képeket egy karakterfelismerő számítógépes programmal betűsorokká kell alakítani, majd létre kell hozni a hiányzó speciális karaktereket (begépelés esetén ugyanígy). Ezt ellenőrzés, korrektúrázás, javítás követi. A munka lényegi szakasza, a feldolgozhatóvá tétel ezután kezdődik. Hogy a Novák Attila kifejlesztette morfológiai elemző, amely mai magyar szövegek feldolgozására készült, működtethető legyen a nyelvtörténeti szövegeken is, először egy új szövegváltozatot kell létrehozni. Ez a lépés az úgynevezett normalizálás, amely arra szolgál, hogy a szöveg a mai sztenderd nyelvváltozathoz közelítsen, és alkalmazkodjon a mai hangjelöléshez és helyesíráshoz. Az alapszövegek összes mondatát át kell tehát alakítani, majd begépelni, és több körben ellenőrizni, javítani. A szöveg ebben a munkaváltozatában egységes képet mutat: mentesül a tarkaságától, amely a nyelvjárási sajátosságaiból és a lejegyzési eltérésekből fakadt. Fontos kiemelni, hogy ez a szövegváltozat filológiai célokra egyáltalán nem alkalmas, de létrehozását nem is filológiai célok vezérlik, hanem kizárólag az a gyakorlati cél, hogy mintegy közvetítőül szolgáljon az eredeti szöveganyag és a mai szövegeket kezelni tudó morfológiai elemző között. Szöveghamisítás ugyanakkor egyáltalán nem történik: az eredeti szöveg továbbra is éppúgy megjeleníthető önmagában, mint ahogyan a normalizált változat is (vagy akár egyszerre mind a kettő, illetve a morfológiai elemzéssel együtt egyszerre mind a három). Ahhoz azonban, hogy a morfológia szintjén semmiféle eltérés ne legyen az eredeti és a normalizált szövegváltozat között, még egy fontos normalizálási szabályra szükség van, amit házi használatra a morfémamegmaradás törvényé -nek neveztünk el. Éppen erre az eljárásmódra való utalás állt annak hátterében, amikor fentebb az került szóba, hogy a normalizált változat a mai sztenderdhez közelít. A mai megfelelővel nem rendelkező vagy eltérő használatú morfémáknak ugyanis meg kell maradniuk a sztenderdizált változatban is (ellenkező esetben elvesznének az elemzésből). Például a járál-ból nem lehet jártál, a mentenek-ből mentek, az ismétlen-ből ismét, a nekije-ből neki. Ezekben az esetekben az elemzővel kapcsolatban adódik feladat: tő- vagy toldaléktárát bővítve meg kell tanítani a számára új elemek felismerésére. A megtanítandó tövek között az eddigiekben szerepel például a lább ( úszik ) vagy a pántolódik ( veszekszik ) ige, a telj ( teli ) vagy a lustos ( mocskos, csúnya ) melléknév, a cserebüly ( cserebogár ) vagy a törjék ( méreg ellenanyaga ) főnév, az aholott ( ahol ) kötőszó. Olykor egészen ritka, vagy akár hapaxgyanús elemek is előkerülhetnek. Az elsőre jó példa az elhittem ( meghiszem azt ) diskurzusjelölő, a másodikra a szaporaégetést ( nagyon gyorsan ) határozószó a következő szövegkörnyezetekben: arra azt mondotta az Csordas, de el hitem jobban fogtok panaszolkodni az utan, mert az iden megh tizenharom kű esső leszen (= arra azt mondta a csordás: de elhittem jobban fogtok panaszolkodni azután, mert az idén még tizenhárom kőeső leszen); a nigy Lois mindenüt szapora égetést vitt visza Csornára bennünket (= a négy ló is mindenütt szaporaégetést vitt vissza Csornára bennünket) [7]. Ez a munkafázis történeti nyelvtani tanulmányok és szótárak kitartó tanulmányozásával párosul, hogy az első ránézésre bizonytalan illetőségű elemeket, ismeretlen szavakat pontosan azonosítani lehessen. 2.2.2. Az adatsorok együttese A háromféle szöveg az eredeti szöveganyag szósora, a normalizált változat szósora és a szavakhoz rendelt morfológiai elemzéssor egymás alatt jelenik meg (ugyanakkor külön is lekérdezhetők). Ez a korpuszépítés során azt a feladatot jelöli ki, hogy az eredeti szöveget is és a létrehozandó normalizált változatot is szakaszokra tördelve egymás alá kell írni. Egy-egy szakasznak egy-egy tagmondatot tekintünk; ez a felhasználónak az olvasást, értelmezést is megkönnyíti. (Ettől csak akkor térünk el, ha beékelődés miatt nem lehet betartani az egy sor = egy tagmondat elvét.) Ebben a munkaszakaszban a következőképpen néznek ki a feldolgozás alá vett szövegek (az első sorok az eredetiek, a másodikak a normalizáltak): aztis vallia Azt is vallja, hogy igyen hidegh teste volt azon Eordognek, hogy igen hideg teste volt azon ördögnek, a mikor disznokottak, amikor disznókodtak, söt ugyan meghis peczetelte, az disznosagha körül. sőt ugyan meg is pecsételte a disznósága körül. [8] (Pontosabban helyenként ennél kicsit bonyolultabban festenek a szövegek, hiszen azt is jelölni kell, ha a szószámok között eltérés mutatkozik a két sorban amiatt, hogy az eredetiben egybe írt szavakat a mai helyesírás szerint két szóba írjuk vagy fordítva (az előbbire a fentebbi részlet is szolgáltat példákat), illetve ha az eredeti szövegközlő bizonytalanságot jelölt, ha a normalizáló bizonytalan az alakban vagy ha többféle olvasatot is lehetségesnek tart.) A normalizálás munkafolyamata menet közben számtalan kérdést felvet, számtalan további megoldást kikövetel magának. A morfológiai elemző lehetőségeinek tekintetbe vételével a lehető legmesszemenőbb következetességgel igyekszünk eljárni, hogy a különböző szövegek lehetőleg minél egységesebb sztenderdizálási elvek alapján kapják meg normalizált változatukat. (Mindennek érdekében egy folyamatosan bővülő szabályzat is készül a munkálatvezető szerkesztésében.) A megfelelő számú ellenőrzés után a szöveg megkapja a morfológiai elemzést. Ezután már mind a három sor megjeleníthető:

mondatrészi szerepük (pl. hogy, ha, mert, mivel, és, meg, de, bár, ugyanis stb.); megjelöljük továbbá a vonatkozó névmási kötőszókat: N ProRel (pl. aki), Adj ProRel (pl. amilyen), Q ProRel (pl. ahány), Adv ProRel (pl. amikor, ahogyan, ahol). A továbbiakkal pedig így járunk el: azok az elemek, amelyek egyszer kötőszóként, egyszer határozóként állnak, megvizsgálandók, hogy adott esetben éppen C-k vagy Adv Pro-k-e (pl. ezért, így); az összes fentebbi típuson túli elemek azonban Adv-nak címkézve helyesek (pl. az/ezután, az/ezelőtt). 3 3. ZÁRÓ MEGJEGYZÉSEK Látható az eredetiben zölddel jelezve, a feketefehér nyomtatásban kissé halványabbnak mutatkozva, hogy a morfológiai elemző megjelöli azokat a szavakat, amelyekhez, homonímiájuk miatt, több lehetséges szerkezetet is megad. Ezeknél szükség van az egyértelműsítés műveletére, vagyis arra, hogy kiválasszuk: az elvileg lehetséges megoldások közül melyik a megfelelő az adott helyen. Az ábrán a jártam szó alatt megnyitott ablak és fölötte a kiválasztott szimbólum mutat példát minderre. E művelet elvégzése mellett azonban ellenőrizzük az egyértelmű címkéket is, és ahol valamely szempontból nem tűnnek elég adekvátnak, megváltoztatásukat, átalakításukat javasoljuk. Ezen esetek között egészen egyszerűek is lehetnek: például az elemző a kegyelme, -ed stb. alakokat ne birtokos személyjeles főnévnek, hanem a megfelelő személyű birtokos személyes névmásnak jelölje. A névutók címkézése viszont például már differenciáltabb megközelítést igényelt; a nyelvtörténészek és a programozó nyelvész egyeztetései után a következő lehetőségeket állítottuk fel (a számok itt az egyszerűség kedvéért a felsorolás tételeit hivatottak elkülöníteni): 1. Pp (pl. ház előtt); 2. Pp.SzámSzemély (pl. +előttem; a ki nem tett névmás jelölésével); 3. Pp.PxS3 (pl. háznak előtte, ill. Péternek elejébe, +elejébe; ill. megbékélés céljából ez utóbbiakban a lemma: elejébe, ill. céljából); 4. Pp.PxSzámSzemély (pl. +réveden, ill. +számomra). 2 Vagy egy még bonyolultabb kérdést véve: a kötőszókkal kapcsolatban eldöntendő, mi legyen valódi kötőszónak címkézve, és mi kapjon határozószói minősítést. (Hiszen az elemzőnek nincs módja az olyasfajta szőnyeg alá söprésre, mint például a szótáraknak vagy a nyelvtani leírásoknak, amelyek gyakran kötőszószerű elemekről beszélnek.) Itt a következő besorolásokat érvényesítjük: C-vel címkézzük a valódi kötőszókat, amelyeknek nem lehet 2 Pp = névutó, Px = birtokos személyjel, S = egyes szám Minél inkább felhasználóbarát egy adatbázis, annál több munkát igényel az elkészítóitől. Talán sikerült érzékeltetni, hányféle munkafolyamat és milyen mennyiségű munka rejlik amögött, hogy a majdani felhasználó pár kattintással jelentékeny adatgyűjteményhez juthasson. A visszaigazolás az lesz, ha a korpuszt minél szélesebb körben birtokukba veszik majd a kutatók, oktatók. Erre jó esélyt ad, hogy a vállalkozás több szempontból is hiányt igyekszik pótolni, hiszen szűkében állunk a nyelvtörténeti adatbázisoknak, arra pedig még egyáltalán nem történt kísérlet, hogy a korábbi korokból ne elsősorban az irodalom nyelvét reprezentáló szövegeket gyűjtsék egybe, hanem egy másik nyelvi rétegre fókuszáljanak. Vitathatatlan, hogy a beszélt nyelvhasználatot leginkább tükröző műfajok korpusza olyan nyelvi réteget céloz meg, amely felbecsülhetetlen jelentőséggel bír a nyelvészeti kutatások számára. HIVATKOZÁSOK [1] Durand, J.: On the scope of linguistics: data, intuitions, corpora. In: Yuji Kawaguchi Makoto Minegiski Jaques Durand (eds): Corpus Analysis and Variation in Linguistics. John Benjamins Publishing Company, 2009. p. 25 52. [2] Kertész, A. Rákosi, Cs.: Megjegyzések a nyelvészeti adatok és evidencia problémájáról folyó vita jelenlegi állásához. Magyar Nyelv 104 (2008), p. 274 86; 385 401. [3] Lehmann, Ch.: Data in linguistics. The Linguistic Review 21 (2004), p. 175 210. [4] Dömötör, A.: A nyelvtörténeti adat: elvek, gyakorlat, lehetőségek. Magyar Nyelv, sajtó alatt (2011), p. 1 11. [5] Biber, D. et al.: Longman Grammar of Spoken and Written English. Pearson Education Limited, Harlow, 1999. [6] Károlyi, Á. Szalay, J. (szerk.): Nádasdy Tamás nádor családi levelezése. Akadémiai Kiadó, Budapest, 1882. 3 C = kötőszó, ProRel = vonatkozó névmás, N = főnév(i), Adj = melléknév(i), Q = számnév(i), Adv = határozószó(i).

[7] Novák, A.: Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged, 2003. p. 138 145. [8] Schram, F. (szerk.): Magyarországi boszorkányperek II. Akadémai Kiadó, Budapest, 1983. A SZERZŐ Dömötör Adrienne 1958-ban született Szigetváron (Magyarország). 1982-ben végzett a szegedi József Attila Tudományegyetem magyarorosz-magyar nyelvtörténet szakán (B.Sc., M.Sc.). 1996-ban kapott PhD fokozatot a budapesti Eötvös Loránd Tudományegyetemen. 1983 és 1988 között, majd 1997-től folyamatosan a Magyar Tudományos Akadémia Nyelvtudományi Intézetének főállású kutatója. Elsősorban nyelvtörténeti kérdésekkel foglalkozik, de végez mai magyar nyelvi kutatásokat, valamint a magyar mint idegen nyelv tárgykörébe tartozó vizsgálatokat is. Egyéni kutatásai mellett több csoportmunkálatban is dologozott. Tanulmányokat 1982-től kezdve jelentet meg folyamatosan. 2010 óta vezeti a Morfológiailag elemzett nyelvtörténeti korpusz a magánéleti nyelvhasználat köréből című projektumot.