Lokalizálható nyelvtörténeti adatok informatizálása és térképezése



Hasonló dokumentumok
Nyelvjárási és helynévtörténeti anyagok geolingvisztikai kutatása Részletes kutatási terv

A dialektometria alkalmazása és történeti helynevek nyelvföldrajzi vizsgálata a Székelyföldön*

Nyelvjárási és helynévtörténeti anyagok geolingvisztikai kutatása

Cs. Nagy Lajos. Dialektológiai kutatások a PPKE BTK Magyar Nyelvészeti Tanszékén

Nyelvatlaszok a szekrényben

Magyar nyelvjárási adattárak vizsgálata interaktív dialektometriai térképekkel

A romániai magyar nyelvjárások atlasza informatizált térképlapjainak kvantitatív nyelvföldrajzi vizsgálata Vargha Fruzsina Sára

Román kölcsönszói hatások A moldvai csángó nyelvjárás atlasza nyelvi hasonlósági viszonyaiban

A MNyA. és a RMNyA. integrált dialektometriai elemzése

A dialektológia számítógépes támogatása

3. Nemzetközi talajinformációs rendszerek

BÖLCSKEI ANDREA N. CSÁSZI ILDIKÓ.

DITRÓI ESZTER. Vas és Zala megyei helynévföldrajzi térképlapok statisztikai alapú összevetése

A szavak bűvölete. A kötet szerkesztése során a kézirat olvasása és rendezgetése olyan tudástöbblettel ajándékozott. Bellághné Nagy Rózsa

Kézikönyv. Szelekciós operátorok használata

A kibővített Magyar történeti szövegtár új keresőfelülete

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

Hangok helyek. Tanulmányok dialektológiai adattárak és helynévtárak számítógépes feldolgozásáról. szerkesztette Bárth M. János és Vargha Fruzsina Sára

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA

A romániai magyar nyelvjárások atlasza informatizált térképlapjainak kvantitatív nyelvföldrajzi vizsgálata *

A MAGYAR NYELVVÁLTOZATOK GEOLINGVISZTIKAI KUTATÁSA

A WEBOPAC (online elektronikus katalógus) használata. 1. Keresés az adatbázisban (összetett):

Használati útmutató Az online példatárhoz

4. Javítás és jegyzetek

DOKTORI DISSZERTÁCIÓ SZÉKELYFÖLDI TÖRTÉNETI HELYNEVEK NYELVI ELEMZÉSE BÁRTH JÁNOS

The Hungarian National Bibliography. Peter Dippold National Széchényi Library

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

KÖTELES-SZŐKE MELINDA PUBLIKÁCIÓI (HIVATKOZÁSOKKAL, RECENZIÓKKAL) *

Néhány folyóiratkereső rendszer felsorolása és példa segítségével vázlatos bemutatása Sasvári Péter

Online információkeresés. Dr. Nyéki Lajos 2016

TECHNIKAI RENDSZEREK ÁLLAPOTLEÍRÁSÁNAK KÉRDÉSEI QUESTIONS REGARDING THE DESCRIPTION OF THE STATE OF TECHNICAL SYSTEMS

A R C U L A T I K É Z I K Ö N Y V

WEBPAC e-corvina. Egyszerő keresés:

AZ ADATOK KOR ÉS NEM SZERINTI MEGOSZLÁSA A MAGYAR NYELVJÁRÁSOK ATLASZA ELLENŐRZŐ GYŰJTÉSÉBEN

Útmutató az online katalógus használatához

Kezelési útmutató Keresés: szó, kifejezés

WEBOPAC felhasználói leírás. 1. Keresés az adatbázisban. 2. A találatok megjelenítése

Using the CW-Net in a user defined IP network

Hogyan használja az OROS online pótalkatrész jegyzéket?

2. Local communities involved in landscape architecture in Óbuda

Ismeri Magyarországot?

Somogy megyei népdalok és gyermekjátékok egy Győrött őrzött kéziratban

A BCE Entz Ferenc Könyvtár és Levéltár a diplomaszerzéssel és a doktori eljárással kapcsolatos dokumentumok kezelésének szabályzata

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

1. ábra. Az LSZ internetes megjelenítésének kezdőoldala

Szabó T. Attila: Erdélyi Történeti Helynévgyűjtése Szabó T. Attila kéziratos gyűjtéséből közzéteszi: Hajdú Mihály et al

PIAC_ Nemzetközi Határozatkereső rendszer fejlesztése. Szakmai fórum február 29.

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

Élı nyelv 335. Régi nyelvatlaszok új módszerek Nyelvtechnológiai eljárások a nyelvföldrajzban

- Bevándoroltak részére kiadott személyazonosító igazolvány

A kutatási eredmények ismertetése

SZŐKE MELINDA PUBLIKÁCIÓI (HIVATKOZÁSOKKAL, RECENZIÓKKAL) *

Minõségbiztosítás és adatminõség 1

A közép-európai nyelvekhez igazított funkciók Tartalom

KUTATÁSTÁMOGATÁS SOROZAT. Felhasználói segédlet Academic Search Complete adatbázisban idézők kereséséhez

3. Történeti kertek rekonstrukciója Tatai Angolkert és Alcsúti Habsburg kastély kertje

Erdészettudományi Közlemények

Intelligens elektronikus szótár és lexikai adatbázis

DANS és Narcis. Burmeister Erzsébet. HUNOR találkozó, Budapest március 13.

SZAKIN program használati útmutató: A megjelenő képernyő baloldalán találjuk a választó mezőt, a jobboldali részen a

A TANTÁRGY ADATLAPJA

Csatlakozás a BME eduroam hálózatához Setting up the BUTE eduroam network

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

Szakmai zárójelentés Az erdélyi magyar nyelvjárások anyagának feldolgozása és közzététele (11. szakasz) c. pályázatról

Anyagmérnöki Tudományok, 37. kötet, 1. szám (2012), pp

Értékelés a BUS programhoz elkészült termékek magyar változatáról Készítette: Animatus Kft. Jókay Tamás január 07.

LÔRINCZ ANDREA 1. A könyvtár a felsôoktatás szolgálatában

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Fenyős Zoltán. Fenyősné Kircsi Amália. Tanmenet. informatika általános iskola 4. osztály ÉVES ÓRASZÁM 36 ÓRA

ERDELY TELEPULESEINEK NEMZETISEGI (ANYANYELVI) ADATAI SZAZALEKOS MEGOSZLASBAN ( )

A hangzó adat szerepe a magyar dialektológiában

Access alapok. Megnevezés Művelet Minta. Új adatbázis létrehozása. Új / Üres adatbázis.. Tábla létrehozása tervező nézetben.

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

NYILVÁNOS KÖNYVTÁRI KATALÓGUSOK

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

On The Number Of Slim Semimodular Lattices

Fogalmak: Adatbázis Tábla Adatbázis sorai: Adatbázis oszlopai azonosító mező, egyedi kulcs Lekérdezések Jelentés Adattípusok: Szöveg Feljegyzés Szám

Diagnosztikai szemléletű talajtérképek szerkesztése korrelált talajtani adatrendszerek alapján

MAGYAR AFRIKA TÁRSASÁG AFRICAN-HUNGARIAN UNION

SMS küldő központ Leírás

Savaria Egyetemi Könyvtár Katalógusa. Böngészés Keresés Találatok megjelenítése Adatbázis választás Olvasói tranzakciók

1, A találatok megjelenítése 2, Hol, hogyan találom meg? Milyen adatokra van szükség egy könyv megtalálásához? Avagy a példányinformációk értelmezése

EuroOffice Professzionális Vonalkód és QR kód generátor

Szakmai zárójelentés A magyar nyelvváltozatok geolingvisztikai kutatása című projekthez

EGY MÓDSZERTANI KÍSÉRLET A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES MEGJELENÍTÉSE

Algoritmusok és adatszerkezetek 2.

NÉHÁNY MEGJEGYZÉS A BURKOLÓFELÜLETEK VIZSGÁLATÁHOZ

Mezők/oszlopok: Az egyes leíró adat kategóriákat mutatják.

HBCSKódex. Felhasználói kézikönyv. HBCS Audit KFT 2015.

A Betegápoló Irgalmas Rend magyar tartományának gyógyszertári személyzete a 20. század első évtizedeiben

HTML é s wéblapféjlészté s

Vasúti kocsik vázszerkezetének a felhasználhatósága kisebb nyílások áthidalására helyi érdek8 közúti utakon

SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN

PIACI HIRDETMÉNY / MARKET NOTICE

A CAN mint ipari kommunikációs protokoll CAN as industrial communication protocol

Informatika évfolyam

DuneHD.hu. Kompatibilis médialejátszók: Dune HD Center Dune BD Prime Dune HD Base 2.0 Dune HD Base 3.0 Dune BD Prime 3.0

A RÉPÁSHUTAI PONGOR-LYUK-TETŐ BARLANGJAI HÁMORI ZSOLT-HÍR JÁNOS

Hivatkozásjegyzék. Hivatkozás: Haader Lea: eez myt mondaaz myes twgyok NÉ. 15 [1993]: A hivatkozás oldalszáma: 137.

A TANTÁRGY ADATLAPJA

Átírás:

Vargha Fruzsina Sára Vékás Domokos Lokalizálható nyelvtörténeti adatok informatizálása és térképezése A magyar nyelvjárási atlaszok és nyelvföldrajzi szótárak nélkülözhetetlen forrásai a magyar nyelvvel, kultúrával foglalkozó kutatóknak. zek az adattárak azonban eredeti formájukban nehezen kutathatók, hiszen több száz, esetleg több ezer nyomtatott térképlapból, illetve szócikkből állnak, így igen időigényes megtalálni, összegyűjteni és csoportosítani a vizsgálati szempontok szerint releváns adatokat. Több adattár egyidejű vizsgálata hagyományos módszerekkel különösen nagy kihívást jelent. A nyelvjárási adattárak elemzésének megkönnyítése, ezáltal a bennük rejlő forrásanyag valorizálása volt az elsődleges célja a Bihalbocs néven ismertté vált nyelvészeti technológiák fejlesztésének és a nyelvjárási adattárak informatizálásának (honlap: www.bihalbocs.hu). 1 A nyelvjárási adattárak számítógépes feldolgozásához kifejlesztett nyelvészeti technológiák felhasználásával kezdtük el 2006-ban Szabó T. Attila rdélyi Helynévtörténeti adattárának számítógépes feldolgozását. A nyomtatásban már megjelent adatok informatizálása a háromszéki történeti helyneveket tartalmazó kötettel 2 kezdődött. Az adatok denotátumfajták szerinti annotálásához, majd adatbázisba rendezéséhez, kereséséhez és térképezéséhez szükséges célprogramot fejlesztettünk ki (Olló néven) a dialektológiai megoldások adaptálásával és Hajdú ihály módszertani észrevételeinek figyelembevételével. 3 A denotátumfajták szerinti annotálást kezdetben Bárth János végezte, majd a későbbiekben is ő irányította ezt a munkafázist. 4 Történeti szövegekről lévén szó, a számítógépes feldolgozás során a legelső probléma, amit feltétlenül meg kellett oldanunk, a történeti grafémák (karakterek) kódolása volt. hhez a magyar egyezményes hangjelölési rendszer számítógépes alkalmazásában összegyűlt tapasztalatokból kiindulva egy analitikus kódrendszert dolgoztunk ki. 5 A mostani magyar ábécében meglévő ékezetes betűket megtartottuk, az összes többi, a történeti szövegekben előforduló ékezetes betűt mozaikszerűen építjük föl, külön az alapkarakterre illesztve a szükséges ékezet(ek)et (lásd az 1. ábrát). aga a rendszer a kötetek informatizálásának előrehaladtával folyamatosan bővül, minden kötetben akad egy-egy olyan graféma, amely korábban még nem fordult elő. Az adatok megfelelő kódolásához pedig minden egyes, az adattárban előforduló Vargha Fruzsina Sára (1979) tudományos munkatárs, PhD, LT, Budapest, fruzsa@gmail.com Vékás Domokos (1962) PhD, bihalbocs@gmail.com 1 Vékás Domokos: Számítógépes dialektológia = V. Dialektológiai Szimpozion. Szerk. Guttmann iklós olnár Zoltán. Szombathely 2007. 289 293. 2 Szabó T. Attila erdélyi történeti helynévgyűjtése 2. Háromszék. Szerk. Hajdú ihály Slíz ariann. Budapest. 2001. 3 Vargha Fruzsina Sára: Nyelvjárási és helynévtörténeti anyagok számítógépes feldolgozása. = Kontextus Filológia Kultúra. II. Szerk. František Alabán. Besztercebánya ger 2008. 77-84. 4 Bárth. János: Háromszéki helynevek nyelvészeti elemzése informatikai módszerekkel. Helynévtörténeti Tanulmányok II(2006). 207 217. 5 A szövegek megjelenítéséhez szükséges betűkészlet és kódrendszer kialakításához Korompay Klárától kértünk és kaptunk segítséget, útmutatást, amelyet itt is szeretnénk megköszönni.

LOKALIZÁLHATÓ NYLVTÖRTÉNTI ADATOK INFORATIZÁLÁSA ÉS TÉRKÉPZÉS 161 1. ábra. A történeti karakterek analitikus kódolása 2. ábra. Helynevek kijelölése és denotátumfajták szerinti annotálása az Ollóban karaktert számon kell tartanunk (kódolnunk kell), hogy az informatizáláshoz szükséges konverzió után pontosan úgy láthassuk viszont, ahogyan Szabó T. Attila annak idején cédulára írta. ddig összesen nyolc kötet anyagát dolgoztuk föl a fent leírt kódolási rendszernek megfelelően, a nyomtatott változathoz készített elektronikus dokumentumokból kiindulva: 1. Alsófehér megye. Közzéteszi Hajdú ihály és Janitsek Jenő. 2001. 204 lap. 2. Háromszék. Közzéteszi Hajdú ihály és Slíz ariann. 2001. 207 lap. 3. Szilágy megye. Közzéteszi Hajdú ihály és Sebestyén Zsolt. 2002. 247 lap. 4. Kiskü kü llő és Nagykü kü llő megye. Közzéteszi Hajdú ihály és Sebestyén Zsolt. 2003. 272 lap. 5. Torda-Aranyos megye. Közzéteszi Hajdú ihály, Buboly agdolna és Sebestyén Zsolt. 2004. 252 lap. 6. Udvarhelyszék. Közzéteszi Hajdú ihály és Bárth. János. 2005. 254 lap. 7. aros-torda

162 VARGHA FRUZSINA SÁRA VÉKÁS DOOKOS 3. ábra. Keresés az Ollóban a kő különböző írásmódú változataira megye. Közzéteszi Hajdú ihály és Sófalvi Krisztina. 2005. 812 lap; két részkötetben: A. 1 413, B. 415 812. 8. Csík-, Gyergyó- és Kászonszék. Közzéteszi Hajdú ihály, akay mese és Slíz ariann. 2006. 153 lap. Az informatizált változat alapegysége az eredeti, Szabó T. Attila által lejegyzett céduláknak felel meg: egy adott településről, egy forrásból, egy adott időpontból származó adatok összességét tekintjük feldolgozási alapegységnek. Az így kialakított rendszer tehát pontosan leképezi a forrásdokumentumét (akárcsak a nyelvjárási adattárak feldolgozása esetében), ugyanakkor megőrzi a kapcsolatot a nyomtatott változattal is az oldalszámok adatokhoz kapcsolásával. A névtani szempontú feldolgozás erre a célra kialakított speciális környezetben történik (2. ábra), ahol a névtesteket, helynevet tartalmazó körülírásokat manuálisan, az egérrel, illetve speciális billentyű- és menüparancsok segítségével lehet a szövegben kijelölni, további részekre bontani, az egyes kijelöléseket, kijelölésrészleteket előre kialakított tipológiák szerint minősíteni. 6 A feldolgozás során kijelölt és minősített helynevek, helyneveket tartalmazó körülírások adatbázisba rendezésük után az Olló keresőfelületén különféle szempontok szerint lekérdezhetők, csoportosíthatók, térképezhetők. Az adatokban való keresést a 3. ábra szemlélteti. Az ábrán látható példán a kő szó előfordulásait kérdeztük le az elsőként informatizált székelyföldi adatokban. Az Olló program az adatok és a keresett szó írásmódjának egyszerűsítésével segíthet minket abban, hogy írásmódtól függetlenül megtaláljunk egy szót, szókapcsolatot. Így a kő szó valamennyi előforduló változatát megkapjuk, ha rákeresünk a ko, keo és keu betűkapcsolatokra. (A keresett kifejezések 6 Bárth. János: Székelyföldi történeti helynevek nyelvi elemzése. Doktori értekezés. LT BTK. Bp. 2010. 26 40.

LOKALIZÁLHATÓ NYLVTÖRTÉNTI ADATOK INFORATIZÁLÁSA ÉS TÉRKÉPZÉS 163 4. ábra. A bodza alakváltozatainak területi megoszlása a helynévtörténeti adatokban 5. ábra. A bodza legkorábban előforduló (17. századi) változatai a helynévtörténeti adatokban és térbeli elhelyezkedésük megadására szolgáló mezők jobbra fönt, a találatok a kép bal oldalán, egymás alatt láthatók.) A keresés eredményeképpen 5031 találatunk lesz. Az adatok csoportosítása révén lehetőségünk van azoknak az adatoknak a kiválogatására, amelyek valóban a kő szót tartalmazzák. (Hiszen a keresésnek megfelelő betűkapcsolatok más szavakban is előfordulhatnak, pl. Kŏles szer, Lökös, Keozepseo hatar.) A kiválogatott adatok térbeli elhelyezkedését azonnal térképre is vetíthetjük, és lehetőségünk van arra is, hogy az adatokat tetszőleges szempontok szerint tovább csoportosítsuk. A 4. ábra a bodza különböző alakváltozatainak előfordulását mutatja a helynévtörténeti adatokban. A településeket jelző karikák mérete az egy-egy településről származó adatok mennyiségével arányosan változik. A legáltalánosabban elterjedt változat a borza, de

164 VARGHA FRUZSINA SÁRA VÉKÁS DOOKOS 6. ábra. A bodza alakváltozatai az rdélyi magyar szótörténeti tár adataiban jellemző területi kötöttséggel megjelenik a bozza, a bodza és a bojza alak is. ivel ismerjük az adatok keletkezésének idejét, rendezhetjük az adatainkat évszám szerint, és így térképezhetjük a legkorábbi, 16. századi adatokat (5. ábra). Igen kevés adatunk van ebből a korai időszakból, de a kirajzolódó térkép alapján mégis érdekes felfedezést tehetünk. A legkorábbi történeti helynévadatokban Borzaszeg neve kizárólag Bozzaszeg változatban fordul elő a településen és környékén. gészen az 1700-as évekig a bozza a jellemző változat a környék helyneveiben, de később teljesen eltűnik, és az 1700-as évek végén már csak a Székelyföldön és Háromszéktől délre találunk a borzától eltérő alakváltozatokat. 7 Az rdélyi magyar szótörténeti tár 8 adatai többnyire épp úgy lokalizálhatók a forrás alapján, akár a történeti helynévadatok, nem lehetetlen vállalkozás tehát, hogy a szótár adatait térben elhelyezve történeti nyelvjárási térképeket hozzunk létre. íg azonban az informatizált, adatbázisba rendezett helynévanyag kereshető és automatikusan térképezhető, addig a Tár egyelőre szerkesztett könyvként áll rendelkezésünkre. A közelmúltban elkészült PDF-változat némely tekintetben megkönnyíti a címszók böngészését, noha nyilvánvalóan nem nyújt olyan sokrétű lehetőségeket a kutató számára, mint az HA 2006 óta nyolckötetnyire duzzadt adatbázisa. A 6. ábrán a bodza különböző alakváltozatait térképeztük a Tár adatai alapján. A történeti helynevekhez képest azonban ezen a térképen szinte egyeduralkodó a borza változat, ezen kívül csak két bojza és egy bodza adatot találunk, mindhármat a szócikk végén, a helyneveknél. A bodza térképezése a két adattár alapján egyrészt szemlélteti a lokalizálható történeti adatok ilyetén feldolgozásában rejlő kutatói lehetőségeket, másrészt rámutat arra, hogy a két adattár szervesen összefügg, a bennük rejlő adatok a Tár megfelelő feldolgozása és a két adatbázis integrálása révén jól kiegészíthetnék egymást. 7 A bodza alakváltozatainak területi megoszlásáról és annak tanulságairól lásd bővebben Vargha Fruzsina Sára: A dialektometria alkalmazása és történeti helynevek nyelvföldrajzi vizsgálata a Székelyföldön. Helynévtörténeti Tanulmányok V(2010). 223 233. 8 rdélyi magyar szótörténeti tár. I XII. Szerk. Szabó T. Attila és munkatársai. Buk. Bp. Kvár 1979 2009.

LOKALIZÁLHATÓ NYLVTÖRTÉNTI ADATOK INFORATIZÁLÁSA ÉS TÉRKÉPZÉS 165 Digitization of Transylvanian Historical Place-Names Keywords: Transylvanian historical place-names, Attila Szabó T., Transylvanian Hungarian Historical Thesaurus In 2010 the last volume of the Transylvanian Historical Place-Names series collected by Attila Szabó T. was published. Nevertheless, in its original, paper-based form the corpus of approximately 600 000 place-names is difficult to study as it is not searchable. Based on the linguistic technologies used in previous projects aiming the digitization of Hungarian dialect data, a method and a related software tool have been developed for the digitization of the historical place-names. In the database the place-names are classified according to a predefined list of denotation types. A special encoding system provides the possibility to make searchable the historical data while maintaining its original form (special characters and diacritics). As every item belongs to a location, they can be easily represented on maps. Localized data coming from an other but highly related corpus, the Transylvanian Hungarian Historical Thesaurus (rdélyi magyar szótörténeti tár) can also be mapped. After the digitization of the Thesaurus, the two collections shall ideally complete each other as presented here with the mapping of the different forms of the word bodza ( elder ).