KISS GÁBOR KISS MÁRTON



Hasonló dokumentumok
A Tinta e-book könyvtár/lexikontár címei:

LOVASKOCSIVAL AZ INFORMÁCIÓS SZUPERSZTRÁDÁN. információtartalma /1

Kollányi Bence: Miért nem használ internetet? A World Internet Project 2006-os felmérésének eredményei

A Mazsola KORPUSZLEKÉRDEZŐ

14-469/2/2006. elıterjesztés 1. sz. melléklete. KOMPETENCIAMÉRÉS a fıvárosban

Benchmarking könyvtárakban

1. A dolgozat tárgya és célkitőzései

DROGHASZNÁLAT A VESZPRÉMI EGYETEMISTA FIATALOK KÖRÉBEN ( K U T A T Á S I Z Á R Ó T A N U L M Á N Y)

Az allergén növények elterjedése és pollenallergia-veszélyeztetettség Debrecenben

Modern Fizika Labor Fizika BSC

MultiMédia az oktatásban

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Szabályozási irányok 2. változat a szélsıséges idıjárás hatásának kezelésére a Garantált szolgáltatás keretében

MAGYARORSZÁG VÍZGYŐJTİ- GAZDÁLKODÁSI TERVE

KIEGÉSZÍTİ AUTOMATIKA SZIKVÍZPALACKOZÓ BERENDEZÉSEKHEZ

A mintavételezés és a becslés módszertana

Tejtermékek csomagolása

Vállalati és lakossági lekérdezés. Szécsény Város Polgármesteri Hivatala számára

A JÖVİ NEMZEDÉKEK ORSZÁGGYŐLÉSI BIZTOSÁNAK ÁLLÁSFOGLALÁSA a lápok védelmének egyes jogi és ökológiai kérdéseirıl

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Koreografált gimnasztikai mozgássorok elsajátításának és reprodukálásának vizsgálata

ÉLET TÉR / KÖZÖS TÉR - KÖZÖS VÁROS Pécs Megyei Jogú Város Önkormányzatának civil közösségek támogatási pályázata - PÉCS 2011 PÁLYÁZATI KIÍRÁS

Kutatási Összefoglaló Nemzeti Foglalkoztatási Szolgálat megyei munkaügyi központjainak és helyi kirendeltségeinek kapacitás felmérése

SAJTÓANYAG BEMUTATTÁK A BALATONRÓL KÉSZÜLT KUTATÁSOK EREDMÉNYEIT

Matematikai alapok és valószínőségszámítás. Normál eloszlás

Tanácsadás az ápolásban: Ápolóhallgatók tanácsadói kompetenciájának vizsgálata. Doktori tézisek. Papp László

Integrált rendszerek az Európai Unió országaiban Elınyeik és hátrányaik

A fogyatékkal élık térhasználatának néhány problémája Békéscsabán. Fabula Szabolcs. 1. A fogyatékosság vizsgálatának jelentısége

A gimnáziumi osztályok félévi és év végi vizsgarendje.

A logisztikai teljesítményelvárások kijelölése - Vevıszegmentálás ÚTMUTATÓ 1

MAGYAR NYELV ÉS IRODALOM évfolyam

Speciális ingatlanok értékelése

Az Innováció és az ember avagy: Miért (nem) szeretnek a felhasználók kattintani?

Ingatlanvagyon értékelés

DEBRECENI EGYETEM AGRÁR- ÉS MŐSZAKI TUDOMÁNYOK CENTRUMA AGRÁRGAZDASÁGI ÉS VIDÉKFEJLESZTÉSI KAR VÁLLALATGAZDASÁGTANI ÉS MARKETING TANSZÉK

Összefoglaló. A világgazdaság

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Gulyás Emese. Nem látják át, és nem veszik igénybe a fogyasztóvédelmi intézményrendszert a magyarok május

106/2009. (XII. 21.) OGY határozat. a kábítószer-probléma kezelése érdekében készített nemzeti stratégiai programról

Tisztelt Elnök Úr! Tisztelt Képviselı Hölgyek és Urak! Tisztelt Miniszter Úr!

Térinformatikai DGPS NTRIP vétel és feldolgozás

KÖRNYEZETI FENNTARTHATÓSÁGI SEGÉDLET. ÚMFT-s. építési beruházásokhoz. 1.0 változat augusztus. Szerkesztette: Kovács Bence.

A KÉKES TURISTA EGYESÜLET ÉVI KÖZHASZNÚSÁGI BESZÁMOLÓJA

VI. Magyar Földrajzi Konferencia Darabos Enikı 1 Lénárt László

KÖZÉP-DUNÁNTÚLI KÖRNYEZETVÉDELMI, TERMÉSZETVÉDELMI ÉS VÍZÜGYI FELÜGYELİSÉG H A T Á R O Z A T

Az adóbevételi elıirányzatok megalapozottsága a számvevıszéki ellenırzések

Médiahatás-vizsgálat. A médiumok teljes mértékig átitatják mindennapi életünket. A modern társadalmakban élık számára a média megkerülhetetlen

SZAKMAI KÖVETELMÉNYEK

Önkormányzati kötvénykibocsátások Magyarországon: tapasztalatok és lehetıségek

Míg a kérdıíves felérés elsısorban kvantitatív (statisztikai) elemzésre alkalmas adatokat szolgáltat, a terepkutatásból ezzel szemben inkább

A Veres Péter Gimnázium felvételt hirdet 4 és 8 osztályos gimnáziumi osztályaiba a 2012/2013-as tanévre az alábbiak szerint

Globális környezeti problémák és fenntartható fejlıdés modul

Az óvodai és iskolai étkezés, napközi /tények és vélemények/

Elméleti alapok: Fe + 2HCl = FeCl 2 +H 2 Fe + S = FeS FeS + 2HCl = FeCl 2 + H 2 S

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1

Ezeket a kiemelkedı sebességő számítógépeket nevezzük szuperszámítógépeknek.

Elıterjesztés Békés Város Képviselı-testülete március 26-i ülésére

A Heves megyei egyéni vállalkozók évi tevékenységének alakulása

J E G Y Z İ K Ö N Y V. Ülés helye: Mélykút Város Polgármesteri Hivatala Tanácskozó Terem

Balázs Ildikó* ELEKTRONIKUS KOMMUNIKÁCIÓ JÖVİNK KULCSAI

A évi középfokú felvételi vizsgadolgozatok eredményei

Az NFSZ ismer tségének, a felhasználói csopor tok elégedettségének vizsgálata

Opponensi vélemény. Pécskay Zoltán: a K-Ar kormeghatározási módszer alkalmazása harmadidıszaki vulkáni területek geokronológiai kutatásában

1. Bevezetés. 2. Az Értelmezı szótár+ mint értékmérı

Jankó István Iskolaérettség- éretlenség logopédus szemmel

e-közigazgatás fejlesztési koncepció

A MAGYAR KÖZTÁRSASÁG NEVÉBEN!

Az elektronikus napló

A évi rövidtávú munkaerı-piaci prognózis felmérés fıbb tapasztalatai

OSZTÁLYFİNÖKI ÓRÁK HELYI TANTERVE (9-13. évfolyam)

Követő vizsgálat a Sólyom 8.b Naspolya. A tanévet vizsgálva (9. évfolyam)

Nyugat-magyarországi Egyetem Széchenyi István Gazdálkodás- és Szervezéstudományok Doktori Iskola

Számítógépi képelemzés

2. óravázlat szeptember 19. Ötletek, erkölcs és jog

V E R S E N Y T A N Á C S

Szakmai zárójelentés Az erdélyi magyar nyelvjárások anyagának feldolgozása és közzététele (11. szakasz) c. pályázatról

Különös közzétételi lista a nevelési oktatási intézmények részére

MTA DOKTORI ÉRTEKEZÉS

Beszámoló az IKT munkaközösség 2011/2012-es tanév végén végzett méréséről Készült: Balassi Bálint Általános Iskola és Előkészítő Szakiskola

A mintában szereplő határon túl tanuló diákok kulturális háttérre

Miben fejlődne szívesen?

TIOP 2.6. Egyeztetési változat! október 16.

Divatos termék-e a kondenzációs kazán?

A Dél-alföldi régió gazdasági folyamatai a évi társaságiadó-bevallások tükrében

A Páratlanklub 2010 Áprilisi Kérdıíves Felmérésének Kiértékelése

Az Európai Parlament szeptember 11-i állásfoglalása a nık munkakörülményeirıl a szolgáltatási ágazatban (2012/2046(INI))

10/2012. (II. 28.) NEFMI

Helyi Esélyegyenlıségi Program HAJDÚSZOVÁT Község Önkormányzata

MŰVELTSÉGTERÜLET OKTATÁSA TANTÁRGYI BONTÁS NÉLKÜL AZ ILLYÉS GYULA ÁLTALÁNOS ISKOLA 5. A OSZTÁLYÁBAN

Nyílt sérülések

GUBÁNYI KÁROLY ÁLTALÁNOS ISKOLA PEDAGÓGIAI PROGRAM

A bírósági eljárás elhúzódása miatti kifogásról

SÜLYSÁP SZÉKHELYŐ KÖZÖS FENNTARTÁSÚ CSALÁDSEGÍTİ ÉS GYERMEKJÓLÉTI SZOLGÁLAT

Fót Város Önkormányzat Szociális Szolgáltatástervezési Koncepciója

Kábítószerügyi Egyeztetı Fórum. Szolnok. Helyzetfeltárás

Dolgozói létszám szerinti megoszlás

Szakdolgozat. Pongor Gábor

A recski Római Katolikus Egyházközség szabályzata az egyházközség tulajdonában lévı temetı mőködésének rendjérıl.

B E S Z Á M O L Ó Körösladány Város 2010 évi közbiztonsági helyzetérıl

TÁJÉKOZTATÓ A TANÁRI MESTERSZAKRA BA VÉGZETTSÉGGEL RENDELKEZİ JELENTKEZİK SZÁMÁRA

Átírás:

KISS GÁBOR KISS MÁRTON A Magyar Történeti Korpusz és a Magyar Nemzeti Szövegtár szókincsének összehasonlítása az Értelmezı szótár+ címszójegyzéke felhasználásával Ce travail présente la comparaison du lexique du Corpus historique du hongrois (TK) et du Corpus national du hongrois (MNSz), fondée sur la liste des vedettes (15.850 mots) de l Értelmezı szótár+ (ÉrtSz+) (Dictionnaire unilingue du hongrois+). Grâce à cette méthode, nous avons pu sélectionner de façon efficace les néologismes et les archaïsmes caractéristiques de ces deux corpus différents. La comparaison nous a aussi permis de constater que les éléments communs les plus fréquents des deux corpus constituent le noyau central du lexique hongrois. I. A vizsgálat elızménye A Magyar Történeti Korpusz (TK) és a Magyar Nemzeti Szövegtár (MNSz) összehasonlítása egy más irányú lexikográfiai feladat elvégzésének melléktermékeként jött létre a TINTA Könyvkiadóban. (Mint ismeretes, a TK-t a Magyar Nagyszótár munkálatai során építették fel, és ez a korpusz 18., 19. és 20. századi magyar szövegrészleteket tartalmaz, míg az MNSz-t a 20. század végén keletkezett elsısorban sajtónyelvi, irodalmi szövegek alkotják.) Az elsıdleges feladat az Értelmezı szótár+ (ÉrtSz+; Eıry, 2007) címszavainak gyakorisági mutatóval való ellátása volt. A gyakorisági mutatók meghatározásához felhasználtuk mindkét magyar szövegkorpuszt 1. Az utóbbi évtizedekben a nemzetközi szótárirodalomban az angol értelmezı szótárak nyomán elterjedt a címszavak gyakoriságának jelölése. A magyar szótárirodalomban a Magyar értelmezı kéziszótár (ÉKsz. 2 ; Pusztai, 2003) közli elsıként a címszavak gyakoriságát 2. 1 Ezúton is köszönetet mondunk az MTA Nyelvtudományi Intézetének a két korpusz szokásos felhasználási módját meghaladó vizsgálat engedélyezéséhez. 2 Azt, hogy az ÉKsz. 2 címszavainak gyakorisági besorolása nem volt problémamentes, és a feladat elvégzése után kapott eredmény sem hibátlan, jelzi, hogy kétségtelenül a legritkább magyar szavak közé tartozó ball szó, amely a szótár szerint a A földrengések erısségének egyik mértékegysége, közepes gyakoriságú besorolással szerepel a kiadványban.

Szavak, frazémák, szótárak Az ÉrtSz+ sajátosan izgalmas színt képvisel a magyar, de a nemzetközi szótárkínálatban is, mert erıteljesen túllép az értelmezı szótár szokásos funkcióin. Az ÉrtSz+ a szómagyarázó funkció mellett mint a szótár az alcímében is jelzi Értelmezések, példamondatok, szinonimák, ellentétek, szólások, közmondások, etimológiák, nyelvhasználati tanácsok és fogalomköri csoportok szerint is átfogó módon dolgozza fel címszóállományát. Sıt a szótár még a címszó gyakoriságát is feltünteti egy ötfokozatú skálán. Mint említettük, az ÉrtSz+ címszavai gyakoriságának meghatározásához felhasználtuk a TK-t és az MNSz-t. A feladat elvégzése során megvizsgáltuk, hogy az ÉrtSz+ 15.850 címszava elıfordul-e, és ha igen, milyen gyakran a fenti két magyar szövegkorpuszban külön-külön. A két korpuszból kinyert gyakorisági adatokat leegyszerősítve mondva átlagoltuk, majd súlyozást is alkalmazva állapítottuk meg az egyes címszók gyakorisági osztályát, azaz soroltuk be az 5 gyakorisági osztály valamelyikébe. A kapott eredmény elemzését követıen, a gyakorisági mutatót néhány esetben szubjektív nyelvérzékünk alapján módosítottuk. 176 II. A vizsgálat Szövegkorpuszok összehasonlítására nincs általánosan elfogadott módszer. A matematikai logika nyelvére lefordítva: két nagy, de véges számú, ismétlıdı diszkrét elemeket is tartalmazó halmazt kell összevetni. A halmazokban nemcsak az egyes elemek, azaz szavak megléte vagy hiánya a fontos, hanem az is jellemzı, hogy egy-egy szó hányszor fordul elı egy-egy szövegkorpuszban. Mivel a gyakorlatban szinte lehetetlen két vizsgált nagy szövegkorpusz minden egyes szavának az összevetésébıl keletkezett eredmény kiértékelése, az ÉrtSz+ címszavainak gyakorisági mutatójának a meghatározása megmutatott egy praktikusnak és helyesnek tőnı eljárást ahhoz, hogy két vagy több szövegkorpusz szókincsét miként lehet összevetni. Ugyanis a munkálat rávilágított arra, hogy egy jól megválasztott minta, vagy más néven teszt szólistának a szavait felhasználhatjuk a korpuszok szókincsének összevetésére, összehasonlítására. Természetesen ennek a teszt szólistának a hossza az összehasonlítandó korpuszok szókincséhez képest nem lehet se túl kicsi, se túl nagy. Az ÉrtSz+ címszavainak gyakorisági osztályokba sorolása során úgy tapasztaltuk, hogy a szótár 15.850 címszavának a két korpuszban való

KISS GÁBOR KISS MÁRTON: A Magyar Történeti Korpusz... elıfordulása és az elıfordulások gyakorisága jól jellemzi és sajátosan leírja a fenti két korpuszt. Így az ÉrtSz+ címszójegyzékét joggal tekinthetjük vizsgálatunk teszt szólistájának. Az ÉrtSz+ címszavait különös gonddal válogatták össze a szerkesztık. A címszólista összeállításáról így vallanak:,,milyen szavakat tartalmaz címszóként a szótár? Elsısorban az úgynevezett alapszókincs elemeit, amelyeket a leggyakrabban és legtöbben használunk, ezek között egyaránt vannak fogalomszók (...) és formaszók (...). Az alapszavak mellett sok a tantárgyi szakszó, olyanok, amelyekkel a diákok az irodalom-, a nyelvtan-, a történelem-, a matematika-, a fizikaórán találkozhatnak. (...) Megtalálható a szótárban több olyan régi szó, amelyek már csak irodalmi és történelmi szövegekben olvashatók (...). ezeken kívül vannak benne új, legtöbbször a modern technikával kapcsolatos szavak (...) Helyet kaptak a szótárban olyan szavak is, amelyeket Magyarországon nem használunk, de a határon túli magyarok életéhez hozzátartoznak. (Eıry, 2007: VIII). Két korpusz (MNSz és TK) szókincsének (szavainak) és a teszt szólistaként használt ÉrtSz+ címszavainak összevetése során a következı elméleti esetek lehetségesek: 1. A teszt szólista egy adott szava mindkét korpuszban elıfordul valahányszor. 2. A teszt szólista egy adott szava nem fordul elı egyik korpuszban sem. 3. A teszt szólista egy adott szava a TK korpuszban elıfordul valahányszor, míg az MNSz-ben nem. 4. A teszt szólista egy adott szava az MNSZ-ben elıfordul valahányszor, míg a TK-ban nem. 5. A teszt szólistában nem szereplı szó mindkét korpuszban elıfordul. 6. A teszt szólistában nem szereplı szó az MNSZ-ben elıfordul, de a TK-ban nem. 7. A teszt szólistában nem szereplı szó a TK-ban elıfordul, de az MNSZ-ben nem. 177

Szavak, frazémák, szótárak 2. 7. 3. 5. 1. 4. 6. A teszt szólista Az MNSz A TK A Magyar Nemzeti Szövegtár (MNSz), a Magyar Történeti Korpusz (TK) és a teszt szólista szavainak lehetséges viszonya Vizsgálatunk körébe természetszerőleg csak a 1 4. pontok tartoztak, az 5 7. pontok esetei kívül estek figyelmünkön. Mérésünket 2006. májusában végeztük. Ebben az idıben az MNSz 111.746.000 szövegszó nagyságú, míg a TK 8.897.000 szövegszó terjedelmő volt. A mérés elején az ÉrtSz+ címszavai közül eltávolítottuk az 1-nél nagyobb homonimaindexszel ellátott címszavakat. A homonimák nélküli teszt szólista az eredetileg 15.810 címszóból álló lista helyett 15.010 szó hosszúságú lett. Ezt követıen egy kis robotprogram lekérdezte a teszt szólistát alkotó 15.010 szó elıfordulási gyakoriságát a két korpuszban. A MNSz és a TK korpuszok a szövegszavaik korábbi morfológiai elemzése során ha kis mértékben is eltérı morfológiai elemzési technikát alkalmaztak, ezért az egyes esetekhez tartozó szavak számát 10-es értékre kerekítettük. 178

III. A vizsgálat eredményei a) Hasonlósági mutatók KISS GÁBOR KISS MÁRTON: A Magyar Történeti Korpusz... Számszerősítve a következı eredményt kaptuk a teszt szólista 15.010 szava és a vizsgált két korpusz szavainak viszonyára: 1. A teszt szólista 15.010 szavából 14.290 szó elıfordult mind a TK-ban, mind az MNSz-ben; 95,20% 2. A teszt szólista 15.010 szavából 45 szó nem fordult elı egyik szövegkorpuszban sem; 0,30% 3. A teszt szólista 15.010 szavából 670 szó csak az MNSz-ben fordult elı, a TK-ban nem szerepelt; 4,46% 4. A teszt szólista 15.010 szavából 5 szó csak a TK-ban fordult elı, az MNSz-ben nem szerepelt; 0,03%. Az adatokból látszik, hogy a két magyar szövegkorpusz szókincse hasonló, jelentıs átfedést mutat egymással. A teszt szólistának használt ÉrtSz+ címszójegyzéke a szótár jellegébıl és funkciójából adódóan jobban illeszkedik a MNSz-hez, mint a TK-hoz. b) Neologizmusok Az MNSz jellegébıl adódóan joggal feltételezhetjük, hogy azok a szavak, amelyek csak az MNSz-ben fordulnak elı, jól jellemzik a 20. század végét, illetve az ezredfordulót, és így ezek a magyar szókincs neologizmusai közé tartoznak. Feltételezésünk igazolására közreadjuk annak az 50 leggyakoribb szónak a listáját, amelyek az MNSz-ben elıfordulnak, de a TK-ban nem találhatók meg (a szó melletti szám a szó MNSz-beli elıfordulását mutatja): közszolgálati 6764 internet 3057 tizenéves 970 munkáltató 6263 közalkalmazott 3008 rajzfilm 955 honlap 5383 foci 2541 mobiltelefon 912 euró 4515 bevásárlóközpont 2476 tévécsatorna 873 közterület 4415 kosárlabda 2323 interaktív 860 sportág 4204 világháló 2294 kemping 852 179

Szavak, frazémák, szótárak 180 CD 3890 társasház 2234 versenyszféra 803 piacgazdaság 3743 tömegközlekedés 2051 éllovas 794 e-mail 3728 informatika 1993 elektronika 789 szoftver 3611 globalizáció 1833 sci-fi 761 környezetvédelem 3592 videó 1726 papírforma 755 digitális 3590 bróker 1566 hardver 735 szia 3475 multi 1378 lakópark 693 drog 3399 természetvédelem 1136 akciófilm 666 parkoló 3373 AIDS 1079 sikerdíj 636 atomerımő 3217 telefax 1060 bulvárlap 635 elsıfokú 3184 hobbi 1055 c) Archaizmusok Neologizmusok, az MNSz leggyakoribb korfestı szavai Ezt követıen felmerül a kérdés, hogy a fenti neologizmusokhoz hasonlóan a magyar nyelv archaizmusait is kigyőjthetjük-e a két korpusz szóanyagának az összevetésébıl? Mivel vizsgálatunkban a TK-ban nem találtunk jelentıs számban olyan szavakat, amelyek csak abban fordulnak elı, és nem találhatók meg a MNSz-ben direkt módon nem győjthetünk archaizmusokat a TK-ból. Azonban adódik a gondolat, hogy talán archaizmusnak tekinthetık azok a szavak is, amelyek arányosan jóval többször fordulnak elı a TK-ban, mint az MNSz-ben. A gondolat életrevalónak tőnik, bizonyításképpen alább közreadjuk az elsı 50 olyan szót, amelyek jelentısen többször fordulnak elı a TK-ban, mint az MNSz-ben (a szót követı szám az elıfordulási arányt mutatja). aprószentek 15 hanga 23 midın 34 asztag 12 hazámfia 64 nadály 18 beszély 15 hevenyében 15 okuláré 11 billikom 45 honfi 28 orozva 27 borong 13 honn 47 pacsuli 20 bıszült 20 horgany 50 patvar 14 burnót 24 ispán 16 sarjadék 17 csepő 14 játszi 26 sólya 14 csibuk 28 kebel 16 süveg 13

KISS GÁBOR KISS MÁRTON: A Magyar Történeti Korpusz... csigáz 99 kegyed 25 szövétnek 11 csöngettyő 13 komika 30 szüle 18 dicsı 13 komorna 24 tekintetes 18 divatozik 22 kopja 20 téns 54 dragonyos 16 korhely 13 tragika 21 epeszt 36 ködmön 13 urambátyám 20 fejkötı 20 mál 28 vágta 23 findzsa 21 málé 11 várta 109 gondola 16 mente 14 vitézkötés 13 hajdankor 23 messzely 28 Archaizmusok, azok a szavak, amelyek arányosan jelentısen többször fordulnak elı a TK-ban, mint az MNSz-ben d) A magyar szókincs magja Mind a két vizsgált korpuszban elıfordul a teszt szólista szavainak 95,2%-a. Mint láttuk, nem mindegy azonban, hogy a közös szavak elıfordulásának mi az aránya. A következıkben közreadunk mintaképpen 50 olyan gyakori szót, amelyek elıfordulási aránya megegyezik vagy közel azonos mindkét szövegkorpuszban. Az 50 mintaszó mindegyikét az ÉrtSz+ leggyakoribb címszavai közül választottuk, azaz mindegyik az elsı gyakorisági kategóriába tartozik a szótár öt kategóriájából. A szavak mögött álló szám az MNSz-ben és a TK-ban lévı elıfordulások aránya. Ha a szám nagyobb egynél, akkor arányaiban az MNSz-ben fordult elı többször a szó, ellenkezı esetben a TKban gyakoribb. Megállapíthatjuk, hogy ezek a szavak fontosak, a magyar szókincs középpontjában, magjában helyezkednek el, hiszen használatuk több mint két évszázadon át gyakori és állandó intenzitású a korpuszok adatai alapján. ad 1,13 két 1,17 rendel 0,85 csinál 0,99 kevés 0,91 rossz 1,03 elmegy 0,87 könnyő 0,83 sok 1,03 esik 1,15 könyv 1,03 század 0,89 este 0,92 magas 0,92 széles 0,89 181

Szavak, frazémák, szótárak férfi 1,17 magyaráz 1,00 szeret 1,10 fiatal 0,90 mond 0,83 szó 0,92 gondol 1,03 nagyon 1,18 szolgál 0,92 gyız 0,86 nap 1,03 tart 1,18 három 0,99 négy 1,17 tartozik 1,04 hat (szn) 1,02 nehéz 0,93 teremt 1,15 hisz 0,85 név 1,20 tud 1,19 hoz 1,00 nyár 1,09 út 1,12 idı 1,13 ok 1,13 város 1,13 ismer 0,89 olvas 0,88 vesz 0,95 jut 1,06 óra 1,17 víz 0,87 katona 0,88 orvos 1,02 Állandó intenzitású és gyakori szavak a magyar szókincs magjából IV. Összegzés Összegzésként elmondhatjuk, hogy újszerő vizsgálatunk bebizonyította, hogy két szövegkorpusz szókincsének összehasonlítása eredményesen elvégezhetı egy kisebb alkalmas teszt szólista akár egy szótár címszójegyzékének segítségével. Két különbözı jellegő szövegkorpuszból hatékonyan győjthetık ki egy megfelelı teszt szólista segítségével a korpuszokra külön-külön is jellemzı szavak, a mi esetünkben neologizmusok és archaizmusok. A kigyőjtött neologizmusok a 20. század végének, az ezredfordulónak a korfestıi, míg az archaizmusok jól jellemzik a 18. század vége, illetve a 19. század magyar szókincsét. Ugyanakkor megállapítható, hogy a két korpusz közös elemei közül azok, amelyek elıfordulása magas és az elıfordulások aránya közel azonos az egyes korpuszokban, a magyar szókincs magját képezik, így köznyelvi szótárak címszójegyzékének összeállításához eredményesen használhatók. A két magyar szövegkorpusz összehasonlítása során nyert eredmények rávilágítanak arra is, hogy több és különbözı típusú magyar szövegkorpuszra lenne szükség, mert a szövegkorpuszok összevetésével jellegzetes csoportokat alkotó szavak győjthetık egybe többé-kevésbé automatikusan. A korpuszokból 182

KISS GÁBOR KISS MÁRTON: A Magyar Történeti Korpusz... kigyőjtött szócsoportok alkalmas kiindulásai lehetnek a magyar szókészlet különbözı szempontú szótári munkálatainak. Bibliográfia EİRY, Vilma (fıszerk.), 2007, Értelmezı szótár+. Értelmezések, példamondatok, szinonimák, ellentétek, szólások, közmondások, etimológiák, nyelvhasználati tanácsok és fogalomköri csoportok, Budapest, TINTA Könyvkiadó. PUSZTAI, Ferenc (fıszerk.), 2003, Magyar értelmezı kéziszótár, Budapest, Akadémiai Kiadó. KISS GÁBOR Tinta Könyvkiadó E-mail: kissgabo@tintakiado.hu KISS MÁRTON Tinta Könyvkiadó E-mail: kissmarci@tintakiado.hu 183