doktori (PhD) értekezés tézisei Csernoch László Józsefné Debreceni Egyetem Természettudományi Kar Debrecen, 2005.



Hasonló dokumentumok
KAPILLÁRIS NYOMÁS GÖRBE MEGHATÁROZÁSA HIGANYTELÍTÉSES POROZITÁSMÉRÉS ADATAIBÓL DETERMINATION OF CAPILLARY PRESSURE CURVE FROM MERCURY POROSIMETRY DATA

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

Széchenyi István Egyetem

A szita formula és alkalmazásai. Gyakran találkozunk az alábbi kérdéssel, sokszor egy összetett feladat részfeladataként.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Descriptive Statistics

Autópálya forgalom károsanyag kibocsátásának modellezése és szabályozása

Using the CW-Net in a user defined IP network

Lopocsi Istvánné MINTA DOLGOZATOK FELTÉTELES MONDATOK. (1 st, 2 nd, 3 rd CONDITIONAL) + ANSWER KEY PRESENT PERFECT + ANSWER KEY

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Review of Correlation & Regression

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

RENDSZERSZINTŰ TARTALÉK TELJESÍTŐKÉPESSÉG TERVEZÉSE MARKOV-MODELL ALKALMAZÁSÁVAL I. Rendszerszintű megfelelőségi vizsgálat

Computer Architecture

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

On The Number Of Slim Semimodular Lattices

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Descriptive Statistics

Cluster Analysis. Potyó László

A jövedelem alakulásának vizsgálata az észak-alföldi régióban az évi adatok alapján

Proxer 7 Manager szoftver felhasználói leírás

A hőátbocsátási tényező meghatározása az MSZ :1991 szerint R I R= II. λ be R R + R [%], 4 [%], 3. ibe RI =

Statistical Inference

EXKLUZÍV AJÁNDÉKANYAGOD A Phrasal Verb hadsereg! 2. rész

ANGOL NYELVI SZINTFELMÉRŐ 2012 A CSOPORT. to into after of about on for in at from

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

FAMILY STRUCTURES THROUGH THE LIFE CYCLE

3. MINTAFELADATSOR KÖZÉPSZINT. Az írásbeli vizsga időtartama: 30 perc. III. Hallott szöveg értése

First experiences with Gd fuel assemblies in. Tamás Parkó, Botond Beliczai AER Symposium

Correlation & Linear Regression in SPSS

Folyamatosan öntött lemezbugák középvonali dúsulása és következményei

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Descriptive Statistics

Genome 373: Hidden Markov Models I. Doug Fowler

7 th Iron Smelting Symposium 2010, Holland

Rezgésdiagnosztika. Diagnosztika

Békefi Zoltán. Közlekedési létesítmények élettartamra vonatkozó hatékonyság vizsgálati módszereinek fejlesztése. PhD Disszertáció

Emelt szint SZÓBELI VIZSGA VIZSGÁZTATÓI PÉLDÁNY VIZSGÁZTATÓI. (A részfeladat tanulmányozására a vizsgázónak fél perc áll a rendelkezésére.

Tudományos Ismeretterjesztő Társulat

Can/be able to. Using Can in Present, Past, and Future. A Can jelen, múlt és jövő idejű használata

Társasjáték az Instant Tanulókártya csomagokhoz

MATEMATIKA ANGOL NYELVEN

Supporting Information


Mechanizmusok vegyes dinamikájának elemzése

Die Sensation in der Damenhygiene Hasznos információk a tamponokról

Philosophiae Doctores. A sorozatban megjelent kötetek listája a kötet végén található

Unit 10: In Context 55. In Context. What's the Exam Task? Mediation Task B 2: Translation of an informal letter from Hungarian to English.

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Szerven belül egyenetlen dóziseloszlások és az LNT-modell

Performance Modeling of Intelligent Car Parking Systems

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

KELER KSZF Zrt. bankgarancia-befogadási kondíciói. Hatályos: július 8.

ANGOL NYELVI SZINTFELMÉRŐ 2013 A CSOPORT. on of for from in by with up to at

ANGOL NYELVI SZINTFELMÉRŐ 2014 A CSOPORT

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Statistical Dependence

AZ IONKONCENTRÁCIÓ POTENCIOMETRIÁS MEGHATÁROZÁSA IONSZELEKTÍV ELEKTRÓDOK ALKALMAZÁSÁVAL

Az Open Data jogi háttere. Dr. Telek Eszter

Construction of a cube given with its centre and a sideline

Mapping Sequencing Reads to a Reference Genome

Descriptive Statistics

DOAS változások, összefoglaló

Tudományos Ismeretterjesztő Társulat

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

A BÜKKI KARSZTVÍZSZINT ÉSZLELŐ RENDSZER KERETÉBEN GYŰJTÖTT HIDROMETEOROLÓGIAI ADATOK ELEMZÉSE

Üdv. a 21 napos Hallás utáni szövegértés online tréning 2. napján!

STUDENT LOGBOOK. 1 week general practice course for the 6 th year medical students SEMMELWEIS EGYETEM. Name of the student:

A bankközi jutalék (MIF) elő- és utóélete a bankkártyapiacon. A bankközi jutalék létező és nem létező versenyhatásai a Visa és a Mastercard ügyek

Hálózat gazdaságtan. Kiss Károly Miklós, Badics Judit, Nagy Dávid Krisztián. Pannon Egyetem Közgazdaságtan Tanszék jegyzet

Regresszió. Fő cél: jóslás Történhet:

Correlation & Linear Regression in SPSS

USER MANUAL Guest user

Csima Judit április 9.

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

Összeszerelési és kezelési útmutató. VideoTerminal

Étkezési búzák mikotoxin tartalmának meghatározása prevenciós lehetıségek

EPS 1,46 XPS 1,46. Ásványgyapot 0,75. Nemes vakolat 0,88. Cementvakolat 0,93. Víz 4,186

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Index Numbers

Fuzzy rendszerek. A fuzzy halmaz és a fuzzy logika

Angol érettségi témakörök 12.KL, 13.KM, 12.F

T Á J É K O Z T A T Ó. A 1108INT számú nyomtatvány a webcímen a Letöltések Nyomtatványkitöltő programok fülön érhető el.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Budapest By Vince Kiado, Klösz György

Adatbázisok 1. Rekurzió a Datalogban és SQL-99

Az Országos Széchényi Könyvtár

Az entrópia statisztikus értelmezése

Mezőgazdasági gépesítési tanulmányok Agricultural Engineering Research MŰANYAG CSOMAGOLÓ- ÉS TAKARÓ FÓLIÁK REOLÓGIAI VIZSGÁLATA

Gottsegen National Institute of Cardiology. Prof. A. JÁNOSI

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Learn how to get started with Dropbox: Take your stuff anywhere. Send large files. Keep your files safe. Work on files together. Welcome to Dropbox!

Tudományos Ismeretterjesztő Társulat

ENROLLMENT FORM / BEIRATKOZÁSI ADATLAP

Magyar - Angol Orvosi Szotar - Hungarian English Medical Dictionary (English And Hungarian Edition) READ ONLINE

INDEXSTRUKTÚRÁK III.

VARIANCIAANALÍZIS (szóráselemzés, ANOVA)

Képleírási segédlet középszintű angol nyelvi vizsgákhoz. Horváth Balázs Zsigmond, Lövey Zoltán. Publio kiadó. Minden jog fenntartva!

N É H Á N Y A D A T A BUDAPESTI ÜGYVÉDEKRŐ L

FÖLDRAJZ ANGOL NYELVEN

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Tavaszi Sporttábor / Spring Sports Camp május (péntek vasárnap) May 2016 (Friday Sunday)

Abigail Norfleet James, Ph.D.

Minta ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA II. Minta VIZSGÁZTATÓI PÉLDÁNY

Átírás:

Irodalm mve szóészleténe statszta elemzése és matemata modellezése Statstcal Analyss of the Introducton of Word types n Lterary Wors dotor PhD érteezés tézse Csernoch László Józsefné Debrecen Egyetem Természettudomány Kar Debrecen, 2005.

. Bevezetés A orábban sznte zárólagosan alalmazott szubjetív megítéléssel szemben, a statszta módszere alalmazása lehetvé tesz rodalm mve számszersített objetívebb feldolgozását. A számítógép, lletve a számítógéppel segített szövegelemzés jelent, ahogy so más probléma esetén s, a szövege orábban megoldhatatlanna tn vzsgálatát. A szóalao, mnt egy lehetséges mnmáls egység számána a pontos smeretében tovább olyan formulá határozható meg, amelye épese a szövege egy-egy tulajdonságána a jellemzésére. Lehet arról vtázn, hogy a nyers adato/szóalao mennyre alalmasa rodalm mve stlszta elemzéséhez, de úgy tn, hogy eze statszta vzsgálatánál mostanág nem serült megbízhatóbb módszert találn az rodalm mve nyelv gazdagságána leírására Holmes, 994. A számítógépes nyelvészet mozgatója a ezdetetl a gép fordítás machne translaton megvalósítása ránt gény volt, mvel már a számítógépe megjelenése eltt s eresté azoat a módszereet, amelyere az egyhangú munát végz fordító régóta vártá a megoldást. Szemben a orább elépzeléseel, már az ötvenes éve végére megfogalmazódott, hogy a szava szószernt átírása nem adhat megfelel menetet egy fordítás problémára IBM, 959. A hatvanas éve özepére az s nylvánvalóvá vált, hogy a számítógép még soág nem lesz épes ember felügyelet nélül jó mnség fordítást észíten egy szövegrl Prószéy, 989; Church és Mercel, 994; Prószéy és Ks, 999. Az ezredfordulóhoz özeledve, amor a számítógépes nyelvészet már nem zárólag az angol nyelvterületre orlátozódott, smét felersödött a fordítás ránt gény. A gép fordítást ugyan nem, de a gép fordítás során felmerül számos részfeladatot serült megoldan. A részfeladato a ésbbeben a számítógépes nyelvészet egy-egy résztudományává ntte maguat. yelve és szövege matemata modellezéséhez s a gép fordításo vzsgálata adott nagy lendületet. Kezdetben ezeet az eredményeet a ttosításban és a ttosítás megfejtésében ódolás feltalálása, ülönösen a számítógépe bztosításánál, széles örben alalmaztá. Enne elmélet dolgozását C. Shannon amera matematus végezte el Demetrovcs et al., 985. Ezenél a vzsgálatonál az egységne egy bett jelet tentene. Korszaalotó jelentségne mondható Marov modellje Marov, 96; Mandelbrot, 962; Arató és Knuth, 970, amely szntén egymást övet szmbólumo nem függetlenül történ választására adott algortmust. Ezt az eljárást tovább módosítva napjanban a

Marov modell legnább statszta alapon möd szófaj meghatározáso Part of Speech, POS algortmusaént használatos. A gép fordítás többe özött azért nem valósulhatott meg, mert nem tudju megmondan, hogy m a jó fordítás. Szövege teljes számítógépes feldolgozása egyelre nem megoldott. A szövege bzonyos tulajdonságat leírn épes részeredményehez jutun, ha egyszersítjü modelljenet, pl. az általun választott jellemz paraméter számolásával. A szövegre jellemz bzonyos számszer paramétere vzsgálatára példa az a nylvánvaló egyszersítés, hogy szemben egy értelmes nyelv szöveggel a modellben a szava egymástól függetlenül jelenjene meg randomness assumpton. Ez annyt jelent, hogy fgyelmen ívül hagyun mndenféle szntata, szemanta és szövegszerezet megötést Balázs, 985. apjanra számos olyan eredmény látott napvlágot, amely ezzel az egyszersítéssel él un. lexa statszta modelle; összefoglaló értéelés Baayen 200-ben található. ylvánvaló, hogy a szöveg vsszaállítására a szavaat véletlen módon válogató modelle nem lehetne alalmasa, de nem s ez a célju. A véletlen válogatás természetes övetezménye ugyans, hogy az említett vzsgálatonál ülönbség van az eredet értelmes szöveg és a modell özött. A orábban megjelent lexa statszta modelle valamennyen status modelle volta Baayen, 200. A szava egymástól független megjelenését feltételezve, a szóészlet méreténe és egy m szógazdagságána jellemzésére zárt, matemata épleteel leírható megoldást ereste. Ilyen éplet felállítása azt jelentette, hogy serült egy, a szöveg egészére jellemz, anna egy bzonyos tulajdonságát leíró paramétert vagy paramétereet találn. Eze a modelle, övetezéséppen, nem adjá vssza sem az eredet szövegben jelenlév trendeet, sem a szezonaltásoat. A lexa statszta modelle elssorban a szóészlet nagyságára és gazdagságára, valamnt a szóalao elfordulás gyaorságára próbálta meg összefüggéseet találn. A szóalao gyaorság eloszlásána egy legaratersztusabb jellemzje, hogy nagyon magas a rtán elforduló szava száma, ezért eze az eloszláso a nagyszámú, de ugyanaor rendívül alacsony gyaorságú eseményeet leíró LRE Large umber of Rare Events osztályba tartozna Khmaladze, 987. Mvel az LRE típusú eloszláso számítógépes modellezésére még evés a seres és gyors algortmus az elmélet meggondolásoon nyugvó, számoal fejezhet eredményeel végezhetün összehasonlítást. A orább status modelle özül azo adtá a legjobb özelítéseet, amelye azt feltételezté, hogy egy szöveg szava polnomáls eloszlást övetne. Eze a modelle alalmasna bzonyulta arra, hogy vzsgáljá a szava nem-független 2

megjelenéséne forrásat. Segítségüel pl. arra a öveteztetésre jutotta Baayen, 996a; Baayen, 996b; Baayen, 200, hogy ugyan a mondaton belül ötöttsége a legnylvánvalóbba, mégsem eze a legfbb forrása a teljes szöveg szava nem-véletlenszer megjelenéséne. Soal nább meghatározóa a beezdés vagy szövegsznten beövetez változáso ezere vszont nncs matemata modell. 2. Céltzése Kutatásan elsdleges célja az volt, hogy rodalm mveben megjelen ülönböz szóalao lexa statszta elemzése alapján a m sajátosságara tudjun öveteztetn, a m szerezetérl, felépítésérl nformácót tudjun szerezn, és azt tovább feldolgozásra el tudju észíten. Fént angol és magyar nyelv rodalm mve egy specáls tulajdonságána meghatározását tztü célul: arra eressü a választ, hogy az író mor, a szöveg mely pontján találjá ndooltna olyan szava bevezetését, amelye orábban nem szerepelte az adott mben. Korább utatáso eredménye alapján smert, hogy a szóalao vzsgálata önmagában nem alalmas szerzazonosításra, érdés volt tehát, hogy a szóalao bevezetésére rányuló elemzése segítségével mlyen újabb nformácóhoz juthatun. Anyanyelv rodalm mve olvasása során s, de fleg degen nyelv szövege esetén megtapasztalhatju, hogy a regényt olvasva folyamatosan csöen az újonnan bevezetésre erül ülönböz szóalao száma, így elre haladva a önyvben egyre önnyebb anna olvasása. Az lyen és hasonló jelleg olvasó ntuícó azonban nem mnden esetben nyerte bzonyítást, mvel egy önyv olvashatósága nemcsa a felhasznált szóalao függvénye, hanem számos más tényez s befolyásolhatja. Az újonnan bevezetésre erül szava, nagy általánosságban, valóban monoton csöen tendencát mutatna. A mve többségénél azonban találn olyan ntervallumoat, amelyeben hrtelen megemeled a ülönböz szóalao száma. zsgálatanban arra erestü a választ, hogy mvel magyarázható a monoton csöen tendencától való eltérés, tehát mor és mért övetez be, hogy az újonnan bevezetésre erül szava száma lényegesen magasabb, mnt az azt megelz peródusoban. Kísérleten elvégzéséhez szüség volt egy olyan dnamus vzsgálat módszer dolgozására, amely mnd az angol, mnd a magyar szövegeben épes az újonnan megjelen szóalao számána vseledését a lehet legjobb özelítéssel vsszaadn. A szóészlet nagyságára és gazdagságára vonatozó status modellenél s alalmazott elmélet 3

meggondoláso özül ett tnt alalmazhatóna. Eze egye a szava egymástól függetlenül történ megjelenéséne a feltételezése randomness assumpton, továbbá, hogy a szava egy adott szövegen belül polnomáls eloszlást övetne. Ezeet felhasználva, lletve továbbaal egészítve olyan dnamus modell megépítését tztü célul, amely az eredet szövegben meglév trende és szezonaltáso leírására s alalmas lehet. Angol szövegere azért esett a választás, hogy eredményenet össze tudju hasonlítan orább, a szóészlet méretére vonatozó, status modelle alapján apott eredményeel. Magyar szövege lyen jelleg számítógépes feldolgozására, tudomásun szernt, ez dág nem történte ísérlete. Érdemesne tnt tehát megvzsgáln, hogy egy agglutnáló nyelv Prószéy, 989; O Grady et al., 993; Kefer, 998; Laczó, 2000 esetén hogyan alalmazhatóa a szava függetlenségét feltételez modelle. A orábban megjelent szubjetív véleménye arra engedte öveteztetn, hogy megoszl a témával foglalozó véleménye abban, hogy mor jelenne meg új szava egy rodalm mben. Egyes véleménye szernt a fejezet határo azo a helye, ahol látványosan emeled az újonnan bevezetett szava száma, míg máso szernt a szövegeben megjelen hosszabb leíráso oozna lyen jelleg változásoat. Baayan eredményene és sejtésene smeretében ez utóbb véleménye tnte elfogadhatóna, így az általun dolgozott módszert anna a hpotézsne az gazolására ívántu felhasználn, hogy az újonnan bevezetett szóalao száma aor emeled meg, ha a szöveg menetében, a szöveg teljes hosszához vszonyítva, egy vszonylag rövd változás övetez be. Ezt az állításunat úgy s megfogalmazhatju, hogy a szava egymástól független megjelenését feltételez modell és az eredet szöveg özött eltérése szövegsznten beövetez változáso eredménye. zsgálatanban a dnamus statszta modell megépítésén túl egy eddg nem, vagy gen rtán alalmazott módszert, az eredet m és a fordításana az összehasonlítását alalmaztu. Hasonló, szava gyaorságán alapuló módszerenél, orábban azért nem tnt alalmazhatóna a ülönböz nyelveen írt szövege összehasonlítása, mert a nyelve szntata, szemanta szabálya, ötöttsége, a fordításból származó eltérése más és más szószámot eredményezte a szöveg ülönböz verzóban. Mvel utatásanna nem az volt az elsdleges célja, hogy a szóészlet nagyságára, gazdagságára, a felhasznált szava pontos meghatározására találjun formulát, magyarázatot, hanem azt próbáltu meghatározn, hogy mor jelen meg a szövegben egy új szóala, ezért az eredet m és fordításana összehasonlítása egy szoatlan, de jól alalmazható eljárásna bzonyult. 4

Anna tovább gazolásához, hogy az újonnan bevezetett szóalao számána változása szövegsznten övetez be, az egyszer elforduló szava hapax legomena megjelenéséne vzsgálatát s elvégeztü. 3. Módszere 3.. Szövege feldolgozása Angol és magyar nyelv rodalm mve, azon belül s regénye és novellá elemzését végeztü el. A szövege feldolgozásához szüség volt azo dgtáls verzójára, amelye elsdleges forrása az Internet volt. Az angol nyelv önyve a Project Gutenberg, Unversty of rgna E-boo Lbrary, míg a magyar nyelve a Magyar Eletronus Könyvtár, lletve a eumann-ház eletronus önyvtáraból erülte letöltésre. Az eletronus formában nem elérhet rodalm mve eletronus formára alaítását éz szenneléssel serült pótoln. A szövege feldolgozása, értéelése, modellezése a saját fejlesztés, Wndows operácós rendszere alatt futtatható, DYMOCASAT-tel Dynamc Model for Computer Aded Statstcal Analyss of Texts történt. Mvel a végs cél a szövegeben elforduló ülönböz szóalao vzsgálata volt, ezért a feldolgozás alapját a szó defnálása, a szöveg szavara bontása épezte. A feldolgozás els lépéseént defnáln ellett azt a araterészletet ábécét, amellyel a program dolgozn fog, amely alapján el fogja dönten, hogy a szöveg mely aratersorozata tenthet szóna. Mvel a szövegeen elfeldolgozást nem végeztün, ezért vzsgálatan alapegysége a szóala ét elválasztó arater özött összefügg arater sorozat lesz. 3... Szövege bloora tördelése A szövege feldolgozását meg ellett elzze a ülönböz szóalao számána és megjelenés helyéne pontos meghatározása. Mndezt az DYMOCASAT végezte. ezessü be a övetez jelöléseet: a szöveg m hosszúsága; szavana, a szövegszóna a száma; az szövegszó hosszúságú szöveg ülönböz szavana, a szóalaona a száma ; f, szövegszó hosszúságú szöveg -ed leggyaorbb szava; hosszúság esetén az szó gyaorsága; 5

az -d leggyaorbb szó {P = p } valószínség eloszlása teljes, ha p. Az szövegszó hosszúságú szöveget feldaraboltu egyenl hosszúságú, azonos számú h szövegszót tartalmazó ntervallumora, bloora b. b h n blora bontju a szöveget, ahol mnden blo azonos számú szövegszót h tartalmaz; a bloo hossza; bloo száma, b, =,, n, ahol n. h 2 n h; n h. 3 A szövege ly módon történ feldolgozásánál mndg számoln ell valamenny veszteséggel, mvel a szöveg végéne csonításaor az /h hányados egészrészéne a épzése matt a szöveg n. bloot övet részéne szava v nem erülne feldolgozásra. h h h h = n h 0 h 2 h n 2 h n h n h b b 2 b n b n 3..2. Szava tárolása az egyes blooban A bloo hosszúsága az esete többségében 00 szövegszó hosszúságúra volt állítva, tehát h = 00. A végs cél az volt, hogy mnden egyes 00 szövegszó hosszúságú blohoz egy egész számot rendeljün, az adott bloban újonnan bevezetésre erült szóalao számát: y y, =,, n. Az y defnícójából övetez, hogy bármely -re 0 y h. 4 3.2. Modellépítés zsgálatan elvégzéséhez három modellt építettün. Mndhárom modell dnamus, hszen a szava ténylegesen végrehajtott statsztalag független válogatásán alapsz. Az így 6

7 defnált modelle alapján el tudun állítan tetszleges számú mesterséges szöveget, amelye a szöveg folyásána menetében összevethet az eredet szöveggel. Az els ét modell az urna modellt alapul vev status modell Baayen, 993; 996a; 200 mntájára észült. Az említett szerz a szava válogatását vsszatevéses válogatással modellezte, így az méret mntában a p valószínség szóalao elfordulása,p polnomáls specáls esetben bnomálsra reduált eloszlást mutatott. A harmad modellün az egyes szóalao vsszatevés nélül válogatásán alapsz, így egy hpergeometrus eloszlást eredményez dnamus modell. 3.2.. sszatevéses válogatás P Ha f, az gyaorsága az szövegszó hosszúságú szövegben, aor a szóalao megjelenése modellezhet egy polnomáls eloszlással Meszéna és Zermann, 98 a övetezéppen. Legyen,, A A egy teljes eseményrendszer, és,, 0, A P p, továbbá smételjün egy ísérletet -szer p egymástól függetlenül. Jelölje az A esemény beövetezésene a számát. Eor,, együttes eloszlása és,, p p paraméter polnomáls eloszlás: 2 2 2,,,,, 5 2 2,,,, P 6!!!! p p p,!!!! p p p. 7 Esetünben természetesen a ísérlet egy tetszleges szó választása a szövegbl. Ha egy szót megülönböztetün a többtl specálsan a p paraméter bnomáls eloszlást Meszéna és Zermann, 98 apju: 2 3 2 2, p p P. 8

A modell megépítéséhez az eredet m szóalajana gyaorságát használtu fel. Enne megfelelen elször az egyes szava gyaorságát fj,; a j-ed szóala gyaorsága az szövegszót tartalmazó szövegben, majd a relatív gyaorságát frelj, határoztu meg. frel f j, j,. 9 A szóalao relatív gyaorságána smeretében meg tudtun határozn az adott eloszláshoz tartozó emprus eloszlásfüggvényt Femp, szoás umulatív emprus eloszlás függvényne s nevezn, ahol mnden egyes szóalanál a relatív gyaorságo összege szerepel: Femp j j frel,. 0 Ezen relatív gyaorságo és a hozzáju tartozó emprus eloszlás függvény alapján állítottun el egy mesterséges szöveget, amelyben a szóalao elfordulás gyaorsága megegyezett az eredet szöveg szóalajana relatív gyaorságával. Feltételezve, hogy a önyv szóalaja egymástól függetlenül adott valószínséggel övet egymást, valamnt azt, hogy egy szó felhasználása nem jelent a szó törlését a szóészletbl az eloszlás függvény értéészletébl véletlenszeren válogattun elemeet. A válogatáshoz a számítógép beépített RADOMIZE és RADOM függvényét használtu. A RADOMIZE függvény ncalzálását nagy prímeel végeztü. Azért választottu ezt a módszert a számo elállítására, mert így láttu bztosítottna, hogy a számo elállítására használt algortmus független a szövegben elforduló szava rendszerétl Ashby, 972. Ezt az eljárást annyszor smételtü meg, ahány szövegszót tartalmazott az eredet szöveg. Enne az eljárásna azonban az a hátránya, hogy nem pontosan anny ülönböz szóalaot állít el, mnt amennyt az eredet szöveg tartalmazott. 3.2.2. sszatevéses válogatás, módosított modell P2 A szóalao számána az eredettl való eltérése az egyszer elforduló szava hapax legomena,, esetében volt a legnagyobb. Ahhoz, hogy az eredet és a mesterséges szöveg szóalajana száma özött eltérést csöenten tudju a modellt módosítan ellett. Ez a legegyszerbben úgy történhet meg, hogy megnöveljü azona a szóalaona a számát, amelyebl a válogatás történt. Ezt azonban úgy ellett elvégezn, hogy az eredet 8

önyvbl nyert relatív gyaorságo ne változzana meg. A modell módosított verzójában megnöveltü az egyszer elforduló szava számát csöentve ezzel azo relatív gyaorságát, úgy, hogy az összes egyszer elforduló szó együttes relatív gyaorsága ne változzé. Míg az eredet mben és modell els verzójában az összes egyszer elforduló szó együttes relatív gyaorsága, rel,, addg a módosított modellben mnden egyes egyszer elforduló szó relatív gyaorsága,, 2 2, 2, fejezéssel adható meg, ahol 2 a hozzáadott szóalao száma. Az eltérés az eredet és a mesterséges szöveg özött azonban nem lényegesen sebb, mnt a orábban használt status modelle esetén Baayen, 993; 996a; 200. Az eredet és a mesterséges szöveg özött ülönbség csöentésére ezért egy újabb modellt építettün. 3.2.3. sszatevés nélül válogatás H Ebben a modellben a szövegszóat egy vetor omponenseént tároltu, majd az így tárolt elemeet véletlenszeren válogattu, de ebben az esetben vsszatevés nélül. A már felhasznált szövegszó nem erült vssza a vetorba azután, hogy lejegyeztü, hogy mely volt húzva. Ezt a módszert használva megoldódott az a orább probléma, hogy az eredet és a mesterséges szöveg ülönböz szóalajana a száma nem egyezett meg, ugyans pontosan anny szóala volt tárolva, ahányat az eredet szöveg tartalmazott, pontosan annyszor, ahányszor az eredet szövegben elfordulta. Ha egy olyan urnát feltételezün, amelyben golyó a szóalao száma öztü M egyszín egy szóala van, anna a valószínségét, hogy n-et találomra húzva n elem mntát véve éppen adott színt találun azo özt a P n n! 2 n! M! 3 M n!! M! n 9

szolgáltatja Meszéna és Zermann, 98. A vsszatevés nélül válogatás még a módosított P2 polnomáls eloszláson alapuló modellnél s jobb özelítését adta az eredet szövegene. A vsszatevés nélül válogatással észült modell nemcsa az angol, de a magyar nyelv szövege szóészleténe özelít leírására s alalmasna bzonyult, függetlenül a ét nyelv özött eltérésetl. Anna ellenére, hogy magyar szövegeben magasabb a ülönböz szóalao száma, az eredet szöveg és a modell özött nem nagyobb az eltérés, mnt angol nyelv szövege esetén. 3.3. Szezonaltáso meghatározása zsgálatanhoz tehát az eredet mveben újonnan megjelen szóalao számát használtu ndulásént. Megszámoltu, hogy 00 szövegszó hosszúságú blooban hány új szóala y, =,, n jelen meg az elzehez épest és az így apott értéeet ábrázoltu. Eze a függvénye azonban még nem alalmasa arra, hogy megbízható öveteztetéseet vonjun le a szava megjelenéséne szabályszerségere vonatozóan, mert az újonnan bevezetésre erül szava számát leíró függvény monoton csöen tendencáját megtör ugráso özül nehezen választhatóa azo, amelye szgnfáns eltérés övetezménye. A függvény meneténe megváltozása, a monoton csöen tendenca átmenet vsszafordulása, ét oal s magyarázható. Az elsdleges ugráso a függvényen jelenlév trende, a másodlagos ugráso pedg az ettl jól elülöníthet, valamlyen rendívül eseményne a övetezménye a szövegben, tehát a szezonaltáso jelenlétére utalna. A grafonról az esete többségében jól leolvasható, hogy melye azo a ponto, ahol eze a rendívül eseménye beövetezne, de a grafon alapján nehéz megmondan, hogy mely változáso tenthet szgnfánsna. Tovább feldolgozásra volt szüség tehát anna eldöntésére, hogy az újonnan megjelen szavaat leíró görbe mely csúcsa jelenne meg a szezonáls hatáso öveteztében, melye azo, amelye a szövegben végbemen elre nem jelezhet változás övetezménye és eze özül melye azo, amelye szgnfáns változás övetezménye. Enne eldöntésére elsént a mért adato alapján az újonnan bevezetésre erül szóalao számát ábrázoló görbe smítását ellett elvégezn, az így apott értée yp az fp smított görbe függvényértée. A 00 szövegszó hosszúságú bloo ugyans ellen rövde ahhoz, hogy vsszaadjá a szöveg fnomabb változásat s, de éppen e matt a jelentételen változásora s érzéenye. Amennyben a szövegben beövetezett változás 0

jelentételen, csa abban az egy blooban éreztet hatását, úgy az a smítás során eltn, ugyanaor a jelents változáso a smítás után s megfgyelhet a görbén. Ezt a smított görbét hasonlítottu a modell által elállított mesterséges szöveg szóalajat leíró görbé sorozatához f, =,, 00, ahol f jelöl a. függvény. blojában megjelen szóalao számát. A modell alapján elállítottun 00 mesterséges szöveget, megszámoltu ezen szövegeben az újonnan megjelen szava számát a 00 szövegszó hosszúságú blooban és vettü az így apott függvénye átlagát F. A övetez lépésben vettü a smított függvény és az átlag függvény ülönbségét fp F, 4 y = fp F, =,, n, 5 majd a ülönbsége átlagát M és szórását Hajtman, 97; emetz és Kusoltsch, 999; Solt, 97; Yule, 950. Azoat az eltéréseet tentettü szgnfánsna, amelye az átlagtól 2-val térne el, tehát az M ± 2 tartományon ívül esne. 4. Eredménye és megbeszélés 4.. Angol és magyar nyelv rodalm mve elemzése A fentebb smertetett módon megalotott modelle alalmasna bzonyulta ülönböz hosszúságú angol és magyar nyelv szövege modellezésére. Enne smeretében a magyar és az angol nyelv szövege tovább feldolgozásánál nem volt szüség egyén, csa az adott nyelv sajátosságat fgyelembe vev módszere bevezetésére. Ez a megfgyelés nagyban megönnyítette a ülönböz nyelveen írt szövege összehasonlítását. 4.2. Különböz zsáner mve elemzése A választott példá mutatjá, hogy sem a szöveg hossza, szerzje, zsánere, nyelve nem befolyásolja az eredet és a mesterséges szövege összehasonlításából apott eredményeet. Ehhez az összehasonlításhoz választottun egy angol Mar Twan: THE ADETURES OF TOM SAWYER és egy magyar Kertész Imre: SORSTALASÁG regényt, egy angol novellás ötetet, amelyben mnden m ugyanattól a szerztl származ Rudyard

Kplng: THE JUGLE BOOK és egy olyan gyjteményt, amelyben hasonló zsáner mve szerepelne, de ülönböz szerztl AMERICA MYSTERY STORIES. A nagy ugrás THE ADETURES OF TOM SAWYER-ben aor jelen meg, amor az solaév végén a gyereene egy ház dolgozatot ell írn és azt felolvasn, tehát egy olyan szövegrész jelen meg a mben, amely nem tartoz szervesen a történethez és stílusában s eltér a önyv egészéne stílusától. A THE JUGLE BOOK Boo hét mesét és hét verset tartalmaz. Ezzel szemben öt olyan csúcsot találtun, amely egyértelmen szgnfáns eltérésre utal és ebbl az ötbl s csa három es egybe egy új mese ezdésével. Ez a három mese a Whte Seal, R-T- Tav és Tooma of the Elephants. Mndhárom érdeessége, hogy új helyszínt vezet be a szerz, és ezzel magyarázható az újonnan bevezetésre erül szóalao magas száma. A legels ugrás még a dzsungelben történ, de hasonlóan a már említett háromhoz, tt s új helyszínt vezet be az író, a rály palotát írja le. Sem a több mese ezdetén, sem a versenél nem találtun ugrást, tehát nem jellemz, hogy hasonló zsáner mvenél, egy új m ezdeténél megemeledne az újonnan bevezetett szóalao száma. Ezt támasztja alá a ülönböz szerztl származó AMERICA MYSTERY STORIES gyjtemény s. zsgálatun három jól megülönböztethet csúcsot eredményezett, lényegesen evesebbet, mnt amenny a története száma. Ezen három csúcs özül s csa egyetlen egy esett össze egy történet ezdetével. Ez a csúcs Edgar Allan Poe THE GOLD-BUG cím történeténe ezdeténél jelent meg. Ez csúcs annyban s érdees, hogy az ezt megelz történetne s Poe a szerzje, tehát tt s látsz, hogy egy váltás a zsánerben még a szerzt s felülmúlhatja az újonnan bevezetett szóalao tentetében. Eze a megfgyelése egyértelmen mutatjá, hogy az újonnan bevezetésre erül szóalao száma abban az esetben emeled meg hrtelen, ha megváltoz a m orább stílusa, hrtelen valam új erül smertetésre, bevezetésre. Sem a szerz, sem az új fejezete nem eredményezne olyan látványos emeledést, mnt a zsáner, vagy a regszter váltása. Eze az eredménye már arra engedte öveteztetn, hogy az új szava nem-véletlenszer bevezetése a szövegsznten beövetez változásoal magyarázható. Tovább vzsgálatoat tartottun azonban fontosna ahhoz, hogy ezen állításun bzonyítást nyerjen. 4.3. M és fordításana összehasonlítása Korább vzsgálatanat azzal egészítettü, hogy ülönböz nyelveen írt rodalm mve összehasonlítását végeztü el. Ahhoz, hogy összehasonlítható eredményeet apjun olyan mveet erestün, amelye több ülönböz nyelven s elérhete. Így esett a választás 2

Kertész Imre SORSTALASÁG cím mvére, amely angolul FATELESS s és németül s ROMA EIES SCHICKSALLOSE hozzáférhet, Rudyard Kplng THE JUGLE BOOKS Boo és Boo 2 és Lews Caroll ALICE S ADETURES I WODERLAD és THROUGH THE LOOKIG GLASS ALICE cím mvere és eze magyar fordítására A DZSUGEL KÖYE, ALICE CSODAORSZÁGBA,ALICE TÜKÖRORSZÁBA. A választás azért esett ezere a mvere és fordításara, mert szerezetüben lényegesen eltér szövegerl és nyelverl van szó. A nyelve csoportosítását aszernt végezve, hogy a morfémából a nyelv a szavaat hogyan épz a választott három nyelv három ülönböz ategórába sorolható. A német a fletáló, a magyar az agglutnáló nyelve csoportjába tartoz, míg az angol több ülönböz ategóra eszözet s felhasználja, így gazán egybe sem ll bele, de legnább az zoláló nyelvehez hasonlít O Grady, 993; Prószéy, 989; Qur et al., 995; Uzony, 996; É. Kss, 998; Kefer, 998; Kugler, 2000; Laczó, 2000. A érdés az volt, hogy a mondato bels ohézója, tehát a szntata szabályo befolyásoljá-e, s ha gen mennyben az új szóalao megjelenését, lletve származhatna-e más forrásoból az eredet és a mesterséges szöveg özött eltérése. A szövege feldolgozásával apott értée mutatjá, hogy az egyes nyelve sajátosságaból, valamnt a fordításból adódóan a szövegszó, a ülönböz szóalao és az egyszer elforduló szava száma özött lényeges eltérése mutatozna az egymásna megfelel szövege esetén. A fentebb smertetett módszert alalmazva az eredet szövege fordításara megtalálhatju az eredet szövegne azoat az ntervallumat, amelyeben az újonnan megjelen szava száma lényegesen magasabb, mnt az a modell alapján várható lenne. A érdés az volt, hogy mvel magyarázhatóa eze a ugráso, tehát a m ndoolja a ülönböz szóalao szoatlanul magas számát és találun-e olyan jellemzjét a szövegne, amellyel leírhatóa eze a hrtelen változáso. Mvel az eredet állításun az volt, hogy a modell és az eredet szöveg özött eltérése a szöveg sznten beövetez változásoal magyarázhatóa ezért érdés volt az s, hogy a mve ülönböz nyelv reprezentácó ugyanazonál a témánál eredményezne-e ugrásoat, tehát hrtelen növeedést a szava számában. A ugráso pontos helyéne, a blo sorszámána meghatározása után a DYMOCASAT Csernoch, 2003; Csernoch és Hunyad, 2003 segítségével megaphatju azoat a *00 szövegszó hosszúságú szövegrészeet, amelyeben eze a ugráso megjelente. A szövegrészt smerve vssza tudju azt eresn az eredet mben, és magyarázatot tudun adn arra, hogy mért növeedett meg hrtelen az újonnan bevezetett szava száma. 3

Eredményen azoal az elzetes váraozásoal, legnább szubjetív véleményeel egyezte, amelye a hosszabb lélegzet, a mhöz szervesen nem apcsolódó szövegrészenél érzéelté a szóalao számána emeledését Genette, 980, szemben azoal, a fejezet határora vártá ezeet Balázs, 985. Különös tentettel arra, hogy a fordításoban nem feltétlenül ugyanott vanna a fejezet határo, mnt az eredet szövegben vagy egy más fordításban. Hasonló eredményeet aptun a THE JUGLE BOOKS Boo és Boo 2 együtt és az ALICE története és ezen mve magyar fordításána elemzésénél s. em feltétlenül az újabb mese ezdeteor növeedett meg az újonnan bevezetett szóalao száma, hanem soal nább aor, amor egy hosszabb lélegzet leírás jelent meg a mben. Enne megfelelen egyes, nem a dzsungelben játszódó történetben The Whte Seal, R-T-Tav, Tooma of the Elephants, The Mracle of Purun Bhagat, Ququern, mvel színhelyü és témáju rendívül változatos. A ugráso mnden esetben egy-egy részletes leírás eredménye. A dzsungelrl szóló történeteben s találtun ét lényeges ugrást, de egyet sem az adott mese ezdeténél, hanem egyszer a rály palota, míg a más alalommal a ncstár leírása oozta a szóalao számána hrtelen emeledését. Az említett ugráso tehát a nyelv reprezentácótól függetlenül aor övetezne be, amor a soron övetez mondato sem az elzményehez nem ötdne, sem a ésbbehez való szerves apcsolódást nem észít el. Olyan szövegrésze, amelyehez nem találn olyan témát a m más részen, amelyhez a bennü foglalta apcsolódnána. A 3-4. ábráon jól látható ugrásoon túl ugyanezt támasztja alá az egyszer elforduló szava vzsgálata s. Ezen vzsgálato elvégzéséhez azt a feltételezést vettü alapul, hogy az egyszer elforduló szava hpergeometrus eloszlást övetne. Ugyanazoon a helyeen növeedett meg az egyszer elforduló szava száma, ahol az eredet mben szntén magas volt az újonnan bevezetett szava száma. Ez a megfgyelés s arra enged öveteztetn, hogy a görbéen található ugráso a szöveghez szervesen nem apcsolódó részenél jelenne meg. 4

5. Összefoglalás Megalottun három dnamus modellt, melye alalmasa rodalm mveben és nyelvönyveben megjelen szóalao bevezetéséne leírására. A három modellt összehasonlítva a szava hpergeometrus eloszlását feltételez és használó modellel elállított mesterséges szövege adtá az eredet m legjobb özelítését. Készítettün egy Wndows operácós rendszer alatt futó programot DyMoCASAT, amely alalmas enne a specáls problémána az automatzált feldolgozására és értéelésére. A program az eredet szöveg szóalajana gyaorsága smeretében épes a megfelel modell létrehozására, a modell alapján mesterséges szövege elállítására, majd ezeet felhasználva az eredet szövege analzálására. Az eredet és a modell által generált mesterséges szöveget összehasonlítva azt találtu, hogy az újonnan bevezetésre erül szóalao vseledésében nncs eltérés magyar és angol nyelv szövege esetén. Ez a megfgyelés nem mond ellent anna a hpotézsne, hogy az eredet és a mesterséges szöveg özött eltérés nem mondat és beezdés sznt, tehát nem szntata és szemanta ötöttsége matt övetez be, hanem szövegszerezet meggondoláso övetezménye lehet. Az újonnan bevezetett szóalao számána a modell alapján nem megjósolható hrtelen növeedése olyan szövegszerezet változásora utal, ahol a szerz váratlanul szaít a szöveg addg megszoott folyásával. Ilyen jelleg szaadást, törést oozhat a szóalao számána várható alaulásában egy-egy helyszín, szerepl, esemény részletes leírása, egy, az eredet történethez szervesen nem apcsolódó szövegrész megjelenése, egy-egy, az elzehez épest új stílusú, esetleg degen anyanyelv szerepl megjelenése, hosszas beszéltetése. A szövege ülönböz nyelv fordításat összehasonlítva az eredet szöveggel, valamnt az egyszer elforduló szava megjelenését vzsgálva bzonyítást nyert, hogy eze a hrtelen változáso az újonnan bevezetésre erül szóalao számában valóban nem szntata, lletve szemanta, hanem szöveg sznten jelenne meg. 5

. Introducton The statstcal analyss of a lterary text can be justfed by the need to apply an objectve methodology to wors that for a long tme have receved only mpressonstc and subjectve treatment. Hestaton by lterary scholars and mstrust of such a blatantly quanttatve approach may be allevated by choosng the least contestable mode of analyss, namely that of countng. The stylometrst therefore loos for a unt of countng that translates accurately the style of the text. The advent of computer has meant that data for ths purpose are now readly avalable n the form of a concordance or word-ndex to a lterary wor. The choce of the number of dfferent words types n a text as a countng unt allows the stylometrc analyst the freedom of worng on the raw data and of operatng a lemmatzaton accordng to norms that he can defne hmself. Ths choce may run the rs of treatng the ndvdual wrtten or prnted word as unduly sacrosanct, yet, to date, no stylometrst has managed to establsh a methodology that s better able to capture the style of a text than that based on lexcal tems Holmes, 994. The machne translaton and the need for some tool that would tae over the tresome job of translaton was the startng pont of computatonal lngustcs. To the contrary of the orgnal expectatons t became clear to the late 950s IBM, 959 that a word by word transcrpton cannot be acceptable as a translaton, to the 960s t was already seen that computers wthout human nteracton would not be able to produce good translaton for a long tme to go Prószéy, 989; Church and Mercel, 994; Prószéy and Ks, 999. ot just because computers are not good enough but there s are no defnton to state what s consdered a good translaton. Reachng the mllennum, computatonal lngustcs became more and more multlngual and was not restrcted to the Englsh language any more and the need for machne translaton was revved wth the new generatons of computers and the huge amount of offcal texts to translate. The fully automatc machne translaton s stll n watng, but many problems arsng, whle searchng for the ever mghty, were solved wth the help of computers. The developments acheved durng the search for fully automated machne translaton also gave rse to modellng languages and texts. At the begnnng these results were appled to cryptography and to codng and decodng messages. The theoretcal bacground of ths dscplne s mared by C. Shannon s wors Demetrovcs et al., 985. Marov s 96 revolutonary stochastc model was redscovered and many computer aded applcatons of t 6

have been born. owadays Marov s model s manly used n statstcal Part of Speech POS taggers. Snce, the fully automatc processng of texts wrtten n any natural language s not solved one of the possble approaches to the problems s to reduce the complexty of them. A nd of the smplfcaton s to pc a feature of the texts and gve explanaton for ths specal queston, problem. One of these reductons s to use the obvous smplfcaton that words occur randomly n texts. Up tll now several promsng results have come to lfe whch all used ths smplfcaton. These are manly focusng on vocabulary sze and rchness and try to fnd formulae whch are able to gve relable peces of nformaton about these characterstcs of the texts. Along wth the randomness assumpton another smplfcaton had to be appled. The dstrbuton of the words n a text belongs to the Large umber of Rare Events LRE zone, but untl now no really good and fast algorthm has been found to model ths nd of dstrbuton of words, so usually t s assumed that the words are multnomally, or, as a specal case, bnomally dstrbuted. Applyng one of these models to real texts Baayen Baayen, 996a; Baayen, 996b; Baayen, 200 came to the concluson that the randomness assumpton s volated not on sentence level, but ether on paragraph or dscourse level. He also had the feelng that the constrants on dscourse level mght be responsble for the dfferences between the orgnal and the expected vocabulary sze and he also gave a vague explanaton. 2. The ams of ths study The prmary am of ths study was to gather nformaton about the ntroducton of word types n lterary wors, novels and short stores. All ths was carred out by usng the theores and methods of computer-aded lexcal statstcal analyses. We manly wored wth Englsh and Hungaran texts searchng for explanatons, reasons why, when, how many etc. relatvely new words are ntroduced nto the texts. It was nown from prevously publshed studes that the analyss of word types on ts own s not perfunctory for dentfyng the authors. Aware of ths fact we were loong for parameters whch can be ganed from the appearance, not from the number of the word types. Most of us have the sensaton that readng a boo becomes easer and easer as the story goes on, as we are headng towards ts end, especally n the case of texts wrtten n foregn languages. All ths was proved by countng the words and followng the changes n 7

vocabulary sze. It also became evdent after some polls that although a sngle measure of vocabulary rchness that can characterze an author or a text as an attractve dea, reader s perceptons about vocabulary rchness are not necessarly accurate Hoover, 2003. The number of the newly ntroduced word types n a text, as t was expected from the ever slowng rate of vocabulary ncrease, shows, n general, a monotonc decay. On the other hand, n most of the texts we can fnd ntervals, parts of the texts where ths monotonc decay s reversed and a sudden ncrease n the number of the newly appearng words can be detected. In our study we wanted to gve explanatons to these sudden ncreases, amed to fnd reasons why the authors use more words than prevously to these slces of texts. We also wshed to see whether these changes are predctable, f there s any regularty n ther appearance or not. To carry out our experments we had to buld a dynamc model whch s able to gve a good approxmaton of the orgnal texts n ts progress. The other constran on the model was that t should be language free, that s t should be able to wor wth texts wrtten n dfferent languages. Our man goal was to analyze both Englsh and Hungaran texts. Englsh texts were chosen to obtan results that are drectly comparable to prevously publshed wors whle Hungaran to see how an agglutnatng language can be modelled and get comparable, f there are any, results to texts n Englsh and n any other languages. The emphass was put on the dynamc characterstc of the model, whch should be able to reproduce at least the trends but most preferably also the seasonaltes of the orgnal texts. Prevously publshed wors showed clearly that even experts of the feld do not share ther opnons on when, at whch place of the text new words show up, whch s somewhat understandable snce ther opnons are mostly mpressonstc. Some of them thought that the boundary of the chapters s where sudden ncrease n the number of the word types can be detected, whle n other s opnon a change occurs when there s an nterrupton n the flow of the text, a text slce s nserted whch dffers n style from the text as a whole, e.g. a longsh descrpton appears unexpectedly. Famlar wth these opnons and also wth Baayen s results and expectatons we wanted to prove the hypothess that the number of newly ntroduced word types ncreases when a sudden change can be detected n the flow of the text. These changes are relatvely short, compared to the length of the whole text, but clearly separable. Ths statement can be rephrased: the dfferences between the orgnal and the artfcal texts, created by the dynamc 8

model, are due to changes at dscourse level of the orgnal text, nether the changes on sentence nor paragraph level cause measurable changes n the number of word types. In our wors beyond buldng the dynamc model we also appled a method hardly ever used n lexcal statstcal studes, the comparson of the orgnal text and ts translatons. Ths method dd not seem applcable n earler wors because they focused on the overall number of words, and texts wth dfferent vocabulary sze cannot be, or are not easly, compared. The dfference n vocabulary sze s due to both the characterstcs of the languages and the translator s freedom. Snce our am was not to count the words but to follow the changes of the words n progress, the prevously consdered problems dd not cause dffcultes or meant any obstacles to carry out our experments. To gve further proof of our deas two other methods were appled. Frst the appearance of the hapax legomena was also examned, modelled, and then ther behavour compared to the changes n the orgnal text. Fnally, the condensed or somehow flattened, shortened versons of the orgnal wors were examned and compared to the correspondng orgnal text. 3. Methods 3.. Data retreval from texts Our man concern was to analyze Englsh and Hungaran lterary wors, restrcted to novels and short stores. For the analyses we needed the electronc versons of the orgnal, prnted texts. The man source for these electronc versons was the Internet. The texts that were not avalable free through the Internet were scanned manually. It should be noted here that the avalablty of electronc versons greatly nfluenced the selecton of wors that were fnally ncluded nto the present study. To carry out the experments a software, DyMoCASAT Dynamc Models for Computer Aded Statstcal Analyss of Texts was developed. DyMoCASAT carres out the data retreval from the orgnal text, the buldng of the model, and based on the model the generaton of the artfcal texts. DyMoCASAT has two character sets by default: Englsh and Hungaran. Any other character sets can be set up wthn the program offerng access to texts wrtten n other languages. 9

Snce our fnal goal was to gather nformaton about the appearance and the behavour of the word types n lterary texts, the startng pont of our experments had to be the defnton of words word types. Frst, the character set, the alphabet, was determned upon whch the program s able to decde whch strng s a word type and, based on ths crucal nformaton, were all the experments carred out. Snce pre/processng was not appled to any of the texts, the word type, a strng of characters between two separator characters, was declared as the basc unt of the analyss. 3.2. Storng data The analyss of the texts had to be preceded by savng all the avalable nformaton about the number and the exact place of the word types. Ths all was carred out automatcally by DyMoCASAT. In contrast to prevously publshed wors, we were to examne the appearance of the word types n progress. Snce the number of the newly ntroduced word types s greatly nfluenced by the length of the ntervals n queston, ntervals of dfferent lengths could not be used. Consderng all these, our model dffers from those presented earler snce the texts are not dvded nto equal to same number of ntervals ndependent of the length of the gven text. Instead, we ept the lengths of the blocs constant h. To use ths novel approach a sutable constant for the length of the ntervals had to be chosen. Usually blocs contanng one hundred toens h = 00 were chosen. Therefore, the number of blocs vares from text to text. Two advantages of these short blocs of constant length were found over the prevously used method. Frst, snce the length of a bloc s ndependent of the length of the orgnal text, the slces from dfferent texts can be readly compared. A shorter and a longer text dvded nto 20 or 40 equally spaced ntervals suggested and used n earler publshed wors are not comparable consderng ether the number of toens or the word types. The second advantage of usng hundred-toen-long blocs comes from the relatvely short length of these blocs. Usng these short blocs subtle changes, couple of hundredtoen-long text slces, n the narratve can also be traced. The followng varables are used by the program: the number of toens n a text, the sample sze, the sze of the vocabulary n an -toen-long text, the number of the dfferent word types, the th word n a lst of word types ordered by frequency, 20

f, h b n the frequency of n a sample sze of toen, the length of the ntervals blocs nto whch the text s dvded, the th bloc, by dvdng the text nto h-toen-long blocs, the number of the blocs, usng h-toen-long blocs. b, =,, n, where n. h The method of dvdng the texts nto h-toen-long slces always produce some loss, snce the text at the end s truncated to n h words. The loss s mnor, h h, compared to the sze of the texts, so t wll not nfluence the results of our experments. 3.3. Buldng the models Models based on the frequency of words assume that the words appear randomly wthn texts. There are, however, a number of strateges how random selectons can be carred out for revew see Baayen, 200. The best results were obtaned wth models that assume that word types follow the multnomal dstrbuton, snce multnomal dstrbuton arses when each tral has possble outcome. Selectng word types from a set of toens s exactly the same problem, where the number of the possble outcome s, the number of the dfferent word types n an toen long text. If =,, mar the frequency of f,, the th word type n the frequency order of an toen long text, then the appearances of the word types can be modelled wth the multnomal dstrbuton n the followng way. Let A,, A a random vector, a set of random varables, wth p P A 0,,,. If we assume that we have ndependent trals p, and mars the number of the outcomes of the A event, then the,, jont dstrbuton s an and p,, parametrc multnomal dstrbuton: p,,,, 2 2 2, 2 P,,, 3, 2 2 2

22!!!! p p p,!!!! p p p. 4 In our case the tral s the selecton of a word type from the text. If a word type selected and mared as dfferent from the others the multnomal dstrbuton s reduced to the bnomal dstrbuton. Each of the components separately has a bnomal dstrbuton wth parameters and p, for the approprate value of the subscrpt : 2 3 2 2, p p P. 5 3.3.. Selectng words wth replacement P The model presented here also uses the frequences of the word types f, of the orgnal text, and ther relatve frequences 0;,, f frel, 6 thus the probablty of occurrences p. Whle prevous wors focused on the overall vocabulary sze and rchness, the gven formulae were able to produce relable peces of nformaton for revew see Baayen, 200. However, our am was not the determnaton of the vocabulary sze, rather to fnd trends or trace seasonaltes, f there are any, n the text flow. The prevously gven formulae are not able to provde nformaton about a text n progress. Gven these constrants new methods wth new theoretcal bacground had to be found. The essence of our method s to create artfcal texts usng the frequences and relatve frequences of the word types of the orgnal text. Based on the relatve frequences of the word types a dstrbuton functon Femp s generated to each orgnal text where each word type s represented wth ts own relatve frequency frel,. S j frel j Femp j,,,, 7

Randomly selectng numbers from the 0, nterval and mappng them to the word types through the dstrbuton functon allows the generaton of randomly selected words whch have the same probablty of occurrence as n the orgnal text. Ths random selecton s repeated untl the number of words n the model text reaches that of the orgnal. Wth ths smple method model texts can be generated n whch the probablty of a gven word type equals that of the orgnal text. 3.3.2. Selectng words wth replacement, modfed verson P2 There s, however, a slght problem wth the above algorthm. Snce the word types are selected randomly, that s only ther frequency s set, there s no guarantee that each and every word type wll actually appear n the generated text. Indeed, runnng the program repeatedly gave, as expected, consstently smaller number of word types n the generated than n the orgnal text. The dscrepancy was the largest for words that appear only once hapax legomena n the orgnal text. In order to correct ths slght dfference between the orgnal and the generated text the algorthm was modfed by artfcally ncreasng the number of word types from whch the random selecton was carred out. In order not to change the frequency of all word types the followng strategy was mplemented. The number of hapax legomena was ncreased so that the relatve frequency and the probablty of each of them was decreased. Ths was carred out wth the constrant that the overall relatve frequency of hapax legomena should not be changed. The relatve frequency of all hapax legomena together n an toen long text s, rel,. 8 Usng ths equaton the relatve frequency of a new word type becomes,, x, 9 2 where 2 s the number of the newly added word types. Applyng the dynamc model the dfference between the vocabulary sze of the orgnal text and the artfcal text EP2 s hardly smaller than t was measured usng the statc models. To further reduce the dfferences between the orgnal and the artfcal texts a thrd model was created. 23

3.3.3. Selectng the words wthout replacement H For ths model the toens of the texts were stored n a one dmensonal array. The toens were randomly pced from ths array, but after checng and savng ther types they were not put bac. Usng ths method for pcng the words solved the prevously present problem, namely, that not all of the types had been chosen. If we consder an urn of marbles whch stand for the toens of a text, among them are M of the same color, then the probablty of selectng n marbles from ths urn n a way that share the same color s Meszéna and Zermann, 98: P n n! 2 n! M! 0 M n!! M! n To compare the two models based on the multnomal dstrbuton of the words to the hpergeometrc dstrbuton we found that the artfcal texts based on the latest gave the best approxmaton of the orgnal text. 3.3.4. Trends n the appearance of the word types After countng and storng all the occurrences of the words the program plots the number of newly ntroduced word types n each bloc fb = y, =,, n. The number of the newly ntroduced word types, n general, follows a decayng tendency. There are, however, parts of the texts where ther number s greater than what s expected from ths general trend. A pont or a group of ponts that fall sgnfcantly outsde of the general trend and form a local maxmum wthn the neghbourng blocs s referred to as a protuberance. As mentoned earler, the protuberances on the graphs of the newly ntroduced word types are vsble only f h was defned approprately. It s clear that the number of the newly ntroduced word types follows a generally decayng tendency as mentoned by e.g. Muller, 964; Holmes, 994, Baayen, 996a, 996b; for revew see Baayen, 200 wth an apprecable amount of nose. For detaled comparsons t was necessary to reduce ths nose. To ths end a 7-pont smoothng wth a second order polynomal Scarborough, 966 and a Gaussan weghtng functon was used SIGMAPLOT, SPSS Inc.. Flterng the graph of the orgnal text gave rse to a decayng functon on whch the smaller and larger secondary humps were now clearly vsble. To decde whch of these peas 24

stand for sgnfcant changes and whch are due only to the nose of how the author selected the word types the smoothed orgnal graph fp and the average functon of the artfcal texts Fb = Y were compared. The dfference of the smoothed orgnal and the average artfcal text was determned and plotted fp-f. To decde whch values mar sgnfcant dfferences the mean M and the standard devaton of the dfference of the two functons were calculated. Those dfferences are consdered as sgnfcant whch reach the M ± 2 values. 4. Results 4.. Lterary wors n Englsh and Hungaran The dynamc model created wth the above detaled method was able to gve account for the appearance of the word types not only n Englsh but n Hungaran and also n German texts. It was found that the number of word types s ndeed hgher n Hungaran texts due to the morphologcally productve characterstc of the language. The monotonc decay of the graphs of the newly ntroduced word types and the nose on the graph, however, follow the same pattern as found n Englsh texts. Caused by the same feature the nose, as t was expected, was greater n the Hungaran texts. Furthermore, the randomness assumpton was equally effectve n descrbng the ntroducton of word types both n Hungaran and German texts as t was found for Englsh texts. Texts of smlar lengths regardless of the dfferences between the two languages dd not show greater dfferences between the orgnal and the artfcal text than wth the Englsh text. Ths result meant that for further nvestgaton of ths type there s no need for dfferent models whch have to be taught. Texts wrtten n dfferent languages can be analyzed wth the same method, whch greatly smplfes the comparson of these texts. 4.2. Comparson of the orgnal and the artfcal texts The number of newly ntroduced word types has, as expected, a general tendency to decrease along the course of the narratve. On top of ths decayng tendency the number of newly ntroduced types can, n many cases, be more at a later pont n the dscourse than n a prevous secton. These sudden changes cause smaller or greater protuberances on the graphs of the newly ntroduced word types. In the observed wors not only the ntensty but the length of the protuberances are dfferent, so shorter or longer rsng phases were observed that nterrupted the otherwse 25