Durst Péter Mintavételi technikák a magyar mint idegen nyelv elsajátításának vizsgálatában** 1. Bevezetés A magyar mint idegen nyelv elsajátításának és tanulásának jellemzőit az eddig használtakon kívül még számos más módszerrel lehet kutatni. Ebben a dolgozatban rövid áttekintést nyújtok az eddig használt módszerekről, valamint a további lehetőségekről is. Sajátos szempontomat az adatgyűjtési módszerek vizsgálatát egyrészt az magyarázza, hogy komoly elméleti alappal bíró kutatásoknak lehet nagyon prózai akadálya az adatgyűjtés, másrészt az újabb, nagy lehetőségekkel kecsegtető kutatási módszerekhez új adatgyűjtési módszerekre van szükség, amelyről szintén rövid összefoglalót adok. 2. Szóbeli adatgyűjtés Számos olyan nyelvészeti kutatást végeztek, amelynek célja nem kifejezetten a magyar mint idegen nyelv tanulásának vizsgálata volt, azonban eredményeik ebből a szempontból is relevánsak. Az anyanyelv elsajátítását vizsgáló kutatások szinte kivétel nélkül értékes összehasonlítási alapot nyújtanak, hiszen más nyelvek esetében is megfigyeltek párhuzamokat ugyanannak a nyelvnek a második nyelvként történő elsajátításával, sőt ez valójában a másodiknyelv-elsajátítás (Second Language Acquisition SLA) mint új kutatási terület egyik legelőször vizsgált kérdése volt (Cook 1969, 1973). Réger Zita tanulmányaiban (1974, 1975, 1979) az anyanyelvi elsajátítást és a 6 9 éves magyarországi cigánygyerekek magyar nyelvtanulási jellegzetességeit hasonlította össze, és lényeges megfigyeléseket jegyzett le. Kutatása során a kétnyelvűség egyik speciális esetébe tartozó gyerekeket vizsgált, adatgyűjtési módszere a gyermeknyelvi kutatásokhoz hasonlítható, tehát a szabad beszélgetésen túl kérdésekkel irányított beszélgetéseket jegyzett fel, illetve spontán megnyilatkozásokat figyelt meg. Az SLA kutatásokban is igen gyakran találkozhatunk a szabad beszéd elemzésével. Ezt a módszert alkalmazta Langman és Bailey (2002) a magyar igeragozás elsajátításáról írt tanulmányuk elkészítésekor. Az adatközlő kilenc,
16 Durst Péter Magyarországon élő kínai ember volt, akikkel egy előtérben készítettek interjút várakozás közben. Az adatok rögzítéséhez és értékeléséhez az SLA kutatásának bevett módszereit alkalmazták, így eredményeiket statisztikai elemzéssel is alá tudják támasztani. Bár ez a módszer a statisztika pontossága miatt kétségtelenül meggyőző, a kutatás tárgyát képező grammatikai jelenség túlzott leegyszerűsítése vélhetően torzítja az eredményeket, továbbá felmerül az a kérdés is, hogy egy legfeljebb egyórás beszélgetésben használt igeragozási minta alapján lehet-e általános következtetéseket levonni. A kutatásmódszertani problémákra egy másik dolgozatban rámutattam (Durst 2010), most a mintavétellel kapcsolatban mindössze azt tartom szükségesnek megjegyezni, hogy a határozott tárgyas ragozás elsajátításával kapcsolatban igen nehéz ilyen szóbeli interjú alapján megfigyeléseket tenni. Könynyen lehet ugyanis, hogy a vizsgálni kívánt grammatikai jelenséget szinte nem is használja az adatközlő. Egyértelmű, hogy a valós idegennyelvi kompetenciáról a teljesen autentikus, semmilyen módon nem irányított vagy befolyásolt beszéd megfigyelésével és elemzésével szerezhetjük a legpontosabb képet. Az ilyen jellegű megnyilvánulások rögzítése azonban a gyakorlatban aligha valósítható meg, különösen akkor, ha a nyelvi anyagot valamilyen előre meghatározott célból szeretnénk vizsgálni (a fent említett tanulmányhoz hasonlóan). Az interjúkat lehet kérdésekkel és egyéb feladatokkal is irányítani, és ebben az esetben már nagyobb eséllyel kapunk a meghatározott szempont szerint elemezhető alapanyagot, de ennek a feldolgozása is nehézkes és rendkívül időigényes. A MID kutatásában néhány próbálkozástól eltekintve (Langman és Bailey i.m., Durst 2007) nem jellemző a grammatikai jelenségek elsajátításának vagy tanulásának vizsgálatában szóbeli interjúból származó adatok használata, pedig minden bizonnyal fontos szabályszerűségekre lehetne rámutatni ennek a módszernek a segítségével. 3. Pszicholingvisztikai vizsgálatok A nyelv működésének pszicholingvisztikai szempontból történő vizsgálatához új kutatási módszereket kezdtek alkalmazni. A mentális reprezentációs modellek, azaz a szabály szokás kérdés vizsgálatában gyakran használtak ún. előfeszítéses kísérleteket (Lukács 2001, Pléh Lukács Kas 2008, 799), amelyekben magyar rendhagyó és szabályos szótövek szerepeltek. Lukács (2001) kísérletében a kísérleti személyek fülhallgatón keresztül hallottak egy szót, majd a képernyőn megjelenő szót kellett minél gyorsabban kiolvasniuk. A kísérlet azt vizsgálta, hogy az akusztikusan bemutatott többes számú szóalak megkönnyíti-e a vizuálisan bemutatott szótő kiolvasását. A feltételezés szerint a szabályos alakok esetében a szótövet hamarabb
Mintavételi technikák a magyar mint idegen nyelv elsajátításának 17 olvassák ki a szó többes számának akusztikus bemutatása után, mint a szabálytalan szótövek esetében, tehát megfigyelhető a különbség a szabályos és a szabálytalan szótövek előfeszítő hatása között. Ez arra engedne következtetni, hogy a szabályos alakokat analitikusan tároljuk, a szabálytalanokat pedig nem (hanem külön szótári egységként). Az eredményekben beigazolódott, hogy szignifikáns a különbség a szabályos és a szabálytalan tövek előfeszítő hatásában, ezért megállapítható, hogy azok feldolgozása és tárolása mögött eltérő mechanizmusok működnek. Azonban például az angol nyelvvel ellentétben a szabálytalan szavaknál is megfigyelhető előfeszítő hatás, tehát megtörténik a dekompozíció. Ez minden bizonnyal a magyar nyelvben oly fontos szerepet betöltő végződésnek köszönhető, amely még a rendhagyó alakoknál is változatlan (a magyar többes számban minden esetben felismerhető a -k jel). Ilyen jellegű kísérleteket feltétlenül érdemes lenne megismételni vagy külön elvégezni magyarul tanuló külföldiekkel is, hiszen így a nyelvtanulás / nyelvelsajátítás folyamatának, valamint az idegen nyelv működésének újabb aspektusaira is rávilágíthatnánk. A magyar mint idegen nyelv kontextusában Dóla Mónika mutatott rá több tanulmányban is (2006, 2008) a formulaszerű nyelvhasználat és nyelvtanulás jelentőségére. A morfológiailag összetett szóalakok egészleges vagy analitikus tárolására vonatkozó eredmény az elsajátítás / tanulás folyamatáról is információval szolgálhatna, és így a gyakorlati nyelvtanári munkát is segítené. Sajnos az ilyen jellegű pszicholingvisztikai kísérletek elvégzéséhez általában pszichológiai laboratórium és egy számítógépes program szükséges, valamint viszonylag nagy számban kell olyan résztvevőket is toborozni, akik megfelelően magas nyelvtudási szinttel rendelkeznek és hajlandóak több órát is rászánni erre a kísérletre ez pedig eddig leküzdhetetlen akadálynak bizonyult. A magyarul tanulók nyelvtudását is vélhetően a szabad beszéd elemzéséből származó információ jellemzi a legjobban, hiszen bizonyos grammatikai szerkezetek elkerülése, illetve a felhasznált szerkezetek önként választott gyakorisága szintén fontos szempont lehet. Az elkerülést (avoidance, Gass Selinker 2001, 119, 241) a köztes nyelven folytatott kommunikáció egy szándékos stratégiájaként értelmezhetjük, amelyben a nem anyanyelvi beszélő szándékosan (és nem az ismeretek hiánya miatt) kerüli valamilyen nyelvi szerkezetnek a használatát. Ha azonban célzottabban szeretnénk vizsgálódni, létjogosultságuk van az irányított és ezért jóval kötöttebb beszélgetésnek, valamint a szóbeli teszteknek is. Utóbbit több alkalommal is használták a magyar anyanyelvi elsajátításának vizsgálatában is (MacWhinney 1974, Pléh Palotás Lőrik 2002), a kísérletekben használt módszerek pedig alacsonyabb nyelvtudási szinten is könnyen megismételhetőek a magyart idegen nyelvként tanulókkal.
18 Durst Péter 4. Írásbeli adatgyűjtés Írásban is többféle módon gyűjthető anyag a nyelvtanulás / nyelvelsajátítás folyamatának vizsgálatához. Teszteket főként a nyelvtudási szint értékeléséhez szoktak készíteni, de a nyelvelsajátítás vizsgálatában is használhatók. Jóval gyakoribb azonban, hogy a kutatók vagy a nyelvtanulás / nyelvtanítás elméleti hátterével is aktívan foglalkozó nyelvtanárok a nyelvtanulók fogalmazásaiból saját korpuszt gyűjtenek össze, amelynek részletes vizsgálata több szempontból is eredményes lehet. A magyarul tanulók anyanyelvének és a célnyelvnek az elméleti összevetéséből és az ehhez párosított nyelvtanulói hibákból vagy jellegzetes megnyilatkozásokból sok értékes munka született, amelyeknek kiemelkedően nagy hasznuk van a tananyagok tervezésében és az oktatás megtervezésében. Ezek a korpuszok gyakran egy bizonyos anyanyelvű tanulócsoporthoz vagy egy bizonyos oktatási helyzethez (pl. orvosi szaknyelv) kapcsolódnak. Rendkívül sok hozadékuk volt és használatuk létjogosultsága a későbbiekben is megkérdőjelezhetetlen. Az adatgyűjtés módja ezekben az esetekben fogalmazások elemzése, ami igen szerencsésen ötvözi az élőbeszéd egyes sajátosságait az írásos adatgyűjtés előnyeivel. Az irányítottság mértékét természetesen a tanár határozza meg a téma megválasztásával és előzetes feldolgozásával, de lehetőség van arra, hogy a fogalmazás valóban szabad nyelvhasználatot rögzítsen, amit ráadásul könnyű tárolni és feldolgozni, ha digitális formában készül ez pedig a mai technikai háttér mellett nem szokott gondot okozni. A digitális formában gyűjtött nyelvi anyag számítógépes feldolgozása új korszakot nyitott a nyelvészeti kutatásban, hiszen nagy mennyiségű adat kvantitatív elemzésére nyújt lehetőséget. Nyelvtanulói korpuszok a 80-as évek óta készülnek, kialakításuk és használatuk főleg a korpusznyelvészetre és az idegen nyelvek elsajátításának / tanulásának kutatására támaszkodik (Granger 2002, 4). Főként angol nyelvű tanulói korpuszok készültek eddig, de már más nyelveken is jelentős eredmények születtek. Jantunen (2011) egy finn nyelvi korpusz jellemzőit ismerteti, és felhívja a figyelmet arra, hogy a nyelvtanulás univerzális jellemzőinek kutatásához elengedhetetlen az indoeurópai nyelveken kívül más nyelvek tanulóival készített nyelvtanulói korpuszok vizsgálata is. Az ICLFI (International Corpus of Learner Finnish) 2007 óta gyűjtött anyagában összesen kb. egymillió szó található, amit a külföldi egyetemeken dolgozó tanárok segítségével rögzítettek. A nyelvi adatokon kívül a nyelvtanulókra (életkor, anyanyelv) és a tanulási helyzetre vonatkozó változók is szerepelnek a korpuszban, ami a későbbiekben szélesíti a kinyerhető eredmények skáláját. Több változó tükrében elemezhetők tehát az idegen nyelv tanulása közben felmerülő problémák és a nyelvtanulói hibák is (Szirmai 2005, 69), ami jelentős segítséget nyújthat oktatási anyagok tervezésében vagy tanulói szótárak elkészíté-
Mintavételi technikák a magyar mint idegen nyelv elsajátításának 19 sében. Minthogy lehetőség van a longitudinális adatgyűjtésre, az eddigieknél részletesebben és pontosabban fel tudjuk térképezni a nyelvtanulás és nyelvelsajátítás fejlődési menetét is. A tanulói korpuszok szoftveres elemzése gyakorlatilag az egyetlen objektív módja a tanulói nyelvben a gyakoriság mérésének, valamint a nagy adaton több szempont szerint végzett statisztikai számításoknak. A nyelvtanulói korpusz szövegének feldolgozásában segítséget nyújthatnak szoftverek, de elkerülhetetlen a manuális munka is. Jelenleg a magyar nyelv elemzésére több szoftver is rendelkezésre áll, amelyek mondatrészekre illetve morfémákra tudják bontani a szöveget, és viszonylag kis hibaszázalékkal dolgoznak, de a nyelvtanulói korpusz számítógépes feldolgozásában nagy kihívás a köztes nyelvi formák (azaz a hétköznapi terminológia szerint a hibás szavak és mondatok) feldolgozása ezt egyelőre csak emberi munkával lehet végezni. A felfedezett hibát az előzetesen kidolgozott kódrendszer szerint rögzíteni kell az erre alkalmas szoftverben, ami a későbbiekben lehetővé teszi az adott típusú hibák statisztikai elemzését. A hibakódok megállapítása igen összetett feladat (Granger 2002, 18-19), egy komplex rendszer kidolgozásához hosszas és alapos előkészítő munkára van szükség. A magyar tanulói nyelv hibakódolásához Dickinson és Ledbetter (2011) munkája segítséget nyújthat, bár kódolási rendszerük minden bizonnyal további kiigazításokra szorul, amiben vélhetően érdemes korábbi, hibaelemzésen alapuló szakirodalomban fellelhető hibatípusokat is figyelembe venni. Általánosan elmondható, hogy a hibakódolás többszintű és bővíthető kell, hogy legyen. 5. Kitekintés A tanulói korpusz számítógépes elemzésnek vethető alá, ami számos szempont figyelembe vételével képes statisztikai módszerekkel feldolgozni az adatokat, így jelentős előrelépést jelenthet a MID kutatásában. A tanulói korpusz összeállítása a gyakorlatban egyáltalán nem bonyolult feladat, hiszen mindössze előre meghatározott feltételeknek megfelelő (időkorlát, szótárhasználat stb.) fogalmazásokat kell összegyűjteni a nyelvtanulóktól, akiknek bizonyos személyes adatait is fel kell jegyezni. A jól használható statisztikai elemzéshez azonban igen nagy mennyiségű adatra van szükség, így egy működőképes korpusz összeállítása mindenképpen nagy szakmai és intézményi összefogást tesz szükségessé. Az így létrehozott korpusz sokféle elemzésre használható és bővíthető, a feldolgozásához használt szoftverek pedig az új feladatoknak megfelelően fejleszthetőek.
20 Durst Péter Ir o d a l o m Co o k, V. J. 1969. The analogy between first and second language learning. IRAL VII/3, 207 216. Coo k, V. J. 1973. The comparison of language development in native children and foreign adults. IRAL XI/1, 13 28. Di c k i n s o n, Markus Le d b e t t e r, Scott 2011. Annotating Errors in a Hungarian Learner Corpus. Proceedings of the 8th Language Resources and Evaluation Conference (LREC 2012). Istanbul, Turkey. http://jones.ling.indiana.edu/~mdickinson/papers/dickinson-ledbetter12.pdf Dól a Mónika 2006. Formulaszerű nyelvhasználat és következményei a magyar mint idegen nyelv oktatásában. Hungarológiai Évkönyv 7: 20 33. Dó l a Mónika 2008. Dual-mechanism approach to Hungarian morphology. Hungarológiai Évkönyv 9: 36 48. Dur s t Péter 2007. A magyar helyhatározóragok használata magyart idegen nyelvként beszélő külföldieknél. In: Kassai Ilona (szerk.): Nyelvészeti Doktorandusz Füzetek. Pécs, 34 37. Durst Péter 2010. Kutatásmódszertani kérdések a magyar mint idegen nyelv elsajátításának vizsgálatában. THL2: A magyar nyelv és kultúra tanításának szakfolyóirata, 2010/1 2: 82 90. Ga s s, Susan Se l i n k e r, Larry 2001. Second Language Acquisition: An Introductory Course. Second Edition. Lawrence Erlbaum Associates. Gra n g e r, Sylviane 2002. A Bird s-eye View of Computer Learner Corpus Research, In: Granger S. Hung J. Petch-Tyson S. ed(s): Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Amsterdam & Philadelphia, Benjamins, Language Learning and Language Teaching, 6: 3 33. Ja n t u n e n, Jarmo Harri 2011. Kansainvälinen oppijansuomen korpus (ICLFI): typologia, taustamuuttujat ja annotointi. Lähivõrdlusi. Lähivertailuja 21. Tallinn, Estonian Association for Applied Linguistics (EAAL), 86 105. La n g m a n, Juliet Bay l e y, Robert 2002. The acquisition of verbal morphology by Chinese learners of Hungarian. Language variation and Change 14, 55 77. Lu k á c s Ágnes 2001. Szabályok és kivételek: A kettős modell érvényessége a magyarban. In: Pléh Csaba Lukács Ágnes (szerk.): A magyar morfológia pszicholingvisztikája. BIP-Osiris, Budapest. 119 152. Ma cwh i n n e y, Brian 1974. Rules, rote, and analogy in morphological formations by Hungarian children. Journal of Child Language, 2: 65 77. Plé h Csaba Luk á c s Ágnes Kas Bence 2008. A szótár pszicholingvisztikája. In: Kiefer Ferenc (szerk.): Strukturális magyar nyelvtan 4. A szótár szerkezete. Akadémiai Kiadó, Budapest. 787 852. Pl é h Csaba Pa l o t á s Gábor Lő r i k József 2002. Nyelvfejlődési szűrővizsgálat. Akadémiai Kiadó, Budapest. Ré g e r Zita 1974. Kétnyelvű cigánygyermekek az iskoláskor elején. Valóság 1: 50 62.
Mintavételi technikák a magyar mint idegen nyelv elsajátításának 21 Réger Zita 1975. Közös törvényszerűségek az anyanyelv-elsajátítás és a gyermekkori idegennyelv-elsajátítás folyamatában. Magyar Nyelvőr 103: 344 350. Ré g e r Zita 1979. Bilingual Gypsy Children in Hungary: Explorations of Natural Second Language Acquisition at an Early Age. International Journal for the Sociology of Language 19. 59 82. Sz i r m a i Mónika 2005. Bevezetés a korpusznyelvészetbe. Tinta Kiadó, Budapest Durst, Péter Methods of data collection in the research of Hungarian as a foreign language This paper gives a short overview of data collection methods used in the research of Hungarian as a foreign / second language and draws the attention to the possibilities of collecting written data to build a learner corpus of Hungarian, which could be used for various research purposes. Although definitely the most authentic source of learner language, it is rather difficult to collect and handle spoken data and it has been studied in very few research projects on Hungarian as a foreign language. Processing of morphologically complex Hungarian words has been researched only with subjects who were native speakers of Hungarain but Hungarian as a foreign language should also be examined from this point of view. The most up to date method of analyzing learner language is based on learner corpora which should be collected by the institutions in cooperation.