A MNyA. és a RMNyA. integrált dialektometriai elemzése Kocsis Zsuzsanna Vargha Fruzsina Sára 6. Dialektológiai Szimpozion, Szombathely, 2015. szeptember 3.
Miről lesz szó? Dialektometria Levenshtein (Nerbonne, Heeringa) Csoportosítás alapján (Goebl) Térképes elemzések összevetése korrelációs térképek adattárhatár-hatás nyelvjáráshatár nyelvjárásszigetek Konklúzió
Dialektometria adatok csoportosításával létrehozott munkatérképek aggregált elemzése, Salzburg (Goebl) automatikus összevetés, Levenshtein algoritmusának használatával, Groningen (Nerbonne, Heeringa)
Hans Goebl, Salzburg! Az atlaszadatok kutatói csoportosításán alapuló dialektometriai eljárás (Goebl 1996)
Levenshtein módszer Groningen (John Nerbonne, Wilbert Heeringa) betűsorok automatikus összevetése, egymásba való átalakítása (betoldás, törlés, csere) denevér : benevér (85,8%) denevér : szárnyasegér (30%) denevér : bőrmadár (12,5%)
Korpusz 127 integrált MNyA., RMNyA. térképlap, 523 kutatópont 245 munkatérkép, az adatok csoportosításával (197 FON, 6 FON/MORF, 10 MORF, 32 LEX) 202 272 csoportosítás 127 891 652 összevetés a dialektometriai elemzésben
Csoportosítási szempontok Csak azokat a munkatérképeket tartottuk meg, ahol az egyes változatok előfordulásának területisége van. (A területiség nem jelenti a hagyományos nyelvjárásterületeknek, nyelvjárási régióknak való megfelelést.) Egyszerre csak egy szempontot érvényesítünk. Lexikai, morfológiai vagy hangtani variancia; egy integrált térképből több munkatérkép is készíthető.
Az adatok csoportosítása a Bihalbocsban Ide példa, hogy csináljuk a csoportosítást a Bihalbocsban
Munkatérképek
Felhő (LEX) homály felhő felleg ború, borúlás, borulat, buró
Felhő (FON) fejhő felhő felyhő főhő fël ö
Gaz (LEX) gaz, gajz, gasság burján dudva, dodva gyom, gyam fü, füj paré, paraj gurdiny zemet, szemet csádé csekmet
Gaz [fű/füjj] (FON) fű füjj
Meggy (FON) -tty- -ggy- -ddzs-
Meggy (FON) -e- -ë- -ö-
Nyelvi hasonlósági mátrixok 1. Kutatói csoportosítás alapján Levenshtein algoritmusának használatával 2. Az adatok automatikus összevetésével, az eredeti, finoman mellékjelezett lejegyzés alapján, 3. A mellékjelektől eltekintő, de a diftongusokat és a magánhangzó-hosszúságokat megtartó, egyszerűsített lejegyzés alapján 4. A lejegyzés nagymértékű egyszerűsítésével, a legtöbb fonetikai különbségtől eltekintve
Adatok közti hasonlóság mértéke a négy különböző elemzésben 1. Kutatói csop. 2. Finom fon. 3. Egyszerűsített 4. Lexikai
Korrelációs térképek
Kutatói csoportosítás vs. fonetikailag érzékeny elemzés Mantel-teszt, r = 0,89 1 0,985 0,970 0,955 0,940 0,925 0,910 0,895 0,880 0,865 0,850 0,835 0,810 0,795 0,780 0,765
Kutatói csoportosítás vs. mellékjeleket figyelmen kívül hagyó elemzés Mantel-teszt, r = 0,9 1 0,985 0,970 0,955 0,940 0,925 0,910 0,895 0,880 0,865 0,850 0,835 0,810 0,795 0,780 0,765
Kutatói csoportosítás vs. fonetikai részletekre érzéketlen ( lexikai ) elemzés Mantel-teszt, r = 0,9 1 0,985 0,970 0,955 0,940 0,925 0,910 0,895 0,880 0,865 0,850 0,835 0,810 0,795 0,780 0,765
Egyes kutatópontok nyelvi hasonlósági viszonyai, különböző mátrixokkal
Mihályi (csoportosítás alapján) osztásköz = 10 db kutatópont +
Mihályi (finom fonetikai elemzés) osztásköz = 10 db kutatópont +
Mihályi (egyszerűsített lejegyzés) osztásköz = 10 db kutatópont +
Mihályi ( lexikai elemzés) osztásköz = 10 db kutatópont +
Ártánd (csoportosítás alapján) osztásköz = 10 db kutatópont +
Ártánd (finom fonetikai elemzés) osztásköz = 10 db kutatópont +
Ártánd (egyszerűsített lejegyzés alapján) osztásköz = 10 db kutatópont +
Ártánd (csoportosítás alapján) osztásköz = 10 db kutatópont +
Ipolytölgyes (finom fonetikai elemzés) osztásköz = 10 db kutatópont +
Kemence (finom fonetikai elemzés) osztásköz = 10 db kutatópont +
Ipolytölgyes (csoportosítás alapján) osztásköz = 10 db kutatópont +
Kemence (csoportosítás alapján) osztásköz = 10 db kutatópont +
Kórógy (csoportosítás alapján) osztásköz = 10 db kutatópont +
Kórógy (finom fonetikai elemzés) osztásköz = 10 db kutatópont +
Lozsád (csoportosítás alapján) osztásköz = 10 db kutatópont +
Lozsád (finom fonetikai elemzés) osztásköz = 10 db kutatópont +
Konklúzió 1. A kutatói csoportosítás alapján létrehozott mátrix erősen korrelál az automatikus elemzéssel létrehozott mátrixokkal mindkét módszer egyaránt alkalmas a nyelvjárások közti hasonlóság feltárására. A Levenshtein-alapú dialektometria objektívebb, az egyes jelenségek súlyát azok előfordulási gyakorisága adja meg. A kutatói csoportosításon alapuló dialektometria szubjektívebb, az egyes jelenségek súlyát kutatói döntések határozzák meg.
Konklúzió 2. A csoportosítás alapján készült dialektometriai térképen tompulhatnak a nyelvjáráshatárok, és a nyelvjárásszigetek esetében erősebbnek mutatkozhatnak az új nyelvjárási környezet hatásai, mint az automatikus, finom fonetikai elemzés esetében. A kutatói csoportosítással kiküszöbölhető az adattárak közti lejegyzésbeli különbség hatása. Az automatikus adatösszevetéseknél ez a hatás csak a lejegyzés módosításával, egyszerűsítésével tompítható.
Köszönjük a figyelmet! A kutatás a PD-108442 számú OTKA-pályázatban készült.