Magyar és angol szóasszociációs hálózatok vizsgálata. Orosz Katalin Kovács László Pollner Péter



Hasonló dokumentumok
EGYSZERŰ, NEM IRÁNYÍTOTT (IRÁNYÍTATLAN) GRÁF

Gráfelméleti alapfogalmak

Országos Rendezési Tervkataszter

Alapfogalmak II. Def.: Egy gráf összefüggő, ha bármely pontjából bármely pontjába eljuthatunk egy úton.

HAMILTON KÖR: minden csúcson PONTOSAN egyszer áthaladó kör. Forrás: (

22. GRÁFOK ÁBRÁZOLÁSA

HAMILTON ÚT: minden csúcson PONTOSAN egyszer áthaladó út

Közösség detektálás gráfokban

Megjegyzés: A programnak tartalmaznia kell legalább egy felhasználói alprogramot. Példa:

Algoritmuselmélet 7. előadás

1: Bevezetés: Internet, rétegmodell Alapok: aszimptótika, gráfok. HálózatokII, 2007

Mintaillesztő algoritmusok. Ölvedi Tibor OLTQAAI.ELTE

A projekt idő-, erőforrás és költségterve 1. rész

Hálózatok fejlődése A hatványtörvény A preferential attachment A uniform attachment Vertex copy. SZTE Informatikai Intézet

Feladatsor 2012/13 2. félév a Programozási alapismeretek tárgyhoz

Gráfok 2. Legrövidebb utak, feszítőfák. Szoftvertervezés és -fejlesztés II. előadás. Szénási Sándor

Matematika érettségi emelt 2013 május 7. 4 x 3 4. x 3. nincs megoldása

III. Gráfok. 1. Irányítatlan gráfok:

AquaLingua. Felhasználói Segédlet

Számítógép hálózatok, osztott rendszerek 2009

Algoritmuselmélet. Gráfok megadása, szélességi bejárás, összefüggőség, párosítás. Katona Gyula Y.

Kétnyelvű környezetben élő diákok (szerb és magyar anyanyelvűek) mentális lexikona

OSZMK portál részregisztráció és auditok általános felhasználói leírása

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Omnibusz 2003/08. A kutatás dokumentációja. Teljes kötet

Gráfelméleti feladatok. c f

SzA II. gyakorlat, szeptember 18.

1. oldal, összesen: 5

30. ERŐSEN ÜSSZEFÜGGŐ KOMPONENSEK

Gráfelmélet. I. Előadás jegyzet (2010.szeptember 9.) 1.A gráf fogalma

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Adatszerkezetek 2. Dr. Iványi Péter

Adatszerkezetek II. 3. előadás

Véletlen gráfok, hálózatok

Algoritmuselmélet. Legrövidebb utak, Bellmann-Ford, Dijkstra. Katona Gyula Y.

Asszociációs vizsgálatok alkalmazási lehetőségei márkák kutatásában Kovács László Bevezetés Az asszociációs vizsgálatok viszonylag hosszú múltra

Megújult az ARTISJUS Szerzői Információs Rendszere (SZIR) Online adatszolgáltatás szerzőknek bármikor, bárhonnan

Diszkrét matematika 2.C szakirány

Király Zoltán, Kondé Zoltán, Kovács Antal, Lévai Annamária 2006

Statisztikai módszerek a skálafüggetlen hálózatok

KUTATÁSMÓDSZERTAN 4. ELŐADÁS. A minta és mintavétel

4. Használati útmutatás

Összefoglalás és gyakorlás

Más szavakkal formálisan:, ahol olyan egész szám, hogy. Más szavakkal formálisan:, ahol olyan egész szám, hogy.

Adatbázismodellek. 1. ábra Hierarchikus modell

Leltározás a DOAS rendszerben

NightHawk AccessControl

GráfRajz fejlesztői dokumentáció

Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László)

Oszkar.com Android alkalmazás v1.2

Problémamegoldás kereséssel. Mesterséges intelligencia március 7.

Társadalmi és gazdasági hálózatok modellezése

Mindenki a WEB2-őn? A KutatóCentrum villámkutatása január

Számelméleti alapfogalmak

Síkba rajzolható gráfok

Bevezete s a ha ló zatók vila ga ba II.

Diszkrét matematika 2.

GRÁFELMÉLET. 7. előadás. Javító utak, javító utak keresése, Edmonds-algoritmus

7. Laboratóriumi gyakorlat: Vezérlési szerkezetek II.

Görbe- és felületmodellezés. Szplájnok Felületmodellezés

Szoftverarchitektúrák 3. előadás (második fele) Fornai Viktor

Algoritmusok és adatszerkezetek 2.

Térinformatikai elemzések. A Klimatológusok csoport beszámolója

Bevezete s a ha ló zatók vila ga ba

Előlegfizetés OTP SZÉP kártyával

FOGALMI RENDSZEREK ÉS LEXIKAI HÁLÓZATOK A MENTÁLIS LEXIKONBAN

Az egyenes egyenlete: 2 pont. Az összevont alak: 1 pont. Melyik ábrán látható e függvény grafikonjának egy részlete?

Feladatok MATEMATIKÁBÓL

Csődfigyelő. Figyelje Ön is gazdasági partnerit!

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

A RoadOn+ Flottamenedzser használata

11.3. A készségek és a munkával kapcsolatos egészségi állapot

Próbaérettségi feladatsor_b NÉV: osztály Elért pont:

BODROGKOZ.COM / HASZNÁLATI ÚTMUTATÓ

Adaptív dinamikus szegmentálás idősorok indexeléséhez

PRECÍZ Információs füzetek

Matematika kisérettségi I. rész 45 perc NÉV:...

Diszkrét matematika 2. estis képzés

Sali Attila Budapest Műszaki és Gazdaságtudományi Egyetem. I. B. 137/b március 16.

matematikai statisztika

Gráfelméleti modell alkalmazása épít ipari kivitelezés ütemezésére

Energiainformációs Adattár Adatgyűjtő alrendszer felhasználói dokumentáció

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 10. ÉVFOLYAM SZÁMÁRA

Gráf-algoritmusok ERŐS / GYENGE KÖTÉSEK

POSZEIDON dokumentáció (1.2)

FELHASZNÁLÓI KÉZIKÖNYV

Síkbarajzolható gráfok Április 26.

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

Diszkrét matematika 2.C szakirány

Arany Dániel Matematikai Tanulóverseny 2009/2010-es tanév első (iskolai) forduló haladók II. kategória

Zsidók, tudomány és hálózatok?

Doktori disszertáció. szerkezete

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Routing for Android Bensoft 2013

2. Adott a valós számok halmazán értelmezett f ( x) 3. Oldja meg a [ π; π] zárt intervallumon a. A \ B = { } 2 pont. függvény.

ELTE IK Esti képzés tavaszi félév. Tartalom

HACCP KCAL PRO. Online adminisztrációs szolgáltatás. Szolgáltatási Specifikáció v 1.0

TÁRKI ADATFELVÉTELI ÉS ADATBANK OSZTÁLYA. Változás SPSS állomány neve: Budapest, 2002.

Nevelési év indítása óvodák esetén

26. MINIMÁLIS KÖLTSÉGŰ UTAK MINDEN CSÚCSPÁRRA

Előszó. A segédletet témakörökre osztottuk a Lindab termékcsoportjainak megfelelően. Biatorbágy, Vigh Gellért CADvent tervezői tanácsadó

Átírás:

Magyar és angol szóasszociációs hálózatok vizsgálata Orosz Katalin Kovács László Pollner Péter 0. Bevezetés Jelenlegi elképzeléseink szerint a beszédértés és beszédprodukció során előhívott szavakat (és a mögöttes fogalmakat) mentális lexikonunkban (egyfajta agyi szótárban ) tároljuk (vö. pl. Gósy 2005). A mentális lexikonunkban a fogalmak rögzítése történhet nyelvtől függetlenül, a szavak rögzítése azonban nyelvhez kötött. Így feltételezhetjük, hogy adott nyelvre jellemző nyelvi-szerkezeti sajátosságok is szerepet játszhatnak a szóasszociációs hálózat szerkezetének kialakításában. Szóasszociációs hálózatok kutatása során nem hagyhatjuk figyelmen kívül az adatgyűjtés módszertanát sem, ugyanis a kapott hálózat nem csak az adott nyelv sajátosságaira építhet (például toldalékolt szóalakok hívószóként való megjelenése), hanem maga az adatfelvétel is befolyásolhatja a létrejövő hálózatot. Felmerül tehát a kérdés, milyen eltéréseket és/vagy hasonlóságokat mutatnak a különböző nyelvű szóasszociációs adatokból kialakuló hálózatok? Kimutathatóak-e olyan jellemzők, amelyek nyelvfüggetlen módon, általánosan érvényesek az emberi mentális asszociációs hálózatokra? Befolyásolja-e az adatgyűjtés módszere a hálózatok szerkezetét? Tanulmányunkban ezen kérdésekre kerestük a választ egy magyar és egy angol nyelvű szóasszociációs adatbázis hálózatos elemzése során. Vizsgálatainkban a hálózatok szerkezetének meghatározására valamint a strukturális különbségek feltárására koncentráltunk. 1. Szóasszociációs hálózatok 1.1. Szóasszociációs hálózatok keletkezése A szóasszociációs hálózat az asszociációs adatok gyűjtésében résztvevő személyek hívószóra adott válaszai alapján jön létre. A válaszadó személy a megjelenő hívószóra az először eszébe jutó szót adja válaszként, ami egy irányított kapcsolatot definiál a hívószó és a válaszszó között. Ha két szó között asszociáció jött létre, akkor a hívószó válaszszó irányított hálózati él bekerül a hálózatba. A létrejött hálózat csúcspontjai az egyes szavak, a hálózat élei pedig a szavak közötti irányított asszociációs kapcsolatok. 1.2. Agykapocs hálózat A magyar nyelvű szóasszociációkat az Agykapocs adatbázis (Kovács 2011) alapján vizsgáltuk. Az Agykapocs rendszer egy interneten elérhető felület segítségével 2008 óta gyűjti az oldalon regisztráló felhasználók által megadott asszociációkat. A felhasználók regisztráció után először egy 134 szavas, rögzített kezdő hívószólistára adják meg az először eszükbe jutó válaszszót. A további hívószavak a rendszerbe beérkezett válaszszavakból véletlenszerűen generálódnak. A válaszok nem csak szótári szavak lehetnek, hanem hosszabb karaktersorozatok is, ami lehetővé teszi, hogy toldalékolt alakok, szószerkezetek is bekerüljenek az adatbázisba, illetve később hívószóként megjelenjenek. Ha a felhasználónak a kapott hívószóra nem jut eszébe válasz, akkor lehetősége van ezt a "Nincs ötletem" gomb megnyomásával jelezni. Elemzésünkben az Agykapocs rendszerben 2011 elejéig összegyűlt magyar asszociációkat használtuk fel. Eddig az időpontig körülbelül 700 felhasználó nagyságrendileg 95000 asszociációt hozott létre. Az adatok hálózatos elemzését megelőzően 58

szükség volt egy adattisztítási lépésre, ahol sor került helyesírási hibák javítására, azonos jelentésű, de eltérően írt szavak egységesítésére. A hálózat létrehozásakor figyelmen kívül hagytuk a "Nincs ötletem" típusú válaszokat és az önmagukra mutató asszociációs kapcsolatokat, valamint néhány olyan felhasználó asszociációit, akik sok "Nincs ötletem" vagy önmagára mutató asszociációt hoztak létre. Az elemzett hálózatban 134 kezdő hívószóból kiindulva, további körülbelül 11000, a válaszokból generált hívószóra jöttek létre az asszociációs kapcsolatok. (Az adatbázis felépítésével és működésével kapcsolatban lásd részletesen Kovács 2011). 1.3. Florida hálózat Az angol nyelvű asszociációk vizsgálatához a University of South Florida Free Association Norms asszociációs adatbázist használtuk (Nelson et al. 1998). Az asszociációs normák gyűjtése 1973-ban kezdődött, több mint 6000 résztvevő asszociációinak rögzítésével. A gyűjtésében résztvevő kutatók sok időt és energiát fordítottak a beérkező adatok rendszerezésére, a helyesírási hibák javítására. Az adatbázisba folyamatosan kerültek be az újabb hívószavak, éppúgy, mint az Agykapocs esetében. Itt azonban nincs egy rögzített hívószó lista, ami minden felhasználónak ugyanaz. A hívószavakat főleg memóriakísérletek szavainak teszteléséhez választották ki, valamint a keletkezett válaszszavakból is kerültek ki új hívószavak. Az adatgyűjtés és a folyamatos értékelés, valamint további kutatások során megfogalmazott kérdések hatására újabb és újabb szavak váltak hívószóvá. Összesen 5019 hívószót alkalmaztak. 2. Agykapocs és Florida hálózatok szerkezete Az Agykapocs 16562 csúcsot és 43702 irányított élt, míg a Florida hálózat 10617 csúcsot és 72172 élt tartalmaz. A hálózatok szerkezetének összehasonlításához több jellemző vizsgálatát végeztük el. Elsőként a hálózati csúcsok bemenőfokszám-eloszlását hasonlítottuk össze, majd a hálózat szavainak összekapcsoltságát vizsgáltuk hálózati komponensek azonosításával, valamint a szavak közötti legrövidebb útvonalak elemzésével. Végül elemeztük a kezdő hívószavak alkalmazásának hálózati struktúrára gyakorolt hatását. 2.1. Fokszám eloszlás Egy hálózati csúcspont bemenő fokszáma a csúcsba mutató irányított élek száma. A szóasszociációs hálózatban egy szónak, mint csúcspontnak a bemenő fokszáma azon hívószavak száma, amelyekről az adott szóra asszociáltak. A bemenőfokszám-eloszlás megadja, hogy a hálózat csúcsai mekkora valószínűséggel rendelkeznek adott bemenő fokszámmal. 1. ábra. a) Az Agykapocs hálózat bemenőfokszám-eloszlása. b) A Florida hálózat bemenőfokszám-eloszlása. 59

Az 1.a) és 1.b) ábra az Agykapocs, illetve a Florida hálózat bemenőfokszámeloszlását mutatja. Az eloszlások nagyon hasonlóak, mindkét eloszlás hatványfüggvény szerinti, azaz a hálózatok skálafüggetlenek. Az 1. táblázatban felsoroltuk az angol és a magyar hálózat első néhány legnagyobb bemenő fokszámú csúcspontját. A szavak egy része mindkét listában szerepel, ezek rendszerint általános, vagy a mindennapokban használt szavak. Ilyenek a pénz, az autó, a munka, a jó és a rossz szavak. (Ezen szavak angol és magyar megfelelőjét az 1. táblázatban a könnyebb átláthatóság kedvéért nagy betűvel szedtük.) Agykapocs PÉNZ JÓ AUTÓ ROSSZ ember sok MUNKA Florida food MONEY water CAR GOOD BAD WORK 1. táblázat. Első néhány nagy bemenő fokszámú csúcspont az Agykapocs és a Florida hálózatban. 2.2. Szigorúan összefüggő komponens vizsgálata Az egyes szavak egymáshoz való viszonyának vizsgálatakor lényeges kérdés az összekapcsoltság. Ennek elemzésére az egyik gráfelméleti lehetőség az úgynevezett szigorúan összefüggő komponensek meghatározása. Szigorúan összefüggő komponensnek nevezzük egy irányított hálózat azon csúcspontjainak halmazát, amelyből bármely két csúcspontot kiválasztva létezik irányított útvonal az egyik csúcspontból a másik csúcspontba és fordítva. Az ilyen tulajdonságokkal rendelkező csúcspontok maximális halmazát szoktuk meghatározni. Egy gráfban több ilyen csúcspont csoport is létezhet. Az Agykapocs hálózat legnagyobb szigorúan összefüggő komponense a hálózat csúcspontjainak 56%-át, a Florida hálózaté pedig a csúcspontok 46%-át tartalmazza. Ez azt jelenti, hogy mind a magyar, mind az angol hálózat szavainak megközelítőleg a fele egymással közvetve vagy közvetlenül össze van kötve. 2.3. Legrövidebb útvonalak vizsgálata Az összekötöttségről árnyaltabb képet kapunk, ha megvizsgáljuk a szavak közötti legrövidebb útvonalakat. Megszámolhatjuk, hogy két szó közötti adott hosszúságú legrövidebb útvonalból hány darab található a hálózatban. A kapott eloszlást az Agykapocs és a Florida hálózatra, illetve a hálózatok legnagyobb szigorúan összefüggő komponensére a 2. ábra mutatja. Mindkét hálózatnál azt tapasztaljuk, hogy a teljes hálózatra és a legnagyobb szigorúan összefüggő komponensre kapott eloszlás nagyon hasonló. Tehát a legnagyobb szigorúan összefüggő komponensnek meghatározó szerepe van a teljes hálózat legrövidebb úthosszainak kialakításában. A legrövidebb útvonalak közül a leghosszabb az Agykapocsban 21, míg a Floridában 11 lépés hosszúságú. A Florida hálózatbeli rövidebb maximális úthossz annak köszönhető, hogy az adatgyűjtés hosszabb időtartama miatt sűrűbb a hálózat. A szavak közötti leggyakoribb távolság mindkét hálózatban kicsi. A konkrét útvonalak vizsgálatakor számos esetben azt látjuk, hogy egy szóból kiindulva akár néhány lépésen belül egy másik, 60

távoli szóhoz juthatunk el. Például az Agykapocs hálózatban: gazella gizella mátyás király. A Florida hálózatban: left right correct answer. 2. ábra. Legrövidebb úthosszak eloszlása az Agykapocs és a Florida hálózatban és a hálózatok legnagyobb szigorúan összefüggő komponensében. 2.4. Kezdő hívószavak szerepe Az Agykapocs rendszerben kezdetben minden résztvevő 134 rögzített hívószóra adott választ. Ezzel szemben a Florida asszociációknál a hívószavak folyamatosan kerültek be a rendszerbe, nem volt minden válaszadó számára rögzített hívószó lista. Felmerül a kérdés, hogy az eltérő adatfelvétel milyen különbséget okozott a hálózatok szerkezetében. Ennek megállapítására úgynevezett hólabda keresést alkalmaztunk. A hólabda keresés során egy vagy több csúcspontból indulunk el a csúcsok kimenő élein keresztül a hálózat többi csúcspontja felé. Meghatározható, hogy adott számú lépéssel a kimenő élek mentén hány hálózati csúcspontot értünk el. Az Agykapocs hálózat adatfelvételi módjából következik, hogy a kezdő hívószavak csoportjából kiindulva gyorsan elérhetőek a hálózat csúcspontjai. Azonban amennyiben nem az eredeti listából indulunk ki, hanem véletlenszerűen választott 134 csúcspontból indítjuk a hólabda keresést, akkor lassabban érjük el a hálózat csúcsait. A Florida hálózatnál 134 véletlenül kiválasztott angol kezdőszóból kiindulva ugyancsak lassabb ütemben növekszik a hálózati csúcsok elérési görbéje. Ezt követően megvizsgáltuk, hogy az egyes hálózati csúcspontokból egyenként kiindulva hány csúcspontot érünk el néhány lépés alatt. Az Agykapocs hálózatnál találtunk olyan szavakat, amelyeket egyenként a hólabda keresés kiindulópontjának választva a csúcsból három lépés alatt a hálózat több mint 50%-a elérhető. Ezen szavak mindegyike kezdő hívószó volt. A Florida hálózatnál ezzel szemben a legkedvezőbb kiinduló csúcspont választás esetén is a hólabda keresés harmadik lépésében a hálózati csúcspontoknak csak a 20%-a volt elérhető. További lépesek után természetesen itt is elérjük a csúcspontok nagy részét. Láthatjuk tehát, hogy a rögzített kezdő hívószó listából kiindulva létrejövő hálózatban a kezdő hívószavaknak található egy olyan csoportja, amely szavakból egyenként kiindulva gyorsan elérhetőek a hálózat szavai. 3. Összefoglalás Eredményeink azt mutatják, hogy hálózataink bár eltérő nyelvű asszociációkat tartalmaznak felépítése sok szempontból hasonló. A bemenő fokszámok eloszlásának skálafüggetlen jellege az angol és a magyar hálózat alapján univerzális jellemzőnek bizonyult. A legnagyobb bemenő fokszámú szavak magyar és angol hálózatbeli listája szintén jelentős átfedést mutat. Ezekre a szavakra nyelvfüggetlen módon sok hívószóról asszociálunk. Mindkét hálózatban azonosítottunk egy nagy a hálózati csúcspontok körülbelül felét tartalmazó magot, amelyen belül a szavak irányított útvonalakon keresztül szorosan kapcsolódnak egymáshoz. A hálózat többi csúcspontja ezen mag körül egy lazább 61

héjat alkot. Kiderült, hogy ez a szigorúan összefüggő komponens a hálózat szavai közötti legrövidebb úthosszak szempontjából meghatározó szerepű. A hálózatok kisvilág jellegére utal, hogy a leggyakoribb legrövidebb útvonal hossza két csúcspont között viszonylag rövid, így két, akár nagyon távoli szó esetén is találhatunk a szavak között néhány lépés hosszúságú asszociációs útvonalat. A magyar asszociációk gyűjtésekor alkalmazott rögzített kezdő hívószó-készletnek a hálózat csúcspontjainak gyors elérésében lehet szerepe. Irodalom Gósy Mária 2005. Pszicholingvisztika. Budapest: Osiris. Kovács László 2011. Fogalmi rendszerek és lexikai hálózatok a mentális lexikonban. Budapest: Tinta. Nelson, Douglas L. et al. 1998. The University of South Florida word association, rhyme, and word fragment norms. http://w3.usf.edu/freeassociation/ 62