Add Your Company Slogan BIG DATA KONFERENCIA, 2017.11.30., Pécs A szövegalapú automatikus érzelemelemzés lehetőségei és kihívásai a nyelvtechnológiában Szabó Martina Katalin mszabo@precognox.com
A NYELVTECHNOLÓGIA CÉLJA ÉS FELADATA A SZÖVEGEK ELEMZÉSÉBEN
Cél A nyers szövegek sokszempontú feldolgozása A nyers szövegekben az információ implicit cél: explicitté tenni (vö. McEnery, 2005) gépi lekérdezés
Feladatok Egyszerűbbek Pl. mondatra bontás, tokenizálás, lemmatizálás, morfológiai és szófaji elemzés: Magyarlánc (Zsibrita, Vincze, & Farkas, 2013) Géppel már magas hatékonysággal megoldhatóak Nehezebbek Általában a szemantikai és pragmatikai sajátságok (Szabó, Galántai 2017) Ok: nincsenek rendelkezésre álló nyelvfeldolgozó eszközök
AZ EMÓCIÓELEMZÉS HELYE A NYELVTECHNOLÓGIAI FELADATOK KÖZÖTT
Határozottan a nehezebb nyelvtechnológiai feladatok közé tartozik Cél: a különböző emóciók (pl. düh, öröm, bánat, meglepődés, stressz stb.) meglétére utaló nyelvi elemeket megtalálni és megfelelően azonosítani a szövegekben
Mi a motiváció? I. Tudományos kihívás Tudományos hasznosíthatóság (pl. pszichológiai szempontú szövegelemzés) Az iparban magas hasznosíthatóság, pl. o gazdasági trendek azonosítása és előre jelzése o A vásárlói hangulat mérése o politikusokkal, pártokkal szembeni aktuális beállítódás mérése o egy adott társadalmi, gazdasági jelenségre reflektáló közönséghangulat o stb.
Mi a motiváció? II. Írott szöveg alapján vs. hang alapján vs. kép alapján Miért kell egyáltalán az írott szöveg alapján? Nagy mennyiségű írott szöveg Számos esetben csak ez áll a rendelkezésre Pl. blogok, tweetek, facebookbejegyzések, hírszövegek, akár szépirodalom
Egy fontos megjegyzés I. Emócióelemzés szentimentelemzés! emóció: a valamely targettel kapcsolatos érzelem szövegszintű megnyilvánulása szentiment: bizonyos dolgok (személyek, helyek, tárgyak stb.), másképpen targetek vonatkozásában tett nyelvi értékelés
Egy fontos megjegyzés II. (1) a. a főnököm remek ember b. a habbeton rossz hővezető Péter (1991: 46): az értékelés emocionális (1a) és racionális (1b) típusa A racionális típusban az érzelmek nem játszanak szerepet (vö. Szabó 2015) automatikus kinyerésük is más-más haszonnal járhat feldolgozásukban eltérő megoldásokat is alkalmaznunk kell bizonyos esetekben
Emócióelemzés nemzetközi és hazai szinten Máshol központi szerep több tudományos diszciplínában (pl. viselkedéstudomány vagy pszichológia) A nyelvtechnológiában csupán az utóbbi időben találni publikációkat (vö. pl. Strapparava, Mihalcea 2008, Mulcrone 2012) Itthon A szentimentelemzés feladatkörébe utalják, gyakran azonosítják is egymással (vö. pl. Pólya et al. 2015: 202) Egyetlen magyar nyelvű szótár: Precognox
A LEGGYAKORIBB SZÖVEGALAPÚ EMÓCIÓELEMZÉSI MEGOLDÁS
A gyakorlat A pszichológia eredményei a nyelvtechnológiában Ekman, Friesen (1969): alapemóciók: arckifejezéseit kultúrától függetlenül azonos módon produkálhatjuk és interpretáljuk intuitíve érthetőek (Banczerowski 2005a: 203)
Az alapemóciók Alapemóciók: o DÜH o FÉLELEM o UNDOR o MEGLEPŐDÉS o ÖRÖM o BÁNAT
A nyelvtechnológiai megoldások I. Alapvetően szótárak segítségével A nyelvtechológiában nagyon elterjedt megoldás, okok: kevés költség a költséghez képest nagy haszon könnyen adaptálható módszer
A nyelvtechnológiai megoldások II. Egyik verzió: Az alapemóciókra támaszkodva szótárak fejlesztése Módszer: a lexémák összegyűjtése kategóriákban Mire és hogyan használható: szótárillesztéses megoldás scoreok adása elemzési egységenként
A nyelvtechnológiai megoldások III. Másik verzió: Ugyanez, csak több vagy más kategóriával Számtalan megoldással találkozni, pl. Nyomárkay (1975), a magyar nyelvre: az érzelemmel kombinált igéket 13 típusba sorolja Бабенко (1989), orosz nyelvre: 37 emotív jelentés, azon belül számos további alkategória + sajátos szemantikai tartalmi típusok
A nemzetközi szakirodalomban Arnold (1960) Anger, aversion, courage, dejection, desire, despair, fear, hate, hope, love, sadness Mowrer (1960) Pain, pleasure Oatley, Johnson-Laird (1987) Anger, disgust, anxiety, happiness, sadness Frijda (1986) Desire, happiness, interest, surprise, wonder, sorrow Panksepp (1982) Expectancy, fear, rage, panic Gray (1982) Rage and terror, anxiety, joy Plutchik (1980) Acceptance, anger, anticipation, disgust, joy, fear, sadness, surprise Izard (1971) Anger, contempt, disgust, distress, fear, guilt, interest, joy, shame, surprise Tomkins (1984) Anger, interest, contempt, disgust, distress, fear, joy, shame, surprise James (1884) Fear, grief, love, rage Watson (1930) Fear, love, rage McDougall (1926) Anger, disgust, elation, Weiner, Graham Happiness, sadness
Pro Kontra Árnyaltabb elemzés Több érzelmet feltárhatunk Nem mosunk össze típusokat A gépi elemzés korlátai A kapott eredmények használhatósága (informativitás és kezelhetőség)
EMÓCIÓELEMZÉS A PRECOGNOXNÁL
A módszer Szótárakat fejlesztettünk I.: Az ekmani 6 kategória alapján II.: 6 + 2 kategória: FESZÜLTSÉG és VONZALOM A 2. szótár fejlesztésének az oka: egy emóciókorpusz építésének a tapasztalatai
Az 1. szótár statisztikai adatai Szótár Elemszám Százalékos megoszlás ÖRÖM 695 39% DÜH 401 22% BÁNAT 299 17% FÉLELEM 196 11% UNDOR 127 7% MEGLEPŐDÉS 80 4% Összesen: 1798 100%
A 2. szótár statisztikai adatai Szótár Elemszám Százalékos megoszlás ÖRÖM 558 30% DÜH 336 18% BÁNAT 279 15% FÉLELEM 185 10% FESZÜLTSÉG 140 8% VONZALOM 137 8% UNDOR 127 7% MEGLEPŐDÉS 80 4% Összesen: 1842 100%
Tanulságok A FESZÜLTSÉG felvétele a DÜH és a FÉLELEM kategóriák tisztább körvonalazódása A VONZALOM kategóriába olyan elemek kerületek, amelyeket addig nem tudtunk hova felvenni
A szótárak eredményessége Kézzel annotált emóciókorpuszon Módszer: egyszerű szóillesztéses megoldással automatikusan azonosítottunk minden emóciókifejezést, amelyet a szótárunk tartalmazott
A korpuszról I. cél: a szótár hatékonyságának a tesztelése, fejlesztése; egyéb kutatási és fejlesztési célok anyaga: a 2014-es év folyamán keletkezett, tévés és mozis témájú blogoldalakról kritikák, hírek és kommentek mérete: jelenleg 15 987 mondat és 197 707 token, eddig 3911 mondatot és 45 955 tokent dolgoztunk fel eszköz: a SZTE munkatársainak a fejlesztése
A korpuszról II. amit annotáltunk: teljes fragmentumot azon belül az emóciókifejezést az esetleges siftereket (pl. nem örültem, kicsit félt, elmondhatatlanul gusztustalan stb.) további kifejezéseket, melyek véleményünk szerint szótári szinten nem köthetőek egy meghatározott érzelemtípushoz (pl. wow!, azta!)
A szótárak eredményessége A korpusz elemei Szótár 1.0 % Szótár 2.0 % VONZALOM 220 0 0 36 16.36 DÜH 80 16 20 21 26.25 FESZÜLTSÉG 98 0 0 65 66.33 UNDOR 18 4 22.22 6 33.33 FÉLELEM 28 12 42.86 16 57.14 ÖRÖM 132 27 20.45 34 25.76 BÁNAT 119 32 26.89 36 30.25 MEGLEPETÉS 31 9 29.03 21 67.74
NÉHÁNY PROJEKT, AMELYBEN SZÖVEGALAPÚ EMÓCIÓELEMZÉST ALKALMAZTUNK
Munka közben
A 2016-OS TANÁRTÜNTETÉSEK SZÖVEGEINEK A FELDOLGOZÁSA
A korpuszszövegek gyűjtése Két Facebook-esemény posztjai és kommentjei: 2016. február 12-re és március 15-re meghirdetett tanártüntetések 6094 poszt és komment: 15 878 mondat és 160 589 szó Gyűjtés saját Facebook-scraperrel: Aktivitás adatok (like, megosztás, kommentelés) Szöveges adatok
A szövegek feldolgozása 1. UTF-8, plain text 2. magyarlánc (tokenizálás, lemmatizálás, POS-taggelés) 3. emotikonok és emojik szóalakokra, pl. :) simamosoly 4. topik-modellezés (részletesen l. Balogh et al. 2017) 5. szentiment- és emócióelemzés
Vizualizáció Interaktív dashboardon, R-ben, a Shiny webapplikációs framework segítségével http://labs.precognox.com/fbshiny/ Aktivitásadatok, hálózatosan is like-ok és kommentek Szöveges adatokból: szófelhők szentiment-idősorok emóció-idősorok topik-idősorok
Részletek a dashboardról
Néhány megállapítás az emóciókról a februári eseménynél: a legjellemzőbb az öröm, a második a szomorúság, később ennek átveszi a szerepét az undor A márciusi eseménynél: szintén az öröm a legjellemzőbb, a második a düh
TOVÁBBI MAGYAR NYELVŰ PROJEKTJEINK
Születésház-interjúk Saját twitter-korpusz (férfi vs. Női nyelvhasználat is) Magyar politikai blogok és híroldalak Kurucinfó Migránsokkal kapcsolatos hírszövegek Kísérletek: Emócióelemzés szentimentkorpuszon és fordítva (Drávucz et al. 2017) Emóciók vs. A nyelvi bizonytalanság jelölői (Drávucz, Szabó 2017)
OROSZ NYELVŰ SZÉPIRODALMI SZÖVEGEK NARRATÍVAELEMZÉSE
A projekt célja és menete Nyíri Zsófival (nyirizsofi93@gmail.com) (Nyíri 2017, Nyíri et al. 2018) Amit csináltunk: korpuszépítés (orosz szépirodalmi szövegek) és feldolgozás emóció- és szentimentszótárakkal Cél: narratívastruktúrák feltárása Az összes vizsgálati és feldolgozó eszközt magunk hoztuk létre
Alapötlet Reagan et al. 2016. The emotional arcs of stories are dominated by six basic shapes Angol szövegek Alapvető narratívatíp usok megállapítá sa emócióelem zéssel
Amit létrehoztunk a kutatáshoz Emóciószótár Szentimentszótár Korpusz
A korpusz (NarRu) Korszak 1895-1955 I. Periódus: 1895-1910 II. Periódus: 1910-1920 III. Periódus: 1920-1955 I. Periódus (1895-1910) II. Periódus (1910-1920) III. Periódus (1920-1955) Összesen Szöveg 46 48 82 176 Szerző 10 15 22 51 Átlagos szószám Összes szószám 35 516 18 666 34 956 30 660 1 633 741 895 978 2 866 470 5 396 189
Szövegek feldolgozása 1. txt formátum, UTF-8 kódolás 2. Szövegek tisztítása 3. Mondatra bontás (NLTK alapcsomag) 4. Tokenizálás, lemmatizálás, POStagelés (Pymorphy2)
Az emóciószótárunk Бабенко (1989) / melléklet OCR Javítás Listák kialakítása Eredmény: 8 emóció bánat: 670, düh: 527, félelem: 225, feszültség: 365, meglepődés: 75, öröm: 856, undor: 112, vonzalom: 461
A korpusz elemzése Szövegek feldarabolása 100 részre Szótárillesztések Dashboard Emóció- és szentimentértékek (score): Korszakonként Művenként Részenként Emóció- és szentimentenként Összesítéssel emóció- és szentimentgörbék
V. BRJUSZOV - Tüzes angyal BÁNAT
Összesített eredmények Összes szószám Szentimentki fejezések száma Százalékos megoszlás Emóciókifeje zések száma Százalékos megoszlás I. Periódus (1895-1910) II. Periódus (1910-1920) III. Periódus (1920-1955) Összesen 1 633 741 895 978 2 866 470 5 396 189 2894 2612 3228 8834 0,18 0,29 0,11 0,16 2091 1843 2350 6284 0,13 0,21 0,08 0,12
Narratívaelemzés I. 10 000 szavas részek Főkomponens-elemzés (PCA) Mozgóátlag számítás
Narratívaelemzés II.
Narratívaelemzés III.
Adalék az előadáshoz: EGY RÉSZPROBLÉMA
A negatív emotív elemek problémája 1. értékvesztés Pl. minden ruha borzasztó jól mutatott rajta 2. értékváltás Pl. kegyetlen bulit rendezett ismét a Sziget csapata A probléma: A szótáralapú tartalomelemzés során ezek szentimentértékét nem találjuk el tévesen azonosítjuk őket azok emotív tartalma alapján az emócióelemzés során
A vizsgálat módszerei és eszközei Elméleti és alkalmazott nyelvészeti irodalom Elméleti keretek: lexikai pragmatikai és a mentális lexikon hálózatos modellje Szemantikai és pszichológiai motiváció Saját korpuszok Saját szóasszociációs adatbázis Orosz angol ill. angol orosz fordítások Az eredményeket implementáltam egy szentimentelemző eszközben
IRODALOM I. Balogh, K.: A látens Dirichlet allokáció társadalomtudományi alkalmazása. A kuruc.info romaellenes megnyilvánulásainak tematikus elemzése. Szakdolgozat. Survey Statisztika mesterképzés, Eötvös Loránd Tudományegyetem (2015) Elérhető: http://labs.precognox.com/kurucinfo_adatviz/a_latens_dirichlet_allokacio_tarsadalomtudomanyi_alkalmazasa_balo gh_kitti.pdf. Banczerowski Janusz 2005a. A félelem tartományába tartozó negatív érzelmek konceptualizációjáról. Magyar Nyelvőr 129. évf., 2. sz. 202--208. Banczerowski Janusz 2005b. A pozitív érzelmek konceptualizálásának néhány kérdése. Magyar Nyelvőr 129. évf., 1. sz. 71--77.LeDoux J. 2000. Mózg emocjonalny. Tajemnicze podstawy życia emocjonalnego, tłum. A. Jankowski, Poznań. Drávucz F. Szabó M.K. 2017. A beszélői szubjektivitás vizsgálata szentiment- és emóciókorpuszokon. In XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia konferenciakötete. Megjelenés előtt. Drávucz F. Szabó M.K. Vincze V. 2017. Szentiment- és emóciószótárak eredményességének mérése emóció- és szentimentkorpuszokon. In Vincze V. szerk. XIII. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Informatikai Intézet. 228 239. Ekman, P. 1972. Universals and Cultural Differences in Facial Expression of Emotion. In J. Cole ed. Nebraska Symposium on Motivation. Lincoln, Nebraska: University of Nebraska Press, 207-283. Ekman, P. 2007. Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York: St. Martin's Griffin. Ekman, P. Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49 98. Ekman, P. Friesen, W. V. Ellsworth, P. 1982. What emotion categories or dimensions can observers judge from facial behavior? In P. Ekman Ed. Emotion in the human face. New York: Cambridge University Press. 39-55. Frijda, N. H. 1986. The emotions. New York: Cambridge University Press. Gray, J. A. 1985. The whole and its parts: Behaviour, the brain, cognition and emotion. Bulletin of the British Psychological Society 38. 99-112. Izard, C. E. 1977. Human emotions. New York: Plenum Press
IRODALOM II. Izard, C. E. 1977. Human emotions. New York: Plenum Press Jack, R.E. Garrod, O.G.B. Schyns, P.G. Dynamic Facial Expressions of Emotion Transmit an Evolving Hierarchy of Signals over Time. Current Biology 24, 2, 187-192. James, W. 1884. What is an emotion? Mind 9, 188-205. McDougall, W. 1926. An introduction to social psychology. Boston: Luce. McEnery, T. 2005. Corpus Linguistics. In Mitkov, R. 2005. The Oxford Handbook of Computational Linguistics. Oxford, Oxford University Press. 448 463. Mowrer, O. H. 1960. Learning theory and behavior. New York: Wiley. Mulcrone, K. 2012. Detecting Emotion in Text. Elhangzott:UMM CSci Senior Seminar Conference. University of Minnesota, Morris. Morris, Amerikai Egyesült Államok. 2012. április 28. [https://wiki.umn.edu/pub/ummcsciseniorseminar/spring2012talks/kaitlynmulcrone.pdf] Jack, R.E. Garrod, O.G.B. Schyns, P.G. Dynamic Facial Expressions of Emotion Transmit an Evolving Hierarchy of Signals over Time. Current Biology 24, 2, 187-192. James, W. 1884. What is an emotion? Mind 9, 188-205. Kurt Vonnegut 1995: Shapes of stories https://www.youtube.com/watch?v=op3c1h8v2zq (Utolsó elérés: 2017. október 4.) McDougall, W. 1926. An introduction to social psychology. Boston: Luce. Mowrer, O. H. 1960. Learning theory and behavior. New York: Wiley. Mulcrone, K. 2012. Detecting Emotion in Text. Elhangzott:UMM CSci Senior Seminar Conference. University of Minnesota, Morris. Morris, Amerikai Egyesült Államok. 2012. április 28. [https://wiki.umn.edu/pub/ummcsciseniorseminar/spring2012talks/kaitlynmulcrone.pdf] NLTK: http://www.nltk.org/book_1ed/ (Utolsó elérés 2017, október 4.) Nyíri, Zs. Egy orosz nyelvű emóció- és szentimentszótár, valamint egy orosz nyelvű szép-irodalmi korpusz létrehozásának tapasztalatai. In: II. Szláv Filológiai Konferencia, Budapest (2017) Megjelenés előtt Nyíri Zs., Szabó M., Ilyés V. 2018. Egy orosz nyelvű korpusz (NarRu) narratívaelemzése saját fejlesztésű szentiment- és emóciószótárakkal. MSZNY 2018.
IRODALOM III. Pymorphy2: https://pymorphy2.readthedocs.io/en/latest/ (Utolsó elérés 2017. október 4.) Reagan, A.J. et al. 2016. The emotional arcs of stories are dominated by six basic shapes. In: EPJ Data Science Szabó M.K. Galántai J. Egy magyar nyelvű spontán beszélt nyelvi korpusz (HuTongue) létrehozásának tapasztalatai. MANYE 26. kongresszusa, 2007. Absztrakt elfogadva. Szabó M.K. Vincze V. Morvay G. 2016. Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. In: Távlatok a mai magyar alkalmazott nyelvészetben. Budapest: Tinta. 282-292. Zsibrita J. Vincze V. Farkas R. 2013. magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In Proceedings of RANLP-2013. Hissar, Bulgaria. 763 771. Бабенко Л.Г. 1989. Лексические средства обозначения эмоций в русском языке, Свердловск: Издательство Уральского университета.
Precognox Informatikai Kft. http://precognox.hu/ KÖSZÖNÖM A FIGYELMET! Szabó Martina Katalin mszabo@precognox.com - Precognox Informatikai Kft. - SzTE-BTK, Szláv Intézet, Orosz Filológiai Tanszék - MTA TK Lendület RECENS Kutatócsoport