A szövegalapú automatikus érzelemelemzés lehetőségei és kihívásai a nyelvtechnológiában

Save this PDF as:
 WORD  PNG  TXT  JPG

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "A szövegalapú automatikus érzelemelemzés lehetőségei és kihívásai a nyelvtechnológiában"

Átírás

1 Add Your Company Slogan BIG DATA KONFERENCIA, , Pécs A szövegalapú automatikus érzelemelemzés lehetőségei és kihívásai a nyelvtechnológiában Szabó Martina Katalin

2 A NYELVTECHNOLÓGIA CÉLJA ÉS FELADATA A SZÖVEGEK ELEMZÉSÉBEN

3 Cél A nyers szövegek sokszempontú feldolgozása A nyers szövegekben az információ implicit cél: explicitté tenni (vö. McEnery, 2005) gépi lekérdezés

4 Feladatok Egyszerűbbek Pl. mondatra bontás, tokenizálás, lemmatizálás, morfológiai és szófaji elemzés: Magyarlánc (Zsibrita, Vincze, & Farkas, 2013) Géppel már magas hatékonysággal megoldhatóak Nehezebbek Általában a szemantikai és pragmatikai sajátságok (Szabó, Galántai 2017) Ok: nincsenek rendelkezésre álló nyelvfeldolgozó eszközök

5 AZ EMÓCIÓELEMZÉS HELYE A NYELVTECHNOLÓGIAI FELADATOK KÖZÖTT

6 Határozottan a nehezebb nyelvtechnológiai feladatok közé tartozik Cél: a különböző emóciók (pl. düh, öröm, bánat, meglepődés, stressz stb.) meglétére utaló nyelvi elemeket megtalálni és megfelelően azonosítani a szövegekben

7 Mi a motiváció? I. Tudományos kihívás Tudományos hasznosíthatóság (pl. pszichológiai szempontú szövegelemzés) Az iparban magas hasznosíthatóság, pl. o gazdasági trendek azonosítása és előre jelzése o A vásárlói hangulat mérése o politikusokkal, pártokkal szembeni aktuális beállítódás mérése o egy adott társadalmi, gazdasági jelenségre reflektáló közönséghangulat o stb.

8 Mi a motiváció? II. Írott szöveg alapján vs. hang alapján vs. kép alapján Miért kell egyáltalán az írott szöveg alapján? Nagy mennyiségű írott szöveg Számos esetben csak ez áll a rendelkezésre Pl. blogok, tweetek, facebookbejegyzések, hírszövegek, akár szépirodalom

9 Egy fontos megjegyzés I. Emócióelemzés szentimentelemzés! emóció: a valamely targettel kapcsolatos érzelem szövegszintű megnyilvánulása szentiment: bizonyos dolgok (személyek, helyek, tárgyak stb.), másképpen targetek vonatkozásában tett nyelvi értékelés

10 Egy fontos megjegyzés II. (1) a. a főnököm remek ember b. a habbeton rossz hővezető Péter (1991: 46): az értékelés emocionális (1a) és racionális (1b) típusa A racionális típusban az érzelmek nem játszanak szerepet (vö. Szabó 2015) automatikus kinyerésük is más-más haszonnal járhat feldolgozásukban eltérő megoldásokat is alkalmaznunk kell bizonyos esetekben

11 Emócióelemzés nemzetközi és hazai szinten Máshol központi szerep több tudományos diszciplínában (pl. viselkedéstudomány vagy pszichológia) A nyelvtechnológiában csupán az utóbbi időben találni publikációkat (vö. pl. Strapparava, Mihalcea 2008, Mulcrone 2012) Itthon A szentimentelemzés feladatkörébe utalják, gyakran azonosítják is egymással (vö. pl. Pólya et al. 2015: 202) Egyetlen magyar nyelvű szótár: Precognox

12 A LEGGYAKORIBB SZÖVEGALAPÚ EMÓCIÓELEMZÉSI MEGOLDÁS

13 A gyakorlat A pszichológia eredményei a nyelvtechnológiában Ekman, Friesen (1969): alapemóciók: arckifejezéseit kultúrától függetlenül azonos módon produkálhatjuk és interpretáljuk intuitíve érthetőek (Banczerowski 2005a: 203)

14 Az alapemóciók Alapemóciók: o DÜH o FÉLELEM o UNDOR o MEGLEPŐDÉS o ÖRÖM o BÁNAT

15 A nyelvtechnológiai megoldások I. Alapvetően szótárak segítségével A nyelvtechológiában nagyon elterjedt megoldás, okok: kevés költség a költséghez képest nagy haszon könnyen adaptálható módszer

16 A nyelvtechnológiai megoldások II. Egyik verzió: Az alapemóciókra támaszkodva szótárak fejlesztése Módszer: a lexémák összegyűjtése kategóriákban Mire és hogyan használható: szótárillesztéses megoldás scoreok adása elemzési egységenként

17 A nyelvtechnológiai megoldások III. Másik verzió: Ugyanez, csak több vagy más kategóriával Számtalan megoldással találkozni, pl. Nyomárkay (1975), a magyar nyelvre: az érzelemmel kombinált igéket 13 típusba sorolja Бабенко (1989), orosz nyelvre: 37 emotív jelentés, azon belül számos további alkategória + sajátos szemantikai tartalmi típusok

18 A nemzetközi szakirodalomban Arnold (1960) Anger, aversion, courage, dejection, desire, despair, fear, hate, hope, love, sadness Mowrer (1960) Pain, pleasure Oatley, Johnson-Laird (1987) Anger, disgust, anxiety, happiness, sadness Frijda (1986) Desire, happiness, interest, surprise, wonder, sorrow Panksepp (1982) Expectancy, fear, rage, panic Gray (1982) Rage and terror, anxiety, joy Plutchik (1980) Acceptance, anger, anticipation, disgust, joy, fear, sadness, surprise Izard (1971) Anger, contempt, disgust, distress, fear, guilt, interest, joy, shame, surprise Tomkins (1984) Anger, interest, contempt, disgust, distress, fear, joy, shame, surprise James (1884) Fear, grief, love, rage Watson (1930) Fear, love, rage McDougall (1926) Anger, disgust, elation, Weiner, Graham Happiness, sadness

19 Pro Kontra Árnyaltabb elemzés Több érzelmet feltárhatunk Nem mosunk össze típusokat A gépi elemzés korlátai A kapott eredmények használhatósága (informativitás és kezelhetőség)

20 EMÓCIÓELEMZÉS A PRECOGNOXNÁL

21 A módszer Szótárakat fejlesztettünk I.: Az ekmani 6 kategória alapján II.: kategória: FESZÜLTSÉG és VONZALOM A 2. szótár fejlesztésének az oka: egy emóciókorpusz építésének a tapasztalatai

22 Az 1. szótár statisztikai adatai Szótár Elemszám Százalékos megoszlás ÖRÖM % DÜH % BÁNAT % FÉLELEM % UNDOR 127 7% MEGLEPŐDÉS 80 4% Összesen: %

23 A 2. szótár statisztikai adatai Szótár Elemszám Százalékos megoszlás ÖRÖM % DÜH % BÁNAT % FÉLELEM % FESZÜLTSÉG 140 8% VONZALOM 137 8% UNDOR 127 7% MEGLEPŐDÉS 80 4% Összesen: %

24 Tanulságok A FESZÜLTSÉG felvétele a DÜH és a FÉLELEM kategóriák tisztább körvonalazódása A VONZALOM kategóriába olyan elemek kerületek, amelyeket addig nem tudtunk hova felvenni

25 A szótárak eredményessége Kézzel annotált emóciókorpuszon Módszer: egyszerű szóillesztéses megoldással automatikusan azonosítottunk minden emóciókifejezést, amelyet a szótárunk tartalmazott

26 A korpuszról I. cél: a szótár hatékonyságának a tesztelése, fejlesztése; egyéb kutatási és fejlesztési célok anyaga: a 2014-es év folyamán keletkezett, tévés és mozis témájú blogoldalakról kritikák, hírek és kommentek mérete: jelenleg mondat és token, eddig 3911 mondatot és tokent dolgoztunk fel eszköz: a SZTE munkatársainak a fejlesztése

27 A korpuszról II. amit annotáltunk: teljes fragmentumot azon belül az emóciókifejezést az esetleges siftereket (pl. nem örültem, kicsit félt, elmondhatatlanul gusztustalan stb.) további kifejezéseket, melyek véleményünk szerint szótári szinten nem köthetőek egy meghatározott érzelemtípushoz (pl. wow!, azta!)

28 A szótárak eredményessége A korpusz elemei Szótár 1.0 % Szótár 2.0 % VONZALOM DÜH FESZÜLTSÉG UNDOR FÉLELEM ÖRÖM BÁNAT MEGLEPETÉS

29 NÉHÁNY PROJEKT, AMELYBEN SZÖVEGALAPÚ EMÓCIÓELEMZÉST ALKALMAZTUNK

30 Munka közben

31 A 2016-OS TANÁRTÜNTETÉSEK SZÖVEGEINEK A FELDOLGOZÁSA

32 A korpuszszövegek gyűjtése Két Facebook-esemény posztjai és kommentjei: február 12-re és március 15-re meghirdetett tanártüntetések 6094 poszt és komment: mondat és szó Gyűjtés saját Facebook-scraperrel: Aktivitás adatok (like, megosztás, kommentelés) Szöveges adatok

33 A szövegek feldolgozása 1. UTF-8, plain text 2. magyarlánc (tokenizálás, lemmatizálás, POS-taggelés) 3. emotikonok és emojik szóalakokra, pl. :) simamosoly 4. topik-modellezés (részletesen l. Balogh et al. 2017) 5. szentiment- és emócióelemzés

34 Vizualizáció Interaktív dashboardon, R-ben, a Shiny webapplikációs framework segítségével Aktivitásadatok, hálózatosan is like-ok és kommentek Szöveges adatokból: szófelhők szentiment-idősorok emóció-idősorok topik-idősorok

35 Részletek a dashboardról

36 Néhány megállapítás az emóciókról a februári eseménynél: a legjellemzőbb az öröm, a második a szomorúság, később ennek átveszi a szerepét az undor A márciusi eseménynél: szintén az öröm a legjellemzőbb, a második a düh

37 TOVÁBBI MAGYAR NYELVŰ PROJEKTJEINK

38 Születésház-interjúk Saját twitter-korpusz (férfi vs. Női nyelvhasználat is) Magyar politikai blogok és híroldalak Kurucinfó Migránsokkal kapcsolatos hírszövegek Kísérletek: Emócióelemzés szentimentkorpuszon és fordítva (Drávucz et al. 2017) Emóciók vs. A nyelvi bizonytalanság jelölői (Drávucz, Szabó 2017)

39 OROSZ NYELVŰ SZÉPIRODALMI SZÖVEGEK NARRATÍVAELEMZÉSE

40 A projekt célja és menete Nyíri Zsófival (Nyíri 2017, Nyíri et al. 2018) Amit csináltunk: korpuszépítés (orosz szépirodalmi szövegek) és feldolgozás emóció- és szentimentszótárakkal Cél: narratívastruktúrák feltárása Az összes vizsgálati és feldolgozó eszközt magunk hoztuk létre

41 Alapötlet Reagan et al The emotional arcs of stories are dominated by six basic shapes Angol szövegek Alapvető narratívatíp usok megállapítá sa emócióelem zéssel

42 Amit létrehoztunk a kutatáshoz Emóciószótár Szentimentszótár Korpusz

43 A korpusz (NarRu) Korszak I. Periódus: II. Periódus: III. Periódus: I. Periódus ( ) II. Periódus ( ) III. Periódus ( ) Összesen Szöveg Szerző Átlagos szószám Összes szószám

44 Szövegek feldolgozása 1. txt formátum, UTF-8 kódolás 2. Szövegek tisztítása 3. Mondatra bontás (NLTK alapcsomag) 4. Tokenizálás, lemmatizálás, POStagelés (Pymorphy2)

45 Az emóciószótárunk Бабенко (1989) / melléklet OCR Javítás Listák kialakítása Eredmény: 8 emóció bánat: 670, düh: 527, félelem: 225, feszültség: 365, meglepődés: 75, öröm: 856, undor: 112, vonzalom: 461

46 A korpusz elemzése Szövegek feldarabolása 100 részre Szótárillesztések Dashboard Emóció- és szentimentértékek (score): Korszakonként Művenként Részenként Emóció- és szentimentenként Összesítéssel emóció- és szentimentgörbék

47 V. BRJUSZOV - Tüzes angyal BÁNAT

48 Összesített eredmények Összes szószám Szentimentki fejezések száma Százalékos megoszlás Emóciókifeje zések száma Százalékos megoszlás I. Periódus ( ) II. Periódus ( ) III. Periódus ( ) Összesen ,18 0,29 0,11 0, ,13 0,21 0,08 0,12

49 Narratívaelemzés I szavas részek Főkomponens-elemzés (PCA) Mozgóátlag számítás

50 Narratívaelemzés II.

51 Narratívaelemzés III.

52 Adalék az előadáshoz: EGY RÉSZPROBLÉMA

53 A negatív emotív elemek problémája 1. értékvesztés Pl. minden ruha borzasztó jól mutatott rajta 2. értékváltás Pl. kegyetlen bulit rendezett ismét a Sziget csapata A probléma: A szótáralapú tartalomelemzés során ezek szentimentértékét nem találjuk el tévesen azonosítjuk őket azok emotív tartalma alapján az emócióelemzés során

54 A vizsgálat módszerei és eszközei Elméleti és alkalmazott nyelvészeti irodalom Elméleti keretek: lexikai pragmatikai és a mentális lexikon hálózatos modellje Szemantikai és pszichológiai motiváció Saját korpuszok Saját szóasszociációs adatbázis Orosz angol ill. angol orosz fordítások Az eredményeket implementáltam egy szentimentelemző eszközben

55 IRODALOM I. Balogh, K.: A látens Dirichlet allokáció társadalomtudományi alkalmazása. A kuruc.info romaellenes megnyilvánulásainak tematikus elemzése. Szakdolgozat. Survey Statisztika mesterképzés, Eötvös Loránd Tudományegyetem (2015) Elérhető: gh_kitti.pdf. Banczerowski Janusz 2005a. A félelem tartományába tartozó negatív érzelmek konceptualizációjáról. Magyar Nyelvőr 129. évf., 2. sz Banczerowski Janusz 2005b. A pozitív érzelmek konceptualizálásának néhány kérdése. Magyar Nyelvőr 129. évf., 1. sz LeDoux J Mózg emocjonalny. Tajemnicze podstawy życia emocjonalnego, tłum. A. Jankowski, Poznań. Drávucz F. Szabó M.K A beszélői szubjektivitás vizsgálata szentiment- és emóciókorpuszokon. In XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia konferenciakötete. Megjelenés előtt. Drávucz F. Szabó M.K. Vincze V Szentiment- és emóciószótárak eredményességének mérése emóció- és szentimentkorpuszokon. In Vincze V. szerk. XIII. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Informatikai Intézet Ekman, P Universals and Cultural Differences in Facial Expression of Emotion. In J. Cole ed. Nebraska Symposium on Motivation. Lincoln, Nebraska: University of Nebraska Press, Ekman, P Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York: St. Martin's Griffin. Ekman, P. Friesen, W.V The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica Ekman, P. Friesen, W. V. Ellsworth, P What emotion categories or dimensions can observers judge from facial behavior? In P. Ekman Ed. Emotion in the human face. New York: Cambridge University Press Frijda, N. H The emotions. New York: Cambridge University Press. Gray, J. A The whole and its parts: Behaviour, the brain, cognition and emotion. Bulletin of the British Psychological Society Izard, C. E Human emotions. New York: Plenum Press

56 IRODALOM II. Izard, C. E Human emotions. New York: Plenum Press Jack, R.E. Garrod, O.G.B. Schyns, P.G. Dynamic Facial Expressions of Emotion Transmit an Evolving Hierarchy of Signals over Time. Current Biology 24, 2, James, W What is an emotion? Mind 9, McDougall, W An introduction to social psychology. Boston: Luce. McEnery, T Corpus Linguistics. In Mitkov, R The Oxford Handbook of Computational Linguistics. Oxford, Oxford University Press Mowrer, O. H Learning theory and behavior. New York: Wiley. Mulcrone, K Detecting Emotion in Text. Elhangzott:UMM CSci Senior Seminar Conference. University of Minnesota, Morris. Morris, Amerikai Egyesült Államok április 28. [https://wiki.umn.edu/pub/ummcsciseniorseminar/spring2012talks/kaitlynmulcrone.pdf] Jack, R.E. Garrod, O.G.B. Schyns, P.G. Dynamic Facial Expressions of Emotion Transmit an Evolving Hierarchy of Signals over Time. Current Biology 24, 2, James, W What is an emotion? Mind 9, Kurt Vonnegut 1995: Shapes of stories https://www.youtube.com/watch?v=op3c1h8v2zq (Utolsó elérés: október 4.) McDougall, W An introduction to social psychology. Boston: Luce. Mowrer, O. H Learning theory and behavior. New York: Wiley. Mulcrone, K Detecting Emotion in Text. Elhangzott:UMM CSci Senior Seminar Conference. University of Minnesota, Morris. Morris, Amerikai Egyesült Államok április 28. [https://wiki.umn.edu/pub/ummcsciseniorseminar/spring2012talks/kaitlynmulcrone.pdf] NLTK: (Utolsó elérés 2017, október 4.) Nyíri, Zs. Egy orosz nyelvű emóció- és szentimentszótár, valamint egy orosz nyelvű szép-irodalmi korpusz létrehozásának tapasztalatai. In: II. Szláv Filológiai Konferencia, Budapest (2017) Megjelenés előtt Nyíri Zs., Szabó M., Ilyés V Egy orosz nyelvű korpusz (NarRu) narratívaelemzése saját fejlesztésű szentiment- és emóciószótárakkal. MSZNY 2018.

57 IRODALOM III. Pymorphy2: https://pymorphy2.readthedocs.io/en/latest/ (Utolsó elérés október 4.) Reagan, A.J. et al The emotional arcs of stories are dominated by six basic shapes. In: EPJ Data Science Szabó M.K. Galántai J. Egy magyar nyelvű spontán beszélt nyelvi korpusz (HuTongue) létrehozásának tapasztalatai. MANYE 26. kongresszusa, Absztrakt elfogadva. Szabó M.K. Vincze V. Morvay G Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. In: Távlatok a mai magyar alkalmazott nyelvészetben. Budapest: Tinta Zsibrita J. Vincze V. Farkas R magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In Proceedings of RANLP Hissar, Bulgaria Бабенко Л.Г Лексические средства обозначения эмоций в русском языке, Свердловск: Издательство Уральского университета.

58 Precognox Informatikai Kft. KÖSZÖNÖM A FIGYELMET! Szabó Martina Katalin - Precognox Informatikai Kft. - SzTE-BTK, Szláv Intézet, Orosz Filológiai Tanszék - MTA TK Lendület RECENS Kutatócsoport