TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)



Hasonló dokumentumok
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Stratégiai és üzleti döntéstámogatás közösségi médiaelemzéssel

A véleményváltozás azonosítása politikai témájú közösségi médiában megjelenő szövegekben

A Hunglish Korpusz és szótár

Lexikon és nyelvtechnológia Földesi András /

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Magyar nyelvtan tanmenet 4. osztály

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Önálló labor feladatkiírásaim tavasz

Internethasználat pszichés hatása

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

A Mazsola KORPUSZLEKÉRDEZŐ

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

A KONFLIKTUS, AMI ÖSSZEKÖT A kirekesztéstől a befogadásig

Különírás-egybeírás automatikusan

A magyar létige problémái a számítógépes nyelvi elemzésben

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

ÖNKORMÁNYZATI FEJLESZTÉSEK AZ OKOS TELEPÜLÉSEK ÉRDEKÉBEN. Dr. Dukai Miklós önkormányzati helyettes államtitkár május 25.

Miben fejlődne szívesen?

Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17

Konkurencia figyelés a közösségi média támogatásával.

HELYI TANTERV NÉMET NYELV. I. idegen nyelv. 4. évfolyam 6. évfolyam 8. évfolyam 10. évfolyam 12. évfolyam. nem A1 A2 B1 mínusz B1 megadható

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

A Jövő Internet Nemzeti Kutatási Program bemutatása

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

Elektronikus Információs és Nyilvántartási Rendszer a Doktori Iskolák fiatal kutatói részére

A korai kéttannyelvű oktatás hatása a kisiskolások anyanyelvi szövegértési és helyesírási kompetenciájára

Bevezetés az e-magyar programcsomag használatába

MAGYAR NYELV ÉS IRODALOM VIZSGA 8. ÉVFOLYAM

A HUNGLISH PÁRHUZAMOS KORPUSZ

A wiki módszer. Internetes tartalom kooperatívan, szabad szoftveres alapon. Gervai Péter

Az OTKA F Narratív struktúra, mint az aktuális érzelmi állapot minőségének indikátora. című pályázat záró jelentése

A Jó Állam Mutatók választásának, nyomon követésének eljárásrendje

JOURNAL CITATION REPORTS Tóth Szász Enikő Customer Education Specialist

Nyelv. Kognitív Idegtudomány kurzus, Semmelweis Egyetem Budapest, Created by Neevia Personal Converter trial version

Hamisítás, kalózkodás a szellemi tulajdon vizein Budapest, november 20. Magyar Szabadalmi Hivatal

PÁRHUZAMOS IGEI SZERKEZETEK

Szövegbányászat. Pancza Judit SPSS Nyári Iskola

A szegénység fogalmának megjelenése a magyar online médiában

Mozgásvizsgálati mérések internetes megjelenítése. Zemkó Szonja - Dr. Siki Zoltán

Véleménypolarizáció és választási részvétel. Kmetty Zoltán MTA- ELTE- PERIPATO

Kutatás a év közötti magyar lakosság körében. Megrendelő: Café PR

Osztályozó és javítóvizsga témakörei és követelményei angol nyelvből. 9. évfolyam

DEBRECENI EGÉSZSÉGÜGYI MINŐSÉGÜGYI NAPOK

Szövegértés évfolyam

Szövegbányászati rendszer fejlesztése a Magyar Elektronikus Könyvtár számára

Térinformatika a vidékfejlesztésben: a okostelefonos alkalmazás. MÁRKUS Zsolt László Szkaliczki Tibor MTA SZTAKI elearning Osztály

Osztályozó vizsga Angol mint első idegen nyelv

Felkészítés a könyvtárhasználati tehetségfejlesztésre a Bod Péter Országos Könyvtárhasználati Verseny új koncepciójának tükrében MÓDSZEREK

Internetes térkép publikálási technikák, szabványok, trendek, nyílt forráskódú megoldások

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

emberi kivonatolás Lengyelné dr. Molnár Tünde

Igekötős szerkezetek a magyarban

A SEO szerepe egy híroldal életében BUBLIK MÁTÉ

KOMMUNIKÁCIÓ ÉS ANYANYELV (A és B variáció)

NT MAGYAR NYELV ÉS KOMMUNIKÁCIÓ 6. TANMENETJAVASLAT. (heti 2 óra, azaz évi 74 óra)

2013/14. tanév. 3.osztály

Az Ómagyar Korpusz bemutatása

Mondatkiegészítés adott. Az írásmódtól eltérô. Mondatalkotás. pótlása. Hosszú mássalhangzós. Másolás. Mondatvégi írásjelek

OSZTÁLYOZÓVIZSGA KÖVETELMÉNYEI OROSZ NYELV

Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák

Az érzelmi felismerés viselkedészavaros lányokban (Emotion recognition in girls with conduct problems)

Experts. szakértoi rendszerek. Kalocsai László, +36 (30) Ver. 09p07

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Szabálykezelés a gyakorlatban

A tehetséges tanulók azonosítása, beválogatása, valamint mérések alkalmazása a tehetséggondozó programban. Készítette: Bárány Zoltán r.

TIT Megyei Angol Nyelvi verseny ismeretanyaga 4. ÉVFOLYAM

Pentaho 4: Mindennapi BI egyszerűen. Fekszi Csaba Ügyvezető október 6.

A Különösség* (Szingularitás) Egyetem programja (kivonat): A Világbiztonság Egyesület Működési alapszabály tervezete alapján

Magyar nyelv webes szövegek számítógépes feldolgozása

Debreceni Szakképzési Centrum Baross Gábor Középiskolája, Szakiskolája és Kollégiuma Debrecen, Budai Ézsaiás u. 8/A. OM azonosító:

Vizuális nyelv. Olvasás és írás. Ellis, W. (2004) Olvasás, írás és diszlexia október

Mi legyen az informatika tantárgyban?

Van-e ingyen-ebéd? Avagy mire elég a nyílt forráskodú Pentaho? Fekszi Csaba Ügyvezető október 4.

Gráfok mindenhol. x $ SZENDI-VARGA JÁNOS IOT SOCIAL NETWORKS FRAUD DETECTION MASTER DATA MANAGEMENT RECOMMENDATION ENGINES. Internet of Things

A pozicionális elit összetétele digitalizált választási jegyzőkönyvekben

Közösségi kommunikáció a gyakorlatban hatékony technikák és módszerek

Rostás Sándor szds. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.)

Egy általános célú morfológiai annotáció kiterjesztése

Helyi tanterv A Dunaújvárosi Szakképzési Centrum Szabolcs Vezér Gimnáziumának és Szakközépiskolájának helyi tanterve. Angol

Általános kompetenciák helye és szerepe a képesítésben és a tanulási tanítási folyamatban. Vámos Ágnes (ELTE)

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED

Angol Fejlesztési terv

Az értékelés során következtetést fogalmazhatunk meg a

Tartalomjegyzék. Tartalomjegyzék

Az e-magyar rendszer GATE környezetbe integrált magyar szövegfeldolgozó eszközlánca

Osztályozóvizsga követelményei

Megoldások a tehergépjárműpihenők parkolóhely előrejelző rendszereire

KÖFOP VEKOP A jó kormányzást megalapozó közszolgálat-fejlesztés

Tantárgyi követelmények. Német nyelv. 9. oszt.

Átírás:

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata) Miháltz Márton Hungarian Natural Language Processing Meetup, 2014. szeptember 25. www.trendminer-project.eu

TrendMiner Projekt (FP7) Közösségi média streamek valós idejű, nagyléptékű trendfigyelése és összegzése 2011-2014: DFKI (de), U. Sheffield, U. Southampton (uk), OntoText (bg), Sora (at), Internet Memory (fr), Eurokleis (it) 2013-2014: MTA NYTI (hu), U. Madrid, Daedalus (es), IPIPAN (pl) 2

TrendMiner 2011-2014 Twitter streamek valós idejű követése Felhőalapú architektúra; nem tárol minden üzenetet Entitások felismerése és ontológiához kapcsolása, több nyelven Wikification / egyértelműsítés (Dbpedia) Összegzés (summarization) Többnyelvű spektrális klaszterezés, reprezentáns választása Trendfigyelés Gépi tanulás: SM üzenetek + valós idősorozatok modellezése Vizualizáció (UI) Use Cases Pénzügyi folyamatok Politikai események Gyógyszerek és hatóanyagok a SM-ban 3

TrendMiner 2013-2014 (MTA NYTI) Milyen (szociál)pszichológiai jelenségek, trendek figyelhetők meg a magyar Fb hozzászólók politikai témákra reagáló üzeneteiben? Politikusok, politikai szerveztek publikus Facebook posztjaira érkezett publikus kommentek letöltése és elemzése Alapszintű NLP (tokenizálás, PoS, szótövesítés) -- domain-adaptáció Entitások: politikai szereplők (személyek, pártok, szervezetek) Sentiment (érzelempolaritás) Szociálpszichológiai dimenziók: közösségiség-ágencia, individualizmus-kollektivizmus, optimizmus-pesszimizmus, elsődleges -másodlagos gondolkodási folyamatok Együttműködés MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet Narratív Pszichológiai Kutatócsoport 4

Adatok Jelenleg: 1.9M komment 141K poszthoz 2013.10.01 2014.09.22 időszak Facebook Graph API, folyamatos letöltés 1344 fb oldalról Szervezetek: politikai pártok, tagszervezeteik Személyek: országgyűlési képviselők és jelöltek (OEVK) Hivatalos és nem hivatalos oldalak 3 kategóriában Magyar országgyűlés 2010-2014 Magyar országgyűlés 2014-2018 + országgyűlési választások 2014 Magyar EP képviselők 2014-2019 + magyar EP választások 2014 Források (entitások): valasztas.hu, wikipedia.hu 5

Adatbázis Fb források (oldalak) Oldal címe, tárgy típusa és neve (személy vagy párt), affiliációja (jelölés & tagság: hu2010, hu2014, eu2014) Fb posztok, kommentek Oldal id, felhasználó id, időpont Annotációk Entitások, pszichológiai tartalmak a kommentekben Komment id, mondat- és tokenpozíció, annotált szöveg, szöveg szótövesített fejjel, annotációs címke Pontértékek Minden kommenthez: komment hossza + 14 mutató (sentiment, valency_pos/neg, agency_pos/neg, ) SQL adatbázis 6

Feldolgozó pipeline Letöltés fb Graph API-val, DB-ba töltés Tokenizálás (huntoken) PoS-taggelés (hunmorph) Morfológiai elemzés (hunmorph) Szótő és morf. elemzés egyértelműsítése Entitások azonosítása, tartalomelemzés (NooJ) Annotációk, kiszámított mutatók DB-ban tárolása 7

Domain-adaptáció A meglévő NLP eszközöket eltérő szövegdomainre fejlesztették ki sztenderd nyelv (hírek) Közösségi média szövegeken rosszul teljesítenek Adaptáció előkészítése korpuszvizsgálattal 1.25M fb komment, 29M token 2.25M ismeretlen token (694K típus) Gyakorisági lista: f > 15 manuális átnézése Gyakori problématípusok, releváns és gyakori ismeretlen szavak kigyűjtése stb. 8

Domainadaptáció: tokenizálás Huntoken eszköz Gyakori problémák Hiányzó szóközök írásjelek után Első mondat vége.következő mondat eleje Többször ismételt írásjelek első rész. második rész => [ első, rész.,,, második, rész ] URL-ek felbontása Emotikonok felbontása :D => [ :, D ] Nagy számoknál ezres csoportok felbontása 125 000 => [ 125, 000 ] Ismeretlen rövidítések 9

Domainadaptáció: szótövesítés/pos Hunpos + hunmorph + egyértelműsítő szkript Gyakori problémák Gyakori és fontos ismeretlen szavak (nincs szótő, elemzés): hozzáadás az elemzőhöz analóg, ismert szavakkal Ismeretlen rövidítések, betűszavak hozzáadása (normalizált alakkal) Gyakori elírt szóalakok: javítás helyes alakra Nem sztenderd kisbetű-/nagybetűhasználat pl. CSUPA NAGYBETŰS MONDATOK Hiányzó ékezetek Ismeretlen szleng szavak Szóvégi mássalhangzók többszörözése pl. pffffffffffff, uffffffffffff, ejjjjjjjjjjjjj Ismeretlen emotikonok 10

NooJ NooJ (GUI): véges állapotú automaták fejlesztése és futtatása szövegeken Lexikai, morfológiai és/vagy szintaktikai elemzés, konkordanciák Annotációk importja és exportja.net, Java Letölthető: http://nooj4nlp.net NooJ-cmd: Nyílt forrású Java NooJ API-ra épül Minden NooJ GUI feature => parancssori megfelelő Szabadon hozzáférhető: https://github.com/tkb-/nooj-cmd 11

TrendMiner NooJ tartalomelemzés NooJ nyelvtanok (automaták) annotációhoz: Szereplők (entitások) Érzelmi valencia (sentiment) Regresszív képzeleti szótár Közösségiség-ágencia Optimizmus-pesszimizmus Individualizmus-kollektivizmus 12

NooJ nyelvtanok fejlesztése Együttműködés MTA TTK PI szociálpszichológus kutatóival Pólya Tibor, Fülöp Éva, Csertő István, Kővágó Pál Fejlesztői korpusz 176K minta fb komment 570 fb oldalról (4.9M token) NLP annotáció Gyakorisági listák: szótő, szótő+szófaj, szót ő+morfológiai elemzés stb.

1. Politikai szereplők (NE-k) Maxent NER eszköz (huntag): alacsony teljesítmény ezen a domain-en Híroldalak szövegein tanult (sztenderd nyelv) Kategóriahibák, hamis pozitív entity-k, entityhatár -felismerési problémák stb. NooJ lexikon és nyelvtan Személynevek: családnév (+ utónév_szótő), becenevek Szervezetek nevei: Hivatalos név, rövidített/betűszavas változat, becenevek Automatikusan DB-ból + kézzel (korpuszban gyakori becenevek, névváltozatok)

2. Érzelmi valencia Érzelmek pozitív vagy negatív polaritással Főnevek, melléknevek, igék, határozószók, emotikonok, többszavas kifejezések 500 pozitív, 420 negatív elem Kontextusfüggő polaritás: pl. negáció felismerése egyszerű szabályokkal Fejlesztése: f > 100 tartalmas szavak a fejlesztői korpuszból (3500 típus) 6 független annotátor: pozitív, negatív, semleges >= 4 annotátor egyetért: végső ellenőrzés és döntés Lexikonok, szabályok: NooJ nyelvtanba szerkesztés

3. Regresszív képzeleti szótár Martindale (1975, 1990): szövegben tükröződő pszichológiai folyamatok felfedése 2 szint a gondolkodási folyamatokban: Elsődleges: asszociatív, konkrét, a realitáshoz kevésbé kapcsolódó (fantázia, ábrándozás, álmok) Másodlagos: absztrakt, logikus, realitásközpontú és problémamegoldásra fókuszáló 29+14 további kategória (közösségi viselkedés, megismerés, érzékelés, érzelmek stb.) Magyar változat: Pólya--Szász 2013 3000+ kifejezés

4. Közösségiség-ágencia 2 alapvető dimenzió a társas értékelésben: Közösségiség: az egyén másokhoz/csoporthoz való viszonyát jellemzi morális szempontból (pl. együttműködés, becsületesség, hűség, őszinteség, önfeláldozás) érzelmi szempontból (pl. barátságosság, szeretet, ragaszkodás, tisztelet) Ágencia: az egyént a célkövető viselkedés hatékonysága szempontjából jellemzi motiváció (pl. ambiciózus, elszánt, céltudatos, akarat) kompetencia (pl. intelligens, ügyes, ravasz, szakértelem) kontroll (pl. önérvényesítő, sikeres, győztes, hatalom) Pozitív és negatív értékek mindkét dimenzióban Köntextusfüggő lehet (pl. tagadás) Fejlesztés: f > 100 tartalmas szavak a fejlesztői korpuszból (3500 típus) 3+3 annotátor: minden szó: +/0/- közösségiség/ágencia szempontból 7. annotátor: egyetértés <100% => végső ítélet 640 elem

5. Optimizmus-pesszimizmus Események idejének szerepe az egyéni gondolkodásban Múlt dominál: a személy megváltoztathatatlanak gondolja a világot Jelen dominál: reálisan megvalósítható feladatok fontossága Jövő dominál: nyitott lehetőségek megjelenése Szófaji, morfológiai elemzésre + időkifejezések felismerésére alapul 2 mutató: 1. jövő idejű igealakok / múlt idejű igealakok 2. jelen vagy jövő idejű igealakok / múlt idejű igealakok Mindkettő: minél magasabb, annál magasabb szintű optimizmus

6. Individualizmus-kollektivizmus Individualizmus: mennyire fontos a személy kategóriája a világról való gondolkodásban Személyes névmások használata: Gyakori: a személy kategóriája van az előtérben (fontos), individualizmus szintje magas Ritkább: a személy kategóriája a háttérben (környezet az előtérben), individualizmus szintje alacsonyabb Szófaji, morfológiai elemzésre alapul 1 mutató: személyes névmások / ( személyragos igealakok + birtokos személyragos főnévi alakok ) Magasabb érték magasabb szintű individualizmusra utal

Trendminer Politikai Ontológia OWL politikai témájú ontológia Fogalmi osztályok, tulajdonságok, axiómák Lengyel, magyar, osztrák adatok Individuumok: személyek, pártok, események (választások stb.), jelölések stb. 1300 magyar politikus és párt + kapcsolataik 2010, 2014 magyar és 2014 EP választások Szabadon hozzáférhető lesz 20

Jelenlegi munka: kiértékelés Pszichológiai annotációk pontosságának mérése Minta komment korpusz: 500 komment (10K szó), minden forrásból Humán annotáció (gold standard) 2+1 NLP eszközök domain-adaptációjának hatékonysága Ismeretlen szavak arányának csökkenése

Jelenlegi munka: vizsgálatok Ingroup-outgroup Saját csoport vs. másik csoport (párt, párttömb) kikről és hogyan folyik a diskurzus Időbeli trendek Választási időszakok, választások Korreláció közvélemény-kutatások eredményeivel Vizualizációs felület (OntoText) Sentiment, entitások, kulcsszavak Grafikonok, táblázatok, együtt-előfordulási mátrixok, térkép Topikfelhők Open Data Eszközök egy része szabadon hozzáférhető lesz (github) Adatbázis (2013-2014, 1.9M komment+annotációk): szabadon hozzáférhető! Elemző partnereket szívesen látunk!

Köszönöm a figyelmet! 23