Szövegbányászat Pancza Judit SPSS Nyári Iskola 2019. 07. 08.
SPSS Nyári Iskola 2019.07.08-12. Veszprém 2
SZÖVEGBÁNYÁSZAT, SZÖVEGANALITIKA Lehetővé teszi strukturálatlan, szöveges adatok feldolgozását, a szövegben kapcsolatok, trendek azonosítását. Források Belső dokumentumok (szerződések, feljegyzések, jelentések, összefoglalók, stb.) Webes adatok (blogok, fórumok, hírek, stb.) Audió (hívások, megbeszélések felvételei) A vállalatoknál, szervezeteknél fellelhető adatok közel 80%-a strukturálatlan állományok formájában áll rendelkezésre. 3
CLEMENTINE 2007-től saját magyar nyelvű szöveganalitika, magyar nyelvű NLP eszköz Demok, pilotok, projektek a szöveganalitikára Népítélet, Hírelemzés, Online véleményelemzés 2009-től hangalapú szöveganalitika Fő referenciáink: 2009: AEGON Magyarország 2013: OTP 2014: Uniqa, Audi 2015: UPC, PE, TEK 2016: bűnüldöző szervezetek 2017: Vodafone, titkosszolgálatok 2018-19: K&H, Fókusz Takarék, bűnüldözés Saját megoldások hangbányászat auto email feldolgozás OSINT virtuális asszisztens
MIRŐL LESZ SZÓ? Szövegbányászatról általában Érdekes projektek, tapasztalatok 5
Szövegbányászatról általában 6
NLP NLP = Natural Language Processing Beszédfelismerés Beszédszintézis Gépi fordítás NLG Keresés Szövegbányászat
ADAT VS. SZÖVEG numerikus, kategorikus szabad formátumú, szöveges strukturált, adatbázisban tárolt tetszőlegesen tárolt dokumentumhalmaz összefüggések feltárása, prediktív modellek információkinyerés, osztályozás, csoportosítás statisztikai modellek, döntési fák, neurális hálók, idősorok, stb. számítógépes nyelvi eszközök, gépi tanulók, szótárak 8
WATSON - 2011
GOOGLE - 2018 10
MAGYAR NYELVI SPECIFIKUMOK Agglutináló nyelv (utóragozás) lemmatizálás Szabad szórend Karakterkódolás (hosszú ékezetek) 11
A SZÖVEGBÁNYÁSZAT ÁLTALÁNOS MODELLJE (TIKK, 2007) Adat gyűjtés Előkészítés Szövegbányászati eljárások Értékelés Alkalmazás tudás
ELŐKÉSZÍTÉS 1. Felbontás strukturális szegmentálás mondatokra bontás tokenizálás 2. Szőtövezés: stemmelés, lemmatizálás 3. Szófaj meghatározás (POS tagging) 4. Stopszó szűrés 13
SZÖVEGANALITIKAI ESZKÖZÖK Elemzés, feldolgozás Programnyelvek: Python (NLTK) R (tm) Perl, Ruby: szövegkezelés Eszközök: SPSS Modeler (Premium) GATE Rapidminer SAS Text Miner Magyarlánc E-magyar Nyers szöveg: Szófelhő Link Analysis Eredmények: Kapcsolatháló Klasszikus vizualizációs eszközök Vizualizáció
ALKALMAZÁSI TERÜLETEK Ügyfélszolgálat hangbányászat routing email és hang chatbot, virtuális asszisztens Bűnüldözés entitásfelismerés kapcsolatok azonosítása Egészségügy, gyógyszerkutatás Web, sentiment elemzés 16
Érdekes szöveganalitikai alkalmazások - OSINT
KAPCSOLAT FELTÁRÁS = OSINT Az OSINT olyan információgyűjtő eljárás, amely során a nyilvánosan elérhető forrásokból az információkat felkutatják, elemzik, értékelik és felhasználják egy adott cél elérése érdekében. (NATO 2001) 18
ÚJ MEGKÖZELÍTÉS Szöveganalitikai megközelítéssel: KERESÉS SZÖVEG ANALITIKA ENTITÁS TÁR HÁLÓZAT ELEMZÉS Hagyományos módon cikkek, blogok céginfó facebook.. Automata feldolgozás entitások kapcsolatok azonosítása Kapcsolat korábbi ügyekkel Kapcsolatháló vizualizáció és elemzés 19
HOGYAN? Jelentés (minta részlet) ügynöki források azt gyanítják, hogy a Bögre Béla (Kaposvár, 1971.03.20., anyja neve: Nagy Veronika) otthonát (Kaposvár 7400 Erzsébet utca 55. 2/3.), drogelosztó pontként használja. Mivel úgy tűnik, hogy a résztvevők egyszerű és feltűnésmentes életvitelt folytatnak, a jelek arra mutatnak, hogy a művelet célja nem az, hogy a szervezet tagjai személyes profithoz jussanak [ ] Bögre Béla rendszeresen szokott találkozni egy Hashemi nevű személlyel, akinek telefonszáma: 06-20-547-8213, rendszáma: DVD123
HOGYAN? Jelentés (minta részlet) ügynöki források azt gyanítják, hogy a Bögre Béla (Kaposvár, 1971.03.20., anyja neve: Nagy Veronika) otthonát (Kaposvár 7400 Erzsébet utca 55. 2/3.), drogelosztó pontként használja. Mivel úgy tűnik, hogy a résztvevők egyszerű és feltűnésmentes életvitelt folytatnak, a jelek arra mutatnak, hogy a művelet célja nem az, hogy a szervezet tagjai személyes profithoz jussanak [ ] Bögre Béla rendszeresen szokott találkozni egy Hashemi nevű személlyel, akinek telefonszáma: 06-20-547-8213, rendszáma: DVD123. Bögre Béla Szül: 1971.03.20, Kaposvár An: Nagy Veronika Cím: 7400 Kaposvár, Erzsébet u. 55. Egyéb jellemző: drogelosztó Hashemi Tel: 06 20 547 8213 Rsz: DVD-123 Nagy János Becenév: Hashemi Rsz: DVD-123 Kapcsolat Egy ügyben merültek fel Rendszeresen találkozik
AUTOMATA OSINT
Érdekes szöveganalitikai alkalmazások Egészségügyi adatok elemzése
FELADAT Audi Hungaria Motor Kft Győr. - 11.000 dolgozó feletti létszám Kapcsolódó területek, ahonnan a kérdésfelvetés érkezett: Egészségmenedzsment Kiválasztás Alkalmasság vizsgálatok Üzem orvosi / foglalkozás egészségügyi szolgálat A kiindulás: 15 év egészségügyi adatai jórészt strukturálatlan formában érhetőek el, ebből kinyerhető, használható tudásra van szükség A feladat: A tárolt egészségügyi ellátások eseteihez tartozó hiányzó BNO kódok hozzárendelése Egészségügyi trendek feltárása az elmúlt 15 év adatai alapján 25
SZÖVEGANALITIKA Lehetővé teszi strukturálatlan, szöveges adatok feldolgozását, belőle strukturált információ kinyerését és így a szövegben kapcsolatok, trendek azonosítását. Mire használtuk a projektben? 1. Diagnózis, vélemény mezők létrehozása Sablon alapján írt szövegek: jelen panaszok fáj a torka Temp láztalan kp.fejlett,táplált bör, [...] megjegyzés egyéb vélemény pharyngitis ac. ma reggelre bal szeme beduzzadt, viszket, váladékozik. vélemény conjunctivis acuta th neomycines szemcsepp felírt gyógyszerek tobrex 3 mg/ml oldatos szemcsepp [..] 2. Egészségügyi szótár létrehozás a szövegek alapján 3. Adattisztítás 4. Besorolás 11
EGÉSZSÉGÜGYI SZÓTÁR Betegségcsoportok és BNO szerint épül fel Minden BNO-hoz hozzárendeltük az összes előfordult szinonimát, elírást és rövidítést Tartalma: 252 betegség 6055 szó, kifejezés 11 994 szinonima Teljes orvosi validálás pharingitis: pahringitis, phagingitis, phaingitis, phanyngitis, pharinghitis, pharingitius, pharingits, pharingytis, pharingytisth, pharinigitis, phariyngitis, pharngitis, pharyingitis, pharyngis, pharyngitis, pharyngits, pharyngytis, pharynitis, phayngitis, phayringitis, phringitis allergiás dermatitis: allerg.dermat, allergiás dermat, dermaitits allergica, dermatits allerg, dermatits.allergia, dermatitis all, dermatitis allerg 12
BEOSZTÁS SZERINT JELLEMZŐ BETEGSÉGCSOPORTOK Direkt dolgozók: Szív- és érrendszeri megbetegedések Inirekt dolgozók: Urogenitális és Légzőrendszeri Kor és nemi különbségek: Direkt idősebb Indirekt több nő 24
BETEGSÉGCSOPORTOK ORVOSHOZ JÁRÁSI GYAKORISÁG ALAPJÁN Az orvoshoz járás gyakorisága jellemző a betegségcsoportra és a beteg korára is Vegyes Légzőrendszeri Urogenitális Szív- és érrendszeri A legfiatalabbak keresik fel legritkábban az orvost Inkább fiatalokra jellemző, akik kevesebbet járnak orvoshoz Sok eset a fogamzásgátló felíratás (3 hó-ra írják fel) Vérnyomás gyógyszerek felíratása, vérnyomás mérések nagy számban 25
Érdekes szöveganalitikai alkalmazások - Virtuális asszisztensek
MEGVALÓSÍTÁSI PÉLDA: MACSKÁK
AVATAR - GÉPI INTELLIGENCIA A VÁLLALATI HITELEZÉSBEN Szöveganalitikán alapuló aktív fórumtag - Kérdez és értelmezi a választ Avatar Fáradhatatlan Objektív, konzisztens Előítéletmentes Aktív fórumtag
AZ AVATAR MŰKÖDÉSÉNEK FOLYAMATA 1. Hosszú tartalom elemzése 2. Kérdésre adott rövid válaszok elemzése Cég1 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 1 1 1 2 1 3 1 1 2 2 1 4 = 9 pont Bizonytalan T6 - A tulajdonosnak van másik olyan cége ( ), melynek az elmúlt 5 évben volt durva negatív eseménye (felszámolás, végelszámolás, csődeljárás). Ez nem kockázatos számunkra? T3 - A Fókusz kizárólagos számlavezető lesz-e pozitív hitelelbírálás esetén? T7 - Az előző évi mérleg adatok szerint az összes kötelezettség több mint 80%-a a cég mérlegfőösszegének. Miért ilyen magas az eladósodottság?
Kérdések? 57