Szövegbányászat. Pancza Judit SPSS Nyári Iskola

Hasonló dokumentumok
AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Önálló labor feladatkiírásaim tavasz

Projektvezetői döntések támogatása webbányászattal

Gyors sikerek adatbányászati módszerekkel

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

A webanalitika változó világa 4 felvonásban

Beszédfelismerés. mit jelent, hogyan működik, kinek éri meg. Tibor Fegyó SpeechTex Kft.

Takács Gábor mérnök informatikus, okl. mérnöktanár

Gyors sikerek adatbányászati módszerekkel

A korszerű infokommunikációs technológia (IKT) alkalmazásával csak kis mértékben javíthatjuk az emberi agy információ tároló és feldolgozó képességét.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

ACTA CAROLUS ROBERTUS

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Jelentésváltozás nélküli interkulturális üzenetváltások a neten

Az Indecs rendszer. Kockázat- és követeléskezelés nagyvállalati környezetben

A 2015/2016. évi influenza szezon összefoglaló értékelése

OSINT. Avagy az internet egy hacker szemszögéből

Innovatív trendek a BI területén

Költségmegtakarítás járatoptimalizálással. Lukács Lajos Ügyvezető DSS Consulting Kft.

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

A kibontakozó új hajtóerő a mesterséges intelligencia

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

Gépi tanulás a gyakorlatban. Bevezetés

Vállalkozók és Munkáltatók Országos Szövetsége (VOSZ)

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

EESztori. copyright infomix Kft.

Ropogós - Oracle BI EE 12C

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Stratégiai és üzleti döntéstámogatás közösségi médiaelemzéssel

1.BEVEZETÉS. Subecz Zoltán 1. Információkinyerés természetes nyelvű szövegekből

Hogyan teremtsünk értéket strukturálatlan adatokból?

BISNODE PARTNERRADAR. Segítségével könnyen, egyszerűen leszűrheti célcsoportját és a kapott listát Excelbe is kimentheti.

Asztmatérképet rajzolnak

Parlagfű Információs Rendszer ismertetése. Egy országos komplex GIS megoldás

AZ IGAZI BIG DATA hogyan használják a világban és egyáltalán használják-e hazánkban?

Így kampányolunk mi. Hans Zoltán. Szolgáltatás Fejlesztés és Online Irányítás vezető. IBM-SPSS üzleti reggeli (Budapest)

Kétféle ismeret van: magunk rendelkezünk a szükséges információval, vagy tudjuk, hogy az hol lelhető fel. Samuel Johnson

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

REPÜLÉSMETEOROLÓGIAI KLÍMA ADATOK FELHASZNÁLÁSÁNAK LEHETSÉGES ASPEKTUSAI PILÓTA NÉLKÜLI REPÜLŐESZKÖZÖK (UAV-K) METEOROLÓGIAI TÁMOGATÁSÁBAN

Az IDRISI szoftver fejlesztésének új eredményei. Az IDRISI Taiga eszköztára: Új fejlesztések. Image Processing: Szegmentálás SEGMENTATION

A szövegbányászat a számítástudomány szöveges elektronikus dokumentumok feldolgozásával és elemzésével foglalkozó szakterülete. Az internet korának

A MUNKÁÉRT PROJEKT TÁMOP C-13/

Felsőoktatás nemzetközi fejlesztéséért díj

CRM fentről és lentről

Új típusú adatforrások és technológiák a területi vizsgálatokban. Hornyák Miklós tanársegéd PTE KTK KMI

Big Data az adattárházban

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Önálló labor feladatkiírásaim tavasz

Tartalomjegyzék

Smart City, okos város - a jövőnk kulcsa konferencia április 13. Budapest. Nagy András PhD téradat-elemzési szakértő Lechner Nonprofit Kft.

A minőségirányítási rendszer auditálása laboratóriumunkban. Nagy Erzsébet Budai Irgalmasrendi Kórház Központi Laboratórium

Virtuális Obszervatórium. Gombos Gergő

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting

OpenOffice.org mint fejlesztési platform

ELEMZŐ KAPACITÁS FEJLESZTÉSE, MÓDSZERTANI FEJLESZTÉS MEGVALÓSÍTÁSA

Bodó / Csató / Gaskó / Sulyok / Simon október 9. Matematika és Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár

ADATBÁNYÁSZATI SZOFTVER HASZNÁLATA SZÖVEGOSZTÁLYOZÁSHOZ DATA MINING SOFTWARE FOR TEXT CLASSIFICATION

ONLINE JELENTKEZÉSI LAP KIVONATA

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ. Általános asszisztens szakképesítés Diagnosztizálás - monitorozás- előkészítés modul. 1.

Mennyit ér meg a szervezetnek a gyors, precíz, pontos információ?

Egészségügyi informatika tesztkérdések

Használati útmutató Az online példatárhoz

A mai problémákra mai megoldások kellenek.

SDL Trados szervermegoldások. Szekeres Csaba SDL Trados partner M-Prospect Kft.

Óvoda hosszú bélyegzője ÓVODAI CSOPORTNAPLÓ csoport részére

E-Páciens A jövő betege? Kiss Péter és Szalczgruber Miklós ügyvezető Mediator Pro Kft

HOGYAN JELEZHETŐ ELŐRE A

Data Science & Clementine

Operációkutatási modellek

Mesterséges Intelligencia Elektronikus Almanach. Konzorciumi partnerek

Az adatvagyon fogalma Adatok kezelésének jogi keretei Adatvagyon építése Adatvagyon használata, publikálása Adatok vizualizációja Előrejelzés

Tudásalapú információ integráció

18. századi folyóiratok komplex feldolgozása a Debreceni Egyetemen

InCites bemutató. Tóth Szász Enikő Solution Specialist

NEMSOKÁRA OTTHONÁBAN? A MESTERSÉGES INTELLIGENCIA ÉRZÉKELÉSE A MINDENNAPOKBAN

Tartalom. Előszó feladat: Fordítás a megszokott eszközökkel A számítógép hatékony használatáról... 18

ÉVES JELENTÉS Életminőséget Javító Gyógyszerek és Gyógyító Eljárások Fejlesztése

Internet-hőmérő alapkészlet

A VEKTORTÉR MODEL HASZNÁLATA A SZÖVEGBÁNYÁSZATBAN THE USAGE OF THE VECTOR-SPACE MODEL IN TEXT MINING

VIZSGAREND Web-programozó szakképesítés zé e ze s a munk rű ors K

A tananyag beosztása, informatika, szakközépiskola, 9. évfolyam 36

Vezetői összefoglaló a Veleszületett Rendellenességek Országos Nyilvántartása (VRONY) évi adataiból készült jelentésről

Internethasználat pszichés hatása

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

A FM Közép-magyarországi Agrár-szakképző Központ Bercsényi Miklós Élelmiszeripari Szakképző Iskola és Kollégium. meghirdeti a 2015/2016.

Fekete Csaba Csongor Üzleti intelligencia vezető Citibank ZRt.

Engedélyszám: /2011-EAHUF Verziószám: 1.

API tervezése mobil környezetbe. gyakorlat

Az önkéntes egészségpénztárak prevenciós szerepe az OEP szolgáltatási kiadásainak csökkentésében

FIGYELEM! Ez a kérdőív az adatszolgáltatás teljesítésére nem alkalmas, csak tájékoztatóul szolgál!

Dr. Kóti Tamás, Soós Mányoki Ildikó, Dr. Daróczi János

IRÁNYTŰ 2016 A TURIZMUS TREND KOMMUNIKÁCIÓS VERSENYE VERSENYKIÍRÁS

iránytű 2016 A turizmus Trend kommunikációs versenye Versenykiírás

Adatkezelési tájékoztató


VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Adattárház tiszta alapokon Oracle Day, Budapest, november 8.

A VÁLLALKOZÓK ÉS MUNKÁLTATÓK ORSZÁGOS SZÖVETSÉGE (VOSZ)

A SEO szerepe egy híroldal életében BUBLIK MÁTÉ

Átírás:

Szövegbányászat Pancza Judit SPSS Nyári Iskola 2019. 07. 08.

SPSS Nyári Iskola 2019.07.08-12. Veszprém 2

SZÖVEGBÁNYÁSZAT, SZÖVEGANALITIKA Lehetővé teszi strukturálatlan, szöveges adatok feldolgozását, a szövegben kapcsolatok, trendek azonosítását. Források Belső dokumentumok (szerződések, feljegyzések, jelentések, összefoglalók, stb.) Webes adatok (blogok, fórumok, hírek, stb.) Audió (hívások, megbeszélések felvételei) A vállalatoknál, szervezeteknél fellelhető adatok közel 80%-a strukturálatlan állományok formájában áll rendelkezésre. 3

CLEMENTINE 2007-től saját magyar nyelvű szöveganalitika, magyar nyelvű NLP eszköz Demok, pilotok, projektek a szöveganalitikára Népítélet, Hírelemzés, Online véleményelemzés 2009-től hangalapú szöveganalitika Fő referenciáink: 2009: AEGON Magyarország 2013: OTP 2014: Uniqa, Audi 2015: UPC, PE, TEK 2016: bűnüldöző szervezetek 2017: Vodafone, titkosszolgálatok 2018-19: K&H, Fókusz Takarék, bűnüldözés Saját megoldások hangbányászat auto email feldolgozás OSINT virtuális asszisztens

MIRŐL LESZ SZÓ? Szövegbányászatról általában Érdekes projektek, tapasztalatok 5

Szövegbányászatról általában 6

NLP NLP = Natural Language Processing Beszédfelismerés Beszédszintézis Gépi fordítás NLG Keresés Szövegbányászat

ADAT VS. SZÖVEG numerikus, kategorikus szabad formátumú, szöveges strukturált, adatbázisban tárolt tetszőlegesen tárolt dokumentumhalmaz összefüggések feltárása, prediktív modellek információkinyerés, osztályozás, csoportosítás statisztikai modellek, döntési fák, neurális hálók, idősorok, stb. számítógépes nyelvi eszközök, gépi tanulók, szótárak 8

WATSON - 2011

GOOGLE - 2018 10

MAGYAR NYELVI SPECIFIKUMOK Agglutináló nyelv (utóragozás) lemmatizálás Szabad szórend Karakterkódolás (hosszú ékezetek) 11

A SZÖVEGBÁNYÁSZAT ÁLTALÁNOS MODELLJE (TIKK, 2007) Adat gyűjtés Előkészítés Szövegbányászati eljárások Értékelés Alkalmazás tudás

ELŐKÉSZÍTÉS 1. Felbontás strukturális szegmentálás mondatokra bontás tokenizálás 2. Szőtövezés: stemmelés, lemmatizálás 3. Szófaj meghatározás (POS tagging) 4. Stopszó szűrés 13

SZÖVEGANALITIKAI ESZKÖZÖK Elemzés, feldolgozás Programnyelvek: Python (NLTK) R (tm) Perl, Ruby: szövegkezelés Eszközök: SPSS Modeler (Premium) GATE Rapidminer SAS Text Miner Magyarlánc E-magyar Nyers szöveg: Szófelhő Link Analysis Eredmények: Kapcsolatháló Klasszikus vizualizációs eszközök Vizualizáció

ALKALMAZÁSI TERÜLETEK Ügyfélszolgálat hangbányászat routing email és hang chatbot, virtuális asszisztens Bűnüldözés entitásfelismerés kapcsolatok azonosítása Egészségügy, gyógyszerkutatás Web, sentiment elemzés 16

Érdekes szöveganalitikai alkalmazások - OSINT

KAPCSOLAT FELTÁRÁS = OSINT Az OSINT olyan információgyűjtő eljárás, amely során a nyilvánosan elérhető forrásokból az információkat felkutatják, elemzik, értékelik és felhasználják egy adott cél elérése érdekében. (NATO 2001) 18

ÚJ MEGKÖZELÍTÉS Szöveganalitikai megközelítéssel: KERESÉS SZÖVEG ANALITIKA ENTITÁS TÁR HÁLÓZAT ELEMZÉS Hagyományos módon cikkek, blogok céginfó facebook.. Automata feldolgozás entitások kapcsolatok azonosítása Kapcsolat korábbi ügyekkel Kapcsolatháló vizualizáció és elemzés 19

HOGYAN? Jelentés (minta részlet) ügynöki források azt gyanítják, hogy a Bögre Béla (Kaposvár, 1971.03.20., anyja neve: Nagy Veronika) otthonát (Kaposvár 7400 Erzsébet utca 55. 2/3.), drogelosztó pontként használja. Mivel úgy tűnik, hogy a résztvevők egyszerű és feltűnésmentes életvitelt folytatnak, a jelek arra mutatnak, hogy a művelet célja nem az, hogy a szervezet tagjai személyes profithoz jussanak [ ] Bögre Béla rendszeresen szokott találkozni egy Hashemi nevű személlyel, akinek telefonszáma: 06-20-547-8213, rendszáma: DVD123

HOGYAN? Jelentés (minta részlet) ügynöki források azt gyanítják, hogy a Bögre Béla (Kaposvár, 1971.03.20., anyja neve: Nagy Veronika) otthonát (Kaposvár 7400 Erzsébet utca 55. 2/3.), drogelosztó pontként használja. Mivel úgy tűnik, hogy a résztvevők egyszerű és feltűnésmentes életvitelt folytatnak, a jelek arra mutatnak, hogy a művelet célja nem az, hogy a szervezet tagjai személyes profithoz jussanak [ ] Bögre Béla rendszeresen szokott találkozni egy Hashemi nevű személlyel, akinek telefonszáma: 06-20-547-8213, rendszáma: DVD123. Bögre Béla Szül: 1971.03.20, Kaposvár An: Nagy Veronika Cím: 7400 Kaposvár, Erzsébet u. 55. Egyéb jellemző: drogelosztó Hashemi Tel: 06 20 547 8213 Rsz: DVD-123 Nagy János Becenév: Hashemi Rsz: DVD-123 Kapcsolat Egy ügyben merültek fel Rendszeresen találkozik

AUTOMATA OSINT

Érdekes szöveganalitikai alkalmazások Egészségügyi adatok elemzése

FELADAT Audi Hungaria Motor Kft Győr. - 11.000 dolgozó feletti létszám Kapcsolódó területek, ahonnan a kérdésfelvetés érkezett: Egészségmenedzsment Kiválasztás Alkalmasság vizsgálatok Üzem orvosi / foglalkozás egészségügyi szolgálat A kiindulás: 15 év egészségügyi adatai jórészt strukturálatlan formában érhetőek el, ebből kinyerhető, használható tudásra van szükség A feladat: A tárolt egészségügyi ellátások eseteihez tartozó hiányzó BNO kódok hozzárendelése Egészségügyi trendek feltárása az elmúlt 15 év adatai alapján 25

SZÖVEGANALITIKA Lehetővé teszi strukturálatlan, szöveges adatok feldolgozását, belőle strukturált információ kinyerését és így a szövegben kapcsolatok, trendek azonosítását. Mire használtuk a projektben? 1. Diagnózis, vélemény mezők létrehozása Sablon alapján írt szövegek: jelen panaszok fáj a torka Temp láztalan kp.fejlett,táplált bör, [...] megjegyzés egyéb vélemény pharyngitis ac. ma reggelre bal szeme beduzzadt, viszket, váladékozik. vélemény conjunctivis acuta th neomycines szemcsepp felírt gyógyszerek tobrex 3 mg/ml oldatos szemcsepp [..] 2. Egészségügyi szótár létrehozás a szövegek alapján 3. Adattisztítás 4. Besorolás 11

EGÉSZSÉGÜGYI SZÓTÁR Betegségcsoportok és BNO szerint épül fel Minden BNO-hoz hozzárendeltük az összes előfordult szinonimát, elírást és rövidítést Tartalma: 252 betegség 6055 szó, kifejezés 11 994 szinonima Teljes orvosi validálás pharingitis: pahringitis, phagingitis, phaingitis, phanyngitis, pharinghitis, pharingitius, pharingits, pharingytis, pharingytisth, pharinigitis, phariyngitis, pharngitis, pharyingitis, pharyngis, pharyngitis, pharyngits, pharyngytis, pharynitis, phayngitis, phayringitis, phringitis allergiás dermatitis: allerg.dermat, allergiás dermat, dermaitits allergica, dermatits allerg, dermatits.allergia, dermatitis all, dermatitis allerg 12

BEOSZTÁS SZERINT JELLEMZŐ BETEGSÉGCSOPORTOK Direkt dolgozók: Szív- és érrendszeri megbetegedések Inirekt dolgozók: Urogenitális és Légzőrendszeri Kor és nemi különbségek: Direkt idősebb Indirekt több nő 24

BETEGSÉGCSOPORTOK ORVOSHOZ JÁRÁSI GYAKORISÁG ALAPJÁN Az orvoshoz járás gyakorisága jellemző a betegségcsoportra és a beteg korára is Vegyes Légzőrendszeri Urogenitális Szív- és érrendszeri A legfiatalabbak keresik fel legritkábban az orvost Inkább fiatalokra jellemző, akik kevesebbet járnak orvoshoz Sok eset a fogamzásgátló felíratás (3 hó-ra írják fel) Vérnyomás gyógyszerek felíratása, vérnyomás mérések nagy számban 25

Érdekes szöveganalitikai alkalmazások - Virtuális asszisztensek

MEGVALÓSÍTÁSI PÉLDA: MACSKÁK

AVATAR - GÉPI INTELLIGENCIA A VÁLLALATI HITELEZÉSBEN Szöveganalitikán alapuló aktív fórumtag - Kérdez és értelmezi a választ Avatar Fáradhatatlan Objektív, konzisztens Előítéletmentes Aktív fórumtag

AZ AVATAR MŰKÖDÉSÉNEK FOLYAMATA 1. Hosszú tartalom elemzése 2. Kérdésre adott rövid válaszok elemzése Cég1 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 1 1 1 2 1 3 1 1 2 2 1 4 = 9 pont Bizonytalan T6 - A tulajdonosnak van másik olyan cége ( ), melynek az elmúlt 5 évben volt durva negatív eseménye (felszámolás, végelszámolás, csődeljárás). Ez nem kockázatos számunkra? T3 - A Fókusz kizárólagos számlavezető lesz-e pozitív hitelelbírálás esetén? T7 - Az előző évi mérleg adatok szerint az összes kötelezettség több mint 80%-a a cég mérlegfőösszegének. Miért ilyen magas az eladósodottság?

Kérdések? 57