Text Insight Discovery: From NLP to NLG @Big Data Universe, 2018.05.16. Peter Szekeres Co-founder &CEO peter.szekeres@neticle.hu 06 70 701 64 88
Story and inspiration
Text data from different sources 42
AI items
AI elements Source: Neota Logic 11
0.1 Tartalmak rendszeres küldése 12
Phase #0 Collect and sort content
0.1.1 Offline + Online + Social Media NEWS ARTICLE TUMBLR FRONT PAGE COMMENT YOUTUBE BLOG VIDEO TWITTER GOOGLE+ FORUM REVIEW FAC E B O O K + PRINT RÁDIÓ TV 14
0.1.2 Online + Social Media YOUTUBE TUMBLR VIDEO BLOG MAIL RU FRONT PAGE REVIEW TELEGRAM YANDEX REDDIT FORUM GOOGLE+ TWITTER NEWS ARTICLE COMMENT YELL.RU OK VK FAC E B O O K NUSE 15
0.2 Sending mentions, news 16
0.3 Listing 17
Phase #1 KPI-s
1.1 How many? 19
shipping technician troubleshooting
1.2 Keyword modeling Brands Products Market topics Research questions 21
1.3 Opinion index for every phrase +2 points +2 points The reason I like Coca Cola is because of it s positive message. 22
1.4..6 Negation +2 points it s not a bad deal for 33 Euros at Vodafone 23
1.7 Irony 2 pont The net was constantly slow In the last 2 days... I love you DIGI! :( 24
1.8 Domain specialization 0 points The star of Pro TV were spotted in awkward situation 25
82% human 80 93% almost human precision 26
27
Phase #2 Reasons, drill down
2.1 Recognizing topics, brands, persons, locations If you want to make a new subscription at [company name], don t do it! I ve never seen such a sneaky company in my entire life. 2 points 29
shipping technician troubleshooting
31
2.4 Example: Two main topics define the discussion about top categories AMOLED screen and the S7 EDGE On the mentiongraph of high-end devices the following two main topics are clearly visible: Mentiongraph - Samsung high-end devices 1. The reliability of the screens were highly mentioned, mainly in connection with the possible burn-in of AMOLED screens 1 2. The speed and questions concerning software optimization arised related to S7 EDGE phones. 2 The Mention Graph illustrates key topics and attributes of a specific keyword. Numbers inside of the circles demonstrate the number of mentions. The green and red circles show the most common positive and negative expressions connected to a topic. 32
2.5 EXAMPLE: Topic tree: reasons behind negative opinions in SM Párt1 negatív szavazás (2230 db) 8% lopás (1150 db) 4% ellenzék (144 db) 6% Párt2 (136 db) 6% Párt2 (136 db) 6% az ellenzéki pártok valóban nem tudják legyőzni a PÁRTt, de az ellenzéki szavazók meg tudják akadályozni az újabb kétharmadot Párok inkább hétvégére, családok és társaságok hosszabb időre utaznak belföldön mert az én szavazó körzetemben alighanem MSZP-DK jelölt az esélyes a PÁRT-essel szemben; azaz személy szerint nekem nem kell a PÁRT2-os jelöltet megfontolnom mert az én szavazó körzetemben alighanem MSZP-DK jelölt az esélyes a PÁRT-essel szemben; azaz személy szerint nekem nem kell a PÁRT2-os jelöltet megfontolnom 27393 db választás (850 db) 3% Párt3 (55 db) 5% Az PÁRT3 és a PÁRT külön párt, csak a lopás hozza össze őket ellenzék (835 db) 3% Párt3 (75 db) 9% hogy ha a PÁRT-t kellően meggyengítené egy ellenzéki össztűz a választáson, azok simán felajánlanák a koalíciót a PÁRT3-nak, és ők el is fogadnák 33
2.6 Reasons 34
2.7 Reasons 35
2.8 Reasons 36
Phase #3 AI supported automated insight generation
3.1 Ask with own words Parameter Phrase mapping Multilang phrase mapping Predefined questions Multilang Adding variable values 38
3.2 Insight engine that works instead of us 39
3.2 Insight engine that works instead of us High mention number Reputation rise Reputation fall Autodiagnosis Engine NLG Trending topic JSON JSON Trending author Event 40
3.3 Automated insight and chart description -> full convenience Any unusual change? (pattern recognition, supervised learning, text analysis, sentiment analysis) What is the root cause? (automated drill down, information extraction, interaction interpretation, NLG) How significant is the change? (trend analysis, categorization) Next steps? (knowledge base, information gathering) Report about insights in English language from Bulgarian data? (automated machine translation, NLG) 41
42
www.neticle.com /neticle @neticle_hu mitgondolaweb.blog.hu Neticle Technologies Péter Szekeres peter.szekeres@neticle.hu +36 70 701 64 88 CEO