Hogyan teremtsünk értéket strukturálatlan adatokból? Nemeth.Zoltan@iqpp.hu
Strukturálatlan adat A Merill Lynch becslése szerint az összes üzleti információ több mint 85%-a strukturálatlan adatok formájában létezik: Belső : elektronikus levelek, emlékeztetők, jegyzőkönyvek, feljegyzések, ügyfélszolgálati válaszok, elektronikus hírek, jelentések, kimutatások, felmérések, munkaanyagok, termékleírások, felhasználói és üzemeltetői kézikönyvek, tenderkiírások, pályázatok, ajánlatok, kutatási és marketing anyagok, prezentációk, intranet és internetoldalak stb. Külső: felügyeleti-, konkurencia-, ügyfél-, partner weboldalak, feketelisták, Facebook, Twitter, Fórum bejegyzések, hírportálok, előfizethető adatbázisok, KSH adatok stb. Az Interneten lévő információ 99%-a szabad formátumú szöveg formájában található meg.
Információk problémás projektekről Strukturált (BI) Kalkulációs lap -terv- tény eltérés: Árbevétel, Költségek, Munkaidő Aktuális / projektvégi várható Költségkategória bontás Taszk bontás (?) Alvállalkozó bontás Projekttag bontás Határidő eltérések Strukturálatlan Kockázatlista Stakeholder kihatás Projektterv kidolgozottság Sikerkritériumok Szerződés kötbér információk Ajánlat-követelmény-teszt eltérés Szemlék eredménye Követelmény kidolgozottság Rendszerterv kidolgozottság Strukturálás
s3-ceg_dw2g01 S3-ceg_dw2g01 kódú projekt Projektprofil Státusz PROJEKT ALAPAATOK: A projekt célkitűzése: Egy új levelezőprogram készítése a vezérigazgató számára A projekt kezdete: 2010. 05.04. A projekt vége: 2011.02.24. KÖLTSÉGEK, RÁFORÍTÁSOK: Költségkalkulációs lap Költségek alakulása: Résztvevők Projektvezető Péter Architekt András Szoftverfejlesztő Szilvia Szoftverfejlesztő Szilárd Projekt előrehaladás Társszervezetek Budapesti Műszaki Egyetem Ügyfelek ABC Kft. EF Zrt. GHI Kft. OKUMENTUMOK: A projekt tervezésére szolgáló dokumentumok A projekthez tartozó szerződés és ajánlat Adminisztrációs dokumentumok: Emlékeztetők Feljegyzések Levelek Státuszriportok Bizonylatok Átadás-átvételi jegyzőkönyvek Időelszámolás Teljesítési igazolások Minőségbiztosítási dokumentumok Ügyféltől kapott dokumentumok Ügyfélnek átadott dokumentumok Egyéb munkaanyagok JELENTÉSEK: Heti jelentések Havi jelentések Kontrolling jelentések HASONLÓ PROJEKTEK: s3-ceg_dw2g02 s3-ceg_dw2g03 s3-ceg_dw2g04 KÉRÉSEK, PROBLÉMÁK: Eszközhiány: 2010.09.12. Szerződésmódosulás: 2010.07.26. Tevékenységek felosztása Projekthez szükséges ismeretek
Cégprofil felület
Strukturálatlan adatokból való értékteremtés
imenzió (ügyfél, projekt, szervezet) Információ szegmens (hír, CV, PI rendszerterv, határozat, kérelem) Szöveg értelmezés Értékteremtés szintjei Parszoló nyelvtan Mondat értelmezés Kivonatkészítés Kézi kategorizálás: metázás Automatikus: szabályok, szótárak Speciális: hangulat Szegmentálás profilozás Tárgyszó Kategória Tezaurusz Adhoc Keresés W töltés Törzsadat kezelés Statisztika TextMining Hírlevél Általános lista Speciális: telefonkönyv, film
Adatmodell BI - csillagséma Strukturálatlan - index Fogalom tár T Invert index oku-tár 5-300 db dimenzió (hosszú rekord) 2-10 db ténytábla (rövid rekord) Ténytábla = 1 millió --- 100millió 1 db dimenzió (500.000 db fogalom) 1 db ténytábla Index tábla = nem Relációs
Adatmodell BI - csillagséma Strukturálatlan - logikai Fogalom (Y/N) Fogalom (Y/N) T oku-tár Fogalom (Y/N) Kategória (Y/N) 5-300 db dimenzió (hosszú rekord) 2-10 db ténytábla (rövid rekord) 500.000 db fogalom 1 db ténytábla Ténytábla = 1 millió --- 100millió
Adatmodell BI - csillagséma Strukturálatlan - mining Tárgyszó T 5-300 db dimenzió (hosszú rekord) 2-10 db ténytábla (rövid rekord) Asszociáció oku-tár Ténytábla = 1 millió --- 100millió
Jövő BI architektúrája W Riport Analízis ETL StructW OLAP Mining Törzsadat ashboard Index TextW Meta??? Kereső felület AVISE mint platform
Mi van kész az Advise-ban? - okumentum-fogalom gyűjtés, tisztítás - Tárgyszó, kategória, osztályzás - Profilozás (prog.) - Törzsadat építés - Törzsadat-> infoszegmens építés - Szövegből strukturált adat kinyerés (prog.) - Szabály-nyelvtan, amivel megtalálható az információ - Mondatértelmezés - Kivonatolás
Szöveges adatok kiaknázása most kezdődik Textmining csak egy részét fedi le az igényeknek. Szöveges adatok kategorizálása, osztályzása, tárgyszavazása megoldott Összefoglaló Nagyon hiányzik egy strukturáló + lekérdező felület. Programozottan már részint megoldjuk Mondat értelmezés hiányzik