Bánsághi Anna anna.bansaghi@mamikon.net. Bánsághi Anna 1 of 70



Hasonló dokumentumok
Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Gazdasági informatika alapjai

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Big Data az adattárházban

Vezetői információs rendszerek

Történet John Little (1970) (Management Science cikk)

Gépi tanulás a gyakorlatban. Bevezetés

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor

Projektvezetői döntések támogatása webbányászattal

Tudásalapú információ integráció

Sikerünk kulcsa: az információ De honnan lesz adatunk? Palaczk Péter

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Adatbázisrendszerek április 17.

Több mint BI (Adatból üzleti információ)

Adatmodellezés. 1. Fogalmi modell

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Hogyan teremtsünk értéket strukturálatlan adatokból?

{simplecaddy code=1004}

Kvantitatív módszerek

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Adatmodellezés, alapfogalmak. Vassányi István

Az üzleti intelligencia megoldások helye és szerepe a magyar vállalatok életében. Dr. Kovács László Dr. Sasvári Péter Miskolci Egyetem

Dr. Sasvári Péter Egyetemi docens

Big Data technológiai megoldások fejlesztése közvetlen mezőgazdasági tevékenységekhez

DW 9. előadás DW tervezése, DW-projekt

Intelligens adatelemzés

Az információs rendszerek funkcionális változásai a kis és középvállalkozások szemszögéből. DE ATC AVK Gazdasági- és Agrárinformatikai Tanszék

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Adattárház tiszta alapokon Oracle Day, Budapest, november 8.

Számítógépes döntéstámogatás. Bevezetés és tematika

Informatikai alapismeretek Földtudományi BSC számára

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Az értékelés során következtetést fogalmazhatunk meg a

Adattárház kialakítása a Szövetkezet Integrációban, UML eszközökkel. Németh Rajmund Vezető BI Szakértő március 28.

Component Soft és tovább

Kővári Attila, BI projekt

Takács Gábor mérnök informatikus, okl. mérnöktanár

ADATTÁRHÁZ HATÉKONYSÁGNÖVELÉS, REDUNDANCIA CSÖKKENTÉS Frunza Zsolt ÜZLETI INTELLIGENCIA A JÖVŐ, AHOGY MI LÁTJUK

30 MB INFORMATIKAI PROJEKTELLENŐR

Microsoft SQL Server telepítése

Hálózati elemzések az üzleti életben. Kovács Gyula Sixtep Kft.

Innovatív trendek a BI területén

- Adat, információ, tudás definíciói, összefüggéseik reprezentációtípusok Részletesebben a téma az AI alapjai című tárgyban

Gáspár Bencéné Vér Katalin *

Vezetői információs rendszerek

Analitikus adatfeldolgozás. Adattárház Adatkocka Adatbányászat

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Informatika tanterv nyelvi előkészítő osztály heti 2 óra

Hogyan lesz adatbányából aranybánya?

Az egységes tartalomkezelés üzleti előnyei

Geoinformatikai rendszerek

A vállalkozás sikerének tényezi. Termék, szolgáltatás Erforrások Információtechnológia

VIR alapfogalmai. Előadásvázlat. dr. Kovács László

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Alkalmazott Informatikai Tanszék. Dr. Kulcsár Gyula egyetemi docens

Az ellátásilánc-menedzsment, és informatikai háttere. BGF PSZK Közgazdasági Informatikai Intézeti Tanszék Balázs Ildikó, Dr.

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

I. RÉSZ. Tartalom. Köszönetnyilvánítás...13 Bevezetés...15

10. HÉT: ADATTÁRHÁZAK ÉS ÜZLETI INTELLIGENCIA

ADATTÁRHÁZ MENEDZSMENT ÉS METAADAT KEZELÉS

Téradatokkal kapcsolatos elemzések és fejlesztések a FÖMI Térinformatikai Igazgatóságán

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Adatbázis-kezelés. alapfogalmak

Data Vault adatmodellezés.

Big Data az ellenőrzésben: Kihívás vagy lehetőség?

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Tájékoztató. Használható segédeszköz: -

Magas szintű adatmodellek Egyed/kapcsolat modell I.

A Jövő Internet Nemzeti Kutatási Program bemutatása

április 24. INFO Savaria április 24. INFO Savaria április 24. INFO Savaria

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t

ADATBÁZIS-KEZELÉS. Relációs modell

Szemléletmód váltás a banki BI projekteken

1. gyakorlat. Mesterséges Intelligencia 2.

A webanalitika változó világa 4 felvonásban

INFORMATIKA ÁGAZATI ALKALMAZÁSAI. Az Agrármérnöki MSc szak tananyagfejlesztése TÁMOP /1/A

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Informatikai Intézet Alkalmazott Informatikai Tanszék

Rostás Sándor szds. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.)

Gyors sikerek adatbányászati módszerekkel

Intelligens partner rendszer virtuális kórházi osztály megvalósításához

Dokumentumok Information kezelése? Management Információ - management. Professzionális dokumentumkezelés hiteles másolat készítés. Offisys Kft.

Informatikai rendszerek fejlesztése

Multimédiás adatbázisok

A szak specializációi

Valós idejű megoldások: Realtime ODS és Database In-Memory tapasztalatok

Mesterséges Intelligencia Elektronikus Almanach. Konzorciumi partnerek

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Adatbázismodellek. 1. ábra Hierarchikus modell

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Parametrikus tervezés

Integrációs mellékhatások és gyógymódok a felhőben. Géczy Viktor Üzletfejlesztési igazgató

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Papp Attila. BI - mindenkinek

Gépi tanulás és Mintafelismerés

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Egy Erlang refaktor lépés: Függvényparaméterek összevonása tuple-ba

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:

Átírás:

SZOFTVERTECHNOLÓGIA Bánsághi Anna anna.bansaghi@mamikon.net 7. ELŐADÁS - RENDSZERTERVEZÉS 3 Bánsághi Anna 1 of 70

TEMATIKA I. SZOFTVERTECHNOLÓGIA ALTERÜLETEI II. KÖVETELMÉNY MENEDZSMENT III. RENDSZERMODELLEK IV. RENDSZERARCHITEKTÚRÁK V. RENDSZERTERVEZÉS VI. VALIDÁCIÓ, VERIFIKÁCIÓ VII. MINŐSÉGBIZTOSÍTÁS VIII. TESZTELÉS Bánsághi Anna 2 of 70

V. RENDSZERTERVEZÉS 1. Valós idejű rendszerek 2. Objektumorientált tervezés 3. Tervezés újrafelhasználással 4. Adatorientált rendszerek Bánsághi Anna 3 of 70

4. ADATBÁNYÁSZAT az adatbázisokban végzett tudásfeltárás, a nagy adathalmazokban rejlő alakzatok feltárására szolgáló módszerek összessége multidiszciplináris tudomány, támaszkodik magára az adatbázis technológiára, de ezen felül a mesterséges intelligencia, a gépi tanulás, a neurális hálók, az alakfelismerés, a nagy teljesítményű számítások és a vizuális adatmegjelenítés területeire Bánsághi Anna 4 of 70

ADATBÁNYÁSZATI FELADATOK leíró adatbányászat a tárolt adatok általános jellemzőinek feltárása, tömör és összegző leírása előrejelző adatbányászat meglévő adatokból prognosztizál, az adatok újonnan felfedezett tulajdonságaira épülő új adatmodelleket hoz létre Bánsághi Anna 5 of 70

ADATBÁNYÁSZAT MOTIVÁCIÓJA gyorsuló ütemben növekedő adatmennyiség üzleti igény az adatokban rejlő információk kinyerésére definíció döntéstámogatási folyamat, amely érvényes, hasznos, rejtett (korábban nem ismert) információt állít elő nagy mennyiségű jellemzően adatbázisokban tárolt adatból automatizálható folyamat, tehát emberi erőforrás igénye alacsony és gyorsan generálhatók az információk Bánsághi Anna 6 of 70

DEFINÍCIÓ ELEMEI folyamat nem dobozos termék, hanem átfogó tudást igényel az alkalmazása is érvényes pontosság, statisztikai szignifikancia, teljesség hasznos adjon új, értékes ismereteket gyakran nehéz az üzleti értéket meghatározni rejtett (előzőleg nem ismert) hipotézis megerősítése vs. új felfedezése előrejelző vs. leíró adatbányászat Bánsághi Anna 7 of 70

HONNAN JÖN A SOK ADAT? életünk szinte minden rezdülése adatként le van tárolva valahol személyes vásárlás, internet- és mobilhasználat, egészségi adatok, közlekedés (GPS) szervezeti működés termelő rendszerek, kutatás, fejlesztés, szervezeti Bánsághi Anna 8 of 70

HOL TÁROLÓDIK A SOK ADAT? tradicionális relációs adatbázisban már csak az adatok kb. 20%-át tárolják új technológiák jelentek meg NoSQL dokumentum (XML), gráf, kulcs-érték párok tárolása Hadoop elosztott számítású és elosztott tárolású rendszerek Bánsághi Anna 9 of 70

MILYEN SZERKEZETŰEK AZ ADATOK? struktúrált struktúráltalan relációs adatbázisbeli adatok szöveg, audio, video Bánsághi Anna 10 of 70

ADATTÍPUSOK tranzakciós adatbázisok analitikus adatbázisok térinformatikai adatok idősor és temporális adatok szöveges és multimédia adatok internet Bánsághi Anna 11 of 70

ALKALMAZÁSI TERÜLETEK pénzügyi szektor tudomány / egészségügy gyártástechnológia közlekedés jog telekommunikáció energiaipar Bánsághi Anna 12 of 70

PÉNZÜGYI SZEKTOR vásárlói kosár elemzés hitelképesség-elemzés bankkártya bűncselekmények ügyfélszegmentáció ügyfélérték számítás lojalitás vizsgálat keresztértékesítés kampánymenedzsment Bánsághi Anna 13 of 70

TUDOMÁNY / EGÉSZSÉGÜGY kutatási eredmények kiértékelése képek osztályozása új kapcsolatok keresése tényadatokból korreláció elemzés (hipotézis és tényleges mérések között) gyógyszerforgalmi előrejelzések betegségek és fizikai megfigyelések korrelációvizsgálata kórházi monitorozó rendszerek Bánsághi Anna 14 of 70

TELEKOMMUNIKÁCIÓ / ENERGIASZEKTOR lemorzsolódás-előrejelzés ügyfél-szegmentáció és termék targetálás véleményalkotók azonosítása hívási gráf elemzések hálózati hiba előrejelzése túl- és alulszámlázások azonosítása csalás-felderítés Bánsághi Anna 15 of 70

FELADATTÍPUSOK LEÍRÓ BÁNYÁSZAT jellemzés és összehasonlítás társításelemzés (asszociáció) ELŐREJELZŐ BÁNYÁSZAT attribútum fontosság osztályozás regresszió klaszterezés (csoportosítás) szélsőérték (anomália) elemzés Bánsághi Anna 16 of 70

OSZTÁLYOZÁS cél, hogy az adathalmaz elemeit ismert csoportokba soroljuk a modell megjósolja, hogy az új adatok melyik osztályba tartozhatnak az alapján, amit ismert osztályú adatokról előzőleg tanult PÉLDÁK: hitelbírálás, égitestek besorolása Bánsághi Anna 17 of 70

REGRESSZIÓ cél, hogy az adathalmaz elemeihez egyetlen numerikus értéket rendeljünk a modell megjósolja, hogy az új adatokhoz milyen érték tartozhat az alapján, amit ismert értékú adatokról előzőleg tanult, és amelyekre görbét illesztett PÉLDÁK: tőzsde indexek alakulása, ingatlanok várható értéke Bánsághi Anna 18 of 70

ATTRIBÚTUM FONTOSSÁG valamely cél attribútummal való kapcsolat erőssége alapján rangsoroljuk a többi attribútumot PÉLDÁK: azon tényezők fontossági sorrendje, melyek befolyásolják egy betegség kialakulását / a vásárlást Bánsághi Anna 19 of 70

ANOMÁLIA FELTÁRÁSA cél, hogy valamely jellemzően homogén adathalmazban beazonosítsuk a szokatlan eseteket PÉLDÁK: csalások kiderítésére, hálózati forgalom megsértése Bánsághi Anna 20 of 70

KLASZTEREZÉS cél, hogy ismeretlen szerkezetű adatokat rendszerezzünk a modell úgy csoportosítja az adatokat, hogy az egy csoportba tartozó adatok hasonlóak, a különböző csoportba tartozó adatok eltérőek legyenek PÉLDÁK: új fogyasztói szegmens felfedezése Bánsághi Anna 21 of 70

TÁRSÍTÁSELEMZÉS cél, hogy az adathalmazban a jellemzően együtt előforduló adatpárokat, adatcsoportokat felfedezzük a modell az együtt előforduló adatok között társítási szabályokat állít fel PÉLDÁK: vásárlóikosár-elemzés: ha valaki vesz A és B terméket, akkor C-t is vesz, gyakori sorozatok (adatszekvenciák) felfedezése Bánsághi Anna 22 of 70

LÉNYEGKIEMELÉS cél, hogy az adatokat leíró attribútumok közül kiszűrjük a relevánsakat, akár új jellemzőket hozzunk létre a fontos attribútumok lineáris kombinációjaként PÉLDÁK: mintakeresés, adattömörítés, szemantikus analízis Bánsághi Anna 23 of 70

AZ ADATBÁNYÁSZAT MÓDSZERTANA Bánsághi Anna 24 of 70

AZ ADATBÁNYÁSZAT FOLYAMATA Bánsághi Anna 25 of 70

ÜZLETI PROBLÉMA ÉRTELMEZÉSE üzleti célok megfogalmazása tényezők üzleti háttér, üzleti cél és siker helyzetfelmérés erőforrások, követelmények, források, feltételezések kockázatfelmérés, haszon és költségek szakterületi terminológia adatbányászati célok definiálása kritériumok projektterv elkészítése adatbányászati célok és siker eszközök és technikák értékelése Bánsághi Anna 26 of 70

kiindulási adatok gyűjtése adatintegráció rátekintés az adatokra értéktartományok) ADATÉRTELMEZÉS hozzáférés biztosítása, főbb jellemzők (típusok, alap statisztikai jellemzők feltárása lekérdezés, vizualizálás, értelmezés célparaméter eloszlása, főbb dimenziók mentén való szegmentálás adatminőségi vizsgálat feltöltöttség, lefedettség, adathelyesség, konzisztencia minderről beszámoló készül Bánsághi Anna 27 of 70

adatkiválasztás adattisztítás ADATOK ELŐKÉSZÍTÉSE a célok eléréséhez mely adatok hasznosak adatkitöltés, inkonzisztencia megszüntetése új paraméterek bevezetése rekordok adatintegráció több forrás esetén adatformátum módosítása származtatott adatok, generált adatbányászati modellhez igazítás Bánsághi Anna 28 of 70

MODELLEZÉS modellező technika kiválasztása adatfeltáró elemzés modell tesztelésének meghatározása vizualizálás modellalkotás eszközt találni a célhoz, kiértékelési módszer, paraméterbeállítás, modellek, dokumentálás modell kiértékelése és megjelenítése fontos a jól vizualizálható eredmény beállítások felülvizsgálata Bánsághi Anna 29 of 70

ÜZLETI ÉRTÉKELÉS a modell üzleti célú értékelése üzleti elvárásoknak megfelel? éles környezetben tesztelhető a teljes elemzési folyamat felülvizsgálata távú elérhetősége következő lépések bevezetésről pl. adatok hosszú döntés a felhasználhatóságról, üzleti Bánsághi Anna 30 of 70

alkalmazás megtervezése ÜZLETI ALKALMAZÁS alkalmazás fenntartás és monitoring ellenőrzések beállítása projekttanulmány elkészítése a projekt felülvizsgálata éles eredmények kiértékelése pozitívumok vs. negatívumok elvárttól való eltérések elemzése beépítés az üzleti folyamatokba tesztesetek, beszámoló, prezentáció Bánsághi Anna 31 of 70

ÜZLETI ALKALMAZÁSOK Bánsághi Anna 32 of 70

EDP (Electronic Data Processing) egyszerű adatfeldolgozás OLTP (On-Line Transaction Processing) online tranzakció feldolgozás OLAP (On-Line Analytical Processing) online analitikus feldolgozás BI (Business Intelligence) üzleit intelligencia DSS (Decission Support System) döntéstámogató rendszerek EIS (Executive Information System) felsővezetői információs rendszer ERP (Enterprise Resource Planning) vállalati erőforrás-tervezés IEA (Integrated Enterprise Application) integrált vállalati alkalmazások MIS (Management Information System) vezetői információs rendszerek Bánsághi Anna 33 of 70

A TUDÁSFELTÁRÁS HELYE Bánsághi Anna 34 of 70

OLTP ÉS OLAP ÖSSZEHASONLÍTÁSA domináns műveletek OLTP adatmanipuláló és adatlekérdező OLAP többdimenziós (lefúrás, szeletelés, összegzés) optimumcélkitűzés elfogadható tranzakciófeldolgozási idő elfogadható válaszidő optimális szerkezet minimális redundancia elfogadható válaszidőhöz szükséges mértékre fokozott redundancia modell relációs adatmodell többdimenziós adatmodell Bánsághi Anna 35 of 70

TUDÁSFELTÁRÁS FOLYAMATA Bánsághi Anna 36 of 70

FACEBOOK PÉLDA adattárház minden információ, amit megosztunk, egy központosított aggregált adattárházba kerül adatbányászat milyen reklámok vagy milyen ajánlások jelenjenek meg egy adott profilon Bánsághi Anna 37 of 70

ADATTÁRHÁZ ÉPÍTÉS FOLYAMATA Bánsághi Anna 38 of 70

ADATPROFILOZÁS adattárház építésekor forrásrendszerek felmérése, adatminőség elemzése, statisztikák készítése adattráház működtetésekor az új adatok milyen szórást mutatnak a régi adatokhoz képest Bánsághi Anna 39 of 70

ADATPROFILOZÁS STATISZTIKÁI kitöltöttség analízis (null értékek száma, eloszlása) adathossz-eloszlás (1, 2, 3,... hosszú adatok) kulcsképesség-elemzés (ami kulcs, az tényleg az-e) minták keresése (telefonszámok, irányítószámok, rendszámok keresése szöveg típusú adat esetén) oszlopstatisztikák (minimum, maximum, átlag) értékeloszlás-analízis (hány azonos érték van egy oszlopban) összefüggés-vizsgálat (hierarchiák keresése táblán belül) részhalmazok keresése (adatkapcsolat táblák között) Bánsághi Anna 40 of 70

ADATTÁRHÁZ FELTÖLTÉSE (ETL) extract az összes új vagy az előző áttöltés óta megváltozott forrásadat lehető leggyorsabb áttöltése egy átmeneti (stage) adatbázisba transformation az átmeneti adatbázisban történik minden további adattranszformáció: auditinformáció hozzáadása adattisztítás előfeldolgozás load speciális sémájú adattárház feltöltése az előfeldolgozott adatokkal Bánsághi Anna 41 of 70

ADATTRANSZFORMÁCIÓK auditinformáció minden rekord kiegészítése származására vonatkozó információval (forrásrendszer, tábla, betöltés időpontja, betöltő folyamat azonosítója) adattisztítás pontatlan vagy hiányos adatok feltöltése, duplikátumok összefésülése megfelelő szkriptekkel előfeldolgozás a stage adatbázisbeli adatok transzformációja az adattárház formátumának megfelelő alakra egy ún. transform adatbázisba. A transform sémája megegyezik az adattárház sémájával, csupán az adathalmazban van különbség (új adatok vs. összes adat) Bánsághi Anna 42 of 70

normalizált csillagséma ADATTÁRHÁZ SÉMÁJA hagyományos relációs adatbázis séma központi ténytábla körüli dimenziótáblák Bánsághi Anna 43 of 70

CSILLAGSÉMA Bánsághi Anna 44 of 70

TÉNYTÁBLA a csillagséma központi eleme tartalmazza a mutatószámokat körülötte helyezkednek el a dimenziótáblák DIMENZIÓTÁBLA a ténytábla mutatószámainak leírásai a tény és a dimenziótáblák közötti kapcsolatot a mesterséges kulcsok adják, melyek egyben az egyes dimenziótáblabeli sorok egyedi azonosítójaként is funkcionálnak Bánsághi Anna 45 of 70

DIMENZIÓTÁBLÁK TÖLTÉSE a transform adatbázisból az éles adattárházba töltés folyamata helyben felülírás ha megváltozik egy dimenzióadat, akkor nem törődve a régebbi információval, felülírjuk az új adattal a régit változáskövetés őrizni akarjuk az összes állapotváltozást, ezért a dimenziótáblákat két új oszloppal egészítjuk ki (érvényesség kezdete és vége), majd az új adatot beszúrjuk a táblába Bánsághi Anna 46 of 70

TÉNYTÁBLA TÖLTÉSE a transform adatbázisból az éles adattárházba töltés folyamata a tényadat kulcsainak egyeztetése a dimenziótáblákbeli adatokkal (időbélyegzők, érvényességek alapján) Bánsághi Anna 47 of 70

ADATKOCKA Bánsághi Anna 48 of 70

ADATBÁNYÁSZATI ALGORITMUSOK felügyelt tanuló algoritmusok a tanulás során a modell sok olyan esetet megvizsgál, ahol a célérték ismert, majd a teszthalmazon megvizsgáljuk, hogy a kapott modell alkalmas-e új, ismeretlen célértékű adatokon való használatra felügyelet nélküli tanuló algoritmusok nincsen függő és független változó, sem pedig korábbi ismeret, a kihívást a helyes paraméterezés megtalálása jelenti Bánsághi Anna 49 of 70

FELÜGYELT TANULÓ ALGORITMUSOK döntési fa általánosított lineáris modellek minimális leíró hossz naív Bayes modell támaszvektorok Bánsághi Anna 50 of 70

DÖNTÉSI FA az előrejelzési információt szabályok formájában adják meg a szabályok ha-akkor-egyébként kifejezések magyarázzák a döntéseket, melyek az előrejelzéshez vezetnek osztályozás Bánsághi Anna 51 of 70

ÁLTALÁNOSÍTOTT LINEÁRIS MODELLEK a tanuló minták osztályozó attribútumaira a legegyszerűbb görbét illesztjük majd egy új adatnál ezen görbe alapján adjuk meg az adat osztályát osztályozás, regresszió Bánsághi Anna 52 of 70

MINIMÁLIS LEÍRÓ HOSSZ azt feltételezi, hogy az adatok legegyszerűbb, legtömörebb reprezentációja a legjobb, legvalószínűbb magyarázat attribútum fontosság Bánsághi Anna 53 of 70

NAÍV BAYES MODELL egy adott osztályhoz való tartozás valószínűségét becsüli meg az osztályozás a Bayes-tételen alapul X az ismeretlen osztályozási címkéjű minta C X C a hipotézis, mely szerint egy megadott osztályhoz tartozik P(C X) = P(X C)P(C) P(X) osztályozás Bánsághi Anna 54 of 70

TÁMASZVEKTOROK a lehető legnagyobb eltéréssel próbálja szeparálni a célosztályokat olyan folytonos függvényt keres, amelyre maximális számú megfigyelés esik a függvény adott szélességű környezetébe osztályozás, regresszió Bánsághi Anna 55 of 70

FELÜGYELET NÉLKÜLI TANULÓ ALGORITMUSOK Apriori k-közép nemnegatív mátrixfaktorizáció egyosztályos támaszvektor módszer ortogonális osztályozó klaszterezés Bánsághi Anna 56 of 70

APRIORI ALGORTIMUS gyakori elemhalmazokat keres jelöltek előállításával az algoritmus a gyakori elemhalmazok tulajdonságaira vonatkozó előzetes (a priori) ismereteket használ szintenkénti kereséssel iterál társítás Bánsághi Anna 57 of 70

K-KÖZÉP távolságalapú klaszterezési eljárás felosztja az adatokat előre meghatározott számú klaszterre minden klaszternek van centroidja (súlypontja), és a centroidhoz közeli megfigyelések tartoznak a klaszterbe klaszterezés Bánsághi Anna 58 of 70

NEMNEGATÍV MÁTRIXFAKTORIZÁCIÓ az eredeti attribútumok lineáris kombinációiból új attribútumokat generál a modell leképezi az eredeti adatokat a modell által feltárt új attribútumhalmazra lényegkiemelés Bánsághi Anna 59 of 70

EGYOSZTÁLYOS TÁMASZVEKTOR MÓDSZER egyosztályos profilt épít az adatokra megjelöli azokat az eseteket, amelyek valamilyen értelemben eltérnek a profiltól lehetővé teszi az egymáshoz nem feltétlenül kapcsolódó ritka esetek feltárását anomália feltárás Bánsághi Anna 60 of 70

ORTOGONÁLIS OSZTÁLYOZÓ KLASZTEREZÉS hierarchikus, grid-alapú klaszterező modellt épít az algoritmus klasztereket hoz létre, amelyek sűrű területeket definiálnak az attribútumtéren érzékenységi paraméter definiálja a viszonyítási alapnak tekintett sűrűséget klaszterezés Bánsághi Anna 61 of 70

SPECIÁLIS TERÜLETEK Bánsághi Anna 62 of 70

szövegbányászat szöveg alapú struktúráratlan adatbázisok automatikus feldolgozása (szövegek értelmezése és kategorizálása) hang bányászat hanganyagok automatikus feldolgozása (ügyfélszolgálati hanganyagokból érzelem és protokoll információk detektálása) gráfbányászat szociális hálózatok modellezése és információ kinyerése (Interneten közösségi hálózatok illetve linkek elemzése) webbányászat webes tartalmak különféle szempontú elemzése Bánsághi Anna 63 of 70

cél jelentéstartalmak felismerése SZÖVEGBÁNYÁSZAT módszer kategorizálás, tömörítés, releváns információ keresése, újdonság detektálása feladat online tartalmak (hírek, blogok, fórumok) figyelése, az ebben található információkból adatok szöveganalitikai feldolgozása, ezek alapján elemzések, trendfigyelés, monitoring Bánsághi Anna 64 of 70

STRUKTÚRÁLATLAN VS. STRUKTÚRÁLT a természetes nyelvi szöveg struktúrálatlan információ egy dokumentumhalmaz leképezhető egy táblázatra a táblázat oszlopai a lehetséges szavakkal vannak cimkézve a táblázat egy-egy sora egy-egy dokumentumnak felel meg egy cella értéke 0 vagy 1 aszerint, hogy az adott szó előfordul-e az adott dokumentumban vagy sem ezen a táblázaton már futtathatók a hagyományos adatbányászati funkciók Bánsághi Anna 65 of 70

KERESŐMOTOR Bánsághi Anna 66 of 70

SPAM SZŰRÉS Bánsághi Anna 67 of 70

cél GRÁFBÁNYÁSZAT kapcsolatok, információterjedés felismerése módszer hasonló részgráfok keresése feladatok klaszterek, közösségek az egymással szoros kapcsolatban lévők detektálása véleményvezérek detktálása egy közösségen belül speciális szerepet betöltők azonosítása információterjedés vizsgálata (vagy fertőzés vizsgálat) egy hálózaton belül hogyan terjed az információ Bánsághi Anna 68 of 70

GRÁF KLASZTEREZÉS Bánsághi Anna 69 of 70

WEBBÁNYÁSZAT webtartalom bányászat web szövegbányászat intelligens keresőügynökök információ-szűrés és kategorizálás web lekérdező rendszerek webstruktúra bányászat látogatási struktúra elemzése klikkelés-sorozatok elemzése web oldalak tervezési stratégiája webhasználat bányászat látogatók szokásainak, magatartásmintáinak tanulmányozása látogatók tevékenységének előrejelzése és ösztönzése webszolgáltatás minőségének javítása, webszerver teljesítményének optimalizálása Bánsághi Anna 70 of 70