The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.



Hasonló dokumentumok
Mesterséges Intelligencia Elektronikus Almanach. Konzorciumi partnerek

Intelligens adatelemzés

Retro adatbányászat. Kovács Gyula Andego Tanácsadó Kft.

Big Data az adattárházban

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Felhők teljesítményelemzése felhő alapokon

Adatbányászat és Perszonalizáció az Oracle9i-ben

Bayesi relevancia és hatáserősség mértékek. PhD tézisfüzet. Hullám Gábor. Dr. Strausz György, PhD (BME)

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

BSc Témalaboratórum (BME VIMIAL00) Előzetes tájékoztató előadás 2018 ősz. Dr. Ráth István

Számítógépes döntéstámogatás. Bevezetés és tematika

Valószín ségi döntéstámogató rendszerek

Gáspár Bencéné Vér Katalin *

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Ön a megfelelő mennyiségű és minőségű információk alapján hozza meg döntéseit? Stratis Kft. / Autonomy üzleti reggeli /

Gyors sikerek adatbányászati módszerekkel

A szak specializációi

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Információs Rendszerek Szakirány

Fehér Tamás, Hofgesang Péter T-Systems Magyarország. Adócsalók a RADAR képernyőjén

- Adat, információ, tudás definíciói, összefüggéseik reprezentációtípusok Részletesebben a téma az AI alapjai című tárgyban

Modellkiválasztás és struktúrák tanulása

ADATBÁNYÁSZAT ÉS STATISZTIKA

A kibontakozó új hajtóerő a mesterséges intelligencia

S atisztika 2. előadás

Adatbányászat SAS Enterprise Miner

ADATBÁNYÁSZAT AZ AUTÓIPARI TERMÉKEK FEJLESZTÉSÉBEN

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Kutatás-fejlesztési eredmények a Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszéken. Dombi József

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Alkalmazott Informatikai Tanszék. Dr. Kulcsár Gyula egyetemi docens

Témaválasztás, kutatási kérdések, kutatásmódszertan

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Intelligens Rendszerek Csoport

Számítógépes döntéstámogatás. Fogalmakat is kezelni tudó számítógépes döntéstámogatás A DoctuS rendszer

Industrial Internet Együttműködés és Innováció

Orvosi Genomtudomány 2014 Medical Genomics Április 8 Május 22 8th April 22nd May

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Geoinformatikai rendszerek

Self service reporting fogások, technikák és megoldások controllereknek, nem csak Excel alapon

Cserháti Ilona: Gazdaságstatisztikai kihívások, oktatási konzekvenciák (tananyag-fejlesztési tapasztalatok a Budapesti Corvinus Egyetemen)

A Jövő Internet Nemzeti Kutatási Program bemutatása

HAPMAP Nemzetközi HapMap Projekt. SNP GWA Haplotípus: egy kromoszóma szegmensen lévő SNP mintázat

Statisztika oktatása és alkalmazása a mérnöki területen

Papp Attila. BI - mindenkinek

Az alállomási kezelést támogató szakértői funkciók

Szoftver karbantartási lépések ellenőrzése

Adatbányászat. Data Mining: Concepts and Techniques (3 rd ed.)

Így kampányolunk mi. Hans Zoltán. Szolgáltatás Fejlesztés és Online Irányítás vezető. IBM-SPSS üzleti reggeli (Budapest)

Vezetői információs rendszerek

TANTÁRGYI ÚTMUTATÓ. Alkalmazott számítástechnika. tanulmányokhoz

Adatbányászati, data science tevékenység projektmenedzsmentje

Mit mond a XXI. század emberének a statisztika?

A Műegyetem az Ipar 4.0 és digitalizáció élén

Adatbányászati, data science tevékenység

Adatbányászat: Bevezetés. 1. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba

Önálló labor feladatkiírásaim tavasz

Alter Róbert Báró Csaba Sensor Technologies Kft

TDK tájékoztató Gazdaságinformatika Intézeti Tanszék szeptember

Bioinformatika - egészséges környezet, egészséges élelmiszer

Dr. Sasvári Péter Egyetemi docens

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Tudásalapú információ integráció

Digitalizáció a vállalatirányításban - Milyen szerep jut a controllingnak? Budapest,

Specializációválasztás a BME Villamosmérnöki és Informatikai Karon (mérnökinformatikus szak)

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben

Mesterséges intelligencia alapú regressziós tesztelés

társadalomtudományokban

Az R szoftver alkalmazása az Adatbányászat tárgy oktatásában

A hierarchikus adatbázis struktúra jellemzői

Waberer s BI a BO-n túl. WABERER S INTERNATIONAL Nyrt. Szatmári Johanna, Tobak Tamás

Egészségügyi mérnöki mesterszak hallgatói adatainak elemzése. Computational Biomedicine (Combine) workgroup

Biztosítási és pénzügyi matematika mesterszak

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Ágazati Vezetői Információs Rendszer koncepciója

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

Az adatvagyon fogalma Adatok kezelésének jogi keretei Adatvagyon építése Adatvagyon használata, publikálása Adatok vizualizációja Előrejelzés

Nagy adathalmazok labor

Segítség, összementem!

Változások előtt hol áll a banki (adat)elemzés? Nándorfi György

ÜZLETI I TELLIGE CIA - VIZUALIZÁCIÓ

CAD Rendszerek I. Sajátosság alapú tervezés - Szinkron modellezés

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Költségmegtakarítás járatoptimalizálással. Lukács Lajos Ügyvezető DSS Consulting Kft.

30 MB INFORMATIKAI PROJEKTELLENŐR

Parametrikus tervezés

Folyamatmodellezés és eszközei. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Biomassza alapú bioalkohol előállítási technológia fejlesztése metagenomikai eljárással

Döntéstámogatás terepi gyakorlatokon

Gépi tanulás a gyakorlatban. Bevezetés

MULTIPARAMETRIKUS MR VIZSGÁLATOK SZEGMENTÁLÁSA NYAKI RÉGIÓBAN

Mesterséges Intelligencia Elektronikus Almanach. MI Almanach projektismertetı rendezvény április 29., BME, I. ép., IB.017., 9h-12h.

Adatok statisztikai értékelésének főbb lehetőségei

Takács Gábor mérnök informatikus, okl. mérnöktanár

Integrált gyártórendszerek. Ágens technológia - ágens rendszer létrehozása Gyakorlat

Kiss Ferenc, SAS Institute. Abstract

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Átírás:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor

Adatelemzés hagyományos megközelítésben I. Megválaszolandó kérdés Hipotézis Módszerek kiválasztása Milyen adaton? Milyen módszerrel? Mit keresünk?

Adatelemzés hagyományos megközelítésben II. Verifikáció vezérelt Hipotézis elvetése Adatkinyerés, előkészítés Feldolgozás Elemzés A kérdésre választ kaptunk Az igazi kérdés: jó volt-e a kérdés? Hipotézis OK

Felmerülő kérdések A feltett hipotézis valóban a megválaszolandó problémára/kérdésre ad magyarázatot? Jól határoztuk meg, hogy mit veszünk figyelembe és mit nem? Nincs-e más, a vizsgált dolgokon kívüli, fontos információ az adatokban elrejtve?

Adatbányászat I. The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. -Frawley, Piatetsky-Shapiro, and Matheus Knowledge Discovery in Databases AI Magazine Vol.13 Num. 3 (1992) AAAI Nontrivial: Magas szintű tudás kinyerése, mint szabályok, kauzális kapcsolatok, predikciók, részhalmazok ( SQL queryk, alap statisztikai adatok)

Adatbányászat II. implicit: Az adathalmazban kifejeződő rejtett szabályszerűségek previously unknown: korábban nem ismert összefüggések, mintázatok potentially useful: üzleti értéket hordozó kapcsolatok és szabályok kinyerése, melyek közvetlen döntéstámogatási inputként szolgálhatnak

Adatelemzés adatbányászati megközelítésben Felfedezés vezérelt Üzleti Probléma Adatbányászat Eredmény

Az adatbányászat folyamata Ballard et al. (2007) Dynamic Warehousing: Data Mining Made Easy

Adatbányászati eszközök Klaszterezés Osztályozás Predikció Szabálykinyerés K-means Döntési fa Regressziós módszerek Neurális módszerek Bayesi módszerek Asszociációk Szekvenciális minták

Alkalmazások Klaszterezés Osztályozás Predikció Szabálykinyerés Piacszegmentálás Meghibásodás analízis Hitelbírálat Portfólió választás Csalási minták detektálása Kockázat elemzés Megtérülés előrejelzés Eseménysor elemzés Vásárlói kosár elemzés

Intelligens adatelemzés Hozzávetőleges meghatározás: Statisztikai és gépi tanulási módszerek alkalmazása komplex adatelemzési és modellezési feladatok megoldására A hangsúly az alkalmazott módszereken van A megközelítés a korábbi kétpólusú (adatbányász vs. klasszikus) felálláshoz képest hibrid 11

Intelligens adatelemzés Intelligens elemzés Statisztika KDD Valószínűségi modellek Mesterséges intelligencia Gépi tanulás További kapcsolódó területek Neurális módszerek Algoritmikus módszerek 12 L. Belanche and A.Vellido: Intelligent Data Analysis And Data Mining (UPC)

Kihívások Nagy adathalmazok kezelése (BIG DATA) Számítási igény kezelése Eredmények kiértékelése, értelmezése Hiába van eredmény, ha nincs megfelelő értelmezés. Ehhez szükség van: Kiértékelést segítő ügyes módszerekre Vizualizációs eszközökre Esetenként szakértőkre 13

Elemzések felhasználása 14 Üzleti intelligencia labor - Adattárházak elemzése, megjelenítése, jelentéskészítés

Bayes-háló alapú adatelemzés bioinformatikai adatokon

Bioinformatika Orvos-biológiai, genetikai adatok elemzésén alapul Céljai: Új elemzési módszerek kialakítása Eredmények intelligens feldolgozása és kiértékelése Tudásbázisok létrehozása Biomarkerek kutatása http://knowgenetics.org/snps/

A bioinformatika kihívásai Genetikai szabályozás Újabb szabályozó elemek keresése, célponthoz való kapcsolása Genome Wide Association Studies (GWAS) Sok változó, változók számához képest kevés eset Feature Subset Selection Újabb labor technológiák támogatása RNS szekvenálás de novo illesztés Variáns detektálás http://www.kurzweilai.net/international-conference-on-bioinformatics-computational-biology-genomicsand-chemoinformatics-bcbgc-10

Bayes-háló alapú relevanciaelemzés I. X 1 X 0 X 3 X 2 X 6 X 7 X 5 A Bayes-háló, mint modellosztály lehetővé teszi a változók közötti függőségi kapcsolatok rendszer szemléletű modellezését X 4 X 12 Y X 9 X 10 X 11 X n X 8 Többváltozós függőségi minták modellezésére alkalmazható Strukturális és parametrikus tulajdonságok vizsgálhatók 18

Bayes-háló alapú relevanciaelemzés II. X 1 X 0 X 3 X 2 X 6 X 7 X 5 X 4 Y X 9 X 10 X 11 X 8 A módszer célja: lehetséges Bayes-háló struktúrák, részstruktúrák, strukturális tulajdonságok tanulása az elérhető adathalmaz alapján X 12 X n Ezek alapján következtethetünk egyes változók relevanciájára 19

Bayes-háló alapú relevanciaelemzés III. X 1 X 4 X 0 X 2 X 3 X 5 X 12 X 6 X 7 Y X 9 X 10 X 11 X n X 8 Relevancia mindig egy (vagy több) célváltozóhoz képest definiált Bayesi strukturális és parametrikus relevancia mértékek segítségével azonosíthatók a célváltozó szempontjából releváns változók Strukturális: erős relevancia Parametrikus: hatáserősség 20

Génasszociációs adatok elemzése Célváltozó: betegségleíró (indikátor) változó Változók: genetikai faktorok, klinikai és környezeti faktorok Adat: genetikai minta és kiegészítő adatok beteg és egészséges páciensektől Cél: releváns genetikai faktorok azonosítása 21

Köszönöm a figyelmet! Gabor Hullam (gabor.hullam-at-mit.bme.hu) Budapest University of Technology and Economics Department of Measurement and Information Systems 22