Követelmények Bevezetés. Adatbányászat. Szegedi Tudományegyetem. Adatbányászat



Hasonló dokumentumok
Követelmények Bevezetés. Adatbányászat. Szegedi Tudományegyetem. Adatbányászat

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Kutatásmódszertan és prezentációkészítés

Gépi tanulás a gyakorlatban. Bevezetés

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Vizuális adatelemzés

Valószínűségi változók. Várható érték és szórás

TANTÁRGYI ÚTMUTATÓ. Alkalmazott számítástechnika. tanulmányokhoz

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Adatbányászat: Adatok. 2. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba

Adatbányászat: Adatok. 2. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba

Adatok statisztikai értékelésének főbb lehetőségei

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Vizuális adatelemzés

MINTAVÉTELEZÉS. Alaptípusai: sampling. véletlen érvényesítésére v. mellőzzük azt. = preferenciális mintav. = véletlen mintav.

Bevezető Mi a statisztika? Mérés Csoportosítás

Biomatematika 2 Orvosi biometria

Vargha András Károli Gáspár Református Egyetem Budapest

[Biomatematika 2] Orvosi biometria

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Mit mond a XXI. század emberének a statisztika?

Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten)

Hunyadi János Általános Iskola

Gyors sikerek adatbányászati módszerekkel

Bevezetés az SPSS program használatába

[Biomatematika 2] Orvosi biometria

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Gazdasági matematika II. Tantárgyi útmutató

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biomatematika 2 Orvosi biometria

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Zoltánfy István Általános Iskola

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Ady Endre Általános Iskola

Ady Endre Általános Iskola

Fazekas Mihály Fővárosi Gyakorló Általános Iskola és Gimnázium

Gyakorló feladatok adatbányászati technikák tantárgyhoz

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Markov-láncok stacionárius eloszlása

[GVMGS11MNC] Gazdaságstatisztika

Modellkiválasztás és struktúrák tanulása

[Biomatematika 2] Orvosi biometria

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Leövey Klára Gimnázium

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

18. modul: STATISZTIKA

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

1. gyakorlat. Mesterséges Intelligencia 2.

[Biomatematika 2] Orvosi biometria

Statisztika oktatása és alkalmazása a mérnöki területen

A Statisztika alapjai

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

1/8. Iskolai jelentés. 10.évfolyam matematika

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Biomatematikai Tanszék

Adaptív dinamikus szegmentálás idősorok indexeléséhez

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

Hunyadi János Általános Iskola

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Utolsó módosítás: Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva.

Matematika B/1. Tartalomjegyzék. 1. Célkit zések. 2. Általános követelmények. 3. Rövid leírás. 4. Oktatási módszer. Biró Zsolt. 1.

A 2018-as Modellező (A) specializáció tanegységei. Számítógépes rendszerek

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

A statisztika alapjai - Bevezetés az SPSS-be -

Projektvezetői döntések támogatása webbányászattal

A PhysioBank adatmegjelenítő szoftvereinek hatékonysága

Németh Imre Általános Iskola

Big Data az adattárházban

Készítette: Fegyverneki Sándor

Ady Endre Általános Iskola

KÖTELEZŐ PROGRAM, SZÁMONKÉRÉSEK. Részletek

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Előfeldolgozás. Nagyméretű adathalmazok kezelése Molnár András

Hunyadi János Általános Iskola

Az Informatika Elméleti Alapjai

Fazekas Mihály Fővárosi Gyakorló Általános Iskola és Gimnázium

Az értékelés során következtetést fogalmazhatunk meg a

Kispesti Deák Ferenc Gimnázium

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK EMELT SZINT Statisztika

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Az értékelés a következők szerint történik: 0-4 elégtelen 5-6 elégséges 7 közepes 8 jó 9-10 jeles. A szóbeli vizsga várható időpontja

Retro adatbányászat. Kovács Gyula Andego Tanácsadó Kft.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

KÖZELÍTŐ INFERENCIA II.

KÖZELÍTŐ INFERENCIA II.

Szociális hálózatok Gráf alapú módszerek. Adatbányászat. Klaszterezés Szociális hálózatok. Szegedi Tudományegyetem. Adatbányászat

ANTAL Margit. Sapientia - Erdélyi Magyar Tudományegyetem. Jelfeldolgozás. ANTAL Margit. Adminisztratív. Bevezetés. Matematikai alapismeretek.

FIT-jelentés :: Bajza József Általános Iskola 1046 Budapest, Bajza u. 2. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

A társadalomkutatás módszerei I.

Fazekas Mihály Fővárosi Gyakorló Általános Iskola és Gimnázium

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Átírás:

Szegedi Tudományegyetem

gyakorlat Gyakorlaton elérhető: max. 50 pont 2 db ZH (okt. 7/14. és nov. 25.): 25-25 pont (min. 8 pont/zh) Javító ZH: félév végén az egész éves gyakorlati anyagból a minimális összpontszámot el nem érők, ugyanakkor a ZH-nkénti minimumot teljesítők számára Pluszpontok (minimumba nem számítanak bele) 22 23 30 31 36 37 42 43 50 Végső jegy pont elégtelen (1) pont elégséges (2) pont közepes (3) pont jó (4) pont jeles (5)

kollokvium Kollokviumra a gyakorlat sikeres teljesítését követően lehet jelentkezni 10 db 5 pontos "Köszi"-jellegű kiskérdéssel Pluszpontok (minimumba nem számít bele) 25 26 31 32 37 38 43 44 50 Végső jegy pont elégtelen (1) pont elégséges (2) pont közepes (3) pont jó (4) pont jeles (5)

A félév felépítése, ismerkedés, leíró statisztika Adatok leírása, előfeldolgozása (adattisztítás,- és redukálás) Felügyelet nélküli módszerek az adatbányászatban Felügyelt módszerek az adatbányászatban (osztályozás) Kívülálló egyedek tanulása, eltéréselemzés (outlier detection) Gyakori mintázatok, asszociációs szabályok tanulása Gráf alapú módszerek az adatbányászatban Web méretű adatbányászat, szövegbányászat

Ajánlott irodalom Bodon Ferenc jegyzete J. Han, M. Kamber:, koncepciók és technikák H. Witten, E. Frank, M. A. Hall: Data Mining: Practical Machine Learning Tools and Techniques P. Tan, M. Steinbach, V. Kumar: Introduction to Data Mining A. Rajaraman, J. Ullman: Mining Massive Datasets B. Liu: Web Data Mining C. Manning, P. Raghavan, H. Schütze: Introduction to Information Retrieval R. Duda, P. Hart, D. Stork: Pattern Recognition C. Bishop: Pattern Recognition and Machine Learning...

Motiváció 1 millió dolláros NetFlix Prize 20 ezer dolláros Kaggle StackOverflow Challange Facebook miatt bukhatjuk a hitelt (Index) Warren Buffet March Madness-szel kapcsolatos ajánlata (109 $) PPPPPP Kedvcsináló: k M k2f = pik qkl rlj pin qnm rmj i j k l m n

Motiváció képben

területei Üzleti alkalmazások Hitelelemzés Vásárlói csoportok szegmentálása Ajánlórendszerek Elvándorlás/lemorzsolódás (churn) analízis Tudományos alkalmazások Csillagászat Gyógyszerkutatás Orvosi diagnosztika

Mi tehát az adatbányászat? Hasznos, (gyakran) nem várt mintázatok felismerése nagy mennyiségű adathalmazból (pl. Web) Előretörését a technológia (háttértárak, memória, processzor, GPGPU, MapReduce) fejlődés tette lehetővé A segítségével megszerzett tudás legyen érthető, érvényes, hasznos és újszerű tudásfeltárás (Knowledge Discovery)

Mi nem adatbányászat? Adatbázis lekérdezések "Egyszerű" statisztika (eszköz ugyanakkor lehet) Bonferroni-elv: sok adatot figyelembe vétele mellett véletlen események is látszólag érdekessé válhatnak

Total Information Avareness program Nagy Testvér bevezetése Amerikában Gondolatkísérlet: gonosztevők keresése szállodai bejelentkezések alapján 109 ember 0,01 valószínűséggel száll meg egy nap valamely 100 férőhelyes szállodában 100000 (109 0, 01/100) szálloda van 1000 nap alatt hány gyanús eset (2 ember 2 éjszaka ugyanabban a hotelben szállt meg) kerülne kiszűrésre? P(x és y ugyanott száll meg egy éjszaka)= 0, 01 0, 01 0, 00001 = 10 9 P(x és y 2 alkalommal is ugyanott száll meg egy éjszaka) = (0, 01 0, 01 0, 00001)2 = 10 18 Lehetséges éjszaka-ember párosok száma = 103 109 2, 5 1023 2 2 Gyanús párosok 2, 5 1023 10 18 = 250000

Rhine-paradoxon David Rhine parapszichológiai vizsgálatai Diákoknak 10 kártyalap színét (piros/kék) kellett "megjósolniuk" Eredmény: a megvizsgáltak közel 0,1 %-a parapszichológiai képességekkel bír (v.ö. 2 10 ) A visszahívott "parafenoménok" legközelebb már átlagos eredményt nyújtottak Rhine konklúziója? A parafenomének elvesztik különleges képességeiket, ha tudtukra juttatják azokat

Simspon-paradoxon Avagy az adatokból könnyebb hibás következtetésre jutni, mint azt gondolnánk Felvett/Jelentkezett Lány Fiú A szak 7/100 3/50 B szak 91/100 172/200 Összesen 98/200 175/250 A szakonkénti felvettek aránya alapján adná magát a feltételezés, hogy a lányok esetében (pozitív) diszkrimináció történt Az aggregált adatok alapján azonban épp az ellenkezője rajzolódik ki (vö. 49% vs. 70%)

Mindezek után, adatbányászat-e? Üzletlánc vásárlói adatbázisában szereplők átlagéletkorának meghatározása Honvédségi adatbázisban átlagos cipőméret meghatározása a hibás adatok kiszűrése mellet Tomográfiai leletekben elváltozásokra utaló jegyek keresése Választásra jogosultak nemek szerinti megoszlásának vizsgálata Választási hajlandóság/részvételi arány előrejelzése

Rokonterületek Matematika: valószínűségszámítás, statisztika, gráfelmélet, algebra, analízis Algoritmus-, bonyolultságelmélet Adatbáziskezelés Gépi tanulás, mesterséges intelligencia

Eszközök, szoftverek Üzleti irányultságú célszoftverek (pl. SAS) Számos gépi tanuló, regressziós, transzformációs stb. módszert tartalmazó szoftvercsomagok (nem üzleti jellegű feladatokhoz) Weka, MALLET Clementine (SPSS Inc.), Intelligent Miner (IBM), DBMiner (Simon Fraser Univ.) Octave, Matlab, Maple, R Python (numpy, scipy, scikit-learn, pandas)...

tárgya (Nagy méretű) adathalmazok, melyek (általában) sok jellemzővel leírt adatobjektumokból épülnek fel Adatobjektum rekord adatpont minta/mérés egyed/eset/példány Jellemző mező dimenzió változó jellemző, tulajdonság Dimenzionalitás átka (kissé pongyolán): a dimenziószám nagyságának növekedésével exponenciálisan növő adatpontra van szükség (a megfelelő pontosság eléréséhez) Nagydimenziós térben nehezen értelmezhető a távolság fogalma diemnziócsökkentő eljárások (lásd később)

Adathalmazok formátumai Adatbázistáblák/sémák Tranzakciós listák (kosarak) Adatmátrix Előfordulási (pl. dokument-term) mátrix

Változók típusai mérési skálájuk szerint Numerikus Kategória Attribútumtípus Nominális Ordinális Intervallum Arányskála Leírás Két változó egyezését tudjuk csupán vizsgálni Két változó között értelmezhető a > reláció Két változó különbsége értelmezhető Képezhető két érték hányadosa is Példák városnév, hajszín jegyek, {rossz, tűrhető, jó} Statisztikái módusz, entrópia, korreláció, χ2 -teszt medián, percentilisek cipőméret, dátumok, C kor, hossz, Kelvin fok átlag, szórás, stat. tesztek százalék, harmonikus közép

Változók további csoportosítási lehetősége - Diszkrét és folytonos változók Diszkrét változó: véges vagy megszámlálhatóan végtelen értékkészlettel rendelkeznek Folytonos változó: értékkészlete a teljes valós számhalmaz Mérési skálák vs. értékkészlet Nominális és ordinális skálájúak jellemzően diszkrétek Intervallum és arányskálájúak jellemzően folytonosak Bináris folytonos változó? Diszkrét gyakorisági értékek?

Változók további csoportosítási lehetősége - Szimmetria vs. aszimmetria Egy jellemző meg nem léte nem feltétlen azonos jelentőségű egy jellemző meglétével két egyed hasonlóságának vizsgálata kapcsán pl. ritka dokumentumvektorok, ahol jellemzően a teljes szótár elenyésző hányada szerepel a dokumentumokat reprezentáló vektorokban

A tudásfeltárás folyamata

Adatminőség Minden adatbázisban találhatók hibák, inkonzisztenciák adatgyűjtés során adatbevitel során mérési hiba

Adattisztítás Hiányzó adatok kezelése pl. xi = (0, 0, 4, 2,?,?, 1, 6,0 True 0 ) hiányzó adat becslése (pl. k-"leghasonlóbb"/teljes sokaság móduszával/átlagával/mediánjával, esetleg Expectation Maximization) adatsor elhagyása jellemző elhagyása a modellépítésből Zajos adatok kezelése (pl. életkor=280) Hiányzó adatokhoz hasonlóan Duplikátum egyedek kiszűrése

Véletlen változók Kísérlet leírására szolgálnak n kísérlet/mérés eredménye: x1, x2,..., xn P Várható érték: µx = E[X ] = P(X = x) x x X Variancia: Átlagtól való átlagos eltérés P Var (X ) = P(X = x) (x µx )2 = E[(x µx )2 ] = x X E[X 2 ] E2 [X ] (biz.: táblán) Példa X=[1,4,7] E[X ] = (1 + 4 + 7)/3 = 4 E[X 2 ] = (1 + 16 + 49)/3 = 22 Var (X ) = 22 42 = 6

Egy kis algebra (ami még jól fog jönni) s Euklideszi távolság: k a k2 = d P i=1 ai2 Belső szorzat, skalárszorzat: a a = d P i=1 ai2 Sajátérték, sajátvektor Jobboldali sajátérték: Ax = λx x 6= 0 det(a λi ) = 0 (Miért?) 3 20 pl. A= > λ2 7λ 8 = 0 20 4 Baloldali sajátérték: ya = λy