Csima Judit április 9.

Hasonló dokumentumok
Klaszterezés, 2. rész

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.

Csima Judit február 19.

Csima Judit február 26.

Gépi tanulás a gyakorlatban SVM

Csima Judit május 10.

Fodor Gábor március 17. Fodor Gábor Osztályozás március / 39

Correlation & Linear Regression in SPSS

Számítógéppel irányított rendszerek elmélete. Gyakorlat - Mintavételezés, DT-LTI rendszermodellek

Cluster Analysis. Potyó László

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Statistical Inference

Searching in an Unsorted Database

Create & validate a signature

Egy uttes m odszerek Isp any M arton es Jeszenszky P eter okt ober 18.

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Genome 373: Hidden Markov Models I. Doug Fowler

5. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton

Csima Judit április 29.

The problem. Each unitary transform having eigenvector has eigenvalues in the form of. Phase ratio:

IBM Brings Quantum Computing to the Cloud

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Ensemble Kalman Filters Part 1: The basics

Választási modellek 3

Adatbázisok 1. Rekurzió a Datalogban és SQL-99

Dependency preservation

STUDENT LOGBOOK. 1 week general practice course for the 6 th year medical students SEMMELWEIS EGYETEM. Name of the student:

5. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Lecture 11: Genetic Algorithms

MATEMATIKA ANGOL NYELVEN

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

MATEMATIKA ANGOL NYELVEN

Billentyűzési ritmus alapú azonosítás és hitelesítés érintőképernyős mobileszközökön

MATEMATIKA ANGOL NYELVEN

Eredmények kiértékelése

Mintavételezés, szűrés, outlierek detektálása

INTELLIGENT ENERGY EUROPE PROGRAMME BUILD UP SKILLS TRAINBUD. Quality label system

Computer Architecture

Mapping Sequencing Reads to a Reference Genome

Correlation & Linear Regression in SPSS

TestLine - Angol teszt Minta feladatsor

Léptetőmotorok. Előnyök: Hátrányok:

Visszacsatolt (mély) neurális hálózatok

Vállalati kockázatkezelés jelentősége

Tudományos Ismeretterjesztő Társulat

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

DOAS változások, összefoglaló

Using the CW-Net in a user defined IP network

István Micsinai Csaba Molnár: Analysing Parliamentary Data in Hungarian

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

MATEMATIKA ANGOL NYELVEN

Performance Modeling of Intelligent Car Parking Systems

MATEMATIKA ANGOL NYELVEN MATHEMATICS

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

16F628A megszakítás kezelése

Professional competence, autonomy and their effects

MATEMATIKA ANGOL NYELVEN

Supporting Information

Gyártórendszerek modellezése: MILP modell PNS feladatokhoz

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Adatbányászati technikák (VISZM185) 2015 tavasz

EN United in diversity EN A8-0206/419. Amendment

OLYMPICS! SUMMER CAMP

Tudományos Ismeretterjesztő Társulat

Bakacsi Zsófia Koós Sándor Laborczi Annamária László Péter Matus Judit Pásztor László Szabó József Szatmári Gábor Takács Katalin

Statistical Dependence

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

A golyók felállítása a Pool-biliárd 8-as játékának felel meg. A golyók átmérıje 57.2 mm. 15 számozott és egy fehér golyó. Az elsı 7 egyszínő, 9-15-ig

SAT probléma kielégíthetőségének vizsgálata. masszív parallel. mesterséges neurális hálózat alkalmazásával

Efficient symmetric key private authentication

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

SVM (közepesen mély bevezetés)

Random Forests - Véletlen erdők

MATEMATIKA ANGOL NYELVEN


Az Open Data jogi háttere. Dr. Telek Eszter

Ültetési és öntözési javaslatok. Planting and watering instructions

KÖZELÍTŐ INFERENCIA II.

Előszó.2. Starter exercises. 3. Exercises for kids.. 9. Our comic...17

AZ ACM NEMZETKÖZI PROGRAMOZÓI VERSENYE

Aktuális adózási és szabályozási kérdések a turizmusban 2012-es adóváltozások Személyi jövedelemadó

6. Előadás. Vereb György, DE OEC BSI, október 12.

MATEMATIKA ANGOL NYELVEN

Support Vector Machines

Unit 10: In Context 55. In Context. What's the Exam Task? Mediation Task B 2: Translation of an informal letter from Hungarian to English.

On The Number Of Slim Semimodular Lattices

Nemzetközi Kenguru Matematikatábor

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

TÉRGAZDÁLKODÁS - A TÉR MINT VÉGES KÖZÖSSÉGI ERŐFORRÁS INGATLAN NYILVÁNTARTÁS - KÜLFÖLDI PÉLDÁK H.NAGY RÓBERT, HUNAGI

ACTA CAROLUS ROBERTUS

Széchenyi István Egyetem

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

NYELVPICIK 9. Az it személyes névmás és a this mutató névmás 1/6

Construction of a cube given with its centre and a sideline

Átírás:

Osztályozókról még pár dolog Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. április 9. Csima Judit Osztályozókról még pár dolog 1 / 19

SVM (support vector machine) ez is egy osztályozó ha lineárisan szeparálható a két osztály: cél az, hogy az őket elválasztó senki földje közepén történjen a szeparálás alapfogalom a margin: legalább ekkora távolságra van minden training pont a szeparáló hipersíktól (térben sík, síkon egyenes) Csima Judit Osztályozókról még pár dolog 2 / 19

Support Vector Machines B 1 One Possible Solution Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 67 Csima Judit Osztályozókról még pár dolog 3 / 19

Support Vector Machines B 2 Another possible solution Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 68 Csima Judit Osztályozókról még pár dolog 4 / 19

Support Vector Machines B 2 Other possible solutions Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 69 Csima Judit Osztályozókról még pár dolog 5 / 19

Support Vector Machines B 1 B 2 Which one is better? B1 or B2? How do you define better? Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 70 Csima Judit Osztályozókról még pár dolog 6 / 19

Support Vector Machines B 1 B 2 b 21 b 22 margin b 11 Find hyperplane maximizes the margin => B1 is better than B2 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 71 b 12 Csima Judit Osztályozókról még pár dolog 7 / 19

Miért akarunk nagy margin-t? jobban általánosítódik az ilyen osztályozó: jobban viselkedik az új adatokon kisebb az esélye az overfittingnek: nincs túlságosan rászabva a training adatokra Csima Judit Osztályozókról még pár dolog 8 / 19

Support Vector Machines B 1 w x b 0 w x b 1 w x b 1 b 11 1 (x) 1 if w x b 1 f 2 if w x b 1 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 72 b 12 2 Margin w Csima Judit Osztályozókról még pár dolog 9 / 19

Support Vector Machines 2 We want to maximize: Margin w Which is equivalent to minimizing: 2 w L( w) 2 2 But subjected to the following constraints: f ( x i 1 ) 1 if w x if w x i i b 1 b 1 This is a constrained optimization problem Numerical approaches to solve it (e.g., quadratic programming) Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 73 Csima Judit Osztályozókról még pár dolog 10 / 19

SVM-ről még pár dolog ez csak az intuíció volt, hogy mit akarunk, részletesen nem nézzük, hogy hogyan kell megtalálni a legjobb szeparálást lineárisan nem szeparálható esetekre is van elmélet R-ben package e1071 (ugyanebben a package-ben van naív Bayes osztályozó is és még sok minden más) Csima Judit Osztályozókról még pár dolog 11 / 19

Több osztályozó használata egyszerre Eddig egy osztályozót építettünk és azzal címkéztük az új eseteket Hatékonyabb, ha több osztályozónk van és ezeket egyszerre használjuk: base classifier-eket építek ezeket egymástól függetlenül lefuttatom a többségi címkét választom Csima Judit Osztályozókról még pár dolog 12 / 19

Why does it work? Suppose there are 25 base classifiers Each classifier has error rate, = 0.35 Assume classifiers are independent Probability that the ensemble classifier makes a wrong prediction: 25 i 13 25 i (1 ) i 25 i 0.06 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 80 Csima Judit Osztályozókról még pár dolog 13 / 19

Szükséges feltételek az osztályozók függetlenek legyenek (ez nehezen teljesíthető, de ennek ellenére segít a több osztályozó használata) a base classifier-ek hibája 0.5-nél kisebb legyen (különben együtt még rosszabbak, mint külön-külön) Csima Judit Osztályozókról még pár dolog 14 / 19

Hogy lesz több osztályozónk? az input változók változtatásával ezek részhalmazait figyelembe véve építek osztályozókat pl. random forest, ha döntési fákról van szó címkék manipulásával ha sok címke van, akkor ezeket kettéosztom és minden (néhány) kettéosztáshoz készítek osztályozót új sor osztályozásánál minden osztályozó egy szavazatot generál azoknak a címkéknek, amik az általa választott részhalmazba esnek a végén a legtöbb szavazatot kapó címke nyer az osztályozót előálĺıtó algo módosításával pl. ANN-nél a hálózat topológiája vagy kezdő Θ változtatása döntési fáknál: nem a legjobb vágást veszem, hanem a legjobb k közül egyet véletlenszerűen training set darabolásával (erről mindjárt) Csima Judit Osztályozókról még pár dolog 15 / 19

General Idea D Original Training data Step 1: Create Multiple Data Sets... D 1 D 2 D t-1 D t Step 2: Build Multiple Classifiers C 1 C 2 C t -1 C t Step 3: Combine Classifiers C * Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 79 Csima Judit Osztályozókról még pár dolog 16 / 19

Egy training setből több osztályozó ha nagyon sok training adat van: szétbontás diszjunkt részekre és mindből egy osztályozó bagging: visszatevéses mintavételezés, n elemű mintákat álĺıtok elő úgy, hogy újra és újra húzok visszatevéssel az eredeti training setből egymástól függetlenül több, azonos elemszámú mintát készítek így minden mintában ugyanakkora esélye vanegy rekordnak a bekerülésre boosting: egymás után készítem a mintákat, egy minta kiválasztása függ az előző mintán felépített osztályozó teljesítményétől az egyes rekordok bekerülési valószínűségei változnak az egyes mintáknál az előző körben nem jól osztályozott rekordok nagyobb vgel kerülnek be a következő körbe Csima Judit Osztályozókról még pár dolog 17 / 19

Bagging Sampling with replacement Original Data 1 2 3 4 5 6 7 8 9 10 Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9 Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2 Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7 Build classifier on each bootstrap sample Each sample has probability (1 1/n) n of being selected Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 82 Csima Judit Osztályozókról még pár dolog 18 / 19

Boosting Records that are wrongly classified will have their weights increased Records that are classified correctly will have their weights decreased Original Data 1 2 3 4 5 6 7 8 9 10 Boosting (Round 1) 7 3 2 8 7 9 4 10 6 3 Boosting (Round 2) 5 4 9 4 2 5 1 7 4 2 Boosting (Round 3) 4 4 8 10 4 5 4 6 3 4 Example 4 is hard to classify Its weight is increased, therefore it is more likely to be chosen again in subsequent rounds Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 84 Csima Judit Osztályozókról még pár dolog 19 / 19