Gépi tanulás a gyakorlatban. Bevezetés



Hasonló dokumentumok
Gépi tanulás a gyakorlatban. Lineáris regresszió

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

1. gyakorlat. Mesterséges Intelligencia 2.

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Adatbányászati szemelvények MapReduce környezetben

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Support Vector Machines

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Kódverifikáció gépi tanulással

Grafikonok automatikus elemzése

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

EEE Kutatólaboratórium MTA-SZTAKI Magyar Tudományos Akadémia

Követelmény a 7. évfolyamon félévkor matematikából

Csoportmódszer Függvények I. (rövidített változat) Kiss Károly

Adatbányászati technikák (VISZM185) 2015 tavasz

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Természetismeret. 1. A természettudományos nevelés folyamatában történő kompetenciafejlesztés lehetőségei az alsó tagozaton.

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

Intelligens adatelemzés

Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr.

Mesterséges intelligencia alapú regressziós tesztelés

Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten)

TANMENET. IV: Béla Általános Iskola Iskola címe: 3664 Járdánháza IV. Béla út 131. Csoport életkor (év): 14 Kitöltés dátuma (év.hó.nap):

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2.

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Függvények Megoldások

A 2017/2018 tanévi Országos Középiskolai Tanulmányi Verseny első fordulójának feladatai. INFORMATIKA II. (programozás) kategória

Ujjszámlálás Matlab segítségével

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

Gyors sikerek adatbányászati módszerekkel

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Takács Katalin - Elvárások két értékelési területen. Az értékelés alapját képező általános elvárások. Az értékelés konkrét intézményi elvárásai

b) Ábrázolja ugyanabban a koordinátarendszerben a g függvényt! (2 pont) c) Oldja meg az ( x ) 2

7. Régió alapú szegmentálás

Használati útmutató Az online példatárhoz

Gépi tanulás a gyakorlatban SVM

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Gépi tanulás és Mintafelismerés

Adatbázis rendszerek Definíciók:

Neurális hálózatok bemutató

Relációk Függvények. A diákon megjelenő szövegek és képek csak a szerző (Kocsis Imre, DE MFK) engedélyével használhatók fel!

MS ACCESS 2010 ADATBÁZIS-KEZELÉS ELMÉLET SZE INFORMATIKAI KÉPZÉS 1

AZ ISKOLAI TEHETSÉGGONDOZÁS KRITIKUS ELEMEI

RE 1. Relációk Függvények. A diákon megjelenő szövegek és képek csak a szerző (Kocsis Imre, DE MFK) engedélyével használhatók fel!

Áldás Utcai Általános Iskola

Rendszámfelismerő rendszerek

Áldás Utcai Általános Iskola

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

Nem tanári mesterképzést követően ugyanazon szakmából a középiskolai tanári szakképzettség megszerzése 2 félév, 60 kredit

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

} számtani sorozat első tagja és differenciája is 4. Adja meg a sorozat 26. tagját! A = { } 1 pont. B = { } 1 pont. x =

kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

HELYZETELEMZÉS A TELEPHELYI KÉRDŐÍV KÉRDÉSEIRE ADOTT VÁLASZOK ALAPJÁN

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

3D - geometriai modellezés, alakzatrekonstrukció, nyomtatás

2014. szeptember 24. és 26. Dr. Vincze Szilvia

2) Írja fel az alábbi lineáris függvény grafikonjának egyenletét! (3pont)

Verzió Dátum Szerkesztő Módosítás leírása CLIPPER verzió

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

Összeállította Horváth László egyetemi tanár

FIT-jelentés :: Szent István Közgazdasági Szakközépiskola és Kollégium 1095 Budapest, Mester u OM azonosító: Telephely kódja: 001

A PhysioBank adatmegjelenítő szoftvereinek hatékonysága

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FIT-jelentés :: Telephelyi jelentés. Tanulási környezet

Az egyenes egyenlete: 2 pont. Az összevont alak: 1 pont. Melyik ábrán látható e függvény grafikonjának egy részlete?

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉP SZINT Függvények

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

FIT-jelentés :: Telephelyi jelentés. 10. évfolyam :: Szakközépiskola

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

ACTA CAROLUS ROBERTUS

A évi OKM jelentés értelmezése, az iskola pedagógiai munkájának elemzése

A szimplex algoritmus

end function Az A vektorban elõforduló legnagyobb és legkisebb értékek indexeinek különbségét.. (1.5 pont) Ha üres a vektor, akkor 0-t..

Klaszterezés. Kovács Máté március 22. BME. Kovács Máté (BME) Klaszterezés március / 37

Móricz Zsigmond Általános Iskola és Óvoda

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉP SZINT Függvények

MATEMATIKA ÉRETTSÉGI május 8. EMELT SZINT

ESCO és EQF: online európai rendszerek a foglalkozások, készségek és képesítések átláthatóságáért

Vörösmarty Mihály Gimnázium

KLASZTERANALÍZIS OSZTÁLYOZÁS

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Új műveletek egy háromértékű logikában

Tantárgyi koncentráció: Rajz, magyar, matematika, környezetismeret

Bajza Lenke Általános Iskola

Átírás:

Gépi tanulás a gyakorlatban Bevezetés

Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis Hírek téma szerinti automatikus csoportosítása Jelentős kereslet a gépi tanulásban jártas programozókra

Spam detekció Probléma: rengeteg kéretlen spam e-mail Megoldás: szűrjük ki a spam-et Spam levelek gépi úton történő felismerése nem triviális: Szabály alapú megközelítés gyorsan kijátszható, rugalmatlan Jó megoldás: tanuljuk meg, hogy mi a spam Tanulás feltétele: Gyűjtsünk példákat, amelyekben kézzel be van jelölve, hogy spam vagy nem. Tanuló algoritmusok használatával készítsünk szűrőt. Alkalmazzuk a szűrőt minden bejövő levélre Publikus adatbázisok: UCI Spambase dataset Spamassassin Public Corpus

Karakter felismerés Probléma: digitális képeken szereplő akár kézzel írott karakterek képihez rendeljük hozzá a tényleges karaktert Nehézség: eltérő írásmódok, nyomtatási hibák, stb... szabály alapú megoldás nehézkes, kevéssé hibatűrő Megoldás: Gyűjtsünk adatbázisokat, ahol a képekhez, hozzá vannak rendelve a kívánt karakterek Dolgozzuk fel a képeket Alkalmazzunk tanuló módszert a leképezés megtanulására A tanultakat használjuk újonnan írott karakterek felismerésére

Szociális háló elemzés Probléma: Szeretnénk csoportokat azonosítani egy szociális hálóban A csoport alatt bizonyos szempontból összetartozó, egyedeket értünk (pl. ugyan ott dolgoznak, hasonló ízléssel rendelkeznek) A csoportokról nincs előzetes információnk Megoldás: Adjunk hasonlósági függvényt Nagyon fontos különbség!!! Gépi tanuló algoritmus segítségével azonosítsuk a csoportokat Az új személyeket soroljuk abba a csoportba amelyhez (amely reprezentáns eleméhez) a legközelebb van

Gépi tanulás általában Mi volt a közös a fenti példákban? Két fázis: tanulás felhasználás Spam detekció esetén: tanuló adatbázis: (e-mail,spam/nem spam címke) párok halmaza modell: tudás, ami alapján elvégezhető a címkézés (spam/ nem spam döntés) adatok: e-mail-ek információ az adatokról: spam/ nem spam címkék a megfelelő e-mail-ekre Tanulás Tanító adatbázis Tanuló algoritmus Modell Adatok Felhasználás Modell Információ az adatokról

Gépi tanulás általában Mi volt a közös a fenti példákban? Két fázis: tanulás felhasználás Karakter felismerés esetén: tanuló adatbázis: (kép,karakter) párok halmaza modell: tudás, ami alapján elvégezhető a címkézés adatok: karaktereket ábrázoló képek információ az adatokról: karakterek hozzárendelése a megfelelő képekhez Tanulás Tanító adatbázis Tanuló algoritmus Modell Adatok Felhasználás Modell Információ az adatokról

Gépi tanulás általában Mi volt a közös a fenti példákban? Két fázis: tanulás felhasználás Szociális háló elemzés esetén: tanuló adatbázis: szociális háló egyedei modell: csoport (reprezentáns) adatok: szociális háló egyedei információ az adatokról: csoporthoz rendelés Tanulás Tanító adatbázis Tanuló algoritmus Modell Adatok Felhasználás Modell Információ az adatokról

Gépi tanulás általában Szociális háló elemzés esetén: tanuló adatbázis: szociális háló egyedei modell: csoport (reprezentáns) adatok: szociális háló egyedei információ az adatokról: csoporthoz rendelés Felügyelet nélküli (unsupervised) tanulás! Mi különbözik? Eltérés az adatok szerkezetében! Karakter felismerés esetén többlet információ! Karakter felismerés esetén: tanuló adatbázis: (kép,karakter) párok halmaza modell: tudás, ami alapján elvégezhető a címkézés adatok: karaktereket ábrázoló képek információ az adatokról: karakterek hozzárendelése a megfelelő képekhez Felügyelt (supervised) tanulás! Tanulás Tanító adatbázis Tanuló algoritmus Modell Felhasználás Adatok Modell Információ az adatokról

Jellemző kinyerés A tanulás és a felhasználás megkezdése előtt a nyers adatok feldolgozása szükséges Jellemző kinyerés: nyers adatokból R d -beli vektor reprezentáció készítése minden tanuló példa egy vektor. Példák: E-mail szövegek: választott szavak (dimenzió) előfordulásaiból álló vektor Karakterek képei: régiókhoz (dimenzió) kapcsolódó sűrűségi statisztikák Szociális háló egyedei: választott tulajdonság, preferencia (dimenziók) meglétéből képzett vektor Minden tanító példa elképzelhető egy vektorként. A segéd információk (spam/nem spam, karakter) felírható számként. Tanulás Tanító adatbázis Tanuló algoritmus Modell Előfeldolgozás: Jellemző kinyerés Tisztítás Normalizáció Centralizáció Felhasználás Adatok Modell Információ az adatokról

Felügyelt/felügyelet nélküli tanulás A gépi tanulási feladatok és így a felhasznált módszerek feloszthatók informáltság szerint: Felügyelt tanulás/módszer: A tanító adatbázis olyan, hogy a tanuló példákhoz a feladat megoldására vonatkozó közvetlen információk is rendelkezésre állnak. Pl. osztályozási feladat, ahol az osztálycímkék adottak (pl. karakter felismerés, spam detekció) Felügyelet nélküli tanulás/módszer: A tanító adatbázisban nincs közvetlen segéd információ a megoldásra vonatkozóan. Pl. a módszernek kell felderítenie a nyers adatok alapján az adatbázisban rejlő belső struktúrákat, csoportokat; azaz klaszterezni, csoportokba sorolni kell azokat (pl. szociális hálózatban azonos preferenciával rendelkező csoportok azonosítása) Félig felügyelt tanulás/módszerek: A fenti két típusú adatokat egyszerre tartalmazó adatbázissal rendelkező feladatok. Pl. természetes nyelven íródott hírek valamilyen szempont szerinti releváns/nem releváns osztályozása során, felhasználhatunk az interneten elérhető bármilyen szövege, mint címkézetlen adat.

1. Kvíz: Szeretnénk előrejelezni ingatlanok árait. Ehhez a rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják le. Az adathalmaznak két oszlopa van. Az első az ingatlanok területét, a második az ingatlanok árait tartalmazza. Ez a probléma: 1. Felügyelet nélküli 2. Felügyelt Kvíz 3. Félig felügyelt 4. Nem gépi tanuló feladat

Felügyelt tanulás Regresszió Legyen adott az előbb említett adatbázis. Szeretnénk előrejelezni ingatlanok árait. Ehhez a rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják le. Az adathalmaznak két oszlopa van. Az első az ingatlanok területét, a második az ingatlanok árait tartalmazza. Ez megjeleníthető az ábrán látható formában Az egyenes egy lehetséges modellt ábrázol, amit a tanítás során előállítottunk A felhasználás során a bejövő példák (ár nélkül, csak terület) árát az egyenes határozza meg (modell). Felügyelt módszer, valós segéd információval regressziós feladat A modell egyenes (sík) Lineáris regresszió

Felügyelt tanulás Osztályozás Legyen adott egy előfeldolgozott spam detekciós adatbázis. Az előfeldolgozás során két szó meglétét vizsgáltuk: rolex: (x1 értéke n, ha n-szer szerepel az e-mailben a rolex szó) elad: (x2 értéke n, ha n-szer szerepel az adott e-mailben az elad szó) Az osztály címke bináris (y): 1 (piros x), ha az adott levél spam, 0 (kék o), ha nem Felügyelt módszer, diszkrét segéd információval osztályozási feladat A modell egyenes (sík) Szeparáló hipersík Szeretnénk előrejelezni hogy egy levél spam vagy nem. Ez megjeleníthető az ábrán látható formában Az egyenes egy lehetséges modellt ábrázol, amit a tanítás során előállítottunk A felhasználás során a bejövő példák (x1,x2) címkéjét az alapján határozzuk meg, hogy az egyenes (modell) melyik oldalára esik.

Felügyelet nélküli tanulás Klaszterezés Legyen adott egy előfeldolgozott piac szegmentálási adatbázis. Az adatbázis emberek film kölcsönzési szokásairól tartalmaz információt 2 dimenzióban: akció film kölcsönzése: (x1 értéke n, ha n darab akciófilmet kölcsönzött ki az adott ember 1 hét alatt) vígjáték film kölcsönzés: (x2 értéke n, ha n darab vígjátékot kölcsönzött ki az adott ember 1 hét alatt) Szeretnénk azonosítani a hasonló szokásokkal rendelkező kölcsönzők csoportjait. Ez megjeleníthető az ábrán látható formában Az körök egy lehetséges klaszterezést ábrázolnak (modell) Modelleket középpontjukkal azonosíthatjuk A felhasználás során a bejövő példák (x1,x2) csoportját az alapján határozzuk meg, hogy melyik kalszter középponthoz (modell) esik közelebb. Felügyelet nélküli módszer módszer, csoportok keresése klaszterezés

Weka demo A kurzus további részében konkrét tanuló algoritmusok megismerésére fogunk fókuszálni. Szerencsére, ha éles alkalmazásban akarjuk használni őket, akkor nem kell mindent leprogramoznunk, mivel számos könyvtár/alkalmazás áll a rendelkezésünkre: Weka Mahout Azt viszont nagyon fontos látni, hogy megfelelő ismeretek hiányában nagyon könnyen lehet hibásan alkalmazni az algoritmusokat! A félév során erre több példát is fogunk látni.