Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Hasonló dokumentumok
Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Gépi tanulás. A szükséges mintaszám korlát elemzése. Pataki Béla (Bolgár Bence)

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI

Intelligens orvosi műszerek VIMIA023

[1000 ; 0] 7 [1000 ; 3000]

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Gépi tanulás. Egyszerű döntés tanulása (döntési fák) (Részben Dobrowiecki Tadeusz fóliáinak átdolgozásával) Pataki Béla (Bolgár Bence)

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Neurális hálózatok.... a gyakorlatban

2. A példahalmazban n = 3 negatív és p = 3 pozitív példa van, azaz a példahalmazt képviselő döntési fa információtartalma: I = I(1/2, 1/2) = 1 bit.

Mesterséges Intelligencia MI

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Normális eloszlás tesztje

Intelligens orvosi műszerek VIMIA023

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Mesterséges Intelligencia MI

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mesterséges Intelligencia MI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Valószínűségi változók. Várható érték és szórás

Függvények december 6. Határozza meg a következő határértékeket! 1. Feladat: x 0 7x 15 x ) = lim. Megoldás: lim. 2. Feladat: lim.

Diszkréten mintavételezett függvények

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

6. Előadás. Vereb György, DE OEC BSI, október 12.

Adatbányászati szemelvények MapReduce környezetben







Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

A L Hospital-szabály, elaszticitás, monotonitás, konvexitás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Eredmények kiértékelése

Függvények július 13. Határozza meg a következ határértékeket! 1. Feladat: x 0 7x 15 x ) = lim. x 7 x 15 x ) = (2 + 0) = lim.

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Algoritmusok helyességének bizonyítása. A Floyd-módszer

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Mérési hibák

Biomatematika 2 Orvosi biometria

TANULÁS. I. Logikai formulák tanulása. Tanulási módok. Miért m ködik jól az induktív tanulás? Induktív tanulás

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Biostatisztika VIII. Mátyus László. 19 October

GPK M1 (BME) Interpoláció / 16

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

CHT& NSZT Hoeffding NET mom. stabilis november 9.

Kísérlettervezés alapfogalmak

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Gépi tanulás a gyakorlatban. Lineáris regresszió

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Számelméleti alapfogalmak

Statisztika Elıadások letölthetık a címrıl

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Modellkiválasztás és struktúrák tanulása

First Prev Next Last Go Back Full Screen Close Quit. (L Hospital szabály, Taylor-polinom,

Programozási módszertan. A gépi tanulás alapmódszerei

Biológiai rendszerek modellellenőrzése bayesi megközelítésben

Lineáris regressziós modellek 1

A mérési eredmény megadása

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Robotok inverz geometriája

VIII. INDUKTÍV TANULÁS

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Bevezetés az informatikába

A Riemann-Siegel zeta függvény kiugró értékeinek keresése. A matematikai egyik legnehezebb problémája, avagy a prímszámok misztériuma

1. gyakorlat. Mesterséges Intelligencia 2.

[Biomatematika 2] Orvosi biometria

Egy uttes m odszerek Isp any M arton es Jeszenszky P eter okt ober 18.

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

2. Logika gyakorlat Függvények és a teljes indukció

Mesterséges Intelligencia I. (I602, IB602)

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

Kettőnél több csoport vizsgálata. Makara B. Gábor

S atisztika 2. előadás

Átírás:

Gépi tanulás Hány tanítómintára van szükség? VKH Pataki Béla (Bolgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki

Induktív tanulás A tanítás folyamata: Kiinduló (tanító) mintahalmaz {(x n,d n )}, n=1,,n Például: x 1 =[Kuncsaft= Tele, Altern= Igen, Bár= Nem,...] d 1 :VárniFog= IGAZ h(x) hipotézis, mintákból például: leszűrendő általános szabály/tudás Tanítási algoritmus (hogyan építsük be a mintákban hordozott tudást az eszközbe) Például: döntési fa kialakítása, növesztése

Induktív tanulás A megtanított eszköz felhasználása Új, ismeretlen szituáció leírása: x új Például: x új =[Kuncsaft= Senki, Altern= Nem, Bár= Nem,...] h(x) hipotézis, mintákból leszűrt általános szabály/tudás például: Az új, ismeretlen szituációra ( x új ) javasolt válasz Például: h(x új )= VárniFog= NEM

Számítási tanulási elmélete Hogyan és mennyire tudhatja valaki, hogy a tanulási algoritmusa olyan tudást eredményezett, amely helyesen fogja megjósolni a jövőben a válaszokat? Az induktív tanulásnál: honnan tudjuk, hogy a h (x) hipotézis jól közelíti az f (x) célfüggvényt, ha nem ismerjük f()-et? Az alapelv - bármely, súlyosan hibás hipotézis már kis számú példa vizsgálata után is szinte biztosan megbukik", mivel nagy valószínűséggel legalább egy helytelen eredményt fog jósolni, ( találgatás ) - ezért valószínűtlen, hogy súlyosan hibás lehet olyan hipotézis, amely egy kellően nagy tanuló példahalmazzal konzisztens (a mintahalmaz összes elemére jó választ ad). Természetesen 100% biztonság nincs, de nagyon valószínűtlen! Valószínűleg Közelítőleg Helyes (Probably Approximately Correct). VKH-tanulás (PAC-learning)

Hány példára van szükség adott szintű hibához, és mennyire lehetünk biztosak abban, hogy teljesül a vállalt pontosság (hiba)? X az összes lehetséges példák halmaza (lehet végtelen), D a példák eloszlása. H az összes lehetséges hipotézisek halmaza (komplexitás!) m a tanuló halmaz példáinak száma. Legyen a keresett, valódi f függvény eleme H-nak. h hipotézis f függvényhez képesti hibája a D eloszlású példahalmazon: e( h) P( h( x) f ( x) x D) (megjegyzés 1: miért fontos odatennünk, hogy a D halmaz feltételezésével?) (megjegyzés 2: osztályozásnál e(h) az osztályozási hibaarány, tehát a hipotézis a tanított eszköz más osztályba sorolja a mintát, mint ahova kéne ) h hipotézis közelítőleg helyes, ha eh ( ), ahol kicsi. Tehát legfeljebb ekkora az esély, hogy hibázik egy mintán, azaz a jó válasz esélye legalább: Vizualizáció: P( hvkh ( x) f ( x) x D) e( h) P( h ( x) f ( x) x D) 1 VKH P( h ( x) f ( x) x D) e( h) ROSSZ P( h ( x) f ( x) x D) 1 ROSSZ

Mi annak a valószínűsége, hogy egy alapvetően rossz nem közelítően helyes, nem VKH hipotézis az összes (m db) mintával konzisztens? Mivel h rossz nem VKH, ezért annak valószínűsége, hogy bármelyik adott példára hibázik legalább eh (, tehát annak a valószínűsége, rossz ) hogy egy adott mintára jó eredményt ad legfeljebb P( hrossz ( x) f ( x) x D) 1 Ez esetben annak valószínűsége, hogy egyetlen adott h rossz mind az m példára jó választ ad: P( h jó eredményt ad m példára ) (1 ) m rossz H rossz Annak valószínűsége, hogy az összesen nem VKH hipotézis közül valamelyik konzisztens lesz mind az m mintánkkal: m P( h H konzisztens az m mintánkkal) H (1 ) H (1 ) rossz rossz rossz Hogyan korlátozhatjuk ezt a mintaszámmal? P( h H konzisztens az m mintánkkal) H (1 ) m rossz rossz H (1 ) m m m m (1 ) e közelítés (Taylor-sor) 1 ln H ln m

Ha egy tanuló algoritmus olyan hipotézist ad, amely ennyi megfelelően kiválasztott (véletlen mintavétel) példa esetén is konzisztens, akkor ennek a hipotézisnek legalább 1 valószínűséggel a hibája legfeljebb Más szavakkal valószínűleg közelítőleg helyes. A kívánt példaszám ( és függvénye) 1 ln H ln m a hipotézis tér mintakomplexitása. 7 Példa: ha H 10, és 99% biztonsággal (1- =0,99, azaz =0,01) szeretnénk állítani, hogy a megtanított eszköz hibája nem lesz 5%-nál nagyobb, akkor 1 7 ln(10) ln(0, 01) 414, 46 m 0,05 Tehát, ha m=415 véletlen minta mindegyikével konzisztens a tanított eszközünk,akkor ilyen biztonsággal garantálhatjuk a hibaszintet

Például : f ( X) ( X1 X 2) ( X 4 X 7) X 5 X 2... X 3 ( X10 X 3 X 8) X2 X1 X10 Boole (logikai) függvény f (X) Példa: Tanítsunk meg példák alapján egy 10-bemenetű Boole függvényt! Hány minta kell, ha max. 1%-os hibát 99,9% biztonsággal akarunk garantálni? H 10 2 2 1 1024 ln(2) ln(0, 001) 71669 m 0,01 Összesen hányféle bemeneti minta létezik?

Dilemma: ha nem korlátozzuk a tanuló algoritmus hipotéziseinek terét, akkor az algoritmus nem lesz képes tanulni (a szükséges tanítómintaszám ), ha viszont korlátozzuk, akkor lehet, hogy a valódi, keresett függvényt zárjuk ki. Két kiút a csapdából: keresse az algoritmus a legegyszerűbb hipotézist, de legtöbb esetben a legegyszerűbb hipotézis számítása kezelhetetlen. legtöbb esetben nincs szükségünk pl. a Boole függvények teljes kifejező erejére, ennél kötöttebb nyelvekkel is megoldhatók feladataink.