Gépi tanulás. A szükséges mintaszám korlát elemzése. Pataki Béla (Bolgár Bence)

Hasonló dokumentumok
Mesterséges Intelligencia MI

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

FIZIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

A biostatisztika és informatika szerepe a mindennapi orvosi gyakorlatban

Dr`avni izpitni center MATEMATIKA

MATEMATIKA C 12. évfolyam 5. modul Ismétlés a tudás anyja

Osteodenzitometriás szûrõvizsgálat eredményeinek értékelése

I. Adatok, adatgyűjtés

SARKÍTOTT FÉNNYEL A VIKINGEK NYOMÁBAN AZ ÉSZAKI-SARKVIDÉKEN A polarimetrikus viking navigáció légköroptikai feltételeinek kísérleti vizsgálata

A HÁLÓ KÖZÖSSÉG MISSZIÓJA A KÁRPÁT-MEDENCÉBEN

Esztergom Város integrált településfejlesztési stratégiája

Verzió CompLex Officium Felhasználói kézikönyv

L E V E G Ő M U N K A C S O P O R T

Hidrosztatikai problémák

Mélyhúzás lemezanyagai és minősítési módszereik. Oktatási segédlet.

L E A D E R

Az országos kompetenciamérések feldolgozásának tapasztalatai Hajdú-Bihar Megyében

A 2016-os tervekről is röviden egypár szót ejtenék

Kurzuseredmények statisztikai adatokkal

BILIÁRD TIPPEK Sorozat I. RÉSZ: Játszd a biliárd 8-as játékot a VERSENYSZABÁLYOK szerint!

Kerékpárosokra vonatkozó legfontosabb ismeretek 3. rész Oldal 1

Közlekedési Tagozat. A Tagozat együttműködést kezdeményező megkereséssel fordult a Közlekedéstudományi Egyesület felé. A megkeresésre pozitív válasz

LiPo akkumulátorok kezelése: LiPo akkumulátorok előnyei a NiMh-val szemben:

Alapvető formázási műveletek a Word 2003 programban

Kurzus- és tananyageredmények

Panini A V3/0211

Példák. Ismert a római számok halmaza, amely intuitív szintaxissal rendelkezik, hiszen pl.

LUDA SZILVIA. sikerül egységnyi anyagból nagyobb értéket létrehozni, gyorsabban nő a GDP, mint az anyagfelhasználás.

Kiadói díjbeszedésű hírlapok előfizetői állományának adatcseréje

Dr. Fóriánné Horváth Margit A bankári biztosítékok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kézikönyv és útmutató Átlátható webelemzés ShopRenter áruházaknak

Összehasonlító fogyasztásmérési módszer városi, elővárosi és távolsági autóbuszokhoz

2006. március, - Solymár, Waldorf képzés. GRAVITÁCIÓ LEVITÁCIÓ A közösségekre ható gyógyító és megbetegítő erőkről

Kutatási gyorsjelentés Zugló közbiztonságának megítélése. "Egy jó szó Zuglóban" április

620. témaszámú nemzetközi könyvvizsgálati standard A könyvvizsgáló által igénybe vett szakértő munkájának felhasználása







Tájékoztató a évi pedagógiai-szakmai ellenőrzés (tanfelügyelet) és pedagógusminősítések szakértői feladataival kapcsolatban

Az anyagok mágneses tulajdonságainak leírásához (a klasszikus fizika szintjén) az alábbi összefüggésekre van szükségünk. M m. forg

A SZŐKE TISZA pusztulása és a jogi felelősség kérdése

Aktív idõskor Generációk egészsége

Mérési hibák

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

Általános előírások. Az előírások hatálya. Jelen építési szabályzat hatálya Vinár község (továbbiakban település) igazgatási területére terjed ki.

INFORMATIKAI STRATÉGIA

Kurzus eredményei meghívásokkal

HOGYAN TUDUNK KIALAKÍTANI OLYAN ÉRTÉKESÍTÉSI OUTSOURCING RENDSZERT, AMELY VALÓBAN EREDMÉNYEKET HOZ ÉS CSÖKKENTI KÖLTSÉGEINKET?

NAGYERDEI TEREP MARATON FÉL MARATON ÉS NEGYED MARATON. Ahol a futó és a futás van a középpontban

Turisztikai attrakciók és szolgáltatások fejlesztése c. konstrukciójához. Kódszám: DDOP-2.1.1/D-12, KDOP-2.1.1/D-12, NYDOP-2.1.1/F-12 DAOP-2.1.

EGT FINANSZÍROZÁSI MECHANIZMUS ENERGIAHATÉKONYSÁG PROGRAMTERÜLET BESZÁLLÍTÓI WORK-SHOP EMLÉKEZTETŐ

MINŐSÍTÉSI SZABÁLYZAT 2016

ZÁRÓ VEZETŐI JELENTÉS TEVÉKENYSÉGELEMZÉS ÉS MUNKAKÖRI LEÍRÁSOK KÉSZÍTÉSE SZÁMÍTÓGÉPES ADAT- BÁZIS TÁMOGATÁSÁVAL

Hydro-Probe Orbiter Használati útmutató

10XONE Szoftver és szolgáltatási szerződés Általános Szerződési Feltételek (ÁSzF) XONE V3.3 SZERZŐDÉS

EURÓPAI BIZOTTSÁG KKK FŐIGAZGATÓSÁG KÖZÖS KUTATÓKÖZPONT Fejlett technológiai tanulmányok intézete

1. Alapfogalmak Információ o o

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Peltier-elemek vizsgálata

MATEMATIKA C 12. évfolyam 3. modul A mi terünk

A fogyasztói tudatosság növelése. az elektronikus hírközlési piacon

Logisztikai központok és szolgáltatások fejlesztése pályázati konstrukció


ALKALMASSÁGI ÉS MEGFELELÉSI KÉRDŐÍV Természetes személyek részére A 2007.évi CXXXVIII. törvény alapján

ALKALMASSÁGI ÉS MEGFELELÉSI KÉRDŐÍV Jogi személyek és jogi személyiséggel nem rendelkező személyek részére A 2007.évi CXXXVIII.

MEGBÍZÁS TÍPUSOK LIMITÁRAS MEGBÍZÁS (LIMIT VAGY LIMIT ORDER)

HIBAJEGYZÉK az Alapvető fizikai kémiai mérések, és a kísérleti adatok feldolgozása

Matematika C 10. osztály 8. modul Terv és valóság

PÁLYÁZATI FELHÍVÁS. Észak-Magyarországi Operatív Program

Használói elégedettségi felmérés a Nyírbátori Városi Könyvtárban

I. A megküldött tervhez érkezett szakhatósági állásfoglalások és önkormányzati válaszok:

R. Durand és R. Limagne - Barlangász Balesetek Megelőzése

[1000 ; 0] 7 [1000 ; 3000]

Diszkréten mintavételezett függvények

Tóth Bea Amaraya Nem fogadod el magadat: Nem értékeled magadat / értékeidet: Gyermek kori tévhitek: Ingerszegény környezetben nőttél fel

Sárospatak Város Polgármesterétıl

Testépítés. Kovács Zoltán (Nyíregyházi Főiskola Debreceni Egyetem) zeus.nyf.hu/ kovacsz július 7.

World Robot Olympiad2019. Advanced Robotics Kategória. Játékleírás, Szabályok és Pontozás. Okos Üvegház. Verzió: December 4.

VBexpress 9.0 verzió új képességei

1/5. Hirdetmény. Akciók kondíciói. 3/2010. Eszköz Forrás Bizottsági határozattal elfogadva, érvényes tól A JÖVŐRE TERVEZVE!

TAKARMÁNYADAGOK OPTIMALIZÁLÁSA EGYSZERŰEN

17. tétel: Egybevágósági transzformációk. Szimmetrikus sokszögek.

KÍNÁBÓL MEGRENDELT ÉS ELŐRE

Visszapillantó Bluetooth tükör autós készlet

Dáka Község Helyi Építési Szabályzata

JELENTÉS. az önkormányzatok évi normatív állami hozzájárulás igénybevételének és elszámolásának ellenőrzési tapasztalatairól július 212.

Oktatási segédanyag Boldog Sándor István születésének 100. évfordulójára

Esszédolgozat. Andrássy-Culmann Eszter. Havas Melinda. Thén Wanda

A felülvizsgálatok során feltárt hibákat a döntések tartalmához igazodó sorrendben csoportosítottuk.

Turisztikai alkalmazás készítése, GSM alapú helymeghatározás

2014. szeptember 24. és 26. Dr. Vincze Szilvia

Kristályszerkezetek és vizsgálatuk

Evolúciós algoritmusok bevezetés

Felhasználási feltételek 1.2

A nyilvános tér, művészet és társadalom viszonyrendszere

HÁZIREND. A gyermek óvodában tartózkodásának maximális ideje: heti 50 óra (a közoktatási törvény 24. (4) pontjának értelmében)

Átírás:

Gépi tanulás A szükséges mintaszám krlát elemzése Pataki Béla (Blgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki

A Russell-Nrvig könyv n=10 bemenetű lgikai (Ble) függvény példája bár maga a könyv nagyn jó nagyn rssz példa 10 bemenetű Ble függvénynél n=10, =0,01 és =0,01 esetén: 100*(2 10 *ln(2)-ln(0.01))=100*(2 10 *ln(2)ln(100))= =70518m DE!!! összesen 1024 mintát lehet létrehzni egy knkrét 10-bemenetű Ble függvénynél!

Általánsan is igaz: 1 ln ln H m ahl 2 H 2 n 2 n 2 n n 1 n 1 1 2 2 ln(2) ln 2 ln 2 ln m ln(2)0,69, tehát ha <0,69 (69% hiba!), akkr ln(2)/ >1. Tehát, ha a megkövetelt hibaarány kisebb 69%-nál, és a biznysságunk nagybb 0-nál (0<1-, tehát <1, azaz ln()<0), akkr az egyáltalán lehetséges 2 n mintánál mindig (!) nagybb az alsó krlát! A krlát nagyn rssz, de miért?

Demnstratív példa: n-dimenziós térben kétsztálys sztályzás ún. perceptrnnal j1 A véges hiptézistér méretet úgy érjük el, hgy a súlyk nem lehetnek tetszőlegesek, csak egy véges elemkészletből választhatjuk a súlykat. Ez látszólag életidegen krlátzás, de a valóságban gyakrlatilag szinte mindig ez a helyzet: a számítógépünk, ha nagy készletet biztsít is skbites ábrázlásával, valójában csak egy véges halmazból képes súlykat ábrázlni. Ugyanakkr egyes esetekben, amikr nagy sebességű számításra van szükségünk, a hardver lehetőségek kihasználására tvább krlátzzuk a használható súlykat, például csak a {-1,0,1} halmazt használjuk, más esetekben 2 hatványainak valamilyen körét. ( h) j h( x) signum( w x ) n j

A keresett, igazi sztályzó, amit példák alapján tanítunk: Azaz: j1 ( f ) j f ( x) signum( w x ) signum( x 2 x ) ( f) ( f) 1 2 w 2 és w 1 Ez az x 1 -x 2 síkn egy egyenes két ldala, a határ: n j 2 1 x 2x 0 x 2x 2 1 2 1

Legyen a hiptézishalmaz: ( h) ( h) 1, 2 1, 2,..., 6 2,1, 2,2, 2,4, 4,2, 1,2, 1,4 H w w h h h H = 6 10 x2 8 6 4 2 0-2 -4-6 -8 : Osztály1 pntjai h5(x) h2(x) h3(x) h1(x)=f(x) : Osztály2 pntjai h4(x) h6(x) -10-5 -4-3 -2-1 0 1 2 3 4 5 x1

Először vizsgáljuk meg a hiptéziseink hibáit (10.000 mintapnttal végzett szimulációval már elég pntsan vizsgálható, elvileg gemetriai megfntláskkal pnts eredményt is kaphatnánk): hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.75 0.75 0.63 0.69 0.75

= 1% hiba és 1-=98% biznysság mellett: 1 0,01 ln(6) ln(0, 02) 570,37 m Ha a krlát jól közelíti a pnts mintaszám-szükségletet: m=571 mintapnttal 10.000 szimulációt végezve elvileg 200 (2%) körül kéne legyen azn esetek száma, hgy legalább 1 hiptézis knzisztens az 571 pnttal, de később 1%-nál nagybbat hibázik (ez utóbbi mndjuk minden rssz hiptézisünkre teljesül). Egyet se találunk! De még N=57 mintapnt és 100.000 szimuláció esetén sem!

Gndljuk végig, hgy a könyvben ismertetett levezetés melyik pntján közelítettünk úgy, hgy az ilyen nagy eltérést eredményezett! A következő dlg tűnhet fel: rögtön a levezetés elején azt mndtuk, hgy előírásunk szerint a jó hiptézis hibája kisebb, mint, a rssz hiptézisé nagybb, tehát pntssága kisebb, mint (1-). A knkrét példánkban az =0,01 előírt értékkel számltunk, de láttuk, hgy a rssz hiptéziseink tényleges hibája 0,63 0,75, azaz másfél nagyságrenddel nagybb, mint az általunk felállíttt krlát.

Mi azt mndtuk, hgy pl. 57 minta esetén annak valószínűsége, hgy az 57 pnttal mind knzisztens lesz egy rssz (nem VKH) hiptézis, kisebb, mint (1-0,01) 57 =0,564, ami természetesen igaz, ha a megengedett hiba 0,01 megfelel a valóságnak. A prbléma az, hgy még a legjbb rssz hiptézisünk hibája is 0,63 ebből a tényleges értékből számítva (1-0,63) 57 10-25! Tehát ha az általunk előírt hibával számlunk, de a tényleges hiptézishiba ennél jóval nagybb, akkr az hatványzttan érvényre jut a hibaszámításnál. Meg kell jegyeznünk, hgy még 5%-s tényleges hiptézishiba esetén is jelentős az eltérés: (1-0,05) 57 =0,053, ami egy nagyságrenddel (de már csak egy nagyságrenddel!) kisebb annál, mint amivel számltunk.

Ehhez képest pl. a későbbi (1-) e - közelítés (különösen kis hiba esetén) nem kz már nagyságrendi váltzást: 1 0.9 0.8 0.7 0.6 0.5 e -eps 0.4 0.3 0.2 1-eps 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 eps

Módsítsuk a hiptézisteret: n ( f ) f x signum wj x j signum x2 x1 ( h) ( h) j1 H w, w h, h,..., h 2,1, 20,11, 20,9, 40, 21, 40,19, 60, 29 ( ) ( ) ( 2 ) 1 2 1 2 6 15 h1(x)=f(x) x2 10 5 0-5 h4(x) : Osztály1 pntjai : Osztály2 pntjai h2(x) h6(x) -10 h5(x) h3(x) -15-5 -4-3 -2-1 0 1 2 3 4 5 x1

hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.024 0.025 0.012 0.012 0.007 1 0,01 ln(6) ln(0, 02) 570,37 N hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.024 0.025 0.012 0.012 0.007 A 10.000 kísérletből hányszr vlt knzisztens mind az 10.000 0 0 7 3 80 N=571 mintával A hiptézis jó/rssz (VKH) (=0,01 hibánál jbb-e) A mintaszám becslő képlet hány kísérletben nem biztsíttta a jó hiptézis kiválasztását? JÓ/IGAZI ROSSZ ROSSZ ROSSZ ROSSZ JÓ 0 0 0 0,07% 0,03% 0%

Ebben a demnstratív esetben úgy alakult, hgy a h4 és h5 hiptézisek sha nem vltak egyszerre knzisztensek az 571 mintával, tehát összesen 73=10 esetben, azaz 0,001 (0,1%) arányban frdult elő, hgy az 571 mintával való knzisztencia valamelyik rssz hiptézisre teljesült. Ez ugyan még mindig 20-szr kisebb, mint az összefüggésben felhasznált =0,02, de már nincs több nagyságrendnyi különbség. Tanulság; a következő esetben visznylag jó a krlát: H H H szintejó rssz