Gépi tanulás A szükséges mintaszám krlát elemzése Pataki Béla (Blgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki
A Russell-Nrvig könyv n=10 bemenetű lgikai (Ble) függvény példája bár maga a könyv nagyn jó nagyn rssz példa 10 bemenetű Ble függvénynél n=10, =0,01 és =0,01 esetén: 100*(2 10 *ln(2)-ln(0.01))=100*(2 10 *ln(2)ln(100))= =70518m DE!!! összesen 1024 mintát lehet létrehzni egy knkrét 10-bemenetű Ble függvénynél!
Általánsan is igaz: 1 ln ln H m ahl 2 H 2 n 2 n 2 n n 1 n 1 1 2 2 ln(2) ln 2 ln 2 ln m ln(2)0,69, tehát ha <0,69 (69% hiba!), akkr ln(2)/ >1. Tehát, ha a megkövetelt hibaarány kisebb 69%-nál, és a biznysságunk nagybb 0-nál (0<1-, tehát <1, azaz ln()<0), akkr az egyáltalán lehetséges 2 n mintánál mindig (!) nagybb az alsó krlát! A krlát nagyn rssz, de miért?
Demnstratív példa: n-dimenziós térben kétsztálys sztályzás ún. perceptrnnal j1 A véges hiptézistér méretet úgy érjük el, hgy a súlyk nem lehetnek tetszőlegesek, csak egy véges elemkészletből választhatjuk a súlykat. Ez látszólag életidegen krlátzás, de a valóságban gyakrlatilag szinte mindig ez a helyzet: a számítógépünk, ha nagy készletet biztsít is skbites ábrázlásával, valójában csak egy véges halmazból képes súlykat ábrázlni. Ugyanakkr egyes esetekben, amikr nagy sebességű számításra van szükségünk, a hardver lehetőségek kihasználására tvább krlátzzuk a használható súlykat, például csak a {-1,0,1} halmazt használjuk, más esetekben 2 hatványainak valamilyen körét. ( h) j h( x) signum( w x ) n j
A keresett, igazi sztályzó, amit példák alapján tanítunk: Azaz: j1 ( f ) j f ( x) signum( w x ) signum( x 2 x ) ( f) ( f) 1 2 w 2 és w 1 Ez az x 1 -x 2 síkn egy egyenes két ldala, a határ: n j 2 1 x 2x 0 x 2x 2 1 2 1
Legyen a hiptézishalmaz: ( h) ( h) 1, 2 1, 2,..., 6 2,1, 2,2, 2,4, 4,2, 1,2, 1,4 H w w h h h H = 6 10 x2 8 6 4 2 0-2 -4-6 -8 : Osztály1 pntjai h5(x) h2(x) h3(x) h1(x)=f(x) : Osztály2 pntjai h4(x) h6(x) -10-5 -4-3 -2-1 0 1 2 3 4 5 x1
Először vizsgáljuk meg a hiptéziseink hibáit (10.000 mintapnttal végzett szimulációval már elég pntsan vizsgálható, elvileg gemetriai megfntláskkal pnts eredményt is kaphatnánk): hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.75 0.75 0.63 0.69 0.75
= 1% hiba és 1-=98% biznysság mellett: 1 0,01 ln(6) ln(0, 02) 570,37 m Ha a krlát jól közelíti a pnts mintaszám-szükségletet: m=571 mintapnttal 10.000 szimulációt végezve elvileg 200 (2%) körül kéne legyen azn esetek száma, hgy legalább 1 hiptézis knzisztens az 571 pnttal, de később 1%-nál nagybbat hibázik (ez utóbbi mndjuk minden rssz hiptézisünkre teljesül). Egyet se találunk! De még N=57 mintapnt és 100.000 szimuláció esetén sem!
Gndljuk végig, hgy a könyvben ismertetett levezetés melyik pntján közelítettünk úgy, hgy az ilyen nagy eltérést eredményezett! A következő dlg tűnhet fel: rögtön a levezetés elején azt mndtuk, hgy előírásunk szerint a jó hiptézis hibája kisebb, mint, a rssz hiptézisé nagybb, tehát pntssága kisebb, mint (1-). A knkrét példánkban az =0,01 előírt értékkel számltunk, de láttuk, hgy a rssz hiptéziseink tényleges hibája 0,63 0,75, azaz másfél nagyságrenddel nagybb, mint az általunk felállíttt krlát.
Mi azt mndtuk, hgy pl. 57 minta esetén annak valószínűsége, hgy az 57 pnttal mind knzisztens lesz egy rssz (nem VKH) hiptézis, kisebb, mint (1-0,01) 57 =0,564, ami természetesen igaz, ha a megengedett hiba 0,01 megfelel a valóságnak. A prbléma az, hgy még a legjbb rssz hiptézisünk hibája is 0,63 ebből a tényleges értékből számítva (1-0,63) 57 10-25! Tehát ha az általunk előírt hibával számlunk, de a tényleges hiptézishiba ennél jóval nagybb, akkr az hatványzttan érvényre jut a hibaszámításnál. Meg kell jegyeznünk, hgy még 5%-s tényleges hiptézishiba esetén is jelentős az eltérés: (1-0,05) 57 =0,053, ami egy nagyságrenddel (de már csak egy nagyságrenddel!) kisebb annál, mint amivel számltunk.
Ehhez képest pl. a későbbi (1-) e - közelítés (különösen kis hiba esetén) nem kz már nagyságrendi váltzást: 1 0.9 0.8 0.7 0.6 0.5 e -eps 0.4 0.3 0.2 1-eps 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 eps
Módsítsuk a hiptézisteret: n ( f ) f x signum wj x j signum x2 x1 ( h) ( h) j1 H w, w h, h,..., h 2,1, 20,11, 20,9, 40, 21, 40,19, 60, 29 ( ) ( ) ( 2 ) 1 2 1 2 6 15 h1(x)=f(x) x2 10 5 0-5 h4(x) : Osztály1 pntjai : Osztály2 pntjai h2(x) h6(x) -10 h5(x) h3(x) -15-5 -4-3 -2-1 0 1 2 3 4 5 x1
hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.024 0.025 0.012 0.012 0.007 1 0,01 ln(6) ln(0, 02) 570,37 N hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.024 0.025 0.012 0.012 0.007 A 10.000 kísérletből hányszr vlt knzisztens mind az 10.000 0 0 7 3 80 N=571 mintával A hiptézis jó/rssz (VKH) (=0,01 hibánál jbb-e) A mintaszám becslő képlet hány kísérletben nem biztsíttta a jó hiptézis kiválasztását? JÓ/IGAZI ROSSZ ROSSZ ROSSZ ROSSZ JÓ 0 0 0 0,07% 0,03% 0%
Ebben a demnstratív esetben úgy alakult, hgy a h4 és h5 hiptézisek sha nem vltak egyszerre knzisztensek az 571 mintával, tehát összesen 73=10 esetben, azaz 0,001 (0,1%) arányban frdult elő, hgy az 571 mintával való knzisztencia valamelyik rssz hiptézisre teljesült. Ez ugyan még mindig 20-szr kisebb, mint az összefüggésben felhasznált =0,02, de már nincs több nagyságrendnyi különbség. Tanulság; a következő esetben visznylag jó a krlát: H H H szintejó rssz