Mesterséges Intelligencia MI A szükséges mintaszám krlát elemzése Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki
Mit is jelent az eredmény, ha pnts lenne (nem egy túl szigrú - alsó krlát), hgyan használhatnánk? Példa: Kétsztálys (bináris) sztályzási feladatt ldunk meg. 10 paramétert mértünk minden mintán, és a véletlen módn kiválaszttt mért és minősített (ismert sztálybasrlású) 13.000 minta alapján egy egyszerű perceptrnt (eltlás paraméterrel is rendelkező lineáris eszközt) tanítttunk, amelynek minden paraméterét 8 biten ábrázltuk. A tanítás végén 100%-s pntsságt értünk el a tanítóminta halmazn. Az eszközt 500 euróért tudjuk eladni, de ha nem teljesíti a kívánt 97% pntsságt majd az új mintákn, akkr 50.000 euró kártérítést kell fizetnünk. Várhatóan nyereséges lesz-e az üzlet, ha a mintaszámkrlátt elfgadjuk jó becslésként (bár rendszerint nem az)? x 0 =1 x 1 x 2 x 10 w 1 w 0 w 10 10 s w k 0 k xk x 0 s és 1 y 1-1 s y
A Russell-Nrvig könyv n=10 bemenetű lgikai (Ble) függvény példája bár maga a könyv nagyn jó nagyn rssz példa 10 bemenetű Ble függvénynél n=10, =0,01 és =0,01 esetén: 100*(2 10 *ln(2)-ln(0.01))=100*(2 10 *ln(2)ln(100))= =70518m DE!!! összesen 1024 mintát lehet létrehzni egy knkrét 10-bemenetű Ble függvénynél!
Általánsan is igaz: 1 ln ln H m ahl 2 H 2 n 2 n 2 n n 1 n 1 1 2 2 ln(2) ln 2 ln 2 ln m ln(2)0,69, tehát ha <0,69 (69% hiba!), akkr ln(2)/ >1. Tehát, ha a megkövetelt hibaarány kisebb 69%-nál, és a biznysságunk nagybb 0-nál (0<1-, tehát <1, azaz ln()<0), akkr az egyáltalán lehetséges 2 n mintánál mindig (!) nagybb az alsó krlát! A krlát nagyn rssz, de miért?
Demnstratív példa: n-dimenziós térben kétsztálys sztályzás ún. perceptrnnal j1 A véges hiptézistér méretet úgy érjük el, hgy a súlyk nem lehetnek tetszőlegesek, csak egy véges elemkészletből választhatjuk a súlykat. Ez látszólag életidegen krlátzás, de a valóságban gyakrlatilag szinte mindig ez a helyzet: a számítógépünk, ha nagy készletet biztsít is skbites ábrázlásával, valójában csak egy véges halmazból képes súlykat ábrázlni. Ugyanakkr egyes esetekben, amikr nagy sebességű számításra van szükségünk, a hardver lehetőségek kihasználására tvább krlátzzuk a használható súlykat, például csak a {-1,0,1} halmazt használjuk, más esetekben 2 hatványainak valamilyen körét. ( h) j h( x) signum( w x ) n j
A keresett, igazi sztályzó, amit példák alapján tanítunk: Azaz: j1 ( f ) j f ( x) signum( w x ) signum( x 2 x ) ( f) ( f) 1 2 w 2 és w 1 Ez az x 1 -x 2 síkn egy egyenes két ldala, a határ: n j 2 1 x 2x 0 x 2x 2 1 2 1
Legyen a hiptézishalmaz: ( h) ( h) 1, 2 1, 2,..., 6 2,1, 2,2, 2,4, 4,2, 1,2, 1,4 H w w h h h H 6 10 x2 8 6 4 2 0-2 -4-6 -8 : Osztály1 pntjai h5(x) h2(x) h3(x) h1(x)=f(x) : Osztály2 pntjai h4(x) h6(x) -10-5 -4-3 -2-1 0 1 2 3 4 5 x1
Először vizsgáljuk meg a hiptéziseink hibáit (10.000 mintapnttal végzett szimulációval már elég pntsan vizsgálható, elvileg gemetriai megfntláskkal pnts eredményt is kaphatnánk): hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.75 0.75 0.63 0.69 0.75
= 1% elérendő hibaszint és 1-=98% biznysság mellett: Kvíz következik! 1 0,01 ln(6) ln(0, 02) 570,37 m Ha a krlát jól közelíti a pnts mintaszám-szükségletet: m=571 mintapnttal 10.000 szimulációt végezve elvileg 200 (2%) körül kéne legyen azn esetek száma, hgy legalább 1 rssz hiptézis knzisztens az 571 pnttal, de később 1%-nál nagybbat hibázik (ez utóbbi mndjuk minden rssz hiptézisünkre teljesül). Egyet se találunk! De még m=57 mintapnt és 100.000 szimuláció esetén sem találunk egyetlen rssz hiptézist se, amelyik az 57 mintával knzisztens!
6.2. Kvíz Az ismertetett levezetés melyik pntján közelítettünk úgy, hgy az ilyen nagy eltérést eredményezett? A. A rssz hiptézisek hibája jóval nagybb, mint az előírt epsziln () B. Az expnenciális függvény elsőfkú közelítése a nagy eltérés ka C. A rssz hiptézisek számának az összes hiptézisszámmal való közelítése az k D. Csak egészen kicsi (0,01% alatti epsziln) hibákra működik a közelítés
Gndljuk végig, hgy az ismertetett levezetés melyik pntján közelítettünk úgy, hgy az ilyen nagy eltérést eredményezett! A következő dlg tűnhet fel: rögtön a levezetés elején azt mndtuk, hgy előírásunk szerint a jó hiptézis hibája kisebb, mint, a rssz hiptézisé nagybb, tehát pntssága kisebb, mint (1-). A knkrét példánkban az =0,01 előírt értékkel számltunk, de láttuk, hgy a rssz hiptéziseink tényleges hibája 0,63 0,75, azaz másfél nagyságrenddel nagybb, mint az általunk felállíttt krlát.
Mi azt mndtuk, hgy pl. 57 minta esetén annak valószínűsége, hgy az 57 pnttal mind knzisztens lesz egy rssz (nem VKH) hiptézis, kisebb, mint (1-0,01) 57 =0,564, ami természetesen igaz, ha a megengedett hiba 0,01 megfelel a valóságnak. A prbléma az, hgy még a legjbb rssz hiptézisünk hibája is 0,63 ebből a tényleges értékből számítva (1-0,63) 57 10-25! Tehát ha az általunk előírt hibával számlunk, de a tényleges hiptézishiba ennél jóval nagybb, akkr az hatványzttan érvényre jut a hibaszámításnál. Meg kell jegyeznünk, hgy még 5%-s tényleges hiptézishiba esetén is jelentős az eltérés: (1-0,05) 57 =0,053, ami egy nagyságrenddel (de már csak egy nagyságrenddel!) kisebb annál, mint amivel számltunk.
Ehhez képest pl. a későbbi (1-) e - közelítés (különösen kis hiba esetén) nem kz már nagyságrendi váltzást: 1 0.9 0.8 0.7 0.6 0.5 e -eps 0.4 0.3 0.2 1-eps 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 eps
Módsítsuk a hiptézisteret: n ( f ) f x signum wj x j signum x2 x1 ( h) ( h) j1 H w, w h, h,..., h 2,1, 20,11, 20,9, 40, 21, 40,19, 60, 29 ( ) ( ) ( 2 ) 1 2 1 2 6 15 h1(x)=f(x) x2 10 5 0-5 h4(x) : Osztály1 pntjai : Osztály2 pntjai h2(x) h6(x) -10 h5(x) h3(x) -15-5 -4-3 -2-1 0 1 2 3 4 5 x1
hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.024 0.025 0.012 0.012 0.007 1 0,01 ln(6) ln(0, 02) 570,37 N hiptézis h 1 =f(x) h 2 h 3 h 4 h 5 h 6 a hiptézis hibája - (h) 0 0.024 0.025 0.012 0.012 0.007 A 10.000 kísérletből hányszr vlt knzisztens mind az 10.000 0 0 7 3 80 N=571 mintával A hiptézis jó/rssz (VKH) (=0,01 hibánál jbb-e) A mintaszám becslő képlet hány kísérletben nem biztsíttta a jó hiptézis kiválasztását? JÓ/IGAZI ROSSZ ROSSZ ROSSZ ROSSZ JÓ 0 0 0 0,07% 0,03% 0%
Ebben a demnstratív esetben úgy alakult, hgy a h4 és h5 hiptézisek sha nem vltak egyszerre knzisztensek az 571 mintával, tehát összesen 73=10 esetben (0,1%) frdult elő, hgy az 571 mintával való knzisztencia valamelyik rssz hiptézisre teljesült. Ez ugyan még mindig 20-szr kisebb, mint az összefüggésben felhasznált =0,02, de már nincs több nagyságrendnyi különbség. Tanulság; a következő esetben visznylag jó a krlát: H H H szintejó rssz