kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

ÚJRAMINTAVÉTELEZÉSI ELJÁRÁSOK A jackkife (zsebkés) és bootstrap (cipőhúzó a saját kallatyújáál fogva) eljárások agol elevezése is arra utal, hogy itt ad hoc eljárásokról va szó, melyek azoba agyo haszosak olya szorult helyzetekbe, mikor ics kellőe agy miták vagy em tudjuk tesztadatoko megismételi az eljárást. Modellépítésél szokásos a tauló- ést tesztadat elevezés, mikor a tauló adatoko becsüljük a modell paramétereit, a tesztdatoko pedig szereték kipróbáli azokat. Az esetek többségébe azoba egyetle adatredszer áll csak redelkezésükre. Céluk valamely becslés potosságáak javítása, a hiba eloszlásáak becslése elsősorba kismitás esetekbe vagy olyaokba, melyekél a taulóalgoritmust tesztadatoko szereték kipróbáli. Tesztadatok hiáyába a taulóadatokat replikáljuk (ismételjük). Az újramitavételezett mita alkalmas kofideciaitervallumok szerkesztésére és hipotézisvizsgálatra is, külööse em-paraméteres esetbe. Jackkife A jackkife az adatok jól megválasztott csoportosításá alapszik, a csoportok kombiációi alapjá becsléseket kostruáluk, amelyek átlaga lesz a jackkife becslés. Itt csak egy speciális csoportokat haszáló eljárást ismertetük. Legye X = (X,...,X ) függetle azoos eloszlású mita egy P θ eloszlásból, ahol θ Θ ismeretle paraméter. Jelölje ˆθ := ˆθ(X) a θ paraméter valamilye becslését a teljes mita alapjá; a továbbiakba a becslések argumetumába em írjuk be a mitaelemeket. Jelölje ˆθ i (i =,...,) azt a becslést, amelyet az i-edik mitaelem elhagyásával kapuk. Képezzük az ú. pszeudoértékeket (az elevezés Tukey-től származik): θ i := ˆθ ( )ˆθ i Defiíció. A θ paraméter jackkife becslése a θ i pszeudoértékek átlaga: θ = θ i. Állítás. A jackife becslés potosa elimiálja a torzítás redű tagját. Bizoyítás. Ha E(ˆθ) = θ + a + b +..., akkor 2 E( θ ) = (θ + a + b +... ) ( )(θ + a 2 i= + b ( ) 2 +...) = θ b ( ) +... Ha a θ i pszeudoértékek közelítőleg függetleek (elég agy -re ez általába teljesül), akkor D 2 ( θ ) becslése az ( θ i ( ) i=

statisztika lehet ( θ i -ok korrigált empirikus szóráségyzetét le kell osztai -el, ha átlaguk szóráségyzetét akarjuk megkapi), továbbá a [ ] /2 t = ( θ θ) ( θ i ( ) statisztika közelítőleg t( ) eloszlású (ha elég agy), így alkalmas hipotézisvizsgálatra és kofideciaitervallum szerkesztésre.. Példa: Legye X,...,X fae. mita egy olya eloszlásból, melyek első mometuma létezik. Köyű láti, hogy a θ = E(X ) paraméter jackkife becslése X. Hisze a ˆθ = X torzítatla becslésből kiidulva a jackkife becslés megtartja a torzítatlaságot. 2. Példa: Legye X,...,X fae. mita egy olya eloszlásból, melyek létezik a második mometuma. A θ = σ 2 paraméter kezdeti becslése legye ˆθ = S 2, eek torzítása redű. Az Állítás értelmébe a jakkife becslés elimiálja ezt a torzítást, és a θ = S 2 torzítatla becslés lesz a szóráségyzet jackife becslése. A Steier-formula többszöri alkalmazásával belátható, hogy a θ i pszeudoértékek közel függetleek, így a i= [ ] /2 t = ( θ σ 2 ) ( θ i ( ) statisztika agy -re közel t( ) eloszlású, melyek segítségével kofideciaitervallumot szerkeszthetük és hipotéziseket vizsgálhatuk az eloszlás ismeretle szóráségyzetére. i= Bootstrap A [3] köyv jelöléseit haszálva legye Z = (Z,...,Z ) fae. mita, S(Z) pedig eek valamely függvéye (em feltétleül statisztika, mert az ismeretle paramétert is tartalmazhatja). Pl. a ψ(θ) paraméterfüggvéy T(Z) statisztikával törtéő becslésekor S(Z) := T(Z) ψ(θ) a becslés hibája, E θ S 2 (Z) pedig a becslés égyzetes rizikója. A Z = (Z,...,Z ) mita replikáltja a Z = (Z,...,Z ) ú. bootstrap mita, amelyet a z,...,z realizáltakból való visszatevéses mitavétellel yerük (megjegyezzük, hogy a jackife módszer alkalmazásakor valójába elemet replikáltuk visszatevés élkül). Pl. = 6 eseté a z,...,z 6 számokat egy szabályos dobókocka oldalaira írva, 6 dobás kimeetele egy bootstrap mitát szolgáltat. Tetszőleges eseté a z,...,z számokat cédulára felŕva és egy kapalba téve, -szer húzuk egymás utá visszatevéssel. P(Z i Z ) = ( ) = ( ) e 0.632, ha aak a valószíűsége, hogy egy mitaelem belekerül a bootstrap mitába.

A bootstrap mita alapjá is kiszámoljuk S(Z ) értékét, sőt ezt általába több bootstrap mitára is megtesszük: S(Z ),...,S(Z B ). Ha B elég agy, akkor a kapott B szám S(Z) ú. bootstrap eloszlását mutatja, amiek alapjá kvatilis értékeket és egyéb paramétereket becsülhetük. Eek akkor va jeletősége, ha S(Z) elméleti eloszlását egyébkét em ismerjük, pl. em-paraméteres esetbe. S(Z) szóráségyzetéek becslése a bootstrap eloszlás alapjá: ahol S = B B b= S(Z b ). D 2 (S(Z)) = B B (S(Z b ) S ) 2, A bootstrap eloszlás em más, mit a z,...,z realizáció alapjá szerkesztett empirikus eloszlás (az empirikus eloszlásfüggvéy lépcsős függvéy, mely a z,...,z helyeke ugrik /el). Ez valójába a z,...,z potokra kocetrált diszkrét egyeletes eloszlás: U(z,...,z ). Eek az eloszlásak a valódi mometumai (cetrális mometumai) az eredeti eloszlás empirikus (cetrális empirikus) mometumaival egyezek meg. Eek alapjá a mometumoktól függő becslések megkostruálhatók. b=. Példa: Legye Z = (Z,...,Z ) fae. mita egy olya eloszlásból, melyek létezik a második mometuma. Legye a θ = σ 2 paraméter a szóráségyzet, eek torzítatla becslése: T(Z) = S 2 i= = (Z i Z) 2. S(Z) := T(Z) θ, ES(Z) = 0. Legye Z bootstrap mita. A bootstrap eloszlás szóráségyzete S 2, T(Z ) pedig a bootstrap mita alapjá számolt korrigált empirikus szóráségyzet, ami itt is torzítatlaul becsli az S 2 valódi szóráségyzetet. Így a bootstrap eloszlás alapjá Ê(S(Z)) = 0. Most számítsuk ki a bootstrap eloszlás alapjá T(Z), vagy ami ugyaaz, S(Z) szóráségyzetét! Mivel régebbe beláttuk, hogy ameyibe az eredeti eloszlás egyedik mometuma (m 4 ), s így egyedik cetrális mometuma (m c 4 ) is létezik, akkor D 2 (S(Z)) = D 2 (T(Z)) = D 2 (S 2 ) = ( m c 4 3 ) σ4. Mivel a bootstrap eloszlás valódi mometumai az eredeti eloszlás empirikus mometuaival egyezek meg, eek alapjá D 2 (S(Z)) = D 2 (T(Z )) = ( M 4 c 3 ) ( M 2) c 2 = ( M 4 c 3 ) S2, ahol M jelöli az eredeti mita alapjá kapott empirikus mometumokat. Tehát itt a bootstrap mita vétele élkül, csupá az eredeti mita alapjá számolt empirikus mometumokra támaszkodva elméletileg meg tudjuk határozi S(Z) bootstrap eloszlás szeriti szóráségyzetét. 2. Példa: regressziós hiba becslése. Legye Z i = (X i,y i ), i =,..., fae. 2-dimeziós mita. Az Y = f(x)+b regressziós modell (spec. Y = ax+c+ε lieáris regressziós modell)

paramétereiek legkisebb égyzetes becslését jelölje â és ˆb. Az ε hiba szóráségyzetéek bootstrap becslése az x i,y i (i =,...,) bootstrap realizáltakból (melyek azoos idexhez tartozó (x,y)-párok az eredeti mitából) törtéő ˆf becslések (lieáris esetbe az â, ĉ becslések) alapjá a B db. bootstrap mitából: B B b= (y i ˆf b (x i )) 2 = B B i= b= i= (y i â b (x i ) ĉ b ) 2, ahol a második becslés a lieáris esetre voatkozik. Itt tehát a geerált tesztadatokból becsültük a regressziós modell paramétereit, a hibát viszot az eredeti mitapotok helyé számoltuk. 3. Példa: a diszkrimiaciaaalízis hibabecslése. Az egyszerűseg kedvéért tegyük fel, hogy csak két miták va: X,...,X F = N k (m,c) és Y,...,Y m G = N k (m 2,C), ahol az X i és Y j k-dimeziós véletle vektorok teljese függetleek. A megfigyelt értékek: x,...x, illetve y,...,y m. A mita alapjá megbecsüljük az m és m 2 várhatóérték vektort, valamit a C kovariacaiamátrixot, legyeek a becslések: m, m 2 és Ĉ. Ezeket a becsléseket figyelembe véve [] Diszkrimiaciaaalízis fejezete alapjá eljárást kapuk arra, hogy eldötsük: egy új x megfigyelést az F vagy a G eloszlást követi-e. Legye A := {x : ( m T 2 m T )Ĉ x > c} R k ahol c a paraméterektől és mitaelemszámoktól függő kostas. Ha x A teljesül, akkor az x megfigyelést a G eloszlást követők csoportjába soroljuk. Az osztályozás várható hibáját még az új megfigyelések (tesztadatok) beérkezése előtt szereték megbecsüli. Az êrror := {i : x i A} meyiség yilvá alulbecsüli a hibát, mert az osztályozó eljárást a mita alapjá szerkesztettük, az mitegy adaptálódott a mitához. A valódi várható hiba error := P F {i : x i A} lee. Midezt megcsiálhaták a másik fajta hibára is, mely a G-eloszlásúak (y j -k) F-eloszlású csoportba való téves besorolásából adóda (az A tartomáy alapjá). Az osztálozás hib ja e kétfajta hiba összege. A téves besorolás relatív gyakorisága így csak az X-es, ill. Y-os mitákból számoladó, maga az A illetve A taromáy azoba függ midkét mitától (Z). S(Z) := error êrror, a másik fajta hibára voatkozó eltérés teljese hasolóa számolható.

Az S(Z ) bootstrap veszteséget Mote Carlo módszerrel határozhatjuk meg. Az ˆF és Ĝ eloszlásból geeráluk, illetve m darab x i, illetve y j bootstrap mitaelemet, ezek alapjá kiszámítjuk az ˆF és Ĝ eloszlások paramétereit, majd meghatározzuk az A bootstrap kritikus tartomáyt. Így az bootstrap veszteség egy realizációja: S(Z ) = {i : x i A } {i : x i A }, hasolóa y j -k, illetve yj -ok alapjá a másik fajta hibára. Eze eljárás elegedőe sok függetle ismétlése utá a veszteség eloszlása, mometumai meghatározhatók. Megjegyezzük, hogy a programcsomagok kiszámítják a hibavalószíűség jackkife becslését is olymódo, hogy mide egyes mitaelem kihagyásával megszerkesztik a kritikus A illetve A tartomáyt, majd megvizsgálják, hogy a kihagyott elem melyik tartomáyhoz tartozik. Az így tapasztalt hibás dötések relatív gyakorisága a hibavalószíűség becslése. Efro [2] dolgozatába egy 0 és egy 20 elemű mitára ismerteti midkét eljárás eredméyét; ics léyeges külöbség. Megjegyezzük, hogy a bootstrap módszer em-paraméteres próbákra is alkalmazható. Aak a ul-hipotézisek a tesztelésére, hogy miták ormális eloszlásból származik (a tagadás alteratívájával szembe) először a redelkezésre álló fae. mitából becsüljük meg a szóbajöhető ormális eloszlás paramétereit (mitaátlag és empirikus szóráségyzet). Ezutá geeráljuk egy másik (em feltétleül az eredetivel azoos elemszámú) mitát a becsült paraméterekkel (eredeti mitákhoz gyártott bootstrap mita H 0 feállása eseté). Végül végezzük illeszkedésvizsgálatot arra ézve, hogy a két mita azoos eloszlásból származik-e (pl. Kolmogorov Szmirov próbával). Ha (az adott szite) ige, akkor elfogadjuk, külöbe elutasítjuk a ull-hipotézist. Irodalom [] Bolla, M., Krámli, A., Statisztikai következtetések elmélete, Typotex, Budapest (2005). [2] Efro, B., Bootstrap methods: aother look at the jackkife, A. Statist. 7 (979), -26. [3] Hastie, T., Tibshirai, R., Friedma, J., The Elemets of Statistical Learig. Data Miig, Iferece, ad Predictio. Spriger, New York (200).