kismintás esetekben vagy olyanokban, melyeknél a tanulóalgoritmust tesztadatokon szeretnénk

Hasonló dokumentumok
Statisztika 1. zárthelyi dolgozat március 21.

BIOMATEMATIKA ELŐADÁS

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Statisztika 1. zárthelyi dolgozat március 18.

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Statisztika. Földtudomány szak, geológus szakirány, 2015/2016. tanév tavaszi

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

Matematika B4 I. gyakorlat

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Tartalom. Kezdeti szimulációs technikák. Tipikus kérdések. A bootstrap módszer. Bevezetés A független, azonos eloszlású eset:

Bootstrap (Efron, 1979)

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

6. feladatsor. Statisztika december 6. és 8.

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

Matematikai statisztika

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

æ MATEMATIKAI STATISZTIKA Dr. Bolla Marianna, Matematika Intézet, Sztochasztika Tanszék

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

Matematikai statisztika gyakorlat 2018/2019 II. félév

Tudjuk, hogy az optimumot az ún. regressziós görbe szolgáltatja, melynek egyenlete:

Statisztikai hipotézisvizsgálatok

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

véletlen : statisztikai törvényeknek engedelmeskedik (Mi az ami közös a népszavazásban, a betegségek gyógyulásában és a fiz. kém. laborban?

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Statisztika gyakorlat Geológus szakirány

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

Leíró és matematikai statisztika gyakorlat 2018/2019 II. félév

A matematikai statisztika elemei

18. Valószín ségszámítás. (Valószín ségeloszlások, függetlenség. Valószín ségi változók várható

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Statisztika (jegyzet)

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Komputer statisztika

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

Statisztika október 27.

Valószín ségszámítás és statisztika gyakorlat Programtervez informatikus szak, esti képzés

VII. A határozatlan esetek kiküszöbölése

Segédanyag a Leíró és matematikai statisztika tantárgyhoz március 28.

Rudas Tamás: A hibahatár a becsült mennyiség függvényében a mért pártpreferenciák téves értelmezésének egyik forrása

Mo= argmax f(x), ha X abszolút folytonos; Mo= argmax P (X = x i ), ha X diszkrét.

Feladatok és megoldások a 11. heti gyakorlathoz

1. előadás: Bevezetés. Irodalom. Számonkérés. Cél. Matematikai statisztika előadás survey statisztika MA szakosoknak. A matematikai statisztika tárgya

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

1. A radioaktivitás statisztikus jellege

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Áringadozások elıadás Kvantitatív pénzügyek szakirány 2012/13 2. félév

Az új építőipari termelőiár-index részletes módszertani leírása

Valószín ségszámítás és statisztika

VÉLETLENÍTETT ALGORITMUSOK. 1.ea.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Számsorozatok. 1. Alapfeladatok december 22. sorozat határértékét, ha. 1. Feladat: Határozzuk meg az a n = 3n2 + 7n 5n létezik.

(A TÁMOP /2/A/KMR számú projekt keretében írt egyetemi jegyzetrészlet):

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

KÍSÉRLETTERVEZÉS ÉS ÉRTÉKELÉS A MIKROBIOLÓGIAI GYAKORLATBAN

Autoregressziós folyamatok

6. Előadás. Vereb György, DE OEC BSI, október 12.

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

Villamos gépek tantárgy tételei

Eötvös Loránd Tudományegyetem

Nevezetes sorozat-határértékek

Matematikai statisztika

Segédanyag a Leíró és matematikai statisztika tantárgyhoz március 1.

A függvénysorozatok olyanok, mint a valós számsorozatok, csak éppen a tagjai nem valós számok,

Kutatói pályára felkészítı modul

Játékszabályok. a keresett valószín ség:

Véges matematika 1. feladatsor megoldások

Kalkulus II., második házi feladat

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

Populáció nagyságának felmérése, becslése

A brexit-szavazás és a nagy számok törvénye

Gyakorló feladatok II.

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

Kétoldali hibás Monte Carlo algoritmus: mindkét válasz esetén hibázhat az algoritmus, de adott alsó korlát a hibázás valószínűségére.

Empirikus szórásnégyzet

Statisztika elméleti összefoglaló

2. fejezet. Számsorozatok, számsorok

Valószínűségszámítás

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

A peremeloszlások. Valószínőségszámítás elıadás III. alk. matematikus szak. Példa. Valószínőségi vektorváltozók eloszlásfüggvénye.

Eseme nyalgebra e s kombinatorika feladatok, megolda sok

1. Sajátérték és sajátvektor

( a b)( c d) 2 ab2 cd 2 abcd 2 Egyenlőség akkor és csak akkor áll fenn

A statisztika részei. Példa:

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

XXVI. Erdélyi Magyar Matematikaverseny Zilah, február II.forduló -10. osztály

A figurális számokról (IV.)

Valószínűségszámítás alapjai szemléletesen

Statisztikai becslés

3.1. A Poisson-eloszlás

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Diszkrét matematika II., 3. előadás. Komplex számok

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

kritikus érték(ek) (critical value).

Lineáris kódok. u esetén u oszlopvektor, u T ( n, k ) május 31. Hibajavító kódok 2. 1

Átírás:

ÚJRAMINTAVÉTELEZÉSI ELJÁRÁSOK A jackkife (zsebkés) és bootstrap (cipőhúzó a saját kallatyújáál fogva) eljárások agol elevezése is arra utal, hogy itt ad hoc eljárásokról va szó, melyek azoba agyo haszosak olya szorult helyzetekbe, mikor ics kellőe agy miták vagy em tudjuk tesztadatoko megismételi az eljárást. Modellépítésél szokásos a tauló- ést tesztadat elevezés, mikor a tauló adatoko becsüljük a modell paramétereit, a tesztdatoko pedig szereték kipróbáli azokat. Az esetek többségébe azoba egyetle adatredszer áll csak redelkezésükre. Céluk valamely becslés potosságáak javítása, a hiba eloszlásáak becslése elsősorba kismitás esetekbe vagy olyaokba, melyekél a taulóalgoritmust tesztadatoko szereték kipróbáli. Tesztadatok hiáyába a taulóadatokat replikáljuk (ismételjük). Az újramitavételezett mita alkalmas kofideciaitervallumok szerkesztésére és hipotézisvizsgálatra is, külööse em-paraméteres esetbe. Jackkife A jackkife az adatok jól megválasztott csoportosításá alapszik, a csoportok kombiációi alapjá becsléseket kostruáluk, amelyek átlaga lesz a jackkife becslés. Itt csak egy speciális csoportokat haszáló eljárást ismertetük. Legye X = (X,...,X ) függetle azoos eloszlású mita egy P θ eloszlásból, ahol θ Θ ismeretle paraméter. Jelölje ˆθ := ˆθ(X) a θ paraméter valamilye becslését a teljes mita alapjá; a továbbiakba a becslések argumetumába em írjuk be a mitaelemeket. Jelölje ˆθ i (i =,...,) azt a becslést, amelyet az i-edik mitaelem elhagyásával kapuk. Képezzük az ú. pszeudoértékeket (az elevezés Tukey-től származik): θ i := ˆθ ( )ˆθ i Defiíció. A θ paraméter jackkife becslése a θ i pszeudoértékek átlaga: θ = θ i. Állítás. A jackife becslés potosa elimiálja a torzítás redű tagját. Bizoyítás. Ha E(ˆθ) = θ + a + b +..., akkor 2 E( θ ) = (θ + a + b +... ) ( )(θ + a 2 i= + b ( ) 2 +...) = θ b ( ) +... Ha a θ i pszeudoértékek közelítőleg függetleek (elég agy -re ez általába teljesül), akkor D 2 ( θ ) becslése az ( θ i ( ) i=

statisztika lehet ( θ i -ok korrigált empirikus szóráségyzetét le kell osztai -el, ha átlaguk szóráségyzetét akarjuk megkapi), továbbá a [ ] /2 t = ( θ θ) ( θ i ( ) statisztika közelítőleg t( ) eloszlású (ha elég agy), így alkalmas hipotézisvizsgálatra és kofideciaitervallum szerkesztésre.. Példa: Legye X,...,X fae. mita egy olya eloszlásból, melyek első mometuma létezik. Köyű láti, hogy a θ = E(X ) paraméter jackkife becslése X. Hisze a ˆθ = X torzítatla becslésből kiidulva a jackkife becslés megtartja a torzítatlaságot. 2. Példa: Legye X,...,X fae. mita egy olya eloszlásból, melyek létezik a második mometuma. A θ = σ 2 paraméter kezdeti becslése legye ˆθ = S 2, eek torzítása redű. Az Állítás értelmébe a jakkife becslés elimiálja ezt a torzítást, és a θ = S 2 torzítatla becslés lesz a szóráségyzet jackife becslése. A Steier-formula többszöri alkalmazásával belátható, hogy a θ i pszeudoértékek közel függetleek, így a i= [ ] /2 t = ( θ σ 2 ) ( θ i ( ) statisztika agy -re közel t( ) eloszlású, melyek segítségével kofideciaitervallumot szerkeszthetük és hipotéziseket vizsgálhatuk az eloszlás ismeretle szóráségyzetére. i= Bootstrap A [3] köyv jelöléseit haszálva legye Z = (Z,...,Z ) fae. mita, S(Z) pedig eek valamely függvéye (em feltétleül statisztika, mert az ismeretle paramétert is tartalmazhatja). Pl. a ψ(θ) paraméterfüggvéy T(Z) statisztikával törtéő becslésekor S(Z) := T(Z) ψ(θ) a becslés hibája, E θ S 2 (Z) pedig a becslés égyzetes rizikója. A Z = (Z,...,Z ) mita replikáltja a Z = (Z,...,Z ) ú. bootstrap mita, amelyet a z,...,z realizáltakból való visszatevéses mitavétellel yerük (megjegyezzük, hogy a jackife módszer alkalmazásakor valójába elemet replikáltuk visszatevés élkül). Pl. = 6 eseté a z,...,z 6 számokat egy szabályos dobókocka oldalaira írva, 6 dobás kimeetele egy bootstrap mitát szolgáltat. Tetszőleges eseté a z,...,z számokat cédulára felŕva és egy kapalba téve, -szer húzuk egymás utá visszatevéssel. P(Z i Z ) = ( ) = ( ) e 0.632, ha aak a valószíűsége, hogy egy mitaelem belekerül a bootstrap mitába.

A bootstrap mita alapjá is kiszámoljuk S(Z ) értékét, sőt ezt általába több bootstrap mitára is megtesszük: S(Z ),...,S(Z B ). Ha B elég agy, akkor a kapott B szám S(Z) ú. bootstrap eloszlását mutatja, amiek alapjá kvatilis értékeket és egyéb paramétereket becsülhetük. Eek akkor va jeletősége, ha S(Z) elméleti eloszlását egyébkét em ismerjük, pl. em-paraméteres esetbe. S(Z) szóráségyzetéek becslése a bootstrap eloszlás alapjá: ahol S = B B b= S(Z b ). D 2 (S(Z)) = B B (S(Z b ) S ) 2, A bootstrap eloszlás em más, mit a z,...,z realizáció alapjá szerkesztett empirikus eloszlás (az empirikus eloszlásfüggvéy lépcsős függvéy, mely a z,...,z helyeke ugrik /el). Ez valójába a z,...,z potokra kocetrált diszkrét egyeletes eloszlás: U(z,...,z ). Eek az eloszlásak a valódi mometumai (cetrális mometumai) az eredeti eloszlás empirikus (cetrális empirikus) mometumaival egyezek meg. Eek alapjá a mometumoktól függő becslések megkostruálhatók. b=. Példa: Legye Z = (Z,...,Z ) fae. mita egy olya eloszlásból, melyek létezik a második mometuma. Legye a θ = σ 2 paraméter a szóráségyzet, eek torzítatla becslése: T(Z) = S 2 i= = (Z i Z) 2. S(Z) := T(Z) θ, ES(Z) = 0. Legye Z bootstrap mita. A bootstrap eloszlás szóráségyzete S 2, T(Z ) pedig a bootstrap mita alapjá számolt korrigált empirikus szóráségyzet, ami itt is torzítatlaul becsli az S 2 valódi szóráségyzetet. Így a bootstrap eloszlás alapjá Ê(S(Z)) = 0. Most számítsuk ki a bootstrap eloszlás alapjá T(Z), vagy ami ugyaaz, S(Z) szóráségyzetét! Mivel régebbe beláttuk, hogy ameyibe az eredeti eloszlás egyedik mometuma (m 4 ), s így egyedik cetrális mometuma (m c 4 ) is létezik, akkor D 2 (S(Z)) = D 2 (T(Z)) = D 2 (S 2 ) = ( m c 4 3 ) σ4. Mivel a bootstrap eloszlás valódi mometumai az eredeti eloszlás empirikus mometuaival egyezek meg, eek alapjá D 2 (S(Z)) = D 2 (T(Z )) = ( M 4 c 3 ) ( M 2) c 2 = ( M 4 c 3 ) S2, ahol M jelöli az eredeti mita alapjá kapott empirikus mometumokat. Tehát itt a bootstrap mita vétele élkül, csupá az eredeti mita alapjá számolt empirikus mometumokra támaszkodva elméletileg meg tudjuk határozi S(Z) bootstrap eloszlás szeriti szóráségyzetét. 2. Példa: regressziós hiba becslése. Legye Z i = (X i,y i ), i =,..., fae. 2-dimeziós mita. Az Y = f(x)+b regressziós modell (spec. Y = ax+c+ε lieáris regressziós modell)

paramétereiek legkisebb égyzetes becslését jelölje â és ˆb. Az ε hiba szóráségyzetéek bootstrap becslése az x i,y i (i =,...,) bootstrap realizáltakból (melyek azoos idexhez tartozó (x,y)-párok az eredeti mitából) törtéő ˆf becslések (lieáris esetbe az â, ĉ becslések) alapjá a B db. bootstrap mitából: B B b= (y i ˆf b (x i )) 2 = B B i= b= i= (y i â b (x i ) ĉ b ) 2, ahol a második becslés a lieáris esetre voatkozik. Itt tehát a geerált tesztadatokból becsültük a regressziós modell paramétereit, a hibát viszot az eredeti mitapotok helyé számoltuk. 3. Példa: a diszkrimiaciaaalízis hibabecslése. Az egyszerűseg kedvéért tegyük fel, hogy csak két miták va: X,...,X F = N k (m,c) és Y,...,Y m G = N k (m 2,C), ahol az X i és Y j k-dimeziós véletle vektorok teljese függetleek. A megfigyelt értékek: x,...x, illetve y,...,y m. A mita alapjá megbecsüljük az m és m 2 várhatóérték vektort, valamit a C kovariacaiamátrixot, legyeek a becslések: m, m 2 és Ĉ. Ezeket a becsléseket figyelembe véve [] Diszkrimiaciaaalízis fejezete alapjá eljárást kapuk arra, hogy eldötsük: egy új x megfigyelést az F vagy a G eloszlást követi-e. Legye A := {x : ( m T 2 m T )Ĉ x > c} R k ahol c a paraméterektől és mitaelemszámoktól függő kostas. Ha x A teljesül, akkor az x megfigyelést a G eloszlást követők csoportjába soroljuk. Az osztályozás várható hibáját még az új megfigyelések (tesztadatok) beérkezése előtt szereték megbecsüli. Az êrror := {i : x i A} meyiség yilvá alulbecsüli a hibát, mert az osztályozó eljárást a mita alapjá szerkesztettük, az mitegy adaptálódott a mitához. A valódi várható hiba error := P F {i : x i A} lee. Midezt megcsiálhaták a másik fajta hibára is, mely a G-eloszlásúak (y j -k) F-eloszlású csoportba való téves besorolásából adóda (az A tartomáy alapjá). Az osztálozás hib ja e kétfajta hiba összege. A téves besorolás relatív gyakorisága így csak az X-es, ill. Y-os mitákból számoladó, maga az A illetve A taromáy azoba függ midkét mitától (Z). S(Z) := error êrror, a másik fajta hibára voatkozó eltérés teljese hasolóa számolható.

Az S(Z ) bootstrap veszteséget Mote Carlo módszerrel határozhatjuk meg. Az ˆF és Ĝ eloszlásból geeráluk, illetve m darab x i, illetve y j bootstrap mitaelemet, ezek alapjá kiszámítjuk az ˆF és Ĝ eloszlások paramétereit, majd meghatározzuk az A bootstrap kritikus tartomáyt. Így az bootstrap veszteség egy realizációja: S(Z ) = {i : x i A } {i : x i A }, hasolóa y j -k, illetve yj -ok alapjá a másik fajta hibára. Eze eljárás elegedőe sok függetle ismétlése utá a veszteség eloszlása, mometumai meghatározhatók. Megjegyezzük, hogy a programcsomagok kiszámítják a hibavalószíűség jackkife becslését is olymódo, hogy mide egyes mitaelem kihagyásával megszerkesztik a kritikus A illetve A tartomáyt, majd megvizsgálják, hogy a kihagyott elem melyik tartomáyhoz tartozik. Az így tapasztalt hibás dötések relatív gyakorisága a hibavalószíűség becslése. Efro [2] dolgozatába egy 0 és egy 20 elemű mitára ismerteti midkét eljárás eredméyét; ics léyeges külöbség. Megjegyezzük, hogy a bootstrap módszer em-paraméteres próbákra is alkalmazható. Aak a ul-hipotézisek a tesztelésére, hogy miták ormális eloszlásból származik (a tagadás alteratívájával szembe) először a redelkezésre álló fae. mitából becsüljük meg a szóbajöhető ormális eloszlás paramétereit (mitaátlag és empirikus szóráségyzet). Ezutá geeráljuk egy másik (em feltétleül az eredetivel azoos elemszámú) mitát a becsült paraméterekkel (eredeti mitákhoz gyártott bootstrap mita H 0 feállása eseté). Végül végezzük illeszkedésvizsgálatot arra ézve, hogy a két mita azoos eloszlásból származik-e (pl. Kolmogorov Szmirov próbával). Ha (az adott szite) ige, akkor elfogadjuk, külöbe elutasítjuk a ull-hipotézist. Irodalom [] Bolla, M., Krámli, A., Statisztikai következtetések elmélete, Typotex, Budapest (2005). [2] Efro, B., Bootstrap methods: aother look at the jackkife, A. Statist. 7 (979), -26. [3] Hastie, T., Tibshirai, R., Friedma, J., The Elemets of Statistical Learig. Data Miig, Iferece, ad Predictio. Spriger, New York (200).