. 3. 3. Mintavételezés Informatikai Tudományok Doktori Iskola. 3. 3. Statisztikai sokaság, populáció A halmaz egészének kevés adattal történı tömör jellemzése, és a populáció egyedeinek leírására bevezetett változók közötti kapcsolatok leírása a célunk. Arra nincs lehetıség (erıforrás), hogy a populáció minden egyes elemérıl adatokat szerezzünk be, azaz mintát kell vételeznünk a sokaságból.. 3. 3. Statisztikai minta realizáltja A populáció egy kis elemszámú részhalmazára vonatkozó megfigyelések adatai alkotják a statisztikai minta egy realizációját. A minta úgy kell, hogy tükrözze a populáció tulajdonságait, ahogy a cseppben látjuk a tengert. Azaz a minta reprezentatív kell, hogy legyen. Nem reprezentatív mintából levont következtetések értékelhetetlenek, torzak. Az alkalmazott statisztikai módszerek, becslési hibák akkor lesznek érvényesek, ha a minta, amivel számolunk reprezentatív! "A kutató számára csak a reprezentatív mintavétel az egyetlen helyes mintavételi mód arra, hogy a kiválasztott egyedi objektumok generalizálás (általánosítás) alapjául szolgálhassanak, és ezért rendszerint az egyetlen elfogadható alap arra, hogy megállapítsuk, mi az igazság." (Andrew A. Marino). 3. 3. 3
. 3. 3. Kaplan mintavételezési paradoxona Egyrészrıl, a minta használhatatlan, ha nem reprezentatív. Másrészrıl, ahhoz, hogy ellenırizhessük a minta reprezentativitását, tudnunk kell a populáció összes jellemzıjét, amit pedig ha ismerünk, már mintára sincs szükségünk, hisz azt azért vennénk, hogy ezeket a jellemzıket feltárjuk Edward L. Kaplan, M.D.. 3. 3. 4 Elvárások a mintáról A populáció minden egyes elemének ugyanakkora esélyt kell biztosítani a mintába kerüléshez. A minta elemszámának elég nagynak kell lennie ahhoz, hogy a következtetéseink átvihetık lehessenek a populációra is. Ugyanakkor a szükségesnél ne kelljen nagyobb mintát feldolgozni, mert az költségesebb.. 3. 3. 5 Alapkérdések Vegyünk-e egyáltalán mintát? Ha igen, milyen eljárással? Milyen típusú mintát vegyünk Mekkora legyen a minta nagysága? Egyéb kérdések: Pl. Mit tegyünk a nem válaszolási hibákkal? A válaszmegtagadókkal?. 3. 3. 6
. 3. 3. Fogalmak Cenzus: A sokaság elemeinek teljes számbavétele (pl. népszámlálás) Cenzust alkalmazunk, ha Kicsi a sokaság Figyelni kell az egyedi esetekre Sok idı, sok pénz áll rendelkezésre Nagyon szóródik a megfigyelt jellemzı a sokaságban Minta: A sokaság elemeinek egy csoportja. A mintajellemzıkbıl, más néven statisztikákból tudunk valamilyen következtetést levonni a teljes sokaságra.. 3. 3. 7 A mintavételi eljárás A mintavételi eljárás 5 lépésbıl áll: A célsokaság meghatározása A mintavételi keret meghatározása A mintavételi technika meghatározása A mintanagyság meghatározása A mintavétel kivitelezése. 3. 3. 8 Alapfogalmak Célsokaság: azoknak az elemeknek az összessége amelyek rendelkeznek a kutató által keresett paraméterrel. Sokasági elem: az a vizsgálati egység amelyik rendelkezik a kutató által keresett információval. Mintavételi egység: A sokasági elem, vagy az az alapegység, amelyik magában foglalja a sokaság elmeit (pl. háztartásokban elı 8 év feletti nık). Mintavételi keret: a mintavételi egységekrıl készült felsorolás mely segítségével azonosíthatóak az elemek. Egylépcsıs mintavételnél a keret a (vizsgálati) populáció listája.. 3. 3. 9 3
. 3. 3. A mintavételi keret Sok esetben, mint például amikor a legyártott tételt minıségi szempontból teszteljük, lehetséges, hogy azonosítsuk és megmérjük a populációt kitevı teljes tétel miden egyes elemét, és hogy mindegyik szerepeljen a mintánkban. Azonban sokkal gyakoribb, hogy ez nem lehetséges. Nem lehetséges azonosítani például valamennyi patkányt, valamint abban az esetben, ha a szavazás nem kötelezı, nincs mód arra, hogy azonosítsuk azokat ez egyéneket, akik valóban szavazni fognak az elkövetkezı választásokon. Az ilyen, bizonytalanul körülhatárolható populációk nem alkalmasak a mintavételezésre. Eszközként a mintavételi keretet keressük meg, amely alkalmas arra, hogy a populáció minden egyes elemét azonosítsuk és bevonjuk bármely mintánkba.. 3. 3. A mintavételi keret A sokaság elemeinek megjelenítése Telefonkönyv Szövetségek taglistái Számlakönyvek Egyéb listák A legfontosabb kérdés itt az, hogy a célsokaság és a mintavételi keret egybeesik-e (Pl. telefonkönyvben mindenki benne van-e, aki rendelkezik a keresett paraméterekkel?). 3. 3. A mintavételi technikák Visszatevéses mintavétel Egy adott elem elvileg többször is a mintába kerülhet Visszatevés nélküli mintavétel Egy elem csak egyszer kerülhet a mintába Bayes-technika Kiválasztási módszer, ahol az elemeket egymást követıen választják ki. Minden egyes kiválasztást követıen kiszámítják a mintajellemzıket és meghatározzák a költségeket Már a mintavétel elıtt ismerni kell a sokaság bizonyos jellemzıit (paraméterek) Nem véletlen mintavételi technikák Véletlen mintavételi technikák. 3. 3. 4
. 3. 3. Nem véletlen mintavételi technikák Önkényes mintavétel: a minta elemeit általában kérdezıbiztos választja ki pl. üdülıhelyi megkérdezések vendégkör-megkérdezések Nincs mintavételi keret amibıl választani lehetne Elınyei Olcsó A mintavételi egységek könnyen elérhetık Könnyő együttmőködı egységeket választani Hátrányai Semmilyen meghatározható sokaságot nem reprezentálnak Elméletileg semmiféle általánosításra nem ad módot Torzítás óriási Mire jó? Mire nem jó? Leíró kutatásokhoz Feltáró kutatáshoz Hipotézisek felállításához Kérdıívek teszteléséhez Ok-okozati kutatásokhoz. 3. 3. 3 Nem véletlen mintavételi technikák elbírálásos mintavétel Elbírálásos mintavétel: a kutató a saját tapasztalatai alapján választ a sokaság elemei közül, és eldönti, hogy bekerüljenek-e a mintába vagy sem. Teszthelyszínek kiválasztása (melyik szállodát, céget, utazási irodát kérdezzük meg. Szakértık kiválasztása Körzetek kiválasztása (kérdıívezés helyszíneinek kiválasztása), stb.. 3. 3. 4 Nem véletlen mintavételi technikák Kvótás mintavétel Két lépéses eljárás A kutató felállítja a sokaság kontroll kategóriáit, azaz a kvótákat Végig kell gondolni a sokaság jellemzıit és e jellemzık sokaságon belüli eloszlását Nem Kor Nemzetiség, stb..a mintaelemeket önkényesen vagy elbírálással választja ki. Elınye az alacsony költség és a kényelmes kezelhetıség Nem reprezentatív, amennyiben a sokaság egy fontos jellemezıje elkerüli a figyelmünket A több kontrolljellemzı növelheti a reprezentativitást, ám a sok jellemzıt nehézkes kezelni A reprezentativitás javítható, ha a kérdezıbiztosok részletes utasítást kapnak, hogy kiket kell megkérdezni. 3. 3. 5 5
. 3. 3. Nem véletlen mintavételi technikák Hólabda mintavétel Speciális jellemzıvel bíró sokaságot keresünk (pl. hackerek) Egyvalakit, vagy egy kis csoportot megkeresünk A kezdeti csoport tagjait arra kérjük, hogy ajánljanak másokat akik szintén a célsokasághoz tartoznak Ezzel a módszerrel egyre több válaszadót érünk el. 3. 3. 6 Véletlen kiválasztási technikák I. A véletlen mintavétel során az elérendı cél, az, hogy a minta jellemzıi teljes egészében megegyezzenek a célsokaság jellemzıivel, azaz ne legyen torzítás Ha mégis van eltérés, akkor a különbség statisztikailag mérhetı (megbízhatósági szintekkel) A véletlen technikákkal vett minták jellemzıi kivetíthetık az egész sokaságra. 3. 3. 7 Véletlen kiválasztási technikák II. A gyakorlatban alkalmazott technikák Egyszerő véletlen mintavétel Szisztematikus mintavétel Rétegzett mintavétel Csoportos mintavétel Egyéb véletlen mintavételi technikák Mindemellett a nem véletlen mintavételi technikák esetében sem teljesül minden esetben a reprezentativitás. 3. 3. 8 6
. 3. 3. Egyszerő véletlen mintavétel A sokaság minden eleme ismert és azonos valószínőséggel kerülhet be a mintába. Minden elemet egymástól függetlenül, a mintát a mintavételi keretbıl véletlen eljárással választjuk ki Technikai megoldások: sorsolás véletlenszám generálása. 3. 3. 9 Szisztematikus mintavétel A mintavételi keretben véletlenszerően kijelölnek egy kezdıpontot Ezt követıen kiválasztják a mintavételi keret minden i-dik elemét A mintavételi intervallumot úgy kapják meg, hogy a mintavételi keret elemszámát (N) elosztják a minta elvárt nagyságával (n), az így kapott N/n hányadost a legközelebbi egész számra kerekítik, ez lesz az i Akkor használható, jól, ha a mintavételi keretben nincsenek sorba állítva az elemek a vizsgált jellemzıvel összefüggésben. 3. 3. Szisztematikus mintavétel Tegyük fel, hogy a populáció elemszáma N= A kívánt minta elemszám n= N/n=5 Véletlenszerően kiválasztunk egy számot -5 között: pl. 4. A 4. esettıl kezdve minden 5.-ket választjuk a mintába. 3. 3. 7
. 3. 3. Rétegzett mintavétel A sokaságot elıször csoportokra bontják valamilyen ismert rétegképzı ismérv segítségével. Az egyes rétegekbıl egyszerő véletlen mintavétellel választanak Fontos, hogy a rétegképzı ismérv szoros kapcsolatban álljon a vizsgált jellemzıvel Legáltalánosabb rétegképzı ismérvek a demográfiai jellemzık kor nem jövedelem régió. 3. 3. Arányos és nem arányos rétegezés Arányos rétegezés: minden rétegbıl kiválasztott minta nagysága arányos az adott rétegnek a teljes sokasághoz viszonyított nagyságával Nem arányos rétegezés: a rétegekbıl választott minta nagysága arányos a réteg relatív nagyságával és a vizsgált jellemzı eloszlásának rétegen belüli szórásával Nagyobb rétegbıl több elemet kell vennünk Több elemet kell venni azokból a rétegekbıl ahol nagyobb a szórás és kevesebbet azokból ahol kisebb (ehhez azonban ismerni kell a szórást is) A rétegezett mintavétel akkor alkalmazható jól, ha a vizsgált jellemzı eloszlása a sokaságban nem egyenletes, így biztosított, hogy minden részsokaság képviseltesse magát a mintában (pl. jövedelem). 3. 3. 3 Csoportos mintavétel A célsokaságot egymást kölcsönösen kizáró csoportokra bontják, amelyek együttesen lefedik az egész sokaságot (statisztikai populációt). Az így képzett csoportokból egyszerő véletlen mintát vesznek (csoportokat választanak ki). A kiválasztott csoportokból azután vagy mindenkit beválasztanak a mintába, vagy újra EVM-eznek. Gyakori formája a területi mintavétel, ebben az esetben a csoportok területi egységek A mintavétel akkor megfelelı, ha a csoportok mérete ugyanakkora, Ha nagyság alapján nagy az eltérés, akkor a nagysággal arányos véletlen mintavétel alkalmazható. 3. 3. 4 8
. 3. 3. Nagysággal arányos csoportos véletlen mintavétel A csoportokat a nagyságukkal arányos valószínőéggel választjuk ki A nagyobb elemszámú csoportok nagyobb valószínőséggel kerülnek kiválasztásra mint a kisebbek A kisebb elemszámú csoportok kisebb valószínőséggel kerülnek kiválasztásra Eredmény: minden elem azonos valószínőséggel kerül kiválasztásra. 3. 3. 5 Véletlen kiválasztási technikák. 3. 3. 6 Egyéb véletlen mintavételi technikák Többlépcsıs mintavételezés: Nagyobb egységeket részekre bontunk, és a részek között véletlenszerően választunk egyet. A kiválasztott részt újabb részekre bontunk, és véletlenszerően megint választunk Szekvenciális mintavétel (Wald Ábrahám): a sokaság elemeibıl egymást követıen veszünk mintát, majd minden mintavételt követıen elvégezzük az elemzést, és ez alapján döntünk, hogy szükséges-e újabb elemet beválasztani (döntési szabály elıírása a továbblépéshez) Kettıs mintavétel: a sokaság elemeibıl kétszer veszünk mintát. 3. 3. 7 9
. 3. 3. Többlépcsıs mintavételezés. 3. 3. 8 Választás a véletlen és a nem véletlen mintavételi technikák között Nem véletlen mintavételi technikát alkalmazzuk, ha Feltáró kutatást akarunk folytatni Nagyok az ún. nem mintavételi hibák A sokaság homogén (szórása alacsony) Statisztikai módszerekkel nem kívánjuk elemezni a mintát Egyszerőbb, operatívabb megoldásra törekszünk Véletlen mintavételi technikát alkalmazunk, ha Leíró kutatást akarunk folytatni A mintavételi hibák nagyok A sokaság heterogén (szórása magas) Statisztikai módszerekkel kívánjuk elemezni a mintát Az operatív megoldás kevésbé szempont. 3. 3. 9 A mintavétel kivitelezése Elıfordulási arány: a kutatásra alkalmas emberek elıfordulási vagy százalékos arányára utal. Megmutatja, hogy hány kontaktust kell létrehozni egy adott mintanagyság elıállítás érdekében. Megvalósulási arány: a szőrıfeltételeknek megfelelı személyek közül hány emberrel sikerül elkészíteni az interjút/kérdıívet (akik válaszolnak a megkérdezésre) Az elıfordulási és a megvalósulási arányok következtében a kiinduló mintanagyságnak esetenként többszörösen nagyobbnak kell lennie a szükséges mintanagyságnál. 3. 3. 3
. 3. 3. A mintanagyság meghatározása Minél pontosabb információra van szükség, annál nagyobb mintát kell venni. Ám minél jobban nı a minta, annál kisebb a javulás a mintanagyság egységnyi növekedésével. Vezérfonal: Tanulmány típusa Mintanagyság a.) Problémafeltáró kutatás (vendégkörvizsgálat) 5 fı b.) Problémamegoldó kutatás (pl. árazás) fı c.) Termékteszt (marketingkutatás) fı d.) Tesztpiaci tanulmányok fı e.) Tesztpiac vizsgálata utazási iroda f.) Fókuszcsoport. 3. 3. 3 A mintanagyság meghatározása. 3. 3. 3 A mintanagyság meghatározása. 3. 3. 33
. 3. 3. A mintanagyság meghatározása SE = s/ n. 3. 3. 34 Mintanagyság meghatározása A mintanagyság más tudományos módszerekkel is meghatározható (ld. késıbb ) Ha a sokaság, illetve a minta nagyobb mint harminc fı, akkor a vizsgált ismérv vélhetıleg normális eloszlást követ, így alkalmazhatók a valószínőségszámítási elvek a mintavételi hiba (konfidencia-intervallumok meghatározásához) A számítási módszereket statisztikából tanultuk A statisztikai módszerek csak akkor mőködnek, ha a minta reprezentatív. 3. 3. 35 Mintanagyság meghatározása t-próbához A centrális határeloszlás tételébıl levezethetı, hogy ha egy normális eloszlású változó várható értékére vonatkozó nullhipotézist vizsgálunk az egymintás t próbával, akkor ahhoz, hogy meghatározott (-α) valószínőséggel kimutassunk egy legalább d u α / σ nagyságú különbséget, a mintának n számú elemet kell d tartalmazni. A képletben u α/ a standard normális eloszlás α/ valószínőséghez tartozó értéke, σ az elméleti szórás (vagy annak becslése), d pedig az (-α) valószínőséghez tartozó konfidenciaintervallum szélességének a fele. Azon mintaelemszámok táblázata, amelyek két populáció nagyságszintjének átlagokon alapuló, összetartozó kétmintás t-próbával történı összehasonlítására minimálisan szükségesek ahhoz, hogy egy feltételezett létezı különbségbıl adódóβ második fajta hiba mellett ezt a különbséget (-α) valószínőséggel kimutathassuk. (Beyer (968) nyomán).. 3. 3. 36
. 3. 3. Beyer táblázata A t-próba szintje Egyoldalú próba α=.5 α=. α=.5 α=.5 Kétoldalú próba α=. α=. α=.5 α=. β (a második fajta..5..5..5..5..5..5..5..5 hiba valószínősége) η η = σ.5. 39 99 7.5 9 64 39 45.3 78 63 9 45 97 3.35 5 58 9 47 88 34 9 7 4.4 5 97 45 85 37 7 84 68 6 7 55 9.45 9 77 37 8 68 3 93 67 54 8 55 44 5.5 75 63 3 9 66 55 5 76 54 44 8 65 45 36 3.55 83 63 53 6 75 55 46 63 45 37 5 54 38 3.6 7 53 45 63 47 39 8 53 38 3 3 46 3 6 9.65 6 46 39 55 4 34 6 46 33 7 39 8 8.7 53 4 34 7 47 35 3 4 4 9 4 34 4 9 8.75 47 36 3 6 4 3 7 3 35 6 9 3 7 7.8 4 3 7 4 37 8 4 3 9 9 7 9 5 6.85 37 9 4 3 33 5 8 7 8 4 7 4 6.9 34 6 9 3 9 5 9 6 7 5 3 5.95 3 4 7 8 9 3 7 4 7 9 4 5. 8 9 5 9 6 9 6 3 6 8 3 5. 4 9 6 9 6 4 8 8 3 6 5 9. 6 4 8 8 4 7 5 5 3 8.3 8 5 3 8 6 3 6 4 9 8 7.4 6 3 7 4 6 9 8 8 7.5 5 7 3 9 6 8 7 9 7 6. 8 8 5 9 7 7 7 6 5 6 3. 7 6 6 6 5 5 5 4. 6. 3. 3. 37 A minimálisan szükséges mintaelemszám meghatározása Mekkora n minta elemszám garantálja azt, hogy az x n mintaátlag a minta m várhatóértékétıl legfeljebb távolságra essék legalább -µ valószínőséggel? (Vagyis milyen n-ekre teljesül a reláció? ( x n m ) µ P A képletben az egyes paraméterek jelentése: m a minta várható értéke. a mérési pontosság. A kérdésre több válasz is adható, attól függıen, mit tételezhetünk fel a minta eloszlásáról. -µ a bizonytalanság mértéke (azaz a megbízhatóság mértéke).. 3. 3. 38 Kapcsolat a minta elemszám, az eltérés és a megbízhatóság között Ha az n minta elemszám, az eltérés és a µ megbízhatóság közül bármely kettıt ismerjük, akkor alsóbecslést tudunk adni a harmadik paraméterre: n f g µ h (, µ ) ( n, µ ) ( n, ). 3. 3. 39 3
. 3. 3. Paraméteres módszerek A minta elemszám meghatározása normális eloszlású, ismert σ szórású minta esetén: P z µ σ m = µ n x n n z µ σ ahol µ Φ z µ =. 3. 3. 4 σ= σ= \ µ,5,,5, 3844 755 7, 964 6764 58,3 468 36 3,4 4 69 95,5 537 8 89,6 67 75 576,7 784 55 43,8 6 43 34,9 474 334 56, 384 7 7, 37 4 7, 67 88 44,3 7 6 3,4 96 38 6,5 7 9,6 5 6 8,7 33 94 7,8 9 84 64,9 6 75 57, 96 68 5,3 43 3 3,4 4 7 3 \ µ,5,,5, 53658 8 889, 3844 755 7,3 773 5 9,4 964 6764 58,5 646 439 336,6 468 36 3,7 336 9 69,8 4 69 95,9 897 336 3, 537 8 89, 7 894 685, 67 75 576,3 99 64 49,4 784 55 43,5 683 48 368,6 6 43 34,7 53 374 87,8 474 334 56,9 46 3 3, 384 7 7,3 7 9,4 96 68 5. 3. 3. 4 Paraméteres módszerek A minta elemszám meghatározása normális eloszlású, nem ismert szórású minta esetén: t µ sn m = µ n P xn t n µ sn ahol µ F n t µ = Fn s n az n- szabadságfokú Student-eloszlásfüggvény. a minta varianciája,. 3. 3. 4 4
. 3. 3. Nemparaméteres módszerek A centrális határeloszlás-tétel alapján: z µ σ z µ σ P x n m µ n n. 3. 3. 43 Nemparaméteres módszerek A minta elemszám megbecslése a Hoeffding-egyenlıtlenség segítségével: amennyiben az méréseink garantáltan az (a, b) intervallumba esnek, P n n i= n X i m > exp ( b a) µ ( b a) ln n. 3. 3. 44 Az eltérés és bizonytalanság becslése, ha ismert az n Adott n minta elemszám és maximális eltérés esetén a µ maximális bizonytalanság megbecslése: n exp µ δ Adott n minta elemszám és µ maximális bizonytalanság esetén az maximális eltérés megbecslése: µ δ ln n. 3. 3. 45 5
. 3. 3. Nemparaméteres módszerek A minta elemszám becslése a Bernstein-egyenlıtlenség alapján: amennyiben az méréseink garantáltan az (a,b) intervallumba esnek, és ismert a σ szórás n n P X m > exp ( ) i n = b a i σ + 3 µ ln σ + b a 3 n. 3. 3. 46 Az eltérés és bizonytalanság becslése, ha ismert az n Adott n minta elemszám és maximális eltérés esetén a µ maximális bizonytalanság megbecslése: n µ exp ( ) b a σ + 3 Adott n minta elemszám és µ maximális bizonytalanság esetén az maximális eltérés megbecslése: ( b a) ( b a) 3 ln µ + 3 n ln µ µ + 8nσ ln. 3. 3. 47 Csernov-egyenlıtlenség A Csernov-egyenlıtlenség binomiális eloszlású változó farokeloszlására vonatkozik, tehát paraméteres becslési módszert tesz lehetıvé. Ez azzal kecsegtet, hogy a szükséges minta elemszámra kisebb értékeket lehet vele igazolni, mint a nemparaméteres Hoeffding- illetve Bernstein- egyenlıtlenség esetén. Jelölje X az n minta elemszámú méréssorozatban a megfigyelt A esemény gyakoriságát. Az A esemény p=p(a) valószínőségére akarunk legfeljebb szélességő, -µ megbízhatóságú konfidencia-intervallumot szerkeszteni.. 3. 3. 48 6
. 3. 3. Csernov-egyenlıtlenség Az X n,p-paraméterő binomiális eloszlást követ: Az X értékkészlete három diszjunkt részre bontható, alsó (a), középsı (k) és felsı (f) részre: n k n k P ( X = k) = p ( p), k =,,..., n k H a = {,..., [ n( p )]} H k = {[ n( p )] +,..., [ n( p + ]} {[ n( p + )] + n} H f =,... H H a k f 67864 474 48 64748 [ ] H. 3. 3. 49 P( X H Csernov-egyenlıtlenség a ) = P ( X < n( p )) p p + exp n ( p )ln + ( p + )ln p p illetve P( X H f ) = P ( X > n( p + )) p + p exp n ( p + )ln + ( p )ln p p. 3. 3. 5 P Csernov-egyenlıtlenség P P X n p < µ ( n( p ) < X < n( p + )) µ ( n( p ) < X < n( p + )) = P( X H ) µ Ez pontosan akkor áll fenn, ha P ( X H ) + P( X H ) µ ami természetesen teljesül, ha a P ( µ, X, µ µ = µ X H a ) P ( H f ) µ f k +. 3. 3. 5 7
. 3. 3. Csernov-egyenlıtlenség A minta elemszám minimumának becslése a Csernov-egyenlıtlenség alapján: ln ln µ µ n max, p + p p p + ( p + )ln ( ) + ( + ) + p ln ( p )ln p ln p p p p µ µ p az alsó tartományhoz tartozás valószínősége a felsı tartományhoz tartozás valószínősége a becsült valószínőség nagysága az elıírt pontosság. 3. 3. 5 A minta elemszámok becslései Moivre Laplace Csernov Bernstein Hoeffding p=,,=,,µ=, 68 588 793 4979 p=,,=,5,µ=, 7 737 77 5995 p=,,=,,µ=, 67 75 48 3745 p=,,=,,µ=,5 95 8 36 46 p=,,=,,µ=,5 38 765 976 8444 A Moivre-Laplace tétellel kapjuk a legjobb becslést, de bizonyított, hogy p vagy esetén a konvergencia lassú, azaz a módszer ilyenkor nem alkalmazható.. 3. 3. 53 Csernov-egyenlıtlenség µ függése p -tıl és n -tıl,,8,6,4, 3 59 88 7 46 75 4 33 6 9 3 349 378 47 436 465 494 53 55 58 6 639 668 697 76 755 784 83 84 87 9 99 958 987 µ n=, =. n=5, =. n=5, =. p. 3. 3. 54 8
. 3. 3. Csernov-egyenlıtlenség, n =, =. µ függése p - tıl és -tól n =, =.3,8 n =, =.5,6 n =, =.9,4, 38 75 49 86 3 6 97 334 37 48 445 48 59 556 593 63 667 74 74 778 85 85 889 96 963. 3. 3. 55 Szekvenciális próba a hibavalószínőség ellenırzésére H H : : P P ( S) = p = P ( H t elutasítottuk, holott igaz) ( S) = p = P( H t elfogadtuk, holott nem igaz) A = B = V = X, V n = X i= + X, L, V n = X i, L Addig folytatjuk a mintavételezést, amíg: A < V < B n n n A n p ln A + nln p = p( p ) ln p ( p ) B n p ln B + nln p = p( p ) ln p ( p ). 3. 3. 56 Szekvenciális próba a hibavalószínőség ellenırzésére A döntéshez szükséges átlagos minta elemszámra bebizonyítható, hogy: n = p ( ) ln A + p ln + ( p ) p ln A + n = p p ln + p ln B p ln p ( ) ( p ) ln B p ln p ha igaz a nullhipotézis; ha nem igaz a nullhipotézis. 3. 3. 57 9
. 3. 3. Adott mintaelemszám és maximális eltérés esetén a maximális µ bizonytalanság megbecslése Hoeffding: n exp µ δ Bernstein: n µ exp σ + ( b a) 3 Csernov: p + p ( ) ( ) p µ exp + ( ) + n p + ln + n p ln exp n p ln n ln p p p p. 3. 3. 58 Adott mintaelemszám és maximális eltérés esetén a maximális µ bizonytalanság megbecslése 5 3 35 4 45 5 55 6 65 7 8 5,99,985,979,97,96,95,94,99,96,9,886,85,98,97,957,94,95,95,884,86,835,88,779,76 5,97,956,936,94,888,86,88,794,757,78,677,589,96,94,96,886,85,85,774,73,683,634,58,47 5,953,97,895,859,87,77,7,669,6,553,49,363 3,943,9,875,83,783,79,67,69,544,476,47,63 35,934,898,855,85,749,688,6,55,479,44,36,7 4,95,884,835,779,76,647,574,497,47,334,5,83 5,96,856,796,77,65,569,483,39,3,6,,99 6,888,88,757,677,589,495,396,95,9,9,989,797 7,87,8,7,69,53,44,35,5,94,985,88,684 8,85,774,683,58,47,357,39,,4,89,78,587 9,835,748,647,536,47,93,67,4,9,85,696,54,87,7,6,49,363,3,99,969,845,77,69,43,65,483,3,,99,758,64,47,357,64,9,93 3,5,77,48,83,634,467,33,8,5,96,59, 5,39,946,68,46,94,77,,53,7,3,6,,767,448,3,6,43,6,5,,,,, a= b= 3. 3. 3. 59 Adott n mintaelemszám és maximális µ bizonytalanság esetén az maximális eltérés megbecslése Hoeffding: µ δ ln n Bernstein: ( b a) ( b a) ln + 3 µ 3 n µ ln + 8nσ ln µ. 3. 3. 6
. 3. 3. Adott n mintaelemszám és maximális µ bizonytalanság esetén az maximális eltérés megbecslése,,5,,5,, 5 438,5364 465,55 5,65 555,666 6,84 665,3 3,9 38,8934 353,6994 39,493 438,5364 47,383 5 53,89 68,543 88,7944 3,4678 358,635 384,663 9,68 3,567 5,33 77,5333 3,9 33,6 5 96,95 8,4 3,699 48,333 77,3548 97,4965 3 79,38 89,8867 4,85 6,65 53,89 7,5759 35 65,75 75,89 89,63 9,7954 34,476 5,434 4 55,46 64,4467 76,8497 96,457 9,68 35,96 5 38,6774 47,856 58,79 75,575 96,95,368 6 6,5946 34,7 44,397 6,339 79,38 9,33 7 7,38 4,3 33,6858 48,3478 65,75 77,788 8 9,634 6,84 5,56 38,7666 55,46 66,356 9 3,364 9,63 7,8998 3,834 46,788 56,7944 98,5973 4,5,8496 4,67 38,6774 48,748 69,3387 73,5479 79,8959 87,76373 98,5973 5,89 3 56,648 6,4744 64,57638 7,65879 8,6543 85,87984 5 43,85364 46,555 5,65 55,5666 6,84 66,53 3,9 3,88934 35,36994 39,493 43,85364 47,383. 3. 3. 6