Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef. Feladatok
Gazdaságstatisztika 7. Statisztikai becslések (folyt.); 8. Hipotézisvizsgálat Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet
Intervallumbecslés A pontbecslés (szinte) sohasem pontos Mennyire pontatlan? Milyen határok között lehet a pontos érték? - általában rossz kérdés Milyen határok között van nagy valószínűséggel? A sokaság várható értékét becsüljük; 4 eset: Normális eloszlás, szórás ismert Normális eloszlás, szórás ismeretlen Nem normális, de ismert eloszlás, nagy minta Ismert eloszlás, kis minta, vagy ismeretlen eloszlás
Normális eloszlás, szórás ismert 1/3. Normális eloszlás a mintaátlag ( µ), és a minta elemei is normális eloszlásúak A sokaság szórása (σ) ismert. Új valószínűségi változót definiálunk: Z = µ µ σ n Miért? Ha x N(µ, σ) µ σ N(µ, ) n µ µ N(0, σ n ) Z = µ µ σ n N(0, 1)
Normális eloszlás, szórás ismert 2/3. α a hiba. Mivel Z N(0, 1) és ha szimmetrikus 1 α = P( z < Z < z) = Φ(z) Φ( z) = 2Φ(z) 1 Φ(z) = 1 α 2 z p =... Tehát z p < µ µ σ n < z p µ z p σ n < µ < µ + z p σ n
Normális eloszlás, szórás ismert 3/3. A konfidenciaintervallum: ( µ z p σ n ; µ + z p σ n ) Konkrét mintára (x z p σ n ; x + z p σ n ) = z p σ n a hibahatár, v. maximális hiba hibahatár, v. maximális hiba ( ) A becslés során 1 α valószínűséggel ennél kisebbet tévedünk.
Student és a Student-féle eloszlás William Sealy Gosset alias Student (1876 1937) (t helyett z = t/ n 1)
Fischer és a Student-féle t-eloszlás Sir Ronald Aylmer Fischer (1890 1962) Felfedezte és továbbfejlesztette Student munkáját (valódi t-statisztika)
Normális eloszlás, szórás ismeretlen σ ismeretlen = becsüljük: Z = µ µ σ helyett t = µ µ σ n n t Student-féle t-eloszlású szf = n 1 szabadságfokkal: szimmetrikus aszimptotikusan standard normális A konfidenciaintervallum: ( ) µ t p (szf ) σ ; µ + t (szf ) σ n n p Konkrét mintára ( x t (szf ) p ) s ; x + t (szf ) s n n p
Eloszlás nem normális, de ismert, nagy minta A mintaátlag eloszlása közel normális. Ha a szórás ismert, a konfidenciaintervallum (x z p σ n ; x + z p σ n ) Ha nem ( x t (szf ) p ) s ; x + t (szf ) s n n p
Eloszlás nem normális, nem ismert, vagy kis minta ( Semmit sem tudunk ) Csebisev: P( ξ M(ξ) < k D(ξ)) 1 1 k 2, azaz P( µ kσ µ < µ < µ kσ µ ) 1 1 k 2 Itt: ξ = µ (és M(ξ) = µ) k = 1 α Ha a szórás nem ismert: σ µ helyett s x = s n Pafnutyij L. Csebisev (1821 1894)
Értékösszeg becslése A sokasági értékösszeg (X = N X = N i=1 X i) becslése a mintaátlag N-szereséből. A becslőfüggvény: µ = N µ = N n i=1 ξ i n A standard hiba négyzete N 2 -szerese az átlagbecslésének. Konfidenciaintervallum: az átlagbecslő intervallum határai szorozva N-nel.
Sokasági arány becslése Aránybecslés A két csoportra osztott sokaságban az egyes csoportokba esés valószínűségét (P) becsüljük. Feltételezés: Független, azonos eloszlású minta A tulajdonsággal rendelkező mintaelemek száma k n binomiális eloszlású: M(k n ) = np, illetve D 2 (k n ) = np(1 P) p = kn n a P torzítatlan becslése. σ 2 p = D2 ( p) = D2 (k n) n 2 = P(1 P) n Konkrét mintában s p = Vagy: ξ i = p(1 p) n (a hiba a könyvben van!) { 1 ha megvan a tulajdonság, 0 ha nincs. Konfidenciaintervallum: (p z p s p ; p + z p s p ), ahol z p Φ(z) = 1 α 2 megoldása.
Sokasági szórásnégyzet (σ 2 ) becslése A korrigált tapasztalati szórásnégyzet ( σ 2 ) torzítatlan. ξ 1 µ σ, ξ 2 µ σ várható értéke 0, szórása 1. Négyzetösszegük ( (n 1) σ2 ) χ 2 eloszlású n 1 szabadságfokkal. σ 2 χ 2 eloszlás Standard normális változók négyzetösszegének eloszlása.
Intervallumbecslés rétegzett mintavétellel (Egyszerű véletlen mintavétel rétegenként.) M j=1 Véges sokaságra µ = x = N j X j M j=1 N j ahol µ (R) = M j=1 N j µ j N és σ µ(r) = µ (R) ± z p σ µ(r) M j=1 ( ) Nj 2 σ 2 ( ) j N n j 1 n j N j Értékösszegbecslés: mint egyszerű mintavételre: beszorozni N-nel Aránybecslés: a becslőfüggvény a megfelelő súlyozott átlag.
Minta elemszámának meghatározása Feladat: Mekkora elemszámra van szükség ahhoz, hogy adott α mellett egy kívánt pontosságot elérjek? = zp σ n, amiből n = ( z p σ Egyszerű véletlen mintavételnél: = zp σ n 1 n N, ebből n = N z2 p σ2 N 2 +z p σ 2 Itt kisebb a szükséges elemek száma ( ( z p σ Más mintavételi eljárás: függ az eljárástól! ) 2 ) 2 > z 2 p σ 2 2 + zp σ2 N )
Hipotézisvizsgálat v becslés Becslés Ismeretlen paraméter Közeĺıtő értéket adunk meg Hipotézisvizsgálat Feltételezett paraméter Álĺıtás helyességét igazoljuk Hipotézis Egy v több sokaságra vonatkozó álĺıtás. Vonatkozhat eloszlásra, v az eloszlás egyes paramétereire.
Null- és alternatív hipotézis Nullhipotézis (H 0 ) és alternatív- (v. ellen-) hipotézis (H 1 ): Kölcsönösen kizárják egymást A nullhipotézis rendszerint egyszerű Egy hipotézis lehet Egyszerű: egyenlőség Összetett: több hipotézis összessége Példák: H 0 : µ = m 0 H 1 : µ m 0 H 0 : µ = m 0 H 1 : µ < m 0 Alapvetően a nullhipotézisről döntünk Az ellenhipotézis segítségével Pontosan 1 hipotézist fogadunk el (Ha a nullhipotézist elutasítjuk, az ellenhipotézist elfogadjuk)
Statisztikai próba 1/3 Statisztikai próba Eljárás, mely során a minta alapján döntünk a nullhipotézis elfogadásáról, vagy elutasításáról. Próbafüggvény A mintaelemek olyan függvénye melynek valószínűségeloszlása megadható biz adatok ismeretében ha elfogadjuk a nullhipotézist.
Statisztikai próba 2/3 Példa: z-próbafüggvény Ha H 0 : µ = m 0 az alapsokaság normális eloszlású a minta független, azonos eloszlású a sokaság szórása ismert, σ standard normális eloszlású. z = µ m 0 σ n
Statisztikai próba 3/3 A próbafüggvény konkrét mintára kiszámított értéke eshet a [c a ; c f ] elfogadási tartományba (ekkor H 0 -t elfogadjuk), vagy a komplementer elutasítási (v kritikus) tartományba (ekkor H 0 -t elutasítjuk). Szignifikanciaszint A próbafüggvény kritikus tartományba esésének valószínűsége A kritikus tartomány elhelyezkedése szerint lehet bal oldali kétoldali jobb oldali
Kritikus tartományok és értékek
Kritikus tartományok és értékek 2
Vizsgálati hibák A döntés valószínűségi kockázattal jár Ha H 0 igaz, mégis elvetjük ez az elsőfajú hiba. Valószínűsége α a próba szignifikanciaszintje. Ha H 0 nem igaz mégsem vetjük el ez a másodfajú hiba. Valószínűsége β. igaz elfogadott hipotézis hipotézis H 0 H 1 H 0 helyes döntés elsőfajú hiba 1 α α H 1 másodfajú hiba helyes döntés β 1 β A másodfajú hiba súlyosabb, hiszen ekkor a hibás eredmény korrigálására nincs lehetőség. Erőfüggvény 1 β (másodfajú hiba elkerülésének valószínűsége) az egyszerű alternatív hipotézishez tartozó ismérvértékek függvényében.
Vizsgálati hibák 2
A statisztikai hipotézisvizsgálat menete 1 A H 0 null- és H 1 alternatív hipotézis megfogalmazása. 2 A megfelelő próbafüggvény megkeresése. 3 A szignifikanciaszint megválasztása. 4 Az elfogadási és visszautasítási tartományok meghatározása. 5 Mintavétel, a mintajellemzők és ebből a próbafüggvény értékének meghatározása 6 Döntünk a H 0 és H 1 hipotézisekről.
Egymintás z-próba H 0 : µ = m 0 H 1 : µ < m 0 vagy H 1 : µ > m 0 vagy H 1 : µ m 0 A sokaság normális eloszlású; a σ szórás ismert. z = µ m 0 σ n Konkrét mintában: z 0 = x m 0 σ n Az elfogadási tartomány határai a következők: Alternatív hipotézis µ < m 0 [ µ m 0 ] µ > m 0 Elfogadási tartomány [z α ; [ z α ; z 1 α ] ; z 2 2 1 α ] Használható bármely véges szórású, nagy elemszámú független minta esetén is (becsült szórással).
Egymintás t-próba H 0 : µ = m 0 H 1 : µ < m 0 vagy H 1 : µ > m 0 vagy H 1 : µ m 0 A sokaság normális eloszlású; a σ szórás nem ismert. z = µ m 0 σ n Konkrét mintában: z 0 = x m 0 σ n Az elfogadási tartomány határai a következők: Alternatív hipotézis µ < m 0 µ m 0 µ > m 0 [ Elfogadási tartomány t szf α ; [ [ ] t szf α ; t1 szf ] ] α ; t szf 1 α 2 2
Szórásra vonatkozó próba H 0 : σ = σ 0 H 1 : σ < σ 0 vagy H 1 : σ > σ 0 vagy H 1 : σ σ 0 A sokaság normális eloszlású. χ 2 = (n 1) σ2 σ 2 0 Konkrét mintában: χ 2 = (n 1) s2 σ0 2, mely szf = n 1 szabadságfokú χ 2 eloszlást követ. Az elfogadási tartomány határai a következők: Alternatív hipotézis σ < σ 0 [ [ σ σ 0 ] σ > σ 0 ] Elfogadási tartomány [χ 2 α,szf ; χ 2 α 2,szf ; χ2 1 [0; α 2,szf χ 2 1 α,szf
Sokasági arányszámmal (valószínűséggel) kapcs próba P meghatározott típusú egyedek előfordulásának valószínűsége. Azt vizsgáljuk, hogy ez az arány megfelel-e egy feltételezett P 0 aránynak (azaz H 0 : P = P 0 ). Legyen { 1 ha megvan a tulajdonság, ξ i = 0 ha nincs. Ekkor M(ξ i ) = P 0 és D(ξ) = P 0 (1 P 0 ), illetve p = ξi n, M( p) = P P 0, D( p) = 0 (1 P 0 ) n. Ebből: z P0 = p P 0 P 0 (1 P 0 ) n standardizált; nagy n esetén pedig közel normális.
Kétmintás statisztikai próbák Két sokaság összehasonĺıtása a hipotézis a két ismérv összehasonĺıtására vonatkozik. Pl: két technológia, férfiak/nők, falu/város összehasonĺıtása A két sokaságot két véletlen, független minta képviseli
Várható értékek különbségének vizsgálata Két sokaság: µ 1, σ 1 és µ 2, σ 2 ; véletlen független minták. H 0 : µ 1 = µ 2 H 1 : µ 1 < µ 2 vagy H 1 : µ 1 µ 2 vagy H 1 : µ 1 > µ 2 Ha mindkét sokaság normális eloszlású és a szórások ismertek: M( µ 1 µ 2 ) = 0, és D( µ 1 µ 2 ) = D( µ 1 ) + D( µ 2 ) = σ2 1 (függetlenség), így n 1 + σ2 2 n 2 z = µ 1 µ 2, konkrét mintára: z σ 2 0 = 1 n 1 + σ2 2 n 2 x 1 x 2 σ 2 1 n 1 + σ2 2 n 2 standard normális eloszlást követnek. Ha a szórás nem ismert, de a minta nagy, σ helyett σ, ill. σ helyett s használatos.
Várható értékek különbségének vizsgálata kis minta (kétmintás t-próba) Kis minta esetén, ha normális eloszlású sokaságok az ismeretlen szórások egyenlősége feltételezhető Ekkor t = (n1 1) σ 2 1 +(n 2 1) σ 2 2 n 1 +n 2 2 µ 1 µ 2, 1 + 1 n1 n2 ill.: t 0 = (n1 1)s 2 1 +(n 2 1)s 2 2 n 1 +n 2 2 x 1 x 2 1 + 1 n1 n2 szf = n 1 + n 2 2 szabadságfokú Student t-eloszlást követ.
Két sokasági arányra vonatkozó próba H 0 : P 1 P 2 = ε 0 Két nagy minta esetén a próbafüggvény: z p = ˆp 1 ˆp 2 ε 0 ˆp1 (1 ˆp 1 ) n 1 + ˆp 2(1 ˆp 2 ) n 2, ill.: z 0(p) = p 1 p 2 ε 0 p1 (1 p 1 ) n 1 + p 2(1 p 2 ) n 2
Két sokasági szórás egyezőségére vonatkozó (F -) próba A szórások egyezését kétmintás t-próbánál feltételezzük itt ellenőrizzük. A sokaság eloszlása (jó közeĺıtéssel) normális H 0 : σ 1 = σ 2 A próbafüggvény: F = σ 1 σ 2 szf 1 = n 1 1 és szf 2 = n 2 1 szabadságfokú F eloszlást alkot. Táblázatból c f olvasható ki, F szf 1 szf 2 (p) = 1 F szf 2 szf 1 (1 p) Alt. hipotézis: [ σ 1 < σ 2 [ [ σ 1 σ 2 ] [ σ 1 < σ 2 ] Elfogadási tart. F szf 1 szf 2 (α) ; F szf 1 szf 2 ( α ); F szf 1 szf 2 2 (1 α 2 ) 0; F szf 1 szf 2 (1 α)
Egyéb vizsgálatok Eddig: paraméterek helyességét vizsgáltuk. Most: magát az eloszlást Illeszkedésvizsgálat Egy valószínűségi változó eloszlására vonatkozó hipotézis vizsgálata. 1 Ha az eloszlás paramétereire is van feltételezés: tiszta illeszkedésvizsgálat. 2 Ha csak az eloszlás típusára: becsléses illeszkedésvizsgálat.
Illeszkedésvizsgálat 1 Kategóriák Előfordulási gyakoriság Előfordulási ismérvértéke a mintában a konkrét mintában valószínűség X 1 v 1 n 1 P 1.... X i v i n i P i.... X k v k n k P k Összesen n n 1 H 0 : P(X i ) = P i minden i-re H 1 : létezik olyan i, hogyp(x i ) P i Ekkor M(v i ) = np i, az eltérés kifejezhető mint (v i np i ) 2.
Illeszkedésvizsgálat 2 χ 2 = k i=1 (v i np i ) 2 np i = k (v i v i=1 v i i )2 ami szf = k b 1 szabadságfokú χ 2 -eloszlást követ b = becsült paraméterek száma a P i -k meghatározásánál k = a kategóriák száma. H 1 esetén a próbafüggvény nagyobb jobb oldali kritikus tartomány. [ ] Az elfogadási tartomány 0, χ 2 1 α(szf ). Konkrét minta esetén, χ 2 0 = k (n i v i=1 v i i )2,
Függetlenségvizsgálat Függetlenségvizsgálat Azon nullhipotézis vizsgálata, hogy két ismérv független egymástól. Ha a teljes sokaságot ismerjük Statisztika I. Itt: mintából. H 0 : P ij = P i P j minden i, j-re H 1 : létezik olyan i, j, hogyp ij P i P j χ 2 = s t i=1 j=1 (v ij np i P j ) 2 np i P j = konkrét mintára: = s t i=1 j=1 s i=1 j=1 (v ij v ij )2 v ij t (n ij nij )2 n ij ami χ 2 eloszlás s t 1 szabadságfokkal. Elfogadás, ha a [0; χ 2 1 α(p) ] tartományba esik.
Varianciaanaĺızis Varianciaanaĺızis Több azonos szórású normális eloszlású mintát vizsgál várható érték egyezésre. A sokaságot M részsokaságra bontjuk nominális skála alapján, ezekből mintát veszünk. ξ ij = µ + β j + ε ij ξ ij : j-edik sokaságból jövő i-edik megfigyelés µ: az egész sokaság várható értéke β j : sokasági hatás; a j részsokaságra jellemző konstans ε ij : véletlen ingadozás N(0, σ) szerint.
Varianciaanaĺızis 2 H 0 : µ i = µ j minden i, j-re H 1 : létezik olyan i, j, hogyµ i µ j M j=1 nj i=1 (ξ ij ˆµ) 2 alapján a próbafüggvény F = ˆ σ 2 K M j=1 (n j 1)ˆσ 2 j n M ami szf 1 = M 1 és szf 2 = n M szabadságfokú F -eloszlás, ha H 0 igaz. H 1 esetén az érték nagyobb jobb oldali kritikus tartomány.
Összefoglalás próba H 0 próbafüggvény pf. eloszl. elfogadási tartomány ] Egymintás z µ = m 0 z = µ m 0 N(0, 1) [z α2 ; z σ 1 α2 n [ ] Egymintás t µ = m 0 z = µ m 0 t (n 1) t (n 1) α ; t (n 1) σ 1 α n 2 2 ] Szórásra v. σ = σ 0 χ 2 = (n 1) σ2 σ 0 2 χ 2 α,(n 1) [χ 2 α2,szf ; χ21 α2 ],szf p P Arány P = P 0 z P0 = 0 N(0, 1) [z α2 ; z P0 (1 P 0 ) 1 α2 Kétmintás z µ 1 = µ 2 n ] z = µ 1 µ 2 σ 1 2 N(0, 1) [z α2 ; z 1 α2 + σ2 2 n 1 n 2 [ ] Kétmintás t µ 1 = µ 2 µ 1 µ 2 t (n 1 +n 2 2) t (n 1 +n 2 α 2) ; t (n 1 +n 2 2) 1 α 2 2 2 arány v. P 1 P 2 = ε 0 z p = (n 1 1) σ 2 1 +(n 2 1) σ2 2 n 1 +n 2 2 1 n1 + 1 n 2 ˆp 1 ˆp 2 ε 0 ˆp1 (1 ˆp 1 ) n 1 + ˆp 2 (1 ˆp 2 ) n 2 N(0, 1) F -próba σ 1 = σ 2 F = σ 1 σ 2 Illeszkedés P(X i ) = P i i χ 2 = k (v i np i ) 2 i=1 np i Függetlenség P ij = P i P j i, j χ 2 = s tj=1 (v ij np i P j ) 2 i=1 Varianciaa. µ i = µ j i, j F = np i P j ˆσ 2 K Mj=1 (n j 1) ˆσ 2 j n M F n 1 1 n 2 1(p) χ 2 α,(k b 1) χ 2 α,(s t 1) F M 1 n M(p) [z α2 ; z 1 α2 ] [ F n 1 1 n 2 1( α 2 ); F n 1 1 n 2 1(1 α 2 [ ] ) 0; χ 2 1 α(szf ) [ ] 0; χ 2 1 α(p) [ 0; F M 1 n M(1 α 2 ) ]
8.1. Gyakorlófeladat A zacskóba csomagolt 1 kg-os kristálycukor tömegének ellenőrzésére 10 elemű véletlen mintát vettünk. Feltételezhető, hogy a csomagolóautomata normális eloszlással tölt. Mérési eredmények dkg-ban: 96; 96; 97; 100; 98; 98; 96; 99; 101; 102. A töltősúly szórásának megengedett mértéke 1 dkg. Feladat: (a) Ellenőrizzük, hogy a kristálycukor töltési tömege megfelel-e a szabványnak! (α = 1%.) (b) Ellenőrizzük 5%-os szignifikanciaszinten azt a feltevést, hogy a csomagolási tömeg szórása meghaladja az 1 dkg-os mértéket!
8.1. Gyakorlófeladat (a) Összefoglalás + (a) feladat µ 0 = 100, x i = 96; 96; 97; 100; 98; 98; 96; 99; 101; 102 (i = 1,..., 10). H 0 : µ = 100 H 1 : µ 100 Kétoldali próba z 0 = x m 0 σ n = 96 3+97+98 2+99+100+101+102 10 100 = 1, 7 1 1 10 [ ] Az elfogadási tartomány z α ; z 1 α = [ 2, 58; 2, 58]. 2 2 z 0 nem esik az elfogadási tartományba, H 0 -t elvetjük. 3,16 = 5, 38
8.1. Gyakorlófeladat (b) Egymintás szóráspróba H 0 : σ = 1 H 1 : σ > 1 Egyoldali próba, jobboldali kritikus tart. (xi x) 2 χ 2 0 = (n 1)s2 s 2 = σ0 2 n 1 x = 98, 3 s 2 = (96 98,3)2 (102 98,3) 2 10 1 = 42,1 9 = 4, 68 Ebből χ 2 0 = 42,1 1 = 42, 1. α = 5%, szf= n 1 = 9, a jobbo.-i kritikus érték χ 2 0,95(9) = 16, 9. 42, 1 > 16, 9, tehát a (jobb oldali) kritikus tartományba esik. A feltevés helytelen, a szórás nagyobb.
8.13. Gyakorlófeladat Egy marketinggel foglalkozó cég vezetője arra kiváncsi, hogy jól képzett munkatársainak ügynöki teljesítménye független-e az életkortól. Az adatokat úgy gyűjtötték, hogy egy hónap alatt hány darabot sikerült az ügynöknek eladni. A 600 elemű minta alapján: Eladások száma Kor 5-9 10-15 16-20 összesen -30 50 80 70 200 30-40 80 90 90 260 40+ 60 50 30 140 összesen 190 220 190 600 Befolyásolja-e az életkor az ügynökök munkájának eredményességét? (α = 5%)
8.13. Gyakorlófeladat: Függetlenségvizsgálat H 0 : függetlenség: P ij = P i P j i, j, H 1 : i, j : P ij P i P j Eladások száma Kor 5-9 10-15 16-20 összesen -30 50 63,3 80 73,3 70 63,3 200-13,3 176,89 6,7 44,89 6,7 44,89 30-40 80 82,3 90 95,3 90 82,3 260-2,3 5,29-5,3 28,09 7,7 59,29 40+ 60 44,3 50 51,3 30 44,3 140 15,7 246,49-1,3 1,69-14,3 204,49 összesen 190 220 190 600 χ 2 0 = s i=1 t j=1 (n ij n i n n n ) 2 n i n n n = s t (n ij nij) 2 i=1 j=1 nij A szf száma (s 1)(t 1), így a kritikus érték χ 2 1 α(szf ) = χ2 0,95(4) = 9, 49. Mivel 812 > 9, 49, a nullhipotézist elutasítjuk. = 812.