STATISZTIKAI ALAPOK I. STATISZTIKAI ALAPOK Adatok ábrázolása Yogi Berra: "You ca observe a lot by watchig." I. STATISZTIKAI ALAPOK
Mérési adatok ábrázolása: Pot ábrázolás (Dotplot) Dotplot for Y 9 3 Y I. STATISZTIKAI ALAPOK 3 Sok adatra a dotplot em elég iformatív Dotplot for Y 7.8 8.8 9.8.8.8.8 Y I. STATISZTIKAI ALAPOK 4
Pulzus példa Egy társaság mide tagjáak megmérték a pulzusát (PULSE), majd kisorsolták ki fusso és ki em (RAN). Futás utá újból mérték a pulzust (PULSE). A résztvevık éháy jellemzıjét (doháyzás, em, stb.) a pulzus adatokkal együtt táblázatos formába rögzítették. A táblázatba egy sor egyazo személy adatait tartalmazza. I. STATISZTIKAI ALAPOK 5 4 Histogram of PULSE; categorized by RAN Pulse.sta 8v*9c 6 4 Bo Plot of PULSE grouped by RAN Pulse.sta 8v*9c No of obs 8 6 4 8 6 4 PULSE 4 5 6 7 8 9 3 4 5 PULSE RAN: RAN: 8 6 4 RAN Media 5%-75% No-Outlier Rage Outliers Etremes I. STATISZTIKAI ALAPOK 6 3
6 Bo Plot of PULSE grouped by SEX; categorized by RAN Pulse.sta 8v*9c 4 PULSE 8 6 4 SEX PULSE/RAN: PULSE/RAN: Outliers I. STATISZTIKAI ALAPOK 7 Scatterplot of WEIGHT agaist HEIGHT Pulse.sta 8v*9c 9 8 WEIGHT 7 6 5 4 5 55 6 65 7 75 8 85 9 95 HEIGHT Iclude se Iclude se Other I. STATISZTIKAI ALAPOK 8 4
Dobozos ábra és hisztogram szimmetrikus eloszlásból vett mitára 7 7 65 65 6 6 55 55 5 5 45 45 Ma 63 Mi 37 75% 54.6 5% 44.8 Media 5. 4 35 3 4 35 3 % 5% % 5% % 5% 3% rel. gyak. I. STATISZTIKAI ALAPOK 9 Dobozos ábra és hisztogram aszimmetrikus eloszlásból vett mitára Ma 5 Mi. 75% 7.6 5%. Media 4.4 outlier 8 6 4 8 6 4 8 6 4 8 6 4 % 5% % 5% % 5% frequecy I. STATISZTIKAI ALAPOK 5
I. STATISZTIKAI ALAPOK D. G. Altma, BMJ, 98 Studet, 93 I. STATISZTIKAI ALAPOK 6
Mérési skálák évleges (omial, categorical) sorredi (ordered categorical) itervallum (iterval) aráyos (proportioal) I. STATISZTIKAI ALAPOK 3 9 8 y 7 6 5 4 3 Sopro Gödöllõ Nyíregyháza Város 9 8 y 7 6 5 4 3 3 4 T I. STATISZTIKAI ALAPOK 4 7
Alapfogalmak (vázlat) Véletle jeleség Sokaság és mita Valószíőségi változó: diszkrét vagy folytoos Sőrőség- és eloszlásfüggvéy Függetleség fogalma I. STATISZTIKAI ALAPOK 5 Az igadozás, bizoytalaság elkerülhetetle a gyártott termékpéldáyok külöbözek az ismételt mérési eredméyek em azoosak ha egy tételbıl többször veszük mitát, a talált selejtaráy változik ha másik mitát veszük a vízbıl, em lesz teljese azoos ha másik apo veszük mitát, em lesz ugyaolya I. STATISZTIKAI ALAPOK 6 8
Sokaság és mita a sokaság érdekel a mita va a kezükbe az egy év alatt gyártott darabok sokasága (mi a mita?) a lehetséges mérési eredméyek sokasága (mi a mita?) a lehetséges gyártott darabok sokasága (mi a mita?) I. STATISZTIKAI ALAPOK 7 Diszkrét valószíőségi változó Dobjuk föl egy pézérmét kimeetel: fej/írás (véletle) Kísérlet: dobjuk föl a pézérmét -szer eredméy: #fej,,,,9, valószíőségi függvéy, eloszlásfüggvéy p().4.6.8. 3 4 5 6 7 8 9 I. STATISZTIKAI ALAPOK 8 9
Diszkrét valószíőségi változó p().4.6.8. 3 4 5 6 7 8 9 F()..8.6.4.. 3 4 5 6 7 8 9 ( k) P( k) F( k ) P( k) p( i ) p k I. STATISZTIKAI ALAPOK 9 i Folytoos valószíőségi változó.4 f() rel. gyak. a b. 9.4 9.8..6 P ( a < b) f ( ) b a d sőrőségfüggvéy I. STATISZTIKAI ALAPOK
Folytoos valószíőségi változó..8 F() F() kum.rel.gyak.6.4.. 9.4 9.6 9.8...4.6 eloszlásfüggvéy F( i ) F I. STATISZTIKAI ALAPOK i i ( ) P( ) f ( ) i i d Paraméter és statisztika sokaság mita várható érték: számtai átlag: E( ) µ N N i i mediá variacia tapasztalati mediá szóráségyzet (korrigált) Var ( ) N σ ( ) s i N i I. STATISZTIKAI ALAPOK
Várható értékre és variaciára voatkozó azoosságok [ ] ce [ ] Var [ c] c Var [ ] E c I.. példa Egy lombikba töltött folyadék térfogatáak várható értéke.5cm 3, a térfogat variaciája 4-4 (cm 3 ). Mekkora a várhatóérték és a variacia mm 3 -be? Jelölje a térfogatot cm 3 be. [ ] E E 3 3 3.5 ( ) [ ] Var Var 4 3 3 6 4 A várható érték.5 3 mm 3, a variacia 4 (mm 3 ). I. STATISZTIKAI ALAPOK 3 Függetle valószíőségi változókra voatkozó azoosságok [ + + ] [ ] + [ ] + [ ] E E E E 3 3 [ + + ] [ ] + [ ] + [ ] Var Var Var Var 3 3 Ha midegyik i azoos eloszlású és függetle: [ ] E[ ] és Var [ ] Var [ ] E i [ + +... + ] [ ] [ + + + ] [ ] E E Var Var... i mide i-re Példa azoos eloszlású függetle változókra: ismételt mérések. A mérések függetlesége ebbe az esetbe a hibák függetleségét jeleti. I. STATISZTIKAI ALAPOK 4
Módusz, mediá, várható érték.75.3.87 módusz várható érték 8 mediá 7.34.44. 5 5 5 I. STATISZTIKAI ALAPOK 5 A legfotosabb folytoos eloszlás: ormális eloszlás f ( ) µ ep πσ σ Két paramétere va: µ és σ I. STATISZTIKAI ALAPOK 6 3
µ külöbözı f() σ külöbözı I. STATISZTIKAI ALAPOK 7 Várható értéke és variaciája: E ( ) µ Var( ) σ Rövid jelölése: ( µ,σ ), N pl. N (,) A ormális eloszlás sőrőségfüggvéye (f()) aalitikusa em itegrálható, ezért az eloszlásfüggvéy (F()) értékét umerikusa kell kiszámoli. A umerikus itegrálás eredméyei táblázatos formába redelkezésre állak az N(,) eloszlásra. Mi a teedıµ és/vagy σ eseté? Célszerő traszformációt keresük I. STATISZTIKAI ALAPOK 8 4
Normalizált (stadardizált) ormális eloszlás z µ σ f z ( z) ep π E ( z) Var ( z) Megjegyzés: A magyar szakirodalomba a stadard ormális eloszlású változó jelölésére a z mellett az u is elterjedt. I. STATISZTIKAI ALAPOK 9 I.. példa Határozzuk meg aak valószíőségét, hogy az ormális eloszlású valószíőségi változó a µ±σ, µ±σ illetve µ±3σ itervallumba esı értéket vesz fel! (Pl. azt kérdezzük, hogy milye valószíőséggel esik a ±.5 itervallumba, ha µ, σ.5) ( µ σ < µ + σ ) ( µ + σ ) ( µ σ ) P P P alsó fölsı -re ics táblázat, csak z-re traszformáció z µ σ z alsó µ σ µ µ + σ µ z fölsı σ σ I. STATISZTIKAI ALAPOK 3 5
P( µ + σ ) P( µ σ ) µ σ µ - µ +σ z z µ σ ( µ σ µ σ ) ( ) P < + P < z F() F( ) I. STATISZTIKAI ALAPOK 3 ( µ σ < µ + σ ) ( ) ( < ) P P P fölsı alsó alsó fölsı ±σ ±σ ±3σ F( ) P( ) fölsı fölsı F( ) P( ) alsó alsó.8434.5866.9775.75.99865.35 P( < ) alsó fölsı.6868.9545.9973 I. STATISZTIKAI ALAPOK 3 6
I.3. példa Határozzuk meg, hogy egy µ σ.5 ormális eloszlású valószíőségi változó értékei milye szimmetrikus itervallumba vaak 95 %-os, ill. 99 %-os valószíőséggel! α.5. -α.95.99 -α/.975.995 z α/.96.58 α.5. alsó 9. 8.7 fölsı.98.9 ( ) P µ z σ < µ + z σ α α / α / alsó fölsı I. STATISZTIKAI ALAPOK 33 α/ α/ alsó -z α/ µ fölsõ z α/ z I. STATISZTIKAI ALAPOK 34 7
A számtai középérték ( + +... + ) i E ( ) [ E( ) ] E( ) µ ( ) Var σ Var( ) σ I. STATISZTIKAI ALAPOK 35 Cetrális határeloszlási tétel Bármilye eloszlású sokaságból vett miták számtai középértéke közelítıleg ormális eloszlást követ az eredeti eloszlás várható értéke körül, variaciája pedig σ /. Tehát a számtai átlag közelítıleg N(µ, σ /) eloszlású. I. STATISZTIKAI ALAPOK 36 8
PARAMÉTERBECSLÉS ÉS KONFIDENCIA- INTERVALLUM Becslésél a sokaság tulajdoságára (paraméterére) következtetük a mita adatai (jellemzıi) alapjá. A becslés a mitából kiszámított statisztika (pl. a várható érték egyik lehetséges becslése lehet a mitaelemek számtai középértéke). II. PARAMÉTERBECSLÉS 37 A becslés valószíőségi változó f ( Θɵ ) a b c a jobb becslés mit b, mert kisebb az igadozása c-re a várható érték em a Θ paraméter paraméter Θ II. PARAMÉTERBECSLÉS 38 Θ ɵ 9
Torzítatla becslés: E( Θ ) A becslések tulajdoságai ɵ Θ. torzítás: E( ɵθ ) Θ korrekció: Θ E( Θɵ ) Aszimptotikusa torzítatla becslés: E( Θ ) lim ɵ Θ. II. PARAMÉTERBECSLÉS 39 torzítatla ( ) Θ E ˆ Θ Példa: Θ µ µˆ E ( ) µ torzítatla i i ˆ µ 4 E( 4 ) µ torzítatla II. PARAMÉTERBECSLÉS 4
A becslés hatásosságáak mértéke a variaciája. Miél kisebb a variacia, aál hatásosabb (efficiesebb) a becslés. Példa µˆ Var( ) ˆ 4 σ µ ( ) Var 4 σ hatásosabb kevésbé hatásos II. PARAMÉTERBECSLÉS 4 Kozisztes becslés: P( ) Θˆ Θ lim Θɵ Θ > ε. A mita elemszámáak övelésével a becslés a paraméter igazi értékéhez tart, potosabba övelésével egyre csökke aak valószíősége, hogy Q-tól jeletıse eltérje. µˆ ˆ µ 4 kozisztes em kozisztes Mea square error ( ˆ ) ( ˆ ) MSE E Θ Θ Var Θ + bias II. PARAMÉTERBECSLÉS 4
Becslési módszerek legkisebb égyzetek módszere: a mért adatok és a becslés közötti eltérések égyzetösszegét miimalizálja, pl. ( i ɵ µ ) mi maimum-likelihood módszer: azt a sőrőségfüggvéyt, illetve paramétereit fogadjuk el becsléskét, amelybıl a legagyobb valószíőséggel kapák a téylegese kapott mérési adatokat. i II. PARAMÉTERBECSLÉS 43 i N f f f3 Normális eloszlás és kostas σ eseté a maimum-likelihood és a legkisebb égyzetek módszer azoos becslést eredméyez. II. PARAMÉTERBECSLÉS 44
A becslés kivitelezése Potbecslés (egyetle értéket ad meg) Itervallumbecslés: kofidecia itervallum, amely bizoyos valószíőséggel magába foglalja a paraméter igazi értékét: kétoldali megbízhatósági itervallum egyoldali megbízhatósági itervallum (alsó vagy fölsı határérték) II. PARAMÉTERBECSLÉS 45 Pl. a várható értékre egy L és U határolta itervallum: ( U) P L µ α A A ( α ) ( α ) %-os alsó L határ: ( ) P L µ α %-os fölsı U határ: P ( U ) µ α II. PARAMÉTERBECSLÉS 46 3
II.. példa A tömegmérés variaciája s - g és az eloszlás ormális. a) Adjuk 99%-os kétoldali kofidecia-itervallumot az eloszlás várható értékére egyetle darab alapjá, melyre a mérés eredméye 5 g! P( z < z z ).99 α / α / α z II. PARAMÉTERBECSLÉS 47 ( σ µ σ ) P z < + z α / α /.99 α.-hez z α/ P ( < µ ). 99 II. PARAMÉTERBECSLÉS 48 4
b) Adjuk 99%-os kétoldali kofideciaitervallumot az eloszlás várható értékére több alkatrész átlaga alapjá! P( z < z z ).99, z α / α / α P ( < µ < ). 99 ( ) P < µ. 99 II. PARAMÉTERBECSLÉS 49 A kofideciaitervallum félszélessége az ismétlések számáak függvéyébe 3 4 5 6 z α / / / σ II. PARAMÉTERBECSLÉS 5 5
II.. példa Adjuk a I.. példába szereplı mérési eredméyek várható értékére 95 %-os megbízhatóságú alsó határt! 4. 864 s. 894 s. 965 P( L µ ). 95 t s µ II. PARAMÉTERBECSLÉS 5 P( µ ). 95 A ν szabadsági fokhoz t.5 P( µ ). 95 II. PARAMÉTERBECSLÉS 5 6
II.3. példa Milye értéket em halad meg a I.. példába szereplı mérési eredméyek variaciájára 95 %-os valószíőséggel! s. 894 s. 965 ( U ). 95 Pσ s χ σ ν II. PARAMÉTERBECSLÉS 53 P( σ ).95 A ν szabadsági fokhoz χ alsó P( σ ).95 II. PARAMÉTERBECSLÉS 54 7
HIPOTÉZISVIZSGÁLATOK, STATISZTIKAI PRÓBÁK Statisztikai következtetés: a sokaság érdekel, de a mita va a kezükbe. Az alapsokaságra voatkozóa valamilye feltevéssel élük (pl. µ és/vagy σ értéke) és azt statisztikai próbával elleırizzük. Jöhetek-e az adatok olya eloszlásból? Pl.: H : µ µ H : µ µ ullhipotézis ellehipotézis III. STATISZTIKAI PRÓBÁK 55 z-próba H : µ µ H : µ µ z µ σ z µ próbastatisztika σ Ha H igaz, z ~ z Ha z olya értékeket vesz föl, amilyeeket z szokott, elfogadjuk H -t. III. STATISZTIKAI PRÓBÁK 56 8
( < z z ) α P -z a a H α/ elutasítás -z α/ elfogadás α/ z α/ z elutasítás P -z µ < z H α σ a a µ α / / + α / σ z σ < < µ z / z σ < µ < z / α / / + α / σ a kofidecia-itervallum tartalmazza a µ értéket III. STATISZTIKAI PRÓBÁK 57 z-próba kiszámítjuk a próbastatisztika aktuális értékét: z σ µ µ µ µ + σ σ értéke, ha H igaz H : µ µ z-eloszlású H : µ µ, vagy H : µ < µ, vagy H : µ >. µ III. STATISZTIKAI PRÓBÁK 58 9
kijelöljük az elfogadási tartomáyt az elıírt α szigifikaciaszithez Pl. H : µ µ eseté P -z µ µ < z a α σ P z σ a a megvizsgáljuk, hogy a próbastatisztika kiszámított értéke az elfogadási tartomáyba va-e ha ige, elfogadjuk a ullhipotézist III. STATISZTIKAI PRÓBÁK 59 A statisztikai programcsomagok kiszámolják p értékét Pl. H µ > eseté : µ ( z ) p P > z ha p > α, elfogadjuk a ullhipotézist p z III. STATISZTIKAI PRÓBÁK 6 3
A statisztikai programcsomagok kiszámolják p értékét Pl. H µ eseté : µ (-z < z z ) P( z ) p P > z ha p > α, elfogadjuk a ullhipotézist p/ p/ -z z III. STATISZTIKAI PRÓBÁK 6 Elsı- és másodfajú hiba dötés ullhipotézis a H hipotézist elfogadjuk elutasítjuk H igaz helyes dötés elsıfajú hiba (α) H em igaz másodfajú hiba (β) helyes dötés III. STATISZTIKAI PRÓBÁK 6 3
A másodfajú hiba valószíősége f(z H ) f(z H ) α/ β α/ (µ -µ )/(σ / ) III. STATISZTIKAI PRÓBÁK 63 Mőködési jelleggörbe (OC-görbe ) β..8.6.4.. 5. 5.5 5. 5.5 5. µ µ III. STATISZTIKAI PRÓBÁK 64 3
III.. példa Táramérlege égy ismételt tömegméréssel határoztuk meg egy tárgy tömegét. A 4 mérésbıl álló mita számtai középértéke 5.5 g. Korábbi mérésekbıl tudjuk, hogy a mérés variaciája s -4 g. El kell döteük, hihetı-e, hogy a várható érték (a tárgy valódi tömege) 5. g. III. STATISZTIKAI PRÓBÁK 65 : µ 5., H : µ 5. H 5.5, σ 4, 4, α.5 z σ µ z a III. STATISZTIKAI PRÓBÁK 66 33
III.. példa Egy ayag miısége egyértelmőe jellemezhetı a sőrőségével, melyek kíváatos értéke kisebb, mit.54. A gyártás sorá szerzett eddigi ismeretek szerit a mérés potosságára jellemzı variacia égyzetgyöke σ.3. A vizsgálat meete a következı: -szer mitát veszük a miısítedı legyártott tételbıl, midegyik mita sőrőségét megmérjük, átlagoljuk: az így kapott átlagos sőrőség. Ha az átlagos sőrőség meghalad egy bizoyos * határértéket, az adagot rosszak, ha kisebb ála, jóak miısítjük. III. STATISZTIKAI PRÓBÁK 67 Hogy a jó tételt majdem midig elfogadjuk, a rosszakat majdem midig elutasítsuk, a következı kíváalmakat adjuk meg: ha µ.5, 99 % legye a valószíősége, hogy jóak miısítsük, ha µ.54, 98 % legye a valószíősége, hogy rosszak miısítsük az adagot. A ullhipotézis és az ellehipotézis: H : µ µ. 5 H : µ µ. 54 (a tétel jó); (a tétel rossz). III. STATISZTIKAI PRÓBÁK 68 34
Az elsıfajú hiba megegedett valószíősége α., A másodfajú hiba megegedett valószíősége β.. A kimutatadó, jeletısek miısítedı külöbség:.4. A feladat: határozzuk meg a veedı miták számát és az * határértéket. III. STATISZTIKAI PRÓBÁK 69 Kritikus értékek az elsı- és másodfajú hibához H β -z β H α z α.5.54 sőrőség III. STATISZTIKAI PRÓBÁK 7 35
36 III. STATISZTIKAI PRÓBÁK 7 Fejezzük ki azt az határt, amelyet -α valószíőséggel em halad meg, ha H igaz (az ábra alsó része): * ( ) α σ µ α α H z P H u z P ( ) ( ) ( ) α µ ασ α + * H P z P H z z P z σ µ α + * H III. STATISZTIKAI PRÓBÁK 7 Másodfajú hibát akkor követük el, ha H az igaz ( ), de mivel, elfogadjuk a H hipotézist. Eek valószíősége: z σ µ β * H z α z µ µ 54. ( ) ( ) P H P H z z P σ µ σ µ β α * * β σ µ β z P /
A kimutatadó, jeletısek miısített külöbség: µ µ A két egyelet jobb oldalát egymással egyelıvé téve, majd átredezve: µ ( zα + z ) σ µ β ( z + z ) α ( µ µ ) β σ III. STATISZTIKAI PRÓBÁK 73 Esetükbe: z α z β.36.54. 4. 8 * 5. σ. 3 III. STATISZTIKAI PRÓBÁK 74 37
Egymitás t-próba H :µ µ H :µ µ t µ µ + µ µ t + µ µ s s s s P -t a < µ t s a α III. STATISZTIKAI PRÓBÁK 75 III.3. példa Egy aalitikai módszer torzítatlaságáak vizsgálatára 5 ismételt mérést végeztek egy 3.5% ismert kocetrációjú muka-stadarddel. Az eredméyek: 3.5, 3.7, 3.4, 3.6 és 3.4. Elfogadva, hogy az adatok közelítıleg ormális eloszlásúak, elleırizzük 5%-os szigifikaciaszite a torzítatlaság hipotézisét! s H : H : µ s t t α / III. STATISZTIKAI PRÓBÁK 76 38
Statisztikai próba és kofidecia-itervallum Kétoldali eset Elfogadási tartomáy: t < t < t α α Átredezve µ t s -t s < µ t a a s -t s < µ + t a a s A µ várható érték -α valószíőségő kofidecia-itervalluma -t s < µ + t a a s III. STATISZTIKAI PRÓBÁK 77 -t s < µ + t a a s Elfogadjuk a ullhipotézist (µ µ ), ha a kofideciaitervallum tartalmazza a µ feltételezett várható értéket. III. STATISZTIKAI PRÓBÁK 78 39
Statisztikai próba és kofidecia-itervallum egyoldali esetre H µ µ H : µ > µ : t µ µ µ µ µ µ + t + s s s s Az elfogadási tartomáy: µ s t α t α µ P s s µ t α H α A ullhipotézist akkor fogadjuk el, ha µ bee va a várható érték -α valószíőségő alsó egyoldali kofidecia-tartomáyába. III. STATISZTIKAI PRÓBÁK 79 III.4 példa : µ µ 5µg kg : µ > µ 5µg kg H Meg kell tauluk potosa kérdezi H Ha elutasítjuk H -t, azt látjuk bizoyítva, hogy a megegedettél több va bee. Ha elfogadjuk H -t, semmit em látuk bizoyítva. : µ µ 5µg kg : µ < µ 5µg kg H H Ha elutasítjuk H`-t, azt látjuk bizoyítva, hogy a megegedettél kevesebb va bee. Ha elfogadjuk H`-t, semmit em látuk bizoyítva. Mit akaruk bizoyítai? III. STATISZTIKAI PRÓBÁK 8 4
Egyoldali ellehipotézis III.5. példa Az aflatoi-példa folytatása: Háy ismételt aalízis szükséges ahhoz, hogy kimutassuk, ha 5µg/kg helyett 5.5µg/kg a kocetráció? H : µ µ H : µ > µ 5µg 5µg kg kg H III. STATISZTIKAI PRÓBÁK 8 Null Hypothesized Mea (Mu) True Populatio Mea (Mu) Populatio S.D. (Sigma) Stadardized Effect (Es) Type I Error Rate (Alpha) Power Goal Actual Power for Required N Required Sample Size (N) Sample Size Calculatio Oe Mea, t-test H: Mu < Mu Value 5. 5.5.6.8333.5.9.94 4. III. STATISZTIKAI PRÓBÁK 8 4
3 Sample t-test: Sample Size Calculatio Oe Mea, t-test (H: Mu < Mu) Sample Size vs. Es (Alpha.5, Power Goal.9) 5 Required Sample Size (N) 5 5..5..5..5 3. 3.5 Stadardized Effect (Es) III. STATISZTIKAI PRÓBÁK 83 Egy ayagba a szeyezés ma. megegedett kocetrációja.%. Adjuk meg a ullhipotézist és az ellehipotézist! III. STATISZTIKAI PRÓBÁK 84 4
J. H. Steiger, R.T. Fouladi: Nocetrality Iterval Estimatio ad the Evaluatio of Statistical Models, Chapter 9 i: L.L. Harlow, S.A. Mulaik, J.H. Steiger: What if there were o sigificace tests? Mahwah, NJ: Erlbaum (997).8 Mea; Whisker: Mea±.95 Cof. Iterval.6.4.. -. -.4 I II III IV III. STATISZTIKAI PRÓBÁK 85 χ -próba a variacia vizsgálatára :σ σ H H :σ > σ Ha H igaz, akkor a következı kifejezés χ -eloszlású, szabadsági foka: ν χ s ( ) ( ) σ, P s σ χα α III. STATISZTIKAI PRÓBÁK 86 43
III.6. példa TABLE 4.3. Data o the amout of wear measured with two differet materials A ad B, boy s shoes eample* boy material A material B B A differece d 3.(L) 4.(R).8 8.(L) 8.8(R).6 3.9(R).(L).3 4 4.3(L) 4.(R) -. 5.7(R).8(L). 6 6.6(L) 6.4(R) -. 7 9.5(L) 9.8(R).3 8.8(L).3(R).5 9 8.8(R) 9.3(L).5 3.3(L) 3.6(R).3 average differece.4 III. STATISZTIKAI PRÓBÁK 87 Elleırizzük a fiúcipı-példa A talpayagára α.5-os szigifikaciaszite, hogy elfogadható-e az az állítás, mely szerit a sokaság szórása (s) legfeljebb.5! Descriptive Statistics (Fiucipo.sta) Valid N Std.Dev. Cofidece SD Cofidece SD Variable -9.% +9.% TALPA.4536.787867 4.396 III. STATISZTIKAI PRÓBÁK 88 44
Mekkora eltérést tudák kimutati? α.5, β., Power vs. Var. Oe Variace: Power Calculatio Chi-square Variace Test (H: Var < 6.5) Power vs. Populatio Variace (Alpha.5, Df 9).9.8.7.6 Power.5.4.3... 5 5 5 3 35 Populatio Variace (Var) III. STATISZTIKAI PRÓBÁK 89 Mekkora mita kellee.5 4 szórás kimutatásához? Variace uder H (Var) Populatio Variace (Var) Type I Error Rate (Alpha) Power Goal Actual Power for Required Df Required Degrees of Freedom (Df) Sample Size Calculatio Oe Variace, Chi-Square Test H: Var < Var Value 6.5 6..5.9.965. III. STATISZTIKAI PRÓBÁK 9 45
III.7. példa A III.3. példa adatai alapjá elleırizzük α.5-os szigifikaciaszite, hogy elfogadható-e az az állítás, mely szerit a mérési módszer variaciája (s ) legfeljebb -4 (%). III. STATISZTIKAI PRÓBÁK 9 s.338 s.7-4 H H : : χ 5, ν χ... ( ν ) III. STATISZTIKAI PRÓBÁK 9 46
Két szóráségyzet összehasolítása (F-próba) :σ σ H A próbastatisztika: F ; (, ) s s Egyik oldali ellehipotézis eseté: H Akkor utasítjuk el a ullhipotézist, ha s / s > F α :σ > σ III. STATISZTIKAI PRÓBÁK 93 Kétoldali ellehipotézis eseté: H Akkor utasítjuk el a ullhipotézist, ha :σ σ s s < F -a/ vagy s s < F a/ s / s elég az elfogadási tartomáy fölsı határát elleırizi 95 %-os egyoldali szit a 9 %-os kétoldali szitek III. STATISZTIKAI PRÓBÁK 94 47
III.8. példa Elleırizzük, hogy a fiúcipı-példa A és B talpayaga kopásáak variaciája megegyezik-e α.-es szigifikaciaszite! T-test for Idepedet Samples (Fiucipo.sta) Note: Variables were treated as idepedet samples Mea Mea t-value df p Valid N Valid N Std.Dev. Std.Dev. F-ratio p Group vs. Group Group Group Group Group Group Group Variaces Variaces TALPA vs. TALPB.63.4 -.3689 8.76498.4536.58465.5558.93759 III. STATISZTIKAI PRÓBÁK 95 Mekkora aráy kellee ahhoz, hogy észrevegyük a külöbséget? α.5, β., III. STATISZTIKAI PRÓBÁK 96 48
Power vs. Ratio. F-test o Two Variaces: Power Calculatio F-test o Two Variaces (H: Var Var) Power vs. Variace Ratio (Df 9, Df 9, Alpha.5).9.8.7.6 Power.5.4.3... 3 4 5 6 7 8 9 Variace Ratio ( Var/Var ) III. STATISZTIKAI PRÓBÁK 97 Kétmitás t-próba Adott a két függetle mita elemszáma ( és ), s s és szóráségyzetük ( és ). Tételezzük fel, hogy a két sokaság variaciája megegyezik. (Ezt F-próbával elleırizi kell!) d ( ) ( ) ( ) E d µ µ Var d Var σ / + σ / III. STATISZTIKAI PRÓBÁK 98 49
s s s + d [ s ( ) s ( ) ] + + - A következı kifejezés t-eloszlású t d E d s d ( ) d E( d) s +, ν + III. STATISZTIKAI PRÓBÁK 99 µ µ H : E d, ekkor ( ) A próbastatisztika: t d- s d s d +, ν ( ) + ( ) A σ σ feltevést F-próbával elleırizzük III. STATISZTIKAI PRÓBÁK 5
Két mita összehasolítása III.9. példa Két cipıtalp-ayag kopását hasolítjuk össze, - fiú lábá, a haszálat sorá. Vizsgáljuk meg.5-os szite, va-e külöbség a két ayag kopása között! átlag szóráségyzet A.6 6.63 B.4 6.343 III. STATISZTIKAI PRÓBÁK H : H : F F. 5 (, ) ν ν ν ν H : H : t t 5 ( ). ν ν Kofidecia-itervallum σ -re: III. STATISZTIKAI PRÓBÁK 5
Feltételezhetjük, hogy a két sokaság variaciája megegyezik? (Fpróba!) H µ µ : H µ µ : T-test for Idepedet Samples (Fiucipo.sta) Note: Variables were treated as idepedet samples Mea Mea t-value df p Valid N Valid N Std.Dev. Std.Dev. F-ratio p Group vs. Group Group Group Group Group Group Group Variaces Variaces TALPA vs. TALPB.63.4 -.3689 8.76498.4536.58465.5558.93759 III. STATISZTIKAI PRÓBÁK 3 T-test for Idepedet Samples (Fiucipo.sta) Note: Variables were treated as idepedet samples Mea Mea t-value df p Valid N Valid N Std.Dev. Std.Dev. F-ratio p Group vs. Group Group Group Group Group Group Group Variaces Variaces TALPA vs. TALPB.63.4 -.3689 8.76498.4536.58465.5558.93759 T-test for Idepedet Samples (Fiucipo.sta) Note: Variables were treated as idepedet samples Mea Mea t-value df p t separ. df p Group vs. Group Group Group var.est. -sided TALPA vs. TALPB.63.4 -.3689 8.76498 -.3689 7.98687.765 III. STATISZTIKAI PRÓBÁK 4 5
3. Bo & Whisker Plot TALPA vs. TALPB.5..5..5. 9.5 9. 8.5 TALPA TALPB Mea Mea±SE Mea±.96*SE T-test for Idepedet Samples (Fiucipo.sta) Note: Variables were treated as idepedet samples Mea Mea t-value df p Valid N Valid N Std.Dev. Std.Dev. F-ratio p Group vs. Group Group Group Group Group Group Group Variaces Variaces TALPA vs. TALPB.63.4 -.3689 8.76498.4536.58465.5558.93759 III. STATISZTIKAI PRÓBÁK 5 A próba ereje ( β )..9.8.7 Idepedet Sample t-test: Power Calculatio Two Meas, t-test, Id. Samples (H: Mu Mu) Power vs. Es (N, N, Alpha.5) Power.6.5.4.3.. µ µ A σ B...5..5..5 Stadardized Effect (Es) III. STATISZTIKAI PRÓBÁK 6 53
. OC görbe.8 β.6 σ 3.683.4 σ.88.. 3 4 5 6 valódi külöbség III. STATISZTIKAI PRÓBÁK 7 Páros t-próba ( d ) H : E d i i y i.... y összefüggı (em függetle) miták III. STATISZTIKAI PRÓBÁK 8 54
Páros t-próba ( ) ( ) H : E i E y d y i ( ) ( ) ( ) E d E E y i i i A párokéti eltérés átlagértéke: d szóráségyzete: s d ( di-d) i i i di d i i - - i d i III. STATISZTIKAI PRÓBÁK 9 A következı kifejezés t-eloszlású: ( ) t d E d s / d A próbastatisztika: t d s / d III. STATISZTIKAI PRÓBÁK 55
III.. példa TABLE 4.3. Data o the amout of wear measured with two differet materials A ad B, boy s shoes eample* boy material A material B B A differece d 3.(L) 4.(R).8 8.(L) 8.8(R).6 3.9(R).(L).3 4 4.3(L) 4.(R) -. 5.7(R).8(L). 6 6.6(L) 6.4(R) -. 7 9.5(L) 9.8(R).3 8.8(L).3(R).5 9 8.8(R) 9.3(L).5 3.3(L) 3.6(R).3 average differece.4 III. STATISZTIKAI PRÓBÁK 5 3 wear 9 7 5 3 4 5 6 7 8 9 boys material A material B FIGURE 4.. Data o two differet materials A ad B, used for makig soles of boy s shoes. III. STATISZTIKAI PRÓBÁK 56
s d. 49 s d. 49. 386 s d. 386. 4. t 3. 4....8.6 B - A.4.. -. -.4 3 4 5 6 7 8 9 FIGURE 4.3. Differeces B A for data i Figure 4.., boy s shoes eample boys III. STATISZTIKAI PRÓBÁK 3 T-test for Depedet Samples (Fiucipo) Marked differeces are sigificat at p <.5 Mea Std.Dv. N Diff. Std.Dv. t df p TALPB.4.58465 TALPA.63.4536.4.38755 3.348877 9.8539 III. STATISZTIKAI PRÓBÁK 4 57
, OC görbe a fiúcipı példához,8 β,6 σ 3.683 ( mitás),4, σ.88 ( mitás) σ.75 (páros) σ.66 (páros), 3 4 5 6 valódi külöbség III. STATISZTIKAI PRÓBÁK 5 Illeszkedésvizsgálat A feladat aak eldötése, hogy a mita egy adott eloszlású sokaságból származik-e. Ha a ormális eloszláshoz való illeszkedés a kérdés, ormalitásvizsgálatról beszélük. IV. ILLESZKEDÉSVIZSGÁLAT 6 58
Illeszkedésvizsgálat H : a mita egy adott eloszlású sokaságból származik pl. ormalitásvizsgálat statisztikai próbával agy mitára χ -, Kolmogorov-Szmirov-próba, kisebb erı kisebb mitára Aderso-Darlig, Rya-Joier (Shapiro Wilk), agyobb (hasoló) erı grafikusa Probability plot IV. ILLESZKEDÉSVIZSGÁLAT 7 IV.. példa Az valószíőségi változóra redelkezésükre álló összese elemő mitát soroljuk osztályokba, ahogy a hisztogram készítéséél szokás. Jelölje r az osztályok számát. Az i-edik osztályba esı mitaelemek számát jelölje i (i,,..., r). Az i-edik osztály alsó és fölsı határát jelöljük ia -val ill. if- fel. Egy 5 elemő mita ilye csoportosítását mutatja a következı ábra és táblázat. IV. ILLESZKEDÉSVIZSGÁLAT 8 59
6 Variable: Adatok, Distributio: Normal Kolmogorov-Smirov d.673, Chi-Square test 3.7473, df (adjusted), p.547 4 8 6 No. of observatios 4 9.565 9.675 9.7875.5.375.465 9.9.5.35 Category (upper limits) IV. ILLESZKEDÉSVIZSGÁLAT 9. 6 s. 896 z if if s ia if i i F ( if ) i j j z ia z if F( ia ) F( if ) < 9.75.. - -.7..43 9.75 9.85 5.. -.7 -..43.343 9.85 9.9375 3.6.8 -. -.49.343.39 9.9375.5..38 -.49.3.39.55.5.65 7.4.6.3.75.55.773.65.75 8.6.74.75.37.773.943.75.3875 5..9.37.99.943.9765.3875...99.9765. IV. ILLESZKEDÉSVIZSGÁLAT 6
Illeszkedésvizsgálat statisztikai próbával Az elıfordulások i számából kiszámítjuk az i / relatív gyakoriságokat és a tapasztalati F () eloszlásfüggvéyt (az egyes i-edik osztályokbeli elıfordulások kumulált relatív gyakoriságát). A ormális eloszlásból kiszámíthatjuk az egyes osztályokba várható elıfordulások számát: ( ) ( ) ( ) p P < F F i ia if if ia IV. ILLESZKEDÉSVIZSGÁLAT Az elméleti F() eloszlásfüggvéy értékeit a z változó keresztül számítjuk: z µ σ melyhez természetese szükség va a µ várható érték és a σ variacia becslésére. Esetükbe: ɵ µ. 6 σ ɵ s. 8 9 6 IV. ILLESZKEDÉSVIZSGÁLAT 6
A Kolmogorov Szmirov-próba próbastatisztikája: ( ) ( ) d F F D ma d elméleti eloszlásfüggvéy tapasztalati eloszlásfüggvéy Mide osztály if fölsı határához kiszámítjuk a d eltérést és a maimális eltérést (D) összevetjük az a szigifikaciaszithez a Függelék táblázatából leolvasható kritikus értékkel. Az adott eloszláshoz való jó illeszkedést (ullhipotézis) elfogadjuk, ha D kisebb a kritikus értékél. IV. ILLESZKEDÉSVIZSGÁLAT 3 ia if F ( if ) i j j F( ia ) F( if ) p i d i < 9.75...43.3 9.75 9.85..43.343.343.43 9.85 9.9375.8.343.39.785.67 9.9375.5.38.39.55.39.48.5.65.6.55.773..33.65.75.74.773.943.43.75.3875.9.943.9765.35.3875..9765..69 D D.5 (5).88 A Kolmogorov Szmirov-próbához miél több osztályba kell soroli az adatokat, de legalább 5 osztály szükséges. Szokás ezért úgy is eljári, hogy mide egyes i adat külö osztály legye, midegyikre kiszámítható z i, F( i ) és a D próbastatisztika. IV. ILLESZKEDÉSVIZSGÁLAT 4 6
A χ -próba próbastatisztikája: r i ( p ) i p i i ahol ( ) ( ) p F F i if ia Az osztályokba sorolást úgy kell elvégezi, hogy mide osztályba az elméleti eloszlásból számított elıfordulási szám (p i ) agyobb legye 5-él. Példák szeriti osztályba sorolásál ez az., 6., és 7. osztályra em teljesül, azokat tehát össze kell voi. Az összevoás utái 5 osztályt vastag voal jelzi. IV. ILLESZKEDÉSVIZSGÁLAT 5 A próbastatisztika elég agy r eseté jó közelítéssel χ - eloszlású, r szabadsági fokkal, ha az eloszlás paraméterei adottak. Ha a paramétereket is becsülük kell, akkor r -et még a mitából becsült paraméterek számával csökketei kell. Normális eloszlásál két paraméter, a µ és σ becsüledı a mitából, a szabadsági fok így r 3. A próbastatisztika kiszámított értéke 3.743, a szabadsági foka 5 osztályra 5 3, a táblázatbeli kritikus érték az elsõfajú hiba α.5 megegedett valószíőségéhez 5.99, tehát a ullhipotézist (hogy az adatok ormális eloszlásból származak) elfogadjuk. IV. ILLESZKEDÉSVIZSGÁLAT 6 63
Shapiro Wilk-próba A statisztikai programokba alkalmazott moder próba. Az irodalom szerit a Shapiro Wilk-próba erısebb (kisebb valószíőséggel vét másodfajú hibát), mit sok más próba. A próbastatisztika: W k i ( ) a y y i+ i+ i ( yi y) i ahol k, ha páros; k, ha páratla IV. ILLESZKEDÉSVIZSGÁLAT 7 Illeszkedésvizsgálat grafikus módszerrel 3 Normal Probability Plot of Adatok (illeszkedes.sta v*5c) Epected Normal Value - - -3 9.6 9.7 9.8 9.9....3.4 Adatok: SW-W.96434377, p.4observed Value IV. ILLESZKEDÉSVIZSGÁLAT 8 64
.4 Probability-Probability Plot of Adatok (illeszkedes.sta v*5c) Distributio: Normal(.6,.896). Empirical cumulative distributio..8.6.4.. -. -.4 -....4.6.8.. Theoretical cumulative distributio IV. ILLESZKEDÉSVIZSGÁLAT 9.5 Quatile-Quatile Plot of Adatok (illeszkedes.sta v*5c) Distributio: Normal Adatok.6+.86*..5.5.5.75.9.99.4.3. Observed Value.. 9.9 9.8 9.7 9.6 9.5-3 - - 3 Theoretical Quatile IV. ILLESZKEDÉSVIZSGÁLAT 3 65
F(z). % 5.8 8% 4.6.4 Percet of obs 6% 4% 3. %. -3 - - 3 z % 9,674 9,883 9,946,839,8,3596 3 Epected Normal Value - - -3 9,6 9,7 9,8 9,9,,,,3,4 Observed Value IV. ILLESZKEDÉSVIZSGÁLAT 3 A ormális eloszlástól való eltérés okai és kiküszöbölésük strukturált adatok multimodalitás csoportok változó körülméyek kiugró értékek... léyegileg (a jeleség természete miatt) em ormális eloszlású adatok traszformáció pl. logormális: logaritmusa ormális Bo-Co IV. ILLESZKEDÉSVIZSGÁLAT 3 66
IV. ILLESZKEDÉSVIZSGÁLAT 33 IV. ILLESZKEDÉSVIZSGÁLAT 34 67
(ru charts) IV. ILLESZKEDÉSVIZSGÁLAT 35 68