Statsztka ok Informatka Tudományok Doktor Iskola Bzonyítandó, hogy: azaz 1
Tekntsük az alább statsztkákat: Igazoljuk, hogy torzítatlan statsztkák! Melyk a leghatásosabb közöttük?
(Ez az együttes eloszlásfüggvényük.) 3
Igazoljuk az alább állítást! 4
0<= =0 5
6
Mutassuk meg, hogy az átlagstatsztka normáls esetben nem csak torzítatlan, erısen konzsztens becslés, hanem hatásos s! Feltételek: Bzonyítandó, hogy a várható értékre nncs ksebb szórású torzítatlan becslés a mntaátlagnál! 7
Ha akkor t bztosan hatásos statsztka! Ez teljesül, ha a Fsher-féle nformácó mennység A mnta együttes sőrőségfüggvénye, a lkelhood függvény most: Mvel teljesült a feltétel, az átlagstatsztka tényleg hatásos! Mutassuk meg, hogy az átlagstatsztka exponencáls esetben s nem csak torzítatlan, erısen konzsztens becslés, hanem hatásos s! Feltételek: Bzonyítandó, hogy a várható értékre nncs ksebb szórású torzítatlan becslés a mntaátlagnál! A bzonyítást az elızı példánál megmutatott módon végezzük. 8
Mutassuk meg, hogy az átlagstatsztka Posson esetben s nem csak torzítatlan, erısen konzsztens becslés, hanem hatásos s! Ebben a példában az alapsokaság eloszlása dszkrét! Feltételek: A log-lkelhood függvény most: 9
M lehet ennek az oka??? Tehát a Cramer-Rao-egyenlıtlenséggel nem gazolható most, hogy T 1 hatásos lenne! (Nem bztos, hogy hatásos!) Mutassuk meg, hogy az átlagstatsztka elégséges normáls esetben! 10
Mutassuk meg, hogy az átlagstatsztka elégséges exponencáls esetben! 11
Mutassuk meg, hogy az átlagstatsztka elégséges Posson esetben! 1
Mutassuk meg, hogy az elsı mntaelem önmagában nem elégséges! 13
Konfdenca ntervallum szerkesztése az smeretlen szórásra normáls eloszlás esetében. Szerkesszünk 1-ε megbízhatóság szntő konfdenca-ntervallumot az exponencáls eloszlás λ paraméterére! Használjuk fel az alább segédtételt: Az eloszlás neve: n, 1 paraméterő Gamma-eloszlás (Jelölés: Γ(n,1)) 14
Ezek alapján a konfdenca-ntervallum szerkesztése: 15
16
17
18
19
0
1
3
4
5
6
7
8
9
Bank alkalmazottak személy adatat tartalmazó állomány 474 esetbıl álló eployee data adatmátrxa. Ellenırzzük azt a feltevést, hogy az átlagfzetés 14 000 $ A változók jelentése d a dolgozó kódja gender a dolgozó neme (m-férf, f-nı) bdate születés dátum educ képzés sznt (években) jobcat beosztás (1-tsztvselı, -bztonság, 3-menedzser) salary jelenleg fzetés salbegn kezdıfzetés jobtmehány hónapja alkalmazták prevexp betanítás dı (hónapokban) mnorty hátrányos helyzet (0-nncs, 1-van) 30
SPSS-sel Current Salary One-Sample Statstcs N Mean Std. Devaton Std. Error Mean 474 $34,419.57 $17,075.661 $784.311 One-Sample Test Current Salary Test Value = 14000 95% Confdence Interval t df Sg. (-taled) Mean Dfference of the Dfference Lower Upper 6,03 473,00 $0419 $18,87 $1,96 Ellenırzzük párostott kétmntás t-próbával, hogy a kezdıfzetés egyenlı-e a jelenlegvel! Dobozábrák a fzetésekkel 31
SPSS-sel Pared Samples Statstcs Par 1 Current Salary Begnnng Salary Std. Error Mean Mean N Std. Devaton $34,419.57 474 $17,075.661 $784.311 $17,016.09 474 $7,870.638 $361.510 Pared Samples Correlatons Par 1 Current Salary & Begnnng Salary N Correlaton Sg. 474,880,000 Pared Samples Test Par 1 Current Salary - Begnnng Salary Pared Dfferences 95% Confdence Interval of Std. Error the Dfference Mean Std. Devaton Mean Lower Upper t df Sg. (-taled) 35,036,000 $17403.48 $10,814.60 $496.73 $16,47.407 $18379.56 473 3
Ellenırzzük független kétmntás t-próbával, hogy a nık és férfak fzetése egyenlı-e! Dobozábrák a fzetésekkel 33
SPSS-sel Group Statstcs Current Salary Gender Male Female Std. Error Mean N Mean Std. Devaton 58 $41,441.78 $19,499.14 $1,13.968 16 $6,031.9 $7,558.01 $514.58 Independent Samples Test Current Salary Equal varances assumed Equal varances not assumed Levene's Test for Equalty of Varances t-test for Equalty of Means 95% Confdence Interval of the Dfference Mean Std. Error F Sg. t df Sg. (-taled) Dfference Dfference Lower Upper $1,407.906 $1,643.3 $18,176.401 119,669,000 10,945 47,000 $15409.86 11,688 344,6,000 $15409.86 $1,318.400 $1,816.78 $18,00.996 Ellenırzzük egyszerő csoportostással, hogy a munkakörökben azonos-e a fzetés! 34
SPSS-sel Descrptves Current Salary Clercal Custodal Manager Total 95% Confdence Interval for Mean Lower Bound Upper Bound N Mean Std. Devaton Std. Error Mnmum Maxmum 363 $7,838.54 $7,567.995 $397.17 $7,057.40 $8,619.68 $15,750 $80,000 7 $30,938.89 $,114.616 $406.958 $30,10.37 $31,775.40 $4,300 $35,50 84 $63,977.80 $18,44.776 $1,990.668 $60,018.44 $67,937.16 $34,410 $135,000 474 $34,419.57 $17,075.661 $784.311 $3,878.40 $35,960.73 $15,750 $135,000 ANOVA Current Salary Between Groups Wthn Groups Total Sum of Squares df Mean Square F Sg. 8,9E+010 4,47E+010 434,481,000 4,8E+010 471 1095714,5 1,4E+011 473 Current Salary Robust Tests of Equalty of Means Welch Statstc a df1 df Sg. 16,00 117,31,000 a. Asymptotcally F dstrbuted. SPSS-sel Multple Comparsons Dependent Varable: Current Salary LSD Tamhane Mean 95% Confdence Interval (I) Employment Category (J) Employment Category Dfference (I-J) Std. Error Sg. Lower Bound Upper Bound Clercal Custodal -$3,100.349 $,03.760,16 -$7,077.06 $876.37 Manager -$36,139.58* $1,8.35,000 -$38,55.99 -$33,75.53 Custodal Clercal $3,100.349 $,03.760,16 -$876.37 $7,077.06 Manager -$33,038.909* $,44.409,000 -$37,449.0 -$8,68.6 Manager Clercal $36,139.58* $1,8.35,000 $33,75.53 $38,55.99 Custodal $33,038.909* $,44.409,000 $8,68.6 $37,449.0 Clercal Custodal -$3,100.349* $568.679,000 -$4,483.07 -$1,717.63 Manager -$36,139.58* $,09.91,000 -$41,078.30 -$31,00.1 Custodal Clercal $3,100.349* $568.679,000 $1,717.63 $4,483.07 Manager -$33,038.909* $,031.840,000 -$37,98.78 -$8,095.04 Manager Clercal $36,139.58* $,09.91,000 $31,00.1 $41,078.30 Custodal $33,038.909* $,031.840,000 $8,095.04 $37,98.78 *. The mean dfference s sgnfcant at the.05 level. 35
Ellenırzzük a fzetés lleszkedését a normálshoz! Grafkusan, majd egymntás Kolmogorov-Szmrnov próbával! Grafkus vzsgálat alapján nem tőnk jónak az lleszkedés! 36
One-Sample Kolmogorov-Smrnov Test N Normal Parameters a,b Most Extreme Dfferences Kolmogorov-Smrnov Z Asymp. Sg. (-taled) a. Test dstrbuton s Normal. b. Calculated from data. Mean Std. Devaton Absolute Postve Negatve Begnnng Salary 474 $17,016.09 $7,870.638,5,5 -,170 5,484,000 Regresszós Vzsgáljuk meg az x független változó és az y függı változó között összefüggést! Az x független változó értéke pontosan beállítható, az y függı változó értéke azonban a Y valód érték körül ngadozk. A mérés adatok az alább táblázatban láthatók, az y értéke szernt növekvı sorrendbe rendezve. A tényleges mérés sorrendet a táblázat másodk oszlopa tartalmazza. Feltételezve, hogy y normáls eloszlású, valamnt azt hogy az y és x között függvénykapcsolat lneárs, adjunk becslést az egyenes paraméterere! No mérés sorrend x y 1 3 0 0.58 5 0.05 0.7 3 4 0.08.88 4 0.1 3.4 5 1 0.1 3.53 6 6 0.15 5.1 Scatter ábra az adatokkal a 95%-os konfdenca ntervallummal és a 95%-os jóslás határral 37
SPSS táblázatok R s r R adj Egyváltozós lneárs regresszó smétlés nélkül mérések esetén, σ y konstans A becslés Ha x krtérum: 0 φ = ( y b0 bx ) = mn. $Y a b 0 és b becslések = b egymástól + bx = a nem + b x függetlenek x 0 ( ) b = 0 a bx A normálegyenletek: φ = [ y b0 bx ] = 0 b 0 φ = [ y b0 bx ] x = 0 b Átrendezve: 0 y = nb + b x 0 y x = b x + b x A normálegyenletek az φ a φ b Átrendezve: [ y a b( x x )] = = 0 [ y a b( x x )]( x x ) = = 0 ( ) y = na + b x x Yˆ = a + b ( x x ) ( ) = ( ) + ( ) y x x a x x b x x Az a és b becslések egymástól függetlenek, mert modell llesztésekor ( x x ) = 0 x x = n 38
y = na és y ( x x ) = b ( x x ) tehát az a és b becsült paraméterek egymástól függetlenül kaphatók meg a két normálegyenletbıl: a = n y ( x x) y b = ( x x) ( ) $Y = a + b x x ; ( $ ) = = α + β( ) E Y Y x x E( a) A becslések tulajdonsága y E = α n E( b ) = β Var( b) = Var( a) σ σ = = ( n) n ( x x ) ( ) σ = σ ( x x ) ( x x ) ( $ ) = [ + ( )] = ( ) + ( )( ) E Y E a b x x E a E b x x ( ) α β ( ) E Y $ = + x x = Y ( ) Var( Y$ x x ) = Var( a) + ( x x) Var( b) = 1 σ + n n x x ( ) Konfdenca határok s a = sr n s b = s r ( x x ) 1 s s Y$ = r + n ( x x ) ( x x ) = s + s ( x x ) a b s = s = s + s x b0 Y$ ( x= 0) a b A konfdencatartományok a t-eloszlás alapján számíthatók. 39
40 ( ) x X E Y M = = ( ) ( ) ε ε ε = + + + 1 1 ˆ 1 ˆ,, x r n x r n s n x x n s t y M s n x x n s t y P Az átlag konfdenca-ntervalluma a mntapontok kb. 1-ε %-át tartalmazza. A sáv az x átlagának a közelében a legvékonyabb. Konfdenca ntervallum az átlaghoz Jóslás ntervallum (1- α) a valószínősége annak, hogy x adott értékénél egy késıbb mérés eredménye a számított ntervallumba esk. ( ) ( ) ( ) s s n x x x x s s s x x y Y r r a b = + + = + + $ 1 1 ntervallum: ( ) $ $ Y x t s y Y ± α Jóslás ntervallum ( ) ( ) ε ε ε = + + + + + 1 1 1 ˆ 1 1 ˆ,, x r n x r n s n x x n s t y Y s n x x n s t y P Az adott x -hez tartozó Y egyed értéket tartalmazza az alább 1-ε szntő konfdenca ntervallum:
7 6 r =.9506 95%-os jóslás sáv 5 4 Y$ = 005196. + 3017. x 3 y 1 0-1 95%-os konfdenca sáv - -3-0 0 0 0 0 0 0 0 0 x Determnácós együttható Regresson R SSR = = SST Total R adj SST SSE SST SSE = 1 SST Resdual = 1 SSE SST ( n ) ( n 1) ( y y) = ( y Y$ ) + ( Y$ y) A képletek magyarázata SST = SSE + SSR d.f.: n-1 = n- + 1 SSE s r = s r rezduáls szórás n s a = s r n s b = s r ( x x) Az együtthatók szórása 41
A konfdencatartományok a t-eloszlás alapján számíthatók 1 s s Y$ = r + n ( x x ) ( x x ) = s + s ( x x ) a b s = s = s + s x b0 Y$ ( x= 0) a b ANOVA-táblázat SSR SSR F = SSE ( n 1) SSE SST A nullhpotézs az, hogy a regresszós együtthatók egyszerre zérusok Regresszós együtthatók A tapasztalat regresszós egyenes képlete: Y$ = 005196. + 3017. x 4