Statisztika feladatok

Hasonló dokumentumok
Sztochasztikus kapcsolatok

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Táblázatok 4/5. C: t-próbát alkalmazunk és mivel a t-statisztika értéke 3, ezért mind a 10%-os, mind. elutasítjuk a nullhipotézist.

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Lineáris regresszió. Statisztika I., 4. alkalom

Varianciaanalízis. Egytényezős kísérletek (Más néven: egyutas osztályozás, egyszempontos varianciaanalízis ANOVA)

Gyakorló feladatok a Kísérletek tervezése és értékelése c. tárgyból Lineáris regresszió, ismétlés nélküli mérések

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

Diszkriminancia-analízis

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Review of Correlation & Regression

4 2 lapultsági együttható =

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

NEMPARAMÉTERES PRÓBÁK

Bevezetés a Korreláció &

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Normál eloszlás. Gyakori statisztikák

Kísérlettervezési alapfogalmak:

Biológiai anyagok hatásának értékelése, ha közvetlen fizikai vagy kémiai analízis nem alkalmazható.

Nemparaméteres módszerek. Krisztina Boda PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Regresszióanalízis. Lineáris regresszió

Statistical Dependence

Regresszió. Fő cél: jóslás Történhet:

Esetelemzések az SPSS használatával

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

MATEMATIKAI STATISZTIKA KISFELADAT. Feladatlap

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Korreláció-számítás. 1. előadás. Döntéselőkészítés módszertana. Dr.

Regresszió számítás az SPSSben

Tanult nem paraméteres próbák, és hogy milyen probléma megoldására szolgálnak.

ADATREDUKCIÓ I. Középértékek

ADATREDUKCIÓ I. Középértékek

Statisztika II. feladatok

Esetelemzés az SPSS használatával

Hipotézis vizsgálatok

OLS regresszió - ismétlés Mikroökonometria, 1. hét Bíró Anikó A tantárgy tartalma

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Statisztika elméleti összefoglaló

BIOMETRIA_ANOVA_2 1 1

X PMS 2007 adatgyűjtés eredményeinek bemutatása X PMS ADATGYŰJTÉS

KISTERV2_ANOVA_

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Többváltozós lineáris regressziós modell feltételeinek

Adatelemzés és adatbányászat MSc

Statisztika Elıadások letölthetık a címrıl

Max-stabilis folyamatok. 6. előadás, március 29. Smith (1990) konstrukciója. Példák

Biometria gyakorló feladatok BsC hallgatók számára

Extrém-érték elemzés. Extrém-érték eloszlások. Megjegyzések. A normálhatóság feltétele. Extrém-érték modellezés

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Statisztikai szoftverek esszé

Correlation & Linear Regression in SPSS

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

4. A méréses ellenırzı kártyák szerkesztése

Correlation & Linear Regression in SPSS

ANOVA. Egy faktor szerinti ANOVA. Nevével ellentétben nem szórások, hanem átlagok összehasonlítására szolgál. Több független mintánk van, elemszámuk

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Matematikai statisztika

OKTATÁSGAZDASÁGTAN. Készítette: Varga Júlia Szakmai felelős: Varga Júlia június

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Normális eloszlás paramétereire vonatkozó próbák

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Regresszió-számítás. 2. előadás. Kvantitatív statisztikai módszerek. Dr.

Kvantitatív statisztikai módszerek

WIL-ZONE TANÁCSADÓ IRODA

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

ADATREDUKCIÓ I. Középértékek

VARIANCIAANALÍZIS (szóráselemzés, ANOVA)

Laboratóriumi kontrollkártya használata Tananyag. Készítette: Muránszky Géza vegyészmérnök Oktató: Lőrinc Anna minőségirányítási előadó

Bevezetés a hipotézisvizsgálatokba

Megoldások. ξ jelölje az első meghibásodásig eltelt időt. Akkor ξ N(6, 4; 2, 3) normális eloszlású P (ξ

Páros binomiális próbák

Descriptive Statistics

Matematikai statisztika elıadás III. éves elemzı szakosoknak. Zempléni András 9. elıadásból (részlet)

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Matematikai alapok és valószínőségszámítás. Normál eloszlás

KÖVETKEZTETŐ STATISZTIKA

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Regression

Biostatisztika Hipotézisvizsgálatok, egy- és kétoldalas próbák, statisztikai hibák, ANOVA

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

MARKETINGKUTATÁS II. Oktatási segédanyag. Budapest, február

A többváltozós lineáris regresszió 1.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Descriptive Statistics

Nemparaméteres eljárások

d(f(x), f(y)) q d(x, y), ahol 0 q < 1.

Regressziós vizsgálatok

Nemparaméteres próbák

Átírás:

Statsztka ok Informatka Tudományok Doktor Iskola Bzonyítandó, hogy: azaz 1

Tekntsük az alább statsztkákat: Igazoljuk, hogy torzítatlan statsztkák! Melyk a leghatásosabb közöttük?

(Ez az együttes eloszlásfüggvényük.) 3

Igazoljuk az alább állítást! 4

0<= =0 5

6

Mutassuk meg, hogy az átlagstatsztka normáls esetben nem csak torzítatlan, erısen konzsztens becslés, hanem hatásos s! Feltételek: Bzonyítandó, hogy a várható értékre nncs ksebb szórású torzítatlan becslés a mntaátlagnál! 7

Ha akkor t bztosan hatásos statsztka! Ez teljesül, ha a Fsher-féle nformácó mennység A mnta együttes sőrőségfüggvénye, a lkelhood függvény most: Mvel teljesült a feltétel, az átlagstatsztka tényleg hatásos! Mutassuk meg, hogy az átlagstatsztka exponencáls esetben s nem csak torzítatlan, erısen konzsztens becslés, hanem hatásos s! Feltételek: Bzonyítandó, hogy a várható értékre nncs ksebb szórású torzítatlan becslés a mntaátlagnál! A bzonyítást az elızı példánál megmutatott módon végezzük. 8

Mutassuk meg, hogy az átlagstatsztka Posson esetben s nem csak torzítatlan, erısen konzsztens becslés, hanem hatásos s! Ebben a példában az alapsokaság eloszlása dszkrét! Feltételek: A log-lkelhood függvény most: 9

M lehet ennek az oka??? Tehát a Cramer-Rao-egyenlıtlenséggel nem gazolható most, hogy T 1 hatásos lenne! (Nem bztos, hogy hatásos!) Mutassuk meg, hogy az átlagstatsztka elégséges normáls esetben! 10

Mutassuk meg, hogy az átlagstatsztka elégséges exponencáls esetben! 11

Mutassuk meg, hogy az átlagstatsztka elégséges Posson esetben! 1

Mutassuk meg, hogy az elsı mntaelem önmagában nem elégséges! 13

Konfdenca ntervallum szerkesztése az smeretlen szórásra normáls eloszlás esetében. Szerkesszünk 1-ε megbízhatóság szntő konfdenca-ntervallumot az exponencáls eloszlás λ paraméterére! Használjuk fel az alább segédtételt: Az eloszlás neve: n, 1 paraméterő Gamma-eloszlás (Jelölés: Γ(n,1)) 14

Ezek alapján a konfdenca-ntervallum szerkesztése: 15

16

17

18

19

0

1

3

4

5

6

7

8

9

Bank alkalmazottak személy adatat tartalmazó állomány 474 esetbıl álló eployee data adatmátrxa. Ellenırzzük azt a feltevést, hogy az átlagfzetés 14 000 $ A változók jelentése d a dolgozó kódja gender a dolgozó neme (m-férf, f-nı) bdate születés dátum educ képzés sznt (években) jobcat beosztás (1-tsztvselı, -bztonság, 3-menedzser) salary jelenleg fzetés salbegn kezdıfzetés jobtmehány hónapja alkalmazták prevexp betanítás dı (hónapokban) mnorty hátrányos helyzet (0-nncs, 1-van) 30

SPSS-sel Current Salary One-Sample Statstcs N Mean Std. Devaton Std. Error Mean 474 $34,419.57 $17,075.661 $784.311 One-Sample Test Current Salary Test Value = 14000 95% Confdence Interval t df Sg. (-taled) Mean Dfference of the Dfference Lower Upper 6,03 473,00 $0419 $18,87 $1,96 Ellenırzzük párostott kétmntás t-próbával, hogy a kezdıfzetés egyenlı-e a jelenlegvel! Dobozábrák a fzetésekkel 31

SPSS-sel Pared Samples Statstcs Par 1 Current Salary Begnnng Salary Std. Error Mean Mean N Std. Devaton $34,419.57 474 $17,075.661 $784.311 $17,016.09 474 $7,870.638 $361.510 Pared Samples Correlatons Par 1 Current Salary & Begnnng Salary N Correlaton Sg. 474,880,000 Pared Samples Test Par 1 Current Salary - Begnnng Salary Pared Dfferences 95% Confdence Interval of Std. Error the Dfference Mean Std. Devaton Mean Lower Upper t df Sg. (-taled) 35,036,000 $17403.48 $10,814.60 $496.73 $16,47.407 $18379.56 473 3

Ellenırzzük független kétmntás t-próbával, hogy a nık és férfak fzetése egyenlı-e! Dobozábrák a fzetésekkel 33

SPSS-sel Group Statstcs Current Salary Gender Male Female Std. Error Mean N Mean Std. Devaton 58 $41,441.78 $19,499.14 $1,13.968 16 $6,031.9 $7,558.01 $514.58 Independent Samples Test Current Salary Equal varances assumed Equal varances not assumed Levene's Test for Equalty of Varances t-test for Equalty of Means 95% Confdence Interval of the Dfference Mean Std. Error F Sg. t df Sg. (-taled) Dfference Dfference Lower Upper $1,407.906 $1,643.3 $18,176.401 119,669,000 10,945 47,000 $15409.86 11,688 344,6,000 $15409.86 $1,318.400 $1,816.78 $18,00.996 Ellenırzzük egyszerő csoportostással, hogy a munkakörökben azonos-e a fzetés! 34

SPSS-sel Descrptves Current Salary Clercal Custodal Manager Total 95% Confdence Interval for Mean Lower Bound Upper Bound N Mean Std. Devaton Std. Error Mnmum Maxmum 363 $7,838.54 $7,567.995 $397.17 $7,057.40 $8,619.68 $15,750 $80,000 7 $30,938.89 $,114.616 $406.958 $30,10.37 $31,775.40 $4,300 $35,50 84 $63,977.80 $18,44.776 $1,990.668 $60,018.44 $67,937.16 $34,410 $135,000 474 $34,419.57 $17,075.661 $784.311 $3,878.40 $35,960.73 $15,750 $135,000 ANOVA Current Salary Between Groups Wthn Groups Total Sum of Squares df Mean Square F Sg. 8,9E+010 4,47E+010 434,481,000 4,8E+010 471 1095714,5 1,4E+011 473 Current Salary Robust Tests of Equalty of Means Welch Statstc a df1 df Sg. 16,00 117,31,000 a. Asymptotcally F dstrbuted. SPSS-sel Multple Comparsons Dependent Varable: Current Salary LSD Tamhane Mean 95% Confdence Interval (I) Employment Category (J) Employment Category Dfference (I-J) Std. Error Sg. Lower Bound Upper Bound Clercal Custodal -$3,100.349 $,03.760,16 -$7,077.06 $876.37 Manager -$36,139.58* $1,8.35,000 -$38,55.99 -$33,75.53 Custodal Clercal $3,100.349 $,03.760,16 -$876.37 $7,077.06 Manager -$33,038.909* $,44.409,000 -$37,449.0 -$8,68.6 Manager Clercal $36,139.58* $1,8.35,000 $33,75.53 $38,55.99 Custodal $33,038.909* $,44.409,000 $8,68.6 $37,449.0 Clercal Custodal -$3,100.349* $568.679,000 -$4,483.07 -$1,717.63 Manager -$36,139.58* $,09.91,000 -$41,078.30 -$31,00.1 Custodal Clercal $3,100.349* $568.679,000 $1,717.63 $4,483.07 Manager -$33,038.909* $,031.840,000 -$37,98.78 -$8,095.04 Manager Clercal $36,139.58* $,09.91,000 $31,00.1 $41,078.30 Custodal $33,038.909* $,031.840,000 $8,095.04 $37,98.78 *. The mean dfference s sgnfcant at the.05 level. 35

Ellenırzzük a fzetés lleszkedését a normálshoz! Grafkusan, majd egymntás Kolmogorov-Szmrnov próbával! Grafkus vzsgálat alapján nem tőnk jónak az lleszkedés! 36

One-Sample Kolmogorov-Smrnov Test N Normal Parameters a,b Most Extreme Dfferences Kolmogorov-Smrnov Z Asymp. Sg. (-taled) a. Test dstrbuton s Normal. b. Calculated from data. Mean Std. Devaton Absolute Postve Negatve Begnnng Salary 474 $17,016.09 $7,870.638,5,5 -,170 5,484,000 Regresszós Vzsgáljuk meg az x független változó és az y függı változó között összefüggést! Az x független változó értéke pontosan beállítható, az y függı változó értéke azonban a Y valód érték körül ngadozk. A mérés adatok az alább táblázatban láthatók, az y értéke szernt növekvı sorrendbe rendezve. A tényleges mérés sorrendet a táblázat másodk oszlopa tartalmazza. Feltételezve, hogy y normáls eloszlású, valamnt azt hogy az y és x között függvénykapcsolat lneárs, adjunk becslést az egyenes paraméterere! No mérés sorrend x y 1 3 0 0.58 5 0.05 0.7 3 4 0.08.88 4 0.1 3.4 5 1 0.1 3.53 6 6 0.15 5.1 Scatter ábra az adatokkal a 95%-os konfdenca ntervallummal és a 95%-os jóslás határral 37

SPSS táblázatok R s r R adj Egyváltozós lneárs regresszó smétlés nélkül mérések esetén, σ y konstans A becslés Ha x krtérum: 0 φ = ( y b0 bx ) = mn. $Y a b 0 és b becslések = b egymástól + bx = a nem + b x függetlenek x 0 ( ) b = 0 a bx A normálegyenletek: φ = [ y b0 bx ] = 0 b 0 φ = [ y b0 bx ] x = 0 b Átrendezve: 0 y = nb + b x 0 y x = b x + b x A normálegyenletek az φ a φ b Átrendezve: [ y a b( x x )] = = 0 [ y a b( x x )]( x x ) = = 0 ( ) y = na + b x x Yˆ = a + b ( x x ) ( ) = ( ) + ( ) y x x a x x b x x Az a és b becslések egymástól függetlenek, mert modell llesztésekor ( x x ) = 0 x x = n 38

y = na és y ( x x ) = b ( x x ) tehát az a és b becsült paraméterek egymástól függetlenül kaphatók meg a két normálegyenletbıl: a = n y ( x x) y b = ( x x) ( ) $Y = a + b x x ; ( $ ) = = α + β( ) E Y Y x x E( a) A becslések tulajdonsága y E = α n E( b ) = β Var( b) = Var( a) σ σ = = ( n) n ( x x ) ( ) σ = σ ( x x ) ( x x ) ( $ ) = [ + ( )] = ( ) + ( )( ) E Y E a b x x E a E b x x ( ) α β ( ) E Y $ = + x x = Y ( ) Var( Y$ x x ) = Var( a) + ( x x) Var( b) = 1 σ + n n x x ( ) Konfdenca határok s a = sr n s b = s r ( x x ) 1 s s Y$ = r + n ( x x ) ( x x ) = s + s ( x x ) a b s = s = s + s x b0 Y$ ( x= 0) a b A konfdencatartományok a t-eloszlás alapján számíthatók. 39

40 ( ) x X E Y M = = ( ) ( ) ε ε ε = + + + 1 1 ˆ 1 ˆ,, x r n x r n s n x x n s t y M s n x x n s t y P Az átlag konfdenca-ntervalluma a mntapontok kb. 1-ε %-át tartalmazza. A sáv az x átlagának a közelében a legvékonyabb. Konfdenca ntervallum az átlaghoz Jóslás ntervallum (1- α) a valószínősége annak, hogy x adott értékénél egy késıbb mérés eredménye a számított ntervallumba esk. ( ) ( ) ( ) s s n x x x x s s s x x y Y r r a b = + + = + + $ 1 1 ntervallum: ( ) $ $ Y x t s y Y ± α Jóslás ntervallum ( ) ( ) ε ε ε = + + + + + 1 1 1 ˆ 1 1 ˆ,, x r n x r n s n x x n s t y Y s n x x n s t y P Az adott x -hez tartozó Y egyed értéket tartalmazza az alább 1-ε szntő konfdenca ntervallum:

7 6 r =.9506 95%-os jóslás sáv 5 4 Y$ = 005196. + 3017. x 3 y 1 0-1 95%-os konfdenca sáv - -3-0 0 0 0 0 0 0 0 0 x Determnácós együttható Regresson R SSR = = SST Total R adj SST SSE SST SSE = 1 SST Resdual = 1 SSE SST ( n ) ( n 1) ( y y) = ( y Y$ ) + ( Y$ y) A képletek magyarázata SST = SSE + SSR d.f.: n-1 = n- + 1 SSE s r = s r rezduáls szórás n s a = s r n s b = s r ( x x) Az együtthatók szórása 41

A konfdencatartományok a t-eloszlás alapján számíthatók 1 s s Y$ = r + n ( x x ) ( x x ) = s + s ( x x ) a b s = s = s + s x b0 Y$ ( x= 0) a b ANOVA-táblázat SSR SSR F = SSE ( n 1) SSE SST A nullhpotézs az, hogy a regresszós együtthatók egyszerre zérusok Regresszós együtthatók A tapasztalat regresszós egyenes képlete: Y$ = 005196. + 3017. x 4