Statisztika II előadáslapok 3/4 tanév, II félév
BECSLÉS ÉS HIPOTÉZISVIZSGÁLAT Egyik konzervgyár vágott zöldbabot exportál A szabvány szerint az üvegek nettó töltősúlyának az átlaga 3 g, a szórása 5 g Az üvegek töltősúlyára vonatkozóan a normális eloszlása feltételezhető Két töltőgép működésének mintavétele gyártásközi ellenőrzése során nyert adatok: I gép, n 5 db Töltősúly (g): 33 35 3 34 375 343 3 35 399 33 365 39 39 398 3 II gép, n db Töltősúly (g): 3 354 383 35 38 36 35 36 33 39 343 33 A két fenti minta egyesítésével nyert minta elemeinek rangsora (az I minta elemeit aláhúzás jelöli) 36 35 33 33 35 35 354 383 39 3 38 33 343 36 375 398 399 3 3 34 39 3 35 33 343 365 39 Egy vágóhídon 4 elemű mintából megvizsgálták a vágott sertések súlyának eloszlását A mintából becsült átlagos vágási súly 6 kg, a szórás pedig 9,5 kg A minta alapján ellenőrizni kívánják, hogy a vágósúly normális eloszlású-e Az illeszkedésvizsgálathoz az alábbi számításokat végezték el: Súly kg Sertések y 6 i száma 9, 5 Φ Z ) P ' ( i i P i np i ( fi np np -85 85-9 9-95 95- -5 5- -5 5- -5 5-6 4 56 9 96 6 36 3 7 -, -,68 -,6 -,63 -,,4,95,47,,35,465,3,648,456,668,888,99,977,,35,33,765,48,94,66,66,4,48,8 5,4 3, 3,6 56,7 76,56 8,64 66,4 4,6 9, 9,,67,9,44,9,359,6,67,43,,493 Összesen 4 - -, 4, 9,67 3 Az alkalmazásban álló szellemi foglalkozásúak évi havi bruttó átlagkeresetének becslése céljából 6 fős rétegezett, rétegen belül egyszerű véletlen kiválasztású mintát vettek Réteg Létszám Átlagkereset Szórás a sokaságban (ezer fő) a mintában ( fő ) a mintában (ezer Ft) a mintában (ezer Ft) Versenyszféra 3 355 95 4 Költségvetés 35 45 9 3 Összesen: 535 6 4 A hazai szállodákból egyik évben véletlenszerűen kiválasztott 5 vendég megoszlása: Szállodák Belföldi Külföldi Összesen besorolása vendég Luxus A B C - 8 8 5 5 38 4 7 9 Összesen 5 35 5 i i )
Számítások a függetlenségvizsgálathoz: n ij * n ij * ( nij nij ) * n - 8 8 5 5 38 4 6 5 66 7 4 9 43 63 6,,35 3,88 9,59,57 9,5,66 8,4 5 5 7,6 5 A -ben jogerősen elitélt bűnözők életkor szerinti eloszlása két független minta alapján: Korcsoport Férfiak Nők év száma (fő) 4- -5 5-3 3-4 4-5 5-6 44 8 4 4 4 8 9 65 35 78 5 Összesen 8 5 ij 6 Egy mezőgazdasági kutatóintézetben a triticale-val (a búza és a rozs keresztezésével létrehozott növény) kapcsolatos kísérletek néhány részeredménye: Az egy m -re jutó kalászok száma fajta szerint, kísérlet-sorozatonként Fajta I II III IV V y j s j kísérlet-sorozat Bókoló 543 47 584 476 474 59,6 634,3 Tömzsi 44 596 58 499 56 53, 3585, Szálkás 5 456 539 435 444 475, 93,5 Kedvelt 586 664 643 68 66 6,4 987,8 A szóródás oka 59,6 + 53, + 475, + 6,4 y 53,5 4 Variancia-analízis tábla σ p -érték Eltérésnégyzet- Szabadságösszeg fok becslése F Fajta 599,35 3 976,45 8,633, Hiba 365,4 6 8,65 Σ 9564,75 9
STATISZTIKAI ELŐADÁSLAPOK Regresszió alapadatok és kétváltozós elemzés Egy társasházban 3 lakás van Egy negyedévben mérték az összes lakás vízfogyasztását és az arra ható lehetséges tényezőket A cél az, hogy az eredmények alapján amennyiben a vízfogyasztás mérése lakásonként nem megoldott, minél igazságosabban lehessen szétosztani a lakások között a közös költséget Y X X X 3 X 4 X 5 vízfogyasztás, köbméter (VIZ) a lakásban lakók száma, fő (FO) a lakás nagysága, nm (NM) van-e mosógép a lakásban,, ha igen, ha nem (MOS) van-e mosogatógép a lakásban,, ha igen, ha nem (MOG) hány cserép virág található a lakásban (CSER) Alapadatok Sorszám FO (X ) NM (X ) MOS (X 3 ) MOG (X 4 ) CSER (X 5 ) VIZFOGY (Y) 35 5, 48 6 5, 3 4 8 4 44,3 4 45 4,4 5 6 4, 6 3 6 3 3,3 7 4 54 5 34,3 8 7 95 3 55,3 9 95,6 3 35 4,7 6 8,3 4 6 46,4 3 3 9 36,6 4 56 6 9,8 5 3 45, 6 3 35 6,5 7 35 5,7 8 3 8 4,7 9 5 8 49,3 4 39 5 46,8 54 8 9,3 4 8 4 39,5 3 4 8 4 45,9 4 5 8 5, 5 5 9,8 6 65 3, 7 45 8 3, 8 45 4 3,6 9 35 6,4 3 7,3 3 8 7,7 Átlag,58 7,6,94,9 6,6 3,94 Szórás,5 8,69,5,45 4,5,6 3
Kézenfekvő a fogyasztás nagyságát (Y) a lakók számával (X) magyarázni vízfogyasztás, A lakók száma és a fogyasztás közti összefüggés köbméter 7 6 5 4 3 y,87+ 7x r,78 3 4 5 6 7 8 fő Az ábra és eredmények az EXCEL programcsomagból származnak Néhány további kétváltozós regressziós számítás látható az alábbiakban Sorsz X Y d x d y d d d d x y x y ŷ e e 5 -,58-5,935 9,383,5 35,4 9,87 5,3 6,37 5, -,58-5,835 5,35,5 5,747 9,87-4,77,753 3 4 44,3,49 3,365 8,965,4 78,63 4,87 3,49,758 4,4 -,58-9,535 5,75,5 9,96 9,87,53,34 5, -,58-9,835 5,549,5 96,77 9,87,3,53 6 3 3,3,49,365,53,76,33 33,87 -,57 6,6 7 4 34,3,49 3,365 4,775,4,33 4,87-6,57 43,78 8 7 55,3 4,49 4,365 7,669 9,58 593,653 6,87-6,57 43,9 9,6 -,58-9,335 5,44,338 87,4 6,87-5,7 7,783 3,7,49-9,35-3,869,76 85,85 33,87 -,7 48,33 8,3 -,58 -,635 9,976,5 59,643 9,87 -,57,465 4 46,4,49 5,465,945,4 39,66 4,87 5,59 3,57 3 3 36,6,49 5,665,374,76 3,9 33,87,79 7,447 4 9,8 -,58 -,35 7,64,5 3,988 9,87 -,7,5 5 45, -,58 4,65-8,88,338 3,49 6,87 8,39 335,95 6 3 6,5,49-4,435 -,858,76 9,669 33,87-7,37 54,33 7 5,7 -,58-5,35 3,4,338 7,45 6,87 -,7,37 8 3 4,7,49,765 4,5,76 5,885 33,87 7,89 6,93 9 5 49,3,49 8,365 44,45 5,85 337,73 47,87,48,39 4 46,8,49 5,865,5,4 5,698 4,87 5,99 35,53 9,3 -,58 -,635,95,338,673 6,87,49 5,9 4 39,5,49 8,565,54,4 73,359 4,87 -,37,88 3 4 45,9,49 4,965,35,4 3,95 4,87 5,9 5,9 4 5 5,,49,65 48,779 5,85 46,67 47,87 3,8,4 5 9,8 -,58 -,35 7,64,5 3,988 9,87 -,7,5 6 3 -,58-7,935 4,6,338 6,964 6,87-3,87 4,985 7 3 -,58-7,935 8,355,5 3,664 9,87-6,87 47,97 8 3,6 -,58-7,335 4,6,338 53,8 6,87-3,7,699 9 6,4 -,58-4,535,98,5,66 9,87-3,47,4 3,3 -,58-8,635 3,65,5 74,563 9,87,43 5,95 3 7,7 -,58-3,35,88,338,465 6,87,89,687 Össz 8 959 5,863 7,56 455,44 959 999,4 A paraméterek becslése d d x y ˆ 5,863 β 7, d 7,56 x ˆ β Y ˆ β X 3,935 7,58,868 Yˆ,87 + 7 X X X X fő E( X ( ) ˆ X E X X β Y ˆ X ) β ˆ β + ˆ β X Elaszticitás,58 7 3,94,58 7,87 + 7,35 4
Hibaszámítás e s n 999,4 5,87 9 Becsült paraméter Standard hiba 95%-os konf int t-érték ˆ β,868 X,58,868±,4,8 6, s + 5,87 +,8 8,65 7, n d 3 7,56 X ˆ β 7 s 5,87, 694 d 7,56 helyen Y ˆ,868 + 7 6,868 átlagbecslés helyen X Y,868 + 7 6,868 egyedi becslés x x 5,87 s 3 5,87 + 3 ( X + n (,58) + 7,56 ( X s + + n X ) d x (,58) + 7,56 X ) d x,8 5,977 7±,4,694 5,584 8,46 6,868±,4,8 4,567 9,69 6,868±,4 5,977 4,674 39,6, - - ν 9 X + + 6 + + 4 78 t,975, 4 5
TÖBBVÁLTOZÓS REGRESSZIÓ Vonjuk most be a lakás nagyságát (X, négyzetméter) is a modellbe! Az így nyert eredménye a következők: X ' X X ' y 3 8 8 78 7 659 959 975,7 739,6 7 659 777,4349739 ( X ' X ),788,679858,359,3646,4797 7,67 ( ' X ) X ' y 6,9 Y ˆ 7,67 + 6,9 X +, 5 X,5 766,549 s 7, s 5, 3 8 SSE766,549 377 X s ˆ 5,3,679858,678 t 9, 3 8 t, 4 β,975 SSR3738,855 SSE 766,549 s 5,3,4797,36 t, 9,8 SST455,44 F 3, 34 ˆ β Útelemzés: Y ˆ 7,67 + 6,9 X +, 5 X F,95 3738,855 / 766,549 / 8 68,8 Y ˆ,87 + 7 X Y ˆ 4,9 +,4 X X ˆ,6 +, X X ˆ 5,88 + 7, 74 X 6,9+7,74,57 6,9+,87,5+, 6,9,4,5+,35,4 6,9 Y ε,5 X 7,74 X, Átlag és egyedi becslés 95%-os megbízhatósággal egy 3 fő által lakott, 5 nm-es lakás esetén (X 3, X 5) Y ˆ 7,67 + 6,9 3 +,5 5 9,4 köbméter ˆ var( Y ) 7,377 [,3,5] ( X ' X ) 3 7,377,63, 65 var( Y ) 7,377 ( +,63 ) 9, 8 5 Átlagbecslés: 9,4±,4,85 9,4±,6 Egyedi becslés: 9,4±,4 5,388 9,4± A backward algoritmus menete %-os szignifikancia szint mellett: Modell Változó Becsült paraméter Standard hiba t-érték p-érték Parciális korr eh Konstans,539 4,5,564,578 R-négyzet:,85 FO 6,5,75 8,48,,86 NM,9,37,45,,44 Korrigált R-négyzet:,83 MOS 7,5 4,8,79,98,35 MOG,836,7,85,47,63 CSER -,8,7 -,354,76 -,7 Konstans,87 3,946,46,649 R-négyzet:,85 FO 5,998,7 8,549,,859 NM,88,36,48,,438 Korrigált R-négyzet:,89 MOS 7,36 3,894,89,7,348 MOG,79,85,89,4,59 3 Konstans,3 3,878,593,558 R-négyzet:,848 FO 6,99,653 9,493,,877 NM,89,36,53,9,434 Korrigált R-négyzet:,83 MOS 6,89 3,86,79,85,36 6
KORRELÁCIÓSZÁMÍTÁS,88,569 R,73,349,3 Teljes korrelációs mátrix:,4,,6,364,,,95,9,37,3 Négyváltozós mátrix,88 R,569,4,73,,6 Háromváltozós mátrix R,88,569,4 A négyváltozós korrelációs mátrix inverze R 6,568 5,9,395,96 5,8,594,74,573,89, Háromváltozós korrelációs együtthatók R r Y Y,88 +,569,88,569,4,4,88,569,4,86,9,569,88,4 Y (,569 )(,4 ) (,88 )(,4 ) r R,83,48 Multikollinearitás ( az R struktúrája) a háromváltozós modellben X hatása:,83-,3,5 X hatása:,83-,78,5 Multikollinearitás:,7 Összesen:,83 Négyváltozós korrelációs együtthatók R r Y 3 Y3 r Y 3 r Y 3 6,568,9 R 5,9,877 6,568 5,8,395,434 6,568,573,96,36 6,568, Y 3,85 A négyváltozós modell számítógépes eredményei (SPSS for Windows) Model Summary a R R Adjusted Std Error of Square R Square the Estimate,9,848,83 5,379 a Predictors: (Constant), MOS, FO, NM ANOVA Sum of Squares df Mean Square F Sig Regression 38,38 3 73,37 5,7, 9 Residual 685,73 7 5,38 Total 455,4 3 a Predictors: (Constant), MOS, FO, NM b Dependent Variable: VIZFOGY 7
Variable Unstandardized coefficients Coefficients t Sig Collinearity statistics Standardized coefficients Beta B Std Error Tolerance VIF (Constant),3 3,878 -,593,558 - - FO 6,99,653,78 9,493,,83, NM,89,36,,53,9,783,77 MOS 6,89 3,86,39,79,85,93,73 Dependent Variable: VIZFOGY 3 XY ábra (scatterplot) 4 Hisztogram, Normalitásábra,75 8,5 6 stand reziduum - - - - stand becsült érték 3 gyakoriság 4 -,5 -,5 stand reziduum -,5,5,5,5,5,,,5,5,75, 8
IDŐSORELEMZÉS I A villamosenergia termelés alakulása Magyarországon 998- között negyedévenként (Gwh): Év I negyedév II negyedév III negyedév IV negyedév 998 975 836 8534 35 999 4 87 88 4 9476 79 7673 977 8844 7498 7498 4 874 745 733 899 Időszak t Lineáris trend számítása: t y y t ŷ 998 I 998 II 998III IV 3 6 4 9 56 975 836 8534 899 975 674 56 798 9493,56 947,4 934,7 846,84 Összesen 87 7544 797 7544, ˆ β + ˆ β 7544 ˆ β + 87 ˆ β 797 ˆ β 76,43 ˆ β 9569,7 yˆ 9569,7 76,43 t Az eredeti idősor és lineáris trendje: 5 5 95 9 85 8 75 7 98 98 983 984 99 99 993 994 3 4 3 4 3 4 trend eredeti idősor 9
Az eredeti idősor és mozgóátlagolású trendje 5 5 95 9 85 8 75 7 98 98 983 984 99 99 993 994 3 4 3 4 3 trend eredeti idősor Mozgóátlagolású trend számítása: Negyedév 998 I Eredeti idősor 975 Négytagú összegek Négytagú átlagok Középre igazítás - II 836-37755 9438,75 III 8534 95 3845 96,5 IV 35 9593,5 3834 9585,5 999 I 4 954,5 37988 9497, II 87 937,65 36977 944,5 III 88 98,75 3653 93,5 IV 4 I 874 33594 8398,5 II 745 854,5 III 733 344 8,5 - IV 899 - Szezonális eltérések számítása a lineáris trend alapján( y yˆ ): Év I II III IV Átlag negyedév negyedév negyedév negyedév 998 56,44-8,4-87,7 969,87 999, -94,84-855,7 63,44 59,59-886,7-59,3 5, 64,6-5,7-99,56 79,59 448,73-794,3-799,99 943,6 Átlagos eltérés 554,39-96,67-89,33 97,6, Előrejelzés pl 4 II negyedévére: yˆ (9569,7 76,43 6) 96,67 668, 3 4 II Gwh
Szezonális eltérések számítása a mozgóátlagolású trend alapján ( y yˆ ): Év I II III IV Átlag negyedév negyedév negyedév negyedév 995-986, 64,75 996 858,88-98,63-947,75 4, 997 588,75-77,88-8, 86, 998 567,88-876,88-98,5 688,3 999 33,63-849,5 Átlagos elt 579,78-739,8-745,5 349,47, Korrigált elt 468,58-85,38-856,46 38,6, A szezonálisan kiigazított idősor (a mozgóátlagolású trend alapján számolt eltérésekkel): 5 9 5 9 8 5 8 7 5 7 98 98 983 984 99 99 993 994 3 4 3 4 3 4 A véletlen tényező alakulása: 3-98 98 983 984 99 99 993 994 3 4 3 4 3 4 - -3
II A kiskereskedelmi forgalom alakulása Magyarországon 99-999 havi adatok, milliárd forint és az idősor mozgóátlagolású trendje: 6 5 4 3 jan95 ápr95 júl95 okt95 jan96 ápr96 júl96 okt96 jan97 ápr97 júl97 okt97 jan98 ápr98 júl98 okt98 jan99 ápr99 júl99 okt99 Mrd Ft idősor trend hónap A lineáris és az exponenciális trend egyenletei: yˆ 57,4 + 3,6 t s e 43, ˆ t y 7,7,3 s e 4,5 Korrigált szezonindexek (%) a mozgóátlagolású trend alapján: Hó Jan Febr Márc Ápr Máj Jún Júl Aug Szept Okt Nov Dec Index 77,7 78,8 83,3 98, 99,3,8 7, 5,3 8, 8, 7,8 5,9