GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az egymintás t-próba célját, alkalmazásának feltételeit és módszerét! 3. A kétmintás t-próba célja, alkalmazásának feltételei. 4. Ismertesse az idősorok determinisztikus modell szerinti összetevőit és additív 5. Ismertesse az idősorok determinisztikus modell szerinti összetevőit és multiplikatív 6. A regressziós egyenes egyenletének meghatározása empirikus úton. 7. Ismertesse az empirikus (tapasztalati) korrelációs együttható és a regressziós egyenes összefüggését! 8. Mutassa be az empirikus lineáris regresszió jellemzésére vonatkozó varianciaanalízist és értelmezze a determinációs együtthatót! Paraméteres hipotézisvizsgálatok (3db kérdés) 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! Az egymintás z-próba segítségével egy sokaság várható értékére vonatkozó hipotézis vizsgálata végezhető el. A nullhipotézis kimondja, hogy μ várható érték egy adott m referenciaértékkel egyezik H0: μ = m, míg az ellenhipotézis lehet egyenlőtlenség H1: μ m vagy reláció H1: μ > m. A z-próba alkalmazásának feltétele, hogy a sokaság elméleti szórását ismerjük, vagy a minta elemszáma 30-nál magasabb legyen. Ekkor a próbastatisztika standard normális eloszlást követ, a kritikus érték így eloszlásfüggvény táblázatból a választott döntési szintnek megfelelően megadható. Ekkor a z-próba számított értéke: z á = x m s n, H0 t elfogadjuk, ha z á < z
2. Mutassa be az egymintás t-próba célját, alkalmazásának feltételeit és módszerét! Az egymintás t-próba egy vizsgált sokaság várható értékére vonatkozó statisztikai hipotézis vizsgálatára alkalmas. A nullhipotézis szerint μ várható érték egy adott m referenciaértékkel egyezik H0: μ = m, míg az alternatív hipotézis lehet egyenlőtlenség H1: μ m vagy tetszőleges irányú reláció H1: μ > m. Az egymintás t-próbát akkor alkalmazuk, ha a sokaság elméleti szórása nem ismert és a számított érték meghatározásához csak egy kis elemszámú (n<30) minta áll rendelkezésre. Ekkor a próbastatisztika számított értéke Student-féle t-eloszlást követ: t á = x m s n, H0 t elfogadjuk, ha t á < t A kritikus értéket szignifikanciaszint és DF = n 1 szabadsági fok alapján állapítjuk meg. Amennyiben a minta elemszáma 30-nál magasabb, akkor a Student-féle t- eloszlás értékei már jól közelíthetőek standard normális eloszlással, emiatt z-próbát használunk. 3. A kétmintás t-próba célja, alkalmazásának feltételei. Kétmintás t-próba segítségével két egymástól független sokaság várható értéke hasonlítható össze mintavétel alapján számított próbastatisztika alapján. A kétmintás t-próba nullhipotézise, hogy az összehasonlításra kerülő két sokaság várható értéke megegyezik H0: μ = μ, ellenhipotézis felírása egyoldali vagy kétoldali megközelítéssel is lehetséges: H1: μ μ vagy H1: μ > μ Alkalmazásának feltétele, hogy a két minta elméleti szórásnégyzete, σ1 2 és σ2 2 azonosak legyenek, az előfeltétel teljesülése F-próbával ellenőrizhető. Ha az előbbi kitétel nem teljesül, akkor csak Welch-próba segítségével lehet a két várható értéket összehasonlítani. Első lépésben eloszlásfüggvény táblázatból meghatározzuk a választott szignifikanciaszinthez és DF = n + n 2 szabadsági fokhoz tartozó kritikus értéket, majd kiszámítjuk a két minta varianciájának súlyozott átlagát: s = (n 1)s + (n 1)s n + n 2
Ezt követően az alábbi próbafüggvényből adódik a számított érték, mely alapján a hipotézisról dönthetünk: t á = x x s 1 n + 1 n, H0 t elfogadjuk, ha t á < t Idősorok elemzése (2db kérdés) 4. Ismertesse az idősorok determinisztikus modell szerinti összetevőit és additív Determinisztikus idősorelemzés alkalmazása során azzal az alapfeltevéssel élünk, hogy a vizsgált jelenség időbeli alakulására 3db tényező van hatással: egy kezdeti érték, egy trendkomponens és egy szezonális komponens. Additív modellt alkalmazva: y = β + β t + s + ε ahol y az idősor t-edik tagja, β a kezdőérték, β a meredekségi paraméter (trendkomponens), t a keresett adat sorszáma az idősorban, ε véletlen hibatényező, végül s a szezonális komponens adott hónapra/negyedévre vonatkozó értéke. Additív modellben a szezonalitásról azt feltételezzük, hogy ennek mértéke időben állandó, az adott hónapokra és negyedévekre vonatkozó konstans értékkülönbségben jelenik meg. Ekkor a szezonális komponenseket a havi/negyedéves részátlagok és a főátlag különbségeiből tudjuk számítani: s = y Y Az additív modell alkalmazása akkor célszerű, ha az idősorban az adatok mozgóátlag körüli varianciája állandó, a szezonálisan jelentkező eltérések abszolút mértéke nem mutat sem növekedést, sem csökkenést. 5. Ismertesse az idősorok determinisztikus modell szerinti összetevőit és multiplikatív Determinisztikus idősorelemzés alkalmazása során azzal az alapfeltevéssel élünk, hogy a vizsgált jelenség időbeli alakulására 3db tényező van hatással: egy kezdeti érték,
egy trendkomponens és egy szezonális komponens. Multiplikatív modell esetén az öszefüggéseket szorzatalakban írjuk fel: y = (β + β t) s η ahol y az idősor t-edik tagja, β a kezdőérték, β a meredekségi paraméter (trendkomponens), t a keresett adat sorszáma az idősorban, η a modell által nem magyarázott véletlen reziduális szorzótényező, végül s a szezonális komponens adott hónapra/negyedévre vonatkozó értéke. Multiplikatív modell alkalmazása során a szezonalitás egy szorzótényezőként jelentkezik, melynek értékei 1-nél nagyobbak, ha adott időszak meghaladja az egész éves átlagot, míg ellenkező esetben egynél kisebbek. Ekkor a szezonális komponensek a havi/negyedéves részátlagok és a főátlag hányadosai: s = y Y Multiplikatív, tehát szorzótényezős modell használata akkor lehet javasolt, ha az idősorban az adatok mozgóátlag körüli varianciája az idő előrehaladtával nem állandó, hanem inkább a trendkomponens által előrejelzett hosszú távú átlagérték körüli százalékos ingadozásként ragadható meg. Korreláció és regressziószámítás (3db kérdés) 6. A regressziós egyenes egyenletének meghatározása empirikus úton. Kétváltozós egy magyarázó, illetve eredményváltozót tartalmazó lineáris regressziós modell regressziós egyenesének egyenlete a legkisebb négyzetek módszerével (Ordinary Least Squares OLS) határozható meg. A fent megnevezett matematikai módszer lényege, hogy az (x, y ) egyedi adatpontok és a regressziós egyenes közötti függőleges távolságok négyzetösszegét, tehát az SSE = ε = (y y ) reziduális négyzetösszeget minimalizálja. Első lépésben az egyedi adatpontokból meg kell határozzuk a magyarázó változó és eredményváltozó x és y átlagát, átlagtól vett eltéréseiknek d és d négyzetösszegeit, valamint az átlagtól vett eltérések d d szorzatösszegét.
Ezekből kiszámítható a regressziós egyenes meredekségi és tengelymetszeti paramétere, sorrendben: β = d d d és β = y β x Ezt követően a kapott eredményeket a kétváltozós lineáris regresszió általános alakját leíró egyenletbe helyettesítjük a β meredekség és β tengelymetszet helyére: y = β + β t + ε 7. Ismertesse az empirikus (tapasztalati) korrelációs együttható és a regressziós egyenes összefüggését! A korrelációs koefficiens két változó (x és y) közötti kapcsolat szorosságát hivatott mérni, míg a regressziós egyenes a magyarázó változóként megjelölt x valamint y eredményváltozó közötti matematikai összefüggést írja le. Mind a korrelációs együttható, mind pedig a regressziós egyenes meredeksége a legkisebb négyzetek módszerével (OLS) becsülhető a vizsgálatba bevont változók eltéréseinek szorzatösszege, kovarianciája alapján. Korreláció: r =, míg a regressziós meredekség: β = Ha a fenti egyenleteket átrendezzük, belátható, hogy r korrelációs együttható és β regressziós meredekségi paraméter között egyértelmű összefüggés áll fenn: d r = β d Mivel a négyzetösszegek csak pozitív számok lehetnek, ezért r korrelációs együttható és β meredekségi paraméter mindig azonos előjelű. Pozitív korreláció esetén a regressziós merdekség pozitív, ellenkező esetben negatív.
Ha a korrelációs együttható értéke nulla, akkor a regressziós meredekség β is 0 lesz, így ekkor x és y változók között nincs összefüggés, a kétváltozós modell magyarázó ereje értelemszerűen R = 0. Minél közelebb esik r korreláció abszolút értéke az 1-hez, annál jobban képes az egyik változó a másik alakulását magyarázni. 8. Mutassa be az empirikus lineáris regresszió jellemzésére vonatkozó varianciaanalízist és értelmezze a determinációs együtthatót! Egy tapasztalati (empirikus) úton előállított regressziós modellt elsősorban az alapján értékelünk, hogy a bevont x magyarázó változó hány százalékban képes y eredményváltozó szóródását magyarázni. Ennek mérőszáma az R determinációs együttható, más néven magyarázó erő, mely a következőképpen számítható: R = SSR SST = SST SSE SST Az eredményváltozó teljes szórásnégyzetösszegét (SST) két részre bontjuk: egy a regresszió által magyarázott (SSR), és a regresszió által nem magyarázott (SSE) részre. Utóbbi a reziduális négyzetösszeg, amely az egyedi adatpontok és a regressziós egyenes közötti távolságok reziduumok négyzetes összegével egyenlő. A determinációs együttható legegyszerűbben a regressziós és a teljes szórásnégyzetösszeg hányadosaként adódik, értéke 0 és +1 közötti. Minél közelebb esik R értéke az 1-hez, annál nagyobb, százalékban is kifejezhető mértékben képes magyarázatot adni x változó alakulása y eredményváltozó ingadozására. A varianciaanalízis táblázatának (lásd lejjebb) összeállításával tesztelhető az is, hogy R determinációs együttható értéke szignifikáns mértékben eltér-e a nullától. Ez akkor jelenthető ki, ha a számított F érték magasabb az α szignifikanciaszint, illetve DF és DF szabadsági fokok alapján megadott kritikus értéknél, vagy a nullhipotézis teljesülésének valószínűségét kifejező p érték kisebb a választott szignifikancia szintnél. Variancia forrása Négyzetösszegek ANOVA tábla (ANalysis Of VAriance) Szabadsági fok Variancia F érték Regresszió SSR = SST SSE DF = 1 s = SSR/DF F = s R 2 /s E 2 p Reziduális SSE = ε DF = n 2 s = SSE/DF TELJES SST = d DF = n 1 p érték