Bevezetés, tudnivalók, ökonometriai alapok

Hasonló dokumentumok
Bevezetés, tudnivalók, ökonometriai alapok

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika elméleti összefoglaló

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

1. Technikai kérdések Adminisztratív ügyek Tudnivalók a félévről... 3

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

A Statisztika alapjai

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

y ij = µ + α i + e ij

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

egyetemi jegyzet Meskó Balázs

Hipotézis vizsgálatok

Varianciaanalízis 4/24/12

Statisztika Elıadások letölthetık a címrıl

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

KÖVETKEZTETŐ STATISZTIKA

Bevezetés a hipotézisvizsgálatokba

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Ökonometria. Adminisztratív kérdések, bevezetés. Ferenci Tamás 1 Első fejezet. Budapesti Corvinus Egyetem

[Biomatematika 2] Orvosi biometria

Valószínűségszámítás összefoglaló

Hipotézis vizsgálatok

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Többváltozós lineáris regressziós modell feltételeinek

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Nemparaméteres próbák

Normális eloszlás paramétereire vonatkozó próbák

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Lineáris regressziószámítás 1. - kétváltozós eset

[Biomatematika 2] Orvosi biometria

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Kísérlettervezés alapfogalmak

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

6. Előadás. Vereb György, DE OEC BSI, október 12.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Több valószínűségi változó együttes eloszlása, korreláció

Biostatisztika Összefoglalás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kettőnél több csoport vizsgálata. Makara B. Gábor

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Biostatisztika Összefoglalás

Dr. Karácsony Zsolt. Miskolci Egyetem november

Ökonometria. Adminisztratív kérdések, bevezetés. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Első fejezet. Budapesti Corvinus Egyetem

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Matematika III. 9. Statisztikai hipotézisek Prof. Dr. Závoti, József

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Biomatematika 2 Orvosi biometria

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztikai becslés

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

Biometria gyakorló feladatok BsC hallgatók számára

Biostatisztika VIII. Mátyus László. 19 October

Adatok statisztikai értékelésének főbb lehetőségei

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Korreláció és lineáris regresszió

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

A maximum likelihood becslésről

A valószínűségszámítás elemei

Készítette: Fegyverneki Sándor

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kísérlettervezés alapfogalmak

Normális eloszlás tesztje

[Biomatematika 2] Orvosi biometria

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

IV. Változók és csoportok összehasonlítása

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Gyak. vez.: Palincza Richárd ( Gyakorlatok ideje/helye: CS , QBF10

Matematikai statisztika szorgalmi feladatok

Diagnosztika és előrejelzés

Kutatásmódszertan és prezentációkészítés

Függetlenségvizsgálat, Illeszkedésvizsgálat

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Átírás:

Orlovits Zsanett orlovits@math.bme.hu BME GTK Közgazdaságtan Tanszék 2018. szeptember 5-6.

Tartalom 1 Technikai kérdések Adminisztratív ügyek Tudnivalók a félévről 2 Bevezetés, alapgondolatok Modellezés általában Esettanulmány Módszertan, adatok 3 Statisztika ismeretek - nagyon rövid ismétlés!!!

Adminisztratív ügyek BMEGT30A107, BMEGT35A017, BMEGT35A016 - Ökonometria kurzusok Honlap: http://kgt.bme.hu/tantargyak/bsc oldalon Ökonometria címszó alatt mindhárom kurzus hallgatóinak Előadó: Orlovits Zsanett BME GTK Közgazdaságtan Tanszék - QA219 orlovits@math.bme.hu Fogadóóra: szerda 10-12, QA219 Gyakorlatvezetők: Kupcsik Réka Orlovits Zsanett Rácz Tamás

Adminisztratív ügyek Tananyag: elsősorban az előadás fóliák (fent lesznek a honlapokon), ebből készül a jegyzet, nulladik változat fent lesz a honlapon. Ajánlott irodalom, segédanyagok: Ramu Ramanathan: Bevezetés az ökonometriába alkalmazásokkal, Panem Kiadó, 2003 G.S. Maddala: Bevezetés az ökonometriába, Nemzeti Tankönyvkiadó, 2004 Jeffrey M. Wooldridge: Introductory Econometrics, A Modern Approach

Adminisztratív ügyek BMEGT30A107 - vizsgával záruló tárgy, 5 kredit BMEGT35A017 - vizsgakurzus, 5 kredit BMEGT35A016 - félévközi jegyes tárgy, 5 kredit ZH-k: 3 db röpzárthelyi dolgozat az 5., 9. és 13. héten egyenként 20 percesek 15 pontos mindhárom külön-külön gyakorlatok időpontjában és helyszínén lesznek pótlás-javítás nincs, a TVSz-szel összhangban a legjobban sikerült két röpzh eredményét vesszük figyelembe aláírás feltétele: a 3 röpzh minimum 40%-os teljesítése külön-külön maximálisan szerezhető pont: 30 (+15), a minimum 12 pont BMEGT35A016 - ZH a 14. héten Többieknek írásbeli vizsga a vizsgaidőszakban Minden egyéb kérdésre a válasz a TAD-ban (ld. a honlapon).

Célok, feladatok Ismerkedés az ökonometriával: elmélet, módszerek, alkalmazások Mindezt modellorientált szemléletben! Cél: társadalmi-gazdasági jelenségek kvantitatív elemzése ökonometriai modellek segítségével, melyekkel előrejelzéseket is végzünk majd Szükséges matematikai alapok: lineáris algebra, valószínűségszámítás, statisztika Precíz, komoly matematikai apparátust igénylő tudomány.

Mi az ökonometria? Szó szerinti jelentés: "mérés a közgazdaságtanban". Pontosabban: Az ökonometria a matematika és a statisztika közgazdasági alkalmazására irányuló, önállósult, gyorsan fejlődő diszciplínák egyike. A közgazdasági elméletnek akarunk empirikus tartalmat adni, hogy megerősítsük avagy megcáfoljuk azt. Célja: társadalmi-gazdasági jelenségek statisztikai elemzése, modellezése, előrejelzése, és a megfelelő következtetések levonása. Adatelemzést végzünk, nem pedig adatgyűjtést!!! A közgazdaságtan, matematika és statisztika kölcsönhatásából kialakuló, ún. határtudományról beszélünk. Kialakulása és szakmai megerősödése az 1930-as évek körüli válsághoz, és a második világháborúhoz köthető. (Gazdasági működések vizsgálata, hadászati kérdések.)

Mi az ökonometria? Ragnar Frisch, Econometrica indító száma: "... nem ugyanaz, mint a gazdaságstatisztika. De nem is azonos azzal, amit gazdaságelméletnek nevezünk... nem is tekinthető úgy, mint a matematika közgazdasági alkalmazásának szinonim kifejezése... az ökonometria lényege a kvantitatív közgazdaságtan és a statisztikai megfigyelés kölcsönös egymásba hatolása." Fő feladatok: közgazdasági összefüggések becslése hipotézisvizsgálat (elmélet és tények szembesítése) a közgazdasági változók viselkedésének előrejelzése. Azaz ún. gyakorlati közgazdaságtannak is nevezhetnénk, ahol a közgazdasági elmélet ellenőrzését végezzük tapasztalati úton, adatok segítségével, tesztelhető modellekkel, statisztikai eszközöket alkalmazva.

Az empirikus vizsgálat alapelemei Ok-okozati hatásra vagyunk mindig kíváncsiak, azaz a kauzalitás érdekel minket! Három nagy részre bonthatjuk ezt a folyamatot: adatgyűjtés, modellezés, eredmények értelmezése.

Adatgyűjtés - egy egyszerű példa Vizsgáljuk meg azt, hogy a több előadáson bent ülők év végi jegyei hogyan alakulnak a gyakrabban hiányzókéhoz. Igaz-e az, hogy az előadáson eltöltött időből lehet következtetni az év végi vizsgajegyre? Persze biztosan lehet, de helyes-e ez a következtetés? Vajon a két hallgatói csoport csak ebben az egy mutatóban tér el? Lehetséges, hogy a több előadást látogatók motiváltabbak is. Ez önmagában is javítja a jegyet, ugye? Akkor viszont mi a valódi ok? A több óralátogatás, a nagyobb motiváció, vagy esetleg mindkettő együtt?

Egy egyszerű példa Nehéz kérdés, hiszen a választott csoportok esetén egy olyan kérdést teszünk fel, mely esetén nem kizárólag ebben a tulajdonságban térnek el a csoportok, így hiába is találunk különbséget köztük, nem tudhatjuk, hogy ennek mi a valódi oka. Ezt hívják az egybemosódás problémájának. Hogyan lehetne ezt matematikailag/statisztikailag alátámasztani? Korrelációs együttható! Mit fog mondani ez? Azt mondja, hogy a szorgalmasabb óralátogatás együtt jár a jobb jeggyel, de azt nem mondhatjuk, hogy ez okozza a jobb jegyet!

Egy egyszerű példa Azaz nem az az érdekes, hogy ha valaki abban tér el, hogy több órán volt bent és jobb jegyet kapott, hanem ha valaki csak az óralátogatásban tér el a többiektől, és ekkor jobb jegyet ért el. Ezt szokás ceteris paribus elvnek is nevezni, és ez lesz a kulcskérdés a kauzalitás szempontjából is. Azaz a korreláció önmagában nem jelent kauzalitást! Mit sugall nekünk ez a példa? Azt, hogy sokféle módon gyűjthetünk nagyon sokféle adatot, és mindig figyelni kell arra, hogy ezek honnan származnak, milyen kérdésekre keressük a válaszokat, és ezekhez megkaptunk-e minden szükséges információt.

Adatgyűjtés fajtái Adatgyűjtés fajtái: Kísérlet, azaz véletlenszerűen kisorsoljuk a hallgatókat a különböző gyakoriságú óralátogatási csoportokba, és a félév végén e csoportok eredményeit hasonlítjuk össze. Ekkor nincs különbség a motiváltságban, és nagy valószínűséggel semmilyen más különbség sem lesz a csoportok közt. Csakhogy, ezzel befolyásoltuk az alanyokat, ezért volt a kísérlet elnevezés. Megfigyelés, azaz csak passzívan figyeljük meg az alanyokat, nem befolyásolunk semmit. Nehéz ekkor kauzalitásra jutni, de ehhez lesz majd nagy segítség az ökonometriai modellezés.

Adatok természete Az adatok jellegük szerint ökonometriai szempontból az alábbi csoportokra oszthatók: keresztmetszeti adatok több megfigyelési egység egetlen időpontban, ld. budai lakásárak adatbázisa idősoros adatok egy megfigyelési egység több időpontban, ld. pl. tőzsdei árfolyamok adatai e kettő kombinációja: panel adatok Ezen kurzus keretében csak az első kettővel foglalkozunk, a harmadik bőven meghaladja a kurzus kereteit.

Modellezés Minden gazdasági (vagy más) rendszer vizsgálata egy mögöttes logikai struktúrán, avagy modellen alapul, mely a rendszer szereplőinek viselkedését írja le, és az elemzés alapvető kerete. Minden tudománynak megvan a saját modellje. A közgazdasági modellezés a változók közötti ok-okozati összefüggések fogalmát tartalmazza, a változókat, mint matematikai objektumokat nem veszi figyelembe. Az ökonometriai modell ezzel szemben feltételeket tartalmaz a megfigyelt változók (potenciális) adat-generáló mechanizmusainak statisztikai eloszlásáról. A két modellezési koncepció közti váltás az empirikus projektek tipikus gyenge pontja.

Modellezés Alapvető célok és eszközök: A valóság egyszerű mását akarjuk létrehozni. Ám valóság túl bonyolult és összetett, másolni lehetetlen, így egyszerűsítünk, de ezzel persze torzítunk is! Erre majd vigyázni kell! A modellezés kulcsa az absztrakciós szint helyes megválasztása. Legyen a modell valósághű, de még kezelhető! Megkülönböztetünk egyegyenletes és szimultán ökonometriai modelleket. (keresleti és kínálati függvények becslése, makroökonómiai modellek)

Esettenulmány: lakásár-adatbázis Az adatbázis budai használt lakások kínálati árát (M FT), és ezek alábbi jellemzőit tartalmazza: alapterület (m 2 ) terasz mérete (m 2 ) szobák száma (db) félszobák száma (db) fürdőszobák száma (db) hányadik emeleten van a lakás (N) déli fekvésű-e (I/N) Mind valós adatok a 2000-es évek elejéről, összesen 1406 megfigyeléssel. Ez lesz a kiinduló mintánk. A felhasznált adatbázis Hajdu Ottó munkája.

Esettanulmány: lakásár-adatbázis Feladat: Adjunk ökonometriai modellt a kínálati árra! Azaz arra vagyunk kíváncsiak, hogy hogyan befolyásolják a fent vázolt jellemzők egy adott lakás kínálati árát! Készítsünk előrejelzést is a modell segítségével! Lehetőleg könnyen kezelhető és számolható modellt alkossunk, azaz algebrai modelleket akarunk építeni! Determinisztikus vagy sztochasztikus modell lesz? Ez a példa egy speciális esete a tapasztalati árindex modellnek, melyben egy árucikk ára a jellemzőitől függ.

Összefoglalás A valóságban jelen lévő állandó bizonytalanság miatt ún. sztochasztikus modellekkel foglalkozunk. A struktúrát előre megadjuk, ismeretlen paraméterekkel. Feladatunk e paraméterek becslése a minta segítségével. Persze a struktúrán változtatni lehet, de csak bizonyos határokon belül. Ez lesz a modell-specifikáció és diagnosztika kérdése. Cél: elemzés, előrejelzés Lépések: hipotézis felállítása, adatgyűjtés, modellezés, diagnosztika Iteratív feladat, véges, és lehetőleg kevés iteráció számmal.

Statisztika ismétlés

Mi a statisztika? "A statisztika a matematika azon ága, melynek alapfeladata az, hogy a politikus kezébe olyan eszközt adjon, mellyel tetszőleges állítás és annak ellentéte is tudományos alapon igazolható." (ismeretlen forrás) A statisztika a világ számszerűsíthető tényeinek szisztematikus összegyűjtésével és elemzésével foglalkozó tudományos módszer és gyakorlat. Feladat, cél: a tapasztalati adatokból az információk kinyerése, statisztikai törvényszerűségek feltárása, következtetések levonása és felhasználása. Modellépítés, paraméterbecslés, következtetések, hipotézisek vizsgálata.

Alapfogalmak Sokaság: azon elemek összessége, melyekről valamilyen információra szükségünk van. Minta: a sokaság egy olyan részcsoportja, melyről megfigyelésekkel rendelkezünk. Pontosabban, a statisztikai minta valamilyen véletlen mennyiségre vonatkozó véges számú független megfigyelés (lehetséges) eredménye, azaz véges sok független, azonos eloszlású valószínűségi változó (v.v). Jelölés: X 1,..., X n a realizáció, ahol X v.v., n pedig a minta elemszáma.

Alapfogalmak Alapstatisztikák avagy mintavételi eloszlások: kiinduló tájékozódás az X 1,..., X n mintáról Mintaátlag: X = 1 n X i n i=1 Tapasztalati szórásnégyzet: S 2 = 1 n (X i X) 2 = X n 2 X 2 i=1 Korrigált tapasztalati szórásnégyzet: S 2 = 1 n (X i X) 2 n 1 i=1 X n Mintaátlag standardizált hibája: S k-dik tapasztalati centrális momentum: Mk c = 1 n (X i n X) k i=1

Alapfogalmak Ferdeség (szimmetria): M c 3 (M c 2 )2/3 M4 c Lapultság: (M2 c)2 3 Tapasztalati kovariancia: (X i, Y i ), i = 1,..., n, 2-dim i.i.d. minta, C = 1 n (X i X)(Y i Ȳ ) = 1 n X i Y i XȲ n n i=1 i=1 Tapasztalati korrelációs együttható: R = C S X S Y, ahol S X és S Y a komponensek tapasztalati szórásai.

Alapfogalmak FONTOS: A mintajellemző és az elméleti sokasági paraméter nem ugyanazok! Pl. tegyük fel, hogy X v.v. µ várható értékkel és σ szórással. Ezek az elméleti paraméterek állandók és nem változnak. Ellenben ha erre a v.v-ra van egy mintánk, akkor a mintából számolt X mintaátlag és az s 2 becsült variancia valószínűségi változók, hiszen egy kísérlet többszöri megismétlésekor különböző mintaátlag és becsült varancia értékeket kapunk.

A becsléselmélet alapfeladata Feladat: a θ paramétert szeretnénk becsülni az X = (X 1,..., X n ) független, azonos eloszlású (i.i.d.) minta alapján konstruált ˆθ n = T n (X) statisztika segítségével. Ő lesz majd a paraméter becslése. Ezeket paraméter- (vagy pont)-becsléseknek nevezzük. Maximum-likelihood elv: az ismeretlen θ paraméter becsléseként azt a ˆθ n értéket vesszük, amely mellett az x 1,..., x n minta valószínűsége a legnagyobb. Momentumok módszere: tapasztalati momentumok segítségével becsli az elméleti momentumokat. Legkisebb négyzetek módszere - később, a félév során megismerkedünk majd vele. A becslés jóságának mérése: a valódi paraméter körüli ingadozás és a sztochasztikus konvergencia segítségével történik.

Alapfogalmak röviden - kisminta tulajdonság Torzítatlanság: ˆθ n = T n (X) torzítatlan becslés θ-ra, ha E(ˆθ n ) = θ, θ Θ. Pl.: az átlag mindig torzítatlan becslése a várható értéknek, ha ez véges. Azaz, ha egy adott kísérletet sokszor megismétlünk és mindig kiszámoljuk a ˆθ n becslést, akkor torzítatlan becslés esetén ezek átlaga éppen θ kell, hogy legyen. Ellenkező esetben a torzítás éppen Eˆθ θ. Torzítatlan becslést persze könnyű konstruálni számosat, ezért szükségünk lesz további ismérvekre ahhoz, hogy a legjobb becslést ki tudjuk választani.

Alapfogalmak röviden - nagyminta tulajdonság Konzisztencia: ˆθ n = T n (X) konzisztens becslés θ-ra, ha ˆθ n θ, n sztochasztikusan, azaz bármely ε > 0 esetén P( ˆθ n θ > ε) 0, n, θ Θ. Azaz a mintanagyság növelésével a becslések eloszlása az igazi paraméterértékhez tart. Pl.: X konzisztens becslése a várható értéknek, és ez persze nem más, mint a nagy számok erős és gyenge törvénye. A torzítatlanság nem implikálja a konzisztenciát!

Alapfogalmak röviden - konzisztencia vs. torzítatlanság Példa konzisztens, torzított becslésre θ = 0 esetén. Piros: kis minta, zöld: közepes minta, kék: nagy minta. Torzított, hiszen nem szimmetrikus a nullára, viszont konzisztens, hiszen a mintaelemszám növelésével az eloszlás a nullára fog koncentrálódni.

Alapfogalmak röviden Hatásosság: Ha T 1 és T 2 torzítatlan becslések θ-ra, akkor T 1 hatásosabb, mint T 2, ha D 2 θ(t 1 ) D 2 θ(t 2 ), θ Θ. Egy becslés hatásos, ha minden más becslésnél hatásosabb, azaz ez a legkisebb varianciájú becslés az összes torzítatlan becslés között.

Intervallum becslés - konfidencia intervallum Ha X 1,..., X n statisztikai minta a P θ eloszláscsaládból, akkor a θ paraméterhez olyan (T 1, T 2 ) véletlen hosszúságú intervallumot keresünk, melyre P(T 1 θ < T 2 ) 1 ε, ahol ε > 0 kicsi. Itt T 1 és T 2 maguk is v.v.-k, a minta valamilyen függvényei. Ezt az intervallumot a θ paraméterre vonatkozó legalább 1 ε megbízhatósági szintű konfidencia-intervallumnak nevezzük.

Feladatok 1. Egy vállalatnál 2500 kereskedő dolgozik, és a vállalat szeretné megbecsülni, hogy évente átlagosan hány kilométert autózik egy kereskedő. Korábbi felmérésekből ismert, hogy az egy kereskedő által megtett út normális eloszlású 5000 km szórással. Véletlenszerűen kiválasztva 25 gépkocsit, azt találták, hogy átlagosan 14000 km-t futottak egy év alatt. Adjunk 95%-os konfidencia intervallumot a várható értékre! 2. Hesser-rendszerű töltőgépen első alkalommal töltenek 200g névleges tömegű újfajta enzimes mosóport. A töltőgép szórásának meghatározására 25 elemű minttá vettek, amelynek korrrigált tapasztalati szórásnégyzete 144g 2. Várhatóan milyen szórással tölthető nagy tömegben a mosópor? Gazdaságstatisztika feladatgyűjtemény 38-41. o.

A hipotézisvizsgálat alapfeladata Tegyük fel, hogy adott egy ξ 1,..., ξ n független minta - mérési eredmények, megfigyelések. Ezek alapján dönteni akarunk különböző kérdésekben: A minta egy adott eloszlás(család)ból származik-e? Pl. telefonközpont esetén a beérkező hívások exp. eloszlásúak-e? A közös várható érték megegyezik-e egy előírt mennyiséggel? Pl. tablettában lévő hatóanyag mennyisége Szignifikánsan eltér-e a közös várható érték az előírtnál, és ha igen, akkor milyen irányban? Kevesebb avagy több? Adott genetikai minta származhat-e egy bizonyos személytől?

Alapfeladat A statisztikai hipotézisek vizsgálata abból indul ki, hogy adott P θ, θ Θ eloszlásra, vagy annak valamely paraméterére egy megadott állítás érvényes-e vagy sem. Ezt a feltételezést nullhipotézisnek nevezzük: H 0 : θ Θ 0 Pl.: elegendő mennyiségű cukor van-e egy adott italban (Eξ = µ 0 ). Az ellenhipotézis a nullhipotézis (valamilyen értelemben vett) tagadása, azaz H 1 : θ Θ 1, ahol (Θ 0 Θ 1 = Θ). Pl.: A fenti példában Eξ µ 0.

A statisztikai próba és a döntési eljárás Azt az eljárást, ami alapján döntünk, statisztikai próbának nevezzük. Jelölje tehát ξ a (ξ 1,..., ξ n ) minta értékkészletét, és legyen f (ξ 1,..., ξ n ) a próbastatisztikánk. Ésszerűen választunk két halmazt: E az elfogadási tartomány K a kritikus tartomány Világos, hogy E K = R és E K =. f (ξ 1,..., ξ n ) E esetén elfogadjuk H 0 -t, f (ξ 1,..., ξ n ) K esetén elutasítjuk H 0 -t (azaz H 1 -et fogadjuk el)

A statisztikai próba és a döntési eljárás A próba alapján kétféle módon követhetünk el hibát: H 0 -t elfogadjuk H 0 -t elutasítjuk H 0 fennáll helyes a döntés elsőfajú hiba H 0 nem áll fenn másodfajú hiba helyes a döntés Cél a gyakorlatban: az elsőfajú hiba "kordában" tartása, és közben a másodfajú hiba minimalizálása, amennyire csak lehet. Azaz lerögzítjük az elsőfajú hiba nagyságát, és olyan statisztikai próbát keresünk, melynél az adott elsőfajú hibanagyság mellett a másodfajú hiba a lehető legkisebb. Azaz P(H 0 igaz, de f (ξ 1,..., ξ n ) K) = α, ahol α az adott elsőfajú hiba nagysága.

Paraméteres és nemparaméteres próbák 1 Paraméteres próba: a vizsgált változók eloszlásfüggvényeit véges sok paraméter egyértelműen meghatározza (pl. normális eloszlású) 2 Nemparaméteres próba: az egyes eloszlásfüggvények nem azonosíthatók egy, vagy több szám együttesével (pl. ha csak annyit tudunk, hogy az eloszlás folytonos)

u-próbák családja (4 eset) Egymintás kétoldali u-próba: cél egy normális eloszlású v.v ismeretlen µ várható értékére vonatkozó hipotézis tesztelése ismert σ 0 szórás mellett. Azaz A próbastatisztika H 0 : µ = µ 0, H 1 : µ µ 0 u := f (ξ 1,..., ξ n ) = ξ n µ 0 σ 0 / n N(0, 1) Adott α elsőfajú hiba mellett az elfogadási tartomány E = [ a(α), a(α)] alakú, ahol a-t úgy választjuk meg, hogy P( u > a) = 2(1 φ(a)) = α teljesüljön. (Lásd standard normális eloszlás táblázata.)

u-próbák családja (4 eset) Egymintás egyoldali u-próba: cél egy normális eloszlású v.v ismeretlen µ várható értékére vonatkozó hipotézis tesztelése ismert σ 0 szórás mellett, de most a hipotézis egyoldali, azaz A próbastatisztika H 0 : µ = µ 0, H 1 : µ < µ 0 u := f (ξ 1,..., ξ n ) = ξ n µ 0 σ 0 / n N(0, 1) Adott α elsőfajú hiba mellett az elfogadási tartomány E = [a(α), ] alakú, ahol a-t úgy választjuk meg, hogy P(u < a) = φ(a) = α teljesüljön. (Lásd standard normális eloszlás táblázata.)

u-próbák családja (4 eset) Kétmintás kétoldali u-próba: cél két normális eloszlású v.v ismeretlen µ és ν várható értékeikre vonatkozó hipotézis tesztelése ismert σ 0, σ 1 szórások mellett: H 0 : µ = ν, H 1 : µ ν A próbastatisztika u := f (ξ 1,..., ξ n, η 1,..., η m ) = ξ n η m N(0, 1) σ 2 0 n + σ2 1 m Adott α elsőfajú hiba mellett az elfogadási tartomány E = [ a(α), a(α)] alakú, ahol a-t úgy választjuk meg, hogy P( u > a) = 2(1 φ(a)) = α teljesüljön. (Lásd standard normális eloszlás táblázata.)

u-próbák családja (4 eset) Kétmintás egyoldali u-próba: cél két normális eloszlású v.v ismeretlen µ és ν várható értékeikre vonatkozó hipotézis tesztelése ismert σ 0, σ 1 szórások mellett, de most a hipotézis egyoldali, azaz H 0 : µ = ν, H 1 : µ < ν A próbastatisztika u := f (ξ 1,..., ξ n, η 1,..., η m ) = ξ n η m N(0, 1) σ 2 0 n + σ2 1 m Adott α elsőfajú hiba mellett az elfogadási tartomány E = [ a(α), ] alakú, ahol a-t úgy választjuk meg, hogy P(u < a) = φ(a) = α teljesüljön. (Lásd standard normális eloszlás táblázata.)

t-próbák családja Egymintás kétoldali t-próba: cél egy normális eloszlású v.v ismeretlen µ várható értékére vonatkozó hipotézis tesztelése ismeretlen σ 0 szórás mellett: A próbastatisztika H 0 : µ = µ 0, H 1 : µ µ 0 t := f (ξ 1,..., ξ n ) = ξ n µ 0 s n/ n t n 1 Adott α elsőfajú hiba mellett az elfogadási tartomány E = [ a(α), a(α)] alakú, ahol a-t úgy választjuk meg, hogy P( t > a) = α teljesüljön. (Lásd t-eloszlás táblázata.)

t-próbák családja Kétmintás kétoldali t-próba: cél két normális eloszlású v.v ismeretlen µ és ν várható értékeikre vonatkozó hipotézis tesztelése ismeretlen, de közös σ 0 szórás mellett: H 0 : µ = ν, H 1 : µ ν A próbastatisztika t := ξ n η m nm(n + m 2) (n 1)sn 2 + (m 1)rm 2 n + m t n+m 2 Adott α elsőfajú hiba mellett az elfogadási tartomány E = [ a(α), a(α)] alakú, ahol a-t úgy választjuk meg, hogy P( t > a) = α teljesüljön. (Lásd t-eloszlás táblázata.)

t-próbák családja Egy- és kétmintás egyoldali t-próba: Az eljárás ugyanaz, mint a kétoldali esetekben, a hipotézis is a szokásos: egymintás esetben míg kétmintás esetben H 0 : µ = µ 0, H 1 : µ > µ 0, H 0 : µ = ν, H 1 : µ > ν. A Student eloszlás szimmetriája miatt ekkor az elfogadási tartományt definiáló a(α) meghatározására a P(t > a) = P( t > a)/2 = α egyenletet kell megoldanunk a táblázat segítségével. Fontos: a CHT miatt nagy n esetén akkor is alkalmazhatóak az u és t próbák, ha a v.v.-k nem normális eloszlásúak.

F -próba Láttuk, hogy a kétmintás t-próba esetén ellenőriznünk kell azt, hogy a minták szórása megegyezik-e. Erre szolgál az F -próba. Legyenek H 0 : σ 2 0 = σ 2 1, H 1 : σ 2 0 σ 2 1. A próbastatisztika F = F (ξ 1,..., ξ n, η 1,..., η m ) = s2 F (n 1, m 1) r 2 ahol s 2 és r 2 a korrigált tapasztalati szórásnégyzetek. Mindig feltesszük, hogy s 2 > r 2. Adott α elsőfajú hiba mellett az elfogadási tartomány E = [1, a(α)] alakú, ahol a-t úgy választjuk meg, hogy P(F > a) = α/2 teljesüljön. (Lásd F -eloszlás táblázata.)

Alapfeladat A vizsgálandó kérdések típusai: Szabályos-e egy dobókocka? - illeszkedés-vizsgálat Két minta azonos eloszlású-e? - homogenitás-vizsgálat Független-e egymástól két ismérv, pl. képesség, avagy vásárlási szokások, stb... - függetlenség-vizsgálat A fenti típusú feladatokat az köti össze, hogy az alkalmazandó statisztikai próbák eloszlása ugyanaz, nevezetesen χ 2 eloszlásúak.

Illeszkedés-vizsgálat Adott ξ 1,..., ξ n i.i.d. mintáról szeretnénk eldönteni, hogy egy adott, x 1,..., x k értékű eloszlásból származik-e. Azaz H 0 : P(ξ 1 = x j ) = p j, 1 j k, H 1 : H 0 nem teljesül. A próbastatisztika k (np j ν j ) 2 T := np j j=1 χ 2 k 1 ahol ν j = {i : ξ i = j} a mintában előforduló x j értékek. Adott α mellett a kritikus értéket a összefüggés megoldása adja. P(T > a) = α

Homogenitás-vizsgálat Adott ξ 1,..., ξ m és η 1,..., η n független minták esetén azt szeretnénk eldönteni, hogy a két minta eloszlása megegyezik-e. Legyen (x 1,..., x k ) az értékhalmaz, ν j az x j érték gyakorisága a ξ minta esetén, (µ j ) az η minta esetén, (p j ) és (r j ) pedig az eloszlások, j = 1,..., k. Ekkor H 0 : p j = r j, 1 j k, H 1 : H 0 nem teljesül. A próbastatisztika T := 1 mn k (nµ j mν j ) 2 ν j=1 j + µ j χ 2 k 1 Adott α mellett a kritikus értéket a P(T > a) = α összefüggés megoldása adja.

Függetlenség-vizsgálat Adott két szempont és n megfigyelés, az első szempont szerint k, a második szerint pedig l osztály. Független lesz-e a két szempont egymástól? Legyen A i = {az első szempont szerint az i. kategóriába esik a megfigyelés}, B j = {a második szempont szerint a j. kategóriába esik a megfigyelés}. Ekkor H 0 : P(A i B j ) = P(A i )P(B j ) i, j, H 1 : H 0 nem teljesül. A próbastatisztika itt is χ 2 eloszlású (k 1)(l 1) szabadságfokkal. Adott α mellett a kritikus értéket a P(T > a) = α összefüggés megoldása adja.

Feladatok 3. Egy vállalatnál az átlagos heti túlóra kifizetéseket vizsgálták. 80 véletlenszerűen kiválasztott dolgozó adatai alapján az átlagos túlórafizetés az alábbi eloszlást mutatja: Heti túlórabér munkások száma T < 1 19 1 T < 2 29 2 T < 5 17 5 T < 10 12 10 < T 3 Leírhatók-e a heti túlórakifizetések normális eloszlással? 4. Kétféle oldat (A és B) ph értékét szeretnénk összehasonlítani. Hatelemű mintát elemezve az A oldatból 7,52-es átlagos ph értéket kaptunk 0,024 szórással. Ötelemű minta alapján a B oldat átlagos ph értéke 7,49 volt 0,032 szórással. Vizsgálja meg, hogy van-e különbség a két oldat ph értékében! Gazdaságstatisztika feladatgyűjtemény 48. o.

Feladatok 5. Egy kutatás során azt vizsgálták, hogy az üzleti környezetet hogyan ítélik meg az egyes vállalkozások vezetői. A kérdőíves vizsgálat során a vállalkozások mérete alapján 3 csoportba (A, B, C) sorolták a megkérdezett vezetőket, akik válaszaikat egy 100 pontos skálán értékelték. Az értékelési skálán kapott pontszámok normális eloszlásúnak tekinthetők. Mindhárom kategóriában 8-8 vállalkozást kérdeztek meg. Vállalkozás mérete A (kis- és mikro) B (közepes) C (nagy) 45 63 62... átlag 46 64 67 korr. tap. szórás 4,375 4,567 4,342 Van-e eltérés a méret szerinti csoportok átlagai közt? Gazdaságstatisztika feladatgyűjtemény 58. o.

Alapötlet Két minta esetén alkalmazhatnánk kétmintás t-próbát, de most 3 csoportunk van varianciaanalízis (ANalysis Of VAriance) Alapötlet: a mintából számolt összvarianciát 2 részre bontjuk: mintákon belüli variancia (MS within ) minták közötti variancia (MS between ) Ezeket hasonlítjuk össze F -próbával. Fajtái: Egyszempontos ANOVA: egyetlen faktor esetén Többszempontos ANOVA: több faktor esetén kereszthatásokkal is számolva Varianciákat vizsgálunk, mégis átlagokra hozunk döntést! A kétmintás t-próba ennek speciális esete, és nyilván ugyanazt az eredményt is adják ugyanarra a mintára.

Egyszempontos ANOVA A hipotézisek: H 0 : µ 1 =... = µ k = µ, H 1 : i : µ i µ Kiinduló adatok: 1. csop. 2. csop.... k. csop. x 11 x 12... x 1k.... x N1 1 x N2 2... x Nk k Elemszám N 1 N 2... N k Átlag x 1 x 2... x k A teljes minta elemszáma: N = N 1 +... + N k, a teljes minta átlaga pedig x.

Egyszempontos ANOVA A minta teljes varianciája: MS 2 = Mivel k N j (x ij x) 2. j=1 i=1 (x ij x) = (x ij x j ) + ( x j x) és N 1 = (N k) + (k 1), így a minta belső, illetve a minták közötti variancia MS 2 within = kj=1 Nj i=1 (x ij x j ) 2 N k és MS 2 between = kj=1 N j ( x j x) 2. k 1

Egyszempontos ANOVA A két variancia összehasonlítására egyoldali F -próbát alkalmazunk F = MS2 between MS 2 within alakban, mert csak az érdekel bennünket, hogy a belső szórás nagyobb-e, mint a minták közti szórás. Feltételek: függetlenség, normalitás, homogenitás Tulajdonságok: robusztus a teszt, azaz nem túl érzékeny a feltételek sérülésére. A nullhipotézis elutasítása esetén ún. Post Hoc teszteket kell alkalmazni annak eldöntésére, hogy a szignifikáns eltérés a minták mely tagjai közt lépnek fel.