I Tendenciák a szóródásban A sokaság Az adatbázis Műveletek sokaságokkal Centrális tendencia és variancia

Hasonló dokumentumok
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Statisztika elméleti összefoglaló

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A Statisztika alapjai

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

[Biomatematika 2] Orvosi biometria

A valószínűségszámítás elemei

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Biomatematika 2 Orvosi biometria

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

A maximum likelihood becslésről

6. Előadás. Vereb György, DE OEC BSI, október 12.

y ij = µ + α i + e ij

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatok statisztikai értékelésének főbb lehetőségei

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Több valószínűségi változó együttes eloszlása, korreláció

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

(Independence, dependence, random variables)

KÖVETKEZTETŐ STATISZTIKA

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM Gazdaság- és Társadalomtudományi Kar Üzleti Tudományok Intézet. Dr. Hajdu Ottó.

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Elemi statisztika fizikusoknak

Regressziós vizsgálatok

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Többváltozós lineáris regressziós modell feltételeinek

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Bevezető Mi a statisztika? Mérés Csoportosítás

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

A mérési eredmény megadása

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Korreláció és lineáris regresszió

Többváltozós lineáris regresszió 3.

Normális eloszlás tesztje

Logisztikus regresszió

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Segítség az outputok értelmezéséhez

Bevezetés a hipotézisvizsgálatokba

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Korrelációs kapcsolatok elemzése

Diszkriminancia-analízis

Valószínűségi változók. Várható érték és szórás

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

[GVMGS11MNC] Gazdaságstatisztika

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Lineáris regressziószámítás 1. - kétváltozós eset

Kutatásmódszertan és prezentációkészítés

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Biomatematika 2 Orvosi biometria

Hipotézis vizsgálatok

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

A leíró statisztikák

[Biomatematika 2] Orvosi biometria

egyetemi jegyzet Meskó Balázs

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Függetlenségvizsgálat, Illeszkedésvizsgálat

1. Példa. A gamma függvény és a Fubini-tétel.

Átírás:

I endenciák a szóródásban... 5 A sokaság... 6. Az adatbázis... 7. Műveletek sokaságokkal... 8.3 Centrális tendencia és variancia... 9.4 A sokaság eloszlása....4. Normális eloszlás....4. Gamma-eloszlás... 3.4.3 Chi-négyzet eloszlás... 3.4.4 Exponenciális eloszlás... 4.4.5 Weibull eloszlás... 4.4.6 Béta-eloszlás... 4.4.7 Student-eloszlás... 4.4.8 F-eloszlás... 5.4.9 Binomiális eloszlás... 5.4.0 Poisson-eloszlás... 6.4. Probability plot... 6 Sokaság és minta... 7. Statisztikai becslések... 7.. Becslési kritériumok és módszerek... 7.. Intervallumbecslés... 9. Statisztikai hipotézisek tesztelése... 0 3 A szóródás többváltozós jellemzése... 3 3. A variancia többváltozós általánosításai... 3 3.. A kovariancia fogalma és tulajdonságai... 3 3... A kovariancia lineáris dekompozíciója... 4 3... A várható érték konfidencia tartománya... 6 3...3 Lineáris korreláció... 8 3.. Az általánosított variancia... 9 3... A spektrális felbontás... 3 3... A szóródási mátrix... 33 3...3 öbbváltozós normalitás... 34 3. A variancia tömörítése: főkomponens változók elemzése... 35 3.. Adatredukció és veszteség... 38 3.. Az egyszerű struktúra igénye... 38 3..3 Függelék: A kanonikus variancia... 4 3..4 Függelék: A szinguláris érték felbontás... 4 3..5 Gyakorló feladatok... 44 3.3 A kanonikus korreláció... 48 3.3. A kanonikus súly (loading)... 50 3.3. A kanonikus korrelációk tesztelése... 50 3.3.3 Gyakorló feladatok... 54 4 Szóródás csoportosított sokaságban... 56 4. A kovariancia csoportközi struktúrája... 56 4. Diszkriminancia változók... 58 4.. A Mahalanobis távolság... 60

4.. Diszkrimináló dimenziók feltárása... 6 4..3 Gyakorló feladatok... 6 4.3 Klaszteranalízis... 63 4.3. A megfigyelési egységek klaszterezése... 63 4.3.. Agglomeratív klaszterformálás: láncmódszer... 64 4.3.. Divizív jellegű módszerek... 69 4.3. A változók klaszterezése... 69 4.3.3 Blokk-klaszterezés... 7 4.3.4 Gyakorló feladatok... 75 5 Kategóriák korrespondencia analízise... 78 5. Egyszerű korrespondencia analízis... 78 5.. Gyakorisági tábla a többváltozós térben... 79 5.. Korrespondencia tengelyek és koordináták... 8 5..3 Ábrázolás a redukált térben... 84 5..4 A korrespondencia mátrix reprodukálása... 86 5..5 Előrejelzés: kiegészítő pontok ábrázolása... 87 5..6 Ábrázolás egyetlen dimenzióban... 88 5. öbbszörös korrespondencia analízis... 9 5.. Korrespondenciák feltárása... 93 5.. Előrejelzés prediktív térképpel... 0 6 Minta-likelihood-sokaság... 04 6. Likelihoodelméleti fogalmak... 04 6.. A maximum likelihood becslés... 05 6.. A score függvény tulajdonságai... 06 6..3 A Cramer-Rao egyenlőtlenség... 07 6..4 A maximum likelihood normálegyenletek... 08 6..5 Maximált likelihood normalitás esetén... 09 6. Hipotézisek likelihood alapú tesztelése... 0 6.. A likelihood-arány teszt... 0 6.. A Lagrange-multiplikátor elv... 6..3 A Wald elv... 3 6.3 Gyakorló feladatok... 3 II AZ ÁLALÁNOS LINEÁRIS MODELL... 5 7 Nevezetes eloszlások regressziós modelljei... 6 7. Normális eloszlás, lineáris regresszió... 7 7. Binomiális eloszlás, logit regresszió... 7 7.3 Poisson eloszlás, Poisson regresszió... 8 8 Lineáris regressziószámítás... 0 8. Reziduális jellemzők véges sokaságban... 0 8. Speciális magyarázó változók kezelése... 8.3 Paraméterbecslés... 8.3. A variancia-minimum kritérium... 8.3. Legkisebb négyzetek kritérium... 3 8.3.3 A magyarázó változók körének bővítése... 7 8.4 Standardizált regressziós paraméterek... 7 8.5 A modell magyarázó ereje... 8 8.6 A háromváltozós modell kétváltozós blokkjai... 30

8.6. A parciális kovariancia... 30 8.6. Útelemzés... 30 8.6.3 A parciális determináció... 3 8.6.4 Kanonikus korrelációk, reziduális kovariancia és Wilks-lambda... 33 8.7 A HA mátrix... 34 8.8 Valószínűségi következtetések... 36 8.8. Pontbecslések... 36 8.8. Intervallumbecslés... 39 8.8.3 Egymásba ágyazott modellek szelektálása... 39 8.8.4 Releváns magyarázó változó elhagyása... 40 8.9 Modelldiagnosztika... 4 8.9. Az outlierek vizsgálata... 4 8.9.. Reziduális statisztikák... 4 8.9.. Leverage mértékek... 43 8.9..3 Influence mértékek... 44 8.0 A multikollinearitás... 46 8.0. A változók körének kialakítása... 47 8.0.. Stepwise algoritmusok... 47 8.0.. Részmodellek szelektálása... 47 8.0. Főkomponensek a regressziós modellben... 49 8. Az általánosított legkisebb négyzetek módszere... 5 8. Rangsorolás preferált párosok alapján... 56 8.. Legkisebb négyzetek megoldás... 56 8.. Maximum likelihood megközelítés... 57 8.3 Gyakorló feladatok... 60 9 Az általános lineáris modell jellemzése... 64 9. A paraméterek maximum likelihood becslése... 64 9. Illeszkedés és deviancia... 66 9.3 Nemlineáris legkisebb négyzetek módszere... 68 III KLASSZIFIKÁCIÓS MÓDSZEREK... 7 0 Logisztikus regresszió... 7 0. Dichotom logisztikus regresszió... 7 0.. Paraméterbecslés... 73 0.. Nominális magyarázó változók és interakciók... 74 0..3 Konfidencia intervallumok... 75 0..4 Hipotézisek tesztelése... 75 0..5 Reziduális jellemzők... 77 0. Kontrollált párosítások logit modellezése... 8 0.3 Polichotom logisztikus regresszió... 83 0.3. Nominális kategóriák logitjai... 83 0.3. Ordinális kategóriák kumulatív logitjai... 84 0.3.3 Ordinális kategóriák párosított logitjai... 85 0.4 Egzakt, kismintás dichotom logit regresszió... 89 0.4. A feltételes likelihood... 89 0.4. Egzakt, feltételes következtetés a paraméterekre... 9 0.5 Gyakorló feladatok... 93 Bayes - klasszifikáció... 94 3

. Normalitás alapú kvadratikus és lineáris klasszifikáció... 95. Mintavételi vonatkozások... 00.. Homogenitásvizsgálat... 00.. A diszkriminátor változók szelektálása... 0..3 A külső szóródás tesztelése... 0..4 Diszkrimináló dimenziók... 0..5 Jackknife klasszifikáció... 03 K-középpontú klaszterezés... 09 IV Faktoranalízis... 3 3 A faktormodell... 4 3. A faktorstruktúra... 6 3. A faktorok meghatározatlansága... 6 3.3 A faktormodell identifikálhatósága... 7 3.4 Image-analízis... 8 3.5 A becsült faktor-score... 9 3.6 Parciális korrelálatlanság... 9 4 Exploratív faktoranalízis... 4. A kanonikus faktormodell... 4. Ortogonális forgatás az egyszerű struktúráért... 4.3 Oblique rotáció, korrelált faktorokért... 4 4.3. A direct quartimin eljárás... 5 4.3. A promax módszer... 5 4.3.3 Orthoblique rotáció... 6 4.3.4 Skálaértékelés... 6 4.4 Faktormegoldások... 7 4.5 Főkomponensanalízis... 7 4.6 A főfaktorok módszere... 30 4.7 Maximum likelihood faktoranalízis... 3 4.8 Image-faktoranalízis: Second generation Little Jiffy... 35 4.8. Image- és anti-image korreláció... 35 4.8. Harris-faktorok... 36 4.9 Alfa-faktoranalízis... 40 4.0 Gyakorló feladatok... 40 4. Függelék... 43 5 Konfirmatív faktoranalízis... 44 5. A paraméterek becslése... 45 5. A faktormodell illeszkedése... 47 5.. Önálló indexek... 48 5.. Növekmény jellegű indexek... 50 5..3 A nemcentralitás szerepe az illeszkedésvizsgálatban... 5 5..4 Parszimónia-érzékeny illeszkedésvizsgálat... 5 5..5 A reziduális mátrix... 53 6 Dichotom (boolean) faktoranalízis... 58 4

I endenciák a szóródásban 5

A SOKASÁG A sokaság A statisztika feladata a valóság jelenségeinek tömör, számértékekkel való jellemzése. Ennek során minél kevesebb adathordozóba sűrítjük a rendelkezésre álló információ minél nagyobb hányadát, hogy a vizsgált jelenség áttekinthetővé, kezelhetőbbé váljon. Ha az információ tömörítése csekély veszteséggel jár, akkor a jelenségben rejlő tendenciákra megbízhatóan tudunk következtetni. A tömörség, az egyértelműség és az összehasonlíthatóság alapját a számértékek teremtik meg. A statisztikai elemzés első mozzanata tehát a valóság számokra való leképezése, amit operacionalizálásnak nevezünk. A számszerű jellemzés kiindulópontja az információ megszerzése. Ezt megfigyelés és mérés útján érjük el, melyek két kérdést vetnek fel. Egyrészt, hogy kikre vonatkozik a vizsgálat, másrészt, hogy mely tulajdonságaik érdekesek számunkra. Azon egyedeket akikre megfigyelésünk irányul, megfigyelési egységeknek, azokat a vizsgálati szempontokat pedig, amelyek tekintetében a megfigyelési egységek más-más sajátossággal, változattal bírnak, változóknak, másképpen ismérveknek nevezzük. A megfigyelési egységek összessége statisztikai sokaságot alkot. A megfigyelés eredményeképpen derül ki, hogy egy kérdéses egyed az adott szempont szerint milyen konkrét sajátosságot mutat. Ezt a megfigyelés kimenetelének nevezzük. Az ismérv tehát azon lehetséges kimenetelek együttese, amelyek valamelyike (és csak egyike) a kérdéses szempont tekintetében adott egyedhez egyértelműen hozzárendelhető. Az ismérv lehetséges változatainak rendezett felsorolását az ismérv skálájának nevezzük. Ha az ismérvváltozatok egymásutániságának tárgyi tartalma van (pl. időbeli, vagy ordinális), akkor az ennek megfelelő elrendezésük kézenfekvő. A skála lehet adottság, de magunk is definiálhatunk skálákat. Statisztikai értelemben a mérés nem jelent mást, mint egy megfigyelési egységhez hozzárendelni a kérdéses ismérv skálájának a megfelelő elemét. Jelölje a továbbiakban x az érdeklődésünk homlokterében álló változót. Ekkor x tekintetében az i egyedre vonatkozó mérés eredményét x i azonosítja. Mennyiségi jellegű ismérv skáláját ismérvértékek, nem mennyiségi jellegű változó skáláját pedig kategóriák alkotják. Mennyiségi változók között megkülönböztetünk folytonos, és diszkrét változókat. A folytonos változók a számegyenes egy meghatározott intervallumán bármely értéket fölvehetnek, míg a diszkrét változók lehetséges kimenetelei fölsorolhatók. ermészetesen folytonos mennyiségi változók kimenetelei szegmentálhatók, és diszkrét mennyiségi ismérvek változatai is definiálhatnak kategóriákat. A statisztikai ismérvek egy speciális esetét az ún. alternatív, binomiális ismérvek képezik, amelyeknek két, és csak két kimenetele lehetséges. Ilyen pl. a nem szerinti hovatartozás, mely szerint valaki vagy férfi, vagy nő. Az alternatív ismérv fogalmához nevezetes, a csak 0 és értékekből álló mérési skála kötődik: ha ugyanis az alternatív ismérv egyik kimenetelét 0 azonosítja, akkor a másik kimenetelt az egyértelműen meghatározza. A (0,) értékű bináris változókat dummy, másképpen indikátor változóknak nevezzük. Attól függően, hogy egy mérési skála a sokaság milyen mélységű elemzését teszi lehetővé, a mérési skálák az alábbiak szerint osztályozhatók, hierarchizálhatók. Nominális skála: nem mennyiségi kategóriákból álló skála, ahol a kategóriák egymáshoz való helyzetének a megváltoztatása nincs hatással a sokaság jellemzőire. A megyéket pl. bármilyen sorrendben felsorolhatjuk, ezért kézenfekvő a semleges, de a keresést meggyorsító betűrendi sorrend alkalmazása. Ordinális skála: olyan mérési skála, amelynek lehetséges változatai a skálán fölsorolt sokaságot nem csupán tagolják, hanem az egyes részekhez való tartozástól függően rangsorolják is. Az ordinális skála változatainak a sorrendisége kötött. Egy futballmérkőzés lehetséges kimenetelei vereség, döntetlen, győzelem - ordinális skálát alkotnak. Intervallum skála: mennyiségi skála, amelynek a zéruspontja nem rögzített, és így csak az egyes ismérvértékek egymástól való távolsága informatív. Ilyenek pl. a hőmérséklet mérésére szolgáló skálák. Arány skála: a legmagasabb szintű mennyiségi skála, amelynek már a zéruspontja rögzített, tehát az egyes ismérvértékek egymáshoz való arányának is információtartalma van. Arányskálán mérjük pl. a gazdasági vállalkozások értékesítésből származó nettó árbevételét, tárgyi eszközeik értékét, adófizetési kötelezettségüket, vagy a kifizetett osztalék mértékét. Annál magasabb szintű egy mérési skála a hierarchiában, minél több elemzési lehetőséget rejt magában. A magasabb szintű skálák tartalmazzák az alacsonyabb szintűek által nyújtott elemzési lehetőségeket. Így az intervallum és arányskála eleve ordinalitást hordoz magában, s így a sokaságot nem csupán tagolja, hanem egyben rangsorolja is. A mérési skála a sokaságot egymást át nem fedő, diszjunkt részekre bontja. E részsokaságok valamely számszerű jellemzőinek a skála mentén történő fölsorolása statisztikai sort alkot. A statisztikai sorok típusai a skála jellegéhez kötődnek. Beszélhetünk területi, időbeli, mennyiségi és egyéb nominális sorokól. A nominális sorok valamilyen kategóriához való tartozást fejeznek ki. 6

. AZ ADABÁZIS. Az adatbázis a vizsgált jelenségről rendelkezésre álló információk, mérési eredmények összessége, adott formátumú felsorolása, azok elengedhetetlen azonosító, és megkülönböztető jegyeivel egyetemben. Az adatbázis alapvetően keresztmetszeti, vagy idősoros lehet. Valamely sokaság valamennyi megfigyelési egységét ugyanazon változók tekintetében jellemző, ugyanarra az időszakra (eszmei időpontra) vonatkozó mérési eredmények keresztmetszeti adatbázist alkotnak. Ezzel szemben az idősoros adatbázis egy kiragadott megfigyelési egység jellemzésére szolgáló változóknak, a vizsgált egyedet különböző időpontokban jellemző értékeinek az időrendi felsorolása. Az olyan adatállományt, mely mind keresztmetszeti, mind időrendi felsorolást tartalmaz, panel típusú, vagy longitudinális adatállománynak nevezzük. A többváltozós statisztikai módszerek tipikus adatállománya keresztmetszeti jellegű, melyre egy példát az alábbi tábla közöl.. tábla APEH vizsgálathoz kiválasztott 995 vállalkozás néhány, 000. évi mérleg- és eredményadatai Cég árgyi eszközök Nettó árbevétel Adózott eredmény Fizetett osztalék Fizetett adó Kiszabott bírság Alk. létszám ezer forint fő C 00600 35894-876 0 0 0 40 C 3500 98770-80 0 0 0 5 C3 4400 983555 3670 000 77 800 0 C4 86944 54080 46885 50000 343 300 670 C5 358 3300 39 500 7 0 0 C99 776 564636 000 0000 44 0 8 C99 477 8040-963 0 0 0 6 C993 4500 376998 5400 0 3380 30 50 C994 400 548600-3800 0 0 0 C995 8400 7560 503 0000 044 40 7 Nem mennyiségi jellegű változók is kifejezhetők számértékekkel, ún. dummy változók megfelelő rendszerének a segítségével, a következők szerint. A kategóriák egyikét ún. referencia csoportként rögzítjük, az összes többi kategóriát pedig olyan dummy változókként kezeljük, melyek megfigyelési egységenként attól függően veszik fel az vagy 0 értéket, hogy az adott megfigyelési egység esetében az illető kategória bekövetkezett-e a mérés során, vagy nem. Például, ha gazdasági társaságok a működési formájuk szerint a betéti társaság (Bt), korlátolt felelősségű társaság (Kft) és részvénytársaság (Rt) formák valamelyikéhez tartoznak, miközben a Bt a referencia csoport, akkor két nevezetesen a Kft és az Rt dummy változók 0 vagy értékei egyértelműen meghatározzák a társasági formához való tartozást:. tábla ársasági formák kategóriái ársasági forma Kft Rt Betéti társaság 0 0 Korlátolt felelősségű társaság 0 Részvénytársaság 0 Az egyes kategóriák együttes bekövetkezésének gyakoriságát közlő adatbázist jelent a dummy változók egy speciális rendszere, az indikátor mátrix. Az indikátor mátrix sorait az egyes megfigyelési egységek, oszlopait pedig valamennyi változó valamennyi lehetséges kimenetelei alkotják. A mátrixban jelzi, hogy az adott sor megfigyelési egysége adott változó melyik (és csak egy) változatához tartozik, egyébként a mátrix 0 elemeket tartalmaz. A mátrix sorösszegei tehát egyenlők egymással és a változók számával, oszlopösszegei pedig az egyes kategóriák előfordulási gyakoriságaival. A társasági forma mellett bevezetve a nyereséges () vagy veszteséges (0) megkülönböztetést is, az indikátor mátrix struktúrája az alábbi:.3 tábla Gazdasági társaságok indikátor mátrixa Cég Bt Kft Rt Nyereséges Veszteséges C 0 0 0 C 0 0 0 C3 0 0 0 7

C4 0 0 0 C5 0 0 0 C99 0 0 0 C99 0 0 C993 0 0 C994 0 0 C995 0 0 0 Információ tömörítésre nyílik lehetőségünk, ha lemondunk a kategóriák cégekhez kötéséről, és csak a kategóriák együttes bekövetkezésének a gyakoriságát vizsgáljuk. Ezt az információt a gyakorisági, vagy másképpen kontingencia tábla tartalmazza. A gazdasági társaságok kontingencia táblája az következő:.4 tábla Gazdasági társaságok kontingencia táblája Eredméy ársasági forma Összesen Bt Kft Rt Nyereséges 350 50 70 470 Veszteséges 350 50 5 55 Összesen 700 00 95 995 Ha a kontingencia táblát valódi kategóriák alapján képezzük, akkor az információ tömörítése során föllépő veszteség forrása csupán a megfigyelési egységek anonimmá válása, hiszen ilyenkor az adott kategória minden vonatkozó egyede egyforma. Ha a kategóriák mennyiségi változók intervallumai, akkor azt az információt is elveszítjük, hogy intervallumon belül mennyire különböztek az egyedek. Nyilvánvaló, hogy az indikátor mátrix mindig tömöríthető kontingencia táblába, és a kontingencia tábla is indikátor mátrixszá formálható.. MŰVELEEK SOKASÁGOKKAL. A sokaságot mindenekelőtt mérete jellemzi. A sokaság mérete alatt érthetjük egyrészt elemeinek N számosságát, másrészt az egyedeire összessített valamely mennyiségi jellemzőt. A sokaság méretének az ismeretében - további tulajdonságai feltárásában az alábbi műveletek segítenek. A megfigyelési egységek rangsorolása Egyetlen változó esetében a rangsorolás nem ütközik nehézségbe. Városok poros voltát összehasonlítandó, a szálló por fajlagos tartalma és az ülepedő por fajlagos tartalma tekintetében külön-külön rangsorolva azonban már különböznek a rangsorok. Ha tehát a városokat általában a portartalom szerint kívánjuk rangsorolni, akkor ez a feladat már nem egyértelmű. A rangsorolás végeredménye mindig egy speciális statisztikai sor, a rangsor. A sokaság csoportosítása Ha az x változó tekintetében heterogén sokaságon belül homogén csoportok, részsokaságok vannak, illetve sejthetők, akkor érdemes a sokaságon belül e részeket egymástól elkülöníteni. A csoportosítással szemben az alábbi követelményeket támasztjuk. Átfedésmentesség: egy megfigyelési egység x tekintetében csak egyetlen csoporthoz tartozzon. eljesség, egyértelműség: a sokaságnak minden egyes eleme egyértelműen besorolható legyen az előre definiált csoportok valamelyikébe. Homogenitás: a kialakult csoportok x tekintetében legyenek minél homogénebbek, a csoportok viszont minél markánsabban különbözzenek egymástól. A csoportosítás egyszerre szolgálja a sokaság struktúrájának a kirajzolódását, és adatredukciós igényünket. Minél homogénebbek ugyanis a csoportok, annál kisebb veszteséget szenvedünk el azáltal, hogy az egyedi adatok felsorolása helyett csupán az egyes csoportok jellegzetességeit, és a megfelelő csoporthoz tartozás tényét közöljük. Kategória változatok esetén adott kategória a saját szempontjából természetszerűleg homogén csoportokat definiál. Nem ez a helyzet akkor, ha a csoportosító ismérv folytonos mennyiségi, vagy nagyon sokféle kimenetellel bíró Például a hazai benzinkutak teljes éves forgalma akár literben, akár forintban. 8

diszkrét mennyiségi változó. Ez esetben a csoportok definiálása ugyanis a skála megfelelő intervallumokra, osztályokra bontását jelenti, ami szubjektív. Rövid osztályok homogén, hosszú osztályok várhatóan heterogén csoportokat eredményeznek. A túl rövid intervallumok kialakítása a csoportok számát növeli, és így a sokaság áttekinthetővé tételét nem szolgálja. Osztályközök képzése esetén x kategóriáit az osztályközök jelentik. A csoportok mellett a számosságukat felsorolva gyakorisági sort hozunk létre. A sokaságot egyidejűleg kettő, vagy kettőnél több ismérv alapján csoportosítva, majd a különféle kategóriák együttes bekövetkezési gyakoriságait táblába foglalva jutunk el a gyakorisági (kontingencia) táblához, melyet a korábbiakban már tárgyaltunk. Sokaságok összehasonlítása. Sokaságok számszerű jellemzőinek az összehasonlítása abszolút és relatív módon történhet. Az A és B jellemzők abszolút jellegű összehasonlítása az A-B különbségük, relatív jellegű összevetésük pedig az A/B arányuk képzésén alapul, ha ezeknek van tárgyi értelme. A V=A/B hányadost viszonyszámnak nevezzük, amelyben A a viszonyítandó, B pedig a viszonyítás alapjának a szerepét tölti be. A viszonyszámok között - az elemzési cél tekintetében - szokás megkülönböztetni a sokaság struktúráját leíró (a résznek az egészhez való viszonyát kifejező) megoszlási viszonyszámot, a sokaságok időbeli összehasonlítását szolgáló dinamikus viszonyszámot, és az intenzitási viszonyszámot. Ez utóbbi azt mutatja meg, hogy valamely sokaság egy egyedére egy másik sokaságból hány egyed jut. Mintavétel a sokaságból. Amennyiben a sokaság egészét nem tudjuk, vagy nem akarjuk megfigyelni, de az egészére szeretnénk valamilyen következtetést levonni, úgy kénytelenek vagyunk ezt a sokaságnak egy alkalmasan kiválasztott része, az ún. minta alapján megtenni. A mintavétel végrehajtása lehet véletlenszerű és nem véletlenszerű, visszatevéses, vagy visszatevés nélküli. A mintavételt akkor tekintjük véletlen jellegűnek, ha még a mintavételt megelőzően rögzítjük az egyes sokasági egyedek mintába kerülésének a valószínűségét. Visszatevéses mintavételkor valamely sokasági érték nem csak egyszer, hanem többször is kiválasztásra kerülhet, s így súlyozottan szerepelhet a mintában. A sokaság csonkolása, nyesése Ha a sokaság valamely egyedei a vizsgált változó(k) tekintetében extrém (kiugróan alacsony vagy magas) értékkel bírnak, úgy ezek az értékek a sokaság egészéről kialakított általános képet torzítják, így elhagyásuk az elemzésből kézenfekvő. Előrejelzés A sokaság egyedeinek az értékét - előrejelzési, vagy adatredukciós céllal - helyettesíthetjük is. Ha már ismert, realizálódott értéket cserélünk ki egy másikra, akkor ex post előrejelzésről, ha pedig még nem ismert értéket rendelünk egy egyedhez, akkor ex ante előrejelzésről, másképpen prognózisról beszélünk..3 CENRÁLIS ENDENCIA ÉS VARIANCIA.3 Reprezentálja a sokaság i sorszámú (i=,,...,n) egyedét az x változóban realizálódott megfigyelés x i értéke. A sokaság egyedei a kérdéses ismérvben különböznek egymástól, másszóval szóródnak. Feladatunk a szóródásban rejlő tendenciák, és az azokat kiváltó okok feltárása. Kérdés, hogy az egyedek mint pontok milyen centrum körül, milyen mértékben, és milyen típusú valószínűségi (gyakorisági) eloszlás mentén szóródnak. A szóródás tényét az egyedeknek egymástól, vagy egy kitüntetett egyedtől mért távolságában, illetve hasonlóságában ragadhatjuk meg. A szóródás centrumát a centrális tendencia alakítja, miszerint az egyedek túlnyomó többsége egy tipikus egyed körül tömörül. A szóródás e centrumát centroidnak nevezzük, melyet valamely középérték definiál. Kétféle középértéket különböztetünk meg: helyzeti középértéket, és átlagot. Míg az előbbiek a rangsorolt sokaságon belül elfoglalt helyük alapján közepesek, addig az átlagok számított értéke az ismérv skáláján alkot középpontot. A helyzeti középértékek a medián, és a módusz. A mediánt azon egyed kimenetele reprezentálja az x ordinális változó tekintetében, amely két, közel egyenlő részarányú alsó és felső szegmensre bontja a sokaságot. Folytonos mennyiségi változó esetében ezt az értéket az x (0.5) rendű kvantilis közelíti. A módusz ezzel szemben az ismérv skáláján a leggyakrabban előforduló kimenetel. A módusz tehát nominális skálán is értelmezett, de nem mindig létezik, nem mindig egyértelmű, és inkább kategóriaként mintsem pontszerű értékként van statisztikai tartalma. Az x változó számtani átlaga az N elemű sokaságban az az x szám, amellyel a sokaság valamennyi egyedének az A különbségképzés elengedhetetlen feltétele, hogy A és B azonos mértékegységű legyen. 9

értékét helyettesítve, azok összege nem változik meg: x N xi N i A továbbiakban az átlagos megfigyelési egység reprezentálja a sokaság centroidját. A számtani átlagtól vett di xi x eltéréseket képezve, azok algebrai összege zérus. Az átlagtól mért eltéréseket tartalmazó, s ezáltal zérus átlagúvá transzformált d i változót centrált változónak nevezzük. Ha a és b megfigyelésről megfigyelésre nem szóródó konstansok, akkor az y i=a+bx i transzformált változó átlaga: y a bx. Az egyedi értékek r. hatványának a számtani átlaga az r-ed rendű (vagy r-edik) momentumot eredményezi: N r xi N i ahol r=,, Speciálisan, a másodrendű momentum jelölése: 3 N N xi qi qx. N i N i Az átlag körüli szóródás alapvető, egyváltozós mértéke a variancia, mely a centrált változó másodrendű momentuma: 4 M Var( x) ( x x). r N x i N i Kihasználva, hogy a számtani átlagtól vett eltérések algebrai összege zéró, a variancia a másodrendű momentumnak, és a számtani átlag négyzetének a különbsége: 5 N N Var( x) ( xi x)( xi x) ( xi x) xi N i N i N N xi x x N N. (.) i i q x. A (.) azonosság a variancia momentum felbontását eredményezi. E tételre a továbbiakban mint a VMD szabályra hivatkozunk. 6 A variancia sohasem negatív, és csak akkor zérus, ha a sokaság minden egyede ugyanakkora értéket vesz fel az x változóban. A variancia invariáns az egyedi értékek ugyanazon konstanssal való növelésére (csökkentésére), viszont érzékeny azok konstanssal való szorzására. etszőleges a tengelymetszet és b meredekség mellett az y i=a+bx i megfigyelések varianciája: Var( y) Var( a bx) b Var( x). A variancia pozitív négyzetgyöke a szórás (az angol nyelvű terminológiában standard deviation ): x Var( x). A zérus átlagúvá, és egységnyi varianciájúvá transzformált x x x (.) változót standardizált változónak nevezzük. Dummy változót illetően, ha az N elemű sokaságban K számú és (N-K) számú 0 egyed van, akkor az elemek részaránya P=K/N, és ez a dummy változó P+(-P)0=P átlaga, és a második momentum is egyben. A VMD szabály alapján tehát a dummy változó varianciája Var(0,) P P P( P). Nemzéró értékösszeg mellett a variancia akkor maximális, ha a sokaság egyetlen tagja birtokolja a teljes x 3 Megjegyezzük, hogy a másodrendű momentum pozitív gyöke az ún. négyzetes, vagy kvadratikus átlag. 4 A Var(x) és x jelöléseket ekvivalens módon használjuk, megválasztásuk a formulák könnyebb áttekintését szolgálja. N 5 Figyeljük meg, hogy x ( x ) 0 i i x. 6 A Variancia Momentum Dekompozíciója. 0

értékösszeget, miközben minden más egyed értéke zérus. A VMD szabály alapján a variancia általában: x x x... xn x Nx Z Z... Z N x N x ahol, 0 Z i i az i. egyed relatív részesedése a teljes értékösszegből, és. Mivel e relatív Nx részesedések négyzetösszege legfeljebb lehet, ezért a variancia feltételesen maximált értéke max Nx 0... 0 x (.3) hiszen ez konstans átlag mellett csökkenne, ha az egységnyi értékösszegből való relatív részesedések között mind kisebb lenne, mint. 7 Zéró átlagos érték mellett a variancia végtelen nagy lehet. Mértékegységtől független szóródási mutató a relatív szórás (coefficient of variation), mely a szórást a számtani átlag százalékában fejezi ki, ha az nem nulla. x 0 x N i Z Ha a sokaságból n elemű mintát veszünk és a mintabeli szórás értékéből következtetni akarunk a sokaság egyébként ismeretlen szórására, akkor a torzítatlan következtetés érdekében ún. korrigált szórást számolunk, az alábbi módon: s x x n n ( i ) (.4) i ahol s a korrigált szórás konvencionális jelölése. 8 A nevezőbeni (n-) korrekció csak kicsiny mintaelemszám mellett okoz jelentős számszaki eltérést..4 A SOKASÁG ELOSZLÁSA.4 A végtelen sokaság egyedei értelemszerűen nem sorolhatók fel teljeskörűen, ezért valamely x jellemzőjének kimenetelei megfigyelésről megfigyelésre bővülnek, véletlenszerűen alakulnak. Végtelen sok megfigyelést végezhetünk adott típusú izzó teljes élettartamát, vagy biztonsági övek be-, illetve be nem kapcsolt voltát vizsgálva. Az ilyen esetekben x véletlen változó, és valószínűségeloszlását aszerint definiáljuk, hogy folytonos, vagy diszkrét jellegű. 9 A folytonos véletlen változót az eloszlásfüggvényével definiáljuk, ami azon esemény valószínűségét mondja meg, hogy a változó realizálódott értéke kisebb lesz egy előre rögzített x 0 értéknél: F(x 0) = Pr(x<x 0) ahol F(.) monoton, 0F(.), F(- )=0 és F( )=. Az eloszlásfüggvényt általánosságban az. ábra szemlélteti...ábra Az eloszlásfüggvény Az eloszlásfüggvény x szerinti deriváltja az ún. sűrűségfüggvényt nyújtja, melynek jelölése: f(x)=f (x). Definíciójából adódóan: 0 x0 F( x ) f ( x) dx. Geometriai inerpretációt illetően az eloszlásfüggvény értéke a sűrűségfüggvény alatti megfelelő területet jelenti. A sűrűségfüggvény alatti teljes terület egységnyi: f ( x) dx. Legyen most az x változó diszkrét kimenetelű, vagyis x=k, ahol k=0,,,...integer. Ekkor x eloszlását a Pr(x=k) valószínűséggel definiáljuk. Követelményünk szerint Pr( xk). k 0 i 7 E megállapításnak a főkomponensek, és a faktorok forgatása, az egyszerű struktúra kialakítása során lesz jelentősége. 8 A torzítatlanság fogalmát, és általában a mintából történő következtetés elméletét lásd Hunyadi(00). 9 Jelen könyv a valószínűségelméleti fogalmakat csak olyan mélységben és terjedelemben tárgyalja, ami egyéb témakörök megértéséhez elengedhetetlen.

Végtelen sokaság esetén az átlagos érték megfelelője a várható érték, mely definíció szerint folytonos esetben, és E( x) x f ( x) dx E( x) k Pr( x k) k 0 diszkrét x változó esetén. A variancia ennek megfelelően a várható értéktől vett eltérések négyzeteinek a várható értéke. Folytonos esetben például: Var( x) x E( x) f ( x) dx. A diszkrét eset ennek analógiája. Végtelen sokaság esetén a momentum is várható értékként, mégpedig a változó x r hatványának E(x r ) várható értékeként értelmezendő. A gyakorisági (valószínűségi) eloszlás tendenciájának árnyalt jellemzését szolgálják az x változó kitüntetett értékei, a kvantilisek. ekintsük a diszkrét x változó x x... xr... x K ordinális skáláját, melyen az referencia kategória a skálát két -egy alsó, és egy felső - szegmensre bontja úgy, hogy megállapodás szerint a referencia kategóriát is az alsó szegmenshez soroljuk. Ekkor a skála a sokaságot magát is egy alsó és egy felső szegmensre hasítja szét aszerint, hogy ki tartozik az alsó, és ki a felső szegmens kategóriáihoz:. Jelölje az alsó szegmens részarányát a sokaságon belül p (0<p<), a felsőét pedig (-p). Ekkor a referencia kategória x r értékét p-ed rendű kvantilisnek nevezzük, mert a rendezett sokaságot p:(-p) arányban bontja ketté, és amelynek jelölése ezért: x (p). A folytonos mennyiségi ismérvek skáláján kitüntetett rendű kvantilis értékeket keresünk azért, hogy a mérési skálán sorbarendezett sokaságot nevezetes arányban bontsuk két részre. Nevezetes rendű kvantiliseket az /p =, 3, 4, 5, 0, 00 esetekben kapunk. Ezek nevei rendre: medián, tercilis, kvartilis, kvintilis, decilis, percentilis. Például x (0.95) a 95. percentilis, amelyre teljesül, hogy sokaság 95 százaléka az alsó, a további 5% pedig a felső szegmens eleme. Míg a diszkrét sokaság valamely egyedének x értékéről mindig meg tudjuk mondani, hogy milyen rendű kvantilisnek felel meg, addig egy előre rögzített p rendhez nem mindig rendelhető hozzá a sokaság valamelyik konkrét egyedének az értéke. Látható tehát, hogy ha a kérdéses kvantilis értékének a meghatározásakor egy, az elemeinek a felsorolásával megadott sokaságra kell hagyatkoznunk, akkor a kvantilis meghatározása nem egyértelmű. A kvantilisek paraméteres matematikai eloszlások fontos jellemzői, mert értékük rögzített eloszlástípus mellett numerikus integrálással egyértelműen meghatározható. A valószínűségelmélet számos nevezetes eloszlástípust ismer. Ezek közül most csak azokat definiáljuk, melyeket a későbbiekben használunk, vagy amelyek más eloszlások származtatásának az alapjául szolgálnak. Az alábbiakban tárgyalt folytonos eloszlások kiragadott kvantilis értékeit a könyv végén közölt táblázatok tartalmazzák..4. NORMÁLIS ELOSZLÁS.4. A normális eloszlás az ún. exponenciális eloszláscsalád tagja. Sűrűségfüggvénye: x f ( x) e ahol μ és σ az eloszlás paraméterei, és ahol (- <x< ), (- <μ< ) és σ>0. A sűrűségfüggvény alakját, vagyis az x sokaságot e két paraméter egyértelműen meghatározza. A későbbiekben, ha x normális eloszlású μ és σ paraméterekkel, akkor erre a tényre az x N, formában hivatkozunk. Látható, hogy adott paraméterek mellett az x pontban a sűrűségfüggvény f(x) értéke kalkulálható, de f(x) [Pr(x)=0]. Folytonos véletlen változó konkrét értékének a bekövetkezése nem lehetetlen esemény, de a valószínűsége zéró. Mivel azonban az f(x) értékek érzékeltetik, hogy különböző x értékek különböző eséllyel (relatív gyakorisággal) fordulnak elő, a sűrűségfüggvény f(x) értékét jelen könyvben az x pont egyedi likelihoodjának (esélyességének) nevezzük. x a x f x r (.5)

x N normális eloszlású változó várható, átlagos értéke Az, Ex ( ), varianciája pedig Var( x). Ezért a z x változó standardizált, zéró átlagú, és varianciájú változó, tehát eloszlása z~n(0,) standard normális, sűrűségfüggvénye pedig értelemszerűen: f () z e z. (.6) A standard normális eloszlás eloszlásfüggvényének föntartott jelölése Φ(.), melynek értéke a z pontban: z ( z) e dt p. Az a z (p) érték, melyre Φ(z (p))=p teljesül, a standard normális eloszlás p-rendű kvantilisét képezi. A standard normális eloszlású változó kvantiliseinek meghatározása p ismeretében már nem igényli semmilyen paraméter ismeretét, ezért tetszőleges részletességgel táblába foglalható (lásd a.táblát). A ( p) zp értéket a p valószínűség probitjának nevezzük: t ( ) p probit p p z. Számítógépes programba való beilleszthetőség érdekében közöljük a (z) valószínűség Hastings-féle közelítését, mely az alábbi: 5 ( z) p f ( z) ai i 0.3649 z ahol a =0.393853, a =-0.35656378, a 3=.7847937, a 4=-.855978, a 5=.3307449. Ennek inverz függvénye közelítőleg: i i0 3 z ( p) ln p b c i i0 ln p ln p ahol 0<p0.5, b 0=.5557, b =0.80853, b =0.0038, c 0=, c =.43788, c =0.8969, c 3=0.00308. Ha p>0.5, akkor a helyén (-p) szerepel, és az eredményül kapott z érték negatívját vesszük..4. GAMMA-ELOSZLÁS.4. Az x0 nemnegatív véletlen változó gamma eloszlású,θ>0 pozitív paraméterekkel, ha sűrűségfüggvénye: f ( x) x e x (.7) ( ) ahol x a x e dx a a teljes gamma-függvény. Ha a egész, akkor ( a) ( a )! és az eloszlás neve ekkor Erlang eloszlás. A gamma eloszlás nevezetes momentumai az alábbiak: r r ( r) Ex, E x, E x ( ), Var ( x ) E x E x. ( ).4.3 CHI-NÉGYZE ELOSZLÁS.4.3 A gamma eloszlás speciális esete θ=, és =ν/ paraméterezéssel a chi-négyzet (χ ) eloszlás, melynek sűrűségfüggvénye 0 i i / / i 3

f ( x) x e x ahol (/ ) ha ν páratlan. A ν paramétert (mely nem kötelezően integer) az eloszlás szabadsági fokának nevezzük. Lévén gamma eloszlás θ=, és =ν/ paraméterezéssel, nevezetes momentumai a szabadsági fok függvényében: Ex, Ex 4 ( ), Var( x). A chi-négyzet eloszlás szorosan kötődik a normális eloszláshoz, mert definíció szerint egymástól független, standard normális eloszlású változók négyzetösszege chi-négyzet eloszlást követ ν=n szabadsági fokkal, z N 0, ahol n az összeadandók száma: Innen egyenesen következik, hogy... n n n (.8) z z z z. (.9). (.0) n n z.4.4 EXPONENCIÁLIS ELOSZLÁS.4.4 A gamma eloszlás másik speciális eseteként = választással a (negatív) exponenciális eloszlás adódik, x f ( x) e (.) sűrűségfüggvénnyel, melynek várható értéke és varianciája.4.5 WEIBULL ELOSZLÁS.4.5 E x E x Var x,, ( ). Az x0 nemnegatív véletlen változó Weibull eloszlású,θ>0 pozitív paraméterekkel, ha sűrűségfüggvénye: x f ( x) x e. (.) Látható, hogy a negatív exponenciális eloszlás a Weibull eloszlásnak is speciális esete, = helyettesítéssel. Egy másik speciális esetként a Rayleigh eloszlát nyerjük, az =, és paraméterezéssel:.4.6 BÉA-ELOSZLÁS.4.6 x f ( x) xe. Az 0x véletlen változó béta eloszlást követ a,b>0 pozitív paraméterekkel, ha sűrűségfüggvénye a b f ( x) x ( x) (.3) B( a, b) ahol B(a,b) a teljes béta-függvényt jelöli: ab B( a, b). a b.4.7 SUDEN-ELOSZLÁS.4.7 A Sudent féle t-eloszlást az alábbi sűrűségfüggvény definiálja: 4

x f( x) (.4) B, ahol a ν>0 paraméterre, mint szabadsági fokra hivatkozunk, és az x változó tetszőleges értéket felvehet. A t-eloszlás zéró várható értékű, és szimmetrikus a várható értékre. Egy standard normális, és egy korrigált (szabadsági fokkal osztott) chi-négyzet eloszlás hányadosa Sudent t-eloszlást követ, ha a változók egymástól függetlenek, az alábbi transzformáció szerint: z n n t n. (.5).4.8 F-ELOSZLÁS.4.8 Az F-eloszlás sűrűségfüggvénye kétparaméteres, és csak nemnegatív x értékekre van értelmezve: f ( x) B x, ahol a ν,ν >0 paramétereket szabadsági fokoknak nevezzük. Az F-eloszlás eredete szintén a normális eloszlás, mert két független, korrigált chi-négyzet eloszlású változó hányadosa F-eloszlást követ az alábbi paraméterekkel: ahol n a számláló, m pedig a nevező szabadsági foka. n m A fenti eloszlások között a χ, a t- és az F-eloszlás elsősorban a véletlen módon kiválasztott mintából történő következtetéseket szolgálja..4.9 BINOMIÁLIS ELOSZLÁS.4.9 n m F nm, (.6) (.7) Legyen megfigyelésünk eredménye csak kétféle kimenetel ( vagy 0 tulajdonság) valamelyike, rendre P és (-P) valószínűséggel, ahol 0<P<. ekintsünk n számú, független megfigyelést, melyek között az kimenetelek k száma binomiális eloszlású véletlen változó, és valószínűségi eloszlása (a k pont egyedi likelihoodja P és n paraméterekkel) n k nk Pr( x k) P P (.8) k P n exp kln nln ln (.9) P P k ahol k=0,,,...,n egész. Ha n= elemű mintát veszünk, akkor k={0,}. A P/(-P) arányt odds aránynak nevezzük, melynek logaritmusa az ún. logit: P logitp ln P E kanonikus paraméterrel: logit odds e P. logit odds e 5

A várható érték E(x)=P, és a variancia Var(x)=P(-P). A egyedek k száma a mintában binomiális eloszlású, p=k/n részaránya pedig egyben a mintaátlag is, mely nagy minták esetén a centrális határeloszlás tétele értelmébenaszimptotikusan normális: n k d P( P) xi p N P, n i n n..4.0 POISSON-ELOSZLÁS.4.0 Adott eseménynek egységnyi időszak alatti x gyakorisága (árvizek száma évente) Poisson eloszlású λ pozitív paraméterrel, és a valószínűségeloszlás (likelihood) függvénye: k e Pr( x k) expk ln ln( k!) (.0) k! ahol k=0,,,...a Poisson eloszlásnak mind a várható értéke, mind a varianciája a paraméterrel egyezik meg..4. PROBABILIY PLO.4. Azon kérdés eldöntését segítendő, hogy a sokaság az x változó tekintetében kielégítően leírható-e valamely formalizált valószínűségi eloszlással az alábbiakban egy grafikus eljárást, a probability plot módszerét ismertetjük.legyen a vizsgált x változó eloszlásfüggvénye feltevésünk szerint F(x), standardizált z változatának eloszlásfüggvénye pedig G(z), melyekre teljesül az F(x)=G(z) azonosság. Ekkor a standardizált z változó értéke egyrészt egy egyenes szerint alakul x függvényében, másrészt a G(.) függvény inverzének az értéke F(.) függvényében, az alábbiak szerint: x x z G F( x) Ha x nem egzaktan az F(.) eloszlásból származik, akkor közös koordináta rendszerben ábrázolva z e kétféle értéke nem esik egybe. Minél közelebb fekszenek a G - (x) pontok a referencia egyeneshez, annál jobban leírható a sokaság x tekintetében az F(.) eloszlással. A normalitás vizsgálata normal probability plot szerkesztését igényli, ahol G - szerepét speciálisan a standard normális eloszlás eloszlásfüggvénye tölti be, amely inverzének egyféle empirikus közelítése a i /3 N /3 módon történik, ahol i=,...,n a nemcsökkenő módon rendezett sokaság egyedeinek a sorszámát jelenti. Lényegében - a referencia egyenes z i pontjai által reprezentált tényleges sokaságot a G i pontdiagram által reprezentált normális eloszlású sokasággal vetjük össze. ekintsük () cigaretta márka átlagos (fajlagos, mg/szál) kátrány tartalmát. A kátrány tartalom eloszlásának jellemzésére szolgáló normal probability plot az. ábrán látható.. ábra A kátránytartalom eloszlásának normál probability ábrája Az ábráról leolvasható, hogy a vizsgált márkák tekintetében a kátránytartalom eloszlása közel áll a normális eloszláshoz. 6

SOKASÁG ÉS MINA Sokaság és minta ekintsünk egy véges x,...,x N, vagy egy végtelen, az f(x θ,...,θ q)=f(x θ) sűrűségfüggvénnyel definiált sokaságot, melyben az x változó valamely θ jellemzője (paramétere) ismeretlen, de döntésünk ennek vélt ismeretén alapszik. Ekkor a végtelen sokaság teljes megfigyelése lehetetlen, a véges sokaság teljeskörű megfigyelése pedig esetenként ésszerűtlen: például költséges, vagy egy termék megsemmisülésével jár. Ilyenkor a sokaságból mintát veszünk, és a minta alapján következtetünk a sokaság egészére. A mintából történő következtetés exploratív formája a becslés, konfirmatív formája pedig a hipotézisek tesztelése. A becslést akkor alkalmazzuk, mikor semmilyen ismeretünk nincs a sokaság jellemzőjéről, ezért a minta ismeretében közelítjük annak értékét. A hipotézisben viszont valamilyen előzetes elképzelésünk fogalmazódik meg a sokaság adott jellemzőjével kapcsolatban, és ilyenkor a mintát szembesítjük az elképzelésünkkel. A minta alapján csupán döntést hozunk, de meg nem bizonyosodhatunk. Mintának nevezzük a sokaság azon kitüntetett egységeit, melyekre a megfigyelésünk kiterjed. A minta mindig véges, elemszáma n, és elemei rendre: x,x,...,x n. A mintavétel részlegessége (nem teljes körű volta) miatt a következtetések mintevételi hibát hordoznak. Ha a hibázás valószínűségét kontrollálni akarjuk, akkor a mintát véletlen módon kell kiválasztanunk. Véletlen jellegű a mintavétel, ha a sokaság bármely egyede ismert valószínűséggel kerülhet be a mintába. Ekkor az x i mintaelem (i=,,...,n) mintavételi ingadozásnak van kitéve, vagyis mintavételi véletlen változó. Ha a mintaelemeket egymástól függetlenül választjuk ki, akkor a mintaelemek független véletlen változók, és valószínűségi eloszlásuk megegyezik a sokaság eloszlásával. Az ilyen típusú mintát független, azonos eloszlású (FAE) mintának nevezzük. Ha például a sokaság normális eloszlású μ várható értékkel, és σ varianciával, vagyis x~n(μ,σ ), és x,x,...,x n. FAE minta, akkor valamennyi mintaelem ugyanilyen normális eloszlású: x i~n(μ,σ ), ahol i=,...,n. A θ paraméterre vonatkozó mintából történő következtetés eszköze mindenkor a mintaelemek valamely ˆ ( x ˆ ˆ, x,.., x n ) n transzformációja, amely leképezést statisztikának nevezzük. Ilyen statisztikák például a mintabeli átlag, variancia, részarány, vagy egyéb más, komplikáltabb formulák. A mintavételi hiba nagyságának behatárolása érdekében a statisztikák mintavételi eloszlásának jellemzőit (típusát, várható értékét, és varianciáját) ismernünk kell. Mintavételi eloszlás alatt a kérdéses ˆ statisztikának minden létező mintán szóródó eloszlását értjük. A mintavételi várható érték jelölése Var ˆ. A mintavételi variancia pozitív gyökét, a, a mintavételi varianciájé pedig E ˆ mintavételi szórást standard hibának (Standard Error) nevezzük, melynek jelölése. SAISZIKAI BECSLÉSEK. SE ˆ. Valamely ismeretlen θ sokasági paraméter értékének közelítő meghatározását becslésnek nevezzük. Ennek eszköze a ˆ becslőfüggvény, mely egy alkalmasan megválasztott statisztika. A becslőfüggvény mintavételi változó, mely pontbecslést nyújt az ismeretlen paraméterre. A becslés megbízhatósága azon múlik, hogy mintavételről mintavételre haladva a becslőfüggvény milyen centrum körül, és milyen mértékben szóródik. Intuitíve is látható, hogy ez nagymértékben függ a minta elemszámától, továbbá attól is, hogy a sokaság maga milyen centrum körül, és mennyire szóródik... BECSLÉSI KRIÉRIUMOK ÉS MÓDSZEREK.. Alapvető követelmény, hogy a becslőfüggvény mintavételi varianciája a lehető legkisebb legyen. Nézzük, hogy milyen tényezők befolyásolják ezt a varianciát. Jelölje ˆ a pontbecslés eltérését a paraméter valódi értékétől (tehát a hibát), Q=ε pedig a hiba négyzetét. Ekkor a pontbecslés mintavételi varianciája megegyezik a hiba varianciájával, mely a variancia momentum felbontása alapján az alábbi formában is írható: 0 0 A variancia invariáns változójának konstanssal való eltolására. 7

ˆ ˆ ˆ ˆ Var( ) Var( ) Var( ) q MSE( ) Bias ( ) ahol MSE (mean square error) az átlagos négyzetes hiba, Bias pedig az átlagos hiba, melynek előjeles értéke a becslés torzításának a mértékét és irányát mutatja. A fentiek fényében a becslőfüggvény (ceteris paribus):. orzítatlan, ha a torzítás mértéke zéró: ekkor az átlagos hiba zéró, a becslőfüggvény várható értéke pedig megegyezik a paraméterrel, és a mintavételi variancia megegyezik az átlagos négyzetes hibával,. Aszimptotikusan torzítatlan, ha a mintaelemszám növelésével a torzítás mértéke zérushoz tart, 3. Konzisztens, ha a mintaelemszám növelésével a MSE zérushoz tart, 4. Leghatásosabb, ha torzítatlan becslőfüggvények körében legkisebb a varianciája. orzított becslőfüggvények között nem mindig készíthető egyértelmű hatásossági rangsor a MSE alapján, mivel az átlagos négyzetes hiba függvénye lehet az ismeretlen, becsülendő paraméternek is. Adott θ paraméter pontbecslésére több, különféle tulajdonságú becslőfüggvény is szóba jöhet. A variancia pontbecslésére használhatjuk például a klasszikus (nem korrigált) mintabeli varianciát is. Közülük azt preferáljuk, amelyik leginkább eleget tesz a pontbecsléssel szemben támasztható ésszerű követelményeknek, becslési kritériumoknak. A becslőfüggvény formulája némely esetben intuitív módon kínálkozik. Ha a becsülendő paraméter tárgyi (statisztikai) tartalommal bír, akkor kézenfekvő a mintabeli analógiáját használni pontbecslésként. Az analógia módszerére példa a mintaátlag, vagy a mintabeli variancia. A becslőfüggvény formulájának a meghatározása azonban nem mindig kézenfekvő, ilyenkor valamilyen algoritmus szolgáltat becslőfüggvényt. Előre rögzítjük a becslőfüggvénnyel szembeni elvárásunkat, majd meghatározzuk azt a formulát mely eleget tesz ezen követelménynek. A becslőfüggvény meghatározására irányuló módszereket becslési módszereknek nevezzük. A sokaság θ,θ,...,θ p paramétereinek a pontbecslésére szolgáló nevezetes becslési módszerek az alábbiak. Legkisebb négyzetek (LKN) módszere: a becslésből eredő, mintán belül tapasztalt hibák négyzetösszege minimális legyen: n x ˆ ˆ ˆ i xi p Errori n ˆ (,,..., ) min. i i Itt az ˆx függvény olyan előrejelzési szabály, mely nem föltétlenül igényli nevezetes eloszlás ismeretét. Momentumok módszere: Adott típusú eloszlás becsült paramétereivel kalkulálva, valamely momentum egyezzen meg a mintán belüli megfelelő rendű empirikus momentum értékével: n r ˆ ˆ ˆ xi mr (,,..., p ) ( r,,..., p) n i ahol E(x r )=m r(θ,θ,...,θ p). Ez a módszer tehát ismert eloszlás paramétereinek a becslésére szolgál, és az m r függvény fejezi ki az r. rendű momentum, és a sokasági paraméterek kapcsolatát. A becslés praktikusan egy egyenletrendszer megoldását jelenti, melynek annyi egyenlete van, ahány becsülendő paraméter. Maximum likelihood (ML) módszer: Ha a minta együttes bekövetkezésének az esélyét (likelihoodját) a becslésünk értéke befolyásolja, akkor válasszuk azt a becslést, amely mellett a mintaelemek együttes realizációjának a likelihoodja maximális: L ˆ, ˆ,..., ˆ max. (.) minta Ha az x i mintaelemek egymástól független véletlen változók, akkor az együttes minta likelihoodja a mintaelemek egyedi likelihoodjainak a szorzataként áll elő: L n ˆ ˆ ˆ ˆ ˆ ˆ p L xi p minta i p,,...,,,,..., max. (.) A maximum likelihood módszer eloszlásfüggő eljárás, hiszen a likelihood értékének a kalkulálása konkrét valószínűségi eloszlást igényel. A következő alfejezetek a likelihooddal kapcsolatos kategóriákat tovább tárgyalják.. Példa Határozzuk meg az x változó sokasági átlagának becslőfüggvényét az LKN módszerrel úgy, hogy a becslés négyzetes távolsága a mintaelemektől összességében (SS: sum of squares) minimális legyen: Deriválással: n i x ˆ i SS min. 8

n SS x ˆ i 0 ˆ i amiből a számtani átlag definíciója szerint becslésként a mintaátlag adódik:. Példa ekintsük az x~n(μ, rögzített) normális eloszlás μ paraméterének becslését a ML módszerrel, és n= elemű minta, vagyis az x mintaelem alapján. Ekkor a mintaelem egyedi likelihoodja: x L( x ) e max. Ez nyilvánvalóan akkor maximális, ha az exponenciálisban szereplő kifejezés zéró, tehát ˆ x n. ˆ x. Ha a mintavételt kiterjesztjük n eleműre, akkor a minta együttes likelihoodja (a maximálás szempontjából érdektelen konstans tag elhagyásával): n i i L( x) L( x)... L( xn ) e max. Ez pedig akkor maximális, ha az exponenciálisban szereplő négyzetösszeg minimális. Vagyis ebben az esetben a ML módszer a LKN módszerre vezethető. A négyzetösszeg pedig akkor minimális, mikor a μ paraméter becslése a mintaátlag: ˆ x. n.. INERVALLUMBECSLÉS.. x A becslés megbízhatóságának a javítása érdekében érdemes a pontszerű becslést egy minél szűkebb, de magas megbízhatóságú ún konfidencia intervalummá bővíteni, mely adott - megbízhatósággal lefedi az ismeretlen θ paramétert: Pr ˆ ˆ ahol ˆ a és ˆ f a a konfidencia intervallum alsó és felső határa, (alacsony) értéke pedig az alulbecslés, illetve a fölülbecslés kockázatának az (előzetesen rögzített) összege. Ez utóbbi két kockázatot (ha egyéb szempont mást nem indokol) egyenlő arányban osztjuk meg. A kockázatok rögzített értékének birtokában ismernünk kell a becslőfüggvény eloszlását, hogy kalkulálhassuk a megfelelő kvantiliseit: Pr ˆ ˆ. A ˆ ( / ) ( / ) ( / ) és ˆ ( / ) kvantilisek numerikus integrálással határozandók meg. Az esetek többségében nem közvetlen a becslőfüggvény, hanem valamely ( ˆ ) ˆ monoton transzformációjának az eloszlását ismerjük, melynek kvantilis értékei esetleg táblázatos formában is rendelkezésre állnak. Ezért a numerikus integrálást megkönnyítendő, a Pr ˆ ˆ ˆ. ( / ) ( / ) konfidencia tartomány határait keressük meg. Legyen ugyanakkor általában ( ˆ ), és így az eredeti konfidencia tartomány alsó határát a ( ˆ ˆ f ) és ( ˆ ˆ a ) értékek közül a kisebbik, felső határát pedig a nagyobbik érték adja. A konfidencia intervallum képzésének két nevezetes esete, mikor becslőfüggvényre képezzük úgy, hogy vagy ismert annak standard hibát is a mintából, f ˆ Eˆ torzítatlan, normális eloszlású SE ˆ standard hibája, vagy kénytelenek vagyunk e se ˆ segítségével becsülni. Az ismert standard hibával standard normális eloszlásúvá transzformálva a becslőfüggvényt, az alábbi valószínűségi azonosságot tudjuk definiálni: melyből a ˆ Pr z / z / SE ˆ 9

/ ˆ ˆ z SE (.3) szimmetrikus konfidencia tartomány adódik. Ha a standard hibát mintából kell becsülnünk, akkor a se(.) becsült standard hiba is mintavételi változó, melynek mintavételi eloszlása szükséges a konfidencia intervallum képzéséhez. együk fel, hogy a becsült, és a valódi standard hiba között a k-szabadsági fokú CHI-négyzet eloszlás egyértelmű kapcsolatot teremt, a következők szerint: se SE Ez esetben a t-eloszlás (.5) definíciója alapján ˆ / se ˆ ˆ ˆ k. k k szabadsági fokú t k-eloszlású, és az alábbi valószínűségi azonosságát felírását teszi lehetővé: ˆ ˆ ˆ SE Prt / t / k k. seˆ k k Innen a konfidencia intervallum: ˆ t se ˆ. (.4). SAISZIKAI HIPOÉZISEK ESZELÉSE. / A statisztikai következtetések konfirmatív jellegű alkalmazása hipotézisek vizsgálatán alapul. Hipotéziseket fogalmazunk meg, mikor a sokaság jellemzői ismeretlenek, további döntéseink viszont vélt ismeretükön alapulnak. A hipotézis szubjektív képünket vetíti a sokaságra, ezt a képet átmenetileg érvényesnek fogadjuk el, majd mintára támaszkodva döntésünk eredménye az állítás fönntartása, vagy elvetése. A hipotézisvizsgálat fogalmi rendszere, és a döntéshozás menete az alábbi. A hipotézisnek egy véletlen mintavétel eredményével való szembesítését a hipotézis tesztelésének nevezzük. Mivel a sokaság a tesztelés során ismeretlen marad, ezért hozhatunk helyes, de helytelen döntést is. Hibát követünk el egyrészt a hipotézis helytelen elvetésekor, illetve a hipotézis helytelen elfogadásakor. Alapvető szempont a hibás döntés(ek) valószínűségének a minimálása. A hipotézisben verbálisan foglalt állítás statisztikai vizsgálata annak formalizálását igényli. A hipotézisben foglalt állítások a gyakorlatban a sokaság eloszlásának a jellemzőire - paramétereire, vagy az eloszlás típusára vonatkoznak. artalmi szempontból az igaznak vélt, vagy remélt állítást kutatási hipotézisként kezeljük. A mintavétel célja annak alátámasztása, hogy a kutatási hipotézis áll közelebb a valósághoz. A kutatási hipotézis elfogadását szigorítjuk úgy, hogy a tagadását jelentő állítást tekintjük kiindulásként érvényesnek, ettől az állítástól pedig csak akkor állunk el, ha ezt a konkrét mintánk markánsan indokolja. A kutatási hipotézis komplementerét teszt hipotézisnek nevezzük, mert ezt tekintjük átmenetileg érvényesnek s ennek fenntarthatóságát vagy elvetését teszteljük a próba során. Értékkészletüket tekintve a statisztikailag tesztelhető hipotézisek lehetnek egyszerűek és összetettek. Egyszerűnek nevezzük a hipotézist, ha egyetlen rögzített számszerű értékre, és összetettnek, ha számértékeknek valamely tartományára vonatkozik. A hipotézisvizsgálat végrehajtásakor a teszt hipotézisben foglalt állítások halmazából csak a kutatási hipotézisnek legkevésbé ellentmondót helyezzük szembe a kutatási hipotézissel, mert ha ezt sem tudjuk tovább fenntartani, akkor a méginkább ellentmondókat még kevésbé tarthatjuk fenn. Egyszerű teszt hipotézis triviálisan legkevésbé mond ellent a kutatási hipotézisnek. Összetett teszt hipotézis alkalmazásakor viszont úgy kell rögzíteni a kutatási hipotézist, hogy a teszt hipotézis állításai közül egyértelműen kiragadható legyen a kutatási hipotézisnek legkevésbé ellentmondó. A kutatási hipotézis érvénytelen voltát jelentő, annak legkevésbé ellentmondó egyszerű állítást null hipotézisnek, az alternatíváját képező kutatási hipotézist pedig alternatív hipotézisnek nevezzük. A nullhipotézist H 0, az alternatív hipotézist pedig H jelöli. 0