Tantárgyk rgykód STATISZTIKA 1. Előad adás Bevezetés, a statisztika szerepe, Mintavéez ezés, Adatbázisok MTB60057 Oktatók Előad adó: Dr. Huzsvai LászlL szló tanszékvezet kvezető Gyakorlatvezetők: k: Csipkés s Margit Soltész Angéla Huzsvai LászlL szló Balogh PéterP Időbeoszt beosztás Szeptember 15. November 28. új ismeretek átadása. December 8. December 19. gyakorlati jegy megszerzése. se. Tematika www.agr.unideb.hu/~huzsvai 1. Bevezetés, mintavé 2. Középértékek, mérési m skálák 3. Szóródási mutatók 4. Normális eloszlás, s, megbízhat zhatósági intervallumok 5. Hipotézis elmélet, let, t-prt próbák 6. Variancia-anal analízis, LSD 1
MTB60057 Köező irodalom Köező irodalom: Huzsvai L. (szerk.): STATISZTIKA Gazdaságelemz gelemzők részére (Excel és s R alkalmazások), Seneca Books, Debrecen, 2012. Ajánlott irodalom: Hunyadi L. Vita L.: Statisztika I. Aula Kiadó,, Budapest, 2008. 1-1 348. o. Hunyadi L. Vita L.: Statisztika II. Aula Kiadó,, Budapest, 2008. 1-1 300. o. Hunyadi L. Vita L.: Statisztikai képletek k és s táblt blázatok (oktatási segédlet), Aula Kiadó,, Budapest, 2008. 1-51. 1 o. Szűcs I.: Alkalmazott Statisztika Agroinform Kiadó,, Budapest, 2002. 1-551. 1 o. Kerékgy kgyártó Gy-né L. Balogh I. Sugár r A. Szarvas B.: Statisztikai módszerek m és s alkalmazásuk a gazdasági gi és társadalmi elemzésekben AULA Kiadó,, Budapest, 2008. 1-446. 1 o. Rappai G.: Üzleti statisztika Excellel. KSH, 2001. Köező irodalom Churcill és s a statisztika Csak abban a statisztikában hiszek, amit én n magam hamisítok tok NEM IGAZ Statisztikai programok 1. MS Excel? 2. LibreOffice Calc? 3. R Statistics 4. SPSS 5. SAS 6. MATLAB 7. MINITAB 8. stb 2
A statisztika fogalma 1. A statisztika a valóság g minőségi és mennyiségi informáci cióinak inak megfigyelésére, összegzésére, elemzésére és modellezésére irányul nyuló gyakorlati tevékenys kenység és s tudomány. 2. Gyakran hívjh vják k statisztikának a statisztikai tevékenys kenység g eredmények nyeként nt keletkező adatokat is. A statisztika nyelvezete 1. Kijelentéseit, egy adott intervallumra vonatkoztatva, valósz színűségi állítás formájában fogalmazza meg. Hatvan százal zalék k az esélye, valósz színűsége, hogy 20 és s 30 mm közötti csapadék k fog esni holnap. Alapfogalmak 1. Sokaság: A megfigyelési egységek, gek, egyedek összessége, amire a statisztikai megfigyelés s irányul. 2. Ismérv: A sokaság g egyedeinek tulajdonsága Mit mérek: m Milyen? Mennyi? (mért rtékegység) g) Hol? Mikor? Egyéb metaadatok 3. Paraméter 4. Minta Paraméter Az alapsokaság g jellemző értékeit paraméternek nevezzük k (görög betűvel jelölj ljük) µ σ Minta 1. Minta adataiból l az alapsokaság tulajdonságaira következtetk vetkeztetünk 2. A minta középértk rtékből l alapsokaság középértékére re következtetk vetkeztetünk 3. Megbízhat zhatósági intervallum x µ s σ A statisztika részterr szterületei 1. Leíró statisztika, exploratív v adaemzés Célja egy már m r rendelkezésre álló,, valóságra vonatkozó adathalmaz összefoglalása, sa, elemzése, informáci ciótömörítés. Statisztikai módszerek m alkalmazása, hogy megismerjük k a sokaság g legfontosabb statisztikai jellemzőit. 2. Matematikai statisztika 3
1. Leíró statisztika 1. Gyakoriságok 2. Centrális mutatók k (középért rtékek) kek): medián, módusz, m átlag 3. Kvantilis értékek 4. Szóródási mutatók: : terjedelem, szórás, s, relatív v szórás, s, stb. 2. Matematikai statisztika 1. Reprezentatív v mintavé alapján n a sokaság g jellemző paramétereinek becslése. se. 2. Minta alapján n az alapsokaságra vonatkozó feltéez ezések, hipotézisek igazolása. 3. Összefüggés s vizsgálatok sztochasztikus modellekkel 2.3 Összefüggés s vizsgálatok 1. Középérték összehasonlító tesztek, t-t próbák 2. Variancia-anal analízisek A statisztikai munka fázisai f 1. 1. Tapasztalatok gyűjt jtése, empirikus megfigyelések 2. A probléma verbális megfogalmazása, munkahipotézis feláll llítása 3. Modellválaszt lasztás s vagy alkotás Legtöbbsz bbször r valamilyen eloszlás s vagy Függvény 4. Az adatgyűjt jtés s megtervezése Minimális minta ill. elemszám m meghatároz rozása Mintavéi i technikák Kísérlettervezés A statisztikai munka fázisai f 2. 5. Adatgyűjt jtés Mintavé Kísérlet beáll llítása, mérésm 6. Adatbázis készk szítés Reláci ciós s adatbázisok 7. Elemzés Modellalkotás Az adatokból l a modell paramétereinek meghatároz rozása 8. A modell validálása (érvényessége) Az alkalmazhatósági feltéek ek megvizsgálása sa 9. Becslés s a modell segíts tségével Jelentések, riportok, kimutatások készk szítése se (statisztikai táblt blázatok) 10. Döntés Mi a modell? A modell összetett, bonyolult természeti képződmények, objektumok működésének m megismerésére re létrehozott l egyszerűsített helyettesítő. Modell formák: Mechanikus analógok, elektromos analógok, fizikai, kémiai, k matematikai modellek. 4
Mi a kísérlet? k Megfelelő elméleti leti megalapozás után n kialakított elgondolás, következtetés s helyes vagy helyen voltának mérésekkel m törtt rténő ellenőrz rzése. Mintavé,, mintavéi i technikák Mintavé fogalmai A mintavét t meg kell tervezni A sokaság g elemei: X 1, X 2 X N,, lehet véges és s végenv Mintaelemek: x 1, x 2 x n, mindig végesv Véletlen minta = a minta elemek véletlen v kiválaszt lasztásasa Kiválaszt lasztási si arány : n N Abból l adódik, dik, hogy nem a jes sokaságot figyeljük meg. A sokaság heterogén. Mintavéi i hiba Statisztikai adatgyűjt jtés Véletlen mintavé Kísérletek (ellenőrzött) Részleges adatfelvé Véletlen mintavé Reprezentatív megfigyelés Teljes körű (cenzus) Nem véletlen mintavé 1. Homogén n sokaság g esetén FAE: független f azonos eloszlású minta EV: egyszerű véletlen minta 2. Heterogén n sokaság g esetén R: rétegzett r mintavé Cs: : csoportos (egylépcs pcsős) s) mintavé TL: többlt bblépcsős s mintavé 5
Nem véletlenen v alapuló kiválaszt lasztás 1. Szisztematikus 2. Kvótás 3. Hólabda 4. Koncentrált 5. Önkényesnyes 6. Egyéb A kísérlet k tulajdonságai 1. Jó kísérlet Kezeléshat shatásoksok Véletlen hiba 2. Rossz kísérletk Kezeléshat shatásoksok Szisztematikus hiba Véletlen hiba Reprezentatív v minta tulajdonságai 1. Tükrözi az alapsokaság g jellemzőit (lehet általánosítani) 2. Csak a mintavéi i hibát t tartalmazza 3. Meghatározhat rozható a mintavéi i hiba nagysága ga NEM reprezentatív v minta tulajdonságai 1. Nem lehet belőle le általánosítani 2. A mintavéi i hiba mellett szisztematikus hibát t is tartalmaz 3. A levont következtetk vetkeztetések kizárólag a megfigyelt egyedekre vonatkoznak Véletlen mintavé,, szisztematikus hiba 1.Minden elem egymást stól l függetlenf ggetlenül és azonos valósz színűséggel kerül l a mintába (véletlen számok) 2.El Előnye: a belőle le származtatott statisztikai mutatók k csak a véletlen v eltérést mutatják k az alapsokaság mutatójához képestk 3.Szelekci Szelekció szisztematikus hiba 4.Reprezentativit Reprezentativitás Véletlen minta előáll llítása 1. Véletlen szám m generátor 2. Pszeudó véletlen szám m generátor 3. Rnd() függvf ggvény 4. Excel Vél() V függvf ggvénye 5. VÉL()*(b-a)+a 0 x < 1 6
Statisztikai becslés 1. Valamely paraméter ismeretlen (feltéezett) ezett) tényleges t értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik b statisztikai függvf ggvény tekinthető becslésnek, snek, valójában csak azokat használjuk, amelyeknek megvannak a jó becslés legfontosabb tulajdonságai A jój becslés s kritériumai riumai 1. Torzítatlans tatlanság g (várhat rható érték) 2. Hatásoss sosság g (szórás) s) 3. Konzisztencia Torzítatlan becslés Olyan becslés, s, amelynek várhatv rható értéke az igazi paraméter. Sokszor veszünk mintát, t, a minták k várhatv rható értéke közelk zelít t a sokaság g valódi értékéhez. Hatásos becslés Hatásos az a becslés, s, amelynek a szórása sa a legkisebb, határért rtékben nulla. Véges sokaságok jes körűk adat felvéez ezése esetén n a számtani átlag szóra nulla. Konzisztens becslés Hatásos és s torzítatlan tatlan becslés Olyan becslés, s, amely a minta n elemszámának növekedésével vel (n( ) ) a paraméter igazi értékéhez konvergál l sztochasztikusan (erős konzisztencia esetén n 1 valósz színűséggel) n, paraméter igazi érték 7
Hatásos és s torzított tott becslés Nem hatásos és s torzítatlan tatlan becslés Nem hatásos és s torzított tott becslés Mi az adatbázis 1. Egy témakt makör r vagy cél c l körék csoportosuló informáci ció. 2. Jó tervezés s = hatékony adattárol rolás és kinyerés 3. Célorientált lt adatbázisok Adatbázis tervezés 1. Milyen informáci ciót t akarunk kinyerni? 2. Milyen elkülönülő tématerületeken kell tárolni az adatokat? 3. Hogyan kapcsolódnak ezek egymáshoz? 4. Az egyes területeken belül l milyen adatokat kell tárolni? t Mi az adat? 1. Minden informáci ció,, amit tárolni t kell. szám szöveg dátum hang kép, stb. 8
A mértm rtékegységek gek többszt bbszöröseisei Adatbázis felépítése 1. kilo- k 10 3 2. mega- M 10 6 3. giga- G 10 9 4. tera- T 10 10 12 5. peta- P 10 10 15 1.Tábla (table( table) Ismérv, tulajdonság, változv ltozó,, Mező (field) Megfigyelési egység, g, szubjektum, Rekord (record) Oszlop = változv ltozó Sor = megfigyelési egység 6. exa- E 10 10 18 SI (Systém International d Unités) Tábla A jój adatbázis (kritériumok) riumok) 1. 1. minden mezőnek egyedi neve van 2. a mezők k elemi informáci ciót tartalmazzanak ID Év Hely Tömeg Hosszúság A jój adatbázis (kritériumok) riumok) 2. 3. nem lehet két k t egyforma sora 4. a sorok és s oszlopok sorrendje tetszőleges A jój adatbázis (kritériumok) riumok) 3. 5. ne tartalmazzon származtatott, kiszámított adatot (redundancia) 6. egy mező megváltoztat ltoztatása nem hathat ki más m mezőkre ID 1 2 3 4 5 Év Hely Tömeg Hosszúság ID 1 2 3 4 5 Év Nettó ÁFA Bruttó 9
Rossz adatbázis A jój adatbázis (kritériumok) riumok) 4. ID 1 Kérdés Hol? Válasz1 Itt Válasz2 Ott Válasz3 Amott Válasz4 Emitt Helyes 2 7. minden szüks kséges adatot tartalmaz 8. van elsődleges kulcsa ID 1 2 3 4 5 Év Hely Tömeg Hosszúság Gyakorlat adatbázisa Év Régió Árucikk Forgalom (kg/év) Ár (Ft/kg) Önköltség (Ft/kg) Terv_Forgalom (kg/év) 2000 Dél-Alföld Kenyér 142 088 103 124 158 849 2000 Dél-Alföld Paradicsom 138 054 183 190 123 771 2000 Dél-Alföld Csirkemell 26 247 960 823 25 106 2000 Dél-Alföld Sertéscomb 39 867 1132 998 41 399 2000 Dél-Alföld Marhahús 13 018 1247 987 13 349 2000 Dél-Alföld Trapista sajt 13 786 1059 866 12 294 2000 Dél-Alföld Császár szalonna 12 872 497 491 12 123 2000 Dél-Alföld Szendvics sonka 11 138 817 625 12 273 2000 Dél-Alföld Őrölt kávé 195 770 631 167 2000 Dél-Alföld Kaliforniai paprika 139 411 412 285 135 508 2000 Dél-Alföld Banán 2 825 237 190 2 459 2000 Dél-Dunántúl Kenyér 102 441 138 145 91 610 2000 Dél-Dunántúl Paradicsom 99 530 157 156 107 229 10