Statisztika I. 1. előadás: A statisztika alapfogalmai Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Óbudai Egyetem
A kurzusról A kurzus célja A statisztika I. az adatok felvételével, főbb jellemzőivel foglalkozik. A végén megismerkedünk a statisztikai minta fogalmával, felvételével és a mintából az alapsokaságra való következtetéssel. A tárgy kreditpontszáma: 3 Heti óraszám: 1 előadás + 2 gyakorlat A kurzus weboldala: http://uni-obuda.hu/users/koczyl/statisztika1.htm Tematika Előadások fóliái Házifeladatok Régi vizsgafeladatok
Oktatók Előadó Kóczy Á. László (koczy.laszlo@kgk.uni-obuda.hu) Fogadóóra: kedd 11:15 11:30, TC212 Gyakorlatvezetők KM: GM: Nagy Viktor (nagy.viktor@kgk.uni-obuda.hu) Mikor és milyen problémákban tudunk segíteni 1 Nem ért valamit megkérdezni előadás közben, gyakorlaton 2 Házi leadás gyakorlaton 3 Egyéni tanrend/felmetés/igazolás írásbeli kérvény előadás után/fogadóórán 4 Megnézné a ZH dolgozatát fogadóórán 5 TDK-zni szeretne előzetes egyeztetés alapján 6 Egyéb óhaj-sóhaj lehetőleg fogadóórán
Jegyzet Általános Statisztika I-II. Szerkesztette: Korpás Attiláné dr. Nemzeti Tankönyvkiadó, Budapest Általános Statisztika Példatár I-II. Szerkesztette: Molnár Máténé dr Tóth Mártonné dr. Nemzeti Tankönyvkiadó, Budapest Hogyan használjuk? Kurzus = könyv, elejétől a végéig tudni kell Érteni, nem bemagolni ZH-k a könyv és a feladatgyűjtemény feladatai alapján Minden gyakorlat után vegyünk át 4-5 típuspéldát.
Követelmények és számonkérés A hallgató 1 Részt vesz a gyakorlatokon (min. 70%). 2 Legalább 1 zh-t ír a szorgalmi időszakban. 3 A két legjobban zh összesen 50+ pontos VAGY a pót zh 25+ pontos VAGY 4 a pót-pót zh 25+ pontos. 5 Egyéni tanrend: Csak az 1. alól felmentve. Ha 1 3. nem teljesül: letiltva nincs javítás Ha 1 3. teljesül, 4. nem: megtagadva Ha ezután 5. sem teljesül: letiltva Ha 5. teljesül: aláírás. Ha 1 4. teljesül: aláírás.
Értékelés A hallgató ponteredménye = A két legjobb ZH pontszámának összege, VAGY A pót-zh pontszámának kétszerese, VAGY A pót-pót-zh pontszámának kétszerese 0 49 elégtelen (1) 50 62 elégséges (2) 63 74 közepes (3) 75 85 jó (4) 86 100 jeles (5) Statisztika TDK, szakdolgozat, tudományos kutatás pluszpontot érhet.
Mibe kerül egy ingatlan? Az attól függ... Típus, méret, szobák száma, elhelyezkedés, fűtés típusa, emelet, terasz, lift, extrák... Statisztika A valóság tömör, számszerű jellemzésére szolgáló tudományos módszertan, illetve gyakorlati tevékenység.
A statisztika fajtái Statisztika, mint gyakorlati tevékenység A tömeges jelenségek egyedeire vonatkozó információk gyűjtése, feldolgozása, elemzése, a vizsgált jelenség tömör számszerű jellemzése.
A statisztika fajtái eladott budai kétszobás lakások száma? VIII. kerületi négyzetméterár? Leíró statisztika: Információk összegyűjtése, összegzése, rendszerezése Statisztikai következtetés: Szűkebb csoport megfigyeléséből következtetés az egészre eladott lakások átlagára átlagos érték mennyit kérhetek? I. félévi árak érdemes most eladni? megéri-e eladás előtt ablakot cserélni?
Sokaság Statisztikai sokaság A megfigyelés tárgyát képező egyedek (pl. ingatlanok) összessége, halmaza. Az egyedeket a sokaság egységeinek nevezzük. A sokaság lehet diszkrét vagy folytonos álló lakosság hitelállomány vagy mozgó látogatók gázfogyasztás
A statisztikai ismérv Statisztikai ismérv A statisztikai sokaság egyedeit jellemző tulajdonság. Az ismérv lehetséges kimenetelei az ismérvváltozatok. alternatív Kétféle értéket vehet fel. Pl férfi/nő. közös A sokaság minden tagjára jellemző megkülönböztető a sokaság tagjait megkülönbözteti egymástól időbeli idő(szako)t jelző ismérv területi minőségi számszerűen nem mérhető tulajdonság mennyiségi számszerűen mérhető/megszámlálható tulajdonság ismérvértékek
Ismérvek fajtái Cím területi ismérv (mindig minőségi) Típus minőségi, megkülönböztető ismérv Szobák mennyiségi ismérv Nm mennyiségi ismérv Emelet, állapot, kilátás, fekvés minőségi ismérv Erkély, lift alternatív ismérv Mióta eladó, mikor épült időbeli ismérv
A statisztikai mérés, adat és mutatószám Mérés Számok szabályok szerinti hozzárendelése jelenségekhez, illetve tulajdonságaikhoz. 4-féle mérési szint, ill. skála névleges Számok kötetlen hozzárendelése. Rendszám, irsz. Címke! sorrendi Rangsor szerinti hozzárendelés. különbségi Önkényes 0. Különbség számolható. (hőmérséklet) arányskála Valódi 0. Arány is számolható. (hosszúság, jövedelem,..) A statisztikai adat Sokaság elemeinek száma v. másféle jellemzője, mérési eredménye. alap-, vagy leszármaztatott adatok
Adatgyűjtés gyorsaság elfogadható pontosság gazdaságosság teljes körű v. részleges Reprezentatív Monográfia egyéni kérdőív v. lajstrom önszámlálás v. kikérdezés
Hiba Adatfeldolgozás, adatközlés során, v. mintavételben Abszolút hiba a = A Â, ahol A = valóságos, Â = mért adat Abszolút hibakorlát (â). A Â ± â. Relatív hiba α = a A Relatív hibakorlát: ˆα = ââ.
Statisztikai csoportosítás Csoportosítás A sokaság átfedésmentes és teljes felosztása egy megkülönböztető ismérv szerint. Csoportosító sor Osztály Egységek száma C 1 f 1 C 2 f 2. C i. C k Összesen. f i. f k N A csoportosító sor lehet minőségi mennyiségi területi idősor kombinatív
Összehasonĺıtás A csoportosítás Két, vagy több statisztikai adat viszonyítása. Sorba rendezve: Összehasonĺıtó sor Különböző időpontok: idősor Területi alapon: összehasonĺıtó területi sor
Viszonyszámok Viszonyszám Két, logikai kapcsolatban álló statisztikai adat hányadosa. Azonos fajta adatokból számolva Megoszlási: részsokaságok aránya az egészhez Koordinációs: részsokaságok aránya egymáshoz Dinamikus: két idősza/időpont adatainak hányadosa Különböző fajta, mértékegységű adatokból számolva intenzitási (telefon/1000 lakás)
Átlagok Átlagok Azonos fajta adatok tömör jellemzésére használjuk. Átlagolandó értékek: X 1, X 2, X 3,..., X N. Számtani: X = Súlyozott számtani: X = N i=1 X i N k i=1 f i X i k i=1 f i Harmonikus: X h = N N i=1 1 X i = k i=1 f i k f i i=1 X i Mértani: X g = N N i=1 X i = k i=1 f i k i=1 X f i Négyzetes: X q = X min X h X g X X q X max N k i=1 X i 2 i=1 N = f i Xi 2 k i=1 f i i
Ismérv szerinti rendezés Hogyan rendszerezzünk ennyi lakást? Minőségi: cím, emelet, komfort, fekvés Mennyiségi: diszkrét: szobák száma véges, v megszámlálhatóan végtelen értéket vehet fel folytonos: alapterület, ár, rezsi, gázfogyasztás bármilyen értéket felvehet: egy 54ñm-es lakás lehet 53,78, vagy 54,003ñm-es, bármi 53,5 és 54.5 között. (a pontosság kedvéért: minden racionális szám (a tizedestörttel feĺırhatók is ide tartoznak) megszámlálható, a gond az irracionális számokkal van, pl ha a lakás kör alapterületű.) Rangsor
Gyakorisági sorok
Gyakorisági sorok Csoportosító sor A sokaság egységeinek mennyiségi ismérv szerinti osztályozása. HA az ismérvváltozatok száma kicsi, 1-1 ismérvváltozat szerint. HA nagy, több ismérvértéket magukba foglaló intervallumok, ún. osztályközök szerint. Gyakoriság (f i ) Az egy-egy csoportba/osztályközbe tartozó egységek száma. Relatív gyakoriság (g i = f i N ) Az egy csoportba/osztályközbe tartozó egységek (százalékos) részesedése. Ha az osztályok 1 ismérvértékből állnak, (gyakorisági) eloszlás, osztályközök esetén (gyakorisági) megoszlás.
Gyakorisági sorok általános sémája Ismérvérték GyakoriságRelatív gyakoriság X i f i g i X 1 f 1 g 1 X 2 f 2 g 2. X i. f i g i.. X k f k g k Összesen N1 Az osztályközök GyakoriságRelatív gyakoriság Alsó határa Felső határa f i g i X 1 X 1 f 1 g 1 X 2 X 2 f 2 g 2.... X i X i f i g i....
Osztályközök Az osztályközök meghatározása Minden ismérvérték pontosan 1 osztályba tartozzon Számuk a legkisebb k, melyre 2 k > N Hosszuk h = Xmax X min k Nagy X max X min különbség, egyenetlen eloszlás esetén nem egyforma osztályközök.
Kumulatív gyakoriság Kumulatív gyakoriság (f i ) A felső értékhatárnak megfelelő, vagy kisebb ismérvértékek előfordulásának száma. Kumulatív relatív gyakoriság (g i ) A felső értékhatárnak megfelelő, vagy kisebb ismérvértékek előfordulásának aránya. Lefelé kumulatív (relatív) gyakoriság (f i (g i )) Az alsó értékhatárnak megfelelő, vagy nagyobb ismérvértékek előfordulásának száma (aránya).
Értékösszegsorok Értékösszegsor A mennyiség ismérv alapján kialakított osztályokhoz az odatartozó egységek ismérvértékeinek összegét (S i ) rendeli. A sokaság teljes értékösszege S = k i=1 f i X i. Osztályközös gyakoriság esetén... a tényleges értékösszeg csak az eloszlás ismeretében határozható meg. egyébként az osztályközépsőből (X i = x i +x i 2 ) becsüljük. A relatív értékösszeg az a megoszlási viszonyszám, ami az osztályok értékösszegét (S i ) a teljes értékösszeghez (S) viszonyítja.
Grafikus ábrázolás: Definíciók Hisztogram Hézagmentesen illesztett téglalapokkal szemléltet. Egyenlő osztályközök esetén területük arányos a relatív gyakorisággal. Különböző osztályközhosszúságok esetén magasságuk az egységnyi osztályközhosszra jutó gyakoriság (( fi h i ), vagy ( gi h i )) sűrűséghisztogram. Gyakorisági poligon Az osztályközepeknél felmért gyakoriságok pontjait egyenes szakaszokkal összekötő vonaldiagram.
Gyakorisági sorok grafikus ábrázolása Osztályok: bot-ábra Osztályközök: hisztogramgyakorisági poligon
Helyzetmutatók: Módusz Módusz (Mo) A leggyakoribb elem a sokaságban tipikus érték Szimmetrikus a megoszlás: modális osztályköz közepe. Amúgy Mo = mo + k 1 k 1 + k 2 h mo: a mod. osztályköz alsó határa k 1 (k 2 ): a mod. és megelőző (követő) osztályköz gyakorisága különbsége h: a modális osztályköz hossza.
Medián Medián (Me) Ugyanannyi kisebb és nagyobb érték. A = Me minimalizálja a N i=1 X i A -t Ha az elemszám páratlan a medián -edik ismérvérték. Ha páros, az N 2 és N 2 + 1-edik ismérvértékek átlaga az N+1 2 Osztályközös gyakoriság esetén az i-edik osztályköz tartalmazza, ha f i 1 N 2 f i
Átlag Átlag (X ) Az ismérvértékek összegének és a sokaság elemszámának hányadosa; az ismérvértékek számtani átlaga. X = N i=1 X i N Gyakorisági sor esetén súlyozott átlag X = N i=1 f i X i N i=1 f i Megoszlásból becsült érték, súlyozott harmonikus átlag: X = N i=1 S i N S i i=1 X i (X i az osztályközép, S i az i-edik értékösszeg.)
Kvantilisek q-ad rendű, vagy q-adik kvantilis (Q q ) Az ismérvértékek rangsorát q : (1 q) arányban osztó ismérvérték Q q = X i, ha f i 1 N q f i Gyakori kvantilisek: Tercilisek: Q 1 = T 1 (alsó tercilis), Q 2 3 3 Kvartilisek: Q 1 4 = T 2 (felső kvartilis) Kvintilisek: Q i = K i 5 Decilisek: Q i = D i 10 Percentilisek: Q i = P i 100 Q 3 4 = Q 1 (alsó kvartilis), Q 2 4 = T 2 (felső tercilis) = Me (medián), Q j k meghatározása, mint a mediáné: Rangsorból [ kiindulva ] m = j k (N + 1)
Szóródás Szóródás Azonos fajta számszerű adatok különbözősége. Léteznek abszolút és relatív mutatói. Gyakran használt mérőszámok: a szóródás terjedelme az átlagos eltérés szórás átlagos különbség relatív szórás
A szóródás terjedelme Szóródás terjedelme (R) Az előforduló legnagyobb és legkisebb ismérvérték különbsége: R = X max X min. Interkvantilis terjedelemmutatók A két szélső kvantilis különbsége. Pl. D 9 D 1.
Átlagos eltérés Átlagos eltérés (δ) Az értékek számtani átlagtól vett abszolút eltérésének átlaga. Ha d i = X i X, illetve δ = N i=1 X i X = N k i=1 δ = f i X i X k i=1 f = i N i=1 d i, N k i=1 f i d i k i=1 f. i
Szórás Szórás (σ) Az értékek számtani átlagtól vett eltérésének négyzetes átlaga. Ha d i = X i X, σ = σ = N i=1(x i X) 2 N i=1 N = d2 i N k i=1 f i(x i X) 2 k = i=1 f i, illetve k i=1 f i di 2 k. i=1 f i A szórásnégyzet (σ 2 ) más néven variancia. Eltérés-négyzetösszeg: SS = N ( i=1 Xi X ) 2, illetve SS = N i=1 f ( i Xi X ) 2. Relatív szórás V = σ X
Szórás tulajdonságai δ σ. σ Xi +A = σ Xi σ B Xi = B σ B Xi 2 2 σ = X q X
Átlagos különbség Átlagos különbség vagy Gini-féle szóródási mérőszám (G) Az ismérvértékek egymástól számított abszolút különbségeinek számtani átlaga. G = N N i=1 j=1 X i X j k k i=1 j=1 N 2 illetve G = f if j X i X j N 2
Pearson-féle mutató A számtani átlag és a módusz viszonyán alapul: Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok Az aszimmetria és mérőszámai bal oldali szimmetrikus jobb oldali aszimmetria eloszlás aszimmetria Mo < Me < X Mo = Me = X Mo > Me > X Q 3 Me > Me Q 1 Q 3 Me = Me Q 1 Q 3 Me < Me Q 1 A > 0 A = 0 A < 0 F > 0 F = 0 F < 0
Koncentráció Koncentráció A sokasághoz tartozó teljes értékösszeg jelentős része kevés egységre összpontosul. (Általában: tömörülés, összpontosulás) A relatív gyakoriságok (g i ) és relatív értékösszegek (Z i ) összehasonĺıtásával mutatható ki. Lorenz-görbe kumulált relatív értékösszeg a kum. gyakoriságok függvényében. Koncentrációs együttható (K) koncentrációs terület aránya az átló alatti területhez. K = G 2X.
Idősorok Idősor (Y 1, Y 2,..., Y t,..., Y n ) Társadalmi/gazdasági jelenség egyenlő időközönként mért értékei. állapotidősor, v. : álló sokaságok időbeli változását mutatja; állapotfelvételek eredménye. tartamidősor: mozgó sokaságok időbeli változását mutatja; időtartam folyamán bekövetkezett események. Dinamikus viszonyszámok Bázisviszonyszám b t = Yt Y b b t = l b+1 l b+2... l t = t i=b+1 l i Láncviszonyszám l t = Yt l t = Y t 1 bt b t 1
Idősorok grafikus ábrázolása Vonaldiagrammal, a vízszintes tengelyen az időszakok, a függőleges tengelyen az idősor adatai.
Idősorok elemzése: Átlagos értékek Tartamidősorok Az adatok összegezhetők. n t=1 Y = Y t n A jelenség egy időszakra jutó átlagos értéke. (Pl. egy weboldal átlagos látogatottsága) Állapotidősorok Az összegzésnek nincs értelme: kronologikus átlag Y k = Y k = Y 1 +Y 2 2 + + Y n 1+Y n 2 n 1 Y 1 2 + n 1 t=2 Y t + Yn 2 n 1 Egyfajta súlyozott átlag.
Idősorok elemzése: Átlagos változás vizsgálata Fejlődés átlagos mértéke A bekövetkezett átlagos abszolút nominális változás d = (Y 2 Y 1 ) + (Y 3 Y 2 ) + + (Y n Y n 1 ) n 1 = Y n Y 1 n 1 Fejlődés átlagos üteme A bekövetkezett átlagos relatív változás l = n 1 l 2 l 3 l n = n 1 n t=2 l t = n 1 Yn Y 1
1/2. feladat (részlet) Néhány sokaság a Az 1994-ben Magyarországon kiadott könyvek összessége. Természetes az egység (kötet), összegzés, tehát diszkrét, mozgó. b Az iskolai könyvtárak könyvállománya 1994. január 5.-én. c Természetes az egység (kötet), pillanatfelvétel, tehát diszkrét, álló. Üzembe helyezett beruházások nagysága 1994-ben Forintban, vagy euróban? Nincs természetes egység, összegzés, tehát folytonos, mozgó. Nevezzük meg a sokaságok típusát!
1/5. feladat A hazánkba érkező turisták közül legtöbben Romániából (5498 ezer fő), Németországból (2838 ezer fő) és Jugoszlávia utódállamaiból (2585 ezer fő) érkeztek 1992-ben. Ismerjük továbbá, hogy Európából összesen 16688 ezer fő, Ázsiából 151 ezer fő, Afrikából 20 ezer fő, Amerikából 304 ezer fő, Ausztráliából és Óceániából pedig 25 ezer turista érkezett. Rendezzük az adatokat statisztikai sorokba! Terület ezer fő Románia 5498 Németország 2838 volt Jugoszlávia 2585 egyéb Európa 5767 Ázsia 151 Afrika 20 Amerika 304 Ausztrália és Óceánia 25
1/7. feladat érték X i súly f i 6 6 16 3 20 1 a) Számítsuk ki a súlyozott számtani, harmonikus, mértani és négyzetes átlagát! b) Állapítsuk meg az átlagok nagyságrendjét! c) Határozzuk meg a f i (X i A) 2 kifejezés értékeit a következő A értékek mellett: 5, 6, 8, és X! Súlyozott számtani közép: k i=1 f i X i k = 6 6+16 3+20 1 i=1 f 6+3+1 = 104 10 = 10, 4 i Szorzat összege összeg szorzata!!! Súlyozott harmonikus közép: k i=1 f i k f i = 6+3+1 6 i=1 X 6 + 3 16 + 1 20 i = 10 1,2375 = 8, 08.
1/7. feladat - a) folytatás + b) Súlyozott mértani közép: ki=1 f i k i=1 X f i i = 6+3+1 6 6 16 3 20 1 = 10 3822059520 = 9, 08. Súlyozott négyzetes közép: k i=1 f i Xi 2 k i=1 f i = 6 2 6+16 2 3+20 2 1 6+3+1 = 1384 10 = 11, 76. Sorrend: harmonikus < mértani < számtani < négyzetes.
1/7. feladat c) fi (X i A) 2 = 6 (6 5) 2 + 3 (16 5) 2 + 1 (20 5) 2 = 6 1 + 3 121 + 1 225 = 599. Ugyanez A = 6, 8 és 10, 4-re számolva 502, 368, és 312,8: fi (X i A) 2 = 6 (6 6) 2 + 3 (16 6) 2 + 1 (20 6) 2 = 6 0 + 3 100 + 1 196 = 502. fi (X i A) 2 = 6 (6 8) 2 + 3 (16 8) 2 + 1 (20 8) 2 = 6 4 + 3 64 + 1 144 = 368. fi (X i A) 2 = 6 (6 10, 4) 2 +3 (16 10, 4) 2 +1 (20 10, 4) 2 = 6 19, 36 + 3 31, 36 + 1 92, 16 = 312, 8.
2. Feladat/3. Medián, átlag A mediánt tartalmazó osztályköz ahol elérjük a 35+1 2 = 18. elemet: 31-50. Medián Me = me + N 2 f me 1 f me h = 30 + 35 2 9 12 20 = 44, 2 (Súlyozott) átlag X = 46, 86. N i=1 f i X i N i=1 f i = 9x20+12x40+7x60+7x80 9+12+7+7 = 1640 35 =
2. Feladat/4. Kvantilisek (Kvadrilisek) Alsó kvartilis ( j k = 1 4 ): 0 = f 0 < j k N = 1 435 = 8.75 < f 1 = 9 Q 1 = a 1 + N 4 f 1 1 f 1 h = 0 + 35 4 0 9 20 = 19, 44 Felső kvartilis ( j k = 3 4 ): 21 = f 2 < j k N = 3 435 = 26, 25 < f 3 = 28 Q 3 = a 1 + 3N 4 f 2 h = 50 + 3x35 4 21 7 20 = 65 f 3
2. Feladat/5. Szórás, aszimmetria Szórás σ = k = 9(20 46,86) 2 + +7(80 46,86) 2 9+ +7 = i=1 f i(x i X) 2 k i=1 f i 2039 35 = 7, 63. Pearson-féle mutató A = X Mo σ F-mutató F = (Q 3 Me) (Me Q 1 ) = 46,86 37,5 7,63 = 1, 23 (Q 3 Me)+(Me Q 1 ) = (65 44,2) (44,2 19,44) (65 44,2)+(44,2 19,44) = 20,8 24,76 20,8+24,76 = 3,96 45,56 = 0, 0869