STATISZTIKA KÉSZÍTETTE: TAKÁCS SÁNDOR
ALAPFOGALMAK Statisztika: latin status szóból ered: állapot Mindig egy állapotot tükröz Véletlen tömegjelenségek tanulmányozásával foglakozik Adatok megfigyelés, kísérlet eredményei, mindig rögzítettek Mérhető adatok számokkal kifejezhetőek Megállapítható adatok pl: igen/nem Egy adat nem adat Minta egy vizsgálandó halmaz részhalmaza. A vizsgálandó halmazt mintasokaságnak, vagy populációnak nevezzük. Leíró statisztika: mintát önmagában tekinti, nem foglalkozik azzal, hogy mi van mögötte. Matematikai statisztika: a mintát eszköznek tekinti a populáció megismerésére Anekdota: a pénzügyminiszter letekint a Gellért hegyről a gyalogosokra, és mit lát? adóalanyokat
Mire jó a statisztika Görög bölcs mondája olajprések felvásárlása, majd eladása Nagyvállalat sikeres tanácsadója szélhámos tippeit a jósnőtől kapta Ne jusson el a információ a konkurenciához Milyen értéket képvisel a statisztika? Titkolják az alkalmazását? Student próba: Gasset az igazi szerző, Student fedőnév: sörgyári alkalmazott Minőségi ellenőrzés Szekvenciális analízis Columbia egyetem bizalmas kategóriába sorolták hintába ültetés
Stst ábrázolás Feladat
Rendszerezés Statisztika emberek vagy tárgyak csoportjait (mintáját) vizsgálja. Sokaság csoport (statisztikai sokaság) Egyedek a csoport tagjai Sokaság mérete: az egyedek száma Ismérv egyedek vizsgált tulajdonságai Tetszőleges számú ismérvet vizsgálhatunk Érdektelen ismérv felesleges vizsgálni Adat ismérv egy konkrét előfordulása Pl: vizsgáljuk az iskola tanulóit hajuk színe szerint. Sokaság: iskola tanulói Egyed: Szabó Kitti Sokaság mérete: 350 tanuló Ismérv: haj színe Adat: szőke (barna?)
feladatok 1. A cukorgyárban az egyik minőségi ellenőr azt vizsgálja, hogy mennyi cukrot töltenek a gépek a zacskókba. Ebben az esetben mi a statisztikai sokaság, és mi az ismérv? Mi az adat? 2. Készítsünk képzeletbeli vizsgálatot a drogot használók körében! Mi a statisztikai sokaság? Mik legyenek az ismérvek? Készítsünk a felméréshez kérdőívet! 3. Készítsünk felmérést a diákok kedvenc együtteseiről! Mi a statisztikai sokaság? Mik az ismérvek? Készítsünk a felméréshez kérdőívet!
Ismérvek és adatok fajtái Minősítéses ismérvek Számmal nem kifejezhető, vagy számmal jelölt, de nem szám jellegű ismérv Pl: egyed neme, kerület száma, utca neve New Yorkban Nincs értelme matematikai műveleteket végezni Rendezhető (pl: iskolai osztályzatok) Ha van értelme a rendezésnek Nem rendezhető (pl: hajszín) Méréses ismérvek Számmal meghatározható Van értelme matematikai műveleteket végezni Mindig rendezhető Diszkrét ismérv véges sok, vagy felsorolható értékeket vehet fel Folytonos ismérv bizonyos határok között bármilyen értéket felvehet
Gyakoriság Adat gyakorisága megmutatja, hogy hányszor fordul elő az adatok között. Gyakorisági táblázat (gyakorisági eloszlás): a lehetséges adatokat és azok gyakoriságát tartalmazza. Pl: iskolai felmérés, 40 diákot kérdezetek, kinek hány testvére van? Ismérv: testvérek száma Diszkrét A lehetséges értékek: 0,1,2,3,4 Testvérek száma Gyakoriság 0 7 1 19 2 9 3 4 4 1 Összese n 40
Osztályközös gyakoriság Az adatokat osztályokba soroljuk. Az osztályokon alapuló gyakorisági eloszlást osztályközös gyakoriságnak nevezzük. Mikor alkalmazzuk? Sok különböző adat, viszonylag kis gyakoriságokkal Folytonos ismérvek esetén Mire vigyázzunk? Osztályoknak nem lehet közös része Le kell fednie a teljes tartományt Osztályok száma Sem tú kevés, sem túl sok nem jó Általában 10-15 nél több ne legyen Ajánlás: k 0 : osztályok száma, N a sokaság mértéke k k 1 2 N 2 ; akkor k0 k 1 Pl: egy mozicsatorna szeptemberi filmjeinek hossza percben megadva (100 film) A legrövidebb: 29 perc A leghosszabb: 135 perc Ajánlás szerint 7 osztály (135-29)/7 15 perc, egy osztály szélessége Osztály Gyakoriság [29-44) 10 [44-59) 6 [59-74) 25 [74-89) 31 [89-104) 12 [104-120) 7 [120-135] 9
Relatív gyakoriság Ismérv relatív gyakorisága (gyakorisági sűrűsége) a gyakoriság és az adatok számának hányadosa Gyakoriság: k Sokaság mérete: N Relatív gyakoriság: k/n k 0 1 n Szokás százalékban is megadni Relatív gyakorisági táblázat (relatív gyakoriság szerepel) Testvérek száma Gyakoriság Relatív gyakoriság 0 7 17,5% 1 19 47,5% 2 9 22,5% 3 4 10% 4 1 2,5% Összesen 40 100%
Gyerekek száma Közlekedési eszköz Gyerekek száma Ábrázolási módok Oszlopdiagram Vízszintes oszlopdiagram Térbeli oszlopdiagram Oszlopok magassága az adatok nagyságát jelképezik Lehet a nagyságuk helyett a gyakoriságukat is ábrázolni Pl: tanulók a nyáron milyen közlekedési eszközzel utaztak nyaralni: Közlekedési eszköz Összesen Autó 9 Nyaralás 12 11 10 9 8 8 6 5 4 3 2 0 autó busz vonat repülőgép kerékpár Közlekedési eszköz Nyaralás kerékpár 3 5 vonat 8 11 autó 9 0 5 10 15 Gyerekek száma Busz 11 Vonat 8 Repülőgép 5 Kerékpár 3 12 10 8 6 4 2 0 Nyaralás autó vonat kerékpár Közlekedési eszköz
Gyerekek száma Gyerekek száma Oszlopdiagram Mikor használjuk? Gyakoriságot, relatív gyakoriságot, vagy valamilyen mennyiségeket szeretnénk összehasonlítani Adat időbeli változását akarjuk bemutatni Mikor ne használjuk? Ha az adatok közt van egy nagyon nagy. (a többi egymással nehezen hasonlítható össze) Ha az adatok nagyon kicsit különböznek egymástól Nyaralás 250 200 200 150 100 50 9 11 5 8 0 autó busz más repülőgép vonat Közlekedési eszköz Nyaralás 110 111 110 110 1 autó busz más repülőgép Közlekedési eszköz vonat
Hisztogram 4 3,5 3 2,5 Egy speciális oszlopdiagram Oszlopok közt nincsenek hézagok Gyakoriságok a téglalap területével arányosak Téglalap magassága: táblázatban szereplő gyakoriságokat osztjuk a megfelelő osztályköz szélességével Pl: tanulók tömegét mérték 100 tanuló esetében: 2 1,5 1 0,5 0 35 45 55 65 75 85 95 tömeg gyakoriság Oszlop magasság 30-40 2 0,2 40-50 10 1 50-60 24 2,4 60-70 35 3,5 70-80 19 1,9 80-90 6 0,6 90-100 4 0,4
január február március április május június július augusztus szeptember október november december hőmérséklet (C ) Töröttvonal-grafikon Valamely mennyiség időbeli változásának szemléltetésére használják. Más neve: vonaldiagram A pontokat összekötő szakaszok csak a változást érzékeltetik, két pont között nincs értelme értékről beszélni. 40 35 30 25 20 15 10 5 0 Átlaghőmérsékletek Tuinszban Hónap
Kördiagram Relatív gyakoriságok (elsősorban %- ban megadott) ábrázolására használjuk. Az ábrázolt százalékérték a körcikk középponti szögével egyenesen arányos. Kördiagram helyett néha tortadiagramot használnak. A középponti szögek torzulása miatt nem mindig ajánlott. Mikor használjuk? Százalékban megadott relatív gyakoriságokat akarunk ábrázolni Mikor ne használjuk? Ha túl sok az adat Sok kis adat mellett egy sokkal nagyobb van Pl: Pistike napi időtöltése: Iskola: 25% Alvás: 33% Evés: 8% Pihenés: 16% Házi feladat: 9% Egyéb: 9% 9% 16% 8% Pistike napi időtöltése 9% 25% 33% Iskola alvás evés pihenés házi feladat egyéb Pistike napi időtöltése 9% 9% Iskola 25% alvás evés 16% pihenés 8% házi feladat 33% egyéb
Feladatok Egy országos élelmiszer áruházlánc évi forgalmának megoszlása: Nem élelmiszer: 14,3% Egyéb élelmiszer: 6,7% Kávé: 2,9% Szeszesitalok: 9,7% Üditők, szörpök: 5,8% Konzervek, mirelit: 12,7% Tej, sajt, tejtermék: 19,5 Kenyér, péksütemény: 14,2% Zöldség, gyümölcs: 2,9% Édesipari áruk, fűszerek: 11,3% Ábrázoljuk a megoszlást kördiagramon! Mekkorák az egyes körcikkek középponti szögei? Ha az évi forgalom 20 milliárd forint volt, számítsuk ki, mennyi bevétel származott az egyes kategóriákból! Ennek bemutatására készítsünk oszlopdiagramot!
Sávdiagram Akkor használjuk, amikor a kördiagramot A százalékos adat egy téglalapban van megadva. Téglalap szélessége lényegtelen Téglalap hossza 100% A belsejében levő csíkok hossza a százalékos adatokkal arányos Ha több az adat, szerencsésebb, mint a kördiagram Függőleges helyzetű sávdiagram halmozott oszlopdiagram Adatok összehasonlítására egymás mellé helyezett halmozott oszlopdiagramokat használnak. Ha az oszlopok magassága az összmennyiséggel arányos, torzulnak a részletek Egyforma magasságú (100 %-ig halmozott oszlopdiagram) esetén a százalékos arány nyomon követhető 30 25 20 15 10 Sávdiagram 0% 20% 40% 60% 80% 100% 5 0 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Halmozott oszlop diagram 1 2 100%-ig halmozott oszlop diagram 1 2
Gyűrűdiagram A kördiagram egy részlete, egy körgyűrű-sávot levágunk a kördiagramból. több adathalmaz összehasonlítása: az egyes gyűrűkben ábrázolhatjuk a különböző adathalmazokat. Csak indokolt esetben, mert az egyforma típusú adatokat ábrázoló sávok elcsúszása egymáshoz viszonyítva zavaró lehet. Gyűrűdiagram Gyûrûdiagram összehasonlítással 8 6% 7 6% 9 23% 5 18% 1 6% 4 6% 2 12% 3 23% 8 16% 9 23% 8 6% 7 6% 7 22% 9 11% 5 18% 1 5% 2 1 8% 6% 2 12% 5 5% 4 6% 3 23% 4 19% 3 14%
Sugár Pókháló diagram ahány adat szerepel az adathalmazban, annyi egy pontból kiinduló félegyenest veszünk fel Sugár (Pókháló) diagram a szomszédosok egyforma szöget zárnak be. Minden egyes adatot a neki megfelelő félegyenesen ábrázolunk, a kapott pontokat egy törött vonallal összekötjük. Szintén az adatok változásának szemléltetésére alkalmas Az adatok változásának nagysága az egyenesek meredekségéből olvasható le 10 11 9 12 8 8 6 4 2 0 1 7 2 5 3 4 minél jobban az origó felé tart egy szakasz, annál jobban csökken az adat nagysága, és fordítva.
Módusz Az adathalmazból kapott, az adathalmazra jellemző számokat statisztikai mutatóknak nevezzük. Módusz: az adathalmazban előforduló adat, amelynek a legnagyobb a gyakorisága. Jel: Mo Ha a gyakoriság egyszer fordul elő egymóduszú, ha többször, többmóduszú eloszlás Pl: megfigyelik egy áruházban, hogy ki, hány palack ásványvizet vásárol egyszerre. Mo=5 Egyszerre vásárolt palackok száma Gyakoriság 1 32 2 16 3 4 4 43 5 65 6 51 7 7 8 3 9 1
Medián Az adathalmaz mediánja a nagyság szerint rendezett elemek közül a középső. Jel: Me A halmaz elemeit sorba kell rendezni Csak rendezhető adatoknak lehet mediánja Páratlan számú adat: Me a középső (van) Páros számú adat esetén: Me a két középső számtani közepe (nincs egy középső) A medián a sorba rendezett adatokat két részre osztja. A medián előtt ugyanannyi adat van, mint utána.
Kvartilisek A medián alatti adatok mediánja az alsó kvartilis: Q 1. Az alsó kvartilis alatt az adatok ¼ része, fölötte ¾ része van. A medián feletti adatok mediánja a felső kvartilis: Q 3. Az felső kvartilis alatt az adatok ¾ része, fölötte ¼ része van. A medián a középső kvartilis: Q 2 Q 1 Me Q 3
Számtani közép Két adat számtani közepe a két adat összegének a fele. Csak akkor van értelme, ha az összeg értelmezhető Méréses adatoknak van számtani közepe Minősítéses adatoknak nincs Több adat számtani közepét úgy kapjuk meg, hogy az adatokat összeadjuk, és elosztjuk az adatok számával. x x x x 1 2 2 x1 x2 x3... x n n i 1 n n x i
Súlyozott átlag Osztály Egységek száma Egységek értéke C 1 f 1 x 1 C 2 f 2 x 2 C i f i X i C k f k x k f1 x1 f2x2 f3x3... f x n vagy x k i 1 f n i x i k x k Összesen : n
Összefoglalás Minősítéses ismérv Méréses ismérv Nem rendezhető Rendezhető Diszkrét Folytonos módusz módusz módusz módusz medián medián medián számtani közép számtani közép Méréses ismérveknél mindhárom az adatok között helyezkedik el. (nagyobb, mint a legkisebb, kisebb mint a legnagyobb) A számtani közép nagyon érzékeny a kiugró értékekre. A medián ezzel szemben nem érzékeny a kiugró értékekre. Ezért néha használják számtani közép helyett, ha azt a kiugró értékek nagyon elvinnék A medián esetében pontosan annyi adat van előtte, mint utána
Szóródás Csak méréses adatokkal foglalkozunk Megmutatják, hogy az adatok mennyire tömörülnek a középértékek körül Szóródási mutatók Terjedelem Átlagos abszolút eltérés Szórás
Terjedelem A legkisebb és legnagyobb adat közti különbség a terjedelem Mértékegysége azonos a méréses ismérv mértékegységével A terjedelem intervallumában minden adat benne van Interkvartilis terjedelem: Q 3 -Q 1 különbsége Q 1 Me Q 3 1/4 ½ 1/4 Interkvartilis terjedelem
Hőmérsékletek Magyarország és Tunézia átlaghőmérsékleti adatai Készítsünk vonaldiagramot a két hőmérsékleti eloszlásról egy koordinátarendszerben Határozzuk meg a hőmérsékletek középértékeit Melyik ország átlaghőmérséklete körül tömörülnek jobban az adatok Számítsuk ki a terjedelmet mindkét esetben Jelöljük különböző színnel a grafikonon Hónap HU Tunézia január -2,0 C 16,0 C február 0,5 C 17,0 C március 4,0 C 19,0 C április 10,4 C 21,0 C május 13,1 C 25,0 C június 18,4 C 27,0 C Július 20,3 C 31,0 C augusztus 19,6 C 32,0 C szeptember 15,6 C 31,0 C Október 10,2 C 26,0 C November 4,4 C 20,0 C december -0,1 C 17,0 C
Apák-fiúk magassága Állapítsuk meg a táblázat alapján, hogy az apák, vagy a fiúk magasságainak átlaga körül tömörülnek jobban az adatok! Állapítsuk meg az apák és a fiúk esetében is: Me,Q1,Q3 Mely adatok találhatók az interkvartilis terjedelem intervallumában? Apák Fiúk 167 164 168 166 169 166 171 168 172 169 172 170 174 170 175 171 176 173 182 177
Hiányzások A táblázat azt mutatja, hogy egy 30 fős osztály tanulói mennyit hiányoztak 5 hónap alatt. Számítsuk ki, hogy az osztály tanulói átlagosan mennyit hiányoztak! Mi a minta terjedelme, mediánja, módusza? Állapítsuk meg az interkvartilis terjedelmet! Mulasztott napok száma 7 8 3 9 4 2 3 0 4 5 3 2 4 2 3 5 3 8 1 6 6 5 0 3 4 6 1 4 1 5
Átlagos eltérések Vizsgáljuk meg a Magyarország havi középértéktáblázatában, hogy az egyes hónapok középhőmérsékletei mennyire térnek el az átlagtól! (havi középhőmérsékletből kivonjuk az átlagot) havi középhőmérsékletek átlaga: 9,53 C Pl. januárra: x1 x1 x 2 9,53 11,53 Hónap január február március április május június Július augusztus szeptember Október November december HU -2,0 C 0,5 C 4,0 C 10,4 C 13,1 C 18,4 C 20,3 C 19,6 C 15,6 C 10,2 C 4,4 C -0,1 C
Számítsuk ki, hogy mennyi az átlagos eltérés az átlagos középhőmérséklethez képest! x x x2... 12 12 1 x Mennyi lett az eredmény? Az eredmény: 0 az adatok az átlagtól átlagosan nem térnek el bizonyítható, hogy az eltérések összege mindig 0 a pozitív és negatív számok kiegyenlítik egymást nem sok információval szolgál
Átlagos abszolút eltérés a számtani középtől Vegyük az eltérések abszolút értékét: x x 1 x Mennyi az eredmény? az eredmény: 6,7925 2 12... x12 Meghatározás: A számtani középtől való átlagos abszolút eltérés az eltérések abszolút értékének számtani közepe. x x 1 x 2 n... x n
Átlagos abszolút eltérés Definíció: Egy adott a valós számtól vett átlagos abszolút eltérés az adathalmaz értékeinek az adott a számtól vett eltérések abszolút értékeinek számtani közepe. x a x 1 a x 2 a n... Feladat: Határozzuk meg a leghidegebb és a legmelegebb hónap középhőmérsékletétől vett átlagos abszolút eltérést! Megjegyzés: Az a számtól vett átlagos abszolút eltérés az abszolútérték-függvény tulajdonságai miatt akkor a legkisebb, ha az a szám a mediánnal egyenlő. (a=me) Definíció: Az átlagos abszolút eltérés a mediántól vett eltérések abszolút értékeinek számtani közepe. x n a x x Me x 1 Me x 2 Me n... x n Me
Feladatok 1. Határozzuk meg Magyarország klímatáblázata alapján a havi középhőmérsékletek mediánját, majd az átlagos abszolút eltérést! 2. Az alábbi táblázat a munka alól felmentésüket kérő rabok életkorát mutatja egy fegyintézetben. 18 20 25 30 37 18 22 27 32 55 60 32 35 45 47 51 18 23 37 42 57 62 75 67 65 Számítsuk ki a minta terjedelmét, a számtani középtől vett átlagos abszolút eltérését és az átlagos abszolút eltérését!
Feladatok 3. Tizenkét diák részére matematikából egyhetes intenzív verseny-előkészítőt tartottak. A hét végén egy 50 pontos felmérőt írtak. Az alábbi eredmények születtek: 42 29 21 37 40 33 38 26 29 47 30 45 Mi az adatok mediánja és számtani közepe? Számítsuk ki a számtani középtől vett átlagos eltérést és az átlagos abszolút eltérést!
Szórás ha a különböző előjelű számok semlegesítő hatását négyzetre emeléssel szűntetjük meg, egy adott számtól való átlagos négyzetes eltérést kapjuk. x ha a=, akkor minimális szórásnégyzet Definíció: A szórásnégyzet az eltérések négyzetének számtani közepe. 2 2 x 2 x1 x x2 x... xn n A szórás a szórásnégyzet négyzetgyöke. 2 2
Feladatok 1. Számítsuk ki a klímatáblázat szórását! 2 =59,2489 =7,69 2. Számítsuk ki a következő adatok számtani közepét és szórását: a. 1;4;8;9;10; b. 3,2;4,7;5,1;5,2;6,3 c. 103;109;110;112;125;131 d. -5;-2;0;1;2;3