Bevezetés a statisztikába



Hasonló dokumentumok
Biomatematika 2 Orvosi biometria

[Biomatematika 2] Orvosi biometria

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Segítség az outputok értelmezéséhez

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

[Biomatematika 2] Orvosi biometria

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 2 Orvosi biometria

Kutatásmódszertan és prezentációkészítés

Elemi statisztika fizikusoknak

Biomatematika 13. Varianciaanaĺızis (ANOVA)

A leíró statisztikák

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

6. Előadás. Vereb György, DE OEC BSI, október 12.

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

[Biomatematika 2] Orvosi biometria

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

A valószínűségszámítás elemei

Microsoft Excel Gyakoriság

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biostatisztika VIII. Mátyus László. 19 October

Adatok statisztikai értékelésének főbb lehetőségei

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

18. modul: STATISZTIKA

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Vargha András Károli Gáspár Református Egyetem Budapest

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Változók eloszlása, középértékek, szóródás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

A Statisztika alapjai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

y ij = µ + α i + e ij

Matematikai statisztika

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Matematika feladatbank I. Statisztika. és feladatgyűjtemény középiskolásoknak

matematikai statisztika

Bevezetés az SPSS program statisztikai alapjaiba. Előadó: Dr. Balogh Péter

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Biostatisztika Összefoglalás

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Korrelációs kapcsolatok elemzése

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Biostatisztika Összefoglalás

Mérési hibák

Bevezető Mi a statisztika? Mérés Csoportosítás

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Populációbecslések és monitoring

Gyakorló feladatok. Az alábbi feladatokon kívül a félév szemináriumi anyagát is nézzék át. Jó munkát! Gaál László

Matematikai statisztika c. tárgy oktatásának célja és tematikája

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

1/8. Iskolai jelentés. 10.évfolyam matematika

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Populációbecslések és monitoring

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Varianciaanalízis 4/24/12

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

Mérési adatok illesztése, korreláció, regresszió

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Biomatematika 8. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Iskolai jelentés. 10. évfolyam szövegértés

[GVMGS11MNC] Gazdaságstatisztika

Statisztika 10. évfolyam. Adatsokaságok ábrázolása és diagramok értelmezése

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

MINTAFELADATOK. 1. Az alábbi diagram egy kiskereskedelmi lánc boltjainak forgalomkoncentrációját szemlélteti:

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

[Biomatematika 2] Orvosi biometria

Függetlenségvizsgálat, Illeszkedésvizsgálat

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

NEVEZETES FOLYTONOS ELOSZLÁSOK

[Biomatematika 2] Orvosi biometria

Hipotézis vizsgálatok

A konfidencia intervallum képlete: x± t( α /2, df )

Átírás:

Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 9. Bevezetés a statisztikába Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: October 5, 2006 Version 1.25

Table of Contents 1 Statisztika: Bevezetés, alapfogalmak 5 2 Adatgyűjtés, mintavételi eljárások 18 2.1 Véletlen mintavétel.......... 21 2.2 Szisztematikus mintavétel...... 22 2.3 Kiegyensúlyozás, rétegezett mintavétel 23 3 Az adatok 26 3.1 Mérési skálák............. 30 3.2 Számítógépes statisztikai programok 34

Table of Contents (cont.) 3 4 Adatok összegzése, sűrítése 35 4.1 Gyakorisági táblázatok........ 35 4.2 Adatok grafikus reprezentációja... 40 4.3 Kvalitatív adatok........... 40 Oszlopdiagram (bar chart).... 41 Tortadiagram (pie chart)..... 44 4.4 Kvantitatív adatok.......... 44 Pontdiagramok (dotplots).... 45 Hisztogramok........... 48 4.5 Középértékek............. 54

Table of Contents (cont.) 4 Átlag............... 55 Medián.............. 58 Módusz.............. 64 4.6 A szóródás mérőszámai....... 69 Terjedelem............ 70 Interkvartilis terjedelem...... 71 Tapasztalati szórás és variancia.. 76

Section 1: Statisztika: Bevezetés, alapfogalmak 5 1. Statisztika: Bevezetés, alapfogalmak A statisztika szó különböző jelentései: 1. A statisztika, mint tudományág. 2. A statisztikai módszerek összessége. 3. Egy kimutatás, egy statisztika (pl. Magyarország statisztikai leírása a népszámlálási adatok alapján). 4. A statisztika tudományán belül adatokból, valószínűségi változókból számított mennyiség (pl. a t-statisztika).

Section 1: Statisztika: Bevezetés, alapfogalmak 6 A statisztika olyan tudomány, amely adatok összegyűjtésével, rendszerezésével, és értelmezésével foglalkozik abból a célból, hogy valamilyen, a valós életben felmerült kérdésre választ találjon. Például: Okoz-e tüdőrákot a dohányzás? Több tanítási módszer közül melyik a legjobb? Egy új vakcina hatásos-e egy bizonyos fertőzés ellen?

Section 1: Statisztika: Bevezetés, alapfogalmak 7 Biometria: az élővilággal kapcsolatos, a véletlen által befolyásolt jelenségeket elemző statisztikai módszerekkel foglalkozik (más elnevezés: biostatisztika). A véletlentől függő események jellemzőiről úgy nyerhetünk képet, hogy az eseményt leíró változókról adatokat gyűjtünk. Az összegyűjtött adatokat különböző módon használhatjuk fel. Ettől függően a statisztikát két részre oszthatjuk: leíró, illetve induktív statisztikára.

Section 1: Statisztika: Bevezetés, alapfogalmak 8 Leíró statisztika: olyan módszerek, amelyek az összegyűjtött adatok leírására szolgálnak. Példa. Tipikus példa a népszámlálás, amikor mindenkinek felveszik az adatait. Ha a 10 millió adatot elénk teszik, azzal semmire sem megyünk. Ezt az óriási adathalmazt sűrített formában ábrázolják: grafikonok, átlagok és egyéb statisztikai mutatók segítségével.

Section 1: Statisztika: Bevezetés, alapfogalmak 9 Induktív statisztika: olyan módszerek, amelyeket arra használnak, hogy egy minta alapján következtessenek a populáció tulajdonságaira. Példa. az egyes tévéműsorok nézettségének vizsgálata; választás előtti közvéleménykutatás. A következtetések alapjául a valószínűség-számítás szolgál.

Section 1: Statisztika: Bevezetés, alapfogalmak 10 Populáció: a vizsgálat tárgyát képező egyedek összessége (alapsokaságnak is hívják).

Section 1: Statisztika: Bevezetés, alapfogalmak 11 Minta: a populációból a vizsgálat céljára kiválasztott egyedek összessége (a populáció egy részhalmaza).

Section 1: Statisztika: Bevezetés, alapfogalmak 12 Megválaszolandó kérdés: Alacsony zsírtartalmú étrend csökkenti-e az infarktus veszélyét?

Section 1: Statisztika: Bevezetés, alapfogalmak 13 Következtetés: a feltett kérdés szempontjából mit mond számunkra a minta az egész populációról?

Section 1: Statisztika: Bevezetés, alapfogalmak 14 Példa. Populáció: a megfázással küszködő emberek

Section 1: Statisztika: Bevezetés, alapfogalmak 15 Válasszunk két véletlen mintát. Az egyikben adjunk C vitamint, a másikban placebót az embereknek.

Section 1: Statisztika: Bevezetés, alapfogalmak 16 Kérdés: hatásosabb-e a C vitamin, mint a placebo?

Section 1: Statisztika: Bevezetés, alapfogalmak 17 Következtetés: mit mutat a két minta a teljes populációra vonatkozóan?

Section 2: Adatgyűjtés, mintavételi eljárások 18 2. Adatgyűjtés, mintavételi eljárások A statisztikai vizsgálatok és következtetések torzítatlansága érdekében garantálni kell, hogy a kiválasztott minta jól reprezentálja a populációt. A minta akkor lesz reprezentatív, ha a minta és a populáció ismert jellemzőinek eloszlása közel azonos. A reprezentatív minta mindig véletlenszerű kiválasztás eredménye, de a populációról már meglévő más ismereteinket is hasznosítanunk kell. Ha tudjuk, hogy a populáció összetett részhalmazokól

Section 2: Adatgyűjtés, mintavételi eljárások 19 áll (pl. egy ország népessége férfiakból, nőkből, gyermekekből, fiatal felnőttekből és idős felnőttekből, stb) akkor a reprezentativ mintavétel minden ismert részhalmazra ki kell terjedjen, mindegyikből megfelelő számú mintát kell venni. Az állatorvosi gyakorlatban gyakori, hogy a vizsgált minta nem véletlenszerűen kiválasztott, hanem például egy adott helyen jelentkezett betegekből áll (,,a minta választja ki saját magát ). Ilyenkor mindig kérdéses, hogy az adott minta valójában milyen populációt reprezentál?

Section 2: Adatgyűjtés, mintavételi eljárások 20 Miért van szükség mintára? Miért nem vizsgáljuk a teljes populációt? Mert túl költséges, időigényes; nem elérhető az összes egyed; a kísérlet rongálhatja vagy megsemmisítheti az egyedeket. A leggyakrabban használt mintavételi eljárások: véletlen mintavétel; szisztematikus mintavétel; rétegezett mintavétel.

Section 2: Adatgyűjtés, mintavételi eljárások 21 2.1. Véletlen mintavétel Példa. Egy gyógyszer kipróbálására 30 kísérleti állat közül két 10-es csoportot kell kiválasztanunk véletlenszerűen. Az egyedeket (1-től 30-ig) megszámozzuk. 30 kártyára feĺırjuk e számokat, majd a kártyákat megkeverve kihúzunk 10 kártyát. Az azokon lévő sorszámú állatok alkotják az első csoportot. Újabb 10 kártya kihúzásával kialakítjuk a második csoportot. Kártyák helyett: véletlen szám generátor (számítógépes programokban).

Section 2: Adatgyűjtés, mintavételi eljárások 22 2.2. Szisztematikus mintavétel A populáció egyedeit megszámozzuk, és közülük minden k-adikat válsztunk be a mintába. Például, ha a populáció 2000 egyedből áll, és 50 elemű mintára van szükségünk, akkor k = 40. Az első egyedet (1 és 40 között) véletlenszerűen választjuk ki. Az egyedek számozásakor figyelmesen kell eljárnunk. Például, ha házaspárokról lenne szó, és férj - feleség - férj - feleség, stb, sorrendben számoznánk meg az egyedeket, akkor a minta vagy csupa férjből, vagy

Section 2: Adatgyűjtés, mintavételi eljárások 23 csupa feleségből állna. 2.3. Kiegyensúlyozás, rétegezett mintavétel A véletlen mintavételnél sokszor valamilyen, a kísérlet eredményét befolyásoló, de most nem vizsgálandó faktor hatását kell semlegesítsük úgy, hogy a vizsgálati csoportokban egyszerre biztosítsuk a véletlen mintavételt, és a nem vizsgálandó faktor szempontjából a kiegyensúlyozottságot. Az ismert faktorok (pl. nem, testsúly, életkor) alapján homogén rétegekre (blokkokra) bontjuk a lehet-

Section 2: Adatgyűjtés, mintavételi eljárások 24 séges mintát, és az egyes rétegeken belül biztosítjuk a véletlenszerűséget. Példa. Van 60 darab kísérleti állatunk, 100 és 200 g közötti testsúllyal. Osszuk be őket 6 olyan véletlenszerűen kiválasztott csoportba úgy, hogy a csoportokban az átlagos testtömeg azonos. Számozzuk be mind a 60 kísérleti állatot, és írjuk a testömeget a sorszám mellé. Rendezzük át a listát úgy, hogy az állatok csökkenő testtömegük szerint legyenek listázva. Bontsuk a listát 10 darab hatos csoportra (ezek egymás melletti súlyúak). Mind-

Section 2: Adatgyűjtés, mintavételi eljárások 25 egyik csoportból sorsoljunk ki egy-egy állatot a 6 kísérleti csoport egyikébe. A kapott csoportok testtömegre kiegyensúlyozottak lesznek, ugyanakkor a sorsolás fogja eldönteni, hogy egy adott állat melyik csoport tagjává válik.

Section 3: Az adatok 26 3. Az adatok A mintabeli egyedekről a kísérlet során adatokat gyűjtünk. Két fő adattípust különböztetünk meg: Kvalitatív adatok: ezek nem fejezhetők ki mennyiségekként, inkább kategóriák. Példa: vércsoportok

Section 3: Az adatok 27 Kvantitatív adatok: ezek valamilyen mérés eredményei (mennyiségek). Példa: vérnyomás

Section 3: Az adatok 28 A kvantitatív adatok is kétfélék lehetnek: folytonosak (a mérési skála egy intervallum), vagy diszkrétek (a mérhető értékek a számegyenes izolált pontjai). Példák: testhőmérséklet (folytonos) egy betegség újbóli megjelenéséig eltelt hónapok száma (diszkrét)

Section 3: Az adatok 29 lehullott csapadékmennyiség egy adott napon (folytonos) a fájdalom szintjei (pl. enyhe, közepes, nagy) (diszkrét).

Section 3: Az adatok 30 3.1. Mérési skálák A változókat más szempont szerint is osztályozhatjuk. Ez az osztályozás mérési skálákra épül annak megfelelően, hogy a változó értékeit hogyan kategorizálhatjuk, számlálhatjuk, illetve mérhetjük. Négyféle mérési skálát különböztetünk meg: nominális skála, ordinális skála, intervallumskála, abszolút skála.

Section 3: Az adatok 31 Nominális skála: Egyszerű kategorizálási lehetőséget jelent. Az egyes tulajdonságoknak nevet adunk, és az objektumokat e nevek valamelyikével kapcsoljuk össze, (növényevő ill. húsevő állatok stb.). Ez a csoportosítás csupán kvalitatív jellegű, számszerű információt nem tartalmaz, és összehasonĺıtásra sem alkalmas. Példa: hideg vagy meleg csap Személyi szám.

Section 3: Az adatok 32 Ordinális skála: a mért vagy megfigyelt értékeket rangsorolhatjuk, összehasonĺıthatjuk. Példa: az intelligencia-hányados (I.Q.=Intelligence Quotient), vagy az 1-től 5-ig terjedő osztályzati skála. Nem véletlen, hogy nem létezik sem nulla I.Q., sem nullás osztályzat, mert egyik sem nulla intelligenciához vagy tudáshoz viszonyít, és a rangszámok közötti különbségek sem egyenlőek a különböző szinteken.

Section 3: Az adatok 33 Intervallumskála: az adatok közötti különbség értelmes. Nincs természetes zérus pont. Példa: hőmérsékletmérés Celsius fokokban. Itt a nulla fokot önkényesen választottuk (a víz fagyáspontja 1 atm nyomásnál), de az 1 C hőmérséklet emelkedés már nem önkényes, ui. a hőmérő higanyszála mindig ugyanannyit emelkedik 1 C hőmérséklet emelkedésnél, akármilyen szinten is mérjük ezt.

Section 3: Az adatok 34 Abszolút skála: ez olyan intervallumskála, ahol van természetes nulla pont. Az adatok különbsége és hányadosa is képezhető. Példa: a súly, ahol a mérés mindig a nullától indul; fizetés; testmagasság; életkor. 3.2. Számítógépes statisztikai programok A múltban a számításokat papír és ceruza segítségével végezték. A számológépek megjelenése nagy segítséget jelentett ebben. A különböző statisztikai szoftverek ma már elvégzik

Section 4: Adatok összegzése, sűrítése 35 a mechanikus munkát. A megfelelő statisztikai eljárások kiválasztása, és persze az eredmények értékelése azonban továbbra is a szakember dolga. 4. Adatok összegzése, sűrítése 4.1. Gyakorisági táblázatok Ahhoz, hogy mért, illetve megfigyelt numerikus a- dataink áttekinthetőek és értékelhetőek legyenek, először bizonyos szempontok szerint csoportosítani, illetve összefoglalóan ábrázolni kell őket.

Section 4: Adatok összegzése, sűrítése 36 A csoportosítás legtöbbször gyakorisági táblázat formájában történik. 1. lépés: az osztályok, vagy osztályintervallumok kialakítása (az adatokat diszjunkt csoportokba soroljuk). Diszkrét változóra a lehetséges értékek (ha nincs belőlük túl sok) adnak egy-egy osztályt. Folytonos változókra (vagy sok értéket felvevő diszkrétekre): nagyság szerint növekvőleg rendezzük az ada-

Section 4: Adatok összegzése, sűrítése 37 tokat, eldöntjük, hogy hány osztály legyen (5 és 15 közötti szám célszerű, mindegyikbe kívánatos legalább 6 adatnak esnie), meghatározzuk az osztályintervallumok végpontjait, az osztályokba az alsó határ is beletartozik. 2. lépés: összeszámoljuk, hogy az egyes osztályokba hány adat esik (gyakoriság).

Section 4: Adatok összegzése, sűrítése 38 3. lépés: kiszámítjuk a relatív, és ha szükség van rá, a százalékos gyakoriságokat. Ha kiszámítjuk egy minta esetén ezeket a gyakoriságokat, akkor ezzel megadjuk a minta gyakorisági eloszlását. Ezzel a gyakorisági eloszlással közeĺıtjük az elméleti valószínűségi eloszlást. Példa: anyakocák szaporaságának vizsgálata. 105 almot figyeltünk meg, és azokban a születéskori a- lomszámot jegyeztük fel. A gyakorisági táblázat:

Section 4: Adatok összegzése, sűrítése 39 Osztály Egyedszám Relatív (alomszám) (db) gyakoriság Rel. % 6 3 0.029 2.9 7 7 0.067 6.7 8 12 0.114 11.4 9 20 0.190 19.0 10 31 0.295 29.5 11 17 0.162 16.2 12 8 0.076 7.6 13 5 0.048 4.8 14 2 0.019 1.9 Összesen: 105 1.000 100

Section 4: Adatok összegzése, sűrítése 40 4.2. Adatok grafikus reprezentációja A grafikus reprezentációnál az adatokat szemléletes módon összegezzük. 4.3. Kvalitatív adatok Kvalitatív adatokat összegző grafikus megjelenítésnek két dolgot feltétlenül mutatnia kell: a kategóriákat, és hogy ezek milyen gyakoriságúak.

Section 4: Adatok összegzése, sűrítése 41 Oszlopdiagram (bar chart) Minden kategóriának megfelel egy téglalap (oszlop), amelynek magassága az adott kategóriába tartozó adatok arányát fejezi ki az összes között. Példa.,,Ha Ön túlsúlyos lenne, milyen célok ösztönöznék arra, hogy fogyókúrázni kezdjen? egészségesebb legyek jobban nézzek ki

Section 4: Adatok összegzése, sűrítése 42 javuljon a szerelmi életem jobb állást kapjak nem tudom.

Section 4: Adatok összegzése, sűrítése 43

Section 4: Adatok összegzése, sűrítése 44 Tortadiagram (pie chart) A fenti ábrán is látható, hogy a torta egy-egy szelete reprezentálja az egyes kategóriákat, míg a szelet területe a kategória arányát. 4.4. Kvantitatív adatok Ilyen adatokra vonatkozó grafikonok két dolgot mutatnak: a mért mennyiségeket (számokat), és hogy ezek milyen gyakran fordulnak elő.

Section 4: Adatok összegzése, sűrítése 45 Pontdiagramok (dotplots) Ezek minden egyes adatot egy a mért szám fölé rajzolt ponttal jelenítenek meg. Példa. Az elmúlt évben betegség miatt ágyban töltött napok száma egy nagyon idős populációban:

Section 4: Adatok összegzése, sűrítése 46

Section 4: Adatok összegzése, sűrítése 47 A pontdiagramok könnyen megrajzolhatók, ha nincs túl sok adatunk jól mutatják, hogy hol tömörülnek az adatok, vannak-e kiütő értékek, illetve olyan tartományok, ahol nincs adat a rendezésen alapuló jellemzőket jól jelenítik meg (pl. medián) hátránya, hogy a gyakoriságok nehezen olvashatók le az ábráról.

Section 4: Adatok összegzése, sűrítése 48 Hisztogramok Emlékezzünk vissza a gyakorisági táblázatra a fenti példából: Osztály Egyedszám Relatív (alomszám) (db) gyakoriság Rel. % 6 3 0.029 2.9 7 7 0.067 6.7 8 12 0.114 11.4 9 20 0.190 19.0 10 31 0.295 29.5 11 17 0.162 16.2 12 8 0.076 7.6 13 5 0.048 4.8 14 2 0.019 1.9 Összesen: 105 1.000 100

Section 4: Adatok összegzése, sűrítése 49 A hisztogram alapján próbálunk következtetni arra, hogy hogyan néz ki a változónk sűrűségfüggvénye. A hisztogram vízszintes tengelyén ábrázoljuk az osztályintervallumokat, és ezek fölé olyan téglalapokat rajzolunk, melyek területe megegyezik a megfelelő relatív, vagy százalékos gyakorisággal (azaz az egyes téglalapok magassága egyenlő a megfelelő gyakoriság elosztva az intervallum hosszával). Így a hisztogram teljes területe 1, vagy 100% lesz. Diszkrét változó esetén úgy járunk el, hogy a változó értékei az intervallumok közepén helyezkednek el.

Section 4: Adatok összegzése, sűrítése 50 A hisztogram ha a minta elemszámát növeljük közeĺıti a valószínűségi változó elméleti sűrűségfüggvényét. Az általunk tárgyalt módszerek többsége akkor használható jól, ha a hisztogramunk jól közeĺıti a normális eloszlás sűrűségfüggvényét, azaz nagyjából haranggörbe alakú.

Section 4: Adatok összegzése, sűrítése 51 A példában:

Section 4: Adatok összegzése, sűrítése 52

Section 4: Adatok összegzése, sűrítése 53 A gyakorlatban a konkrétan végrehajtott mintavételezés eredményéül számok adódnak: x 1, x 2,..., x n. Ha a kísérletet újra meg újra megismételjük, akkor más és más számok. Ezek maguk is a véletlentől függnek. Az előzőekben bemutatott néhány grafikus ábrázolás helyett csupán egy-két összesítő mennyiséget, ún. statisztikát használunk. Adataink egy n-változós s(x 1,..., x n ) függvényét statisztikai függvénynek (röviden statisztikának) nevezzük.

Section 4: Adatok összegzése, sűrítése 54 Ennek értéke is a véletlentől függ, tehát valószínűségi változó. Most áttekintjük a leggyakoribb statisztikákat. 4.5. Középértékek Legyen a mintánk x 1, x 2,..., x n.

Section 4: Adatok összegzése, sűrítése 55 Átlag A megfigyeléseink átlagát, amelyet x jelöl, úgy számítjuk ki, hogy az értékek összegét elosztjuk a minta elemszámával: x = x 1 + x 2 +... + x n n = n i=1 x i n. Az anyakocák szaporaságáról szóló példában az átlag x = 9.8. Az átlag olyan érték, amelyik összességében a,,leg-

Section 4: Adatok összegzése, sűrítése 56 közelebb van a minta értékeihez. Ha kiszámítjuk a mintaértékek és az átlagérték közti összes eltérések összegét, akkor nullát kapunk eredményül: n n n n (x i x) = x i nx = x i x i = 0. i=1 i=1 i=1 i=1 Az átlagértéket nem mindig lehet tipikus értékként kezelni. Példa. Egy kisvárosban 20000 ember él, akik közül kettő multimilliomos az összes többi pedig 8000 és

Section 4: Adatok összegzése, sűrítése 57 15000 Ft közötti összeget keres. Ekkor átlagkeresetként 100000 Ft körüli összeg jöhet ki. Ez azt sugallja, hogy a kisváros átlagos polgára ilyen jól keres, ami egyáltalán nincs így. Ezek szerint az átlagérték csak azt mondja meg, hogy mennyi lenne a keresetük, ha az összkeresetet egyenletesen osztanánk el. Az átlag érzékeny a kiütő értékekre (angolul: outliers) (ezek az adatok zöméhez képest nagyon nagy, vagy nagyon kis értékek). Ha a változónk normális eloszlású, akkor az átlag felfogható tipikus értékként.

Section 4: Adatok összegzése, sűrítése 58 Medián A mediánt úgy kapjuk, hogy először sorbarendezzük az adatokat: x 1 x 2... x n 1 x n, majd az így sorbarendezett adatok közül kiválasztjuk a középsőt. Ha két középső van, azaz n páros, akkor a két középső átlaga lesz a medián.

Section 4: Adatok összegzése, sűrítése 59 Formálisan: x k+1 ha n = 2k + 1, x med = x k +x k+1 2 ha n = 2k. Az anyakocák szaporaságának példáját tekintve, a medián 10. Szimmetrikus eloszlásokra az átlag és a medián e- gyenlő. Ferde eloszlásokra a medián a középponthoz közelebb helyezkedik el, az átlag pedig a hosszabb farok irányába tolódik ki.

Section 4: Adatok összegzése, sűrítése 60 Szimmetrikus eloszlás, páros sok adat. Átlag = medián = 1/2.

Section 4: Adatok összegzése, sűrítése 61 Ferde eloszlás, páros sok adat. Átlag = 2, medián = 1/2.

Section 4: Adatok összegzése, sűrítése 62 Szimmetrikus eloszlás, páratlan sok adat. Átlag = medián = 1.

Section 4: Adatok összegzése, sűrítése 63 Ferde eloszlás, páratlan sok adat. Átlag = 3, medián = 1/2.

Section 4: Adatok összegzése, sűrítése 64 Módusz A módusz a mintában leggyakrabban előforduló érték. Az anyakocák szaporaságának példájában a módusz is 10. A középértékek a hisztogramból becsülhetők, bár a becslés nagyon függ az osztályokba sorolástól: Az átlag az a pont, amelynél a hisztogram súlypontja van (azaz ha ennél a pontnál alátámasztjuk a hisztogramot, akkor az egyensúlyban marad.)

Section 4: Adatok összegzése, sűrítése 65 A mediántól balra és jobbra a hisztogram területének fele helyezkedik el. A módusz az az érték, amely fölött a legmagasabb téglalap van. Szimmetrikus és egy csúcsú hisztogram esetén a három középérték egybeesik (a szimmetria tengelyre). Ha a hisztogram több csúcsú, vagy nem szimmetrikus, akkor ezek az értékek nem esnek egybe.

Section 4: Adatok összegzése, sűrítése 66

Section 4: Adatok összegzése, sűrítése 67

Section 4: Adatok összegzése, sűrítése 68 Ha adataink gyakorisági táblázatba vannak rendezve, és az osztályokat x j -vel, az egyes osztályokban levő adatok számát f j -vel, és az osztályok számát N-nel jelöljük, akkor ezekkel a mennyiségekkel kifejezve az átlag a következő: x = N j=1 f j x j n, ahol n = N f j. j=1

Section 4: Adatok összegzése, sűrítése 69 4.6. A szóródás mérőszámai Eddigi statisztikáink csak arra alkalmasak, hogy valamilyen értelemben az eloszlás középpontját jellemezzék. A következő ábrán látszik, hogy ezek önmagukban még olyan esetben sem jellemzik jól az eloszlást, ha az szimmetrikus, és csak egy csúcsa van.

Section 4: Adatok összegzése, sűrítése 70 Célszerű ezért olyan mérőszámokat is bevezetni, amelyek azt mutatják meg, hogy az adatok hogyan helyezkednek el az átlagérték körül. Terjedelem A minta terjedelme a minta legnagyobb és legkisebb értéke közötti különbség. Az anyakocák esetében a terjedelem 14-6=8. Sajnos, a terjedelem megadása még mindig nem jellemzi elég jól az eloszlást, hiszen arról nem mond semmit sem, hogy hol milyen sűrűn helyezkednek

Section 4: Adatok összegzése, sűrítése 71 el az adataink. Interkvartilis terjedelem Ez a jellemző az adatok középső 50 %-át tartalmazó intervallumnak a hossza. Rendezzük növekvő sorrendbe adatainkat. Az alsó kvartilis egy olyan Q 1 adat, amelytől balra az adatok 25%-a, jobbra 75%-a található. A felső kvartilis egy olyan Q 3 adat, amelytől balra az adatok 75%-a, jobbra 25%-a található.

Section 4: Adatok összegzése, sűrítése 72 A minta interkvartilis terjedelme (röviden: IQR) a felső és alsó kvartilis különbsége: IQR = Q 3 Q 1.

Section 4: Adatok összegzése, sűrítése 73 Itt az ideje megemĺıteni egy olyan grafikus adatösszegzési módot, amely a most bevezetett jellemzőket használja. Ez a doboz diagram (boxplot). Egy korábban emĺıtett példa (betegség miatt ágyban töltött napok száma) doboz diagramja a hisztogrammal együtt:

Section 4: Adatok összegzése, sűrítése 74 A doboz diagram az adatok öt jellemzőjén alapul: a legkisebb érték (min) az alsó kvartilis (Q 1 ) a medián (Q 2 ) a felső kvartilis (Q 3 ) a legnagyobb érték (max). Nem mutatja az egyes adatokat; nagyon tömör, mégis informatív; akkor a leghasznosabb, ha megfigyelések több csoportjának eloszlásait hasonĺıtjuk össze.

Section 4: Adatok összegzése, sűrítése 75

Section 4: Adatok összegzése, sűrítése 76 Tapasztalati szórás és variancia Az adatok átlag körüli szóródásának jól használható mérőszáma a korrigált tapasztalati szórás (angolul: standard deviation, SD), és ennek négyzete, a variancia (vagy szórás). Vigyázat, ez nem keverendő össze egy valószínűségi változó hasonló nevű paramétereivel. Később látni fogjuk a kapcsolatot a közöttük. A szórás azt mutatja meg, hogy az adataink átlagosan milyen távol helyezkednek el a számtani középtől (átlagtól).

Section 4: Adatok összegzése, sűrítése 77 Adataink: x 1, x 2,..., x n, átlaguk x. Az adatok korrigált tapasztalati szórása az az s szám, amelyre n (x i x) 2 i=1 s :=. n 1 A szórásnak ugyanaz a mértékegysége, mint az eredeti adatainké.

Section 4: Adatok összegzése, sűrítése 78 Ha adataink gyakorisági táblázatba vannak rendezve (N csoport van), akkor a szórás: s = N f i (x i x) 2 i=1 n 1 (n = N f i ). i=1 Bizonyos esetekben a szórás kiszámítása egyszerűbb, ha bevezetjük az eltérés négyzetösszeget: SQ (sum of squares of deviations):

Section 4: Adatok összegzése, sűrítése 79 SQ := n (x i x) 2. i=1 Könnyen láthtó, hogy ekkor és nyilván SQ = n x 2 i ( n i=1 x i) 2, n i=1 s = SQ n 1.

Section 4: Adatok összegzése, sűrítése 80 Ha a mintából készített hisztogram elég jól közeĺıti a normális görbét, akkor a normális eloszlás táblázatából kiolvasható, hogy az ] x s, x + s[ intervallumban van adataink kb. 68%-a, ] x 2s, x + 2s[ intervallumban van kb. 95%-a, ] x 3s, x + 3s[ intervallumba pedig kb. 99%-a esik.

Section 4: Adatok összegzése, sűrítése 81

Section 4: Adatok összegzése, sűrítése 82

Section 4: Adatok összegzése, sűrítése 83

Section 4: Adatok összegzése, sűrítése 84