A statisztikák fogalma általában Leíró statisztikák:

Hasonló dokumentumok
A leíró statisztikák

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Biomatematika 2 Orvosi biometria

Kutatásmódszertan és prezentációkészítés

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

[Biomatematika 2] Orvosi biometria

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Elemi statisztika fizikusoknak

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Segítség az outputok értelmezéséhez

Microsoft Excel Gyakoriság

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

[Biomatematika 2] Orvosi biometria

Változók eloszlása, középértékek, szóródás

Biomatematika 2 Orvosi biometria

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

A valószínűségszámítás elemei

[Biomatematika 2] Orvosi biometria

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

6. Előadás. Vereb György, DE OEC BSI, október 12.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

A Statisztika alapjai

Biostatisztika VIII. Mátyus László. 19 October

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

7, 6, 0, 4, 0, 1, 5, 2, 2, 16, 1, 0, 2, 3, 9, 2, 4, 10, 3, 1, 2, 12, 4, 1

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Populációbecslések és monitoring

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Vargha András Károli Gáspár Református Egyetem Budapest

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

Matematikai statisztika

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Matematikai statisztikai elemzések 2.

Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA

STATISZTIKA KÉSZÍTETTE: TAKÁCS SÁNDOR

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Populációbecslések és monitoring

Statisztikai becslés

Vizuális adatelemzés

Korrelációs kapcsolatok elemzése

Mérési adatok illesztése, korreláció, regresszió

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Matematikai statisztikai elemzések 2.

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Statisztika 10. évfolyam. Adatsokaságok ábrázolása és diagramok értelmezése

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Biostatisztika Összefoglalás

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

A kockázat fogalma. A kockázat fogalma. Fejezetek a környezeti kockázatok menedzsmentjéből 2 Bezegh András

JA45 Cserkeszőlői Petőfi Sándor Általános Iskola (OM: ) 5465 Cserkeszőlő, Ady Endre utca 1.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

A konfidencia intervallum képlete: x± t( α /2, df )

Adatok statisztikai értékelésének főbb lehetőségei

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Normális eloszlás tesztje

matematikai statisztika

Képfeldolgozás. 1. el adás. A képfeldolgozás m veletei. Mechatronikai mérnök szak BME, 2008

Biostatisztika Összefoglalás

Matematikai statisztika

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

[Biomatematika 2] Orvosi biometria

Statisztikai alapfogalmak

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

A sokaság/minta eloszlásának jellemzése

Minőségmenedzsment (módszerek) BEDZSULA BÁLINT

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

STATISZTIKA. Mit nevezünk idősornak? Az idősorok elemzésének módszertana. Az idősorelemzés célja. Determinisztikus idősorelemzés

Hipotézis vizsgálatok

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Országos kompetenciamérés eredményeinek kiértékelése 6. és 8. évfolyamokon 2012

MATLAB alapismeretek V. Eredmények grafikus megjelenítése: oszlopdiagramok, hisztogramok, tortadiagramok

Alkalmazott statisztika feladatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Átírás:

Adatredukció, Leíró statisztikai eljárások Jenei Attila

A leíró statisztikák fogalma, haszna A statisztikák fogalma általában Leíró statisztikák: a minta elemszáma (mintanagyság) maximum minimum mintaterjedelem számtani átlag, átlagok szórás variancia variációs koefficiens rendezett minta kvantilisek medián kvartilisek percentilisek interkvartilis terjedelem

Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az adatokból viszonylag könnyen kiszámítható paramétereket leíró statisztikáknak (vagy pontosabban: leíró statisztikai függvényeknek) nevezzük. Sok ilyen van, két legfontosabb csoportjuk az ún. elhelyezkedési és a szóródást jellemző paraméterek. Az elhelyezkedési paraméterek azt az értéket igyekeznek megadni, ami körül a mintánk elemei csoportosulnak (ilyen pl. átlag, medián) míg a szóródási paraméterek azt igyekeznek jellemezni, hogy értékeink mennyire szorosan vagy lazán helyezkednek el ekörül a pont körül (pl. szórás).

Adatok ábrázolása kvantitatív A változókat két csoportra osztjuk Minden egyes egyed esetében megszámlálható, megmérhető és ezen mért adatokat lehet összeadni kivonni átlagolni. Példa: testmagasság, életkor, szérum koleszterol szint, a birtokolt kreditkártyák száma kategorizálható. Olyan paraméter, amely csak kategóriákba rendezhető. Itt az adott kategóriába eső egyedek számát lehet meghatározni. Példa: Vércsoport (A, B, AB, O), hajszín, etnikai hovatartozás, jövedelemadót lelkiismeretesen fizetők, illetve azt kikerülők

Hogyan lehet eldönteni, hogy ez kvantitatív vagy nem? Kérdés: Mi az n egyén/mértékegység a mintában ( n elemszám esetén)? Milyen paramétert keresünk a mintában. Ez egy szám( kvantitatív) vagy állítás, kijelentés ( kategorizálható)? Kategorizálható Minden egyed hozzárendelhető egy kategóriához. Kvantitatív Minden egyedhez egy számot rendelünk. Egyedek a mintában DIAGNÓZIS Életkor halálozáskor Páciens A Szívinfarktus 56 Páciens B Agyvérzés 70 Páciens C Agyvérzés 75 Páciens D Tüdőrák 60 Páciens E Szívinfarktus 80 Páciens F Baleset 73 Páciens G Diabetes 69

Különbözı ábrázolási formák Oszlopdiagram Minden kategória egy oszloppal abrázolható Torta diagram A szeletek jelentenek egy kategóriát az összesből

Példa: A 10 legfıbb halálozási ok az USA-ban 2001 Betegség esetszám %-a 10 fajtának % össz. 1 Heart disease 700,142 37% 29% 2 Cancer 553,768 29% 23% 3 Cerebrovascular 163,538 9% 7% 4 Chronic respiratory 123,013 6% 5% 5 Accidents 101,537 5% 4% 6 Diabetes mellitus 71,372 4% 3% 7 Flu and pneumonia 62,034 3% 3% 8 Alzheimer s disease 53,852 3% 2% 9 Kidney disorders 39,480 2% 2% 10 Septicemia 32,238 2% 1% Más okból 629,967 26% Az összes elhalálozott egyén adatainak feldolgozásából nyert táblázat

cemia Oszlopdiagram Minden kategóriához egy oszlop tartozik. Az oszlop magassága jelenti az egyes kategóriához tartozó egyedszámot, sok esetben relatív gyakoriságot. 800 700 600 500 400 300 200 100 0 A 10 legfőbb halálozási ok az USA-ban 2001 A balesetben elhunytak száma 2001-ben körülbelül 100,000. Heart disea eases Canc ancers Cerebrovasc ascular Chronic respira iratory Accide dents Diabetes mell ellitus Flu & pneumo monia Alzheimer's dise sease Kidney disord orders Septicem Counts (x1000)

orders Septice icemia 800 700 600 500 400 300 200 0 100 A 10 legfőbb halálozási ok az USA-ban 2001 Sorrendbe állított Könnyen vizsgálható cular Cerebrovascul Chronic respirato atory Accident ents Diabetes mellitu litus Flu & pneumon onia Alzheimer's diseas ease Kidney disorder ders Septicemi mia 800 700 600 500 400 300 200 0 100 ABC szerint rendezett Kevésbé hasznos Accide idents Alzheimer's dise isease Canc ancers Cerebrovasc ascular Chronic respira piratory Diabetes mellitus Flu & pneum umonia Heart disea seases Kidney disord Ch Cancer cers Heart disease ases Counts (x1000) Counts (x1000 0)

Pie-diagram Minden szelet egy tulajdonságot tartalmaz az összesből. A szelet mérete az adott kategória százalékos értékétől függ. A legfőbb 10 halálok százalékos megoszlása az USA-ban 2001.

Fontos az adatok precíz jelölése A százalékok összegének 100-al egyenlőnek nek kell lenni!!!!! A halálokok százalékos eloszlása A halálokok százalékos eloszlása az összesre vonatkoztatva

Kvantitatív adatok ábrázolása Időfüggés ábrázolása (vízszintes tengelyen). A trend követése a cél a kisebb tranziens mozgások figyelmen kívül hagyásával.. A periodikusan ismétlődő események követése szezonális változó.

Két adathalmaz összehasonlítása ugyanabban az időintervallumban. intervallumban. 1918 influenza epidemic Date # Cases # Deaths week 1 36 0 week 2 531 0 10000 week 3 4233 130 9000 week 4 8682 552 8000 week 5 7164 738 7000 week 6 2229 414 6000 week 7 600 198 5000 4000 week 8 164 90 week 9 57 56 week 10 722 50 week 11 1517 71 week 12 1828 137 week 13 1539 178 week 14 2416 194 week 15 3148 290 week 16 3465 310 week 17 1440 149 # case es diagnose ed 3000 2000 1000 0 week 1 week 3 week 5 week 7 week 9 week 11 week 13 # Cas es # Deaths week 15 week 17 800 700 600 500 400 300 200 100 0 # dea aths reporte ed A diagnosztizált betegek 8-10 százaléka röviddel a diagnózis utan belehalt a komplikációkba

A skála igenis számít!!! A tengelyek skálázása befolyásolja az első benyomásokat az eredményekről. Dea ath rate (per th housand) Death rates f rom cancer (US, 1945-95) 250 200 150 100 50 0 1940 1950 1960 1970 1980 1990 2000 Years thousand) Death rate (per t Death rates from cancer (US, 1945-95) 250 200 150 100 50 0 1940 1960 1980 2000 Years Death rates from cancer (US, 1945-95) Death rate (p per thousand) 250 200 150 100 50 0 1940 1960 1980 2000 Years Death rate (per tho ousand) Death rates from cancer (US, 1945-95) 220 200 180 160 140 120 1940 1960 1980 2000 Years Egy kép többet jelent ezer szónál A skálázás viszont félrevezető lehet

Gyakorisági eloszlások Adatgyűjtés Az adatainkat valamely mérési skálán elhelyezzük. A primer adatokon nem hajtunk végre adatfeldolgozást (matematikai műveletet vagy adatrendezést) Az adatgyűjtést követően adattranszformációt hajthatunk végre, vagy új változókat (szekunder adat) hozhatunk létre. Rendezés A rangsorolás, nagyság szerinti rendezés szükséges lehet: Adatok minimum-és, maximumértékét, A minta terjedelmét (range), Az adatok mediánját kell meghatározni.

Gyakorisági eloszlások A növekvő sorba rendezett értéktartományt csoportokra oszthatjuk, és meghatározzuk az egyes csoportokba eső adatok számát. Ez a gyakorisági vagy eloszlási táblázat. Az adatok megoszlását mutatja a különböző értékhatárok között. Osztályhatárok osztályközhossz Esetszám Kumulált gyakoriság Relatív gyakoriság Kumulált relatív gyakoriság

Gyakorisági eloszlások fr requency 20 18 16 14 12 10 8 6 4 2 0 histogram frequency polygon 69.5 75 79.5 10-19 20-29 30-39 40-49 50-59 60-69 70-79 weights of malignant tumors (ounces) Class Cumulative Relative Cumulative relative intervals Frequency frequency frequency frequency 10-19 5 5 0.088 0.088 20-29 19 24 0.333 0.421 30-39 10 34 0.175 0.596 40-49 13 47 0.228 0.825 50-59 4 51 0.070 0.895 60-69 4 55 0.070 0.965 70-79 2 57 0.035 1.000 Total 57 1.000 Osztályok száma 5-20 közötti Keskeny osztályközöket össze lehet vonni Az osztályközök hossza azonos legyen A téglalapok magassága az adott osztályhoz tartozó gyakoriság, Relatív gyakoriság: Az egyes osztályok esetszámát osztjuk az összes esetszámmal Kumulált gyakoriság: Az adott osztályba és az az alá tartozó osztályok gyakoriságának az összege.

Hisztogramok értelmezése Egy kvamtitatív változó analizálása esetén az eloszlás mintázatát vizsgáljuk. Fontos paraméter az alakja közepe és az értékek szóródása. Minden oszlopot összekötő vonallal ellátott hisztogram túl részletes Egy simított görbével ellátott hisztogram reprezentálja az eloszlást

Jellegzetes gyakorisági hisztogramok szimmetrikus Az eloszlás szimmetrikus ha a jobb és a bal oldal szinte tükörképei egymásnak Lehet jobbra illetve balra ferdült eloszlás is Jobbra ferdült Komplex un több módusú Néhány esetben (kis elemszámok esetén) az eloszlás lehet bonyolult is.

Kiugró értékek Ezek az eloszláson kívül helyezkednek el, befolyásolva az eloszlást jellemző értékeket Alaska Florida

Azonos adathalmaz Nem eléggé összevont Túlságosan összevont

Statisztikai redukció fogalma: Az az eljárás, amelynek során az adatok jellemzőit egyetlen számértékbe összegezzük, tömörítjük.

Középérték fogalma: Az adatokban mi a közös, a központi érték. Dimenziója a mért adatokéval azonos. A középértékkel szembeni elvárások Egyszerűen és egyértelműen lehessen meghatározni Közép helyet foglaljon el a nagyság szerint sorba rendezett adatok között Egyes sokaságok összehasonlítására Egyes sokaságok összehasonlítására alkalmas legyen

Középérték fogalma Többféle középértékkel dolgozhatunk a gyakorlatban Az adatok típusa és a középérték tulajdonságai döntik el, hogy melyiket használjuk. Meghatározható Számított középérték (átlagok) Minden adatot figyelembe veszünk Érzékeny a kiugró értékekre Az adatok sorba rendezésével helyzetük alapján Nincs kapcsolatban mindegyik adattal Központi helyzeténél fogva jól jellemzi az adatokat

Számtani átlag: Az értékek összege, osztva az elemszámmal. A legjobban ismert, leggyakrabban használt paraméter az eloszlás elhelyezkedésének becslésére. Érdemes tudni, hogy erősen érzékeny a mintában esetleg előforduló kilógó (outlier) értékekre. Ilyenkor célszerűbb a medián használata. Ugyancsak félrevezető lehet az átlag erősen ferde eloszlás esetén. A magasságok összege 1598.3 osztva 25 nő = 63.9 inch 58.2 64.0 59.5 64.5 60.7 64.1 60.9 64.8 61.9 65.2 61.9 65.7 62.2 66.2 62.2 66.7 62.4 67.1 62.9 67.8 63.9 68.9 63.1 69.6 63.9

woman height woman height Matematikai formula: (i) (x) (i) (x) i = 1 x 1 = 58.2 i = 14 x 14 = 64.0 x + x +... + i = 2 x 2 = 59.5 i = 15 x 15 = 64.5 1 2 i = 3 x 3 = 60.7 i = 16 x 16 = 64.1 n i = 4 x 4 = 60.9 i = 17 x 17 = 64.8 i = 5 x 5 = 61.9 i = 18 x 18 = 65.2 n 1 i = 6 x 6 = 61.9 i = 19 x 19 = 65.7 x = n i = 7 x 7 = 62.2 i = 20 x 20 = 66.2 i = 8 x 8 = 62.2 i = 21 x 21 = 66.7 i = 9 x 9 = 62.4 i = 22 x 22 = 67.1 i = 10 x 10 = 62.9 i = 23 x 23 = 67.8 i = 11 x 11 = 63.9 i = 24 x 24 = 68.9 i = 12 x 12 = 63.1 i = 25 x 25 = 69.6 i = 13 x 13 = 63.9 n= 25 Σ=1598.3 x = i= 1 x xi x n x = 1598.3 = 63.9 25 Tanuljuk meg használni a kalkulátorunk STAT funkcióját!!!!!.

A számszerű jellemzés értelmezhető jelentéssel bír. Height of 25 women in a class x = 69.3 A hölgyek magasság szerinti eloszlása szimmetrikus, így az átlag jól reprezentálja az eloszlást. Itt az eloszlás alakja nem szokványos x = 69.6 Talán több mint egy növényfajta van?

5 = 63.9 Height of Plants by Color x x = 70. 5 x = 78. 3 Numb ber of Plan nts 4 3 2 1 red pink blue 0 58 60 62 64 66 68 70 72 74 76 78 80 82 84 Height in centimeters Az eloszlás egyetlen számmal történő jellemzése nem célravezető.

Median A nagyság szerint növekvő sorrendbe rendezett adatok között a középső érték. A nála kisebb illetve a nála nagyobb értékek gyakorisága azonos 1 1 0.6 2 2 1.2 3 3 1.6 4 4 1.9 5 5 1.5 6 6 2.1 7 7 2.3 8 8 2.3 9 9 2.5 10 10 2.8 11 11 2.9 12 12 3.3 13 3.4 14 1 3.6 15 2 3.7 16 3 3.8 17 4 3.9 18 5 4.1 19 6 4.2 20 7 4.5 21 8 4.7 22 9 4.9 23 10 5.3 24 11 5.6 25 12 6.1 1. Nagyság szerint sorba rendezett eloszlás. n = elemszám 1 1 0.6 2 2 1.2 3 3 1.6 4 4 1.9 5 5 1.5 6 6 2.1 7 7 2.3 8 8 2.3 9 9 2.5 10 10 2.8 11 11 2.9 12 3.3 13 3.4 14 1 3.6 15 2 3.7 16 3 3.8 17 4 3.9 18 5 4.1 19 6 4.2 20 7 4.5 21 8 4.7 22 9 4.9 23 10 5.3 24 11 5.6 2.a. Ha az adatok száma páratlan, a középső érték lesz a 8 8 2.3 median. n = 25 (n+1)/2 = 26/2 = 13 Median = 3.4 2.b. Ha az adatok száma páros, a két középső érték számtani átlaga lesz a median.. n = 24 n/2 = 12 Median = (3.3+3.4) /2 = 3.35 21 8 4.7 21 8 4.7

Az átlag és a medián összehasonlítása Az átlag és a medián csak abban az esetben egyenlő ha az eloszlás szimmetrikus. A medián számtani közepet pótolja aszimmetrikus Átlag és medián szim- metrikus eloszlás esetén eloszlásoknál illetve extrém értékek előfordulása esetén. Mean Median Átlag és medián aszim- metrikus eloszlás esetén Balra ferdült Mean Median Mean Median Jobbra ferdült

Kiugró értékek esetén x = 3.4 x = 4. 2 Percent of peo ople dying Nincs kiugró érték Kiugró értékkel Az átlagot jelentősen befolyásolta a kiugró érték (3.4-ről 4.2-re ). A medián értéke csak egy kicsit tolódott jobbra (3.4-ről 3.6-ra).

Modus A modus (sűrűsödési középpont, Mo) azt az értéket jelenti, amely a mintában a legnagyobb gyakorisággal fordul elő. az eloszlás lehet akár több módusú is Intervallum, arányskálán mért adatoknál használható, de kvalitatív adatok esetén is használható. frequency 7 6 5 4 3 2 1 0 0 5 10 15 class intervals frequency 7 6 5 4 3 2 1 0 0 5 10 15 class intervals

Interkvartilis terjedelem Kvartilis: a nagyság szerint sorba rakott adatok tartományát 4 egyenlő elemszámra osztjuk. Az egyes intervallumokat elválasztó értékeket 8 1 2.3 kvartiliseknek nevezzük. 9 2 2.5 A felső és az alsó 10 3 2.8 kvartilis különbsége az 11 4 2.9 interkvartilis terjedelem M = median = 3.4 1 1 0.6 2 2 1.2 3 3 1.6 4 4 1.9 5 5 1.5 6 6 2.1 7 7 2.3 12 5 3.3 13 3.4 14 1 3.6 IQT=Q 3 -Q 1 15 2 3.7 Annak az intervallumnak a hossza, amelyben az adatok középső 50%-a 15 2 3.7 16 3 3.8 17 4 3.9 18 5 4.1 19 6 4.2 20 7 4.5 21 1 4.7 22 2 4.9 23 3 5.3 24 4 5.6 25 5 6.1 Q 1 = első kvartilis = 2.2 helyezkedik el. Az outlier adatokra nem Q 3 = harmadik kvartilis = 4.35 érzékeny, segítségükkel ezen értékek kiderítetők. 23 3 5.3

max = 6.1 25 6 6.1 24 5 5.6 23 4 5.3 22 3 4.9 21 2 4.7 7 20 1 4.5 19 6 4.2 Q 3 = 4.35 6 18 5 4.1 17 4 3.9 5 16 3 3.8 15 2 3.7 4 14 1 3.6 13 3.4 3 M = median = 3.4 12 6 3.3 11 5 2.9 2 10 4 2.8 9 3 2.5 1 8 2 2.3 7 1 2.3 6 6 2.1 Q 1 = 2.2 0 5 5 1.5 4 4 1.9 3 3 1.6 2 2 1.2 1 1 0.6 min = 0.6 Years unt til death BOXPLOT Disease X : min Q 1 M Q 3 max

Az adatok szóródásának mértéke fre requency 10 9 8 7 6 5 4 3 2 1 0 small dispersion large dispersion 0 5 10 15 class intervals Terjedelem: Az adatok között előforduló legnagyobb és a legkisebb érték különbsége Variancia (szórásnégyzet): A mintaátlagtól való eltérések négyzetének az átlaga

Szórás A szórás (standard deviation, SD) az adatoknak az átlagtól vett átlagos eltérését jellemzi. A szórást s-el, a szórásnégyzetet (variancia) s 2 -el jelöljük. Az s 2 meghatározására két lehetőség van: Tapasztalati szórásnégyzet Korrigált elméleti szórásnégyzet

Tapasztalati szórásnégyzet A mintaátlagtól való eltérések négyzetének az átlaga s * 2 = N i= 1 ( x x) Négyzetgyöke a tapasztalati szórás: s* A tapasztalati szórásnégyzetről valószínűsítjük, hogy várható értéke a populáció szórásnégyzetével (σ 2 ) legyen azonos. i N 2

Variancia kiszámítása S minta ( ) xi x = n 1 2 Minta: 1,4,7,8. átlag: (1+4+7+8)/4=5 2 2 (1 5) = Korrigált empirikus szórásnégyzet s 2 σ populáció 2 ( x i µ ) 2 = 2 + (4 5) + (7 5) 4 1 2 + (8 5) n 2 = 10 SD ( xi x) = n 1 2.