Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók



Hasonló dokumentumok
STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

A leíró statisztikák

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Kutatásmódszertan és prezentációkészítés

Elemi statisztika fizikusoknak

Változók eloszlása, középértékek, szóródás

Biomatematika 2 Orvosi biometria

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

[Biomatematika 2] Orvosi biometria

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Segítség az outputok értelmezéséhez

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Vargha András Károli Gáspár Református Egyetem Budapest

A valószínűségszámítás elemei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

6. Előadás. Vereb György, DE OEC BSI, október 12.

Matematikai alapok és valószínőségszámítás. Normál eloszlás

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Statisztikai alapfogalmak

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Adatok statisztikai értékelésének főbb lehetőségei

A sokaság/minta eloszlásának jellemzése

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

[Biomatematika 2] Orvosi biometria

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Biostatisztika Összefoglalás

Matematikai statisztika

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

STATISZTIKA KÉSZÍTETTE: TAKÁCS SÁNDOR

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

y ij = µ + α i + e ij

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

Microsoft Excel Gyakoriság

Kettőnél több csoport vizsgálata. Makara B. Gábor

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Variancia-analízis (VA)

Matematikai statisztikai elemzések 2.

Biostatisztika Összefoglalás

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

[Biomatematika 2] Orvosi biometria

Matematikai statisztika c. tárgy oktatásának célja és tematikája

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Hipotézis vizsgálatok

Populációbecslések és monitoring

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

4. A méréses ellenırzı kártyák szerkesztése

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Korreláció és lineáris regresszió

1. Egy Kft dolgozóit a havi bruttó kereseteik alapján csoportosítottuk: Havi bruttó bér, ezer Ft/fő

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Mérési hibák

MINTAFELADATOK. 1. Az alábbi diagram egy kiskereskedelmi lánc boltjainak forgalomkoncentrációját szemlélteti:

Populációbecslések és monitoring

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többváltozós lineáris regressziós modell feltételeinek

matematikai statisztika

III. Képességvizsgálatok

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai módszerek

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

A Statisztika alapjai

Magyarország 1,2360 1,4622 1,6713 1,8384 2,0186 2,2043

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Biostatisztika VIII. Mátyus László. 19 October

Adatsorok jellegadó értékei

Ez az előadás a leíró statisztika alapvető fogalmairól szól. Az előadás első részében a statisztikai tevékenység egy lehetséges csoportosítását írom

9. Tétel Els - és másodfokú egyenl tlenségek. Pozitív számok nevezetes közepei, ezek felhasználása széls érték-feladatok megoldásában

Bevezetés a hipotézisvizsgálatokba

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Bevezetés a statisztikába

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Matematikai geodéziai számítások 6.

Országos kompetenciamérés eredményeinek kiértékelése 6. és 8. évfolyamokon 2012

Átírás:

Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók

Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz tipikus, átlagos értékeit definiálhatjuk a középértékeket, amiket más kifejezéssel a centrális tendencia mutatóinak is neveznek. Centrális tendenciának, vagyis a középértékeknek három fı típusát szokás elkülöníteni: A Móduszt A Mediánt és Az Átlagot

A Módusz Az adathalmaz leggyakoribb elemét Módusznak nevezzük. Ez a legáltalánosabban használható középérték, bármely változótípus esetén értelmes, és sokszor érdekes lehet a kérdés, hogy mi a leggyakrabban elıforduló, azaz legtipikusabb értéke a mintának. Szigorúan tekintve ez a mutató kevéssé méri a centrális tendenciát, sokkal inkább a tipikusságot ragadja meg. Ha grafikusan ábrázoljuk az adatainkat a Módusz a legmagasabb oszlophoz tartozó értéke a hisztogramnak, vagy az oszlopdiagramnak. Pl. közvéleménykutatások esetén érdekes lehet, mert ez reprezentálja a legtipikusabb véleményt.

A Medián A Medián kettéosztja az adathalmazt, azaz a centrális tendencia azon mutatója, az adathalmaz azon értéke, amelynél ugyanannyi kisebb, mint nagyobb érték található. A Módusszal ellentétben a Medián, bár továbbra is széles körően alkalmazható, nominális adatok esetén már nem értelmezhetı, mivel itt már a mérési skálának legalább a sorba rendezhetıség tulajdonsággal rendelkeznie kell. A Mediánt legegyszerőbben úgy találhatjuk meg, ha sorba rendezzük az adatainkat, és megkeressük a középen elhelyezkedı adatot. (Amennyiben páratlan számú adatunk van.) páros számú adat esetén a középsı két adat átlagaként határozható meg. Ezt az elvet akkor is követjük, ha egy-egy elem többször fordul elı a mintában.

A Medián Nagyszámú minta esetén a százalékos kumulatív gyakorisági táblázatot hívjuk segítségül, ahol is az az érték lesz a középsı, amelynél a kumulatív százalék éppen átlépi az 50 %-os küszöböt. Ha a minta egy adott értéknél éppen eléri az 50 %-os határt (kumulatív százalékot), akkor ezen érték és az ezt követı érték átlaga lesz a medián.

A Számtani Átlag Ez a legelterjedtebb középérték, nagyon széles körben használt a hétköznapi életben is. Általában ezt értjük rajta, ha valaminek az átlagos értékérıl, mértékérıl beszélünk. Meghatározása: A minta elemeinek összege osztva a minta elemszámával. N elemő adathalmaz esetén az X statisztikai változó populációbeli számtani átlaga: = N i= 1 µ x N Ahol x i a populáció i-edik eleme (i = 1,, N), µ a populáció átlaga. i

Az Átlag Bár az átlag a legelterjedtebbnek tekinthetı szóródási mutató, ez a legkevésbé széles körben (a különbözı mérési skálákat tekintve) használható mutatója a centrális tendenciának, mivel az átlag minimum intervallum skálájú változót feltételez. Bár az átlag a leginformatívabbnak tekintett középérték, fontos tisztában lenni vele, hogy vannak kevésbé vonzó tulajdonságai is. Talán a legfontosabb negatív tulajdonsága, hogy nagymértékben érzékeny már alig néhány extrém érték jelenlétére is.

A középértékek összefoglalása Milyen skálatípusnál milyen középérték használható: módusz medián átlag nominális Nem Nem ordinális Nem intervallum arány

Szóródási mutatatók A középértékek önmagukban nem elegendıek a minta (vagy a populáció) megfelelı jellemzésére. Az átlagos, tipikus értékek ismerete mellett azt is tudnunk kell az adatok megfelelı leírásához, hogy mennyire szóródnak az értékek a középértékek körül. Hogy ennek fontosságát lássuk, nézzünk két példát: Az 1, 99 értékeket tartalmazó kételemő átlaga 50 A 47, 48, 49, 50, 51, 52, 53 értékeket tartalmazó hételemő minta átlaga úgyszintén 50 Tehát mindkét minta ugyanolyan átlaggal jellemezhetı, mégis jelentısen különbözik.

A terjedelem A terjedelem (a szóródás terjedelme) a minta legkisebb és legnagyobb értékének különbsége R = X max X min Könnyen számolható, és hasznos információt kínál arra vonatkozóan, hogy milyen terjedelemben szóródnak az értékek. Meghatározásából fakadóan a terjedelem meglehetısen érzékeny a kiugró értékekre (outlierekre), amik nagymértékben növelik a minta terjedelmét.

Az interkvartilis félterjedelem Mint a középértékeknél láttuk, megtalálható az az érték, amely éppen kettéosztja a mintát. Ez az érték a medián. Ennek mintájára megtalálható az az érték is, amely ¼, ¾ arányban osztja fel a mintát, illetve az az érték is, amely ¾, ¼ arányban osztja fel a mintát. Ezt a három értéket kvartiliseknek nevezzük, melyek 4 egyenlı részre osztják a mintát. A medián egyben a második kvartilis. A minta elsı és harmadik kvartilis közé esı részét interkvartilis terjedelemnek, ennek felét interkvartilis félterjedelemnek (IKF) nevezzük, és az értékek szóródásának jellemzésére használjuk. Természetesen, minél nagyobb az IKF, annál nagyobb szóródást mutatnak az értékek.

Átlagos abszolút eltérés Ha egy adathalmazban alacsony a variabilitás akkor az adathalmaz értékei egymáshoz közel állnak nagyságuk tekintetében. Egy kevésbé variábilis, kisebb szóródású mintában az értékeket kivonjuk egy tetszıleges konstansból, az így kapott különbségek kisebb változatosságot mutatnak majd, mint ha egy nagy szóródással jellemezhetı minta esetén járunk el hasonló módon. Tehát, a változatosság egy adathalmazon belül kifejezhetı, ha meghatározzuk az értékek távolságát valamilyen fix ponttól. Jó ötletnek tőnhet tehát kiszámolni az adatok átlaguktól, mint fix ponttól való átlagos eltérését. Azonban az átlagtól való átlagos eltérés, ( x X ) / N i, definíció szerint mindig nulla lesz, tehát ez a mutató ebben a formában nem használható.

A Négyzetösszeg Jó megoldás lehetne az átlagtól való eltérések abszolút értékét használni, de az abszolút érték kedvezıtlen matematikai tulajdonságai miatt célszerőbb a különbségek négyzetét, illetve ezen négyzetes különbségek összegét venni. Ezt nevezzük négyzetösszegnek. Formalizálva: ( X µ ) 2 Azonban a négyzetösszeg nagysága nem csak az átlagtól való eltérések nagyságától függ, hanem a minta elemszámától is.

A Variancia (Szórásnégyzet) Ha a négyzetösszeget elosztjuk a elemszámmal, N-el, akkor egy, az elemszámtól független statisztikát definiáltunk, ami a Variancia, vagy szórásnégyzet néven ismert szóródási mutató, ami tehát a négyzetösszegek átlaga, vagy átlagos négyzetes eltérés. 2 ( X µ ) σ = N 2 A variancia lehetıvé teszi, hogy összehasonlítsuk különbözı adathalmazok változékonyságát. Azonban, mivel a varianciát a különbségek négyzeteinek összegeként kapjuk, a variancia nem tükrözi a nyers adatok mérési egységeit.

A minta varianciája A minta varianciájának számítási módja némileg különbözik a populáció varianciájának számításától: 2 ( x X ) i s = N 1 2

A Szórás Ha a változékonyság mértékét ugyanolyan egységekben kívánjuk kifejezni, mint a nyers adatok mérési egységei, akkor egyszerően vegyük a variancia négyzetgyökét, így képezve a szórást. σ = ( X µ ) N A varianciához hasonlóan a szórás számítása is eltér kicsit, ha nem a populációra, hanem a mintára számoljuk az értékét: 2 s = ( x X ) i N 1 2

Statisztikák a populációban és a mintában Ahogy fentebb már volt róla szó, minden statisztikának meghatározható a populációbeli és a mintabeli értéke. Az egyes statisztikák populációbeli értékeit elméleti értékeknek (elméleti átlag, elméleti variancia, elméleti szórás) míg a megfelelı mintabeli statisztikákat tapasztalati értékeknek nevezzük (tapasztalati átlag, tapasztalati variancia, tapasztalati szórás). Mivel a populációbeli statisztika értékeit általában nem ismerjük, ezért az elméleti értékeket a tapasztalati értékekkel becsüljük.