A leíró statisztikák

Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kutatásmódszertan és prezentációkészítés

Elemi statisztika fizikusoknak

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Segítség az outputok értelmezéséhez

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Biomatematika 2 Orvosi biometria

A valószínűségszámítás elemei

[Biomatematika 2] Orvosi biometria

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

[Biomatematika 2] Orvosi biometria

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Mérési adatok illesztése, korreláció, regresszió

[Biomatematika 2] Orvosi biometria

Biomatematika 2 Orvosi biometria

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Vargha András Károli Gáspár Református Egyetem Budapest

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

6. Előadás. Vereb György, DE OEC BSI, október 12.

A Statisztika alapjai

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Változók eloszlása, középértékek, szóródás

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Microsoft Excel Gyakoriság

A mérési eredmény megadása

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Matematikai geodéziai számítások 6.

Biostatisztika Összefoglalás

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Matematikai geodéziai számítások 6.

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

A statisztikák fogalma általában Leíró statisztikák:

A sokaság/minta eloszlásának jellemzése

Korrelációs kapcsolatok elemzése

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Biostatisztika Összefoglalás

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Statisztikai alapfogalmak

Adatok statisztikai értékelésének főbb lehetőségei

Biostatisztika VIII. Mátyus László. 19 October

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

KÖVETKEZTETŐ STATISZTIKA

Matematikai statisztikai elemzések 2.

JA45 Cserkeszőlői Petőfi Sándor Általános Iskola (OM: ) 5465 Cserkeszőlő, Ady Endre utca 1.

Regressziós vizsgálatok

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Populációbecslések és monitoring

13. előadás. Matlab 7. (Statisztika, regresszió, mérési adatok feldolgozása) Dr. Szörényi Miklós, Dr. Kallós Gábor. Széchenyi István Egyetem

Matematika feladatbank I. Statisztika. és feladatgyűjtemény középiskolásoknak

Matematikai alapok és valószínőségszámítás. Normál eloszlás

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Országos kompetenciamérés eredményeinek kiértékelése 6. és 8. évfolyamokon 2012

[Biomatematika 2] Orvosi biometria

Számítógépes döntéstámogatás. Statisztikai elemzés

Populációbecslések és monitoring

s.s. Bere Anikó Zsuzsanna

Statisztikai becslés

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Normális eloszlás tesztje

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Matematikai statisztika

(Independence, dependence, random variables)

Hipotézis vizsgálatok

Bevezetés a hipotézisvizsgálatokba

y ij = µ + α i + e ij

Sorozatok határértéke SOROZAT FOGALMA, MEGADÁSA, ÁBRÁZOLÁSA; KORLÁTOS ÉS MONOTON SOROZATOK

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Kettőnél több csoport vizsgálata. Makara B. Gábor

Least Squares becslés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Átírás:

A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az adatokból viszonylag könnyen kiszámítható paramétereket leíró statisztikáknak (vagy ritkán, de pontosabban: leíró statisztikai függvényeknek) nevezzük. Sok ilyen van, két legfontosabb csoportjuk az ún. elhelyezkedési és a szóródást jellemző paraméterek. Az elhelyezkedési paraméterek azt az értéket igyekeznek megadni, ami körül a mintánk elemei csoportosulnak (ilyen pl. átlag, medián) míg a szóródási paraméterek azt igyekeznek jellemezni, hogy értékeink mennyire szorosan vagy lazán helyezkednek el ekörül a pont körül (pl. szórás). Előfordul, hogy a minta elemeiről nem csak egyfajta adattal rendelkezünk. Kétféle adat esetén, így összetartozó értékpárok jönnek létre (pl. emberek mintájában a testsúly és testmagasság). Az értékpárok közötti összefüggésről adnak információt a kapcsolatot jellemző paraméterek. A legfontosabb leíró statisztikák Elhelyezkedést Szóródást Kapcsolatot jellemző statisztikák átlag szórás korrelációs együttható (tapasztalati) (r, r 2 ) medián interkvartilis terjedelem rangkorreláció A leíró statisztikák közül azok a legfontosabbak, amelyek a mintánkat adó populáció elméleti eloszlásfüggvényének valamelyik paraméterére adnak jó becslést a mintánkból. A leíró statisztikák gyakorlati alkalmazhatóságának ez az elméleti alapja. Itt csak annyit jegyzünk meg, hogy pl. a mintánkból meghatározott számtani átlag a populáció eloszlásfüggvényének várható értékére ad -> torzítatlan becslést. A mintából számított (ún. tapasztalati) szórás pedig a populáció eloszlásfüggvényét jellemző (ún. elméleti) szórás paraméter becslését adja. A képet tovább bonyolítja, hogy a statisztikák a minta választásának esetlegessége miatt maguk is valószínűségi változók, melyeknek meghatározható az eloszlásfüggvénye, sőt ennek paraméterei

becsülhetők, éspedig ismét valamilyen statisztikával. Ezt a következő példán illusztrálhatjuk. Nagyon gyakori, hogy összekeverik a mintából számított tapasztalati szórást (SD) az ugyancsak a mintából számítható 'átlag szórása' (SE) nevű paraméterrel. Sokan úgy gondolják, hogy a kettő lényegében ugyanaz, csak éppen az SE kisebb, mint az SD, ezért jobban fest a grafikonokon. Valójában az SE a mintaátlag (mint statisztika) elméleti eloszlásfüggvénye ismeretlen szórásparaméterének a becslése. Azt is mondhatjuk, hogy az SD egyszerű statisztika, az SE pedig egy statisztika statisztikája, tehát egy fokkal bonyolultabb fogalom. A statisztikák fogalma általában Matematikailag statisztikai függvénynek vagy röviden statisztikának neveznek minden olyan (rendszerint skaláris, olykor vektorértékű) függvényt, amelynek értelmezési tartománya a mintatér. (Magyarul statisztika az, ami az adatainkból egy képlettel kiszámítható, vagy más módon meghatározható.) Az említett leíró statisztikákon kívül igen fontosak még a hipotézisvizsgálatoknál használt statisztikák (pl. t, F statisztika). Hipotézisvizsgálathoz használt statisztikák --> hipotézisvizsgálatok A leíró statisztikák A minta elemszáma (mintanagyság) Ez a legegyszerűbb, s egyben egyik legfontosabb leíró statisztika. Rendszerint n betűvel jelöljük (latin numerus=szám). Maximum A legnagyobb előforduló számérték. Minimum A legkisebb előforduló számérték. Mintaterjedelem A legnagyobb (maximum) és legkisebb (minimum) előforduló számérték különbsége. Akkor használjuk csak, ha hangsúlyozni kívánjuk a mintánkban előforduló extrém értékeket (vagy éppen ellenkezőleg, az igen kicsi szóródást).

Számtani átlag Az értékek összege, osztva az elemszámmal. A legjobban ismert, leggyakrabban használt paraméter az eloszlás elhelyezkedésének becslésére. Érdemes tudni, hogy erősen érzékeny a mintában esetleg előforduló értékekre. Ilyenkor célszerűbb a medián használata. Ugyancsak félrevezető lehet az átlag erősen ferde eloszlás esetén. Variancia, tapasztalati szórásnégyzet Az adatoknak az átlagtól való négyzetes eltéréseinek átlaga (pontosabban az elemszám helyett n-1-gyel szokás osztani a torzítatlan becslés érdekében.). Bár az elméleti statisztikában fontos fogalom, a gyakorlatban helyette az SD használatos. Szórás, tapasztalati szórás A variancia négyzetgyöke. Jelölésére az angol kifejezés rövidítését (SD) használjuk. Mint fentebb említettük, nem tévesztendő össze az átlag szórásával. Az SD a legfontosabb, adataink szóródását jellemző paraméter. Fontos tudnunk azonban, hogy értéke függ adataink mértékegységétől, így két adathalmaz szórása csak akkor hasonlítható össze, ha ugyanazt a mértékegységet használtuk. Egységfüggetlen mérőszám viszont a következő statisztika. Variációs koefficiens (CV) A szórás százalékos aránya az átlaghoz viszonyítva. Méréskor ez nem más, mint a relatív hiba. Dimenzió nélküli szám, bármely adathalmaz variációs koefficiense összehasonlítható. Rendezett minta Az eredeti minta, az előforduló értékek nagysága szerint sorba rendezve. (pl. egy iskolai osztály a tornasorban, ha a tanulók magasságát vizsgáljuk). Önmagában nem használjuk, de több fontos további statisztika meghatározásához nélkülözhetetlen. Ilyenek pl. a következőkben ismertetendő kvantilisek. A rendezett minta és a belőle származtatott további statisztikák értelmezéséhez nem szükséges, hogy adataink numerikusak legyenek, elég, ha ordinális skálán mérhetők. Kvantilisek A rendezett mintából tovább származtatott statisztikák összefoglaló

neve, amikor a rendezett mintát több egyenlő részre osztjuk, és a részhatárokon levő mintaelemek értékét tekintjük. Medián A medián annak az adatnak a számértéke, amelyik a rendezett minta közepén van (pl. egy iskolai osztályban a magasságértékek mediánja a tornasor közepén álló tanuló magassága). Mint említettük, jó tulajdonsága, hogy sokkal kevésbé érzékeny a kilógó értékekre, mint az átlag, továbbá ferde eloszlások esetén is használhatóbb. Ordinális skála esetén az átlag értelmezhetetlen, míg a medián igen. Kvartilisek Az alsó kvartilis (latin quarta pars = negyedrész) a legkisebb és a medián között középen elhelyezkedő adat számértéke a rendezett mintában. (A tornasorban a legkisebb és a középső diák között középen levő tanuló magassága). A felső kvartilis hasonlóan a medián és a legnagyobb érték között van középen. A kvartilisek az SD-hez hasonlóan az adatok szóródásáról tájékoztatnak, elsősorban ferde eloszlás esetén érdemes őket használni. (A kvartilisek mutatják a ferdeséget, az SD nem). Percentilisek Ha elég adatunk van, akkor percentilisek is definiálhatók. Pl. az n%-os (vagy n-edik) percentilis azt jelenti, hogy az adatok n%-a kisebb, mint ez az érték. (Így a medián az 50%-os percentilisnek, az alsó és felső kvartilisek pedig a 25% ill. 75%-os percentilisnek felelnek meg.) A percentiliseknek óriási jelentősége van a 'mit tekintünk normálisnak?' kérdés eldöntésében. Az alsó és felső néhány percentilis közötti részt (2.5% - 97.5% vagy 5% - 95%) szokás normális (referencia) értéknek elfogadni. Akkor szokás pl. egy gyermekről feltételezni, hogy elmaradt a növekedésben, ha magassága (vagy súlya) nem éri el az azonos korú társaira jellemző 5%-os percentilis értéket. A laboratóriumi normálértékeket is a megfelelő percentilisek alapján definiálják. A percentilisek összessége valójában a tapasztalati eloszlásnak felel meg. Ilyen alapon - ha tetszik - a tapasztalati eloszlásfüggvényt (és az abból származtatott dolgokat, pl. a hisztogramot) is tekinthetjük

statisztikának. Interkvartilis terjedelem A felső és alsó kvartilis különbsége. Ugyanakkor használatos, amikor a kvartilis. Korrelációs együttható Pearson féle korrelációs együtthatónak is nevezik. Összetartozó értékpárok lineáris kapcsolatát jellemző, dimenzió nélküli szám. Kétféle módon adják meg: r a jele a tulajdonképpeni korrelációs együtthatónak, míg r 2 (az előbbi négyzete) hivatalos megnevezése: coefficient of determination. A tökéletes pozitív lineáris összefüggés esetén r = 1, tökéletes negatív lineáris összefüggés esetén r = -1, míg függetlenség esetén r = 0. A korrelációs együtthatóval kapcsolatban gyakoriak a félreértések. Ezek részletesen olvashatók a "Kapcsolat változók között" című fejezetben. Fontos tudni, hogy a korrelációs együttható értéke erősen függ a kilógó értékektől. Rang Ezt a statisztikát úgy kapjuk, ha a rendezett mintában minden elem értékét a rendezésben elfoglalt sorszámával helyettesítünk. Mint a rendezett mintát, ezt a statisztikát sem önmagában használjuk, hanem további statisztikákat származtatunk belőle. Rangkorreláció A rangokból számított korrelációs együttható (Spearman féle korrelációs együtthatónak). Akkor használjuk az eredeti Pearson féle korrelációs együttható helyett, ha az adatpárok közül legalább egy nem numerikus, hanem ordinális skálájú, vagy ha az eloszlás nagyon ferde, esetleg kilógó értékek vannak a mintában.