Bevezetés az SPSS program statisztikai alapjaiba. Előadó: Dr. Balogh Péter



Hasonló dokumentumok
Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Bevezető Mi a statisztika? Mérés Csoportosítás

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

[GVMGS11MNC] Gazdaságstatisztika

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

[Biomatematika 2] Orvosi biometria

Biomatematika 2 Orvosi biometria

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Adatok statisztikai értékelésének főbb lehetőségei

Bevezetés a statisztikába

Az empirikus vizsgálatok alapfogalmai

A statisztika alapjai - Bevezetés az SPSS-be -

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

KÖVETKEZTETŐ STATISZTIKA

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezetés az SPSS program használatába

Vargha András Károli Gáspár Református Egyetem Budapest

2. előadás. Viszonyszámok típusai

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

[Biomatematika 2] Orvosi biometria

Kvantitatív kutatás mire figyeljünk? Majláth Melinda PhD Tartalom. Kutatási kérdés kérdőív kérdés. Kutatási kérdés kérdőív kérdés

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Sta t ti t s i zt z i t k i a 1. előadás

Biomatematika 2 Orvosi biometria

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Függetlenségvizsgálat, Illeszkedésvizsgálat

KUTATÁSMÓDSZERTAN 4. ELŐADÁS. A minta és mintavétel

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

18. modul: STATISZTIKA

Területi statisztikai elemzések

Megoldások. Az ismérv megnevezése közös megkülönböztető szeptember 10-én Cégbejegyzés időpontja

[Biomatematika 2] Orvosi biometria

Statisztika I. 1. előadás. Előadó: Dr. Ertsey Imre

Sta t ti t s i zt z i t k i a 3. előadás

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Statisztika I. 2. előadás. Előadó: Dr. Ertsey Imre

A leíró statisztikák

Kutatói pályára felkészítı modul

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2007. III. negyedév) Budapest, március

A Statisztika alapjai

Mérési hibák

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

6. Előadás. Vereb György, DE OEC BSI, október 12.

Változók eloszlása, középértékek, szóródás

ÉVKÖZI MINTA AZ EGÉSZSÉGÜGYI BÉR- ÉS LÉTSZÁMSTATISZTIKÁBÓL. (2006. II. negyedév) Budapest, augusztus

Kutatásmódszertan és prezentációkészítés

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Korrelációs kapcsolatok elemzése

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

S atisztika 2. előadás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI


Modellpontok képzése és használata

1. ábra: Magyarországi cégek megoszlása és kockázatossága 10-es Rating kategóriák szerint. Cégek megoszlása. Fizetésképtelenné válás valószínűsége

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

A magyar textil- és ruhaipar 2013-ban a számok tükrében Máthé Csabáné dr.

Mérés és skálaképzés. Kovács István. BME Menedzsment és Vállalatgazdaságtan Tanszék

Valószínűségi változók. Várható érték és szórás

V. Gyakorisági táblázatok elemzése

Mérési adatok illesztése, korreláció, regresszió

Közösségi kezdeményezéseket megalapozó szükségletfeltárás módszertana. Domokos Tamás, módszertani igazgató

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Ribarics Ildikó PTE Klinikai Központ Ápolásszakmai Igazgatóság

Statisztika 10. évfolyam. Adatsokaságok ábrázolása és diagramok értelmezése

Viszonyszám A B. Viszonyszám: két, egymással kapcsolatban álló statisztikai adat hányadosa, ahol A: a. viszonyítadóadat

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Elemi statisztika fizikusoknak

Statisztikai alapfogalmak

Többváltozós lineáris regressziós modell feltételeinek

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Valószínűségszámítás összefoglaló

Mintavételi eljárások

STATISZTIKA I. Mintavétel fogalmai. Mintavételi hiba. Statisztikai adatgyűjtés Nem véletlenen alapuló kiválasztás

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

A statisztika alapjai - Bevezetés az SPSS-be -

Az első számjegyek Benford törvénye

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Összességében hogyan értékeli az igénybe vett szolgáltatás minőségét?

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Microsoft Excel Gyakoriság

y ij = µ + α i + e ij

MINTAVÉTELEZÉS. Alaptípusai: sampling. véletlen érvényesítésére v. mellőzzük azt. = preferenciális mintav. = véletlen mintav.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Átírás:

Bevezetés az SPSS program statisztikai Előadó: Dr Balogh Péter

A statisztika olyan tudomány, amely adatok összegyűjtésével, rendszerezésével és értelmezésével foglalkozik abból a célból, hogy valamilyen a valós életben felmerült kérdésre választ találjon Az áremelkedés hatására csökken-e a kereslet? A többféle tanítási módszer közül melyik a legjobb?

A banki alapkamat-csökkentés hatására megnő-e e a vállalkozói kedv a befektetésekre? Kimutatható, hogy 1 %-kal% nőtt országosan a befektetések nagysága Ez ténylegesen a kamatcsökkentés eredményének köszönhető-e? e? Mi okozhatta volna, ha csak 0,5 %-os emelkedés következik be a befektetésekben? Mi történt volna, ha nem történik kamatcsökkentés?

20 hízóval hagyományos tápsort, másik 20 hízóval egy új tápsort etettek A hízlalás végén megmérték a napi átlagos súlygyarapodást mindkét csoportban Az egyik esetben 550 gramm volt, a másik csoportnál ez 620 grammnak adódott Bizonyítja-e ez azt, hogy a növekedés nagyobb az új tápsor hatására?

A statisztikának két jól elkülöníthető része van: (1) leíró és (2) induktív statisztika A leíró statisztika olyan módszerek összefoglaló elnevezése, amely az összegyűjtött adatok leírására szolgál

Példa: Az Általános Mezőgazdasági Összeírás esetén minden mezőgazdasági termelőnek felveszik az adatait Ha több millió adatot elénk tesznek, azzal semmire sem megyünk Ezt az adathalmazt sűrített formában ábrázoljuk: grafikonok, átlagok és egyéb statisztikai mutatók segítségével

Az induktív statisztika olyan módszerek összefoglaló elnevezése, amelyeket arra használnak, hogy egy minta alapján következtessenek a populáció tulajdonságaira Példa: Minőség-ellenőrzés, választás előtti közvélemény-kutatás

POPULÁCIÓ: A vizsgálat tárgyát képező egyedek összessége (alapsokaság) MINTA: A populációból a vizsgálat céljára kiválasztott egyedek összessége (a populáció egy részhalmaza) A KÉRDÉS: Az átlagbérek növekedése valójában fogyasztás növekedést okoz-e? KÖVETKEZTETÉS: A megválaszolandó kérdés szempontjából mit mond számunkra a minta az egész populációra?

A minta Miért van szükségünk mintára? Miért nem vizsgáljuk a teljes populációt? 1) Túl költséges, és időigényes 2) Nem érhető el az összes egyed 3) A kísérlet rongálhatja, vagy megsemmisítheti az egyedeket

A mintával szemben elvárjuk, hogy reprezentálja a teljes populáció tulajdonságait, hiszen csak így lehet korrekt következtetéseket levonni a vizsgálat eredményeiből A minta akkor lesz a legnagyobb valószínűséggel megfelelő, ha a mintaelemeket véletlenszerűen válogatjuk ki a teljes populációból, mert így kerülhet a populáció minden tagja egyforma valószínűséggel a mintába

Az adatok A mintabeli egyedekről a vizsgálat során adatokat gyűjtünk Két fő adattípust különböztetünk meg: 1 Kvalitatív adatok: Ezek nem fejezhetők ki mennyiségekként, inkább kategóriák: gépjármű típusa, vallási felekezet, vállalkozás formája, szem színe, pártállás

1 Kvantitatív adatok: Ezek valamilyen mérés eredményei (mennyiségek) árbevétel, alapterület, hengerűrtartalom, létszám, fizetés

A kvantitatív adatok kétfélék lehetnek: 1) Folytonosak (a mérési skála egy intervallum) hőmérséklet lehullt csapadékmennyiség egy adott napon

A kvantitatív adatok kétfélék lehetnek: 2) Diszkrétek (a mérhető értékek a számegyenes izolált pontjai) a foglalkoztatottak létszáma, a vállalat gépjárműveinek száma

Az adatok másik csoportosítási lehetősége: 1 Forrásadat 2 Származtatott adat 3 Hiányzó adat 4 Becsült adat

Forrás adat Az adatgyűjtésből, felmérésből, mérésből származó adat Ezeket az adatokat a rendelkezésre álló adatokból függvénykapcsolatok segítségével nem lehet előállítani Például: név, születési dátum, stb

1 Az 2 Például: Származtatott adat azonos esethez tartozó több más változó komponensekből számoljuk ki valamilyen algoritmussal a kezdő és a jelenlegi fizetésből a fizetésnövekedés számolható ki

1 Akkor 2 Például Hiányzó adat keletkezhet, ha nem áll rendelkezésünkre forrásadat, vagy származtatott adat (például a nullával való osztás, vagy negatív számból való négyzetgyökvonás miatt nem képezhető) Az adathiányt jelöljük a következő speciális karakterrel:, a kartonról nem jól olvasható egy dolgozó születési dátuma, vagy a dolgozó egyszerűen megtagadta az adat közlését, például nemzetiség esetén

1 Akkor 2 Például Becsült adat keletkezik, ha a változó többi adatából valamilyen statisztikai eljárással a hiányzó adatot kipótoljuk Lehet ez a többi adat átlaga, vagy a többi adat eloszlásának megfelelő véletlenszerű generálás eredménye ha egy dolgozónál hiányzik a kezdő fizetés adata, akkor az azonos korú, azonos iskolai végzettségű és hasonló beosztású dolgozók kezdő fizetésének átlagaiból becsülhetjük

Adatszerzési módok Adatszerzés Teljes körű Részleges Kísérletek Repr megfigyelés Egyéb Véletlen kiválasztás Nem véletlen kiválasztás

Mérési skálák Nominális (kategoriális) mérési szint a legegyszerűbb és a legkevésbé informatív mérési skála Ebben az esetben az adat csupán az eset azonosítására, vagy valamilyen kategóriához tartozás azonosítására szolgál (pl növényevő ill húsevő állatok) A változók értékei kategóriákba vannak sorolva, közöttük nem feltétlenül van bármilyen viszony Például: név, törzsszám, nemzetiség, nem, családi állapot

Mérési skálák Ordinális (sorrendi) mérési szint esetén a skálaértékek egyezősége vagy különbözősége mellett az értékek sorrendiségét is figyelembe vehetjük Ordinális az adat, ha az adatok között erős sorrend azaz rendezettség létesíthető Azaz, ha bármely két adat közül meg tudjuk mondani, hogy ők egyenlők, vagy valamelyik nagyobb Például az iskolai végzettség, vagy skálák: nagyon nem tetszik, nem tetszik,

Mérési skálák Intervallum (különbségi) az adat, ha rendezett, és értékkészlet egy intervallum, de nincsen origó, vagyis az adatok viszonylagosak Például a fizetésnövekedés adat %-ban kifejezve ilyen, hiszen egy 10%-os fizetésemelés egy alacsony fizetésű dolgozónál kisebb lehet, mint egy 1%-os fizetésemelés egy kiemelt fizetéssel rendelkező dolgozónál További példa: IQ, hőmérséklet

Mérési skálák Arányskála (abszolút skála): a legtöbb információt adja Arány az adat, ha valós számérték és ismert az origó, a viszonyítási alap Például a kezdő- és jelenlegi fizetés, testsúly

Példa: 1 Nem 2 Név 3 Legmagasabb iskolai végzettség 4 Reggel és este mért vérnyomás 6 Tájegység 8 Földkategória Ordinális Nominális 5 Kezdő és jelenlegi fizetés Nominális A r á n y Nominális Arány Ordinális 7 Saját terület (ha) Arány 9 Erőgépek száma Intervallum

Mezőgazdasági vállalkozások adatai (kivonat) 2002 12 31 Gazdaság Tájegység Saját terület ha Bérelt terület ha Bérleti díj Ft/ha 0 C Föld- kategó ria Maxi- mum hőmérséklet Erőgépek száma Sertés db Hízóérté- kesítés 2002- ben t 1 Hajdúság 0 3144 19600 4 28,9 18 0 397 2 B-A-Z megye 625 1758 9050 1 29,3 10 0 0 3 5 Hajdúság 0 3235,52 18500 4 28,9 19 950 14,5 7 Dél-Alföldld 0 1322 11530 2 31,9 4 662 90,84 8 B-A-Z megye 0 1414 13500 1 25,9 6 532 51 9 Szabolcs- Szatmár- Bereg megye 45 4268 9100 1 25,8 22 2624 397 Szabolcs- Szatmár- Bereg megye 0 1300 16100 3 28,9 7 928 189

A mezőgazdasági vállalkozások tulajdonában lévő erőgépek 2002 12 31-én elnevezésű sokaság diszkrét, álló, véges sokaságnak tekinthető A hízósertés értékesítése a 2002 évben folytonos, mozgó és véges sokaság A mezőgazdasági vállalkozások által bérelt terület nagysága 2002 12 31-én folytonos, álló, véges sokaságot képez

Ismérvek és mérési szintek Ismérv Változat Ismérvfajta Mérési szint Tájegység Hajdúság Térbeli Nominális/nomi nal Saját t terület ha 0 Mennyiségi/folytonos Földkategória 4 Minőségi Erőgépek száma 18 Mennyiségi/diszkr gi/diszkrét Arány/scale Ordinális/ordina l Arány/scale Maximum hőmérséklet 0 C Hízóértékesítés 2002-ben t 28,9 Mennyiségi/folytonos 397 Mennyiségi/folytonos Intervallum/scal e Arány/scale

Statisztikai problémák megfogalmazása

Idősorelemzés: Az adatmátrix: az utóbbi 10 év (N=3650) napi villamosenergia fogyasztásának adatsora

A felvetődő kérdések (statisztikai módszerek): [1] Milyen ciklikusság észlelhető az adatsorban? periodicitás-elemzés [2] Volt-e növekedési, vagy csökkenési tendencia? trendanalízis [3] Vannak-e hirtelen változások, töréspontok? lineáris regresszió [4] Összevetve más országok hasonló idősorával, vannak-e azonos tendenciák? homogenitásvizsgálat [5] Mi várható a jövőbeli fogyasztási adatokban, mire kell felkészülnie az áramszolgáltatónak? extrapoláció

Kérdőíves felmérés: Az adatmátrix: Adva van egy N elemű címhalmaz, amihez tartozó emberek halmaza a magyarországi társadalmi, gazdasági, kulturális rétegződésnek megfelelő reprezentatív minta alkotja Ez azt jelenti, hogy a mintában a korcsoportos, nem-, iskolázottsági-, foglalkoztatási- stb közel ugyanolyanok, mint a teljes 10 milliós populációban A címekre kiküldött kérdőívekben az alábbi kérdésekre kellett válaszokat adni: 1 Milyen pártra szavazott? (válaszolnia kell 10 felsorolt párt közül); 2 Mi a véleménye a NATO csatlakozásról? (1: támogatom, 2: elutasítom, 3: nincs véleményem); 3 Mi a véleménye az EU tagságról? (1: támogatom, 2: elutasítom, 3: nincs véleményem); 4 Hogyan ítéli meg az ország gazdasági helyzetét? (1: romlott; 2: javult, 3: nem változott);

A felvetődő kérdések (statisztikai módszerek): [1] A különböző pártokra szavazók válaszai mennyire térnek el egymástól, illetve vannak-e olyan pártok, akiknek a szavazói hasonlóan vélekednek? Többdimenziós skálázás [2] Milyen gondolkodás jellemző az egyes pártok szavazóira? Milyen az egyes pártok társadalmi beágyazottsága? Klaszterelemzés

Hipotéziselmélet Az adatmátrix: Egy szemészeti klinikán a páciensektől adatokat vesznek fel A páciensek olyan személyi adatain kívül, mint pl név, nem, kor, foglalkozás rögzítünk olyan adatokat is, mint a vérnyomás, súly, testmagasság, vércukor (egészségi kondíció) A szembetegség kórisméjét is tároljuk: pl csarnokvíz, éleslátás, stb

A felvetődő kérdések (statisztikai módszerek): [1] Van-e különbség az egyes foglalkozási (kor-, nemi-, ) csoportban egy adott szembetegség relatív gyakoriságában? Homogenitásvizsgálat [2] Van-e kapcsolat egy adott szembetegség és az egyes egészségügyi kondíciók között? Szórásanalízis

Közvéleménykutatás: Az adatmátrix: Egy TV csatorna kíváncsi a műsorainak nézettségére és tetszési indexére Egy N elemet tartalmazó reprezentatív mintának a következő kérdéseket tették fel: (1) Nézte-e e az adott műsor az 1,2, 10-edik héten? (2) Osztályozza le a produkciókat 1-től 1 10-ig tetszésének megfelelően (3) Ha nem nézte, mit csinált az i-edik héten? (i) nem ért rá, de nézte volna; (ii( ii) ) nem ért rá, de úgysem nézte volna; (iii( iii) ) más TV csatornát nézett abban az időben; (iiii)) időnként oda is kapcsolt (4) A kérdéses csatornát összességében tévézésének hány %-ban% nézi? stb

A felvetődő kérdések (statisztikai módszerek): [1] Hogyan változott a műsor nézettsége és tetszési indexe a vizsgált terminusban? Trendanalízis [2] Nézettebb-e a vizsgált műsor, mint a csatorna általában? Hipotéziselmélet [3] Melyik héten volt a legsikeresebb a műsor? Lineáris regresszió