Adatfeldolgozás és elemzés

Hasonló dokumentumok
A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI MA. T.P.Lenke

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Segítség az outputok értelmezéséhez

Biomatematika 2 Orvosi biometria

A statisztika alapjai - Bevezetés az SPSS-be -

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Bevezetés az SPSS program használatába

Kutatásmódszertan és prezentációkészítés

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

A statisztika alapjai - Bevezetés az SPSS-be -

Sztochasztikus kapcsolatok

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

[Biomatematika 2] Orvosi biometria

6. Előadás. Vereb György, DE OEC BSI, október 12.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Biostatisztika VIII. Mátyus László. 19 October

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

TÁMOP-4.2.2/B-10/ Tantárgyi program (rövidített)

SPSS ALAPISMERETEK. T. Parázsó Lenke

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

[Biomatematika 2] Orvosi biometria

Centura Szövegértés Teszt

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

MÓDSZERTANI ESETTANULMÁNY. isk_4kat végzettségek négy katban. Frequency Percent Valid Percent. Valid 1 legfeljebb 8 osztály ,2 43,7 43,7

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Bevezető Mi a statisztika? Mérés Csoportosítás

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Az első számjegyek Benford törvénye

Korreláció számítás az SPSSben

matematikai statisztika

Kvantitatív statisztikai módszerek

[GVMGS11MNC] Gazdaságstatisztika

Adatok statisztikai értékelésének főbb lehetőségei

[Biomatematika 2] Orvosi biometria

Mérés és skálaképzés. Kovács István. BME Menedzsment és Vállalatgazdaságtan Tanszék

TÁRKI ADATFELVÉTELI ÉS ADATBANK OSZTÁLYA. Változás SPSS állomány neve: Budapest, 2002.

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Miben fejlődne szívesen?

18. modul: STATISZTIKA

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

1. Egy Kft dolgozóit a havi bruttó kereseteik alapján csoportosítottuk: Havi bruttó bér, ezer Ft/fő

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Függetlenségvizsgálat, Illeszkedésvizsgálat

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Biostatisztika Összefoglalás

Mérési hibák

S atisztika 2. előadás

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

A TANTÁRGY ADATLAPJA

V. Gyakorisági táblázatok elemzése

PIACKUTATÁS (MARKETINGKUTATÁS)

MINTAFELADATOK. 1. Az alábbi diagram egy kiskereskedelmi lánc boltjainak forgalomkoncentrációját szemlélteti:

Követelmény a 7. évfolyamon félévkor matematikából

Hipotézis vizsgálatok

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

Iskolai jelentés. 10. évfolyam szövegértés

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

MÓDSZERTANI LEÍRÁS DIPLOMÁS KUTATÁS A vizsgálat keretei. A kutatás alapsokasága. Az adatfelvétel módszere

A Statisztika alapjai

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Kvantitatív kutatás mire figyeljünk? Majláth Melinda PhD Tartalom. Kutatási kérdés kérdőív kérdés. Kutatási kérdés kérdőív kérdés

Változók eloszlása, középértékek, szóródás

Modellpontok képzése és használata

A statisztika oktatásáról konkrétan

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

Biomatematika 2 Orvosi biometria

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

A tanulók oktatási azonosítójára és a két mérési területen elér pontszámukra lesz szükség az elemzéshez.

y ij = µ + α i + e ij

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztikai szoftverek esszé

Korrelációs kapcsolatok elemzése

Hol terem a magyar statisztikus?

[Biomatematika 2] Orvosi biometria

Matematika. J a v í t ó k u l c s. 8. évfolyam. Oktatási Hivatal Közoktatási Mérési Értékelési Osztály 1054 Budapest, Báthory utca 10.

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Varianciaanalízis 4/24/12

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

Biostatisztika Összefoglalás

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Míg a kérdıíves felérés elsısorban kvantitatív (statisztikai) elemzésre alkalmas adatokat szolgáltat, a terepkutatásból ezzel szemben inkább

A sokaság/minta eloszlásának jellemzése

Statisztikai módszerek 7. gyakorlat

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Átírás:

Adatfeldolgozás és elemzés Bevezetés a kutatásmódszertanba WJLF SZM szak Pecze Mariann

Amiről ma szó lesz 1. Az adatok előkészítése 2. Egyszerűbb elemzések 3. puha adatok elemzése 2

1. Az adatok előkészítése 1.1. Változók Mérési szintek 1.2. adatrögzítés kódolás 1.3. adattisztítás 3

1. Az adatok előkészítése 1.1. Változók Mérési szintek A mérhetővé tétel a jelenségek összehasonlításának, rangsorolásának igénye miatt fontos! Számokkal kifejezett jelenségeket mérünk, ebből következtetünk A vizsgált dolgok különböző tartalmúak különböző szabályok szerint adunk hozzá számokat máshogy mérjük - 4 féle hozzárendelési szabály, mérési szint: 1. Nominális 2. Ordinális 3. Intervallum 4. arányskála 4

Mérési szintek 5

kategória Nem, foglalkozás, településnév, vallás, nemzetiség Kategória, sorrend Településtípus Kategória, sorrend, különbség hőmérséklet Kategória, sorrend, különbség, arány súly, magasság 6

1.2. adatrögzítés Papír alapú adatok kódolása és rögzítése számítógépen Elektronikus adatok esetében egyszerűbb adatkonvertálás Ilyen formában nem mérhető! kor nem Isk.végz. jövedelem 1. Mintaelem (kérdőív) 2. Mintaelem (kérdőív) 24 Nő 8 ált. 42.000 20 ffi Gimn. 80.000 kódolás szükséges a mérési szinteknek megfelelően! 7

kódolás Kódutasítás és kódtáblázat Kérdőív: Kódutasítás: Kérdőív: Mi az Ön neme? Férfi nő Van-e az Önök háztartásában: Mikrosütő Mosógép Számítógép Mi az Ön neme? {NEM} 1. Férfi 2. nő 3. 99 nincs válasz Kódutasítás: Van-e az Önök háztartásában: {HMIK} Mikrosütő 0-nincs válasz {HMOS} Mosógép 1-van {HSZGEP} Számítógép 2-nincs 8

kódolás Nyitott kérdések kódolása szöveges válasz is beírható (Excel, SPSS szöveges változói) kategóriarendszer felállítása (- ne legyen túl sok kategória - minden válasz beleférjen valamely kategóriába) 9

Adatfájl előkészítése Az összes változó definiálása (címkézés) Az attribútumok megadása (kódutasításnak megfelelően) Változó neve legyen egyértelmű (más számára is használható) 10

Adattábla részlete az SPSS adatbázisában 11

1.3. Adattisztítás 1. Kérdőívek ellenőrzése kérdezőbiztos: át kell néznie kitöltés és leadás előtt elég szúrópróbaszerűen önkitöltős: ha lehet, mindet ellenőrizzük lehetséges hibák: a. Hiányzó válaszok Oka: - szűrő kérdés miatt nincs adat (ez nem hiba!) - kérdezőbiztos nem tette fel a kérdést vagy nem rögzítette a választ Esetenként pótolható az adathiány b. Logikai ellentmondások c. Nyitott kérdéseknél: Olvashatóság kérdése d. Hiányzó kérdőívlapok Leszakadt, szétesett - pótlás vagy adathiány 12

1.3. Adattisztítás 2. Digitális adatfile tisztítása Az adatrögzítő hibáinak kiküszöbölése elütések kiszűrése: egy gyakoriság (frequencies) lekérdezése után kijövő ellentmondások Pl.: neme: 22 (valószínűleg elütés: 2-helyett 22) de: 125 000-es kódnál lehet elcsúszás az adatfile-ban! korrekt: hiányzó értéknek jelölni (missing), így nem torzítja a statisztikát 13

Adattisztítás gyakoriság lekérdezésével anya iskolai végze ttsége Valid kevesebb, mint 8 általános 8 általános szakmunkásk épző szakköz épisk ola, gimnázium tec hnikum főis kola, egyetem Total Frequenc y Percent Valid Percent 1 2,1 2,1 2,1 5 10,4 10,4 12,5 11 22,9 22,9 35,4 14 29,2 29,2 64,6 5 10,4 10,4 75,0 12 25, 0 25, 0 100,0 48 100,0 100,0 Cumulat ive Percent 14

2. Egyszerűbb elemzések 2.1. gyakoriság ha sok a válaszlehetőség (pl. életkor), célszerű a kategóriákat képezni. (ne túl sokat!) nézhetünk egyszerű gyakoriságot (frequency; előfordulási elemszám), százalékot (percent), a hiányzó értékektől letisztított százalékot (valid percent) 15

Képezzünk kategóriákat! 16

2. Egyszerűbb elemzések 2.2. mérőszámok 2.2.1. a középérték mérőszámai numerikus változóknál lehet számolni a. átlag (a változó összes értéke/adatok száma) pl. 1 főre jutó jövedelem átlaga b. medián (az adatokat növekvő/csökkenő sorrendbe állítjuk, a minta közepén megjelenő érték; a minta adatainak fele felette, fele alatta lesz) a szélső értékek befolyásolhatják az átlagot! medián jövedelem: fölötte u.annyian helyezkednek el, mint alatta c. módusz (a leggyakrabban előforduló érték) az a kategória, amelybe a vizsgált populációból a legtöbben tartoznak Számolásuk SPSS-ben: analyze/frequencies 17

Hányan laknak egy háztartásban? Válaszok 1-7-ig terjedtek Mennyi lehet az átlagos létszám? Négy? Az egyes értékek gyakorisága nem azonos! egyedül 112 Öten 127 Ketten 293 Hatan 28 Hárman 370 Heten 7 négyen 501 Össz. 1438 Mi lehet az átlag? Számítás: (1X112+2X293+3X370+4X501+5X127+6X28+7X7)/1438=3,24 Mi lehet a medián (középérték)? A minta közepét megjelenítő érték a mintában szereplőadatok fele (az első 719 válaszadó) a medián alatt, fele (719) a medián felett található. E változónál ez az érték: 3 Mi lehet a módusz (leggyakrabban előforduló érték)? 18 A válaszadók közül legtöbben 4-en laknak egy háztartásban.

Átlag, medián és módusz értékei egy másik konkrét felmérésben Sta tistics havi gazdálkodási összeg N Mean Median Mode Valid Mis sing 48 0 49235,35 40000,00 20000 19

2. Egyszerűbb elemzések 2.2.2. szórás ne maradjunk meg a középérték elemzésénél, nézzük meg a szóródást is! Pl.: jövedelmi viszonyok megítélése: - a sokaság nagy része az átlag közelében van, - vagy sokan messze az átlag alatt és/vagy felett helyezkednek el? Mérésére leggyakrabban használt statisztika a standard deviáció (SPSSben: Std. Deviation) Pl.:megkérdezettek jövedelmének átlaga: 97660 Ft Lehetne ez úgy is, hogy mindenki ilyen jövedelmű, de úgy is, ha egyik fele 1 Ft-ot mond, a másik fele 195319 Ft-ot. Így a két esetben más a szórás! 0 és 97692,37 a két esetben az érték Minél inkább közelít a nullához a szórás, annál jellemzőbbek az átlag körüli értékek. 20

2. Egyszerűbb elemzések 2.3. változók közötti kapcsolat Független (magyarázó) tényező: az a változó, amely okként jelenik meg Függő változó: az okozatként szereplő változó Pl: életkor és jövedelem a közszférában: életkor a független, jövedelem a függő változó Kapcsolat lehet: - determinisztikus - sztochasztikus (valószínűségi) - változók függetlensége 21

2. Egyszerűbb elemzések 2.3.1. kereszttábla-elemzés (crosstabulation) két változó összevetése egy táblázatban abszolút számok mellett: százalék sorok és oszlopok szerint is Kizárható-e, hogy a talált összefüggés nem csak a mi mintánkra jellemző? statisztikai hipotézisvizsgálat (khi-négyzet próba- Pearson) szignifikanciaszint meghatározása: mekkora a valószínűsége annak, hogy az összefüggést mintavételi hiba okozta? (határérték szokásjog alapján 0,05, ez alatt az eredmény szignifikáns) Háromdimenziós kereszttáblák esetén legyen elegendő elemszám! 22

Kereszttábla példa Ne m * iskolaválasztás e lőtti tapasztala t Crosstabulation Nem Total férfi nő Count % within Nem % within iskolaválas ztás előtti tapasztalat % of Total Count % within Nem % within iskolaválas ztás előtti tapasztalat % of Total Count % within Nem % within iskolaválas ztás előtti tapasztalat % of Total isk olaválasztás előt ti tapasztalat nem volt volt Total 10 0 10 100,0%,0% 100,0% 23, 3%,0% 20, 8% 20, 8%,0% 20, 8% 33 5 38 86, 8% 13, 2% 100,0% 76, 7% 100,0% 79, 2% 68,8% 10,4% 79,2% 43 5 48 89, 6% 10, 4% 100,0% 100,0% 100,0% 100,0% 89, 6% 10, 4% 100,0% Nincs elegendő elemszám, következtetés levonása elhamarkodott lenne! 23

Összefoglalva: 24

Elemzés? Bazi nagy, zöld oszlop Felfelé mutató nyíl Egészen kicsi, kék oszlop Közepes, piros oszlop, kábé a zöld fele jobbra mutató nyíl 25

3. A puha adatok elemzése Adatgyűjtés szakaszában célszerű hozzálátni az adatok tisztításához, előkészítéséhez, elemzéséhez változtatás lehetősége! 3.1. az interjú leírása és átírása ha lehet, a kutató maga írja le! 3 formája: 1. vázlat az interjú szövegéből 2. interjú szó szerinti szövege 3. további információk közlése (idő, megjegyzések, gesztusok, utalások más interjúkra ) 26

1. Vázlat az interjú szövegéből 27

3. Részletes leírás 2. Interjú szó szerint 28

3. A puha adatok elemzése 3.2. adatok rendezése Összegyűlt kutatási nyersanyagok rendszerezése adatok formátuma Legyen egységes! (kazetta, feljegyzések legyen gépen rögzítve, filenév egyértelmű ) adatok csoportosítása minden adatot fel kell címkézni! (interjú: kódszám vagy monogram; helyszín, más szempont szerint csoportosítani) adattisztítás a későbbi elemezhetőség állapotába juttassuk az adatokat! Más is tudja esetleg elemezni biztonsági intézkedések Mentés készítése, más helyen tárolás!!! 29

3. A puha adatok elemzése 3.3. kódolás 1. a témára vonatkozó utalások kiszűrése 2. adott szövegrészek kigyűjtése 3. azok csoportosítása 4. táblázat elkészítése a csoportok és válaszaik szerint Interjúk alapján tipológia készíthető! 30

3. A puha adatok elemzése 3.4. esettanulmány Célravezetőbb, ha több interjút készítünk Egymás mellé helyezve ezek szöveghálót alkotnak A háló elemei között kapcsolatok állnak fenn szövegrészek megfigyelések információháló Jelenség elemzése Esettanulmány példája: Fellegi Borbála Ligeti György (2003): Hátrányos helyzetűek a közoktatásban; Kutatási beszámoló Kurt Lewin Alapítvány (elérhető: http://www.kla.hu/referenciak/kutatas/ ) 31

A tartalomelemzés szakaszai 1. A kódolás szakasza 2. Az elemzés szakasza 3. Az értelmezés szakasza

1. A kódolás szakasza Ebben a fázisban a szöveg egyes részeit (pl. a fókuszcsoport vagy az egyéni mélyinterjú szöveges átiratának kódolási egységeit ) előre megállapított kategóriákhoz soroljuk. Olyan szavak, mondatok jelentése kódolható, amelyek a szövegben ténylegesen megjelennek.

2. Az elemzés szakasza A kódolt tartalmakat dolgozzuk fel Vizsgáljuk az egyes előfordulási gyakoriságok számát A kódok együttes előfordulása A nem jelenlévő fogalmak is felszínre kerülnek (látens tartalom) Két-három kódnak az együttes előfordulása jelentéstöbbletet hoz létre tartalmi mutatóvá válhat valaminek a hiánya

3. Az értelmezés szakasza A tendenciaszerű együttes előfordulások a szövegben törvényszerűségekre engednek következtetni, amelyek értelmezhetővé válnak. Ha egy dokumentumban nem szerepel egy olyan kód (által jelzett fogalom), amelyet ott elvárnánk mert pl. korábbi hasonló dokumentumokban mindig szerepelt, akkor egy nem jelenlevő tartalomra, rejtett, látens mozzanatra bukkantunk, amely esetleg éppen sokatmondó hiánya miatt lehet meghatározó.

Kódolás és kategóriák A kódolás az a folyamat, amelynek révén a nyers szövegadatokat módszeresen nagyobb egységekbe soroljuk, s így lehetővé tesszük a tartalom valóban lényeges leírását és összefüggéseinek megragadását. Például a haragszom, nagyszerű örömben volt részem, bosszant, szomorúságot tükröz, egyszer nagyon be fogok gurulni, örültem neki, mindig dühös leszek, ha ilyet látok, bepöccenek, ha azt látom, hogy, félelmet keltenek bennem szóöszszetételeket az érzelemnyilvánítás nagyobb egységébe sorolhatjuk, s e címszóból alkotott betűkombinációval kódolhatjuk (é. ny. = érzelemnyilvánítás). Két típus: az előre meghatározott kategóriák a vizsgálat során kibontakozó kategóriák

37