REL REL. Histogramok A második kép anormál eloszlással összevetve. minden változó értéket külön-külön vesz figyelembe

Hasonló dokumentumok
Hipotézis vizsgálatok

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Biomatematika 2 Orvosi biometria

Statisztikai szoftverek esszé

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

A leíró statisztikák

Biostatisztika Összefoglalás

y ij = µ + α i + e ij

Varianciaanalízis 4/24/12

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Korreláció számítás az SPSSben

Normál eloszlás. Gyakori statisztikák

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Sztochasztikus kapcsolatok

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Bevezetés a Korreláció &

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

[Biomatematika 2] Orvosi biometria

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Korreláció és lineáris regresszió

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Korrelációs kapcsolatok elemzése

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Segítség az outputok értelmezéséhez

Biostatisztika VIII. Mátyus László. 19 October

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatok statisztikai értékelésének főbb lehetőségei

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Kvantitatív statisztikai módszerek

Bevezetés a hipotézisvizsgálatokba

Microsoft Excel Gyakoriság

Biostatisztika Összefoglalás

Hipotézis vizsgálatok

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Esetelemzés az SPSS használatával

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

SPSS ALAPISMERETEK. T. Parázsó Lenke

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Többváltozós lineáris regressziós modell feltételeinek

X PMS 2007 adatgyűjtés eredményeinek bemutatása X PMS ADATGYŰJTÉS

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Diszkriminancia-analízis

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Az értékelés során következtetést fogalmazhatunk meg a

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Faktoranalízis az SPSS-ben

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Matematikai geodéziai számítások 6.

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Esetelemzések az SPSS használatával

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Faktoranalízis az SPSS-ben

Matematikai geodéziai számítások 6.

6. Előadás. Vereb György, DE OEC BSI, október 12.

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

A konfidencia intervallum képlete: x± t( α /2, df )

Normális eloszlás tesztje

Statisztika elméleti összefoglaló

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Elemi statisztika fizikusoknak

SZÁMÍTÓGÉPES ADATFELDOLGOZÁS

KÖVETKEZTETŐ STATISZTIKA

A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI MA. T.P.Lenke

A valószínűségszámítás elemei

Minőség-képességi index (Process capability)

Kettőnél több csoport vizsgálata. Makara B. Gábor

Lineáris regresszió vizsgálata resampling eljárással

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

Mérési hibák

SPSS ÉS STATISZTIKAI ALAPOK II.

Vargha András Károli Gáspár Református Egyetem Budapest

[Biomatematika 2] Orvosi biometria

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Átírás:

Frequency Frequency 1. ALAPFOGALMAK Deduktív stratégia: Az általános elvekből, törvényszerűségekből, vagy egyéb tudományos megállapításból indul ki a kutató. Induktív stratégia: A konkrét tapasztalatokból kiindulva az adatok elemzésével jut el a kutató az általános következtetésig. Az eredmények ábrázolása Cél: az eredmények áttekinthetőbbé és szemléletesebbé tétele. Gyakorisági poligon: az x tengelyen az adott csoport középértékét, az y tengelyen a csoportokhoz tartozó középértékeket kell feltüntetni. Hisztogram: a vízszintes tengelyen a valóságos csoporthatárok, a függőleges tengelyen a az adott csoportok gyakorisága Histogram REL Egyéni eredmény 6 5 6 5 9 12 15 18 24 Missing 4 4 3 3 2 2 1 0 0 5 10 15 20 25 30 REL = 12,9 Std. Dev. = 5,515 N = 20 1 0 0 5 10 15 20 25 30 REL = 12,9 Std. Dev. = 5,515 N = 20 Histogramok A második kép anormál eloszlással összevetve Charts-t. ablakban választható: Bar Chart(s) Pie charts Histogram(s) minden változó értéket külön-külön vesz figyelembe Kördiagram Hisztogramot készít Gyakorisági poligon Intervallum vagy arányváltozók esetén használjuk. Az osztályközepek függvényében kapott pontokat vonalakkal összekötve kapjuk a gyakorisági poligont. Jellemzői: o Szimmetrikus: ezen belül megkülönböztetünk o lapított (platykurtic) az eloszlás értékei viszonylag gyakoriak o csúcsos (leptokurtic) - túlzottan kiemelkedik az eloszlás közepe 1

o Aszimetrikus (skewed), amely esetében lehet az adatok eloszlása jobb vagy bal irányba eltolódott. Az eloszlás jellemzői: Ferdeség egy mérőszám, mely arra ad választ, hogy a szóródás a centrumtól jobbra vagy balra lapul-e. A ferdeség - Skewness Lapultság - Kurtois Ha (-), balra ferdül a kiugrás (+), jobbra (0), szimetrikus 0 csúcsos, leptokurtic 0 lapos, platykurtic Szórás: Szórás alatt értjük az adatok mintaátlagától vett négyzetes átlagát (középértéke). A nevező nem más, mint a szabadságfok, mely a független elemek számát mutatja meg. A szórásnégyzet A minta szórásnégyzete rámutat erre a tényezőre, hogy a minta adatai hogyan helyezkednek el a középérték körül. Mivel az eltérések pozitív és negatív irányban is lehetséges, ezért a különbségek négyzetre emelése optimalizálja az eredményt. Képletben kifejezve: s 2 A mérések során azonban nem csak a minta, de végső eredményként az adott populáció szórásnégyzetére kell megbecsülni. Mivel a populáció középértéke pontosan nem meghatározható, a mintavétel miatt ( a minta számtani középértéke eltérést mutat a populáció számtani középértékétől). A populáció becsült szórásnégyzetét (varianciáját) nagyobb pontossággal becsülhető, ha a nevező értékét eggyel csökkentjük. A populáció szórásnégyzete (varianciája): A populáció szórása a pozitív előjelű négyzetgyök értékével egyenlő. s 2 x x n i n i 1 x x 2 2 s x n i 1 x 2 s 2 Az adatok sztochasztikus kapcsolatát a minőségi és mennyiségi ismérvek alapján (un. vegyes kapcsolatok szorosságát) az átlag és a szóródás számítások felhasználásával 2

határozhatjuk meg. A kapcsolat vizsgálatának feltétele, hogy ugyanazt a sokaságot legalább egy minőségi és egy mennyiségi ismérv szerint csoportosítsuk. A szórás típusai a heterogén mintában: Teljes szórás, ami a sokaság elemeinek a főátlagtól való eltérése. Külső szórás, ami a részátlagoknak a főátlagtól való eltérése Belső szórás, amely a sokaság elemeinek a részátlagtól való eltérése Rangkorreláció s 2 2 2 s B s K A kapcsolat szorosságát a képlettel definiált ún. Spearman-féle rangkorrelációs együtthatóval mérjük. 2 6 ( X Y) i 1 RS 1 3 n n Korreláció Kutatásaink során gyakori feladat, hogy egy-egy elem tulajdonságait, jellemzőit több adattal leírva, azok kapcsolatát, köztük lévő összefüggéseket kell elemezni. (pl a tanulók társadalmi helyzete, a különböző területen elért eredményessége, tanulási körülménye közötti kapcsolatot szeretnénk feltárni. A korrelációszámítást többdimenziós minták vizsgálatakor, a minta elemeihez rendelt adatok közötti összefüggés feltárását szolgálja. A korrelációs együttható két fontos tulajdonsága: o független változók esetében a korrelációs együttható értéke 0, o míg függvénykapcsolatban lévő (nem sztochasztikus) változók esetében a korrelációs együttható értéke 1. Jellemző esetek: n o Két változó között minél szorosabb az összefüggés, annál inkább megközelíti a korrelációs együttható értéke az 1-t. Ha a minta két változója azonos irányban változik, abban az esetben pozitív, ha ellentétes irányban, akkor negatív a korrelációs összefüggés. o Minél lazább az összefüggés két változó között, annál közelebb van a korrelációs együttható értéke a 0-hoz. o A két változó látszólag egymástó függetlenül változik, ebben az esetben korrelálatlanságról beszélünk A korrelációs együttható Az együttható értéke tehát -1 és +1 között változik, ahol az előjel a változás irányára mutat, míg az abszolút érték a korreláció erősségét jelenti. Képlete: Korrelációs együttható értéke Változók közötti kapcsolat 0,9-1 Rendkívül szoros 0,75 0,9 szoros 3

0,5 0,75 érzékelhető 0,25 0,5 laza 0,0 0,25 Nincs kapcsolat A korrelációs együttható szignifikanciája A korrelációs együttes szignifikancia vizsgálata megmutatja, hogy egy adott, többdimenziós minta esetén a változók között talált összefüggés mekkora valószínűséggel valódi és nem a véletlen műve. A mintához tartozó elemek szabadságfoka: szf=n-2 A feltételezett összefüggés általánosításához az szükséges, hogy a korrelációs együttható abszolút értéke nagyobb legyen, mint a 95%-os valószínűségi szinthez (adott szabadságfokon) tartozó érték. Abban az estben, ha 99% vagy 99,9%-os értéken végezzük az összevetést, a felfedett kapcsolat még nagyobb valószínűséggel általánosítható. Esetek: r xy r táblázat r xy r táblázat a két minta korrelációs összefüggése az oszlopnak megfelelő valószínűséggel nem a véletlen műve, vagyis általánosítható a korrelációs összefüggés mértékét nem áltatlánosítható, vagyis a mintában észlelt kapcsolat a véletlen műve A kovariancia A mennyiségi ismérvek közötti kapcsolat tényét és irányát az ún. kovariancia segítségével is kifejezhetjük. n ( xi x)( yi y) i 1 Cxy n Ez az ismérvértékek együtt-mozgását kifejező fontos mérőszám kétváltozós elsőrendű centrális momentumnak tekinthető A lineáris korrelációs együttható Amennyiben a két ismérv között lineáris kapcsolat áll fenn, (pontjai megközelítőleg egy képzeletbeli egyenesre esnek), akkor a képlettel definiált ún. lineáris korrelációs együttható segítségével számszerűsíthetjük a kapcsolat erősségét és irányát. r A lineáris korrelációs együttható abszolút értéke 1-nél nem nagyobb. A 0-hoz közeli értéke a kapcsolat lazaságára vagy éppen hiányára utal. Az r negatív értékéből a két mennyiségi ismérv ellentétes irányú változására, míg pozitív értékéből azonos irányú együtt-mozgására következtethetünk. C xy x y 4

Hipotézis vizsgálat A kutatások célja, a vizsgált minta által reprezentált vizsgálati eredmények populációra való általánosíthatóságának bizonyítása. A hipotézis egy adott minta alapján választ keres arra, hogy a minta becsült várható értéke μ - egy megadott szignifikancia szinten azonosnak tekinthető-e az előre feltételezett értékkel. Jele: H. Nullhipotézis (jele: Ho) A hipotézis statisztikai vizsgálata során megfogalmazzuk azt a kiindulási feltételezést, hogy a két minta által reprezentált alapsokaság paraméterei között nincs eltérés, azaz a vizsgált minták ugyanazt a populációt reprezentálják. Ha a próbamutató empirikus értéke a kritikus értéknél, akkor elvetjük a nullhipotézist. A két minta eredménye szignifikánsan különbözik egymástól. Ha a próbamutató empirikus értéke < a kritikus értéknél, akkor nincs elég indok a nullhipotézis elvetésére. A vizsgált esetek között nem mutatható ki eltérés, azonban ez nem jelenti, hogy a két módszer egyenértékű. Nagyobb minták esetén nem zárható ki, hogy szignifikáns eltérést fogunk tapasztalni a módszerek között. Alternatív hipotézis (H 1 ), mely a különbség meglét feltételezi, vagyis azt, hogy a populáció átlaga különbözik egy adott értéktől. Azt a valószínűséget, amely esetén H 0 -t elvetjük p-vel jelöljük és szignifikanciaszintnek nevezzük. Értékei p<0,05, p<0,01 és p<0,001. Ehhez a szignifikancia szintekhez tartozó próbastatisztika A korreláció szignifikanciája: választ ad arra, hogy mennyire bízhatunk egy mintából számolt korrelációs együtthatóban? A két minta szignifikanciája függ: o a két minta számtani középértékének különbségétől, o a minták szórásától, o A minták elemeinek számától. 5

Feladatok I. Adattípusok, adatábrázolások, változók jellemzése (Gyakoriságok, hisztogram vagy oszlopdiagram készítése) A minta egy adott változó jellemzőinek meghatározása: Descriptive Statistics Summarize Frequenties Descriptive Statistics Summarize Descriptive A minta egy adott változóinak csoportjáról a jellemzők meghatározása: Descriptive Statistics Summarize Explore Descriptive Statistics Compare s/s A minta adatainak szeparálása analízis céljából: Data Split File A Skewness (ferdeség), az eloszlás ferdeségére utal. Ha az értéke = 0 szimmetrikus az eloszlás Minél nagyobb pozitív szám, annál jobban ferde az eloszlás jobbra Minél kisebb negatív szám, annál inkább ferde balra A ferdeség az átlag és a médián viszonyára is utal. A Kurtosis (lapultság): a normálisokhoz képest csúcsosabb eloszlások esetén ez a lapultság pozitív laposabb eloszlások esetén negatív normális eloszlás esetén = 0 A Statistics ablak magyarázata: Despcrivtíve (leíró statisztika) jelentése Plot ablak mutatja mi van kijelölt állapotban Factor list: valamely karegorikus változó kijelölése bevitele szerint történik a kijelölt vizsgálat 6

1. Feladat: A mérés során az alábbi adatokat kaptuk: 68, 69, 70, 70, 70, 71, 71, 71, 72, 72, 72, 73, 73, 74, 75 A adatok sorban fiú, lány, fiú Adjunk válasz az alábbi kérdésekre: Elemszám Átlag Standart deviáció Standard error Medián Minimum Maximum Az eloszlás mennyire szimmetrikus és miért? Megoldás: Analize Descriptíve Statistics Frequenties Variables ablakba kerül a nem Display Frequenties tables kipipálva /Statistics beállítása: sum kipipálva és =, std.dev, Medan, Minimum, Maximum Charts és Format (organise output by variables) Eredmény: Eredmény a nemek szerinti megoszlásban Képezzünk csoportot a fenti mintából és számítsuk ki a szóródásokat nemenként Frequenc y Percent Valid Percent Cumulative Percent Valid fiu 8 53,3 53,3 53,3 lány 7 46,7 46,7 100,0 Total 15 100,0 100,0 Grafikusan: 7

Frequency Frequency Histogram 12 10 8 6 4 2 0 0,5 1 1,5 2 2,5 nem = 1,47 Std. Dev. = 0,516 N = 15 Eloszlás görbe a adatok szerinti megoszlásban: N Valid 15 Missing 0 Std. Error of - átlagos szórási hiba,486 Std. Deviation - szórás 1,882 Variance - szórásnégyzet 3,543 Skewness -,142 Std. Error of Skewness,580 Kurtosis -,219 Std. Error of Kurtosis 1,121 Range 7 Minimum 68 Maximum 75 Sum 1071 Eloszlásgörbe: Histogram 3 2 1 0 66 68 70 72 74 76 adat = 71,4 Std. Dev. = 1,882 N = 15 8

Frequency Feladat Végezzük el az előző feladatot nemenkénti összehasonlításban A kiértékelés menetét a változók csoportja szerint kell megvalósítani. Az eljárás menete: Data Split file Repeat analisis for each group nyíllal át kell vinni a nem nevű változót a Groups Based on ablakba /Sort file by grouping variables OK A fenti parancssor hatására lefutó műveletsor nemenként külön-külön végzi el a leíró statisztikai számítást a program, a fentiekben leírt műveletsor megismételve. Eredmény: Fiú: N Valid 8 Missing 0 Std. Error of,754 Std. Deviation 2,134 Variance 4,554 Skewness,171 Std. Error of Skewness,752 Kurtosis,339 Std. Error of Kurtosis 1,481 Range 7 Minimum 68 Maximum 75 Sum 571 2,0 1,5 1,0 0,5 0,0 Histogram nem: fiu 68 69 70 71 72 73 74 75 adat = 71,38 Std. Dev. = 2,134 N = 8 A fiúk gyakorisági görbéje: A görbe ferdesége (Skewness), jobbra hajló közel szimetrikus (0,171) Lapultsága (Kurtois), > 0 tehát csúcsos (0,339) A lányok gyakorisági görbéje: A görbe ferdesége (Skewness), jobbra hajló közel szimetrikus (0,169) Lapultsága (Kurtois), > 0 tehát csúcsos (-0,638), laposabb, mint a lányoké. 9

Frequency Lány: N Valid 7 Missing 0 Std. Error of,649 Std. Deviation 1,718 Variance 2,952 Skewness,169 Std. Error of Skewness,794 Kurtosis -,638 Std. Error of Kurtosis 1,587 Range 5 Minimum 69 Maximum 74 Sum 500 2,0 1,5 1,0 0,5 0,0 Histogram nem: lány 68 69 70 71 72 73 74 75 adat = 71,43 Std. Dev. = 1,718 N = 7 Az eredeti állapot visszaállítása: Data Split File Analyse all Cases OK 10

Hipotézisvizsgálat Feladat Fiúk 170 175 165 185 148 190 188 178 179 185 169 186 176 182 Lányok 156 158 175 166 181 175 170 168 148 155 168 2003 2004 testmagasság súly testmagasság súly 59 188 65 55 186 64 65 178 73 62 199 77 51 167 65 70 199 81 80 195 85 40 188 50 42 189 53 71 197 82 75 187 81 77 193 82 63 186 72 54 199 62 45 43 61 55 63 59 57 67 50 53 166 166 160 176 168 180 176 171 169 155 160 170 Számoljunk mintabeli jellemzőket a testsúly adatokból. A súly jellemzése 2004 ben: Analyze Descriptíve Statistics Frequenties Variables ablakba kerül a súly Display Frequenties tables kipipálva /Statistics beállítása: kipipálva és =, std.dev, Medan, Minimum, Maximum 48 59 63 66 77 72 65 63 50 61 59 11

Hipotézisek: H o : a hallgatók testsúlyának átlaga 70 kg H alt : a hallgatók testsúlya eltér a 70 kg tól. Eredmény: 2004-ben a hallgatók súlya N Valid 25 Missing 5 - Átlag 67,00 Std. Error of - átlagos szórási hiba 2,172 Median - Medián 65,00 Mode - módusz 65 Std. Deviation szórás 10,859 Elemszám: 30 Abban az esetben, ha a testsúlyok normális eloszlású populációból származnak, adjunk 95%- os és 99%-os konfidencia intervallumot a populáció átlagára. A konfidencia intervallumok kiszámítása az Egymintás T próba segítségével történik: Analyze Compare s One sample T Test Test variable = súly_j Test value = 0 Option/Confidence interval 95% 95%-os konfidencia intervallum: 2004-ben hallgatók súlya a N Std. Deviation Std. Error 25 67,00 10,859 2,172 Test Value = 0 t df Sig. (2- tailed) Differenc e 95% Confidence Interval of the Difference Lower Upper 12

2004-ben hallgatók súlya a 30,850 24,000 67,000 62,52 71,48 99%-os konfidencia intervallum: 2004-ben hallgatók súlya a N Std. Deviation Std. Error 25 67,00 10,859 2,172 2004-ben hallgatók súlya a Test Value = 0 t df Sig. (2- tailed) Differenc e 99% Confidence Interval of the Difference Lower Upper 30,850 24,000 67,000 60,93 73,07 A válaszok a kérdésekre: A konfidencia intervallum: Statisztikai jellegű mérési, észlelési eredmények közelítő megbízhatóságának, valószínűségének alsó határa. A testsúly értéke mint 95 és 99%-on is eltér a 70 kg-tól, a sárga felületek mutatják a kapott értékeket: 95 és 99%-os Confidence Interval of the Difference:- Lower (alsó) és Upper (felső) Harmadik lépésként a Test value értéket 70-re állítva nézzük meg az eredményeket: 2004-ben hallgatók súlya a 30,850 24,000 67,000 62,52 71,48 95%-os konfidencia intervallum: 2004-ben hallgatók súlya a N Std. Deviation Std. Error 25 67,00 10,859 2,172 Test Value = 70 13

2004-ben hallgatók súlya a t df Sig. (2- tailed) Differenc e 95% Confidence Interval of the Difference Lower Upper -1,381 24,180-3,000-7,48 1,48 99%-os konfidencia intervallum: 2004-ben hallgatók súlya a N Std. Deviation Std. Error 25 67,00 10,859 2,172 2004-ben hallgatók súlya a Test Value = 70 t df Sig. (2- tailed) Differenc e 99% Confidence Interval of the Difference Lower Upper -1,381 24,180-3,000-9,07 3,07 Mivel mindkét esetben a a p értéke nagyobb mint 0,05 ezért 95%-ban a nullhipotézist kell elfogadnunk, míg az alternatív hipotézis 86,19%-ban teljesül. 3. Paired Sample T Test Hasonlítsuk össze a testsúlyváltozást. Van-e szignifikáns különbség a két testsúlyátlag között? Nullhipotézis: nincs különbség Alternatív hipotézis: van különbség. Analyze Compare s Paired -Sample T Test Paired variables a 2003 és 2004-es testsúlyok Option/Confidence interval 95% Hasonlítsuk össze a testsúlyok átlagait a nemek szerint: van-e szignifikáns különbség a fiúk és a lányok testsúlyainak átlagai között? 14

Pair 1 2003-ban a hallgatók súlya - 2004-ben a hallgatók súlya Paired Samples Test Paired Differences 95% Confidence Interval of the Std. Error Difference Std. Deviation Lower Upper t df Sig. (2-tailed) -8,080 6,096 1,219-10,596-5,564-6,627 24,000 t = -6,627 df = 24 p = 0,000 Mivel p <0,001 ezáltal értéke kisebb, mint 0,05, nagyon erős a Ho elleni bizonyíték, ezért az alternatív hipotézist fogadjuk el, azaz a két súly különbsége eltér a 0-tól. 15

4. Kétmintás T próba Feladat: Hasonlítsuk össze a testsúlyok adatait nemek szerint. Van-e szignifikáns különbség a fiúk és a lányok testsúlyainak átlagai között? Nullhipotézis: a fiúk és a lányok testmagassága azonos. Alternatív hipotézis: a fiúk és a lányok testmagassága eltérő. A próba feltétele: a két csoport varianciái egyenlőek. A varianciák azonosságának ellenőrzése: F-test F próba menete: Analyze Compare s Independent-Sample T Test Test variables a 2003 és 2004-es testmagasságok Option/Confidence interval 95% 2004-ben a hallgatók testmagassága Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. Independent Samples Test t df Sig. (2-tailed) t-test for Equality of s Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper,097,758 6,217 23,000 21,084 3,391 14,069 28,100 6,340 22,795,000 21,084 3,326 14,201 27,968 A táblázatból kapott értékek: F = 0,097 P = 0,758 nagyobb, mint 0,05 tehát a varianciák azonosnak tekinthetők. A T próba menete: Analyze Compare s Independent-Sample T Test Test variables a 2003 és 2004-es testmagasságok Group variables (1 2) Option/Confidence interval 95% 2004-ben hallgatók testmagassága a Std. a hallgatók neme N Std. Deviation Error fiú 14 189,36 8,958 2,394 lány 11 168,27 7,656 2,308 16

2004-ben a hallgatók testmagassága Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. Independent Samples Test t df Sig. (2-tailed) t-test for Equality of s Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper,097,758 6,217 23,000 21,084 3,391 14,069 28,100 A fiúk átlaga= 189,36 szórása = 8,958 elemszáma = 14 A lányok átlaga = 168,27 szórása = 7,656 elemszáma = 11 t = 6,217 szabadság foka = 23 p = 0,000 6,340 22,795,000 21,084 3,326 14,201 27,968 Magyarázat: Mivel számításaink alapján a varianciák azonosnak tekinthetőek, ezért a t-próba eredményét az Equal sorban találjuk. Ennek alapján a nullhipotézisünk, hogy a fiúk és a lányok testmagassága azonosnak tekinthető elvetjük és az alternatív hipotézist fogadjuk el. 17

Varianciaanalízis A varianciaanalízist más szóval szórásanalízisnek nevezzük. Kettőnél többcsoportos kísérlet vizsgálatánál alkalmazzuk, több minta szórás négyzetének összehasonlításán alapuló statisztikai eljárás. Feladat annak eldöntése, hogy van-e szignifikáns eltérés a mintaátlagok között, miközben feltételeztük, hogy azonos varianciából vettük a mintákat. Ezekben az esetekben kettőnél több egydimenziós minta elemeinek tulajdonságát mérő változók állnak rendelkezésre. Az elemzés során a váltózók közötti különbözőség statisztikai kimutatása, a szignifikanciaszint vizsgálatával, a kétmintás t-próba számításával történik. Ennek során minden minta minden mintával való összehasonlításához, az összes változó közötti kapcsolatot felméréséhez, sokszor kell a műveletet elvégezni. Variancia-analízisnek nevezzük azt a statisztikai eljárást, mely több egydimenziós minta ugyanazon változója közötti különbség szignifikancia szintjének összehasonlítását teszi lehetővé Kidolgozott feladat, melyet egytényezős variaanalízissel elemezhető: A hallgatók tanulási szokásainak eredményesség mérését 5 csoportban kívánjuk összehasonlítani, feltételezve, hogy a minták egy populáció tagjai. No A csoport B csoport C csoport D csoport E csoport 1 89 70 107 99 103 2 69 83 80 102 90 3 86 83 98 114 103 4 86 85 101 93 113 5 86 47 102 119 77 6 88 100 109 117 69 7 74 79 109 119 100 8 101 88 103 98 102 9 101 78 92 94 83 10 104 73 95 93 91 11 81 88 92 110 107 12 99 68 108 114 95 13 95 67 95 88 85 14 92 83 109 93 82 15 94 97 81 92 89 16 69 100 107 105 102 17 75 89 116 94 82 18 75 86 100 79 19 92 90 105 95 20 75 95 84 97 18

A variaanalízis SPSS szoftverrel történő meghatározása egyszerűen végrehajtható, ehhez azonban az adatokat az alábbi táblázat elve szerint kell átrendezni: teljesítmény csoport pont1 1 1 pont1 2 2 pont1 3 3 Pont1 4 4 pont1 5. 5 A vizsgálat menete: Analyze Compare s One-Way ANOVA Depend list = teljesítmény (pontszám) Factor = vizsgált csoportok Options/Statistics Descriptive Post Hoc/LSD, sign level: 0,05 OK Eredmény, mely rámutat a külső és a belső variancia értékekre, az egyes minták szabadság fokaira, F-értékeire és a szignifikancia szintjeire. ANOVA Sum of Squares df Square F Sig. Between Groups 5481,119 4 1370,280 10,819,000 Within Groups 11651,768 92 126,650 Total 17132,887 96 Döntés: p = 0,000 A belső és a külső variancia értékének hányadosa eredményezi az F értékét, mely jelen esetben 10,819 a szignifikancia szint p=0,000, amely azt jelenti, hogy a varianciák különbsége 100%-os valószínűséggel nem a véletlennek köszönhetőek. 19

Faktoranalízis Az elemzések során gyakran kettőnél több változót kell figyelembe venni az adott probléma megoldása során. Több változónak nagy elemszámú mintán történő mérése során óriási adathalmazt egy egységként kezelni bonyolult feladat. A kapcsolatok feltárásánál több, egymástól is függő változó kapcsolat lehetőségét elemezve kell a feladatot megoldani, melynek elemzése és az eredmények értelmezése a faktoranalízis segítségével történhet. Példa a faktoranalízissel megoldható problémára: Abban az esetben, ha összefüggést keresünk az iskolai szakismeret és annak alkalmazási lehetőségi között 97 hallgató kérdőíves felméréssel. Az áttekinthetetlen mennyiségű váltózók indokolják a háttérben meglévő meghatározó tényezők alapján a vizsgálat folyamatának egyszerűbbé tétele a faktoranalízissel valósítható meg. szakma szaktárgy iskola előadás szakkör 2 2 1 2 0 2 2 1 2 2 1 2 1 2 0 2 2 1 2 0 0 2 0 2 1 2 1 1 2 1 2 0 1 2 1 2 2 2 2 2 2 2 1 2 1 2 2 1 2 1 1 2 0 2 0 2 2 1 2 2 Első lépésként állítsuk elő a korrelációs mátrixot, mely jellemzi a változócsoportokat. A változók közötti korreláció kiszámítása. Analyze Correlate Bivariate Variables = vizsgált csoportok =szakma ) Correlation Coeffitient (kipipáljuk) Test of Significant = Two-tailed OK Az eredmény: 20

szakma szaktárgy iskola előadás szakkör szakma szaktárgy iskola előadás szakkör Pearson Correlation 1 -,225,723(**).(a),293 Sig. (2-tailed),483,008.,355 N 12 12 12 12 12 Pearson Correlation -,225 1 -,071.(a) -,046 Sig. (2-tailed),483,826.,887 N 12 12 12 12 12 Pearson Correlation,723(**) -,071 1.(a),427 Sig. (2-tailed),008,826.,167 N 12 12 12 12 12 Pearson Correlation.(a).(a).(a).(a).(a) Sig. (2-tailed).... N 12 12 12 12 12 Pearson Correlation,293 -,046,427.(a) 1 Sig. (2-tailed),355,887,167. N 12 12 12 12 12 ** Correlation is significant at the 0.01 level (2-tailed). a Cannot be computed because at least one of the variables is constant. A korrelációs táblázat rámutat arra, hogy 5x5-ös korrelációs mátrixra van szükség, mely a faktoranalízissel valósítható meg. Lépései: Analyze Data Reduction Factor Variables = teljesítmény (pontszám) Factor = vizsgált csoportok Variables OK Ezt követően kattintsunk a Descriptives gombra, a megjelenő párbeszéd ablakból vegyünk ki minden pipát. 1. ábra A Descriptíve párbeszédablak beállítása A Continue gombra kattintva visszatérünk az előző párbeszéd panelra és az OK gombra kattintva, kapjuk a statisztikai eredményeket táblázatba foglalva. 21

A kapott értékek alapján a komunalitás közepes, mivel nincs közel az 1-hez 22

A kapott eredmények érvényességét az Analyze főmenü Data Reduction parancsához tartozó Factor almenü Extraction parancsgomb kiválasztásával kapjuk: 2. ábra Az eredmények érvényesség vizsgálata Továbbiakban a Descriptive KMO ablak pipálásával történik: 23

3. ábra KMO beállítás Az eredményt, mellyel az 5x5 ös mátrix 2x2-es mátrixá alakítottuk, eredményeit az alábbi táblázat mutatja be: 24

Lexikon Cum. Percent kumulált százalékos gyakoriság df az eloszlás szabadságfoka freguency gyakoriság Konfidencia intervallum Statisztikai jellegű mérési, észlelési eredmények közelítő megbízhatóságának, valószínűségének alsó határa. kurtois Lapultság Leptokurtic csúcsos Lower and Upper Interval az alsó és a felső szignifikancia intervallum értékei of the Difference mad Median absolute deviation átlag Median középső elem átlaga Missing cases hiányzó adat Mode Módusz (legnagyobb gyakoriságú érték) Percentiles platykurtic lapított Range a legnagyob és a legkisebb adat különbsége range tartomány Sign. (2-tailed) biztonsági szint, p=0,000, vagyis a kapott eredmények 100%-is szignifikánsak Skewness ferdeségaszimetrikus Std Deviation szórás Std Error átlagos szórási hiba Std. Deviation St. Szórás azaz variancia pozitív négyzetgyöke Sum adatok összege t a számított t értéke Valid Érvényes adat Valid cases Tényleges adatok száma Variance változó Variance szórásnégyzet 25

Lexikon Determinisztikus Adat Alternatív hipotézis (H 1 ), azonos körülmények között mindig ugyanúgy játszódik le az esemény; a feltételek ismeretében a jelenség további jellemzői egyértelműen meghatározottak(pl. szabadesés, stb) egy szimbólum, mely a hozzárendelt értékek bármelyikét felveheti a különbség meglét feltételezi, vagyis azt, hogy a populáció átlaga különbözik egy adott értéktől. Ha a próbamutató empirikus értéke a kritikus értéknél, akkor elvetjük a nullhipotézist. A két minta eredménye szignifikánsan különbözik egymástól. Ha a próbamutató empirikus értéke < a kritikus értéknél, akkor nincs elég indok a nullhipotézis elvetésére. A vizsgált esetek között nem mutatható ki eltérés, azonban ez nem jelenti, hogy a két módszer egyenértékű. Nagyobb minták esetén nem zárható ki, hogy szignifikáns eltérést fogunk tapasztalni a módszerek között Arányskála Diszkrétnek változó Értéktartomány Érvényesség validitás Folytonos változó Független változó Függő változó Gyakoriság Gyakorisági eloszlás Intervallumskála Itemek Az egyedek ismérveit numerikusan kifejező számérték. A változó értékei sorba rendezhetőek, különbségük és arányuk is értelmezhető (pl. testmagasság, súly ) értéke véges, van egy legkisebb egysége A minta legnagyobb és legkisebb eleme által határolt intervallum. annek a kritériumnak való megfelelés, hogy a kutatás a valóban a vizsgálat tárgyára irányul-e. értéke végtelen, bármilyen kis skálán mérhető A függő változótvárakozásaink szerint megmagyarázó változó. két változó együttes hatásának eredményeképp módosul. A két változó ok-okozati összefüggésben áll. egy olyan mutató, amely jellemzi, hogy egy-egy csoportba hány adat tartozik. Egy olyan statisztikai mutató, mely arra mutat, hogy a minta elemei hogyan oszlanak meg a különböző csoportok között. A mintára vonatkozóeredményt abszolút gyakorisági elosztásnak nevezzük. Az objektum kvantitatív mérése során a mérhető adatokat vizsgálva az egyedeket jellemző un. Méréssel kapott adatokat kapjunk.az intervallum nagyságát a két adat közötti eltérés adja, definiált mértékegységgel rendelkezik, tehát különbségük értelmezhető (születési dátum, életkor ) A tesztek legkisebb önállóan értékelhető egységét jellemző adat. Populáció vagy más néven sokaságnak nevezzük azt a vizsgált csoportot, amely a vizsgált egyedek összességét foglalja magába. A populáció egyedei a statisztikai elem meghatározott hipotézisből kiindulva új, rejtett összefüggések, Kísérlet törvényszerűségek feltárására alkalmas módszer. Korreláció választ ad arra, hogy mennyire bízhatunk egy mintából számolt szignifikanciája korrelációs együtthatóban Kutatás valamilyen tudatosult igény, probléma megoldására irányuló 26

Kutatások célja Lapított görbe megoldási folyamat, melynek során a jelenséget komplex módon előre átgondolt hipotézis alapján tanulmányozzuk a vizsgált minta által reprezentált vizsgálati eredmények populációra való általánosíthatóságának bizonyítása. a szélső eloszlás adatok gyakoriak Médián Megbízhatóságreliab ility : Minta Minta átlaga Módusz Nominális skála Objektivitás Ordinális skála Populáció Relatív gyakoriság Szignifikanciaszint Szignifikáns eltérés Szórás Sztochasztikus A nagyság szerint rendezett, vagyis rangsorba állított számhalmaz középső értéke, páratlan szám A minta a populáció részhalmaza, amelyen a kísérletet végezzük sorok esetén, vagy a két középső érték számtani átlaga, - páros számsorok esetén (a nominális adatokra nem értelmezhető, de az ordinális adatok esetén igen) Ennek a kritériumnak való megfelelés azt jelenti, hogy a kutatás annak megismétlése, ismételt alkalmazása során is az eredetivel egyező illetve kevéssé eltérő eredményt szolgáltat. Mérése a varianciák összehasonlításával történik a populáció részhalmaza, amelyen a kísérletet végezzük. A számhalmaz átlaga, más szóval - számtani közepe, az a szám, amelytől az adatok eltéréseinek összege zérus egy számhalmaz módusza a legnagyobb gyakorisággal rendelkező érték. A módusz nem feltétlenül létezik, és ha igen nem biztos, hogy egyetlen érték képviseli. Olyan szimbólumok, számok, melyek csak az azonosítást szolgálják. A valós számok egy tulajdonsága sem jellemzi, vagyis még sorba sem rendezhetőek (pl. nemek,, beosztás, lakóhely, vallás ) Ennek a kritériumnak való megfelelés azt jelenti, hogy mennyire tárgyilagos, vagyis független a mérés során kapott eredmény az adott módszert alkalmazó, a felmérést végző személytől Olyan szimbólumok, számok, amelyek alkalmassá teszik a vizsgált egyedek közötti sorrendiség felállítását, mely lehet az egynemű adatok rendezésének alapja is. A változó értékeinek különbsége nem értelmezhető. (pl. iskolai végzettség, attitűd skála értéke, a termékek minősítés értékei, osztályzatok ) azon egyének (dolgok) összessége, akikről (amikről)információt szeretnénk kapni A csoport abszolút gyakoriság értékének a minta elemszámához százalékosan viszonyított értéke. Az a valószínűség, amely esetén H 0 -t elvetjük p-vel jelöljük és nevezzük. Értékei p<0,05, p<0,01 és p<0,001. Ehhez a szignifikancia szintekhez tartozó próbastatisztika értékek az un. kritikus értékek. Ha a próbastatisztika értéke nagyobb/egyenlő egy adott szignifikancia szinthez (pl. p<0,05) tartozó kritikus értéknél, akkor H 0 -t elvetjük és azt mondjuk, hogy az p<0,05-ös szinten az adatok mintaátlagától vett négyzetes átlagát. más szóval véletlen a jelenségek kimenetele, azonos körülmények között is nem egyértelműek (pl. pénzfeldobás, lottó stb.) 27

28