A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI. Tóthné Parázsó Lenke

Átírás

1 Tóthné Parázsó Lenke

2 MÉDIAINFORMATIKAI KIADVÁNYOK

3 A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Tóthné Parázsó Lenke Eger, 011

4 Lektorálta: CleverBoard Interaktív Eszközöket és Megoldásokat Forgalmazó és Szolgáltató Kft. A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. Felelős kiadó: dr. Kis-Tóth Lajos Készült: az Eszterházy Károly Főiskola nyomdájában, Egerben Vezető: Kérészy László Műszaki szerkesztő: Nagy Sándorné Kurzusmegosztás elvén (OCW) alapuló informatikai curriculum és SCORM kompatibilis tananyagfejlesztés Informatikus könyvtáros BA, MA lineáris képzésszerkezetben TÁMOP /1/A

5 Tartalom 1. Bevezetés Célkitűzés A kurzus tartalma A kurzus tömör kifejtése Kompetenciák és követelmények Tanulási tanácsok, tudnivalók Az általános kutatásmódszertan alapjainak áttekintése Célkitűzés Tartalom A tananyag kifejtése A kutatás Kutatási stratégiák A kutatás folyamata Az adatok típusai A kutatás módszere Kvalitatív kutatás Kvantitatív kutatás A kutatás tudományosságának feltételei Összefoglalás Önellenőrző kérdések Matematikai döntéselmélet Célkitűzés Tartalom A tananyag kifejtése Konfidencia intervallum Hipotézis-vizsgálat A hipotézis-vizsgálat lépései Tévedések lehetősége Gyakori hibák Összefoglalás Önellenőrző kérdések Középérték-mutatók, grafikai ábrázolás Célkitűzés Tartalom A tananyag kifejtése A középérték mérőszámai. Középérték-mutatók Módusz Médián A középértékek közti összefüggések Szóródási mutatók Terjedelem

6 Átlagos eltérés Gyakoriság Gyakorisági eloszlás A középérték mutatók és a gyakorisági adatok viszonya Az eredmények ábrázolása Összefoglalás Önellenőrző kérdések Korreláció, korrelációanalízis Célkitűzés Tartalom A tananyag kifejtése A korreláció értelmezése A korrelációs együttható A kovariancia A lineáris korrelációs együttható A korrelációs együttható szignifikanciája Korrelációanalízis Összefoglalás Önellenőrző kérdések Hipotézisvizsgálat. paraméteres próbák, nem paraméteres próbák Célkitűzés Tartalom A tananyag kifejtése Paraméteres és nem paraméteres próba jellemzői Egymintás T-próba Egymintás T-próba alkalmazási feltételei Kétmintás T-próba és az F-próba Khi négyzet próba A Mann Whitney-próba, Wilcoxon-próba, Kruskal Wallis-próba értelmezése Összefoglalás Önellenőrző kérdések Varianciabecslés, regresszió analízis, klaszteranalízis, faktoranalízis Célkitűzés Tartalom A tananyag kifejtése Varianciaanalízis A több egydimenziós minta vizsgálat összehasonlítása Egyutas osztályozás vagy egytényezős varianciaanalízis Kétutas osztályozás vagy kéttényezős varianciaanalízis Kétutas osztályozás vagy kéttényezős varianciaanalízis ismétléssel Többváltozós populációk statisztikai elemzései Főkomponensanalízis Klaszteranalízis... 70

7 7.3.9 Faktoranalízis Összefoglalás Önellenőrző kérdések SPSS alapfogalmak. Adatértelmezés Célkitűzés Tartalom A tananyag kifejtése A szoftver használatának feltételei Az SPSS felülete A menüsor parancsainak rövid ismertetése és a kitöltés menete Összefoglalás Önellenőrző kérdések Statisztikai alapműveletek az SPSS-sel. Adatbázist módosító utasítások Célkitűzés Tartalom A tananyag kifejtése Leíró statisztikák (Descriptives ) Gyakorisági táblázatok (Frequenties) Az adatbázist módosító utasítások Összefoglalás Önellenőrző kérdések Összefüggés vizsgálat SPSS-sel. Korreláció, korrelációanalízis Célkitűzés Tartalom A tananyag kifejtése Korreláció Korreláció-analízis Összefoglalás Hipotézis-vizsgálat az SPSS-sel. Varianciaanalízis. Kereszttábla elemzés Célkitűzés Tartalom A tananyag kifejtése Hipotézis-vizsgálat SPSS-sel Egymintás T-próba Kétmintás T-próba Varianciaanalízis Kereszttáblák Összefoglalás Önellenőrző kérdések A kurzusban kitűzött célok összefoglalása Tartalmi összefoglalás A tananyagban tanultak részletes összefoglalása

8 13. Kiegészítések Irodalomjegyzék Hivatkozások Glosszárium, kulcsfogalmak értelmezése Ábrajegyzék Médiaelemek Tesztek Próbateszt Záróteszt A Záróteszt B Záróteszt C

9 1. BEVEZETÉS Kedves hallgató, az elmúlt évek tapasztalatai arra engednek következtetni, hogy a természettudományi kutatások mellett a társadalomtudományi elemzések is megkövetelik a matematikai statisztikai ismereteken alapuló mérés-értékelés kreatív ismeretét. Ezen tudáselemek birtokában a kutatás során kapott adatok elemzése végezhető el, melyekkel feltárhatóak az események mélyebb összefüggései. A numerikusan kapott eredmények értelmezése és a helyes következtetések levonása meghatározója a további kutatás menetének. A jegyzet abban a reményben készült, hogy segíti a hallgatókat a szakterületen kapott kutatási eredmények hatékony feldolgozásához, a kutatások eredményeinek gyors és korrekt statisztikai értékeléséhez, értelmezéséhez. A jegyzet leckékre bontva tagolja azon ismereteket, amelyek a gyakorlati oldalról közelíti meg a statisztikai eredmények értékelését SPSS segítségével valamint az adatok értelmezését. 1.1 CÉLKITŰZÉS A kurzus célja, hogy a hallgatók ismerjék a kutatás során nyert adatok számítógépes statisztikai feldolgozás lehetőségeit. Elsajátítják a legismertebb számítógépes alkalmazásokat (SPSS), képessé válnak a kutatási feladatok megoldására. 1. A KURZUS TARTALMA próbák Varianciabecslés, regresszióanalízis, klaszteranalízis, faktoranalízis Transform Statisztikai alapműveletek az SPSS-sel. Adatbázist módosító utasítások Összefüggés vizsgálat SPSS-sel. Korreláció, korrelációanalízis Hipotézis vizsgálat az SPSS-sel. Varianciaanalízis. Kereszttábla-elemzés 1.3 A KURZUS TÖMÖR KIFEJTÉSE Matematikai döntéselmélet Az általános kutatásmódszertan alapjainak áttekintése Középérték mutatók, grafikai ábrázolás Korreláció, korrelációanalízis Hipotézisvizsgálat, paraméteres próbák, nem paraméteres SPSS alapfogalmak. Adatértelmezés. Grafikus ábrázolás. Az adatfeldolgozás kvantitatív, kvalitatív módszerei. A kvantitatív feldolgozás lépései, kvantifikálás. Az EXCEL és az SPSS program, alapfogalmak, kezelési tudnivalók. A leíró statisztika elemei: adat, adat fajtái, az adatok eloszlása, a minta jellemzői és az SPSS-ben való generálása. Középértékek, szóródás, variancia. Változók közti kapcsolatok, azok értelmezése. A minta eloszlásának grafikus szemléltetése. 9

10 Hipotézis-vizsgálat (null- és alternatív hipotézisek, döntési szituációk) lépései (egymintás- és kétmintás T-próba, és az F-próba alkalmazási feltételei). A hipotézisvizsgálat lépései az egymintás, önkontrollos, és kétmintás esetekben. Az eredmények értelmezése. Az adatok transzformálása, logikai műveletek, adatszűrés lehetőségei és alkalmazási feltételei. Ismérvek közötti kapcsolatok. Rangkorreláció, korreláció és lineáris regresszió értelmezése, meghatározása. Az elemzések SPSS-el történő bemutatása. A több egydimenziós minta vizsgálat összehasonlítása, a többmintás elemzés varianciabecslés eljárásai. Varianciaanalízis, faktoranalízis és a klaszteranalízis alkalmazása. Rangsorolt adatok elemzése (a Wilcoxon-próba, a Mann Whitney próba, a Kruskal Wallispróba). A rangkorreláció-számítás. Megállapítható adatok elemzésére alkalmas statisztika eljárások (a -próba). 1.4 KOMPETENCIÁK ÉS KÖVETELMÉNYEK A tanulók műveltségének, készségeinek, és képességeinek fejlesztése, ennek alapján az adott tudományterületen a kutatási eljárások megismertetése. A pedagógiai értékelés változatos eszközeinek alkalmazása. Neveléstudományi kutatások fontosabb módszereinek, elemzési eljárásainak alkalmazása, saját kutatómunka tudományosan megalapozott eszközöket felhasználó értékelése 1.5 TANULÁSI TANÁCSOK, TUDNIVALÓK Amikor kézbe veszi a jegyzetet és áttekinti a tartalomjegyzéket, a tudományos kutatás alapismereteit sajátíthatja el. Az ismeretanyag a kutatás alapismereteit, módszereit foglalja össze abból a célból, hogy kutatásait tudatosan, tervszerűen végezve eredményeit tanulmányban foglalja össze. Mielőtt elkezdené a tantárgy tananyagának elsajátítását, kérjük fogadja meg az alábbi tanácsokat a sikeres tananyag elsajátítása érdekében. A tananyag feldolgozása előtt érdemes az egész tankönyvet átlapoznia, hogy globális képet alkothasson az egész tananyagról. A leckék elején a bevezetőben a leckében lévő tartalmat olvashatja a felvetődő kérdések globális áttekintésének megkönnyítésére. A fejezetek ábrái vizuálisan segítik a szövegben jelzett összefüggések feltárását, a megértést. Az olvasással párhuzamosan tanulmányozza azokat. A leckék végén önellenőrző kérdésekkel, a rájuk adott válaszokkal a tananyag bevésését könnyíti meg. Ne feledkezzen meg az ismétlés jótékony hatásáról! A leckék elsajátítását a következő lépések alapján érdemes elvégezni: Olvassa el figyelmesen a fejezetek elején a célokat, a tartalmi tagolást. Figyelmesen tanulmányozza a lecke tananyagát, különösen a szakaszok, alfejezetek címeire helyezzen nagy hangsúlyt, mely segíti a tananyag tartalmi-szerkezeti áttekintését és növeli az ismeretek előhívási hatékonyságát. 10

11 Ezt követően lépésként olvassa el figyelmesen a lecke anyagát. A tanulás során kis lépésekben, alfejezetekként haladjon. Szükség esetén készítsen a legfontosabb összefüggéseket rögzítő vázlatot. Ne essen abba a hibába, hogy egyes részeket túl egyértelműnek találva, csak átolvassa, de nem tanulja meg. A leckék tanulmányozását követően válaszoljon az önellenőrző kérdésekre, tesztelje saját tudását. 11

12 . AZ ÁLTALÁNOS KUTATÁSMÓDSZERTAN ALAPJAINAK ÁTTEKINTÉSE.1 CÉLKITŰZÉS A kutatásmódszertan alapelemeinek összefoglalása segíti az olvasót abban, hogy a különböző kurzusokon, gyakorlati tapasztalatai alatt szerzett ismereteket csokorba foglalva felidézze, pontosítsa az ismereteit. A kutatás egyedi sajátosságokkal rendelkezik, azonban az adatok feldolgozási menetét közel azonos logika jellemzi.. TARTALOM A kutatás Kutatási stratégiák Adatok típusai A kutatás folyamata A kutatás módszerei Kvalitatív kutatás Kvantitatív kutatás A kutatás tudományosságának feltételei.3 A TANANYAG KIFEJTÉSE.3.1 A kutatás A kutatás során új ismeretek (összefüggések, törvényszerűségek) feltárása a cél. Egy általunk kiválasztott populáció vizsgálata az általunk előre meghatározott kritériumok szerint. Megvalósulhat átfogóbb és szűkebb populációban. Pl. Egy általunk kiválasztott megye középfokú oktatásában tanulók körében felmérést végzünk az élvezeti cikkek fogyasztása területén és következtetéseket vonunk le a megkérdezettek alapján az általunk kiválasztott régió helyzetére. Kutatás tárgya: a fejlesztés során érvényesülő törvényszerűségek feltárása. Kutatás metodikája: a tudomány előírásainak megfelelő megismerési folyamat (technikák, eljárások). A kutatás alatt értendő valamilyen tudatosult igény, probléma megoldására irányuló tevékenység, melynek során a jelenséget komplex módon előre átgondolt hipotézis alapján kell tanulmányozni. A kutatások típusai (Falus, I: 000) lehetnek: alapkutatások, alkalmazott kutatások, akciókutatások. 1

13 .3. Kutatási stratégiák Deduktív (analitikus) kutatási stratégia A szaktudományokban az adott tudomány területén elért kutatási eredményekre támaszkodva valósul meg a következtetések megállapítása. Deduktív (analitikus) kutatási stratégia: a forrásokat, dokumentumokat és eddigi tapasztalatokat elemezve fogalmazza meg az elveket, törvényszerűségeket. Az információ forrásai A tartalomelemzés olyan kutatási módszer, ami lehetővé teszi egy szöveg elemzését oly módon, hogy annak minden komponensét figyelembe veszi. Forráskritika: külső forráskritika során vizsgáljuk, hogy eredeti-e a forrás, ha másolat, eredeti-e a reprodukció. A belső forráskritika során vizsgáljuk, hogy mennyire hitelesek a forrásban állított események, kompetens volt-e a szerző ezek leírására, vannak-e belső ellentmondások a műben Dokumentumelemzés: Dokumentumnak tekintünk minden olyan, a jelenben vagy a közelmúltban keletkezett anyagot, ami nem közvetlenül a kutatás céljára készült, de melyekből adalékokat, fontos információkat kaphatunk a kutatómunkánkhoz. A dokumentumok fajtái A kutatás témájával való kapcsolatuk szerint: Nincs közvetlen kapcsolat a témával, hanem a kapcsolatot a kutató teremti meg (ilyenek a filmek, színművek, tv és rádióműsorok). A témával kapcsolatos hivatalos dokumentumok (törvények, tervezetek, jelentések). A hivatalos dokumentumok a nyilvánossághoz szólnak (vitaanyagok, törvénytervezetek stb.). Lehetnek eredeti, vagy összegző dokumentumok, személyes dokumentumok (naplók, levelek, feljegyzések), fontos az etikai követelmények betartása, Személyességet előhívó hivatalos dokumentumok, a vizsgálati alany magánszférájára vonatkozó hivatalos kérdés Fontos megjegyezni, a forrás és dokumentumelemzés közötti különbség: a forráselemzés történelmi dokumentumokat vizsgál. Dokumentumelemzés: kizárólag a szövegben lévő explicit tartalomra vonatkozik. Tartalomelemzés: a szöveg mélyrétegeibe kíván behatolni, rejtett összefüggéseket kíván feltárni. Az elsődleges források: közvetlenül szolgáltatnak információt, míg a másodlagos források: közvetítésen keresztül teszik hozzáférhetővé az információt Induktív (empirikus) kutatási stratégia A módszertani kutatások alapját képezi a kísérleti megfigyeléseken, méréseken szerzett adatok értékelése és a következtetések megállapítása. Induktív (empirikus) kutatási stratégia: a következtetéseket a tapasztalati mérésekre és azok elemzésére alapozva kell levonni. A vizsgálatok leírásával a következő leckékben bőven találkozhat az olvasó. 13

14 .3.3 A kutatás folyamata A kutatás kritériuma megköveteli a kutatótól, hogy új ismeret feltárását célzó probléma megoldására a javaslatait megtegye. 1. ábra: A kutatás folyamatábrája Kutatási probléma meghatározása: az elméleti tételek, melyek gyakorlati szituációkban lévő létjogosultságát bizonyítani kell. Gyakorlat, melynek során pl. ajánlott módszerek közül kell választani, melyik a hatékonyabb. Elemzési egységek és időfaktor kiválasztása: elemzési egységek azok, kit vagy mit kívánunk tanulmányozni. Az időfaktor alatt értendő, hogy adott jelenséget egy időpontban, vagy időintervallumban kívánjuk mérni, megfigyelni. Korábbi eredmények áttekintése: a szakirodalom, melyben a tanulmány nyitott, felvetett, megválaszolatlan kérdésekkel zárul. A felvetett és kutatott probléma időszerűségének, gyakorlati jelentőségének stb. eldöntése Konceptualizálás, operacionalizálás: vizsgálat változójának mérési eljárásának (technikai megközelítés) megfogalmazása fogalmak mérésére szolgáló technikákat határozzuk meg. Az indikátor a fogalmak, hipotézisek mérhető leírása. Módszer kiválasztása: válasz a hipotézisre az adott a vizsgálati eljárás megválasztása. Mintavétel: a populáció és a reprezentativitást biztosító mintavételi technika meghatározása. Adatgyűjtés: az információk gyűjtése. az adatok elemezhető formába rendezése (gyakran kikódolással) Eredmények közlése: az adatok statisztikai feldolgozását követően az eredményeket értelmezve, tanulmányban összefoglalva közli a kutató..3.4 Az adatok típusai Az adat egy szimbólum, mely a hozzárendelt értékek bármelyikét felveheti. Az adatok jellemzői Konstans, ha a változó csak egy értéket vehet fel. 14

15 Diszkrét vagy folytonos adat, ha az adatokat diszkrét vagy folytonos változó írhat le. A változó alatt értjük az egyed vagy a rendszer mérhető tulajdonságait, jellemzőit. A változók logikai kapcsolatban álló attribútumokból (kategóriák, értékek) épülnek fel. Megkülönböztetünk függő és független változókat. A függő változót minden esetben a független változó határozza meg, ok és okozat kapcsolat áll fenn közöttük. A statisztikai mérések során a váltózókat a valós számok jellemzőihez viszonyítva osztályozzuk. A valós számok jellemzői: Lineárisan rendezettek (pl. x 1 kisebb, mint x ) A valós számok összeadhatók, kivonhatók egymásból. Meghatározható hogy x 1 mennyivel kisebb vagy, nagyobb, mint x ). A valós számok egymással szorozhatók és oszthatóak. A valós számok jellemzői alapján a változókat skálatípusokba osztályozzuk. A mérendő objektumok sajátosságai befolyásolják a mérőskálát, melynek típusai: Nominális névleges skála Az objektumokat számozással ellátva, a dolgokat tartalmazó osztályokat kódolja. pl. intézettípusa. Fontos szabály a számozások során, hogy nem kaphatnak azonos számot különböző objektumok, de különböző számot azonos objektumok sem. A statisztikai eljárás során számítható: Az objektum darabszáma Az osztályokban lévő dolgok száma (gyakoriságok) Rangsorban való állítás Médián, kvantilisek, rangkorrelációs együttható. Pl. a tanulók teljesítményéhez pontszám rendelhető. A nominális skála azon szimbólumok, számok, melyek csak az azonosítást szolgálják. A valós számok egy tulajdonsága sem jellemzi, vagyis még sorba sem rendezhetőek (pl. nemek, beosztás, lakóhely, vallás ) Ordinális sorrendi skála: Olyan szimbólumok, számok, amelyek alkalmassá teszik a vizsgált egyedek közötti sorrendiség felállítását, mely lehet az egynemű adatok rendezésének alapja is. A változó értékeinek különbsége nem értelmezhető. (Pl. iskolai végzettség, a termékek minősítés értékei, tanulmányi versenyen kialakult eredmény, országok sorrendje a PISA mérés során ) Intervallumskála Az objektum kvantitatív mérése során a mérhető adatokat vizsgálva az egyedeket jellemző ún. méréssel kapott adatokat kapjunk. Az intervallum nagyságát a két adat közötti eltérés adja, definiált mértékegységgel rendelkezik, tehát különbségük értelmezhető (születési dátum, életkor, attitűd skála értéke, osztályzatok ). A szomszédos értékek garantáltan azonos távolságra intervallumra vannak egymástól. Jellemzői: 15

16 Bármelyik két skálaérték különbsége független a skála nullpontjától. A skálaérték különbségek hányadosa független a mértékegységtől. A hányadosok objektív összehasonlításra alkalmas, mivel nem tartalmazzák a mértékegység választás és nullpontválasztás önkényét. Arányskála Az arányskála alatt olyan számértékeket értünk, melyek a nagyság szerinti viszonyokat és az eltérés mértékét is meghatározzák. A skálaértékek különbsége értelmezhető és tartalmaz egy abszolút nullapontot (rögzített zérus-pont) A két intervallum aránya független a mértékegységétől, valamint minden statisztikai jellemző meghatározható. Az egyedek ismérveit numerikusan kifejező számérték. A változó értékei sorba rendezhetőek, különbségük és arányuk is értelmezhető (pl. testmagasság, súly ) Megjegyzés: a fenti skálatípusok növekvő mennyiségű információt hordoznak az alábbi sorrendben: Nominális ordinális intervallum arány A különböző skálatípusok feldolgozása más statisztikai módszerrel történik. A magasabb szintű skálatípusok adatai alacsonyabb színtűbe konvertálható adatveszteséggel..3.5 A kutatás módszere A kutatás általában már előzően, pl. előfelmérések, tapasztalatok alapján valósul meg. A kutatás során szöveges, vagy numerikus formában kapott az információ halmaz, alkalmas azok kvantitatív és kvalitatív feldolgozására (Babbie, 003). A kutatás során azt tapasztalhatjuk, hogy nem lehet éles határt húzni a két módszer között, mivel mindkettőt komplex módon alkalmazva kell értékelni az eredményeket. A kvantitatív mérési eredmények számadatait értelmezni kell didaktikai szempontból is..3.6 Kvalitatív kutatás A kutatás során minőségi kérdésekre, Mi? Miért? adunk választ. A minőségi kvantitatív változók a nominális és ordinális adatokat leírt változókból tevődnek össze. a kvantitatív eljárásra kijelenthető, hogy kisegítő jellegű. Az eredményeket kvantitatív adatokkal való alátámasztás teszi megbízhatóbbá. A kutatómunka során a legismertebb kvalitatív eljárások: Tipizálás a kutatómunka során az adatok rendezése útján történik (pl. időigény, tipikus hibák), melynek alapja a megoldás logikai menete, megtervezettsége. Táblázatba foglalás a modulrendszerek formai lehetősége. Összehasonlítás során a vizsgált csoportok közötti kategóriák, típusok, táblázatok közötti összehasonlítását végezzük el. 16

17 Elemzés a kommunikáció szempontjából igen fontos része a kutatásnak, mely a kiegészítő következmények leírását tartalmazza. Forráselemzés a kritikai érzékkel feltárt írásbeli, szóbeli anyag, mely a kutatásunk részét képezi Következtetés, mely a nyert tapasztalatok alapján a problémák, tapasztalatok megállapítása. Eredményrögzítés a kvalitatív kutatási eljárás szövegesen megfogalmazott leírása. A kvalitatív eljárás előnyei: Nyitott, dinamikus, rugalmas. Mélyreható megértés lehetőségét kínálja. Felhasználja a kutató kreativitását. Gazdagabb ötletforrásokat szolgáltat. Áthatol az egyszerűsített vagy felületes válaszokon.3.7 Kvantitatív kutatás A kutatás során mennyiségi kérdésekre Mennyi? adunk választ. Azokat az eljárásokat nevezzük kvantitatíveknek, melynek során numerikus adatokból, statisztikai eljárásokkal vonjuk le a populációra vonatkozó következtetéseket. Az eljárás alkalmazásához a vizsgált minta jellemzőit numerikus adatokkal kell kifejezni, melyet kvantifikálásnak nevezzük. A mérés két típusú lehet: A vizsgált csoport önmagában, egy adott időintervallumra jellemző rögzített adatokkal rendelkezik. Az adatok elemzése adott műveletek sorozatát leíró statisztikai eljárás. Két különböző teljesítményszint egymáshoz rendelése során alkalmazott matematikai statisztikai módszer. Két típusú egymáshoz rendelést vizsgálhatunk: Ugyanazon tanulócsoport között Két különböző tanulócsoport között Kvantitatív eljárás előnyei Statisztikai és számszerű mérés Alcsoport mintavétel vagy összehasonlítások lehetősége összevethetők A kutatás tárgyát képező jelenségek Felmérés a jövőben megismételhető és az eredmények Egyéni válaszokra épít Kevésbé függ a kutató szemléletétől Determinisztikus: azonos körülmények között mindig ugyanúgy játszódik le; a feltételek ismeretében a jelenség további jellemzői egyértelműen meghatározottak (pl. szabadesés stb.). 17

18 Sztochasztikus vagy véletlen: a jelenségek kimenetele, azonos körülmények között is nem egyértelműek (pl. pénzfeldobás, lottó stb.).3.8 A kutatás tudományosságának feltételei Érvényesség Validitás Ennek a kritériumnak való megfelelés azt jelenti, hogy a kutatás a valóban a vizsgálat tárgyára irányul-e, milyen mértékben szolgáltat információt a módszer arra a kérdéskörre, amit meg akarunk vizsgálni, ismerni. Az érvényesség (validity) rávilágít, hogy a választott módszer mennyiben méri azt, ami szándékunkban áll. Fajtái: Tartalmi érvényesség (content validity) (a fogalom mindes elemét lefedi-e) Konstrukciós vagy fogalmi érvényesség (construct validity), mely mérőeszköz az elvárásnak való megfelelését jelenti. Egyeztetésen alapuló érvényesség (current validity) egy új mérési eszközzel kapott eredmények milyen mértékben egyeznek meg a már igazolt mérési eszköz eredményeivel. Előrejelző, prognosztikus érvényesség (predictív validity) egy jelenlegi mérés mennyire felel meg egy későbbi mérés eredményének (felvételi eredménye). Megbízhatóság Reliability Ennek a kritériumnak való megfelelés azt jelenti, hogy a kutatás annak megismétlése, ismételt alkalmazása során is az eredetivel egyező illetve kevéssé eltérő eredményt szolgáltat. A megbízhatóság mértéke azt jelzi, milyen pontossággal kapjuk ugyanazt az eredményt, mekkora a mérési hiba. A megbízhatóság ellen ható tényezők forrása: az eszközből, a kikérdező, megfigyelő személy, vizsgálati körülményekből tevődik össze. Mérése a varianciák összehasonlításával valósítható meg. Objektivitás Ennek a kritériumnak való megfelelés azt jelenti, hogy mennyire tárgyilagos, vagyis független a mérés során kapott eredmény az adott módszert alkalmazó, a felmérést végző személytől. Mintavétel. A szükséges mintaelemszám. Reprezentativitás A kutatás tervezése során az alkalmazott statisztikai eljárás feladata, hogy a populációra vonatkozó megalapozott következtetések levonásának feltételei biztosítva legyenek. A mintavétel célja a minél több információ szerzése az adott populációról. Elmélete a valószínűségszámítás éa a véletlen tömegjelenségeken alapul. A teljes körű kutatással szemben a mintavétel, a populáció egy bizonyos hányadának vizsgálatát (pénz-, idő- és munkamegtakarítást tesz lehetővé). A mintavételi terv kimunkálása (ld.. ábra) a mintavétel eredményességének, sikerességének biztosítéka, mely a meghatározza a mintavétel célját, a kiválasztás alapelveit, módszereit, a teljes és a részminták nagyságát, az eredmények pontosságára, torzítására és megbízhatóságára vonatkozó számításokat. A reprezentatív mintavétel szabályait és köve- 18

19 telményeit be kell tartani ahhoz, hogy a mintára vonatkozó megállapítások az egész populációra általánosíthatóak legyenek.. ábra: A mintavétel elve (forrás Kovács, 001. p. 35.) A reprezentatív mintavétel szabályi és követelményei: A populáció minden elemének azonos esélyt kell biztosítani, hogy bekerüljön a mintába A minta adatai azonos körülmények közül származzanak A minta adatait objektív mérések biztosítsák A minta pontos adatokat tartalmazzon Az adatok torzítatlanok legyenek A minta adatai más minta adataival összevethető legyen. 19

20 3. ábra: Adatszerzési módok (forrás Dr. Illyésné dr. Molnár, 008) A 3. ábra alapján áttekinthetjük az adatszerzési módik széles választékát, ahol a rövidítések jelentése: FAE (Független Azonos Eloszlású) minta: sokaság: homogén és végtelen vagy nagyon nagy mintavétel: véletlen visszatevéses vagy visszatevés nélküli sokaság: véges mintavétel: egyenlő valószínűséggel, visszatevéses A kiválasztás lehet: 1. Visszatevéses kiválasztás: A mintaelemek egymástól független és azonos eloszlású (FAE) valószínűségi változók:. Visszatevés nélküli kiválasztás: a mintaelemek függetlenek egymástól. A mintavételek számának növelésével nő a valószínűsége az egyedeknek a mintába kerülésre. A mintavételek számának növelését küszöböli ki a visszatevéses mintavétel, ennek viszont hátránya, hogy ugyanaz az egyed többször visszakerülhet a mintába 3. Egyszerű véletlen minta (EV): Sokaság: homogén, véges elemszámú; Minta: visszatevés nélküli, minden lehetséges n elemű minta kiválasztási valószínűsége azonos Viszonyítási alap: etalon; Elkészítése, elemek kiválasztása szisztematikus (komplett lista) 4. Rétegzett minta (R): Sokaság: heterogén; 0

21 Módszer: a sokaság többé-kevésbé homogén rétegekbe sorolása. átfedés mentesen, teljesen lefedett sokaság rétegeken belül EV minta Rétegvizsgálat előnyei: hiba visszakereshetősége adott tulajdonságok adott rétegben Valószínűség növelése 5. Csoportos minta (CS): Adott tulajdonságok szerinti csoportok képzése, azokon belül vizsgálódunk. 6. Többlépcsős minta (TL): Több tulajdonságot fog össze Nem véletlen mintavételi eljárások Szisztematikus kiválasztás a. Kvótás kiválasztás (minta összetétele adott / kiegészítésként gyakran alkalmazott módszer) b. Koncentrált kiválasztás (legjobban jellemzik a sokaságot a reprezentánsok) ( példa: felvételi ponthatárok/ előre meghatározott pontértékek alapján kerülnek a hallgatók a felsőoktatásba). c. Hólabda kiválasztás (kérdőívek továbbadása / nem igazán véletlen minta) d. Önkényes szubjektív kiválasztás (ritkán alkalmazott, nagy a szubjektív elem, egyszerűek, olcsóak, de nem adnak jó eredményt)..4 ÖSSZEFOGLALÁS Ebben a fejezetben a kutatásmódszertan alapkérdéseit ismerhette meg az olvasó a kutatás fogalmától kiindulva a kutatási probléma megfogalmazásán át a mintavételig. A kutatás tervszerű előkészítése a sikeres és eredményes kutatás kulcsa..5 ÖNELLENŐRZŐ KÉRDÉSEK 1. Ismertesse a kutatás tudományosságának feltételeit.. Jellemezze a kvantitatív és a kvalitatív kutatást. 3. Mutassa be az adatok típusait. 4. Elemezze a mintavételi eljárásokat. 1

22 3. MATEMATIKAI DÖNTÉSELMÉLET 3.1 CÉLKITŰZÉS A leckében elemezzük, hogy az eredményeket nem véletlen tényezők határozták meg. A következtetés során választ kapunk arra, hogy a kapott eredmények a populáció egészére általánosíthatóak-e, azaz a statisztikai eredmények ugyanabból a populációból származnak vagy sem, hozható-e döntés a populáció egészére. 3. TARTALOM Hipotézis-vizsgálat Konfidencia intervallum A hipotézis-vizsgálat lépései Tévedések lehetősége Gyakori hibák 3.3 A TANANYAG KIFEJTÉSE A matematikai döntéselméletben a vizsgálat célja a kutatás során körülhatárolt populációra vonatkozó következtetések levonása. Például az egyetemi hallgatók tanulmányi átlaga egyenlő-e 3,8-del, vagyis µ=µ 0?. Problémák: A populáció minden tagja nem vesz részt a vizsgálatban A becslés hibalehetőséget hordoz. A minta számított és adott értéke nem feltétlenül jelenti, hogy a populációra jellemző érték és az adott érték között eltérés van. Azokat a feltételezéseket, amelyeket a populáció egészére fogalmazunk meg, statisztikai hipotézisnek nevezzük (Falus Ollé, 008). A vizsgált minták adott valószínűségi szinten való megfigyelhető vizsgálata a matematikai statisztika módszereivel történik. Az objektív megfigyelések alapján a vizsgálatot végző egyén az adatokat elemezve összefüggéseket keres, és összevetéseket készít a tapasztalati adatok és az elméleti következtetések alapján, a gyakran bonyolult adatrendszerek többváltozós elemzésével. Az elemzések eredmények alapján: Ha a különbség nem a véletlen műve, akkor azt lényeges, szignifikáns különbségnek nevezzük és a minta a populációnak egy, a populációt reprezentáló része. Ha a különbség a véletlen műve, akkor nincs közöttük lényeges, szignifikáns különbség és a minta a populációnak nem ugyanazt a populációt reprezentáló része. És az alkalmazott módszer a vizsgált csoportoknál eltérő eredményeket hozott létre. Megoldás a statisztikai hipotézisvizsgálattal lehetséges Konfidencia intervallum Konfidencia intervallum az ismeretlen paraméterek értékét egy előre meghatározott valószínűséggel fedi le. A konfidencia határok végpontjainak meghatározását intervallum-

23 becslésnek nevezzük. Az intervallumbecslés egy tartományt ad meg, amiben valószínűleg benne van az adott paraméter. Ha a vizsgált paraméter 1-p valószínűséggel esik az intervallumba, gyakran %-ban fejezik ki, pl. tipikus értéke 95%. Konfidencia-intervallum az a valószínűségi intervallum, mely az adott szignifikanciaszinten a becsült változó alsó és felső korlátját adja, vagyis a megbízható becslést. A hipotézisvizsgálat általában a megbízhatósági intervallum definiálásának leggyakrabban alkalmazott eszköze. Kijelenthető hogy a konfidencia-intervallum és a hipotézisvizsgálat bizonyos értelemben kiegészíti egymást. A konfidencia-intervallum a hipotézisvizsgálat elfogadási tartománya. Két eset lehetséges. Általánosan elfogadott, hogy nem vetik el a nullhipotézist 100 p%-os szinten a 100 (1 p)%-os szintű konfidencia-intervallum tartományába. Fordított eset, hogy elvetik a nullhipotézist 100 (1 p)%- szinten 100 p%-os szintű konfidencia tartományban. Ezért a hipotézisvizsgálattal kapcsolatos feltevések átvihetők a megbízhatósági intervallumra is Hipotézis-vizsgálat A kutatásokban során a tudományos magyarázatok okozati elemzése során az okok felderítését kell végrehajtani. A hipotézis megfogalmazása, majd a feltevésre következetes és módszeres eljárással adható válasz. A jól megfogalmazott hipotézis a vezérfonalát adja a kutatásnak. A kutatások célja, a vizsgált minta által reprezentált vizsgálati eredmények populációra való általánosíthatóságának bizonyítása. A probléma forrása, hogy a populáció adott tulajdonsága csak becsülhetők a populációból vett minta alapján és nem mérhetők közvetlenül. Megoldás a statisztikai hipotézisvizsgálat. A hipotézis egy föltevés arra, hogy a minta becsült várható értéke μ egy megadott szignifikancia szinten azonosnak tekinthető-e az előre feltételezett értékkel. Jele: H. Null és alternatív hipotézisek, döntési szituációk A vizsgált minták elemzése során a statisztikai hipotézist azért fogalmazzuk meg, hogy annak eredménytelenségét belássuk, és ezt követően elvessük. A nullhipotézis, alaphipotézis, próbahipotézis az a hipotézis, melyet a statisztikai próbával előre megadott szignifikanciaszinten vizsgálva feltételezzük, hogy a vizsgált minták között nincs szignifikáns különbség. Jele: H 0. A vizsgálandó problémához illeszkedő matematikai statisztikai vizsgálatok célja az eredmények alapján, annak eldöntése, hogy a nullhipotézisben megfogalmazott kérdés fennállhat-e? Általában kétféle kérdés tevődik fel: Mi az igazság? Igaz-e hogy? A felvetődő kérdések közül az első a becslésnek, a második pont az ún. hipotézisvizsgálatnak felel meg. 3

24 A hipotézisvizsgálat lényege a már meglévő előzetes ismeretünk, elképzelésünk alapján a vizsgálandó mintáról fogalmazzuk meg a várt eredményt, melynek beigazolódása a nullhipotézis teljesülését jelenti. Ha a feltételezésünk nem igazolódik be, akkor az ellenhipotézist tekintjük elfogadottnak. Példa: Elektronikus információ forrás használati szokások felmérésére során országunk minden 18 3 éves fiatalt megkérdezése, kérdőívvel történő felmérése nem lenne gazdaságos, illetve nem lenne célszerű, vagy nem áll módunkba. Az adott populáció vizsgálata ezért reprezentatív mintavételezésével történik. Feltételezzük, hogy a vizsgált minták között van valamekkora eltérés épen a kiválasztás véletlensége folytán. A kérdés eldöntésére a matematikai statisztika próbát kell alkalmazni A hipotézis-vizsgálat lépései 4 Nullhipotézis (jele: Ho) A hipotézis statisztikai vizsgálata során megfogalmazzuk azt a kiindulási feltételezést, hogy a két minta által reprezentált alapsokaság paraméterei között nincs eltérés, azaz a vizsgált minták ugyanazt a populációt reprezentálják. H 0 : µ=µ 0 A nullhipotézis igazolása. a megengedett tévedés előzetes meghatározásával a szignifikanciaszint elemzésével történik. A matematika statisztikai próba kiválasztása a probléma körülményeinek megfelelően valósulhat meg. A minta alapján számított paraméter a próbamutató empirikus értéke, mely a küszöbérték meghatározását eredményezi. Ezt követi a kapott érték összevetése az elméleti úton kapott kritikus (küszöb-) értékkel. Abban az esetben, ha a számított érték meghaladja az elméleti úton kapott értéket, a nullhipotézist el kell vetni. A próbamutató empirikus értékeinek összevetése az elemszám és a szignifikanciaszint alapján, a táblázatban kiolvasható kritikus értékekkel, további eseteket feltételez: Ha a próbamutató empirikus értéke a kritikus értéknél, akkor elvetjük a nullhipotézist. A két minta eredménye szignifikánsan különbözik egymástól. H1: µ<>µ 0 Ha a próbamutató empirikus értéke < a kritikus értéknél, akkor nincs elég indok a nullhipotézis elvetésére. A vizsgált esetek között nem mutatható ki eltérés, azonban ez nem jelenti, hogy a két módszer egyenértékű. Nagyobb minták esetén nem zárható ki, hogy szignifikáns eltérést fogunk tapasztalni a módszerek között. Következtetések levonása esetén az általánosítás csak arra a populációra lehetséges, amelyet a minta reprezentál. Az eredményeket korrekt módon kell megadni, melyek tartalmazzák a vizsgálat és az eredmények érvényességi határait is. Alternatív hipotézis (H1), mely a különbség meglétét feltételezi, vagyis a vizsgált becslések nem azonosak. A nullhipotézist és az ellenhipotézist mindig egymást kizáró módon kell felállítani, vagyis ha az egyik igaz, akkor a másik biztos, hogy hamis. H 0 igaz voltának valószínűsége akkor állhat fenn, ha eloszlása ismert. Ebben az esetben a próbastatisztika eloszlásának ismeretében megadható, hogy milyen valószínűséggel kaphatunk meg a mintából számított vagy annál nagyobb értéket a próbastatisztikára.

25 Abban az esetben, ha igen valószínűtlen, hogy H 0 igaz volta esetén a számított értéket kapjuk akkor H 0 -t elvetjük. Ellenkező esetben H 0 -t megtartjuk. Azt a valószínűséget, amely esetén H0-t elvetjük p-vel jelöljük és szignifikanciaszintnek nevezzük. Értékei p<0,05, p<0,01 és p<0,001. Ehhez a szignifikancia szintekhez tartozó próbastatisztika értékek az ún. kritikus értékek. Ha a próbastatisztika értéke nagyobb/egyenlő egy adott szignifikancia szinthez (pl. p<0,05) tartozó kritikus értéknél, akkor H 0 -t elvetjük és azt mondjuk, hogy az eltérés szignifikáns p<0,05-ös szinten Tévedések lehetősége Elsőfajú, vagyis alfa-hiba (α) keletkezik (pl. 5% esély fennállásakor), ha a nullhipotézis elutasításra kerül annak ellenére a H 0 ténylegesen igaz (ebben az esetben valószínűleg az 5%-ba eső mintákat vizsgáltuk) Ha arról akarunk meggyőződni a hipotézisvizsgálat során, hogy a nullhipotézis elvethető-e, akkor szigorúbb szignifikancia szinten meg kell ismételni a vizsgálatot. Másodfajú, vagyis béta (β) hiba, ha elfogadjuk a nullhipotézist, annak ellenére, hogy a H 0 ténylegesen nem igaz. Ha meg akarunk győződni a hipotézisvizsgálat során, hogy a nullhipotézis elvethető-e, akkor kisebb szignifikancia szinten (nagyobb számérték) a vizsgálatot meg kell ismételni (Ketskeméty Izsó, 005). Példák a hipotézis megfogalmazására: A Web böngészése során a 18 éves diákok a képernyő-színei alapján és nem a tartalom alapján tallóznak. Ennek alapján a nullhipotézis: a diákok egyforma eséllyel böngésznek a képernyő színe és tartalma alapján. Alternatív hipotézis: a diákok nagyobb eséllyel választanak a Web felületek tartalmi ismérvei alapján. A hipotézis megfogalmazását követően választunk egy mintát, vagyis megfigyelünk a diákok Web böngészési szokásait. Például a megfigyelt 98 diák közül 84-en az adott Web felületet a tartalma alapján választották. A szabadidős tevékenység vizsgálata során, a vizsgálatok arra mutatnak, hogy a hallgatók a könyv tetszetős szerkesztési formája (címlap, ábrák) alapján válogatják meg olvasmányaikat. Ennek alapján a nullhipotézis: a diákok egyforma eséllyel böngésznek a könyv borítója, színes képei alapján. Alternatív hipotézis: a diákok nagyobb eséllyel a szerző és tartalom ismeretében válogat a könyvek között. Abban az esetben, ha a statisztikánk arra mutat, hogy a hallgatók olvasmányaikat a színes képek és a borítója alapján választják meg, a nullhipotézis melletti eloszlás, n=100 és p=0,5 paraméterekkel vizsgálva binomális lesz. Ha azonban a szerző és a tartalom alapján választják a könyveket, akkor ez a statisztika is megváltozik. Ha az eloszlás jobboldalán lesz az a tartomány, mely meglepetés a nullhipotézis megfogalmazásával szemben, annál elfogadottabbá válik az ellenhipotézis gondolata. Ez alatt értendő, ha túl sok diák választja a könyveket a szerző és a tartalom ismeretében, akkor el fogjuk vetni a nullhipotézist. Felvetődik a kérdés, hogy mi lesz az elvetés kritériuma, hol húzzuk meg a határt? A gyakorlatban elfogadott tény, hogy az első fajú hiba értékét 0,05-ben maximalizálják, amely alatt azt az értéket értjük, melynél nagyobb vagy kisebb valószínűsége-értéknél a nullhipotézis egyenlő vagy kisebb, mint 0,05. Ezen határ feletti értéket elutasítási tarto- 5

26 mánynak nevezzük. A 0,05-t a hipotézisvizsgálat (próba) szignifikancia szintjének nevezzük A korreláció szignifikanciája: választ ad arra, hogy mennyire bízhatunk egy mintából számolt korrelációs együtthatóban. A két minta szignifikanciája függ: a két minta számtani középértékének különbségétől, a minták szórásától, a minták elemeinek számától Gyakori hibák Görbe vonal mentén elhelyezkedő pontok, azaz a görbére illeszkedő pontok esetében a korreláció nem alkalmas az összefüggés jellemzésére. Nem használható, ha az egyik változót a kutató határozza meg, A hiba elkerülésére elemezni kell: Ha a korreláció koefficiense (r) szignifikáns, amely még nem jelenti a változók közötti erős kapcsolatot vagy annak jelentős voltát. A korreláció, és annak a valószínűsége a tény, mely a kapcsolat minőségét a szakmai értékelést és érvelést határozza meg. A változók között található kiugró értékek erősen torzíthatják a korrelációs együtthatót. A szóródás elemzése során a kiugró értékek vizsgálatára szükség van. Ebben az esetben a nem-paraméteres módszer, a Spearman féle rang-korreláció használata javasolt. Gyakori és súlyos hibaként említhető: A két változó közötti korrelációból gyakran ok-okozati összefüggésre következtünk. Két változó korreláltságát előidézheti ok-okozati viszony, de az is előfordulhat, hogy a két korrelált változó nincs egymással okokozati kapcsolatban, hanem mindkettő egy harmadik, közös októl függ. Előfordulhat, hogy a korreláció magyarázata lehet a véletlen eredménye is. Ez az eset fennállhat, ha mind a két változó az idővel korrelált. A közös tényezővel korrelált változók között is gyakran van korreláció. Tehát ennek tanulsága, hogy a változók között az ok-okozati összefüggést logikai, vagy kísérleti úton kell bizonyítani. A becslés során azonban véletlen hibákkal kell szembe nézni, mely nem szükségszerűen jelentik azt, hogy a maga után vonja a számszerű eltérést a populációra jellemző érték és az adott érték között. 3.4 ÖSSZEFOGLALÁS Összefoglalva megállapítható, hogy a nullhipotézis soha nem vethető el teljes biztonsággal, vagyis 100%-kal, és nem jelenthető ki, hogy a két minta közötti különbség nem a véletlen műve. A minták statisztikai 95% feletti vizsgálatakor kapott eredmények alapján tekinthető szignifikánsan különbözőnek. Ebben az esetben a tévedés lehetősége kisebb, mint 5%. Jelölése p<0,05. 6

27 3.5 ÖNELLENŐRZŐ KÉRDÉSEK A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 1. Ismertesse a hipotézisvizsgálat igazolásának módszereit.. A hipotézis vizsgálat során milyen tévedési lehetőségekkel lehet számolni? 3. A kutatás tervezése során milyen hipotézisek megfogalmazására kerül sor? 4. Milyen követelményeknek kell teljesülnie a hipotézisek megfogalmazása során? 7

28 4. KÖZÉPÉRTÉK-MUTATÓK, GRAFIKAI ÁBRÁZOLÁS 4.1 CÉLKITŰZÉS A középértékmutatók összefoglalása segíti az olvasót abban, hogy megismerje a statisztikai vizsgáltok során a rendelkezésre álló információk sűrítésének lehetőségeit. A sokaságot valamilyen ismérv szerint tömören, egy adattal (mutatóval) jellemezi a középérték. Azonos jellemzőkkel rendelkező adatok halmazából számítható, és a minta jellemzését szolgálja. 4. TARTALOM A középérték mérőszámai Középérték mérőszámai. Középérték mutatók Számtani átlag Módusz Médián Szélsőérték vizsgálatok Szóródási mutatók Terjedelem Átlagos eltérés Gyakoriság Gyakorisági eloszlás A középérték mutatók és a gyakorisági adatok viszonya Az eredmények ábrázolása 4.3 A TANANYAG KIFEJTÉSE A középérték mérőszámai. Középérték-mutatók A felmérés során kapott minták összevetését számszerűsített adatok segítik és teszik egzakttá A vizsgált csoportok elemeit tartalmazó adathalmazt a következtetések levonása céljából a táblázatba foglalva elemezzük, amelynek során növekvő vagy csökkenő sorrendben feltüntetve foglaljuk a kapott eredményeket. Az adathalmaz kezelését megkönnyíti az adatok osztályokba történő sorolása. A minimális és maximális pontszám közötti intervallumot egyenlő szélességű osztályokba soroljuk. A minták összehasonlítását középérték mutatók meghatározásával célszerű elindítani. Az adatfajták meghatározzák a középérték mutatók értelmezhetőségét. Ennek megfelelően, ha intervallum skálával dolgozva, általában az átlagot vagy a mediánt kell elemezni. Ha a mintában vannak kilógó értékek, célszerű a mediánt választani, mert az erre érzéketlen. A minta legnagyobb értékét még tovább növelve a medián nem változik, miközben az átlag jelentősen nőhet. Ha viszont a minta nem mutat ilyen anomáliákat, akkor az átlagot használják, mert a mintával kapcsolatban több információt tartalmaz. 8

29 Számtani átlag A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Az átlag egy adott diszkrét adatsor jellemző adata, mely az adathalmaz közepén helyezkedik el. Minta átlaga: A számhalmaz átlaga, más szóval számtani közepe, az a szám, amelytől az adatok eltéréseinek összege zérus. Az n elemű minta x1, x, xn átlaga: x x1 x... n x n n n 1 A fenti képlet más kifejezéssel élve, a minta számtani átlaga Módusz Az adatsorok osztályokba való sorolása esetén a legnagyobb gyakoriságú osztály közepét értjük alatta. Egy számhalmaz módusza, a legnagyobb gyakorisággal rendelkező érték. A módusz nem feltétlenül létezik, és ha igen, nem biztos, hogy egyetlen érték képviseli. Alkalmazása: az ordinális és a nominális változókból álló minta esetén lehetséges. Jellemzője, hogy leíró, jósló szerepe van, mivel a tipikus értékre (tipikus eredmény, vélemény) mutat rá. Alkalmas az eloszlás gyors jellemzésére is, abban az esetben, ha a mintának egy módusza van Médián A vizsgált mintát két azonos részre bontja, rámutat a minta közepére. Médián, a nagyság szerint rendezett, vagyis rangsorba állított számhalmaz középső értéke, páratlan számsorok esetén, vagy a két középső érték számtani átlaga, páros számsorok esetén (a nominális adatokra nem értelmezhető, de az ordinális adatok esetén igen) Alkalmazása a nominális skála kivételével minden esetben lehetséges. A vizsgált minta középmezőnyének jellemzésére alkalmas. Az arányskála mindhárom középérték mutató alkalmazását lehetővé teszi. Mely esetben melyiket a legoptimálisabb használni, függ a minta számától és értékeitől, vagyis melyik mutató ad több információt a minta jellemzőiről. Alkalmazását táblázatosan összefoglalva: n x n 9

30 30 1. táblázat: A középérték mutatók értelmezhetősége az adat típusának függvényében Adat típusa Középérték mutató alkalmazása átlag médián módusz Nominális skála Nem Nem Igen Ordinális Nem Igen Igen Intervallun Nem Igen Igen arányskála igen Igen Igen A középértékek közti összefüggések A szimmetrikus görbék esetén az átlag és a módusz egybeesnek, míg a balra illetve jobbra ferdülő görbék esetén a médián az átlag és a módusz között veszi fel az értéket Szóródási mutatók A szóródási mutatók (más szóval ingadozási mutatók) azt mérik, hogy az adott minta értékei mennyire koncentrálódnak a középérték körül. A szórás annak a várható hibának a nagysága, melyet akkor vétünk, ha egy populáció egy tagjának valamely mérhető értékét a populáció átlagával becsüljük meg Terjedelem Maximum (a legnagyobb érték), minimum (a legkisebb értéket jeleníti meg, a gép a nullát is értéknek tekinti), range(=terjedelem, -tól -ig, a legkisebb és legnagyobb érték közti különbség v. távolság) Az adatok változékonyságának egyik jellemzője a terjedelem, ami a szélsőértékek (minimum-maximum) közötti különbséget jelenti. A szélsőértékek között az egyes adatok előfordulási gyakorisága adja az eloszlást, érzékeny mutató. Jele:R i R = X max X min Jelentősen befolyásolhatja az átlagos értéket egy-egy nagy érték. A szélső érték torzít. Az értékek megoszlását modus nem mutatja. A középső érték pedig nem mond semmit, de gyakran jól jelzi a változó megoszlását. Felmerül a kérdés: van értelme a paraméter meghatározásának? Válasz, abban az esetben, ha a szélső értékek fontosak a mérés szempontjából. Interkvartilis félterjedelem A minta szóródását (ingadozását) méri, mivel megadja azt a középső tartományt, ahova az értékek fele esik. Minél nagyobb ez a tartomány, annál nagyobb az ingadozás mértéke. Az adathalmazt négy egyenlő részre osztás eredményeként kapott kvartilisek, amelynek jelei a Q 1, Q, Q 3. Az interkvartilis félterjedelem képlettel való definiálása:

31 Q Q 3 Q percentilis terjedelem Centilis alatt értjük az adathalmazt 10 egyenlő részre osztás eredményeként kapott D 1, D, D 3 jellel jelölt értékeket percentilis terjedelem képlettel definiálva: Átlagos eltérés P 90 P 10 A minta elemeinek és a számtani átlag közötti különbségek abszolút értékeinek számtani átlaga. AE n j 1 x n x i Négyzetes összeg Az eltérések négyzetének összege. Alkalmazása a további számítások során gyakori. A fenti paramétereket elsősorban a további számítások során részeredményként alkalmazzuk. Variancia A szóródási mutatók a minta jellemzőiről sokat jeleznek, mivel az adatok átlag körüli ingadozására mutatnak. Varianciának nevezzük az átlagoktól való eltérések négyzetöszszegét. s x n i 1 x Szórás Szórás alatt értjük az adatok mintaátlagától vett négyzetes átlagát (középértéke). A nevező nem más, mint a szabadságfok, mely a független elemek számát mutatja meg. 31

32 Szórásnégyzet A minta szórásnégyzete rámutat arra a tényezőre, hogy a minta adatai hogyan helyezkednek el a középérték körül. Mivel az átlagtól való eltérések egyenlő mértékűek pozitív és negatív irányban, ezért a különbségek négyzetre emelése optimalizálja az eredményt. Képletben kifejezve: s A mérések során azonban nem csak a minta, de végső eredményként az adott populáció szórásnégyzetét kell megbecsülni. Mivel a populáció középértéke pontosan nem meghatározható, a mintavétel miatt (a minta számtani középértéke eltérést mutat a populáció számtani középértékétől). A populáció becsült szórásnégyzete (varianciája) nagyobb pontossággal becsülhető, ha a nevező értékét eggyel csökkentjük. A populáció szórásnégyzete (varianciája): x i x s n 1 ahol (n-1) a nevezőben a minta szabadságfoka. A populáció szórása a variancia pozitív előjelű négyzetgyök értékével egyenlő. s x n A feladatok során a szórás a különböző minták összehasonlítására alkalmas. A számítás eredményei arra utalnak, hogy a középértéktől való szórásnyi eltérések közötti eltérés jellemzi a populációt: Bizonyítható, hogy: az adatok /3 része a szórás 68%-a x s 1 intervallumába helyezkednek el az adatok 95%-a a szórás x s intervallumába helyezkednek el az adatok 99%-a a szórás x s 3 intervallumába helyezkednek el Gyakoriság i x i 1 n x x s Az adatok értéktartományát intervallumokra osztva, az adatokat azokba be kell sorolni. Ügyelni kell arra, hogy az intervallumok alsó és felső határa ne fedje egymást. Az intervallum: Az értelmezési tartomány a minta legnagyobb és legkisebb eleme által határolt intervallum. A gyakoriság egy olyan mutató, amely jellemzi, hogy egy-egy csoportba hány adat tartozik. 3

33 A gyakorisági eloszlást az adott csoportok és a hozzájuk rendelhető gyakoriságok alkotják. Az eljárás menete: Első lépésként az értéktartományt csoportokra kell osztani, melyek egyenlő intervallumúak. Ha túl nagy intervallum számot választunk, pontatlan értékmeghatározást okozhat. A csoport intervallumok általában, a minta függvényében, 3, 5, 10 max. 0 (50 fős minta esetén 7 kategória ajánlott) legyen Gyakorisági eloszlás Abszolút gyakoriság A gyakorisági eloszlás egy olyan statisztikai mutató, mely arra mutat, hogy a minta elemei hogyan oszlanak meg a különböző csoportok között. A mintára vonatkozóeredményt abszolút gyakorisági elosztásnak nevezzük. Jele fa Relatív gyakoriság A relatív gyakoriság a csoport abszolút gyakoriság értékének a minta elemszámához százalékosan viszonyított értéke. fa 100 f% n A relatív gyakoriság alapján válik lehetővé, hogy különböző, akár eltérő elemszámú mintát vessünk össze. Kumulatív gyakoriság A kumulatív gyakoriság egy olyan statisztikai mutató, mely arra mutat, hogy a mintából mennyi azon elemek száma, amely egy előre meghatározott szintet ér el. Jele: cf A középérték mutatók és a gyakorisági adatok viszonya A középértékek az átlag, a módusz és a medián összefoglaló neve és a mintát jellemzik. A számtani középértékben az minta elemei elvesznek. Ebben az esetben használható a módusz, hisz az adatok közül kiemel egyet. Ha több adat is közel azonos gyakorisággal emelkedik ki a mintából használata nem szerencsés. A medián és a számtani átlag viszonyát tekintve asszimetria lép fel, ha a medián és a számtani átlag eltávolodnak a modusztól. A medián mindig a módusz és a számtani átlag közé esik. Az asszimetria esetei: balra aszimmetrikus, ha x < Me < Mo 33

34 jobbra aszimmetrikus, ha Mo< Me < x szimmetrikus, ha x Me = Mo (Gauss görbe, normál eloszlással) Az átlag és a szórás kapcsolata: az átlagtól egyszórásnyi terjedelembe tartozik az adatok több mint /3-a, szórásnyiba, több mint 95%-a, 3 szórásnyiba több mint 99%-a) Az eredmények ábrázolása A grafikus ábrázolás célja az eredmények áttekinthetőbbé és szemléletesebbé tétele A diagramok leggyakoribb típusa vonaldiagram, az oszlopdiagram és a kördiagram. Vonaldiagram az adatok egymáshoz való viszonyát, oszlopdiagram pedig, ha a rész adatok egészhez történő arányát ábrázolja. Vonaldiagram Több adatsor megjelenítésére alkalmas. Az ábrázolás alapjául pontok szolgálnak, melynek a függőleges tengelyen mért magassága fejezi ki az ábrázolandó érték nagyságát. Speciális és gyakran alkalmazott vonaldiagram az eloszlásfüggvény. Eloszlásfüggvény Azt mutatja meg, hogy a minta elemszámához, mint száz százalékhoz képest, hogyan oszlanak meg az egyes csoportok között a minta elemei. A gyakorisági eloszlások esetében gyakran alkalmazott függvénytípus. Gyakorisági poligon: az x tengelyen az adott csoport középértékét, az y tengelyen a csoportokhoz tartozó középértékeket kell feltüntetni Az osztályközepek függvényében kapott pontokat vonalakkal összekötve kapjuk a gyakorisági poligont. Jellemzői: Szimmetrikus: ezen belül megkülönböztetünk lapított (platykurtic) az eloszlás értékei viszonylag gyakoriak csúcsos (leptokurtic) az eloszlás közepe túlzottan kiemelkedik Aszimmetrikus (skewed), amely esetében lehet az adatok eloszlása jobb vagy bal irányba eltolódott. Az eloszlás jellemzői: Ferdeség egy mérőszám, mely arra ad választ, hogy a szóródás a centrumtól jobbra vagy balra lapul-e. A ferdeség Skewness Lapultság Kurtois. táblázat Normál, balra és jobbra ferdülő eloszlásfüggvény Ha (-), balra ferdül a kiugrás (+), jobbra (0), szimetrikus 0 csúcsos, leptokurtic 0 lapos, platykurtic 34

35 Kördiagram A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A kördiagram a nominális és ordinális mérési szintű változókra alkalmas. A kördiagram készítésénél a körcikkek középponti szöge arányos lesz az adatfajta gyakoriságával. A kördiagram kifejezően szemlélteti az arányokat, a részt szemlélteti az egészhez. A kördiagramon az ábrázolt százalékérték a körcikk középponti szögével egyenesen arányos. 4. ábra: Kördiagram A kör- és sávdiagramot leggyakrabban a relatív gyakoriságok ábrázolására alkalmazzák. A százalékos formában kifejezett értéksort kördiagramban ábrázolva a figyelem egyegy körcikk kiemelésével fókuszálható. Oszlopdiagram A kördiagram alternatívája. Nominális és ordinális mérési szintű változókra alkalmazzuk, de intervallum skála esetében is alkalmazható, ha a hangsúly a mennyiségen van. Ordinális mérés esetén a változó-kategóriák az x tengely mentén sorba vannak rendezve, az oszlopok egymás mellett helyezkednek el. Oszlopdiagram esetén a vízszintes tengelyen a lehetséges adatokat vesszük fel, a függőleges tengelyen pedig azok előfordulásának számát, ezt nevezzük az adat gyakoriságának. 35

36 5. ábra: Oszlopdiagram A nagyszámú változók esetén: minél finomabb beosztással definiáljuk a kategóriákat, annál egyenetlenebb a gyakorisági kép, több lesz az üres kategóriák jelenléte, A kisebb létszámú változók esetében torzít, mivel százalékos megoszlása arányaiban várhatóan jobban eltér a valós populációs megoszlástól. Hisztogram Azt mutatja meg, hogy a minta elemszámához, mint száz százalékhoz képest, hogyan oszlanak meg az egyes csoportok között a minta elemei. A hisztogramot más néven empirikus sűrűségfüggvénynek is nevezik. A gyakorisági eloszlásnak az oszlopos ábrázolása. A mennyiségi változó osztály gyakoriságát a téglalapok felülete fejezi ki; a magasság az osztálygyakoriság, a szélesség az osztályköz. 36

37 6. ábra: Hisztogram a normál eloszlással Intervallum-arányskála mérési szintű változókra alkalmas. Fix a kategóriák szélessége és az adott kategória középpontja a kategória gyakorisága. A halmozott oszlopdiagram az adatsorok különböző tételeinek egyenkénti és összesített értékének együttes szemléltetésére alkalmas. 37

38 7. ábra: Halmozott oszlopdiagram Tő-és-levél ábra (stem-and-leaf plot) Intervallum-arányskála mérési szintű változókra alkalmazzák. A változó értékeit a számjegyeik alapján tövekre és levelekre bontva, általában az első vagy első két helyi érték a tő. Ezután növekvő sorrendbe rendezzük a töveket, majd az azonos tőhöz tartozó leveleket soronként ismét rendezni kell. Az ábra egy elfordított hisztogramra emlékeztet, de a hisztogramtól eltérően a tényleges értékeket ábrázolja. 38

39 Boksz-Plot ábra 8. ábra: Tő és levél (Steam-and-leaf) A kvartilisek alapján készített összegző ábra, a mennyiségi ismérveket adja tömören ábrázolva. 9. ábra: Boksz-Plot ábra 39

40 A dobozt az eljárás egy egyenesre fűzi fel a középső 50% elhelyezkedésével és a medián feltüntetésével. Rámutat, hogy a minta középső 50%-a hogyan helyezkedik el a medián körül és jelzi a kieső értékeket. Xmin a minta legkisebb eleme Q1 az alsó kvartikis, a minta első 5%-a ME median, 50% median mean, a közép Q3 harmadik kvartilis, a minta 75%-a Xmax a minta legnagyobb eleme a minta kieső eleme Pókháló, sugár (Pókháló) diagram Az adatok ábrázolása során a pontokat ábrázolva azokat egy pontból ábrázolva a félegyenesek a szomszédos félegyenesekkel azonos szöget zárnak be ábra: Pókháló diagram Minden egyes adatot a neki megfelelő félegyenesen ábrázolva a kapott pontokat egy törött vonallal összekötve jön létre a pókháló. Az adatok változásának szemléltetésére alkalmas, kézi elkészítése nehézkes. Az egyenesek meredekségéből leolvasható az adatok változásának nagysága: egy szakasz minél jobban az origó felé tart, annál inkább csökken az adat nagysága, és fordítva. 4.4 ÖSSZEFOGLALÁS Ebben a fejezetben a középértékek mérőszámait, az áltagos eltérést, ismerhette meg az olvasó, melyek a mért adatok tömörítését teszik lehetővé. Rámutatnak a mintában rejlő

41 összefüggésekre és különbségekre, és a gyakoriságok összehasonlításával összevethető a minták eloszlása. A grafikus ábrázolás lehetőségével az adott eljárással kapott eredmények vizuálisan is megjeleníthetőek, ezáltal a jellemzők szemléletesebbé válnak. 4.5 ÖNELLENŐRZŐ KÉRDÉSEK 1. Elemezze a középérték-mutatókat és szerepüket a minta jellemzése céljából.. Elemezze a gyakoriságot és a gyakorisági eloszlást a kutatás szempontjából. 3. Foglalja össze az átlagos eltérés mérőszámait és azok értelmezését. 4. Ismertesse a grafikus ábrázolás célját és lehetőségeit. 41

42 5. KORRELÁCIÓ, KORRELÁCIÓANALÍZIS 5.1 CÉLKITŰZÉS A kutató a feltáró vizsgálatok során keresi az összefüggéseket a változók között. A változók adatfajtája meghatározza az alkalmazható vizsgálati módszert. Abban az esetben, ha a változó az intervallum és az arányskálába tartozik az alkalmazható módszer a korreláció számításával elemezhető a változók közötti összefüggés. A korreláció és a korrelációs együttható értelmezése segít bizonyítani az összefüggés jellegét. 5. TARTALOM A korreláció értelmezése A korrelációs együttható A kovariancia A korrelációs együttható szignifikanciája Korrelációanalízis 5.3 A TANANYAG KIFEJTÉSE A korreláció értelmezése Kutatásaink során gyakori feladat, hogy egy-egy elem tulajdonságait, jellemzőit több adattal leírva, azok kapcsolatát, köztük lévő összefüggéseket kell elemezni. (pl a tanulók társadalmi helyzete, a különböző területen elért eredményessége, tanulási körülménye közötti kapcsolatot szeretnénk feltárni. A korrelációs együttható az egyik legismertebb kapcsolati mérőszám. Értéke azt mutatja, hogy a vizsgált két (X, Y) kvantitatív legalább intervallum vagy arányskálájú változó milyen lineáris kapcsolatban van egymással, milyen az együttjárásuk, együttmozgásuk. E két utóbbi kifejezés talán jobban rávilágít a korreláció lényegére, nevezetesen arra, hogy nem ok-okozati viszony méréséről, nem hatások, egymásra hatások feltérképezéséről van szó, hanem lineáris együttváltozásról. A gyakorlatban egyszerűen ez azt jelenti, hogy szoros együttjárás esetén nem helyes érvelés, hogy X változó azért magas, mert Y is magas. Y nem oka X-nek és X nem okozata Y változtatását. A kapcsolatvizsgálatok két kategóriába sorolhatók: lineáris és nemlineáris A lineáris regresszióvizsgálatok szintén tovább csoportosíthatók. A nemlineáris regresszióvizsgálatokat most ez a fejezet nem tér ki bővebben. A korrelációszámítást többdimenziós minták vizsgálatakor használják, mivel a minta elemeihez rendelt adatok közötti összefüggés feltárását szolgálja. Az egyszerűbb esetet feltételezve két változó adatai közötti kapcsolat elemzését foglalja össze a fejezet. Két mennyiségi ismérv közötti kapcsolat jellegére vonatkozóan a korrelációs együtthatót szükségszerű megadni. A korrelációs együttható két fontos tulajdonsága: független változók esetében a korrelációs együttható értéke 0, 4

43 míg függvénykapcsolatban lévő (nem sztochasztikus) változók esetében a korrelációs együttható értéke 1. Jellemző esetek: Két változó között minél szorosabb az összefüggés, annál inkább megközelíti a korrelációs együttható értéke az 1-t. Ha a minta két változója azonos irányban változik, abban az esetben pozitív, ha ellentétes irányban, akkor negatív a korrelációs összefüggés. Lineáris függvénykapcsolatban lévő (nem sztochasztikus) változók esetében a korrelációs együttható értéke 1. Minél lazább az összefüggés két változó között, annál közelebb van a korrelációs együttható értéke a 0-hoz. Független változók esetében a korrelációs együttható értéke = A KORRELÁCIÓS EGYÜTTHATÓ A kapcsolat szorosságát, a függőség fokát mérnünk kell. Ennek mérésére a korrelációs együttható a leggyakrabban alkalmazott mérőszám. Sok jellemző tulajdonsága hasonló a szórás tulajdonságaihoz: A korrelációs együttható egy minta korreláltságának leírására szolgáló statisztikai mutató. A korrelációs együttható mint paraméter a populáció változói közötti kapcsolat erősségét határozza meg. Minél szorosabb (lineáris) összefüggés van két, véletlentől is függő változó között, annál közelebb áll a korrelációs együttható értéke az 1-hez. Fordítva, minél lazább az összefüggés két változó között, annál közelebb van a korrelációs együttható értéke a 0-hoz. Figyelem: Ha az együttható értéke 0, a két változó korrelációjának vizsgálata során az még nem jelenti biztosan, hogy ezek függetlenek is! Ezért ilyenkor csak annyit mondhatunk: a két változó korrelálatlan. Az egyszerű, közel lineáris sztochasztikus kapcsolat esetében használható statisztika a korreláció. Nem alkalmas egy bonyolultabb függvénygörbe mentén elhelyezkedő értékek kapcsolatának leírására a korrelációs együttható A kovariancia A mennyiségi ismérvek közötti kapcsolat tényét és irányát az ún. kovariancia segítségével is kifejezhetjük. C xy n i 1 ( x i x)( y Kovariancia (c): A két változó együttmozgásáról tájékoztat (növekedés, csökkenés), de a szorosságáról nem. Ez az ismérvértékek együtt-mozgását kifejező fontos mérőszám kétváltozós elsőrendű centrális momentumnak tekinthető. n i y) 43

44 5.4. A lineáris korrelációs együttható Amennyiben a két ismérv között lineáris kapcsolat áll fenn, (pontjai megközelítőleg egy képzeletbeli egyenesre esnek), akkor a képlettel definiált ún. lineáris korrelációs együttható segítségével számszerűsíthetjük a kapcsolat erősségét és irányát. ahol: Cxy a kovarancia r x az x minta statisztikai szórása y az y minta statisztikai szórása A lineáris korrelációs együttható abszolút értéke 1-nél nem nagyobb. A 0-hoz közeli értéke a kapcsolat lazaságára vagy éppen hiányára utal. Az r negatív értékéből a két mennyiségi ismérv ellentétes irányú változására, míg pozitív értékéből azonos irányú együttmozgására következtethetünk. Lineáris kapcsolat esetén a változók közötti kapcsolat szorosságának mérésére szolgál. A két változó közötti kovariancia (c) és a két változó szórásának hányadosából adódik. Lineáris korrelációs együttható (r) képlete: C xy x y r C s s x y n i 1 n i 1 x n i x xi n x 1 i y n i 1 y i y n 1 y Korrelációs együttható értéke 3. táblázat: A korrelációs együttható értéke és a változók közötti kapcsolat erőssége Változók közötti kapcsolat 0,9 1 Rendkívül szoros 0,75 0,9 szoros 0,5 0,75 érzékelhető 0,5 0,5 laza 0,0 0,5 Nincs kapcsolat A korrelációs együttható a vizsgált populációt reprezentáló minták közötti kapcsolat erősségétre mutat. értéke a fentiek alapján -1 és +1 között mozoghat. az előjel a korreláció irányára utal, vagyis a független változók milyen irányba befolyásolja a függő változót. A korrelációs együttható abszolút értéke a kapcsolat erősségét mutatja a fenti táblázat alapján. 44

45 5.5 A KORRELÁCIÓS EGYÜTTHATÓ SZIGNIFIKANCIÁJA A korrelációs együttes szignifikancia vizsgálata megmutatja, hogy egy adott, többdimenziós minta esetén a változók között talált összefüggés mekkora valószínűséggel valódi és nem a véletlen műve. A mintához tartozó elemek szabadságfoka: szf=n- A feltételezett összefüggés általánosításához az szükséges, hogy a korrelációs együttható abszolút értéke nagyobb legyen, mint a 95%-os valószínűségi szinthez (adott szabadságfokon) tartozó érték. Abban az estben, ha 99% vagy 99,9%-os értéken végezzük az összevetést, a felfedett kapcsolat még nagyobb valószínűséggel általánosítható. r r xy táblázat r xy r táblázat Alkalmazása: 4. táblázat: A korrelációs együttható esetei a két minta korrelációs összefüggése az oszlopnak megfelelő valószínűséggel nem a véletlen műve, vagyis általánosítható a korrelációs összefüggés mértékét nem lehet áltatlánosítani, vagyis a mintában észlelt kapcsolat a véletlen műve A korrelációs együttható az egyszerű, közel lineáris stochasztikus kapcsolat esetében használható statisztikai mutató. A bonyolultabb függvénygörbe mentén elhelyezkedő értékek kapcsolatának leírására a korrelációs együttható nem alkalmas. Korrelációs együtthatók ábrázolása Ha a pontok nem fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r=0), vagy gyenge korreláció van közöttük (r közel van 0-hoz). Ha a pontok egy egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt mondjuk, hogy a két változó között szoros vagy magas korreláció van. Ha a pontok pontosan rajta vannak egy növekvő egyenesen, akkor r=1, ha pedig egy csökkenő egyenesen vannak pontosan rajta, akkor r=-1. Tegyük fel, hogy egy populáció vizsgálata során ki tudtuk számítani a populációbeli korrelációs együtthatót két változó közötti lineáris kapcsolat mérésére. Ha ez az együttható 0 lenne, azt mondhatnánk, hogy nincs korreláció a két változó között. Tehát, ha egy mintát vizsgálunk, akkor a mintából számított korrelációs együttható 0- hoz közeli értéke arra enged következtetni, hogy nincs korreláció a két változó között. 0-tól távol eső (1-hez vagy -1-hez közeli) értékek pedig bizonyos korreláció meglétére engednek következtetni. A statisztikai szempontból el kell tudnunk dönteni, hogy r értéke elég messze van-e 0-tól ahhoz, hogy elég nagy biztonsággal állíthassuk, hogy valóban fennáll. Korreláció típusaihoz kapcsolódó vizsgálatok: Pearson-korreláció, a normális eloszlás, normalitásvizsgálat rangkorrelációs együtthatók (Kendall, Spearman) szám- és kategória-értékű változók kapcsolata (Mann- Whitney, Friedman statisztika) 45

46 kvantifikációja maximál korreláció, kategória-értékű változók 11. ábra: Kétoldalas two tailed korreláció A korreláció vizsgálat során meghatározható, hogy a szélső értékeket a vizsgálatba be kell-e vonni. Mivel az eredmény akkor szignifikáns, ha a p < 0,05, ezért a vizsgálat során kijelölhető hogy a a minta szélső,5,5%-a vizsgálatra kerül-e. 1. ábra: Egyoldalas one tailed korreláció Pearson-féle korrelációs együttható. (Karl Pearson, ). Gyakori elnevezése szorzat momentum korrelációs együttható. Az együttható jele r és a mérések közötti lineáris kapcsolat szorosságát méri. Paraméteres korrelációs együttható, mértékegysége nincs. 46

47 Spearman-féle és Kendall-féle rangkorrelációs együttható A Spearman-féle és Kendall-féle rangkorrelációs együttható két rangsor közötti egyezés mérőszámát adja, alkalmazása elsősorban nagyobb mintáknál ajánlott. Nem paraméteres korrelációs együttható, mely két változó közötti lineáris kapcsolat elemzésére alkalmas. Parciális korrelációs együttható alkalmazása A többdimenziós minta változói közötti kapcsolat kimutatása a cél. A mérés során a függő és egy meghatározott független változó közötti korreláció mérését valósítjuk meg, úgy hogy minden más változót konstansnak tekintünk Korrelációanalízis A korrelációanalízist több véletlen változó közötti kapcsolat erősségének elemzésére szolgál. A vizsgált változók száma kettőnél több, azonban a korreláció számítása páronként történik. A vizsgálat során feltételezett, hogy a valószínűségi változók (x, y, ) normális eloszlású, és a közöttük lévő lineáris összefüggés mértékét a korrelációs együttható mutatja, melynek jele r. A korrelációs együtthatók értéke, a határokat is beleértve -1 és +1 közé eshetnek. Abban az esetben, ha r pozitív, akkor y együtt növekszik vagyis együttjárás mutatható ki az x-szel, ellenkező esetben csökkenés. ha a korrelációs együttható (r) negatív ellentétes irányú a változás. Amennyiben az r értéke 1, x és y között a kapcsolat függvényszerű, amelynél minden pont egy egyenesen helyezkedik el. Ha r=0 változók, ill. ismérvek korrelálatlanok. 5.6 ÖSSZEFOGLALÁS A fejezet rámutat arra, hogy az intervallum és arányskála típusú változók esetén a független és a függő változók közötti kapcsolat megléte és erőssége a korreláció számítás alkalmazásával mutatható ki. Ha kettőnél több változó kapcsolatát elemezzük, az eljárást korrelációanalízisnek nevezzük. 5.7 ÖNELLENŐRZŐ KÉRDÉSEK 1. Értelmezze a korrelációs együttható értéke és a változók közötti kapcsolat erősségét.. Értelmezze a korreláció fogalmát és mutasson rá ez egyoldalas- és kétoldalas korreláció-elemzés jellemzőire. 47

48 6. HIPOTÉZISVIZSGÁLAT. PARAMÉTERES PRÓBÁK, NEM PARAMÉTERES PRÓBÁK 6.1 CÉLKITŰZÉS A paraméteres próbák során a minták hipotéziseinek bizonyítása a T-próba vizsgálattal történik. Egymintás T-próbát akkor alkalmazzuk, ha az adatok ugyanazon csoport tagjaitól származnak, ezt önkontrollos mérésnek nevezzük. Abban az esetben, ha a mért adatok ugyanazon populáció más-más mintájától ered, kétmintás T-próbát kell végezni, melyet kontrollcsoportos vizsgálatnak nevezünk. Nem paraméteres próbák esetében a hipotézist kereszttábla elemzéssel vizsgáljuk. 6. TARTALOM Paraméteres és nem paraméteres próba jellemzői Egymintás T-próba Kétmintás T-próba F-próba 6.3 A TANANYAG KIFEJTÉSE A kutatás során feladat bizonyítani, hogy a függőváltozó eredményeit a véletlentényezők befolyásolták vagy nem. Meg kell különböztetni paraméteres és nem paraméteres próbát (xénia.sote.hu) Abban az esetben, ha bizonyítható, hogy az eredmények nem a véletlen műve a szignifikancia szint alapján általánosítható a populáció egészére. A két minta közötti különbség bizonyítását, a nullhipotézis elvetését a T-próba alkalmazásával végezzük Paraméteres és nem paraméteres próba jellemzői Az intervallum és az arányskála mért adataiból az átlag, szórásnégyzet, szórás számolható és értelmezhető. Ennek alapján azokat a módszereket, amelyek ezen származtatott paraméterek matematikai logikai elméletén alapulnak, paraméteres módszereknek nevezzük (xenia.sote.hu). Jellemzői: Az eljárás feltételezi a vizsgált változó ismert eloszlását (általában normáleloszlás),és a hipotézis megfogalmazása során a kutató az adott eloszlás valamelyik paraméteréről állít valamit Előnye: elméleti háttere ismert, feltételeik teljesülése esetén erejük nagy Hátránya: elméletileg megkövetelt a változók eloszlása és mérési szintje Nominális mérési szintű változók esetén nem használható Ordinális változók esetén, korlátozásokkal alkalmazható, ha nem áll rendelkezésre megfelelő nem-paraméteres próba. A nominális és ordinális skálákon nincs értelme az átlagot, szórásnégyzet, szórás értelmezésének. Azokat a módszereket, amelyeknek nem feltétele, hogy az adatokból átlag és 48

49 szórás számolható, értelmezhető legyen, nem-paraméteres módszereknek nevezik. Jellemzői: Nem szükséges a populáció paramétereinek (pl. átlag) becslése. A vizsgált változó nem kell, hogy elméleti eloszlást kövessen. Előnyei: alkalmazása kevesebb feltételhez kötött, így annak esélye hogy alkalmazása hiba, kisebb. Alkalmazható nominális és ordinális változókon. Hátrányai: ereje kisebb, mint a paraméteres megfelelőinek (a feltételek teljesülése esetén), nem jelentős a különbség (kb. 5%). Több esetben a parametrikus tesztnek nincs meg a nem-parametrikus megfelelője, elsősorban az elméleti háttér bonyolultabb volta miatt. Ezek tipikus esetei: A -próba Mann Whitney-próba (U-próba) hasonló esetekben használható, mint a független T-próba. Alkalmazása során az eljárás a függő változó kategóriáinak abszolút értékei helyett a helyezési sorrendből (rang, rank of cases) indul ki. 5. táblázat: Eljárások alkalmazása Feladat Paraméteres Nem-paraméteres Átlagok összehasonlítása Szórásnégyzetek összehasonlítása 6.3. Egymintás T-próba Egymintás T-próba Kétmintás T-próba Varianciaanalízis -próba Mann Whitney-próba Wilcoxon-próba Kruskal Wallis-próba A T-próbák alkalmazásának feltétele A T-próba két minta megállapítható tulajdonságai közötti különbség szignifikanciájának számszerűsítését szolgálja. A szórás értelmezése alapján a számtani középértéktől két szórásterjedelmét értelmezve, a kapott értéktartomány az elemek 96%-át magába foglalja és a T-próba alapját képezi a vizsgált minta számának figyelembevételével. A vizsgálat annál megbízhatóbb és pontosabb, minél nagyobb a vizsgált minta száma. Ha a vizsgált minták számtani középértékének különbsége nagyobb, mint azok eloszlás szórásainak kétszerese, akkor a vizsgált minták számtani középérték közötti különbsége szignifikáns Egymintás T-próba alkalmazási feltételei Az egymintás T-próbát akkor kell alkalmazni, ha a mérési eredmények ugyanazon személyek különböző felméréséből származnak, vagyis önkontrollos felmérések során. 49

50 Példa az egymintás T-próba alkalmazására: Szakmai továbbképzés során, a kurzus elején a hallgatók kiindulási ismeretének diagnosztizálása céljából felmérő tesztelést célszerű végezni. A hipotézis természetesen a tananyag eredményes elsajátítását feltételezi. A kurzuson célszerű folyamatosan figyelni, hogy a hallgatók lépést tudnak-e tartani a tananyag elsajátításával. Tehát célszerű a továbbképzés közben és a végén felmérő teszttel meggyőződni tudásukról. Ebben az esetben a kitöltött tesztek eredményei közötti különbségek szignifikanciaszintjének meghatározása az egymintás T-próba alapján történik. A számolás menete a következő összefüggés alapján történik: ahol: t az egymintás T-próba értékét jelöli, z az utómérés (y) és az előmérés eredményeinek különbsége: t ' z s zi=yi-xi A z számtani középértékét az alábbi módon határozható meg: z n i 1 ( y i n n x ) A különbségértékek szórása az alábbi képlet alapján történik: s n i 1 A fentiekben bemutatott egymintás T-próba kiszámításához tekintsük át az alábbi felmérést tartalmazó táblázatot, mely a szakképzések során alkalmazott számítógéppel segített tanulás eredményességét méri. A táblázatban bemutatott eredmények alapja az oktatás elején és a végén kitöltött felmérő teszt részeredményei (önkontrollos felmérés). ( z n 1 i z ) i táblázat A példa adattáblázata xi yi zi=yi-xi z-zi (z-zi) ,3 10, ,7 0, ,3 1, ,3 1, ,3 5, ,3 1,69

51 ,7, ,3 5, ,7 13, ,7 13, ,3 1, ,3 10, ,7 0, ,7 59, ,3 0, ,3 10, ,3 5, ,3 0, ,3 0, ,7,89 z z i i A továbbiakban a fenti képletek alapján a számítás menete: n i 1 ( z z i ) 168, z 0 i 1 ( y i n x ) i ,7 s n i 1 ( z n z ) 1 i 168, 19,97 t ' z s n 30,7, ,9 Az egymintás T-próba értékének szignifikancia vizsgálata során a következtetéseket nemcsak a mintára, hanem a minta által reprezentált populációra vonjuk le az eredmények alapján. A legalább 95%-os valószínűségi szint esetén, az állítás alapján, ha a két különböző számolt számtani középérték között a kapcsolat szignifikáns, a kapott eredmények ennek következtében nem a véletlen művei. Az egymintás T-próba szabadságfoka a minta számánál eggyel csökkentett értéke, vagyis: szf=n-1 A statisztikai könyvekben t eloszlás valószínűségi szintjeinek táblázata (Falus I, Ollé J., o.) tartalmazza a minta szabadságfokának megfelelő sorban és a kívánt valószínűségi szintet figyelembe vett oszlopban a t táblázat értékeit. 51

52 7. táblázat: A mintafeladat eredményei (egymintás T-próba) Szabadságfok 90% 95% 99% 99,9% szf p=0,10 p=0,05 p=0,01 p=0, ,79,093,861 3,883 A vizsgálat során a számított t-értéket összehasonlítva a t táblázat értékével: Ha t > t táblázat a különbség nem a véletlen műve, Ha t < t táblázat a különbség a véletlen műve A bemutatott minta alapján a táblázatból kiolvasható, hogy a t táblázat < t, mivel a számolt érték 57,9 lett amely jóval nagyobb a táblázat 99,9% valószínűségi értékét figyelembe véve is. Tehát ennek alapján megállapíthatjuk, hogy a számítógéppel segített továbbképzés eredményességét Kétmintás T-próba és az F-próba A kétmintás T-próbát akkor alkalmazzuk, ha arra keresünk választ, hogy a két egymástól függetlenül vett minta származhat-e azonos átlagú populációból. Két különböző minta, a kontrollcsoportos felmérés esetében alkalmazzuk, annak bizonyítására, hogy a két csoport teljesítménybeli különbsége nem a véletlen műve. A kétmintás T-próba azonban csak akkor végezhető el, ha a két csoport variancia értékei között nincs nagy különbség, melyre az F-próba vizsgálat ad választ a variancianégyzetek hányadosának elemzéssel. Az F-próba Az F-próba a variancia négyzetek hányadosa, melynek képlete: F A fenti képlettel kontrollcsoportos vizsgálat során egy n1 és n elemű minta esetében alkalmazható a hipotézis igazolására, melynek szórásértékei s1 és s ahol, s1 > s. A számított F értéket a. sz. táblázat értékeivel összevetve, a következő lehetőségekkel kell számolnunk: Ha F számolt >F táblázat, akkor a vizsgálatban résztvevő minták varianciája lényegesen különbözik egymástól, a kétmintás T-próba elvégzésére nincs lehetőség. Ebben az esetben más módszert kell keresni, pl. a Welchpróbát (hasonló mint a kétmintás T-próba, de nem követeli meg a varianciák egyenlőségét). Ha F számolt <F táblázat, akkor a vizsgálatban résztvevő minták varianciája nem különbözik egymástól lényegesen és a vizsgálatot a kétmintás T-próbával kell folytatni. s s 1 5

53 A kétmintás T-próba számítása A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A számolás menetének számszerűsítése a következő összefüggés alapján történik: t n i 1 ( x x ) i n A szignifikanciavizsgálat szabadságfoka szf = n+m-. A kapott eredmény alapján értékelhetjük a vizsgált minták által elért teljesítményt. A kétmintás T-próba kiszámításához példaként tekintsük át az alábbi felmérést tartalmazó táblázatot, mely a számítógéppel segített tanulás megkezdésekor és a végén kitöltött felmérő teszt részeredményei alapján készült, kontrollcsoportos felméréssel: x i ( x xi ) x x ) ( i m x m i 1 y ( y y) i y ( y yi ) n n m m 8. táblázat A mintafelmérés adatai ( y yi 3,05 9, ,1 9,61 7-1,95 3,80 3-1,1 1,1 3,05 9,30 3-1,1 1,1 13-7,95 63,0 3-1,1 1,1 6-0,95 0, ,1 4,41 4 1,05 1,10 3-1,1 1,1 0 5,05 5,50 6 4,9 4,01 3,05 4,0 33 -,1 4,41 3,05 4,0 7 3,9 15,1 3,05 4,0 7 3,9 15,1 9-3,95 15,60 3-1,1 1,1 3,05 9, ,1 9,61 9-3,95 15, ,9 0,81 0 5,05 5,50 3 7,9 6,41 0 5,05 5, ,1 0, ,95 63,0 36-5,1 6,01 9-3,95 15, ,1 4,41 5 0,05 0, ,1 0,01 0 5,05 5, ,1 0, ,95 35,40 9 1,9 3,61 x 5,05 n m y 618 ( y ) 185, 8 i 1 i i 1 y i ) 53

54 F s s 1 357,0 185,8 1,914 F táblázat =,14 Mivel az F < F táblázat, a vizsgált minták varianciája nem különbözik egymástól lényegesen, tehát a vizsgálatot a kétmintás T-próba segítségével folytathatjuk az alábbiak szerint: t n i 1 ( x x ) i n m x m i 1 y ( y y) n n m m 30, ,05 Összehasonlítva a számolt értéket t'' értékét az alábbi táblázat szf=0+0-=38 szabadságfokhoz tartozó értékkel, megállapítható, hogy még 99%-os valószínűségi szintnél is t '' t számolt ,6 9. táblázat: A mintafeladat eredményei (kétmintás T-próba) Szabadságfok szf 90% p=0,1 95% p=0, ,679,04, ,684,01,704 99% p=0,01 Ennek alapján megfogalmazható, hogy az alkalmazott számítógéppel támogatott oktatás az adott képzésben eredményesebb volt a kontroll csoport résztvevőihez viszonyítva. 6.4 KHI NÉGYZET PRÓBA Alkalmazásának feltétele, hogy ismert legyen a minta elemeinek gyakorisága. A paraméteres és a nem paraméteres mintákban is a vizsgálat elvégezhető, melynek eloszlása lehet normál és nem normál. A khi-négyzet ( ) eljárás feltétele a nagy elemszám. A khi-négyzet eljárás alkalmas több adatsor közötti összefüggés elemzésére. Ezt a statisztikát annak ellenőrzésére és bizonyítására alkalmazzuk, hogy a hipotézis megfogalmazása alapján bizonyítsuk, hogy a sor és oszlopváltozók függetlenek. Nem jól használható, ha bármelyik cellában a peremeloszlások alapján várható érték (expected value) kisebb 1-nél, vagy a cellák több mint 0%-ban ez az érték kisebb mint 5. Az eljárást elemzés bemutatását a fejezetben tanulmányozhatja. 6.5 A MANN WHITNEY-PRÓBA, WILCOXON-PRÓBA, KRUSKAL WALLIS- PRÓBA ÉRTELMEZÉSE Mann Whitney-próba a független minták összehasonlítását szolgáló eljárás. A két mintát együtt rangsorolva, a két rangszámösszeg közel azonos értéke a nullhipotézis beigazolását jelenti. 54

55 Wilcoxon előjeles rangpróba: két, összetartozó minta vizsgálata során alkalmazott előjelpróbája, ha a nullhipotézis a két minta eloszlásának megegyezését feltételezi. az egyszerű eljárást a gyors tájékozódásra használják a vizsgálat során. Az eljárás a két minta negatív és pozitív különbségeinek eloszlását vizsgálja. A nullhipotézis igazolása esetén a különbség eloszlás szimmetrikus. Kruskal Wallis-próba az eljárás 3, vagy több mintaelemzésére alkalmas módszer. A vizsgálat feltételei: a mintavétel véletlen volta, a minták függetlensége és legalább ordinális változók megléte. Rangtranszformációs eljárásnak is nevezik, mivel a minták egyesítését követően a rangszámok meghatározását kell elvégezni, majd azokat az eredeti csoportok alapján csoportosítani. A transzformált értékek átlag rangjából vonható le a hipotézisre vonatkozó következtetés. 6.6 ÖSSZEFOGLALÁS Ebben a tananyagrészben az olvasó megismerkedhetett a paraméteres és nemparaméteres próba jellemzőivel. A paraméteres minták a kétmintás önkontrollos és a kontrollcsoportos hipotézis vizsgálattal, melynek eredményekén bizonyítható, hogy a kapott eredmények a véletlen vagy nem véletlen műve. a szignifikancia vizsgálat a minta eredményei alapján a populációra történő általánosíthatóság kérdését mutatja. A nem-paraméteres minták a khi-négyzet és a Mann Whitney-próba, Wilcoxon-próba, Kruskal Wallispróba alkalmazásával elemezhetőek. Abban az esetben, ha kettőnél több mintát kell vizsgálni a variaanalízist kell alkalmazni. 6.7 ÖNELLENŐRZŐ KÉRDÉSEK 1. Ismertesse a paraméteres és nem paraméteres próba jellemzőit.. Az egymintás és kétmintás T-próba alkalmazásának feltétele és az eljárás lényege. 55

56 7. VARIANCIABECSLÉS, REGRESSZIÓ ANALÍZIS, KLASZTERANALÍZIS, FAKTORANALÍZIS 7.1 CÉLKITŰZÉS Kettőnél többcsoportos kísérlet vizsgálatánál alkalmazzuk varianciaanalízist. A fejezet a többváltozós populációk statisztikai elemzési módszerével ismerteti meg három alfejezetben az olvasót, az alábbiakban felsoroltak alapján: faktoranalízis diszkriminancia analízis főkomponens analízis klaszteranalízis A tananyag tanulmányozása segíti Önt abban, hogy a többváltozós populációk hogyan elemezhetőek. A háttérváltozók és a közöttük meglévő kapcsolatok feltárását és a jelenségek magyarázatát biztosító statisztikai módszer. 7. TARTALOM Varianciaanalízis A több egydimenziós minta vizsgálat összehasonlítása Egyutas osztályozás vagy egytényezős varianciaanalízis Kétutas osztályozás vagy kéttényezős varianciaanalízis Kétutas osztályozás vagy kéttényezős varianciaanalízis ismétléssel Többváltozós populációk statisztikai elemzései Diszkriminancia analízis Főkomponensanalízis Klaszteranalízis Faktoranalízis 7.3 A TANANYAG KIFEJTÉSE Kettőnél több egydimenziós minta vizsgálata során alkalmazott eljárás a varianalízis. Abban az esetben, ha a megfigyelt változók száma magas a faktoranalízissel csökkenthető vagyis helyesebben változók összevonása valósítható meg az eljárással. Különböző kutatási koncepciók kidolgozása során a klaszteranalízis ad lehetőséget átfedés mentes csoportosításra Varianciaanalízis A varianciaanalízist más szóval szórásanalízisnek nevezzük. Kettőnél többcsoportos kísérlet vizsgálatánál alkalmazzuk, több minta szórás négyzetének összehasonlításán alapuló statisztikai eljárás. Feladat annak eldöntése, hogy van-e szignifikáns eltérés a mintaátlagok között, miközben feltételeztük, hogy azonos varianciából vettük a mintákat. Ezekben az esetekben a nullhipotézis vizsgálatára kerül sor, melynek igazsága esetén a mintaátlagok egyenlők. 56

57 Ezekben az esetekben kettőnél több egydimenziós minta elemeinek tulajdonságát mérő változók állnak rendelkezésre. Az elemzés során a váltózók közötti különbözőség statisztikai kimutatása, a szignifikanciaszint vizsgálatával, a kétmintás T-próba számításával történik. Ennek során minden minta minden mintával való összehasonlításához, az összes változó közötti kapcsolatot felméréséhez, sokszor kell a műveletet elvégezni. Varianciaanalízisnek nevezzük azt a statisztikai eljárást, mely több egydimenziós minta ugyanazon változója közötti különbség szignifikancia szintjének összehasonlítását teszi lehetővé. Gyakorlatilag azt jelenti ez a statisztikai összehasonlítás, mintha kettős T-próbát minden mintát minden mintájával végeznénk el, amely végtelen sok számítási feladatot jelenthet (Spiegel, 1995). Az n minta statisztikai elemzésére a kétmintás T-próba nem alkalmas szignifikáns különbségek feltárására a fenti indokok alapján, ezért más utat kell keresni az eredményes és gyors vizsgálat biztosítására. A vizsgálat célja: az összes változó közötti kapcsolat feltárása A több egydimenziós minta vizsgálat összehasonlítása Feltételezzük, hogy a minták ugyanabból a populációból erednek, vagyis ugyanazt a populációt reprezentálják. Ennek alapján kell megfogalmazni a nullhipotézis meglétét. Két egymástól független módon megbecsüljük a varianciát, majd megállapítjuk, hogy létezik-e az adott populáció. Ha: Nincs lényeges különbség, létezik a képzelt populáció. Ebben az esetben a vizsgált minták reprezentálják a populációt. Következtetésként megállapítható, hogy a nullhipotézis elfogadható és a vizsgált csoport eredményei között nincs szignifikáns különbség. A paraméterek összevetésének eredményeként kapott lényeges szignifikáns különbség arra mutat, hogy a több egydimenziós minta nem létezik, nem származhatnak ugyanabból a populációból. A vizsgált minták tulajdonságai lényegesen különböznek, elvetjük a Ho meglétét. Az eredmény értékelése Során, ha a belső varianciák között nincs lényeges különbség, akkor az eltérés az egyedi különbözőségekből fakadnak. Abban az esetben, ha a külső variancia lényegesen nagyobb a belső varianciánál, akkor a különbségek a minták között jelennek meg. A mintákat érő hatások nagyobbak, mint az egyéni különbségek. A populáció vizsgálata A több minta vizsgálatának esetében feltételezzük, hogy a vizsgált minták ugyanabból a populációból származnak 57

58 A hipotézisek: H 0 : a különböző minták minta ugyanabból a populációból származnak, ezáltal minden, a vizsgálatban szereplő minta ugyanazt a populációt reprezentálja. H 1 : legalább egy minta nem ugyanabból a populációból származik. Az elemzés során meg kell határozni a populáció varianciáját két, egymástól független módszerrel. A mérések számszerűsítéséhez szükség van az adatok egységes és egyértelmű jelölésére. A vizsgált minta jelölésére x ij alkalmas, pl. x 5,7 amely a hetedik minta ötödik elemét jelenti. Ennek alapján: x: a minta eleme i: adott elem sorszáma az adott mintában j: az adott elemet tartalmazó minta sorszáma n: a minta elemszáma n j : a minta sorszáma N: a minták összelemszáma h: a minták száma x ij : a j-ik minta i-ik eleme Alapelv: ha a nullhipotézis igaz, akkor minden minta varianciája ugyanazt az elméleti varianciát, s t becsli. Ezt, mivel több minta van, két különböző, független statisztikai eljárással becsüljük. Először a mintákon belüli varianciákból becsüljük az összvarianciát. Másodszor a mintaátlagok becsült varianciájából, mely egyenlő az összvariancia n-ed részével, ha minden minta n elemű átlag variancia össz variancia n (Ha a minta elemszámai különböznek, akkor kicsit bonyolultabb a becslés képlete, de az elv ugyanaz.) A vizsgálat feltételei: a minták függetlensége, normális eloszlású alappopuláció, a varianciák homogenitása (a minták által becsült variancia ugyanannak a varianciának a becslése). A többmintás elemzés, varinciaanalízis A nullhipotézis vizsgálatának menete több egydimenziós minta vizsgálat összehasonlítása esetén variaanalízissel valósítható meg. A populációt kétféle varianciával jellemezhetjük: Belső variancia kiszámítása azon a feltételezésen alapul, hogy a minták között nincsen lényeges különbség vagy az a minták elemei közötti eltérésekből fakad. Külső variancia kiszámítása azon a feltételezésen alapul, hogy az eltérések az eltérő minták között vannak. 58

59 Mintákon belüli variancia (belső variancia) A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI A csoporton belüli variancia a minta-elemek csoportátlaguktól való eltérésének négyzetösszege Belső variancia a mintaelemek adott minták eloszlása alapján a populációra meghatározott variancia (szórásnégyzet) értéke. s b h nj j 1 i 1 A mintákon belüli szóródások jellemzése a az adott minta varianciája alapján történik, ahol a szabadságfok az összelemszám és a minta különbsége. Összefoglalva a műveletek folyamatát: Minden minta számtani középérték meghatározása A számtani középérték ismeretében a négyzetes összeg meghatározása (a minta minden egyes elemének az átlagtól való eltérés négyzetének összege). A négyzetes összegek összegzésének osztása szabadságfokkal (összes vizsgált személyek számának és a minták számának különbsége) ( x Minták közötti variancia (külső variancia) Meghatározzuk a főátlagot, x -t, és a mintaelemeket a mintaátlaggal helyettesítjük: ahol: A külső, vagy más szóval a minták közötti variancia a minták egymáshoz viszonyított eltérései alapján meghatározott érték. s Jele: k. s k h j 1 N h j n ( x x - az egyes minták súlyozott számtani középértéke, más szóval a főátlag. A súlyozott számtani középérték meghatározásához a minta összelemszámából meghatározott számtani középérték, melyet az alábbi képlet alapján számoljuk ki. j h 1 x x j ij ) ) x h n j j 1 i 1 N x ij Minták közötti variancia (külső variancia) kiszámításának lépései Az egyes minták számtani középértékének meghatározása 59

60 A összelemszámot tartalmazó minta számtani középértékének meghatározása. Az összelemszámot tartalmazó minta középértékének és az adott minták számtani középértékének különbségét négyzetre kell emelni. Az előző lépés négyzeteit szorozzuk meg az adott minta elemszámával, az eredményeket összegezzük. Az összeget osszuk el az összminta eggyel csökkentett értékével, mely a külső variancia értékét adja A hipotézis vizsgálata F-próbával a kapott eredmények alapján Az előzőekben bemutatott belső és külső variancia származtatási útja egymástól független. A belső variancia a vizsgált minták varianciáinak középértékének tekinthető. A külső variancia az egymástól külön vizsgált minták súlyozott számtani középértékéből képezett variancia. A több egydimenziós minta középérték közötti különbözőséget a minták középértékei közötti különbözőségek szignifikanciája határozza meg. Ha a varianciák szignifikánsan különböznek, azaz nem a véletlennek köszönhetőek, abban az esetben a vizsgált minták lényegesen eltérnek egymástól. Ha a varianciák nem szignifikánsan különböznek egymástól, a vizsgált minták sem különböznek egymástól jelentősen. Az F-próba kiszámítás a következő képlet szerint történik, az adott szabadságfokok figyelembevételével (szfk=h-1, és szb=n-h): F A számított értéket össze kell hasonlítani az F-eloszlás táblázatában lévő értékkel a vizsgálatban meghatározott valószínűségi szinten. Azt összehasonlítás esetei: Abban az esetben, ha F számolt értéke kisebb, mint a táblázat értékével: F<F táblázat, a két variancia (belső és külső), nem különbözik egymástól, az eredmények nem képeznek szignifikáns különbözőséget és ennek következtében a populáció létezik. A vizsgált csoportok az adott populációt reprezentálják és a vizsgált csoportok nem különböznek egymástól lényegesen. Abban az esetben, ha F számolt értéke nagyobb, mint a táblázat értékével: F>F táblázat, a két variancia (belső és külső), különbözik egymástól. Az eredmények szignifikánsan különböznek és ennek következtében nem létezhet olyan populáció, amelyet a vizsgálat mintái egy időben reprezentálnak Egyutas osztályozás vagy egytényezős varianciaanalízis Egytényezősnek nevezzük azt kísérletet, ha j számú független minta áll a vizsgálat rendelkezésére és minden mintában n számú mérés vagy megfigyelés van. s s k b 60

61 10. 61

62 11. táblázat: Egytényezős varianciaanalízis összesített adatait (Spiegel, 1995) 1. minta x 11 x 1, x j 1 x 1 minta x 1, x,..xi x.. j minta X 1j, x j,...x ij x j A fenti táblázat sora a populáció minta sorszámát jelöli(j), a minta elemszámának feltüntetésével.(i). Az x ij, a j-ik minta a számtani közepétől, x (sokasági átlag) egy véletlen hibával tér el, melynek jele: ij. A minta átlaga: A teljes négyzetösszeg: Ahol: V x 1 k j x kj j k 1 NÖ j, k ( x jk x) x j, k x ( x j, k x j ) ( x j x) A mintán belüli négyzetösszeg nem más, mint az x jk -nak az ž átlagoktól vett eltérés négyzetösszege: V b NÖ b jk ( x jk x j ) A minták közötti négyzetösszeg x j átlagoknak a főátlagtól való eltérése: V k NÖ k jk ( x j x) b j ( x j x) NÖ NÖ k NÖ b A populáció főátlaga x 1 j i a b x jk j 1 i 1 A fentiek figyelembevételével: 6

63 x ij x jk Feltételezzük az ε jk a hibatagok normális eloszlású, zérus átlagú, s varianciájú (szórásnégyzet) változók. A minták összelemszámából képzett átlag x és a adott minta átlag x különbségére felírva i x x melyből kifejezhető: A fenti képletek alapján: x ij x x = x + i, Melynek alapján feltételezhető, hogy az ε jk normális eloszlású változó, melynek átlaga zérus, a varianciája s, ebből arra a következtetésre juthatunk, hogy x ij is normális eloszlású x átlagú és s varianciájú valószínűségi változó. Ebben az esetben a nullhipotézis megfogalmazza, hogy az összes mintavétel átlaga egyenlő, vagyis Ho hipotézis vizsgálata során i 0, ahol j=1,,3,4,5, h és ezzel ekvivalens, x x, ahol j=1,,3, h Ha H o igaz, akkor a mintavételezés során vizsgált minden független minta is normális eloszlású, melyek átlaga és varianciája azonos. Így csak egy vizsgálati mintáról beszélhetünk, más szóval nincs szignifikáns eltérés a minták között. Ha H o nem igaz, elemezzük jk i, F sz s s B K 1. táblázat: Az egy utas osztályozás vagy egytényezős varianciaanalízis összefoglaló táblázata (Spiegel, 1995) V Négyzetösszeg Mintavételek közötti: külső variancia k b j ( x j x) Mintavételen belüli : belső variancia V V b V k Teljes: Szabadságfok Átlagos négyzetösszeg a Vk 1 sk a 1 a a b (b 1 1) s b a V b ( b 1) F s k b s a 1 és a (b 1) szabadságfokkal 63

64 V j, k V b ( x V k j, k x) Megjegyzendő, hogy a teljes négyzetösszeg szabadságfoka megegyezik a mintavételen belüli és a mintavételek közötti négyzetösszegek szabadságfokainak összegével Kétutas osztályozás vagy kéttényezős varianciaanalízis Kéttényezősnek nevezzük azt a kísérletet, ha j számú független minta áll a vizsgálat rendelkezésére és minden mintában b számú blokkból álló kísérletet végeznek és minden egyes mintához és blokkhoz egyetlen kísérleti érték rendelhető. 13. táblázat: Az egytényezős variaanalízis adatait (Spiegel, 1995) Blokk 1 b 1. kísérlet x 11 x 1 x x b1 1. kísérlet x 1 x x x b a. kísérlet x x x 1 a a x ba a x 1 x Az összminta négyzetösszege: ahol: V E : a hiba négyzetösszege V R : a sorok négyzetösszege V C : az oszlopok négyzetösszege A kétutas osztályozása matematikai modellje: V V E V K V C x b x j k j, k ahol: 0 i és k 0 Ebben az estben a populáció főátlaga x, j az k j x, azon része, amely a különböző minta kísérleti eredményeinek, a blokkoknak, tulajdoníthatóak, más néven blokkhatásnak nevezzük. 64

65 Feltételezzük, hogy A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI j, k normális eloszlású valószínűségi változó, melynek átlaga zé- rus és variancia négyzete s. Az egytényezős variaanalízis hipotézisei: 1 H 0 : minden minta átlaga egyenlő. j 0 és j = 1 H 0 : minden blokk oszlopátlaga egyenlő. k 1 és k = 1 b 1 sr H 0 nullhipotézis teljesülése esetén az F, mely a se 1 és ( a 1) ( b 1) szabadságfokú eloszlást követel. s s C oszlop H 0 nullhipotézis teljesülése esetén F függvény, melyb se shiba 1 és ( a 1) ( b 1) szabadságfokú eloszlást követel. 14. táblázat: A kétutas osztályozás vagy kéttényezős varianciaanalízis összefoglalása (Spiegel, 1995) Négyzetösszeg Szabadságfok Átlagos négyzetösszeg Minták közötti variancia V b ( x x) V c R k 1 j Blokkok közötti variancia a ( x x) k Maradék vagy véletlen variancia V V V V V E j, k R k Teljes: V V R ( x C V j, k x) E C a VR sr a 1 b VC 1 sc b 1 ( a 1) ( b a b 1 1) s E ( a VE 1) ( b 1) s F R E s a 1 és ( a 1) ( b 1) szabadságfokkal s C E s b 1 és ( a 1) ( b 1) szabadságfokkal Kétutas osztályozás vagy kéttényezős varianciaanalízis ismétléssel Kéttényezős varianciaanalízis ismétléssel nevezzük azt a kísérletet, ha j számú független minta áll a vizsgálat rendelkezésére és 65

66 minden mintában b számú blokkból álló kísérletet végeznek és minden egyes kísérlethez és blokkhoz csak egy adatot rendelünk. Minden egyes mintához és blokkhoz csak egy-egy adatot rendelünk. Gyakorlati tapasztalat, hogy vannak esetek, amikor több információt nyerhetünk a tényezőkről azáltal, hogy a kísérleteket megismételjük. Ebben az esetben egy-egy mintához és blokkhoz több adat is tartozik. Az ismétlések miatt a módosított modell: x j, k, l j k j, k j, k, l ahol: x j k, l, : j,k,l indexek (sor: j, oszlop: k, ismétlés: l) : átlag ( x ) j : sorátlag, más szóval a minta hatása k : blokkátlag, más szóval a blokkok átlaga j k, l, : véletlen vagy hibatag j, k : sor-oszlop (minta-blokk) kölcsönhatás Korlátozó feltétel: j 0, k 0, j, k 0, j, k 0 k k j x j k, l, feltételezzük, hogy normális eloszlású, V teljes négyzetösszeg: V V V V V ahol R C V R sor-, V C oszlop-, I E j V kölcsönhatás-, I s varianciájú valószínűségi változó V E hiba négyzetösszege Többváltozós populációk statisztikai elemzései 66 Diszkriminanciaanalízis A diszkriminancia analízis két vagy több osztály egyszerre több mennyiségi változó egyidejű figyelembevételével történő szétválasztására alkalmas módszer. Az alkalmazás előfeltétele, hogy az objektumokat valamilyen tulajdonságaik alapján már előre osztályokba soroljuk. Tehát ismernünk kell az osztályokat, amelyeket éppen ez az osztályozó változó jelöl ki. A diszkriminanciaanalízis a megfigyeléseink osztályozásának egy lehetséges módszere, mely feltételezi, hogy az adatállományban legyen egy diszkrét, ún. osztályozó változó, és egy vagy több kvantitatív változó. A cél annak eldöntése, hogy ha a megadott kvantitatív változók alapján kell osztályokba sorolni a megfigyeléseket, akkor mennyire kapjuk vissza az eredeti osztályokat, azaz mennyire különböztetik meg (idegen szóval diszkriminálják) a kvantitatív változóink az egyes osztályokat.

67 A diszkriminanciaanalízis módszerei: a paraméteres és a nem paraméteres elemzés. A paraméteres esetben feltételezzük, hogy a változók együttes eloszlása többdimenziós normális, legfeljebb csak a kovariancia mátrix tér el az egyes osztályok szerint. A nem paraméteres esetben már a változók normalitása sem áll fenn. A továbbiakban, és a példákban is, a paraméteres diszkriminálással foglalkozunk. Az osztályok közötti és az osztályokon belüli kovariancia mátrix értelmezése A szórásanalízis mintájára a teljes (minta) kovariancia korrelációs mátrixot fel lehet bontani két részre: az első rész az osztályok közötti a második pedig az osztályokon belüli függőségi viszonyokat írja. Minél nagyobb a teljes kovariancia mátrixon belül az osztályok közötti kovariancia mátrix aránya, annál jobban tudunk diszkriminálni. További kovariancia (korrelációs) mátrixok alapján kiszámolhatjuk az egyes osztályokhoz tartozó kovariancia (korrelációs) mátrixot is. Az analízis szempontjából fontos ezek megegyezősége. Ha az egyes osztályok kovariancia struktúrája megegyezik (nem nagyon tér el egymástól), akkor lineáris diszkriminálást kell végeznünk, azaz ekkor a diszkriminálási szabály egy lineáris függvény. Ellenkező esetben pedig a kvadratikus diszkriminálást kell végrehajtanunk. Az egyezőség (homogenitást) a chi-négyzet próbával tesztelhető. Ezzel a vizsgálattal arra keresünk választ, hogy a megfigyelt gyakoriságok szignifikánsan különböznek-e a várható gyakoriságtól. Chi-négyzet próba: a megfigyelt és az elméleti gyakoriságok között fennálló eltérés mértékét határozza meg. Jele: Tételezzük fel, hogy az E 1, E, E 3, E n események halmazából vett mintavételezés során a vizsgált esemény (fej vagy írás) gyakoriságai g 1,g,g 3, g n fordulnak elő, ezzel párhuzamosan végzett számítások az e 1, e, e 3, e n gyakoriságot eredményezik. A vizsgálat célja, hogy a megfigyelés és a számított gyakoriságok eredménye szignifikánsan különbözzenek-e egymástól. Táblázatosan összefoglalva (Spiegel, 1995):. Esemény E 1 E E 3 E n Megfigyelt gyakoriság g 1 g g 3 g n Számított gyakoriság e 1 e e 3 e n A megfigyelés és a statisztikai számítás által kapott eltérés mértéke: n g e g e g e g j e ( 1 1) ( ) ( ( 3 3) j ) e 1 e e 3 j 1 e j 67

68 ha 0 abban az esetben, ha a megfigyelt és a számított gyakoriságok megegyeznek, ha 0 abban az esetben nem egyeznek meg pontosan, Minél nagyobb lesz - értéke annál nagyobb az eltérés az elméleti és a megfigyelés által kapott gyakoriságok között. Lineáris diszkriminálás esetén az osztályok közös kovariancia mátrixával számolva, amely az egyenkénti kovariancia mátrixok súlyozott átlaga. A súlyozás vagy egyenletes, vagy az osztályok gyakorisága, vagy pedig bizonyos előre megadott valószínűségek alapján történik. A Mahalanobis távolság A megfigyeléseknek az osztályok középpontjaitól vett távolságának mérési módszere. Egy megfigyelés nagy valószínűséggel abba az osztályba kerülhet, amely középpontjához a legközelebb van (korántsem biztos, hogy valóban ott is van). A kvadratikus diszkriminálás esetén használjuk ezt az általánosított távolságot. A változónkénti diszkriminálást mérő statisztikák alkalmazási lehetőségei. Lehetőséget ad a szignifikáns p értékek ismeretében, hogy mely változók játszanak szerepet a diszkriminálásban, a többit esetleg el is hagyható. A Fisher-féle lineáris (vagy kvadratikus) diszkrimináló függvények Behelyettesítve a változóértékeket az adott megfigyeléshez tartozó függvénybe, az adott megfigyelés a legnagyobb függvényértéket kapott osztályba kerül besorolásra. Az elemzés lépései: A megfigyelések ábrázolása lehetőleg az egyes osztályokat különböző színnel vagy szimbólummal megjelenítve. Alapinformációk meghatározása: megfigyelések, változók és az osztályok száma, szabadsági fokok. Az egyes osztályokra vonatkozó információk meghatározása az osztályok nagysága, apriori valószínűsége stb. alapján. Osztályonkénti bontásban az egyes változók közötti korrelációk meghatározása. Az osztályok mérete (vagy az osztályok apriori valószínűsége) alapján súlyozott korrelációs mátrix elkészítése. Az osztályok közötti korrelációs mátrix összeállítása. A teljes mintára vett korrelációs mátrix összeállítása. Leíró statisztikák meghatározása: az összeg, az átlag, a variancia, a szórás, mind a teljes mintára, az osztályok szerinti bontás alapján. Az osztályok középpontjainak meghatározása: a teljes mintára a standardizált adatokból számolva, illetve az osztályok mérete alapján súlyozva. 68

69 Az egyes csoportokhoz tartozó kovariancia mátrixok homogenitásának (egyezőségének) vizsgálata Az osztályok közötti távolságok meghatározása: a Mahalanobis távolságok és az általánosított távolságok alapján történnek Egyváltozós statisztikák a változónkénti diszkrimináció fokának mérése: teljes szórás, az osztályok alapján súlyozottan átlagolt szórás, osztályok közötti szórás alapján. Többváltozós statisztikák annak tesztelése, mely választ ad, hogy az adott változók diszkriminálják-e az osztályokat. Amennyiben a diszkriminálás a Fisher-féle lineáris diszkrimináló függvények alapján történik, az osztályonkénti kovariancia mátrixok megegyeznek. A diszkrimináló szabály által kapott osztályozást össze kell hasonlítani az eredeti osztályozással, és az egyes osztályokba kerülés valószínűségeivel. Példa a diszkriminanciaanalízissel megoldandó feladatra: Mérhető változást tapasztalunk-e az európai országok felsőoktatási intézményeiben az adott országokban kialakult munkafeltételek alapján. A főkomponensanalízis első példájában szereplő felsőoktatási intézmény adataihoz most hozzávettünk egy osztályozó változót, nevezetesen azt, hogy az illető intézmény melyik országban van. A diszkriminanciaanalízissel azt vizsgáljuk meg, hogy van-e különbség az egyes országok felsőoktatási intézményei között az országok gazdasági feltételek alapján Főkomponensanalízis A főkomponensanalízis a változók száma csökkentésének az egyik módszere. Célja az, hogy az eredeti változók mintából becsült kovariancia (korreláció) struktúráját a változók minél kevesebb számú lineáris kombinációjával írja le, miközben a populációról a lehető legkevesebb adatot veszítsük el. Az első főkomponenst úgy kapjuk, hogy megkeressük azt a lineáris kombinációt, amelynek a szórása maximális. Heurisztikusan: az adatok által meghatározott pontfelhőt arra az egyenesre vetítjük le, ahol a kapott pontok szóródása a lehető legnagyobb lesz. Ezt követően az erre az egyenesre merőleges irányok mentén meghatározzuk a további főkomponenseket. Annyi főkomponens lehet amennyi a változók száma, és a főkomponensek egymásra merőlegesek. Kiindulhatunk a kovariancia és korrelációs mátrixból. A vizsgálat kiindulási feltételei: Ha nem kívánjuk figyelembe venni, hogy a változóink esetleg eltérő skálán mértek, vagy éppen ezt akarjuk kiküszöbölni, akkor dolgozzunk a korrelációs mátrixszal. Ha azonban az eltérő nagyságrendi skála fontos információt takar, pl. az egyik változó tipikus értéke 10-szer nagyobb a másikénál és ez egy lényeges viszonyt ír le. Ebben az esetben a kovariancia mátrixot kell választani. 69

70 Az összes főkomponensre általában nem nincs szükségünk, éppen az a lényeg, hogy az első néhány főkomponens segítségével írjuk le, ill. helyettesítsük az eredeti adatállományt. Azt, hogy mennyi információ őrződik meg a helyettesítés után, a kumulált sajátérték rátával mérhetjük. Ha ennek értéke a 0,8 0,9 között van, akkor a helyettesítés jónak mondható, az információnak csak 10 0%-t veszítjük el. Egy másik lehetőség, hogy a korrelációs mátrix egynél nagyobb sajátértékeit vesszük figyelembe. A módszer gyakran egy összetett adatelemzés első fázisa, a főkomponensekkel dolgozunk a későbbiekben tovább, pl. a megfigyeléseinket klaszterezzük. Egy másik fontos alkalmazás többdimenziós adatállományok grafikus megjelenítése. Az első két, három főkomponenst használva egy pontfelhőként ábrázolni tudjuk a sokdimenziós adatállományt a koordinátarendszerben. Az elemzés lépései: Az adatok ábrázolása, egyszerű leíró statisztikák. A kovariancia (korrelációs) mátrix sajátértékeinek és sajátvektorainak meghatározása. Ez utóbbiak segítségével kapjuk meg a főkomponenseket. A sajátértékek szemléltetése törmelék grafikonnal. A megfigyelések és az eredeti változók ábrázolása a főkomponensek terében, az ún. főkomponens grafikon elkészítése Klaszteranalízis A többváltozós statisztikai vizsgálatok jellegzetes feladata az objektumok elemzése, a struktúrát egészében vizsgáló módszer. Alkalmazásakor az osztályozandó objektumokat számkomponensű vektorokkal kell megadni. Általában törekedni kell arra, hogy a vektor dimenziója ne legyen túl nagy. Egy ilyen igen gyakran alkalmazott osztályozási módszer a klaszteranalízis. Feladata az, hogy csoportokba soroljuk a különböző objektumokat azok hasonlósága alapján, közös tulajdonságaik figyelembe vételével. A klaszterelemzés túllép a klasszikus logikai modelleken. Egyrészt olyan osztályokat definiál, amelyekben az objektumok egy vagy több változóban nem feltétlenül ekvivalensek, de hasonlóak, szemben a klasszikus logika osztályozásával, ahol egy osztály minden eleme minden szempontból ekvivalens. Másrészt nem definiál típusokat mielőtt az objektumokat az osztályokba sorolná, viszont az eljárás után megadhatja a típusjegyeket. Ezzel szemben a klasszikus logika először definiálja a típusokat és utána sorolja az egyedeket osztályokba. 70 A klaszteranalízis a megfigyelések (vagy a változók) osztályozásának dimenziócsökkentő módszere. A diszkriminancia analízissel szemben itt nincsenek előre megadott osztályok, a feladatunk éppen ezeknek a létrehozása. Természetes elvárás az, hogy azok a megfigyelések kerüljenek egy osztályba (klaszterbe), amelyek a legközelebb vannak egymáshoz, illetve a leginkább hasonlóak egymáshoz. Ezért az elemzés kezdetekor meg kell határoznunk, hogy hogyan mérjük a megfigyeléseink közötti távolságot vagy az ezzel ellentétesen viselkedő hasonlóságot. Használhatjuk a standard euklideszi távolságot, de dönthetünk más mellett is (pl. diszkrét vagy bináris adatok esetén általában más távolságot érdemes használni). A klaszteranalízist az alábbi területeken lehet alkalmazni:

71 Típusalkotás, Modellillesztés, csoportokon alapuló becslés, hipotézis-tesztelés, adatstruktúrák felderítése, hipotézis felállítása, adatredukció, A klasztertendencia vizsgálat célja annak eldöntése, hogy az adatok mutatnak-e hajlamosságot a természetes csoportosulásra. Ha az adataink hasonlóságot mérő mátrix elemei ordinális skálán mért értékek, akkor a véletlen gráfelmélet nyújt matematikai eszközt a csoportosulási tendenciák megállapítására. Amennyiben az adatok intervallum értékek, akkor az ún. véletlen gráf hipotézist kell alkalmazni. Az elméleti eredményeket nem könnyű a gyakorlatban megvalósítani, ezért alkalmazásokban még elég ritkán lehet találni klasztertendencia vizsgálatot. A klaszterezés az objektumok osztályba sorolását jelenti, vagyis az objektumok halmazának (X) C C C 1,,..., M részhalmazokra való felbontását. A csoportoknak diszjunktaknak kell lenniük és együttesen a teljes halmazt kell adniuk. A klaszterezés során az objektumok a hasonlóak egy klaszterbe, a különbözőek külön klaszterbe kerülnek. Az osztályok kialakítása a rendelkezésre álló mintából, valamilyen döntési kritérium alapján történik. A klaszteranalízis nem egy módszer, mint a faktoranalízis, hanem módszerek együttese. Ezek sokfélesége miatt a klaszteranalízisnek igen sokféle eljárása létezik. A klaszteranalízis csoportosítása Az osztályokba való sorolás két módszerét különböztethetjük meg: a hierarchikus módszereket és a nemhiearchikus módszereket. A hierarchikus módszereken belül megkülönböztetünk összevonó és felosztó eljárásokat. Az összevonó eljárások általános menete: n db egyelemű csoportból történő kiindulás A két leghasonlóbb klaszter megkeresése. A két klasztert összevonása, így a klaszterek számát egygyel való csökkentése. Az új klaszter és a régi klaszterek közti hasonlósági mérőszámok újra meghatározása. A második és a harmadik lépést n-1-szer elvégezve minden egyed egy osztályba kerül. A módszerek a csoportok hasonlóságának definiálásának módszerében különböznek. Ilyen módszerek pl.: egyszerű lánc-, teljes lánc-, centroid módszer stb. Az összevonó eljárások eredményét megjeleníthetjük az ún. dendrogramon mely a klaszterek hierarchikus elrendeződését ábrázolja. A vízszintes tengelyen az egyedek sorszámait, a függőleges tengelyen a klaszterek összevonási szintjeit jelöljük. 71

72 A vízszintes tengelyen az egyedek sorszámait, a függőleges tengelyen a klaszterek öszszevonási szintjeit jelöljük. A különböző klaszterezési módszerek általában különböző dendrogramokat eredményeznek, melyek jellemzői: Szimmetrikusak, eggyel egyenlő, ha a két dendrogram azonos, nullával egyenlő, ha a két dendrogram teljesen különböző. A felosztó eljárások közé tartozik pl. az asszociációs elemzés, ahol a csoportokat dichotómia szerint bontjuk egymás után kisebb elemszámú csoportokra. Tekintsük meg az alábbi dendogramot, mely a zenei stílusokat csoportosítja: 13. ábra: Dendogram A dendogram olyan fastruktúra, mely az együvé tartozás szintjeit kapcsol a vizsgált objektumhoz. Adott szinten azok az objektumok vannak relációban, melyek között legkisebb a távolság. A nemhierarchikus módszerek általános felépítése a kezdő klaszterek kialakítása, az egyedek elhelyezése a kezdő klaszterekbe, az egyedek átrendezése a klaszterek között valamilyen optimalizáló kritérium szerint. Klaszterosítási módszerek A különbség a hierarchikus módszerrel, mely átlagos kapcsolású, legközelebbi társ vagy centroid módszere és a dinamikus módszerrel valósítható meg, melyek közötti különbség: 7

73 A hierarchikus módszereknél nem kell előzetesen ismernünk a létrehozandó klaszterek számát, ebben különféle grafikonok segítenek, csak kis mintaelemszámú populáció esetén ajánlott. A dinamikus módszernél, ezzel szemben már kiinduláskor adott a klaszterek száma, a feladat csak a megfigyelések besorolása. A klasztereket iterációval kell számolni. A másik fontos különbség, hogy egy hierarchikus módszer általában időigényesebb mint egy dinamikus klaszterezés, amelyet emiatt gyakran gyors klaszterezésnek is nevezik. A klaszteranalízist alkalmazását eldöntő tényezők: A legfontosabb segítséget a megfigyelések grafikus ábrázolása adja. Ha az így kapott pontfelhőben jól elkülönülő csoportok alakulnak ki, akkor feltétlen érdemes klaszteranalízist alkalmazni. (Persze ez csak három változóig tehető meg, ennél több változó esetén előbb valamilyen dimenziócsökkentő eljárást, pl. főkomponensanalízist, kell alkalmaznunk). Egy másik lehetőség a bimodalitási együttható. Ha értéke 0,555-nél (az egyenletes eloszlásnál ezt az értéket veszi fel) nagyobb, akkor az két vagy többcsúcsosságra utal, ami esetleg több klaszter jelenlét jelenti. Ezen együttható maximális értéke 1, melyet a kétértékű Bernoulli eloszlás esetén vesz fel. A hierarchikus módszereknél a távolság definíciója mellett meg kell adni a klaszter összevonási szabályát, melynek alapján, ha több elemű, nagyobb klasztereink vannak, akkor hogyan definiáljuk a közöttük lévő távolságot. A hierarchikus módszereknél döntenünk kell arról, hogy hány klasztert érdemes választani. Ez a probléma máig sem teljesen megoldott. Az elemzés lépései: A megfigyelések grafikus ábrázolása a lehetséges klaszterek beazonosítása céljából. Leíró statisztikák: átlag, szórás, ferdeség, lapultság, bimodalitás. A klaszterezés történetét tartalmazó táblázat: az összevonások sorrendje és a kapcsolódó statisztikák. A klaszterezési szint megállapítását segítő grafikonok: pszeudo F és t statisztikák. A klaszterezés végeredményének grafikus ábrázolása: a dendogram. A klaszterek számának megválasztása, az egyes klaszterek listázása. Példa a kalszteranalízis alkalmazására: Európa országainak osztályozása a lakosok iskolázottsága alapján. Az alábbiakban azt vizsgáljuk meg, hogy milyen osztályokba sorolhatóak Európa országai három változó: az elemi, közép és a felsőfokú végzettség alapján. Már a kiinduló grafikus ábrázolás is jelentős eltéréseket mutat az egyes országok között. Az átlagos kapcsolású hierarchikus klaszteranalízis végül 6 vagy 9 klaszter létrehozását javasolja. Végeredményként kilistázzuk az egyes klasztereket illetve grafikonon jelenítjük meg azokat mindkét (6, ill. 9 klaszter választása mellett) esetben. Az országok adatai. Az országok ábrázolása a három változó függvényében. 73

74 A klaszteranalízis (átlagos kapcsolású hierarchikus módszerrel) végeredménye. A létrehozott klaszterek listája 6 klaszter választása mellett. A 6 klaszter ábrázolása az eredeti változók terében. A létrehozott klaszterek listája 9 klaszter választása mellett. A 9 klaszter ábrázolása az eredeti változók terében. A megoldás Európa országainak osztályozása a dinamikus vagy gyors klaszterezési módszerrel. A klaszteranalízis végeredménye a klaszterek listája. A kétféle klaszterosítási módszer összehasonlítása oszlop diagrammal Faktoranalízis Az elemzések során gyakran kettőnél több változót kell figyelembe venni az adott probléma megoldása során. Több változónak nagy elemszámú mintán történő mérése során óriási adathalmazt egy egységként kezelni bonyolult feladat. A kapcsolatok feltárásánál több, egymástól is függő változó kapcsolat lehetőségét elemezve kell a feladatot megoldani, melynek elemzése és az eredmények értelmezése a faktoranalízis segítségével történhet (Székelyi Barna, 00). Adott: egy sokváltozós mintaállomány, ahol a faktorok korrelálatlanok és a vizsgálat kezdetén még nem ismertek. A faktoranalízist a regresszióanalízistől az különbözteti meg, hogy a független változók ismertek. Egy adatállományon a faktoranalízis csak akkor végezhető el, ha az adatok összefüggnek, más szóval korreláltak, melynek értelmében a változók redundáns információkat hordoznak. A faktoranalízis a változók száma csökkentésének a legelterjedtebb módszere. A jelenség feltárását szolgáló vizsgálati módszer, amelyek a mért változók hátterében lehetnek, egymástól függnek és a jelenségekre magyarázatot adnak. A változók számának csökkentése a statisztikai mintában a lévő információ lehetőség csökkentésével ugyanazt a jelenséget írja kevesebb változóval. A feladat a sokváltozós adatállomány jellemzése a változónál kisebb számú célszerűen választott ún. faktorral oly módon, hogy a faktorok az eredeti lehetőség szerinti legtöbb információt tartalmazzák, és az így azonosított faktorokat célszerű értelmezni és elnevezni, melyek az eljárás kezdetén ismeretlenek. Másik fontos célkitűzés, hogy a nagyszámú változó közötti korrelációs struktúrát írjunk le kevés számú látens változó, ún. faktor segítségével. A faktoroknak fizikai jelentésük nincs, közvetlenül nem megfigyelhetőek, nem mérhetőek és létezésük csak elképzelhető az eredeti változók alapján. A faktoranalízis alapfeltevése, hogy ezeket a látens változók. A faktoranalízis során a faktorok meghatározása a vizsgált változók korrelációs mátrixából kiindulva: Ha a változó nem korrelál más váltózókkal, nagy valószínűséggel önálló faktorral rendelkezik. 74

75 Ha két vagy több változó között szoros a korreláció, akkor feltételezhető, hogy egy vagy több közös faktorral rendelkeznek. A faktoranalízist alkalmazási feltételei: ha a korrelációs mátrix alapján a változók úgy csoportosíthatóak, hogy az egy csoporton belüli változók között viszonylag magas a korreláció, ezzel szemben a csoportok között pedig alacsony. (Egy ilyen csoport olyan, mely mögött egy faktor áll. a parciális korrelációk kicsik, a Kaiser-féle mutatószám (0 és 1 közé eső érték) az adatok összefüggő voltának, korreláltság vizsgálatának módszere, amelyet Kaiser Meyer Olkin statisztikának is neveznek, Ha ez a mutatószám 0,8-nél nagyobb, akkor ajánlott, ha ez a mutatószám viszont 0,5-nél kisebb, akkor nem ajánlott faktoranalízis végrehajtása. A faktoranalízis egyaránt támaszkodhat a kovariancia illetve a korrelációs mátrix elemzésére. Kaiser Meyer Olkin mérték az alábbi képlet alapján határozható meg: KMO p p rij i 1 j 1 p p p p ij rij i 1 j 1 i 1 j 1 Ahol: r az i-edik és a j-edik változók korrelációs együtthatója, ij ij R R ii ij R jj az i-edik és a j-edik változó parciális korreláció együtthatója, ha a KMO értéke 0,5 abban az esetben az adatok alkalmasak a faktoranalízisre, ha a KMO értéke < 0,5 abban az esetben az adatok nem alkalmasak a faktoranalízisre. A faktoranalízist alkalmazási területei: A nagyszámú és egymással korreláló változó között tanulmányozhatjuk a kapcsolatokat úgy, hogy a változókat kisebb számú ún. faktorokba rendezzük, amelyeken belül a korrelációk nagyobbak, mint ezeken kívül. A faktorok a hozzájuk tartozó változók alapján értelmezhetőek. A faktoranalízis segítségével a nagyszámú populáció a kisebb számú faktorok a faktor-pontok segítségével mennyiségileg áttekinthetőbbé válik. 75

76 A faktormodell fogalma, felépítése Meghatározza, hogyan függnek az egyes változók a faktoroktól, mely lineáris kombinációval állíthatóak elő. Tehát a főkomponens analízissel szemben, ahol az egyes főkomponenseket állítottuk elő az eredeti változók lineáris kombinációjaként, itt az egyes változók fejezhetőek ki a faktorok lineáris függvényeként. Fontos tudni, hogy faktoranalízist többféle módszerrel hajthatunk végre, a legfontosabbak ezek közül a főkomponens módszer, a főfaktor analízis és a maximum likelihood faktoranalízis. A faktort számának megválasztása A faktoranalízis az adatrendszer belső struktúráját, az adatrendszer egészét látva egyenrangúnak tekinti a változókat. A faktoranalízis célja a jelenséget leíró változók mögött megkeresni olyan rejtett változókat, amelyek a vizsgált jelenséget megmagyarázzák, számuk kisebb, mint az eredeti változóké, és egymástól függetlenek. A faktoranalízis során a faktorok meghatározásakor a vizsgált változók korrelációs mátrixából kell kiindulni. Amelyik változó nem korrelál más változókkal, nagy valószínűséggel önálló faktorral rendelkezik. Ha viszont két vagy több változó között szoros korreláció van, akkor feltételezhető, hogy egy vagy néhány közös faktorral rendelkeznek. A faktoranalízis modelljében a következő faktorokat különböztethetőek meg: közös faktor (több változót befolyásol), általános faktor (az összes változóra hatással van), csoport faktor (nem az összes változót befolyásolja,) egyedi faktor (csak egyetlen változót befolyásol), hiba faktor (mérési, becslési hiba hatása). Egy-egy változót eltérő súllyal befolyásolhatják a különböző faktorok, másrészt egy faktor eltérő súllyal befolyásolja az egyes változók értékét. Az eredeti változók helyett meghatározott hipotetikus változók, ún. faktorok tartalmazzák a rendszerről ismert információnk nagy részét annak ellenére, hogy számuk kisebb. A faktoroknak nincs semmilyen fizikai jelentésük, közvetlenül nem figyelhetők meg, nem mérhetők, létezésüket csak feltételezhetjük az eredeti változók kapcsolatai alapján. A változók számának csökkentése azt jelenti, hogy a statisztikai mintában lévő információ lehetőleg kis csökkentésével ugyanazt a jelenséget kevesebb változóval írjuk le. A különböző faktorok hatásainak figyelembevételével az X változó az alábbiak szerint írható fel: X a F a F... i i1 i1 i i ahol: a: a közös faktorok súlya b: az egyedi faktorok súlya c: a hiba faktorok súlya A feltételezés alapján a hibakomponens korrelálatlan a közös, illetve az egyedi faktorokkal, valamint, hogy a hibakomponensek függetlenek. A standartizált változó szórásnégyzete: a iq F iq b im F im e i F i 76

77 q s a b e 1 j ij A megfigyelt értékek mátrixa, mely a faktoranalízis bemeneti (input) adathalmazának tekintendő: ahol: p: a változók száma n: a mintaelemek száma x x x n1, x, x A faktoranalízis lépéseinek fázisai 11 im 1 n,... x i 1p...,...,...,...,... x Minden változóra meg kell határozni az átlagot és a korrigált tapasztalati szórást. Minden adatból ki kell vonni a változókhoz tartozó adatok átlagát. Az eredményt el kell osztani a korrigált tapasztalati szórással. A feladat megoldása során olyan új F 1, F, F k valószínűségi változókat kell keresni, ahol az F k faktorok közös jellemzői: Számuk maximum p, Normális eloszlásúak Korrelálatlanok (bármely kettő korrekciós együtthatója zérus) A fenti mátrixból az X i valószínűségi változók és a faktorok közötti kapcsolatot az alábbiak alapján képezhetőek: X X X 1... p a a a 11 1 p1 F 1 F 1 F 1 a a 1 a p F ahol: W 1, W, W p,: egyedi faktorok, mivel egyenként csak egy változó kifejezésében szerepelnek F1, F, F k : közös faktorok W k és a F k korrelálatlanok egymással. A W értékétől függően, ha W értéke nagy, a faktoranalízis nem sikeres, ha W értéke kicsi, abban az esetben jó eredményt kaptunk. F F np a 1k a k a pk F k F k F k W 1 W W p 77

78 a1j a faktorsúly, amely azt fejezi ki, hogy, az F1 faktor milyen súllyal szerepel az X1 meghatározásában. Tekintsük át a faktoregyütthatók és a faktorsúlyok között a különbségét: A faktoregyütthatók a faktorok együtthatói a faktormodellben, melyek a megfelelő változó és faktor közötti korreláció nagyságát mérik. A faktorsúlyok ezzel szemben azt mondják meg, hogy mennyi a bevezetett új, közös faktorok értéke az egyes megfigyeléseknél. 78 A kommunalitás értelmezése A kommunalitás a szórásnégyzetben a faktorok hatását mutató rész, melynek maximális értéke 1. h i q h i a ij a a j 1 a i1 i... ik A kommunalitás alatt a közös faktorsúlyok hatása értendő. A bevezetett faktoroknak az eredeti változó szórásának százalékban megvalósított értékelését mutatja. Minél nagyobb a kommunalitás (maximum 1 lehet), annál jobb a választott faktormodell. Abban az esetben, ha a kommunalitás értéke közel van az 1-hez, a kommunalitás jól magyarázza és írja le az adott változót, vagyis arra ad választ, hogy a faktorok az adott változók varianciájának hány %-át értelmezi. Példaként említhető a faktorsúly +1-hez vagy 1-hez közeli értéke, melynek során x i és F i változók között erős pozitív vagy negatív korreláció áll fenn. Fontos tényező a faktorok sajátértékére rámutatni, mely egy adott faktorhoz tartozik, mely matematikailag az adott faktor összes faktorsúlyának négyzetösszegével egyenlő. Az alábbi képlet rámutat arra, hogy a változórendszer teljes varianciájának magyarázatában az F i milyen súllyal vesz részt. F i a a a 1 i i... pi Matematikailag az ún. fontos faktorok saját értéke nagy, míg a kevésbé fontosaké kicsi. A faktorok rotációjának értelmezése A faktorok rotációja során a nehezen értelmezhető faktorok egyszerűbbé tehetőek. A rotációval kapott változók, melyek az új faktorokra nézve is az eredeti változók, még nagyobbaknak kell lenniük. Ezzel ellentétben a korábbi kis faktorsúlyú változók még kisebbekké válnak. Az eljárással kapott faktorszerkezet könnyebben értelmezhető és a legjellemzőbb változók alapján elnevezhető. Egy ortogonális mátrixszal transzformálva mind a faktoregyüttható mátrixot, mind pedig a faktorokat, egy új, a régivel teljesen egyenértékű modellt eredményez. A forgatást a

79 faktorok könnyebb interpretálhatóságára használják. Ennek eredményeként a faktoregyütthatók értékei a 0-hoz vagy az 1-hez lesznek közel. Így könnyebben meghatározható, hogy az egyes faktorok mely változócsoportokhoz tartoznak Az eredeti és a faktorváltozók közötti korrelációs együtthatók értéke rámutat, hogy az adott faktorok elsősorban mely változókkal állnak szorosabb kapcsolatban. A faktoranalízis során a faktorsúlyok mátrixát kell előállítani. A mátrix és saját transzponáltjának szorzata egyenlő a korrelációs mátrix és hibák variancia-kovariancia mátrixának különbségével. Mivel a hibakomponensek függetlenek, ezért ez utóbbi mátrix diagonális, vagyis gyakorlatilag egy olyan módosított korrelációs mátrixot eredményeznek, ahol a főátlóban lévő elemek a kommunalitásokkal lettek kicserélve, a mátrix többi elemeként pedig az r ij korrelációs együttható maradt. A faktoranalízis lépései: A korrelációs mátrix meghatározása. A parciális korrelációs mátrix meghatározása. A minta faktoranalízisre való alkalmasságát mérő Kaiser statisztika kiszámítása. A kovariancia (korrelációs) mátrix sajátértékeinek és sajátvektorainak meghatározása. A sajátértékek szemléltetése törmelék grafikonnal. A faktoregyütthatók, mint az egyes változók és a faktorok közötti korrelációk meghatározása. A kommunalitások megadják, hogy az egyes faktorok a teljes szórásnak hány százalékát magyarázzák. A faktoregyütthatók grafikonja. A változók ábrázolása a faktortérben. A faktorok forgatása. A forgató mátrix és a forgatás utáni faktoregyütthatók meghatározása. Kommunalitások a forgatás után. A (standardizált) faktorsúlyok meghatározása. A forgatás utáni faktoregyütthatók grafikonja, a változók ábrázolása a forgatott faktortérben. 7.4 ÖSSZEFOGLALÁS A fejezet nagy lélegzetvételű tananyagának elsajátítása segíti az olvasót, hogy képet kapjon a többváltozós populációk elemzéséről. A variaanalízis eljárása során képessé válik több egydimenziós minta vizsgálatára. A faktoranalízissel csökkenthető a megfigyelt változók száma, vagyis helyesebben változók összevonása valósítható meg az eljárással. A kutatási koncepciók kidolgozásakor a klaszteranalízis ad lehetőséget átfedés mentes csoportosításra. 7.5 ÖNELLENŐRZŐ KÉRDÉSEK 1. Ismertesse a variaanalízis elméleti megfontolásait. 79

80 . Ismertesse a belső- és a külső variancia közötti fogalmi különbséget. 3. Ismertesse az egyutas osztályozás vagy egytényezős variancia analízisjellemzőit és eljárását. 4. Ismertesse az kétutas osztályozás vagy kéttényezős variancia analízisjellemzőit és eljárását. 5. Mely jelenségek statisztikai feltárását szolgálja a faktoranalízis? 80

81 8. SPSS ALAPFOGALMAK. ADATÉRTELMEZÉS. 8.1 CÉLKITŰZÉS Az utóbbi évtizedben a társadalomtudományi kutatások jelentősége megnőtt és a és oktatási intézmények olyan szakembereket képeznek akik az SPSS alkalmazó szintű ismeretével rendelkeznek. Ez a fejezet betekintést nyújt az SPSS program felületének felépítésébe, az adatok rögzítésének kérdéseibe. 8. TARTALOM A szoftver használatának feltételei Az SPSS felülete Az adatmátrix szerkezete A menűsor parancsainak rövid ismertetése és a kitöltés menete Grafikus ábrázolás Transform 8.3 A TANANYAG KIFEJTÉSE Az SPSS segítségével adott minták statisztikai elemzését végezhetjük el, mely a tudományos kutatásban nélkülözhetetlen. Az SPSS a Statistical Package for Social Scienses rövidítése, amely statisztikai programcsomag a szociológiai tudományok számára, de természetesen egyéb területeken is elterjedt ban Norman H. Nie, C.Handlai Hull és Dale H. Bent alkották meg az SPSS alapjait, az 1970-es években továbbfejlesztették a Chicagói Egyetemen. 199-ben megjelent a Windows alatt futó változata, ez a verzió vált elterjedtebbé a felhasználók körében. A vállalati alkalmazások területén vált ismertté. Kidolgozták 007-re a Java alkalmazásokra a programot. 009-ben SPSS felvette PASW nevet és több programból (SPSS Statistics, SPSS Modeler Clementine, SPSS Data Collection (Dimensions) és SPSS Reports for Surveys Desktop Reporter és a SPSS Text Analytics (TextMining for Clementine) álló programcsalád. Az angol nyelvű szoftvert alkalmazzuk, mivel a szakkönyvekben az utasítás szintén angol nyelvű. Több platformon is rendelkezésre áll, (de a FEFA projekt által) a Windows-os változat vált elérhetővé. Modul rendszerű szoftver (Base System, Professional Statistics, Advanced Statistics). Az SPSS for Windowshoz installálható egyéb modulok főleg valamilyen speciális szakterületen felvetődő statisztikai probléma megoldását segítik A szoftver használatának feltételei A terméket kizárólag a megnevezett intézmény oktatói és tanulói használhatják: kutatás, egyetemi oktatás és fejlesztés céljaira. Az átvevő a termékre nem szerez tulajdonjogot, azt nem módosíthatja, nem bővítheti, csak az SPSS Partner Betéti Társaság írásbeli engedélyével. A terméket kereskedelmi célra, vagy jelentős anyagi hasznot hozó munkavégzésre felhasználni csak az SPSS BT írásbeli engedélyével, meghatározott díj kifizetése esetén lehet. A termék használói a terméket saját kockázatukra üzemeltetik, fizetik az üzemelte- 81

82 téssel járó valamennyi járulékos költséget, gondoskodnak a szakszerű kezelésről, folyamatos karbantartásról. A felmerülő hibákat dokumentálva be kell jelenteni az SPSS BT-nek, aki a hibákat haladéktalanul megszünteti, vagy a terméket kicseréli. Az SPSS BT jótáll azért, hogy a termék a leírásnak megfelelően működik, nem vállal azonban garanciát a működés közben előforduló zavarokért. Az utasításokat alapvetően egy menürendszer (ill. ikonok) segítségével adhatjuk ki, az utasítások paramétereit dialógus dobozok segítségével állíthatjuk be. A program alapvetően három, egymással részben összefüggő, részben független munkaterületet kezel. Egyrészt rendelkezésre áll az adatmátrix mely a tulajdonképpeni input információkat tartalmazza, melynek a formátuma igen hasonló egyes táblázatkezelő programok (pl. Excel) formátumához. Az utasítások végrehajtása után, az eredményeket egyrészt szöveges formátumban kaphatjuk meg, másrészt pedig a különböző grafikus formában (chart). A SPSS tartalmazza a leggyakrabban alkalmazott statisztikai eljárásokat, kereszttáblákat, a leíró statisztikák, a faktor-, regresszió-, megbízhatósági és a klaszteranalízis többdimenziós skálázási lehetőségeit, melynek eredményei grafikusan is megjeleníthetőek, formázhatóak a felhasználó igénye szerint. 009-ben az SPSS 19 verzióját hozták forgalomba Az SPSS felülete Három különböző ablakot alkalmaz a szoftver. Egyidejűleg eddig csak egy adatfájl lehetett nyitva, a 17-as verziótól kezdve több is, amely megkönnyíti a munkát több adatból való dolgozás esetén (Ketskeméty-Izsó, 005). Adat Data ablak Egy táblázatban tárolja a kiértékelendő az új adatfájlt, vagy a megnyitott adatfájlt, azok itt módosíthatóak. Az oszlopokat a szakirodalom mezőnek, vagy változóknak, a sorokat pedig rekordoknak vagy elemeknek nevezik. Output-ablak A számítások eredményeit foglalja össze a szöveges információkkal. Az ablakban megjelenő táblázat, szöveg módosítható és menthető. Egyszerre több output ablak is nyitva lehet. Chart-ablak Az elkészített diagram-ablak ugyanúgy funkcionál, mint az Output ablak, a benne levő diagram módosítható és menthető. Erre az ablaktípusra is igaz, hogy egyszerre több Chartablak ablak is megnyitva lehet. Az SPSS program parancsokkal dolgozik. A Syntax-ablakba lehet beírni a parancsokat, majd futtatni. Mivel az SPSS for Windowsnak nagyon jól használható menürendszere is van, ezért ez a parancs-ablakot csak rutinos felhasználók számára ajánlott. A menürendszer használata során a kiválasztott tevékenységet a paste funkció segítségével lehet parancs formájában a Syntax-ablakban áttenni. Egyszerre több Syntax ablakot is megnyithatunk. 8

83 Az spss 17 verzióban már a végrehajtott művelet programja is megjelevik Visual Basicban, amely menthető és megismételhető. Az adatmátrix szerkezete A program használata során minden műveletet az adatmátrixon hajtunk végre. Az adatmátrix a következőképpen néz ki: Változó 1 Változó objektum X11 X1. objektum X1 X táblázat: Adatmátrix Minden egyes objektumhoz különféle változó-értékek tartozhatnak. A program megnyitásakor különböző lehetőségek adódnak. 15. ábra: Az SPSS17 nyitó felülete 83

84 A fenti ábra alapján látható, hogy különböző dokumentumok megnyitásának, illetve egy új dokumentum létrehozásának lehetőségét biztosítja a program. Az alábbi hat lehetőség közül választhatunk: Run the tutorial Type in data Run an existing query Create new query using Database Wizard Open an existing file Open anothet type of file Oktatóprogram megnyitásának tárgyszavas és címszavas lehetősége és keresési lehetőség Új adat begépelése Meglévő könyvtárakban *.spq és fájlok megnyitása és lekérdezése Adatbázis konvertáló varázsló nyitása, mely *.dbf; *.xls; *.mdb; fájlok konvertálását teszi lehetővé másik adatbázisból Korábban mentett SPSS- adatállomány megnyitása Más títusú fájl megnyitása Új adatbázis bevitelekor kattintsunk a Type in data választás menüre, és egy táblázatot kapunk, ahol az oszlopok, más szóval mezők vagy változók, a kérdőív kérdéseinek, a sorok, vagy rekordok illetve elemek, pedig a válaszadóknak felelnek meg. 16. ábra: Az SPSS adatszerkesztő (Data Wiev) és változók (Variable Wiev) képernyő részlete 84

85 8.3.3 A menüsor parancsainak rövid ismertetése és a kitöltés menete 17. ábra: SPSS Variable Wiev menűje Minden változóhoz tartozik egy változónév, amivel az adott változóra hivatkozunk az elemzések során. Ez a címke a változó tartalmát szemléletesen írja le (mint egy comment). Az adatmátrixot első lépésként a rendelkezésre álló adatokkal fel kell tölteni a változó jellemzőit, melynek lépései: Az egérrel az oszlop első cellájára kattintunk az ahol alapértelmezésben pl. var0001 áll. A megjelenő egy dialógus ablakban értelemszerűen kitöltjük kérdés rövidített nevével (max. 8 karakter) Az adatsor bevitelét megelőzi a kérdésenkénti változók definiálása a Variable Wiev felületen. A menülécen az alábbi paramétereket kell definiálni. A kitöltendő változó Name cellájára kattintunk jobb egérgombbal beírjuk a nevét. A változó típusát a második oszlopba Type definiáljuk. Rákattintva az alábbi válaszpanelt kapjuk: 18. ábra: A változó típusa A Variable View/Type ablakra kattintva a lehulló ablakban meghatározzuk a változó típusát, a karakterek számáta With, és a tizedesjegyek számát a Decimal places mezőben. 85

86 Numeric Comma: Dot Scientific notation Date Dollar Custom currency String 16. táblázat: A változó definiálását segítő adattábla numerikus adat vessző pont tudományos megjegyzés dátum dollár speciális pénznem szöveges adat, amelynek során a szöveges karakter hossza állítható be A Label címkébe a változó rövid magyarázó szövegét gépelhetjük. Define Labels a változók definiálása 19. ábra: Változók kódolása A Values címkébe a változó értékéhez jelentést kell definiálni. Az új értékek és címke megadása után az Add gombra kattintunk és folytatjuk az újabb érték és annak nevének megjelölésével, mindaddig míg befejezéskén a Continue gombra kattintva folytatjuk a további jellemzők beállítását. 86

87 Missing az adathiány ellenőrzése A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI 0. ábra Adathiányok kódolása Ebben a cellában az adathiány létét határozhatjuk meg. Ha a feldolgozás során nem kell számolni adathiánnyal, akkor a legfelső, No missing values pontot jelöljük meg. Abban az esetben, ha hibás értékekkel is számolni kell, az alábbi 3 beállítási lehetőségünk van: Discrete missing values Range of missing values: Range plus one discrete missing values 17. táblázat: Missing values értelmezése 3 egyenként 8 karakteres számot tüntethetünk fel. a hibás érték alsó (Low) és felső (High) határát adhatjuk meg az előző kettő ötvözése, mivel egy hibás értéksor alsó és felső határát, valamint egy konkrét max. 9 karakteres hibás adatot adhatunk meg. 87

88 Columns az oszlop formázása 1. ábra: Az oszlop formázása A lehulló ablak az oszlop szélességének formázására ad lehetőséget. Az Align Data Wiev-ben az oszlopok szélességét igazítja balra, középre vagy jobbra. A Measure oszlop címkéje a kutatónak felkínálja a változó skála típusának beállítás lehetőségét. Az SPSS lehetőségei: a Scala (arány- vagy intervallumskála), Ordinal (sorrendi, ordinális) és Nominal (névleges, nominális). Az SPSS 1 megjelenésével a felülete módosult, újabb lehetőséget adva, melynek során az adatok két címkével ellátott felülette dolgozik: a Data Wiev és a Variable Wiev. 88

89 . ábra Variable Wiev felülete A Variable Wiev a változók beállítása alapján a Data Wiev oszlopfőiben megjelennek a változók nevei. Ezt követően Data Wiev felületére lehetővé válik a kódolt adatok felvétele. 89

90 Hiányzó oszlop beszúrása 3. ábra: A Data Wiev felülete Az adatfelvitele során két oszlop közé logikus lenne egy adatsort rögzíteni, melyhez oszlop beszúrására lesz szükségünk. A művelet elvégzéséhez a menüsorból válasszuk ki Data-t. 90

91 4. ábra: Az oszlop beszúrása Majd a lehulló menüből az Insert Varieble-re kattintva, a kívánt oszlopot a megfelelő helyre beszúrjuk. 91

92 5. ábra Sorok beszúrása Az adatok rögzítésének ellenőrzése a File parancsra való kattintáskor a lehulló menüsorból kiválasztva a Display Data Info -ra kattintva történik, melyre az alábbi adattáblát kapjuk: 9

93 6. Önellenőrzés ún. Output ablaka Az statisztikai műveletek eredménye az output ablakba érhető el amelyet SPSS Statistics Viewer-nek neveznek. Az eredményeket táblázatokba adja a program. Ezen a felületen hozhatók létre a grafikonok. Mindkettő másolható és formázható. A felület két részből épül fel: bal oldalon a kereső fa, a jobboldalin az output elemei. 8.4 ÖSSZEFOGLALÁS Ebben a fejezetben az olvasó átfogó képet ismerhetett meg az SPSS program szerkezetéről. Röviden áttekintettük az SPSS szerepét, a felületét, a változók jellemzőinek beállítását, az adatok bevitelét és a menüpontok funkcióit. A statisztikai eredmények az SPSS Statistics Viewer felületéről transzportálhatóak, módosíthatóak. 8.5 ÖNELLENŐRZŐ KÉRDÉSEK 1. Jellemezze az SPSS programot röviden. Ismertesse röviden a Data, Output és a Chart ablakokat és azok funkcióit. 3. Ismertesse az adatok kitöltésének menetét. 93

94 9. STATISZTIKAI ALAPMŰVELETEK AZ SPSS-SEL. ADATBÁZIST MÓDOSÍTÓ UTASÍTÁSOK 9.1 CÉLKITŰZÉS A fejezetben a leíró statisztika alapműveleteit tekintjük át a Descriptives, Frequencies és a Crosstables (Kereszttáblák) bemutatásával. A statisztikai elemzés leggyakrabban alkalmazott műveleteinek tekinthető, amelyeket az összesítő statisztikai eredményeket hoz létre. 9. TARTALOM A szoftver használatának feltételei Az SPSS felülete Az adatmátrix szerkezete A menüsor parancsainak rövid ismertetése és a kitöltés menete Adatbázist módosító utasítások 9.3 A TANANYAG KIFEJTÉSE A leíró statisztika keretein belül négy fő kérdésre keresünk választ: a gyakoriságok, a középérték, a szóródás és a korreláció mérésére. LEÍRÓ STATISZTIKA 18. táblázat: Missing values értelmezése Gyakoriságok Középértékek Szóródások Korreláció Abszolút Átlag Szóródási Korrelációszámítás gyakoriság terjedelem Relatív (%-os) gy. Módusz Interkvartilis Korrelációanalízis Kumulatív gy. Medián félterjedelem Átlagos eltérés Variancia Szórás Relatív szórás Leíró statisztikák (Descriptives ) Az Analyze/Descriptives parancs az alapvető statisztikai mutatók tulajdonságairól ad információt, ezek a következők: középérték (Mean) szórás (Std deviation) szórásnégyzet (Variance) maximum minimum stb. 94

95 7. ábra: Analyze/Descriptive Statistics/Descriptives A jellemzőket az Analyze/Descriptive Statistics/Descriptives parancs kiadását követően a lehulló dialógus ablakban kell beállítani: 95

96 8. ábra: Descriptives Dialógus ablak A variable dialógus ablakba behúzzuk azokat a változókat, amelyek középérték és szóródási mutatóit az output ablakba szeretnénk kiszámolni. Az Options gombra kattintva 9. ábra: Descriptive/Options 96

97 A lehulló ablakba beállíthatjuk a kívánt menüket Mean átlag Sum összeg Std. deviation Szórás Range Intervallum Minimum minimum Maximum maximum S.E. Mean középérték standard hibája Kurtois lapultság ( >0 csúcsos; <0 lapos) Skewness ferdeség ( ha balra ferdül; + jobbra ferdül) Variable list változók listája Alphabetic abc sorrend Ascending means átlagok növekvő sorrendbe Descending means átlagok csökkenő sorrendbe A megfelelő paraméterek kijelölését követően a Continue gombra kattintunk, majd az OK-ra. Az Output ablak a kijelölt paramétereknek megfelelően táblázatba foglalja az eredményeket. Descriptive Statistics N Range Minimum Maximum Mean Statistic Statistic Statistic Statistic Statistic 19. táblázat: Descriptives Output ablaka Std. Deviation Variance Skewness Kurtosis Std. Error Statistic Statistic Statistic Std. Error Statistic Std. Error nem_ ,58,036,494,44 -,343,179-1,903,355 kar_ ,6,07,967,936-1,144,180,199,358 isk_végz_ ,7,068,931,866 1,080,179,090,355 Valid N 18 (listwise) A táblázatban feltüntetett paraméterek alapján a minta jellemezhető, jósló tényezőként a további statisztikai eljárások menetét előrevetíti Gyakorisági táblázatok (Frequenties) Az Analyze/Descriptive Statistics/ menü parancs kijelölését követi a Frequenties parancsra való kattintás. 97

98 30. ábra: Analyze/Descriptive Statistics/Frequenties A lehulló ablakba az elemzés változóit kijelölve, a nyíl mentén át kell helyezni a Variables ablakba. 98

99 31. ábra Analyze/Descriptive Statistics/Frequenties variable(s) A lehulló ablakban kipipáljuk a kívánt statisztikai paramétereket, jelen esetben a beállítható mutatók: Százalékértékek: negyedek (A 5, 50 és 75 százalékértékek megjelenítése) pontok n egyenlő részre vágása (Kiírja a minta n egyenlő részre osztásához tartozó százalékértékeket.) százalék(ok) (A felhasználó által definiált százalékértékek szerint rendezi az egyes értékeket.) Eloszlás: Skewness (Ferdeség Egy eloszlás aszimmetriáját jellemző érték.) Kurtosis (Lapultság Egy központi érték köré csoportosuló tartományok kiterjedésére jellemző mérőszám.) Szórások: szórás variancia (szórásnégyzet) Intervallum (A maximum és a minimum értékek különbsége.) maximum minimum átlagtól való eltérés Jellemzők: átlag medián (Felezőpont ez alá, ill. fölé 50% eséllyel kerülhet a változó értéke) 99

100 módusz (Folytonos eloszlás esetén a helyi maximumok helyei, diszkrét eloszlásnál a legnagyobb valószínűségű helyek) összeg A szükséges paraméterek rádiógombjait kijelöljük, majd a Continue gombra kattintunk. 3. ábra: Analyze/Descriptive Statistics/Frequenties/Statistics A fenti művelet hatására visszatérő ablakban a Chart gombra kattintva megjelöljük, milyen grafikus ábrázolást szeretnénk létrehozni. 100

101 33. ábra: Analyze/Descriptive Statistics/Frequenties/Charts A diagram kiválasztása során lehetőségünk van elutasítani, illetve kiválasztani oszlopdiagramot, kördiagramot, hisztogramot a lehetőségek közül. A Format gombra kattintva az alábbi lehetőségeket állíthatjuk be: 34. ábra: Analyze/Descriptive Statistics/Frequenties/Format A Format gomb lenyomása után beállíthatjuk a változók növekvő vagy csökkenő sorrendjét a táblázatban. Descriptives menűben tapasztalthoz hasonlóan. Ügyeljünk arra, hogy a Display Frequency tables felirat melletti ablakot pipáljuk ki, mellyel biztosítjuk, hogy a változók mellett azok eloszlása is megjelenjen. Ezt követően az OK gomb lenyomásával az eredmény közlésére kerül az Output ablakban, mely átemelhető szövegszerkesztő programba is és formázható. 101

102 0. táblázat: Analyze/Descriptive Statistics/Frequenties output ablaka Frequency Percent Valid Percent Cumulative Percent Valid ,6 43, 43, ,0 31,1 74, ,6 1,0 86, ,7 3,8 90, ,5 9,8 100,0 Total ,3 100,0 Missing System 7 3,7 Total ,0 35. ábra: Analise/Descriptive Statistics/Frequenties/chart_histogram 10

103 Az eredményt összefoglaló táblázatok a fentiekben bemutatott értékeket számszerűsítve mutatják. A Frequency kívánság szerint a gyakoriság értékét számszerűsített és százalékos formában is biztosítja. Az utolsó adatoszlop a Cumulatív gyakoriságot %-ban tünteti fel.. A táblázat Word-be másolva formázható és magyar szöveggel átdolgozva tanulmányba illeszthető Az adatbázist módosító utasítások Adatok transzformálása A kutatások során gyakori eset, hogy egy változó értékeit új szempont szerint kell csoportosítani a további vizsgálatok eredményessége céljából. Erre az SPSS lehetőséget ad. 36. ábra: Transform/Recode into Different Variables A Transform/Recode into Different Variables használata lehetővé teszi, hogy az eredeti változót kódoljuk át, vagy új változót hozunk létre. 103

104 37. ábra: Transform/Recode into Different Variables Az átkódolni kívánt változót húzzuk át a Numeric Variable/Output Variable dobozba. Kiválasztva a változókat a jobboldali mezőben Output Variable doboz alatt megadjuk a változó új elnevezését, valamint az átkódolás logikai feltételei megadhatóak az if beállításával. Az Old and New Values gombra kattintva az alábbi felületet kapjuk: 37. ábra: Transform/Recodeinto Different Variables/Old and New Values Az OK gombra kattintva elvégzi a program a kijelölt műveletet. 104

105 Adatokkal művelet végzése A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI Az SPSS-ben lehetőség van a bevitt adatokkal műveletet végezni (összeg, különbség stb.). Az eredeti változók sértetlenségét a program biztosítja, az új adatsor megnevezhető. A művelet a Transform/Compute Variable menü alatt végezhető el. 38. ábra: Tansform/Compute Variable Az új változó nevét a bal felső sarokban lévő TargetVariable mezőbe kell beírni (39. ábra). Az alatta található a Type&Label ablak, mellyel az új változó tulajdonságai állítható be, megcímkézhető (label) és a változó típusa meghatározható (numeric, string stb. A kért változás a Numeric Expression ablakba írható be. A műveleteket a középen megjelenő klaviatura gombjaival kell elvégezni, szükség esetén további feltételek hozhatók létre az If gombbal. Az OK gomb lenyomásával a kívánt műveletet a program elvégzi. 105

106 Logikai műveletek, 39. ábra: Tansform/Compute Variable A fenti alapján a Compute Variable párbeszédpanel logikai művelet végzésére is alkalmas. A logikai műveleteket az alábbi táblázat foglalja össze: 106

107 40. ábra: Logikai műveletek Ez esetben nem alapműveleteket, csoportosítást végzünk, hanem az adatokat valamilyen logikai kritérium alapján megszűrjük. A műveletet a Transform/Compute Variable menüre kattintva, a párbeszédpanelen be kell írni az új változó nevét, majd az If gomb megnyomásával a logikai feltételnek alávetjük az adatsort és az OK gombot lenyomva a műveletet végrehajtjuk Összefoglalás Áttekintettük az SPSS felületén a leíró statisztika alapműveleteit a Descriptivest és a Frequenciest. A lecke második része az adatok új szempont szerint csoportosítását, matematikai és logikai műveletek elvégzésének lehetőségeit mutatja be. 9.4 ÖNELLENŐRZŐ KÉRDÉSEK 1. Jellemezze az SPSS program által végezhető logikai műveleteket. Ismertesse az adatok transzformálásának lehetőségeit. 3. Ismertesse a leíró statisztikai elemzések menetét az SPSS-sel, és értelmezze a kapott adatokat. 4. Ismertesse az SPSS által generálható leíró statisztikákat (Descriptives) és csoportosítsa azokat. 5. Milyen adatbázis módosító utasításokra van lehetőség az SPSS alkalmazásával és mutassa be azokat. 107

108 10. ÖSSZEFÜGGÉS VIZSGÁLAT SPSS-SEL. KORRELÁCIÓ, KORRELÁCIÓANALÍZIS 10.1 CÉLKITŰZÉS A kutatások során gyakran merül fel annak igénye, hogy többdimenziós minták közötti kapcsolat meglétének vizsgálatát végezzük. A korrelációszámításnál kétdimenziós minta változói közötti összefüggést vizsgáljuk. A korrelációanalízis esetében kettőnél több a dimenziók száma. 10. TARTALOM Korreláció Grafikus ábrázolás Korrelációanalízis 10.3 A TANANYAG KIFEJTÉSE Mielőtt a fejezet tanulmányozását elkezdi, ismételje át az 5. leckében tanultakat, mely a korreláció elméleti kérdéseit mutatja be. Az ismeretek felfrissítése könnyebbé teszi a fejezet feldolgozását. A változók skálájának függvényében az összefüggés vizsgálati módszereket az alábbi táblázat foglalja össze. Adatfajták Változók száma 1. táblázat Soros összefüggés vizsgálata a változók számának függvényében MATEMATIKAI STATISZTIKA Van-e szoros összefüggés? Intervallum Ordinális Nominális Kettő Korrelációszámítás Rangkorreláció χ²-próba Kettő vagy több Regresszióanalízis Több Parciális korreláció Faktoranalízis Klaszteranalízis Korreláció Ha két paraméteres változó közötti kapcsolatot vizsgálunk, a kapcsolat szorosságát mérőszámmal jellemezzük. Több ilyen mérőszám létezik, ezek közül a legelterjedtebb az ún. korrelációs együttható. Az együtthatót r-rel jelöljük, és a mérések közötti lineáris kapcsolat szorosságát méri. A korreláció mindig ugyanazon személy vagy csoport adatai közötti kapcsolatot vizsgálja. Azt vizsgálja, hogy van-e kapcsolat a két adatsor között, illetve hogy ez a kapcsolat mennyire szoros (erős) és milyen irányú (pozitív vagy negatív). 108

109 A korrelációs együttható (r) -1 és 1 között van, vagyis r 1. 1 xy Grafikusan ábrázolva a pontokat és nem fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r=0), vagy gyenge korreláció van közöttük ( r közel van 0-hoz.). Ha a pontok egy egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt mondjuk, hogy a két változó között szoros vagy magas korreláció van. Ha a pontok pontosan rajta vannak egy növekvő egyenesen, akkor r=1, ha pedig egy csökkenő egyenesen vannak pontosan rajta, akkor r=-1. Korreláció: a korreláció-számítás az egyes adatcsoportok eloszlása közötti összefüggést tárja fel, jele: r pozitív (r>0), ha az egyik változó magas értékeihez a másik változó magas értékei, illetve az egyik változó alacsony értékeihez a másik változó alacsony értékei tartoznak. (Pl. A jó matematika tesztet írók jó fizika tesztet, míg a gyenge matematika tesztet írók gyenge fizika tesztet írnak.) negatív (r<0), ha az egyik változó magas értékeihez a másik változó alacsony értékei, illetve az egyik változó alacsony értékeihez a másik változó magas értékei tartoznak. (Pl. A jó fizikatesztet írók gyenge nyelvtan tesztet, míg a gyenge fizika tesztet írók jó nyelvtan tesztet írnak.) a korreláció szignifikanciája a kapcsolat erősségére mutat (5.5 fejezet). Az eljárás menete Az adatok rögzítését követően az Analyze/Correlate/Bivariate menűsorra kattintva a lehulló ablakba jelöljük ki a Bivariate parancsot. 109

110 41. ábra: Analyze/ Correlate/Bivariate A baloldali listában találhatjuk az általunk bevitt változókat, melyek közül most két vagy több változó korrelációját szeretnénk vizsgálni. Ehhez egy kattintással ki kell jelöljük a vizsgálni kívánt változót, és a középen látható nyílra kattintva áthelyezi a Variables listába. Ugyanígy kell eljárnunk minden vizsgálandó változóval. Kipipáljuk a Pearson korrelációs együtthatót és rákkatintunk a Two-tailed-et rádiógombra. 110

111 4. ábra: Analyze/ Correlate/Bivariate/Variables 43. ábra: Analyze/ Correlate/Bivariate/Options 111

112 Az Options kijelölésével kiírathatjuk a változók átlagát és szórását is kiírattathatjuk. Majd az OK gomb lenyomásával kapjuk az Output ablakba az eredményeket. Leíró statisztika eredményei Mean Std. Deviation IMM alkalmazása 109,10 9,14 0 IMM és tanári konzultáció 98,40 5,14 0 hagyományos módszer 115,75 7, táblázat: Korreláció Output táblázatai N IMM alkalmazás a IMM és tanári konzultáci ó hagyomán yos módszer IMM alkalmazása Pearson Correlation 1,5 -,48 Sig. (-tailed),340,9 N IMM és tanári konzultáció hagyományos módszer Pearson Correlation,5 1 -,138 Sig. (-tailed),340,56 N Pearson Correlation -,48 -,138 1 Sig. (-tailed),9,56 N Az eredmények alapján megállapítható: IMM és IMM+tanári konzultáció között a korrelációs együttható = 0,5 p = 0,340. Az eredmények tükrében gyenge a kapcsolat és a populáció 66%-ban a véletlen műve az eredmény Hagyományos és az IMM alkalmazása között a korrelációs együttható = -0,48; p = 0,9. Az eredmények tükrében negatív a kapcsolat és a populáció 70,8%-ban a kapott eredmény a véletlen műve. Hagyományos és IMM+tanári konzultáció A korrelációs együttható: -0,138; p=0,56. Az eredmények tükrében negatív a kapcsolat és a populáció 43,8%-ban a kapott eredmény a véletlen műve. Az eredmény grafikus ábrázolásához a menüsorból válasszuk ki: Graphs /Scatter parancsot 11

113 44. ábra: Graphs /Scatter A lehulló ablakból válasszuk ki a Simple alparancsot: 45. ábra: Graphs /Scatter/Simple 113

114 46. ábra: Graphs /Scatter/Simple változók behúzása Az x és y axis mezőbe behúzzuk azt a két változót, amelyet a koordinátarendszer két tengelyén szeretnénk szerepeltetni. Ha pontok egyenes mentén helyezkedhetnek el, abban az esetben a meredekségtől függően pozitív/negatív kapcsolatot olvashatunk le. 114

115 10.3. Korreláció-analízis 47. ábra: Az adatok random jellege A korrelációanalízis több véletlen változó közötti kapcsolat jellemzésére szolgál. Feltételezzük, hogy mindkét valószínűségi változó (x és y) normális eloszlású, és a közöttük lévő lineáris összefüggés mértékét a korrelációs együttható mutatja, melyet r-rel jelölünk. Értéke -1 és +1 közé eshet, a határokat is beleértve. Ha r pozitív, akkor y együtt növekszik, vagy csökken x-szel. Negatív r esetében ellentétes irányú a változás. Amennyiben az r értéke 1, x és y között függvényszerű kapcsolat van, amelynél minden pont egy egyenesen helyezkedik el. A két változót, ill. ismérvet korrelálatlannak nevezzük, ha r=0. A korreláció szignifikanciájának meghatározása során a Variable ablakba behúzzuk változókat (kettőnél több) és a Correlation Coefficients és a Test of Significance beállítását követően az Output ablak táblázata a változók közötti kapcsolat erősségét is bemutatja. 115

116 3. táblázat: Korrelációanalízis összeredménye Correlations Fizetés Megtakarítás Iskolai végzettség Életkor Fizetés Pearson Correlation 1 -,,77 ** -,517 ** Sig. (-tailed),37,000,003 N Megtakarítás Pearson Correlation -, 1 -,016,690 ** Iskolai végzettség Sig. (-tailed),37,933,000 N Pearson Correlation,77 ** -, ,317 Sig. (-tailed),000,933,088 N Életkor Pearson Correlation -,517 **,690 ** -,317 1 Sig. (-tailed),003,000,088 N **. Correlation is significant at the 0.01 level (-tailed) ÖSSZEFOGLALÁS A fejezetben két és több minta változói közötti kapcsolatot vizsgáltuk korrelációval, a grafikus ábrázolás a két változó közötti összefüggést vizuálisan szemlélteti. Az ok-okozati összefüggésekre a korreláció/korrelációanalízis nem mutat rá, ennek elemzése további statisztikai megfontolást kíván. 116

117 11. HIPOTÉZIS-VIZSGÁLAT AZ SPSS-SEL. VARIANCIAANALÍZIS. KERESZTTÁBLA ELEMZÉS 11.1 CÉLKITŰZÉS A hipotézis a kutatás vezérfonalát adja, amelyben a kutatás eredményivel kapcsolatos sejtésünket fogalmazzuk meg. Feladatunk a sejtések igazolása/elvetése valamint, hogy a statisztikai mutatókkal hogyan támaszthatók, bizonyíthatók a feltevéseink. A fejezet célja, hogy a kijelölt műveletet tudatosan alkalmazva, a kapott eredményeket értelmezve az olvasó képes legyen következtetéseket levonni a kutatására. 11. TARTALOM Egymintás T- próba Kétmintás T-próba Varianciaanalízis Kereszttáblaelemzés 11.3 A TANANYAG KIFEJTÉSE A nullhipotézis elfogadás/elvetés vizsgálata a paraméteres függő és független változók önkontrollos mérése során az egymintás, a kontrollcsoportos kísérletek esetén a kétmintás T-próbát, alkalmazzuk, kis minta esetén (n<30). Többmintás esetben a variaanalízist. Abban az esetben, ha a függő és a független változó nem paraméteres, a kereszttábla elemzés ajánlott a változók közötti kapcsolat elemzésére (igazolás, elvetés) a nullhipotézis vizsgálatára. Ebben a fejezetben az SPSS célszoftverrel tanulmányozzuk a fent említettek megvalósítását Hipotézis-vizsgálat SPSS-sel Nullhipotézis (jele: Ho) A hipotézis statisztikai vizsgálata során megfogalmazzuk azt a kiindulási feltételezést, hogy a két minta által reprezentált alapsokaság paraméterei között nincs eltérés, azaz a vizsgált minták ugyanazt a populációt reprezentálják. Ha a próbamutató empirikus értéke a kritikus értéknél, akkor elvetjük a nullhipotézist. A két minta eredménye szignifikánsan különbözik egymástól. Ha a próbamutató empirikus értéke < a kritikus értéknél, akkor nincs elég indok a nullhipotézis elvetésére. A vizsgált esetek között nem mutatható ki eltérés, azonban ez nem jelenti, hogy a két módszer egyenértékű. Nagyobb minták esetén nem zárható ki, hogy szignifikáns eltérést fogunk tapasztalni a módszerek között. Alternatív hipotézis (H 1 ), mely a különbség meglét feltételezi, vagyis azt, hogy a populáció átlaga különbözik egy adott értéktől. Azt a valószínűséget, amely esetén H 0 -t elvetjük p-vel jelöljük és szignifikanciaszintnek nevezzük. Értékei p<0,05, p<0,01 és p<0,

118 A két minta szignifikanciája függ: a két minta számtani középértékének különbségétől, a minták szórásától, A minták elemeinek számától Egymintás T-próba A fenti minta SPSS szoftverrel történő kiszámítása gyors és megbízható. Tekintsük át röviden a lépéseket! A Fájl menüből az Open paranccsal kiválasztjuk az elemezésre kerülő adatsort, az első oszlop változója x, a másodiké y. Az egymintás T-próba az Analyze parancsból lenyíló Compare Means paranccsal aktiválható, melyben a Paired-Samples T-test parancsot választjuk az alábbi ábra alapján. 48. ábra: Analyze/Compare Means/Paired-Samples T-test Az ablakban megjelenő változók listáját kiválasztva az adatokat a nyíl segítségével a Paired Vales ablakba tesszük. A szignifikancia intervallum kiválasztása a az Option gombbal aktivizálható, mellyel a kívánt értéket beállítjuk, jelen esetben a 95%-ot. 118

119 49. ábra: Analyze/Compare Means/Paired-Samples T-test, szignifikanciaszint Kétmintás T-próba 50. ábra: Egymintás T-próba eredmény táblázata Két összefüggő minta összehasonlítására alkalmas, abban az esetben, ha a mintacsoport tagjain a vizsgált változót kétszer egymás követően alkalmazzák. 1. mérés: a kísérlet előtti állapot. mérés: a kísérlet utáni állapot Ha kísérlet eredményes, az érkezési és kiindulási eredmények különbsége nem lehet egyenlő nullával. A fenti minta SPSS szoftverrel a statisztikai történő kiszámítása gyors Tekintsük át a lépéseit! A Fájl menüből az Open paranccsal kiválasztjuk az elemezésre kerülő adatsort, az első oszlop változója x, a másodiké y. A kétmintás T-próba az Analyze parancsból lenyíló Compare Means paranccsal aktiválható, melyben a Paired-Saples T-test parancsot választjuk az alábbi ábra alapján. 119

Több megjelenítése