Alkalmazott statisztika Feladatok



Hasonló dokumentumok
Esetelemzések az SPSS használatával

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások

Esetelemzés az SPSS használatával

Correlation & Linear Regression in SPSS

Correlation & Linear Regression in SPSS

Alkalmazott statisztika

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

STATISZTIKA PRÓBAZH 2005

MARKETINGKUTATÁS II. Oktatási segédanyag. Budapest, február

Normál eloszlás. Gyakori statisztikák

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statistical Dependence

statisztikai menürendszere Dr. Vargha András 2007

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

Sztochasztikus kapcsolatok

Reiczigel Jenő,

Bevezetés a Korreláció &

Magyarországon személysérüléses közúti közlekedési balesetek okozóik és abból alkoholos állapotban lévők szerinti elemzése. Rezsabek Tamás GSZDI

4. sz. Füzet. A hibafa számszerű kiértékelése 2002.

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

KOVÁCS BÉLA, MATEMATIKA I.

Statisztikai programcsomagok

Elemzések a gazdasági és társadalompolitikai döntések előkészítéséhez július. Budapest, április

A statisztika alapjai - Bevezetés az SPSS-be -

Alkalmazott statisztika feladatok

A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI MA. T.P.Lenke

BÉRSZÁMFEJTÉS 1 S Z O F T V E R E N G E D É L Y E Z É S I S Z E R ZŐDÉS

Regresszió számítás az SPSSben

Oktatási mobilitás OKTATÁSSAL VALÓ ELÉGEDETTSÉG

AllBestBid. Felhasználói kézikönyv az AllBestBid online aukciós szolgáltatás használatához március DFL Systems Kft.

Statisztikai módszerek alkalmazása az orvostudományban. Szentesi Péter

Statisztikai szoftverek esszé

Ismétlődő műveletek elvégzésének automatizálása

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Poszeidon (EKEIDR) Irat és Dokumentumkezelő rendszer webes felület

Debreceni Egyetem Informatika Kar STATISZTIKAI PROBLÉMÁK MEGOLDÁSA SZÁMÍTÓGÉP SEGÍTSÉGÉVEL

2. Halmazelmélet (megoldások)

Dr. Pétery Kristóf: CorelDRAW 9 testre szabás

AZ ÁLTALÁNOS ISKOLÁSOK IDEGENNYELV-TANULÁSI ATTITŰDJEI ÉS MOTIVÁCIÓJA

HITELESÍTÉSI ELŐÍRÁS HIDEGVÍZMÉRŐK ÁLTALÁNOS ELŐÍRÁSOK

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Háztartás Monitor. A kutatás dokumentációja

A 2011/2012. tanévi FIZIKA Országos Középiskolai Tanulmányi Verseny első fordulójának feladatai és megoldásai fizikából. I.

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

Standardizálás, transzformációk

A NŐK GAZDASÁGI AKTIVITÁSA ÉS FOGLALKOZTATOTTSÁGA*

Biztosítási ügynökök teljesítményének modellezése

Szimplex módszer, szimplex tábla Példaként tekintsük a következ LP feladatot:

Elméleti összefoglalók dr. Kovács Péter

4. A GYÁRTÁS ÉS GYÁRTÓRENDSZER TERVEZÉSÉNEK ÁLTALÁNOS MODELLJE (Dudás Illés)

Dunaújváros kulturális intézményrendszerének vizsgálata térszemléletben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM ÁRAMLÁSTAN TANSZÉK TOMPA TESTEK ELLENÁLLÁSTÉNYEZŐJÉNEK VIZSGÁLATA MÉRÉSI SEGÉDLET. 2013/14. 1.

Magyarajkú, nem-magyar állampolgárságú tanulók nevelésének, oktatásának helyzete a magyar közoktatásban. Készítette: Kováts András és Medjesi Anna

Bánhalmi Árpád * Bakos Viktor ** MIÉRT BUKNAK MEG STATISZTIKÁBÓL A JÓ MATEKOSOK?

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Regressziószámítás alkalmazása kistérségi adatokon

KOVÁCS BÉLA, MATEMATIKA I.

Iskolai veszélyeztetettség és pályaszocializáció*

KVANTITATÍV MÓDSZEREK

A 27/2012 (VIII. 27.) NGM rendelet (12/2013 (III.28.) NGM rendelet által módosítva) szakmai és vizsgakövetelménye alapján.

MIKROÖKONÓMIA I. Készítette: K hegyi Gergely és Horn Dániel. Szakmai felel s: K hegyi Gergely június

FELHASZNÁLÓI LEÍRÁS a DIMSQL Integrált Számviteli Rendszer Készlet moduljának használatához

Matematikai statisztikai elemzések 1.

MINİSÉGSZABÁLYOZÁS. Dr. Drégelyi-Kiss Ágota

II. év. Adatbázisok és számítógépek programozása

Kétszemélyes négyes sor játék

1. melléklet A ciklodextrin hatásának jellemzése mikroorganizmusok szaporodására Murányi Attila

FEJÉR MEGYE ÉVI MUNKAERŐ-PIACI PROGNÓZISA

Aronic Főkönyv kettős könyvviteli programrendszer

DOKTORI (PhD) ÉRTEKEZÉS TÉZISEI KAPOSVÁRI EGYETEM

MAGYARORSZÁG DEMOGRÁFIAI HELYZETE EURÓPÁBAN

Descriptive Statistics

GroupWise 5.2 használói jegyzet

Véletlenszám-generátorok

Analízisfeladat-gyűjtemény IV.

Pongrácz Tiborné S. Molnár Edit: A gyermekvállalási magatartás alakulása

KIRÁLY GÁBOR LUKSANDER ALEXANDRA PAKSI VERONIKA FIATALOK MUNKANÉLKÜLISÉGI KOCKÁZATA MAGYARORSZÁGON ÉS EURÓPAI ÖSSZEHA-

3. gyakorlat. 1/7. oldal file: T:\Gyak-ArchiCAD19\EpInf3_gyak_19_doc\Gyak3_Ar.doc Utolsó módosítás: :57:26

Méréssel kapcsolt 3. számpélda

8. előadás EGYÉNI KERESLET

FS-1116MFP Faxkészülék használati útmutatója

Kézm ves élelmiszerek vásárlásának fogyasztói magatartásvizsgálata a n k körében

Kísérletek Készítette: Kiss Anett

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

ORSZÁGOS ELSŐSEGÉLY-ISMERETI VERSENY osztály iskolaiversenyek.hu BEKÜLDÉSI HATÁRIDŐ MÁRCIUS 7. 23:59

Lineáris programozás. Modellalkotás Grafikus megoldás Feladattípusok Szimplex módszer

EDUCATIO 1997/1 INNOVÁCIÓ ÉS HÁTRÁNYOS HELYZET

Diszkriminancia-analízis

Miskolci Egyetem GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR. Analízis I. példatár. (kidolgozott megoldásokkal) elektronikus feladatgyűjtemény

Társadalmi szükségletek szociális védelmi rendszerek

A határmenti vállalkozások humáner forrás ellátottsága és -gazdálkodása

KETTŐS KÖNYVELÉS PROGRAM CIVIL SZERVEZETEK RÉSZÉRE

b) Adjunk meg 1-1 olyan ellenálláspárt, amely párhuzamos ill. soros kapcsolásnál minden szempontból helyettesíti az eredeti kapcsolást!

Munkaerő-piaci diszkrimináció

Szakképzés Foglalkoztatás Gyakorlati képzés Pályakezdők Munkaerő-piaci kereslet-kínálat. Tanulmány

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

A munkanélküli-járadékot kimerítők

OBJEKTUMORIENTÁLT TERVEZÉS ESETTANULMÁNYOK. 2.1 A feladat

Átírás:

Alkalmazott statisztika Feladatok A feladatokhoz használt adatokat megtaláljátok itt: www.math.u-szeged.hu/ szakacs/oktatas/alkstat.html 1. óra (szept. 9.) Az óra anyaga: Követelmények ismertetése, az SPSS rövid bemutatása. Grakonok az SPSS-ben: oszlopdiagram, hisztogram. (1) Nyissuk meg a cars.sav fájlt! A.sav az SPSS saját formátuma, File > Open... menüpontból minden további nélkül megnyitható. Nézzük meg a Variable View fülön a Label mez ben, hogy a rövidített változónevek mit jelentenek. (2) Ábrázoljuk oszlopdiagramon, hogy hány modell származik az egyes országokból! Graphs > Legacy Dialogs > Bar..., felugró ablakban: Summeries for groups of cases, majd Bars Represent: N of cases, Category Axis: Country. (3) Ábrázoljuk oszlopdiagramon az egyes országokból számrazó modellek átlagos végsebességét! Graphs > Legacy Dialogs > Bar..., felugró ablakban: Summeries for groups of cases, majd Bars Represent: Other statistics, itt Variable: Top Speed, Category Axis: Country. (4) Ábrázoljuk a végsebesség és a fogyasztás hisztogramjait! Graphs > Legacy Dialogs > Histogram..., felugró ablakban: Variable: Top speed vagy Average miles per gallon. A hisztogram jelentése: becsült s r ségfüggvény, azaz az adatok így "oszlanak el" a számegyenesen. 2. óra (szept. 15.) Az óra anyaga: Még egy típusú grakon: boxplot; txt importálása SPSS-be, változótípusok, új változók deniálása, véletlenszám-generálás. (1) A cars.sav fájlban ábrázoljuk a végsebesség változó boxplotját országonként! Keressük meg az adatbázisban a kiugró értékeket! Graphs > Legacy dialogs > Boxplot..., felugró ablakban: Summeries for groups of cases, majd Variable: Top speed, Category Axis: Country. A boxplot gy olan grakontípus, amely a változó minél több jellemz jét igyekszik ábrázolni. A három vastag vonal: alsó kvartilis, medián, fels kvartilis, leolvasható még a maximum és a minimum, illetve az ezeken kívül es értékek. (2) Nyissuk meg az emberek.txt fájlt! Ha a File > Open-nél kiválasztjuk a txt-t, megnyílik egy varázsló, ami végignavigál minket a fájl importálásához szükséges lépéseken. F bb dolgok, amiket be kell a varázslóban állítani: Variable names included at the top of le > Yes; Which delimiters appear between variables > Tab, általában végig kell próbálgatni. (3) Állítsuk be, hogy a "nem" változóban a számok helyett az általuk kódolt értékek (1=fér, 2=n ) jelenjenek meg! Állítsuk be a változók típusait! A Variable view fülön a "nem" sorban kattintsunk a Values mez n, és a felugró ablakban adjuk meg a következ ket: Value: 1, Label: fer, majd Add, ez után Value: 2, Label: no, ismét Add, és OK. A Data view fülön kapcsoljuk be a címkék láthatóságát a címkét ábrázoló gombbal. A változók típusait a Variable view fülön állíthatjuk át, a Measure oszlopban. A "nem" típusa legyen Nominal, az összes többi Scale. (4) Hozzunk létre egy új változót BMI néven, amely az egyes emberek testömegindexét tartalmazza: súly ( magasság kg 2 m ). A BMI változó segítségével deniáljunk egy sulykat változót, amely 3 értéket vesz 2 fel attól függ en, hogy a BMI 20 alá, 25 fölé, vagy a kett közé esik. A sulykat változó címkéinek állítsuk be rendre: "sovány", "átlagos" és "túlsúlyos". Transform > Compute Variable..., Target variable: BMI, Numeric Expression: suly/(magassag/100) ** 2, majd Transform > Recode into Dierent Variable..., itt az Input Variable a BMI, az Output Variable legyen sulykat, az Old and New Values... gombbal felhozható ablakban állítsuk be a Range segítségével, hogy milyen intervallumokhoz milyen új értékek rendel djenek. A Variable view-n állítsuk be a címkéket, és állítsuk át a változótípust Ordinal-ra. 1

2 (5) Generáljunk egyenletes és standard normális elszolású véletelen változókat! Transform > Compute Variable..., Function Group: Random Numbers, itt az egyenletes: Rv.Uniform, a normális: Rv.Normal, a paramétereiket is meg kell adni. (6) Ábrázoljuk az el bb generált véletlen változók hisztogramjait! Értelmezzük a mellettük lév mutatókat! Elegend en nagy minta esetén a hisztogram visszaadja a megfelel s r ségfüggvényeket (egyenletes és normális). A Mean és a Std Deviation a változók várható értékét ill. szórását becsüli, ez már kb. 100 generált érték esetén is elég közel van ahhoz, amit elvileg generáltunk. az els két óra anyagához Nyissuk meg a gwaimasi.sav állományt! Ez arra vonatkozó adatokat tartalmaz, hogy az Új-Guinea szigetén található Gwaimasi falu férai mennyi vaddisznót, kazuárt, halat és egyéb élelmet gy jtöttek egy év alatt. Nézzük meg a Variable View lapon az egyes változók jelentését. (1) Ábrázoljuk egy boxplot diagramon, hogy melyik élelemb l mennyit gy jtöttek! Keressük meg az adatok között a kiugró értkeket! (2) Kódoljuk a családi állapotot. Hozzunk létre egy változót, mely 1-et vesz fel értékül, ha az egyén gyerek, 2-t, ha atal, 3-at, ha v legény, 4-et, ha házas, végül 5-öt, ha özvegy. A Variable View lapon állítsuk be az értékek címkéit (Values). A Data View lapon kapcsoljuk be, illetve ki a címkéket. (3) Hozzunk létre egy új változót, amely azt tartalmazza, hogy az egyes férak mennyi élelemet gy jtöttek összesen! Ábrázoljuk ennek a változónak a hisztogramját! (4) Hozzunk létre egy változót, mely 0-t vesz fel értékül, ha a fér 16 év alatti, 1-et, ha az életkor 16 és 30 év közé esik, vegül, 2-t, ha a fér ennél id sebb. Ábrázoljuk oszlopdiagramon, hogy az egyes korcsoportok átlagosan mennyi élelmet gy jtöttek! (Az el z feladatban létrehozott változó segítségével.) Nyissuk meg a popularkids.txt fájlt! Ez egy amerikai felmérés eredményét tartalmazza, amelyben azt vizsgálták, hogy a 10 év körüli gyerekeknek mik a céljaik, illetve mi teszi ket népszer vé. A fájl elején található a változók és a felmérés részletes ismertetése, ezt importálás el tt fussuk át, majd töröljük ki. (1) Állítsuk be az egyes változók típusait a Variable View fülön! Több változó string érték, ami az SPSS-nek néha gondot okoz. A Gender és Goals változókban a Recode into same variables... segítéségvel cseréljük le a szöveget számokra, majd a Variable View fülön állítsuk be az eredeti szöveget a megfelel számok címkéjeként. A változók típusát (Type) állítsuk át numerikusra. (2) Ábrázoljuk egy boxplot diagramon a Grades, Sports, Looks és Money változókat! Értelmezzük a diagramot! Ránézésre melyik tényez t tarthatják a gyerekek népszer ség szempontjából a legfontosabbnak? (A változó által felvett érték azt jelöli, hányadik fontossági sorrendben.) (3) Hozzunk létre egy új változót Legfontosabb néven, amely azt tartalmazza, hogy a Grades, Sports, Looks és Money tényez k közül az egyes gyerekek melyiket tartották legfontosabbnak népszer ség szempontjából. (Segítség: A Compute Variable ablakban az If... gomb segítségével sz rhetjük, hogy pl. csak abban az esetben írjuk felül a változót, ha Grades=1.) Az új változó legyen számérték, a címkéknél állítsuk be, melyik szám mit kódol, illetve állítsuk be a változó típusát (Measure). (4) Ábrázoljuk oszlopdiagramon (a Legfontosabb változó segítségével), hogy melyik tényez t hány gyerek tartotta legfontosabbnak! Ábrázoljuk ugyanezt külön a úkra és a lányokra! (5) Ábrázoljuk oszlopdiagramon, hogy különböz célokat (Goals) megjelöl gyerekek közül hányan milyen tényez t jelöltek legfontosabbnak! (Segítség: Bar > Clustered, itt Category Axis: Legfontosabb, Dene Clusters by: Goals.) Értelmezzük a diagramot! 3. óra (szept. 22.) Az óra anyaga: Elméleti háttér: várható érték, szórás becslése; statisztikai próbák, hibák, szignikancia, kondencia-intervallum. Alapstatisztikák SPSS-ben: mintaátlag, medián, módusz, empirikus szórás és varianca, egymintás T-próba.

(1) Nyissuk meg a brain.sav fájlt! Adjuk meg a különböz intelligenciák alapstatisztikáit: átlag, empirikus szórás, minimum, maximum, módusz, medián, kvartilisek. Analyze > Descriptive Statistics > Frequencies, itt a Statistics gomb által felhozott ablakban válasszuk ki a kívánt statszitikákat, Variable-nek adjuk meg az FSIQ, VIQ és PIQ változókat. A módusz, medián és kvartilisek kivételével az Analyze > Descriptive Statistics > Descriptives menüpontból is kiírathatók a statisztikák hasonló módon. (2) Adjuk meg ugyanezeket a mennyiségeket külön a férak és n k esetén! Hasonlítsuk össze a kapott eredményeket! A Data > Select cases menüpont segítségével sz rjük le az eseteket egyszer az egyik, majd a másik nemre (a felugró ablakban az If... gombbal lehet beállítani a sz rés feltételét, pl. Gender="Male"), és a sz rt adatokról kérjük le a kívánt statsztikákat úgy, ahogy az el bb. (3) Adjunk 95%-os kondencia-intervallumot az intelligenciák várható értékeire! Teszteljünk le t-próbával egy olyan értéket, amely mindhárom IQ szint esetében hihet nek t nik! A kondencia-intervallumhoz az Analyze > Compare Means > One-sample T-test ablakban teszteljük a 0 értéket az FSIQ, VIQ és PIQ változókra, az Options-nél adjunk meg 95%-ot. A kondenciaintervallumok (és a mintaátlagok) alapján látszik, hogy egy 115 körüli érték bármely IQ szint esetén hihet várható érték. Teszteljük ezt le ugyanitt. (1) A brain.sav fájlban adjunk becslést a testmagasság és a testsúly várható értékére és szórására! Adjunk becslést a szórásokra külön a férak és n k esetén! Melyik változó szórása melyik esetben nagyobb? (2) Adjuk meg a három IQ változó kvartiliseit, minmumát és maximumát! Ábrázoljuk a három változó boxplotját, és azonosítsuk be a kapott értékeket! (3) Adjunk 99%-os, 95%-os és 90%-os kondencia-intervallumokat a testmagasság várható értékére! Melyik intervallum a legsz kebb? Miért? (4) Teszteljük 10%-os szignikancia szinten, hogy az FSIQ és a PIQ változók várható értéke 112. Hihet e ez alapján, hogy a két változó várható értéke egyenl? Teszteljük le 10%-os szignikancia szinten, hogy a változók különbségének várható értéke 0. (Segítség: új változó létrehozásával.) Ez alaján mit mondhatunk az el z kérdésr l? 4. óra (szept. 29.) Az óra anyaga: egymintás t-próba, kétmintás t-próba, páros t-próba, F-próba Nyissuk meg a vernyomas.txt fájlt! Két új vérnyomáscsökkent készítményt teszteltek egy 45 f s betegcsoporton. 15 páciens az I., másik 15 páciens a II. gyógyszert szedte egy hónapon át. A maradék 15 f volt a kontrollcsoport, k a "hagyományos" vérnyomáscsökkent t szedték továbbra is. A SYS1 változó tartalmazza a kísérlet el tti, a SYS2 pedig a kísérlet után mért vérnyomásokat. (1) Teszteljük 5%-os szignikancia szinten azt a nullhipotézist, hogy a vizsgálat elején a betegek átlagos systoles vérnyomása 140 Hgmm volt. Adjunk 95% megbízhatóságú kondencia intervallumot a kezdeti vérnyomás várható értékére. Milyen átlagos vérnyomás t nik hihet bbnek? Egymintás t-próbával teszteljük a várható értéket: Analyze > Compare Means > One-sample T test..., Test value=140, Test variable: SYS1. A kapott szignikancia 0, 00, ami kisebb, mint 0, 05, így a nullhipotézist elvetjük, azaz nem 140 Hgmm a betegek várható vérnyomása. A kondenciaintervallumhoz teszteljük a 0 értéket. Ez alapján azt látjuk, hogy a 160 Hgmm pl. elfogadható 5%-os szignikancia szinten, hiszen beleesik a 95%-os kondencia-intervallumba. (2) Teszteljük le 5%-os szignikancia szinten, hogy változott-e a kezelés utánra kontroll csoport átlagos vérnyomása! Sz rjük az eseteket csak a kontrollcsoportra: Data > Select Cases..., a feltétel: CSOP=2. A SYS1 és SYS2 változók várható értékét szeretnénk összehasonlítani, ezek nem függetlenek, így páros t-próbát végzünk: Analyze > Comapre Means > Paired-sample T test..., itt megadjuk a SYS1 és SYS2 változókat. A szignikancia alapján nullhipotézist elfogadhatjuk (hiszen > 0, 05). 3

4 (3) Állíthatjuk-e 5%-os szignikancia szinten, hogy a II. gyógyszer csökkentette a betegek átlagos vérnyomását? Sz rjük le az eseteket a CSOP=1 feltétellel. Ismét páros t-próbát végzünk, kérjünk 95%-os konfdencia-intervallumot is (Options). A szignikancia ezúttal azt mondja, hogy a nullhipotézist (várható értékek egyenl sége) nem fogadhatjuk el, de mi arra vagyunk kíváncsiak, hogy a változók különbségének várható értéke pozitív-e. Látható, hogy a kondencia-intervallum a pozitív félegyenesen van, így a várható értékek különbségének is csak pozitív érteket fogadhatunk el 5%-os szignikancia szinten. Így a kérdésre a válasz: állíthatjuk. (4) Teszteljük le, hogy a az I. és a II. betegcsoportokban a vérnyomás várható értéke a kezelés el tt megegyezett! Kapcsoljuk ki a sz rést! Kétmintás t-próbát végzünk: Analyze > Compare Means > Independent- Samples T test, Grouping Variable: CSOP, a Dene groups-ban megadható a két csoport, amit összehasonlítunk: 0 és 1. Test variable: SYS1. A kapott táblázat második oszlopában található a szórások egyenl ségét elln rz F-próba eredménye. Ennek a szignikanciája 0, 501 > 0, 05, így b ven elfogadhatjuk. A táblázat másopdik felének éppen ezért az els sorát vesszük gyelembe. Itt a szignikancia 0, 679 > 0, 05, így a t-próba nullhipotézisét is elfogadjuk, azaz a két csoporban a várható érték megegyezik. (1) Nyissuk meg a már korábban használt brain.sav fájlt! Teszteljük azt a nullhipotézist, hogy a verbális intelligencia (VIQ) és performációs intelligencia (PIQ) várhatóan nem tér el egymástól! Teszteljük a két változó különbségének várható értékének 0 voltát egymintás t-próbával is és ellen rizzük, hogy a két eljárás ugyanazt az eredményt adja! (2) Teszteljük azt a nullhipotézist, hogy a férak és n k intelligenciájának (FSIQ) várható értéke megegyezik. Teszteljük azt a nullhipotézist is, hogy a férak esetén ez a várható érték 5-tel magasabb! Magyarázzuk meg a kapott eredményeket! (3) Adjunk 90%-os kondencia-intervallumot a n k és a férak súlyának várható különbségére! Milyen szignikancia szinten állíthatjuk, hogy a férak várhatóan 20 fonttal nehezebbek? (4) Nyissuk meg a korábban használt gwaimasi.sav állományt! Elfogadjuk-e 10%-os szignikancia szinten, hogy a 20 év alattiak és a 20 év felettiek várhatóan ugyanannyi disznót fogtak? Mi lenne a helyzet, ha a szórások egyenl ségére vonatkozó vizsgálattól eltekintenénk? 5. óra (okt. 6.) Az óra anyaga: ANOVA és a hozzá kapcsolódó vizsgálatok; Welch-próba, Tukey. (1) Nyissuk meg a korábban használt vernyomas.sav fájlt! Korábban kétmintás t-próbákkal ellen riztük, hogy a SYS1 változó a különböz csoportokban ugyanolyan várható érték. Teszteljük ugyanezt most egyetlen próbával! Analyze > Compare Means > One-way ANOVA..., Dependent list: SYS1, Factor: CSOP. Az Options...-ben tesztelük a szórások egyenl ségét (Homogenity of variance-test), és kérjünk Welch-próbát is. (Ha a szórások egyenl ségét elvetnénk, az ANOVA eredménye helyett a Welch-próba eredményét vennénk gyelembe.) Az els táblázat alapján a szórások egyenl ségét elfogadhatjuk, és az ANOVA eredménye alapján a különböz csoportokban a vérnyomások várható értékének egyenl ségét is. (2) Teszteljük a vérnyomások várható egyenl ségét csoportonként a SYS2 változóra! Mely csoportok vérnyomásai tekinthet k egyenl knek? Analyze > Compare Means > One-way ANOVA..., Dependent list: SYS2, Factor: CSOP. Az Options...-ben megint (ANOVA-nál mindig!) teszteljük a szórások egyenl ségét és kérjünk Welchpróbát. A második kérdésre Post hoc vizsgálat segítségével tudunk válaszolni: pipáljuk ki a Tukey-t. Ez kétmintás t-próbát végez minden csoport-páron, és ez alapján skatulyákba osztja az egyformának tekinthet csoportokat. Az eredményb l látjuk, hogy a három csoport várható értéke nem egyenl (az ANOVA nullhipotézisét elvetjük), és a Tukey által hozott Homogenous Subsets táblázatból kiderül, hogy csak a 2-es (kontroll) csoport tér el a többiekt l. (Ez egyébként a kétmintás t-próbák szignikanciáiból is látszik.)

(3) Nyissuk meg a kolcson.sav fájlt! Független-e az, hogy valaki várhatóan hány éve dolgozik a munkahelyén, attól, hogy milyen típusú fedezetre vett fel kölcsönt? Analyze > Compare Means > One-way ANOVA..., Dependent list: munkavisz, Factor: fedezet. Ez a feladat példa a szórások ellen rzésének fontosságára: itt, ha csak ANOVA-t végeznénk, a nullhipotézist elfogadnánk. Viszont a szórások egyenl sége nem teljesül, így az ANOVA nem vehet gelembe, az általánosabb Welch-próba szerint pedig a várható értekek egyenl sége nem fogadható el. Így a helyes válasz: nem. (1) A kolcson.sav fájlban vizsgáljuk meg, hogy a problémamentes, problémás ill. zetésképtelen ügyfelek jövedelmeinek várható értéke egyenl -e! (2) Teszteljük, hogy a különböz családi állapotúak életkorának várható értéke egyenl -e! Mely családi állapotok között tekinthet annak? (3) Teszteljük ANOVA-val és t-rpbóával is, hogy az adostip változó által meghatározott két csoportban (korábban volt-e ügyfele a banknak a illet, vagy nem) megegyezik-e a várható munkaviszony! Ha nem, melyik csoportban nagyobb? (4) Van-e olyan skálaváltozó, amely ismeretében a bank el re tudná becsülni, hogy problémás lesz-e az ügyfél törlesztése? Van-e ilyen nominális változó? 6. óra (okt. 13.) Az óra anyaga: változók függetlensége, Pearson-korreáláció; regresszióanalízis: lineáris regresszió, többváltozós lineáris rereszió, nemlineáris regresszió (1) Nyissuk meg a cars.sav állományt, és elemezzük, hogy mely változók között milyen irtányú és mennyire szignikáns a korreláció! Analyze > Correlate > Bivariate..., minden skálaváltozót válasszunk ki és pipáljuk ki a Pearson-t. Az eredményül kapott táblázat tartalmazza a változók közötti Pearson-féle korrelációs együtthatókat: ha ez pozitív, a változók megegyez en, ha negatív, ellentétesen függnek egymástól, a nulla körüli értékek esetén tekinthet k a változók függetlennek. A korreálciós együttható alatt található szigni- kancia mutatja meg, elég közel van-e a korreláció a nullához ahhoz, hogy függetlennek tekinthet k legyenek a változók. (A nullhipotézis, amelyhez a szignikancia tartozik, a változók függetlensége.) (2) Végezzünk lineáris regressziót, és írjuk fel a végsebeséget, mint a teljesítmény (lóer ) függvényét! Mi az egyenes egyenlete? Várhatóan mennyi egy 130 lóer s autó végsebessége? Ábrázoljuk a regressziós egyenest! Analyze > Regression > Linear..., itt megadjuk a változókat: Dependent: top speed, Independent: horsepower. Az y = ax + b alakban keresett egyenlet együtthatóit a Coecients táblázat Unstandardized coecients/b oszlopából olvashatjuk le: a b érték a constant, az a érték a váltózó (horsepower) nevér l elnevezett sorban található. A 130 lóer höz tartozó várható végsebességhez írjunk be egy üres sorba a lóer oszlopbába 130- at, ismételjük meg az el bb elvégzett regresszióanalízist, csak most kérjük a Save... gombbal, hogy mentse el új változóként a becsült értékeket (Predicted Values/Unstandardized). Az új változó megfelel sorában található a 130-hoz tartoóz érték. Ábra: Graphs > Legacy Dialogs > Scatter/Dot, itt Simple Scatter, Y axis: top speed, X axis: horsepower. A kapott grakonon kattintsunk duplán, és az így megnyíló ablakban ábrázolhatjuk a regressziós egyenest (az egyik kis gombbal a grakon fölött). (3) Írjuk fel a végsebességet a járm súlyának, teljesítményének és henger rtartalmának lineáris függvényeként! Ezek közül melyik hatása elhanyagolható? Analyze > Regression > Linear..., itt, ahogy az el bb, megadjuk a változókat: Dependent: top speed, Independents: horsepower, cubic feet of cab space, vehicle weight. Az egyváltozós esethez hasonló ablakot kapnuk, csak épp több vátloozóval, az együtthatók ugyanúgy olvashatók le, ahogy az egyváltozós esetben. Az együtthatók sorában a Sig. oszlop tartalmazza az arra a nullhipotézisre vonatkozó szignikanciát, hogy elhanyagolható-e az egyenletben az adott változó. A szignikanciák alapján látszik, hogy egyedül a henger rtartalom (cubic feet of cab space) hatása elhanagyolható. (Itt nagy a szignikancia, tehát elfogadjuk a fenti nullhipotézist.) 5

6 (4) Reciprokos kapcsolat sejthet a teljesítmény és a fogyasztás között. Fejezzük ki a teljesítményt a fogyasztás reciprokos függvényeként! Analyze > Regression > Curve Estimation..., Dependent: horsepower, Variable: average miles per gallon. A függvény típusánál az Inverse-t pipláljuk ki (ez y = a x + b alakú függvényt ír fel). A kapott egyenletet az utolsó táblázat Parameter oszlopából sorából tudjuk meg, a constant adja meg a b értékét, a b1 pedig az 1 együtthatóját. x (1) Nyissuk meg a brain.sav fájlt! A kísérlet, amelynek az eredményeit az adatok tartalmazzák, az agy mérete és az IQ szint közötti kapcsolatot vizsgálta. Kérdezzük le az IQ szintek és a MRIcount (agyméret) változók korrelációs együtthatóit! Jogos-e ez alapján a kapcsolat feltételezése? (2) Írjuk fel az agy méretét, mint az FSIQ lineáris függvénye! Mi az egyenes egyenlete? Ábrázoljuk is az adatokat és a regressziós egyenest! (3) Vizsgáljuk az agy mérete, a testmagasság és a testsúly kapcsolatát! Mik a korrelációs együtthatók? Hasonlítsuk össze az (1)-es feladatban kapottakkal, és vizsgáljuk felül az akkor levont következtetést! (4) Írjuk fel az agy méretét a következ változók lineáris függvényeként: testsúly, testmagasság, FSIQ, PIQ. Mely változók hatása tekinthet jelent snek 5%-os szignikancia szinten? Végezzünk újra lineáris regressziót, most csak a fontosnak ítélt paramétereket használva! Mi az így kapott egyenlet? (5) A testsúly és a testmagasság között kvadratikus összefüggés sejthet : a testsúly a testmagasság négyzetével arányos. Írjuk fel a testsúlyt, mint a testmagasság másodfokú függvénye! Várhatóan hány font egy 70 hüvelyk magas ember? Jogos-e a négyzetes összefüggés feltételezése, vagy elegend lenne a lineáris közelítés? (Ehhez pipáljuk ki a display ANOVA table opciót!) 7. óra (okt. 20.) 1. ZH. 8. óra (okt. 27.) Az óra anyaga: eloszlásvizsgálatok. Adott változó adott eloszlású-e: nevezetes eloszlás Kolmogorov-Szmirnovval, tetsz leges diszkrét eloszlás χ 2 -próbával. Két változó azonos eloszlású-e: függetlenek Kolmogorov-Szmirnovpróbával, nem függetlenek Wilcoxonnal. (1) Nyissuk meg a pontokpub.sav fájlt. Ez a múlt órán írt ZH-k eredményeit tartalmazza. Kérjük le az összpontszámnak és az egyes feladatok pontszámainak hisztorgraimjait! Melyikr l hihet, hogy normális eloszlású? Teszteljük le! Normalitás tesztelése: Analyze > Nonparametric Tests > Legacy Dialogs > 1-sample K-S... (Régebbi verziókban nincs Legacy dialogs.) Itt a Test Variable List-hez tegyük be azokat a változókat, amelyek normalitását tesztelni szeretnénk, pl. az Összpontszámot, a Test Distribution-ben pipáljuk ki a Normal-t. A nullhipotézis, hogy a tesztelt változó normális eloszlású, erre vonatkozik a táblázat alsó sorában látható szignikancia. Az összpontszám esetén pl. a nullhipotézist elfogadjuk. (Tesztelhet még itt egyenletes, exponenciális és Poisson-eloszlás.) (2) Mennyire teljesített egyformán a ZH-n a két csoport? Teszteljük, hogy az összpontszám eloszlása a két csoportban megegyezik! Független változók esetén kétmintás Kolmogorov-Szmirnov-próbálval tesztlehetjük azt a nullhipotézist, hogy a változók azonos eloszlásúak: Analyze > Nonparametric Tests > Legacy Dialogs > 2 Independent Samples, itt a Test Variable List-hez tegyük be az Összpontszámot, a Grouping Variable a csoport, Group 1=1, Group 2=2. A Kolmogorov-Smirnov Z próbát pipáljuk ki. A kapott táblázat alsó sora tartalmazza a szignikanciát, amely alapján a nullhipotézist elfogadjuk.

(3) Kérjük le az 1. és a 2. feladat boxplotját! Teszteljük azt a nullhipotézist, hogy a két változó azonos eloszlású! Tegyük meg ugyanezt a 2. és a 3. feladatra is! Nem független változók esetén ezt a nullhipotézist nem tudjuk vizsgálni, helyette Wilcoxon-próbát szoktunk végezni (de ez nem tananyag). Ennek a nullhipotézise a következ : P (ξ < η) = P (η < ξ), ahol ξ és η folytonos eloszlású változók. Ennek tesztelése: Analyze > Nonparametric Tests > Legacy Dialogs > 2 Related Samples, a Test Pairs-ben meg kell adni azon változópárokat, amiket tesztelni szeretnénk, pl. 1. feladat és 2. feladat, pipáljuk ki a Wilcoxon-próbát. A szignikancia a Test Statistics táblázatban található. Az 1. és a 2. feladat esetén a nullhipotézist elvetjük, a 2. és 3. feladat esetében elfogadjuk. (4) Nyissuk meg a kocka.txt fájlt! Ez egy dobókocka 1000 feldobása során kapott eredményeket tartalmazza. Teszteljük, hogy a dobókocka szabályos! El ször tudatni kell az SPSS-szel, hogy mindegyik értek annyiszor fordult el a feldobások során, ahányszor azt a gyakorisag írja: Data > Weight Cases..., állítsuk be, hogy Weight Cases by: gyakorisag. Ezek után χ 2 -próbával teszteljük azt a nullhipotézist, hogy a dobas változóban minden érték 1/6 valószín séggel vev dött fel. Analyze > Nonparametric Tests > Legacy Dialogs > Chi-square..., itt a Test variable a dobas, és az Expected Values-nál az "All categories equal"-t válasszuk ki. A Test Statistics ablakban kapjuk meg a szignikanciát, ami alapján a nullhipotézist elfogadjuk. (1) A skot_bakak.txt állomány azt tartalmazza, hogy mekkora volt a skót hadseregben a katonák inchben mért mellkaskörmérete valamikor a 19. század elején. Nyissuk meg az állományt és állítsuk be a katona változót súlyozásnak. Kérjük le a mellkas változó hisztogramját a normális eloszlás görbéjével együtt! Teszteljük, hogy a mellkaskörméret normális eloszlású! Teszteljük azt is, hogy egyenletes! (2) Nyissuk meg a vernyomas.sav-ot! Teszteljük, hogy az 1. és a 2. betegcsoportban azonos volt a vérnyomás kezelés el tti eloszlása. Mit mondhatunk a kezelés utáni adatokról? (3) Nyissuk meg a popularkids.txt fájlt! A Grades, Looks, Sports és Money változók azt tartalmazzák, hogy fontossági sorrendben hányadiknak ítéli az egyén azt a tényez t a népszer ség szempontjából. Melyek azok a tényez k, amelyeket a lányok és a úk is ugyanúgy látnak, és melyeket nem? (4) Teszteljük 0,05-ös szingikancia szinten, hogy a Grades változó minden lehetséges értéket (1,2,3,4) ugyanakkora, 1/4 valószín séggel vesz fel! Teszteljük ugyanezt az állítást a Money változóra! Ez utóbbira tesztelük le azt is, hogy az 1, 2, 3, 4 értékekhez tartozó valószín ségek rendre 1/15, 2/15, 4/15, 8/15! 9. óra (nov. 10.) Az óra anyaga: függetlenségvizsgálatok. Két diszkrét változó függetlensége: χ 2 -próba; egy diszkrét és egy folytonos: ANOVA; két folytonos (skálaváltozó): Pearson-korrelációval; két legalább ordinális: Spearmankorrelációval. (1) Nyissuk meg a salary.sav fájlt! Ez egy amerikai cég dolgozóriól tartalmaz adatokat, mint például besoztás, végzettség, kezd zetés, jelentlegi zetés. Tapasztalható olyan tendencia, hogy az utóbbi id ben magasabb/alacsonyabb ekzd zetéssel vesznek fel embereket? A kérdést úgy fogalmazhatjuk át, hogy van-e függés, és ha igen, milyen irányú, a cégnél eltöltött id és a kezd zetést tartalmazó változók között. A két változó Pearson-korrelációját fogjuk becsülni: Analyze > Correlate > Bivariate..., a változók: jobtime és salbegin, kérjük le rá a Pearson-korrelációt. A szignikancia-szint alapján a kezd zetés és az id függetlenségét elfogadhatjuk. (2) Tapasztalható olyan tendencia, hgoy az utóbbi id ben inkább magasabb/alacsonyabb végzettség embereket vesznek fel? Ezt az el z kérdéshez hasonlóan megválaszolhatjuk a Spearman-korreláció becslésével, ami már ordinális változó esetén is értelmes (a Pearson nem!): Analyze > Correlate > Bivariate..., a változók: jobtime és educ, most a Spearman-t pipáljuk ki. Ezek függetlenségét is elfogadhatjuk. Másik lehet ség, hogy ANOVA-t végzünk: a diszkrét változó (educ) szerint csoportosítjuk a folytonosat (jobtime), az ANOVA nullhipotézise ekvivalens a két változó függetlenségével. 7

8 (3) Igaz-e, hogy a kisebbségi doglozók között várhatóan több a n? Két diszkrét változó (jelen esetben a gender és a minority) függetlensége tesztelhet a múlt órán tanult χ 2 -próbával. Az Analyze > Descriptive Statistics > Crosstabs... menüpontban a Rows-hoz tegyük be az egyik, a Columns-hoz a másik változót, és a Statistics... gombbal kérjünk χ 2 -próbát (chi-square). A Chi-square test táblázat els sora (Pearson Chi-square) tartalmazza a próbához tartozó szignikancia szintet. A nullhipotézist (vagyis a függelenséget) elfogadjuk. Így a kérdésre a válasz: nem. (1) A salary.sav-ban a kezd zetés mely változóktól tekinthet függetlennek? Melyek azok a mutatók, amelyek valamilyen irányba változtak az eltelt id során? (2) Függ-e a beosztás a gyerekek számától? A kevesebb vagy a több gyerekkel rendelkez k vannak inkább jól zet állásokban? (3) Nyissuk meg a kolcson.sav-ot! A változók közül melyek tekinthet k függetlennek? A bank szeretne információt arról, hogy az ügyfél várhatóan problémamentes lesz-e. Mely mutatókat érdemes vizsgálnia? (4) Hozzunk létre egy új változót "osszjov" néven, amely tartalmazza a jelenlegi munkahelyen az eddigi összes jövedelmet (éves jövedelem szorozva azzal, hány éve dolgozik jelenlegi munkahelyén). Van-e összefüggés a kölcsön típusa és az összjövedelem közt? 10. óra (nov. 17.) Az óra anyaga: f komponensanalízis, faktoranalízis. Ez utóbbi megvalósítása SPSS-ben. (1) Nyissuk meg a brain.sav-ot! Végezzünk faktoranalízist a skálaváltozókon, és kérdezzünk le három faktort! Mely változókat határozza meg egyetlen faktor, és melyeket több? Analyze > Dimension Reduction > Factor..., a Variables-hez tegyünk be minden skálaváltozót. Extraction...-nél állítsuk be, hogy 3 komponenst szeretnénk: Extract: Fixed Number of Factors, Factors to extract: 3. Az eredményben a Component Matrix táblázatból látható, hogy az FSIQ, PIQ, VIQ és Height változók csak egy-egy faktorral korrelálnak nagyon er sen, az MRIcount és a Weight többel is. (2) Végezzük el újra a faktoranalízist, ezúttal a Kaiser-kritériummal döntsük el, hány faktort érdemes lekérdezni! Mely változók korrelálnak több faktorral is er sen? Most az Extraction...-nél Based on Eigenvalue-t kérjünk. Az MRIcount korrelációja mindkét faktorral jelent s, a többi változó besorolható egy-egy faktorhoz. (3) Végezzünk újra faktoranalízist, ezúttal úgy módosítva a faktorokat, hogy minden változó egyértelm en besorolható legyen az egyik faktorhoz. Milyen értelmet tulajdoníthatunk a két faktornak? Menstük el a faktorokat új változóként! A Rotation...-nél kérjük a Varimax-ot. A faktorok mentésést a Scores... gombbal lehet kérni. A Rotated Component Matrix táblázatban találhatóak a módosított faktorokkal vett korrelációk. Ez alapján az IQ-változók az els, a testsúly, tesmagasság, agyméret változók inkább a második faktorhoz sorolhatók. Az els faktor értelme: intelligencia, a második faktoré: a test "mérete". (1) Nyissuk meg a cars.sav-ot, és végezzünk faktoranalízist a skálaváltozókon! Hány faktort kapunk a Kaiser-kritérium alapján? Melyek az ezekhez tartozó sajátértékek? Próbáljuk besosrolni az összes vizsgált változót valamelyik faktorba! (2) Végezzük el újra a faktoranalízist, úgy módosítva a faktorokat, hogy a változók csak egy-egy faktorral korreláljanak! Mely változók tartoznak az így kapott faktorok közül az els höz, melyek a másodikhoz? Melyeket volt könnyebb besosrolni az eredeti faktorok alapján, mint (3) Menstük el az el z pontban kapott két faktort új változóként! Milyen "jelentésük" van az egyes faktoroknak? Ábrázoljuk az els faktor országonkénti boxplotját! Hasonlítsuk össze a lóer boxplotával!

9 11. óra (nov. 24.) Az óra anyaga: diszkriminancia analízis, logisztikus regresszió. Nyissuk meg az irisz.sav fájlt! Ez három íriszfajta 50-50 példányának jellemz it tartalmazza. A cél, hogy a jellemz k alapján el tudjuk dönteni egy íriszr l, melyik fajtába sorolható. (1) Végezzünk diszkriminacia analízist a 2-es és 3-as fajtájú növényekre! Hány diszkriminancia-függvény van, és mik ezek? Az esetek hány százaléka van jól besorolva? Elfogadható ez? Mely eseteket sorolta be rosszul? Analyze > Classiy > Discriminant..., Grouping Variable: fajta, Dene Range: (2, 3), Independents: az összes skálvaáltozó. Statistics...-ben kérjük a diszkriminancia-függvény együtthatóit: Fisher's, Unstandardized. A Classify...-ban lehet lekérdezni, mit hova sorol be: Casewise Result, illetve az egyes csoportokból hányat hova sorol be: Summary Table. A diszkriminancia-függvények együtthatói a Classication Function Coecients táblázatból olvashatók le, minden csoporthoz tartozik egy. A Summary Table alján írja, hogy az esetek 97%-ának a besorolása megegyezik az eredtivel, általában 95% felett számít jónak. A Casewise Statistics-b l leolvasható, hogy a rosszul besorolt esetek a 71-es, 84-es, 134-es. (2) Végezzünk diszkriminancia analízist mindhárom csoprotra, és válaszoljunk újra az el z kérdésekre! Ábrázoljuk pontdiagramon az egyes csoportokat, és keressük meg rajta a rosszul besorolt eseteket! Melyik csoportba sorolnánk egy íriszt a következ méretekkel: 6, 3, 4, 1? Az ábra kérése: Classify...-ban a Combined Groups. Az új esetet írjuk be egy új sorba, miel tt lefutattjuk a diszkriminancia analízist. A Dene range-nél most állítsunk be (1,3)-at. Például Casewise Statistics-b l leolvasható, hogy a megadott esetet a program a 2-es fajtához sorolta. (3) Zárjuk ki az 1-es csoportot, majd végezzünk logisztikus regressziót! Mik lesznek a függvény együtthatói? Menstük el új változként a csoportbatartozás valószín ségét! Melyik csoportra vonatkozik a valószín ség? Hány esetet sorol be az eljárás rosszul? Melyiket sorolta be ez az eljárás másképp, mint a diszkriminancia analízis? Analyze > Regression > Binary logistic..., Dependent: fajta, Independents-nek megint tegyük be az összes skálváltozót. A Save...-nél állítsuk be: Probabilities, Group membership. A Block 1 -ban található eredményeket kell gyelembe venni, a függvényegyütthatók a Variables in the Equation B oszlopában találhatók. Két új változót kaptunk, az egyik a csoprotbatartozás valószín ségét mondja meg, a másik a jósolt csoportot. Látható, hogy az 1 valószín ség eseteket a 3-as csoportba sorolta, így erre a csoportra vonatkozik a valószín ség. A Classication Table mutatja meg, hány esetet soroltunk be rosszul, látszik, hogy ez az eljárás 98%-ban volt pontos a diszkriminancia analízis 97%- a helyett. Az elmentett változóban meg lehet keresni, melyek az itt rosszul besorolt esetek, a 71-est jól sorolta be az el z módszerrel ellentétben. (1) Nyissuk meg az emberek.txt-t! Próbáljuk az emberek jelemz i alapján (súly, magasság, cip méret) megjósolni a nemüket! Végezzünk logisztikus regressziót és diszkriminancia analízist is! Mentsük el mindkét esetben a csoportokat új változóként! Melyek a rosszul kategorizált esetek? Melyik eljárás a pontosabb? Mely eseteknél térnek el egymástól? Végezzük el úgy is mindkét analízist, hogy a cip méretet nem vesszük gyelembe! Mit mondhatunk ekkor? (2) Nyissuk meg a kolcson.sav-ot! Végezzünk diszkriminancia analízist a status változóra a skálaváltozók segítésgével! Pontdiagramon ábrázoljuk is az egyes csoportokat! Az ábra alapján szeparálhatóknak t nnek? A Wilks-próba mit mond err l? Írjuk fel a diszkriminancia-függvényeket! Hány eset van rosszul kategorizálva? Elfogadható-e jónak a besorolás? Melyik csoportot sikerült legkevésbé elkülöníteni? (3) Végezzünk logisztikus regressziót az adostip változóra! Mentsük el a valószín ségeket és az el rejelzett csoportot új változóként! Melyik csoportra vonatkozik a valószín ség? Mi a logisztikus diszkriminancia függvény? Hány százalékát soroltuk be jól az esetekek? Soroljuk be a következ esetet: életkor: 40, munkaviszony: 6, jovedelem: 26, kperf: 100.

10 12. óra (dec. 1.) Az óra anyaga: klaszeranalízis: hierarchikus klaszterezés, k-közép módszer. (1) Nyissuk meg a debt.sav fájlt, és osszuk csoportokba hierarchikus klaszterezéssel azokat az országot, amelyeknek hasonlóak az államadósság és denicit mutatóik! Hány klasztert érdemes kérni? Melyik ország alkot legtovább önmagában klasztert? Analyze > Classify > Hierarchical Cluster, Variables: decit, debt, a Plots...-nál kérjük a dendorgramot, ez alapján dönthetjük el, hány klasztert érdemes választani (annyit, ahánynál az eljárás többé-kevésbé hosszabb ideig stagnál). A dendorgram alapján 3 klaszter r nik stabilnak, de a nomabb csoportosítás érdekéáben kérhetünk akár 4-5 klasztert is. A dendogramról is és az oszlopos ábráról is leolvasható, hogy Belgium (2-es) alkot legtovább egyedül klaszert, legalább 5 klaszter esetén. (2) Végezzük el ismét az el bbi hierarchikus klaszterezést, és mentsük el a klasztereket 2-5 klaszter esetén. Ábrázoljuk az adatokat és a klasztereket 3 klaszter esetén! A Save... gombbal A Range of solutions-t választva állítsuk be, hogy 2-5 klaszter esetén mentse a kapott klasztereket. Ekkor lefuttatva az eljárást, kapunk 4 új változót, mindegyik a mefele számú klaszterhez tartozó csoportosítást tartalmazza. A Scatter/Dot diagramon megtehetjük, hogy egy csoportosító váltózó alapján színezzük a pontokat. A X axis legyen a decit, az Y axis a debt, és Set markers by: CLU3_1. (A Label cases by: Country-t beállítva a pontokra még az ország neve is rá lesz írva.) A kapott ábrán látható, mely országok hol helyezkednek el, és melyek alkotnak egy klaszert. (3) Végezzünk klaszteranalízist k-közép módszerrel a bevétel és az államadósság változókra! 5 klasztert kérjünk, a megoldást mentsük is el új változóként, és ábrázoljuk! Analyze > Classify > K-means cluster, itt Variables: expenditure, debt, Number of clusters: 5. A Save...-nél kérjük a Cluster membership-et. A létrehozott új változó segítségével az el bbihez hasonló módon ábrázolhatjuk a klaszterezést. (1) Nyissuk meg a cars.sav-ot! Hozzunk létre klasztereket a végsebesség és fogyasztás változók alapján! Alkalmazzunk hierearchikus klaszterezést! Legalább hány klaszter esetén lesz egy adatot tartalmazó klaszter? Hány klasztert érdemes létrehozni? Mentsük el a választott klaszterszámhoz tartozó csoportosítást, és ábrázoljuk pontdiagramon! (2) Végezzünk hiererachikus és k-közép klaszteranalízist is a henger rtartalom és súly váltózokra! A klaszterek száma legyen 4. Mentsük el a csoportosítást mindkét esetben! Eltér-e a két módszer által adott eredmény? Mely esetekben? Keressük meg ezeket pontdiagramon! Mi a helyzet 3 klaszter esetén? (3) Végezzünk hierarchikus klaszerezést az összes skálaváltozót gyelembevéve! Hány klasztert érdemes választani? Mentsük is el új változóként az ehhez tartozó csoportosítást! Mennyivel bizonyul ez pontosabbnak az els feladatbelihez képest? Mivel magyarázható ez? Ábrázoljuk Scatter/Dot > Matrix diagramon az így kapott csoportosítást minden skálaváltozó-párra!