Alkalmazott statisztika



Hasonló dokumentumok
Alkalmazott statisztika feladatok

Alkalmazott statisztika Feladatok

Esetelemzések az SPSS használatával

Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Bevezetés a Korreláció &

Hipotézis vizsgálatok

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Diszkriminancia-analízis

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben

Többváltozós lineáris regressziós modell feltételeinek

Correlation & Linear Regression in SPSS

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Segítség az outputok értelmezéséhez

Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások

Regresszió számítás az SPSSben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Correlation & Linear Regression in SPSS

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Sztochasztikus kapcsolatok

A statisztika alapjai - Bevezetés az SPSS-be -

Biostatisztika feladatok

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

STATISZTIKA PRÓBAZH 2005

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Gyakorló feladatok statisztikai programcsomagokhoz

2. A ξ valószín ségi változó eloszlásfüggvénye a következ : x 4 81 F (x) = x 4 ha 3 < x 0 különben

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Adatok statisztikai értékelésének főbb lehetőségei

Biostatisztika feladatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

SPSS ÉS STATISZTIKAI ALAPOK II.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Lineáris regresszió vizsgálata resampling eljárással

Statisztikai szoftverek esszé

MARKETINGKUTATÁS II. Oktatási segédanyag. Budapest, február

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statistical Dependence

BIOMETRIA_ANOVA_2 1 1

Esetelemzés az SPSS használatával

Varianciaanalízis 4/24/12

Magyarországon személysérüléses közúti közlekedési balesetek okozóik és abból alkoholos állapotban lévők szerinti elemzése. Rezsabek Tamás GSZDI

KISTERV2_ANOVA_

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

[Biomatematika 2] Orvosi biometria

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Korreláció és lineáris regresszió

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

Statisztika II. feladatok

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Adattípusok, ábrák és grafikonok az excelben

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Biometria gyakorló feladatok BsC hallgatók számára

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

Normális eloszlás paramétereire vonatkozó próbák

A statisztika alapjai - Bevezetés az SPSS-be -

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

Bevezetés az SPSS program használatába

Mérési adatok illesztése, korreláció, regresszió

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Több valószínűségi változó együttes eloszlása, korreláció

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Statisztika II előadáslapok. 2003/4. tanév, II. félév

1. Név:... Neptun Kód:... Feladat: Egy összeszerel½o üzemben 3 szalag van. Mindehárom szalagon ugyanazt

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Klaszterelemzés az SPSS-ben

Valószín ségszámítás és statisztika Gyakorlat (Statisztika alapjai)

Az OECD PISA adatbázis elemzése

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

y ij = µ + α i + e ij

SPSS ALAPISMERETEK. T. Parázsó Lenke

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

A konfidencia intervallum képlete: x± t( α /2, df )

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Regressziós vizsgálatok

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Nemparaméteres próbák

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Logisztikus regresszió

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Microsoft Excel Gyakoriság

Átírás:

1. óra Alkalmazott statisztika Feladatok Nyissuk meg az IBM SPSS programot. Fájlokat, adatokat megnyitni a F ile Open Data parancsokkal lehet. Az SPSS saját kiterjesztése a.sav, de megnyithatunk más típusokat is, mint.txt,.xls,... (1) Nyissuk meg a cars.sav állományt. A Data view lap az adatokat, a V ariable view pedig a mez k tulajdonságait tartalmazza. A V ariable view lapon, a Label mez ben nézzük meg, hogy a rövidített változónevek, melyeket a Data view oldalon láthatunk, mit jelentenek. A hiányzó mez ket töltsük k a Name alapján. A M easure mez azt mutatja, hogy az adott változó milyen típusú. Vannak változók, melyek számérték ek, sok értéket vehetnek fel, melyek rendezhet ek, mint például az emberek magassága. Ezek a skálaváltozók, melyet Scale jelöl. Azok a változók, melyek kevés értéket vehetnek fel, de a felvett értékek rendezhet ek, az ordinális, azaz Ordinal változók. A nem rendezhet eket N ominal változóknak nevezzük. Vegyük észre, hogy a Country változónál a típus rosszul szerepel, hiszen nem rendezhet ek az országok. Állítsuk át Ordinal-ról N ominal-ra. (2) Egy autós magazin az autókat pontszámokkal látja el, melyet a megadott értékekb l a (HP + 20/V OL)/10 képlettel számolnak ki. Hozzunk létre egy új változót a pontszámoknak. Töltsük ki a mez adatait, majd számoljuk ki a pontokat. Ehhez a T ransform Compute V ariable ablakba írjuk be a fenti képletet. (3) Adjuk meg új változóban, hogy az egyes országokhoz hány modell tartozik. Ehhez a Data Aggregate ablakban válasszuk ki az országot, mint Break variable-t, és a Number of cases-t pipáljuk ki. (4) Ezúttal csak azokat a modelleket számoljuk össze országonként, melyek végsebessége legaább 100. Ehhez sz rjük ki a megfelel adatsorokat, melyet a Date Select cases menüpont alatt tehetünk meg, ha az If condition is satisf ied ablakba beírjuk az SP > 100 feltételt. Innent l a (3) pontban leírtak alapján megadható az új változó. A feltételt a Data Select cases All cases m velettel tudjuk megszüntetni. (5) Keressük meg a leggyorsabb autót. Ehhez állítsuk sorba az autókat gyorsaság szerint, amit Data Sort cases menüpontban tehetünk meg. Válasszuk ki az SP változót, ekkor a Descending beállítás mellett az els lesz a leggyorsabb autó. 1

(6) Osztályozzuk az autókat térfogatuk szerint. Hozzunk létre egy új változót, mely a V OL változó alapján, 60 alatt 1-et, 60 és 90 között 2-t, felette 3-at vesz fel. Ehhez használjuk a T ransf orm Recode into different variables opciót. Adjuk hozzá a V OL változót, majd az Output V ariable mez nél adjuk meg az új változó nevét, legyen ez T ipus. Az új nevet a Change után rögzíti. Az Old and new values segítségével adjuk meg a feltételeket. El ször a Range, LOWEST throught valuenál adjuk meg a 60-at, a New V alue mez be pedig írjuk az 1-et, az Add opcióval rögzítsük. A második feltételhez a Range mez kbe írjuk a 60-at, illetve a 90-et, a harmadikhoz pedig a 90 kerül a Range, throught value HIGHEST mez be. (7) Generáljunk véletlen számokat a [0,1] intervallumon egyenletesen. Ehhez egy üres munkalapon hozzunk létre egy új változót, legyen ez v1 (Edit Insert variable). Jelöljük ki az oszlop els 20 mez jét, ennyi véletlen számot hozunk majd létre. A kijelölés után kattintsunk az Edit Insert cases menüpontra. A T ransf orm Compute variable lapon a T arget variable legyen v1, a függvények közül pedig válasszuk az Rv.Uniform-ot, melybe a 0 és 1 értékeket írjuk be. Otthoni gyakorlásra A zikusok mérései általában normális eloszlást követnek. Generáljunk véletlenszer en mérési adatokat 0 várható értékkel és egységnyi szórással, majd a kapott mintaelemeket osztályozzuk. Az osztályozáshoz hozzunk létre egy új változót, mely értéke legyen 1, ha a mintaelem kisebb, mint 1, legyen 0, ha 1 és 1 közé esik, és 1, ha 1-nél nagyobb. Adjuk meg, hogy az egyes kategóriáknak mennyi lett az elemszáma. Egy új változóban pedig minden mintaelemhez számoljuk ki a várható értékt l mért távolságát. 2

2. óra A következ feladatok a cars.sav állományra vonatkoznak. (1) Oszlopdiagram Korábban meghatároztuk, hogy az országok hány modellt gyártanak, most ezt ábrázoljuk oszlopdiagramon. Oszlopdiagramot a Graphs Legacy dialogs Bar menüpont alatt hozhatunk létre. Válasszuk a Simple típust, valamint a Summeries f or groups of cases opciót, hiszen ugyanannak a változónak, az országoknak különböz eseteit szeretnénk külön ábrázolni. A beállításoknál válasszuk az N of cases opciót, és állítsuk be a COUNT RY változót, mint Category axes. Ábrázoljuk a különböz gyártóknál az átlagos végsebességet. Hasonlóan oszlopdiagramot választunk, azonban ezúttal a Bars represent esetén az Other statistics opciót válasszuk, a V ariable-nél adjuk meg az SP változót. A Change statistics-nél pedig válasszuk ki az átlagot. (2) Hisztogramm Ábrázoljuk hisztogrammon a végsebességet. Ehhez a Graph Legacy dialogs Histogram menüpontot használjuk, ahol az SP változót állítjuk be a V ariable-nél. Hasonlóan ábrázoljuk a fogyasztást is. (3) Alapstatisztikák Kérdezzük le a lóer változó alapstatisztikáit. Ehhez az Analyze Descriptive Statistics F requencies menüpontot használjuk. Kérdezzük le a mintaátlagot (mean), a mediánt, a minimumot és a maximumot, valamint a kvartiliseket (quartiles). Ehhez a Statistics-ben válasszuk ki a megfelel beállításokat. Vessük össze az eredményt a lóer hisztogrammjával. Melyik statisztika mit jelent? Hogyan mutatkozik meg a grakonon? (4) Boxplot - A boxplot leírása Az el bb lekérdezett változót, azaz a lóer t ábrázoljuk Boxplot segítségével. Ezt a funkciót a Graphs Legacy Dialogs Boxplot menüpontnál találjuk. Válasszuk a Simple, valamint a Summaries of separate variables opciókat, majd az Engine Horsepower változót állítsuk be a Boxes Represent-nél. (5) Alkalmazzuk a korábbi módszereket a meres.sav állományon. A fájl két adatsort tartalmaz, ezeket hasonlítsuk össze a boxplot, valamint az alapstatisztikák alapján. A Graphs Legacy dialogs Boxplot menüpont alatt válasszuk ki a Summeries of separate variables opciót, a Boxes represent-hez adjuk hozzá mindkét változót. Hasonlítsuk össze a két változót! Kérdezzük le az alapstatisztikákat is a (3)-ban leírtak alapján, ezúttal mindkét változót kiválasztva. A korábbi meggyelések itt hogyan jelennek meg? 3

3. óra Nyissuk meg a vernyomas.txt állományt. Orvosok két új vérnyomáscsökkent gyógyszert tesztelnek 45 emberen. Az els 15 f (CSOP1) az I. kísérleti gyógyszert kapja, a második 15 (CSOP 2) a II. kísérleti gyógyszert, a többiek (CSOP 0) pedig a hagyományosat. A SY S1 változó a betegek kezelés el tti, a SY S2 pedig a kezelés utáni vérnyomását tartalmazza. (1) Egymintás t-próba Teszteljük le 5%-os szignikancia szinten azt a nullhipotézist, hogy a kezelés el tt a betegek átlagos vérnyomása 140 volt. Ehhez az Analyze Compare means One samples T test menüpontot válasszuk ki, ott a SY S1 válozó lesz a T est variable. A T est value legyen 140, az Options-nél pedig állítsuk be, hogy a Conf idence interval percentage 95% legyen. A nullhipotézist elfogadjuk, vagy elvetjük? Határozzuk meg a kondencia intervallumot, amit a program megad. Ez alapján hogyan határozhatunk a nullhipotézis elvetésér l? (2) Explore és boxplot Miel tt a kezelések hatását vizsgáljuk, bizonyosodjunk meg róla, hogy a csoportok a kísérlet elején nem különböznek nagyban egymástól az átlagos vérnyomás teintetében. Kérjük le a már megszokott alapstatisztikáit a SY S1 változónak, valamint ábrázoljuk boxploton, de ezúttal csoportok szerint külön-külön. Ehhez az Analyze Descriptive statistics Explore menüpontot használjuk, ahol a Dependent list-hez adjuk hozzá a SY S1-et, a F actor list-hez pedig a CSOP -ot. Látunk jelent s különbséget a csoportok között? Ehhez hasonlítsunk össze a csoportokat az empirikus várható érték, az empirikus szórás, valamint a ferdeség (skewness), és a kurtosis (lapultság) alapján. Hogyan jelennek meg ezek a tulajdonságok a boxploton? (3) Független kétmintás t-próba Teszteljük 10%-os szignikancia szinten azt az állítást, hogy a kezelés el tt az els két csoportban megegyezik az átlagos vérnyomás. Adjunk 90%-os kondencia intervallumot a várható értékek különbségére. Ehhez az Analyze Compare means Independent samples T test menüpontot alkalmazzuk, ahol a SY S1 változó legyen a T est variable, és a CSOP a Grouping variable. A Def ine groups opciónál legyen a Group1 1, Group2 pedig 2. Az Options-nél állítsuk a százalékot 90-re. 4

A kétmintás t-próbát szeretnénk alkalmazni, de ehhez el ször meg kell bizonyosodnunk arról, hogy a szórások egyenl ek. Ezt a táblázatban szerepl Levene teszt mutatja. (4) Páros kétmintás t-próba Teszteljük 5%-os szignikancia szinten azt a nullhipotézist, hogy az 1-es betegcsoportban a gyógyszer nem változtatott az átlagos vérnyomáson. Adjuk meg a 95%-os kondencia intervallumot a vérnyomáscsökkenés várható értékére. El ször hasonlítsuk össze a két boxplotot, ehhez a Select cases segítségével válasszuk ki az 1-es csoportot, majd ábrázoljuk a boxploton a SY S1 és SY S2 változókat. Ez alapján mit várunk a tesztt l? Mivel itt nem független változókról van szó, válasszuk az Analyze Compare means P aired samples T test menüpontot, ahol a két változót együtt kijelölve kattintsunk a nyílra. A megfelel százalékot az opcióknál állíthatjuk be. (5) Otthoni gyakorlásra Teszteljük azt a nullhipotézist 5%-os szignikancia szinten, hogy a 2-es betegcsoportban az átlagos vérnyomás a kezelés hatására 10-zel csökkent. 5

4. óra Nyissuk meg a vernyomas.txt állományt. (1) Pontdiagram Figyeljük meg el ször grakusan, hogy befolyásolja-e a betegek kezelés el tti, illetve utáni vérnyomását az, hogy melyik csoportba kerültek. Ehhez ábrázoljuk az adatokat pontdiagramon. Válasszuk a Graphs Legacy dialogs Scatter/Dot menüpontot, azon belül a Matrix scatter t. A mátrix változói legyenek a SY S1 és SY S2 változók, azaz ezek legyenek a diagram koordináta-tengelyei. Színezzünk csoportok szerint, ehhez a CSOP -ot állítsuk be a Set markers by opciónál. Mit olvashatunk le a diagramról? A színek alapján elhatárolódnak a különböz csoportok valamelyik tengely irányában? (2) ANOVA Próbáljuk megállapítani, hogy mekkora szerepet játszik a vérnyomások várható értékében az a faktor, hogy ki melyik csoportban van. Erre való az egyszempontos ANOV A ( Analyze Compare means One way ANOV A ). A Dependent listben szerepeljenek a SY S1 és SY S2 változók, a F actor pedig legyen a CSOP. Válasszuk ki az Options-nél a Descriptives, Homogenity of variance test és W elch opciókat. Az els táblázatban a már jól ismert alapstatisztikák szerepelnek, valamint az el z órán vizsgált kondencia intervallumok a várható értékekre. Az AN OV A alkalmazásának feltétele van, a különböz csoportokban meg kell egyezniük a szórásoknak. A Levene teszt-r l olvashatjuk le, hogy tekinthetjük-e ezeket egyenl nek. A SY S1 és SY S2 változók esetén is elfogadhatjuk a szórások egyenl ségét, de milyen megbízhatósággal? Melyik esetben meggy z bb az eredmény? Vizsgáljuk meg, hogy elfogadhatjuk-e 5%-os szignikancia szinten azt az állítást, hogy a kezelés el tt mindhárom betegcsoportban azonos volt az átlagos vérnyomás. És a kezelés végén? Határozzuk meg, milyen arányban magyarázza a vérnyomást a csoportbesorolás a kezelés el tt, valamint utána. Ha a Levene teszt alapján a szórások egyenl ségét elutasítjuk, akkor az ANOV A nem használható, de a W elch-próba igen. A W elch próba alapján ugyanezt a következtetést vontuk volna le? (3) Pearson-korreláció Most vizsgáljuk azt, hogy a SY S1 és SY S2 változók között milyen kapcsolat van. Korábban lekérdeztük a változók Scatter diagramját, nézzük meg ebb l a szempontból is. Látunk valamilyen kapcsolatot? 6

Kérdezzük le a változók közötti korrelációs együtthatókat. Ehhez az Analyze Correlate Bivariate menüpontot használjuk. Legyenek a változók SY S1, valamint SY S2, és válasszuk a P earson-korrelációt. (4) Otthoni gyakorlásra Nyissuk meg a cars.sav állományt, és ábrázoljuk az autókra vonatkozó paramétereket Scatter diagramon. Hol látunk kapcsolatot, és milyen típusút? (pl. lineáris,... ) Nézzük meg, milyen mértékben befolyásolja az autók végsebességét, hogy melyik országban gyártották! Kérdezzük le a korrelációs együtthatókat, és gyeljük meg, hogy hol van er s kapcsolat, és az milyen irányú (pozitív, negatív). Mit jelenthet a pozitív, illetve a negatív kapcsolat? 7

5. óra Nyissuk meg akocka.txt állományt, ami egy nem feltétlenül szabályos dobókocka 1000 feldobásának eredményét tartalmazza. (1) Alapstatisztikák Próbáljuk meg lekérdezni a korábban megismert módszerekkel a dobás változó alapstatsztikáit (Analyze Descriptive Statistics F requencies). Mit látunk a F requencies táblában? Jó eredményt kapunk? Mi a hiba? A helyes eredményhez el bb be kell állítanunk, hogy a dobás értékét súlyozza a program a gyakoriságukkal. Ehhez a Data W eight cases opciónál állítsuk be, hogy W eight cases by : gyakorisag. Most ismételjük meg a lekérdezést! Milyen eredményt kapunk? Írjuk fel az empirikus eloszlásfüggvényt a táblázat alapján. Szabályosnak t nik a dobókocka? (2) t-próba Teszteljük azt a nullhipotézist, hogy a 4-es érték dobásának valószín sége 1/6. Adjunk 90%-os kondencia intervallumot a 4-es dobás valószín ségére. Valószín ség tesztelése helyett várható értéket tudunk tesztelni a t-próbával, ehhez azonban el bb át kell kódolnunk a dobott értékeket. A kedvez esetben, amikor 4 a dobás, az új, indikátorváltozó legyen 1, másképp 0. Ezzel indikátor változót hoztunk létre, amelynek várható értéke épp a 4-es dobás valószín sége. Így már alkalmazhatjuk a jól ismert egymintás t-próbát. Meggy z az eredmény? (3) χ 2 -próba Teszteljük azt a nullhipotézist, hogy a dobókocka szabályos. Ezt az Anyalyze N onparametric T ests Legacy Dialogs Chi square menüpont alatt tehetjük meg, ahol az All categories equal funkcióval épp a szabályosság tesztelését kapjuk. Hol van a legnagyobb különbség az elvárt (szabályos) és a tényleges viselkedés között? Hogyan határozunk a nullhipotézisr l? (4) Binomiális próba Ezúttal a kísérletünk álljon abból, hogy minden lépésben csak azt vizsgáljuk, 3- nál nagyobb-e a kapott szám. Vizsgáljuk meg, hogy mekkora valószín séggel kapunk ekkora értéket. Ezúttal is indikátor változót használjuk, de most vegyük észre azt is, hogy valójában egy binomiális eloszlást kapunk az átkódolással. Ez éppen akkor lesz 1, ha legalább 4-et dobunk, másképpen 0. Most használjuk az Anyalyze N onparametric T ests Legacy Dialogs Binomial T est opciót a megfelel beállításokkal. Mit mutat az eredmény? 8

(5) Otthoni gyakorlásra Generájunk a korábban látott módon egy cinkelt érméhez tartozó dobássorozatot, ahol a fejdobás valószín sége 1/3. Az órán használt módszerekkel vizsgáljuk meg az adatokat, majd nézzük meg, ezek alapján fel tudnánk-e ismerni a cinkelést. A tényleges valószín ségeket meg tdjuk határozni, esetleg megsejteni? 9

6. óra Nyissuk meg a korábban már vizsgált cars.sav állományt. Ezúttal azt gyeljük majd meg, hogy az autók jellemz i hogyan függnek egymástól, illetve hogyan befolyásolják egymást. (1) Pearson korreláció Kérdezzük le a változók Pearson korrelációit a korábban tanult módon, elemezzük ki az eredményt! (Analyze Correlate Bivariate, minden változót válasszunk ki) Mely változók között látunk kapcsolatot, és ezek milyen irányúak? Válasszuk ki azt a két változót, melyek a leger sebben korreláltak, a következ feladatban ezek kapcsolatát vizsgáljuk. (2) Lineáris regresszió Alkalmazzunk lineáris regressziót a végsebességre a teljesítmény alapján, tehát határozzuk meg a regressziós egyenest. Ezt az Analyze Regression Curve estimation menüpont alatt tehetjük meg. A függ változó legyen SP, a független pedig HP. Állítsuk be, hogy lineáris modellt szeretnénk (M odels : Linear), az opcióknál pedig válasszuk ki, hogy Include constant in equation, P lot models, valamint Display AN OV A tables. A táblázatok alapján határozzuk meg az egyenes egyenletét, és mutassuk meg, hogy mennyire jó az illeszkedése az adatokra. Az ábrán ez hogyan nyilvánul meg? A lóer hány százalékban magyarázza a végsebességet? Használjuk fel a kapott egyenletet! Amennyiben tudjuk, hogy egy autó 70 lóer s, akkor milyen becslést adhatunk a végsebességére? (3) Nemlineáris regresszió Válaaszuk ki a fogyasztást jellemz változót (mérföld/gallon!), valamint a teljesítményt. Tapasztalataink alapján megsejthetjük, hogy ezek között a kapcsolat nem lineáris. Próbáljuk meg reciprokfüggvényként kifejezni a fogyasztást a teljesítménnyel. A Curve estamation-nél ezúttal az Inverse szerepeljen Linear helyett, minden más beállítás maradjon a régi. Ezúttal is írjuk fel a kiszámolt függvényt, és nézzük meg, milyen arányban magyarázza a teljesítmény a fogyasztást ebben a regresszióban. Ha ismert a teljesítmény (100 LE), akkor mennyire becsüljük a fogyasztást? (4) Többváltozós regresszió Nézzük meg, hogy mennyire válltozik meg a regresszió, ha hozzáveszünk még egy változót, a tömeget, mégpedig lineáris komponensként. 10

Ehhez az Analyze Regression N onlinear menüpontot használjuk. A függ változó továbbra is legyen a fogyasztás, a Model expression pedig a/hp +b W T +c, a kezdeti értékeket pedig a(1), a(2), a(3)-mal deniáljuk a P arameters-nél. Határozzuk meg a regressiós egyenletet, és gyeljük meg, hogy mennyiben javult a közelítés a korábbi, egyváltozós regresszióhoz képest. Megérte még egy változót gyelembe venni? (5) Otthoni gyakorlásra Írjuk fel a végsebességet három másik változó, a térfogat, a teljesítmény, valamint a tömeg lineáris függvényeként. Milyen az illeszkedés? Korábban felírtuk a fogyasztást, mint a teljesítmény reciprokfüggvénye. Próbáljuk ki a többi lehet séget is, kaphatunk jobb illeszkedést, vagy valóban a reciprokos a megfelel? Milyen zikai magyarázata lehet a kapcsolatnak? 11

8. óra Nyissuk meg a salary.sav állományt. (1) Átkódolás Kódoljuk át a beosztást, ami sztring típusú változó, numerikussá. Ehhez használjuk a T ransform Recode into different variables menüpontot, az Input variable legyen a jobkat, az Output variable-t nevezzük jobkat2-nek, M anager 1, Clerical 2, Custodial 3. (2) Pontdiagram Ábrázoljuk pontdiagramon az összes numerikus változót, majd vizsgáljuk meg, hogy melyek között mutat az ábra kapcsolatot. A pontdiagramot a Graphs Legacy dialogs Scatter dot : Matrix scatter módon készíthetjük el, válasszuk ki az összes numerikus változót, mint M atrix variable. Mely változók között látunk kapcsolatot? A kapcsolat milyen iránya, mennyire er s? Hogyan magyarázhatjuk ket? (3) Korreláció Kérdezzük le az összes numerikus változóra a Pearson és a Sperman korrelációkat. Melyek azok a korrelációk, amelyek nem értelmezhet ek? A M atrix scatter diagramon látott kapcsolatok a korrelációkban is megmutatkoznak? Mely változók befolyásolják a jelenlegi zetést, és milyen mértékben, irányban? Azt látjuk, hogy a gyerekek száma és a zetés között negatív irányú kapcsolat van, de sejthetjük, hogy ez a kapcsolat nem közvetlen, azaz nem közvetlenül a zetés miatt változik a gyerekek száma. Mi okozhatja mégis ezt a korrelációt? Kimutatható-e olyan trend a cégnél, hogy az utóbbi id ben inkább alacsonyabb, vagy magasabb végzettség embereket vettek fel? (4) Crosstabs Teszteljük le azt a nullhipotézist, hogy nincs különbség a n k és férak tekintetében a különböz besoztásokat végz k arányában, tehát nem jelenik meg olyan trend, hogy mondjuk a n k inkább alacsonyabb beosztást töltenek be, a férak magasabbat, vagy akár fordítva. Használjuk az Analyze Descriptive statistics Crosstabs opciót, a Row legyen a gender, a Column pedig a jobkat. A Statistics-nél válasszuk ki a Chi square-t, a Cells-nél pedig az Observed és Expected opciókat. (5) Q-Q plot 12

A betegszabadság változóról szeretnénk megállapítani, hogy normális eloszlású-e. Ehhez el ször ábrázoljuk Q Q plot-on, ami grakusan mutatja meg, hogy mennyiben térnek el az értékek a normális eloszlástól. Ehhez válasszuk az Analyze Descriptive statistics Q Q plots-ot, a V ariables-nél válasszuk a Betegszabadságot. A T est Distribution legyen Normal. (6) Kolmogorov-Szmirnov-próba Teszteljük a nullhipotézist, mely szerint a Betegszabadság változó normális eloszlású. Ehhez használjuk az Analyze N onparametric testes Legacy dialogs One Sample Kolmogorov Szmirnov T est-et. Legyen a T est variable list a Betegszabadság, a T est distribution-nél pedig válasszuk a normálisat. Mivel magyarázzuk a teszt eredményét annak ellenére, hogy az ábrázolás nem mutatott nagy eltéréseket? (7) Otthoni gyakorlásra A dolgozók minden hónapban kaphatnak jutalmat. A Jutalom oszlopban az szerepel, hogy az adott dolgozó az elmúlt 12 hónapban hányszor kapott jutalmat. Teszteljük azt a nullhipotézist, hogy ezek száma Poisson eloszlást követ. 13

8. óra Nyissuk meg a teszt.sav állományt, ami két szerver terheltségének meggyeléseit tartalmazza. (1) Alapstatisztikák és boxplot A Mérés1 és Mérés2 változók a két szerver forgalmát tartalmazzák. Vizsgáljuk meg, hogy egyformán terhelt-e a két szerver. Ehhez el ször kérjük le az alapstatisztikákat, majd boxplot segítségével ábrázoljuk is az adatokat. Mit látunk, van különbség? (2) Hisztogram Próbáljuk grakusan megállapítani a Mérés1 és Mérés2 változók eloszlásait, ehhez ábrázoljuk ket hisztogramon, ahol pipáljuk ki a Display normal curve opciót. Mennyire illeszkednek a kapott grakonok a normális eloszlás s r ságfüggvényére? (3) Q-Q plot Alkalmazzuk még egy grakus módszert, a Q Q plot-ot, amellyel nem csak normális eloszlást lehet vizsgálni. Ehhez válasszuk az Analyze Descriptive statistics Q Q plots-ot, a V ariables-nél válasszuk a Mérés1 és Mérés2-t. A T est Distribution legyen Normal. (4) Kolmogorov-Szmirnov próba Teszteljük le sejtésünket, hogy a változók normális eloszlásúak. Ehhez válasszuk az Analyze N onparametric tests Legacy dialogs 1 Sample K S menüpontot, ahol adjuk át a két változót a T est variable list-hez, válasszuk a Normal-t, mint T est distribution. Mindkét esetben elfogadjuk, hogy normális eloszlásúak? Mennyire meggy z az eredmény? (5) Wilcoxon próba Teszteljük azt a nullhipotézist, hogy a Mérés1 és Mérés2 változók azonos eloszlásúak. Mivel a változók nem függetlenek, ezért alkalmazzuk az Analyze N onparametric tests Legacy dialogs 2 Related samples tesztet, ahol a két változó mellett válasszuk ki a W ilcoxon próbát. Elfogadjuk a nullhipotézist? 14

10. óra Nyissuk meg az orszagok.sav állományt, amely országok különböz adatait tartalmazza. (1) Simple scatter Ábrázoljuk az országokat a GDP és az Inf antmortality alapján Graphs Legacy dialogs Scatter/Dot Simple scatter diagramon, a tengelyek legyen a fenti változók, feliratozzuk (Label by ) a Country szerint. (2) Hierarchikus klaszterezés Osszuk a fenti változók alapján csoportokba a szerepl országokat. Ehhez az Analyze Classif y Hierarchical cluster menüpontot válasszuk, ahol a változók mellett állítsuk be azt is a P lots opciónál, hogy ábrázolja a program a Dendogram nev diagramot. Alkalmazzu az eredeti beállítást, mely szerint a Method a Between group linkage, ami azt jelenti, hogy az átlgos távolságok alapján hozza létre a klasztereket. Az ábra alapján állapítsuk meg, hogy hány klaszter kialakítása t nik ésszer nek. Futtassuk újra az el bbi eljárást, de ezúttal a Save ezen belül, a Range of solutions opciónál Min. legyen 2, a Max. pedig 5. Ezzel elmentjük, hogy amennyiben 2 5 klasztert hozunk létre, az adott ország melyikbe kerül. Ábárzoljuk az adatokat újra Simple scatter grakonnal, de ezúttal a 3 klaszter álatal kialakult osztályozást is mutassuk meg, legyen a M arker ez a csoportosító változó. Vegyük észre, hogy a távolságoknál mindkét változót azonos súllyal veszzük gyelembe, pedig nagyságrendjük teljesül különböz. Alkalmazzu az eljárást úgy, hogy mindkét változót a 0 1 intervallumba átskálázzuk, ezt a M ethod Standardize Range 0 to 1 beállítással tehetjük meg. Hasonlítsuk össze az eredményt a korábbival! Alkalmazzuk a klaszterezést más módszerek mellett, mint a Nearest, vagy a F urthest neighbor. Mit tapasztalunk? (3) K-közép klaszterezés Ezúttal a Birthrate és Deathrate alapján klaszterezzünk, k-közép módszerrel. Ehhez válasszuk az Analyze Classify K means cluster, a változók mellett adjuk meg, hogy Label cases by : Country, valamint a Number of clusters legyen 5. A Save beállításnál válasszuk ki mindkét opciót. Ábrázoljuk ismét a Simple scatter diagramot. Mit tapasztalunk? 15

11. óra Nyissuk meg a irisz.sav állományt, amely különböz típusú írisz virágok adatait tartalmazza. Célunk az, hogy hatékony eljárást adjunk új mintaelemek besorolására a lehetséges 3 fajta egyikébe. Ehhez állapítsuk meg, el lehet-e szeparálni a csoportokat. (1) Scatter dot Ábrázoljuk párossával a változókat, gyeljük meg, hogy mely adatok alkalmasak a fajták elkülönítésére. Ehhez alkalmazzuk a Graphs Legacy dialogs Scatter dot M atrix scatter diagramot, válasszuk ki mind a négy adatot, mint változót, a színezés pedig legyen a fajta változó szerint (set markers by). Állapítsuk meg, melyek azok a csoportok, amik jól elkülönülnek a többit l, valamint hogy mely változók szeparálják a csoportokat. (2) Diszkriminancia analízis Végezzünk diszriminancia analízist a négy változó alapján. Válasszuk az Analyze Classif y Discriminant eljárást. Állítsuk be, hogy a Grouping variable legyen a fajta változó, adjuk meg, hogy a Range 1 és 3 között legyen. Az Independents mez nél állítsuk be a négy változót. A következ opciókra lesz szükségünk. A Statistics-nél M eans, U nstandardized. A Classif y résznél Summary table, Combined groups, T erritorial map, a Save-nél pedig P redicted group membership, Discriminant scores, P robability of group. Hány diszkrimincia függvényre van szükség? Határozzuk meg ezek egyenletét a Canonical discriminant f unction coef f icients táblázat alapján. Hány növény került rossz csoportba? Ezek a növények milyenek, és mivel magyarázzuk, hogy éppen k kerültek rossz csoportba? Az elmentett adatok alapján nézzük meg, milyen valószín ségek alapján soroltuk ezeket a rossz csoportokba. Határozzuk meg, hogy ezen eljárás alapján hová sorolnánk be azt a növényt, melynek adatai rendre 6, 3, 4 és 1? 16

12. óra Nyissuk meg a cars.sav állományt, mely az autók jól ismert adatait tartalmazza. Célunk az lesz, hogy az 5 számérték változót vizsgáljuk. Megpróbáljuk redukálni a szükséges jellemz k számát úgy, hogy ezen változók alapján minél több információt hordozó faktorokat határozunk meg. (1) Faktoranalízis Hajtsuk végre az Analyze Dimension reduction F actor eljárást a következ beállításokkal. A Descriptives-nél U nivariate deescriptives, Initial solutions, Coefficients, KMO and Bartlett s test of sphericity. Az Extraction-nél Unrotated factor solution, Scree plot, F ixed number of factors : 5. Végül a Scores-nál Save as variables, valamint Display f actor score coef f icients matrix. A Correlattion matrix alapján következtessünk arra, hogy van-e lehet ség csökkenteni az eljárás végrehajtására. Meggyeléseinket támasszuk alá a KM O Bartlett próba eredményével. Mennyire meggy z? Figyeljük meg T otal variance explained táblázat alapján, hogy az egyes faktorok a teljes variancia hány százalékát magyarázzák. Fejezzük ki a változókat a faktorok segítségével, a Component matrix alapján. Fejezzük ki a faktorokat a változók segítségével, a Component score coef f icient matrix alapján. Milyen változók a faktorok, hogyan viszonyulnak egymáshoz? Hány faktorra van szükségünk, amennyiben a teljes variancia 90 százalékát magyarázni akarjuk? Futtassuk le újra a korábbi eljárást. A korábbi beállításokat tartsuk meg, de ezúttal legyen az Extraction-nél a F ixed number of f actors : 2, valamint válasszuk ki a Decsriptives-nél a Reproduced és a Rotation-nél a Loading plot opciót. Hogyan közelítjük a változókat a két faktor segítségével? A Communalities táblázat alapján adjuk meg, hogy a kétváltozós modell hány százalékban magyarázza a változók varianciáját? Melyiket a legkevésbé, illetve a legjobban? A Reproduced correlations táblézat alapján, ha a változókat a két faktorral vett közelítésével helyettesítjük, akkor megváltoznak a korábbi kapcsolatok a változók között? Hol "rontjuk el" leginkább a kapcsolatot? Ez nagy változás? A Loading plot alapján próbáljunk jelentést tulajdonítani a két faktornak. 17