MÉRÉSKIÉRTÉKELÉS ÚTMUTATÓ A PSPP PROGRAM HASZNÁLATÁHOZ PMMK Környezetmérnöki Tanszék 2011 Összeállította: dr. Vétek Lajos
TARTALOMJEGYZÉK 1 BEVEZETÉS...3 2 A PROGRAM HASZNÁLATA...4 3 A FŐBB UTASÍTÁSOK...14 2
1 BEVEZETÉS Az SPSS for Windows c. program használata gyakori a műszaki gyakorlatban. A program a statisztikai elemzések széles tárházát nyújtja a felhasználónak, ezzel segítséget nyújtva a gyakran előforduló hibaelemzési, döntés-előkészítési, méréskiértékelési ill. egyéb statisztikai feladatok megoldásához. A PSPP egy program a mintavételezett adatok statisztikai elemzésére. Ingyenes helyettesítője a bejegyzett, szabadalmaztatott PSPP programnak, amihez nagyon hasonlónak bizonyul néhány eltérés kivételével. Ezen eltérések közül a legfontosabb, hogy nincsenek benne időzített bombák ; a saját PSPP kópiánk nem fog lejárni, vagy egyszer csak leállni valamikor a jövőben. És nincsenek mesterséges korlátai a felhasználható esettanulmányok számának, sem azok változatainak. Nincsenek további beszerzendő csomagok sem a magasabb funkciók eléréséhez; minden jelenleg a PSPP által támogatott funkció benne van az alapcsomagban. A PSPP képes leíró, magyarázó statisztikák, t-tesztek, lineáris regressziós és nem parametrikus tesztek futtatására is. Háttértámogatását az elemzések lehető leggyorsabb lefuttatására tervezték, a bevitt adatok mennyiségére való tekintet nélkül. Felmerülhet a kérdés, hogy miért szükséges mérnökök számára ezen program ismerete? A válasz nagyon egyszerű. Az egyetem elvégzése után sok hallgató kerülhet kapcsolatba kisebb vállalkozásokkal, cégekkel, ahol az SPSS használják. Egy átlag hallgató saját használatra, otthoni gyakorlásra az SPSS nem elérhető, de az igen hasonló felépítésű PSPP korlátlan felhasználásra rendelkezésre áll. Célunk, hogy kikerülve az egyetemről otthonosan mozogjanak leendő mérnökeink az adatfeldolgozás vezető programjának alkalmazása során is. Ebben segít többek között a PSPP a programnak a megismerése. 3
2 A PROGRAM HASZNÁLATA A program kezelése hasonló más, MS Windows alá készített programok kezeléséhez. Az utasításokat alapvetően egy menürendszer (ill. ikonok) segítségével adhatjuk ki, az utasítások paramétereit dialógus dobozok segítségével állíthatjuk be. 2.1Az adatmátrix szerkezete A program használata során minden műveletet az adatmátrixon hajtunk végre. Az adatmátrix a következőképpen néz ki: Változó 1 Változó 2... 1. objektum X 11 X 12 2. objektum X 21 X 22... Minden egyes objektumhoz különféle változó-értékek tartozhatnak. Az objektumok lehetnek például: kérdőíves lekérdezés esetén emberek méréssorozat kiértékelésekor különböző mérések egy vállalkozás adatainak az elemzésekor a különböző üzleti partnerek, stb. Minden egyes változóhoz egy jól meghatározott formátum tartozik. A változó formátuma a következő lehet: numerikus szöveges dátum, stb. Minden változóhoz tartozik egy változónév, amivel hivatkozunk rá az elemzések során, egy címke, amely a változó tartalmát szemléletesen írja le (egy commenthez hasonlóan), és a változó egyes értékeihez is tartozhatnak különböző címkék, melyek az értékek jelentéseit írják le. Amikor elkezdjük kitölteni az adatmátrixot a rendelkezésre álló adatokkal, akkor az első lépés mindig a változók meghatározása. Ez a következőképpen történik: rákattintunk az egérrel az oszlop első cellájára /ahol alapértelmezésben pl. var1 áll. ekkor megjelenik egy dialógus ablak: ebben értelemszerűen kitöltjük az adatokat. Ezt a műveletet minden változóra megismételjük, addig, amíg készen nem vagyunk. Ezután már kitölthetjük a megfelelő adatokkal az adatmátrixot. 4
2.2Első lépések Az 1. ábra a továbbiakban bemutatásra kerülő PSPP változat jelképével, verzió számával és a program hivatalos honlapjának címével ismerteti meg az olvasót.. 1. ábra A PSPP egy ingyenes, nyílt forráskódú szoftver, alternatívája a védett SPSS statisztikai programcsomagnak. A program fejlesztése intenzív. Az alábbi sorok Windows operációs rendszer alatt futtatható PSPP 0.7.5 verzió használatba vételének kezdő lépéseivel ismerteti meg az olvasót, a fejlesztési irányokat figyelve ezek a lépések időállók. Az jelképi címről letölthető. Ha az installálás során felkínált beállításokon nem változtatunk, akkor a program duplán kattintva az asztalon lévő ikonra indul el. A program, bejelentkező ablaka a DATA EDITOR (adatkezelő) - 2. ábra - nyílik meg. Az ablak az adatok kezelésére és a statisztikai elemzések elvégzésére alkalmas menüpontokat tartalmazza.. 2. ábra A program indítható: Start Menü/Programok/ PSPP utasítás-sorral is.. 2.3Adatbevitel 2.3.1 Egy korábban elmentett adatfile megnyitása 5
. 3. ábra A DATA EDITOR FILE menüjének megnyitása után (2.ábra) a legördűlő menü OPEN parancsára klikkelve (3. ábra) megjelenik egy párbeszédablak, ahol a megfelelő opció kiválasztása után a listából kijelölhető a korábban létrehozott adatállomány (4. ábra).. 4. ábra. 5. ábra A DATA EDITOR ablak bal alsórészén a DATA VIEW fülnek megfelelő (5. ábra) adat ablak, a 6. ábra a VARIABLE VIEW beállításnak megfelelő változó ablak jelenik meg. 6
. 6. ábra Tartalma. Egy hallgatói csoport középiskolai eredményeinek vizsgálata (matematika, fizika érettségi eredménye, hány éves korában szerezte meg nyelvvizsgáját, matematikaból alap vagy emeltszinten érettségizett) céljából létrehozott tábla. Figyelmes olvasó felfigyelt, hogy a megnyitott file *.sav kiterjesztésű. Fordítsunk egy-két percet a 3. ábrára a FILE legördülő menü szerkezetére. A FILE ablakból az alábbi műveletek végezhetők: NEW Új adatállomány megnyitása OPEN Már létező adatállományok megnyitása A PSPP által használt fájltípusok *.sav, *.por. IMPORT DELIMITED TEXT DATA- Meg tudja nyitni a tabulátorral formázott szöveges állományokat (*.txt). SAVE AS Adatállományok mentése másként (más hely / név / típus) RECENTLY USED DATA: legutóbb használt *.sav kiterjesztésű adatfájlok elérését teszi lehetővé. RECENTLY USED FILES: legutóbb használt nem *.sav kiterjesztésű adatfájlok elérését teszi lehetővé. 2.3.2 Más programba létrehozott adatfile megnyitása Példa: A 7. ábra egy Excel file, amelyben az Országos Légszennyező Mérőhálózat Pécs, Boszorkány úti mérőállomás alapvető mutatói találhatók napi gyakorisággal. (Forrás: www.kvvm.hu/olm/station.php?id=51) Datum SO2 NO NOX Ózon CO PM10 NO [µg/m3] [µg/m3] [µg/m3] [µg/m3] [µg/m3] [µg/m3] [µg/m3] 2010.10.08 26,49 14,08 16,64 44,05 364,79 20,74 2,56 2010.10.09 8,85 12,06 16,61 52,60 271,17 24,19 4,55 2010.10.10 8,04 12,70 19,54 60,13 487,34 27,34 6,82 2010.10.11 8,50 20,86 36,49 64,35 525,89 28,24 9,64 2010.10.12 8,95 19,04 31,39 69,09 417,95 27,14 12,31. 7. ábra Az Excel adatait olvassuk be a PSPP programba. Közvetlenül nem tudjuk, de tabulátorral tagolt szöveg file-ként szöveg(tabulátorral tagolt mentve a *.txt file már beolvasható. Végrehajtás lépései: a *.txt megnyitása FILE/IMPORT DELIMITED TEXT DATA//*.txt parancssoron keresztül lehetséges. A megjelenő táblák információval látják el a felhasználót (8. és 9. ábra) 7
. 8. ábra Az információn kívül javítási lehetőséget is felkínálnak.. 9. ábra. 10. ábra A PSPP-be bevitt adathalmazt a 10. ábra szemlélteti. Ha az adathalmaz tulajdonságai a további elemzéseknek, elvárt külalaknak megfelelnek az adabevitel kész, ha nem az ablakban VARIABLE VIEW nézetet választva a következő 2.3.3 pontban ismertetjük a változók beállításait pontosíthatjuk. 2.3.3 Elsődleges adatbevitel Az adatbevitel harmadik módja, amikor feldolgozásra DATA EDITOR felhasználásával egy új adathalmazt hozunk létre. A DATA EDITORban két ablak található: a DATA VIEW (11. ábra) 8
és a VARIABLE VIEW (12. ábra).. 11. ábra. 12. ábra A DATA VIEW-t használjuk a tényleges adatbevitelre, míg a VARIABLE VIEW arra szolgál, hogy az adathalmazban használt változók (tulajdonságok) szerkezetét meghatározzuk. A DATA EDITOR adatbevitelre szolgáló része egy táblázatból áll. A sorokat (egyedeket) felfoghatjuk úgy, mint egy adatbázis rekordját, míg az oszlopok tartalmazzák a változókat (tulajdonságokat). Akár itt is elkezdhetnénk az adatok bevitelét, de a munkánk szempontjából egyszerűbb, ha előbb megtervezzük az adatok szerkezetét, és csak azután látunk neki az adatbevitelnek. Ezzel sok felesleges hibalehetőséget, akadályt kerülhetünk ki, illetve előzhetünk meg. A VARIABLE VIEW segítségével könnyen és gyorsan beállíthatjuk az általunk használni kívánt váltózók tulajdonságait. Egy változónak a következő tulajdonságait adhatjuk meg: NAME: a változó neve, TYPE: a változó típusa, WIDTH: a változó maximális hossza, DECIMALS: ha számtípusú a változó, a tizedesek száma itt állítható be, LABEL: ha bővebb információt akarunk adni a változóról, mint ami a változónévből kiderül, itt címkézhetjük fel azt, VALUES: előre definiált értékeket, választási lehetőségeket állíthatunk be itt, például: vmi minősítse: jó/megfelelő; stb., MISSING: hiányzó értékek; ennek az adatnak kötelező-e a kitöltése, alapértelmezésben nem, 9
COLUMNS: az oszlop szélessége a monitoron, ALIGN: az adatok igazítása az oszlopon belül, MEASURE: NOMINAL, SCALE, ORDINAL A 13. ábra a változók tulajdonságainak beállítási helyei láthatók.. 13. ábra Példa: Az 1. táblázatban az Országos Légszennyező Mérőhálózat Pécs, Boszorkány úti mérőállomás alapvető mutatói találhatók. (Forrás: www.kvvm.hu/olm/station.php?id=51). 1. Táblázat No dátum SO 2 NO 2 NOx Ozon CO PM10 Ülepedő por NO [µg/m 3 ] [µg/m 3 ] [µg/m 3 ] [µg/m 3 ] [µg/m 3 ] [µg/m 3 ] [µg/m 3 ] X i1 X i2 X i3 X i4 X i5 X 6 X i7 X i8 X i9 1 2010,07,20 1,50 18,20 31,08 86,71 305,17 26,55 kiváló 12,87 2 2010,07,21 1,33 20,32 33,35 80,69 308,00 30,27 kiváló 13,08 3 2010,07,22 1,31 19,69 29,35 86,01 319,83 33,60 kiváló 9,65 4 2010,07,23 1,36 21,89 29,96 103,16 345,83 33,65 kiváló 8,07 5 2010,07,24 4,87 9,80 11,39 89,78 167,88 15,24 kiváló 1,59 6 2010,07,25 3,82 6,80 8,06 73,14 87,94 9,94 kiváló 1,26 7 2010,07,26 4,57 13,84 18,91 63,85 49,22 11,57 kiváló 5,07 8 2010.07.27 2,33 19,85 28,95 59,53 51,42 16,70 kiváló 9,10 9 2010.07.28 2,61 20,65 25,22 75,99 33,22 14,19 kiváló 4,57 10 2010.07.29 3,11 23,69 27,31 89,48 60,84 16,45 kiváló 3,62 Ülepedő por szerint a levegőben a porterhelés [µg/m 3 ] 0-40 kiváló; 40-80 jó; 80-100 megfelelő; 100-200 szennyezett; 200- erősen szennyezett minősítésű. A táblázat X ij mátrix elemei közti kapcsolat elemzését szolgáló táblát kívánunk létrehozni. Az adat bevitele PSPP-ben először a változók nevének megadásával kezdődik. Ezeket a táblázat első sorában találjuk, DATA VIEWben (Adatszerkesztő nézet), ahol minden mezőben alapértelmezettként var (variable) látható. A NAME (név)-ben be kell írni a változó rövid egyéni nevét. Ezután az egérkurzor segítségével kiválasztani a TYPE (Típus) fület, és megadni a változó típusát. Változtható az oszlopok szélessége a WIDTH (Szélesség)-ben, és a DECIMALS (Tizedes Helyek)-ben a tizedes vessző után. A LABEL (Címke) mező a változó kiterjesztett nevének beírására használatos, és a VALUES pedig egy megjelölés a változó értékeihez. 10
Amikor egy numerikus változót characteressé konvertálunk, akkor a kategorizált változók kódjai és címkéi a VALUES oszlopba írandók. Ha a szürke gombra kattintunk, az oszlop jobb oldali szélén megjelenik egy szövegdoboz, amiben feltűnik a VALUE labels felirat.. 14. ábra A VALUE (érték) mezőben 14. ábra - beírni a kódot, amivel a kategóriát megjelöljük, Pl. 1 a VALUE LABEL-ben, egyezik a kiváló -val, a tulajdonság hozzáadásá-re kattintva pedig 1= kíváló, ezzel be van írva a mezőbe. Ezután ugyanezt végrehajtjuk a többi minősítő szóval. A folyamat ismétlődik minden kategóriában, miután az OK gombbal megerősítetted. A MISSING VALUES (Hiányzó Értékek) segítségével lehetőséged van néhány értéket hiányzóként definiálni, egy másik változóba foglalni azokat, és külön elemezni. Az oszlopok szélessége meghatározható a COLUMNS (Oszlopok)-ban, a sorba rendezés az ALIGN-ban, és a MEASURE-ben pedig megadhatjuk a változók arányát. A numerikus értékek intervallumosak / méretarányosak és ezekkel a jelekkel nominálisak. Miután meghatároztuk a változót, az megjelenik a tábla első oszlopában. A többi változót ugyanilyen módon határozhatjuk meg (15. ábra).. 15. ábra A VARIABLE VIEW ablak bal alsó részén található fülre kattintva megjelenik a DATA VIEW ablak, amelybe az adatok rögzíthetők (16. ábra). 11
. 16. ábra Általános tudnivalók a változók tulajdonságainak a meghatározásánál: A változó neve (NAME) maximum 8 karakter lehet. Ha egyértelművé szeretnénk tenni a rövidítést, akkor használjuk a LABEL adta lehetőséget, ahol felcímkézhetjük a változót. Ebben az esetben, ha a váltózó névére mutatunk az egérkurzorral, akkor megjelenik a címke a teljes meghatározással. A változó típusaként (TYPE) megadhatunk számot, dátumot, sztringet (alfanumerikus típust), dollárt és még sok egyebet. A változók alapértelmezésben numerikusak. Ha ettől eltérő adattípust akarunk alkalmazni, akkor előbb definiálni kell azt. A VARIABLE VIEW nézetet használva, az adatunkhoz tartozó TYPE cellára kattintva, az alábbi párbeszédablak segítségével könnyen elvégezhetjük a típus beállítását a megfelelő opciógomb kiválasztásával, valamint az aktualizálódó kiegészítések megadásával (például: milyen legyen a dátumformátum). A változó hossza (WIDTH) alapértelmezésben 8 karakter. Ha használni szeretnénk az előre defíniált értékeket a VALUES segítségével, ne változtassunk ezen az adaton, mert különben nem tudunk értékeket adni a változónak a VALUES oszlopban. A LABEL adta címkézési lehetőséget akkor is érdemes használni, ha egyértelmű a változó neve, mert ebben a cellában adhatjuk meg azokat a leírásokat, meghatározásokat, amiket viszont szeretnénk látni a táblázatokban, diagramokban feliratként. Gyakorló példa. Nyissuk meg az PSPP programot, és a következő adatokat tároljuk el egy hallgatóról: Neve Melyik tagozatra jár? 1: nappali, 2: levelező. Milyen szakot vett fel? 1: épitőmérnöki BSc, 2: építészmérnöki BSc, 3:környezetmérnöki BSc. 12
Tanulmányi átlaga Neme 1: fiú, 2: lány. Lakhelye 1: Budapest, 2: vidék. A tanátlag változó kivételével (amely numerikus adat) mindegyik változónk sztring típusú. A tagozat, szak, neme, lakhely nevű változóknál választási lehetőségként értéket adtunk a változóknak. Ezt a következőképpen tehetjük meg: Kattintsunk az adott változó VALUES cellájára, majd a következő párbeszédablak segítségével gépeljük be a felvehető konkrét értékeket. A végeredmény így nézhet ki:. 17. ábra Ezután következhet az adatok felvétele.. 18. ábra 13
. 19. ábra Ha már vannak konkrét adataink, akkor elkezdhetjük a statisztikai elemzéseket. A program alapvetően két felületet használ: DATA EDITOR(Adat szerkesztő felület/ablak) ahol adatokat tudunk bevinni, illetve módosítani/szerkeszteni, OUTPUT Viewer (Eredmény Kijelző felület/ablak) minek segítségével a táblák, grafikonok, és a feldolgozott statisztikai eredmények jelennek meg nyomtatható formában. Az eredmény kijelző ablak még nincs megjelenítve, mivel az a statisztikai feldolgozás végbemenetelét követően automatikusan megjelenik. 3 A FŐBB UTASÍTÁSOK Az PSPP program számtalan lehetőséget nyújt az adatok kezeléséhez. A méréskiértékelés keretein belül ezeknek csak egy töredékével fogunk megismerkedni. 3.1Az adatbázist módosító utasítások Az elkészült adatbázist többféleképpen módosíthatjuk. A legtöbb esetben az átkódolást akkor használjuk, amikor fordított tételeket akarunk megfordítani. valamint akkor, amikor egy változó értékeit - valamilyen új szempont szerint - kategorizálni szeretnénk. Ebben segít a Recode utasítás. A parancs használatánál lehetőség van arra, hogy az eredeti változót kódoljuk át, vagy új változót hozunk létre 3.1.1 Átkódolás 14
Ezzel a funkcióval kategorizálhatunk egy folytonos változót. A levegő szennyezettségnek megítélése a légszennyezőtől függően változik. Az összetevők veszélyességének jellemzésére használt minősítés az adott komponens egy m 3 levegőtérfogatban lévő tömegén alapszik. Ezeket a határérték táblázatokban foglalták össze. A határértékek (osztályhatárok) felhasználásával az PSPP-ben el tudjuk végezni a mért komponens érték szennyező típusra vonatkoztatott minősítését (20. ábra).. 20. ábra. 21. ábra Példa: A 21. ábrán egy levegő szennyezettség mérés adathalmazát mutatja be. Három mérőhelyen (hely), öt fajta szennyezettség (NO 2, SO 2,) µg/m 3 mértékegységű adatai, 7 napra vonatkoztatva vannak a táblázatban rögzítve. Feladatunk a szennyezettség mért értékeit - a 20. ábra minősítési rendszerének megfelelően minősítési adatra cserélni. Megoldás lépései: lev_pecs.sav file megnyitása TRANSFORM RECODE INTO DIFFERENT VARIABLES menüpontokra klikkelve 22. ábrán látható ablak nyílik meg. Az NO2 adatokat cseréljük minősítésűre, az új váltózó legyen NO2_min jelű. A baloldali listából válasszuk ki az újrakódolandó változót: NO 2 kijelölés a VARIABLES mezőbe old -ként megjelenő NO 2 -re klikkelés után beírjuk az új változó nevét és kitöltjük a címkéjét. majd a CHANGE gombra klikkelve az új kód megjelenik a VARIABLES mezőben.. 22. ábra 15
A kódok numerikus értékek lesznek. A következő feladat az 5 minősítési osztály határainak megadása.. 23. ábra OLD AND NEW VALUES RECODE INTO DIFFERENT VARIABLES: OLD AND NEW VALUES ablakban az OLD VALUE oldalon RANGE, LOWEST THRU VALUE jelölése és a 40-es osztályhatár megadása NEW VALUE oldalon VALUE gombra klikkelés és az 1-es osztálynév megadása. Jelentése: 40-nél alacsonyabb értékű régi változó az 1-es új változó minősítést kapja (23. ábra). Az átalakítást ADD ra klikkelve jóvá kell hagyni. Az osztályhatárok bevitele még háromszor azonosan ismétlődik. Az utolsó megadása Old VALUE oldalon RANGE, THRU HIGHEST és a 400-as osztályhatár megadása NEW VALUE oldalon VALUE gombra klikkelés és az 5-ős osztálynév megadása ADD (24. ábra). Befejező lépések az OUTPUT VARIABLES ARE STRINGS WIDTH: 1 CoNTINUE után megnyíló ablakban CONTINUE menü végrehajtása (25. ábra).. 24. ábra. 25. ábra Egy feladat még hátra van, a NO2_min változó minősítési értékeinek - 26. és 27. ábra - megadása. 16
. 26. ábra. 27. ábra 17