- BESZÁMOLÓ - ALKALMAZOTT GEOMATEMATIKA, MODELLEZÉS ÉS SZIMULÁCIÓ C. TANTÁRGYHOZ Készítette: BERTALAN LÁSZLÓ Geográfus MSc. I. évf. DEBRECEN 2011.
T A R T A L O M J E G Y Z É K 1. Felhasznált adatok 2. 2. Feladatok..2. 2.1. Feladat..2. 2.2. Feladat..4. 2.3. Feladat..7. 2.4. Feladat..9. 2.5. Feladat 13. 2.6. Feladat...14. - 1 -
1. Felhasznált adatok Beszámolóm során két darab adatsorral dolgoztam, melyet a National Climatic Data Center (NCDC) honlapjáról töltöttem le ingyenesen. 1 Mindkét adatsor egy 5éves intervallumot fed le (2005. január 1-től 2010. december 31-ig), napi bontással. Ezek az adatsorok két városon belül lettek rögzítve, ezek: Szeged és Eger. Az adatsorok többféle változót is tartalmaznak, azonban én ezek közül a harmatpontokkal dolgoztam az elemzéseim során, a többit kitöröltem. Az adatsorok.txt szövegfájlként tölthetők le, ezeket Microsoft Excel 2003 szoftverbe importáltam be.xls formátumban a statisztikai elemzések elvégzése céljából. A harmatpont a levegőnek az a hőmérséklete, amelyen az adott nedvességtartalmú levegő a folyékony vízre nézve telítetté válik. A harmatpontnál alacsonyabb környezeti hőmérsékletnél megindul a víztartalom kicsapódása, a kondenzáció. A harmatpont lehet fagyáspont alatti hőmérséklet is. Az NCDC adattáblájában Fahrenheit-skálát alkalmaztak, azonban Magyarországon a Celsius-skála a használatos, ezért a két adatsort át kellett váltanom F-ről C-ra. Ehhez az alábbi átváltó képletet alkalmaztam: 5*( F-32)/9 Ezt követően kezdtem neki a konkrét feladatok elvégzéséhez. 2. Feladatok 2.1. Határozzuk meg az adatsor főbb statisztikai paramétereit (átlag, szórás, kvartilisek, medián, módusz, terjedelem, interkvartilis tartomány, stb.) A feladat elvégzéséhez a MS Excel beépített függvényeit használtam (ÁTLAG, SZÓRÁS, MEDIÁN, MÓDUSZ, MAX, MIN, KVARTILIS). Egyéb statisztikai paramétereket az Excel Analysis Toolpak bővítmény Leíró statisztika-készítő segítségével számítottam ki. Az eredményeket az alábbi táblázatok szemléltetik: 1. táblázat: az adatsorok statisztikai paraméterei /1. 1 http://www7.ncdc.noaa.gov/cdo/cdoselect.cmd?datasetabbv=gsod&countryabbv=&georegionabbv= - 2 -
2-3. táblázatok: az adatsorok statisztikai paraméterei /2. Látható, hogy az automata leíró statisztika és az általam használt képletes számítási módok a közös paraméterek esetén azonos eredményt hoztak, ez tehát segít az esetleges hibákat kiszűrni. Az átlagok alapján elmondható, hogy Szeged a vizsgált időszakban magasabb volt a harmatpont, tehát nem kellett annyira lehűlnie ahhoz, hogy kicsapódjon a vízgőz, magyarul könnyebben keletkezett csapadék. Előfordultak természetesen kiugró értékek az átlaghoz képest, ilyenek pl. egy szegedi -16,61 C-os minimumérték, sőt Egerben ennél jóval alacsonyabb -20,33 C is mérhető volt. A maximum tekintetében azonosak, mindkettő 20 C körüli. Ezek az eltérések az évszakok (tél-nyár) váltakozásához köthetőek. A szórás azt méri, hogy az értékek a várható értéktől (középértéktől) milyen mértékben térnek el. Ebben a paraméterben Eger mutatott nagyobb eltérést. Az 1824 adatból álló adatsor terjedelme (maximum-minimum) mindkét városban közel azonos 40 C körüli. Az interkvartilis tartomány sem mutat nagy különbséget: mindkettő 10 C körüli. Az adatsorok leggyakoribb eleme (módusz) Egerben volt alacsonyabb (-1,11 C), ez összefügg az átlaggal is, miszerint itt alacsonyabb az átlagos harmatpont, valamint Magyarország területét Szegeden éri a legtöbb napfény több mint 2100 óra napsütés. Az interkvartilis tartomány az a minta mediánja alatti adatokra számított medián (alsó kvartilis) és az eredeti medián feletti adatokra számított medián (felső kvartilis) közötti különbség, ehhez tehát a képlettel kiszámított kvartilisek különbségét vettem. - 3 -
2.2. Határozzuk meg eloszlás- és sűrűségfüggvényét! Rajzoljuk meg a hisztogramot! Ennél a feladatnál szintén a MS Excel egyik beépített függvényét alkalmaztam, melynek kétféle módon történő alkalmazásával az eloszlás- és a sűrűségfüggvény előállítható. Ez a függvény a NORM.ELOSZL nevű függvény. Alkalmazása előtt azonban szükség volt még néhány lépésre. Először is a terjedelmek alapján kialakítunk 10intervallumot, amelyek alapján gyakoriság, és a normál eloszlás függvényei számolhatók. A normál eloszlás eloszlás- és sűrűségfüggvényeinek kiszámításához a függvénynek még szüksége volt az adatsorok szórására és átlagára is. A függvény típusakor meg kellett adni a logikai értéket: ha IGAZ, akkor eloszlásfüggvény, ha HAMIS, akkor sűrűségfüggvény számítható. Ezeket táblázatos formában jelenítettem meg (4-5. táblázat). Valamint kiszámítottam még az adott adatsorok relatív gyakoriságát, amit az Analysis Toolpak kiegészítő Hisztogram-készítőjével számítottam a megadott intervallumok (rekesz) segítségével. Ezt valamint a normáleloszlás eloszlásfüggvényét egy közös hisztogramon ábrázoltam. A normáleloszlást itt 100-al szorozva alkalmaztam, ezzel tettem azonos nagyságrendűvé a relatív gyakorisággal, a jobb szemléltetés érdekében. (1-2. ábra.) 4-5. táblázat: az adatsorok eloszlás- és sűrűségfüggvényei - 4 -
HISZTOGRAM - SZEGED Gyakoriság 20 18 16 14 12 10 8 6 4 2 0-17 -13-9 -5-1 3 7 11 15 21 Intervallumok Relatív gyakoriság Normál eloszlás 1. ábra: Szeged hisztogramja HISZTOGRAM - EGER Gyakoriság 40 35 30 25 20 15 10 5 0-21 -17-13 -9-5 -1 3 11 15 20 Intervallumok Relatív gyakoriság Normál eloszlás 2. ábra: Eger hisztogramja A hisztogram az egyes intervallumokba eső minták számát mutatja. A mintaszámot oszlopok formájában összegzi, ahol az oszlop magassága arányos az intervallumba eső minták számával. A hisztogram a szóban forgó változó eloszlásának alakját, az eloszlás centrumát, és az adatok változékonyságának intervallumát mutatja. Az y tengely a gyakoriságot, az x tengely pedig a vizsgált intervallumokat tartalmazza. A két hisztogramot vizsgálva megállapítható, hogy egy móduszúak tehát ideálisak, bár Szeged esetében ez az eloszlás nem egy nagy kiugró értékben csúcsosodik ki, hanem homogénebb eloszlást mutat. - 5 -
A feladat végén egy olyan vizsgálatot végeztem, ahol az adatsorok normáleloszlásának változása van feltüntetve az átlagok és a szórás változtatásával a függvényben. (6-7. táblázat) 6-7. táblázat: a normáleloszlás változása átlag és szórás változtatásával Ezen adatok vonaldiagramon is ábrázoltam, s megfigyeltem, hogy az átlag csökkentésével a görbék egyre alacsonyabbak lettek, míg a szórás csökkentésével egyre magasabbak. (3-4. ábra) Normáleloszlás-vizsgálat - Szeged Normáleloszlás-vizsgálat - Eger 0,16 0,14 0,14 0,12 0,1 0,08 0,06 0,04 0,02 alap átlag 5 átlag 4 átlag 3 átlag 2 szórás 6 szórás 5 szórás 4 szórás 3 szórás 2,5 0,12 0,1 0,08 0,06 0,04 0,02 alap átlag 3,5 átlag 2,5 átlag 1,5 átlag 0,5 szórás 6,5 szórás 5,5 szórás 4,5 szórás 3,5 szórás 2,5 0-17 -13-9 -5-1 3 7 11 15 21 0-21 -17-13 -9-5 -1 3 11 15 20 3. ábra: Szeged normáleloszlás-változatai 4. ábra: Eger normáleloszlás-változatai - 6 -
2.3. Ellenőrizzük normalitását Kolmogorov-Szmirnov próbával! Ennél a feladatnál a null-hipotézisünk H 0 az, hogy az adatsoraink normáleloszlásúak. Ennek vizsgálatát a Kolmogorov-Szmirnov próbával kellett elvégeznem. Ez a teszt azt számítja ki, hogy az adott minta eloszlása szignifikánsan különbözik-e a normál eloszlástól, vagyis a városok harmatpontjai a vizsgált időszakban normáleloszlást mutatnak, sajátos rendellenességek megjelentek-e? Esetünkben a 0,05-nél kisebb szignifikancia értékek mellett a null-hipotézist, vagyis azt, hogy az adatsorok normáleloszlásúak, elutasítjuk. A Kolmogorov-Szmirnov tesztet SPSS 16.0 szoftverrel végeztem (Analyze > Nonparamethric Tests > One Sample Kolmogorov-Smirnov Test). A kapott eredményeket a 6. táblázat mutatja be: 6. táblázat: a Kolmogorov-Szmirnov teszt eredménye Megállapítható, hogy mindkét város adatsorában a szignifikancia szint nagyobb, mint 0,05, tehát a null-hipotézist megtartjuk a harmatpont adatsorok mindkét városban normáleloszlást mutatnak. A két adatsor normáleloszlásának megállapítására más módszer is van, ezt ellenőrzésként alkalmaztam. A P-P diagram az adatsor elemeit olyan p,x (valószínűségi) koordináta-rendszerben ábrázoljuk, amelyben a pontok jó normáleloszlású illeszkedés esetében egyenest vesznek fel. Tehát ez alapján szintén vizsgálható a két adatsor normalitása. Az eredményeket a 4. ábra szemlélteti: - 7 -
4. ábra: a két város adatsorainak P-P diagramja A két diagram egyértelműen igazolja Kolmogorov-Szmirnov tesztünk helyességét, ugyanis elég nagymértékben illeszkednek a pontok az egyenesre, vagyis adatsoraink normáleloszlásúak. - 8 -
2.4. Vizsgáljuk meg milyen egyéb eloszlással közelíthető. Ellenőrizzük Q-Q diagrammal. A feladat elvégzéséhez a gyakorlatok során más eloszlás-típusokkal is megismerkedtünk, azonban ezek alkalmazhatósága akadályba ütközött elemzésem során. A gyakorlatokon Weibull-eloszlást, Chi 2 -eloszlást is vizsgáltunk, ezek azonban csupán pozitív intervallumokkal és adatokkal végezhető el. MS Excel és SPSS szoftverekkel is hibaüzenetként megjelent ez a megállapítás. Ezáltal a gyakorlaton alkalmazott eloszlások helyett más eloszlásokat vizsgáltam SPSS szoftverben Q-Q diagramok segítségével (ami a feladat szövegében is feltétel). Ezeket a diagramokat az alábbi ábrák szemléltetik: 5. ábra: a két adatsor Laplace-eloszlásának Q-Q diagramja - 9 -
6. ábra: a két adatsor Logisztikus eloszlásának Q-Q diagramja - 10 -
7. ábra: a két adatsor Student-eloszlásának Q-Q diagramja A feltüntetett Q-Q diagramok alapján megállapítható, hogy leginkább a Logisztikus eloszlással közelíthető a normáleloszláshoz. A Laplace-féle eloszlás is közelít, azonban található benne egy nagyobb kibillenés, mint a Logisztikus esetében. A Student-eloszlás pedig egyáltalán nem közelíthető. - 11 -
Végeztem egy olyan vizsgálatot is, ami részben a 2. feladathoz kapcsolódik. A relatív gyakoriságot a normáleloszlásokkal közös Q-Q diagramon ábrázoltam, ezzel ellenőrizve a normáleloszlás tényét. Ahogy azt a 8-9. ábrák is mutatják, a normáleloszlás ténye leolvasható, bár a pontok alacsony darabszámának köszönhetően nem olyan egyértelmű. Q-Q diagram Szeged 0,06 0,05 Normáleloszlás 0,04 0,03 0,02 0,01 0 0 0,05 0,1 0,15 0,2 0,25 Relatív gyakoriság Q-Q diagram Lineáris (Q-Q diagram) 8. ábra: Szeged Q-Q diagramja Q-Q diagram Eger 0,06 0,05 Normáleloszlás 0,04 0,03 0,02 0,01 0 0 0,5 1 1,5 2 2,5 3 3,5 4 Relatív gyakoriság Q-Q diagram Lineáris (Q-Q diagram ) 9. ábra: Eger Q-Q diagramja - 12 -
2.5. Keressünk kapcsolatot a két változó között és ellenőrizzük mennyire erős a kapcsolat. Az általam vizsgált két változó között kapcsolat vizsgálatához a korreláció-analízis módszerét alkalmaztam. A két változó között egyenes arányú, fordított arányú vagy hiányzó kapcsolat (pozitív, negatív vagy nem létező korreláció) lehet. A korrelációs vizsgálatot elvégezhetjük a MS Excel KORREL beépített függvényével, ám én emellett SPSS szoftverben is elvégeztem, hogy biztosra menjek a helyes következtetés levonása során. Először is mivel az adatsoraim normáleloszlásúak, megállapítottam, hogy a szoftverben Pearson-féle korreláció vizsgálatát kell elvégezni. Ezt követően az Analyze > Correlate > Bivariate paranccsal végrehajtottam a számítást. Az eredményt a 7. táblázat szemlélteti: 7. táblázat: a két változó között számított korreláció A MS Excel és az SPSS szoftverek által kiszámított korrelációs koefficiensek megegyeznek, tehát a számításom helyes. Az általam kapott r korrelációs koefficiens a két város adatsora között 0,74. A korrelációs koefficiens alapján megállapítható, hogy milyen a két változó között kapcsolat erőssége. Esetemben tehát r = 0,74 korrelációs koefficiens alapján 0,75 > r > 0,5 feltétel mellett a kapcsolat SZOROS valamint más szakirodalom megnevezése szerint MÉRSÉKELTEN ERŐS VAGY ERŐS. - 13 -
2.6. Ellenőrizzük t-próbával, hogy a korrelációs koefficiens tényleg szignifikáns kapcsolatot mutat-e. Jellemezzük a kapcsolat jellegét! Első lépésben ellenőrzik, hogy a két adatsor szórása azonosnak tekinthető-e. Ezt külön statisztikai próba (F-próba) segítségével ellenőrizhetjük. Csak akkor alkalmazhatjuk a kétmintás t-próbát, ha az F-próba a szórások között szignifikáns különbséget nem mutat. Szignifikáns különbség esetén a kétmintás t-próbát nem lehet alkalmazni. Az F-próbát a MS Excel F.PRÓBA nevű beépített függvényével végeztem el, ahol eredménynek a következő jött ki: F számított = 0,0139 A második lépés a p szignifikancia szint megválasztása. Vegyük a szignifikancia szintet p = 0,05-nek, ami azt jelenti, hogy 5%-os kockázatot vállalunk arra, hogy esetleg úgy vetjük el a null-hipotézist, hogy az közben igaz. A p szignifikancia szinttől függő F-érték kiválasztása a próbának megfelel ő f-eloszlás táblázatból történt. A táblázat kétdimenziós, a p szignifikancia szint és az f szabadsági fok ismeretében azonnal megkapjuk a táblázatbeli t értéket. Az f-szabadságfokokat végtelenre vettem az 1824 db adat miatt, így a táblázatból kiolvasott F-érték 1,00. F kritikus = 1,00 > F számított = 0,0139 tehát a két szórás közti különbség 95 % biztonsággal nem szignifikáns. Nincs eltérés. Ezután vizsgáltam a korrelációs koefficiens r szignifikanciáját. H 0 : R = 0 A két változó egymástól független normális eloszlású (tehát ez a null-hipotézisem). Ha H 0 igaz, akkor r alábbi függvénye f=n 2 szabadság fokkal t eloszlást követ: Ha adott b mellett t számított > t kritikus, akkor H 0 t elvetjük és e=1 b megbízhatósággal állíthatjuk, hogy a két változó között sztochasztikus kapcsolat áll fenn. A korrelációs koefficiens r, az elemszám n. A t kritikus érték p=5% esetén a táblázatból végtelen szabadságfokokkal kiolvasva 1,96. A t számított a fenti képlettel MS Excelben kiszámítva 46,9618. t számított = 46,9618 > t kritikus = 1,96 tehát a két változó között sztochasztikus kapcsolat áll fenn. - 14 -