Adatok gyűjtésének és értékelésének módszerei Domokos, Endre Csom, Veronika

Hasonló dokumentumok
Matematikai statisztikai elemzések 2.

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 7. MA3-7 modul. Helyzetmutatók, átlagok, kvantilisek

GAZDASÁGI STATISZTIKA

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

Matematikai statisztikai elemzések 1.

INTELLIGENS ADATELEMZÉS

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

Statisztika gyakorlat

STATISZTIKA I. Tantárgykódok. Oktatók. Időbeosztás. Tematika Előadás Bevezetés, a statisztika szerepe

Komputer statisztika gyakorlatok

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

2014. évi összesítő értékelés hazánk levegőminőségéről az automata mérőhálózat adatai alapján

Elméleti összefoglalók dr. Kovács Péter

Idősoros elemző. Budapest, április

KVANTITATÍV MÓDSZEREK

S a t ti a s ti z s ti z k ti a k i a i soka k s a ág Megfigyelési egység Statisztikai ismérv

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

On-line értékelési módszerek II. Lengyelné Molnár Tünde

MUNKAANYAG. Szabó László. Szilárdságtan. A követelménymodul megnevezése:

Környezetmérnökök katasztrófavédelmi feladatai Dr. Földi, László Dr. Halász, László

Mérnökgeodézia 5. Mérnökgeodéziai kitűzési munkák. Dr. Ágfalvi, Mihály

KÖZÉP-DUNÁNTÚLI KÖRNYEZETVÉDELMI, TERMÉSZETVÉDELMI ÉS VÍZÜGYI FELÜGYELŐSÉG. Levegőminőségi terv

Statisztika. A statisztika fogalma. Követelmények. Sokaság fogalma. Ismérv fogalma. Adatok összehasonlíthatósága

17/2001. (VIII. 3.) KöM rendelet

Ittfoglalomösszea legfontosabbtudnivalókat, részleteka honlapon, illetvea gyakorlatvezetőtől is kaptok információkat.

Doktori Ertekez es J osvai J anos Sz echenyi Istv an Egyetem, M uszaki Tudom anyi Kar 2012

Összefoglaló elemzés a 2008 során a televíziókban sugárzott reklámokról

Csicsman József-Sipos Szabó Eszter Matematikai alapok az adatbányászati szoftverek első megismeréséhez

Légsebesség profil és légmennyiség mérése légcsatornában Hővisszanyerő áramlástechnikai ellenállásának mérése

ÚTMUTATÓ A MÓDSZERTANI SZIGORLAT LETÉTELÉHEZ

A hazai jövedelemegyenlõtlenség fõbb jellemzõi az elmúlt fél évszázad jövedelmi felvételei alapján*

Ellenőrző kérdések és feladatok... 53

5.20 Kémia a 7 8. évfolyama számára

2. MÉRÉSELMÉLETI ISMERETEK

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Sebesség A mozgás gyorsaságát sebességgel jellemezzük. Annak a testnek nagyobb a sebessége, amelyik ugyanannyi idő alatt több utat tesz meg, vagy

ELEMI VALÓSZÍNŰSÉGSZÁMÍTÁS és STATISZTIKAI MÓDSZEREK A FIZIKÁBAN

MUNKAANYAG. Angyal Krisztián. Szövegszerkesztés. A követelménymodul megnevezése: Korszerű munkaszervezés

Nemzeti alaptanterv 2012 MATEMATIKA

Általános Iskola 1 Helyi tanterv Érd, Fácán köz 1. Módisítva: évfolyam

LADÁNYI ERIKA A SZENVEDÉLYBETEGEK NAPPALI ELLÁTÁST NYÚJTÓ INTÉZMÉNYEIRŐL

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

Matematikai statisztikai elemzések 5.

6. RADIOAKTIVITÁS ÉS GEOTERMIKA

Kecskeméti Fıiskola GAMF Kar Informatika Tanszék. Johanyák Zsolt Csaba

MRR Útmutató a Kockázat értékeléshez és az ellenőrzési tevékenységekhez

MATEMATIKA ÉVFOLYAM

Az oszlopdiagram kinézhet például úgy, mint a bal oldali ábra. 1,2 1,0 0,8 0,6 0,4 0,2. Kategória busz teherautó furgon személyautó összesen

4. modul Poliéderek felszíne, térfogata

TARTALOMJEGYZÉK. Kedves Hallgató!... 9

9. Jelzőlámpás csomópontok forgalomszabályozása

Prezentáció használata

KEZEK - Észak-Magyarország felsőoktatási intézményeinek együttműködése TÁMOP C-12/1/KONV. V. alprogram: Minőségirányítási rendszer fejlesztése

Könyvtári minőségfejlesztés könyvtári korszerűsítés

Geoinformatikai szakember szakirányú továbbképzési szak

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

2.0 változat június 14.

1/8. Iskolai jelentés. 10.évfolyam matematika

KÉPZÉSI PROGRAM PÉNZÜGY ÉS SZÁMVITEL ALAPKÉPZÉSI SZAK

a(z) XV. VEGYÉSZ ágazathoz tartozó VEGYÉSZ TECHNIKUS SZAKKÉPESÍTÉSHEZ

A dolgozatot a négy érdemi fejezetben tárgyalt eredményeket tartalmazó 9 oldalas Összefoglalás ( o.) zárja le.

Mérnökgeodézia 8. Vonalas létesítmények építésének, gépészeti berendezések szerelésének geodéziai feladatai. Ágfalvi, Mihály

ÖSSZEADÁS, KIVONÁS AZ EGY 0-RA VÉGZŐDŐ SZÁMOK KÖRÉBEN

(összevont laboratóriumi tananyag I.) Szerzők: az ELTE Természettudományi Kar oktatói. Szerkesztette: Havancsák Károly

A Szekszárdi I. Béla Gimnázium Helyi Tanterve

Hogyan kerül(jön) az e-könyv a könyvtárba?*

M é r é s é s s z a b á l y o z á s

JOGSZABÁLY. LI. ÉVFOLYAM, 15. SZÁM Ára: 693 Ft JÚNIUS 5. TARTALOM. 1. (1) A rendelet hatálya fenntartótól függetlenül

L OVASSY L ÁSZLÓ G IMNÁZIUM HELYI TANTERV ÉS TANTÁRGYI PROGRAM. Földrajz Készítette: B EREGINÉ S IMON Á GNES

KÉPZÉSI PROGRAM KERESKEDELEM ÉS MARKETING ALAPKÉPZÉSI SZAK

GPS-mérések abszolút feldolgozását terhelô hibahatások vizsgálata

I. Gondolkodási módszerek: (6 óra) 1. Gondolkodási módszerek, a halmazelmélet elemei, a logika elemei. 1. Számfogalom, műveletek (4 óra)

PÁLYÁZATI KIÍRÁS az Európai Területi Társulások évi támogatására (A pályázat kódja: ETT-13)

Helyi tanterv. Batthyány Kázmér Gimnázium Matematika emelt ( óra/hét) 9-12 évfolyam Készült: 2013 február

Közép-dunántúli régió területi államigazgatási szervei novemberi informatikai felmérésének összesítése, értékelése

NT Matematika 9. (Heuréka) Tanmenetjavaslat

Levegőtisztaságvédelem. Eötvös József Főiskola Műszaki Fakultás, Vízellátás-Csatornázás Tanszék 1.

A SZÉL ENERGETIKAI CÉLÚ JELLEMZÉSE, A VÁRHATÓ ENERGIATERMELÉS

MATEMATIKA Kiss Árpád Országos Közoktatási Szolgáltató Intézmény Vizsgafejlesztő Központ

Országos kompetenciamérés 2007 Feladatok és jellemzőik. matematika 10. évfolyam

Statisztikai módszerek

MUNKAANYAG. Seregély István Zoltánné. Munkaszervezési feladatok a gumiiparban. A követelménymodul megnevezése: Gumiipari technikusi feladatok

Doktori munka. Solymosi József: NUKLEÁRIS KÖRNYEZETELLENŐRZŐ MÉRŐRENDSZEREK. Alkotás leírása

Számsorozatok Sorozat fogalma, példák sorozatokra, rekurzív sorozatokra, sorozat megadása Számtani sorozat Mértani sorozat Kamatszámítás

STATISZTIKAI TÜKÖR. A háztartási munka értéke, háztartási szatellitszámla Magyarországon április 5.

Visszatérítő nyomaték és visszatérítő kar

A továbbhaladás feltételei fizikából és matematikából

MUNKAANYAG. Szabó László. Oldható kötések alkalmazása, szerszámai, technológiája. A követelménymodul megnevezése: Épületgépészeti alapfeladatok

MONITOR: JÖVEDELEM, SZEGÉNYSÉG, ELÉGEDETTSÉG. (Előzetes adatok)

Országos kompetenciamérés. Országos jelentés

Könyvszemle. Szakirodalom

Spike Trade napló_1.1 használati útmutató

FAUR KRISZTINA BEÁTA, SZAbÓ IMRE, GEOTECHNIkA

8. osztály. Felhasznált tankönyv: Pedellus Tankönyvkiadó, Debrecen, 2009; 2009

FESZÜLTSÉG MINŐSÉG ÉRTÉKELÉSE. a évi elosztói engedélyesi beszámolók alapján

Iskolai teljesítmény iskolai átszervezés

SZAKMAI TANTERVI ADAPTÁCIÓ a BEVONTELEKTRÓDÁS KÉZI ÍVHEGESZTŐ részszakképesítés HÍD II. programban történő 2 éves oktatásához

Átírás:

Adatok gyűjtésének és értékelésének módszerei Domokos, Endre Csom, Veronika

Adatok gyűjtésének és értékelésének módszerei Domokos, Endre Csom, Veronika

Tartalom 1. Jelmagyarázat és rövidítésjegyzék... 1 2. Bevezetés... 2 3. Nagy mennyiségű adatok feldolgozásának statisztikai alapjai... 3 1. Alapfogalmak... 3 1.1. Sokaság... 3 1.2. Ismérv (attribútum)... 4 1.3. Mérés... 4 1.4. Statisztikai sor... 5 2. Viszonyszámok... 6 2.1. Dinamikus viszonyszám... 6 2.2. Megoszlási viszonyszám... 7 2.3. Intenzitási viszonyszám... 7 2.4. Számításértelmezési feladat... 8 3. Eloszlás-elemzés... 8 3.1. Gyakorisági sorok... 9 3.1.1. Osztályközös gyakoriság számításának lépései... 10 3.1.2. Kumulálás (halmozott összeadás)... 12 3.1.3. Értékösszegsor... 15 3.2. Kvantilisek... 16 3.3. Középérték... 18 3.3.1. Medián (Me)... 18 3.3.2. Módusz (Mo)... 20 4. Statisztikai mutatók... 24 4.1. Terjedelem... 24 4.1.1. (Rendes) terjedelem... 25 4.1.2. Interkvantilis (nyesett) terjedelem... 26 4.2. Statisztikai momentumok... 27 4.2.1. Szóródás (σ)... 27 4.2.2. Relatív szóródás... 29 4.2.3. Általános (abszolút) különbség... 31 4.2.4. Momentum... 33 4. Adatbázisok fellelhetősége az interneten... 36 1. OKIR (Országos Környezetvédelmi Információs Rendszer)... 36 2. Zöldhatóságok... 38 3. OLM (Országos Légszennyezettségi Mérőhálózat)... 39 4. Központi Statisztikai Hivatal... 41 5. Vízügyi adatbank... 41 6. OMSZ (Országos Meteorológiai Szolgálat)... 41 7. River Monitoring... 42 8. Integrált Drávai Monitoring... 44 9. Nemzetközi kitekintés... 44 5. Adatbázisok használatának jogi háttere... 47 1. örnyezetvédelmi vonatkozású adatok szabályozása... 47 2. A környezetvédelmi vonatkozású közérdekű adatok megismerésének korlátai... 48 3. Az elektronikus információszabadság... 48 6. Adatminőségi osztályok (adatok pontossága, adatok megbízhatósága)... 50 7. Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t-próba)... 53 1. Szűrés... 53 2. Hibaszámítási adatok... 54 3. Student-féle egymintás t-próba... 55 4. Gyakorisági eloszlás... 56 5. Szórás, konfidencia intervallum... 60 6. Kiugró értékek ellenőrzése (normalizálás)... 64 8. Környezetvédelem során mért adatok különleges feldolgozása... 67 1. A mérőeszközök megválasztása... 67 2. Megfelelő mérési körülmények biztosítása... 67 iii

Adatok gyűjtésének és értékelésének módszerei 9. Adattárolási módok számítógépes feldolgozás során... 69 1. Osztott adatbázisok... 69 1.1. GRID rendszerek... 69 2. Adatbiztonság... 69 10. Adatábrázolási technikák, mérési hibák vizuális ábrázolása, görbe és trendvonal illesztése adatsorokra... 73 1. Adatábrázolási technikák... 73 1.1. Poláris diagram sugár diagram... 73 1.2. Pontdiagram és a vonaldiagram... 74 1.3. Területdiagram... 76 1.4. Kör- és perecdiagram... 76 1.5. Oszlopdiagram... 78 11. Nagy mennyiségű adatok kezelése és összehasonlítási módszerei... 80 1. Lorenz görbe és a Gini együttható... 80 12. Adattrendek használatának lehetőségei a fenntartható fejlődés tervezésének támogatására... 88 1. Várpalota térségének levegőminősége és változása az elmúlt évtizedekben... 88 1.1. NO 2 koncentrációk változása... 88 1.2. SO 2 koncentrációk változása... 89 1.3. Ülepedő por koncentrációk változása... 90 1.4. Ammónia koncentrációk változása... 90 2. Várpalota és térsége levegőminőségének jellemzése... 91 13. Kérdések... 92 14. Ajánlott irodalom... 96 15. Segédtáblázatok... 97 iv

Az ábrák listája 3.1. Statisztikai sorok fajtái (vastagon kiemelve a leggyakoribb előfordulás)... 5 3.2. Adatok rendezésének gombja MS Excelben... 11 3.3. Adatok rendezésének gombja LibreOfficeban... 11 3.4. A kumulált gyakoriság ábrázolása... 14 3.5. Módusz kiemelése a sokaságból... 22 3.6. Vizsgált adatsor jellemzői számegyenesen... 26 3.7. Vizsgált adatsor jellemzői... 26 3.8. A standard deviancia ábrázolása... 31 4.1. Veszprém levegőt terhelő pontforrásai... 37 4.2. Volán telephely éves szennyezőanyag kibocsátása (kg)... 38 4.3. Veszprém Kádár utcai mérőkonténer adatlapja... 40 4.4. Vízügyi adatbank kezdőlapja... 41 4.5. Vízügyi adatbank lekérdező felülete... 41 4.6. Met.hu legfrissebb mért meteorológiai adatai... 42 4.7. UV index várható napi menete... 42 4.8. Tisza-vízgyűjtő monitoring rendszer... 42 4.9. Európai Statisztikai Hivatal témakörei... 45 6.1. A kezdő és a pontosan célzó találatai... 50 6.2. A kezdő és a pontosan célzó találatai - szóródási görbe... 50 6.3. Szisztematikus hiba torzítás illusztrációja... 51 6.4. Véletlen hiba szórás/pontosság illusztrációja... 51 7.1. Probléma az adatbázisban... 53 7.2. ÉDT-KTVF adatbázisából részlet... 53 7.3. SO 2 koncentráció változása a mintahónapban... 57 7.4. SO 2 koncentráció változása a mintahónapban... 58 7.5. SO 2 tartalom relatív gyakorisági eloszlása... 59 7.6. SO 2 összegzett relatív gyakorisági eloszlása... 60 7.7. Párhuzamos mérési helyszínek - Veszprém... 60 7.8. PM 10 - párhuzamos mérések eredményei ábrázolva... 62 7.9. PM 2,5 - párhuzamos mérések eredményei ábrázolva... 63 7.10. A standard normáleloszlás sűrűségfüggvénye... 65 8.1. Nagytérfogat-áramú pormintavevő, és a szűrőpapíron felfogott porminta... 67 9.1. A hardver, szoftver és az adat árainak egymáshoz viszonyított aránya a számítástechnika korai korszakában és ma... 69 9.2. Klasszikus adatbiztonságra kiépített adatbázis hardver környezet... 70 9.3. Osztott adatbiztonságra kiépített adatbázis hardver környezet... 70 9.4. Korszerű adatbiztonságra kiépített adatbázis hardver környezet... 71 10.1. Összes só-tartalom csillagábra... 74 10.2. Példaként bemutatott 9.3 diagramjának adatsora részlet a 24 órás mérés eredményeiből... 74 10.3. Hőmérséklet UVA sugárzás pont (felső)- illetve vonaldiagramon (alsó)... 75 10.4. 2010. október 8-9. Devecseri mérésünk PM 10 koncentráció értékei és a határérték... 76 10.5. Földhasználat művelési ágak szerint (2010) KSH adatai szerint... 76 10.6. Földhasználat művelési ágak szerint KSH adatai szerint... 77 10.7. Földhasználat művelési ágak szerint (2010-külső perec, 2008-belső perec) KSH adatai szerint 77 10.8. Balaton Pláza egyidejűleg mért PM 10/PM 2,5 szálló por frakciók koncentráció értékei... 78 10.9. Balaton Pláza PM 2,5 frakció aránya a PM 10 koncentrációban... 79 10.10. Diagram rajzolása... 79 11.1. Szennyvízkibocsátók az ipari parkban.... 81 11.2. Osztályközök... 83 11.3. Lorenz görbe.... 85 12.1. Várpalota, Inota, Pétfürdő NO 2 koncentrációk éves átlagértékeinek változása 1979-2008 között 88 12.2. Várpalota, Pétfürdő SO 2 koncentrációk éves átlagértékeinek változása 1979-2008 között.. 89 12.3. Várpalota, Inota, Pétfürdő Ülepedő por koncentrációk éves átlagértékeinek változása 1979-2008 között... 90 v

Adatok gyűjtésének és értékelésének módszerei 12.4. Pétfürdő Ammónia koncentrációk éves átlagértékeinek változása 1979-2006 között... 90 13.1. Jelen és jövő... 92 vi

A táblázatok listája 3.1. Megoszlási viszonyszám számítása táblázatkezelő rendszerben... 7 3.2. Szmogriadók száma 2008-2011 között... 8 3.3. Osztályközös gyakoriság alaptáblázata... 9 3.4. Veszprémi légszennyezettség-mérő állomás órás NOx töménység-mérési adatai... 10 3.5. Osztályköz táblázat egyenletes osztályköz esetén... 12 3.6. Kumulált gyakoriság... 13 3.7. Felfelé kumulált gyakoriság számítása... 13 3.8. Lefelé kumulált gyakoriság számítása... 13 3.9. Relatív kumulált gyakoriság... 14 3.10. Mérőcsoportok... 15 3.11. Értékösszegsor számítása.... 16 3.12. Kvantilisek.... 16 3.13. Kvantilisek meghatározásához kiindulási adattábla.... 17 3.14. Medián számítás alapadatai felfelé kumulált gyakorisággal... 19 3.15. Medián számítás alapadatai relatív kumulált gyakorisággal... 20 3.16. Módusz meghatározásának lépései... 21 3.17. Módusz meghatározása makróval.... 22 3.18. Terjedelem meghatározása.... 25 3.19. Szórás meghatározása.... 27 3.20. Súlyozott szórás meghatározása.... 28 3.21. Relatív szóródás meghatározása.... 30 3.22. Különbség számításához alapadatok... 32 3.23. Momentum számítás (berendezés megbízhatósága)... 34 4.1. Monitorállomások alap-műszerezettsége... 43 7.1. Hibaszámítási adatok feladat megoldása... 54 7.2. Egymintás t- próba feladat megoldása... 55 7.3. A feladat megoldása 1. rész... 56 7.4. A feladat megoldása 2. rész... 58 7.5. PM 10 - párhuzamos mérések eredményei... 61 7.6. PM 2,5 - párhuzamos mérések eredményei... 62 7.7. Statisztikai vizsgálatok eredménye... 64 7.8. Feladat megoldása standardizálással... 65 10.1. Vizsgált mintavételi helyre jellemző összessó-tartalom jellemző és számított adatsorai... 73 11.1. Szennyvízkibocsátók az ipari parkban.... 80 11.2. Előzetes számítások a Gini-együtthatóhoz.... 82 11.3. Osztályközök létrehozása.... 83 11.4. Gyakoriságok értékei.... 84 11.5. Gyakoriságok számítása.... 84 11.6. Érkékösszegsorok.... 85 11.7. Értékösszegsorok számítási módja.... 85 11.8. Gini együtthatóhoz szükséges segédtábla... 86 11.9. Gini együtthatóhoz szükséges segédszámítások.... 86 vii

1. fejezet - Jelmagyarázat és rövidítésjegyzék db WGS84 GPS EOV b bi y yi li Vm n Vi fi gi xi Yi0 Yi1 hi k decibell, a hangnyomásszint mértékegysége A GPS által használt vonatkoztatási rendszer global positioning system (globális helymeghatározó rendszer) egységes országos vetület kiindulási (bázis) érték jelölése bázis-viszonyszám értéke az i. adatra statisztikai adat illetve egyed (elemi információegység) az i. adat lánc-viszonyszám értéke az i. adatra megoszlási viszonyszám elemek száma intenzitási viszonyszám abszolút gyakoriság relatív gyakoriság osztályközép értéke az i. osztályköz alsó határértéke az i. osztályköz felső határértéke hosszúsága osztályközök száma abszolút kumulált gyakoriság relatív kumulált gyakoriság 1

2. fejezet - Bevezetés MIÉRT FONTOS AZ ADATKEZELÉS? Jelen jegyzet a leendő fenntartható fejlődés szakértő hallgatók számára a szükséges részletességig ismerteti az adatgyűjtés és értékelés matematikai hátterére, ugyanakkor a fenntartható fejlődés témaköréből választja a példákat, és azokon keresztül mutatja be adatok felhasználásának módját és lehetőségeit. A környezetvédelmi elemzések során rendszerint hatalmas mennyiségű jellemzően számadat keletkezik. Az emberi agy felépítéséből következően inkább analitikus, elemző munkára képes, mint manuális, monoton számítások elvégzésére. e összhangot kell találni az emberi gondolkodás és a gépi számítások között. Ebben szintén segítséget nyújt e könyv, bemutatva mit lehet a gépre bízni és mi az amit emberi elmére. A jegyzet elektronikus tanulásra készült és feltételezi, hogy megfelelő számítógépes alapismeretekkel rendelkezik a felhasználó a példák LibreOffice (régebben OpenOffice) Calc vagy Microsoft Office Excel szoftveren történő gyakorlására. Az anyag megértéséhez mivel bármilyen felsőfokú végzettséggel rendelkező hallgató számára érthető kíván maradni csak alapvető matematikai ismeretekkel kell rendelkezni. Éppen ezért az anyag egy része a mérnök és gazdálkodás szakon végzettek számára már ismert lehet, de a példák környezetvédelmi vonatkozásai miatt nekik is célszerű átolvasni e részeket. A digitális technológia kiszélesíti a tanulási lehetőségeket, és egyben meg is változtatja a tanítási módszereket. Az elektronikus tananyagoknak mindenekelőtt felhasználóbarátnak kell lenniük, hiszen ha nem élvezetes a velük való foglalkozás az elveheti a hallgatók kedvét a tanulástól, az adott témától, anyagrésztől. Az anyagból meg fogjuk ismerni az adatokkal való dolgozás buktatóit és hogyan vehetjük észre e csapdákat. Megismerjük, hogyan lehet ugyanabból a hiteles mérési adatsorból kiindulva bizonyítani, hogy a légszennyezés egy településen 50%-kal nőtt és azt is, hogy 30%-kal csökkent; és azt is hogyan lehet az ilyen típusú adatfeldolgozásokat felismerni. 2

3. fejezet - Nagy mennyiségű adatok feldolgozásának statisztikai alapjai A világunkat a számok mozgatják. Mégis egyre többen vannak, akik idegenkednek a számok világától és nem értik vagy nem akarják érteni azok jelentését. A természet és a világgazdaság folyamatainak megértéséhez elengedhetetlenül szükséges a számok elemzésének ismerete, a statisztika. E fejezet célja, hogy közérthetően, példákkal szemléltetve megismertesse az olvasóját a statisztika alapjaival. Nem célja, hogy statisztikusokat képezzen, ezért csak szemezget a mindennapi életben leggyakrabban előforduló ismeretekből. Ezen ismeretekkel könnyebben kivédhetjük azt a sajnos egyre gyakoribb tapasztalatot, hogy mind több és több gazdasági és politikai szereplő kihasználja az emberek statisztikai hiányosságait. Ez legtöbbször abban nyilvánul meg, hogy olyan összefüggéseket hitetnek el velünk, amilyeneket ha nem a számok nyelvén mondanák senki nem hinne el. 1. Alapfogalmak Mi is a statisztika? A következő két megfogalmazás két híres magyartól származik: Lukács Ottó: Tapasztalati adatokból (mintákból) következtetni az egész sokaság valószínűségeire, eloszlásés sűrűségfüggvényeire, azok paramétereire. Besenyei Lajos: A valóság tényeinek tömegét tömören, a számok nyelvén jellemző tudományos módszertan illetve gyakorlati tevékenység. Mindkét állítás jól leírja a lényeget, de Besenyei megfogalmazása közelebb áll a környezetvédelemmel, a fenntartható jövővel foglalkozó szakemberek munkájához. Az adatokkal való munka során célunk a valóság folyamatainak elemzése, amit legtöbbször a jövőre vonatkozó becslések követnek. Ahhoz, hogy megértsük, a statisztika alapjait néhány fogalmat tisztázni kell: Sokaság (populáció): A vizsgálat (megfigyelés) tárgyát alkotó egyedek összessége. Napjainkban egyre többször azonosítjuk az adat megnevezéssel. Ezen irányzat a számítástechnika előretörésével egyre inkább terjed. Megfigyelési egység: amelyre/akire a megfigyelés irányul Számbavételi egység: amely/aki információt szolgáltat a megfigyelési egységre vonatkozóan 1.1. Sokaság Az adatokkal való munka egyik kulcslépése, hogy képesek legyünk besorolni az adatunkat a megfelelő sokasági kategóriákba. E kategóriák a következő képen oszthatóak fel: Vonatkozás szerint Időpontra: Egy jól meghatározható időpontra (tegnap, tavaly, 1974.09.01-én, stb). Időtartamra: Két időpont között (hétfőtől péntekig, 1974-2000-ig). De például tavaly január 1-től december 31-ig szintén időtartam, bár megegyezik az időpontban példaként felsorolt tavaly fogalommal. A különbség: itt a 365 darab napot értjük rajta, míg az időpontnál a teljes évet, mint év vesszük figyelembe. Érték szerint Diszkrét: Ide tartoznak, azok az adatok, amelyek már nem változnak meg az idő előrehaladtával. Időpontra és időtartamra is vonatkozhat. Például a települések száma egy adott időpontban vagy a tavalyi évben (időtartam) bejelentett szmog-riadók száma egy településen. Folytonos: Ezen adatoknál csak az adott pillanatig bekövetkezett eseményeket tudjuk számszerűsíteni, amely akár már a következő időpillanatban megváltozhat. Vonatkozhat időpontra és időtartamra is. Például: szmogos napok száma idén (időtartam) vagy jelenleg belvízzel borított területek mérete (időpont). 3

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Típusra: Álló (állomány): Ebben az esetben a sokaság egy darab jó meghatározható értékből áll, ami önmagában is értelmezhető. Csak időpontra vonatkozhat. Például a talaj-közeli ózon napi átlagos töménysége tegnap (időtartam esetén) vagy talaj-közeli ózon jelenlegi átlagos töménysége (időpont esetén). Mozgó (áramlás): E típus esetén egy adattömeggel dolgozunk, amely azonos jelenségnek írja le az időbeni változását. Csak időtartamra vonatkozhat. Például a talaj-közeli ózon óránkénti átlagos töménysége (időtartam). A sokasági kategóriába történő besorolást nagy mértékben segíti ha pontosan utánajárunk az adatok forrásának és jelentésének. E megállapítás bár köznapinak tűnik, nem szabad könnyelműen kezelni: nagyon sokszor még a gyakorlott tudósok is gondban vannak egy adat jelentésének megállapításánál. Ennek oka, hogy számos adatközlő nem tájékoztat arról, hogy pontosan mit is takar az adott adat (hogyan mérték, milyen pontosságú a műszer, stb.). 1.2. Ismérv (attribútum) Az ismérv a sokaság egységeit jellemző tulajdonság vagy az adott szempont szerint lehetséges tulajdonságok halmaza. Gyakorlatilag olyan szempontok, amelyek alapján a sokaság egymást át nem fedő részekre bontható. Az egyes ismérvkategóriákra adható válaszok az ismérvváltozatok, amelyek lehetnek megszámlálhatóak (például a kémhatás csak savas, lúgos vagy semleges lehet, de a NOX töménység értéke majdnem bármilyen nagy szám lehet és csak a mérés pontosság határozza meg, hogy hány változata fordulhat elő). Azoknál az ismérvváltozatoknál, ahol csak két változat van, alternatív ismérvnek is hívjuk. A mennyiségi ismérvek ismérvváltozatait ismérvértéknek is nevezhetőek. Az ismérveket több féle képen csoportosíthatjuk. Fő csoportosítás alapján lehet közös (a sokaság minden tagjára igazak) vagy megkülönböztető (az egyedek vagy azok egy csoportja elkülöníthető). Ezen kívül jellemzőjük alapján négy csoportba soroljuk az ismérveket: Tárgyi ismérvek Minőségi ismérv: A sokaság számszakilag, időponttal vagy térbeli adattal ki nem fejezhető (jellemzően azonosításukat szolgáló) ismérvei. Ilyen ismérv például a légszennyező anyag, ismérvváltozatai az NOX, O 3, CO 2, stb.para> Mennyiségi: A sokaság számokkal kifejezhető (mérhető) egyedei. A statisztika ezen ismérvekkel foglalkozik a leggyakrabban. Ilyen ismérv például a föld-közeli ózon töménysége. Időbeli ismérv: A sokaság adott elemének időpontját tároló érték. Értéke lehet egy pontos időpont, de lehet időtartam is. Például a mérés ideje (időpont) vagy a mérés időtartama. Területi ismérv: A sokaság adott elemének földrajzi rögzítésére szolgáló ismérv. Lehet számszerűsített (például a mérés GPS koordinátája), közismert nevekhez kötött (például Veszprém) vagy viszonylagos (például a második emeleten ). 1.3. Mérés Mérésnek az egységek számokkal való jellemzését értjük. A környezetvédelemben négy mérési skálát (szintet) használunk. Nominális (névleges) mérési skála: Az egységekhez rendelt számértékek egyező vagy különböző voltát engedi meg. Például: Két talajminta higany töménysége azonos-e vagy sem. (Figyeljük meg a példát: az információból nem tudjuk magasabb-e, vagy alacsonyabb a higany töménysége, sem egyéb ismeretet.) 4

Van-e higany a talajban vagy nincs. Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Ordinális (sorrendi) mérési skála: Az egységek a tulajdonságok szerint rangsorba állíthatók. (Tudunk nagysági különbséget tenni közöttük. Tudjuk, hogy nagyobb, kisebb, de a mértékét nem.). Például: A talajminta higanytartalma alapján milyen szennyezettség-osztályba tartozik. (De nem tudjuk vagy nem érdekes az osztályok közötti pontos koncentráció-különbség.) A mérési adatok higanytartalom szerinti sorrendje. Ez esetben nem ismert az adatok közötti távolság. Intervallum mérési skála: A rangsorba rendezett tulajdonságokat egyenlő közök választják el, de nem tudjuk a kezdőértéket. Figyeljünk rá, hogy a 0 is köznek számít! Például: A minta a 0-10 μg/kg, 10-20 μg/kg közötti higany töménységű talajok csoportjába tartozik-e? (De nem mondhatjuk, hogy a 20 μg/kg töménységű talaj kétszer szennyezettebb, mint a 10 μg/kg-os, mivel nem tudjuk mennyi a tiszta talaj higanytartalma.) Arányskála: A kezdőpont egyértelműen adott és rögzített, s így a skálaértékek egymáshoz való aránya is meghatározható. Ezen skálába tartozó adatok valók teljes elemzési műveletek elvégzésére. Példa: Tudjuk, hogy mennyi a talaj általános higany koncentrációja. Fontos, hogy a besorolásoknál nem az számít, hogy mi az adat tényleges információtartalma, hanem, hogy milyen információ érdekes számunkra. Például egy éjszakai szórakozóhely hangnyomásszintjének ( zajosságának ) felmérése során percenként rögzítjük öt ponton, egy-egy órán keresztül a hangnyomásszinteket. Ez az adatsor nominális skálának számít, ha csak arra vagyunk kíváncsiak, hogy átlépte-e a megengedett hangnyomásszintet a létesítmény, vagy sem. Ugyan ez az adatsor ordinális skálának minősül, ha arra vagyunk kíváncsiak, hogy a hangnyomásszint milyen súlyos a zajszennyezés (nincs büntetés, pénzbüntetés, bezárás). Végül lehet intervallum vagy arányskála is, ha a mérési adatokat 10 db-ként csoportosítjuk és tudjuk a hallásküszöb értékét is. 1.4. Statisztikai sor A sokaság egységeinek bizonyos ismérvek szerinti csoportosítása, rendezése. 3.1. ábra - Statisztikai sorok fajtái (vastagon kiemelve a leggyakoribb előfordulás) A benne szereplő adatok összegezhetősége szerint lehet: Csoportosító statisztikai sor: adatai összegezhetők, számszakilag értelmezhetők (például árvízzel borított területek összes felülete). Összehasonlító sor: adatai nem összegezhetők, számszakilag értelmetlen (például a minta színe) 5

A sorban szereplő adatok fajtái szerint: Nagy mennyiségű adatok feldolgozásának statisztikai alapjai idősor: időbeli ismérv alapján csoportosítva az adatokat állapot idősor: Adatai számszakilag nem összegezhetők, egy adott időpontra vonatkoznak (például a mérés időpontja 2011.12.20. 08:15). tartam idősor: Adatai számszakilag összegezhetőek (de nem felétlenül értelmesek is az összegzés után!), adatai időtartamra vonatkoznak (például az egymás követő mérések időtartama). minőségi sor: Az adatoknak minőségi ismérv szerinti rendezése (például a minta szaga). mennyiségi sor: Az adatoknak mennyiségi ismérv szerinti rendezése (például a hangnyomásszint mért értéke). területi sor: Az adatok területi hovatartozást jelentenek. nevesített területi sor: A területi adatok nem számszerűsített formában állnak rendelkezésre. Ilyen adat például: a mérés a gyárkapu előtt történt. geokódolt területi sor: A területi adatok számszerűsített (geokódolt) formában állnak rendelkezésre, amelyekkel térbeli műveletek végezhetőek (például vektorműveletek). Ilyen adat jellemzően WGS84 ( GPS ) vagy EOV koordináta. leíró sor: Ebbe a kategóriába azok a sorok tartoznak, ahol egy mérés különböző tulajdonságát soroljuk fel. Jellemzően ezek az adatok a megjegyzés rovatban szoktak feltüntetésre kerülni egy mérés során. 2. Viszonyszámok Amikor két adatot vagy adatcsoportot szeretnénk összehasonlítani, akkor két vizsgált érték hányadosát statisztikai viszonyszámnak nevezzük. Az általunk érintett témakörben három viszonyszámot használunk nagy gyakorisággal: Összehasonlító sorból: összehasonlítási viszonyszám (dinamikus, területi) Csoportosító sorból: megoszlási viszonyszám Leíró sorból: intenzitási viszonyszám számítható. 2.1. Dinamikus viszonyszám Két időszak adatának hányadosa. Csak idősorokból lehet számítani, a számított eredmény az idősor két adatának egymáshoz való aránya. A két adatot tárgy időszaknak (időben a vizsgálat céljához közelebbi adat) és bázis időszaknak (időben a vizsgálat céljától távolabbi adat) Ha több időszakunk van (például egy év napi átlagos hőmérséklet adatai), akkor az viszonyíthatjuk egymáshoz (láncviszonyszám), vagy az időben első adathoz, amit bázisnak nevezünk (bázisviszonyszám). Számításuk a következő: Bázis-viszonyszám: b i = y i / y b Láncviszonyszám: l i = y i / y i-1 A két viszonyszám egymásból is számítható a következő képletekkel: Bázisviszonyszámból láncviszonyszám: Láncviszonyszámból bázisviszonyszám: 6

2.2. Megoszlási viszonyszám Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Egy adott sokaságból egy kiválasztott tartomány része. Értéke megmutatja, hogy a sokaságban milyen súllyal találhatók az adott csoport tagjai. Ezt a viszonyszámot használjuk leggyakrabban, ha valamilyen esemény előfordulásának gyakoriságára vagyunk kíváncsiak. Számítása: vagy Számítása táblázatkezelő rendszerben: 3.1. táblázat - Megoszlási viszonyszám számítása táblázatkezelő rendszerben A B 1 Minta azonosítója Szennyezett? 2 AD231 igen 3 AB322 nem 4 AS231 nem 5 AB343 nem 6 AA231 igen 7 Megoszlási viszonyszám a szennyezett mintára: KÉPLET* *ahol a képlet helyére a következőt kell írni, MS Office és LibreOffice esetében egyaránt: =DARABTELI(B2:B6;"igen")/DARAB2(B2:B6) 2.3. Intenzitási viszonyszám Egy adott sokaság egészéből (pl. városok) egy másik sokaság egészére (pl. lakosság) mennyi jut. Célja, hogy meghatározhatjuk a sokaság egyedeit érő átlagos terhelést vagy megoszlást. (Ne keverjük össze a MEGOSZLÁSSAL!) Számítása: vagy A számítás során az osztóban szereplő adatot a statisztikai gyakorlat a könnyebb kezelhetőség érdekében - sok esetben nagyobb egységként veszi figyelembe. Például a második számítási minta esetében sokkal gyakoribb, 7

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai hogy az osztó nem fő, hanem ezer fő. Ezzel egynél nagyobb számot tudunk kapni, amit könnyebben értelmezünk. 2.4. Számításértelmezési feladat Egy vizsgáljuk meg, hogyan alakul a szmog-riadót hirdetett napok száma egy településen. Az adatok a következőek: 3.2. táblázat - Szmogriadók száma 2008-2011 között Év Szmog-riadók száma (nap) 2008 3 2009 6 2010 8 2011 5 Számítsuk ki a 2008-hoz, mint bázisévhez viszonyítva 2011 viszonyszámát: Számítsuk ki 2011 láncviszonyszámát 2010-es évhez képest: Mit olvashatunk ki a számokból? Ha 2011-et vizsgáljuk, akkor írhatunk egy újságcikket, amiben megállapíthatjuk és számszakilag bizonyíthatjuk is, hogy a szmog-riadós napok száma több mint másfélszeresére nőtt (bázisviszonyszám) de írhatunk olyat is, hogy a szmog-riadós napok száma több mint harmadával csökkent (láncviszonyszám). Ezen egyszerű példa is jól megvilágítja, hogy a statisztika kétélű tudományos módszer, amellyel szándékosan vissza lehet élni, de tudatlanságunkból fakadóan akaratlanul is félrevezethetjük magunkat és másokat. Ahhoz, hogy az ilyen félreértelmezéseket elkerüljük: Mindig tisztába kell lennünk az adatok forrásával: sok vizsgálat esetében attól függően, hogy milyen szabvány, milyen metódus szerint végezzük a mérést máshogy és máshogy értelmezendő adatokat kapunk. Kiemelten igaz ez a nagy léptékű társadalmi és gazdasági események mérésére, ahol nem homogén és nagyon nagy méretű a minta, ezért csak (reprezentatív) mintavétellel lehet mérni. Lehetőleg az adatoknak a környezetét is ismerjük meg. Mint azt előző példafeladat alapján is látjuk, ha csak két adatot ismerünk, akkor nagyon könnyen belefuthatunk a folyamat egészére nem jellemző rendellenességbe, mérési hibába, váratlan eseménybe. Értelmezzük az eredményt! Például ha csak annyit olvasunk, hogy a viszonyszám nézzük meg lánc- vagy bázisviszonyszám-e. Ha az olvassuk arány, akkor nézzük meg minek is az aránya? Egyáltalán összehasonlítható a két adat? Mialatt ezeket a kérdéseket feltesszük magunkban és megkeressük rá a választ az esetek döntő hányadában megbizonyosodhatunk arról, hogy megfelelően feldolgozott adattal van-e dolgunk. 3. Eloszlás-elemzés A környezetvédelemben és általában a természettudományokban nagy szerep jut az empirikus eloszlásoknak. Amely a megfigyelések (kísérletek) eredményeként kapott adatok eloszlását jelenti. Amikor nem csak valós 8

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai megfigyelések eredményeiről van szó, azt elméleti elosztásnak nevezzük és a valószínűség-számítás tárgykörébe tartozik. Az eloszlás elemzés legfontosabb eszközei a következők: Gyakorisági sorok Kvantilisek Középértékek Szóródás 3.1. Gyakorisági sorok Valamely sokaságnak egy mennyiségi ismérv szerinti csoportosítása. Segítségével különösen a nagy mennyiségű adatok kezelésénél tudjuk könnyebben áttekinteni sokaságot. Célja, hogy a sokaság összetételéről kapjunk áttekintést. Leggyakrabban osztályközös gyakoriság formájában használjuk. Az osztályközös gyakoriság alapvetése a következő: Vegyünk egy Y ismérv valamely N számú egységéhez tartozó Y 1,Y 2, Y n változatait (ezek lehetnek számszerűek és nem számszerűek is). Legyen az Y ismérv különbség- vagy arányskálán mért számérték Az Y neve változó, az Y i-ket pedig (ismérv)értékeknek nevezzük. Rendezzük sorba monoton nem csökkenő módon. Ezt nevezzük rangsornak. Nagy N esetén osztópontok kijelölésével a rangsort feldaraboljuk, ezek a részek az osztályközök. Osztályközökkel szembeni fontos követelmény, hogy azok nem fedik át egymást és az osztályközök összessége lefedi a teljes sokaságot. 3.3. táblázat - Osztályközös gyakoriság alaptáblázata Az Y szerint képzett osztály Osztályközép Abszolút Relatív f i g i alsó felső x i gyakoriság határa Y 10 Y 11 x 1 f 1 g 1 Y 20 Y 21 x 2 f 2 g 2 : : : : : Y i0 Y i1 x i f i g i : : : : : Y k0 Y k1 x k f k g k Összesen N 1 (100%) Az osztályközös gyakoriság esetében használt fogalmak a következőek: Az abszolút gyakoriság (jele: f i) megadja, hogy az adott osztályba hány darab egység tartozik sokaságból. A relatív gyakoriság (jele: g i) megadja, hogy az adott osztályba tartozó elemek milyen súllyal szerepelnek a sokaságban. Számítása: g i=f i / N; Az osztályközép értéke kifejezi az adott osztályköz középértékét. Számítása: x i=1/2 (y i0 + y i1); Az osztályköz hosszúság értéke az adott osztályköz két határértékének távolsága. Számítása: h ii=y i1-y i0; 9

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Első kérdés, amit el kell dönteni, hogy hány osztályközt alkossunk? A legjobb megoldás, ha az adatok ismeretében magunk határozzunk meg a szükséges osztályközök számát, de ez általában nem lehetséges. Ezért a (amiből ) képlettel határozzuk meg a közelítő osztályköz-számot, amit szükség esetén kézzel korrigálunk. Ha egyenletes osztályközöket akarunk képezni, akkor az osztályköz hossza: Ha egyenetlen az adatok megoszlása, akkor egyenlőtlen közöket alkalmazunk: ahol sz az ismérvérték utolsó fontos számjegyének helyértéke. 3.1.1. Osztályközös gyakoriság számításának lépései Y legyen a veszprémi légszennyezettség-mérő állomás órás NOx töménység-mérési adatai a tegnapi napra. (N = 24; Y1 jelentse az 1. óra átlagát, Y2 jelentse a 2. óra átlagát, stb.) 3.4. táblázat - Veszprémi légszennyezettség-mérő állomás órás NOx töménység-mérési adatai Időpont Ismérv Érték Rangsort Rangsor 0-1 Y1 40 készítünk 35 1-2 Y2 45 36 2-3 Y3 43 36 3-4 Y4 36 38 4-5 Y5 39 39 5-6 Y6 46 39 6-7 Y7 51 40 7-8 Y8 57 43 8-9 Y9 93 43 9-10 Y10 98 45 10-11 Y11 67 45 11-12 Y12 56 45 12-13 Y13 45 46 13-14 Y14 56 51 10

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai 14-15 Y15 35 54 15-16 Y16 76 56 16-17 Y17 89 56 17-18 Y18 92 57 18-19 Y19 54 67 19-20 Y20 45 76 20-21 Y21 43 89 21-22 Y22 38 92 22-23 Y23 39 93 23-24 Y24 36 98 Osztályközök száma: Számítása táblázatkezelő rendszerben: A kiválasztott adatsort nagyság szerint kell rendezni. Ezt a feladatot MS Office esetén az adatok kijelölése után a következő gombbal tudjuk megtenni: 3.2. ábra - Adatok rendezésének gombja MS Excelben Ugyanezt a feladatot a LibreOffice-ban az adatok kijelölése után a következő gombbal tudjuk megtenni: 3.3. ábra - Adatok rendezésének gombja LibreOfficeban 11

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Egyenletes osztályköz esetén: Az osztályköz táblázat a következő képen néz ki egyenletes osztályköz esetén: 3.5. táblázat - Osztályköz táblázat egyenletes osztályköz esetén Y i0 Y i1 X i f i g i 35 47 41 13 ~0,54 48 60 54 5 ~0,21 61 73 67 1 ~0,04 74 86 80 1 ~0,04 87 99 93 4 ~0,17 3.1.2. Kumulálás (halmozott összeadás) A kumulálás célja, hogy meghatározzuk hány darab adatunk (mintánk) értéke 1. kisebb vagy egyenlő (felfelé kumulált gyakoriság) illetve 2. nagyobb vagy egyenlő (lefelé kumulált gyakoriság) 24 1 mint a vizsgált osztályköz. A kumulált gyakoriság jele: f i'; A kumulált gyakoriságot lehet abszolút gyakoriságból és relatív gyakoriságból is számolni. A kumulált gyakoriság igen gyakran használt mérőszám, ha arra vagyunk kíváncsiak, hogy a mérések közül hány darab lépte át az adott vizsgálathoz tartozó környezetvédelmi határértéket (vagy éppen maradt alatta). A kumulálás menete a következő: Felfelé kumulálás esetén: azaz ahhoz, hogy az abszolút felfelé kumulált gyakoriság értékét megkapjuk minden sorban összeadjuk az adott sor és a megelőző sorok abszolút gyakorisági (fi) értékeit. Lefelé kumulálás esetén: azaz ahhoz, hogy az abszolút lefelé kumulált gyakoriság értékét megkapjuk minden sorban összeadjuk az adott sor és a megelőző sorok abszolút gyakorisági (fi) értékeit, majd a kapott értéket kivonjuk a mintaszámból (n). Példa: Kumulált gyakoriság 12

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai A veszprémi légszennyezettség-mérő állomás órás NOX töménység-mérési adatait alapként használva (lásd: Osztályközös gyakoriság számításának lépései) a következő eredményt kapunk: 3.6. táblázat - Kumulált gyakoriság Y i0 Y i1 X i f i felfelé kumulált gyakoriság (f' i) lefelé kumulált gyakoriság (f' i) 35 47 41 13 13 24 48 60 54 5 13+5=18 24-13=11 61 73 67 1 13+5+1=19 24-13-5=6 74 86 80 1 13+5+1+1=20* 24-13-5-1=5** 87 99 93 4 13+5+1+1+4=24 24-13-5-1-1=4 A felfelé kumulált gyakoriság számítása mind MS Excel mind LibreOffice táblázatkezelő rendszerben a következő: 3.7. táblázat - Felfelé kumulált gyakoriság számítása A B C D E 1 Yi0 Yi1 Xi fi felfelé kumulált gyakoriság (f i) 2 35 47 41 13 =SZUM($D$2:D2) 3 48 60 54 5 =SZUM($D$2:D3) 4 61 73 67 1 =SZUM($D$2:D4) 5 74 86 80 1 =SZUM($D$2:D5) 6 87 99 93 4 =SZUM($D$2:D6) Megjegyzés: Elég az E2 cellába megírni a képletet, utána le lehet húzni az összes többi cellába. A lefelé kumulált gyakoriság számítása mind MS Excel mind LibreOffice táblázatkezelő rendszerben a következő: 3.8. táblázat - Lefelé kumulált gyakoriság számítása A B C D E 1 Yi0 Yi1 Xi fi felfelé kumulált gyakoriság (f i) 2 35 47 41 13 =SZUM($D$2:D6) 13

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai 3 48 60 54 5 =SZUM($D$2:$D$6)- SZUM($D$2:D2) 4 61 73 67 1 =SZUM($D$2:$D$6)- SZUM($D$2:D3) 5 74 86 80 1 =SZUM($D$2:$D$6)- SZUM($D$2:D4) 6 87 99 93 4 =SZUM($D$2:$D$6)- SZUM($D$2:D5) Megjegyzés: Elég az E2 és az E3 cellába megírni a képletet, utána az utóbbit le lehet húzni az összes többi cellába. Példa: Relatív kumulált gyakoriság A veszprémi légszennyezettség-mérő állomás órás NOx töménység-mérési adatait alapként használva (lásd: Osztályközös gyakoriság számításának lépései) a következő eredményt kapunk: 3.9. táblázat - Relatív kumulált gyakoriság Y i0 Y i1 X i g i felfelé kumulált relatív gyakoriság (g i) lefelé kumulált relatív gyakoriság (g i) 35 47 41 ~0,54 0,54 1,00 48 60 54 ~0,21 0,54+0,21=0,75 1,00-0,54=0,46 61 73 67 ~0,04 0,54+0,21+0,04=0, 79 74 86 80 ~0,04 0,54+0,21+0,04+0, 04=0,83 87 99 93 ~0,17 0,54+0,21+0,04+0, 04+0,17=1,00 1,00-0,54-0,21=0,25 1,00-0,54-0,21-0,04=0,21 1,00-0,54-0,21-0,04-0,04=0,17 3.4. ábra - A kumulált gyakoriság ábrázolása 14

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Táblázatkezelő rendszerekben történő számítása megegyezik a kumulált gyakoriság (f i) számításával. 3.1.3. Értékösszegsor Az osztályközökhöz az azokba tartozó egységek ismérvértékeinek szorzatát rendeli. A mennyiségi ismérv értékeinek egyes osztályokon (osztályközökön) belüli összegeit értékösszegnek nevezzük. Az értékösszeg gyakorlatilag az osztályköz ismérvvel súlyozott értékét adja meg. Ez önmagában is hasznos lehet, de az értékösszegsor környezetvédelemben leggyakrabban használt formája a relatív értékösszegsor (Z i). Ebben az esetben az értékösszegeket a teljes értékösszegsorral arányosítjuk, így arányszám formájában kapjuk meg a súlyozások értékét: Példa: Egy terepi mérés során 1; 3 és 5 fős mérőcsoportokat küldtek ki. A csoportok száma rendre 3; 11 és 4 darab volt. Melyik létszámú mérőcsoportban mekkora összlétszám dolgozott? Mi volt a csoportokban dolgozók egymáshoz viszonyított aránya? Melyik a legnagyobb súlyú csoport? 3.10. táblázat - Mérőcsoportok 15

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Mérőcsoport létszáma Csoportok száma Mérésben résztvevők száma Relatív értékösszegsor (fő) X i (db) f i Z i (fő) s i 1 3 1*3=3 3/56=0,054 3 11 3*11=33 33/56=0,589 5 4 5*4=20 20/56=0,357 Összesen 18 db 56 fő ~1 A fenti feladatot mind MS Excel mind LibreOffice táblázatkezelő rendszerben a következő módon oldhatjuk meg: 3.11. táblázat - Értékösszegsor számítása. A B C D 1 Mérőcsoport létszáma Csoportok száma Mérésben résztvevők száma Relatív értékösszegsor (db) f i (fő) X i (fő) s i Z i 2 1 3 =A2*B2 =C2/$C$5 3 3 11 =A3*B3 =C3/$C$5 4 5 4 =A4*B4 =C4/$C$5 5 Összesen 18 db =SZUM(C2:C4) 1 A példa kérdésére a válasz: A legnagyobb súlyú csoport (58,9%-os részesedéssel) a három mérőszemélyből álló mérőcsoport. 3.2. Kvantilisek A kvantiliseknek nagyon jelentős szerepük van a környezetvédelmi gyakorlatban. A kvantilisek módszere az egyenlő gyakoriságú osztályközök képzése, amely az értékek elhelyezkedéséről gyors tájékoztatást ad. Típusait az osztályközök száma alapján határozzuk meg. Ezek közül többet a gyakori használat miatt nevesítve, egyedi jelöléssel is használunk: 3.12. táblázat - Kvantilisek. Osztályközök száma (k) Elnevezés Jelölés Lehetséges kvantilisek 2 Medián Me Me 4 Kvartilis Qi Q1, Q2, Q3 5 Kvintilis Ki K1,K2,K3,K4 10 Decilis Di D1,D2,..,D9 16

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Osztályközök száma (k) Elnevezés Jelölés Lehetséges kvantilisek 100 Percentilis Pi P1,P2,..,P99 A kvantilis meghatározása a következő: Az (i. k-ad rendű kvantilis szám az a szám, amelynél az összes előforduló ismérvérték -ad része kisebb, -ad része nagyobb ( és i=1,2,,k-1). Az hányadost p- vel jelöljük,míg a Y p kvantilis neve p-ed rendű kvantilis. A kvantilis értékek nem feltétlenül léteztek a sorban korábban, ebben az esetben a kvantilis értékei innentől beletartoznak a sorba. A számítás menete a következő: 1) Első lépésben meg kell határoznunk a kvantilis osztópontját (sorszámát). Az osztópontok száma gyakorlatilag az osztályközök számánál eggyel kisebb, azaz a medián esetén 1, kvartilis esetén 3. Ennek oka, hogy ezek a pontok határozzák meg az osztályközök töréspontjait. Fontos kiemelni, hogy ezek nem valóságos sorszámok (ezért is hívjuk őket osztópontoknak), hanem csak segédértékek. Így nem okoz gondot, hogy az esetek nagy részében ezek értéke nem egész szám. Példa: Az Osztályközös gyakoriság számításának lépései fejezetnél megismert példában szereplő 24 minta esetén a kvartilis osztópontok számítása a következő: 2) Ha meghatároztuk az osztópontok értékeit, akkor ki kell számolni, hogy ezek az osztópontok milyen konkrét értékekhez tartoznak, azaz mekkorák a kvantilis értékei: Ezek az értékek az esetek többségében nem voltak meg az eredeti értéksorban, de kiszámításuk után már részei lesznek (azaz megnövelik a sor darabszámát). Példa: Az Osztályközös gyakoriság számításának lépései fejezetnél megismert példában szereplő adatokból az előbb kiszámolt három kvartilis osztópont adatait felhasználva az osztópontok értékei a következők: Az eredeti adattábla a következő: 3.13. táblázat - Kvantilisek meghatározásához kiindulási adattábla. i Y i i Y i i Y i 1 35 9 43 17 56 2 36 10 45 18 57 3 36 11 45 19 67 17

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai i Y i i Y i i Y i 4 38 12 45 20 76 5 39 13 46 21 89 6 39 14 51 22 92 7 40 15 54 23 93 8 43 16 56 24 98 Az osztópontok a következőek: Ebből a kvantilisek: Jelentése: Mivel kvantilisről, azaz négy felé osztásról van szó, így a három kvantilis rendre -e, -e és -e a teljes sornak. Így a Q 1 esetében a minták 25%-a kisebb koncentrációjú, mint 39,25. (Azaz 75%-nak nagyobb a koncentrációja ennél.) Jelentése: A minták 50%-a kisebb koncentrációjú, mint 45,50. (Azaz 50%-nak nagyobb a koncentrációja ennél.) Jelentése: A minták 75%-a kisebb koncentrációjú, mint 64,50. (Azaz 25%-nak nagyobb a koncentrációja ennél.) 3.3. Középérték A környezetvédelmi adatok elemzése során sokszor kerülünk olyan probléma elé, hogy meg kell határozni egy adatsor középértékét. Ez számtalan esetben nem a matematikai átlagértéket jelenti, hanem valamilyen szempont szerinti középpontot. A leggyakrabban használt középértékek a következőek: Helyzeti középértékek: Medián (Me) Módusz (Mo) Átlagok (súlyozott és súlyozatlan, a súlyok gyakran a relatív gyakoriságok): Számtani átlag ( vagy ) Mértani (geometriai) átlag ( vagy ) Harmonikus átlag ( vagy ) Négyzetes átlag ( vagy ;) 3.3.1. Medián (Me) 18

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Az az ismérvérték, amelynél az összes ismérvérték fele kisebb, fele pedig nagyobb. Ez gyakorlatilag a klasszikus középérték, azaz amikor a számok súlypontját keressük. Több féle módon is számíthatjuk. Lehetőség van rangsor, kumulált gyakoriság és osztályközös gyakoriság alapján történő meghatározására. Ha a számítás a rangsor alapján történik, különböző módon, attól függően, hogy a rangsorban lévő adatok darabszáma páratlan vagy páros: Példa: Az Osztályközös gyakoriság számításának lépései fejezetnél megismert példában szereplő adatokból (24 darab adat) számítva: Azaz az adatok pont fele kisebb (illetve nagyobb), mint 45,5. Ha a számítás a kumulált gyakoriság ismerete esetén történik, akkor a következő képletet használjuk: ; Ahol: me: mediánt magába foglaló osztályköz alsó határa : mediánt megelőző osztályköz kumulált gyakorisága : medián osztályközének kumulált gyakorisága h: medián osztályközének hossza Példa: A Kumulálás (halmozott összeadás) fejezetnél megismert példában szereplő adatokból számítva: 3.14. táblázat - Medián számítás alapadatai felfelé kumulált gyakorisággal Y i0 Y i1 X i f i felfelé kumulált gyakoriság (f i) 35 47 41 13 13 48 60 54 5 13+5=18 61 73 67 1 13+5+1=19 74 86 80 1 13+5+1+1=20 87 99 93 4 13+5+1+1+4=24 19

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Ha a számítás a relatív gyakoriság ismerete esetén: ; Ahol: me: mediánt magába foglaló osztályköz alsó határa : mediánt megelőző osztályköz kumulált relatív gyakorisága : medián osztályközének kumulált relatív gyakorisága h: medián osztályközének hossza Példa: A Kumulálás (halmozott összeadás) fejezetnél megismert példában szereplő adatokból számítva: 3.15. táblázat - Medián számítás alapadatai relatív kumulált gyakorisággal Y i0 Y i1 X i g i felfelé kumulált relatív gyakoriság (g i) lefelé kumulált relatív gyakoriság (g i) 35 47 41 ~0,54 0,54 1,00 48 60 54 ~0,21 0,54+0,21=0,75 1,00-0,54=0,46 61 73 67 ~0,04 0,54+0,21+0,04=0, 79 74 86 80 ~0,04 0,54+0,21+0,04+0, 04=0,83 87 99 93 ~0,17 0,54+0,21+0,04+0, 04+0,17=1,00 1,00-0,54-0,21=0,25 1,00-0,54-0,21-0,04=0,21 1,00-0,54-0,21-0,04-0,04=0,17 A három medián érték jelenleg a következő értéket veszi fel: rangsorból: 45,5 < kumulált relatív gyakoriságból: 46,1 < kumulált gyakoriságból: 46,63 Ez a sorrend csak most alakult így, de nem feltétlenül így fog alakulni a sorrend, ha más kiindulási adatokkal dolgozunk! 3.3.2. Módusz (Mo) Módusznak a legtipikusabb, leggyakrabban előforduló ismérvet nevezzük. Két típus fordul elő: diszkrét esetben (amikor az adatok önálló, egymástól független értékeket vesznek fel), a leggyakoribb ismérvértéket, míg folytonos esetben (amikor az adatokat egy görbe írja le), akkor a görbe legnagyobb pontjához tartozó érték a módusz. Ez utóbbi esetben a legtöbbször új ismérvérték jön létre, ami részévé válik a sornak. Példa: 20

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai 3.16. táblázat - Módusz meghatározásának lépései Rangsor megszámoljuk Ismérvérték Előfordulás sorba Ismérvérték Előfordulás 35 36 az előfordulást 35 36 1 2 rendezzük 45 36 3 2 36 38 1 39 2 38 39 2 43 2 39 40 1 56 2 39 43 2 35 1 40 45 3 38 1 43 46 1 40 1 43 51 1 46 1 45 54 1 51 1 45 56 2 54 1 45 57 1 57 1 46 67 1 67 1 51 76 1 76 1 54 89 1 89 1 56 92 1 92 1 56 93 1 93 1 57 98 1 98 1 67 76 89 92 93 98 21

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai A számítás eredményét ábrázolva (2.4. ábra) vizuálisan is elkülöníthető a módusz. Ha nem akarjuk ábrázolni, akkor a számolás eredményének sorba rendezésével kapjuk meg az eredményt. A módusz kézi számítása nagyon időigényes folyamat, így célszerűbb táblázatkezelő rendszerre bízni annak kiszámítását. 3.5. ábra - Módusz kiemelése a sokaságból Módusz számítása táblázatkezelő rendszerben két úton lehetséges. Ha megelégszünk a legtöbbször előforduló értékek közül a legkisebbel (azaz ha például a 39 és a 45 is háromszor fordul elő, akkor csak a 39-et fogjuk megkapni), akkor: MS Excel esetében a =MÓDUSZ.EGY(tartomány) utasítással tudjuk elvégezni a számítást. (A tartomány helyébe mindig az adatokat tartalmazó mezőket kell megadni. Például: =MÓDUSZ.EGY(A2:A25) ) LibreOffice esetében a =MÓDUSZ(tartomány) utasítással tudunk eljárni. Ez a módszer alkalmazása bár kényelmes és gyors, sokszor vezethet tévútra illetve hamis elemzéshez, ami a kézi módszernél sokkal nehezebben fordulhat csak elő. Például vegyük egy város éves óránkénti NOx töménység értékének az adatsorát (24*365=8760 adat). A táblázatkezelő által kiírt módusz érték 10 mg/m 3. Ha kézzel végezzük el a számítást, akkor kiderül, hogy valóban a tízes érték fordul elő leggyakrabban az adatsorban (107-szer), de a 45-ös (103-szor) és a 44-es (98-szor) érték szorosan követi a gyakorisági sorban (a következő 19-es érték már csak 37-szer fordult elő). Ha valaki csak a táblázatkezelő értéke alapján dönt, akkor ahogy sajnos számtalanszor előfordult már megnyugodva közölheti: a városban leggyakrabban nagyon tiszta a levegő. Ha viszont veszi a fáradságot és elvégzi a teljes elemzést, akkor viszont gyorsan kiderül, hogy a szennyezett értékek száma jóval magasabb, mint a tízes értéké csak például a műszer mérési jellegzetessége miatt megoszlik két mérési érték között. Természetesen van kényelmes feloldása a gyors és esetleg félrevezető és a fáradságos, de értékesebb számítás kérdésének. Ez pedig a makro. A táblázatkezelők makro nyelvével gyorsan és hatékonyan elvégezhetjük a számítást. (A makro nyelv ismertetése nem célja ezen anyagnak, de számos kiváló forrásanyag segítheti az elsajátítását.) A feladat megoldása makro nyelv használatával: 3.17. táblázat - Módusz meghatározása makróval. A B C D 1 Ismérvek Értékek Előfordulás (db) 2 35 35* 1* 22

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai A B C D 3 36 36* 2* 4 36 38* 1* 5 38 39* 2* 6 39 40* 1* 7 39 43* 2* 8 40 45* 3* 9 43 46* 1* 10 43 51* 1* 11 45 54* 1* 12 45 56* 2* 13 45 57* 1* 14 46 67* 1* 15 51 76* 1* 16 54 89* 1* 17 56 92* 1* 18 56 93* 1* 19 57 98* 1* 20 67 21 76 22 89 23 92 24 93 25 98 * A csillaggal jelzett számokat a makro írta be. Megjegyzés: A makrót korlátlan számú ismérvre le lehet futtatni. ' 23

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai 'Módusz ' '(C)2011 Dr. Domokos Endre ' Sub Módusz() Dim t, r, s As Integer Dim Van As Boolean t = 2 r = 2 Do Until Cells(t, 1) = "" Van = False For s = 2 To r If Cells(t, 1) = Cells(s, 3) Then Cells(s, 4) = Cells(s, 4) + 1 Van = True Exit For End If Next s If Van = False Then Cells(r, 3) = Cells(t, 1) Cells(r, 4) = 1 r = r + 1 End If t = t + 1 Loop End Sub 4. Statisztikai mutatók A statisztikai mutatók feladata, hogy számszerűen, pontosan megmutassa egy adatsor jellemző értékeit. Míg a grafikonokon alapuló elemzéseket jellemzően az adatsorok gyors áttekintésére, emberi felhasználók számára történő látványos megjelenítésre használjuk a környezetvédelem területén, számos esetben szükségünk lehet továbbszámításokhoz használható, számszaki adatokra. Az erre szolgáló számos módszer közül terjedelmeket és a momentumokat ismertetjük részletesen. 4.1. Terjedelem 24

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai A terjedelem mutató meghatározza, hogy az adott adatsor mekkora tartományt ölel fel, azaz mekkora a legkisebb és legnagyobb értéke. A terjedelem meghatározásával gyorsan megállapítható például egy mérés-sorozatról, hogy annak valamelyik eleme átlépte-e a határértéket, vagy sem. A terjedelemnek két fő típusát különböztetjük meg: amikor a teljes adatsorra vonatkoztatunk, akkor a rendes terjedelmet nézzük (jellemzően nem teszünk megkülönböztető jelzőt a megnevezés elé), amikor viszont csak egy kisebb részét vizsgáljuk az egésznek (jellemzően egy vagy több kvantilist), akkor interkvantilis vagy nyesett terjedelemről beszélünk. 4.1.1. (Rendes) terjedelem Példa: Az Osztályközös gyakoriság számításának lépései fejezetnél megismert példában szereplő 24 minta esetén, mind MS Office-ban mind LiberOffice-ban azonosan tudjuk megoldani: 3.18. táblázat - Terjedelem meghatározása. A B C 1 Érték Terjedelem 2 40 Legkisebb =MIN(A2:A25) 3 45 Legnagyobb =MAX(A2:A25) 4 43 5 36 6 39 7 46 8 51 9 57 10 93 11 98 12 67 13 56 14 45 15 56 16 35 17 76 25

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai 18 89 19 92 20 54 21 45 22 43 23 38 24 39 25 36 A B C A meghatározás eredményeképpen megtudjuk, hogy a terjedelem 35 és 98 között van. 4.1.2. Interkvantilis (nyesett) terjedelem Az interkvantilis terjedelem meghatározása során egyszerűen vesszük a kiválasztott kvantilisek két szélső darabját és azok értéke lesz a terjedelem. A leggyakrabban használt két interkvantilis terjedelem a decilisből (a középső 80%-ot szokták így meghatározni), illetve a kvartilisből képzett (így pedig a középső 50%-ot lehet meghatározni). A kvartilisből képzett értéket nagyon gyakran Box-and-whiskers módszernek is hívják. Példa: Ábrázoljuk az Osztályközös gyakoriság számításának lépései fejezetnél megismert példában szereplő 24 minta esetén a Box-and-whiskers értéket a mediánhoz képest. Vegyük a Kvantilisek fejezetben meghatározott kvartilis értékek kvantilisét: Q 1 = 39,25 Q 2 = 45,50 Q 3 = 64,50 Ezután vegyük az első és a harmadik kvartilis kvantilis értéket, majd ábrázoljuk azt egy számegyenesen: 3.6. ábra - Vizsgált adatsor jellemzői számegyenesen 3.7. ábra - Vizsgált adatsor jellemzői A példa jól megmutatja, hogy ha: 26

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai csak a teljes terjedelemre elemzünk, akkor úgy vélhetnénk, hogy nagyon szélsőséges értékek között mozog (35-98) ha már a medián értékét is figyelembe vesszük (Me=45,5), akkor sokkal jobb rálátásunk lesz az adatsorra, mivel kiderül, hogy az adatok a tartomány alsóbb régiójában összpontosulnak, végül anélkül, hogy túlzottan bele kellene mélyedni az adatokba a box-and-whiskers értékkel egészen pontosan be tudjuk határolni, hogy a jellemző mérési értékek a 39 és 65 közötti tartományban találhatóak. 4.2. Statisztikai momentumok A statisztikai momentumok közül az átlag és a szóródás információt nyújtanak az adatsor tekintetében a hely és a változékonyság (terjedés, megoszlás) kérdésében és ez által, megközelítő tájékoztatást nyújtanak azok eloszlásáról (mint azt például egy fényképről készült hisztogram esetében). Az átlag és a szóródás az első két statisztikai momentum, míg a harmadik és a negyedik momentumok tájékoztatást nyújtanak az eloszlás alakjáról és változékonyságáról. Ezek az információk elsődleges célja a gyors, és hatékony adat-áttekinthetőség elérése. Ezek közül a környezetvédelemben a szóródás a leggyakrabban használt művelet. 4.2.1. Szóródás (σ) A szóródás az átlagtól történő eltérést mutatja meg. Mérőszáma a szórás. A szórás értéke tájékoztatást ad arról, hogy mennyire egységes az adatállomány. Kifejezetten fontos érték, ha egy mérőműszer pontosságáról, egy mérés megbízhatóságáról kívánunk tudást szerezni. Számítása súlyozott és súlyozatlan úton lehetséges. Az utóbbi módszer használata gyakoribb a mérési módszer ellenőrzésekor. Az előbbit alkalmazzuk például hatástanulmányok esetében, amikor a környezet több elemének változásának átlagos eltérésére vagyunk kíváncsiak, de a környezeti elemeket nem egyenlő súllyal kívánjuk figyelembe venni (például a vizet érintő változásokat kiemelten kívánjuk kezelni). A számítás során gyakorlatilag az egyedi értékeket hasonlítjuk össze az átlaggal, majd negatív értékek elkerülése érdekében négyzetre emeljük és a végén az átlagból gyököt vonunk. Súlyozatlan esetben a számítás: Súlyozott esetben a számítás: Példa: Egy 15 km hosszú védett folyó-területen, 1 km-ként mérték fel a fajgazdagságot (hány féle fajt találtak az adott területen), illetve meghatározták a folyó vízminőségi kategóriáját. Kérdés milyen szórást mutat a folyó vízminőségi kategóriája, illetve milyen súlyozott szórást mutat ez az érték, ha figyelembe vesszük a fajgazdagságot is. Súlyozatlan esetben, mind MS Office-ban mind LiberOffice-ban megbízható függvényt tudunk használni. 3.19. táblázat - Szórás meghatározása. 1 Kategória A 27

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai * MS Office esetében: =SZÓR.S(A2:A16) * LiberOffice esetében: =SZÓRÁSP(A2:A16) 2 5 3 5 4 4 5 3 6 4 7 5 8 5 9 4 10 5 11 5 12 4 13 3 14 2 15 4 16 5 17 0,909* Súlyozott esetben sem a MS Office-ban sem a LiberOffice-ban nem találunk függvényt a megoldásra, így a példában szereplő 15 minta esetén, a következő képletrendszerrel tudjuk elvégezni a számítást (mindkét esetben azonos képletekkel). 3.20. táblázat - Súlyozott szórás meghatározása. A A B C D 1 Kategória Fajgazdagság Segédoszlop 2 5 104 =F2*HATVÁNY((A 2-$D$3);2) Átlag: 3 5 97 =F2*HATVÁNY((A 3-$D$3);2) =ÁTLAG(A2:A16) 28

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai A B C D 1 Kategória Fajgazdagság Segédoszlop 4 4 117 =F2*HATVÁNY((A 4-$D$3);2) 5 3 110 =F2*HATVÁNY((A 5-$D$3);2) 6 4 76 =F2*HATVÁNY((A 6-$D$3);2) 7 5 140 =F2*HATVÁNY((A 7-$D$3);2) 8 5 131 =F2*HATVÁNY((A 8-$D$3);2) 9 4 132 =F2*HATVÁNY((A 9-$D$3);2) =SZUM(B2:B16) Segédátlag =ÁTLAG(C2:C16) Szórás =GYÖK(D7/D5) 10 5 107 =F2*HATVÁNY((A 10-$D$3);2) 11 5 119 =F2*HATVÁNY((A 11-$D$3);2) 12 4 96 =F2*HATVÁNY((A 12-$D$3);2) 13 3 103 =F2*HATVÁNY((A 13-$D$3);2) 14 2 89 =F2*HATVÁNY((A 14-$D$3);2) 15 4 108 =F2*HATVÁNY((A 15-$D$3);2) 16 5 110 =F2*HATVÁNY((A 16-$E$3);2) 4.2.2. Relatív szóródás Sok esetben a szóródás önmagában nem segít a valós helyzet felmérésben, ami számos félreértelmezéshez vezethet. Amikor kijelentjük egy mérésről, hogy a szóródása 19,62 mg/m 3, az számos esetben nem ad elég tájékozódási alapot. Sok ez az érték? Kevés ez az érték? Ha például a mérés 100 000 mg/m 3 nagyságrendű, akkor a szóródás kiváló mérési pontosságot takar, de ha a mérés 100 mg/m 3 nagyságrendű, akkor komoly fenntartásaink lehetnek a méréssel kapcsolatban. Ezt a bizonytalanságot csökkenti a relatív szóródás kiszámítása, ami százalékos formában adja meg a szórás és az számtani átlag hányadosát. Számítása: 29

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Példa: Egy kalibrációs mérési sorozat eredményei alapján határozzuk meg a szóródást és a relatív szóródást. A megoldás mind MS Office-ban mind LiberOffice-ban beépített függvények segítségével lehetséges. 3.21. táblázat - Relatív szóródás meghatározása. A B 1 Mért érték (mg/l) 2 104 3 103 4 98 5 101 6 102 7 99 8 100 9 100 10 98 11 102 12 103 13 104 14 102 15 103 16 101 17 Szóródás 1,92* mg/l 18 Relatív szóródás 1,90** % * MS Office esetében: =SZÓR.S(B2:B16) 30

* LiberOffice esetében: =SZÓRÁSP(B2:B16) Nagy mennyiségű adatok feldolgozásának statisztikai alapjai ** MS Office és LiberOffice esetében: =100*(B18/ÁTLAG(B3:B17)) A standard deviancia ábrázolása a fenti adatsorra: 3.8. ábra - A standard deviancia ábrázolása 4.2.3. Általános (abszolút) különbség A szóródás vizsgálatának egy másik elve, amelyet Corrado Gini alkotott meg, azt vizsgálja, hogy az ismérvek mennyire különböznek egymástól. Ezt a vizsgálatot általános vagy abszolút különbségnek hívjuk. Az elemzés kifejezetten hasznos, ha a szélsőségekre szeretnénk választ kapni. Ennél a vizsgálati módszernél már néhány, az átlagtól kiugróan eltérő ismérv is jelentősen megemeli a különbség értékét. Lehetséges súlyozott és súlyozatlan módon is számolni. Képlet a következő: Súlyozatlan: Súlyozott: Példa: A Szóródás (δ) fejezetben megismert példán számítsuk ki az átlagos különbség súlyozatlan és súlyozott értékét. 31

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai A feladatot kényelmesen MS Office-ban és LibreOffice-ban is csak makro nyelven tudjuk megoldani. A makró forráskódja a következő: 3.22. táblázat - Különbség számításához alapadatok A B 1 Kategória Fajgazdagság 2 5 104 3 5 97 4 4 117 5 3 110 6 4 76 7 5 140 8 5 131 9 4 132 10 5 107 11 5 119 12 4 96 13 3 103 14 2 89 15 4 108 16 5 110 17 Átlagos különbség 18 Súlyozatlan 1,00952381* 19 Súlyozott 11554,01905* * A csillaggal jelzett számokat a makro írta be. ' 'Átlagos különbség számítása ' '(C)2011 Dr. Domokos Endre ' 32

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Sub Súlyozatlan() Dim r, t, N As Integer Dim Különbség, G As Double N = 15 Különbség = 0 For t = 2 To N + 1 For r = 2 To N + 1 Különbség = Különbség + Abs(Cells(t, 1) - Cells(r, 1)) Next r Next t G = (1 / (N * (N - 1))) * Különbség Cells(N + 3, 2) = G End Sub Sub Súlyozott() Dim r, t, N As Integer Dim Különbség, G As Double N = 15 Különbség = 0 For t = 2 To N + 1 For r = 2 To N + 1 Különbség = Különbség + (Cells(t, 2) * Cells(r, 2) * Abs(Cells(t, 1) - Cells(r, 1))) Next r Next t G = (1 / (N * (N - 1))) * Különbség Cells(N + 4, 2) = G End Sub 4.2.4. Momentum A szóródások egy különleges fajtája a momentum képzés, amelynek során a szóródást egy tetszőlegesen kiválasztott (akár az ismérvek között nem szereplő) értékhez viszonyítjuk. Kiválóan lehet használni e módszert műszerek teljes pontosságának meghatározására, amikor egy ismert (beállító) érték mérése során mért értékeket viszonyítunk a beállító értékhez. Gyakorlatban a momentum képzés az átlagok és a szórások általános felírása. Általános megfogalmazása a következő: Y ismérv vagy gyakorisági eloszlás A körüli r-ed rendű momentumai. Számítása súlyozatlan esetben: 33

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai Súlyozott esetben: Néhány nevezetes momentum: Számtani átlag (r=1, A=0): Négyzetes átlag négyzete (r=2, A=0): Variancia (r=2, ): Megbízhatóság (r=2, A =beállító érték) Példa: A Relatív szóródás fejezetben megismert példa során a mérést 100 mg/l-es sűrűségű mintával végeztük. Számítsuk ki a megbízhatóságát a berendezésnek. 3.23. táblázat - Momentum számítás (berendezés megbízhatósága) A B C D 1 Mért érték (mg/l) Segédoszlop Beállító sűrűség 2 104 =HATVÁNY(B2- $D$2;2) 3 103 =HATVÁNY(B3- $D$2;2) 100 mg/l 4 98 =HATVÁNY(B4- $D$2;2) 5 101 =HATVÁNY(B5- $D$2;2) 6 102 =HATVÁNY(B6-34

Nagy mennyiségű adatok feldolgozásának statisztikai alapjai A B C D $D$2;2) 7 99 =HATVÁNY(B7- $D$2;2) 8 100 =HATVÁNY(B8- $D$2;2) 9 100 =HATVÁNY(B9- $D$2;2) 10 98 =HATVÁNY(B10- $D$2;2) 11 102 =HATVÁNY(B11- $D$2;2) 12 103 =HATVÁNY(B12- $D$2;2) 13 104 =HATVÁNY(B13- $D$2;2) 14 102 =HATVÁNY(B14- $D$2;2) 15 103 =HATVÁNY(B15- $D$2;2) 16 101 =HATVÁNY(B16- $D$2;2) 17 Megbízhatóság =SZUM(C2:C16)/D ARAB(B2:B16) mg/l Az eredmény 5,47 mg/l, azaz a berendezésünk által mért értékek ±6 mg/l pontosak (ez a műszerünk megbízhatósága). 35

4. fejezet - Adatbázisok fellelhetősége az interneten Az Európai Unió illetve Magyarország környezetpolitikájában egyre nagyobb szerepet kap a társadalom, mivel növekszik az emberek környezettudatossága és a környezeti információk iránt az igényük. Alapvető fontosságú, hogy a lakosság tájékozódni tudjon lakóhelyének környezeti állapotáról, és így lehetősége nyílik részt venni a döntési folyamatokban. Ahhoz, hogy ez a rendszer kialakuljon, közérthető formában kell az emberek elé tárni az adott problémát. A demokrácia fejlődésével egyre inkább előtérbe kerül az önkormányzatok felelősségében, a településeken lakók számára élhető és egészséges környezet megteremtése, és az, hogy olyan területfejlesztési programokat indítsanak, mely ezt elősegíti. A környezeti információk megléte, látványos megjelenítése jelentősen megkönnyíti a területfejlesztési döntések meghozatalát, a fejlesztések kapcsán a lakosság informálását, egy esetleges lakossági fórum, vagy szavazás szakmai megalapozását. A törvényeknek megfelelően mára több állami szervezet, és önkormányzat biztosít hozzáférést a környezeti adatokhoz, és azok értékeléséhez. A civil társadalomra jellemző módon, az állam mellett több civil szervezet önként vállat, vagy szerződésben rögzített feladatként foglalkozik környezeti információs rendszerek építésével és lakossági tájékoztatással. Ezek mellett több állami és non-profit kutatóhely munkakörébe tartozik a környezeti adatok gyűjtése, értékelése. Ennek ellenére be kell látnunk, hogy mind a lakossági tájékoztatás, mind pedig a nyilvánosan hozzáférhető adatbázisok működése napjainkban még gyenge lábakon áll hazánkban. Számos oldalon például csak utalásokat találhatunk bizonyos adatbázisokra, ezek lenyíló választó fülei is megjelennek, azonban ezek után vagy csak egy rövid szöveges leírást találunk, vagy éppen egy jelszóval védett oldalra jutunk. Így kimaradnak a felsorolásból olyan oldalak, mint: Vízügyi honlap Vízügyi és Környezetvédelmi Központi Igazgatóság Vízgazdálkodási Információs Rendszer (VIZIR). Vízkárelhárítási Védekezési Információs Rendszer (VIR). Vízminőségi Kárelhárítási Információs Rendszer (VIKÁR). Hidrometeorológiai Információs Rendszer. Vízföldtani Információs Rendszer. Vízügyi jelentés nyilvántartási információs rendszer. Települési Szennyvíz Információs Rendszer Talajvédelmi Információs Monitoring Rendszer (TIM) Tekintettel arra, hogy minden területnek megvan a maga adatbázisa, jelen fejezetben elsősorban a környezetvédelmi jellegű, illetve az azzal összefüggésbe hozható (jelentősebb) adatbázisokat tekintjük át. Kizárólag olyan adatlapok kerülnek megemlítésre, amelyek nem csak felsorolják, hogy az adott szervezet milyen jellegű adatokat gyűjt, hanem amelyek ténylegesen online, mindenki számára elérhető, lekérhető adatokat is szolgáltat a környezettel kapcsolatosan. 1. OKIR (Országos Környezetvédelmi Információs Rendszer) 36

Adatbázisok fellelhetősége az interneten A Vidékfejlesztési Minisztérium (korábban Környezetvédelmi és Vízügyi Minisztérium 1, www.kvvm.hu 2 ) irányítása alá tartozó szervezeteknél a környezet terhelésével és a környezet állapotával kapcsolatban számos adat áll rendelkezésre. Az OKIR adatbázisban szereplő adatok egy része a területi környezetvédelmi szervek saját méréseiből, másik része a környezethasználók jogszabályi előírásai alapján tett adatszolgáltatásaiból származnak. Az adatok jelentős része ma már közvetlenül központi számítógépes adatbázisba kerül, olyan módon, hogy a méréseket végző, valamit az adatszolgáltatásokat feldolgozó Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőségek a minisztériumi szerverhez kapcsolódva közvetlenül a központi adatbázisba viszik fel az adatokat. Ez a rendszer az Országos Környezetvédelmi Információs Rendszer (OKIR). A rendszer elsődleges feladata, hogy a környezet állapotának és használatának figyelemmel kísérését, igénybevételi és terhelési adatainak gyűjtését, feldolgozását és nyilvántartását támogassa, és az érintett felhasználókat (beleértve a nyilvánosságot is) ellássa a szükséges információkkal. Moduláris felépítésű, amely azt jelenti, hogy a különböző környezetvédelmi szakterületek adatai saját szakterületi nyilvántartásokba kerülnek, amely szakrendszerek egymással összefüggő és egymás között átjárható konglomerátumot alkotnak. A lekérdező funkció segítségével jelenleg az alábbi környezetvédelmi területekről érhetők el adatok: Mi van a környezetemben? - Térképes lekérdező, a Környezetvédelmi Alapnyilvántartó Rendszerben nyilvántartott objektumok és az azokról rendelkezésre álló környezetvédelmi adatok megjelenítése érdekében Hulladékgazdálkodási adatok a Hulladékgazdálkodási Információs Rendszerből (HIR) Légszennyező anyag kibocsátások a Levegő-tisztaság Védelmi Információs Rendszerből (LAIR) Felszíni vízminőségi mérési eredmények - a felügyelőségi laboratóriumok vízvizsgálatai mérései alapján a '60-as évekig visszamenőleg (FEVI) Jogerős környezetvédelmi hatósági határozatok adatai, amelyek a felügyelőségek által vezetett Hatósági Nyilvántartó Rendszerből (HNYR) származnak Veszélyes és nem veszélyes hulladékok kezelésére feljogosító engedélyek adatai, beleértve a hulladékok begyűjtésére és szállítására vonatkozó engedélyeket. Tekintsünk meg egy példát. Kiválasztunk egy várost Mi van a környezetemben menüpont alatt (ez esetben Veszprémet), majd lekérdezzük, milyen levegőt terhelő pontforrások vannak a választott városunkban (3.1. ábra és 3.2. ábra). 4.1. ábra - Veszprém levegőt terhelő pontforrásai 1 Környezetvédelmi és Vízgazdálkodási Minisztérium (1987) Környezetvédelmi és Területfejlesztési Minisztérium (1994) Környezetvédelmi Minisztérium (1997) Környezetvédelmi és Vízügyi Minisztérium (2002) Vidékfejlesztési Minisztérium (2010) 2 Az új kormányzati portál 2011. január 1. óta él: http://www.kormany.hu./hu/videkfejlesztesi-miniszterium 37

Adatbázisok fellelhetősége az interneten 4.2. ábra - Volán telephely éves szennyezőanyag kibocsátása (kg) Az adatbázisban szereplő telephelyek megjelennek a térképen. Egérrel rámutatunk az egyik piros léggömbre, kinyílik a címke: Volán telephely. A részletes adatokra kattintva táblázatban megnyílnak a mért a szennyezőanyag koncentrációk éves átlagai (3.2. ábra). 2. Zöldhatóságok 38

Adatbázisok fellelhetősége az interneten Az Országos Környezetvédelmi, Természetvédelmi és Vízügyi Főfelügyelőség a vidékfejlesztési miniszter irányítása alatt működő központi hivatal, önállóan működő és gazdálkodó, közhatalmi központi költségvetési szerv, illetékessége az ország egész területére kiterjed. Felügyeleti szerve a Vidékfejlesztési Minisztérium. Közigazgatási eljárásban az alárendeltségben működő 10 környezetvédelmi, természetvédelmi és vízügyi felügyelőség (területi szerv) felettes, valamint felügyeleti szerve. Környezetvédelmi, természetvédelmi és vízügyi felügyelőségek: Közép-Duna-völgyi Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Budapest) Alsó-Tisza-vidéki Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Szeged) Dél-dunántúli Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Pécs) Észak-dunántúli Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Győr) Észak-magyarországi Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Miskolc) Felső-Tisza-vidéki Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Nyíregyháza) Közép-dunántúli Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Székesfehérvár) Közép-Tisza-vidéki Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Szolnok) Nyugat-dunántúli Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Szombathely) Tiszántúli Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőség (Debrecen) A felügyelőségek weboldalai környezeti és közérdekű adatokat egyaránt tartalmaznak az elektronikus információszabadságról szóló 2005. évi XC. törvény által meghatározott formában és tartalommal. Elérhető az éppen az aktuális jogszabályok jegyzéke, továbbá a legtöbb ügyintézéshez szükséges formanyomtatvány. 3. OLM (Országos Légszennyezettségi Mérőhálózat) 1974 és 2001 között a mérőhálózatot (korábbi nevén: Országos Immisszió-mérő Hálózat) az egészségügyi tárca szakmai irányításával az akkori megyei (fővárosi) KÖJÁL-ok, majd ezek utódai, a megyei (fővárosi) ÁNTSZ intézetek üzemeltették. A mérőhálózat üzemeltetéséért 2002. február 1. óta a környezetvédelmi tárca, 2010-től a Vidékfejlesztési Minisztérium a felelős. A tényleges kezelői feladatokat a területi szervei, a környezetvédelmi, természetvédelmi és vízügyi felügyelőségek (felügyelőségek) látják el. Az Országos Légszennyezettségi Mérőhálózat két részből áll: az automata és a manuális mérőhálózatból. A mérőhálózat az ország területén a légszennyezettség mérésére és értékelésére hivatott, mely az automatikus mérőhálózat, a manuális mérőhálózat, mobil mérőállomások és időszakos mintavételek segítségével valósul meg. Az egyes illetékességi területeken a Környezetvédelmi Felügyelőségek üzemeltetik a manuális (szakaszos) és az automatikus (folyamatos) mérőhálózat állomásait, valamint ők végzik az időszakos légszennyezettségi méréseket is. Jelenleg 31 település 52 mintavételi helyén mérik folyamatosan a kiemelt jelentőségű légszennyező anyagok koncentrációit és az értékeléshez szükséges meteorológiai paramétereket. Az automata mérőhálózatban mért légszennyező anyagok (nem mérnek minden komponenst minden helyszínen, példa 3.3. ábra): SO 2 NO/NO 2/NOx, CO O 3 39

Adatbázisok fellelhetősége az interneten Szálló por (PM 10 és PM 2,5 frakciók, utóbbi csak 4 helyszínen) BTEX H 2S VOC Az automata mérőhálózatban regisztrált meteorológiai paraméterek: szélsebesség, szélirány, hőmérséklet, páratartalom, csapadékmennyiség. 4.3. ábra - Veszprém Kádár utcai mérőkonténer adatlapja A manuális mérőhálózat (korábbi nevén: RIV: Regionális Immisszió Vizsgáló Hálózat) közel harminc éves múltra tekint vissza. A minták elemzését a szakaszos (24 órás) mintavételt követően a Környezetvédelmi, Természetvédelmi és Vízügyi Felügyelőségek akkreditált vizsgáló laboratóriumaiban végzik. A vizsgálati eredmények a felügyelőségi alközpontokba, majd végül az Országos Légszennyezettségi Adatközpontba kerülnek. Jelenleg 131 településen működik a manuális mérőhálózat. A manuális hálózatban vizsgált komponensek: SO 2, NO 2, ülepedő por (g/m 2 *30 nap). 40

Adatbázisok fellelhetősége az interneten A háttér-szennyezettséget mérő hálózatot négy mérőállomással - az Országos Meteorológiai Szolgálat üzemelteti, amelyek K-pusztán, Nyírjesen, Farkasfán és Hortobágyon találhatók. További két állomás működik a környezetvédelmi felügyelőség kezelésében, ezek a Fertőújlaki (Sarród) és a Majláth-pusztai mérőállomások. 4. Központi Statisztikai Hivatal Az előzőekben említett manuális és automata mérőállomások adatai a Központi Statisztikai Hivatal adatbázisában is megjelennek, továbbá bővebb információk érhetők el a metainformációs adatbázisból mind a környezetvédelmi ipar, környezetvédelmi ráfordítás, hulladék, mind pedig víz tématerületeken. 5. Vízügyi adatbank 4.4. ábra - Vízügyi adatbank kezdőlapja A fenti menüsorból az alábbiak szerint választhatjuk ki az adatbázisból a számunkra értékes információt. 4.5. ábra - Vízügyi adatbank lekérdező felülete 6. OMSZ (Országos Meteorológiai Szolgálat) Online adatbázisából a meteorológiai paraméterek alakulását ismerhetjük meg (mint hőmérséklet, páratartalom, szélsebesség, szélirány, UV-B sugárzás 3.6 ábra és 3.7 ábra). Az OMSZ üzemelteti továbbá a háttérszennyezettséget mérő mérőállomásokat, méri a troposzférikus ózon koncentrációt, felszín-légkör közötti CO 2 forgalmat, üvegházgáz mérlegeket készít, stb., de ez utóbbiak adatai online nem elérhetők. 41

Adatbázisok fellelhetősége az interneten 4.6. ábra - Met.hu legfrissebb mért meteorológiai adatai 4.7. ábra - UV index várható napi menete 7. River Monitoring Tiszta-vízgyűjtő monitoring rendszer mérési/mintavételi pontjai a 3.8 ábrán láthatók. 4.8. ábra - Tisza-vízgyűjtő monitoring rendszer 42

Adatbázisok fellelhetősége az interneten A monitorállomások felszereltségének főbb összetevői a mérőműszerek, a mintaellátó szivattyúrendszer, a hidraulikai rendszer, a különböző segédberendezések és a mérésvezérlő-adatgyűjtő rendszer. Online megismerhető adatok (3.1 táblázat): 4.1. táblázat - Monitorállomások alap-műszerezettsége Monitorállomások alap-műszerezettsége Vízminőségi paraméter Mértékegység Mérési tartomány Működési elv Vízhőmérséklet C 0-50 Digitális ph 0-14 Potenciometria Oldott oxigén mg/l 0-20 Voltametria Vezetőképesség µs/cm 0-2000 Konduktometria Zavarosság NTU 0-500 Fényvisszaszórás Ammónium ion mg/l 0-10 Fotometria TOC mg/l 0-20 UV gyorsított oxidáció Felszíni olaj - - Felszíni vízminta TOC méréshez Klorofill-a µg/l 0,1-től Fluorometria 0-20 T-index 0-100 Daphina / Alga 43

Adatbázisok fellelhetősége az interneten Monitorállomások alap-műszerezettsége További műszerezettség az MS-2 monitorállomáson Nehézfém analizátor (cink, kadmium, ólom, réz) µg/l 0-5000 Polarográfia Nitrát µg/l 0-10 Fotometria Cianid µg/l 0-2 Polarográfia 8. Integrált Drávai Monitoring Az országos vízminőségi törzshálózat kialakítására 1968-1972 között került sor, ennek részeként a Drávai megfigyelések már 1968-ban megkezdődtek. Vízrajzi monitoring (online elérhető) Vízkémiai monitoring (ph, Fajlagos vezetőképesség (µs/cm), Oldott O 2 (mg/l), O 2 (%), KOIsp (mg/l), KOIcr (mg/l), NH 4 + (mg/l), Összes P (mg/l), a-klorofill (mg/m 3 ), szaprobitás index) (online elérhető) Biológiai monitoring 9. Nemzetközi kitekintés Egyesült Királyság Elérhetőség: http://www.airquality.co.uk/archive/index.php Írország Elérhetőség: http://www.ehsni.gov.uk/environment/air/smokecontrol.shtml Ausztrália Elérhetőség: http://www.epa.vic.gov.au/air/aaqfs/aaqfs_melb_forecast.asp Svájc Elérhetőség:http://www.umweltschweiz.ch/buwal/eng/fachgebiete/fg_luft/luftbelastung/karten/index.html Németország Elérhetőség: http://www.env-it.de/luftdaten/map.fwd?meascomp=o3 Franciaország Elérhetőség: http://www.airnormand.asso.fr/normand/uk/index.html A nemzetközi kitekintésből egyértelműen kiderült, hogy a vizsgált rendszerek mindegyike elsősorban a levegőminőség szempontjából jellemzi a városi környezet élhetőségét. Közös ezekben, a rendszerekben az, hogy a leggyakoribb szennyezők (O 3, CO, SO 2, PM 10, NO, NO 2, benzol) előfordulását mérik a légkörben, általában a város fixen meghatározott pontjain. Ez a megállapítás a rendszerekkel szemben támasztott alapvető elvárások közé sorolható, csakúgy, mint a megfigyelt adatok visszakereshetőségére vonatkozó kitétel. A legtöbb alkalmazás kitér a mérési eredmények minősítésére is, azaz valamilyen formában jelzi azt, hogy mennyire szennyezett adott területen a levegő. Ez általában egy az adott ország törvényi rendelkezéseitől függő határérték táblázat alapján történő értékelésének eredményeképpen valósul meg. A megjelenítést és az adatok böngészését egy internetes felület segítségével valósítják meg, melyen általában egy statikus térképet is 44

Adatbázisok fellelhetősége az interneten alkalmaznak. Az új alkalmazásokkal szembeni elvárás mára már az, hogy az adatokat dinamikus térképeken lehessen szemléltetni, megkönnyítve ezzel az adatok elérését. Európai Unió E-PRTR The European Pollutant Release and Transfer Register 27 EU tagállam, valamint Izland, Liechtenstein, Norvégia, Szerbia és Svájc tartozik a nyilvántartásba. Éves adatokat láthatunk 28000 ipari létesítmény kapcsán, 65 gazdasági tevékenységgel összefüggésben, 9 szektorra osztva: energia termelés és fémfeldolgozás ásványipar vegyipar hulladék-és vízgazdálkodás papír és faanyag előállítása és feldolgozása intenzív állattartás és akvakultúra állati és növényi eredetű termékek az élelmiszer-és üdítőital-ágazatban, valamint egyéb tevékenységek. EEA European Environment Agency Az oldal olyan környezeti kérdésekkel foglalkozik, mint például a fenntarthatóság, a környezetbarát gazdaság, a víz, a hulladék, az élelmiszer, az irányítás és az ismeretek megosztása. Hivatalos nyelven: http://www.eea.europa.eu/ ( http://www.eea.europa.eu/hu) Eurostat Your key to European Statistics 4.9. ábra - Európai Statisztikai Hivatal témakörei 45

Adatbázisok fellelhetősége az interneten 46

5. fejezet - Adatbázisok használatának jogi háttere A Magyar Köztársaság valamennyi állami és önkormányzati szerve adatok, dokumentumok sokaságát kezeli. Ezek egy része a nyilvánosság elől törvény által védett adat, más része bárki által megismerhető. Van köztük olyan, amely természetes személyre vonatkozik, van, ami az adott szervezet működésére, és létezik olyan is, amelyet a közszféra szervei a feladatuk ellátása során más szervezetekről tartanak nyilván. Az adatok kezelését, gyűjtését, továbbítását jogi normák szabályozzák. Magyarországon az Alkotmány (az 1949. évi XX. törvény) kimondja, hogy mindenkit megillet a személyes adatok védelméhez való jog (59. (1) bekezdés), és mindenkinek joga van arra, hogy a közérdekű adatokat megismerje és terjessze (61. (1) bekezdés). Az 1989 90-es politikai átalakulás egyik sarkalatos kérdése volt a nyilvánosság ügye. A rendszerváltás politikai erői egyetértettek abban, hogy nem elég a sajtószabadság, a véleménynyilvánítás szabadságának megteremtése. Egy demokratikus társadalomban elengedhetetlen, hogy szigorú törvények óvják a polgárok magánéletét, ugyanakkor biztosítsák az állam átláthatóságát, elszámoltathatóságát. Ezek alapján az Országgyűlés megalkotta a személyes adatok védelméről és a közérdekű adatok nyilvánosságáról szóló 1992. évi LXIII. törvényt (továbbiakban Avtv.), egy normába foglalva e jogok gyakorlásának legfontosabb szabályait, garanciáit.az Avtv. alapján a közszférában kezelt adatokat öt csoportra osztjuk. 2. E törvény alkalmazása során: 1. személyes adat: bármely meghatározott (azonosított vagy azonosítható) természetes személlyel (a továbbiakban: érintett) kapcsolatba hozható adat, az adatból levonható, az érintettre vonatkozó következtetés. A személyes adat az adatkezelés során mindaddig megőrzi e minőségét, amíg kapcsolata az érintettel helyreállítható. A személy különösen akkor tekinthető azonosíthatónak, ha őt - közvetlenül vagy közvetve - név, azonosító jel, illetőleg egy vagy több, fizikai, fiziológiai, mentális, gazdasági, kulturális vagy szociális azonosságára jellemző tényező alapján azonosítani lehet; 2. különleges adat: a) a faji eredetre, a nemzeti és etnikai kisebbséghez tartozásra, a politikai véleményre vagy pártállásra, a vallásos vagy más világnézeti meggyőződésre, az érdek-képviseleti szervezeti tagságra, b) az egészségi állapotra, a kóros szenvedélyre, a szexuális életre vonatkozó adat, valamint a bűnügyi személyes adat; 3. bűnügyi személyes adat: a büntetőeljárás során vagy azt megelőzően a bűncselekménnyel vagy a büntetőeljárással összefüggésben, a büntetőeljárás lefolytatására, illetőleg a bűncselekmények felderítésére jogosult szerveknél, továbbá a büntetés-végrehajtás szervezeténél keletkezett, az érintettel kapcsolatba hozható, valamint a büntetett előéletre vonatkozó személyes adat; 4. közérdekű adat: az állami vagy helyi önkormányzati feladatot, valamint jogszabályban meghatározott egyéb közfeladatot ellátó szerv vagy személy kezelésében lévő, valamint a tevékenységére vonatkozó, a személyes adat fogalma alá nem eső, bármilyen módon vagy formában rögzített információ vagy ismeret, függetlenül kezelésének módjától, önálló vagy gyűjteményes jellegétől; 5. közérdekből nyilvános adat: a közérdekű adat fogalma alá nem tartozó minden olyan adat, amelynek nyilvánosságra hozatalát vagy hozzáférhetővé tételét törvény közérdekből elrendeli; 1. örnyezetvédelmi vonatkozású adatok szabályozása Európai Unió hatodik környezetvédelmi akcióprogramja (2002-2012) külön területként jelöli meg az állampolgárok bevonásának ösztönzését a környezetvédelmi eljárásokba, illetve megfelelő jogosítványokkal való felhatalmazásukat. A társadalmi részvétel és ezzel együtt a civil kontroll mind teljesebb érvényre juttatása alapvető követelményként jelent meg a környezetvédelmi jog XX. századi fejlődésében. A társadalmi részvétel egyes területeit a Riói Nyilatkozat 10. elve foglalja össze: A környezeti ügyeket a legjobban az összes érdekelt állampolgár részvételével a megfelelő szinten lehet kezelni. Nemzeti szinten minden egyénnek biztosítani kell a megfelelő hozzáférést a környezetre vonatkozó információkhoz, melyekkel a közhivatalok és a hatóságok rendelkeznek; beleértve a veszélyes anyagokra és az állampolgárok közösségeit érintő tevékenységekre vonatkozó információt; és lehetővé kell tenni a döntéshozatali folyamatban való 47

Adatbázisok használatának jogi háttere részvételt. Az államok segítsék el és bátorítsák a lakosság tudatosságát és részvételét azzal, hogy széles körben hozzáférhetővé teszik az információkat." A társadalmi részvétel érvényesülésének és érvényesítésének alapdokumentuma az 1998. évi Aarhusi Egyezmény, amit az Európai Parlament és a Tanács 2006. szeptember 6-i 1367/2006/EK rendelete az Európai Unió jogrendszerének szerves részévé tett. Az Egyezmény 1. cikkelye kimondja: A jelen és jövő generációkban élő minden egyén azon jogának védelme érdekében, hogy egészségének és jólétének megfelelő környezetben éljen, ezen Egyezményben Részes valamennyi Fél garantálja a nyilvánosság számára a jogot az információk hozzáférhetőségéhez, a döntéshozatalban való részvételhez és az igazságszolgáltatás igénybevételéhez a környezetvédelmi ügyekben." A környezet védelmének általános szabályairól szóló 1995. évi LIII. tv. (Környezetvédelmi törvény) 12. -a tájékozódás, tájékoztatás és nyilvánosság elveként valami hasonló alapelv kimondására törekszik, de ezt a törvényi elvet csak a törvény VIII. fejezetével együtt elemezve nyilvánosság részvétele a környezetvédelemben azonosíthatjuk a társadalmi részvétel elvével. A tájékozódás a környezetre vonatkozó információk megismerését jelenti, a tájékoztatás az állami szervek és önkormányzatok adatgyűjtési és ezen alapuló tájékoztatási kötelezettségével azonosítható, míg a környezethasználót is tájékoztatási kötelezettség terheli a 12. (9) bekezdése szerint. Az információ a társadalmi részvétel legalapvetőbb feltétele, amely két nagy jogosítványcsoportba sorolható: az aktív információhoz való jutás szabályainak csoportjába, amely szerint a társadalmat rendszeresen tájékoztatni kell a környezet állapotáról, és a passzív információs jog csoportjába, amelynek értelmében a társadalom tagjai vagy csoportjai információt kérhetnek, mégpedig anélkül, hogy ennek indokait meg kellene határozniuk. Az információ iránti igény visszautasítására csak indokolt esetekben kerülhet sor ilyen lehet például a nemzetbiztonság vagy a szolgálati titok. 2. A környezetvédelmi vonatkozású közérdekű adatok megismerésének korlátai Az Avtv. szerint tehát: a közfeladatot ellátó szerveknek lehetővé kell tenniük, hogy a kezelésükben lévő közérdekű adatot bárki megismerhesse, kivéve, ha az adott törvény alapján az arra jogosult szerv állam vagy szolgálati titokká nyilvánította, továbbá ha a közérdekű adatok nyilvánosságához való jogot az adatfajták meghatározásával a törvény honvédelmi, nemzetbiztonsági, bűnüldözési vagy bűnmegelőzési, központi pénzügyi vagy devizapolitikai érdekből, külügyi kapcsolatokra, nemzetközi szervezetekkel való kapcsolatokra, bírósági eljárásra tekintettel korlátozza. 3. Az elektronikus információszabadság Információszabadság alatt azt értjük, hogy a tág értelemben vett állam működésének átláthatónak kell lennie az egyének, csoportjaik vagy akár az egész közvélemény számára, az államnak csak szigorúan és pontosan meghatározott feltételek fennállása esetén, rendkívül szűk körben lehetnek titkai. Az információszabadság számos egyéni és társadalmi célt szolgálhat, például hozzásegítheti a magánszemélyeket ügyeik gyors és egyszerű elintézéséhez, tudományos kutatókat kutatásuk alapjául szolgáló adatok megismeréséhez, vagy akár szolgálhatja bárki érdeklődésének egyszerű kielégítését is. Az elmúlt évtizedek információs technológiájának viharos fejlődése érthető módon hatással van az információs jogok szabályozására és gyakorlatára egyaránt. A 90-es évek második felétől hazánkban is sorra jelentek meg olyan szabályok, amelyek meghatározott információk elektronikus közzétételi kötelezettségét írták elő. 2005-ben megszületett az elektronikus információszabadságról szóló 2005. évi XC. törvény (Eitv.). Az Avtvben biztosított jogokkal összhangban további pontosításokat jelent a jogok és kötelezettsége rendszerében. A fő gondolatmenetet a törvény célja fogalmazza meg az alábbiak szerint: 48

Adatbázisok használatának jogi háttere 1. E törvény célja annak biztosítása, hogy a közvélemény pontos és gyors tájékoztatása érdekében a közérdekű adatok e törvényben meghatározott körét elektronikus úton bárki számára személyazonosítás és adatigénylési eljárás nélkül, folyamatosan és díjmentesen közzétegyék. Környezetvédelmi adatbázisok révén jelen témakörben alapvető fontosságú meghatározni, hogy mit is értünk környezeti információ alatt. A 311/2005. (XII. 25.) Korm. rendelet a nyilvánosság környezeti információkhoz való hozzáférésének rendjéről c. rendelet részletesen definiálja a környezeti információ fogalmát (az Aarhusi Egyezmény 2. cikkének 3. bekezdésével összhangban). Környezeti információ minden olyan információ (adat), amely vonatkozik: a. a környezetre, illetve a környezeti elemek állapotára - ideértve a biológiai sokféleséget és annak összetevőit, valamint a géntechnológiával módosított szervezeteket -, valamint az ezen elemek közötti kölcsönhatásra; b. a környezetterhelésre, ideértve a zaj, sugárzás, hulladék, radioaktív hulladék környezetbe történ közvetlen vagy közvetett kibocsátására, ha az hatással van, vagy valószínűleg hatással lehet a környezet a) pontban meghatározott elemeire; c. környezettel összefügg intézkedésekre, különösen az azokkal kapcsolatos ágazati politikára, jogszabályokra, tervekre, programokra, megállapodásokra, illetve az a) és b) pontban meghatározottakra hatással lévő vagy valószínűleg hatással lévő tevékenységekre, valamint a környezet és a környezeti elemek védelmére hozott intézkedésekre és tevékenységekre; d. a környezetvédelmi jogszabályok végrehajtásáról szóló jelentésekre; e. a c) pontban említett intézkedések és tevékenységek keretein belül használt, költséghatékonysági és más gazdasági elemzésekre és feltevésekre; f. az emberi egészség és biztonság állapotára - ideértve az élelmiszerlánc szennyeződését, az emberi életfeltételeket, a kulturális helyszíneket és építményeket - amennyiben azokra a környezeti elemek állapota vagy ezeken az elemeken keresztül a b) vagy c) pontban említett bármilyen tényező vagy intézkedés hatással van, vagy hatással lehet. A környezeti információt lehetőség szerint elektronikus adatbázisokban kell nyilvántartani. A megfelelő szintű technikai feltételek rendelkezésre állása esetén a környezeti információt az adott szervezet hivatalos internetes honlapján is meg kell jeleníteni, a közölt adatok folyamatos frissítésével. Emberi egészséget vagy a környezetet érő közvetlen fenyegetés esetén függetlenül attól, hogy emberi tevékenység vagy természeti ok idézi elő, a környezeti információval rendelkező szerv a birtokában lévő vagy számára tárolt környezeti információt közzéteszi a várható kihatással érintett lakosság számára azonnal és késedelem nélkül, lehetővé téve a fenyegetésből származó kár megakadályozására vagy csökkentésére irányuló intézkedések megtételét. 49

6. fejezet - Adatminőségi osztályok (adatok pontossága, adatok megbízhatósága) Az Európai Közösségek Bizottsága a 96/23/EK tanácsi irányelvben rögzítette az analitikai módszerek elvégzése és az eredmények értelmezése terén használatos fogalmakat. A precizitás, vagy pontosság (precision) a mérési eredményeknek az átlagérték körüli ingadozását kifejező mértékszám (önálló vizsgálati eredmények közeliségét mutatja meg). A pontosság növelhető a párhuzamosan elvégzett mérések számával. A torzítás, helyesség vagy egzaktság (accuracy) a mérési eredmények átlagának valamilyen módon rögzített referenciaértéktől, valós értéktől való eltérése. A torzítás közvetlenül nem ismerhető fel a mérési eredményekből, és nem csökkenthető a vizsgálatok számának növelésével. Az ismételhetőség azt mutatja meg, hogy ugyanazt a vizsgálati mintát, ugyanaz a személy, azonos körülmények esetén más alkalommal milyen pontossággal tudja megmérni. A reprodukálhatóság pedig azt fejezi ki, hogy ugyanazt a vizsgálati mintát, azonos körülmények között más személy milyen precizitással méri meg. Egy mérés nem mérés, egy számítás önámítás tartja a mondás. Egy mérést, ha többször megismételünk, azt tapasztaljuk, hogy mérési eredményeink ingadoznak, szórnak. A megismételhetőség jól szemléltethető egy céltáblával (5.1 ábra). Van öt lehetőség lőni. Vajon a céltábla közepén lesznek-e a találatok? A méréstechnika nyelvén megfogalmazva: a mért érték (aktuális találat) mennyire közelíti meg a valódi értéket (célpontot)? 6.1. ábra - A kezdő és a pontosan célzó találatai Egy kezdő (1) pontatlan, találatainak nagy a szórása: minél nagyobb a bizonytalanság, annál kisebb az ismétlőképesség; míg a profi (4) pontos és precíz: a valódi értékhez közeli és jó ismétlőképességű. 6.2. ábra - A kezdő és a pontosan célzó találatai - szóródási görbe A csúcsnál van a legvalószínűbb (várható) érték: itt csoportosulnak a találatok, a széles terjedelem pedig a nagy bizonytalanságra utal (nagy szóródásra) utal (5.2 ábra). Ezek a görbék a várható érték (m = mean) és a pontosság mértékét jellemző szórás (σ) paraméterekkel le. 50

Adatminőségi osztályok (adatok pontossága, adatok megbízhatósága) Méréseink tehát mindig hibásak, és eredményeink megítélése szempontjából rendkívül fontos a mérési hiba nagyságának, és típusának ismerete. A hibaforrások közül a mérőeszközök tökéletlenségét, a kísérleti körülmények kismértékű változását (objektív hibák), és az érzékszerveink hibáját, a kísérletet végző személlyel kapcsolatos szubjektív tényezőket kell kiemelni. Az igen durva hibáktól eltekintve (mint pl. az eszközök helytelen használata, az eszköz/mérőműszer hibás leolvasása, vagy az adatok téves feljegyzése) a hibákat két nagy csoportba oszthatjuk: 1) Szisztematikus hibát okozhat a készülékek és eszközök pontatlansága, a kísérleti körülmények helytelen megválasztása, az eredmények helytelen értékelése. Ezek egy méréssorozatban minden eredményt azonos mértékben és irányban befolyásolnak (torzítanak), ezért nehéz ezeket a hibaforrásokat felfedezni. A valódi érték és a mért adatok átlagának eltérése adja a mérés torzítását (céltábla második ábrája és az alábbi 5.3 ábra illusztrálja a torzítást). 6.3. ábra - Szisztematikus hiba torzítás illusztrációja A torzítást a mérések átlagának (x átlag) a valós értéktől (x valós) való eltérése jellemzi. Számszerű adatát a mérés során akkor lehet meghatározni, ha ismert a valós érték (referencia, vagy irodalmi adat). Az abszolút érték százalékában relatív hibaként szokták kifejezni (accuracy %): 2) Véletlen hibák a véletlen megfigyelési és leolvasási hibákból, az objektív és szubjektív kísérleti feltételek kismértékű, ellenőrizhetetlen ingadozásából, egyes műveletek helytelen kivitelezéséből származnak. Ezek szabják meg a vizsgálat pontosságát, hogy a mérési eredmények mennyire térnek el a középértéktől (milyen a mérés szórása), valamint az eredmény megismételhetőségét és reprodukálhatóságát. A véletlen hibák nagysága több párhuzamos mérés elvégzésével csökkenthető, mivel a számtani átlagban a hibák kompenzálják egymást. Kis pontosság esetén az egyes eredmények jelentős az eltérést mutatnak az átlagtól (céltábla harmadik ábrája és a 5.4 ábra mutatja be a jelenséget). 6.4. ábra - Véletlen hiba szórás/pontosság illusztrációja A pontosság mértékének megállapítására a szórás (s) számítását alkalmazzuk, amellyel a mért adatoknak az átlagtól való eltérését jellemezzük. Az egyes mérési eredmények átlagtól való eltérésének négyzetösszegét osztjuk a mérések számával, majd négyzetgyököt vonunk. 51

Adatminőségi osztályok (adatok pontossága, adatok megbízhatósága) A pontosságot az átlag ± szórás alakban adhatjuk meg (Δ = x átlag ± s), vagy a mérés százalékos relatív hibájaként (δ % = 100 s / x átlag). 52

7. fejezet - Adatok előkészítése kiértékelésre (szűrés, normalizálás, u- próba, t-próba) 1. Szűrés Főként nagy mennyiségű adatok gyűjtése, és azok számítógépen történő regisztrálása során jelentkező hibát mutatunk be az alábbiakban. Előfordulhat, hogy egy-egy mérőberendezés valami okból kifolyólag leáll, majd automatikusan újraindul. Ilyen esetekben ezeket az értékeket ki kell szűrni (6.1 ábra, a sárgával jelölt rész törlendő), és törölni kell az adatbázisból a további feldolgozás előtt, ugyanis az adatbázis kezelő rendszerek nem képesek figyelmen kívül hagyni az érvénytelen adatokat. 7.1. ábra - Probléma az adatbázisban A 6.2 ábra szereplő adatsor az Észak-dunántúli Környezetvédelmi Felügyelőség adatbázisából származik, a győri és esztergomi levegőtisztaság-védelmi mérőkonténerek regisztrálták. A szálló por PM 10 és PM 2,5-es frakcióit mutatja az ábra. A PM 10 a 10 ;m átmérőnél kisebb részecskéket jelenti, míg a PM 2,5 a 2,5 m-nél kisebbeket. Tekintettel arra, hogy a PM 2,5 a PM 10 részét képei, így nem lehet nagyobb az előbbi érték az utóbbinál. Tehát a szűrés nem feltételül merül ki csak az érvénytelen adatok kiszűrésében, előfordulhat, hogy további vizsgálatokat is kell végezni. A központi online elérhető adatbázisokból az ilyen típusú hibákat nem minden esetben távolítják el. 7.2. ábra - ÉDT-KTVF adatbázisából részlet A mérési eredmények/adatok feldolgozásra történő előkészítése során, továbbá azok kiértékelési folyamataiban számos esetben találkozunk statisztikából ismerős fogalmakkal, összefüggésekkel. Az összes lehetséges esetet 53

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) lehetetlen lenne itt felsorolni, de a leggyakrabban előforduló fogalmakat az alábbi fejezetben bemutatjuk. Egy rövid elméleti áttekintés után, mindenhol egy általunk választott/megoldott példán keresztül mutatjuk be azok gyakorlati alkalmazását. 2. Hibaszámítási adatok Számtani közép: az összes mérési eredmény figyelembe vételével számolt átlagérték. Pontosság: a középérték és a pontos érték X 0 különbsége a pontos értékre vonatkoztatva. Adatok szórása: az egyes mérési eredményeknek a középértéktől való eltérését mutatja. Definíciója szerint az adatok 2/3-ad része az és közötti tartományban található. Szórásnégyzet (variancia): az adatok és a középértékek közötti eltérések négyzeteinek középértéke (S x2 ) Középérték szórása (standard hiba): a középérték megbízhatóságának jellemzésére szolgál. Változási együttható (variációs koefficiens): az adatok százalékos szórására ad felvilágosítást. Középérték százalékos hibája (relatív hiba): az eredmények kiírható számjegyeinek számát ez alapján határozzuk meg. Példa: Titrimetriás meghatározásnál a hallgatók által mért fogyások a következők: 0,98 cm 3 ; 0,78 cm 3 ; 0,90 cm 3 ; 0,94 cm 3 ; 0,96 cm 3 ; 0,98 cm 3 ; 0,94 cm 3 ; 1,00 cm 3 ; 1,12 cm 3 ; 1,05 cm 3 ; 0,98 cm 3 ; 1,02 cm 3 ; 0,92. A pontos érték 1,00 cm 3 lett volna. Határozzuk meg a hibaszámítási adatokat. 7.1. táblázat - Hibaszámítási adatok feladat megoldása 1 B C D E 2 Mért fogyás Hibaszámítási adat Eredmény Érték 3 0,98 Pontos középérték (cm 3 ) 1,00-4 0,78 1 Adatok száma (db) 13,00-5 0,90 2 Átlag (cm 3 ) 0,98-6 0,94 3 Adatok szórása (szórás) 0,08 0,98 cm3 ± 0,08 cm 3 7 0,96 4 Átlag szórása 0,02 0,98 cm3 ± 0,02 cm 3 54

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) 1 B C D E 2 Mért fogyás Hibaszámítási adat Eredmény Érték (standard hiba) 8 0,98 5 Variancia 0,01-9 0,94 6 Variációs koefficiens 8,06 0,98 cm3 ± 8,06% 10 1,00 7 Átlag százalékos hibája (relatív hiba) 2,31 0,98 cm3 ± 2,31% 11 1,12 8 Pontosság 3,31 1,00 cm3 ± 3,30% 12 1,05 13 0,98 14 1,02 15 0,92 1 D4=DARAB(B3:B15) 2 D5=ÁTLAG(B3:B15) 3 D6=SZÓRÁS(B3:B15) 4 D7=D5/(HATVÁNY(D3; 0,5)) 5 D8=VAR(B3:B15) 6 D9=(D6*100)/D3 7 D10=(D7*100)/D5 8 D11=((D3-D5)*100)*D3 3. Student-féle egymintás t-próba Az egymintás próbák során az adathalmaz alapján becsült és az elméleti középérték, illetve szórások összehasonlítását végezzük. Amikor valamely adathalmaz becsült középértékének és az elméleti középértékének (X 0) a különbözőségét akarjuk eldönteni a Student-féle egymintás t-próbát alkalmazzuk. Ilyenkor a képlet segítségével kiszámítjuk az adathalmazra jellemző t-értéket, melyet összehasonlítunk a Student-próba táblázatban szereplő kiválasztott hibavalószínűségének (általában P=5%) és DF=n-1 szabadsági foknak megfelelő t-értékkel. Ha a számított t-érték nagyobb, mint a táblázatban szereplő kritikus érték, a megengedhető P hibavalószínűségi szinten szignifikánsan különbözőnek tekintjük a becsült és az elméleti középértéket. Példa: Egy mérőoldat koncentrációja 0,2 M volt készítéskor. Bizonyos idő eltelte után a töménységet újból ellenőriztük: 0,1968; 0,1950; 0,2018; 0,1938; 0,1944 M. Megváltozott-e a mérőoldat összetétele? 7.2. táblázat - Egymintás t- próba feladat megoldása adatok (M) 0,1967 0,1895 0,195 0,2018 0,1938 55

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) 0,1944 átlag 0,1952 szórás 0,0040 átlag szórása 0,0016 t-számított 2,9223 elemszám 6 t-érték (leolvasott: P=5%; DF=n-1=5) 2,571 Következtetés: mivel a 6.2 táblázatban számított t-érték nagyobb, mint a 4.6. melléklet táblázatban szereplő kritikus érték, elmondható, hogy az oldat összetétele szignifikánsan megváltozott, a megengedhetőnél nagyobb mértékben. 4. Gyakorisági eloszlás A környezeti elemek (tulajdonságai időben gyakran változnak. Az adatok nagy szórása ellenére is értékelnünk kell a mérési eredményeket úgy, hogy azok a környezeti elem változására legyenek jellemzőek. Ezt úgy valósítjuk meg, hogy a vizsgált jellemző gyakoriságát és kumulatív gyakoriságát elemezzük. A gyakorisági adatokat hisztogram segítségével szemléltetjük. Gyakoriság vizsgálatakor arra vagyunk kíváncsiak n számú mérési adat esetében, hogy ezek közül egy adott A mérési tartományon (osztályon) belül hány mérési adatunk (K) szerepel. K értékét, azaz az egy osztályba tartozó mérési adatok számát osztálygyakoriságnak nevezzük. A kumulatív gyakoriság (összegzett gyakoriság, tartósság) tulajdonképpen a gyakoriság integrálja, vagyis a görbe alatti területtel egyenlő. Példa: Dolgozzuk fel egy nagyváros levegőjének SO 2 szennyezettségére vonatkozó adatsorát. Határozzuk meg a szükséges paramétereket a relatív és az összetett gyakorisági eloszláshoz egyaránt. 7.3. táblázat - A feladat megoldása 1. rész Napok SO 2 konc (µg/m 3 ) Rendezett adatsor Osztályköz megállapításához használt osztó javasolt értékei 1 21,4 5,0 Adatok száma (n) Osztó ( C ) 2 9,7 5,0 0 3,7 3 10,8 6,5 30 4,1 4 14,3 8,0 50 4,5 5 20,6 8,4 75 4,8 6 20,2 9,1 100 5 7 10,9 9,3 150 5,3 8 5,0 9,6 200 5,5 56

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) Napok SO 2 konc (µg/m 3 ) Rendezett adatsor Osztályköz megállapításához használt osztó javasolt értékei 9 10,1 9,7 300 5,8 10 14,5 10,1 400 5,9 11 18,9 10,8 500 6,1 12 20,2 10,9 700 6,3 13 12,5 10,9 1000 6,5 14 17,2 12,5 15 16,1 12,7 Adatok száma (n) 30,0 16 14,5 13,1 Minimum (Xmin) 5,0 17 9,6 14,3 Maximum (Xmax) 41,5 18 16,7 14,5 Átlag 14,2 19 16,8 14,5 Variáció szélesség (W=Xmax-Xmin) 36,5 20 13,1 16,1 Osztó értéke ( C ) 4,1 21 9,3 16,7 Szórás közelítő értéke (S'=W/C) 22 12,7 16,8 Osztályköz értéke (A=S'/4) 8,9 2,2 23 21,2 17,2 24 41,5 18,9 25 10,9 20,2 26 5,0 20,2 27 6,5 20,6 28 9,1 21,2 29 8,4 21,4 30 8,0 41,5 A 6.3 táblázat adatsorai alapján elkészíthetjük a kén-dioxid adott hónapra jellemző 24 órás értékeiből álló vonaldiagramját 6.3 ábra. 7.3. ábra - SO 2 koncentráció változása a mintahónapban 57

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) 7.4. ábra - SO 2 koncentráció változása a mintahónapban A feladat megoldása során elkészítünk egy osztálybeosztást (koncentráció tartomány oszlop), majd meghatározzuk az egyes osztályokba tartozó elemek számát (gyakorisági adatok száma). Az Excel gyakoriság függvényének segítségével számítjuk ki a gyakorisági adatok számát (6.4 táblázat). 7.4. táblázat - A feladat megoldása 2. rész Konc. tart. A Gyakorisági adatok száma K Relatív gyakoriság K/n Relatív gyakoriság (%) K/n (%) Konc. tart. A Kumulatív Gyakorisági adatok száma K Kumulatív Relatív gyakoriság K/n Kumulatív Relatív gyakoriság (%) K/n (%) 2 0 0,000 0,00 2 0 0,000 0,00 4 0 0,000 0,00 4 0 0,000 0,00 6 2 0,067 6,67 6 2 0,067 6,67 8 2 0,067 6,67 8 4 0,133 13,33 10 5 0,167 16,67 10 9 0,300 30,00 12 4 0,133 13,33 12 13 0,433 43,33 14 3 0,100 10,00 14 16 0,533 53,33 16 3 0,100 10,00 16 19 0,633 63,33 18 4 0,133 13,33 18 23 0,767 76,67 58

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) Konc. tart. A Gyakorisági adatok száma K Relatív gyakoriság K/n Relatív gyakoriság (%) K/n (%) Konc. tart. A Kumulatív Gyakorisági adatok száma K Kumulatív Relatív gyakoriság K/n Kumulatív Relatív gyakoriság (%) K/n (%) 20 1 0,033 3,33 20 24 0,800 80,00 22 5 0,167 16,67 22 29 0,967 96,67 24 0 0,000 0,00 24 29 0,967 96,67 26 0 0,000 0,00 26 29 0,967 96,67 28 0 0,000 0,00 28 29 0,967 96,67 30 0 0,000 0,00 30 29 0,967 96,67 32 0 0,000 0,00 32 29 0,967 96,67 34 0 0,000 0,00 34 29 0,967 96,67 36 0 0,000 0,00 36 29 0,967 96,67 38 0 0,000 0,00 38 29 0,967 96,67 40 0 0,000 0,00 40 29 0,967 96,67 42 1 0,033 3,33 42 30 1,000 100,00 Össz 30 1,000 100,00 A relatív gyakoriság és a relatív %-os gyakoriság oszlopok kitöltése után megrajzolhatók a gyakorisági eloszlás és kumulált gyakorisági eloszlás függvényeink (6.4 ábra és 6.5 ábra). 7.5. ábra - SO 2 tartalom relatív gyakorisági eloszlása 59

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) 7.6. ábra - SO 2 összegzett relatív gyakorisági eloszlása 5. Szórás, konfidencia intervallum Példa: Egyik munkánk során Veszprémben szálló por mintavételezést végeztük 4 helyszínen (6.6. ábra) elsődlegesen olyan meggondolásból, hogy meghatározhassuk, a járműforgalommal különbözőféleképpen terhelt területeken a PM 10-ben milyen arányt képvisel a PM 2,5 frakció. A mérési sorozatok megkezdése előtt a két mérések során alkalmazott mintavevővel párhuzamos méréseket végeztünk (azonos előleválasztó fejeket használva, 6.5 és 6.6. táblázat), annak megállapítására, hogy a mérések során kapott eredmények mennyiben felelnek meg a pontossági kritériumoknak. 7.7. ábra - Párhuzamos mérési helyszínek - Veszprém 60

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) Elvégeztük a 95%-os megbízhatósági szinthez tartozó statisztikai vizsgálatokat, a számítási eredmények alapján pedig megállapítható volt, hogy a két féle előleválasztó fejjel végzett párhuzamos összemérésekre kiszámolt K 95 konfidencia intervallumok 1 teljesítik a mérések pontosságával kapcsolatos előírásokat, azaz K 95 5 µg/m 3. 7.5. táblázat - PM 10 - párhuzamos mérések eredményei Készülék / Minta azonosító Dátum/I dő indulleáll t [h] p [mbar] T [ C] V [m 3 ] V 0 * [m 3 ] mpor [mg] c* [µg/m 3 ] 861 P1 szept.04 16:00 szept.05 16:00 861 P2 szept.05 16:00 szept.06 16:00 861 P3 szept.06 16:00 szept.07 16:00 963 P4 szept.04 16:00 szept.05 16:00 24 957 25,6 754,2 699,2 10,0 14,3 24 958 26,8 755,3 698,0 12,9 18,5 24 954 28,4 758,9 694,7 29,3 42,2 24 958 25,4 753,6 699,8 9,5 13,6 1 Ismert paraméterű mintából következtetünk az ismeretlen paraméterű alapsokaságra. Az alkalmazásokban legtöbbször 95%-os megbízhatósági szintű konfidencia-intervallumokat használnak. 61

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) Készülék / Minta azonosító Dátum/I dő indulleáll t [h] p [mbar] T [ C] V [m 3 ] V 0 * [m 3 ] mpor [mg] c* [µg/m 3 ] 963 P5 szept.05 16:00 szept.06 16:00 963 P6 szept.06 16:00 szept.07 16:00 24 954 26,9 757,0 696,5 13,4 19,2 24 954 28,4 758,9 694,7 28,9 41,6 *293K hőmérsékletre; 1,013kPa nyomásra átszámítva 7.8. ábra - PM 10 - párhuzamos mérések eredményei ábrázolva 7.6. táblázat - PM 2,5 - párhuzamos mérések eredményei Készülék / Minta azonosító Dátum/I dő indulleáll t [h] p [mbar] T [ C] V [m 3 ] V 0 * [m 3 ] mpor [mg] c* [µg/m 3 ] 861 P7 okt.27 15:00 okt.28 15:00 24 944 13,9 706,0 708,4 50,9 71,9 62

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) Készülék / Minta azonosító Dátum/I dő indulleáll t [h] p [mbar] T [ C] V [m 3 ] V 0 * [m 3 ] mpor [mg] c* [µg/m 3 ] 861 P8 okt.28 15:00 okt.29 15:00 861 P9 okt.29 15:00 okt.30 15:00 963 P10 okt.27 15:00 okt.28 15:00 963 P11 okt.28 15:00 okt.29 15:00 963 P12 okt.29 15:00 okt.30 15:00 24 942 15,5 709,3 705,6 29,3 41,5 24 937 16,8 711,9 702,2 10,7 15,3 24 944 14,2 708,5 708,1 50,5 71,3 24 942 15,9 711,2 705,1 29,2 41,4 24 935 17,7 713,7 700,3 10,9 15,6 * 293K hőmérsékletre; 1,013kPa nyomásra átszámítva 7.9. ábra - PM 2,5 - párhuzamos mérések eredményei ábrázolva 63

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) Látható, a következő. táblázatban, hogy a K 95 konfidencia intervallumok mindkét esetben teljesítik a pontossággal kapcsolatos előírásokat (K 95 5 µg/m 3 ). 7.7. táblázat - Statisztikai vizsgálatok eredménye Párhuzamosa n mért minták jele D i (µg/m 3 ) (különbség) D i 2 (µg/m 3 ) 2 D i 2 /2n D i 2 /2n S a K 95 P1-P4 0,7 0,49 0,082 PM 10 P2-P5 0,7 0,49 0,082 0,223 0,47 2,03 P3-P6 0,6 0,36 0,060 P7-P10 0,6 0,36 0,060 PM 2,5 P8-P11 0,1 0,01 0,002 0,077 0,28 1,20 P9-P12 0,3 0,09 0,015 6. Kiugró értékek ellenőrzése (normalizálás) Vannak esetek, amikor egy adathalmazról el kell döntetnünk, hogy a kiugrónak vélt adatokat kizárjuk-e, vagy figyelembe vegyük a számításoknál. Több módszer is létezik az ilyen vizsgálatokra, mint például a Dixon-féle r- próba, a Nalimov-próba, illetve a jelen esetben bemutatott legegyszerűbb és leggyorsabb Z-próba. Példa: Egy adatsor a következő elemekből áll: 9, 10, 14, 8, 11, 20, 11, 8, 3, 10, 11. Kizárjuk-e a kiugrónak vélt 3-as és 20-as adatokat az átlagszámításból? Standardizálással oldható meg a feladat a legegyszerűbben. 64

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) 7.10. ábra - A standard normáleloszlás sűrűségfüggvénye Lehetőség van Excel programban standardizálásra és a kritikus Z érték meghatározására. Standardizálás: Normalizálás(X;középérték;szórás), mely középértékkel és szórással megadott adatokból standardizált (normalizált) értéket ad eredményül, vagyis a számított Z értéket. A kritikus Z érték: Storneloszl(X), mely a standardizált normáleloszlás értékét számítja ki, így használható a kritikus Z értéket tartalmazó táblázat helyett. 7.8. táblázat - Feladat megoldása standardizálással adatok 3 8 8 9 10 10 11 11 11 14 20 átlag 10,45 szórás 4,18 Z(max)=(Xmax-Xátl)/Sx 2,28 Z(min)=(Xmin-Xátl)/Sx -1,78 65

Adatok előkészítése kiértékelésre (szűrés, normalizálás, u-próba, t- próba) Akkor tekintenénk az értékeket kiugrónak jelen példában a Z próba alapján, ha ± 3 értéken kívül esne. Ez a feltétel nem teljesül, tehát nem kiugró értékek jelen vizsgálati módszer alapján. 66

8. fejezet - Környezetvédelem során mért adatok különleges feldolgozása 1. A mérőeszközök megválasztása A mérőeszközöket, műszereket jellemezhetjük azok leolvasási pontosságával. Vegyük példának a mérlegeket. Beszélhetünk táramérlegről, vagy éppen a pontosabb eredményeket mutató analitikai mérlegről. A megfelelő választást a vizsgálat célja határozza meg. 8.1. ábra - Nagytérfogat-áramú pormintavevő, és a szűrőpapíron felfogott porminta Példa: Adott egy gravimetriás módszerrel meghatározandó porminta (7.1 ábra). A mintát egy nagytérfogatú pormintavevő segítségével vesszük. Adott térfogatárammal levegőt szívatunk át a rendszeren, és a levegő útjába szűrőpapírt teszünk. A szűrőpapírt (szabványban meghatározott módon) klimatizált mérlegszobában a mintavétel előtt üresen, és a mintavételezés után is lemérjük. A kettő különbsége adja a mérési időintervallumra jellemző por tömegét. A tömegeket minden esetben korrigálni kell a referencia szűrőpapírunk tömegváltozásával. Rendkívüli pontosságot megkövetelő mérési folyamatról révén szó, ebben az esetben alapkövetelmény, hogy mérlegünk négy tizedes jegy pontosságig legyen képes eredményt szolgáltatni. Felesleges nagy érzékenységű analitikai mérleget használnunk például akkor, ha valamilyen reagens-oldatot készítünk, amit aztán mérőhengerrel adunk a vizsgálandó anyaghoz. Fontos szem előtt tartani a mérőműszerek mérési tartományát is, hogy azok a vizsgálat céljának megfeleljenek. 2. Megfelelő mérési körülmények biztosítása A mintavétel módja és helyszíne minden esetben függ a vizsgálat céljától, a szennyezés jellegétől, kiterjedésétől, illetve hogy milyen típusú mintavételezésről van szó (on-line 1, in-line 2, vagy off-line 3 ). Ezek figyelmen kívül hagyása esetén a mintánkra vonatkozó eredmények nem lesznek reprezentatívak. A helyszíntől távol vizsgálandó minták esetében (off-line) figyelemmel kell lenni a minták tartósítására, szállítására és tárolására. 1 Helyszínen történő szakaszos mintavétel, átlagértékeket kapunk. 2 Helyszínen történő folyamatos mintavétel, melyből átlagérték származtatható. 3 Helyszíntől függetlenül, egy távolabbi helyszínen történik az analízis. 67

Környezetvédelem során mért adatok különleges feldolgozása A vonatkozó szabványok részletes leírást adnak minden mintavételezéssel és vizsgálattal kapcsolatos tevékenységről, előírásokról. Vízmintavétel esetében például fontos szem előtt tartani, hogy a levegővel történő érintkezés megváltoztathatja a minta tulajdonságait. A vízminőség legtöbb esetben helyileg és térben is változik, tehát rendszerint sorozatos mintavétel szükséges. Felszín alatti vizek mintavételezése esetén (monitoring kútból) nem a kútban összegyűlt vizet vizsgáljuk, hanem a kútban lévő víz mennyiségének háromszorosát először kitermeljük, és az utána, a földtani közegből helyére áramló vízből kell a mintát venni. A mintatároló edényre vonatkozóan is vannak követelmények, a víz szerves komponenseinek vizsgálatához rendszerint üvegből, szervetlen komponenseinek analíziséhez pedig műanyagból készült palackot kell használni, mintával ezeket túl kell tölteni, és légmentesen szállításhoz lezárni Földtani közeg vizsgálatánál lehetőleg genetikai szintenként kell mintázni. A művelt felső réteget a művelés mélységéig (0-20 vagy 0-30 cm), a bolygatatlan altalajt általában 30 cm-enként. A vizsgálatok jellegéből, céljából adódóan azonban a mintavételi mélység változhat. Szennyezett területen, pl. gyárudvaron, gyakran több méter mélységben nem talaj a takaró réteg, hanem salak vagy iszapok, egyéb üzemi hulladék. Szennyezés esetén a transzportfolyamatokat a földtani közeg szerkezete jelentősen befolyásolja. Levegőtisztaság-védelem területén is megvannak a követelmények a mintavételezés reprezentatív kivitelezéséhez. Immissziós telepített/mobil mérőállomások esetén a mintavételi magasság 3-5 m magasságban legyen, a mintavevő beszívó nyílásait és a meteorológiai árbocot környezeti tárgyak ne zavarják (épületek, fák), és helyükről a szabad égbolt legalább 45 alatt látható legyen minden irányban. Az állomás jó átszellőzésű legyen, és nem lehet szennyező forrás közvetlen közelében. Ez utóbbi miért fontos? A várpalotai mérőkonténer a város egyik legforgalmasabb útszakasza mellett van telepítve. Ennek köszönhetően téli (fűtési) időszakban a szükségesnél gyakrabban kell elrendelni szmog riadót a megnövekedett szálló por koncentráció miatt. 68

9. fejezet - Adattárolási módok számítógépes feldolgozás során Az adatbázis többnyire strukturált adatok összessége, amelyet egy tárolására, lekérdezésére és szerkesztésére alkalmas szoftvereszköz kezel. Ezek közül ma már egyre inkább az osztott adatbázisok jelentősége nőtt meg. 1. Osztott adatbázisok Az osztott adatbázisok létrehozásának célja több irányba is mutat. E célok lehetnek: minél nagyobb adatelérési sebesség biztosítása például a GRID típusú hálózatok alkalmazása esetén; megosztott munkavégzés (ide értve nem csak a gépek számítási kapacitását, hanem az emberi erőforrásokat is) megnövelt adatbiztonság a legjobb tároló hely kihasználtság biztosítása E célok megvalósítását a következő példák szemléltetik. 1.1. GRID rendszerek Az elmúlt évek legígéretesebb informatikai fejlesztési iránya a GRID rendszerek irányába mutatott. Az elképzelés alapja, hogy a mai számítógépek számítási teljesítménye és sok esetben tárolási is jelentősen meghaladja a hétköznapi felhasználáshoz szükséges értéket. Tipikus példa erre az adminisztrációs számítógépek, amelyek, melyek a tapasztalatok alapján átlagosan legfeljebb 30%-t használják ki a rendszer számítási teljesítményének. A nem használt teljesítmény kihasználásával több nagy számításigényű alkalmazást sikerült világszerte megvalósítani. Az első szakmailag igen sikeres bár a célját eddig el nem érő kísérlet a SETI@Home rendszere volt, amit a Berkeley Egyetem fejlesztett és tart fent a mai napig. E rendszerben a legjobb időszakban 1,5 millió számítógép dolgozott egyszerre. A siker hatására számos egyéb területre elkezdték fejleszteni a GRID-es alkalmazásokat, így nemsokára megjelentek az adatbázis kezelés területén, majd megalkották az Open Grid Services Architecture-t, amely jelentősen megkönnyítette a fejlesztési munkákat. A térinformatika területén szintén a számítási teljesítmény minél jobb kihasználása volt az elsődleges cél, de itt már megjelenik a nagy méretű adatbázisok felosztásának az igénye is. 2. Adatbiztonság Az adatbázisok megosztása esetén kiemelt szempont lehet az adatok biztonsága. Egy adatbázis felépítése és karbantartása ma már lényegesen nagyobb értéket képvisel egy rendszer összértékében, mint 15-20 évvel ezelőtt (8.1 ábra). Ezen felül, míg egy szoftver vagy hardver elemet újra elő lehet állítani, az adatra ez legtöbbször nem igaz. Ezért egyre fontosabb az adatok biztonsága. 9.1. ábra - A hardver, szoftver és az adat árainak egymáshoz viszonyított aránya a számítástechnika korai korszakában és ma 69

Adattárolási módok számítógépes feldolgozás során Ezt az adatvédelmi igényt meg lehet oldani folyamatos mentési rendszer felállításával. Ez régebben egyszerű mentésekkel oldották meg (például minden éjszaka), amit később kiegészített a mentett adatok folyamatos tükrözése (például RAID1 vagy RAID5 szervezésű meghajtók üzembe állításával). Ezeknek a módszereknek közös hátrányuk volt, hogy jellemzően fizikailag közel tárolták egymáshoz az éles és a mentett adatokat, ami egy szerencsétlenség vagy egyéb nem várt esemény bekövetkeztekor gyakran járt teljes adatvesztéssel. A széles sávú internet megjelenésével lehetségessé vált a mentések és az éles adatok földrajzilag történő elkülönítése. A földrajzi elkülönítés klasszikus formája a teljes adatállomány teljes átmásolása a világ más pontján lévő biztonsági tározóra. Ez azonban nagy méretű adatbázisok esetén még a korszerű tömörítési módszerek ellenére is igen időigényes volt. Erre hozott megoldást az osztott adatbázisok használata, amelyet ötvöztek a 90 évek végén igaz más okokból népszerűvé vált Peer-To-Peer (P2P) technikájával. A kialakított megoldás alapgondolata a következő ábrasorral szemléltethető. Egy 10 TiB méretű adatbázis hardver oldali felépítése klasszikus módon a következő (8.2 ábra): 9.2. ábra - Klasszikus adatbiztonságra kiépített adatbázis hardver környezet Az osztott adatbázisok egyrészt logikailag feldarabolva az adatbázist lecsökkentik a részek méretét bár sok esetben megnövelik az összes méret így lehetővé válik, hogy minden rész önálló, kisebb méretű, olcsóbban beszerezhető és fenntartható tárhelyen helyezkedjék el. Ez egyben segíti az adatlekérdezéshez kötődő sávszélesség legjobb kihasználását is. (8.3 ábra) 9.3. ábra - Osztott adatbiztonságra kiépített adatbázis hardver környezet 70

Adattárolási módok számítógépes feldolgozás során A legkorszerűbb és igen költséghatékony rendszerek jellemzően nem használnak helyi fizikai tükrözést, hanem adatbázis-szegmensenként legalább három számítógép között P2P kapcsolattal folyamatosan biztosítják a gépeken lévő tartalom szinkronizálását. Ez esetben jellemzően mindhárom gép képes adatszolgáltatásra is, ami nagy mértékben megnöveli a lekérdezések válaszsebességét főleg konkurens felhasználói környezetben. Biztonsági okokból e rendszerekről is készül időnként teljes adatbázismentés, ami egy a szándékos emberi beavatkozásra történő adatvesztés kivédésére szolgál. E korszerű rendszerek felépítését alább láthatjuk (8.4 ábra) 9.4. ábra - Korszerű adatbiztonságra kiépített adatbázis hardver környezet 71

Adattárolási módok számítógépes feldolgozás során 72

10. fejezet - Adatábrázolási technikák, mérési hibák vizuális ábrázolása, görbe és trendvonal illesztése adatsorokra 1. Adatábrázolási technikák Mért adataink gyors áttekintésének módszere a grafikus ábrázolás, végeredménye pedig a grafikon. A grafikonos ábrázolás-technikai eszközei mértani elemek: pont, vonal, téglalap, kör, továbbá ezek kombinációi, így ennek megfelelően beszélhetünk pont-, vonal-, terület- és síkdiagramról. A grafikus ábrázolás módját, eszközét mindig az elérni kívánt cél határozza meg. A mérések számától, illetve a vizsgált változó jellegétől függően különböző ábrázolási módok alkalmazhatók. Néhány speciális grafikus ábra (mint a dobozdiagram és a szár-levél diagram) csak kimondottan statisztikai programok segítségével készíthető el (SPSS), de a legtöbb a manapság már minden számítógép használó számára elérhető Excel program segítségével is létrehozható. 1.1. Poláris diagram sugár diagram A diagramtípus alkalmazási módjának szemléletes bemutatására nézzünk meg egy példát. Készítsünk el a vizsgált mintavételi helyre jellemző összessó-tartalom csillagábrát a megadott adatok alapján. 10.1. táblázat - Vizsgált mintavételi helyre jellemző összessó-tartalom jellemző és számított adatsorai mg/l egyenérté k súly mg- egyenérté egyenérté k % S k a (cm) 2,6 2,6 K + 0 39,098 0 0 0 2,6 0 K + Na + 2 22,99 0,87 1,22 0,1 2,6 2,6 Ca 2+ 101,2 20,04 5,05 70,68 7,4 2,6 0,1 Na + Mg 2+ 24,4 12,152 2,008 28,1 2,9 2,6 2,6 kation - - 7,145 100-2,6 7,4 Ca 2+ SO 4 2-10 48,029 0,208 1,51 0,2 2,6 2,6 Cl - 0,5 35,453 0,014 0,1 0 2,6 2,9 Mg 2+ HCO 3-555 61,017 9,096 65,83 6,9 2,6 2,6 CO 3 2-135 30,005 4,499 32,56 3,4 2,6 0,2 SO 4 2+ anion - - 13,817 100-2,6 2,6 - - 20,962 - - 2,6 0 Cl - 73

Adatábrázolási technikák, mérési hibák vizuális ábrázolása, görbe és trendvonal illesztése adatsorokra mg/l egyenérté k súly mg- egyenérté egyenérté k % S k a (cm) 2,6 2,6 621 µs/cm sugár r 2,6 2,6 2,6 2,6 6,9 HCO 3-2,6 2,6 2,6 3,4 CO 3 2- El kell készíteni a táblázat első fele alapján a poláris diagramunk adattábláját (utolsó 3 oszlop, 9.1 táblázat. Vizsgált mintavételi helyre jellemző összessó-tartalom jellemző és számított adatsorai), majd a diagramvarázsló sugár-diagram típusának kiválasztásával elkészíthető az alábbi, 9.1 ábra. 10.1. ábra - Összes só-tartalom csillagábra Az ábráról leolvasható, hogy a legnagyobb részesedésű a kationok közül a Ca 2+, az anionok közül pedig a HCO 3 -. 1.2. Pontdiagram és a vonaldiagram A pontdiagram és a vonaldiagram nagyon hasonlít egymásra, különösen, ha a pontdiagramon az összekötő vonalak is fel vannak tüntetve. Egy formázott pontdiagram számértékeket jelenít meg a vízszintes és a függőleges tengely mentén; az értékeket pedig az adatpontokban egyesíti. Ezzel szemben a formázott vonaldiagram a kategóriaadatokat (jelen esetben időközöket) a vízszintes tengely mentén, a számértékeket pedig a függőleges tengely mentén egyenletesen elosztja. 10.2. ábra - Példaként bemutatott 9.3 diagramjának adatsora részlet a 24 órás mérés eredményeiből 74

Adatábrázolási technikák, mérési hibák vizuális ábrázolása, görbe és trendvonal illesztése adatsorokra 10.3. ábra - Hőmérséklet UVA sugárzás pont (felső)- illetve vonaldiagramon (alsó) 75

Adatábrázolási technikák, mérési hibák vizuális ábrázolása, görbe és trendvonal illesztése adatsorokra Tehát pont- és a vonaldiagram között az a legfőbb különbség, ahogyan az adatokat a tengelyeken ábrázoljuk. Ha például a 9.2 ábrán szereplő munkalapadatok alapján készítünk egy pont- és egy vonaldiagramot, látható, hogy az adatok elosztása eltérő lesz a két esetben (9.3. ábra.). 1.3. Területdiagram Egy vagy több adathalmazból képezett görbe által lefedett terület megjelenítését szolgálja (9.4 ábra). Vonal-, illetve pontdiagramnál látványosabb prezentációját szolgálja az adatoknak. 10.4. ábra - 2010. október 8-9. Devecseri mérésünk PM 10 koncentráció értékei és a határérték 1.4. Kör- és perecdiagram A kördiagram és a perecdiagram is a részek egészhez való viszonyát tükrözi, a perecdiagram ugyanakkor több adatsort is tartalmazhat egyszerre. 10.5. ábra - Földhasználat művelési ágak szerint (2010) KSH adatai szerint 76

Adatábrázolási technikák, mérési hibák vizuális ábrázolása, görbe és trendvonal illesztése adatsorokra 10.6. ábra - Földhasználat művelési ágak szerint KSH adatai szerint A perec diagram lehetőséget biztosít több adatsor egyidejű összehasonlítására (9.6 ábra). Az előző ábrán látható 2010-es statisztikai adatokat összehasonlíthatjuk például korábbi évek statisztikai adataival. Példánk esetében a 2008-as és 2010-es évet vizsgáltam. 10.7. ábra - Földhasználat művelési ágak szerint (2010-külső perec, 2008-belső perec) KSH adatai szerint 77

Adatábrázolási technikák, mérési hibák vizuális ábrázolása, görbe és trendvonal illesztése adatsorokra 1.5. Oszlopdiagram Az oszlopdiagramok a nagyságok, eloszlások, vagy részekből összetevődő egész alkotóelemeinek egymáshoz való viszonyát (halmozott oszlop) képesek szemléltetni. Az oszlopok nagysága rendszerint arányos az ábrázolni kívánt mennyiséggel. Az oszlopdiagram szerkezete alapján lehet egyszerű, kétirányú (két egymással logikailag összefüggő adatsor esetén, 9.7 ábra), osztott (összetétel ábrázolása, 9.8 ábra). Speciális változata a gyakorisági eloszlások szemléltetésére használt ún. hisztogram, melynek vízszintes tengelyén az osztályokat, függőleges tengelyén a gyakoriságokat ábrázoljuk (9.7 ábra). 10.8. ábra - Balaton Pláza egyidejűleg mért PM 10 /PM 2,5 szálló por frakciók koncentráció értékei 78

Adatábrázolási technikák, mérési hibák vizuális ábrázolása, görbe és trendvonal illesztése adatsorokra 10.9. ábra - Balaton Pláza PM 2,5 frakció aránya a PM 10 koncentrációban 10.10. ábra - Diagram rajzolása 79

11. fejezet - Nagy mennyiségű adatok kezelése és összehasonlítási módszerei Bármilyen adatfeldolgozás első lépése az adatsor ellenőrzése, melynek során a kiugró, nem reális értékeket ki kell zárni az értékelésből. Számolnunk kell azzal a ténnyel is, hogy hosszú időtartamú mérések esetén meghibásodás, kalibrálás miatt mindig történik adatkiesés is. A hatályos jogszabály alapján ahhoz, hogy az értékelés elfogadható legyen, minimálisan 90 %-os adatmennyiség szükséges. Az adatok magas szintű kezelésének az alapja a kapcsolati vizsgálatok. A kapcsolati vizsgálatok környezetvédelemben használt leggyakoribb típusa a koncentráció görbe és a Lorenz. 1. Lorenz görbe és a Gini együttható A összes adat jelentős részének kis tartományba történő csoportosulását koncentrációnak nevezzük. Típusai: Abszolút (a csoportosulás nagyon kis tartományba történik) Relatív (a teljes tartományhoz képest kicsi a tömörülés) Negatív (ha egyenletes az eloszlás) A koncentráció ábrázolását Lorenz görbével szoktuk megoldani. Ezt rangsorból vagy osztályközös kumulált relatív gyakoriságból állítjuk elő. A Lorencz görbe egy egységoldalú (jellemzően 100*100-as) négyzetben elhelyezett ábra, ami a kumulált relatív gyakoriságok függvényében ábrázolja a kumulált relatív értékösszegeket. Amennyiben az egységeknek az értékösszegből való részesedése azonos, azaz teljesen egyenletes az eloszlás, akkor a kumulált relatív gyakoriságok és a kumulált relatív értékösszegek minden esetbe megegyeznek. Ekkor a görbe azonos a négyzet átlójával. (Teljes egyenlőség áll fenn.) Előfordulhat, hogy teljes koncentráció, vagyis teljes egyenlőtlenség lép fel, ebben az esetben a görbe egybeesik a négyzet oldalaival (azaz a tengelyekkel). A Lorenz görbe kiemelt jelentőségű része a koncentrációs terület, azaz az átló és a Lorenz görbe által bezárt terület. Minél nagyobb ez a terület, annál nagyobb a koncentráció. Bizonyos esetekben a görbe már nem ad értékelhető eredményt, ezért azt számszerűsíteni kell. Erre szolgál a Gini együttható. Számítása: Példa: Egy ipari parkban 14 szennyvíz-forrás üzemel. Ábrázoljuk, illetve fejezzük ki Gini együtthatóval, mennyire egyenletesen veszik ki a részüket az ipari park összes szennyezéséből az egyes források. 11.1. táblázat - Szennyvízkibocsátók az ipari parkban. A B C D 80

Nagy mennyiségű adatok kezelése és összehasonlítási módszerei A B C D 1 Forrás megnevezése Szennyvíz kibocsájtás (m3/nap) Rangsor 2 Kis ZRt. 100 50 3 Lakatos Kft. 250 90 4 Kereki Kft. 110 100 5 Kovács ZRt. 340 100 6 Szalonka NyRt. 50 110 7 Kocsis Kft. 230 110 8 Nyulas Kft. 170 120 9 Tamás NyRt. 210 150 10 Mérleg ZRt. 100 170 11 Takács Kft. 120 210 12 Motoros Kft. 90 230 13 Keleti ZRt. 150 230 14 Lajos Kft. 110 250 15 Kertész Kft. 230 340 11.1. ábra - Szennyvízkibocsátók az ipari parkban. 81

Nagy mennyiségű adatok kezelése és összehasonlítási módszerei Első lépésként rangsort (lásd. fent), majd osztályközös gyakoriságokat készítünk. A fenti egyenleteket MS Office és LiberOffice esetén a következő módon tudjuk kiszámolni: 11.2. táblázat - Előzetes számítások a Gini-együtthatóhoz. F G 1 Osztályközös gyakoriság 2 N 14* 3 k 4** 4 h 97,5*** * MS Office esetén: =DARAB(D:D) * LibreOffice esetén: =DARAB(D2:D15) ** MS Office esetén: =KEREK.FEL(LOG10(DARAB(D:D))/LOG10(2);0) ** LibreOffice esetén: =KEREK.FEL(LOG(DARAB(D2:D15);10)/LOG(2;10);0) ***MS Office és LibreOffice esetén: =(MAX(D:D)- MIN(D:D))/G3 Következő lépésben létrehozzuk az osztályközöket: 82

11.3. táblázat - Osztályközök létrehozása. Nagy mennyiségű adatok kezelése és összehasonlítási módszerei J K L M 1 Y i0 Y i1 X i f i 2 50 122 86 7 3 123 195 159 2 4 196 267 231,5 4 5 268 340 304 1 11.2. ábra - Osztályközök Ehhez a táblázathoz az alábbi makrót kellet használni MS Office-ban: Sub Ösztályköz_képzés() Dim Köz As Double Dim t, r As Integer Köz = Cells(2, 4) For t = 1 To Cells(3, 7) If t = 1 Then Cells(t + 1, 10) = Int(Köz) Else 83

Cells(t + 1, 10) = Cells(t, 11) + 1 End If Köz = Köz + Cells(4, 7) Cells(t + 1, 11) = Int(Köz) Nagy mennyiségű adatok kezelése és összehasonlítási módszerei Cells(t + 1, 12) = (Cells(t + 1, 10) + Cells(t + 1, 11))/2 Next t r = 0 Köz = 1 For t = 2 To Cells(2, 7) + 1 If Cells(Köz + 1, 11) >= Cells(t, 4) Then Else 'Még az aktuális osztályközben vagyunk r = r + 1 Új közbe léptünk Cells(Köz + 1, 13) = r Köz = Köz + 1 r = 1 End If Next t End Sub Következő lépésként a relatív gyakoriságot és a relatív kumulált gyakoriságot számoljuk ki: 11.4. táblázat - Gyakoriságok értékei. M N O 1 f i g i g i 2 7 0,500 0,500 3 2 0,143 0,643 4 4 0,286 0,929 5 1 0,071 1,000 Ezt MS Office és LiberOffice esetén is a következő képletekkel értük el: 11.5. táblázat - Gyakoriságok számítása. 84

Nagy mennyiségű adatok kezelése és összehasonlítási módszerei M N O 1 f i g i g i 2 7 =M2/$G$2 =N2 3 2 =M3/$G$2 =O2+N3 4 4 =M4/$G$2 =O3+N4 5 1 =M5/$G$2 =O4+N5 Ezután meghatározzuk a relatív értékösszegsort és a kumulált relatív értékösszegsort: 11.6. táblázat - Érkékösszegsorok. P R O 1 s i Z ii s i 2 602 0,280 0,280 3 318 0,148 0,428 4 926 0,431 0,859 5 304 0,141 1,000 Ezt MS Office és LiberOffice esetén is a következő képletekkel értük el: 11.7. táblázat - Értékösszegsorok számítási módja. P Q R 1 s i Z ii s i 2 =L2*M2 =P2/SZUM(P2:P5) =Q2 3 =L3*M3 =P3/SZUM(P2:P5) =Q3+R2 4 =L4*M4 =P4/SZUM(P2:P5) =Q4+R3 5 =L5*M5 =P5/SZUM(P2:P5) =Q5+R4 A Lorenz görbe megrajzolásához a relatív kumulált gyakoriságot (O oszlop) kell ábrázolni a kumulált relatív értékösszegsor függvényében. (Javasolt XY grafikont alkalmazni.) Az eredmény a következő lesz: 11.3. ábra - Lorenz görbe. 85

Nagy mennyiségű adatok kezelése és összehasonlítási módszerei A Gini együttható meghatározásához érdemes segédtáblázatot készíteni: 11.8. táblázat - Gini együtthatóhoz szükséges segédtábla 1 S T U V 2 0,140 0,000 3 0,095 0,074 Gini együttható: 4 0,400 0,277 0,259 5 0,141 0,131 6 Összesen: 0,776 0,482 Ezt MS Office és LiberOffice esetén is a következő képletekkel értük el: 11.9. táblázat - Gini együtthatóhoz szükséges segédszámítások. 1 S T U V 2 =O2*P2/SZUM($P$ 2:$P$5) 3 =O3*P3/SZUM($P$ 2:$P$5) 4 =O4*P4/SZUM($P$ 2:$P$5) 0 =O2*P3/SZUM($P$ 2:$P$5) =O3*P4/SZUM($P$ 2:$P$5) Gini együttható: =T6+U6-1 86

Nagy mennyiségű adatok kezelése és összehasonlítási módszerei S T U V 5 =O5*P5/SZUM($P$ 2:$P$5) =O4*P5/SZUM($P$ 2:$P$5) 6 Összesen: =SZUM(T2:T5) =SZUM(U2:U5) A Gini együttható értéke 0,259 (igen kis mértékű koncentráció tapasztalható), ami azt jelenti, hogy a szennyezők közül bár vannak nagyobbak, egyikük sem erőteljes annyira, hogy a szennyvízkibocsátása meghatározó legyen. 87

12. fejezet - Adattrendek használatának lehetőségei a fenntartható fejlődés tervezésének támogatására Az emberi élet minőségét jelentősen befolyásolja a környezeti levegő minőségének alakulása. Egy lakott terület levegőminőségét elsősorban a lakosság életvitele, a hatásterületen belüli ipari tevékenység és a közlekedésből származó levegőszennyezés határozza meg. 1. Várpalota térségének levegőminősége és változása az elmúlt évtizedekben Jelen fejezetben a Székesfehérvár - Veszprém Pólustengely közepén fekvő Várpalota város példáján keresztül vizsgáljuk meg diagramok segítségével a levegőminőség változását, a főbb levegőszennyező forrásokat, és a komponensenkénti megoszlást a több évtizedes trend alapján. Az adatsorok az OLM rendszeréből, továbbá a KDT-KTVF Veszprémi Levegőtisztaság-védelmi Laboratóriumából származnak. Várpalota a Dunántúlon, Veszprém megye északkeleti szélén terül el. A lakosság számát tekintve a megye negyedik legnagyobb városa. Budapesttől 90 km-e, két megyeszékhely, Székesfehérvár és Veszprém között félúton fekszik, a Bakony lábánál, a Balatontól alig 30 km-re. Várpalota 1 város fejlettségét az elmúlt fél évszázadban döntően a nehéziparral lehetne jellemezni. Így érthető, hogy a térség környezeti és levegőminőségi állapota az országos átlagnál lényegesen rosszabb volt. Fontos azonban megjegyeznünk, hogy az ipari szennyezések melyek elsődlegesen a várpalotai szénbányászathoz, Inotai Hőerőműhöz, Alumíniumkohóhoz, Nitrogénművek Zrt.-hez voltak köthetők jelentősen csökkentek az elmúlt években, amely elsősorban a 90-es évek változásainak köszönhető: a nehézipar összeomlása, 1996-ban véglegesen megszűnt a szénbányászat, a Földtani Kutató és Fúró Kft, 1997-ben felszámolták az addig stabilnak hitt Vegyesipari Szövetkezet is. A 90-es évek második felében a város és térsége jelentős fejlesztéseket valósított meg, amely főként az 1995- ben elnyert japán hitelből jöhetett létre. A fejlesztéseket az a tény is nélkülözhetetlenné tette, hogy egy rendszerváltás előtti felmérés az ország egyik legszennyezettebb területének minősítette Várpalotát és térségét. Megvalósult többek között Várpalota és további öt település Berhida, Ősi, Öskü, Pétfürdő, Tés - földgáz- és ivóvízellátását, valamint a szennyvíztisztítás fejlesztését célzó program is, amely 1995 szeptemberében kezdődött és 1998. október végéig el is készült. A következőkben nézzük meg a legjelentősebb légszennyező anyagok koncentrációinak változását, miként változtak az évtizedek során. 1.1. NO 2 koncentrációk változása 12.1. ábra - Várpalota, Inota, Pétfürdő NO 2 koncentrációk éves átlagértékeinek változása 1979-2008 között 1 A piszkos tizenkettő névvel illetett városok közé tartozott. Így nevezték el a legszennyezettebb levegőjű városokat Magyarországon. 88

Adattrendek használatának lehetőségei a fenntartható fejlődés tervezésének támogatására 1.2. SO 2 koncentrációk változása 12.2. ábra - Várpalota, Pétfürdő SO 2 koncentrációk éves átlagértékeinek változása 1979-2008 között 89

Adattrendek használatának lehetőségei a fenntartható fejlődés tervezésének támogatására 1.3. Ülepedő por koncentrációk változása 12.3. ábra - Várpalota, Inota, Pétfürdő Ülepedő por koncentrációk éves átlagértékeinek változása 1979-2008 között 1.4. Ammónia koncentrációk változása Pétfürdőn a manuális mérések keretében az ammónia koncentrációját is regisztrálják, amelyre a műtrágyagyártás kibocsátásainak ellenőrzése miatt van szükség. 12.4. ábra - Pétfürdő Ammónia koncentrációk éves átlagértékeinek változása 1979-2006 között 90

Adattrendek használatának lehetőségei a fenntartható fejlődés tervezésének támogatására 2. Várpalota és térsége levegőminőségének jellemzése A 11.1-11.4. számú diagramokon jól látható, hogy a régebben jelentős mértékben szennyezett levegőjű Várpalota és környéke jelentős változáson ment keresztül és megy napjainkban is. Várpalota esetében elmondható csakúgy, mint városaink nagy többségénél, hogy ma már leginkább a közlekedésből származó emisszió okoz esetenként magasabb szennyezőanyag-koncentrációt. Különösen a nitrogén-oxidok és a szálló por légköri koncentrációjának alakulását kell figyelemmel kísérnünk, tekintettel arra, hogy a kedvezőtlen meteorológiai körülmények között ezen anyagok koncentrációja esetleg meghaladhatja a határértéket, továbbá nyári hónapokban az ózon koncentrációja lehet átmenetileg magasabb a megengedett egészségügyi határértékeknél. Összességében azonban elmondható, hogy Várpalota ma már a közepes légszennyezettségű városok közé tartozik. Pétfürdőn szintén nagymértékű javulás tapasztalható, csakúgy, mint Várpalota-Inotán. Amíg a levegőszennyezettség csökkenése Pétfürdőn főként a Nitrogénművek Zrt. kibocsátásainak mérséklődése, valamint a technológia korszerűsödése folytán következett be, addig Inotán a javulás legfőbb oka a hőerőmű, illetve az alumíniumkohó elektrolízis üzemeinek bezárása volt. A fentebb leírtakat alapul véve a jövőre nézve tehát a vizsgált térségben elsősorban a közlekedési eredetű szennyezőanyagok elleni védekezés jelentheti a fő problémakört (ugyanis a 8. számú főút forgalma jelentősen terheli Várpalota és Inota települését is). Nehéz megfogalmazni mi is lehetne az a megoldás, amit mindenki a sajátjának érezhetne, és be is betartana. A levegőszennyezettség kialakulásának megakadályozására főként a nitrogén-oxidok és a szálló por koncentrációja tekintetében alkalmas intézkedés lehetne például a lámpás kereszteződések körforgalmi csomópontokra történő átépítése is, melynek következtében az átmenő forgalom a városon keresztül történő folyamatos, megállás nélküli áthaladással kevésbé terheli a levegőt. Hatékony megoldás lehetne továbbá Várpalotán a zöldterületek növelése, valamint a 8-as út menti fásítás, amely intézkedések szintén nagyban hozzájárulnának a város levegőjének javulásához. ELLENŐRZŐ KÉRDÉSEK Mutassa be az adatbázisok alkalmazásának jogi hátterét! Milyen módszereket ismer az adatok kiértékelésére? Ismertesse Várpalota levegőminőségének változását az elmúlt 30 év távlatában! 91