Bevezetés az SPSS program statisztikai Előadó: Dr Balogh Péter
A statisztika olyan tudomány, amely adatok összegyűjtésével, rendszerezésével és értelmezésével foglalkozik abból a célból, hogy valamilyen a valós életben felmerült kérdésre választ találjon Az áremelkedés hatására csökken-e a kereslet? A többféle tanítási módszer közül melyik a legjobb?
A banki alapkamat-csökkentés hatására megnő-e e a vállalkozói kedv a befektetésekre? Kimutatható, hogy 1 %-kal% nőtt országosan a befektetések nagysága Ez ténylegesen a kamatcsökkentés eredményének köszönhető-e? e? Mi okozhatta volna, ha csak 0,5 %-os emelkedés következik be a befektetésekben? Mi történt volna, ha nem történik kamatcsökkentés?
20 hízóval hagyományos tápsort, másik 20 hízóval egy új tápsort etettek A hízlalás végén megmérték a napi átlagos súlygyarapodást mindkét csoportban Az egyik esetben 550 gramm volt, a másik csoportnál ez 620 grammnak adódott Bizonyítja-e ez azt, hogy a növekedés nagyobb az új tápsor hatására?
A statisztikának két jól elkülöníthető része van: (1) leíró és (2) induktív statisztika A leíró statisztika olyan módszerek összefoglaló elnevezése, amely az összegyűjtött adatok leírására szolgál
Példa: Az Általános Mezőgazdasági Összeírás esetén minden mezőgazdasági termelőnek felveszik az adatait Ha több millió adatot elénk tesznek, azzal semmire sem megyünk Ezt az adathalmazt sűrített formában ábrázoljuk: grafikonok, átlagok és egyéb statisztikai mutatók segítségével
Az induktív statisztika olyan módszerek összefoglaló elnevezése, amelyeket arra használnak, hogy egy minta alapján következtessenek a populáció tulajdonságaira Példa: Minőség-ellenőrzés, választás előtti közvélemény-kutatás
POPULÁCIÓ: A vizsgálat tárgyát képező egyedek összessége (alapsokaság) MINTA: A populációból a vizsgálat céljára kiválasztott egyedek összessége (a populáció egy részhalmaza) A KÉRDÉS: Az átlagbérek növekedése valójában fogyasztás növekedést okoz-e? KÖVETKEZTETÉS: A megválaszolandó kérdés szempontjából mit mond számunkra a minta az egész populációra?
A minta Miért van szükségünk mintára? Miért nem vizsgáljuk a teljes populációt? 1) Túl költséges, és időigényes 2) Nem érhető el az összes egyed 3) A kísérlet rongálhatja, vagy megsemmisítheti az egyedeket
A mintával szemben elvárjuk, hogy reprezentálja a teljes populáció tulajdonságait, hiszen csak így lehet korrekt következtetéseket levonni a vizsgálat eredményeiből A minta akkor lesz a legnagyobb valószínűséggel megfelelő, ha a mintaelemeket véletlenszerűen válogatjuk ki a teljes populációból, mert így kerülhet a populáció minden tagja egyforma valószínűséggel a mintába
Az adatok A mintabeli egyedekről a vizsgálat során adatokat gyűjtünk Két fő adattípust különböztetünk meg: 1 Kvalitatív adatok: Ezek nem fejezhetők ki mennyiségekként, inkább kategóriák: gépjármű típusa, vallási felekezet, vállalkozás formája, szem színe, pártállás
1 Kvantitatív adatok: Ezek valamilyen mérés eredményei (mennyiségek) árbevétel, alapterület, hengerűrtartalom, létszám, fizetés
A kvantitatív adatok kétfélék lehetnek: 1) Folytonosak (a mérési skála egy intervallum) hőmérséklet lehullt csapadékmennyiség egy adott napon
A kvantitatív adatok kétfélék lehetnek: 2) Diszkrétek (a mérhető értékek a számegyenes izolált pontjai) a foglalkoztatottak létszáma, a vállalat gépjárműveinek száma
Az adatok másik csoportosítási lehetősége: 1 Forrásadat 2 Származtatott adat 3 Hiányzó adat 4 Becsült adat
Forrás adat Az adatgyűjtésből, felmérésből, mérésből származó adat Ezeket az adatokat a rendelkezésre álló adatokból függvénykapcsolatok segítségével nem lehet előállítani Például: név, születési dátum, stb
1 Az 2 Például: Származtatott adat azonos esethez tartozó több más változó komponensekből számoljuk ki valamilyen algoritmussal a kezdő és a jelenlegi fizetésből a fizetésnövekedés számolható ki
1 Akkor 2 Például Hiányzó adat keletkezhet, ha nem áll rendelkezésünkre forrásadat, vagy származtatott adat (például a nullával való osztás, vagy negatív számból való négyzetgyökvonás miatt nem képezhető) Az adathiányt jelöljük a következő speciális karakterrel:, a kartonról nem jól olvasható egy dolgozó születési dátuma, vagy a dolgozó egyszerűen megtagadta az adat közlését, például nemzetiség esetén
1 Akkor 2 Például Becsült adat keletkezik, ha a változó többi adatából valamilyen statisztikai eljárással a hiányzó adatot kipótoljuk Lehet ez a többi adat átlaga, vagy a többi adat eloszlásának megfelelő véletlenszerű generálás eredménye ha egy dolgozónál hiányzik a kezdő fizetés adata, akkor az azonos korú, azonos iskolai végzettségű és hasonló beosztású dolgozók kezdő fizetésének átlagaiból becsülhetjük
Adatszerzési módok Adatszerzés Teljes körű Részleges Kísérletek Repr megfigyelés Egyéb Véletlen kiválasztás Nem véletlen kiválasztás
Mérési skálák Nominális (kategoriális) mérési szint a legegyszerűbb és a legkevésbé informatív mérési skála Ebben az esetben az adat csupán az eset azonosítására, vagy valamilyen kategóriához tartozás azonosítására szolgál (pl növényevő ill húsevő állatok) A változók értékei kategóriákba vannak sorolva, közöttük nem feltétlenül van bármilyen viszony Például: név, törzsszám, nemzetiség, nem, családi állapot
Mérési skálák Ordinális (sorrendi) mérési szint esetén a skálaértékek egyezősége vagy különbözősége mellett az értékek sorrendiségét is figyelembe vehetjük Ordinális az adat, ha az adatok között erős sorrend azaz rendezettség létesíthető Azaz, ha bármely két adat közül meg tudjuk mondani, hogy ők egyenlők, vagy valamelyik nagyobb Például az iskolai végzettség, vagy skálák: nagyon nem tetszik, nem tetszik,
Mérési skálák Intervallum (különbségi) az adat, ha rendezett, és értékkészlet egy intervallum, de nincsen origó, vagyis az adatok viszonylagosak Például a fizetésnövekedés adat %-ban kifejezve ilyen, hiszen egy 10%-os fizetésemelés egy alacsony fizetésű dolgozónál kisebb lehet, mint egy 1%-os fizetésemelés egy kiemelt fizetéssel rendelkező dolgozónál További példa: IQ, hőmérséklet
Mérési skálák Arányskála (abszolút skála): a legtöbb információt adja Arány az adat, ha valós számérték és ismert az origó, a viszonyítási alap Például a kezdő- és jelenlegi fizetés, testsúly
Példa: 1 Nem 2 Név 3 Legmagasabb iskolai végzettség 4 Reggel és este mért vérnyomás 6 Tájegység 8 Földkategória Ordinális Nominális 5 Kezdő és jelenlegi fizetés Nominális A r á n y Nominális Arány Ordinális 7 Saját terület (ha) Arány 9 Erőgépek száma Intervallum
Mezőgazdasági vállalkozások adatai (kivonat) 2002 12 31 Gazdaság Tájegység Saját terület ha Bérelt terület ha Bérleti díj Ft/ha 0 C Föld- kategó ria Maxi- mum hőmérséklet Erőgépek száma Sertés db Hízóérté- kesítés 2002- ben t 1 Hajdúság 0 3144 19600 4 28,9 18 0 397 2 B-A-Z megye 625 1758 9050 1 29,3 10 0 0 3 5 Hajdúság 0 3235,52 18500 4 28,9 19 950 14,5 7 Dél-Alföldld 0 1322 11530 2 31,9 4 662 90,84 8 B-A-Z megye 0 1414 13500 1 25,9 6 532 51 9 Szabolcs- Szatmár- Bereg megye 45 4268 9100 1 25,8 22 2624 397 Szabolcs- Szatmár- Bereg megye 0 1300 16100 3 28,9 7 928 189
A mezőgazdasági vállalkozások tulajdonában lévő erőgépek 2002 12 31-én elnevezésű sokaság diszkrét, álló, véges sokaságnak tekinthető A hízósertés értékesítése a 2002 évben folytonos, mozgó és véges sokaság A mezőgazdasági vállalkozások által bérelt terület nagysága 2002 12 31-én folytonos, álló, véges sokaságot képez
Ismérvek és mérési szintek Ismérv Változat Ismérvfajta Mérési szint Tájegység Hajdúság Térbeli Nominális/nomi nal Saját t terület ha 0 Mennyiségi/folytonos Földkategória 4 Minőségi Erőgépek száma 18 Mennyiségi/diszkr gi/diszkrét Arány/scale Ordinális/ordina l Arány/scale Maximum hőmérséklet 0 C Hízóértékesítés 2002-ben t 28,9 Mennyiségi/folytonos 397 Mennyiségi/folytonos Intervallum/scal e Arány/scale
Statisztikai problémák megfogalmazása
Idősorelemzés: Az adatmátrix: az utóbbi 10 év (N=3650) napi villamosenergia fogyasztásának adatsora
A felvetődő kérdések (statisztikai módszerek): [1] Milyen ciklikusság észlelhető az adatsorban? periodicitás-elemzés [2] Volt-e növekedési, vagy csökkenési tendencia? trendanalízis [3] Vannak-e hirtelen változások, töréspontok? lineáris regresszió [4] Összevetve más országok hasonló idősorával, vannak-e azonos tendenciák? homogenitásvizsgálat [5] Mi várható a jövőbeli fogyasztási adatokban, mire kell felkészülnie az áramszolgáltatónak? extrapoláció
Kérdőíves felmérés: Az adatmátrix: Adva van egy N elemű címhalmaz, amihez tartozó emberek halmaza a magyarországi társadalmi, gazdasági, kulturális rétegződésnek megfelelő reprezentatív minta alkotja Ez azt jelenti, hogy a mintában a korcsoportos, nem-, iskolázottsági-, foglalkoztatási- stb közel ugyanolyanok, mint a teljes 10 milliós populációban A címekre kiküldött kérdőívekben az alábbi kérdésekre kellett válaszokat adni: 1 Milyen pártra szavazott? (válaszolnia kell 10 felsorolt párt közül); 2 Mi a véleménye a NATO csatlakozásról? (1: támogatom, 2: elutasítom, 3: nincs véleményem); 3 Mi a véleménye az EU tagságról? (1: támogatom, 2: elutasítom, 3: nincs véleményem); 4 Hogyan ítéli meg az ország gazdasági helyzetét? (1: romlott; 2: javult, 3: nem változott);
A felvetődő kérdések (statisztikai módszerek): [1] A különböző pártokra szavazók válaszai mennyire térnek el egymástól, illetve vannak-e olyan pártok, akiknek a szavazói hasonlóan vélekednek? Többdimenziós skálázás [2] Milyen gondolkodás jellemző az egyes pártok szavazóira? Milyen az egyes pártok társadalmi beágyazottsága? Klaszterelemzés
Hipotéziselmélet Az adatmátrix: Egy szemészeti klinikán a páciensektől adatokat vesznek fel A páciensek olyan személyi adatain kívül, mint pl név, nem, kor, foglalkozás rögzítünk olyan adatokat is, mint a vérnyomás, súly, testmagasság, vércukor (egészségi kondíció) A szembetegség kórisméjét is tároljuk: pl csarnokvíz, éleslátás, stb
A felvetődő kérdések (statisztikai módszerek): [1] Van-e különbség az egyes foglalkozási (kor-, nemi-, ) csoportban egy adott szembetegség relatív gyakoriságában? Homogenitásvizsgálat [2] Van-e kapcsolat egy adott szembetegség és az egyes egészségügyi kondíciók között? Szórásanalízis
Közvéleménykutatás: Az adatmátrix: Egy TV csatorna kíváncsi a műsorainak nézettségére és tetszési indexére Egy N elemet tartalmazó reprezentatív mintának a következő kérdéseket tették fel: (1) Nézte-e e az adott műsor az 1,2, 10-edik héten? (2) Osztályozza le a produkciókat 1-től 1 10-ig tetszésének megfelelően (3) Ha nem nézte, mit csinált az i-edik héten? (i) nem ért rá, de nézte volna; (ii( ii) ) nem ért rá, de úgysem nézte volna; (iii( iii) ) más TV csatornát nézett abban az időben; (iiii)) időnként oda is kapcsolt (4) A kérdéses csatornát összességében tévézésének hány %-ban% nézi? stb
A felvetődő kérdések (statisztikai módszerek): [1] Hogyan változott a műsor nézettsége és tetszési indexe a vizsgált terminusban? Trendanalízis [2] Nézettebb-e a vizsgált műsor, mint a csatorna általában? Hipotéziselmélet [3] Melyik héten volt a legsikeresebb a műsor? Lineáris regresszió