Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások



Hasonló dokumentumok
Statisztikai hipotézisvizsgálatok. Paraméteres statisztikai próbák

Esetelemzés az SPSS használatával

Esetelemzések az SPSS használatával

STATISZTIKA PRÓBAZH 2005

Véletlenszám-generátorok

MARKETINGKUTATÁS II. Oktatási segédanyag. Budapest, február

Elméleti összefoglalók dr. Kovács Péter

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

KVANTITATÍV MÓDSZEREK

Módszertani eljárások az időtényező vezetési, szervezeti folyamatokban betöltött szerepének vizsgálatához

11. Matematikai statisztika

Variancia-analízis (folytatás)

statisztikai menürendszere Dr. Vargha András 2007

A KUTATÁSMÓDSZERTAN MATEMATIKAI ALAPJAI MA. T.P.Lenke

Statisztika, próbák Mérési hiba

Normál eloszlás. Gyakori statisztikák

1. A skót bakák mellkas körmérete N(88, 10). A skót bakák mekkora hányada fér bele egy 84-es zubbonyba?

Nem. Cumulative Percent 1,00 férfi ,9 25,9 25,9 2,00 nı ,1 73,1 99,0 99,00 adathiány 27 1,0 1,0 100,0 Total ,0 100,0

Illeszkedésvizsgálat χ 2 -próbával

A telefonnal való ellátottság kapcsolata a rádió és televízió műsorszórás használatával a 14 éves és idősebb lakosság körében

GAZDASÁGI STATISZTIKA

Hipotézisvizsgálat. A sokaság valamely paraméteréről állítunk valamit,

Matematikai statisztikai elemzések 1.

Matematikai statisztikai elemzések 5.

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Matematikai statisztikai elemzések 2.

MINİSÉGSZABÁLYOZÁS. Dr. Drégelyi-Kiss Ágota

Matematikai statisztikai elemzések 6.

Adatok statisztikai feldolgozása

Sztochasztikus kapcsolatok

Populációbecslések és monitoring 2. előadás tananyaga

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

A statisztika alapjai - Bevezetés az SPSS-be -

STATISZTIKAI TÜKÖR 2014/126. A népesedési folyamatok társadalmi különbségei december 15.

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Statisztikai módszerek

Csődvalószínűségek becslése a biztosításban

Kutatási beszámoló. a KDOP-3.1.1/D2/13-k jelű, Szociális város-rehabilitáció Szárazréten elnevezésű projekt hatásának mérése

SPSS ALAPISMERETEK. T. Parázsó Lenke

10. Valószínűségszámítás

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

A nyugdíjban, nyugdíjszerű ellátásban részesülők halandósága főbb ellátástípusok szerint

Ittfoglalomösszea legfontosabbtudnivalókat, részleteka honlapon, illetvea gyakorlatvezetőtől is kaptok információkat.

Alapfogalmak áttekintése. Pszichológiai statisztika, 1. alkalom

Valószínűségszámítás

Lineáris programozás. Modellalkotás Grafikus megoldás Feladattípusok Szimplex módszer

JANUS PANNONIUS TUDOMÁNYEGYETEM. Schipp Ferenc ANALÍZIS I. Sorozatok és sorok

Mérési eljárások kidolgozása látók és látássérültek lokalizációs képességeinek összehasonlítására

Visszatérítő nyomaték és visszatérítő kar

Correlation & Linear Regression in SPSS

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

SZENT ISTVÁN EGYETEM. Gödöllő. Gazdálkodás és Szervezéstudományok Doktori Iskola

Statisztikai programcsomagok

EGÉSZSÉGÜGYI DÖNTÉS ELŐKÉSZÍTŐ

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Statisztikai módszerek alkalmazása az orvostudományban. Szentesi Péter

OROSZLÁNY ÉS TÉRSÉGE EGÉSZSÉGFEJLESZTÉSI TERVE

Bemenet modellezése II.

Hipotézis vizsgálatok

SZÁMOLÁSTECHNIKAI ISMERETEK

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Közbeszerzési referens képzés Gazdasági és pénzügyi ismeretek modul 1. alkalom. A közgazdaságtan alapfogalmai Makro- és mikroökonómiai alapfogalmak

Reiczigel Jenő,

1.4 Hányféleképpen rakhatunk sorba 12 könyvet, ha 3 bizonyos könyvet egymás mellé akarunk rakni és

6. AZ EREDMÉNYEK ÉRTELMEZÉSE

148 feladat ) + ( > ) ( ) =?

Statisztikai szoftverek esszé

MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 7. MA3-7 modul. Helyzetmutatók, átlagok, kvantilisek

Hipotézis-ellenırzés (Statisztikai próbák)

Statisztikai módszerek gyakorlat - paraméteres próbák

Sztochasztikus folyamatok 1. házi feladat

Valószín ségelmélet házi feladatok

A kutatás folyamán vizsgált, egyes kiemelt jelentőségű változók részletes

Correlation & Linear Regression in SPSS

Komputer statisztika gyakorlatok

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

MUNKAERŐ KUTATÁS A FOGLALKOZTATÁSI ANOMÁLIÁK KIKÜSZÖBÖLÉSÉRE

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Gráfelmélet II. Gráfok végigjárása

II. A következtetési statisztika alapfogalmai

Feladatok és megoldások a 6. heti eladshoz

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Statisztika

FEJLESZTŐPROGRAMOK HATÁSVIZSGÁLATÁNAK MATEMATIKAI STATISZTIKAI ALAPFOGALMAI

ÉS TESZTEK A DEFINITSÉG

Statistical Dependence

Feladatok és megoldások a 4. hétre

A magyarországi nonprofit szektorban dolgozók motivációjára káros hatások értékelésének elemzése többváltozós statisztikai módszerekkel

On-line értékelési módszerek II. Lengyelné Molnár Tünde

Vargha András PSZICHOLÓGIAI STATISZTIKA DIÓHÉJBAN 1. X.1. táblázat: Egy iskolai bizonyítvány. Magyar irodalom. Biológia Földrajz

Regressziószámítás alkalmazása kistérségi adatokon

Öregedés és nyugdíjba vonulás

Az elektrosztatika törvényei anyag jelenlétében, dielektrikumok

Időtervek: III./2. Hálóterv (CPM) időelemzése

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

matematikai statisztika október 24.

Standardizálás, transzformációk

Statisztika I. 6. előadás. Előadó: Dr. Ertsey Imre

Átírás:

Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások Bevezetés A magas mérési szintű változók adataiból számolhatunk átlagot, szórást. Fontos módszerek alapulnak ezeknek a származtatott paramétereknek a matematikai tulajdonságain; ezeket a módszereket paraméteres módszereknek nevezik. Könnyű belátni, hogy például a nominális skálán mért adatok esetében nem helyénvaló átlagot számítani, és következésképpen nem alkalmazhatók a paraméteres statisztikai módszerek. Például, ha egy mintábankét régióból származó adatok vannak, akkor a mintára vonatkozóan nem lehet átlagos régióról beszélni. A nominális és az ordinális skálán mért adatokra számos módszer alkalmazható, melyek egyik közös tulajdonsága, hogy nem szükséges az, hogy az adatokból átlag, vagy szórás számolható legyen. Általában elmondható, hogy ezek a módszerek nem az ismert nevezetes eloszlás, a normális eloszlás paramétereinek tulajdonságain alapulnak, ezeket nemparaméteres módszereknek szokták nevezni. Vagyis ha az eloszlás jellege ismert, és a nullhipotézisünk az eloszlás valamely paraméterére vonatkozik, paraméteres próbáról, ellenkező esetben nemparaméteres próbáról beszélünk. A nemparaméteres módszerek az alábbi esetek közül valamelyikre vonatkoznak. 1. Nominális skálán mért adatokra.. Ordinális (rendezett) skálán mért adatokra. 3. Intervallum skálán mért adatokra anélkül, hogy azt kellene feltételeznünk, hogy az adatok azonos eloszlású sokaságból származnak. Ebben az esetben az adatokat rangtranszformációnak vetjük alá. Ez azt jelenti, hogy az intervallum skálán tett megfigyeléseket az ordinális skálán értékeljük ki. Hogyan válasszunk a paraméteres és nemparaméteres módszerek között? A nemparaméteres módszerek előnyei: Kevesebb feltételük van, így hibás alkalmazásuk esélye kisebb. Nominális és ordinális változókon is használhatók. Próbastatisztikáik számítása sokszor egyszerűbb. Skálaérzéketlenek, azaz az adatok transzformálása nem befolyásolja a tesztek eredményét. Kevésbé érzékenyek a kiugró adatokra. Nem csak az átlag különbségeit tudjuk vizsgálni, hanem az eloszlás más tulajdonságának (például ferdeség fellépése kezelés hatására) változását is. A nemparaméteres módszerek hátrányai: Erejük kisebb mint a paraméteres megfelelőiknek (azok feltételeinek teljesülése esetén) de ez sokszor nem jelentős. Sok parametrikus tesztnek nincs meg a nemparametrikus megfelelője. A paraméteres módszerek előnyei. Ha feltételeik teljesülnek, a paraméteres próbák nagyobb erejűek, mint a helyettük alkalmazható nemparaméteres próbák. Ha az adatok normális eloszlásúak, akkor ettől az információtól való eltekintés jelentős információ veszteséggel jár. Ha nincs rá okunk, ne mondjunk le a paraméteres próbák előnyeiről. 1

A paraméteres próbák esetében a nullhipotézisek gyakran többet mondanak, mint a nemparaméteres próbák nullhipotézisei. A paraméteres próbák hátrányai: Szűkebb az alkalmazási terület, csak bizonyos eloszlású sokaságok esetén alkalmazhatók. Választás az alkalmazható nemparaméteres próbák között. Ha csak azt feltételezzük, hogy két csoport között van-e bármilyen különbség, akkor bármelyik próbát alkalmazhatjuk. Tudnunk kell azonban, hogy a nemparaméteres próbák, ellentétben a t-próbával, nem a két csoport átlagának a különbségét vizsgálják, hanem a csoportok más tulajdonságait, mégpedig próbánként különböző tulajdonságait. Így aztán a szignifikáns különbség nem biztosan jelenti azt, hogy a két csoport átlaga (várható értéke) is különbözik, mert lehet, hogy a két vizsgált populáció eloszlásának valamilyen más tulajdonsága különbözik (medián, eloszlás jellege). Eloszlásokra vonatkozó próbák (χ - próba) A sokaságok százalékos megoszlására vagy a valószínűségi változó eloszlására vonatkozó hipotézis ellenőrzésére szolgál. Diszkrét és folytonos valószínűségi változó eloszlásának vizsgálatára egyaránt alkalmas oly módon, hogy osztályokat képezünk, és az osztálygyakoriságokat, vagy a relatív osztálygyakoriságokat, ill. a megfelelő valószínűségeket vizsgáljuk. Feltételek (f i : az i-edik osztály megfigyelt gyakorisága): Nagy minta (n 50). Valamennyi megfigyelt osztályban az osztálygyakoriság f i 1. Maximum az osztályok 0%-ában lehet f i 5. Illeszkedésvizsgálat Tiszta illeszkedésvizsgálat: a minta eloszlását hasonlítjuk egy elméleti eloszláshoz. Példa: Egy dobókocka szabályosságát szeretnénk ellenőrizni. Minden dobás egyforma (1/6) valószínűséggel következhet be. H 0 : a kocka szabályos H 1 : a kocka nem szabályos 60 dobás eredménye: Me.: kocka dobások száma Érték Megfigyelt gyakoriság Várt gyakoriság 1 8 10 6 10 3 16 10 4 17 10 5 9 10 6 4 10 = * ( fi fi ) χ, i = 1,, n ahol * fi f i : az i-edik osztály megfigyelt gyakorisága f * i : az i-edik osztály várt gyakorisága n : a minta elemszáma * ( fi fi ) 8 10 6 10 Behelyettesítve a képletbe: χ = = + +... + * f 10 10 i ( ) ( ) ( 4 10) 10 = 14,.

Ha a megfigyelt gyakoriságok messze vannak a várttól, akkor ez az összeg nagy lesz, ha azonban közel, akkor kicsi. Így χ megad egy értéket a megfigyelt és a várt gyakoriságok távolságának mérésére. Természetesen a dobások véletlenszerűsége miatt még szabályos kocka esetén sem fogunk pontosan χ = 0-t kapni. A χ értékre meg kell engednünk egy bizonyos intervallumot, amelybe ha beleesik, akkor még elég nagy a valószínűsége annak, hogy a kocka szabályos. Úgy is lehet fogalmazni: mekkora a valószínűsége annak, hogy szabályos kocka esetén ilyen eredményt kapjunk. Ehhez be kell vezetni a χ eloszlásfüggvényt, melynél egy görbeseregről van szó. Azt, hogy a görbeseregből melyiket kell kiválasztanunk, a szabadság fok mondja meg. A szabadság fok illeszkedésvizsgálat esetén egyenlő az osztályok száma mínusz 1-gyel, esetünkben k - 1 = 6-1 = 5. Ezek után vizsgáljuk meg a χ -eloszlás táblázatát, és keressük ki a számolt χ értékhez tartozó valószínűséget. A táblázatokban általában csak bizonyos valószínűségekhez tartozó χ értékeket adnak meg. Ha 5%-os szignifikancia szinttel dolgozunk, akkor azt mondjuk, hogy akkor utasítjuk el a kocka szabályosságára vonatkozó hipotézisünket, ha szabályos kockát feltételezve kisebb, mint 5% a valószínűsége annak, hogy olyan eredményt kapjunk, amilyet kaptunk, akkor ki kell keresnünk a táblázatból az 5%-hoz és a megfelelő szabadság fokhoz tartozó értéket, és össze kell hasonlítani a számítottal. Ha a számított nagyobb a táblázatbeli értéknél, akkor elutasítjuk hipotézisünket. Példánkban χ számított = 14, χ táblázatbeli = 11,1; tehát a kockánkat nem tekinthetjük szabályosnak. Becsléses illeszkedésvizsgálat: csak az eloszlás típusa ismert (normális, exponenciális ), paramétereit a minta alapján becsüljük, majd ezekre vonatkozóan végzünk illeszkedésvizsgálatot. * ( fi fi ) ( fi npi ) χ = = *, ahol fi npi f i : az i-edik osztály megfigyelt gyakorisága, f * i : az i-edik osztály várt gyakorisága, n : a minta elemszáma, p i : az i-edik osztály várt relatív gyakorisága. Feltétel: a várható érték gyakorisága minden osztályban érje el legalább az 5 értéket (f * i > 5) és a minta kellően nagy legyen (n > 30). Szabadság fok: tiszta illeszkedésvizsgálatnál szf = k-1, becsléses illeszkedésvizsgálatnál szf = k-1-b, ahol a k : a csoportosítás során képezett osztályok száma, b : a mintából becsült paraméterek száma. Példa: Egy élelmiszer faogyasztásával kapcsolatos felmérés során 60 személy szokását vizsgálták. Az adatokat a következő táblázatban tüntettük fel. Átlagos értékként 1037 dkg/időszak, szórásként 116,3 dkg volt becsülhető. Feltételezhető, hogy normális eloszlású az adott időszakra eső fogyasztás ebből az élelmiszerből. A feladat ennek ellenőrzése. 3

Időszakra eső fogyasztás (dkg) x ia - x if Osztályközbe eső emberek száma (fő) f i 751-850 7 851-950 10 951-1050 15 1051-1150 1 1151-150 9 151-1350 7 Összesen: 60 Megoldás: Időszakra eső fogyasztás (dkg) x ia - x if Osztályközbe eső emberek száma (fő) f i Transzformált osztályköz határ Alsó Felső x ia x if p i f i * = np i f i - f i * * ( f f ) 751-850 7 -,47-1,61 0,0537 3 4 5,33 851-950 10-1,6-0,75 0,179 11-1 0,09 951-1050 15-0,74 0,11 0,317 19-4 0,84 1051-1150 1 0,1 0,97 0,90 17-5 1,47 1151-150 9 0,98 1,83 0,134 8 1 0,13 151-1350 7 1,84,69 0,0336 5 1,5 Összesen 60 1,0000 60 0 0,36 A várható gyakoriságok kiszámolásához először az egyes osztályközökbe esés valószínűségét kell meghatározni. Ehhez a mintaeloszlás osztályköz határait standard normális eloszlássá kell transzformálni. (Várható érték = 0, szórás = 1). Becsléses illeszkedésvizsgálat esetén a várható értéket a mintaátlaggal ( x ), a szórást a mintabeli szórással (s) becsülve, az új osztályköz határokat a xi x következő módon kell kiszámítani: xi ' =. s x f x 950 1037 A második osztályköz felső határa esetében: x f ' = = = 0, 75. Ezek után az s 116,3 egyes intervallumokba esés valószínűségét (p i ) a standard normális eloszlás táblázatából lehet meghatározni. A χ táblázatbeli érték α = 5%-nál és 6-1- =3 szabadság foknál 7,815. Megállapítható, hogy a számított χ érték (0,36) nagyobb, mint a kritikus érték, ezért a nullhipotézist elvetjük, a minta szignifikánsan eltér a normális eloszlástól. Homogenitásvizsgálat Két független minta eloszlásfüggvényének összehasonlítására szolgál. Kérdés: Származhat-e a két független minta azonos eloszlásfüggvényű sokaságból? A próbastatisztika kiszámolásához a megfigyelési egységeket mindkét n 1 ill. n elemű minta esetén azonos osztályokba soroljuk (k osztályt képzünk), melyekre igazak az alábbi összefüggések: i f i * i 4

A próbastatisztika értékének kiszámolása: χ f1 i = n1, i = n i i = 1,, k. = 1 1i i n1n f1 + f n i i i n1 f i = 1,, k. n 1, n : a minta elemszáma f 1i, f i : osztályonkénti gyakoriságok mintánként k: az osztályok száma. f i f A két sokaság azonosnak tekinthető, ha χ számított χ táblázatbeli., szabadság fok: k-1, ahol Példa: Két vállalkozás 4 féle terméket állít elő. Az első vállalkozásnál 345db terméket soroltak be, a másodiknál pedig 640 darabot. Az alábbi táblázat mutatja az egyes terméktípusok gyakoriságát. Azonos termékprofilúnak tekinthető-e a két vállalkozás? Megoldás: Me.: darab Termékek I. vállalat (f 1i ) II. vállalat (f i ) A 76 167 B 16 48 C 7 156 D 35 69 Összesen 345 640 Me.: darab Termékek I. vállalat (f 1i ) II. vállalat (f i ) χ részösszeg A 76 167 1,5013 B 16 48 3,669 C 7 156 1,1900 D 35 69 0,0860 Összesen 345 640 6,404 = 1 f 1i f i χ n1n = 6,404 f1 + f n n, a szabadság fok 4-1 = 3, a kritikus érték (α = 0,05): i i i 1 χ táblázatbeli = 7,815. Ez alapján megállapítható, hogy a két vállalat azonosnak termékprofilúnak tekinthető. Függetlenség vizsgálat Az alapsokaság két ismérv szerinti csoportosításakor s t típusú kontingencia táblázatot kapunk. (s db csoportot képeztünk az első, t db csoportot pedig a második szempont szerint.) Vizsgálhatjuk, hogy az első szempont szerinti eloszlás független-e a második szempont szerinti eloszlástól (Szűcs, 00). 5

f k. f. l * f kl ( fi fi ) = n χ =, ahol * f f k f i.. l n f i : az i-edik osztály megfigyelt gyakorisága, f * i : az i-edik osztály várt gyakorisága, n : a minta elemszáma, f kl : az első szempont k-adik és a második szempont l-edik osztálykombinációjába tartozó egyedek elméleti relatív gyakorisága, f k. : az első szempont k-adik osztályának gyakorisága, f.l : a második szempont l-edik osztályának gyakorisága. A szabadság fok száma: szf: (s-1)(t-1). Példa: Egy kozmetikai cég megbízásából felmérést készítettek arról, hogy a nők és a férfiak milyen típusú dezodorokat használnak. A felmérésben 00 nő és 150 férfi adatai szerepelnek. Hasonlóak vagy eltérőek a nők és a férfiak szokásai ezen a téren? (Függ-e a dezodorválasztás a nemtől?) Me.: fő Spray Golyós Krém Összesen Nő 93 46 61 00 Férfi 73 39 38 150 Összesen 166 85 99 350 Megoldás: Függetlenség esetén a 350 elemű minta megoszlása az alábbiak szerint alakulna. * f k. f. l Peremgyakoriságok: fi =, ahol n f k. = k-adik sor összege k = 1,, f.l = l-edik oszlop összege l = 1,, 3, n = 350, a minta elemszáma. Me.: fő Spray Golyós Krém Összesen Nő 94,86 48,57 56,57 00 Férfi 71,14 36,43 4,43 150 Összesen 166 85 99 350 χ számított 3 * ( fij fij ) ( 93 94,86) ( 46 48,57) ( 38 4,43) = = + +... + * f j= 1 i= 1 ij 94,86 48,57 4,43 = 1,1 Szabadság fok száma: (s-1)(t-1) = 1 = α = 5% esetén χ krit = 5,99. A próba nem szignifikáns, χ krit > χ számított. Megállapítható, hogy nincs statisztikailag igazolható különbség az eltérő nemű vásárlók dezodor választása között. Előjel-próba Közvélemény kutatásokban gyakran vizsgálják azt, hogy egy minta egyedei két lehetőség közül melyiket választják. Például két ismert márkájú hasonló termék közül melyiket kedvelik inkább. A két lehetőség közötti választás, vagy két (egymást kizáró) esemény előfordulásának valószínűsége 6

elvileg azonos jellegű probléma. Például egy adott beteg populációban a született gyermekek között a fiúk és a lányok aránya azonos-e? Mindezen vizsgálatok eredményét értékelhetjük az előjel próbával oly módon, hogy az egyik esemény előjelét pozitívnak, a másik előjelét negatívnak nevezzük, és nem engedünk meg eldöntetlen esetet. Az előjel próbának nincs elterjedt, ismert megfelelője a paraméteres próbák között. Az előjel próbával értékelhető adatok esete lényegében véve azonos a binomiális eloszlást mutató kísérletek vizsgálatával. Lehetnek olyan esetek, amikor nem lehet egyértelműen eldönteni az előjelet. Ezekben az eldöntetlen esetekben a megfigyelést nem vesszük figyelembe egyik fajta előjelek számlálása során sem. Példa: Két gyümölcs csomagolására és tárolására alkalmas módszert tesztelnek. Mindkét eljárással tíz-tíz darab egymázsás csomagot készítenek, és három hónap múlva megszámolják a romlott gyümölcsöket. Van-e különbség a két eljárás között? Az adatokat az alábbi táblázat tartalmazza. Me.: darab Csomagok 1 3 4 5 6 7 8 9 10 I. módszer 47 56 54 49 36 48 51 38 61 49 II. módszer 71 63 45 64 50 55 4 46 53 57 Megoldás: H 0 : a két eljárás között nincs különbség. H 1 : a két eljárás között van különbség. Páros mintánk van, ilyenkor vehetjük a két eljárás során keletkezett romlott gyümölcsök különbségének előjelét. Me.: darab Csomagok 1 3 4 5 6 7 8 9 10 I. módszer 47 56 54 49 36 48 51 38 61 49 II. módszer 71 63 45 64 50 55 4 46 53 57 Előjel - - + - - - + - + - Vagyis három plusz és hét mínusz jel van. Azt várnánk, hogy ha a két eljárás között nincs különbség, akkor öt pluszt és öt mínusz jelet kapunk. Ez a probléma megegyezik azzal, hogy 10- szer feldobva egy érmét 3-szor fejet és 7-szer írást kapunk. Vajon ez az érme szabályos-e? Binomiális eloszlással számolunk tovább. n k n k P(ξ = k) = p q k, k 10 k 10 10 1 1 10 1 P( ξ = k) = =, k k 10 10 1 p 0 = P( ξ = 0) = = 0, 000977, 0 10 10 1 p 1 = P( ξ = 1) = = 0, 009766, 1 10 10 1 p = P( ξ = ) = = 0, 043945, 7

10 10 1 p 3 = P( ξ = 3) = = 0, 117188, 3 P ξ < = p + p 0,, ( ) 0 1 = 010743 ( < ) = p + p + p 0, 054688 P ξ. 3 0 1 = Kétoldali próbával kell dolgoznunk, mert H 1 azt állítja, hogy különbség van a módszerek között. 1 Ezért az 5%-os szignifikancia szintnél: 0,05 = 0, 05 a keresett valószínűségi szint. Mivel 0,010743 < 0,05 < 0,054688, akkor utasítjuk el a H 0 hipotézist, ha a plusz jelek száma nulla vagy egy. Itt azonban három van, így 5%-os szignifikancia szinten nem utasíthatjuk el a H 0 -t, ilyen szinten nincs különbség az eljárások között. Mann-Whitney-Wilcoxon próba (más néven U próba vagy rangösszegpróba) Két egymástól független minta medián értékének összehasonlítására szolgál, ha a mintaelemek párosíthatók, tehát a kétmintás t-próba nemparaméteres megfelelője. Ordinális mérési szintű változókra is használható. A próba alkalmazhatóságának feltételei: a használt valószínűségi változók függetlenek, azonos alakú eloszlásúak legyenek, de használható folytonos és diszkrét eloszlásoknál is. Kísérleti elrendezés: két független, véletlen minta. A próba menete a következő. Elvégezzük a rangtranszformációt, ami azt jelenti, hogy az összes adatot (a csoporthoz való tartozástól függetlenül) nagysága szerint sorba állítjuk, az adatok helyébe azok rangszámát helyettesítjük. Ha két, vagy több azonos adatot találunk, akkor azok helyébe az átlagos rangszámokat írjuk. Az így kapott rangszámokat az eredeti csoportokra szétbontjuk. Ez a transzformáció az eredeti megfigyeléseket az ordinális skálán fejezi ki. Ha a két csoport középértéke (mediánja) között nincs különbség (azaz H 0 teljesül), akkor mind a két csoportban lesznek alacsony és magas rangszámú megfigyelések, és az átlagos rangszám értékek is közel azonosak lesznek. Ha H 0 -t elvetjük, akkor az egyik csoportban nagy valószínűséggel nagyobb lesz az átlagos rangszám, mint a másik csoportban. Ha sok az azonos rangsorú érték, ezeket a teszt nem veszi figyelembe, és ezért ilyenkor kissé alulértékeli a szignifikancia szintet. Kétmintás t-próbát célszerű alkalmazni, ha a két sokaság, amelyekből a két független minta származik, normális eloszlású. Ha a normalitás nem áll fenn, de a két populáció eloszlása azonos formájú akkor e próba alkalmazása ajánlható. Ezután végezzük el a rangtranszformációt és számoljuk ki mindkét mintára a sorszámok összegét. Jelölje a két összeget R 1 és R ; N 1 és N pedig rendre a minta-elemszámokat. (N 1 N ) Az R 1 és R közötti szignifikáns különbség a két minta közötti szignifikáns különbségre utal. A teszteléshez használjuk az első mintához tartozó N1 ( N1 + 1 U = N ) 1N + R1 statisztikát. U mintavételi eloszlása szimmetrikus, átlaga és varianciája a következő módon számolható: µ = N N 1 N1N ( N1 + N + 1) U σ = U 1. U µ Ha N 1 és N is legalább 8, akkor U eloszlása közel normális lesz úgy, hogy z = U 0 átlagú és 1 varianciájú normális eloszlást követ (Murray, 1995). σ µ 8

Példa: Két tanulócsoport ugyanazt a dolgozatot írta meg. A dolgozatokra kapott pontszámok a következők. I. csoport: 18; 17; 3; 17,5; 19; 5; 16; 4. II. csoport: 1,5; 14; 0,5; 11; 15,5; 0; 13; 15; 1; 14. H 0 : a két minta ugyanabból a sokaságból származik (nincs különbség a két csoport tudása között). Megoldás: Rendezzük az összes mintaértéket, és adjunk sorszámokat ezekhez az értékekhez. Egyet a legkisebbhez, tizennyolcat a legnagyobbhoz. Kiszámolva: R 1 = 106, R = 65, N 1 = 8 és N = 10, U = 10; µ U = 40; σ U =11,5; z = -,67 Mivel a vizsgált H 0 hipotézis az, hogy nincs különbség a csoportok között, kétoldali próbát kell alkalmazni. 5%-os szignifikancia szinten a döntési szabály: Elfogadjuk H 0 -t, ha -1,96 z 1,96. Ennek alapján elutasítjuk a H 0 -t, vagyis a két csoport tudása nem azonos. Kruskal-Wallis próba (H próba) (az előző általánosítása k számú mintára.) Az eljárás célja összehasonlítani 3, vagy több sokaságot, melyekből véletlen egyváltozós mintát vettünk. A H próba az egyutas osztályozás vagy egytényezős kísérlet varianciaanalízisére ad általánosítható nemparaméteres módszert. Ez a próba különösen érzékeny a medián változásaira. A hipotézis pár: H 0 : A minták eloszlása nem különbözik egymástól. H 1 : Legalább két eloszlás különbözik egymástól. Ha elvetjük H 0 -t, akkor arra következtetünk, hogy a vizsgált sokaságok között vannak különbségek. A próba alkalmazhatóságának feltételei: véletlen mintavétel, független minták és legalább ordinális skálán mérhető változó. Tegyük fel, hogy k számú mintánk van, egyenként N 1, N, N k mintanagyságokkal, és így az összes minta N = N 1 + N + + N k elemszámú. Az összes mintát együtt kell rangsorolni, és a rangösszegek: R 1, R, R k. = 1 k R j H + 3( N + 1) N N + 1 N ( ) H mintavételi eloszlása közelítőleg k-1 szabadság fokú χ N 1, N, N k mindegyike legalább 5. j= 1 j eloszlást követ, feltéve, hogy az Példa: Egy ipari kísérletben 4 különböző gyártósoron készítenek ugyanolyantermékeket. Minden gépsorról 5-5 mintát vesznek. Az eredmények kg/db egységben kifejezve az alábbi táblázatban olvashatók. Vizsgáljuk meg, hogy van-e szignifikáns különbség az egyes gyártósorok között? Megoldás: N = 0 A rangok és a rangösszegek: Me.: kg/db Gyártósor Eredmények A típus 18,4; 16,1; 19,; 17,; 18,6 B típus 17,5; 17,3; 15,4; 16,4; 17,9 C típus 19,3; 18,; 19,6; 0,0; 18,9 D típus 14,0; 15,4; 16,8; 17,6; 16,9 9

Rangok Σ A típus 14 4 17 8 15 58 B típus 10 9,5 5 1 38,5 C típus 18 13 19 0 16 86 D típus 1,5 6 11 7 7,5 = 1 k R H N( N + 1) N j= 1 j j 3( N + 1) = 1,8 k-1 = 3 szabadság foknál 5%-os szignifikancia szinten χ krit = 7,81. Mivel 7,81 < 1,8 elvetjük a nullhipotézist, azaz van különbség a gyártósorokon előállított termékek tömege között. 10

Esetelemzések az SPSS használatával 1. Egy felmérés során azt vizsgálták, hogy a háziasszonyok körében a vásárolt mosószer típusa függ-e az életkortól. A mososzer.sav fileban 300 megkérdezett háziasszony életkora és a vásárolt mosószer típusa található. A használt kódolás: a nulla jelenti a régi típusú, az egy pedig az új fajta mosószert. Igazolható-e, hogy a fiatalabb korosztály szívesebben próbál ki új termékéket, míg az idősebbek ragaszkodnak régi kedvenc márkájukhoz? Megoldás: Első lépésben vizsgáljuk meg a sokaságot néhány leíró statisztikai mutatóval. Az ANALYZE / DESCRIPTIVE STATISTICS / DESCRIPTIVES útvonalon elérhető párbeszéddobozban a kor (életkor) változót helyezzük el a VARIABLE(S) részhez. Válaszul az OK gomb lenyomása után az alábbi táblázatot kapjuk: Descriptive Statistics N Minimum Maximum Mean Std. Deviation életkor 300 6.00 55.00 41.4033 8.61014 Valid N (listwise) 300 Látható, hogy a 300 megkérdezettből a legfiatalabb vásárló 5 éves, a legidősebb 55 éves volt. A kezelhetőség érdekében érdemes életkor helyett életkor kategóriákkal dolgozni. Az életkorok kategóriákba osztását több módon is elvégezhetjük. A TRANSFORM / RECODE / INTO DIFFERENT VARIABLES menüben a kor változót kell a NUMERIC VARIABLE > OUTPUT VARIABLES részbe áttenni. Ezután kitölthetők az OUTPUT VARIABLE mező NAME és LABEL cellái. A CHANGE gomb megnyomásával definiálhatjuk az új változónkat, ahová az életkorok kategóriái kerülnek majd. Ezután áttérhetünk az érdemi részre az OLD AND NEW VALUES gomb megnyomásával. 11

A párbeszédablak bal oldalán állíthatjuk be a régi értékeket. A rádiógombok közül az első (VALUE) segítségével egy-egy értékhez tudunk újat rendelni. A következő kettő (SYSTEM MISSING és a SYSTEM OR USER MISSING) a hiányzó adatok kezelésére szolgál. A RANGE résznél beállítható az alsó és a felső intervallum is, amibe eső értékek helyett szeretnénk valami mást használni. A LOWEST THROUGH jelentése: a legalacsonyabbtól, A THROUGH HIGHEST pedig a legmagasabb értékig. Az ALL OTHER VALUES bejelölésével az összes maradék számhoz rendelhetünk más számokat. 1

A kategóriák meghatározásához nehéz biztosan használható receptet adni. A kategóriák számát és terjedelmét elsősorban szakmai megfontolás befolyásolja, de mindenképpen úgy célszerű elrendezni az adatainkat, hogy lehetőleg ne legyenek nagyon eltérő terjedelműek, és a kategóriák száma ne legyen se túl sok, se túl kevés. Készítsünk először négy kategóriát. A legfiatalabb és a legidősebb vásárló életkora között 30 év van, ezt osztjuk négy részre. Legyenek a korosztályok a következők: 5 3; 33 40; 41 48; 49 55. Ezekhez a korcsoportokhoz rendeljük hozzá az 1,, 3 és 4 számokat. A hozzárendelés menete: először a bal oldali részben feltüntetjük az életkor intervallumot, majd a jobb oldalon a NEW VALUE részbe beírjuk a megfelelő számot, majd az ADD gombbal rögzíthetjük. Ezt követően a következő intervallum beállítása jön a bal oldalon, majd ismét a hozzárendelt érték és a rögzítés következik. Az összes intervallum rögzítése után a CONTINUE gombbal juthatunk vissza az előző ablakra, és ott az OK gomb megnyomása után elkészül az új változónk. Ezek alapján elvégezhetjük a sokaság függetlenség vizsgálatát χ teszt segítségével. A kontingencia táblázatot az ANALYZE / DESCRIPTIVE STATISTICS / CROSSTABS menüpontja alapján készítjük el. A ROW(S) sorokat, a COLUMN(S) oszlopokat jelent, és ide helyezzük el a két vizsgálandó változónkat. A korkat (életkor kategóriák) került a sorokhoz és mosopor (mosópor típusa), de e két változót fel is cserélhettük volna, ugyanis a számításokban nem, csak a táblázat elrendezésében jelent különbséget. 13

A párbeszédablakon belül a STATISTICS gomb lenyomásával a kapott menüben kérhetjük a χ teszt elvégzését (CHI-SQUARE). Az output ablakban az alábbi eredményeket találjuk. A kontingencia táblázatban (crosstabulation) látható, hogy melyik korcsoportban hányan vásároltak az egyik vagy a másik mosóporból. életkor kategóriák * mosópor típusa Crosstabulation Count mosópor típusa Total régi új életkor kategóriák 5-3 11 48 59 33-40 37 40 77 41-48 47 41 88 49-55 41 35 76 Total 136 164 300 14

A χ teszt eredménye is olvasható (Chi-Square Tests). A számolt χ érték 1,779, a szabadság fok 3, és a próba szignifikáns eredményt hozott, jelentős a különbség a korosztályok vásárlási szokásai között. Chi-Square Tests Value df Asymp. Sig. (-sided) Pearson Chi-Square 1.779 3.000 Likelihood Ratio 3.414 3.000 Linear-by-Linear Association 15.04 1.000 N of Valid Cases 300 a 0 cells (.0%) have expected count less than 5. The minimum expected count is 6.75. (Gyakorlásképpen elvégezheti ismét a számításokat három korcsoportot alkalmazva. Hasonlítsa össze az eredményeket!) Megjegyzés: Az ANALYZE / DESCRIPTIVE STATISTICS / CROSSTABS menüben a CELLS gombra kattintva a kontingencia táblázatban szereplő értékek százalékos arányát is kérhetjük. A PERCENTAGES / COLUMN kapcsoló segítségével egy olyan táblázathoz juthatunk, ahol a régi mosóport vásárlókat, az új mosóport vásárlókat és az összes vásárlót külön-külön 100%-nak véve ezen belül a korosztályok szerinti megoszlást láthatjuk. életkor kategóriák * mosópor típusa Crosstabulation mosópor típusa Total régi új életkor kategóriák 5-3 Count 11 48 59 % within mosópor típusa 8.1% 9.3% 19.7% 33-40 Count 37 40 77 % within mosópor típusa 7.% 4.4% 5.7% 41-48 Count 47 41 88 % within mosópor típusa 34.6% 5.0% 9.3% 49-55 Count 41 35 76 % within mosópor típusa 30.1% 1.3% 5.3% Total Count 136 164 300 % within mosópor típusa 100.0% 100.0% 100.0% A százalékos megoszlást sorok szerint is számíttathatjuk, csak akkor a PERCENTAGES / COLUMN kapcsoló helyett a PERCENTAGES / ROW kapcsolót kell beállítani. 15

. Egy kérdőíves felmérés során 16 személy fizetési, életkori adatait valamint nemét jegyezték fel 003-ban 1. A fizetéseket és az életkort kategóriákba osztották. A fizetés esetében a következő négy kategóriát különböztették meg: havi bruttó jövedelem 50 000 Ft alatt, 50 000 forinttól 110 000 forintig, 111 000 forinttól 160 000 forintig, illetve 160 000 Ft felett. Az életkoroknál 18 évtől 5 éves korig, 6 évtől 35 éves korig, 36 évtől 50 éves korig, végül 50 éves kor felett lettek kialakítva a csoportok. Az adatok a fizetés.sav fileban találhatók. Vizsgálja meg, hogy van-e statisztikailag bizonyítható különbség a férfiak és a nők fizetése között, illetve azt, hogy eltérőek-e a jövedelmek az egyes életszakaszokban? A kérdőív megfogalmazásánál nem konkrét összegeket kértek, hanem csak kategória megjelölést. Ha mindenki a pontos havi bruttó jövedelmét írta volna be, akkor kétmintás t-próbát lehetne alkalmazni. Esetünkben azonban a változónk ordinális skálán mért, itt tehát Mann-Whitney próbát alkalmazhatunk. A próbát az ANALYZE / NONPARAMETRIC TESTS / INDEPENDENT SAMPLES menüben találhatjuk. A TEST VARIABLE LIST részhez kerüljön a bér változó, a GROUPING VARIABLE cellához pedig a nem változó. Itt a DEFINE GROUPS gomb megnyomásával be kell állítani az egyes nemeknek megfelelő kódokat, most a férfiakat 1, a nőket jelöli. Az OK gomb lenyomása után az output ablakban az alábbi két táblázatot találjuk. Ranks férfi 1, nő N Mean Rank Sum of Ranks 50,50-110,111-160,160 1 1 116.39 14199.00 94 98.7 937.00 Total 16 Test Statistics a Grouping Variable: férfi 1, nő 50,50-110,111-160,160 Mann-Whitney U 477.000 Wilcoxon W 937.000 Z -.07 Asymp. Sig. (-tailed).07 1 Forrás: Szakál Zoltán 16

A felső táblázatból leolvashatjuk, hogy a rangtranszformáció után a rangok átlaga (Mean Rank) 116,39 a férfiaknál és 98,7 a nőknél. Ez azt jelenti, hogy a vizsgálatban szereplő személyek között a férfiak magasabb bérkategóriába estek. A második táblázat Asymp. Sig. sorában a 0,07 arról tájékoztat bennünket, hogy a nullhipotézist elvethetjük, a fizetésbeni különbségek statisztikailag bizonyíthatók. A második kérdésnél már nemcsak két mintánk van, hanem négy, a négy életkor kategóriának megfelelően. Ehhez a Kruskal Wallis próba használható. A próbát az ANALYZE / NONPARAMETRIC TESTS / K INDEPENDENT SAMPLES menüben találhatjuk. A párbeszédablakban be kell állítani a TEST TYPE résznél A KRUSKAL WALLIS kapcsolót, a TEST VARIABLE LIST részhez áthelyezni a bér változót, valamint a Grouping Variable esetén a Define Range gomb megnyomásával a korosztályokat meghatározni. Ez utóbbinál a legkisebb és a legnagyobb értéket kell beírni a minimum és a maximum cellákba. A beállítások elvégzése után az OK gomb megnyomásával megkapjuk az eredmény táblázatokat. Ranks 18-5;6-35;36-50;50 felett N Mean Rank 50,50-110,111-160,160 1 54 8.98 64 10.84 3 6 1.4 4 36 100.86 Total 16 A rangok átlagánál (Mean Rank) megfigyelhető, hogy a legmagasabb fizetéseket a hármassal jelölt korosztálynál, vagyis a 36 évestől 50 éves korig találjuk, a legalacsonyabbak a kezdő fizetések a 18 évtől 5 éves korig. Ezek az adatok nem mondanak ellent a mindennapi életben megszokottnak, tekintve a mai nagyobb cégek viszonylag fiatal, magas beosztásban levő alkalmazottjainak fizetését. Test Statistics 17

a Kruskal Wallis Test b Grouping Variable: 18-5;6-35;36-50;50 felett 50,50-110,111-160,160 Chi-Square 16.501 df 3 Asymp. Sig..001 A második táblázatban a 0,001 es P érték alapján megállapíthatjuk, hogy ezek a különbségek szignifikánsak, nem a véletlen mintavételi hibáknak köszönhető. Irodalomjegyzék: Anonym: xenia.sote.hu/hu/biosci/docs/biometr/course/ (1999) Baráth Cs. Ittzés A. Ugrósdy Gy.: Biometria. Mezőgazda Kiadó 1996 Kiss A. Manczel J. Pintér L. Varga K.: Statisztikai módszerek alkalmazása a mezőgazdaságban. Mezőgazdasági Kiadó 1983 Kovács István: Statisztika. Szent István Egyetem Gazdálkodási és Mezőgazdasági Főiskolai Kar jegyzete. Gyöngyös 000 Korpás Attiláné dr. szerkesztette, Kriszt Varga Kenyeres: Általános statisztika II. Nemzeti Tankönyvkiadó 1997. Fodor János: Biomatematika http://www.univet.hu/users/jfodor/index_h.html Meszéna György Ziermann Margit: Valószínűségelmélet és matematikai statisztika Közgazdasági és Jogi Könyvkiadó 1981 Murray R. Spiegel: Statisztika. Elmélet és gyakorlat. Panem McGraw Hill 1995 Szűcs István: Alkalmazott statisztika. Agroinform Kiadó 00 Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal. Pólya Kiadó, 000. Vincze István Verbanova Mária: Nemparaméteres matematikai statisztika. Elmélet és alkalmazások. Akadémiai Kiadó 1993. 18