ADATREDUKCIÓ I. Középértékek
Adatredukcó 1. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz x mn középérték x max b) Helyzet középérték: tpkus értékek legyenek (gyakran forduljonak elő). c) Legyenek könnyen meghatározhatók. d) Legyenek egyértelműen defnálva.
Középértékek Számított középértékek Helyzet középértékek Artmetka Harmonkus Módusz Medán átlag: X átlag: Xh Mo Me Geometra átlag: Xg Kvadratkus átlag: Xq
Számított középértékek Matematka összefüggés alapján számíthatók k: Számtan (Artmetka) átlag Egyszerű Súlyozott Harmonkus átlag Egyszerű Súlyozott Mértan (Geometra) átlag Egyszerű Súlyozott Négyzetes (Kvadratkus) átlag Egyszerű Súlyozott n n n f f x a n x a x x 1 1 _ 1 _ n n n x f f h x n h x x 1 1 _ 1 _ 1 n f f n n n x g x g x x 1 1 _ 1 _ n n n f f x q n x q x x 1 1 2 _ 1 2 _
Artmetka átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok összege nem változk:
Mértan átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok szorzata nem változk:
Harmonkus átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok recprokanak összege nem változk:
Kvadratkus átlag Az a szám, amelynek négyzetével helyettesítve az átlagolandó értékek négyzetet, azok összege nem változk:
Adatokat nagyságszernt rendezzük. Helyzet mutatók Meghatározzuk a küszöb értéket és felosztjuk a tartományt a kívánt részre. Kvantlsek: az összes előforduló érték j/k (j=1,2,,k-1) része ksebb és 1-j/k része nagyobb. Pl. k=2: Medán (Me) k=3: tercls k=4: Qvartls (Q1, Q2=Me, Q3) k=5: kvntls k=10: decls k=100: percentls
Outler
Robusztus becslések (Truncated means)
Egyéb átlagok Interquartle mean (IQM) vagy mdmean: Nem érzékeny az outler értékekre:
Vegyük a következő példát: 5, 8, 4, 38, 8, 6, 9, 7, 7, 3, 1, 6 Rendezzük az adatokat: 1, 3, 4, 5, 6, 6, 7, 7, 8, 8, 9, 38 Vegyük a quartls határokat: elhagyjuk az alsó felső 3-3 számot: 1, 3, 4, 5, 6, 6, 7, 7, 8, 8, 9, 38 Határozzuk meg az így kapott számok átlagát: x IQM = (5 + 6 + 6 + 7 + 7 + 8) / 6 = 6.5 Határozzuk meg az eredet vagys a teljes adatok átlagát: (5 + 8 + 4 + 38 + 8 + 6 + 9 + 7 + 7 + 3 + 1 + 6) / 12 = 8.5 Látható az outler erős befolyásoló hatása (outler=38).
Szmmetrkus eloszlás esetén IQM egyenlő az átlaggal: Legyen: 1, 2, 3, 4, 5 értékek Átlag=x mean = 3 Mvel szmmetrkus az eloszlás: x IQM = 3 szntén.
Ha az ntervallum nem osztható 4-el Megoldás: súlyozott átlaga a Q1 és Q3- adatállománynak Legyen: 1, 3, 5, 7, 9, 11, 13, 15, 17 9/4 = 2.25 adat mndegyk negyedben, és 4.5 adat az nterquartls range-ben. Csonkítsuk a tört quartls méretet, és távolítsuk el az így kapott adatszámot az 1. és 4. quartlsből (2.25 adat van mndegyk quartlsben, így a legalacsonyabb 2 és legmagasabb 2 adat lesz eltávolítva).
Ha az ntervallum nem osztható 4-el (folyt.) 1, 3, (5), 7, 9, 11, (13), 15, 17 Van 3 teljes adatunk és 2 tört adatunk az nterquartls range-ben. Mvel 4.5 megfgyelésünk van az nterquartls range-ben, a súlyok: 3 1 + 2 0.75 = 4.5 megfgyelés. x IQM = {(7 + 9 + 11) + 0.75 (5 + 13)} / 4.5 = 9 Átlag: x mean = 9. IQM esetén a súlyszámok: 0, 0.25, 0.50, 0.75.
Trmean vagy Tukey's trmean Kombnálja a medán és a mdhnge előnyet tekntettel az extrém értékekre:
Összefoglalás - Középértékek Az egyes adatfajtáknál mlyen középértékeket alkalmazunk? Átlag Medán Kvanttatív Ordnáls Módusz Nomnáls
ADATREDUKCIÓ II. Szóródás és mérése
A szóródás terjedelme A terjedelem az előforduló elemek között a legnagyobb és legksebb érték különbsége. (T=)R=x max -x mn Interkvartls range: IQR=Q 3 -Q 1 A mutatószámok kfejezk, hogy mekkora értékközben ngadoznak az smérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodk.
Boxplot és nterquartls range (N(0,σ 2 ) populácó)
Box-and-whsker plot négy + nagyon távol extrém értékkel: defnálva Q3 + 1.5(IQR) and Q3 + 3(IQR) alapján
Mdhnge range: IQR=(Q 3 -Q 1 )/2 John Tukey: mdhnge-t egyszerűbb számítan. Md-range vagy md-extreme:
Mérőszámok Terjedelem : T=R= Interkvartls félterjedelem:iqr= Átlagos abszolút eltérés Szórás Szórásnégyzet (Varanca) Relatív szórás (Varácós koeffcens) 3 Q 1 Q n n n f f d x d n d x 1 1 _ 1 max x mn x n n n f f d x d n d x 1 1 2 _ 1 2 *100 _ x V
Átlag szórása (Standard error, SEM) A mntaválasztás jóságát mutatja: a 0 közel érték a jó érték, mert ekkor helyes a mntaválasztás (dmenzós érték!): sx s N
Relatív szórás (varácós együttható, V) Az adatok szórását osztjuk az átlaggal, majd szorozzuk 100%-al Kcs: a szórás, ha V<15%, Közepes: ha 15%<V<25%, Nagy: ha 25%<V<35%, Extrém (szélsőséges): ha V>35%
L-estmator vagy L-statstc Egyszerű, nterpretálható, gyakran a robusztus statsztkákban alkalmazzuk. Az extrém értékeknek ellenáll.
Egyszerű L-estmators vzualzácója box plot dgrammal: range, mdrange, nterquartle range, mdhnge, trmean
Hányzó értékek kezelése (Mssng values)
Hányzóérték 1, 2, 3, 4, 5, 6 1,2,3,4,5,6 1,0,3,4,5,0 3.5 6 21 6 6 5 4 3 2 1 x 3.25 4 13 4 5 4 3 1 x 2.2 6 13 6 0 5 4 3 0 1 x
Hányzó érték: nem regsztrált adat. Hatása: erőteljesen befolyásolhatják az elemzés eredményet. - Ha nem vesszük fgyelembe a hányzó adatokat vagy feltételezzük, hogy a hányzó értékek kzárása elegendő, akkor érvénytelen és megbízhatatlan eredményeket kaphatunk. - Az adatelőkészítés fázsban kell gondoskodn arról, hogy az adatelemzés során olyan adatokat használjunk, amelyek fgyelembe veszk a hányzó értékeket. Többváltozós módszereknél esetszám kesést jelent.
Hányzó értékek jelölése 0 kód esetén a teendő kód használata: -99999 Szoftver felé való közlés Hányzó értékek kezelése: - üresen hagyjuk, - átlagot tesszük be: a helyettesítés rombolja a változók eloszlásfüggvényét, konfdenca-ntervallumát, megnövel az eloszlások csúcsosságát, a változók között lneárs kapcsolatokat s megváltoztatja, a korrelácós együttható közelebb kerül a 0-hoz.
Az egyszerű regresszós eljárásban két vagy több változó között predkcós modell alapján egészítünk k egy hányzó adatot. Ez az eljárás az ellenkező rányba torzítja a változók között korrelácót: növel annak értékét.
Az 1980-as évektől kezdődően elterjedtek a maxmum lkelhood alapú EM (Expectaton-Maxmzaton) algortmuson alapuló helyettesítés technkák. Majd az 1990-es évektől az ún. multple mputaton (MI) Bayes- alapú procedúrák. Mvel a kegészített adatokkal végzett statsztka analízsek révén megbízható és eredményes következtetéseket kell levonnunk a populácóra, lletve az adott mntára nézve, meg kell őrznünk a megfgyelt változók eloszlását és asszocácót.
A hányzó adatank becslésénél ksmértékű hbára számítunk, mközben kezeln kívánjuk az adatok bzonytalanságát. A hányzó adatokra vonatkozó becslésekkel kegészített változók konfdenca ntervalluma 95%-ban kell, hogy fedje a valós értékeket. Ha a lefedettség pontos, akkor az I. fajú hba előfordulás valószínűsége s helyes: 5%. Emellett a konfdenca ntervallumokat kellően szűknek várjuk, mert ezzel a II. fajú hbák lehetősége csökkennek.
Az MCAR (mssng completely at random) esetében a hányok valószínűsége egyáltalán nem függ össze az adatankkal, lyenkor a nemválaszolók olyanok, mnt egy random alcsoport. Rtka esetben gaz. A MAR (mssng at random) modelleknél a hányok valószínűsége csak a megfgyelt egyéb adatoktól függ, de nem a helyettesítendő hányzótól. Ez a standard feltételezés. Kevésbé megoldható probléma az MNAR (mssng not at random) helyzet, amkor a hányzó adat előfordulása pont a hányzó adat mnőségével vagy jelentésével függ össze. A maxmum-lkelhood módszerek elvárása a MAR helyzet, míg a multple mputaton technkák többnyre már az MNAR problémákat s jól kezelk.
MI (multple mputaton) Az MI célja, hogy a helyettesítésekkel együtt megtartsuk a változók eloszlását és a változók között asszocácókat. Szmulácón és legtöbbször Bayes- alapokon álló technka, ahol a megfgyelt adatokból m>1 verzóban modelleznek lehetséges adatokat a hányzók helyére, majd a végén egy algortmus szernt kombnálják az eredményeket (a becsléseket és a szórásokat).
MI Általános szabályként olyan változók esetében használhatjuk az mputálást, ahol változónként maxmum az adatok 30 40%-a hányzk, de a teljes adatbázsban nncs több hányzó, mnt a teljes mátrx 10 15%-a. Ezek az arányok a szakrodalom szernt egyáltalán nem adnak okot aggodalomra a helyettesítés metódusát lletően.
Az SPSS Mssng Values moduljában hat dagnosztka rport bármelykével több különböző szempontból vzsgálhatjuk adatankat és rátalálhatunk a hányzó adat mntákra. Ezután értékelhetjük a kapott statsztkákat és megbecsülhetjük a hányzó értékeket regresszós vagy az elvárt eredményt maxmalzáló (Expectaton Maxmalzaton, EM) algortmusok révén. Az SPSS Mssng Values segítségével: Megállapíthatjuk a hányzó értékekből adódó probléma súlyosságát. A hányzó értékeket helyettesíthetjük becslésekkel, például regresszó vagy EM algortmus segítségével.
Legtöbb esetben MCMC (Markov chan Monte Carlo) modellt fog alkalmazn a program, ahol az egyes változók értékenél a több modellváltozó predkcót fogja felhasználn bzonyos terácós szám mellett. Összefoglalás: azokban a kutatásokban, amelyekben korrelácóalapú számításokat végeznek a kutatók, bztonsággal alkalmazható az adat-mputálás. Kutatásokban azonban törekedn kell a mnél teljesebb adatbázs létrehozására, eredményenket ekkor fogadhatjuk el mnden fajta szkepszs nélkül.
Aszmmetra mérőszáma
Az aszmmetra mérőszáma Az eloszlások következő típusaval foglalkozunk: -egymóduszú eloszlás szmmetrkus, aszmmetrkus (vagy ferde); -többmóduszú eloszlás.
Az eloszlás alakjának jellemzése Ferdeség (skewness, normáls eloszlás=0 körül érték) Csúcsosság (kurtoss, normáls eloszlás=0 körül érték)
Ferdeség mérése Ferdeség =FERDESÉG() SKEW() A ferdeség az eloszlás középérték körül aszmmetrájának mértékét jelz. A poztív ferdeség a poztív értékek rányába nyúló aszmmetrkus eloszlást jelez, míg a negatív ferdeség a negatív értékek rányában torzított. =CSÚCSOSSÁG() KURT() Egy adathalmaz csúcsosságát számítja k. A függvény a normáls eloszláshoz vszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A poztív értékek vszonylag csúcsos, a negatív értékek vszonylag lapos eloszlást jelentenek. n x ( n 1)( n 2) s _ x 2 3( n 1) Csúcsosság ( n 1)( n 2) 3
POSITIVELY SKEWED
NEGATIVELY SKEWED
BI-MODAL
35 50 30 25 20 15 10 40 30 20 10 5 0-5 1 3 5 7 9 11 13 15 17 19 0-10 1 3 5 7 9 11 13 15 17 19 Asszmmetra mérése 30 25 20 15 10 30 25 20 15 10 5 5 0 1 3 5 7 9 11 13 15 17 19 0-5 1 3 5 7 9 11 13 15 17 19
Az aszmmetra mérőszáma Többmóduszú gyakorság sorok általában heterogén sokaságokból származtathatók. A fősokaságot a heterogentást elődéző smérv szernt csoportosítva egy egymóduszú gyakorság sorokhoz jutunk, ezért ezeket összetett gyakorság soroknak s nevezzük. Az egymóduszú gyakorság sorok polgonjának egy hely maxmuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szmmetrkus és aszmmetrkus lehet.
Asszmetra mérőszáma Az aszmmetra leggyakrabban használt mérőszáma a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kndulva mér az aszmmetra mértékét és rányát.
Pearson-féle mutatószáma Az aszmmetra Pearson-féle mutatószáma (jele: A) a számtan átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrend vszonyán alapul. A mérőszám (önmagában a számláló) előjele az aszmmetra rányát mutatja. Bal oldal, jobbra elnyúló aszmmetra esetén A 0, jobb oldal, balra elnyúló aszmmetra esetén A 0. Szmmetrkus eloszlás esetén A = 0. A mérőszám abszolút értékének nncs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban rtkán fordul elő és meglehetősen erős aszmmetrára utal. A x Mo
F mutató Az aszmmetra másk mérőszáma, az F mutató (jele: F) az alsó és felső kvartls medántól való eltérésének egymáshoz vszonyított nagyságán alapul. Bal oldal, jobbra elnyúló aszmmetra esetén a medán az alsó (Q 1 ), míg jobb oldal aszmmetra esetén a felső (Q 3 ) kvartlshez esk közelebb. E mutatószám ugyanolyan feltételek mellett ad nulla, poztív és negatív eredményt, mnt az A mutató. Az F mutató lényegesen ksebb értékkel jelz a már nagyfokúnak teknthető aszmmetrát, mnt az A. ( Q3 Me) ( Me Q1) F ( Q Me) ( Me Q ) 3 1
Eloszlások Egymóduszú Több móduszú Szmmetrkus Asszmetrkus U alakú Mérsékelten asszmetrkus Erősen asszmetrkus M alakú Balra ferdült Jobbra ferdült J alakú Fordított J alakú
Konfdencantervallum (Confdence nterval)
A konfdencantervallum fogalma (Bzonyosság/megbízhatóság ntervallum) Olyan, a mntaelemekből számolt ntervallum, amely nagy valószínűséggel tartalmazza a populácó-paraméter valód (smeretlen) értékét. Valószínűség ntervallum, az nduktív statsztka eszköze. Ha mntából becsülünk, sohasem tudjuk a pontos értéket. Pl. 95%-os bzonyosság ntervallum az átlagra: olyan, a mntaelemekből számolt ntervallum, am 95% valószínűséggel tartalmazza a populácó valód átlagát. Leggyakrabban használt megbízhatóság sznt 95% (0.95).
Az átlagra vonatkozó 95%-os bzonyosság ntervallum szemléltetése az adott kísérlet képzeletbel smétlésevel Ha a kísérletet képzeletben 100-szor megsmételnénk, a 100 kapott 95%-os konfdenca ntervallum közül várhatóan 95 fogja tartalmazn a populácó átlagát, és 5 nem. http://www.kuleuven.ac.be/ucs/java/ndex.htm 56
Szgnfkanca vzsgálatok és a konfdencantervallum kapcsolata (H0: μ 1 = μ 2, azaz μ 1 - μ 2 =0, Ha: μ 1 μ 2 ) Szgnfkáns, p<0.05 Szgnfkáns. p<0.05 Nem szgnfkáns, p>0.05 0 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vzsgálunk, akkor a konfdencantervallumban az 1-et keressük, hogy az értéket tartalmazza-e.