ADATREDUKCIÓ I. Középértékek
Adatredukcó 1. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz mn középérték ma b) Helyzet középérték: tpkus értékek legyenek (gyakran forduljonak elő). c) Legyenek könnyen meghatározhatók. d) Legyenek egyértelműen defnálva. 3. A középérték az azonos fajta adatok tömegének számszerű jellemzője.
Középértékek Számított középértékek Helyzet középértékek Artmetka Harmonkus Módusz Medán átlag: X átlag: Xh Mo Me Geometra átlag: Xg Kvadratkus átlag: Xq
Számított középértékek Matematka összefüggés alapján számíthatók k: Számtan (Artmetka) átlag Egyszerű Súlyozott Harmonkus átlag Egyszerű Súlyozott Mértan (Geometra) átlag Egyszerű Súlyozott Négyzetes (Kvadratkus) átlag Egyszerű Súlyozott n n n f f a n a 1 1 _ 1 _ n n n f f h n h 1 1 _ 1 _ 1 n f f n n n g g 1 1 _ 1 _ n n n f f q n q 1 1 2 _ 1 2 _
Adatokat nagyságszernt rendezzük. Helyzet mutatók Meghatározzuk a küszöb értéket és felosztjuk a tartományt a kívánt részre. Kvantlsek: az összes előforduló érték j/k (j=1,2,,k-1) része ksebb és 1-j/k része nagyobb. Pl. k=2: Medán (Me) k=3: tercls k=4: Qvartls (Q1, Q2=Me, Q3) k=5: kvntls k=10: decls k=100: percentls
Outler
Egyéb átlagok Interquartle mean (IQM) vagy mdmean: Nem érzékeny az outler értékekre:
Trmean vagy Tukey's trmean Kombnálja a medán és a mdhnge előnyet tekntettel az etrém értékekre:
Az egyes adatfajtáknál mlyen középértékeket alkalmazzunk? Átlag Medán Kvanttatív Ordnáls Módusz Nomnáls
ADATREDUKCIÓ II. Szóródás és mérése
A szóródás mérése Szóródás: azonos fajta számszerű adatok különbözősége Mérése: az smérvértékek valamlyen középértéktől vett vagy egymás között különbsége alapján történk. Szóródás mutatók A szóródás terjedelme Átlagos abszolút eltérés Szórásnégyzet, szórás, relatív szórás (Átlagos különbség) Koncentrácó 11
A szóródás terjedelme A legnagyobb és legksebb smérvérték különbsége R vagy T = X ma X mn Interquartls terjedelem: IQT = Q 3 Q 1 A mutatószámok kfejezk, hogy mekkora értékközben ngadoznak az smérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodk. 12
13 A szórásnégyzet (varanca) és szórás Az egyes értékek számtan átlagtól vett eltérés-négyzetenek átlaga: N N f f s Var 1 1 2 2 ) ( ) ( N s N 1 2 ) ( Varanca vagy: szórásnégyzet Korrgálatlan szórás: 1 ) ( 1 2 N s N Korrgált szórás:
A szórás kszámítható a négyzetes és a számtan átlag négyzetenek különbségéből s: s 2 q 2 14
Relatív szórás s V % *100 Elvonatkoztat az smérv-értékek nagyságrendjétől és mértékegységétől. Azt mutatja meg, hogy a szórás hányad része (hány százaléka) az átlagnak. 15
Relatív szórás (varácós együttható, V) Az adatok szórását osztjuk az átlaggal, majd szorozzuk 100%-al Kcs: a szórás, ha V<15%, Közepes: ha 15%<V<25%, Nagy: ha 25%<V<35%, Etrém (szélsőséges): ha V>35%
Bo-and-whsker plot négy + nagyon távol etrém értékkel: defnálva Q3 + 1.5(IQR) and Q3 + 3(IQR) alapján
Átlag szórása (Standard error, SEM) A mntaválasztás jóságát mutatja: a 0 közel érték a jó érték, mert ekkor helyes a mntaválasztás (dmenzós érték!): s s N
A szórás tulajdonsága Ha mnden értékhez ugyanazt a konstans számot hozzáadjuk (+a), a szórás változatlan marad. Ha mnden értéket ugyanazzal a k konstans számmal megszorozzuk, (k), a szórás s k-szorosára változk. Az eltérésnégyzet-összeg az átlagtól való eltérésekkel számolva a legksebb A szórásnégyzet felírható a négyzetes átlag és a számtan átlag négyzetének a különbségeként. A sokaságot jellemző teljes szórásnégyzet (varanca) megegyezk a rész-sokaságok külső és belső szórásnégyzetének összegével (ANOVA témakör): 2 2 2 B K 19
Hányzó értékek kezelése (Mssng values) Hányzó érték: nem regsztrált adat. Hatása: erőteljesen befolyásolhatják az elemzés eredményet. Többváltozós módszereknél esetszám kesés.
Hányzó értékek jelölése 0 kód esetén a teendő kód használata: -99999 Szoftver felé való közlés Hányzó értékek kezelése: - üresen hagyjuk, - átlagot tesszük be: a helyettesítés rombolja a változók eloszlásfüggvényét, konfdenca-ntervallumát, megnövel az eloszlások csúcsosságát, a változók között lneárs kapcsolatokat s megváltoztatja, a korrelácós együttható közelebb kerül a 0-hoz.
MI (multple mputaton) Az MI célja, hogy a helyettesítésekkel együtt megtartsuk a változók eloszlását és a változók között asszocácókat. Szmulácón és legtöbbször Bayes- alapokon álló technka, ahol a megfgyelt adatokból m>1 verzóban modelleznek lehetséges adatokat a hányzók helyére, majd a végén egy algortmus szernt kombnálják az eredményeket (a becsléseket és a szórásokat).
MI Általános szabályként olyan változók esetében használhatjuk az mputálást, ahol változónként mamum az adatok 30 40%-a hányzk, de a teljes adatbázsban nncs több hányzó, mnt a teljes mátr 10 15%-a. Ezek az arányok a szakrodalom szernt egyáltalán nem adnak okot aggodalomra a helyettesítés metódusát lletően.
Aszmmetra mérőszáma
Ferdeség mérése Ferdeség =FERDESÉG() SKEW() A ferdeség az eloszlás középérték körül aszmmetrájának mértékét jelz. A poztív ferdeség a poztív értékek rányába nyúló aszmmetrkus eloszlást jelez, míg a negatív ferdeség a negatív értékek rányában torzított. =CSÚCSOSSÁG() KURT() Egy adathalmaz csúcsosságát számítja k. A függvény a normáls eloszláshoz vszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A poztív értékek vszonylag csúcsos, a negatív értékek vszonylag lapos eloszlást jelentenek. n ( n 1)( n 2) s _ 2 3( n 1) Csúcsosság ( n 1)( n 2) 3
Aszmmetra Az aszmmetra Pearson-féle A-mutatószáma: Mo A Az aszmmetra F-mutatószáma Szmmetrkus eloszlás esetén: A = 0 Jobb oldal aszmmetra esetén: A > 0 Bal oldal aszmmetra esetén: A < 0 F Q 3 Me Me Q1 Q Me Me Q 3 1 Szmmetrkus eloszlás esetén: F = 0 Jobb oldal aszmmetra esetén: F > 0 Bal oldal aszmmetra esetén: F < 0 26
Konfdencantervallum (Confdence nterval)
Határozzuk meg körül azt az ntervallumot ambe előre meghatározott valószínűséggel esk a várható érték (μ). A várható értéket (μ) pontosan nem tudjuk, de körül van: nagy (1-α) valószínűséggel a fent ntervallumban, és kcs (α) valószínűséggel esk ezen kívülre. Ezt az ntervallumot a várható érték becslésére szolgáló 100 (1- α)% konfdenca ntervallumnak nevezzük. Leggyakrabban 90 v. 95%-os megbízhatóság szntet választunk (vagys α = 0,1 ll. 0,05).
t-eloszlás
N=96, df=95, =0,05 95%-os CI Mean 5,742 Standard Error 0,149 t krtkus 1,984 K=t krtkus *SE 0,297 L l=átlag - K 5,445 L l=átlag + K 6,038
CI ntervallumok ábrázolása 5,494 90%-os 5,99 5,388 5,445 95%-os 98%-os 6,038 6,095
Szgnfkanca vzsgálatok és a konfdencantervallum kapcsolata (H 0 : μ 1 = μ 2 H 1 : μ 1 μ 2 ) p-érték szgnfkanca 95% CI p<0.05 szgn. 5%-os sznten pl. (4.5, 10.7) 0 nncs benne a konf. ntervallumban p 0.05 nem szgn. 5%-os sz. pl. (-1.72, 5.81) 0 benne van a konf. ntervallumban Szgnfkáns, p<0.05 Szgnfkáns. p<0.05 Nem szgnfkáns, p>0.05 0 Megjegyzés: ha relatív kockázatot (RR) vagy esélyhányados (OR) vzsgálunk, akkor a konfdencantervallumban az 1-et keressük, hogy az értéket tartalmazza-e. Bostatsztka alapsmeretek Boda Krsztna Leíró statsztka A véletlen ngadozás Konfdencantervallum Egyváltozós módszerek
Statsztka függvények Ecelben
Átlagra függvények az Ecelben Számtan átlag: =ÁTLAG( ) =AVERAGE() Mértan átlag: =MÉRTANI.KÖZÉP =GEOMEAN() Harmonkus átlag: =HARM.KÖZÉP() =HARMEAN() Kvadratkus átlag: =SQRT(SUMSQ(A1:A10)/COUNTA(A1:A10))
Szórásfüggvények az Ecelben =ÁTL.ELTÉRÉS átlagos abszolút eltérés =AVEDEV() =SZÓRÁSP() =STDEV()- szórás =VAR() varanca (szórásnégyzet)
Számláló - keresőfüggvények függvények =DARAB () =COUNT() a megadott tartomány számmal ktöltött cellának a számát adja =DARAB2() =COUNTA() a megadott tartomány értékkel ktöltött cellának (nem üres) a számát adja =DARABTELI () =COUNTIF () a megadott tartományban megszámolja, hogy hány darab cella felel meg a megadott krtérumnak =DARABÜRES () =COUNTBLANK () A megadott tartományban megszámolja hány db cella üres
Ecel függvénye =MEDIÁN() =MEDIAN() : medán =MODE() : leggyakorbb érték =KVARTILIS() =QUARTILE() =PERCENTILIS() = PERCENTILE(): k-dk percentls =SZÁZALÉKRANG() =PERCENTRANK(): egy értéknek egy adathalmazon vett százalékos rangját adja =MAX =MIN =KICSI() =SMALL(): egy adathalmaz k-dk legksebb elemét adja értékül! =NAGY() =LARGE(): egy adathalmaz k-dk legnagyobb elemét adja értékül! =SORSZÁM() = RANK(): egy szám sorszámát adja, meg ha az adatokat sorba rendezzük
Krtkus-értéket számoló függvények Student's t-dstrbuton a) the two-taled value: =T.INV.2T(0.05,10) = 2.2281 b) the left-taled value: =T.INV(0.025,10) = -2.2281 Normal dstrbuton =NORM.S.INV(1-(0,05/2)) = 1,9600