Bevezetés a bometrába Dr. Dnya Elek egyetem tanár PhD kurzus. KOKI, 205.0.08.
ADATREDUKCIÓ I. Középértékek
Adatredukcó. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz mn középérték ma b) Helyzet középérték: tpkus értékek legyenek (gyakran forduljonak elő). c) Legyenek könnyen meghatározhatók. d) Legyenek egyértelműen defnálva.
Középértékek Számított középértékek Helyzet középértékek Artmetka Harmonkus Módusz Medán átlag: X átlag: Xh Mo Me Geometra átlag: Xg Kvadratkus átlag: Xq
Számított középértékek Matematka összefüggés alapján számíthatók k: Számtan (Artmetka) átlag Egyszerű Súlyozott Harmonkus átlag Egyszerű Súlyozott Mértan (Geometra) átlag Egyszerű Súlyozott Négyzetes (Kvadratkus) átlag Egyszerű Súlyozott n n n f f a n a n n n f f h n h n f f n n n g g n n n f f q n q 2 _ 2 _
Artmetka átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok összege nem változk:
Mértan átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok szorzata nem változk:
Harmonkus átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok recprokanak összege nem változk:
Kvadratkus átlag Az a szám, amelynek négyzetével helyettesítve az átlagolandó értékek négyzetet, azok összege nem változk:
Outler
Adatokat nagyságszernt rendezzük. Helyzet mutatók Meghatározzuk a küszöb értéket és felosztjuk a tartományt a kívánt részre. Kvantlsek: az összes előforduló érték j/k (j=,2,,k-) része ksebb és -j/k része nagyobb. Pl. k=2: Medán (Me) k=3: tercls k=4: Qvartls (Q, Q2=Me, Q3) k=5: kvntls k=0: decls k=00: percentls
Egyéb átlagok Interquartle mean (IQM) vagy mdmean: Nem érzékeny az outler értékekre:
Trmean vagy Tukey's trmean Kombnálja a medán és a mdhnge előnyet tekntettel az etrém értékekre:
Összefoglalás - Középértékek Az egyes adatfajtáknál mlyen középértékeket alkalmazunk? Átlag Medán Kvanttatív Ordnáls Módusz Nomnáls
ADATREDUKCIÓ II. Szóródás és mérése
A szóródás mérése Szóródás: azonos fajta számszerű adatok különbözősége Mérése: az smérvértékek valamlyen középértéktől vett vagy egymás között különbsége alapján történk. Szóródás mutatók A szóródás terjedelme Átlagos abszolút eltérés Szórásnégyzet, szórás, relatív szórás (Átlagos különbség) Koncentrácó 6
A szóródás terjedelme A legnagyobb és legksebb smérvérték különbsége R vagy T = X ma X mn Interquartls terjedelem: IQT = Q 3 Q A mutatószámok kfejezk, hogy mekkora értékközben ngadoznak az smérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodk. 7
8 Átlagos abszolút eltérés Az egyes smérvértékek számtan átlagtól vett vagy a medántól vett eltérésenek abszolút értékeből számított átlag k k f f k k f Me f d Az átl.absz.elt a medán esetén a legksebb!
9 A szórásnégyzet (varanca) és szórás Az egyes értékek számtan átlagtól vett eltérés-négyzetenek átlaga k k f f Var 2 2 ) ( ) ( k k f f 2 ) ( Varanca vagy: szórásnégyzet Szórás
Relatív szórás V % *00 Elvonatkoztat az smérv-értékek nagyságrendjétől és mértékegységétől. Azt mutatja meg, hogy a szórás hányad része (hány százaléka) az átlagnak. 20
Relatív szórás (varácós együttható, V) Az adatok szórását osztjuk az átlaggal, majd szorozzuk 00%-al Kcs: a szórás, ha V<5%, Közepes: ha 5%<V<25%, Nagy: ha 25%<V<35%, Etrém (szélsőséges): ha V>35%
Mdhnge range: IQR=(Q 3 -Q )/2 John Tukey: mdhnge-t egyszerűbb számítan. Md-range vagy md-etreme:
Átlag szórása (Standard error, SE) A mntaválasztás jóságát mutatja: a 0 közel érték a jó érték, mert ekkor helyes a mntaválasztás (dmenzós érték!): s s N Normáls eloszlás esetén az átlag ± 2SE-n belül van az gaz átlag kb. 95%-os valószínűséggel.
A szórás tulajdonsága Ha mnden értékhez ugyanazt a konstans számot hozzáadjuk (+a), a szórás változatlan marad. Ha mnden értéket ugyanazzal a k konstans számmal megszorozzuk, (k), a szórás s k-szorosára változk. Az eltérésnégyzet-összeg az átlagtól való eltérésekkel számolva a legksebb A szórásnégyzet felírható a négyzetes átlag és a számtan átlag négyzetének a különbségeként. A sokaságot jellemző teljes szórásnégyzet (varanca) megegyezk a rész-sokaságok külső és belső szórásnégyzetének összegével (ANOVA témakör): 2 2 2 B K 24
Aszmmetra mérőszáma
Az aszmmetra mérőszáma Az eloszlások következő típusaval foglalkozunk: -egymóduszú eloszlás szmmetrkus, aszmmetrkus (vagy ferde); -többmóduszú eloszlás.
Ferdeség mérése Ferdeség =FERDESÉG() SKEW() A ferdeség az eloszlás középérték körül aszmmetrájának mértékét jelz. A poztív ferdeség a poztív értékek rányába nyúló aszmmetrkus eloszlást jelez, míg a negatív ferdeség a negatív értékek rányában torzított. =CSÚCSOSSÁG() KURT() Egy adathalmaz csúcsosságát számítja k. A függvény a normáls eloszláshoz vszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A poztív értékek vszonylag csúcsos, a negatív értékek vszonylag lapos eloszlást jelentenek. n ( n )( n 2) s _ 2 3( n ) Csúcsosság ( n )( n 2) 3
35 50 30 25 20 5 0 40 30 20 0 5 0-5 3 5 7 9 3 5 7 9 0-0 3 5 7 9 3 5 7 9 Asszmmetra mérése 30 25 20 5 0 30 25 20 5 0 5 5 0 3 5 7 9 3 5 7 9 0-5 3 5 7 9 3 5 7 9
Az eloszlások típusa, aszmmetrája Típusok: Egymóduszú eloszlás szmmetrkus aszmmetrkus (ferde), bal- vagy jobboldal Többmóduszú eloszlás 29
Aszmmetra Az aszmmetra Pearson-féle A-mutatószáma: Mo A Az aszmmetra F-mutatószáma Szmmetrkus eloszlás esetén: A = 0 Jobb oldal aszmmetra esetén: A > 0 Bal oldal aszmmetra esetén: A < 0 F Q 3 Me Me Q Q Me Me Q 3 Szmmetrkus eloszlás esetén: F = 0 Jobb oldal aszmmetra esetén: F > 0 Bal oldal aszmmetra esetén: F < 0 30
Hányzó értékek kezelése (Mssng values)
Hányzóérték, 2, 3, 4, 5, 6,2,3,4,5,6,0,3,4,5,0 3.5 6 2 6 6 5 4 3 2 3.25 4 3 4 5 4 3 2.2 6 3 6 0 5 4 3 0
Hányzó érték: nem regsztrált adat. Hatása: erőteljesen befolyásolhatják az elemzés eredményet. - Ha nem vesszük fgyelembe a hányzó adatokat vagy feltételezzük, hogy a hányzó értékek kzárása elegendő, akkor érvénytelen és megbízhatatlan eredményeket kaphatunk. - Az adatelőkészítés fázsban kell gondoskodn arról, hogy az adatelemzés során olyan adatokat használjunk, amelyek fgyelembe veszk a hányzó értékeket. Többváltozós módszereknél esetszám kesés.
Hányzó értékek jelölése 0 kód esetén a teendő kód használata: -99999 Szoftver felé való közlés Hányzó értékek kezelése: - üresen hagyjuk, - átlagot tesszük be: a helyettesítés rombolja a változók eloszlásfüggvényét, konfdenca-ntervallumát, megnövel az eloszlások csúcsosságát, a változók között lneárs kapcsolatokat s megváltoztatja, a korrelácós együttható közelebb kerül a 0-hoz.
Az MCAR (mssng completely at random) esetében a hányok valószínűsége egyáltalán nem függ össze az adatankkal, lyenkor a nemválaszolók olyanok, mnt egy random alcsoport. Rtka esetben gaz. A MAR (mssng at random) modelleknél a hányok valószínűsége csak a megfgyelt egyéb adatoktól függ, de nem a helyettesítendő hányzótól. Ez a standard feltételezés. Kevésbé megoldható probléma az MNAR (mssng not at random) helyzet, amkor a hányzó adat előfordulása pont a hányzó adat mnőségével vagy jelentésével függ össze. A mamum-lkelhood módszerek elvárása a MAR helyzet, míg a multple mputaton technkák többnyre már az MNAR problémákat s jól kezelk.
MI (multple mputaton) Az MI célja, hogy a helyettesítésekkel együtt megtartsuk a változók eloszlását és a változók között asszocácókat. Szmulácón és legtöbbször Bayes- alapokon álló technka, ahol a megfgyelt adatokból m> verzóban modelleznek lehetséges adatokat a hányzók helyére, majd a végén egy algortmus szernt kombnálják az eredményeket (a becsléseket és a szórásokat).
MI Általános szabályként olyan változók esetében használhatjuk az mputálást, ahol változónként mamum az adatok 30 40%-a hányzk, de a teljes adatbázsban nncs több hányzó, mnt a teljes mátr 0 5%-a. Ezek az arányok a szakrodalom szernt egyáltalán nem adnak okot aggodalomra a helyettesítés metódusát lletően.
Legtöbb esetben MCMC (Markov chan Monte Carlo) modellt fog alkalmazn a program, ahol az egyes változók értékenél a több modellváltozó predkcót fogja felhasználn bzonyos terácós szám mellett. Összefoglalás: azokban a kutatásokban, amelyekben korrelácóalapú számításokat végeznek a kutatók, bztonsággal alkalmazható az adat-mputálás. Kutatásokban azonban törekedn kell a mnél teljesebb adatbázs létrehozására, eredményenket ekkor fogadhatjuk el mnden fajta szkepszs nélkül.
Konfdencantervallum (Confdence nterval)
A konfdencantervallum fogalma (Bzonyosság/megbízhatóság ntervallum) Olyan, a mntaelemekből számolt ntervallum, amely nagy valószínűséggel tartalmazza a populácó-paraméter valód (smeretlen) értékét. Valószínűség ntervallum, az nduktív statsztka eszköze. Ha mntából becsülünk, sohasem tudjuk a pontos értéket. Pl. 95%-os bzonyosság ntervallum az átlagra: olyan, a mntaelemekből számolt ntervallum, am 95% valószínűséggel tartalmazza a populácó valód átlagát. A megbízhatóság mértékét jelző valószínűség (megbízhatóság sznt) tőlünk függ. Szokásos értéke: 0.90, 0.95, 0.99 A becslés hbája (-val jelöljük) a megbízhatóság sznt függvényében -0.90=0., -0.95=0.05, -0.99=0.0 Leggyakrabban használt megbízhatóság sznt 95% (0.95), tehát -ra leggyakrabban =0.05 értéket alkalmazzuk. Bostatsztka alapsmeretek Boda Krsztna Leíró statsztka A véletlen ngadozás Konfdencantervallum Egyváltozós módszerek 40
Szgnfkanca vzsgálatok és a konfdencantervallum kapcsolata (H0: μ = μ 2, azaz μ - μ 2 =0, Ha: μ μ 2 ) p-érték szgnfkanca 95% CI (p p2)-re p<0.05 szgn. 5%-os sznten pl. (4.5, 0.7) 0 nncs benne a konf. ntervallumban p > 0.05 nem szgn. 5%-os sz. pl. (-.72, 5.8) 0 benne van a konf. ntervallumban Szgnfkáns, p<0.05 Szgnfkáns. p<0.05 Nem szgnfkáns, p>0.05 0 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vzsgálunk, akkor a konfdencantervallumban az -et keressük, hogy az értéket tartalmazza-e. Bostatsztka alapsmeretek Boda Krsztna Leíró statsztka A véletlen ngadozás Konfdencantervallum Egyváltozós módszerek
BECSLÉS A sokaság átlag becslése
A becslő-fg és a jó becslés krtéruma A becslő fg fogalma: A sokaság paraméter becslésére szolgáló, a mntaelemek értékétől függő függvény. pl. a mntaátlag egy becslőfg, mert értéke a mntaelemek értékétől függ, és ezzel becsüljük a sokaság átlagot. A jó becslés krtéruma Torzítatlanság Hatásosság Konzsztenca 43
Torzítatlan becslések A mntaátlag a sokaság átlag torzítatlan becslése X E() mntabel arány a sokaság aránynak torzítatlan becslése E( p) A mnta szórása a sokaság szórás torzított becslése. A mnta korrgált szórása már torzítatlan 2 ˆ s N P E(s) 44
A jó becslés krtéruma (folyt) Hatásosság: a becslőfüggvény szórása. Mnél ksebb a szórása, annál hatásosabb Konzsztenca (az a tulajdonság, hogy egyre nagyobb mntát véve egyre pontosabb becslést kapunk) 45
BECSLÉS A sokaság várható érték ntervallum-becslése A sokaság várható értéket a mntaközéppel becsüljük. Ez így egy torzítatlan pontbecslés, - amely nem fog pontosan egybeesn a sokaság tényleges várható értékével. Meg tudunk azonban adn egy ntervallumot, amelybe a sokaság várható érték egy előre adott (pl. 95%-os) valószínűséggel beleesk. 46
A sokaság átlag ntervallumbecslése 95 %-os megbízhatóság sznt mellett Ismerjük a mntaátlag eloszlását, és szórását. Tudjuk, hogy M ( ) X Kérdés: mekkora az az ntervallum, amelybe a véletlen mnta átlaga, ll. annak standardje 95 % valószínűséggel esk? Átrendezve: X,96,96 Rövdebb formában:,96 X, 96 X,96 Tehát 95 % a valószínűsége annak, hogy a sokaság a mntaátlag,96 szórásny környezetében található. X 47
48 Az ntervallumbecslés általános gondolatmenete z X z P p p z X z z p X Annak a valószínűsége, hogy N z X p Átrendezve Tömörebben: