ADATREDUKCIÓ I. Középértékek
Adatredukcó 1. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz mn középérték ma b) Helyzet középérték: tpkus értékek legyenek (gyakran forduljonak elő). c) Legyenek könnyen meghatározhatók. d) Legyenek egyértelműen defnálva. 3. A középérték az azonos fajta adatok tömegének számszerű jellemzője.
Középértékek Számított középértékek Helyzet középértékek Artmetka Harmonkus Módusz Medán átlag: X átlag: Xh Mo Me Geometra átlag: Xg Kvadratkus átlag: Xq
Számított középértékek Matematka összefüggés alapján számíthatók k: Számtan (Artmetka) átlag Egyszerű Súlyozott Harmonkus átlag Egyszerű Súlyozott Mértan (Geometra) átlag Egyszerű Súlyozott Négyzetes (Kvadratkus) átlag Egyszerű Súlyozott n n n f f a n a 1 1 _ 1 _ n n n f f h n h 1 1 _ 1 _ 1 n f f n n n g g 1 1 _ 1 _ n n n f f q n q 1 1 2 _ 1 2 _
Adatokat nagyságszernt rendezzük. Helyzet mutatók Meghatározzuk a küszöb értéket és felosztjuk a tartományt a kívánt részre. Kvantlsek: az összes előforduló érték j/k (j=1,2,,k-1) része ksebb és 1-j/k része nagyobb. Pl. k=2: Medán (Me) k=3: tercls k=4: Qvartls (Q1, Q2=Me, Q3) k=5: kvntls k=10: decls k=100: percentls
Outler
Egyéb átlagok Interquartle mean (IQM) vagy mdmean: Nem érzékeny az outler értékekre:
Trmean vagy Tukey's trmean Kombnálja a medán és a mdhnge előnyet tekntettel az etrém értékekre:
Összefoglalás - Középértékek Az egyes adatfajtáknál mlyen középértékeket alkalmazunk? Átlag Medán Kvanttatív Ordnáls Módusz Nomnáls
ADATREDUKCIÓ II. Szóródás és mérése
A szóródás mérése Szóródás: azonos fajta számszerű adatok különbözősége Mérése: az smérvértékek valamlyen középértéktől vett vagy egymás között különbsége alapján történk. Szóródás mutatók A szóródás terjedelme Átlagos abszolút eltérés Szórásnégyzet, szórás, relatív szórás (Átlagos különbség) Koncentrácó 11
A szóródás terjedelme A legnagyobb és legksebb smérvérték különbsége R vagy T = X ma X mn Interquartls terjedelem: IQT = Q 3 Q 1 A mutatószámok kfejezk, hogy mekkora értékközben ngadoznak az smérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodk. 12
13 Átlagos abszolút eltérés Az egyes smérvértékek számtan átlagtól vett vagy a medántól vett eltérésenek abszolút értékeből számított átlag k k f f 1 1 k k f Me f d 1 1 Az átl.absz.elt a medán esetén a legksebb!
14 A szórásnégyzet (varanca) és szórás Az egyes értékek számtan átlagtól vett eltérés-négyzetenek átlaga: N N f f s Var 1 1 2 2 ) ( ) ( N s N 1 2 ) ( Varanca vagy: szórásnégyzet Szórás: 1 ) ( 1 2 N s N Korrgált szórás:
Relatív szórás s V % *100 Elvonatkoztat az smérv-értékek nagyságrendjétől és mértékegységétől. Azt mutatja meg, hogy a szórás hányad része (hány százaléka) az átlagnak. 15
Relatív szórás (varácós együttható, V) Az adatok szórását osztjuk az átlaggal, majd szorozzuk 100%-al Kcs: a szórás, ha V<15%, Közepes: ha 15%<V<25%, Nagy: ha 25%<V<35%, Etrém (szélsőséges): ha V>35%
Boplot és nterquartls range (N(0,σ 2 ) populácó)
Átlag szórása (Standard error, SE) A mntaválasztás jóságát mutatja: a 0 közel érték a jó érték, mert ekkor helyes a mntaválasztás (dmenzós érték!): s s N Normáls eloszlás esetén az átlag ± 2SE-n belül van az gaz átlag kb. 95%-os valószínűséggel.
A szórás tulajdonsága Ha mnden értékhez ugyanazt a konstans számot hozzáadjuk (+a), a szórás változatlan marad. Ha mnden értéket ugyanazzal a k konstans számmal megszorozzuk, (k), a szórás s k-szorosára változk. Az eltérésnégyzet-összeg az átlagtól való eltérésekkel számolva a legksebb A szórásnégyzet felírható a négyzetes átlag és a számtan átlag négyzetének a különbségeként. A sokaságot jellemző teljes szórásnégyzet (varanca) megegyezk a rész-sokaságok külső és belső szórásnégyzetének összegével (ANOVA témakör): 2 2 2 B K 19
A szórás kszámítható a négyzetes és a számtan átlag négyzetenek különbségéből s: 2 q 2 20
Hányzó értékek kezelése (Mssng values)
Hányzó érték: nem regsztrált adat. Hatása: erőteljesen befolyásolhatják az elemzés eredményet. Többváltozós módszereknél esetszám kesés.
Hányzó értékek jelölése 0 kód esetén a teendő kód használata: -99999 Szoftver felé való közlés Hányzó értékek kezelése: - üresen hagyjuk, - átlagot tesszük be: a helyettesítés rombolja a változók eloszlásfüggvényét, konfdenca-ntervallumát, megnövel az eloszlások csúcsosságát, a változók között lneárs kapcsolatokat s megváltoztatja, a korrelácós együttható közelebb kerül a 0-hoz.
MI (multple mputaton) Az MI célja, hogy a helyettesítésekkel együtt megtartsuk a változók eloszlását és a változók között asszocácókat. Szmulácón és legtöbbször Bayes- alapokon álló technka, ahol a megfgyelt adatokból m>1 verzóban modelleznek lehetséges adatokat a hányzók helyére, majd a végén egy algortmus szernt kombnálják az eredményeket (a becsléseket és a szórásokat).
MI Általános szabályként olyan változók esetében használhatjuk az mputálást, ahol változónként mamum az adatok 30 40%-a hányzk, de a teljes adatbázsban nncs több hányzó, mnt a teljes mátr 10 15%-a. Ezek az arányok a szakrodalom szernt egyáltalán nem adnak okot aggodalomra a helyettesítés metódusát lletően.
Legtöbb esetben MCMC (Markov chan Monte Carlo) modellt fog alkalmazn a program, ahol az egyes változók értékenél a több modellváltozó predkcót fogja felhasználn bzonyos terácós szám mellett. Összefoglalás: azokban a kutatásokban, amelyekben korrelácóalapú számításokat végeznek a kutatók, bztonsággal alkalmazható az adat-mputálás. Kutatásokban azonban törekedn kell a mnél teljesebb adatbázs létrehozására, eredményenket ekkor fogadhatjuk el mnden fajta szkepszs nélkül.
Aszmmetra mérőszáma
Eloszlások Egymóduszú Több móduszú Szmmetrkus Asszmetrkus U alakú Mérsékelten asszmetrkus Erősen asszmetrkus M alakú Balra ferdült Jobbra ferdült J alakú Fordított J alakú
Statsztka számítások Ecellel Mnta vzsgálata LEÍRÓ STATISZTIKA Megjegyzés: a statsztka függvények zömének paramétere az adathalmaz, ezért nem részletezzük az egyes függvények paraméterezését!
Függvények az Ecelben = SQ()- átlagtól való eltérések négyzetének összegét adja eredményül =SZÓRÁSP() STDEVP()- szórás =VARP() varanca (szórásnégyzet) =ÁTL.ELTÉRÉS átlagos abszolút eltérés AVEDEV()
Tovább átlagok megfelelő =ÁTLAG( ) - AVERAGE() függvénye =MÉRTANI.KÖZÉP GEOMEAN() Harmonkus átlag=harmean() =MÓDUSZ() MODE()
Ecel függvénye MEDIÁN() MEDIAN() KVARTILIS() QUARTILE() PERCENTILIS() PERCENTILE(): k-dk percentls SZÁZALÉKRANG() PERCENTRANK(): egy értéknek egy adathalmazon vett százalékos rangját adja MAX MIN KICSI() SMALL():Egy adathalmaz k-dk legksebb elemét adja értékül! NAGY() LARGE(): Egy adathalmaz k-dk legnagyobb elemét adja értékül! SORSZÁM()- RANK(): Egy szám sorszámát adja, meg ha az adatokat sorba rendezzük
Adatok kezelése Számláló - keresőfüggvények
Függvények DARAB () - COUNT() a megadott tartomány számmal ktöltött cellának a számát adja DARAB2() COUNTA() a megadott tartomány értékkel ktöltött cellának (nem üres) a számát adja DARABTELI () COUNTIF () a megadott tartományban megszámolja, hogy hány darab cella felel meg a megadott krtérumnak DARABÜRES () COUNTBLANK () A megadott tartományban megszámolja hány db cella üres
BECSLÉS A sokaság átlag becslése
A becslés alapfeladata Pl. Hányan láttak egy Frad-meccset a TV-ben? Jellemzően kétféle választ lehet adn: Pontbecslés Pl. A mnta alapján a sokaság nézettség arány 32 %. Vesznek egy mntát, azaz, megkérdeznek 1300 embert, és ebből következtetnek, hogy a teljes sokaság hányadrésze látta a műsort. Intervallumbecslés: A nézettség arány 95% valószínűséggel 29 és 35 % közé esk. 36
Sokaság és mnta A mntavétel módja lehet: véletlen és nem véletlen A véletlen kválasztás. Ismerjük a sokaság elemenek mntába kerülés valószínűségét. A vél. mnta fontos jellemzője: a reprezentatvtás. Egyszerű véletlen mntavétel Vsszatevéssel Vsszatevés nélkül Rétegzett mnta Csoportos és többlépcsős mnta 37
A nem-véletlen kválasztás Szsztematkus mntavétel (pl. a kjáratnál mnden 10- k vevő megkérdezése ) Kvóta szernt mnta Koncentrált mnta Önkényes mnta 38
Alapkérdések: A mntaátlag eloszlása Teknthető-e, ll. mkor teknthető a mntaátlag eloszlása normáls eloszlásúnak? A mntaátlag várható értéke és a sokaság átlag között összefüggés A mntaátlag szórása és a sokaság szórás között összefüggés 39
A mntaátlag eloszlása A mntaátlag valószínűség változó (mntáról mntára változk), amelynek van eloszlása, várható értéke, szórása. A mntaátlag normáls eloszlású, Ha a sokaság normáls eloszlású Vagy: ha a mnta elég nagy. (N > 30; pl. 100 elem) Ha a sokaság eloszlása nem smert és a mnta kcs (30 elem alatt), akkor a mntaátlag eloszlása sem smert. (Ekkor tovább megfontolásokra van szükség.) 40
A mntaátlag eloszlásának paramétere Ha a mnta véletlen (a sokaság eloszlásától függetlenül, akár vsszatevéses a mntavétel akár nem) akkor, E X (A mntaátlag várható értéke a sokaság átlag) A mntaátlagok szórása, (standard hba) Vsszatevéses mntánál: N Vsszatevés nélkül mntánál: N n N n 1 1 N N n Ahol N / n a kválasztás arány 41
A becslő-fg és a jó becslés krtéruma A becslő fg fogalma: A sokaság paraméter becslésére szolgáló, a mntaelemek értékétől függő függvény. pl. a mntaátlag egy becslőfg, mert értéke a mntaelemek értékétől függ, és ezzel becsüljük a sokaság átlagot. A jó becslés krtéruma Torzítatlanság Hatásosság Konzsztenca 42
Torzítatlan becslések A mntaátlag a sokaság átlag torzítatlan becslése X E() mntabel arány a sokaság aránynak torzítatlan becslése E( p) A mnta szórása a sokaság szórás torzított becslése. A mnta korrgált szórása már torzítatlan 2 ˆ s N 1 P E(s) 43
A jó becslés krtéruma (folyt) Hatásosság: a becslőfüggvény szórása. Mnél ksebb a szórása, annál hatásosabb Konzsztenca (az a tulajdonság, hogy egyre nagyobb mntát véve egyre pontosabb becslést kapunk) 44
BECSLÉS A sokaság várható érték ntervallum-becslése A sokaság várható értéket a mntaközéppel becsüljük. Ez így egy torzítatlan pontbecslés, - amely nem fog pontosan egybeesn a sokaság tényleges várható értékével. Meg tudunk azonban adn egy ntervallumot, amelybe a sokaság várható érték egy előre adott (pl. 95%-os) valószínűséggel beleesk. 45
Konfdencantervallum (Confdence nterval)
Határozzuk meg körül azt az ntervallumot ambe előre meghatározott valószínűséggel esk a várható érték (μ). A várható értéket (μ) pontosan nem tudjuk, de körül van: nagy (1-α) valószínűséggel a fent ntervallumban, és kcs (α) valószínűséggel esk ezen kívülre. Ezt az ntervallumot a várható érték becslésére szolgáló 100 (1- α)% konfdenca ntervallumnak nevezzük. Leggyakrabban 90 v. 95%-os megbízhatóság szntet választunk (vagys α = 0,1 ll. 0,05).
Az átlagra vonatkozó 95%-os bzonyosság ntervallum szemléltetése az adott kísérlet képzeletbel smétlésevel Ha a kísérletet képzeletben 100-szor megsmételnénk, a 100 kapott 95%-os konfdenca ntervallum közül várhatóan 95 fogja tartalmazn a populácó átlagát, és 5 nem. http://www.kuleuven.ac.be/ucs/java/nde.htm Bostatsztka alapsmeretek Boda Krsztna Leíró statsztka A véletlen ngadozás Konfdencantervallum Egyváltozós módszerek 48
t-eloszlás
CI ntervallumok ábrázolása 5,494 90%-os 5,99 5,388 5,445 95%-os 98%-os 6,038 6,095
Szgnfkanca vzsgálatok és a konfdencantervallum kapcsolata (H0: μ 1 = μ 2, azaz μ 1 - μ 2 =0, Ha: μ 1 μ 2 ) p-érték szgnfkanca 95% CI p<0.05 szgn. 5%-os sznten pl. (4.5, 10.7) 0 nncs benne a konf. ntervallumban p > 0.05 nem szgn. 5%-os sz. pl. (-1.72, 5.81) 0 benne van a konf. ntervallumban Szgnfkáns, p<0.05 Szgnfkáns. p<0.05 Nem szgnfkáns, p>0.05 0 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vzsgálunk, akkor a konfdencantervallumban az 1-et keressük, hogy az értéket tartalmazza-e. Bostatsztka alapsmeretek Boda Krsztna Leíró statsztka A véletlen ngadozás Konfdencantervallum Egyváltozós módszerek
Krtkus-értéket számoló függvények Student's t-dstrbuton a) the two-taled value: =T.INV.2T(0.05,10) = 2.2281 b) the left-taled value: =T.INV(0.025,10) = -2.2281 Normal dstrbuton =NORM.S.INV(1-(0,05/2)) = 1,9600
A sokaság átlag ntervallumbecslése 95 %-os megbízhatóság sznt mellett Ismerjük a mntaátlag eloszlását, és szórását. Tudjuk, hogy M ( ) X Kérdés: mekkora az az ntervallum, amelybe a véletlen mnta átlaga, ll. annak standardje 95 % valószínűséggel esk? Átrendezve: X 1,96 1,96 Rövdebb formában: 1,96 X 1, 96 X 1,96 Tehát 95 % a valószínűsége annak, hogy a sokaság a mntaátlag 1,96 szórásny környezetében található. X 55
56 Az ntervallumbecslés általános gondolatmenete 1 z X z P p p z X z z p X Annak a valószínűsége, hogy N z X p Átrendezve Tömörebben:
Kfejezések Az (1-) valószínűség a megbízhatóság sznt, vagy konfdenca-sznt Az (1-) valószínűséghez tartozó ntervallum a megbízhatóság ntervallum vagy konfdencantervallum A z p szorzat a mamáls hba vagy hbahatár. z p 57