ADATREDUKCIÓ I. Középértékek

Hasonló dokumentumok
ADATREDUKCIÓ I. Középértékek

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

ADATREDUKCIÓ I. Középértékek

A sokaság/minta eloszlásának jellemzése

Adatsorok jellegadó értékei

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

4 2 lapultsági együttható =

Regresszió. Fő cél: jóslás Történhet:

Példa: Egy üzletlánc boltjainak forgalmára vonatkozó adatok október hó: (adott a vastagon szedett!) S i g i z i g i z i

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

Statisztika. Eloszlásjellemzők

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Korreláció-számítás. 1. előadás. Döntéselőkészítés módszertana. Dr.

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

A leíró statisztikák

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Elemi statisztika fizikusoknak

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Tanult nem paraméteres próbák, és hogy milyen probléma megoldására szolgálnak.

Statisztikai alapfogalmak

Kutatásmódszertan és prezentációkészítés

ÁLTALÁNOS STATISZTIKA

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

A valószínűségszámítás elemei

Biomatematika 2 Orvosi biometria

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Regresszió-számítás. 2. előadás. Kvantitatív statisztikai módszerek. Dr.

Statisztika feladatok

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Lineáris regresszió. Statisztika I., 4. alkalom

Statisztika I. 4. előadás. Előadó: Dr. Ertsey Imre

Nemparaméteres módszerek. Krisztina Boda PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Matematikai statisztika

[Biomatematika 2] Orvosi biometria

MATEMATIKAI STATISZTIKA KISFELADAT. Feladatlap

Általános Statisztika

VARIANCIAANALÍZIS (szóráselemzés, ANOVA)

Komplex regionális elemzés és fejlesztés tanév DE Népegészségügyi Iskola Egészségpolitika tervezés és finanszírozás MSc

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

Matematikai statisztikai elemzések 2.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

[Biomatematika 2] Orvosi biometria

Biostatisztika 1. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika. Hullám Gábor

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

A Statisztika alapjai

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

Dr. Ratkó István. Matematikai módszerek orvosi alkalmazásai Magyar Tudomány Napja. Gábor Dénes Főiskola

A multikritériumos elemzés célja, alkalmazási területe, adat-transzformációs eljárások, az osztályozási eljárások lényege

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Segítség az outputok értelmezéséhez

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Biostatisztika e-book Dr. Dinya Elek

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Táblázatok 4/5. C: t-próbát alkalmazunk és mivel a t-statisztika értéke 3, ezért mind a 10%-os, mind. elutasítjuk a nullhipotézist.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Közúti közlekedésüzemvitel-ellátó. Tájékoztató

Adatelemzés és adatbányászat MSc

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Nemparaméteres eljárások

[Biomatematika 2] Orvosi biometria

d(f(x), f(y)) q d(x, y), ahol 0 q < 1.

Korrelációs kapcsolatok elemzése

Többváltozós lineáris regressziós modell feltételeinek

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Hipotézis vizsgálatok

Algoritmusok és adatszerkezetek gyakorlat 09 Rendezések

Koncentráció és mérése gazdasági és társadalmi területeken. Kerékgyártó Györgyné BCE Statisztika Tanszék

Biomatematika 2 Orvosi biometria

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Az entrópia statisztikus értelmezése

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Extrém-érték elemzés. Extrém-érték eloszlások. Megjegyzések. A normálhatóság feltétele. Extrém-érték modellezés

Varianciaanalízis. Egytényezős kísérletek (Más néven: egyutas osztályozás, egyszempontos varianciaanalízis ANOVA)

KÖVETKEZTETŐ STATISZTIKA

y ij = µ + α i + e ij

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

? közgazdasági statisztika

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

6. Előadás. Vereb György, DE OEC BSI, október 12.

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ANOVA ( ) 2. χ σ. α ( ) 2. y y y p p y y = + + = + + p p r. Fisher-Cochran-tétel

METROLÓGIA ÉS HIBASZÁMíTÁS

MINTAFELADATOK. 1. Az alábbi diagram egy kiskereskedelmi lánc boltjainak forgalomkoncentrációját szemlélteti:

IDA ELŐADÁS I. Bolgár Bence október 17.

Valószínűségi változók. Várható érték és szórás

Átírás:

ADATREDUKCIÓ I. Középértékek

Adatredukcó 1. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz mn középérték ma b) Helyzet középérték: tpkus értékek legyenek (gyakran forduljonak elő). c) Legyenek könnyen meghatározhatók. d) Legyenek egyértelműen defnálva. 3. A középérték az azonos fajta adatok tömegének számszerű jellemzője.

Középértékek Számított középértékek Helyzet középértékek Artmetka Harmonkus Módusz Medán átlag: X átlag: Xh Mo Me Geometra átlag: Xg Kvadratkus átlag: Xq

Számított középértékek Matematka összefüggés alapján számíthatók k: Számtan (Artmetka) átlag Egyszerű Súlyozott Harmonkus átlag Egyszerű Súlyozott Mértan (Geometra) átlag Egyszerű Súlyozott Négyzetes (Kvadratkus) átlag Egyszerű Súlyozott n n n f f a n a 1 1 _ 1 _ n n n f f h n h 1 1 _ 1 _ 1 n f f n n n g g 1 1 _ 1 _ n n n f f q n q 1 1 2 _ 1 2 _

Adatokat nagyságszernt rendezzük. Helyzet mutatók Meghatározzuk a küszöb értéket és felosztjuk a tartományt a kívánt részre. Kvantlsek: az összes előforduló érték j/k (j=1,2,,k-1) része ksebb és 1-j/k része nagyobb. Pl. k=2: Medán (Me) k=3: tercls k=4: Qvartls (Q1, Q2=Me, Q3) k=5: kvntls k=10: decls k=100: percentls

Outler

Egyéb átlagok Interquartle mean (IQM) vagy mdmean: Nem érzékeny az outler értékekre:

Trmean vagy Tukey's trmean Kombnálja a medán és a mdhnge előnyet tekntettel az etrém értékekre:

Az egyes adatfajtáknál mlyen középértékeket alkalmazzunk? Átlag Medán Kvanttatív Ordnáls Módusz Nomnáls

ADATREDUKCIÓ II. Szóródás és mérése

A szóródás mérése Szóródás: azonos fajta számszerű adatok különbözősége Mérése: az smérvértékek valamlyen középértéktől vett vagy egymás között különbsége alapján történk. Szóródás mutatók A szóródás terjedelme Átlagos abszolút eltérés Szórásnégyzet, szórás, relatív szórás (Átlagos különbség) Koncentrácó 11

A szóródás terjedelme A legnagyobb és legksebb smérvérték különbsége R vagy T = X ma X mn Interquartls terjedelem: IQT = Q 3 Q 1 A mutatószámok kfejezk, hogy mekkora értékközben ngadoznak az smérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodk. 12

13 A szórásnégyzet (varanca) és szórás Az egyes értékek számtan átlagtól vett eltérés-négyzetenek átlaga: N N f f s Var 1 1 2 2 ) ( ) ( N s N 1 2 ) ( Varanca vagy: szórásnégyzet Korrgálatlan szórás: 1 ) ( 1 2 N s N Korrgált szórás:

A szórás kszámítható a négyzetes és a számtan átlag négyzetenek különbségéből s: s 2 q 2 14

Relatív szórás s V % *100 Elvonatkoztat az smérv-értékek nagyságrendjétől és mértékegységétől. Azt mutatja meg, hogy a szórás hányad része (hány százaléka) az átlagnak. 15

Relatív szórás (varácós együttható, V) Az adatok szórását osztjuk az átlaggal, majd szorozzuk 100%-al Kcs: a szórás, ha V<15%, Közepes: ha 15%<V<25%, Nagy: ha 25%<V<35%, Etrém (szélsőséges): ha V>35%

Bo-and-whsker plot négy + nagyon távol etrém értékkel: defnálva Q3 + 1.5(IQR) and Q3 + 3(IQR) alapján

Átlag szórása (Standard error, SEM) A mntaválasztás jóságát mutatja: a 0 közel érték a jó érték, mert ekkor helyes a mntaválasztás (dmenzós érték!): s s N

A szórás tulajdonsága Ha mnden értékhez ugyanazt a konstans számot hozzáadjuk (+a), a szórás változatlan marad. Ha mnden értéket ugyanazzal a k konstans számmal megszorozzuk, (k), a szórás s k-szorosára változk. Az eltérésnégyzet-összeg az átlagtól való eltérésekkel számolva a legksebb A szórásnégyzet felírható a négyzetes átlag és a számtan átlag négyzetének a különbségeként. A sokaságot jellemző teljes szórásnégyzet (varanca) megegyezk a rész-sokaságok külső és belső szórásnégyzetének összegével (ANOVA témakör): 2 2 2 B K 19

Hányzó értékek kezelése (Mssng values) Hányzó érték: nem regsztrált adat. Hatása: erőteljesen befolyásolhatják az elemzés eredményet. Többváltozós módszereknél esetszám kesés.

Hányzó értékek jelölése 0 kód esetén a teendő kód használata: -99999 Szoftver felé való közlés Hányzó értékek kezelése: - üresen hagyjuk, - átlagot tesszük be: a helyettesítés rombolja a változók eloszlásfüggvényét, konfdenca-ntervallumát, megnövel az eloszlások csúcsosságát, a változók között lneárs kapcsolatokat s megváltoztatja, a korrelácós együttható közelebb kerül a 0-hoz.

MI (multple mputaton) Az MI célja, hogy a helyettesítésekkel együtt megtartsuk a változók eloszlását és a változók között asszocácókat. Szmulácón és legtöbbször Bayes- alapokon álló technka, ahol a megfgyelt adatokból m>1 verzóban modelleznek lehetséges adatokat a hányzók helyére, majd a végén egy algortmus szernt kombnálják az eredményeket (a becsléseket és a szórásokat).

MI Általános szabályként olyan változók esetében használhatjuk az mputálást, ahol változónként mamum az adatok 30 40%-a hányzk, de a teljes adatbázsban nncs több hányzó, mnt a teljes mátr 10 15%-a. Ezek az arányok a szakrodalom szernt egyáltalán nem adnak okot aggodalomra a helyettesítés metódusát lletően.

Aszmmetra mérőszáma

Ferdeség mérése Ferdeség =FERDESÉG() SKEW() A ferdeség az eloszlás középérték körül aszmmetrájának mértékét jelz. A poztív ferdeség a poztív értékek rányába nyúló aszmmetrkus eloszlást jelez, míg a negatív ferdeség a negatív értékek rányában torzított. =CSÚCSOSSÁG() KURT() Egy adathalmaz csúcsosságát számítja k. A függvény a normáls eloszláshoz vszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A poztív értékek vszonylag csúcsos, a negatív értékek vszonylag lapos eloszlást jelentenek. n ( n 1)( n 2) s _ 2 3( n 1) Csúcsosság ( n 1)( n 2) 3

Aszmmetra Az aszmmetra Pearson-féle A-mutatószáma: Mo A Az aszmmetra F-mutatószáma Szmmetrkus eloszlás esetén: A = 0 Jobb oldal aszmmetra esetén: A > 0 Bal oldal aszmmetra esetén: A < 0 F Q 3 Me Me Q1 Q Me Me Q 3 1 Szmmetrkus eloszlás esetén: F = 0 Jobb oldal aszmmetra esetén: F > 0 Bal oldal aszmmetra esetén: F < 0 26

Konfdencantervallum (Confdence nterval)

Határozzuk meg körül azt az ntervallumot ambe előre meghatározott valószínűséggel esk a várható érték (μ). A várható értéket (μ) pontosan nem tudjuk, de körül van: nagy (1-α) valószínűséggel a fent ntervallumban, és kcs (α) valószínűséggel esk ezen kívülre. Ezt az ntervallumot a várható érték becslésére szolgáló 100 (1- α)% konfdenca ntervallumnak nevezzük. Leggyakrabban 90 v. 95%-os megbízhatóság szntet választunk (vagys α = 0,1 ll. 0,05).

t-eloszlás

N=96, df=95, =0,05 95%-os CI Mean 5,742 Standard Error 0,149 t krtkus 1,984 K=t krtkus *SE 0,297 L l=átlag - K 5,445 L l=átlag + K 6,038

CI ntervallumok ábrázolása 5,494 90%-os 5,99 5,388 5,445 95%-os 98%-os 6,038 6,095

Szgnfkanca vzsgálatok és a konfdencantervallum kapcsolata (H 0 : μ 1 = μ 2 H 1 : μ 1 μ 2 ) p-érték szgnfkanca 95% CI p<0.05 szgn. 5%-os sznten pl. (4.5, 10.7) 0 nncs benne a konf. ntervallumban p 0.05 nem szgn. 5%-os sz. pl. (-1.72, 5.81) 0 benne van a konf. ntervallumban Szgnfkáns, p<0.05 Szgnfkáns. p<0.05 Nem szgnfkáns, p>0.05 0 Megjegyzés: ha relatív kockázatot (RR) vagy esélyhányados (OR) vzsgálunk, akkor a konfdencantervallumban az 1-et keressük, hogy az értéket tartalmazza-e. Bostatsztka alapsmeretek Boda Krsztna Leíró statsztka A véletlen ngadozás Konfdencantervallum Egyváltozós módszerek

Statsztka függvények Ecelben

Átlagra függvények az Ecelben Számtan átlag: =ÁTLAG( ) =AVERAGE() Mértan átlag: =MÉRTANI.KÖZÉP =GEOMEAN() Harmonkus átlag: =HARM.KÖZÉP() =HARMEAN() Kvadratkus átlag: =SQRT(SUMSQ(A1:A10)/COUNTA(A1:A10))

Szórásfüggvények az Ecelben =ÁTL.ELTÉRÉS átlagos abszolút eltérés =AVEDEV() =SZÓRÁSP() =STDEV()- szórás =VAR() varanca (szórásnégyzet)

Számláló - keresőfüggvények függvények =DARAB () =COUNT() a megadott tartomány számmal ktöltött cellának a számát adja =DARAB2() =COUNTA() a megadott tartomány értékkel ktöltött cellának (nem üres) a számát adja =DARABTELI () =COUNTIF () a megadott tartományban megszámolja, hogy hány darab cella felel meg a megadott krtérumnak =DARABÜRES () =COUNTBLANK () A megadott tartományban megszámolja hány db cella üres

Ecel függvénye =MEDIÁN() =MEDIAN() : medán =MODE() : leggyakorbb érték =KVARTILIS() =QUARTILE() =PERCENTILIS() = PERCENTILE(): k-dk percentls =SZÁZALÉKRANG() =PERCENTRANK(): egy értéknek egy adathalmazon vett százalékos rangját adja =MAX =MIN =KICSI() =SMALL(): egy adathalmaz k-dk legksebb elemét adja értékül! =NAGY() =LARGE(): egy adathalmaz k-dk legnagyobb elemét adja értékül! =SORSZÁM() = RANK(): egy szám sorszámát adja, meg ha az adatokat sorba rendezzük

Krtkus-értéket számoló függvények Student's t-dstrbuton a) the two-taled value: =T.INV.2T(0.05,10) = 2.2281 b) the left-taled value: =T.INV(0.025,10) = -2.2281 Normal dstrbuton =NORM.S.INV(1-(0,05/2)) = 1,9600