Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Hasonló dokumentumok
ADATREDUKCIÓ I. Középértékek

ADATREDUKCIÓ I. Középértékek

ADATREDUKCIÓ I. Középértékek

A sokaság/minta eloszlásának jellemzése

4 2 lapultsági együttható =

Regresszió. Fő cél: jóslás Történhet:

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Adatsorok jellegadó értékei

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

Példa: Egy üzletlánc boltjainak forgalmára vonatkozó adatok október hó: (adott a vastagon szedett!) S i g i z i g i z i

KÖVETKEZTETŐ STATISZTIKA

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Statisztika. Eloszlásjellemzők

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Korreláció-számítás. 1. előadás. Döntéselőkészítés módszertana. Dr.

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Táblázatok 4/5. C: t-próbát alkalmazunk és mivel a t-statisztika értéke 3, ezért mind a 10%-os, mind. elutasítjuk a nullhipotézist.

Lineáris regresszió. Statisztika I., 4. alkalom

Statisztika feladatok

ÁLTALÁNOS STATISZTIKA

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Regresszió-számítás. 2. előadás. Kvantitatív statisztikai módszerek. Dr.

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Tanult nem paraméteres próbák, és hogy milyen probléma megoldására szolgálnak.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

A multikritériumos elemzés célja, alkalmazási területe, adat-transzformációs eljárások, az osztályozási eljárások lényege

Kutatásmódszertan és prezentációkészítés

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Elemi statisztika fizikusoknak

A leíró statisztikák

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

VARIANCIAANALÍZIS (szóráselemzés, ANOVA)

A maximum likelihood becslésről

Általános Statisztika

A valószínűségszámítás elemei

A Statisztika alapjai

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

MATEMATIKAI STATISZTIKA KISFELADAT. Feladatlap

METROLÓGIA ÉS HIBASZÁMíTÁS

Biostatisztika e-book Dr. Dinya Elek

Komplex regionális elemzés és fejlesztés tanév DE Népegészségügyi Iskola Egészségpolitika tervezés és finanszírozás MSc

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

Statisztika I. 4. előadás. Előadó: Dr. Ertsey Imre

Statisztikai alapfogalmak

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Intelligens elosztott rendszerek

Nemparaméteres módszerek. Krisztina Boda PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Extrém-érték elemzés. Extrém-érték eloszlások. Megjegyzések. A normálhatóság feltétele. Extrém-érték modellezés

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

? közgazdasági statisztika

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Biomatematika 2 Orvosi biometria

IDA ELŐADÁS I. Bolgár Bence október 17.

Minősítéses mérőrendszerek képességvizsgálata

Dr. Ratkó István. Matematikai módszerek orvosi alkalmazásai Magyar Tudomány Napja. Gábor Dénes Főiskola

Statisztika elméleti összefoglaló

(eseményalgebra) (halmazalgebra) (kijelentéskalkulus)

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Nemparaméteres eljárások

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Kísérlettervezési alapfogalmak:

6. Előadás. Vereb György, DE OEC BSI, október 12.

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Adatelemzés és adatbányászat MSc

Az entrópia statisztikus értelmezése

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

[Biomatematika 2] Orvosi biometria

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Least Squares becslés

A m becslése. A s becslése. A (tapasztalati) szórás. n m. A minta és a populáció kapcsolata. x i átlag

Matematikai statisztika

Régió alapú szegmentálás. Digitális képelemzés alapvető algoritmusai. 2. példa: Elfogadható eredmények. 1. példa: Jó eredmények. Csetverikov Dmitrij

Véletlenszám generátorok. 6. előadás

TÉRBELI STATISZTIKAI VIZSGÁLATOK, ÁTLAGOS JELLEMZŐK ÉS TENDENCIÁK MAGYARORSZÁGON. Bihari Zita, OMSZ Éghajlati Elemző Osztály OMSZ

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

I. A közlekedési hálózatok jellemzői II. A közlekedési szükségletek jellemzői III. Analitikus forgalom-előrebecslési modell

Közúti közlekedésüzemvitel-ellátó. Tájékoztató

Méréselmélet: 5. előadás,

Adatok statisztikai értékelésének főbb lehetőségei

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Philosophiae Doctores. A sorozatban megjelent kötetek listája a kötet végén található

Gyakorló feladatok a Kísérletek tervezése és értékelése c. tárgyból Lineáris regresszió, ismétlés nélküli mérések

Átírás:

Bevezetés a bometrába Dr. Dnya Elek egyetem tanár PhD kurzus. KOKI, 205.0.08.

ADATREDUKCIÓ I. Középértékek

Adatredukcó. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz mn középérték ma b) Helyzet középérték: tpkus értékek legyenek (gyakran forduljonak elő). c) Legyenek könnyen meghatározhatók. d) Legyenek egyértelműen defnálva.

Középértékek Számított középértékek Helyzet középértékek Artmetka Harmonkus Módusz Medán átlag: X átlag: Xh Mo Me Geometra átlag: Xg Kvadratkus átlag: Xq

Számított középértékek Matematka összefüggés alapján számíthatók k: Számtan (Artmetka) átlag Egyszerű Súlyozott Harmonkus átlag Egyszerű Súlyozott Mértan (Geometra) átlag Egyszerű Súlyozott Négyzetes (Kvadratkus) átlag Egyszerű Súlyozott n n n f f a n a n n n f f h n h n f f n n n g g n n n f f q n q 2 _ 2 _

Artmetka átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok összege nem változk:

Mértan átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok szorzata nem változk:

Harmonkus átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok recprokanak összege nem változk:

Kvadratkus átlag Az a szám, amelynek négyzetével helyettesítve az átlagolandó értékek négyzetet, azok összege nem változk:

Outler

Adatokat nagyságszernt rendezzük. Helyzet mutatók Meghatározzuk a küszöb értéket és felosztjuk a tartományt a kívánt részre. Kvantlsek: az összes előforduló érték j/k (j=,2,,k-) része ksebb és -j/k része nagyobb. Pl. k=2: Medán (Me) k=3: tercls k=4: Qvartls (Q, Q2=Me, Q3) k=5: kvntls k=0: decls k=00: percentls

Egyéb átlagok Interquartle mean (IQM) vagy mdmean: Nem érzékeny az outler értékekre:

Trmean vagy Tukey's trmean Kombnálja a medán és a mdhnge előnyet tekntettel az etrém értékekre:

Összefoglalás - Középértékek Az egyes adatfajtáknál mlyen középértékeket alkalmazunk? Átlag Medán Kvanttatív Ordnáls Módusz Nomnáls

ADATREDUKCIÓ II. Szóródás és mérése

A szóródás mérése Szóródás: azonos fajta számszerű adatok különbözősége Mérése: az smérvértékek valamlyen középértéktől vett vagy egymás között különbsége alapján történk. Szóródás mutatók A szóródás terjedelme Átlagos abszolút eltérés Szórásnégyzet, szórás, relatív szórás (Átlagos különbség) Koncentrácó 6

A szóródás terjedelme A legnagyobb és legksebb smérvérték különbsége R vagy T = X ma X mn Interquartls terjedelem: IQT = Q 3 Q A mutatószámok kfejezk, hogy mekkora értékközben ngadoznak az smérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodk. 7

8 Átlagos abszolút eltérés Az egyes smérvértékek számtan átlagtól vett vagy a medántól vett eltérésenek abszolút értékeből számított átlag k k f f k k f Me f d Az átl.absz.elt a medán esetén a legksebb!

9 A szórásnégyzet (varanca) és szórás Az egyes értékek számtan átlagtól vett eltérés-négyzetenek átlaga k k f f Var 2 2 ) ( ) ( k k f f 2 ) ( Varanca vagy: szórásnégyzet Szórás

Relatív szórás V % *00 Elvonatkoztat az smérv-értékek nagyságrendjétől és mértékegységétől. Azt mutatja meg, hogy a szórás hányad része (hány százaléka) az átlagnak. 20

Relatív szórás (varácós együttható, V) Az adatok szórását osztjuk az átlaggal, majd szorozzuk 00%-al Kcs: a szórás, ha V<5%, Közepes: ha 5%<V<25%, Nagy: ha 25%<V<35%, Etrém (szélsőséges): ha V>35%

Mdhnge range: IQR=(Q 3 -Q )/2 John Tukey: mdhnge-t egyszerűbb számítan. Md-range vagy md-etreme:

Átlag szórása (Standard error, SE) A mntaválasztás jóságát mutatja: a 0 közel érték a jó érték, mert ekkor helyes a mntaválasztás (dmenzós érték!): s s N Normáls eloszlás esetén az átlag ± 2SE-n belül van az gaz átlag kb. 95%-os valószínűséggel.

A szórás tulajdonsága Ha mnden értékhez ugyanazt a konstans számot hozzáadjuk (+a), a szórás változatlan marad. Ha mnden értéket ugyanazzal a k konstans számmal megszorozzuk, (k), a szórás s k-szorosára változk. Az eltérésnégyzet-összeg az átlagtól való eltérésekkel számolva a legksebb A szórásnégyzet felírható a négyzetes átlag és a számtan átlag négyzetének a különbségeként. A sokaságot jellemző teljes szórásnégyzet (varanca) megegyezk a rész-sokaságok külső és belső szórásnégyzetének összegével (ANOVA témakör): 2 2 2 B K 24

Aszmmetra mérőszáma

Az aszmmetra mérőszáma Az eloszlások következő típusaval foglalkozunk: -egymóduszú eloszlás szmmetrkus, aszmmetrkus (vagy ferde); -többmóduszú eloszlás.

Ferdeség mérése Ferdeség =FERDESÉG() SKEW() A ferdeség az eloszlás középérték körül aszmmetrájának mértékét jelz. A poztív ferdeség a poztív értékek rányába nyúló aszmmetrkus eloszlást jelez, míg a negatív ferdeség a negatív értékek rányában torzított. =CSÚCSOSSÁG() KURT() Egy adathalmaz csúcsosságát számítja k. A függvény a normáls eloszláshoz vszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A poztív értékek vszonylag csúcsos, a negatív értékek vszonylag lapos eloszlást jelentenek. n ( n )( n 2) s _ 2 3( n ) Csúcsosság ( n )( n 2) 3

35 50 30 25 20 5 0 40 30 20 0 5 0-5 3 5 7 9 3 5 7 9 0-0 3 5 7 9 3 5 7 9 Asszmmetra mérése 30 25 20 5 0 30 25 20 5 0 5 5 0 3 5 7 9 3 5 7 9 0-5 3 5 7 9 3 5 7 9

Az eloszlások típusa, aszmmetrája Típusok: Egymóduszú eloszlás szmmetrkus aszmmetrkus (ferde), bal- vagy jobboldal Többmóduszú eloszlás 29

Aszmmetra Az aszmmetra Pearson-féle A-mutatószáma: Mo A Az aszmmetra F-mutatószáma Szmmetrkus eloszlás esetén: A = 0 Jobb oldal aszmmetra esetén: A > 0 Bal oldal aszmmetra esetén: A < 0 F Q 3 Me Me Q Q Me Me Q 3 Szmmetrkus eloszlás esetén: F = 0 Jobb oldal aszmmetra esetén: F > 0 Bal oldal aszmmetra esetén: F < 0 30

Hányzó értékek kezelése (Mssng values)

Hányzóérték, 2, 3, 4, 5, 6,2,3,4,5,6,0,3,4,5,0 3.5 6 2 6 6 5 4 3 2 3.25 4 3 4 5 4 3 2.2 6 3 6 0 5 4 3 0

Hányzó érték: nem regsztrált adat. Hatása: erőteljesen befolyásolhatják az elemzés eredményet. - Ha nem vesszük fgyelembe a hányzó adatokat vagy feltételezzük, hogy a hányzó értékek kzárása elegendő, akkor érvénytelen és megbízhatatlan eredményeket kaphatunk. - Az adatelőkészítés fázsban kell gondoskodn arról, hogy az adatelemzés során olyan adatokat használjunk, amelyek fgyelembe veszk a hányzó értékeket. Többváltozós módszereknél esetszám kesés.

Hányzó értékek jelölése 0 kód esetén a teendő kód használata: -99999 Szoftver felé való közlés Hányzó értékek kezelése: - üresen hagyjuk, - átlagot tesszük be: a helyettesítés rombolja a változók eloszlásfüggvényét, konfdenca-ntervallumát, megnövel az eloszlások csúcsosságát, a változók között lneárs kapcsolatokat s megváltoztatja, a korrelácós együttható közelebb kerül a 0-hoz.

Az MCAR (mssng completely at random) esetében a hányok valószínűsége egyáltalán nem függ össze az adatankkal, lyenkor a nemválaszolók olyanok, mnt egy random alcsoport. Rtka esetben gaz. A MAR (mssng at random) modelleknél a hányok valószínűsége csak a megfgyelt egyéb adatoktól függ, de nem a helyettesítendő hányzótól. Ez a standard feltételezés. Kevésbé megoldható probléma az MNAR (mssng not at random) helyzet, amkor a hányzó adat előfordulása pont a hányzó adat mnőségével vagy jelentésével függ össze. A mamum-lkelhood módszerek elvárása a MAR helyzet, míg a multple mputaton technkák többnyre már az MNAR problémákat s jól kezelk.

MI (multple mputaton) Az MI célja, hogy a helyettesítésekkel együtt megtartsuk a változók eloszlását és a változók között asszocácókat. Szmulácón és legtöbbször Bayes- alapokon álló technka, ahol a megfgyelt adatokból m> verzóban modelleznek lehetséges adatokat a hányzók helyére, majd a végén egy algortmus szernt kombnálják az eredményeket (a becsléseket és a szórásokat).

MI Általános szabályként olyan változók esetében használhatjuk az mputálást, ahol változónként mamum az adatok 30 40%-a hányzk, de a teljes adatbázsban nncs több hányzó, mnt a teljes mátr 0 5%-a. Ezek az arányok a szakrodalom szernt egyáltalán nem adnak okot aggodalomra a helyettesítés metódusát lletően.

Legtöbb esetben MCMC (Markov chan Monte Carlo) modellt fog alkalmazn a program, ahol az egyes változók értékenél a több modellváltozó predkcót fogja felhasználn bzonyos terácós szám mellett. Összefoglalás: azokban a kutatásokban, amelyekben korrelácóalapú számításokat végeznek a kutatók, bztonsággal alkalmazható az adat-mputálás. Kutatásokban azonban törekedn kell a mnél teljesebb adatbázs létrehozására, eredményenket ekkor fogadhatjuk el mnden fajta szkepszs nélkül.

Konfdencantervallum (Confdence nterval)

A konfdencantervallum fogalma (Bzonyosság/megbízhatóság ntervallum) Olyan, a mntaelemekből számolt ntervallum, amely nagy valószínűséggel tartalmazza a populácó-paraméter valód (smeretlen) értékét. Valószínűség ntervallum, az nduktív statsztka eszköze. Ha mntából becsülünk, sohasem tudjuk a pontos értéket. Pl. 95%-os bzonyosság ntervallum az átlagra: olyan, a mntaelemekből számolt ntervallum, am 95% valószínűséggel tartalmazza a populácó valód átlagát. A megbízhatóság mértékét jelző valószínűség (megbízhatóság sznt) tőlünk függ. Szokásos értéke: 0.90, 0.95, 0.99 A becslés hbája (-val jelöljük) a megbízhatóság sznt függvényében -0.90=0., -0.95=0.05, -0.99=0.0 Leggyakrabban használt megbízhatóság sznt 95% (0.95), tehát -ra leggyakrabban =0.05 értéket alkalmazzuk. Bostatsztka alapsmeretek Boda Krsztna Leíró statsztka A véletlen ngadozás Konfdencantervallum Egyváltozós módszerek 40

Szgnfkanca vzsgálatok és a konfdencantervallum kapcsolata (H0: μ = μ 2, azaz μ - μ 2 =0, Ha: μ μ 2 ) p-érték szgnfkanca 95% CI (p p2)-re p<0.05 szgn. 5%-os sznten pl. (4.5, 0.7) 0 nncs benne a konf. ntervallumban p > 0.05 nem szgn. 5%-os sz. pl. (-.72, 5.8) 0 benne van a konf. ntervallumban Szgnfkáns, p<0.05 Szgnfkáns. p<0.05 Nem szgnfkáns, p>0.05 0 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vzsgálunk, akkor a konfdencantervallumban az -et keressük, hogy az értéket tartalmazza-e. Bostatsztka alapsmeretek Boda Krsztna Leíró statsztka A véletlen ngadozás Konfdencantervallum Egyváltozós módszerek

BECSLÉS A sokaság átlag becslése

A becslő-fg és a jó becslés krtéruma A becslő fg fogalma: A sokaság paraméter becslésére szolgáló, a mntaelemek értékétől függő függvény. pl. a mntaátlag egy becslőfg, mert értéke a mntaelemek értékétől függ, és ezzel becsüljük a sokaság átlagot. A jó becslés krtéruma Torzítatlanság Hatásosság Konzsztenca 43

Torzítatlan becslések A mntaátlag a sokaság átlag torzítatlan becslése X E() mntabel arány a sokaság aránynak torzítatlan becslése E( p) A mnta szórása a sokaság szórás torzított becslése. A mnta korrgált szórása már torzítatlan 2 ˆ s N P E(s) 44

A jó becslés krtéruma (folyt) Hatásosság: a becslőfüggvény szórása. Mnél ksebb a szórása, annál hatásosabb Konzsztenca (az a tulajdonság, hogy egyre nagyobb mntát véve egyre pontosabb becslést kapunk) 45

BECSLÉS A sokaság várható érték ntervallum-becslése A sokaság várható értéket a mntaközéppel becsüljük. Ez így egy torzítatlan pontbecslés, - amely nem fog pontosan egybeesn a sokaság tényleges várható értékével. Meg tudunk azonban adn egy ntervallumot, amelybe a sokaság várható érték egy előre adott (pl. 95%-os) valószínűséggel beleesk. 46

A sokaság átlag ntervallumbecslése 95 %-os megbízhatóság sznt mellett Ismerjük a mntaátlag eloszlását, és szórását. Tudjuk, hogy M ( ) X Kérdés: mekkora az az ntervallum, amelybe a véletlen mnta átlaga, ll. annak standardje 95 % valószínűséggel esk? Átrendezve: X,96,96 Rövdebb formában:,96 X, 96 X,96 Tehát 95 % a valószínűsége annak, hogy a sokaság a mntaátlag,96 szórásny környezetében található. X 47

48 Az ntervallumbecslés általános gondolatmenete z X z P p p z X z z p X Annak a valószínűsége, hogy N z X p Átrendezve Tömörebben: