Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Hasonló dokumentumok
Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis vizsgálatok

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

Biomatematika 2 Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatok statisztikai értékelésének főbb lehetőségei

[Biomatematika 2] Orvosi biometria

Bevezető Mi a statisztika? Mérés Csoportosítás

[Biomatematika 2] Orvosi biometria

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

A valószínűségszámítás elemei

6. Előadás. Vereb György, DE OEC BSI, október 12.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Valószínűségi változók. Várható érték és szórás

Valószínűségszámítás összefoglaló

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

Biomatematika 2 Orvosi biometria

[GVMGS11MNC] Gazdaságstatisztika

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A Statisztika alapjai

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Hipotézis vizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

[Biomatematika 2] Orvosi biometria

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

KÖVETKEZTETŐ STATISZTIKA

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

S atisztika 2. előadás

Biostatisztika Összefoglalás

Vargha András Károli Gáspár Református Egyetem Budapest

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Normális eloszlás tesztje

Mintavételi eljárások

Biometria az orvosi gyakorlatban. Számítógépes döntéstámogatás

y ij = µ + α i + e ij

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

Matematikai alapok és valószínőségszámítás. Normál eloszlás

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Biostatisztika Összefoglalás

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Mérési hibák

Statisztika I. 1. előadás. Előadó: Dr. Ertsey Imre

A mintavétel szakszerűtlenségeinek hatása a monitoring-statisztikákra

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Területi sor Kárpát medence Magyarország Nyugat-Európa

Kutatásmódszertan és prezentációkészítés

(Independence, dependence, random variables)

Többváltozós lineáris regressziós modell feltételeinek

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

Biostatisztika VIII. Mátyus László. 19 October

Számítógépes döntéstámogatás. Statisztikai elemzés

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

A társadalomkutatás módszerei I. Outline. 1. Zh Egyéni eredmények. Notes. Notes. Notes. 9. hét. Daróczi Gergely november 10.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

A valószínűségszámítás elemei

Készítette: Fegyverneki Sándor

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Segítség az outputok értelmezéséhez

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A statisztika alapjai - Bevezetés az SPSS-be -

Matematika III. 5. Nevezetes valószínűség-eloszlások Prof. Dr. Závoti, József

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Osztályozóvizsga követelményei

A kockázat fogalma. A kockázat fogalma. Fejezetek a környezeti kockázatok menedzsmentjéből 2 Bezegh András

Kockázatkezelés és biztosítás 1. konzultáció 2. rész

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Leképezések. Leképezések tulajdonságai. Számosságok.

A leíró statisztikák

Bevezetés az SPSS program használatába

Átírás:

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár PhD kurzus

Mi a statisztika? A sokaság (a sok valami) feletti áttekintés megszerzése, a sokaságról való információszerzés eszköze. Célja: - a sokaságot tudjuk kezelni, - tudjunk jellemzőivel számolni, - információt szerezni a sokaságról, - információt szolgáltatni a sokaságról.

Mi az információ? Olyan új ismeret, amely megszerzője számára szükséges, és korábbi tudása alapján értelmezhető. Olyan tény, amelynek megismerésekor olyan tudásra teszünk szert, ami addig nem volt a birtokunkban. (Úgy is fogalmazhatunk, hogy az információ valamely meglévő bizonytalanságot szüntet meg.)

Mi az adat? Az adat elemi ismeret. Tények, fogalmak olyan megjelenési formája, amely alkalmas emberi eszközökkel történő értelmezésre, feldolgozásra, továbbításra. Az adatokból gondolkodás vagy gépi feldolgozás útján információkat, azaz új ismereteket nyerünk. A számítástechnikai eszközökkel rögzített, azokkal feldolgozható és megjeleníthető információt adatnak nevezzük (IT). Az információ tehát értelmezett adat.

Az adat nagyon tág fogalom: gyakorlatilag bármilyen jel potenciálisan adatnak tekinthető. Adatnak nevezzük a számokkal leírható dolgokat, melyek számítástechnikai eszközökkel rögzíthetők, feldolgozhatóak, és megjeleníthetők. Az adat egy objektum egy meghatározott változójának (tulajdonságának, attribútumának, jellemzőjének, karakterének), értéke (karakterállapota, megvalósult formája). Egy konkrét adat tehát akkor tekinthető definiáltnak, ha meghatározzuk, hogy milyen objektum, melyik változója, milyen értéket vesz fel.

Fogalmak Jel: az információkat jelek segítségével rögzítjük. Kód: megállapodás szerinti jelek vagy szimbólumok rendszere, mellyel valamely információ egyértelműen megadható. Kódolás: valamely információ átalakítása egyezményes jelekké. Számítógépes információfeldolgozás: szűkebb értelemben vett informatikán a számítógépes információfeldolgozást értjük.

Adat osztályozása Az adatok jellegűk szerint lehetnek: minőségi / megállapítható / kvalitatív, mennyiségi / mérhető / kvantitatív adatok.

Az adatok értékük / értékkészletük szerint lehetnek: bináris, diszkrét, folytonos adatok.

Az adatok reprezentációja Az ábrázolása, tárolása sokféleképp történhet: analóg számítógép az adatokat feszültségként, távolságként, helyzetként vagy más, fizikai mennyiségként reprezentálja. A digitális számítógép az adatokat rögzített, véges számú szimbólumok segítségével (általában binárisan kódolt számokkal) jellemzi. Az adatok egy speciális formájának tekinthetőek a számítógépes programok, vagyis azon adatok, melyek számítógépes utasításokként értelmezhetőek és végrehajthatóak. A legtöbb programnyelv megkülönbözteti a programot az adatoktól, de néhány nyelv esetén (mint amilyen például a Lisp) ezek nem különböztethetőek meg egymástól. Az adatokkal kapcsolatosan használják még a meta-adat (metadata) kifejezést, mely az adatokat leíró adatokat jelenti.

Paraméter Adataink változókhoz, paraméterekhez tartoznak. Paraméternek a vizsgált objektum/jelenség mért, számszerű jellemzőjét, tulajdonságát nevezzük, amelynek az alábbiak a sajátosságai (Fábián-Zsidegh 1998): számszerű, mennyiségi jellegű, egyetlen számmal jellemezhető, egyértelmű, pontos, értelmezhető.

Az adat típusa (skálája) Nominális adat: amelynek lehetséges értékei között csak az azonos vagy nem azonos reláció van értelmezve (=, ). Ordinális adat: amelynek lehetséges értékei között a kisebb v. nagyobb (<,>) reláció is megengedett az előőbi relációk mellett. Intervallum adat: amelynél fentieken kívül az +, -, * műveleteket is tudjuk értelmezni. Arány skála adat: mind a négy alapművelet értelmezve van (/).

A statisztika legfontosabb fogalmai Sokaság Minta/Mintaelem Mintavétel Ismérv (változó) Statisztikai függvény (próbafüggvény) Statisztikai ítéletalkotás Hasznosítás (adaptálás)

Sokaság (n, populáció) Mindazon elemek halmaza (a vizsgálat tárgya), amelyre statisztikai következtetés irányul. A sokaság nem emberek (egyedek), hanem egy őket jellemző ismérv (változó) által felvett vagy felvehető értékek halmaza. Két típusa van: időpontban (álló sokaság) vagy időintervallumban (mozgó sokaság) vizsgáljuk-e.

Minta (N) Egy adott véges számú sokaságból kiválasztott véges számú egységek összessége. A minta elemszáma mindig kisebb, mint maga az alapsokaság. Ha e kettő megegyezik, akkor cenzusról beszélünk (például népszámlálás). Mintaelem: a minta egyes elemei.

Véletlen minta A minták egy speciális esete. A véletlen kiválasztás esetében az alapsokaság minden egységéről megmondható, hogy milyen valószínűséggel kerülhet be a mintába. A társadalomkutatás módszertana, azaz a matematikai statisztika a véletlen mintavételre támaszkodik.

Reprezentativitás Egy minta bizonyos változók mentén akkor reprezentatív, ha a mintába került elemek (emberek) ugyan olyan arányban vannak jelen, mint az alapsokaságban. Tehát egy minta csak bizonyos szempontok alapján nevezhető reprezentatívnak. Ha más szempontokat veszünk figyelembe, akkor mintánk lehet, hogy nem reprezentatív.

Mintavételi hiba A mintavétel hibája abból adódik, hogy nem a teljes populációt kérdezzük meg, hanem annak csak egy részét. Így információink részlegesek lesznek a teljes alapsokaságról. A mintavételi hiba mértéke szoros összefüggésben van a minta elemszámával, valamint a mintavételi módszerrel. A mintavételi hiba mértéke akkor számolható ki érvényesen, ha véletlen mintát vettünk.

Nem mintavételi hiba A nem mintavételi hibák az adatfelvételhez kapcsolódnak, nincsenek kapcsolatban sem a mintavétel módszerével, sem a minta elemszámával. Nem mintavételi hibák összetevői az alábbiak lehetnek: - a kérdőív hibás megszerkesztése; - kérdezőbiztosok munkájának hibái; - hibás rögzítés; - a mintába bekerült válaszadó félreérthető vagy valós véleményét elfedő válasza, stb.

Változó Több értéket képes fölvenni, így nem kell egyenként behelyettesítenünk őket például egy függvénybe, hanem elegendő csak a változó. A változónk értékét külön tárolhatjuk, vagy más módon is megadhatjuk például intervallummal. Természetesen nem csak olyan változók léteznek, melyek számokat vehetnek fel.

Valószínűségi változó A valószínűségi változó a változók speciális esete. Ebben az esetben meg lehet mondani, hogy a változó milyen valószínűséggel veheti fel értékeit, tehát minden egyes általa fölvehető értékhez hozzá tudunk rendelni egy valószínűséget.

A statisztikában gyakran előfordul még a függő és független változók megkülönböztetése. A gyakorlatban ez azt jelenti, hogy egyik tulajdonság függvényében miként változik egy másik tulajdonság, ami értelemszerűen többváltozós esetekre is értelmezhető.

Gyakoriság: egy vagy több változó által felvehető értékre, értékekre jutó megfigyelések száma. Relatív gyakoriság: ha egy változó által felvehető értékekre jutó megfigyelések számát elosztjuk a teljes mintanagysággal, akkor a relatív gyakorisághoz jutunk. Ezt megtehetjük kettő vagy több változó együttes eloszlása esetében is. A relatív gyakoriság 0 és 1, illetve 1% és 100% közötti értékeket vehet fel. A relatív gyakoriságok összege mindig 1, illetve 100%.

Próbafüggvény A nullhipotézis fennállásának eldöntését hivatott meghatározni. A próbafüggvény a nullhipotézis fennállását feltételezve, azaz H 0 feltétel mellett adja meg az adott valószínűségi változó eloszlását. Ahhoz, hogy a próbafüggvény eloszlása H 0 fennállását feltételezve pontosan ismert lehessen, a H 0 hipotézisnek egyszerű hipotézisnek kell lennie.

Küszöbérték A próbafüggvény lehetséges értéktartományának két részre való bontásának helyét határozza meg. Itt definiálódik, hogy hol lesz a határ az elfogadási tartomány és az elutasítási tartomány között.

Eloszlás A statisztika központi fogalma: valami vagy valamik hol vannak, hogyan oszlanak el, hogyan helyezkednek el. A sokaság eloszlását a változó típusától függően jellemezhetjük: - függvénnyel (valószínűségsűrűségfüggvény, kumulatív eloszlásfüggvény), - vagy paraméteresen (elméleti szórás, várható érték stb.).

Statisztikai Teszt: Elvek Kérdés: A magasvérnyomás együtt jár-e strokkal? 1. Tanulmány 2. Tanulmány Stroke Átlag (Average) = 155 mm/hg Average= 160 mm/hg Nincs Stroke 125 mm/hg 130 mm/hg

Statisztikai Teszt Teszt = Megfigyelt hatás Várt hatás Adatok variabilitása Generálunk egy p-értéket

A vizsgált adatok jellege - nominális - ordinális - intervallum - arányskála

Legfontosabb folytonos eloszlások

f(x) Inflexiós pont 1 2 34,1 % 34,1 % 13,6 % 13,6 % 2,2 % 2,2 % 0,1 % 0,1 % -3-2 - + +2 +3 x Normális eloszlás tulajdonságai

Sűrűségfüggvény f x 1 ( 2 x) 2 e 2 2

Normáleloszlás eloszlásfüggvénye 1.000 0.900 0.800 0.700 0.600 0.500 0.400 0.300 0.200 0.100 0.000 1.96; 0.975 0; 0.500-1.96; 0.025-4 -2 0 2 4

Eloszlásfüggvény F x x 1 ( x) e 2 2 2 2 dx

(x) 1 ~ 0,4 2 inflexiós pont inflexiós pont 34,1 % 34,1 % 13,6 % 13,6 % 2,2 % 2,2 % 0,1 % 0,1 % -3-2 -1 0 1 2 3 Standard normális eloszlás z x- z =

Standardizálás z i x i

Standard normáleloszlás sűrűségfüggvénye 0.400 0.350 0.300 0.250 0.200 0.150 0.100 0.050 1 2 μ, medián, módusz 0.000-4 -2 0 2 4

Standard normális eloszlás sűrűségfüggvénye ( x) 1 e x 2 2 2

Standard normáleloszlás eloszlásfüggvénye 1.000 0.900 0.800 0.700 0.600 0.500 0.400 0.300 0.200 0.100 0.000 1.96; 0.975 0; 0.500-1.96; 0.025-4 -2 0 2 4

Standard normális eloszlás eloszlásfüggvénye x x 1 ( x) e 2 2 2 dx

A normál eloszlás nevezetes értékei α% μ ± σ 5 1,96 1 2,58 0,1 3,29

Standard normáleloszlás 95%-os valószínűségei 0.400 0.350 0.300 0.250 0.200 0.150 95% 0.100 0.050 0.000-4 -2 0 2 4

Az eloszlás alakjának jellemzése Ferdeség (skewness, normális eloszlás=0 körüli érték) Csúcsosság (kurtosis, normális eloszlás=0 körüli érték)

POSITIVELY SKEWED

NEGATIVELY SKEWED

BI-MODAL

További folytonos eloszlások t-eloszlás Exponenciális eloszlás Egyenletes eloszlás F-eloszlás Gamma

Statistikai tesztek: Milyen típusú az adat? Nominal Ordinal Parametric Non-Para Continous Correlated Paired t-test Wilcoxon Sign Rank Independ t-test Wilcoxon Rank Sum Categorical Correlated McNemar Test Independ Fisher s Exact Chi-square trend test