Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár PhD kurzus
Mi a statisztika? A sokaság (a sok valami) feletti áttekintés megszerzése, a sokaságról való információszerzés eszköze. Célja: - a sokaságot tudjuk kezelni, - tudjunk jellemzőivel számolni, - információt szerezni a sokaságról, - információt szolgáltatni a sokaságról.
Mi az információ? Olyan új ismeret, amely megszerzője számára szükséges, és korábbi tudása alapján értelmezhető. Olyan tény, amelynek megismerésekor olyan tudásra teszünk szert, ami addig nem volt a birtokunkban. (Úgy is fogalmazhatunk, hogy az információ valamely meglévő bizonytalanságot szüntet meg.)
Mi az adat? Az adat elemi ismeret. Tények, fogalmak olyan megjelenési formája, amely alkalmas emberi eszközökkel történő értelmezésre, feldolgozásra, továbbításra. Az adatokból gondolkodás vagy gépi feldolgozás útján információkat, azaz új ismereteket nyerünk. A számítástechnikai eszközökkel rögzített, azokkal feldolgozható és megjeleníthető információt adatnak nevezzük (IT). Az információ tehát értelmezett adat.
Az adat nagyon tág fogalom: gyakorlatilag bármilyen jel potenciálisan adatnak tekinthető. Adatnak nevezzük a számokkal leírható dolgokat, melyek számítástechnikai eszközökkel rögzíthetők, feldolgozhatóak, és megjeleníthetők. Az adat egy objektum egy meghatározott változójának (tulajdonságának, attribútumának, jellemzőjének, karakterének), értéke (karakterállapota, megvalósult formája). Egy konkrét adat tehát akkor tekinthető definiáltnak, ha meghatározzuk, hogy milyen objektum, melyik változója, milyen értéket vesz fel.
Fogalmak Jel: az információkat jelek segítségével rögzítjük. Kód: megállapodás szerinti jelek vagy szimbólumok rendszere, mellyel valamely információ egyértelműen megadható. Kódolás: valamely információ átalakítása egyezményes jelekké. Számítógépes információfeldolgozás: szűkebb értelemben vett informatikán a számítógépes információfeldolgozást értjük.
Adat osztályozása Az adatok jellegűk szerint lehetnek: minőségi / megállapítható / kvalitatív, mennyiségi / mérhető / kvantitatív adatok.
Az adatok értékük / értékkészletük szerint lehetnek: bináris, diszkrét, folytonos adatok.
Az adatok reprezentációja Az ábrázolása, tárolása sokféleképp történhet: analóg számítógép az adatokat feszültségként, távolságként, helyzetként vagy más, fizikai mennyiségként reprezentálja. A digitális számítógép az adatokat rögzített, véges számú szimbólumok segítségével (általában binárisan kódolt számokkal) jellemzi. Az adatok egy speciális formájának tekinthetőek a számítógépes programok, vagyis azon adatok, melyek számítógépes utasításokként értelmezhetőek és végrehajthatóak. A legtöbb programnyelv megkülönbözteti a programot az adatoktól, de néhány nyelv esetén (mint amilyen például a Lisp) ezek nem különböztethetőek meg egymástól. Az adatokkal kapcsolatosan használják még a meta-adat (metadata) kifejezést, mely az adatokat leíró adatokat jelenti.
Paraméter Adataink változókhoz, paraméterekhez tartoznak. Paraméternek a vizsgált objektum/jelenség mért, számszerű jellemzőjét, tulajdonságát nevezzük, amelynek az alábbiak a sajátosságai (Fábián-Zsidegh 1998): számszerű, mennyiségi jellegű, egyetlen számmal jellemezhető, egyértelmű, pontos, értelmezhető.
Az adat típusa (skálája) Nominális adat: amelynek lehetséges értékei között csak az azonos vagy nem azonos reláció van értelmezve (=, ). Ordinális adat: amelynek lehetséges értékei között a kisebb v. nagyobb (<,>) reláció is megengedett az előőbi relációk mellett. Intervallum adat: amelynél fentieken kívül az +, -, * műveleteket is tudjuk értelmezni. Arány skála adat: mind a négy alapművelet értelmezve van (/).
A statisztika legfontosabb fogalmai Sokaság Minta/Mintaelem Mintavétel Ismérv (változó) Statisztikai függvény (próbafüggvény) Statisztikai ítéletalkotás Hasznosítás (adaptálás)
Sokaság (n, populáció) Mindazon elemek halmaza (a vizsgálat tárgya), amelyre statisztikai következtetés irányul. A sokaság nem emberek (egyedek), hanem egy őket jellemző ismérv (változó) által felvett vagy felvehető értékek halmaza. Két típusa van: időpontban (álló sokaság) vagy időintervallumban (mozgó sokaság) vizsgáljuk-e.
Minta (N) Egy adott véges számú sokaságból kiválasztott véges számú egységek összessége. A minta elemszáma mindig kisebb, mint maga az alapsokaság. Ha e kettő megegyezik, akkor cenzusról beszélünk (például népszámlálás). Mintaelem: a minta egyes elemei.
Véletlen minta A minták egy speciális esete. A véletlen kiválasztás esetében az alapsokaság minden egységéről megmondható, hogy milyen valószínűséggel kerülhet be a mintába. A társadalomkutatás módszertana, azaz a matematikai statisztika a véletlen mintavételre támaszkodik.
Reprezentativitás Egy minta bizonyos változók mentén akkor reprezentatív, ha a mintába került elemek (emberek) ugyan olyan arányban vannak jelen, mint az alapsokaságban. Tehát egy minta csak bizonyos szempontok alapján nevezhető reprezentatívnak. Ha más szempontokat veszünk figyelembe, akkor mintánk lehet, hogy nem reprezentatív.
Mintavételi hiba A mintavétel hibája abból adódik, hogy nem a teljes populációt kérdezzük meg, hanem annak csak egy részét. Így információink részlegesek lesznek a teljes alapsokaságról. A mintavételi hiba mértéke szoros összefüggésben van a minta elemszámával, valamint a mintavételi módszerrel. A mintavételi hiba mértéke akkor számolható ki érvényesen, ha véletlen mintát vettünk.
Nem mintavételi hiba A nem mintavételi hibák az adatfelvételhez kapcsolódnak, nincsenek kapcsolatban sem a mintavétel módszerével, sem a minta elemszámával. Nem mintavételi hibák összetevői az alábbiak lehetnek: - a kérdőív hibás megszerkesztése; - kérdezőbiztosok munkájának hibái; - hibás rögzítés; - a mintába bekerült válaszadó félreérthető vagy valós véleményét elfedő válasza, stb.
Változó Több értéket képes fölvenni, így nem kell egyenként behelyettesítenünk őket például egy függvénybe, hanem elegendő csak a változó. A változónk értékét külön tárolhatjuk, vagy más módon is megadhatjuk például intervallummal. Természetesen nem csak olyan változók léteznek, melyek számokat vehetnek fel.
Valószínűségi változó A valószínűségi változó a változók speciális esete. Ebben az esetben meg lehet mondani, hogy a változó milyen valószínűséggel veheti fel értékeit, tehát minden egyes általa fölvehető értékhez hozzá tudunk rendelni egy valószínűséget.
A statisztikában gyakran előfordul még a függő és független változók megkülönböztetése. A gyakorlatban ez azt jelenti, hogy egyik tulajdonság függvényében miként változik egy másik tulajdonság, ami értelemszerűen többváltozós esetekre is értelmezhető.
Gyakoriság: egy vagy több változó által felvehető értékre, értékekre jutó megfigyelések száma. Relatív gyakoriság: ha egy változó által felvehető értékekre jutó megfigyelések számát elosztjuk a teljes mintanagysággal, akkor a relatív gyakorisághoz jutunk. Ezt megtehetjük kettő vagy több változó együttes eloszlása esetében is. A relatív gyakoriság 0 és 1, illetve 1% és 100% közötti értékeket vehet fel. A relatív gyakoriságok összege mindig 1, illetve 100%.
Próbafüggvény A nullhipotézis fennállásának eldöntését hivatott meghatározni. A próbafüggvény a nullhipotézis fennállását feltételezve, azaz H 0 feltétel mellett adja meg az adott valószínűségi változó eloszlását. Ahhoz, hogy a próbafüggvény eloszlása H 0 fennállását feltételezve pontosan ismert lehessen, a H 0 hipotézisnek egyszerű hipotézisnek kell lennie.
Küszöbérték A próbafüggvény lehetséges értéktartományának két részre való bontásának helyét határozza meg. Itt definiálódik, hogy hol lesz a határ az elfogadási tartomány és az elutasítási tartomány között.
Eloszlás A statisztika központi fogalma: valami vagy valamik hol vannak, hogyan oszlanak el, hogyan helyezkednek el. A sokaság eloszlását a változó típusától függően jellemezhetjük: - függvénnyel (valószínűségsűrűségfüggvény, kumulatív eloszlásfüggvény), - vagy paraméteresen (elméleti szórás, várható érték stb.).
Statisztikai Teszt: Elvek Kérdés: A magasvérnyomás együtt jár-e strokkal? 1. Tanulmány 2. Tanulmány Stroke Átlag (Average) = 155 mm/hg Average= 160 mm/hg Nincs Stroke 125 mm/hg 130 mm/hg
Statisztikai Teszt Teszt = Megfigyelt hatás Várt hatás Adatok variabilitása Generálunk egy p-értéket
A vizsgált adatok jellege - nominális - ordinális - intervallum - arányskála
Legfontosabb folytonos eloszlások
f(x) Inflexiós pont 1 2 34,1 % 34,1 % 13,6 % 13,6 % 2,2 % 2,2 % 0,1 % 0,1 % -3-2 - + +2 +3 x Normális eloszlás tulajdonságai
Sűrűségfüggvény f x 1 ( 2 x) 2 e 2 2
Normáleloszlás eloszlásfüggvénye 1.000 0.900 0.800 0.700 0.600 0.500 0.400 0.300 0.200 0.100 0.000 1.96; 0.975 0; 0.500-1.96; 0.025-4 -2 0 2 4
Eloszlásfüggvény F x x 1 ( x) e 2 2 2 2 dx
(x) 1 ~ 0,4 2 inflexiós pont inflexiós pont 34,1 % 34,1 % 13,6 % 13,6 % 2,2 % 2,2 % 0,1 % 0,1 % -3-2 -1 0 1 2 3 Standard normális eloszlás z x- z =
Standardizálás z i x i
Standard normáleloszlás sűrűségfüggvénye 0.400 0.350 0.300 0.250 0.200 0.150 0.100 0.050 1 2 μ, medián, módusz 0.000-4 -2 0 2 4
Standard normális eloszlás sűrűségfüggvénye ( x) 1 e x 2 2 2
Standard normáleloszlás eloszlásfüggvénye 1.000 0.900 0.800 0.700 0.600 0.500 0.400 0.300 0.200 0.100 0.000 1.96; 0.975 0; 0.500-1.96; 0.025-4 -2 0 2 4
Standard normális eloszlás eloszlásfüggvénye x x 1 ( x) e 2 2 2 dx
A normál eloszlás nevezetes értékei α% μ ± σ 5 1,96 1 2,58 0,1 3,29
Standard normáleloszlás 95%-os valószínűségei 0.400 0.350 0.300 0.250 0.200 0.150 95% 0.100 0.050 0.000-4 -2 0 2 4
Az eloszlás alakjának jellemzése Ferdeség (skewness, normális eloszlás=0 körüli érték) Csúcsosság (kurtosis, normális eloszlás=0 körüli érték)
POSITIVELY SKEWED
NEGATIVELY SKEWED
BI-MODAL
További folytonos eloszlások t-eloszlás Exponenciális eloszlás Egyenletes eloszlás F-eloszlás Gamma
Statistikai tesztek: Milyen típusú az adat? Nominal Ordinal Parametric Non-Para Continous Correlated Paired t-test Wilcoxon Sign Rank Independ t-test Wilcoxon Rank Sum Categorical Correlated McNemar Test Independ Fisher s Exact Chi-square trend test