PARS KÖNYVEK HU ISSN Pecsenye Katalin: Populációgenetika Pars Kft., Nagykovácsi, 401 oldal, ISBN X

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "PARS KÖNYVEK HU ISSN 1788-4349. 1. Pecsenye Katalin: Populációgenetika. 2006. Pars Kft., Nagykovácsi, 401 oldal, ISBN 963 06 0325 X"

Átírás

1

2 PARS KÖNYVEK HU ISSN Pecsenye Katalin: Populációgenetika Pars Kft., Nagykovácsi, 401 oldal, ISBN X 2. Reiczigel Jenő Harnos Andrea Solymosi Norbert: Biostatisztika nem statisztikusoknak Pars Kft., Nagykovácsi, i-x oldal, ISBN Megrendelhető Pars Kft Budapest, Pf parskft@gmail.com

3 Reiczigel Jenő Harnos Andrea Solymosi Norbert BIOSTATISZTIKA nem statisztikusoknak Pars Kft., Nagykovácsi 2007

4 A könyv az Oktatási és Kulturális Minisztérium támogatásával, a Felsőoktatási Tankönyv- és Szakkönyv-támogatási Pályázat keretében jelent meg. Lektorok Lang Zsolt Kis János Borító: Németh János HU ISBN HU ISSN Reiczigel Jenő Harnos Andrea Solymosi Norbert, 2007 Pars Kft., Nagykovácsi, 2007 Minden jog fenntartva, beleértve a mű bővített, illetve rövidített változatainak kiadási jogát is. A kiadó írásos engedélye nélkül sem elektronikus, sem hagyományos úton nem sokszorosítható, tárolható, illetve terjeszthető. Nyomdai munkálatok: Mondat Kft., Budapest

5 Tartalomjegyzék Előszó 1 Köszönetnyilvánítás Hogyan olvassuk ezt a könyvet? Szükséges előismeretek Jelölések, írásmód Ismerkedés az R-rel Hogyan olvassuk az R-kódokat? Bevezetés Miért tanuljunk statisztikát? Megjegyzések a példákhoz Hétköznapi valószínűségszámítás és statisztika A statisztika alapfogalmai Populáció és minta Leíró és induktív statisztika Mintavételi módszerek Az adatok Adatmátrix Adattípusok, mérési skálák Transzformációk, származtatott változók Hiányzó értékek Kiugró értékek Egy kis valószínűségszámítás Események, valószínűség Oddsz és logit Relatív kockázat és esélyhányados Valószínűségi változók Valószínűségi változók függetlensége

6 3.5. A statisztikában leggyakrabban használt eloszlások A hipergeometrikus és a binomiális eloszlás A Poisson-eloszlás A normális eloszlás További folytonos eloszlások A valószínűségszámítás és a statisztika kapcsolata Leíró statisztika Táblázatok és ábrák Egy változó ábrázolása Két változó együttesének ábrázolása Mérőszámok, statisztikák Egy változó jellemzése Két változó közötti összefüggés jellemzése Asszociációs mértékek Adattranszformációk hatása a statisztikai mérőszámokra Becslés Alapfogalmak Pontbecslés Intervallumbecslés Matematikai formalizmus A mintaátlag néhány fontos tulajdonsága Becslés pontossága Pontbecslések jósága Torzítatlanság Konzisztencia Eljárások pontbecslések készítésére Behelyettesítéses becslés Maximum likelihood (ML) becslés Eljárások konfidencia-intervallumok szerkesztésére Több paraméter szimultán becslése A szükséges mintaelemszám meghatározása becsléshez Hipotézisvizsgálat A statisztikai hipotézisvizsgálat alapgondolata Az indirekt bizonyítás A tudomány fejlődése Nullhipotézis és alternatíva Döntés a nullhipotézisről

7 6.2. A hipotézisvizsgálat technikai kérdései Próbastatisztika A p-érték meghatározása Döntés a H 0 -ról p-érték nélkül Egyszerű és összetett hipotézisek Próba ereje További témák Többszörös összehasonlítások Tesztek és konfidencia-intervallumok A szükséges mintaelemszám meghatározása Paraméteres és nemparaméteres eljárások Gyakran használt statisztikai próbák Várható értékekre (populációátlagokra) vonatkozó próbák Egy várható érték Két várható érték, független minták Két várható érték, párosított minták Kettőnél több várható érték Varianciákra vonatkozó próbák Egy variancia Két variancia, független minták Kettőnél több variancia, független minták Eloszlásokra vonatkozó próbák Egy eloszlás: illeszkedésvizsgálat Két változó együttes eloszlása: függetlenségvizsgálat Két vagy több eloszlás: homogenitásvizsgálat Valószínűségekre (populációbeli arányokra) vonatkozó próbák Egy valószínűség Két valószínűség, független minták Két valószínűség, párosított minták Kettőnél több valószínűség, független minták Mediánokra vonatkozó próbák Egy medián Két vagy több medián Rangpróbák Wilcoxon-féle előjeles rangpróba Mann Whitney-féle U-próba Kruskal Wallis-féle H-próba Korrelációszámítás 241

8 8.1. A Pearson-féle korrelációs együttható Hipotézisvizsgálat a Pearson-féle korrelációs együtthatóra vonatkozóan Együtthatók monoton, de nem lineáris kapcsolatokra Regressziószámítás A regressziószámítás szokásos kérdésfeltevései Véletlenség a magyarázó és a függő változóban Mikor használjunk korreláció-, illetve regressziószámítást? Egyszerű lineáris regresszió: I-es modell Hipotézisvizsgálatok A determinációs együttható Predikció a modellben Origón átmenő regresszió Egyszerű lineáris regresszió: II-es modell MA-regresszió SMA-regresszió Többszörös lineáris regresszió Hipotézisvizsgálatok További korrelációs mérőszámok A többszörös korreláció és a determinációs együttható A parciális korreláció Multikollinearitás Regressziós diagnosztika Az illesztett modell jóságának vizsgálata Alkalmazhatósági feltételek vizsgálata Kiugró értékek és torzító pontok Diagnosztikus ábrák Nemlineáris kapcsolatok Lineárisra visszavezethető regressziók Példák változók transzformálásával végzett regressziókra Lineárisra nem visszavezethető regressziók Varianciaelemzés (ANOVA) A számítások Varianciatábla (szórásfelbontás) Csoportok páronkénti összehasonlítása Többtényezős varianciaelemzés Kísérleti elrendezések Véletlen blokkos elrendezés

9 Latinnégyzet-elrendezés Az ANOVA diagnosztikája Kontrasztok Az általános lineáris modell A fejezet példája A kísérlet rövid leírása Exploratív elemzések Statisztikai modellek A modell felírása Példák különböző modellekre Faktorok a lineáris modellben A lineáris modell paramétereinek becslése A becsült értékek és a vetítő mátrix Hipotézisvizsgálat A null- és a telített modell Modell és részmodell összehasonlítása Az összes magyarázó változó együttes tesztelése Több változó szimultán tesztelése Megjegyzések a modellek tesztelésével kapcsolatban A lineáris modellek alkalmazhatóságának feltételei Linearitás Kiugró és torzító pontok Modellválasztás Mit értsünk a legjobb modellen? A legszűkebb modell, amely nem különbözik szignifikánsan a teljes modelltől Információs kritériumok Modellszelekciós eljárások Egyenkénti beléptetés Egyenkénti kihagyás Váltakozó beléptetés-kihagyás Mikor használjuk az aov(), és mikor az lm() függvényt? Négyzetösszegtípusok Többszörös összehasonlítások Kontrasztok az általános lineáris modellben Kontrasztok (általános lineáris hipotézisek) becslése és tesztelése

10 12. Az R-nyelv és -környezet Telepítés RGui A ConTEXT kódszerkesztő Telepítés Első lépések az R-rel Függvények Csomagok Súgó R-munkafolyamat Adatok olvasása és írása Munkakönyvtár Adatok olvasása Adatok írása Adattároló objektumok Vektor Mátrix Data frame-ek Lista Hivatkozás az objektumok elemeire Függelék 415 A. Konfidencia-intervallumok képletei 415 A.1. Normális eloszlású változó átlaga A.2. Két normális eloszlású változó átlaga közötti különbség A.3. Normális eloszlású változó varianciája, illetve szórása A.4. Valószínűség (populációbeli arány) A.4.1. Wald-féle intervallum A.5. Két valószínűség különbsége A.6. Relatív kockázat A.7. Esélyhányados B. Statisztikai táblázatok 427 Irodalomjegyzék 437 Példák listája 439 Tárgymutató 443

11 Előszó Könyvünk megírásához mind a motivációt, mind a tematikát a Szent István Egyetem Állatorvos-tudományi Karán tartott, közösen kidolgozott kurzusaink adták. Az anyag zöme a zoológia szakos hallgatóknak tartott Biomatematika II és Számítógépes statisztika kurzusainkon alapul, de felhasználtuk benne Kísérlettervezés, Regressziószámítás és Bevezetés az R-be PhD tanfolyamaink anyagát is. A könyvet elsősorban a bevezető statisztika kurzusok hallgatóinak szánjuk, hogy segítse őket az alapfogalmak és a legszükségesebb módszerek elsajátításában, valamint a statisztikai szemléletmód kialakításában. Mivel magunk is az élettudományok területén dolgozunk és oktatunk, példáinkat is főleg ilyen területekről vettük, ezért könyvünket valószínűleg a biológus, orvos, állatorvos és agrár szakos hallgatók forgathatják legtöbb haszonnal. A statisztika vizsgára készülő hallgatókon kívül jó szívvel ajánljuk a könyvet azoknak is, akiknek munkájukhoz szükségük van a statisztika alkalmazására, de bizonytalannak érzik magukat ezen a területen, vagy a statisztika logikáját a hétköznapi gondolkodástól idegennek érzik. Reméljük, hogy sikerül bebizonyítanunk, hogy a statisztikai gondolkodásmódban igenis van logika, s a hétköznapi életben a Kedves Olvasó is gyakran így gondolkodik, csak esetleg nem veszi észre. Arról is szeretnénk meggyőzni az olvasót, hogy a statisztika nem csupán szükséges rossz, hanem hasznos segítség annak megítélésében, hogy mennyire bízhatunk (vagy mennyire kell kételkednünk) egy kapott eredményben. Végül azt is szeretnénk bebizonyítani, hogy a statisztika nem varázslás, hanem bárki számára igaz, némi erőfeszítés árán elsajátítható. Könyvünk hasznos lehet azoknak a statisztikát jól ismerő és munkájukban rendszeresen használó kutatóknak is, akik szeretnének közelebbről megismerkedni az R programcsomaggal. Az R egy ingyenes, de ennek ellenére tökéletesen professzionális statisztikai programcsomag, amelyet mi magunk is egyre növekvő lelkesedéssel használunk mindennapi munkánkban. Az R nemcsak ingyenes volta miatt vonzó, hanem azért is, mert a statisztikai 1

12 2 Reiczigel Harnos Solymosi: Biostatisztika módszerek szinte végtelen választékát kínálja, és nagyon friss, tehát komoly esély van arra, hogy egy-egy vadonatúj statisztikai eljárás leghamarabb R- ben válik elérhetővé. A könyv írása során igyekeztünk megtalálni az egyensúlyt két véglet között: az egyik a receptkönyv, amely elmondja, hogy mit hogyan kell csinálni, de arról hallgat, hogy miért; a másik az elméleti matematikai statisztika tankönyv, amely gyakorlati problémák megoldásával egyáltalán nem foglalkozik. Egyensúlyt találni sohasem könnyű feladat, bizonyára helyenként nekünk sem sikerült, amiért előre elnézést kérünk az olvasótól. Egy olyan alkalmazott statisztika tankönyvet szándékoztunk írni, amely igyekszik a miérteket is megválaszolni, de ahol csak lehet szemléletesen, a matematikai részletek tárgyalása nélkül, lehetőleg minél kevesebb elvont definícióval és képlettel terhelve az olvasót. Inkább azt próbáljuk elmondani, hogy mi az a szemléletes tartalom, ami a definíciók és képletek mögött van, ami miatt ezek ilyen néha barátságtalan formát kell, hogy öltsenek. Az elméleti részeket pedig igyekeztünk minél több példával érthetővé tenni. Törekedtünk arra is, hogy a könyv megértéséhez elegendő legyen a középiskolai matematika anyag ismerete. Egyedül a mátrixokkal és vektorokkal kapcsolatos alapismereteket kell az olvasónak máshonnan elsajátítani: ezekre a könyv utolsó fejezeteinek megértéséhez lesz szükség. Ajánljuk például Freud Róbert: Lineáris algebra című könyvét (Eötvös Kiadó, 2005). Könyvünk honlapjáról ( is letölthető egy rövid összefoglaló a szükséges ismeretekről. Azoknak, akik a középiskolában nem tanultak valószínűségszámítást, vagy nehézségeik voltak vele, hasznos lehet egy bevezető valószínűségszámítási könyv előzetes tanulmányozása is (például Solt György: Valószínűségszámítás, Bolyai Könyvek sorozat, Műszaki Könyvkiadó, 2005). Van néhány dolog, amit bár nem lett volna ellenünkre mégsem tudtunk felvállalni. Tehát mit ne várjon a Kedves Olvasó a könyvünktől: Terjedelmi okokból lemondtunk a valószínűségszámítás részletes tárgyalásáról, csak egy néhány oldalas összefoglalóban ismertetjük a legszükségesebb fogalmakat. Mentségünkre szolgál, hogy a magyar szakkönyvpiacon valószínűségszámításból nagyobb a választék mint statisztikából, R-es bevezető statisztika könyv pedig egyáltalán nincsen; mi elsősorban ezt a hiányt szerettük volna pótolni. A matematikai precizitásból a legtöbb helyen engedtünk, amiért a matematikusoktól elnézést kérünk. Több definíción a könnyebb érthetőség kedvéért egyszerűsítettünk, vagy csak szemléletes definíciót adtunk. Ilyenkor megjegyzésben vagy apró betűs részben utalunk arra, hogy eltértünk a matematikai statisztikában szokásos definíciótól.

13 Előszó 3 Egy-egy mondatnyi megjegyzéstől eltekintve egyáltalán nem foglalkozunk a bayesi statisztikával. Egyrészt terjedelmi okokból, másrészt azért, mert a statisztikával most először ismerkedők helyzetét nem akartuk azzal nehezíteni, hogy egyszerre két különböző szemléletmódot tárunk eléjük. Mentségünkre szolgál, hogy bayesi statisztika a bevezető kurzusok legtöbbjében egyáltalán nem, vagy legfeljebb csak az említés szintjén szerepel. Az R szinte végtelenül gazdag lehetőségeinek bemutatása is meghaladja e könyv lehetőségeit. Ha a Kedves Olvasó az R-et már valamennyire tudja használni, akkor speciális problémáira a túléléselemzéstől kezdve a genomikáig az interneten nagyon sok kész R csomagot (értsd: kész programokat) találhat, amelyekhez készítőik részletes leírást is mellékeltek. Teljességre törekedni már csak azért is lehetetlen volna, mert az R-es közösség tagjainak munkája révén nap mint nap új R-csomagok készülnek. (A kézirat lezárásakor az elérhető csomagok száma meghaladja a 900-at!) Lehet, hogy az R lelkes felhasználójává válván, egyszer majd a Kedves Olvasó is közzétesz egy saját fejlesztésű csomagot. Könyvünk a kézi számoláshoz szükséges képletek közül csak a legalapvetőbbeket tartalmazza, lényegében csak azokat, amelyek a bevezető kurzusokon a feladatok megoldásához kellenek. Ma már a számítógépes programok alkalmazása mentesít a képletekkel való számolástól. A mai felhasználónak inkább azzal kell tisztában lennie, hogy mikor melyik módszert alkalmazhatja, mik a módszer alkalmazhatósági feltételei, és hogy hogyan értelmezze az eredményeket, mintsem a számítások részleteivel. Mégis, elsősorban a bevezető kurzusok hallgatóira gondolva, a legfontosabb képletek alkalmazására bemutatunk néhány kézi számolásos példát is. Hasonló a helyzet egyes klasszikus módszerekkel: a gyakorlatban már sohasem használjuk őket, mert ma már vannak sokkal hatékonyabb módszerek is, de a könyvből nem akartuk kihagyni, mert a bevezető kurzusokon elsősorban didaktikai okokból mégis ezeket tanítjuk. Az eljárásokat ismertető eredeti közleményekre nem hivatkozunk, csak azt az R-függvényt adjuk meg, amellyel az eljárást végrehajthatjuk. Ha valakit az eljárások elméleti háttere érdekel, akkor azt ajánljuk, hogy az R-függvény leírásában (súgó) szereplő hivatkozásból induljon ki. Ezenkívül az irodalomjegyzékben megadunk néhány alapművet, amelyekben sok módszer részletes leírása megtalálható. A könyv kézirata a TEX szövegszerkesztő rendszer MiKTeX 2.5 implementációjában készült ( Felhasználtuk Fritz Leisch

14 4 Reiczigel Harnos Solymosi: Biostatisztika Sweave rendszerét ( leisch/sweave), amellyel a TEX és R-kódokat együtt tudtuk kezelni. Könyvünk honlapjának címe: ahol a Kedves Olvasó a könyvben szereplő példák R-kódjait, további segédanyagokat és programokat találhat. Olvasóink visszajelzéseit is szívesen fogadjuk a honlapon megadott címen. Kérjük, hogy ha hibát találnak, mielőbb írják meg, mert a honlapon egy on-line hibajegyzék is elérhető! Köszönetnyilvánítás Ezen könyv megszületése bár csak három szerző jegyzi nagyon sokak munkájának, biztatásának, lelkesedésének köszönhető. Hálánk jeléül felsoroljuk azokat, akik tevőlegesen hozzájárultak a könyv létrejöttéhez, tudva azt, hogy rajtuk kívül még sokakat felsorolhatnánk. A könyv lektorálásában részt vettek: Lang Zsolt, Kis János, Kiss Alexa, Abonyi-Tóth Zsolt, Lőkös László, Valcz Gábor, Maróti-Agóts Ákos, Szőke Dominika, Speiser Ferenc, Lakos András. Akiknek az adatait felhasználhattuk a példákhoz: Takács Erzsébet, Székely Tamás, Kis János, Peregovits László, Kőrösi Ádám, Mándoki Míra, Nagy Péter, Kabai Péter. Sokan támogatták erőfeszítéseinket azzal, hogy olyan körülményeket teremtettek nekünk, amelyek lehetővé tették a könyv megírását: Fodor János, Fodor László, Harnos Zsolt, Kövér Szilvia, Demeter Márton, Szabó Gabriella. Akik biztattak minket: Kis János, Varga Zoltán, Izsák János, Papp Péter László, Rózsa Lajos, Barta Zoltán, Pénzes Zsolt, Miklósi Ádám, Boda Krisztina és még sokan mások. És természetesen hálával tartozunk családtagjainknak Szekeres Zsuzsának, Dala Sárának, Vattay Gábornak, Enikőnek, Gergőnek és Daninak azért, hogy elviselték a könyvírás nehéz időszakát. Könyvünk az Oktatási és Kulturális Minisztérium támogatásával, a Felsőoktatási Tankönyv- és Szakkönyvtámogatási Pályázat keretében jelent meg, és a T számú OTKA pályázat támogatásával készült. SZIE ÁOTK Biomatematika Tanszék és BCE-MTA Alkalmazkodás a klímaváltozáshoz kutatócsoport, Budapest, június 20. Reiczigel Jenő Harnos Andrea Solymosi Norbert

15 Hogyan olvassuk ezt a könyvet? Hogyan olvassuk ezt a könyvet? 5 Könyvünk minden fejezetének hasonló a szerkezete. Valamennyi témát egy általános bevezetővel kezdünk, majd az elmélet ismertetésével és példákkal való illusztrálásával folytatjuk. Az elméleti magyarázatok néha apró betűs részeket is tartalmaznak. Ezek olyan megjegyzések vagy kiegészítések, amelyek a téma megértéséhez nem elengedhetetlenek, valamiért mégis fontosnak tartottuk megemlíteni őket. Az apró betűs részeket az olvasó akár át is ugorhatja, ez a megértést nem gátolja. A példáknak három fajtája van: Csupán az elmélet illusztrálását szolgáló példák, ezekkel az olvasónak nincs más teendője, csak az, hogy igyekezzék megérteni őket. E példák célja, hogy segítségükkel az elméleti definíciókat szemléletes tartalommal töltsük meg. Érdemes ezeken úgy végigmenni, hogy pontról pontra megnézzük, hogy az előzőekben definiált fogalmak minek felelnek meg a példában. Kézi számolással megoldható példák, amelyeket hasznos lenne, ha az olvasó maga is végigszámolna. Sokszor csak így derül ki ugyanis, hogy a módszer egyes részleteit is jól érti-e. A bevezető kurzusok hallgatóinak a példák végigszámolása a statisztika dolgozatra való felkészülés részeként mindenképpen ajánlatos. R-es példák, amelyeket ha a Kedves Olvasó járatos az R-ben, vagy meg szeretné tanulni a használatát mindenképpen hasznos lenne, ha kipróbálna. Az R telepítéséhez szükséges tudnivalókat lásd Az R- nyelv és -környezet (12.) fejezetben. A példák kipróbálásához segítség a könyv honlapja, ahonnan a könyvben szereplő R-kódok (= utasítások, programok) letölthetők. Azt ajánljuk azonban, hogy a Kedves Olvasó sajátkezűleg is írjon R-kódokat, mert ha csak a könyv honlapján találtakat másolja le és futtatja, akkor egyes fontos részletek (zárójelek, határoló jelek, matematikai műveleti jelek, kis- és nagybetűk használata stb.) könnyen elkerülhetik a figyelmét. A könnyebb visszakereshetőség kedvéért a példáknak nevet adtunk, és ha ugyanaz a példa különböző összefüggésekben többször is előkerül, a név eleje megegyezik (például Elléstől az ovulációig eltelt idő előjelpróba és Elléstől az ovulációig eltelt idő Mood-féle mediánpróba ). A példák listáját megadjuk a könyv végén (439. oldal). A példákban szereplő R-függvényeknek mindig csak azokat a paramétereit ismertetjük, amelyeknek a szóban forgó példában szerepük van. A függvényeknek általában sokkal több paramétere van, amelyeknek az R súgójában lehet utánanézni. Ha egy példában valaminek a jelentése vagy hasz-

16 6 Reiczigel Harnos Solymosi: Biostatisztika nálatának módja nem derül ki egyértelműen, akkor is az R súgóját ajánljuk, ahol általában további bemutató példákat találhatunk. Az ábrákhoz tartozó R-kódokat nyomdatechnikai és tördelési követelmények miatt esetenként meg kellett változtatnunk. Az ilyenkor alkalmazott különleges beállítások kezdők számára érdektelenek, és valószínűleg értelmezhetetlenné tennék a kódokat, ezért ezek ismertetésétől eltekintünk. Természetesen csak formai különbségekről van szó, az ábrák tartalma megegyezik a közölt R-kódokból előállítható ábrákéval. A hagyományos számoláshoz a Függelékben eloszlástáblázatokat (standard normális, Student-féle t, khi-négyzet és F ) és egy véletlenszám-táblázatot is közlünk. Szükséges előismeretek A teljes középiskolai matematika anyag ismeretét feltételezzük, de néhány fejezetet külön is kiemelünk, mert ezek ismeretét különösen fontosnak tartjuk. Egyik ilyen fejezet a logika. Érteni kell, hogy mit jelent az, hogy egy állításból logikailag következik egy másik állítás. Tisztában kell lenni azzal, hogy mit jelentenek és mikor igazak az és -sel, illetve vagy -gyal képzett összetett állítások és a ha-akkor típusú kijelentések. Azt is tudni kell, hogy hogyan képezhetjük az ilyen összetett állítások tagadását. Ismerni kell a halmazműveleteket: a metszetet, egyesítést és a komplementer halmaz képzését. Ismerni kell a kombinatorika alapfogalmait, de legalább a faktoriális jelölést: 5! = , k! = 1 2 k és a binomiális együtthatókat: ( ) 8, 3 ( ) n = k n! k! (n k)!. Tudni kell hatványokkal és logaritmussal számolni, ismerni kell a természetes alapú ( e alapú: ln) logaritmust is. Reméljük, hogy valószínűségszámításból a középiskolás anyag kiegészítve a könyv valószínűségszámítás fejezetével elegendő a további részek megértéséhez. Az utolsó fejezetekhez szükség lesz a mátrixokkal kapcsolatos alapismeretekre is, ezek azonban nem haladják meg a biológus, állatorvos stb. szakosok bevezető matematika előadásaiban foglaltakat.

17 2.2. Leíró és induktív statisztika 2.2. Leíró és induktív statisztika 27 A leíró statisztika (descriptive statistics) a statisztikának az az ága, amelyik az adatokban rejlő információ emészthető formában való tálalásával foglalkozik. Ez jelentheti az adatok rendezését, csoportosítását (táblázatok), megjelenítését (grafikonok, diagramok, piktogramok), illetve statisztikai mérőszámokkal való jellemzését (minimum, maximum, átlag, szórás stb). A leíró statisztika azért fontos, mert nagy adatmennyiségek több ezer adat esetén hiába tennénk közzé az összes számot, közönséges halandó úgysem tudna mit kezdeni vele. A leíró statisztika eszközei a különféle táblázatok (table), diagramok (chart, plot, diagram) és statisztikai mérőszámok (statistic). Az első kettőre példa a 2.1. táblázat és a 2.1. ábra, a statisztikai mérőszámokat pedig egyszerűen a szövegben szokás közölni, például így: A mintában a testmagasság és a testtömeg között szoros összefüggést találtunk (Pearsonféle korrelációs együttható: r = 0.53). Az ábrák információgazdagságának szép példája a népességtudományban használatos korfa, amely nem és kor szerinti bontásban szemlélteti a populáció összetételét (2.2. ábra). Tipikus a leíró statisztika használata akkor, amikor teljeskörű adatfelvétel történik, például népszámlálási vagy választási adatok, bejelentési kötelezettséggel járó fertőző betegségek esetén, vagy ha egy vizsgált állattartó telepen valamennyi állat adatai rendelkezésre állnak stb. Már említettük azonban, hogy legtöbbször nincs módunk a teljes populációt megvizsgálni, ezért kénytelenek vagyunk csupán egy minta vizsgálatából levonni a populációra érvényes következtetéseket. Ekkor lép színre az induktív statisztika (statistical inference) az induktív szónak az általánosító értelmében (mint az egyediből az általánosra való következtetés). Természetes, hogy egy ilyen következtetéstől nem várjuk el, hogy 100% biztonsággal helyes legyen, csak azt, hogy nagy valószínűséggel, ami általában szakterülettől függően 90, 95 vagy 99%-os megbízhatóságot, azaz 10, 5 vagy 1% tévedési valószínűséget jelent. A megbízhatóság, illetve a tévedési valószínűség pontos jelentését nem könnyű megérteni. A legegyszerűbb, ha úgy gondolunk rá, hogy ha sokszor alkalmazzuk a szóban forgó módszert, akkor várhatóan az esetek hány százalékában kapunk helyes, illetve téves eredményt. Az induktív statisztika két legjellemzőbb feladata a becslés (estimation) és a hipotézisvizsgálat (hypothesis testing). A becslés a Mennyi? Mekkora? Hány százalék? stb. kérdésekre vár választ, mégpedig egy (vagy néhány) számot. A hipotézisvizsgálatban ezzel szemben Igen/Nem választ

18 28 Reiczigel Harnos Solymosi: Biostatisztika 2.1. táblázat. Testmagasság és testtömeg összefüggésének ábrázolása táblázattal Testtömeg Testmagasság < 80 kg 80 kg < 175 cm cm Magasság (cm) Testtömeg (kg) 2.1. ábra. Testmagasság és testtömeg összefüggésének ábrázolása szórásdiagrammal várunk az Igaz-e? Fennáll-e? Van-e összefüggés...? Van-e hatása...? Van-e különbség...? stb. kérdésekre. A leíró és induktív statisztika nem mindig választható szét élesen. Amikor több ezres mintákkal dolgozunk, akkor már a minta jellemzéséhez is szükség van a leíró statisztika módszereire, bár a fő cél ilyenkor is a populációra érvényes következtetések levonása, amelyhez az induktív statisztika szükséges. Másfelől kis minták esetén is előnyös a leíró statisztika módszereinek különösen a grafikus megjelenítésnek az alkalmazása azért, hogy az információkat szemléletesebben, illetve hatásosabban tudjuk közölni. Az induktív statisztikai vizsgálatokban azért is fontosak a leíró statisztika módszerei, mert segítségükkel jobban átláthatjuk adatainkat, észrevehetjük olyan tulajdonságaikat, amelyek döntően befolyásolják az elemzésükhöz legmegfelelőbb módszerek kiválasztását.

19 2.4. Az adatok 2.4. Az adatok 33 Egy kutatási kérdés felvetődésétől általában több lépésen és nagyon sok fáradságon keresztül vezet el az út addig, amíg a vizsgálat adatai összeállnak. Ilyen lépések a kutatási kérdés pontosítása, operacionalizálása (= mérhető formában való megfogalmazása), a megválaszolásához szükséges mérési módszerek megválasztása vagy kidolgozása, a vizsgálat részleteinek megtervezése, a megfigyelési egységek kiválasztása, esetleges előkísérletek stb. Ezekkel a kérdésekkel most nem kívánunk foglalkozni, csak annyit jegyzünk meg, hogy ezek mind a kísérlettervezés (experimental design, study design) vagy a kutatásmódszertan, illetve kutatástervezés (research methodology, research planning) témakörébe tartoznak. A vizsgálat elvégzése után az összegyűlt adatokat hagyományosan papíron tárolták, manapság pedig a számítógépen, általában valamilyen táblázatkezelő program segítségével (Lotus, Excel, Calc stb.). Mivel a táblázatkezelő programok a kockás papírt utánozzák, az emberek a számítógépes tárolásra is ugyanolyan formát szoktak választani, mint ha papírra írnának, azaz amely a legkevesebb írásmunkával jár, és a szemnek is a legáttekinthetőbb. Általában több kisebb, jól áttekinthető táblázatba csoportosítják az adatokat, kerülik az ismétlést, ismétlődő adatokat inkább fejlécbe tesznek, fontos adatokat színekkel, kiemelésekkel, magyarázó szövegekkel jeleznek. Sajnos a statisztikai programok másképp sokkal egyszerűbben, mondhatni egészen bután gondolkodnak, számukra az egyetlen érthető forma a legegyszerűbb, csoportosítás és kiemelések nélküli elrendezés, egyetlen fejléccel, egyes adatokat akár ezerszer is megismételve: ez az úgynevezett adatmátrix (2.2. táblázat) Adatmátrix Az adatmátrix (data matrix) az R-ben data frame a neve egy olyan táblázat, amelynek minden sora egy megfigyelési egységnek (személy, állat, vérminta stb.), oszlopai pedig az egyes mért vagy megfigyelt adatoknak (kor, nem, testtömeg stb.) felelnek meg. A sorokat eseteknek (case), az oszlopokat változóknak (variable) nevezzük. Ezt a szokásos elrendezést és elnevezéseket azért kell ismernünk, mert a statisztikai programok legtöbbje így az R is az elemzendő adatokat ilyen formában várja, az eredmények kiírásakor pedig rendszerint a case és variable elnevezéseket használja. A továbbiakban a megfigyelési egység helyett mi is legtöbbször a rövidebb eset elnevezést fogjuk használni, a megfigyelési egységeken mért adat helyett pedig változó -t mondunk. Célszerű az

20 34 Reiczigel Harnos Solymosi: Biostatisztika 2.2. táblázat. Táblázat ugyanazokról a kísérleti adatokról, ahogy a táblázatkezelőben saját magunk számára elrendeznénk (a), és ahogy a statisztikai programok várják (b). Az ID az állat egyedi azonosítója (identifier) (a) (b) adatmátrixot úgy elkészíteni, hogy első sora a változók nevét tartalmazza, mert az R ezeket a neveket át tudja venni, és később a változókra az R-ben is ezekkel a nevekkel hivatkozhatunk. Arra is van mód, hogy az adatmátrix valamelyik oszlopa az esetek nevét vagy azonosítóját tartalmazza. Adatok adatmátrix formában való elrendezésére példát mutat a 2.2. (b) ábra. Az adatok lehetnek akár számértékek, akár szöveges adatok, akár kódok. A kódok olyan értékek, amelyek csak azonosításra szolgálnak: legyenek bár számok, akkor sem számolhatunk velük: ilyen például a 2.2. (b) ábrán az ID nevű változó. Ha az adatbevitelt táblázatkezelő programmal végeztük, és az adatokat már a fenti az adatmátrixnak megfelelő formában rendeztük el, akkor csak az a kérdés, hogy hogyan tudjuk ezt az R-nek átadni. Erre egy egyszerű

21 6.1. A statisztikai hipotézisvizsgálat alapgondolata 161 A p-értéket szignifikanciaszintnek (significance level) is nevezik, sokszor a számítógépes programok is ezen a néven közlik. Akkor mondjuk, hogy egy mintában megfigyelt tulajdonság (különbség, összefüggés stb.) statisztikailag szignifikáns, ha túlmegy azon a mértéken, amit még nyugodt lélekkel a véletlen számlájára írhatnánk. Egy szignifikáns eredmény arra enged következtetni, hogy a mintában megfigyelt különbség, összefüggés stb. nemcsak a mintában, hanem a populációban is fennáll. A p-érték definíciójából következik, hogy azok az eredmények szignifikánsak, amelyekhez kis p-érték tartozik. Hagyományosan a határ 5%, azaz ha p 0.05, akkor szokás azt mondani, hogy az eredmény szignifikáns. Ha ezt a szabályt követjük, vagyis a H 0 -t akkor vetjük el, ha p 0.05, akkor a döntésünk elsőfajú hibájának valószínűsége 5% lesz: az igaz nullhipotézisek 5%-át fogjuk tévesen elvetni. De el is szabad térni az 5%-tól: egyes területeken az 1%-os határ a szokásos. Hogy semmiképp ne legyen félreérthető, fogalmazhatunk úgy is, hogy az eredmény 5%-os szinten szignifikáns példa. Sertések hizlalása hipotézisvizsgálatok Egy kísérletben sertések hizlalásához új táplálék-kiegészítőt próbáltak ki. Húsz állat kapta a táplálék-kiegészítőt, átlagos testtömeg-növekedésüket húsz kontroll állatéval hasonlították össze. A kérdés az volt, hogy nagyobb-e a testtömeg növekedése a kísérleti csoportban. A hipotéziseket az átlagos testtömeg-növekedéssel fogalmazták meg. H 0: a testtömeg-növekedés átlaga a két csoportban azonos, H 1: a testtömeg-növekedés átlaga a táplálékkiegészítővel kezelt csoportban nagyobb. Az átlagok összehasonlítását R-rel, a t-próba Welch-féle változatával végezték, amely nem követeli meg a két csoportban a varianciák egyenlőségét. A próba részleteiről lásd a fejezetet; most csak annyit szeretnénk bemutatni, hogyan döntünk a H 0-ról a p-érték alapján egy R-es elemzésben. A két csoportban mért testtömeg-növekedés értékeket a tt.kiserleti és a tt.hagyomanyos változók tartalmazzák. A megfelelő R-kód és output: > t.test(tt.kiserleti, tt.hagyomanyos, alternative = "greater") Welch Two Sample t-test data: tt.kiserleti and tt.hagyomanyos t = , df = , p-value = alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: Inf sample estimates: mean of x mean of y

22 232 Reiczigel Harnos Solymosi: Biostatisztika Nulleloszlás: Saját neve nincsen, de kis mintaelemszámokra kiszámolták, és a kritikus értékeket táblázatba foglalták. Figyelem, az ilyen táblázatok csak akkor használhatók, ha nincsenek kapcsolt rangok! Ebben a könyvben nem közöljük a táblázatokat, inkább az egzakt tesztet végző R- függvényeket ajánljuk, mert akkor a kapcsolt rangoktól függetlenül mindig pontos eredményt kapunk. n(n+1)(2n+1) 24 paramé- A nulleloszlást hagyományosan a µ = n(n+1) 4, σ = terű normális eloszlással szokták közelíteni nagyobb mintákra, a kritikus értékeket ebből számolják példa. Vásárlások egy boltban Wilcoxon-féle előjeles rangpróba Egy boltban egy óra alatt 10 vevő vásárolt, mégpedig az alábbi értékben (az értékek ezer forintban). Vizsgáljuk meg a Wilcoxon-féle előjeles rangpróbával, vajon az adatok ellentmondanak-e annak a hipotézisnek, hogy az összegek eloszlásának középértéke eléri a 9 ezer forintot! H 0 : med = 9 H 1 : med < 9 Összegek Eltérések Rangok * 6 * * 10 * Egyenlőség esetén mindegyik érték az összesen rájuk jutó rangok átlagát kapja (kapcsolt rangok). A pozitív eltérésekhez tartozó rangok összege (Vegyük észre, hogy a pozitív és negatív eltérésekhez tartozó rangösszegek együtt éppen n = n(n + 1)/2-t kell hogy kiadjanak, ahol n a mintaelemszám: jelen esetben = 55!) Ha papíron számolunk, akkor a kapcsolt rangok miatt a normális közelítést kell alkalmaznunk, vagyis a 19.5-öt a µ = 10 11/4 = 27.5 várható értékű és σ = /24 = 9.81 szórású normális eloszláshoz kell hasonlítanunk. Egyoldali ellenhipotézisünk van, és a statisztika az ellenhipotézis irányába mutat, tehát a döntéshez a statisztikát a nulleloszláshoz kell viszonyítanunk. A p-érték meghatározásához a standard normális eloszlás táblázatából a /9.8 = 8/9.81 = 0.82 értékhez tartozó valószínűségre van szükségünk: innen p = Szokás úgynevezett folytonossági korrekciót is alkalmazni, ami azt jelenti, hogy a statisztika számlálóját 0.5-tel csökkentjük. Ennek hátterében az áll, hogy nem akarjuk, hogy az elvártnál nagyobb valószínűséggel vessük el a nullhipotézist csupán azért, mert a statisztika diszkrét, mégis egy folytonos eloszláshoz viszonyítjuk. A korrekcióval tehát mindig konzervatívabbá tesszük a próbát, mint amilyen anélkül volna (vö. a Yates-féle korrekcióval a khi-négyzet-próbáknál, 216. oldal) A példában folytonossági korrekció alkalmazása esetén a standard normális táblázatból a 7.5/9.81 = 0.76 értékhez tartozó valószínűséggel számolunk, ahonnan p = Az R-es megoldás:

23 9.6. Egyszerű lineáris regresszió: II-es modell 265 Jobb szárnyhossz (mm) OLS MA SMA Jobb csüdhossz (mm) 9.6. ábra. Széki lilék jobb szárny- és csüdhossz adataira különböző módszerekkel illesztett egyenesek > (MAreg <- line.cis(jszarny, jcsud, data = lile, method = "MA")) coef(ma) lower limit upper limit elevation slope > (SMAreg <- line.cis(jszarny, jcsud, data = lile, method = "SMA")) coef(sma) lower limit upper limit elevation slope Jól látható, hogy mekkora az eltérés az együtthatók becslései között. Még látványosabb a különbség, ha ábrázoljuk az illesztett egyeneseket (11.13 ábra). Az abline() függvény argumentumába be kell írni a regressziók eredmény objektumainak (amelyek listák) megfelelő elemeit (y tengelymetszet és meredekség). A legend() függvénnyel adott pozícióba (első két argumentum) cimkéket helyeztünk el az ábrán. > with(lile, plot(jcsud, jszarny, main = "", + xlab = "Jobb csüdhossz (mm)", + ylab = "Jobb szárnyhossz (mm)")) > abline(olsreg[[1]][1], OLSreg[[1]][2], lty = 1) > abline(mareg[[1]][1], MAreg[[1]][2], lty = 2) > abline(smareg[[1]][1], SMAreg[[1]][2], lty = 3) > legend(30, 102, lty = 1:3, legend = c("ols", "MA", "SMA"), bty = "n") Ha feltehetjük, hogy a csüd- és szárnyhossz relatív szórása (szórás/átlag) azonos, akkor az SMA-módszert válasszuk!

24 362 Reiczigel Harnos Solymosi: Biostatisztika Nézzük meg a reziduum-becsült érték szórásdiagramot ( (a) ábra)! > plot(ozmod, 1, pch = 20) Az ábra alapján lehetnek kétségeink a linearitást illetően. Készítsünk a TESTH kovariánsból egy nominális változót (faktort) a cut() függvény segítségével! Argumentumként meg kell adni a folytonos változót, azt, hogy hol legyenek a kategóriák határai (breaks), majd azt, hogy a kategóriákat hogyan címkézzük (opcionális). Most összesen három kategóriát képezünk (a kicsi, közepes és nagy őzeknek megfelelően). > oz$testhfaktor <- cut(oz$testh, breaks = c(50, 80, 110, 130), + labels = c("kicsi", "közepes", "nagy")) > ozmodkat <- lm(tomeg ~ SEX + TESTH + TESTHfaktor, data = oz) > anova(ozmodkat) Analysis of Variance Table Response: TOMEG Df Sum Sq Mean Sq F value Pr(>F) SEX e-08 *** TESTH < 2e-16 *** TESTHfaktor e-04 *** Residuals Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Az új faktor hatása szignifikáns, ami igazolta azt a gyanúnkat, hogy linearitási problémáról van szó. Nézzük meg a reziduum-becsült érték szórásdiagramot ( (b) ábra): > plot(ozmodkat, 1, pch = 20) Láthatóan megszűnt a linearitási probléma Kiugró és torzító pontok Általánosságban elmondhatjuk, hogy ugyanazok érvényesek itt is, mint a regressziószámításban (9.10. fejezet). A hatóerő számítása a vetítő mátrixból (H) történik. Bebizonyítható, hogy az i-edik megfigyelés hatóereje éppen egyenlő a vetítő mátrix főátlójában álló i-edik értékkel. A hatóerőt (hat value) h i a hatvalues() függvénnyel számíthatjuk ki R-ben. Tulajdonságai: Az átlagos hatóerő: h = p/n, ahol p a paraméterek, n a megfigyelések száma. A hatóerők 1/n és 1 közé esnek.

25 11.7. Modellválasztás 363 (a) (b) Residuals Residuals Fitted values Fitted values ábra. A reziduumok a becsült értékek függvényében a testhossz-kategóriák nélkül (a), és a testhossz-kategóriákkal (b) illesztett modellek esetén Egyszerű lineáris regresszió esetén a hatóerő az X értékek átlagától mért távolságot méri (ld oldal): h i = 1 n + (x i x) 2 n j=1 (x j x) 2. Többszörös regresszió esetén az X-ek átlagvektorától való távolságot méri. Arra nézve, hogy mikor tekinthetünk egy hatóerőt jelentősnek, nincs egzakt szabály. Általában azt mondhatjuk, hogy akkor kell odafigyelni, ha értéke meghaladja az átlagos hatóerő kétszeresét, azaz h i > 2 p/n. Sajnos nagy minták esetén ez a szabály nem igazán működik. Torzító pont esetén vele és nélküle is tanácsos illeszteni a modellt publikáció esetén ez általában elvárás. Így egyszerűen követhető a torzító pont hatása Modellválasztás Előfordulhat exploratív, előkészítő elemzés (vagy rosszul tervezett vizsgálat!) esetén, hogy bizonytalanok vagyunk abban, hogy mely változókat vonjuk be a modellbe. A következőkben felsorolt eljárások és kritériumok ilyen esetekben segíthetnek. Mindig van egy legbővebb (keret- vagy referencia-) modell, amelyik az összes reménybeli magyarázó változót tartalmazza (beleértve a szóba jöhető hatványaikat és interakcióikat is). Így minden potenciális modell úgy tekinthető, mint ennek a legbővebb modellnek a leszűkítése.

26 Példák listája 2.1. Véletlen számok mintavételhez Matek osztályzatok gyakorisági táblázat Testtömeg-index kiszámítása R-rel Studentizált értékek kiszámítása R-rel Rangok kiszámítása R-rel Elsőéves hallgatók testmagassága kiugró értékek Relatív kockázat és esélyhányados kapcsolata Kockadobás Hányadik dobásra jön ki először fej Balkezesek száma hipergeometrikus eloszlás Balkezesek száma hipergeometrikus eloszlás, dhyper() függvény Balkezesek száma binomiális eloszlás Balkezesek száma binomiális eloszlás, dbinom() függvény Hipergeometrikus eloszlás közelítése binomiálissal Percenkénti hívásszámok a mentőknél Poisson-eloszlás Számolás eloszlásfüggvényekkel Kocák alomszáma gyakoriságtáblázat és oszlopdiagram Inszeminálások száma gyakoriságtáblázatok és diagramok Kontingencia tábla Regressziós kurzus hallgatóinak adatai szórásdiagramok Regressziós kurzus hallgatóinak adatai boxplot és átlag ± szórás Átlagszámítás Súlyozott átlag kiszámítása Trimmelt átlag kiszámítása Variancia kiszámítása Medián abszolút eltérés (MAD) kiszámítása Szarvasmarhák testtömege szórás és relatív szórás Elsőéves hallgatók testmagassága kvartilisek

27 Irodalomjegyzék Kutyák daganatai függetlenség esetén várt gyakoriságok Kutyák daganatai khi-négyzet-próba R-rel Kutyák daganatai khi-négyzet-próba papíron számolva Kutyák daganatai Fisher-féle egzakt próba R-rel Szabályos-e az érme próbák R-rel Valószínűségek összehasonlítása Elnökjelöltek televíziós vitája McNemar-próba Elléstől az ovulációig eltelt idő előjelpróba Elléstől az ovulációig eltelt idő Mood-féle mediánpróba Vásárlások egy boltban Wilcoxon-féle előjeles rangpróba Reakcióidő megnövekedése Wilcoxon-próba Vérszegénység kezelése Mann Whitney-próba Pipacsok számlálása Kruskal Wallis-próba Regressziós kurzus szórásdiagram és korrelációs együttható Regressziós kurzus a korrelációs együtthatóra vontakozó próba Elsőéves hallgatók monoton, nemlineáris korreláció Regressziós kurzus monoton, nemlineáris korreláció tesztelése Mérési módszerek összehasonlítása Regressziós kurzus egyszerű lineáris regresszió Regressziós kurzus summary() Regressziós kurzus konfidencia- és predikciós sáv Regressziós kurzus origón átmenő regresszió Széki lilék II-es modell regreszió Regressziós kurzus szórásdiagram-mátrix Regressziós kurzus többszörös lineáris regresszió Regressziós kurzus többszörös lineáris regresszió Őzek parciális korreláció Őzek multikollinearitás Súlyozott regresszió Standardizált jackknife-reziduumok Torzító pontok detektálása Logaritmikus összefüggés Csibék exponenciális összefüggés Csibék korrelált exponenciális illesztés Őzek hatványfüggvény-összefüggés Őzek telítődési görbe illesztés Csibék logisztikus görbe

28 Tárgymutató I-es modell 251 I. típusú négyzetösszeg 370 II-es modell 251, 252, 263 II. típusú négyzetösszeg 370 A, Á abline() 255, 264 abszolút (arány) skála 90 abszolút (arány-) skála 35, 38 abszolút eltérés 110 adatmátrix 33, 116 adatpótlás (imputálás) 47 adatstruktúra csoportos 281 ismételt méréses 281 aggregált eloszlás 50 AIC 365, 366, 369 Akaike-kritérium 365 állandó hiba variancia 360 alsó határ 178 alsó kvartilis 109, 114 általános lineáris hipotézis 375 általános lineáris modell 339 általánosíthatóság 338 alternatív hipotézis 151, 156 ANCOVA 323, 339, 347 ANOVA 202, 339, 355, 374 Anova() 370 anova() 257, 355, 356, 365, 368 ANOVA-modell 370 ANOVA-tábla 315, 316 aov() 314, 316, 323, 369 apropos() 394 arány- (abszolút) skála 35, 37 array() 403 as.factor() 38, 341 as.matrix() 400 assign() 390 asszociáció 117 asszociációs együttható 117 aszimptotikus (tulajdonság) 137 aszimptotikus normalitás 131, 140, 144, 145 aszimptotikus pivot 143 aszimptotikus próba 170 aszimptotikus torzítatlanság 137, 139, 140, 144 átlag 17, 19, 49, 67, 77, 97, 105, 113, 123, 145, 157 geometriai 108 súlyozott 105 trimmelt 107, 135 átlagbecslés 346 átlagmodell 342, 345 átlagok közötti különbség 310 átlagos abszolút eltérés (MAD) 111, 133 átlagos négyzetes eltérés 133, 135 átlagra való hatás 310 B Bartlett-próba 206,

Korreláció és lineáris regresszió

Korreláció és lineáris regresszió Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.

Részletesebben

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai statisztika c. tárgy oktatásának célja és tematikája Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:

Részletesebben

Segítség az outputok értelmezéséhez

Segítség az outputok értelmezéséhez Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró

Részletesebben

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 15. Nemparaméteres próbák Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: November

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus

Részletesebben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision

Részletesebben

y ij = µ + α i + e ij

y ij = µ + α i + e ij Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris

Részletesebben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás

Részletesebben

Adatok statisztikai értékelésének főbb lehetőségei

Adatok statisztikai értékelésének főbb lehetőségei Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció

Részletesebben

Hipotézis vizsgálatok

Hipotézis vizsgálatok Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével

Részletesebben

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE Tartalomjegyzék 5 Tartalomjegyzék Előszó I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE 1. fejezet: Kontrollált kísérletek 21 1. A Salk-oltás kipróbálása 21 2. A porta-cava sönt 25 3. Történeti kontrollok 27 4. Összefoglalás

Részletesebben

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? Egymintás próbák σ s μ m Alapkérdés: A populáció egy adott megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? egymintás t-próba Wilcoxon-féle előjeles

Részletesebben

Statisztika elméleti összefoglaló

Statisztika elméleti összefoglaló 1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11

Részletesebben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,

Részletesebben

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Biomatematika 13. Varianciaanaĺızis (ANOVA) Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 13. Varianciaanaĺızis (ANOVA) Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date:

Részletesebben

Normális eloszlás tesztje

Normális eloszlás tesztje Valószínűség, pontbecslés, konfidenciaintervallum Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra

Részletesebben

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani

Részletesebben

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.

Részletesebben

Több valószínűségi változó együttes eloszlása, korreláció

Több valószínűségi változó együttes eloszlása, korreláció Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi fizika és statisztika I. előadás 2016.11.09 Orvosi

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát

Részletesebben

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23 TARTALOMJEGYZÉK 1. téma Átlagbecslés (Barna Katalin).... 7 2. téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23 3. téma Összefüggések vizsgálata, korrelációanalízis (Dr. Molnár Tamás)... 73 4. téma Összefüggések

Részletesebben

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

[Biomatematika 2] Orvosi biometria. Visegrády Balázs [Biomatematika 2] Orvosi biometria Visegrády Balázs 2016. 03. 27. Probléma: Klinikai vizsgálatban három különböző antiaritmiás gyógyszert (ß-blokkoló) alkalmaznak, hogy kipróbálják hatásukat a szívműködés

Részletesebben

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az

Részletesebben

Varianciaanalízis 4/24/12

Varianciaanalízis 4/24/12 1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból

Részletesebben

Biomatematika 2 Orvosi biometria

Biomatematika 2 Orvosi biometria Biomatematika 2 Orvosi biometria 2017.02.13. Populáció és minta jellemző adatai Hibaszámítás Valószínűség 1 Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza)

Részletesebben

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum

Részletesebben

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN! A1 A2 A3 (8) A4 (12) A (40) B1 B2 B3 (15) B4 (11) B5 (14) Bónusz (100+10) Jegy NÉV (nyomtatott nagybetűvel) CSOPORT: ALÁÍRÁS: ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN! 2011. december 29. Általános tudnivalók:

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre

Részletesebben

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia

Részletesebben

Biostatisztika Összefoglalás

Biostatisztika Összefoglalás Biostatisztika Összefoglalás A biostatisztika vizsga A biostatisztika vizsga az Orvosi fizika és statisztika I. fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 0 kérdésre kell válaszolni

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria Bódis Emőke 2016. 04. 25. J J 9 Korrelációanalízis Regresszióanalízis: hogyan változik egy vizsgált változó értéke egy másik változó változásának függvényében. Korrelációs

Részletesebben

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat

Részletesebben

Regressziós vizsgálatok

Regressziós vizsgálatok Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga

Részletesebben

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika

Részletesebben

Normális eloszlás paramétereire vonatkozó próbák

Normális eloszlás paramétereire vonatkozó próbák Normális eloszlás paramétereire vonatkozó próbák Az alábbi próbák akkor használhatók, ha a meggyelések függetlenek, és feltételezhetjük, hogy normális eloszlásúak a meggyelések függetlenek, véges szórású

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Biostatisztika Összefoglalás

Biostatisztika Összefoglalás Biostatisztika Összefoglalás A biostatisztika vizsga A biostatisztika vizsga az Orvosi fizika és statisztika I. fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 0 kérdésre kell válaszolni

Részletesebben

2012. április 18. Varianciaanaĺızis

2012. április 18. Varianciaanaĺızis 2012. április 18. Varianciaanaĺızis Varianciaanaĺızis (analysis of variance, ANOVA) Ismételt méréses ANOVA Kérdések: (1) van-e különbség a csoportok között (t-próba általánosítása), (2) van-e hatása a

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.15. Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza) alkotja az eseményteret. Esemény: az eseménytér részhalmazai.

Részletesebben

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet GVMST22GNC Statisztika II. 3. előadás: 8. Hipotézisvizsgálat Kóczy Á. László Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Hipotézisvizsgálat v becslés Becslés Ismeretlen paraméter Közeĺıtő

Részletesebben

KÖVETKEZTETŐ STATISZTIKA

KÖVETKEZTETŐ STATISZTIKA ÁVF GM szak 2010 ősz KÖVETKEZTETŐ STATISZTIKA A MINTAVÉTEL BECSLÉS A sokasági átlag becslése 2010 ősz Utoljára módosítva: 2010-09-07 ÁVF Oktató: Lipécz György 1 A becslés alapfeladata Pl. Hányan láttak

Részletesebben

Gazdasági matematika II. Tantárgyi útmutató

Gazdasági matematika II. Tantárgyi útmutató Módszertani Intézeti Tanszék Gazdálkodási és menedzsment, pénzügy és számvitel szakok távoktatás tagozat Gazdasági matematika II. Tantárgyi útmutató 2016/17 tanév II. félév 1/6 A KURZUS ALAPADATAI Tárgy

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Nyugat-magyarországi Egyetem Geoinformatikai Kara Dr. Bácsatyai László Matematikai geodéziai számítások 6. MGS6 modul Lineáris regresszió számítás elektronikus távmérőkre SZÉKESFEHÉRVÁR 2010 Jelen szellemi

Részletesebben

A leíró statisztikák

A leíró statisztikák A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az

Részletesebben

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Populációbecslés és monitoring. Eloszlások és alapstatisztikák Populációbecslés és monitoring Eloszlások és alapstatisztikák Eloszlások Az eloszlás megadja, hogy milyen valószínűséggel kapunk egy adott intervallumba tartozó értéket, ha egy olyan populációból veszünk

Részletesebben

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Előadások-gyakorlatok 2018-ban (13 alkalom) IX.12, 19, 26, X. 3, 10, 17, 24, XI. 7, 14,

Részletesebben

Hipotézis vizsgálatok

Hipotézis vizsgálatok Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével

Részletesebben

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet A biostatisztika alapfogalmai, hipotézisvizsgálatok Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet Hipotézisvizsgálatok A hipotézisvizsgálat során a rendelkezésre álló adatok (statisztikai

Részletesebben

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Khi-négyzet eloszlás. Statisztika II., 3. alkalom Khi-négyzet eloszlás Statisztika II., 3. alkalom A khi négyzet eloszlást (Pearson) leggyakrabban kategorikus adatok elemzésére használjuk. N darab standard normális eloszlású változó négyzetes összegeként

Részletesebben

Biostatisztika VIII. Mátyus László. 19 October

Biostatisztika VIII. Mátyus László. 19 October Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.

Részletesebben

Kísérlettervezés alapfogalmak

Kísérlettervezés alapfogalmak Kísérlettervezés alapfogalmak Rendszermodellezés Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Kísérlettervezés Cél: a modell paraméterezése a valóság alapján

Részletesebben

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése

Részletesebben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége [GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell

Részletesebben

Kettőnél több csoport vizsgálata. Makara B. Gábor

Kettőnél több csoport vizsgálata. Makara B. Gábor Kettőnél több csoport vizsgálata Makara B. Gábor Három gyógytápszer elemzéséből az alábbi energia tartalom adatok származtak (kilokalória/adag egységben) Három gyógytápszer elemzésébô A B C 30 5 00 10

Részletesebben

Bevezetés a hipotézisvizsgálatokba

Bevezetés a hipotézisvizsgálatokba Bevezetés a hipotézisvizsgálatokba Nullhipotézis: pl. az átlag egy adott µ becslése : M ( x -µ ) = 0 Alternatív hipotézis: : M ( x -µ ) 0 Szignifikancia: - teljes bizonyosság csak teljes enumerációra -

Részletesebben

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet Kettőnél több csoport vizsgálata Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet Gyógytápszerek (kilokalória/adag) Három gyógytápszer A B C 30 5 00 10 05 08 40 45 03 50 35 190 Kérdések: 1. Van-e

Részletesebben

Biomatematikai Tanszék

Biomatematikai Tanszék BIOSTATISZTIKA DENTISTRY Biomatematikai Tanszék Tantárgy: BIOSTATISZTIKA Év, szemeszter: 1. évfolyam - 1. félév Óraszám: Szeminárium: 28 Kód: FOBST03F1 ECTS Kredit: 2 A tárgyat oktató intézet: Biofizikai

Részletesebben

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI

Statisztikai alapfogalmak a klinikai kutatásban. Molnár Zsolt PTE, AITI Statisztikai alapfogalmak a klinikai kutatásban Molnár Zsolt PTE, AITI Bevezetés Research vs. Science Kutatás Tudomány Szerkezeti háttér hiánya Önkéntesek (lelkes kisebbség) Beosztottak (parancsot teljesítő

Részletesebben

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely. Kiválasztás A változó szerint Egymintás t-próba Mann-Whitney U-test paraméteres nem-paraméteres Varianciaanalízis De melyiket válasszam? Kétmintás t-próba Fontos, hogy mindig a kérdésnek és a változónak

Részletesebben

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet A biostatisztika alapfogalmai, hipotézisvizsgálatok Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet Hipotézis Állítás a populációról (vagy annak paraméteréről) Példák H1: p=0.5 (a pénzérme

Részletesebben

Valószínűségszámítás összefoglaló

Valószínűségszámítás összefoglaló Statisztikai módszerek BMEGEVGAT Készítette: Halász Gábor Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel:

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I. Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós

Részletesebben

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM. STATISZTIKA 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 MAGY. MAT. TÖRT. KÉM. ANNA BÉLA CILI András hármas. Béla Az átlag 3,5! kettes. Éva ötös. Nóri négyes. 1 mérés: dolgokhoz valamely szabály alapján szám rendelése

Részletesebben

Nemparametrikus tesztek. 2014. december 3.

Nemparametrikus tesztek. 2014. december 3. Nemparametrikus tesztek 2014. december 3. Nemparametrikus módszerek Alkalmazásuk: nominális adatok (gyakoriságok) esetén, ordinális adatok esetén, metrikus adatok esetén (intervallum és arányskála), ha

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p

Részletesebben

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk? Feladatok: pontdiagram és dobozdiagram Hogyan csináltuk? Alakmutatók: ferdeség, csúcsosság Alakmutatók a ferdeség és csúcsosság mérésére Ez eloszlás centrumát (középérték) és az adatok centrum körüli terpeszkedését

Részletesebben

18. modul: STATISZTIKA

18. modul: STATISZTIKA MATEMATIK A 9. évfolyam 18. modul: STATISZTIKA KÉSZÍTETTE: LÖVEY ÉVA, GIDÓFALVI ZSUZSA MODULJÁNAK FELHASZNÁLÁSÁVAL Matematika A 9. évfolyam. 18. modul: STATISZTIKA Tanári útmutató 2 A modul célja Időkeret

Részletesebben

A biomatematika alapjai és a kapcsolódó feladatok megoldása számítógép segítségével Abonyi-Tóth Zsolt, 2005-2006 készült Harnos Andrea, Reiczigel Jenő zoológus előadásainak valamint Fodor János és Solymosi

Részletesebben

Biometria gyakorló feladatok BsC hallgatók számára

Biometria gyakorló feladatok BsC hallgatók számára Biometria gyakorló feladatok BsC hallgatók számára 1. Egy üzem alkalmazottainak megoszlása az elért teljesítmény %-a szerint a következı: Norma teljesítmény % Dolgozók száma 60-80 30 81-90 70 91-100 90

Részletesebben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis 1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb

Részletesebben

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 10. előadás Előadó: Dr. Ertsey Imre Varianciaanalízis A különböző tényezők okozta szórás illetőleg szórásnégyzet összetevőire bontásán alapszik Segítségével egyszerre több mintát hasonlíthatunk

Részletesebben

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis SZDT-09 p. 1/36 Biometria az orvosi gyakorlatban Regresszió Túlélésanalízis Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Logisztikus regresszió

Részletesebben

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok Eloszlás-független módszerek (folytatás) 14. elıadás (7-8. lecke) Illeszkedés-vizsgálat 7. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok elemzésére Illeszkedés-vizsgálat Gyakorisági sorok

Részletesebben

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

III. Kvantitatív változók kapcsolata (korreláció, regresszió) III. Kvantitatív változók kapcsolata (korreláció, regresszió) Tartalom Változók kapcsolata Kétdimenziós minta (pontdiagram) Regressziós előrejelzés (predikció) Korreláció Tanuló Kétdimenziós minta Tanulással

Részletesebben

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA A VALÓSZÍNŰSÉGI SZEMLÉLET ALAPOZÁSA 1-6. OSZTÁLY A biztos, a lehetetlen és a lehet, de nem biztos események megkülünböztetése Valószínűségi játékok, kísérletek események

Részletesebben

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető! BGF KKK Módszertani Intézeti Tanszéki Osztály Budapest, 2012.. Név:... Neptun kód:... Érdemjegy:..... STATISZTIKA II. VIZSGADOLGOZAT Feladatok 1. 2. 3. 4. 5. 6. Összesen Szerezhető pontszám 21 20 7 22

Részletesebben

Hipotézisvizsgálat R-ben

Hipotézisvizsgálat R-ben Hipotézisvizsgálat R-ben 1-mintás u-próba Az elmúlt évben egy, az Antarktiszon talált királypingvinkolónia esetén a pingvinek átlagos testtömege 15.4 kg volt. Idén ugyanebből a kolóniából megmérték 35

Részletesebben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x

Részletesebben

Statisztika Elıadások letölthetık a címrıl

Statisztika Elıadások letölthetık a címrıl Statisztika Elıadások letölthetık a http://www.cs.elte.hu/~arato/stat*.pdf címrıl Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább 1-α valószínőséggel

Részletesebben

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont) VIZSGADOLGOZAT (100 pont) A megoldások csak szöveges válaszokkal teljes értékűek! I. PÉLDÁK (60 pont) 1. példa (13 pont) Az egyik budapesti könyvtárban az olvasókból vett 400 elemű minta alapján a következőket

Részletesebben

Logisztikus regresszió

Logisztikus regresszió Logisztikus regresszió Bekövetkezés esélye Valószínűség (P): 0 és 1 közötti valós szám, az esemény bekövetkezésének esélyét fejezi ki. Fej dobásának esélye: 1:2 = 1 2 = 0,5. Odds/esélyérték (O): a tét

Részletesebben

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus. Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza

Részletesebben

Mérési hibák 2006.10.04. 1

Mérési hibák 2006.10.04. 1 Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség

Részletesebben

Biomatematika 2 Orvosi biometria

Biomatematika 2 Orvosi biometria Biomatematika 2 Orvosi biometria 2017.02.05. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)

Részletesebben

Valószínűségi változók. Várható érték és szórás

Valószínűségi változók. Várható érték és szórás Matematikai statisztika gyakorlat Valószínűségi változók. Várható érték és szórás Valószínűségi változók 2016. március 7-11. 1 / 13 Valószínűségi változók Legyen a (Ω, A, P) valószínűségi mező. Egy X :

Részletesebben

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre Összefüggés vizsgálatok A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek

Részletesebben

A Statisztika alapjai

A Statisztika alapjai A Statisztika alapjai BME A3c Magyar Róbert 2016.05.12. Mi az a Statisztika? A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati

Részletesebben

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév 1. A várható érték és a szórás transzformációja 1. Ha egy valószínűségi változóhoz hozzáadunk ötöt, mínusz ötöt, egy b konstanst,

Részletesebben

Kutatásmódszertan és prezentációkészítés

Kutatásmódszertan és prezentációkészítés Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 3 III. VÉLETLEN VEKTOROK 1. A KÉTDIMENZIÓs VÉLETLEN VEKTOR Definíció: Az leképezést (kétdimenziós) véletlen vektornak nevezzük, ha Definíció:

Részletesebben

A konfidencia intervallum képlete: x± t( α /2, df )

A konfidencia intervallum képlete: x± t( α /2, df ) 1. feladat. Egy erdőben az egy fészekben levő tojásszámokat vizsgáltuk egy madárfajnál. A következő tojásszámokat találtuk: 1, 1, 1,,,,,,, 3, 3, 3, 3, 3, 4, 4, 5, 6, 7. Mi a mintának a minimuma, maximuma,

Részletesebben