Biostatisztika és alkalmazásai



Hasonló dokumentumok
Biostatisztika és alkalmazásai

Kutatásmódszertan és prezentációkészítés

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai statisztika

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Segítség az outputok értelmezéséhez

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Biomatematika 2 Orvosi biometria

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Elemi statisztika fizikusoknak

Vizuális adatelemzés

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Korrelációs kapcsolatok elemzése

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

A leíró statisztikák

[Biomatematika 2] Orvosi biometria

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

A Statisztika alapjai

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Statisztikai alapfogalmak

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Változók eloszlása, középértékek, szóródás

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Vargha András Károli Gáspár Református Egyetem Budapest

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Vizuális adatelemzés

A valószínűségszámítás elemei

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Függetlenségvizsgálat, Illeszkedésvizsgálat

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Matematikai statisztikai elemzések 2.

GAZDASÁGI STATISZTIKA

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Adatok statisztikai értékelésének főbb lehetőségei

Hol terem a magyar statisztikus?

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Bevezető Mi a statisztika? Mérés Csoportosítás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

BIOMATEMATIKA ELŐADÁS

Microsoft Excel Gyakoriság

A sokaság/minta eloszlásának jellemzése

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

TÁMOP-4.2.2/B-10/ Tantárgyi program (rövidített)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

Az empirikus orvosi kutatások alapgondolata és a kauzalitás

[Biomatematika 2] Orvosi biometria

A statisztika oktatásáról konkrétan

Bevezetés a statisztikába

Orvosi szociológia (1. szeminárium) KUTATÁSMÓDSZERTAN

KÖZPONTI STATISZTIKAI HIVATAL. Szóbeli vizsgatevékenység

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Matematikai statisztika

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Leíró statisztika. Adatok beolvasása az R-be és ezek mentése

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Kvantitatív statisztikai módszerek

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Matematikai statisztikai elemzések 2.

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé. (Albert Einstein) Halmazok 1

STATISZTIKA I. A változók mérési szintjei. Nominális változók. Alacsony és magas mérési szint. Nominális változó ábrázolása

[GVMGS11MNC] Gazdaságstatisztika

1/8. Iskolai jelentés. 10.évfolyam matematika

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

SULINOVA PROGRAMTANTERVÉHEZ ILLESZKEDŐ TANMENET 9. ÉVFOLYAM SZÁMÁRA

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Területi statisztikai elemzések

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

[Biomatematika 2] Orvosi biometria

Statisztikai becslés

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

Pár történeti megjegyzés

Pár történeti megjegyzés

Korreláció és lineáris regresszió

1. Egy Kft dolgozóit a havi bruttó kereseteik alapján csoportosítottuk: Havi bruttó bér, ezer Ft/fő

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Biomatematika 2 Orvosi biometria

Matematikai alapok és valószínőségszámítás. Normál eloszlás

1. tétel. Valószínűségszámítás vizsga Frissült: január 19. Valószínűségi mező, véletlen tömegjelenség.

[Biomatematika 2] Orvosi biometria

TANTÁRGYI ÚTMUTATÓ. Statisztika 1.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematika feladatbank I. Statisztika. és feladatgyűjtemény középiskolásoknak

Átírás:

2013. szeptember 25.

Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Mi a statisztika? Hivatalosan: A statisztika a valóság számszerűsíthető tényeinek szisztematikus összegyűjtésével és elemzésével foglalkozó tudományos módszer és gyakorlat Nemhivatalosan: A hazugságok három kategóriába sorolhatóak: kis hazugságok, gyalázatos hazugságok, és statisztikák (Benjamin Disraeli-nek tulajdonítva) A statisztika a matematika azon ága, melynek feladata, hogy eszközt adjon a politikusok kezébe, mellyel tetszőleges állítás és annak ellentéte is tudományos alapon igazolható (Általános iskolai matematika tanárom)

Mi a statisztika? Hivatalosan: A statisztika a valóság számszerűsíthető tényeinek szisztematikus összegyűjtésével és elemzésével foglalkozó tudományos módszer és gyakorlat Nemhivatalosan: A hazugságok három kategóriába sorolhatóak: kis hazugságok, gyalázatos hazugságok, és statisztikák (Benjamin Disraeli-nek tulajdonítva) A statisztika a matematika azon ága, melynek feladata, hogy eszközt adjon a politikusok kezébe, mellyel tetszőleges állítás és annak ellentéte is tudományos alapon igazolható (Általános iskolai matematika tanárom)

Mi a statisztika? Hivatalosan: A statisztika a valóság számszerűsíthető tényeinek szisztematikus összegyűjtésével és elemzésével foglalkozó tudományos módszer és gyakorlat Nemhivatalosan: A hazugságok három kategóriába sorolhatóak: kis hazugságok, gyalázatos hazugságok, és statisztikák (Benjamin Disraeli-nek tulajdonítva) A statisztika a matematika azon ága, melynek feladata, hogy eszközt adjon a politikusok kezébe, mellyel tetszőleges állítás és annak ellentéte is tudományos alapon igazolható (Általános iskolai matematika tanárom)

Mi a statisztika? Hivatalosan: A statisztika a valóság számszerűsíthető tényeinek szisztematikus összegyűjtésével és elemzésével foglalkozó tudományos módszer és gyakorlat Nemhivatalosan: A hazugságok három kategóriába sorolhatóak: kis hazugságok, gyalázatos hazugságok, és statisztikák (Benjamin Disraeli-nek tulajdonítva) A statisztika a matematika azon ága, melynek feladata, hogy eszközt adjon a politikusok kezébe, mellyel tetszőleges állítás és annak ellentéte is tudományos alapon igazolható (Általános iskolai matematika tanárom)

Miért statisztika? Akkor miért foglalkozzunk statisztikával? Ennek ellenére? Nem! Éppen ezért!

Miért statisztika? Akkor miért foglalkozzunk statisztikával? Ennek ellenére? Nem! Éppen ezért!

Miért statisztika? Akkor miért foglalkozzunk statisztikával? Ennek ellenére? Nem! Éppen ezért!

Miért jó, ha értünk a statisztikához? (Személyes vélemény jön) 3 fő szempont: 1 Hogy ne tudjanak átverni minket 2 Hogy új ismereteket szerezzünk 3 Hogy feltevéseinket precízen vizsgáljuk

Miért jó, ha értünk a statisztikához? (Személyes vélemény jön) 3 fő szempont: 1 Hogy ne tudjanak átverni minket 2 Hogy új ismereteket szerezzünk 3 Hogy feltevéseinket precízen vizsgáljuk

Miért jó, ha értünk a statisztikához? (Személyes vélemény jön) 3 fő szempont: 1 Hogy ne tudjanak átverni minket 2 Hogy új ismereteket szerezzünk 3 Hogy feltevéseinket precízen vizsgáljuk

Miért jó, ha értünk a statisztikához? (Személyes vélemény jön) 3 fő szempont: 1 Hogy ne tudjanak átverni minket 2 Hogy új ismereteket szerezzünk 3 Hogy feltevéseinket precízen vizsgáljuk

Miért jó, ha értünk a statisztikához? (Személyes vélemény jön) 3 fő szempont: 1 Hogy ne tudjanak átverni minket 2 Hogy új ismereteket szerezzünk 3 Hogy feltevéseinket precízen vizsgáljuk

Feltevések precíz vizsgálata Elsősorban az agrometriából indult a XX. század elején Nagyon hamar kapcsolódott az orvoslás is Ok: az orvostudomány empirikussá válása Később ez a gondolat az evidence-based medicine-ben teljesedett ki Például a gyógyszerkísérletek kapcsán hatalmas gyakorlati jelentősége van nüanszoknak is

Feltevések precíz vizsgálata Elsősorban az agrometriából indult a XX. század elején Nagyon hamar kapcsolódott az orvoslás is Ok: az orvostudomány empirikussá válása Később ez a gondolat az evidence-based medicine-ben teljesedett ki Például a gyógyszerkísérletek kapcsán hatalmas gyakorlati jelentősége van nüanszoknak is

Feltevések precíz vizsgálata Elsősorban az agrometriából indult a XX. század elején Nagyon hamar kapcsolódott az orvoslás is Ok: az orvostudomány empirikussá válása Később ez a gondolat az evidence-based medicine-ben teljesedett ki Például a gyógyszerkísérletek kapcsán hatalmas gyakorlati jelentősége van nüanszoknak is

Feltevések precíz vizsgálata Elsősorban az agrometriából indult a XX. század elején Nagyon hamar kapcsolódott az orvoslás is Ok: az orvostudomány empirikussá válása Később ez a gondolat az evidence-based medicine-ben teljesedett ki Például a gyógyszerkísérletek kapcsán hatalmas gyakorlati jelentősége van nüanszoknak is

Feltevések precíz vizsgálata Elsősorban az agrometriából indult a XX. század elején Nagyon hamar kapcsolódott az orvoslás is Ok: az orvostudomány empirikussá válása Később ez a gondolat az evidence-based medicine-ben teljesedett ki Például a gyógyszerkísérletek kapcsán hatalmas gyakorlati jelentősége van nüanszoknak is

Új ismeretek szerzése Adatok strukturálása, alkalmas megjelenítése, információtömörítés, lényegkiemelés Hatalmas motivációt jelent a számítástechnikai (és orvosi) lehetőségek fejlődése miatt létrejövő egyre nagyobb és nagyobb adatbázisok léte

Új ismeretek szerzése Adatok strukturálása, alkalmas megjelenítése, információtömörítés, lényegkiemelés Hatalmas motivációt jelent a számítástechnikai (és orvosi) lehetőségek fejlődése miatt létrejövő egyre nagyobb és nagyobb adatbázisok léte

Hogy ne tudjanak átverni minket A KSH szerint 2011-ben a magyar bruttó átlagkereset 213 ezer forint volt. Mégis, a másik táblázatból az derül ki, hogy az emberek 68%-a ennél kevesebbet keresett! Hogy a fenében lehetne akkor ez az átlag?! A KSH hazudik! A HRT-kezelésben részesülő nők körében 1,8-szer kevesebb a szív-érrendszeri megbetegedés, mint az ilyet nem kapók között. A HRT-kezelés tehát jó hatással van a kardiovaszkuláris rendszerre. A minap a suliból (munkahelyem) hazafelé tartva, a buszra vártam. Néhány diák a közelben beszélgetett. Az volt a téma, hogy milyen sokan hiányoznak az osztályból, mert betegek. Egyikük megjegyezte, hogy ő is azóta beteg, mióta megkapták az oltást.

Korreláció nem implikál kauzalitást Tűzoltók példája: a tűzesetben esett kár és a kiküldött tűzoltók száma HRT-s példa: HRT-kezelés megléte és a kardiovaszkuláris rizikó Két dolog együttjárásából nem következik, hogy az egyik okozza a másikat! T1DM és császármetszés: milyen confounder-ek jönnek szóba...?

Korreláció nem implikál kauzalitást Tűzoltók példája: a tűzesetben esett kár és a kiküldött tűzoltók száma HRT-s példa: HRT-kezelés megléte és a kardiovaszkuláris rizikó Két dolog együttjárásából nem következik, hogy az egyik okozza a másikat! T1DM és császármetszés: milyen confounder-ek jönnek szóba...?

Korreláció nem implikál kauzalitást Tűzoltók példája: a tűzesetben esett kár és a kiküldött tűzoltók száma HRT-s példa: HRT-kezelés megléte és a kardiovaszkuláris rizikó Két dolog együttjárásából nem következik, hogy az egyik okozza a másikat! T1DM és császármetszés: milyen confounder-ek jönnek szóba...?

Korreláció nem implikál kauzalitást Tűzoltók példája: a tűzesetben esett kár és a kiküldött tűzoltók száma HRT-s példa: HRT-kezelés megléte és a kardiovaszkuláris rizikó Két dolog együttjárásából nem következik, hogy az egyik okozza a másikat! T1DM és császármetszés: milyen confounder-ek jönnek szóba...?

A biostatisztika elhatárolása Valószínűségszámítás Statisztika Alkalmazott statisztikai ágak Biostatisztika, Pszichometria, Agrometria, Ökonometria stb. vs. bioinformatika: inkább számítástechnikai kérdések, nagy adatbázisokon hatékony algoritmus megoldások vs. biomatematika: inkább nem-statisztikai, elsősorban analízisbeli modellezési eszközök (pl. differenciál-egyenletek) használata

A biostatisztika elhatárolása Valószínűségszámítás Statisztika Alkalmazott statisztikai ágak Biostatisztika, Pszichometria, Agrometria, Ökonometria stb. vs. bioinformatika: inkább számítástechnikai kérdések, nagy adatbázisokon hatékony algoritmus megoldások vs. biomatematika: inkább nem-statisztikai, elsősorban analízisbeli modellezési eszközök (pl. differenciál-egyenletek) használata

A biostatisztika elhatárolása Valószínűségszámítás Statisztika Alkalmazott statisztikai ágak Biostatisztika, Pszichometria, Agrometria, Ökonometria stb. vs. bioinformatika: inkább számítástechnikai kérdések, nagy adatbázisokon hatékony algoritmus megoldások vs. biomatematika: inkább nem-statisztikai, elsősorban analízisbeli modellezési eszközök (pl. differenciál-egyenletek) használata

A biostatisztika elhatárolása Valószínűségszámítás Statisztika Alkalmazott statisztikai ágak Biostatisztika, Pszichometria, Agrometria, Ökonometria stb. vs. bioinformatika: inkább számítástechnikai kérdések, nagy adatbázisokon hatékony algoritmus megoldások vs. biomatematika: inkább nem-statisztikai, elsősorban analízisbeli modellezési eszközök (pl. differenciál-egyenletek) használata

Milyen alapokra van szükség, hogy biostatisztikával foglalkozzak? Valószínűségszámítás, lineáris algebra Matematikai statisztika Orvosi ismeretek

Milyen alapokra van szükség, hogy biostatisztikával foglalkozzak? Valószínűségszámítás, lineáris algebra Matematikai statisztika Orvosi ismeretek

Milyen alapokra van szükség, hogy biostatisztikával foglalkozzak? Valószínűségszámítás, lineáris algebra Matematikai statisztika Orvosi ismeretek

Statisztikai programcsomagok Mai biostatisztika elképzelhetetlen számítógépes támogatás nélkül Pár közismert, biostatisztikára (is) használható program: SAS Gyógyszeripar kedveli, jól standardizált, rettenetesen drága SPSS Általános célú statisztikai programcsomag (eredetileg szociológusoknak), az alap dolgokat könnyű megcsinálni, a komplexebbeket cserében nagyon nehéz R Klasszikus akadémiai programcsomag, az alap dolgokat sem könnyű megcsinálni, a komplexebbeket cserében viszont lehet; ingyenes és nyílt forráskódú (!), http://www.r-project.org/

Statisztikai programcsomagok Mai biostatisztika elképzelhetetlen számítógépes támogatás nélkül Pár közismert, biostatisztikára (is) használható program: SAS Gyógyszeripar kedveli, jól standardizált, rettenetesen drága SPSS Általános célú statisztikai programcsomag (eredetileg szociológusoknak), az alap dolgokat könnyű megcsinálni, a komplexebbeket cserében nagyon nehéz R Klasszikus akadémiai programcsomag, az alap dolgokat sem könnyű megcsinálni, a komplexebbeket cserében viszont lehet; ingyenes és nyílt forráskódú (!), http://www.r-project.org/

Statisztikai programcsomagok Mai biostatisztika elképzelhetetlen számítógépes támogatás nélkül Pár közismert, biostatisztikára (is) használható program: SAS Gyógyszeripar kedveli, jól standardizált, rettenetesen drága SPSS Általános célú statisztikai programcsomag (eredetileg szociológusoknak), az alap dolgokat könnyű megcsinálni, a komplexebbeket cserében nagyon nehéz R Klasszikus akadémiai programcsomag, az alap dolgokat sem könnyű megcsinálni, a komplexebbeket cserében viszont lehet; ingyenes és nyílt forráskódú (!), http://www.r-project.org/

Ez az előadás... Áttekintés a biostatisztika szempontjából legfontosabb statisztikai alapokról Részletek nélkül, csak bevezető jelleggel (képlet, levezetés általában kevés) Összbenyomás a területről Szemléletformálás Klinikai vizsgálatok, mint a biostatisztika fontos adatforrása, alkalmazási területe

Ez az előadás... Áttekintés a biostatisztika szempontjából legfontosabb statisztikai alapokról Részletek nélkül, csak bevezető jelleggel (képlet, levezetés általában kevés) Összbenyomás a területről Szemléletformálás Klinikai vizsgálatok, mint a biostatisztika fontos adatforrása, alkalmazási területe

Ez az előadás... Áttekintés a biostatisztika szempontjából legfontosabb statisztikai alapokról Részletek nélkül, csak bevezető jelleggel (képlet, levezetés általában kevés) Összbenyomás a területről Szemléletformálás Klinikai vizsgálatok, mint a biostatisztika fontos adatforrása, alkalmazási területe

Ez az előadás... Áttekintés a biostatisztika szempontjából legfontosabb statisztikai alapokról Részletek nélkül, csak bevezető jelleggel (képlet, levezetés általában kevés) Összbenyomás a területről Szemléletformálás Klinikai vizsgálatok, mint a biostatisztika fontos adatforrása, alkalmazási területe

Ez az előadás... Áttekintés a biostatisztika szempontjából legfontosabb statisztikai alapokról Részletek nélkül, csak bevezető jelleggel (képlet, levezetés általában kevés) Összbenyomás a területről Szemléletformálás Klinikai vizsgálatok, mint a biostatisztika fontos adatforrása, alkalmazási területe

Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Pár demonstratív kérdés, amit szeretnénk megválaszolni Egy új vérnyomáscsökkentő gyógyszer-jelölt valóban csökkenti a vérnyomást? Egy új vérnyomáscsökkentő gyógyszer-jelölt nem okoz megnövekedett epilepszia-kockázatot? Magasfeszültségű vezeték közelében tartózkodás növeli a rák-kockázatot? Milyen tényezők hatnak adott rákban a túlélési időre? Mennyi jelen kurzus hallgatóinak átlagos testtömege? Mennyi az I. éves fiú egyetemisták átlagos testtömege? Igaz-e, hogy az I. éves fiú egyetemisták átlagos testtömege 70 kg? Van-e összefüggés tehenek takarmányozása és a tejhozamuk között?

Pár definíció Amire (akikre) a kérdésünk irányul: (cél)populáció, sokaság Elemei: megfigyelési egységek Amely jellemzőire kíváncsiak vagyunk: változó (vagy ismérv) A változó értékének meghatározása egy adott sokasági elemre: megfigyelés Nagyon ritkán tudjuk a sokaság valamennyi elemét megfigyelni (ez lenne a teljeskörű megfigyelés), technikai gondok, és...

Pár definíció Amire (akikre) a kérdésünk irányul: (cél)populáció, sokaság Elemei: megfigyelési egységek Amely jellemzőire kíváncsiak vagyunk: változó (vagy ismérv) A változó értékének meghatározása egy adott sokasági elemre: megfigyelés Nagyon ritkán tudjuk a sokaság valamennyi elemét megfigyelni (ez lenne a teljeskörű megfigyelés), technikai gondok, és...

Pár definíció Amire (akikre) a kérdésünk irányul: (cél)populáció, sokaság Elemei: megfigyelési egységek Amely jellemzőire kíváncsiak vagyunk: változó (vagy ismérv) A változó értékének meghatározása egy adott sokasági elemre: megfigyelés Nagyon ritkán tudjuk a sokaság valamennyi elemét megfigyelni (ez lenne a teljeskörű megfigyelés), technikai gondok, és...

Pár definíció Amire (akikre) a kérdésünk irányul: (cél)populáció, sokaság Elemei: megfigyelési egységek Amely jellemzőire kíváncsiak vagyunk: változó (vagy ismérv) A változó értékének meghatározása egy adott sokasági elemre: megfigyelés Nagyon ritkán tudjuk a sokaság valamennyi elemét megfigyelni (ez lenne a teljeskörű megfigyelés), technikai gondok, és...

Pár definíció Amire (akikre) a kérdésünk irányul: (cél)populáció, sokaság Elemei: megfigyelési egységek Amely jellemzőire kíváncsiak vagyunk: változó (vagy ismérv) A változó értékének meghatározása egy adott sokasági elemre: megfigyelés Nagyon ritkán tudjuk a sokaság valamennyi elemét megfigyelni (ez lenne a teljeskörű megfigyelés), technikai gondok, és...

Kicsit elidőzve a sokaság fogalmánál Mennyi jelen kurzus hallgatóinak átlagos testtömege? véges sokaság (N = 23) De: Egy új vérnyomáscsökkentő gyógyszer-jelölt valóban csökkenti a vérnyomást? Mi itt a sokaság? Ez végtelen sokaság! (Szokás fiktívnek is nevezni.)

Kicsit elidőzve a sokaság fogalmánál Mennyi jelen kurzus hallgatóinak átlagos testtömege? véges sokaság (N = 23) De: Egy új vérnyomáscsökkentő gyógyszer-jelölt valóban csökkenti a vérnyomást? Mi itt a sokaság? Ez végtelen sokaság! (Szokás fiktívnek is nevezni.)

Kicsit elidőzve a sokaság fogalmánál Mennyi jelen kurzus hallgatóinak átlagos testtömege? véges sokaság (N = 23) De: Egy új vérnyomáscsökkentő gyógyszer-jelölt valóban csökkenti a vérnyomást? Mi itt a sokaság? Ez végtelen sokaság! (Szokás fiktívnek is nevezni.)

Kicsit elidőzve a sokaság fogalmánál Mennyi jelen kurzus hallgatóinak átlagos testtömege? véges sokaság (N = 23) De: Egy új vérnyomáscsökkentő gyógyszer-jelölt valóban csökkenti a vérnyomást? Mi itt a sokaság? Ez végtelen sokaság! (Szokás fiktívnek is nevezni.)

Mintavétel Tehát: általában nem tudjuk az egész sokaságot megfigyelni mintavételes helyzet Amit meg tudunk figyelni: minta (Illetve tervezett minta, nem biztos, hogy pont ezt figyeljük meg ténylegesen) Sokaság Tényleges minta Tervezett minta Induktív statisztikánál foglalkozunk vele tovább

Mintavétel Tehát: általában nem tudjuk az egész sokaságot megfigyelni mintavételes helyzet Amit meg tudunk figyelni: minta (Illetve tervezett minta, nem biztos, hogy pont ezt figyeljük meg ténylegesen) Sokaság Tényleges minta Tervezett minta Induktív statisztikánál foglalkozunk vele tovább

Mintavétel Tehát: általában nem tudjuk az egész sokaságot megfigyelni mintavételes helyzet Amit meg tudunk figyelni: minta (Illetve tervezett minta, nem biztos, hogy pont ezt figyeljük meg ténylegesen) Sokaság Tényleges minta Tervezett minta Induktív statisztikánál foglalkozunk vele tovább

Mintavétel Tehát: általában nem tudjuk az egész sokaságot megfigyelni mintavételes helyzet Amit meg tudunk figyelni: minta (Illetve tervezett minta, nem biztos, hogy pont ezt figyeljük meg ténylegesen) Sokaság Tényleges minta Tervezett minta Induktív statisztikánál foglalkozunk vele tovább

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Mérés, mérési skálák A vizsgált tulajdonságot mérhetővé kell tenni Operacionalizálás Proxy változók Mérési skálák (Stevens, 1946) 1 Nominális skála 2 Ordinális skála 3 Intervallum skála 4 Arányskála Az első két típusba tartozót szokás minőségi (kvalitatív) változónak is nevezni...... az utóbbi kettőt pedig mennyiségi (kvantitatív) változónak

Adatok jellemzői Kimenetek száma szerint Diszkrét (véges, vagy legfeljebb megszámlálhatóan sok, pl. szemszín) Folytonos (kontinuum sok, pl. testhőmérséklet) Általában megfeleltetjük a minőségi-mennyiségi csoportoknak (noha ez elvileg nem helyes), de vigyázat: a darabszám nevezetes kivétel Időbeli jelleg szerint: Keresztmetszeti (egy eszmei időpontra vonatkozó megfigyelések) Longitudinális (időbeli követés)

Adatok jellemzői Kimenetek száma szerint Diszkrét (véges, vagy legfeljebb megszámlálhatóan sok, pl. szemszín) Folytonos (kontinuum sok, pl. testhőmérséklet) Általában megfeleltetjük a minőségi-mennyiségi csoportoknak (noha ez elvileg nem helyes), de vigyázat: a darabszám nevezetes kivétel Időbeli jelleg szerint: Keresztmetszeti (egy eszmei időpontra vonatkozó megfigyelések) Longitudinális (időbeli követés)

Adatok jellemzői Kimenetek száma szerint Diszkrét (véges, vagy legfeljebb megszámlálhatóan sok, pl. szemszín) Folytonos (kontinuum sok, pl. testhőmérséklet) Általában megfeleltetjük a minőségi-mennyiségi csoportoknak (noha ez elvileg nem helyes), de vigyázat: a darabszám nevezetes kivétel Időbeli jelleg szerint: Keresztmetszeti (egy eszmei időpontra vonatkozó megfigyelések) Longitudinális (időbeli követés)

Adatok jellemzői Kimenetek száma szerint Diszkrét (véges, vagy legfeljebb megszámlálhatóan sok, pl. szemszín) Folytonos (kontinuum sok, pl. testhőmérséklet) Általában megfeleltetjük a minőségi-mennyiségi csoportoknak (noha ez elvileg nem helyes), de vigyázat: a darabszám nevezetes kivétel Időbeli jelleg szerint: Keresztmetszeti (egy eszmei időpontra vonatkozó megfigyelések) Longitudinális (időbeli követés)

Adatok jellemzői Kimenetek száma szerint Diszkrét (véges, vagy legfeljebb megszámlálhatóan sok, pl. szemszín) Folytonos (kontinuum sok, pl. testhőmérséklet) Általában megfeleltetjük a minőségi-mennyiségi csoportoknak (noha ez elvileg nem helyes), de vigyázat: a darabszám nevezetes kivétel Időbeli jelleg szerint: Keresztmetszeti (egy eszmei időpontra vonatkozó megfigyelések) Longitudinális (időbeli követés)

Adatok jellemzői Kimenetek száma szerint Diszkrét (véges, vagy legfeljebb megszámlálhatóan sok, pl. szemszín) Folytonos (kontinuum sok, pl. testhőmérséklet) Általában megfeleltetjük a minőségi-mennyiségi csoportoknak (noha ez elvileg nem helyes), de vigyázat: a darabszám nevezetes kivétel Időbeli jelleg szerint: Keresztmetszeti (egy eszmei időpontra vonatkozó megfigyelések) Longitudinális (időbeli követés)

Adatok jellemzői Kimenetek száma szerint Diszkrét (véges, vagy legfeljebb megszámlálhatóan sok, pl. szemszín) Folytonos (kontinuum sok, pl. testhőmérséklet) Általában megfeleltetjük a minőségi-mennyiségi csoportoknak (noha ez elvileg nem helyes), de vigyázat: a darabszám nevezetes kivétel Időbeli jelleg szerint: Keresztmetszeti (egy eszmei időpontra vonatkozó megfigyelések) Longitudinális (időbeli követés)

Példa adatbázis Baystate Medical Center (Springfield, Massachusetts, USA) Low Infant Birth Weight adatbázisa (1986) R-ben: MASS könyvtár birthwt adatbázis Kis kivonat: low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Példa adatbázis Baystate Medical Center (Springfield, Massachusetts, USA) Low Infant Birth Weight adatbázisa (1986) R-ben: MASS könyvtár birthwt adatbázis Kis kivonat: low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Példa adatbázis Baystate Medical Center (Springfield, Massachusetts, USA) Low Infant Birth Weight adatbázisa (1986) R-ben: MASS könyvtár birthwt adatbázis Kis kivonat: low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

A példa adatbázis jellemzése Keresztmetszeti n = 189 elemű minta egy fiktív, végtelen sokaságból Változók: Rövidítés Tartalom Mérési skála low Születési tömeg < 2,5 kg? [0:nem, 1:igen] Nominális age Anya életkora [év] Arányskála lwt Anya testtömege (UM) [font] Arányskála race Rassz [1: kaukázusi, 2: afroamerikai, 3: egyéb] Nominális smoke Anya dohányzik? [0:nem, 1:igen] Nominális ptl Korábbi koraszülések száma [darab] Arányskála ht Anyai hipertónia? [0:nem, 1:igen] Nominális ui Irritábilis méh? [0:nem, 1:igen] Nominális ftv Vizitek száma (1. trimeszter) [darab] Arányskála bwt Születési tömeg [g] Arányskála

A példa adatbázis jellemzése Keresztmetszeti n = 189 elemű minta egy fiktív, végtelen sokaságból Változók: Rövidítés Tartalom Mérési skála low Születési tömeg < 2,5 kg? [0:nem, 1:igen] Nominális age Anya életkora [év] Arányskála lwt Anya testtömege (UM) [font] Arányskála race Rassz [1: kaukázusi, 2: afroamerikai, 3: egyéb] Nominális smoke Anya dohányzik? [0:nem, 1:igen] Nominális ptl Korábbi koraszülések száma [darab] Arányskála ht Anyai hipertónia? [0:nem, 1:igen] Nominális ui Irritábilis méh? [0:nem, 1:igen] Nominális ftv Vizitek száma (1. trimeszter) [darab] Arányskála bwt Születési tömeg [g] Arányskála

A példa adatbázis jellemzése Keresztmetszeti n = 189 elemű minta egy fiktív, végtelen sokaságból Változók: Rövidítés Tartalom Mérési skála low Születési tömeg < 2,5 kg? [0:nem, 1:igen] Nominális age Anya életkora [év] Arányskála lwt Anya testtömege (UM) [font] Arányskála race Rassz [1: kaukázusi, 2: afroamerikai, 3: egyéb] Nominális smoke Anya dohányzik? [0:nem, 1:igen] Nominális ptl Korábbi koraszülések száma [darab] Arányskála ht Anyai hipertónia? [0:nem, 1:igen] Nominális ui Irritábilis méh? [0:nem, 1:igen] Nominális ftv Vizitek száma (1. trimeszter) [darab] Arányskála bwt Születési tömeg [g] Arányskála

Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

A deskriptív statisztikáról általában Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

A deskriptív statisztikáról általában Mi a deskriptív statisztika? Röviden: nem törődünk a mintavételes helyzettel! A minta az univerzum, úgy vesszük mintha csak a minta lenne Tipikus feladat itt: információtömörítés, a mintában lévő információ legjobban emészthetővé tétele Trade-off a tömörítésnél: Áttekinthetőség Hűség

A deskriptív statisztikáról általában Mi a deskriptív statisztika? Röviden: nem törődünk a mintavételes helyzettel! A minta az univerzum, úgy vesszük mintha csak a minta lenne Tipikus feladat itt: információtömörítés, a mintában lévő információ legjobban emészthetővé tétele Trade-off a tömörítésnél: Áttekinthetőség Hűség

A deskriptív statisztikáról általában Mi a deskriptív statisztika? Röviden: nem törődünk a mintavételes helyzettel! A minta az univerzum, úgy vesszük mintha csak a minta lenne Tipikus feladat itt: információtömörítés, a mintában lévő információ legjobban emészthetővé tétele Trade-off a tömörítésnél: Áttekinthetőség Hűség

A deskriptív statisztikáról általában Mi a deskriptív statisztika? Röviden: nem törődünk a mintavételes helyzettel! A minta az univerzum, úgy vesszük mintha csak a minta lenne Tipikus feladat itt: információtömörítés, a mintában lévő információ legjobban emészthetővé tétele Trade-off a tömörítésnél: Áttekinthetőség Hűség

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Az információtömörítés trade-off-ja Nyers adat: 2523, 2551, 2557, 2594, 2600, 2622,..., 2495, 2495, 2495 Tömörítések 2944,6 2944,6 ± 729,2 2944,6 (2977) ± 729,2 (1073) 2944,6 (2977) [709 4990] ± 729,2 (1073) Mi a cél? az eredeti információ átláthatatlan (ki mond meg bármit is 189 számból?) Az információtömörítés ugyan adatvesztés, de épp ez teszi lehetővé, hogy a fontosat észrevegyük! Egyensúlyozni kell a kettő között

A deskriptív statisztikáról általában Exploratív adatelemzés Grafikus technikák előnyei Az emberi agy különösen jó az ilyen (vizuális) információk feldolgozásában Ügyes vizualizáció sokat érhet! There is no excuse for failing to plot and look! (JW Tukey)

A deskriptív statisztikáról általában Exploratív adatelemzés Grafikus technikák előnyei Az emberi agy különösen jó az ilyen (vizuális) információk feldolgozásában Ügyes vizualizáció sokat érhet! There is no excuse for failing to plot and look! (JW Tukey)

A deskriptív statisztikáról általában Exploratív adatelemzés Grafikus technikák előnyei Az emberi agy különösen jó az ilyen (vizuális) információk feldolgozásában Ügyes vizualizáció sokat érhet! There is no excuse for failing to plot and look! (JW Tukey)

A deskriptív statisztikáról általában Exploratív adatelemzés Grafikus technikák előnyei Az emberi agy különösen jó az ilyen (vizuális) információk feldolgozásában Ügyes vizualizáció sokat érhet! There is no excuse for failing to plot and look! (JW Tukey)

A deskriptív statisztikáról általában A deskriptív statisztika dimenziói Eszköze szerint Analitikus (mutatószám) Grafikus (ábra) Változók száma szerint Egyváltozós Többváltozós (Sokváltozós) A változók mérési skálája szerint Minőségi Mennyiségi (Vegyes)

A deskriptív statisztikáról általában A deskriptív statisztika dimenziói Eszköze szerint Analitikus (mutatószám) Grafikus (ábra) Változók száma szerint Egyváltozós Többváltozós (Sokváltozós) A változók mérési skálája szerint Minőségi Mennyiségi (Vegyes)

A deskriptív statisztikáról általában A deskriptív statisztika dimenziói Eszköze szerint Analitikus (mutatószám) Grafikus (ábra) Változók száma szerint Egyváltozós Többváltozós (Sokváltozós) A változók mérési skálája szerint Minőségi Mennyiségi (Vegyes)

A deskriptív statisztikáról általában A deskriptív statisztika dimenziói Eszköze szerint Analitikus (mutatószám) Grafikus (ábra) Változók száma szerint Egyváltozós Többváltozós (Sokváltozós) A változók mérési skálája szerint Minőségi Mennyiségi (Vegyes)

A deskriptív statisztikáról általában A deskriptív statisztika dimenziói Eszköze szerint Analitikus (mutatószám) Grafikus (ábra) Változók száma szerint Egyváltozós Többváltozós (Sokváltozós) A változók mérési skálája szerint Minőségi Mennyiségi (Vegyes)

A deskriptív statisztikáról általában A deskriptív statisztika dimenziói Eszköze szerint Analitikus (mutatószám) Grafikus (ábra) Változók száma szerint Egyváltozós Többváltozós (Sokváltozós) A változók mérési skálája szerint Minőségi Mennyiségi (Vegyes)

Egyváltozós elemzés, minőségi változó Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Egyváltozós elemzés, minőségi változó Példa race (rassz): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Egyváltozós elemzés, minőségi változó Analitikus eszközök Gyakorisági sor: Kategória f i g i Kaukázusi 96 0,508 Afroamerikai 26 0,138 Egyéb 67 0,354 Összesen 189 1,000 (Istenigazából semmilyen adatvesztést nem jelent most)

Egyváltozós elemzés, minőségi változó Analitikus eszközök Gyakorisági sor: Kategória f i g i Kaukázusi 96 0,508 Afroamerikai 26 0,138 Egyéb 67 0,354 Összesen 189 1,000 (Istenigazából semmilyen adatvesztést nem jelent most)

Egyváltozós elemzés, minőségi változó Analitikus eszközök Módusz: leggyakoribb kimenet (Mo = arg max i f i ); ez már kompromisszum! Ordinálisnál: van értelme az ún. kumulálásnak is (elvileg mediánról is lehetne beszélni, inkább máshol vezetjük be) Ezen kívül más mutatónak nincs sok értelme

Egyváltozós elemzés, minőségi változó Analitikus eszközök Módusz: leggyakoribb kimenet (Mo = arg max i f i ); ez már kompromisszum! Ordinálisnál: van értelme az ún. kumulálásnak is (elvileg mediánról is lehetne beszélni, inkább máshol vezetjük be) Ezen kívül más mutatónak nincs sok értelme

Egyváltozós elemzés, minőségi változó Analitikus eszközök Módusz: leggyakoribb kimenet (Mo = arg max i f i ); ez már kompromisszum! Ordinálisnál: van értelme az ún. kumulálásnak is (elvileg mediánról is lehetne beszélni, inkább máshol vezetjük be) Ezen kívül más mutatónak nincs sok értelme

Egyváltozós elemzés, minőségi változó Grafikus eszközök: oszlopdiagram Oszlopdiagram Gyakoriság [fő] 0 20 40 60 80 100 Kaukázusi Afroamerikai Egyéb Rassz

Egyváltozós elemzés, minőségi változó Grafikus eszközök: tortadiagram Kördiagram Kaukázusi 50.8 % Afroamerikai 13.8 % Egyéb 35.4 % Rassz

Egyváltozós elemzés, minőségi változó Grafikus eszközök Melyik jobb? Miért? (Van rá tudományos válasz!)

Egyváltozós elemzés, minőségi változó Grafikus eszközök Melyik jobb? Miért? (Van rá tudományos válasz!) Az emberi szem sokkal jobban érzékeli a lineáris méreteket, mint a relatív területeket

Egyváltozós elemzés, mennyiségi változó Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Egyváltozós elemzés, mennyiségi változó Példa bwt (születési tömeg): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: osztályközös gyakorisági sor I. Szokásos gyakorisági sor már nem készíthető (könnyen lehet, hogy minden számból csak 1 lesz!) Megoldás az osztályközös gyakorisági sor, például: C i0 C i1 f i g i f i g i 500 1000 1 0,005 1 0,005 1000 1500 4 0,021 5 0,026 1500 2000 14 0,074 19 0,101 2000 2500 40 0,212 59 0,312 2500 3000 38 0,201 97 0,513 3000 3500 45 0,238 142 0,751 3500 4000 38 0,201 180 0,952 4000 4500 7 0,037 187 0,989 4500 5000 2 0,011 189 1,000 Összesen 189 1,000

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: osztályközös gyakorisági sor I. Szokásos gyakorisági sor már nem készíthető (könnyen lehet, hogy minden számból csak 1 lesz!) Megoldás az osztályközös gyakorisági sor, például: C i0 C i1 f i g i f i g i 500 1000 1 0,005 1 0,005 1000 1500 4 0,021 5 0,026 1500 2000 14 0,074 19 0,101 2000 2500 40 0,212 59 0,312 2500 3000 38 0,201 97 0,513 3000 3500 45 0,238 142 0,751 3500 4000 38 0,201 180 0,952 4000 4500 7 0,037 187 0,989 4500 5000 2 0,011 189 1,000 Összesen 189 1,000

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: osztályközös gyakorisági sor II. De vigyázat, itt már van információvesztés! kérdés, hogy hogyan vesszük fel az osztályközöket

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói I. Átlag, jele x: az a szám, mellyel valamennyi megfigyelési egységnél helyettesítve a változó tényleges értékét, az értékösszeg változatlan maradna, azaz x = S n = n i=1 x i n Akkor van értelme, ha a változónál az összeg bír tárgyi értelemmel! (Ha a szorzat, akkor a mértani átlag adódik.) Előnye, hogy közismert tartalmú, jól értelmezhető, hátránya, hogy nem robusztus (outlier-ekre érzékeny trimmelt átlag)

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói I. Átlag, jele x: az a szám, mellyel valamennyi megfigyelési egységnél helyettesítve a változó tényleges értékét, az értékösszeg változatlan maradna, azaz x = S n = n i=1 x i n Akkor van értelme, ha a változónál az összeg bír tárgyi értelemmel! (Ha a szorzat, akkor a mértani átlag adódik.) Előnye, hogy közismert tartalmú, jól értelmezhető, hátránya, hogy nem robusztus (outlier-ekre érzékeny trimmelt átlag)

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói I. Átlag, jele x: az a szám, mellyel valamennyi megfigyelési egységnél helyettesítve a változó tényleges értékét, az értékösszeg változatlan maradna, azaz x = S n = n i=1 x i n Akkor van értelme, ha a változónál az összeg bír tárgyi értelemmel! (Ha a szorzat, akkor a mértani átlag adódik.) Előnye, hogy közismert tartalmú, jól értelmezhető, hátránya, hogy nem robusztus (outlier-ekre érzékeny trimmelt átlag)

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói II. Medián, jele Me: az a szám, melyre teljesül, hogy a megfigyelési egységek fele nála kisebb, fele nála nagyobb, tehát a középső elem (páratlan elemszámnál egyértelmű, párosnál legyen mondjuk a két középső átlaga) Előnye, hogy robusztus, hátránya, hogy kevésbé közismert p-kvantilis: a medián általánosítása, a minta p-ed része alatta, (1 p)-ed része felette van Nevezetes kvantilisek: kvartilisek (negyedelőpontok: Q 1, Q 2 Me, Q 3 ), decilisek (tizedelőpontok: D 1, D 2,..., D 9 ), percentilisek (századolópontok: P 1, P 2,..., P 100 )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói II. Medián, jele Me: az a szám, melyre teljesül, hogy a megfigyelési egységek fele nála kisebb, fele nála nagyobb, tehát a középső elem (páratlan elemszámnál egyértelmű, párosnál legyen mondjuk a két középső átlaga) Előnye, hogy robusztus, hátránya, hogy kevésbé közismert p-kvantilis: a medián általánosítása, a minta p-ed része alatta, (1 p)-ed része felette van Nevezetes kvantilisek: kvartilisek (negyedelőpontok: Q 1, Q 2 Me, Q 3 ), decilisek (tizedelőpontok: D 1, D 2,..., D 9 ), percentilisek (századolópontok: P 1, P 2,..., P 100 )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói II. Medián, jele Me: az a szám, melyre teljesül, hogy a megfigyelési egységek fele nála kisebb, fele nála nagyobb, tehát a középső elem (páratlan elemszámnál egyértelmű, párosnál legyen mondjuk a két középső átlaga) Előnye, hogy robusztus, hátránya, hogy kevésbé közismert p-kvantilis: a medián általánosítása, a minta p-ed része alatta, (1 p)-ed része felette van Nevezetes kvantilisek: kvartilisek (negyedelőpontok: Q 1, Q 2 Me, Q 3 ), decilisek (tizedelőpontok: D 1, D 2,..., D 9 ), percentilisek (századolópontok: P 1, P 2,..., P 100 )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a centrális tendencia mutatói II. Medián, jele Me: az a szám, melyre teljesül, hogy a megfigyelési egységek fele nála kisebb, fele nála nagyobb, tehát a középső elem (páratlan elemszámnál egyértelmű, párosnál legyen mondjuk a két középső átlaga) Előnye, hogy robusztus, hátránya, hogy kevésbé közismert p-kvantilis: a medián általánosítása, a minta p-ed része alatta, (1 p)-ed része felette van Nevezetes kvantilisek: kvartilisek (negyedelőpontok: Q 1, Q 2 Me, Q 3 ), decilisek (tizedelőpontok: D 1, D 2,..., D 9 ), percentilisek (századolópontok: P 1, P 2,..., P 100 )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a szóródás mutatói Minimum, maximum: a minta legnagyobb és legkisebb eleme Terjedelem, jele R: a maximum és a minimum különbsége Szórás, jele σ x : az átlagtól vett átlagos eltérés, négyzetes átlagot használva n i=1 σ x = (x i x) 2 n Előnye, hogy közismert tartalmú, hátránya, hogy nem robusztus (duplán nem) Interkvartilis terjedelem, jele IQR: a felső és alsó kvartilis különbsége (IQR = Q 3 Q 1 ); előnye, hogy robusztus ( xi MAD: MAD = Me Me (x) )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a szóródás mutatói Minimum, maximum: a minta legnagyobb és legkisebb eleme Terjedelem, jele R: a maximum és a minimum különbsége Szórás, jele σ x : az átlagtól vett átlagos eltérés, négyzetes átlagot használva n i=1 σ x = (x i x) 2 n Előnye, hogy közismert tartalmú, hátránya, hogy nem robusztus (duplán nem) Interkvartilis terjedelem, jele IQR: a felső és alsó kvartilis különbsége (IQR = Q 3 Q 1 ); előnye, hogy robusztus ( xi MAD: MAD = Me Me (x) )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a szóródás mutatói Minimum, maximum: a minta legnagyobb és legkisebb eleme Terjedelem, jele R: a maximum és a minimum különbsége Szórás, jele σ x : az átlagtól vett átlagos eltérés, négyzetes átlagot használva n i=1 σ x = (x i x) 2 n Előnye, hogy közismert tartalmú, hátránya, hogy nem robusztus (duplán nem) Interkvartilis terjedelem, jele IQR: a felső és alsó kvartilis különbsége (IQR = Q 3 Q 1 ); előnye, hogy robusztus ( xi MAD: MAD = Me Me (x) )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a szóródás mutatói Minimum, maximum: a minta legnagyobb és legkisebb eleme Terjedelem, jele R: a maximum és a minimum különbsége Szórás, jele σ x : az átlagtól vett átlagos eltérés, négyzetes átlagot használva n i=1 σ x = (x i x) 2 n Előnye, hogy közismert tartalmú, hátránya, hogy nem robusztus (duplán nem) Interkvartilis terjedelem, jele IQR: a felső és alsó kvartilis különbsége (IQR = Q 3 Q 1 ); előnye, hogy robusztus ( xi MAD: MAD = Me Me (x) )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a szóródás mutatói Minimum, maximum: a minta legnagyobb és legkisebb eleme Terjedelem, jele R: a maximum és a minimum különbsége Szórás, jele σ x : az átlagtól vett átlagos eltérés, négyzetes átlagot használva n i=1 σ x = (x i x) 2 n Előnye, hogy közismert tartalmú, hátránya, hogy nem robusztus (duplán nem) Interkvartilis terjedelem, jele IQR: a felső és alsó kvartilis különbsége (IQR = Q 3 Q 1 ); előnye, hogy robusztus ( xi MAD: MAD = Me Me (x) )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: a szóródás mutatói Minimum, maximum: a minta legnagyobb és legkisebb eleme Terjedelem, jele R: a maximum és a minimum különbsége Szórás, jele σ x : az átlagtól vett átlagos eltérés, négyzetes átlagot használva n i=1 σ x = (x i x) 2 n Előnye, hogy közismert tartalmú, hátránya, hogy nem robusztus (duplán nem) Interkvartilis terjedelem, jele IQR: a felső és alsó kvartilis különbsége (IQR = Q 3 Q 1 ); előnye, hogy robusztus ( xi MAD: MAD = Me Me (x) )

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: alakmutatók Még finomabb leírása az eloszlásnak Szimmetria/ferdeség Csúcsosság

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: alakmutatók Még finomabb leírása az eloszlásnak Szimmetria/ferdeség Csúcsosság

Egyváltozós elemzés, mennyiségi változó Analitikus eszközök: alakmutatók Még finomabb leírása az eloszlásnak Szimmetria/ferdeség Csúcsosság

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram A születési tömegek hisztogramja Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 0 1000 2000 3000 4000 5000 Születési tömeg [g]

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram A számegyenest diszjunkt intervallumokra osztjuk, és megszámoljuk, hogy az egyes intervallumokba hány megfigyelési egység esik f i n h i (Mintha az osztályközös gyakorisági sorból gyártanánk oszlopdiagramot csak rések nélkül) A hisztogram hatalmas előnye, hogy hihetetlenül szemléletes: az eloszlás rengeteg fontos jellemzője ránézésre leolvasható (A hisztogram a háttéreloszlás sűrűségfüggvényét fogja becsülni)

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram A számegyenest diszjunkt intervallumokra osztjuk, és megszámoljuk, hogy az egyes intervallumokba hány megfigyelési egység esik f i n h i (Mintha az osztályközös gyakorisági sorból gyártanánk oszlopdiagramot csak rések nélkül) A hisztogram hatalmas előnye, hogy hihetetlenül szemléletes: az eloszlás rengeteg fontos jellemzője ránézésre leolvasható (A hisztogram a háttéreloszlás sűrűségfüggvényét fogja becsülni)

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram A számegyenest diszjunkt intervallumokra osztjuk, és megszámoljuk, hogy az egyes intervallumokba hány megfigyelési egység esik f i n h i (Mintha az osztályközös gyakorisági sorból gyártanánk oszlopdiagramot csak rések nélkül) A hisztogram hatalmas előnye, hogy hihetetlenül szemléletes: az eloszlás rengeteg fontos jellemzője ránézésre leolvasható (A hisztogram a háttéreloszlás sűrűségfüggvényét fogja becsülni)

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram A számegyenest diszjunkt intervallumokra osztjuk, és megszámoljuk, hogy az egyes intervallumokba hány megfigyelési egység esik f i n h i (Mintha az osztályközös gyakorisági sorból gyártanánk oszlopdiagramot csak rések nélkül) A hisztogram hatalmas előnye, hogy hihetetlenül szemléletes: az eloszlás rengeteg fontos jellemzője ránézésre leolvasható (A hisztogram a háttéreloszlás sűrűségfüggvényét fogja becsülni)

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: hisztogram Hátránya, hogy érzékeny az intervallumok határainak megválasztására: A születési tömegek hisztogramja A születési tömegek hisztogramja A születési tömegek hisztogramja Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 6e-04 Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 6e-04 Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 6e-04 0 1000 2000 3000 4000 5000 6000 Születési tömeg [g] 0 1000 2000 3000 4000 5000 6000 Születési tömeg [g] 0 1000 2000 3000 4000 5000 6000 Születési tömeg [g]

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: magfüggvényes becslő A születési tömegek magfüggvényes sűrűségbecslése Sűrűség 0e+00 1e-04 2e-04 3e-04 4e-04 5e-04 0 1000 2000 3000 4000 5000 Születési tömeg [g]

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: magfüggvényes becslő A mintapontokat koncentrált helyett valódi eloszlással helyettesíti Kevésbé paraméterérzékeny (de azért ezen is kell paraméterezni)

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: magfüggvényes becslő A mintapontokat koncentrált helyett valódi eloszlással helyettesíti Kevésbé paraméterérzékeny (de azért ezen is kell paraméterezni)

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: boxplot A születési tömegek boxplot-ja 1000 2000 3000 4000 5000 Születési tömeg [g]

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: boxplot Doboz Q 1 -től Q 3 -ig, benne megjelölve Me Antennák vagy a minimumig és a maximumig nyúlnak ki, vagy a legtávolabbi elemig, ami nincs messzebb a Me-től mint az IQR α-szorosa (tipikusan α = 1,5) Ez utóbbi egyszerű outlier-keresést is lehetővé tesz Nagy előnye, hogy rendkívül kompakt (gondoljunk arra, ha pl. rasszok szerint akarjuk ábrázolni a születési tömeg eloszlását), és robusztus is

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: boxplot Doboz Q 1 -től Q 3 -ig, benne megjelölve Me Antennák vagy a minimumig és a maximumig nyúlnak ki, vagy a legtávolabbi elemig, ami nincs messzebb a Me-től mint az IQR α-szorosa (tipikusan α = 1,5) Ez utóbbi egyszerű outlier-keresést is lehetővé tesz Nagy előnye, hogy rendkívül kompakt (gondoljunk arra, ha pl. rasszok szerint akarjuk ábrázolni a születési tömeg eloszlását), és robusztus is

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: boxplot Doboz Q 1 -től Q 3 -ig, benne megjelölve Me Antennák vagy a minimumig és a maximumig nyúlnak ki, vagy a legtávolabbi elemig, ami nincs messzebb a Me-től mint az IQR α-szorosa (tipikusan α = 1,5) Ez utóbbi egyszerű outlier-keresést is lehetővé tesz Nagy előnye, hogy rendkívül kompakt (gondoljunk arra, ha pl. rasszok szerint akarjuk ábrázolni a születési tömeg eloszlását), és robusztus is

Egyváltozós elemzés, mennyiségi változó Grafikus eszközök: boxplot Doboz Q 1 -től Q 3 -ig, benne megjelölve Me Antennák vagy a minimumig és a maximumig nyúlnak ki, vagy a legtávolabbi elemig, ami nincs messzebb a Me-től mint az IQR α-szorosa (tipikusan α = 1,5) Ez utóbbi egyszerű outlier-keresést is lehetővé tesz Nagy előnye, hogy rendkívül kompakt (gondoljunk arra, ha pl. rasszok szerint akarjuk ábrázolni a születési tömeg eloszlását), és robusztus is

Két minőségi változó kapcsolata: asszociáció Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Két minőségi változó kapcsolata: asszociáció Példa Két minőségi változó kapcsolatát asszociációnak nevezzük race (rassz) és ui (irritábilis méh): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Két minőségi változó kapcsolata: asszociáció Példa Két minőségi változó kapcsolatát asszociációnak nevezzük race (rassz) és ui (irritábilis méh): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Két minőségi változó kapcsolata: asszociáció Analitikus eszközök: kontingenciatábla Ez is hordoz minden információt: Irritábilis méh Rassz Nem Igen Összesen Kaukázusi 83 13 96 Afroamerikai 23 3 26 Egyéb 55 12 67 Összesen 161 28 189 Kapcsolat értelmezése: viszonyítás a függetlenséghez (mennyi információt jelent a sor szempontjából, ha tudjuk, hogy az alany melyik oszlopba tartozik? és viszont) Mutatók: χ 2, Cramer-V stb. stb.; nagyon számítanak a feltevések

Két minőségi változó kapcsolata: asszociáció Analitikus eszközök: kontingenciatábla Ez is hordoz minden információt: Irritábilis méh Rassz Nem Igen Összesen Kaukázusi 83 13 96 Afroamerikai 23 3 26 Egyéb 55 12 67 Összesen 161 28 189 Kapcsolat értelmezése: viszonyítás a függetlenséghez (mennyi információt jelent a sor szempontjából, ha tudjuk, hogy az alany melyik oszlopba tartozik? és viszont) Mutatók: χ 2, Cramer-V stb. stb.; nagyon számítanak a feltevések

Két minőségi változó kapcsolata: asszociáció Analitikus eszközök: kontingenciatábla Ez is hordoz minden információt: Irritábilis méh Rassz Nem Igen Összesen Kaukázusi 83 13 96 Afroamerikai 23 3 26 Egyéb 55 12 67 Összesen 161 28 189 Kapcsolat értelmezése: viszonyítás a függetlenséghez (mennyi információt jelent a sor szempontjából, ha tudjuk, hogy az alany melyik oszlopba tartozik? és viszont) Mutatók: χ 2, Cramer-V stb. stb.; nagyon számítanak a feltevések

Két minőségi változó kapcsolata: asszociáció Grafikus eszközök Esetleg mozaikábra vagy asszociációs ábra nem túl gyakori Vetületi megoszlások vagy feltételes megoszlások ábrázolhatóak oszlop-, illetve kördiagramon

Két minőségi változó kapcsolata: asszociáció Grafikus eszközök Esetleg mozaikábra vagy asszociációs ábra nem túl gyakori Vetületi megoszlások vagy feltételes megoszlások ábrázolhatóak oszlop-, illetve kördiagramon

Két mennyiségi változó kapcsolata: korreláció Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Két mennyiségi változó kapcsolata: korreláció Példa Két mennyiségi változó kapcsolatát korreláció nevezzük lwt (anyai testtömeg) és bwt (születési tömeg): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Két mennyiségi változó kapcsolata: korreláció Példa Két mennyiségi változó kapcsolatát korreláció nevezzük lwt (anyai testtömeg) és bwt (születési tömeg): low age lwt race smoke ptl ht ui ftv bwt 0 19 182 2 0 0 0 1 0 2523 0 33 155 3 0 0 0 0 3 2551 0 20 105 1 1 0 0 0 1 2557 0 45 123 1 0 0 0 0 1 4990 1 28 120 3 1 1 0 1 0 709 1 29 130 1 0 0 0 1 2 1021

Két mennyiségi változó kapcsolata: korreláció Grafikus eszközök: szóródási diagram Ez minden információt hordoz: Az anya és az újszülött testtömegének szóródási diagramja Születési tömeg [g] 1000 2000 3000 4000 5000 100 150 200 250 Anya testtömege (UM) [font]

Két mennyiségi változó kapcsolata: korreláció Analitikus eszközök: korrelációs együttható Korrelációs együttható, jele r: a két változó közti sztochasztikus kapcsolat mérőszáma 1 n [ n i=1 (xi x) (y i y) ] r x,y = σ x σ y A kapcsolat irányát és szorosságát mutatja

Két mennyiségi változó kapcsolata: korreláció Analitikus eszközök: korrelációs együttható Korrelációs együttható, jele r: a két változó közti sztochasztikus kapcsolat mérőszáma 1 n [ n i=1 (xi x) (y i y) ] r x,y = σ x σ y A kapcsolat irányát és szorosságát mutatja

Két mennyiségi változó kapcsolata: korreláció Analitikus eszközök: korrelációs együttható A kapcsolat iránya és szorossága szemléletesen: corr = -1 corr = -0.99 corr = -0.7 corr = -0.2 corr = 0 corr = 0.2 corr = 0.7 corr = 0.99 corr = 1 y y y y y y y y y x x x x x x x x x

Két mennyiségi változó kapcsolata: korreláció Analitikus eszközök: korrelációs együttható De vigyázzunk (Anscombe-kvartett): y1 4 6 8 10 12 y2 4 6 8 10 12 5 10 15 x1 5 10 15 x2 y3 4 6 8 10 12 y4 4 6 8 10 12 5 10 15 x3 5 10 15 x4

Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

A mintavételi helyzet konzekvenciái Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

A mintavételi helyzet konzekvenciái Emlékeztetőül Nagyon sok esetben technikai okokból, vagy elvileg is lehetetlen a teljes sokaság megfigyelése Csak egy részét, a mintát ismerjük És itt jön a kulcsprobléma: mi mégis a sokaságról akarunk nyilatkozni! Lehet egyáltalán? Hogyan? Biztosat már nem tudunk mondani... de valószínűségi állítást igen!

A mintavételi helyzet konzekvenciái Emlékeztetőül Nagyon sok esetben technikai okokból, vagy elvileg is lehetetlen a teljes sokaság megfigyelése Csak egy részét, a mintát ismerjük És itt jön a kulcsprobléma: mi mégis a sokaságról akarunk nyilatkozni! Lehet egyáltalán? Hogyan? Biztosat már nem tudunk mondani... de valószínűségi állítást igen!

A mintavételi helyzet konzekvenciái Emlékeztetőül Nagyon sok esetben technikai okokból, vagy elvileg is lehetetlen a teljes sokaság megfigyelése Csak egy részét, a mintát ismerjük És itt jön a kulcsprobléma: mi mégis a sokaságról akarunk nyilatkozni! Lehet egyáltalán? Hogyan? Biztosat már nem tudunk mondani... de valószínűségi állítást igen!

A mintavételi helyzet konzekvenciái Emlékeztetőül Nagyon sok esetben technikai okokból, vagy elvileg is lehetetlen a teljes sokaság megfigyelése Csak egy részét, a mintát ismerjük És itt jön a kulcsprobléma: mi mégis a sokaságról akarunk nyilatkozni! Lehet egyáltalán? Hogyan? Biztosat már nem tudunk mondani... de valószínűségi állítást igen!

A mintavételi helyzet konzekvenciái Emlékeztetőül Nagyon sok esetben technikai okokból, vagy elvileg is lehetetlen a teljes sokaság megfigyelése Csak egy részét, a mintát ismerjük És itt jön a kulcsprobléma: mi mégis a sokaságról akarunk nyilatkozni! Lehet egyáltalán? Hogyan? Biztosat már nem tudunk mondani... de valószínűségi állítást igen!

A mintavételi helyzet konzekvenciái Mintavételi ingadozás Ha csak a sokaság egy részét (a mintát) ismerjük, akkor minden belőle számolt jellemző két dologtól fog függeni 1 a jellemző sokaságbeli értékétől 2 attól, hogy konkrétan hogyan választottuk ki a mintát Mi értelemszerűen az elsőre vagyunk kíváncsiak... csakhogy a kikerülhetetlen második ( pont milyen mintát vettünk ) azt fogja okozni, hogy minden eredményünk mintáról-mintára változni fog A szerencse: ez az ún. mintavételi ingadozás követ valószínűségszámítási törvényeket, így valószínűségi állításokat meg tudunk fogalmazni! Hibázhatunk, de ennek természetéről tudunk nyilatkozni

A mintavételi helyzet konzekvenciái Mintavételi ingadozás Ha csak a sokaság egy részét (a mintát) ismerjük, akkor minden belőle számolt jellemző két dologtól fog függeni 1 a jellemző sokaságbeli értékétől 2 attól, hogy konkrétan hogyan választottuk ki a mintát Mi értelemszerűen az elsőre vagyunk kíváncsiak... csakhogy a kikerülhetetlen második ( pont milyen mintát vettünk ) azt fogja okozni, hogy minden eredményünk mintáról-mintára változni fog A szerencse: ez az ún. mintavételi ingadozás követ valószínűségszámítási törvényeket, így valószínűségi állításokat meg tudunk fogalmazni! Hibázhatunk, de ennek természetéről tudunk nyilatkozni

A mintavételi helyzet konzekvenciái Mintavételi ingadozás Ha csak a sokaság egy részét (a mintát) ismerjük, akkor minden belőle számolt jellemző két dologtól fog függeni 1 a jellemző sokaságbeli értékétől 2 attól, hogy konkrétan hogyan választottuk ki a mintát Mi értelemszerűen az elsőre vagyunk kíváncsiak... csakhogy a kikerülhetetlen második ( pont milyen mintát vettünk ) azt fogja okozni, hogy minden eredményünk mintáról-mintára változni fog A szerencse: ez az ún. mintavételi ingadozás követ valószínűségszámítási törvényeket, így valószínűségi állításokat meg tudunk fogalmazni! Hibázhatunk, de ennek természetéről tudunk nyilatkozni

A mintavételi helyzet konzekvenciái Mintavételi ingadozás Ha csak a sokaság egy részét (a mintát) ismerjük, akkor minden belőle számolt jellemző két dologtól fog függeni 1 a jellemző sokaságbeli értékétől 2 attól, hogy konkrétan hogyan választottuk ki a mintát Mi értelemszerűen az elsőre vagyunk kíváncsiak... csakhogy a kikerülhetetlen második ( pont milyen mintát vettünk ) azt fogja okozni, hogy minden eredményünk mintáról-mintára változni fog A szerencse: ez az ún. mintavételi ingadozás követ valószínűségszámítási törvényeket, így valószínűségi állításokat meg tudunk fogalmazni! Hibázhatunk, de ennek természetéről tudunk nyilatkozni

A mintavételi helyzet konzekvenciái Mintavételi ingadozás Ha csak a sokaság egy részét (a mintát) ismerjük, akkor minden belőle számolt jellemző két dologtól fog függeni 1 a jellemző sokaságbeli értékétől 2 attól, hogy konkrétan hogyan választottuk ki a mintát Mi értelemszerűen az elsőre vagyunk kíváncsiak... csakhogy a kikerülhetetlen második ( pont milyen mintát vettünk ) azt fogja okozni, hogy minden eredményünk mintáról-mintára változni fog A szerencse: ez az ún. mintavételi ingadozás követ valószínűségszámítási törvényeket, így valószínűségi állításokat meg tudunk fogalmazni! Hibázhatunk, de ennek természetéről tudunk nyilatkozni

A mintavételi helyzet konzekvenciái Mintavételi ingadozás Ha csak a sokaság egy részét (a mintát) ismerjük, akkor minden belőle számolt jellemző két dologtól fog függeni 1 a jellemző sokaságbeli értékétől 2 attól, hogy konkrétan hogyan választottuk ki a mintát Mi értelemszerűen az elsőre vagyunk kíváncsiak... csakhogy a kikerülhetetlen második ( pont milyen mintát vettünk ) azt fogja okozni, hogy minden eredményünk mintáról-mintára változni fog A szerencse: ez az ún. mintavételi ingadozás követ valószínűségszámítási törvényeket, így valószínűségi állításokat meg tudunk fogalmazni! Hibázhatunk, de ennek természetéről tudunk nyilatkozni

A mintavételi helyzet konzekvenciái Mintavételi ingadozás Ha csak a sokaság egy részét (a mintát) ismerjük, akkor minden belőle számolt jellemző két dologtól fog függeni 1 a jellemző sokaságbeli értékétől 2 attól, hogy konkrétan hogyan választottuk ki a mintát Mi értelemszerűen az elsőre vagyunk kíváncsiak... csakhogy a kikerülhetetlen második ( pont milyen mintát vettünk ) azt fogja okozni, hogy minden eredményünk mintáról-mintára változni fog A szerencse: ez az ún. mintavételi ingadozás követ valószínűségszámítási törvényeket, így valószínűségi állításokat meg tudunk fogalmazni! Hibázhatunk, de ennek természetéről tudunk nyilatkozni

A mintavételi helyzet konzekvenciái Mintavételi hiba Figyelem, ennél a hibázásnál nem arról van szó, hogy rosszul veszünk mintát: például a legtökéletesebben véletlenszerű mintavételnél is előfordulhat, hogy egy 1000 fős sokaságból úgy becsüljük az átlagos testtömeget, hogy pont a 30 legkönnyebbet választjuk ki De: ennek a valószínűsége extrém kicsi! (Egész pontosan 1/ ( 30 1000) 4 10 56 %) Így értendő, hogy ez a hiba valószínűségszámítási úton, sztochasztikusan limitálható Ezt nevezzük mintavételi hibának

A mintavételi helyzet konzekvenciái Mintavételi hiba Figyelem, ennél a hibázásnál nem arról van szó, hogy rosszul veszünk mintát: például a legtökéletesebben véletlenszerű mintavételnél is előfordulhat, hogy egy 1000 fős sokaságból úgy becsüljük az átlagos testtömeget, hogy pont a 30 legkönnyebbet választjuk ki De: ennek a valószínűsége extrém kicsi! (Egész pontosan 1/ ( 30 1000) 4 10 56 %) Így értendő, hogy ez a hiba valószínűségszámítási úton, sztochasztikusan limitálható Ezt nevezzük mintavételi hibának

A mintavételi helyzet konzekvenciái Mintavételi hiba Figyelem, ennél a hibázásnál nem arról van szó, hogy rosszul veszünk mintát: például a legtökéletesebben véletlenszerű mintavételnél is előfordulhat, hogy egy 1000 fős sokaságból úgy becsüljük az átlagos testtömeget, hogy pont a 30 legkönnyebbet választjuk ki De: ennek a valószínűsége extrém kicsi! (Egész pontosan 1/ ( 30 1000) 4 10 56 %) Így értendő, hogy ez a hiba valószínűségszámítási úton, sztochasztikusan limitálható Ezt nevezzük mintavételi hibának

A mintavételi helyzet konzekvenciái Mintavételi hiba Figyelem, ennél a hibázásnál nem arról van szó, hogy rosszul veszünk mintát: például a legtökéletesebben véletlenszerű mintavételnél is előfordulhat, hogy egy 1000 fős sokaságból úgy becsüljük az átlagos testtömeget, hogy pont a 30 legkönnyebbet választjuk ki De: ennek a valószínűsége extrém kicsi! (Egész pontosan 1/ ( 30 1000) 4 10 56 %) Így értendő, hogy ez a hiba valószínűségszámítási úton, sztochasztikusan limitálható Ezt nevezzük mintavételi hibának

A mintavételi helyzet konzekvenciái Mintavételi hiba Figyelem, ennél a hibázásnál nem arról van szó, hogy rosszul veszünk mintát: például a legtökéletesebben véletlenszerű mintavételnél is előfordulhat, hogy egy 1000 fős sokaságból úgy becsüljük az átlagos testtömeget, hogy pont a 30 legkönnyebbet választjuk ki De: ennek a valószínűsége extrém kicsi! (Egész pontosan 1/ ( 30 1000) 4 10 56 %) Így értendő, hogy ez a hiba valószínűségszámítási úton, sztochasztikusan limitálható Ezt nevezzük mintavételi hibának

A mintavételi helyzet konzekvenciái Nem-mintavételi hiba Ez természetesen arra vonatkoznak, hogy mi a mintavételi ingadozásból adódó hiba De nem csak ilyen van: alullefedés, túllefedés, kódolási hiba stb. és a legnagyobb baj: a minta megválasztása Mi van, ha a minta nem véletlen részhalmaza a sokaságnak? ( reprezentativitás kérdése) Literary Digest esete Különösen óvatosan a kényelmi mintával Survey statisztika (külön szak!)

A mintavételi helyzet konzekvenciái Nem-mintavételi hiba Ez természetesen arra vonatkoznak, hogy mi a mintavételi ingadozásból adódó hiba De nem csak ilyen van: alullefedés, túllefedés, kódolási hiba stb. és a legnagyobb baj: a minta megválasztása Mi van, ha a minta nem véletlen részhalmaza a sokaságnak? ( reprezentativitás kérdése) Literary Digest esete Különösen óvatosan a kényelmi mintával Survey statisztika (külön szak!)

A mintavételi helyzet konzekvenciái Nem-mintavételi hiba Ez természetesen arra vonatkoznak, hogy mi a mintavételi ingadozásból adódó hiba De nem csak ilyen van: alullefedés, túllefedés, kódolási hiba stb. és a legnagyobb baj: a minta megválasztása Mi van, ha a minta nem véletlen részhalmaza a sokaságnak? ( reprezentativitás kérdése) Literary Digest esete Különösen óvatosan a kényelmi mintával Survey statisztika (külön szak!)

A mintavételi helyzet konzekvenciái Nem-mintavételi hiba Ez természetesen arra vonatkoznak, hogy mi a mintavételi ingadozásból adódó hiba De nem csak ilyen van: alullefedés, túllefedés, kódolási hiba stb. és a legnagyobb baj: a minta megválasztása Mi van, ha a minta nem véletlen részhalmaza a sokaságnak? ( reprezentativitás kérdése) Literary Digest esete Különösen óvatosan a kényelmi mintával Survey statisztika (külön szak!)

A mintavételi helyzet konzekvenciái Nem-mintavételi hiba Ez természetesen arra vonatkoznak, hogy mi a mintavételi ingadozásból adódó hiba De nem csak ilyen van: alullefedés, túllefedés, kódolási hiba stb. és a legnagyobb baj: a minta megválasztása Mi van, ha a minta nem véletlen részhalmaza a sokaságnak? ( reprezentativitás kérdése) Literary Digest esete Különösen óvatosan a kényelmi mintával Survey statisztika (külön szak!)

A mintavételi helyzet konzekvenciái Nem-mintavételi hiba Ez természetesen arra vonatkoznak, hogy mi a mintavételi ingadozásból adódó hiba De nem csak ilyen van: alullefedés, túllefedés, kódolási hiba stb. és a legnagyobb baj: a minta megválasztása Mi van, ha a minta nem véletlen részhalmaza a sokaságnak? ( reprezentativitás kérdése) Literary Digest esete Különösen óvatosan a kényelmi mintával Survey statisztika (külön szak!)

Becsléselmélet Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Pontbecslés Feladat: valamely sokasági jellemző meghatározása minta alapján Például sokaság átlaga/várhatóértéke minta alapján Naiv tipp: mondjuk a minta átlagát becslésként! Az ilyen szabály a becslőfüggvény: a mintaelemekből megmondja a legjobb tippünket a sokasági jellemzőre Mi az, hogy jó becslő? A két legfontosabb tulajdonság: 1 Elfogadjuk, hogy a becslőfüggvény által szolgáltatott becslés mintáról-mintára ingadozik, de legalább az teljesüljön, hogy az ingadozás centrumában a valódi (sokasági) jellemző legyen (torzítatlanság) 2 Ennek az ingadozásnak a mértéke lehetőleg minél kisebb legyen (hatásosság) A becslőfüggvény eloszlása (ugye annak eloszlása lesz, és nem értéke, hiszen mintáról-mintára változik; és adott tartományokban különböző valószínűséggel esik!) az ún. mintavételi eloszlás

Becsléselmélet Mintavételi eloszlás: egy állítás Ha a sokaság X N ( µ, σ 2 0) eloszlást követ (tehát figyelem: ez egy ún. eloszlásával (és nem elemeivel!) adott sokaság; fiktív, végtelen sokaságnál tipikus), akkor a belőle vett n elemű minták átlaga, azaz a µ sokasági várhatóérték (mint sokasági jellemző) fenti becslőfüggvénye x N ( µ, σ 2 0 /n) eloszlást fog követni (Tehát feltételeztük, hogy azt a priori tudjuk, hogy normális eloszlású a sokaság, sőt, σ-t is ismertnek vesszük csak a µ a kérdés) Figyelem, a sokasági jellemző, amit becsülni szeretnénk, itt a µ maga; az tehát nem követ semmilyen eloszlást, egy konstans szám! (Csak mi nem ismerjük.) Ez csak fae (független, azonos eloszlású) mintavételre igaz Ez matematikai úton (valószínűségszámítási módszerekkel) belátható; hogy legyen pár képlet is, bármennyire is bevezetésről van szó, ezt megmutatjuk

Becsléselmélet Mintavételi eloszlás: egy állítás Ha a sokaság X N ( µ, σ 2 0) eloszlást követ (tehát figyelem: ez egy ún. eloszlásával (és nem elemeivel!) adott sokaság; fiktív, végtelen sokaságnál tipikus), akkor a belőle vett n elemű minták átlaga, azaz a µ sokasági várhatóérték (mint sokasági jellemző) fenti becslőfüggvénye x N ( µ, σ 2 0 /n) eloszlást fog követni (Tehát feltételeztük, hogy azt a priori tudjuk, hogy normális eloszlású a sokaság, sőt, σ-t is ismertnek vesszük csak a µ a kérdés) Figyelem, a sokasági jellemző, amit becsülni szeretnénk, itt a µ maga; az tehát nem követ semmilyen eloszlást, egy konstans szám! (Csak mi nem ismerjük.) Ez csak fae (független, azonos eloszlású) mintavételre igaz Ez matematikai úton (valószínűségszámítási módszerekkel) belátható; hogy legyen pár képlet is, bármennyire is bevezetésről van szó, ezt megmutatjuk

Becsléselmélet Mintavételi eloszlás: egy állítás Ha a sokaság X N ( µ, σ 2 0) eloszlást követ (tehát figyelem: ez egy ún. eloszlásával (és nem elemeivel!) adott sokaság; fiktív, végtelen sokaságnál tipikus), akkor a belőle vett n elemű minták átlaga, azaz a µ sokasági várhatóérték (mint sokasági jellemző) fenti becslőfüggvénye x N ( µ, σ 2 0 /n) eloszlást fog követni (Tehát feltételeztük, hogy azt a priori tudjuk, hogy normális eloszlású a sokaság, sőt, σ-t is ismertnek vesszük csak a µ a kérdés) Figyelem, a sokasági jellemző, amit becsülni szeretnénk, itt a µ maga; az tehát nem követ semmilyen eloszlást, egy konstans szám! (Csak mi nem ismerjük.) Ez csak fae (független, azonos eloszlású) mintavételre igaz Ez matematikai úton (valószínűségszámítási módszerekkel) belátható; hogy legyen pár képlet is, bármennyire is bevezetésről van szó, ezt megmutatjuk

Becsléselmélet Mintavételi eloszlás: egy állítás Ha a sokaság X N ( µ, σ 2 0) eloszlást követ (tehát figyelem: ez egy ún. eloszlásával (és nem elemeivel!) adott sokaság; fiktív, végtelen sokaságnál tipikus), akkor a belőle vett n elemű minták átlaga, azaz a µ sokasági várhatóérték (mint sokasági jellemző) fenti becslőfüggvénye x N ( µ, σ 2 0 /n) eloszlást fog követni (Tehát feltételeztük, hogy azt a priori tudjuk, hogy normális eloszlású a sokaság, sőt, σ-t is ismertnek vesszük csak a µ a kérdés) Figyelem, a sokasági jellemző, amit becsülni szeretnénk, itt a µ maga; az tehát nem követ semmilyen eloszlást, egy konstans szám! (Csak mi nem ismerjük.) Ez csak fae (független, azonos eloszlású) mintavételre igaz Ez matematikai úton (valószínűségszámítási módszerekkel) belátható; hogy legyen pár képlet is, bármennyire is bevezetésről van szó, ezt megmutatjuk

Becsléselmélet Mintavételi eloszlás: egy állítás Ha a sokaság X N ( µ, σ 2 0) eloszlást követ (tehát figyelem: ez egy ún. eloszlásával (és nem elemeivel!) adott sokaság; fiktív, végtelen sokaságnál tipikus), akkor a belőle vett n elemű minták átlaga, azaz a µ sokasági várhatóérték (mint sokasági jellemző) fenti becslőfüggvénye x N ( µ, σ 2 0 /n) eloszlást fog követni (Tehát feltételeztük, hogy azt a priori tudjuk, hogy normális eloszlású a sokaság, sőt, σ-t is ismertnek vesszük csak a µ a kérdés) Figyelem, a sokasági jellemző, amit becsülni szeretnénk, itt a µ maga; az tehát nem követ semmilyen eloszlást, egy konstans szám! (Csak mi nem ismerjük.) Ez csak fae (független, azonos eloszlású) mintavételre igaz Ez matematikai úton (valószínűségszámítási módszerekkel) belátható; hogy legyen pár képlet is, bármennyire is bevezetésről van szó, ezt megmutatjuk

Becsléselmélet Bizonyítás I. Legyen az n elemű mintánk X 1, X 2,..., X n N ( µ, σ 2) fae (mivel fae, mindegyik ugyanolyan eloszlást követ) Nagy betűket írtunk: ezek nem konkrét (realizálódott) értékek, hanem maguk is val. változók (eggyel nagyobb dimenzió a statisztikai analízishez) n i=1 X i n Ezzel a becslőfüggvényünk: X = Valószínűségszámításból tudjuk, hogy 1 Normális eloszlású v.v.-k összege normális (szépen: a normális eloszláscsalád zárt a konvolúcióra) 2 A várhatóérték-képzés lineáris, így az összeg várhatóértéke a várhatóértékek összege 3 Ha ráadásul függetlenek, akkor a szórásnégyzetek (nem a szórások!) is összeadódnak

Becsléselmélet Bizonyítás I. Legyen az n elemű mintánk X 1, X 2,..., X n N ( µ, σ 2) fae (mivel fae, mindegyik ugyanolyan eloszlást követ) Nagy betűket írtunk: ezek nem konkrét (realizálódott) értékek, hanem maguk is val. változók (eggyel nagyobb dimenzió a statisztikai analízishez) n i=1 X i n Ezzel a becslőfüggvényünk: X = Valószínűségszámításból tudjuk, hogy 1 Normális eloszlású v.v.-k összege normális (szépen: a normális eloszláscsalád zárt a konvolúcióra) 2 A várhatóérték-képzés lineáris, így az összeg várhatóértéke a várhatóértékek összege 3 Ha ráadásul függetlenek, akkor a szórásnégyzetek (nem a szórások!) is összeadódnak

Becsléselmélet Bizonyítás I. Legyen az n elemű mintánk X 1, X 2,..., X n N ( µ, σ 2) fae (mivel fae, mindegyik ugyanolyan eloszlást követ) Nagy betűket írtunk: ezek nem konkrét (realizálódott) értékek, hanem maguk is val. változók (eggyel nagyobb dimenzió a statisztikai analízishez) n i=1 X i n Ezzel a becslőfüggvényünk: X = Valószínűségszámításból tudjuk, hogy 1 Normális eloszlású v.v.-k összege normális (szépen: a normális eloszláscsalád zárt a konvolúcióra) 2 A várhatóérték-képzés lineáris, így az összeg várhatóértéke a várhatóértékek összege 3 Ha ráadásul függetlenek, akkor a szórásnégyzetek (nem a szórások!) is összeadódnak

Becsléselmélet Bizonyítás I. Legyen az n elemű mintánk X 1, X 2,..., X n N ( µ, σ 2) fae (mivel fae, mindegyik ugyanolyan eloszlást követ) Nagy betűket írtunk: ezek nem konkrét (realizálódott) értékek, hanem maguk is val. változók (eggyel nagyobb dimenzió a statisztikai analízishez) n i=1 X i n Ezzel a becslőfüggvényünk: X = Valószínűségszámításból tudjuk, hogy 1 Normális eloszlású v.v.-k összege normális (szépen: a normális eloszláscsalád zárt a konvolúcióra) 2 A várhatóérték-képzés lineáris, így az összeg várhatóértéke a várhatóértékek összege 3 Ha ráadásul függetlenek, akkor a szórásnégyzetek (nem a szórások!) is összeadódnak

Becsléselmélet Bizonyítás I. Legyen az n elemű mintánk X 1, X 2,..., X n N ( µ, σ 2) fae (mivel fae, mindegyik ugyanolyan eloszlást követ) Nagy betűket írtunk: ezek nem konkrét (realizálódott) értékek, hanem maguk is val. változók (eggyel nagyobb dimenzió a statisztikai analízishez) n i=1 X i n Ezzel a becslőfüggvényünk: X = Valószínűségszámításból tudjuk, hogy 1 Normális eloszlású v.v.-k összege normális (szépen: a normális eloszláscsalád zárt a konvolúcióra) 2 A várhatóérték-képzés lineáris, így az összeg várhatóértéke a várhatóértékek összege 3 Ha ráadásul függetlenek, akkor a szórásnégyzetek (nem a szórások!) is összeadódnak

Becsléselmélet Bizonyítás I. Legyen az n elemű mintánk X 1, X 2,..., X n N ( µ, σ 2) fae (mivel fae, mindegyik ugyanolyan eloszlást követ) Nagy betűket írtunk: ezek nem konkrét (realizálódott) értékek, hanem maguk is val. változók (eggyel nagyobb dimenzió a statisztikai analízishez) n i=1 X i n Ezzel a becslőfüggvényünk: X = Valószínűségszámításból tudjuk, hogy 1 Normális eloszlású v.v.-k összege normális (szépen: a normális eloszláscsalád zárt a konvolúcióra) 2 A várhatóérték-képzés lineáris, így az összeg várhatóértéke a várhatóértékek összege 3 Ha ráadásul függetlenek, akkor a szórásnégyzetek (nem a szórások!) is összeadódnak

Becsléselmélet Bizonyítás I. Legyen az n elemű mintánk X 1, X 2,..., X n N ( µ, σ 2) fae (mivel fae, mindegyik ugyanolyan eloszlást követ) Nagy betűket írtunk: ezek nem konkrét (realizálódott) értékek, hanem maguk is val. változók (eggyel nagyobb dimenzió a statisztikai analízishez) n i=1 X i n Ezzel a becslőfüggvényünk: X = Valószínűségszámításból tudjuk, hogy 1 Normális eloszlású v.v.-k összege normális (szépen: a normális eloszláscsalád zárt a konvolúcióra) 2 A várhatóérték-képzés lineáris, így az összeg várhatóértéke a várhatóértékek összege 3 Ha ráadásul függetlenek, akkor a szórásnégyzetek (nem a szórások!) is összeadódnak

Becsléselmélet Bizonyítás II. A fenti háromból már következik, hogy n i=1 X i N ( nµ, nσ 2) Szintén valószínűségszámításból tudjuk, hogy 1 E (ax ) = a EX 2 D 2 (ax ) = a 2 D 2 X Amiből pedig már következik, hogy n i=1 X = X i N n ahogy állítottuk is ( ) µ, σ 2 /n, Íme egy nagyon egyszerű példa a matematikai statisztikára! Tehát: torzítatlan becslő (többet is be lehetne látni)

Becsléselmélet Bizonyítás II. A fenti háromból már következik, hogy n i=1 X i N ( nµ, nσ 2) Szintén valószínűségszámításból tudjuk, hogy 1 E (ax ) = a EX 2 D 2 (ax ) = a 2 D 2 X Amiből pedig már következik, hogy n i=1 X = X i N n ahogy állítottuk is ( ) µ, σ 2 /n, Íme egy nagyon egyszerű példa a matematikai statisztikára! Tehát: torzítatlan becslő (többet is be lehetne látni)

Becsléselmélet Bizonyítás II. A fenti háromból már következik, hogy n i=1 X i N ( nµ, nσ 2) Szintén valószínűségszámításból tudjuk, hogy 1 E (ax ) = a EX 2 D 2 (ax ) = a 2 D 2 X Amiből pedig már következik, hogy n i=1 X = X i N n ahogy állítottuk is ( ) µ, σ 2 /n, Íme egy nagyon egyszerű példa a matematikai statisztikára! Tehát: torzítatlan becslő (többet is be lehetne látni)

Becsléselmélet Bizonyítás II. A fenti háromból már következik, hogy n i=1 X i N ( nµ, nσ 2) Szintén valószínűségszámításból tudjuk, hogy 1 E (ax ) = a EX 2 D 2 (ax ) = a 2 D 2 X Amiből pedig már következik, hogy n i=1 X = X i N n ahogy állítottuk is ( ) µ, σ 2 /n, Íme egy nagyon egyszerű példa a matematikai statisztikára! Tehát: torzítatlan becslő (többet is be lehetne látni)

Becsléselmélet Bizonyítás II. A fenti háromból már következik, hogy n i=1 X i N ( nµ, nσ 2) Szintén valószínűségszámításból tudjuk, hogy 1 E (ax ) = a EX 2 D 2 (ax ) = a 2 D 2 X Amiből pedig már következik, hogy n i=1 X = X i N n ahogy állítottuk is ( ) µ, σ 2 /n, Íme egy nagyon egyszerű példa a matematikai statisztikára! Tehát: torzítatlan becslő (többet is be lehetne látni)

Becsléselmélet Bizonyítás II. A fenti háromból már következik, hogy n i=1 X i N ( nµ, nσ 2) Szintén valószínűségszámításból tudjuk, hogy 1 E (ax ) = a EX 2 D 2 (ax ) = a 2 D 2 X Amiből pedig már következik, hogy n i=1 X = X i N n ahogy állítottuk is ( ) µ, σ 2 /n, Íme egy nagyon egyszerű példa a matematikai statisztikára! Tehát: torzítatlan becslő (többet is be lehetne látni)

Becsléselmélet Bizonyítás II. A fenti háromból már következik, hogy n i=1 X i N ( nµ, nσ 2) Szintén valószínűségszámításból tudjuk, hogy 1 E (ax ) = a EX 2 D 2 (ax ) = a 2 D 2 X Amiből pedig már következik, hogy n i=1 X = X i N n ahogy állítottuk is ( ) µ, σ 2 /n, Íme egy nagyon egyszerű példa a matematikai statisztikára! Tehát: torzítatlan becslő (többet is be lehetne látni)

Becsléselmélet Intervallumbecslés A fentiekkel egyetlen számot, a legjobb becslést adjuk vissza eredményként Nem adunk számot arról, hogy ebben mekkora a bizonytalanság...... pedig erről is tudunk nyilatkozni! ( Kalkulálható bizonytalanság ) Tipikus szemléltetés: konfidenciaintervallum (CI): mi az a tartomány, amire igaz, hogy ha sokszor megismételnék a mintavételt, és mindegyik mintából megszerkesztenénk a CI-t, akkor ezen CI-k várhatóan 95%-a tartalmazná az igazi (sokasági) értéket (95% megbízhatóság melletti CI) Nagyobb megbízhatóság semmitmondóbb intervallum

Becsléselmélet Intervallumbecslés A fentiekkel egyetlen számot, a legjobb becslést adjuk vissza eredményként Nem adunk számot arról, hogy ebben mekkora a bizonytalanság...... pedig erről is tudunk nyilatkozni! ( Kalkulálható bizonytalanság ) Tipikus szemléltetés: konfidenciaintervallum (CI): mi az a tartomány, amire igaz, hogy ha sokszor megismételnék a mintavételt, és mindegyik mintából megszerkesztenénk a CI-t, akkor ezen CI-k várhatóan 95%-a tartalmazná az igazi (sokasági) értéket (95% megbízhatóság melletti CI) Nagyobb megbízhatóság semmitmondóbb intervallum

Becsléselmélet Intervallumbecslés A fentiekkel egyetlen számot, a legjobb becslést adjuk vissza eredményként Nem adunk számot arról, hogy ebben mekkora a bizonytalanság...... pedig erről is tudunk nyilatkozni! ( Kalkulálható bizonytalanság ) Tipikus szemléltetés: konfidenciaintervallum (CI): mi az a tartomány, amire igaz, hogy ha sokszor megismételnék a mintavételt, és mindegyik mintából megszerkesztenénk a CI-t, akkor ezen CI-k várhatóan 95%-a tartalmazná az igazi (sokasági) értéket (95% megbízhatóság melletti CI) Nagyobb megbízhatóság semmitmondóbb intervallum

Becsléselmélet Intervallumbecslés A fentiekkel egyetlen számot, a legjobb becslést adjuk vissza eredményként Nem adunk számot arról, hogy ebben mekkora a bizonytalanság...... pedig erről is tudunk nyilatkozni! ( Kalkulálható bizonytalanság ) Tipikus szemléltetés: konfidenciaintervallum (CI): mi az a tartomány, amire igaz, hogy ha sokszor megismételnék a mintavételt, és mindegyik mintából megszerkesztenénk a CI-t, akkor ezen CI-k várhatóan 95%-a tartalmazná az igazi (sokasági) értéket (95% megbízhatóság melletti CI) Nagyobb megbízhatóság semmitmondóbb intervallum

Becsléselmélet Intervallumbecslés A fentiekkel egyetlen számot, a legjobb becslést adjuk vissza eredményként Nem adunk számot arról, hogy ebben mekkora a bizonytalanság...... pedig erről is tudunk nyilatkozni! ( Kalkulálható bizonytalanság ) Tipikus szemléltetés: konfidenciaintervallum (CI): mi az a tartomány, amire igaz, hogy ha sokszor megismételnék a mintavételt, és mindegyik mintából megszerkesztenénk a CI-t, akkor ezen CI-k várhatóan 95%-a tartalmazná az igazi (sokasági) értéket (95% megbízhatóság melletti CI) Nagyobb megbízhatóság semmitmondóbb intervallum

Becsléselmélet Példa I. Például: tudjuk, hogy X N ( µ, σ 2 /n ) Ebből következik, hogy X µ σ/ N (0, 1) n Azaz P ( z < X µ σ/ n < z Emiatt, ha ) = Φ (z) Φ ( z) = Φ (z) [ 1 Φ (z) ] = = 2Φ (z) 1 2Φ (z) 1 = 1 α Φ (z) = 1 α 2 z = Φ 1 ( 1 α 2 ) =: z 1 α 2, [ ] akkor rögtön látható, hogy a µ z 1 α σ 2 n, µ + z 1 α σ 2 n tartományba 1 α valószínűséggel esik X ( deduktív statisztika )

Becsléselmélet Példa I. Például: tudjuk, hogy X N ( µ, σ 2 /n ) Ebből következik, hogy X µ σ/ N (0, 1) n Azaz P ( z < X µ σ/ n < z Emiatt, ha ) = Φ (z) Φ ( z) = Φ (z) [ 1 Φ (z) ] = = 2Φ (z) 1 2Φ (z) 1 = 1 α Φ (z) = 1 α 2 z = Φ 1 ( 1 α 2 ) =: z 1 α 2, [ ] akkor rögtön látható, hogy a µ z 1 α σ 2 n, µ + z 1 α σ 2 n tartományba 1 α valószínűséggel esik X ( deduktív statisztika )

Becsléselmélet Példa I. Például: tudjuk, hogy X N ( µ, σ 2 /n ) Ebből következik, hogy X µ σ/ N (0, 1) n Azaz P ( z < X µ σ/ n < z Emiatt, ha ) = Φ (z) Φ ( z) = Φ (z) [ 1 Φ (z) ] = = 2Φ (z) 1 2Φ (z) 1 = 1 α Φ (z) = 1 α 2 z = Φ 1 ( 1 α 2 ) =: z 1 α 2, [ ] akkor rögtön látható, hogy a µ z 1 α σ 2 n, µ + z 1 α σ 2 n tartományba 1 α valószínűséggel esik X ( deduktív statisztika )

Becsléselmélet Példa I. Például: tudjuk, hogy X N ( µ, σ 2 /n ) Ebből következik, hogy X µ σ/ N (0, 1) n Azaz P ( z < X µ σ/ n < z Emiatt, ha ) = Φ (z) Φ ( z) = Φ (z) [ 1 Φ (z) ] = = 2Φ (z) 1 2Φ (z) 1 = 1 α Φ (z) = 1 α 2 z = Φ 1 ( 1 α 2 ) =: z 1 α 2, [ ] akkor rögtön látható, hogy a µ z 1 α σ 2 n, µ + z 1 α σ 2 n tartományba 1 α valószínűséggel esik X ( deduktív statisztika )

Becsléselmélet Példa II. Átrendezve kapjuk az induktív statisztikát: ( ) P z 1 α < X µ 2 σ/ n < z 1 α = 1 α 2 ( ) σ σ P X z 1 α < µ < X + z 2 1 α = 1 α n 2 n Tipikusan: α = 0,05, ekkor a 95%-os[ konfidenciaintervallum immár ] egy konkrét mintára a fenti alapján: x z 1 α σ 2 n, x + z 1 α σ 2 n Vigyázat, csak mintavétel előtt vannak val. változók, utána ( kis betűk ) már nem, ezért használtuk a megbízhatóság szót a valószínűség helyett az állítás csak (képzeletbeli) ismételt mintavételi értelemben igaz

Becsléselmélet Példa II. Átrendezve kapjuk az induktív statisztikát: ( ) P z 1 α < X µ 2 σ/ n < z 1 α = 1 α 2 ( ) σ σ P X z 1 α < µ < X + z 2 1 α = 1 α n 2 n Tipikusan: α = 0,05, ekkor a 95%-os[ konfidenciaintervallum immár ] egy konkrét mintára a fenti alapján: x z 1 α σ 2 n, x + z 1 α σ 2 n Vigyázat, csak mintavétel előtt vannak val. változók, utána ( kis betűk ) már nem, ezért használtuk a megbízhatóság szót a valószínűség helyett az állítás csak (képzeletbeli) ismételt mintavételi értelemben igaz

Becsléselmélet Példa II. Átrendezve kapjuk az induktív statisztikát: ( ) P z 1 α < X µ 2 σ/ n < z 1 α = 1 α 2 ( ) σ σ P X z 1 α < µ < X + z 2 1 α = 1 α n 2 n Tipikusan: α = 0,05, ekkor a 95%-os[ konfidenciaintervallum immár ] egy konkrét mintára a fenti alapján: x z 1 α σ 2 n, x + z 1 α σ 2 n Vigyázat, csak mintavétel előtt vannak val. változók, utána ( kis betűk ) már nem, ezért használtuk a megbízhatóság szót a valószínűség helyett az állítás csak (képzeletbeli) ismételt mintavételi értelemben igaz

Hipotézisvizsgálat Tartalom 1 Mi a statisztika? 2 A statisztika alapfogalmai 3 Deskriptív statisztika A deskriptív statisztikáról általában Egyváltozós elemzés, minőségi változó Egyváltozós elemzés, mennyiségi változó Két minőségi változó kapcsolata: asszociáció Két mennyiségi változó kapcsolata: korreláció 4 Induktív statisztika A mintavételi helyzet konzekvenciái Becsléselmélet Hipotézisvizsgálat 5 Klinikai vizsgálatok

Hipotézisvizsgálat A hipotézisvizsgálat alapfogalmai Feladat: sokaságra vonatkozó állítás eldöntése minta alapján Lényegében az intervallumbecslés ikertestvére, de hatalmas gyakorlati jelentősége miatt külön eszköztára van Alapeszköze a statisztikai próba (vagy teszt), mely a mintaelemek alapján kiszámol egy ún. tesztstatisztikát (próbafüggényt) Vizsgált állításaink: nullhipotézis ellenhipotézis Egy tipikus példa: H 0 : µ = µ 0 H 1 : µ µ 0 Itt µ 0 általunk megadott, ismert szám (pl. µ 0 = 70 kg a példánkban)

Hipotézisvizsgálat A hipotézisvizsgálat alapfogalmai Feladat: sokaságra vonatkozó állítás eldöntése minta alapján Lényegében az intervallumbecslés ikertestvére, de hatalmas gyakorlati jelentősége miatt külön eszköztára van Alapeszköze a statisztikai próba (vagy teszt), mely a mintaelemek alapján kiszámol egy ún. tesztstatisztikát (próbafüggényt) Vizsgált állításaink: nullhipotézis ellenhipotézis Egy tipikus példa: H 0 : µ = µ 0 H 1 : µ µ 0 Itt µ 0 általunk megadott, ismert szám (pl. µ 0 = 70 kg a példánkban)

Hipotézisvizsgálat A hipotézisvizsgálat alapfogalmai Feladat: sokaságra vonatkozó állítás eldöntése minta alapján Lényegében az intervallumbecslés ikertestvére, de hatalmas gyakorlati jelentősége miatt külön eszköztára van Alapeszköze a statisztikai próba (vagy teszt), mely a mintaelemek alapján kiszámol egy ún. tesztstatisztikát (próbafüggényt) Vizsgált állításaink: nullhipotézis ellenhipotézis Egy tipikus példa: H 0 : µ = µ 0 H 1 : µ µ 0 Itt µ 0 általunk megadott, ismert szám (pl. µ 0 = 70 kg a példánkban)

Hipotézisvizsgálat A hipotézisvizsgálat alapfogalmai Feladat: sokaságra vonatkozó állítás eldöntése minta alapján Lényegében az intervallumbecslés ikertestvére, de hatalmas gyakorlati jelentősége miatt külön eszköztára van Alapeszköze a statisztikai próba (vagy teszt), mely a mintaelemek alapján kiszámol egy ún. tesztstatisztikát (próbafüggényt) Vizsgált állításaink: nullhipotézis ellenhipotézis Egy tipikus példa: H 0 : µ = µ 0 H 1 : µ µ 0 Itt µ 0 általunk megadott, ismert szám (pl. µ 0 = 70 kg a példánkban)

Hipotézisvizsgálat A hipotézisvizsgálat alapfogalmai Feladat: sokaságra vonatkozó állítás eldöntése minta alapján Lényegében az intervallumbecslés ikertestvére, de hatalmas gyakorlati jelentősége miatt külön eszköztára van Alapeszköze a statisztikai próba (vagy teszt), mely a mintaelemek alapján kiszámol egy ún. tesztstatisztikát (próbafüggényt) Vizsgált állításaink: nullhipotézis ellenhipotézis Egy tipikus példa: H 0 : µ = µ 0 H 1 : µ µ 0 Itt µ 0 általunk megadott, ismert szám (pl. µ 0 = 70 kg a példánkban)

Hipotézisvizsgálat A hipotézisvizsgálat alapfogalmai Feladat: sokaságra vonatkozó állítás eldöntése minta alapján Lényegében az intervallumbecslés ikertestvére, de hatalmas gyakorlati jelentősége miatt külön eszköztára van Alapeszköze a statisztikai próba (vagy teszt), mely a mintaelemek alapján kiszámol egy ún. tesztstatisztikát (próbafüggényt) Vizsgált állításaink: nullhipotézis ellenhipotézis Egy tipikus példa: H 0 : µ = µ 0 H 1 : µ µ 0 Itt µ 0 általunk megadott, ismert szám (pl. µ 0 = 70 kg a példánkban)

Hipotézisvizsgálat Próbafüggvény megszerkesztése Itt jön a kulcs: a próbafüggvényt úgy kell megszerkeszteni, hogy H 0 fennállása esetén ismert eloszlást kövessen (nulleloszlás) Például (sokasági normalitás, ismert szórás): ( ) X : nem jó, mert X N µ 0, σ 2 /n (most ugye H 0-t igaznak vesszük!) és ez függ µ 0-tól (σ-tól és n-től is, de az nem baj, mert azokat tudjuk most) Próbálkozzunk ( máshogy, ) X µ 0: technikailag jó, mert X µ 0 N 0, σ 2 /n, de nem túl praktikus, mert minden σ-hoz és n-hez külön táblázat kéne Ennek fényében X µ 0 σ/ : teljesen jó, minden paramétertől függetlenül n N (0, 1) eloszlást követ, ez lesz a jó próbafüggvény

Hipotézisvizsgálat Próbafüggvény megszerkesztése Itt jön a kulcs: a próbafüggvényt úgy kell megszerkeszteni, hogy H 0 fennállása esetén ismert eloszlást kövessen (nulleloszlás) Például (sokasági normalitás, ismert szórás): ( ) X : nem jó, mert X N µ 0, σ 2 /n (most ugye H 0-t igaznak vesszük!) és ez függ µ 0-tól (σ-tól és n-től is, de az nem baj, mert azokat tudjuk most) Próbálkozzunk ( máshogy, ) X µ 0: technikailag jó, mert X µ 0 N 0, σ 2 /n, de nem túl praktikus, mert minden σ-hoz és n-hez külön táblázat kéne Ennek fényében X µ 0 σ/ : teljesen jó, minden paramétertől függetlenül n N (0, 1) eloszlást követ, ez lesz a jó próbafüggvény

Hipotézisvizsgálat Próbafüggvény megszerkesztése Itt jön a kulcs: a próbafüggvényt úgy kell megszerkeszteni, hogy H 0 fennállása esetén ismert eloszlást kövessen (nulleloszlás) Például (sokasági normalitás, ismert szórás): ( ) X : nem jó, mert X N µ 0, σ 2 /n (most ugye H 0-t igaznak vesszük!) és ez függ µ 0-tól (σ-tól és n-től is, de az nem baj, mert azokat tudjuk most) Próbálkozzunk ( máshogy, ) X µ 0: technikailag jó, mert X µ 0 N 0, σ 2 /n, de nem túl praktikus, mert minden σ-hoz és n-hez külön táblázat kéne Ennek fényében X µ 0 σ/ : teljesen jó, minden paramétertől függetlenül n N (0, 1) eloszlást követ, ez lesz a jó próbafüggvény

Hipotézisvizsgálat Próbafüggvény megszerkesztése Itt jön a kulcs: a próbafüggvényt úgy kell megszerkeszteni, hogy H 0 fennállása esetén ismert eloszlást kövessen (nulleloszlás) Például (sokasági normalitás, ismert szórás): ( ) X : nem jó, mert X N µ 0, σ 2 /n (most ugye H 0-t igaznak vesszük!) és ez függ µ 0-tól (σ-tól és n-től is, de az nem baj, mert azokat tudjuk most) Próbálkozzunk ( máshogy, ) X µ 0: technikailag jó, mert X µ 0 N 0, σ 2 /n, de nem túl praktikus, mert minden σ-hoz és n-hez külön táblázat kéne Ennek fényében X µ 0 σ/ : teljesen jó, minden paramétertől függetlenül n N (0, 1) eloszlást követ, ez lesz a jó próbafüggvény

Hipotézisvizsgálat Próbafüggvény megszerkesztése Itt jön a kulcs: a próbafüggvényt úgy kell megszerkeszteni, hogy H 0 fennállása esetén ismert eloszlást kövessen (nulleloszlás) Például (sokasági normalitás, ismert szórás): ( ) X : nem jó, mert X N µ 0, σ 2 /n (most ugye H 0-t igaznak vesszük!) és ez függ µ 0-tól (σ-tól és n-től is, de az nem baj, mert azokat tudjuk most) Próbálkozzunk ( máshogy, ) X µ 0: technikailag jó, mert X µ 0 N 0, σ 2 /n, de nem túl praktikus, mert minden σ-hoz és n-hez külön táblázat kéne Ennek fényében X µ 0 σ/ : teljesen jó, minden paramétertől függetlenül n N (0, 1) eloszlást követ, ez lesz a jó próbafüggvény

Hipotézisvizsgálat Próbafüggvény megszerkesztése Ez ún. pivot, eloszlása már nem függ ismeretlen paramétertől: Z := X µ 0 σ/ n H 0 N (0, 1), azaz a próbafüggvény H 0 fennállása esetén N (0, 1) eloszlást követ

Hipotézisvizsgálat Döntés a hipotézisvizsgálatban I. Hihető-e, hogy az empirikus (adott, konkrét mintából kapott) érték ebből az eloszlásból származik? Biztos döntés nincs! De: mennyire hihetőek ezek?

f Hipotézisvizsgálat Döntés a hipotézisvizsgálatban I. Hihető-e, hogy az empirikus (adott, konkrét mintából kapott) érték ebből az eloszlásból származik? Biztos döntés nincs! De: mennyire hihetőek ezek? 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 0.5 f -4-2 0 2 4 z -4-2 0 2 4 z

Hipotézisvizsgálat Döntés a hipotézisvizsgálatban II. Valahol határt kell húznunk szó szerint is! Azt mondjuk, hogy a nagyon kis valószínűségű területekre esést már nem hisszük el Pedig az nem lehetetlen, sőt: az is tudható, hogy az oda esés (azaz a fenti logikával történő hibázás) valószínűsége épp ez a nagyon kis valószínűség Tipikus, hogy a felső és alsó szélén is 2,5-2,5 % valószínűségű területet jelülünk ki (α = 5%, ez a szignifikanciaszint), határai: a c a alsó és a c f felső kritikus értékek (példában: ±1,96)

Hipotézisvizsgálat Döntés a hipotézisvizsgálatban II. Valahol határt kell húznunk szó szerint is! Azt mondjuk, hogy a nagyon kis valószínűségű területekre esést már nem hisszük el Pedig az nem lehetetlen, sőt: az is tudható, hogy az oda esés (azaz a fenti logikával történő hibázás) valószínűsége épp ez a nagyon kis valószínűség Tipikus, hogy a felső és alsó szélén is 2,5-2,5 % valószínűségű területet jelülünk ki (α = 5%, ez a szignifikanciaszint), határai: a c a alsó és a c f felső kritikus értékek (példában: ±1,96)

Hipotézisvizsgálat Döntés a hipotézisvizsgálatban II. Valahol határt kell húznunk szó szerint is! Azt mondjuk, hogy a nagyon kis valószínűségű területekre esést már nem hisszük el Pedig az nem lehetetlen, sőt: az is tudható, hogy az oda esés (azaz a fenti logikával történő hibázás) valószínűsége épp ez a nagyon kis valószínűség Tipikus, hogy a felső és alsó szélén is 2,5-2,5 % valószínűségű területet jelülünk ki (α = 5%, ez a szignifikanciaszint), határai: a c a alsó és a c f felső kritikus értékek (példában: ±1,96)

Hipotézisvizsgálat Döntés a hipotézisvizsgálatban II. Valahol határt kell húznunk szó szerint is! Azt mondjuk, hogy a nagyon kis valószínűségű területekre esést már nem hisszük el Pedig az nem lehetetlen, sőt: az is tudható, hogy az oda esés (azaz a fenti logikával történő hibázás) valószínűsége épp ez a nagyon kis valószínűség Tipikus, hogy a felső és alsó szélén is 2,5-2,5 % valószínűségű területet jelülünk ki (α = 5%, ez a szignifikanciaszint), határai: a c a alsó és a c f felső kritikus értékek (példában: ±1,96)

Hipotézisvizsgálat p-érték Vagy: Mennyi lenne az a szignifikanciaszint, ami mellett a mintából kapott (empirikus) tesztstatisztika-érték épp az elfogadás és az elutasítás határára kerülne? (Ez nem más, mint az empirikus értéktől extrémebb helyeken vett integrálja a mintavételi eloszlásnak) A neve: p-érték Manapság (hogy a számításigény már nem probléma), ezt szokták megadni, mert nem binarizálja az eredményt Az olvasó is tud dönteni : ha a választott szignifikanciaszint nagyobb, mint a p-érték, akkor elutasítunk, különben elfogadunk Frekvencionista szemlélet!

Hipotézisvizsgálat p-érték Vagy: Mennyi lenne az a szignifikanciaszint, ami mellett a mintából kapott (empirikus) tesztstatisztika-érték épp az elfogadás és az elutasítás határára kerülne? (Ez nem más, mint az empirikus értéktől extrémebb helyeken vett integrálja a mintavételi eloszlásnak) A neve: p-érték Manapság (hogy a számításigény már nem probléma), ezt szokták megadni, mert nem binarizálja az eredményt Az olvasó is tud dönteni : ha a választott szignifikanciaszint nagyobb, mint a p-érték, akkor elutasítunk, különben elfogadunk Frekvencionista szemlélet!

Hipotézisvizsgálat p-érték Vagy: Mennyi lenne az a szignifikanciaszint, ami mellett a mintából kapott (empirikus) tesztstatisztika-érték épp az elfogadás és az elutasítás határára kerülne? (Ez nem más, mint az empirikus értéktől extrémebb helyeken vett integrálja a mintavételi eloszlásnak) A neve: p-érték Manapság (hogy a számításigény már nem probléma), ezt szokták megadni, mert nem binarizálja az eredményt Az olvasó is tud dönteni : ha a választott szignifikanciaszint nagyobb, mint a p-érték, akkor elutasítunk, különben elfogadunk Frekvencionista szemlélet!

Hipotézisvizsgálat p-érték Vagy: Mennyi lenne az a szignifikanciaszint, ami mellett a mintából kapott (empirikus) tesztstatisztika-érték épp az elfogadás és az elutasítás határára kerülne? (Ez nem más, mint az empirikus értéktől extrémebb helyeken vett integrálja a mintavételi eloszlásnak) A neve: p-érték Manapság (hogy a számításigény már nem probléma), ezt szokták megadni, mert nem binarizálja az eredményt Az olvasó is tud dönteni : ha a választott szignifikanciaszint nagyobb, mint a p-érték, akkor elutasítunk, különben elfogadunk Frekvencionista szemlélet!

Hipotézisvizsgálat p-érték Vagy: Mennyi lenne az a szignifikanciaszint, ami mellett a mintából kapott (empirikus) tesztstatisztika-érték épp az elfogadás és az elutasítás határára kerülne? (Ez nem más, mint az empirikus értéktől extrémebb helyeken vett integrálja a mintavételi eloszlásnak) A neve: p-érték Manapság (hogy a számításigény már nem probléma), ezt szokták megadni, mert nem binarizálja az eredményt Az olvasó is tud dönteni : ha a választott szignifikanciaszint nagyobb, mint a p-érték, akkor elutasítunk, különben elfogadunk Frekvencionista szemlélet!

Hipotézisvizsgálat p-érték Vagy: Mennyi lenne az a szignifikanciaszint, ami mellett a mintából kapott (empirikus) tesztstatisztika-érték épp az elfogadás és az elutasítás határára kerülne? (Ez nem más, mint az empirikus értéktől extrémebb helyeken vett integrálja a mintavételi eloszlásnak) A neve: p-érték Manapság (hogy a számításigény már nem probléma), ezt szokták megadni, mert nem binarizálja az eredményt Az olvasó is tud dönteni : ha a választott szignifikanciaszint nagyobb, mint a p-érték, akkor elutasítunk, különben elfogadunk Frekvencionista szemlélet!

Hipotézisvizsgálat Példa I. (Csak szemléltetésként, részletek nélkül) Van-e különbség a dohányzó és a nem-dohányzó nők gyermekeinek születési tömege között? A mintában 2772 g a dohányzóknál az átlag, 3056 g a nem-dohányzóknál; csakhogy a kérdés nem ez... Ez egy sokaságra vonatkozó kérdés próbát kell végeznünk! Adott a dohányzó nők sokaságában az újszülöttek tömegének eloszlása, és ugyanez a nem-dohányzó nők sokaságában operacionalizáljuk úgy a kérdést, hogy a várhatóértékük eltér-e egymástól Erről kell minta alapján dönteni

Hipotézisvizsgálat Példa I. (Csak szemléltetésként, részletek nélkül) Van-e különbség a dohányzó és a nem-dohányzó nők gyermekeinek születési tömege között? A mintában 2772 g a dohányzóknál az átlag, 3056 g a nem-dohányzóknál; csakhogy a kérdés nem ez... Ez egy sokaságra vonatkozó kérdés próbát kell végeznünk! Adott a dohányzó nők sokaságában az újszülöttek tömegének eloszlása, és ugyanez a nem-dohányzó nők sokaságában operacionalizáljuk úgy a kérdést, hogy a várhatóértékük eltér-e egymástól Erről kell minta alapján dönteni

Hipotézisvizsgálat Példa I. (Csak szemléltetésként, részletek nélkül) Van-e különbség a dohányzó és a nem-dohányzó nők gyermekeinek születési tömege között? A mintában 2772 g a dohányzóknál az átlag, 3056 g a nem-dohányzóknál; csakhogy a kérdés nem ez... Ez egy sokaságra vonatkozó kérdés próbát kell végeznünk! Adott a dohányzó nők sokaságában az újszülöttek tömegének eloszlása, és ugyanez a nem-dohányzó nők sokaságában operacionalizáljuk úgy a kérdést, hogy a várhatóértékük eltér-e egymástól Erről kell minta alapján dönteni

Hipotézisvizsgálat Példa I. (Csak szemléltetésként, részletek nélkül) Van-e különbség a dohányzó és a nem-dohányzó nők gyermekeinek születési tömege között? A mintában 2772 g a dohányzóknál az átlag, 3056 g a nem-dohányzóknál; csakhogy a kérdés nem ez... Ez egy sokaságra vonatkozó kérdés próbát kell végeznünk! Adott a dohányzó nők sokaságában az újszülöttek tömegének eloszlása, és ugyanez a nem-dohányzó nők sokaságában operacionalizáljuk úgy a kérdést, hogy a várhatóértékük eltér-e egymástól Erről kell minta alapján dönteni

Hipotézisvizsgálat Példa I. (Csak szemléltetésként, részletek nélkül) Van-e különbség a dohányzó és a nem-dohányzó nők gyermekeinek születési tömege között? A mintában 2772 g a dohányzóknál az átlag, 3056 g a nem-dohányzóknál; csakhogy a kérdés nem ez... Ez egy sokaságra vonatkozó kérdés próbát kell végeznünk! Adott a dohányzó nők sokaságában az újszülöttek tömegének eloszlása, és ugyanez a nem-dohányzó nők sokaságában operacionalizáljuk úgy a kérdést, hogy a várhatóértékük eltér-e egymástól Erről kell minta alapján dönteni

Hipotézisvizsgálat Példa I. (Csak szemléltetésként, részletek nélkül) Van-e különbség a dohányzó és a nem-dohányzó nők gyermekeinek születési tömege között? A mintában 2772 g a dohányzóknál az átlag, 3056 g a nem-dohányzóknál; csakhogy a kérdés nem ez... Ez egy sokaságra vonatkozó kérdés próbát kell végeznünk! Adott a dohányzó nők sokaságában az újszülöttek tömegének eloszlása, és ugyanez a nem-dohányzó nők sokaságában operacionalizáljuk úgy a kérdést, hogy a várhatóértékük eltér-e egymástól Erről kell minta alapján dönteni

Hipotézisvizsgálat Példa II. Elég nagy minta, ún. kétmintás Welch-próba alkalmazható: p = 0,007 Szokásos szignifikanciaszinteken elvethető a feltevés, hogy a dohányzó és a nem-dohányzó nők csoportjában azonos a születési súly: a születi súly kapcsolatban van azzal, hogy dohányzik-e a várandós anya A dohányzás csökkenti a születési súlyt! na ilyet viszont nem mondhatunk! (Korreláció nem implikál kauzalitást!) Confounderek? (Bár itt jó eséllyel tényleg kauzális kapcsolat van, de ezt csak más kísérleti elrendezéssel lehet szabatosan kimutatni)

Hipotézisvizsgálat Példa II. Elég nagy minta, ún. kétmintás Welch-próba alkalmazható: p = 0,007 Szokásos szignifikanciaszinteken elvethető a feltevés, hogy a dohányzó és a nem-dohányzó nők csoportjában azonos a születési súly: a születi súly kapcsolatban van azzal, hogy dohányzik-e a várandós anya A dohányzás csökkenti a születési súlyt! na ilyet viszont nem mondhatunk! (Korreláció nem implikál kauzalitást!) Confounderek? (Bár itt jó eséllyel tényleg kauzális kapcsolat van, de ezt csak más kísérleti elrendezéssel lehet szabatosan kimutatni)

Hipotézisvizsgálat Példa II. Elég nagy minta, ún. kétmintás Welch-próba alkalmazható: p = 0,007 Szokásos szignifikanciaszinteken elvethető a feltevés, hogy a dohányzó és a nem-dohányzó nők csoportjában azonos a születési súly: a születi súly kapcsolatban van azzal, hogy dohányzik-e a várandós anya A dohányzás csökkenti a születési súlyt! na ilyet viszont nem mondhatunk! (Korreláció nem implikál kauzalitást!) Confounderek? (Bár itt jó eséllyel tényleg kauzális kapcsolat van, de ezt csak más kísérleti elrendezéssel lehet szabatosan kimutatni)

Hipotézisvizsgálat Példa II. Elég nagy minta, ún. kétmintás Welch-próba alkalmazható: p = 0,007 Szokásos szignifikanciaszinteken elvethető a feltevés, hogy a dohányzó és a nem-dohányzó nők csoportjában azonos a születési súly: a születi súly kapcsolatban van azzal, hogy dohányzik-e a várandós anya A dohányzás csökkenti a születési súlyt! na ilyet viszont nem mondhatunk! (Korreláció nem implikál kauzalitást!) Confounderek? (Bár itt jó eséllyel tényleg kauzális kapcsolat van, de ezt csak más kísérleti elrendezéssel lehet szabatosan kimutatni)

Hipotézisvizsgálat Próba hibái I. Elvetjük H 0 -t, pedig fennáll (elsőfajú hiba, α): pontosan szabályozható valószínűségű Elfogadjuk H 0 -t, pedig el lehetne vetni (másodfajú hiba, β): általánosságban nem ismert, függ a valóságtól 1 β: próba ereje ( mennyire ismeri fel az eltérést, ha tényleg van ) Mi két dologgal tudjuk befolyásolni a próba erejét, mindkettőhöz egy-egy tételmondat: 1 Választott próba: mindig annyi előfeltevésre építő próbát használjunk, amennyit tudunk, se többet se kevesebbet (több előfeltevésre építő próbák erősebbek ugyan, de ha szükséges előfeltevés nem teljesül, a próba nem lesz valid) 2 Mintanagyság: kis hatáshoz nagy minta kell, nagy hatáshoz elég a kisebb minta is

Hipotézisvizsgálat Próba hibái I. Elvetjük H 0 -t, pedig fennáll (elsőfajú hiba, α): pontosan szabályozható valószínűségű Elfogadjuk H 0 -t, pedig el lehetne vetni (másodfajú hiba, β): általánosságban nem ismert, függ a valóságtól 1 β: próba ereje ( mennyire ismeri fel az eltérést, ha tényleg van ) Mi két dologgal tudjuk befolyásolni a próba erejét, mindkettőhöz egy-egy tételmondat: 1 Választott próba: mindig annyi előfeltevésre építő próbát használjunk, amennyit tudunk, se többet se kevesebbet (több előfeltevésre építő próbák erősebbek ugyan, de ha szükséges előfeltevés nem teljesül, a próba nem lesz valid) 2 Mintanagyság: kis hatáshoz nagy minta kell, nagy hatáshoz elég a kisebb minta is

Hipotézisvizsgálat Próba hibái I. Elvetjük H 0 -t, pedig fennáll (elsőfajú hiba, α): pontosan szabályozható valószínűségű Elfogadjuk H 0 -t, pedig el lehetne vetni (másodfajú hiba, β): általánosságban nem ismert, függ a valóságtól 1 β: próba ereje ( mennyire ismeri fel az eltérést, ha tényleg van ) Mi két dologgal tudjuk befolyásolni a próba erejét, mindkettőhöz egy-egy tételmondat: 1 Választott próba: mindig annyi előfeltevésre építő próbát használjunk, amennyit tudunk, se többet se kevesebbet (több előfeltevésre építő próbák erősebbek ugyan, de ha szükséges előfeltevés nem teljesül, a próba nem lesz valid) 2 Mintanagyság: kis hatáshoz nagy minta kell, nagy hatáshoz elég a kisebb minta is

Hipotézisvizsgálat Próba hibái I. Elvetjük H 0 -t, pedig fennáll (elsőfajú hiba, α): pontosan szabályozható valószínűségű Elfogadjuk H 0 -t, pedig el lehetne vetni (másodfajú hiba, β): általánosságban nem ismert, függ a valóságtól 1 β: próba ereje ( mennyire ismeri fel az eltérést, ha tényleg van ) Mi két dologgal tudjuk befolyásolni a próba erejét, mindkettőhöz egy-egy tételmondat: 1 Választott próba: mindig annyi előfeltevésre építő próbát használjunk, amennyit tudunk, se többet se kevesebbet (több előfeltevésre építő próbák erősebbek ugyan, de ha szükséges előfeltevés nem teljesül, a próba nem lesz valid) 2 Mintanagyság: kis hatáshoz nagy minta kell, nagy hatáshoz elég a kisebb minta is

Hipotézisvizsgálat Próba hibái I. Elvetjük H 0 -t, pedig fennáll (elsőfajú hiba, α): pontosan szabályozható valószínűségű Elfogadjuk H 0 -t, pedig el lehetne vetni (másodfajú hiba, β): általánosságban nem ismert, függ a valóságtól 1 β: próba ereje ( mennyire ismeri fel az eltérést, ha tényleg van ) Mi két dologgal tudjuk befolyásolni a próba erejét, mindkettőhöz egy-egy tételmondat: 1 Választott próba: mindig annyi előfeltevésre építő próbát használjunk, amennyit tudunk, se többet se kevesebbet (több előfeltevésre építő próbák erősebbek ugyan, de ha szükséges előfeltevés nem teljesül, a próba nem lesz valid) 2 Mintanagyság: kis hatáshoz nagy minta kell, nagy hatáshoz elég a kisebb minta is

Hipotézisvizsgálat Próba hibái I. Elvetjük H 0 -t, pedig fennáll (elsőfajú hiba, α): pontosan szabályozható valószínűségű Elfogadjuk H 0 -t, pedig el lehetne vetni (másodfajú hiba, β): általánosságban nem ismert, függ a valóságtól 1 β: próba ereje ( mennyire ismeri fel az eltérést, ha tényleg van ) Mi két dologgal tudjuk befolyásolni a próba erejét, mindkettőhöz egy-egy tételmondat: 1 Választott próba: mindig annyi előfeltevésre építő próbát használjunk, amennyit tudunk, se többet se kevesebbet (több előfeltevésre építő próbák erősebbek ugyan, de ha szükséges előfeltevés nem teljesül, a próba nem lesz valid) 2 Mintanagyság: kis hatáshoz nagy minta kell, nagy hatáshoz elég a kisebb minta is

Hipotézisvizsgálat Próba hibái II. Bár néhol bevett szokás, de elvileg nem korrekt egy próba előfeltevését ugyanazon mintán egy másik próbával eldönteni ( testing hypothesis suggested by data )

Hipotézisvizsgálat Szignifikanciavadászat I. Mivel minden tesztnek α elsőfajú hibája van, ezért (sajnos!) aki keres az talál!