Valószínűség-eloszlás
|
|
- Kornélia Deák
- 6 évvel ezelőtt
- Látták:
Átírás
1 Valószínűség-eloszlás Abból, hogy egy adott érték hányszor fordul elő (értékek gyakorisági vagy frekvencia-eloszlása), elvben meg tudnánk becsülni, hogy egy adott érték milyen valószínűséggel fordul elő (értékek valószínűség-eloszlása). Valószínűség = 0 kizárt; 1 biztos Hány évesek lettek öngyilkosok egy bizonyos szikláról leugorva egy évben
2 Az értékek előfordulásának valószínűsége Ez nem triviális, és nem is fogjuk kiszámolni, szerencsére megtették helyettünk okos matematikusok meghatároztak olyan elméleti eloszlástípusokat, azaz valószínűség-eloszlásokat, melyekről pontosan tudjuk, hogy az egyes értékek mekkora a valószínűséggel fordulnak elő. Pl.: Normális, standard normális, Poisson, Binommiális, Kevert normális, Khi-négyzet ( 2 ), F Ez miért jó? Mert ha pl. a mintámban lévő értékek kb. normális eloszlásúak, akkor a standardizálással az értékek standard normális eloszlásúvá alakíthatók, és erre már kiszámolták, milyen valószínűséggel fordulnak elő az egyes értékei (ill az annál nagyobb/kisebb értékek)!
3 Érték valószínűsége Normális eloszlás (Gauss görbe vagy haranggörbe) Ha X értékeinek valószínűségei a felső ábrán látható valószínűségek, akkor az X változó értékeinek relatív gyakorisága (eloszlása) szabálytalan (azaz az X változó aszimmetrikus eloszlású), de az X változó valószínűség-eloszlása szerint definiált db 7-elemű minta x átlagainak eloszlása szabályos alakú, a mintaátlagok sűrűje a populáció átlaga körül ingadozik, és az x eloszlás elméleti átlaga egyenlő a populáció átlagával! E(P) = 1,8!
4
5 Normális eloszlás (Gauss görbe vagy haranggörbe) Tehát a mintaátlagok a populációátlag körül ingadoznak Sőt, szimulációk igazolják, hogy minél nagyobb a minta elemszáma (tehát nem csak 7, hanem még nagyobb), annál kisebb a mintaátlagok varianciája, És annál inkább igaz az is, hogy a mintaátlagoknak az eloszlása szabályos, szimmetrikus haranggörbére hasonlít: Gauss görbe / normális eloszlásfüggvény / normális sűrűségfüggvény. Az előbbi összefüggés nagyon fontos, így közelíthetjük okos matematikusok szerint (ezt nem tudjuk belátni, higgyük el): azaz Var(x ) = 2 /n a mintaátlagok elméleti varianciája = a populáció (elméleti) varianciája/n
6 Standard hiba (standard error) Standard hiba a mintaátlagok szórása: megmutatja, hogy az egyes minták mennyire reprezentatívak a populációra nézve, hiszen azt mutatja meg, hogy az egyes mintaátlagok átlagosan mennyire térnek el a populációátlagtól (vagyis a mintaátlagok átlagától). De ezt nem tudom ténylegesen a mintaátlagok szórásként kiszámolni, mert a populáció elméleti szórását nem tudom kiszámolni, hanem az előbb kifundált varianciás egyenletből gyököt vonva (Var(x ) = 2 /n ), de helyett a saját n elemű mintám s szórásából számolom, ha n > 30: azaz (s x vagy) se = s / n. mintaátlagok szórása VAGY standard hiba = az n elemű mintám szórása (valójában a populáció elméleti szórása)/ n
7 Normális eloszlás (Gauss görbe vagy haranggörbe) Az n elemszámú minták x átlaga tehát mintáról mintára változik, az átlagok ingadoznak a populáció elméleti átlaga körül. De a mintaátlag ingadozásának mértéke függ az n-től (minta méretétől), ugyanis ha növelem az n méretét, az egyes mintaátlagok eltérése az elméleti átlagtól csökken, sőt az eloszlásuk is keskenyebb lesz (egyre keskenyebb és csúcsosabb lesz az eloszlás)! annál jobban hasonlít a mintám a populációra. A nagy kérdés tehát: mekkora elemszám kell ahhoz, hogy a mintaátlag normális eloszlású legyen, és a minta átlaga jól közelítse a populációátlagot (amire valójában kíváncsi vagyok)? Minimum 30! (Lásd: standard hiba) Ennél kevesebb elem a mintában: nem inszignifikáns (??!!!?), legfeljebb a mintám kevésbé reprezentatív a populációra nézve!!!
8 Normális eloszlás Normális eloszlás: X változó normális eloszlású, ha értékeinek eloszlása ilyen alakú (mint a mintaátlagok eloszlásánál láttuk) (azaz a legtöbb értéke legfeljebb két szórásnyira van), vagy egy lineáris transzformációval ilyen alakra hozható. A normális eloszlások sokféle alakúak lehetnek... De minden lineáris transzformáltjuk (pl. Z-transzformáltja) szintén normális eloszlású lesz. NORMÁLIS ELOSZLÁSOK
9 Standardizálás (normalizálás) Az eloszlást meghatározza a nagyságszintje, ferdesége, csúcsossága, és a konkrét értékek szakmai dimenziója. Az első három mentén akarom összevetni az eloszlásokat, de a negyedik ezt ellehetetleníti Pl. Összefügg a testmagasság és a tömeg? [kg] [cm], tízes nagyságrend százas nagyságrend. Valahogyan közös nevezőre kell hoznunk a különböző változókat, hogy összehasonlíthatók legyenek. Ehhez egy lineáris transzformációval megszüntetjük a konkrét szakmai dimenziót (mértékegységet, pl. kg, cm), és közös nagyságrendre hozzuk az adatokat.
10 Standardizálás (normalizálás) Ha egy újszülött 56 cm és 4 kg, akkor melyik mérték szerint kiemelkedőbb (extrémebb)? Közvetlenül nem összevethető. Közös mérce: adjuk meg az adat nagyságát azzal, hogy a populáció átlagától hány szórásnyira van. Magyar csecsemők átlagai és az adatok szórása: Testhossz: 49,8 cm ± 2,5 cm Tömeg: 3,24 kg ± 0,5 kg Az adott baba ehhez képest: Testhossz: (56 49,8)/2,5 = 2,48 Tömeg: (4 3,24)/0,5 = 1,5
11 Standardizálás (normalizálás) Ha egy újszülött 56 cm és 4 kg, akkor melyik mérték szerint kiemelkedőbb (extrémebb)? Közvetlenül nem összevethető. Közös mérce: adjuk meg az adat nagyságát azzal, hogy a populáció átlagától hány szórásnyira van. Magyar csecsemők átlagai és az adatok szórása: Testhossz: 49,8 cm 2,5 cm Tömeg: 3,24 kg 0,5 kg Az adott baba ehhez képest: Testhossz: (56 49,8)/2,5 = 2,48 Tömeg: (4 3,24)/0,5 = 1,5 szélsőségesebb
12 Standardizálás (normalizálás) formalizálása: Z-transzformáció X kvantitatív változó Átlaga a populációban: Szórása a populációban: X változó standardizáltja: Z Ha valaki átlagos: Z = 0 Előjel! Z = X μ σ Pozitív érték: a populációátlagnál nagyobb érték; negatív: a populációátlagnál kisebb érték.
13 Standardizálás (normalizálás): Z elméleti átlaga mindig 0 Z-transzformáció Z elméleti szórása mindig 1 Az így transzformált értékek átlaga és szórása tehát független az eredeti értékek mértékegységtől (skálaléptékétől) és nagyságszintjétől (középértékétől), és csak az eloszlás azon jellemzőit tükrözi, melyek ezektől függetlenek (lapultság, ferdeség), ezért a változók összehasonlíthatók!
14 Standardizálás a mintában Egy adott érték: x Mintaátlag: x Minta szórása: s s z = x x s s Jelentése: az adott érték hány szórásnyira tér el a mintaátlagtól (előjelesen!). Vajon mikor használjuk?
15 Standardizálás: 1. példa Likert skálás adatok: egy adott kérdésre válaszadás 1-től 5-ig terjedő skálán. egyesek (a típus: magas ERS, azaz extreme response style érték) extrém értékeket adnak (1, 5), mások (b típus: alacsony ERS érték) ) csak a skála közepét használják (2, 3, 4) a két ksz átlaga hasonló (3 körüli), de a szórás különbözik! adatközlő típus Kérdés sorszáma válaszok átlag szórás da a da a 2 3 da a 3 4 bm b 1 1 3, ,08167 bm b 2 5 bm b 3 4 z = x x s s
16 Standardizálás: 1. példa Ha arra vagyunk kíváncsiak, hogy a kísérletben releváns kérdések esetében az adatközlők magukhoz képest melyik irányba és mennyire térnek el a legtöbbet adott értéktől, azaz nem érdekel, hogy pontosan milyen értékeléseket adnak, hanem hogy az kirívó-e, vagy semleges. Ehhez az adatközlők saját egyéni átlagértékeire normalizálunk. adatközlő típus Kérdés sorszáma válaszok átlag szórás Z-érték da a da a da a bm b 1 1 3, , ,1209 bm b 2 5 0, bm b 3 4 0, Ugyanaz a 4-es értékelés a szűkebb tartományt használó esetében messzebb van, azaz többet ér, nagyobb a jelentősége.
17 Normális eloszlás Normális eloszlás: X változó normális eloszlású, ha értékeinek eloszlása ilyen alakú (mint a mintaátlagok eloszlásánál láttuk), vagy egy lineáris transzformációval ilyen alakra hozható. A normális eloszlások sokféle alakúak lehetnek... De minden lineáris transzformáltjuk (pl. Z- transzformáltja) szintén normális eloszlású lesz. NORMÁLIS ELOSZLÁSOK
18 Standard normális eloszlás Standard normális eloszlás: egy kitüntetett normális eloszlás (bármely Z-transzformált normális eloszlás), melynek átlaga 0, szórása 1. A standardizálás miatt összehasonlíthatókká válnak.
19 Normális eloszlások tulajdonságai Az adatok kb 68%-a az átlag körüli 2 szórásnyi intervallumon van. Az adatok kb 95%-a az átlag körüli 4 szórásnyi intervallumon van. Az adatok kb 99,8%-a a 6 szórásnyi intervallumon van.
20 Mit jelent az adatok ilyen jellegű eloszlása? Ha X változó normális eloszlású az adott populációban, akkor az egyes személyek 95%-ának X értéke nem tér e jobban az átlagtól, mint 2 szórás (maximum 2 távolságra van). Azaz az X változó egy véletlenszerűen megfigyelt értéke kb. 95% eséllyel (P 0,95) 2 vagy +2 tartományba esik. Azaz: az átlaghoz képest 2 szórásnál kisebb vagy nagyobb értékek ritkák (a két oldalon ÖSSZESEN > 5% p < 0,05)!!!
21 Standard normális eloszlás
22 Intervallumbecslés, pontbecslés
23 Statisztikai becslés Az X változó eloszlását akkor ismerjük, ha diszkrét esetben ismerjük az egyes értékeke előfordulási valószínűségét (pl dobókockán a számok), ill. folytonos esetben a sűrűségfüggvényt. De sokszor elég tudnunk az eloszlás elméleti átlagát, szóródását, szétterültségét, csúcsosságát, ferdeségét ezek az eloszlás elméleti paraméterei. Normális eloszlásnál ilyen paraméter a és a A 2 és a t-eloszlás esetében az f (= n-1) szabadságfok Az F-eloszlás esetében az (f1, f2) szabadságfokpár, stb. (Ezek a stat. tesztek felírásában visszaköszönnek!)
24 Statisztikai becslés A populációt jellemző eloszlások elméleti paramétereire azonban csak a véletlenszerűen választott mintából tudunk következtetni. statisztikai becslés útján.
25 Hipotézisek a statisztikában Hipotézis = alternatív hipotézis (néha kísérleti hipotézisnek nevezik) (H 1 ): előzetes feltevés, előzetes válasz egy tudományos kérdésre. Általában egy állítás arról, hogy egy hatást találunk. Nullhipotézis (H 0 ): az alternatív hipotézis ellentéte, tehát általában a hatás hiányát mondja ki. Miért kell a H 0? csak ez falszifikálható! Ha nem sikerül, korroboráltuk (megerősítettük) a H 1 -et, de nem bizonyítottuk be!
26 Példa Hipotézis = alternatív hipotézis (H 1 ): A Big Brother résztvevői alacsonyabb pontot érnének el egy IQ teszten, mint a nem résztvevők humanoidok. Nullhipotézis (H 0 ): ugyanolyan IQ pontot mutatna a tesz. Ha a stat teszt szignifikáns (p < 0,05), elvethetjük a H 0 t, és elfogadhatjuk H 1 -et átmenetileg, DE EZ NEM BIZONYÍTÉK RÁ HOGY IGAZ! korroborálás, megerősítés! p < 0,05: kisebb mint 5% az esélye, hogy tévedünk ha H 0 -t elutasítjuk.
27 Statisztikai becsléssel meghatározható kérdések Amit korábban slendriánul statisztikailag megválaszolhatónak neveztem. Pl. A magyar lakosság hány százalékára jellemző a suksükölés? Hány perc szükséges 10 portugál szó megtanulásához? Mi az IQ átlaga az egyetemi hallgatók populációjának?
28 Statisztikai becslés Hogyan válaszolhatom meg ezeket a kérdéseket? Nekem kell eldöntenem, hogy melyik elméleti paraméter válaszol rá! Ha eldöntöttem, hogy pl. ha az X változó elméleti átlaga érdekel, két lehetőségem van:
29 Statisztikai becslés 1. Pontbecslés: Kiszámítom a véletlen minta átlagát (legyen 35,5) és azt mondom, ez a populáció átlaga, 35,5. Ahogyan korábban azt mondtuk, hogy az átlag modellezi a mintát, és a modell pontosságát a szórás adja meg, úgy a populáció modellezésének pontosságát a standard hiba adja meg. biztosan tévedünk (hiszen kis mintából következtetünk egy végtelen méretű mintára), a kérdés csak az, hogy mekkorát: standard hiba mennyire szórnak a mintaátlagok a populációátlag körül. 2. Intervallumbecslés: az elméleti érték (populációátlag) valahol egy alsó és egy felső határ között van (pl. 35,5-tól ±3 egységre) Kevesebbet állítunk, de nagyobb az esélye, hogy igazat mondjunk.
30 Pontbecslés és intervallumbecslés
31 Pontbecslés Szokványos módja az, hogy az elméleti paramétert a mintabeli jellemzővel becsüljük. Láttuk, hogy ezek nem egyeznek az elméleti vagy populáció átlaggal, de körülötte ingadoznak. Azaz E(x ) = E(X) (a mintaátlagok elméleti átlaga = a populációátlag) Hogyan állapítom meg a pontbecslés jóságát? Standard hiba: a mintaátlagok szórása. azt várjuk, hogy ez kicsi legyen (a mintabeli középértékhez viszonyítva), akkor tekinthetjük a populációt reprezentálónak a mintát.
32 Példa Két csoport átlaga (az egyikben több szélsőséges érték) átlag nagyon eltérő, medián nem Az se a szélsőségesebb csoportban nagyon nagy következtetés: az átlag nem ad jó becslést a populációátlagról. És tényleg, a szélsőségesebb mintában az átlag az extrém értékek miatt nagyon eltolódik.
33 Intervallumbecslés A populáció átlagát nem tudjuk próbáljuk meg inkább azt megállapítani, hogy milyen tartományba esik. Konfidencia-intervallum: az a tartomány, amiről azt feltételezzük, hogy beleesik a populációátlag. Ez egy másik megközelítés az se-hez képest arra, hogy értékeljük, mennyire jó modell az átlag.
34 50 minta (átlag és konf. Interval) Spermák száma Konfidenciaintervallum Néha beleesik a popoulációátlag a mintában mért átlag konfidenciaintervallumába, néha nem A valódi populációátlag
35 Japán tintahalas kísérlet Egy alkalommal x számú sperma kilövellése + kikalkulált konf interval: plusz mínusz valamennyi sperma 50 kísérletből egy csomó esetben a konf intervalban benne van a populációátlag néhányban nem Mi a konf interval? Ha 95% konfidenciaszinten számolom ki a konfidencia-intervallumot: 100 mintából 95 tartalmazza a populációátlagot.
36 Konfidencia-intervallum A konfidencia-intervallum 95% ( jelentése ): a konfidencia intervallum megbízhatósági szintje vagy konfidenciaszintje 95% Az a limit, amit konfidencia-intervallumnak választottunk, 95% valószínűséggel tartalmazza a populációátlagot ha gyűjtenék 100 db mintát, és meghatároznám rájuk átlagot és hozzá az általam kiötlött konfidenciaintervallumot, akkor 95 db minta konfidenciaintervallumában benne lenne a populációátlag. Ezt az intervallumot hogyan tudom megállapítani?
37 Konfidencia-intervallum Nade hogyan határozom meg a konfidencia-intervallumot? Hova esik a mintaátlagok 95%-a mintaátlagok eloszlásában? Normális eloszlás esetén az átlag ± 2 szórásnyi tartományba, ami standard normális eloszlás esetén ± 1,96!
38 Konfidencia-intervallum Csakhogy, mint mondtuk, a populáció szórása nem ismert. De standard normális eloszlás (azaz z- transzformált bármilyen normális eloszlás) esetén az intervallum határai 2 -ra vannak, és értéküket is tudom: 1,96 és -1,96 Normalizálás képlete még egyszer: z = x x s s
39 Konfidencia-intervallum A normalizálás egyenletét átrendezve, és az s szórást se-re cserélve kijön, hogy standard normális eloszlás esetén annak a tartománynak, ahová az értékek (mintaátlagok) 95%-a esik 1,96 = x x 1,96 = x x ss ss Az alsó határa = mintaátlag (1,96 se) A felső határa = mintaátlag + (1,96 se) minél nagyobb a minta annál kisebb az se és annál jobban reprezentálja az átlag a populációátlagot, ill. annál szűkebb tartomány lesz a konfidencia-intervallum.
40 Konfidencia-intervallum Mivel ez az intervallum 95%, hogy tartalmazza a populációátlagot, feltesszük hogy tartalmazza Minél kisebb a konfidencia-intervallum, annál jobban reprezentálja a minta a populációt.
41 Megbízhatóság vs. hiba Konfidencia-intervallum: értéktartomány, amely a becsülendő paramétert egy előre rögzített valószínűséggel tartalmazza. Megbízhatósági/konfidencia-szint (p): az előre rögzített valószínűség, pl. 95% 95%, hogy a konfidencia-intervallum tartalmazza a populációátlagot. Ekkor a hiba valószínűsége: (1 0,95 = 0,5=) 5% 5% az esélye, hogy az intervallumom nem tartalmazza a populációátlagot alfa-hiba:
42 Konfidenciaszint vs. hiba A mintaátlagok eloszlása: Konfidencia-szint (p): az intervallumhoz tatozó előre rögzített valószínűség, pl. 95% Konfidencia-intervallum: az az értéktartomány, amely a becsülendő paramétert egy előre rögzített valószínűséggel (pl 95%) tartalmazza. hiba: Ha egy adott x mintaátlag nem esik bele a konfidencia-intervallumba, akkor, bár kicsi az esélye, de tartozhat az adott populációhoz.
43 Konfidencia-intervallum Ne aggódjunk, manapság nem kell pontosan tudnunk, hogyan kell kiszámolni, mert nem csináljuk kézzel (ehhez egyébként kellenének a t-eloszlás kvantilisei és kritikus értékei, amiket nagyszerű táblázatok foglalnak magukba hosszú oldalakon). Ezt kiszámolják nekünk a stat programok (R, SPSS), szóval ha ábrázolni támad kedvünk (fog), akkor nem kell nekiesni a táblázatoknak. A lényeg: a mintaátlagom köré kiszámolt konfidenciaintervallum (tehát hogy az átlaghoz képest pl. 95% valószínűséggel milyen tartományba saccolhatom a populációátlagot) alapvető fontosságú! Lássuk, miért.
44 Konfidencia-intervallumok vizuális megjelenítése: átlag (mean) + hibasáv (error bar) MINTA ÁTLAGA I KONFI- DENCIA- INTER- VALLUM Két minta kicsit eltérő átlaggal, de erősen átfedő konfidencia-intervallummal. Mivel 95% (100-ból 95 esetben igaz), hogy a konfidencia-intervallum tartalmazza a populációátlagot, feltehető, hogy ez a két minta ugyanabból a populációból való.
45 Konfidencia-intervallumok vizuális megjelenítése: átlag (mean) + hibasáv (error bar) MINTA ÁTLAGA I KONFI- DENCIA- INTER- VALLUM Két minta jelentősen eltérő átlaggal, de ami még fontosabb, nem átfedő konfidencia-intervallummal. Mivel mindkét mintában 95%, hogy a konfidenciaintervallumok tartalmazzák a populációátlagot, tehát két dolog lenne feltehető!
46 Konfidencia-intervallumok vizuális megjelenítése: átlag (mean) + hibasáv (error bar) 1. Mindkét konfidencia-intervallum tartalmazza a populációátlagot ez esetben ez a két minta nem ugyanabból a populációból való. 2. A két minta ugyanabból a populációból való, és az egyik intervallum nem tartalmazza a populációtálagot erre a konfidencia szint szerint 5% esély van. valószínűbb, az 1. megoldás (de ez még nem stat próba!).
47 Mi a populációhoz tartozás jelentősége? A kísérletezésben mindig összehasonlítunk: két vagy több feltételt/kondíciót. Kérdés: lehet-e csökkenteni az emberek a statisztikától való szorongását pozitív megerősítésekkel (behaviorista eszközökkel)? A kísérlethez két véletlen mintát választok, amik közt az tesz különbséget, hogy az egyiket manipulálom a kísérletben. Manipuláció: pl. veszek két véletlen mintát az emberekből, és az egyiknek adok csokit, amikor stat könyvet lát. Kiindulásként azt feltételezem, hogy ezek az emberek egy populációból valók (hisz pl. mind emberek). Ha viszont mégis azt találom, hogy a két csoport átlaga az error barral (hibasáv) ennyire eltér (l. előbbi ábra), tehát a minták eltérő populációból valók, az csak akkor lehet, ha a különbséget az általam vizsgált hatás okozza.
48 Mi a populációhoz tartozás Fonetikusi példa: jelentősége? Ha felteszem, hogy a V időtartamra hatással van a hangsúly, összevetek hangsúlyos és hangsúlytalan magánhangzókat (pl. csak á-kat). Kiinduláskor feltételezem, hogy ezek mind egy populáció (hisz mind á). Ha mégis azt találom, hogy ezek az á-k eltérő populációból valók, és a kísérlet jól kontrollált, akkor az eltérés oka a vizsgált változó, azaz a hangsúly!
49 Mi a populációhoz tartozás jelentősége? Ha azt találom, hogy a két csoport átlaga az error bar-ral együtt ennyire eltér egymástól (ilyenkor az error bar-ok gyakorlatilag nincsenek átfedésben), azaz a minták eltérő populációból valók, az csak akkor lehet, ha a különbséget az általam vizsgált hatás okozza. Ilyenkor mondjuk, hogy a minták átlaga szignifikánsan eltér (és örülünk ).
50 Hipotézis tesztelése A hipotézisünk, azaz az alternatív hipotézis (H 1 ): állítás, egy hatás jelenléte. De a vizsgálatban állításunk ellenhipotézisét (nullhipotézis, H 0 ) vizsgáljuk meg, tehát a hipotézist a falszifikáción keresztül teszteljük. Miért kell a H 0? csak ez tesztelhető, mert ez falszifikálható! Ha nem sikerül falszifikálni, korroboráltuk (megerősítettük) a H 1 -et (de nem bizonyítottuk be!) Éppen ezért a konfidenciaszint nem arra utal, hogy mekkora az esélye annak, hogy igaz a H 1, hanem hogy mekkora az esélye (5%) annak, hogy tévedünk, ha H 0 elvetjük, és H 1 -t elfogadjuk, de NEM A H 1 -T TESZTELTÜK!!! (hattyúk!)
51 Falra, vérrel felírandó Mivel a statisztikában H 0 -t teszteljük, világos, hogy a konfidenciaszint nem utalhat arra, hogy mekkora az esélye (95%) annak, hogy igazunk van, hanem csak arra, hogy mekkora az esélye (< 5%) annak, hogy tévedünk, ha H 0 elvetjük és H 1 -t elfogadjuk. Másként 95% valószínűséggel igazunk van, ha elvetjük H 0 -t. Éppen ezért nagyon örülünk, ha p kicsi (pl. p < 0,05 azaz 5% az esélye), de ez az érték önkényes, lehetnénk szigorúbbak (0,001) vagy engedékenyebbek (pl. 0,1?) is.
52 Statisztikai modellek A hipotézis teszteléséhez adatokat gyűjtök, majd az adatokra egy modellt illesztek: (általánosan:) megfigyelt adat = modell + hiba Példa: az átlag egy is egy egyszerű modell. Megfigyelt adat i = átlag + hiba i Behelyettesítve az 1 ismerőssel bíró ember (pl. Sanyi) egy átlagosan (modell!) 2,6 ismerőssel bíró mintában. Hiba Sanyi : 1 Sanyi 2,6 = 1,6 Ekkor a modell: 1 = 2,6 1,6 = 1 Itt a variancia és szórás pedig azt méri, hogy mennyire jó az átlag mint modell, hiszen ezek azt mondják meg, hogy mennyire térnek el a megfigyelt értékek a modell által jósolt érték(ek)től (ami itt az átlag).
53 Statisztikai próba Mindez általánosságban is igaz bár általában egy pont (pl. az átlag) helyett egyenest illesztünk az adatokra modell gyanánt. A modell tesztelése a statisztikai próba. Ahogyan az átlagnál is, a statisztikai próba azt mondja meg, hogy a modell mennyire illeszkedik a modell a megfigyelt adatokra. statisztikai próba = a modell által megmagyarázott variancia a modell által nem megmagyarázott variancia Minél jobb a modell, annál nagyobb számot kapok a próbastatisztika értékére.
54 Statisztikai próba (próbastatisztika) A statisztikai próbák (l. F vagy 2 stb) értékeinek az eloszlását (milyen gyakoriak az értékek) kiszámolták (ez az érték = végtelen sokszor elvégzett próba, és az így kapott összes t, F stb. érték eloszlása). Az eloszlás alapján meg lehet állapítani, hogy mekkora a valószínűsége annak, hogy adott értéket kapjak a próbára. Minél nagyobb az adott érték, annál kisebb jobban leírja a modell a valóságban (mintában) megfigyelhető varianciát ÉS annál kisebb a valószínűsége, hogy véletlenül kaptam miért?
55 Statisztikai próba (próbastatisztika) A kritikus értéket, ami H 0 elutasításához (α = 0,05) kell, előre megszabom. Mit jelent ez? Annak a valószínűsége, hogy ezt az értéket kapjam, ha H 0 igaz, nagyon kicsi (0,05, azaz 100 esetből 5 eset). Tehát minél nagyobb a próbastatisztika értéke, annál nagyobb a valószínűsége, hogy ez nem a véletlen műve (annál valószínűbb, hogy a modellem jól modellezi az adatokat). Ha elérjük a 0,05-öt, az azt jelenti, hogy 5% a valószínűsége, hogy ezt az eredményt a stat próbára véletlenül kaptam (ez a SZIGNIFIKÁNS eredmény), azaz a modell elég jól írja le a valóságban megfigyelhető varianciát elfogadjuk a modellt. DE a kritikus értéket (pl. 95%) előre szabjuk meg, és eztán már döntés bináris (elfogadjuk/elvetjük H 0 -t), azaz a 0,01 nem értelmezhető szignifikánsabbnak, mint a 0,05!!!
56 Statisztikai próba H 0 A statisztikai modell a hipotézisünket tükrözi: azt ragadja meg, hogy egy izének van hatása. Így a szignifikáns statisztikai teszt azt mondja, hogy a modell jól illeszkedik a világra (magas érték a próbán), ami valószínűtlen lenne, ha az izének nem lenne kimutatható hatása (ha a H 0 igaz lenne). Ezért ilyenkor felbátorodunk, és elvetjük H 0 -t, és megerősítve érezzük magunkat, hogy a hipotézisünk valószínűleg igaz (bár ez sosem biztos).
57 Statisztikai próba logikája 1. Ha magas és szignifikáns a próba értéke, az azt jelenti, hogy valószerűtlen hogy ez az érték a véletlen műve legyen 2. Ebből arra következtethetek, hogy elég jó a modellem (amiben kódolva van, az az állítás, hogy egy X faktornak van hatása) 3. Ebből arra következtetek, hogy nem igazán valószínű, hogy az X faktornak nincs hatása (tehát hogy igaz a H 0 ). elvetem H 0 -t, és azt feltételezem, a hatás létezik (és nem csak a mintában!).
58 Kitérő: statisztikai próba felírása Mindezen okokból a stat felírás sosem csak annyi, hogy p < 0,005!! Általában felírjuk a stat próba értékét (pl. t), és az adott próbához és az adott eloszláshoz (pl. t- eloszláshoz) kapcsolódó további értéket is (itt: 1 db szabadságfok). Statisztikai próba eredménye (itt: t értéke) Pl. t(8) = 2,89, p = 0,02 Szabadságfok 9 elemű volt a minta Ekkora a valószínűsége, hogy a 2,89-es t-értéket véletlenül kaptam.
59 Első fajta (I.) és második fajta (II.) hiba A vizsgálatainkban általában abban vagyunk érdekeltek, hogy a statisztikai próba értéke ne tartozzon a p-be (1 -ba), hanem kívül essen, tehát -ba tartozzon (hogy H 0 -t elutasíthassuk). Első fajta vagy hiba: false positive még ha nincs is hatása a tesztelt változónak a populációra, 95% konfidenciaszinten van 5% az esélye (100 mintavételből 5-ször fordul elő), hogy ennek ellenére az -ba tartozó értéket kapunk, tehát tévesen arra következtethetünk, hogy a vizsgált változónak van hatása. Statisztikai próba értéke
60 Első fajta (I.) és második fajta (II.) hiba Második fajta vagy β-hiba (az előző ellentettje): false negative van, hogy bár egy hatás valóban létezik (hat a populációra), mégis az -n kívüli értéket kapunk, tehát a H 0 -t megtartjuk, azaz ezért tévesen arra következtetünk, hogy a vizsgált változónak nincs hatása. Statisztikai próba értéke
61 Hatásméret (effect size) Akár egy kísérletileg manipulált valami hatását nézem (pl. a hangsúly hatását), Akár két változó közti összefüggést vizsgálom (pl. a vízbe fulladtak száma ~ Nicolas Cage azévben megjelent filmjeinek száma) Nem csak arra vagyok kíváncsi, hogy van-e hatás (eltérnek-e a minták, azaz két populációt kapoke), hanem arra is, hogy ez a hatás mekkora.
62 Hatásméret (effect size) Ezek általában standardizált értékek, tehát a különböző mértékkel (szívverés gyorsasága vagy sebesség ms-ban) megmért hatások összevethetők. Ennek talán legelterjedtebb mérőszáma a Pearsonféle korrelációs koefficiens (r) amiről bár a korrelációnál fogunk beszélni, az első esetben is értelmezhető (csak ritkán szoktuk). Pearson-féle r: értékei -1 és 1 közé esnek: 0: nincs hatás; 1/-1: tökéletes hatás. (előjelesen! negatív: fordított arányosság, pozitív: egyenes arányosság)
63 Statisztikai erő Annak a mértéke, hogy egy adott teszt mennyire képes kimutatni a vizsgált hatást. Ez a minta elemszámától és az effect size-tól függ. Cohen s rule of thumb: 0,05-es -nál (95% konfidencia-szinten) a megfelelő statisztikai erő elérhető, ha A hatás kicsi r = 0,1 783 résztvevővel A hatás közepes r = 0,3 85 résztvevővel A hatás nagy r = 0,5 28 résztvevővel.
Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?
Feladatok: pontdiagram és dobozdiagram Hogyan csináltuk? Alakmutatók: ferdeség, csúcsosság Alakmutatók a ferdeség és csúcsosság mérésére Ez eloszlás centrumát (középérték) és az adatok centrum körüli terpeszkedését
Normális eloszlás tesztje
Valószínűség, pontbecslés, konfidenciaintervallum Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra
Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása
Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból
Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok
STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát
6. Előadás. Vereb György, DE OEC BSI, október 12.
6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás
Bevezetés a hipotézisvizsgálatokba
Bevezetés a hipotézisvizsgálatokba Nullhipotézis: pl. az átlag egy adott µ becslése : M ( x -µ ) = 0 Alternatív hipotézis: : M ( x -µ ) 0 Szignifikancia: - teljes bizonyosság csak teljes enumerációra -
Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás
STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H
1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása
HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat
biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás
Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani
Segítség az outputok értelmezéséhez
Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró
Hipotézis vizsgálatok
Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika
Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n
Elemi statisztika >> =weiszd=
STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba
Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum
KÖVETKEZTETŐ STATISZTIKA
ÁVF GM szak 2010 ősz KÖVETKEZTETŐ STATISZTIKA A MINTAVÉTEL BECSLÉS A sokasági átlag becslése 2010 ősz Utoljára módosítva: 2010-09-07 ÁVF Oktató: Lipécz György 1 A becslés alapfeladata Pl. Hányan láttak
Adatok statisztikai értékelésének főbb lehetőségei
Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció
Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió
SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás
Többváltozós lineáris regressziós modell feltételeinek
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p
Biostatisztika VIII. Mátyus László. 19 October
Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.
Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?
Egymintás próbák σ s μ m Alapkérdés: A populáció egy adott megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? egymintás t-próba Wilcoxon-féle előjeles
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
Többváltozós lineáris regressziós modell feltételeinek tesztelése I.
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
Hipotézis vizsgálatok
Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével
Korreláció és lineáris regresszió
Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.
Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 15. Nemparaméteres próbák Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: November
STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)
STATISZTIKA 10. Előadás Megbízhatósági tartományok (Konfidencia intervallumok) Sir Isaac Newton, 1643-1727 Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)
Biomatematika 13. Varianciaanaĺızis (ANOVA)
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 13. Varianciaanaĺızis (ANOVA) Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date:
STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése
4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól
BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis
Hipotézis BIOMETRIA 5. Előad adás Hipotézisvizsg zisvizsgálatok Tudományos hipotézis Nullhipotézis feláll llítása (H ): Kétmintás s hipotézisek Munkahipotézis (H a ) Nullhipotézis (H ) > = 1 Statisztikai
Nemparaméteres próbák
Nemparaméteres próbák Budapesti Mőszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék 1111, Budapest, Mőegyetem rkp. 3. D ép. 334. Tel: 463-16-80 Fax: 463-30-91 http://www.vizgep.bme.hu
Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 9. előadás Előadó: Dr. Ertsey Imre Statisztikai hipotézis vizsgálatok elsősorban a biometriában alkalmazzák, újabban reprezentatív jellegű ökonómiai vizsgálatoknál, üzemi szinten élelmiszeripari
Statisztikai következtetések Nemlineáris regresszió Feladatok Vége
[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell
Matematikai alapok és valószínőségszámítás. Normál eloszlás
Matematikai alapok és valószínőségszámítás Normál eloszlás A normál eloszlás Folytonos változók esetén az eloszlás meghatározása nehezebb, mint diszkrét változók esetén. A változó értékei nem sorolhatóak
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi fizika és statisztika I. előadás 2016.11.09 Orvosi
K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.
Középérték és variancia azonosságának próbái: t-próba, F -próba 2012. március 21. Hipotézis álĺıtása Feltételezés: a minta egy adott szempont alapján más populációhoz tartozik, mint b minta. Nullhipotézis
2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!
GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az
Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.
Kiválasztás A változó szerint Egymintás t-próba Mann-Whitney U-test paraméteres nem-paraméteres Varianciaanalízis De melyiket válasszam? Kétmintás t-próba Fontos, hogy mindig a kérdésnek és a változónak
A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet
A biostatisztika alapfogalmai, hipotézisvizsgálatok Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet Hipotézisvizsgálatok A hipotézisvizsgálat során a rendelkezésre álló adatok (statisztikai
Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.
Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza
A leíró statisztikák
A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az
Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem
Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Előadások-gyakorlatok 2018-ban (13 alkalom) IX.12, 19, 26, X. 3, 10, 17, 24, XI. 7, 14,
A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet
A biostatisztika alapfogalmai, hipotézisvizsgálatok Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet Hipotézis Állítás a populációról (vagy annak paraméteréről) Példák H1: p=0.5 (a pénzérme
egyetemi jegyzet Meskó Balázs
egyetemi jegyzet 2011 Előszó 2. oldal Tartalomjegyzék 1. Bevezetés 4 1.1. A matematikai statisztika céljai.............................. 4 1.2. Alapfogalmak......................................... 4 2.
Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58
u- t- Matematikai statisztika Gazdaságinformatikus MSc 2. előadás 2018. szeptember 10. 1/58 u- t- 2/58 eloszlás eloszlás m várható értékkel, σ szórással N(m, σ) Sűrűségfüggvénye: f (x) = 1 e (x m)2 2σ
Biostatisztika Összefoglalás
Biostatisztika Összefoglalás A biostatisztika vizsga A biostatisztika vizsga az Orvosi fizika és statisztika I. fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 0 kérdésre kell válaszolni
Kísérlettervezés alapfogalmak
Kísérlettervezés alapfogalmak Rendszermodellezés Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Kísérlettervezés Cél: a modell paraméterezése a valóság alapján
[Biomatematika 2] Orvosi biometria. Visegrády Balázs
[Biomatematika 2] Orvosi biometria Visegrády Balázs 2016. 03. 27. Probléma: Klinikai vizsgálatban három különböző antiaritmiás gyógyszert (ß-blokkoló) alkalmaznak, hogy kipróbálják hatásukat a szívműködés
Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016
Gyakorlat 8 1xANOVA Dr. Nyéki Lajos 2016 A probléma leírása Azt vizsgáljuk, hogy milyen hatása van a család jövedelmének a tanulók szövegértés teszten elért tanulmányi eredményeire. A minta 59 iskola adatait
GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet
GVMST22GNC Statisztika II. 3. előadás: 8. Hipotézisvizsgálat Kóczy Á. László Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Hipotézisvizsgálat v becslés Becslés Ismeretlen paraméter Közeĺıtő
Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók
Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz
Statisztika Elıadások letölthetık a címrıl
Statisztika Elıadások letölthetık a http://www.cs.elte.hu/~arato/stat*.pdf címrıl Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább 1-α valószínőséggel
y ij = µ + α i + e ij
Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai
Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév
Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév 1. A várható érték és a szórás transzformációja 1. Ha egy valószínűségi változóhoz hozzáadunk ötöt, mínusz ötöt, egy b konstanst,
III. Kvantitatív változók kapcsolata (korreláció, regresszió)
III. Kvantitatív változók kapcsolata (korreláció, regresszió) Tartalom Változók kapcsolata Kétdimenziós minta (pontdiagram) Regressziós előrejelzés (predikció) Korreláció Tanuló Kétdimenziós minta Tanulással
Kettőnél több csoport vizsgálata. Makara B. Gábor
Kettőnél több csoport vizsgálata Makara B. Gábor Három gyógytápszer elemzéséből az alábbi energia tartalom adatok származtak (kilokalória/adag egységben) Három gyógytápszer elemzésébô A B C 30 5 00 10
A konfidencia intervallum képlete: x± t( α /2, df )
1. feladat. Egy erdőben az egy fészekben levő tojásszámokat vizsgáltuk egy madárfajnál. A következő tojásszámokat találtuk: 1, 1, 1,,,,,,, 3, 3, 3, 3, 3, 4, 4, 5, 6, 7. Mi a mintának a minimuma, maximuma,
Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.
Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,
Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre Összefüggés vizsgálatok A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek
Biostatisztika Összefoglalás
Biostatisztika Összefoglalás A biostatisztika vizsga A biostatisztika vizsga az Orvosi fizika és statisztika I. fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 0 kérdésre kell válaszolni
Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában
Statisztikai alapok Leíró statisztika Lineáris módszerek a statisztikában Tudományosan és statisztikailag tesztelhető állítások? A keserűcsokoládé finomabb, mint a tejcsoki. A patkány a legrondább állat,
Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.
Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,
Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018
Hipotézisvizsgálat az Excel adatelemző eljárásaival Dr. Nyéki Lajos 2018 Egymintás t-próba Az egymintás T-próba azt vizsgálja, hogy különbözik-e a változó M átlaga egy megadott m konstanstól. Az a feltételezés,
Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat
Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia
STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1
STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1 Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem
IV. Változók és csoportok összehasonlítása
IV. Változók és csoportok összehasonlítása Tartalom Összetartozó és független minták Csoportosító változók Két összetartozó minta összehasonlítása Két független minta összehasonlítása Több független minta
STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 7. Előadás Egyenletes eloszlás Binomiális eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell /56 Matematikai statisztika Reprezentatív mintavétel
Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes
A valószínűségszámítás elemei
A valószínűségszámítás elemei Kísérletsorozatban az esemény relatív gyakorisága: k/n, ahol k az esemény bekövetkezésének abszolút gyakorisága, n a kísérletek száma. Pl. Jelenség: kockadobás Megfigyelés:
Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem
agy számok törvényei Statisztikai mintavétel Várható érték becslése Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem A mérés mint statisztikai mintavétel A méréssel az eloszlásfüggvénnyel
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria Bódis Emőke 2016. 04. 25. J J 9 Korrelációanalízis Regresszióanalízis: hogyan változik egy vizsgált változó értéke egy másik változó változásának függvényében. Korrelációs
Elemi statisztika fizikusoknak
1. oldal Elemi statisztika fizikusoknak Pollner Péter Biológiai Fizika Tanszék pollner@elte.hu Az adatok leírása, megismerése és összehasonlítása 2-1 Áttekintés 2-2 Gyakoriság eloszlások 2-3 Az adatok
Az első számjegyek Benford törvénye
Az első számjegyek Benford törvénye Frank Benford (1883-1948) A General Electric fizikusa Simon Newcomb (1835 1909) asztronómus 1. oldal 2. oldal A híres arizonai csekk sikkasztási eset http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm
Kutatásmódszertan és prezentációkészítés
Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I
A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:
A. Matematikai Statisztika 2.MINTA ZH. 2003 december Név (olvasható) :... A feladatmegoldásnak az alkalmazott matematikai modell valószínűségszámítási ill. statisztikai szóhasználat szerinti megfogalmazását,
Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet
Kettőnél több csoport vizsgálata Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet Gyógytápszerek (kilokalória/adag) Három gyógytápszer A B C 30 5 00 10 05 08 40 45 03 50 35 190 Kérdések: 1. Van-e
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
Egyszempontos variancia analízis. Statisztika I., 5. alkalom
Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek
Kabos: Statisztika II. ROC elemzések 10.1. Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.
Kabos: Statisztika II. ROC elemzések 10.1 ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás szóhasználatával A riasztóberendezés érzékeli, ha támadás jön, és ilyenkor riaszt. Máskor nem. TruePositiveAlarm:
Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a
Kabos: Statisztika II. t-próba 9.1 Egymintás z-próba Ha ismert a doboz szórása de nem ismerjük a doboz várhatóértékét, akkor a H 0 : a doboz várhatóértéke = egy rögzített érték hipotézisről úgy döntünk,
Statisztikai módszerek 7. gyakorlat
Statisztikai módszerek 7. gyakorlat A tanult nem paraméteres próbák: PRÓBA NEVE Illeszkedés-vizsgálat Χ 2 próbával Homogenitás-vizsgálat Χ 2 próbával Normalitás-vizsgálataΧ 2 próbával MIRE SZOLGÁL? A val.-i
Populációbecslés és monitoring. Eloszlások és alapstatisztikák
Populációbecslés és monitoring Eloszlások és alapstatisztikák Eloszlások Az eloszlás megadja, hogy milyen valószínűséggel kapunk egy adott intervallumba tartozó értéket, ha egy olyan populációból veszünk
Matematikai statisztika c. tárgy oktatásának célja és tematikája
Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:
Varianciaanalízis 4/24/12
1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása
Normális eloszlás paramétereire vonatkozó próbák
Normális eloszlás paramétereire vonatkozó próbák Az alábbi próbák akkor használhatók, ha a meggyelések függetlenek, és feltételezhetjük, hogy normális eloszlásúak a meggyelések függetlenek, véges szórású
Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 10. előadás Előadó: Dr. Ertsey Imre Varianciaanalízis A különböző tényezők okozta szórás illetőleg szórásnégyzet összetevőire bontásán alapszik Segítségével egyszerre több mintát hasonlíthatunk
STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)
Normális eloszlás sűrűségfüggvénye STATISZTIKA 9. gyakorlat Konfidencia intervallumok f σ π ( µ ) σ ( ) = e /56 p 45% 4% 35% 3% 5% % 5% % 5% Normális eloszlás sűrűségfüggvénye % 46 47 48 49 5 5 5 53 54
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
Biometria gyakorló feladatok BsC hallgatók számára
Biometria gyakorló feladatok BsC hallgatók számára 1. Egy üzem alkalmazottainak megoszlása az elért teljesítmény %-a szerint a következı: Norma teljesítmény % Dolgozók száma 60-80 30 81-90 70 91-100 90
x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:
Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel: Valószínűségi változó általános fogalma: A : R leképezést valószínűségi változónak nevezzük, ha : ( ) x, x R, x rögzített esetén esemény.
Biomatematika 2 Orvosi biometria
Biomatematika 2 Orvosi biometria 2017.02.05. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)
Valószínűségszámítás összefoglaló
Statisztikai módszerek BMEGEVGAT Készítette: Halász Gábor Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel:
Változók eloszlása, középértékek, szóródás
Változók eloszlása, középértékek, szóródás Populáció jellemzése Empirikus kutatás (statisztikai elemzés) célja: a mintából a populációra következtetni. Minta: egy adott változó a megfigyelési egységeken
Kísérlettervezés alapfogalmak
Kísérlettervezés alapfogalmak Rendszermodellezés Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.
Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef. Feladatok Gazdaságstatisztika 7. Statisztikai becslések (folyt.); 8. Hipotézisvizsgálat
Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg
LMeasurement.tex, March, 00 Mérés Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg a mérendő mennyiségben egy másik, a mérendővel egynemű, önkényesen egységnek választott
STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1
STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1 Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem