Elemi statisztika fizikusoknak

Hasonló dokumentumok
Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

A leíró statisztikák

Kutatásmódszertan és prezentációkészítés

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Segítség az outputok értelmezéséhez

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

6. Előadás. Vereb György, DE OEC BSI, október 12.

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Matematikai statisztika

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biomatematika 2 Orvosi biometria

Statisztikai becslés

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztikai alapfogalmak

[Biomatematika 2] Orvosi biometria

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

s.s. Bere Anikó Zsuzsanna

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Matematikai statisztikai elemzések 2.

KÖVETKEZTETŐ STATISZTIKA

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A valószínűségszámítás elemei

[Biomatematika 2] Orvosi biometria

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

Populációbecslések és monitoring

Populációbecslések és monitoring

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

[Biomatematika 2] Orvosi biometria

Vizsgáljuk elôször, hogy egy embernek mekkora esélye van, hogy a saját

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Normális eloszlás tesztje

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biomatematika 2 Orvosi biometria

A Statisztika alapjai

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Matematikai statisztikai elemzések 2.

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Többváltozós lineáris regressziós modell feltételeinek

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

4. A méréses ellenırzı kártyák szerkesztése

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Bevezetés a hipotézisvizsgálatokba

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

Statisztika elméleti összefoglaló

Hipotézis vizsgálatok

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Hipotézis vizsgálatok

Vargha András Károli Gáspár Református Egyetem Budapest

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Matematikai geodéziai számítások 6.

Biostatisztika Összefoglalás

III. Képességvizsgálatok

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Matematikai statisztika c. tárgy oktatásának célja és tematikája

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Matematikai geodéziai számítások 6.

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Biostatisztika VIII. Mátyus László. 19 October

JA45 Cserkeszőlői Petőfi Sándor Általános Iskola (OM: ) 5465 Cserkeszőlő, Ady Endre utca 1.

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

Változók eloszlása, középértékek, szóródás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

A mérési eredmény megadása

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Adatok statisztikai értékelésének főbb lehetőségei

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

A sokaság/minta eloszlásának jellemzése

Matematikai statisztika

A konfidencia intervallum képlete: x± t( α /2, df )

Országos kompetenciamérés eredményeinek kiértékelése 6. és 8. évfolyamokon 2012

Kettőnél több csoport vizsgálata. Makara B. Gábor

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Posztanalitikai folyamatok az orvosi laboratóriumban, az eredményközlés felelőssége

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Átírás:

1. oldal Elemi statisztika fizikusoknak Pollner Péter Biológiai Fizika Tanszék pollner@elte.hu

Az adatok leírása, megismerése és összehasonlítása 2-1 Áttekintés 2-2 Gyakoriság eloszlások 2-3 Az adatok vizualizációja 2-4 A centrum mérőszámai 2-5 A szórás mérőszámai 2-6 A relatív elhelyezkedés mérőszámai 2-7 Exploratív adatelemzés 2. oldal

Ismétlés: 3. oldal az adat elhelyezkedése (centruma, középpontja)

A centrum legjobb jellemzése 4. oldal

Kritikus szemlélet 5. oldal Átlag számításnál: Minek az átlagát számoljuk? Mi az alapsokaság? csoportok átlagos mérete --- tagok által érzett átlagos méret Minták átlagát számoljuk vagy csoportok átlagait? Csoportosított adatokat mindig súlyozva átlagoljuk! Melyik középérték-mutatót használjuk? átlagot csonkított átlagot mediánt? Pl. mekkora az átlagfizetés?

6. oldal 2-5. fejezet A variabilitás mérőszámai

A variabilitás mérőszámai 7. oldal A szórás a statisztika egyik legalapvetőbb fogalma, ezért fontos hogy megértsük a lényegét

8. oldal Várakozási idő különböző bankokban percekben Bank of Nyúl 6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7 Csajágröcsögei Bank 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10.0 Bank of Nyúl Csajágröcsögei Bank Átlag Medián Módusz 7.15 7.20 7.7 7.15 7.20 7.7 Midrange 7.10 7.10

Definíció 9. oldal Az adat halmaz terjedeleme (range) a legnagyobb és a legkisebb érték közti különbség legnagyobb érték legkisebb érték

Definíció 10. oldal A minta halmaz szórása (standard eltérése, standard deviation) az adatok eltérését méri az átlag körül

A minta szórásának képlete 11. oldal Σ (x - x) 2 s = n - 1 2-4. képlet Példa: 1, 3, 14 (tábla)

Adatokkal a képlet 12. oldal s = n (Σx 2 ) - (Σx) 2 n (n - 1) 2-5. képlet

Szórás - kulcspontok 13. oldal A szórás az átlag körüli variabilitás mértéke Az s szórás pozitív (vagy 0) A szórás s értéke dramatikusan megnő, ha egy vagy több outlier (a többitől messze eső) adat is van köztük Az s mértékegysége megegyezik az adatok mértékegységével

A populáció szórása 14. oldal σ = 2 Σ (x - µ) N Hasonló, mint a 2-4. képlet, azonban itt a populáció átlagát és a populáció nagyságát használjuk (és nem vonunk le 1-et).

Definíció 15. oldal A variancia (vagy szórásnégyzet) a szórás négyzete. Minta variancia: A minta szórásának négyzete. Populáció variancia: A populáció szórásának négyzete.

Variancia - Jelölések 16. oldal négyzetre emelt szórás Jelölés } s 2 σ 2 Minta variancia Populáció variancia

Miért van n-1 a 2-4. képletben? 17. oldal Szeretnénk, ha a mintából kiszámított s 2 szórásnégyzet a lehető legjobban megközelítené a populáció σ 2 varianciáját. Nagyon sokféle módon választhatunk ki n db mintaelemet az N elemű populációból, és így sok-sok különböző becslést kapunk a populáció szórására. Számításokkal alátámasztható, hogy a 2-4. képlet az n-1 osztóval átlagosan a helyes becslést adja a szórásra, amit torzítatlan becslésnek nevezünk. Példa: 3 elemű populáció, véletlen (visszatevéses) mintavételezés

18. oldal

19. oldal Vattay Gábor ELTE Komplex Rendszerek Fizikája Tanszék

Definíció 20. oldal A variációs együttható (CV) megadja a szórást az átlag százalékában kifejezve Minta Populáció CV = s x 100% CV = σ µ 100% Arra jó, hogy különböző skálákon mért variabilitásokat össze tudjunk hasonlítani.

21. oldal Vattay Gábor ELTE Komplex Rendszerek Fizikája Tanszék

Definíció 22. oldal Csebisev tétel Az adatok legalább 1-1/K 2 ad része általában közelebb van az átlaghoz mint K szórás, ahol K egy 1-nél nagyobb pozitív szám. # { x - µ < K σ} > Ν (1 1/Κ 2 ) K = 2 esetén, legalább ¾-e (vagy 75%-a) az adatoknak nem tér el jobban az átlagtól mint 2 szórás K = 3 esetén, legalább 8/9-ada (vagy 89%-a) az adatoknak nem tér el jobban az átlagtól mint 3 szórás

Definíció 23. oldal Empirikus (68-95-99.7) szabály Közelítőleg haranggörbe alakú eloszlás esetén a következő tulajdonságok igazak: Mintegy 68%-a az értékeknek az átlag 1 szórásnyi környezetébe esnek Mintegy 95%-a az értékeknek az átlag 2 szórásnyi környezetébe esnek Mintegy 99.7%-a az értékeknek az átlag 3 szórásnyi környezetébe esnek

Az empirikus szabály 24. oldal 2-13. ábra

Az empirikus szabály 25. oldal 2-13. ábra

Az empirikus szabály 26. oldal 2-13. ábra

Összefoglalás 27. oldal Ebben a fejezetben foglalkoztunk a: Az adatok terjedelmével A populáció és a minta szórásával (SD) A populáció és a minta varianciájával (VAR) A variációs együtthatóval (CV) A szórás kiszámításával a gyakoriság eloszlásból Empirikus szabály Csebisev tételével

28. oldal 2-6. fejezet A relatív helyzet mérőszámai

Definíció 29. oldal z eltérés (vagy standard eltérés) (z-score) x pozitív vagy negatív eltérése az átlagtól szórás egységekben mérve.

Az eltérés mérése z érték 30. oldal Minta Populáció z = x - x s z = x - µ σ

Példa: 31. oldal Lyndon Johnson volt a legmagasabb amerikai elnök, 190.5 cm. Shaquille O Neal a Miami Heat legmagasabb kosárlabda játékosa, 216 cm. Johnson volt-e sokkal magasabb mint az összes elnök, vagy O Neal a csapattársainál a Miami Heatben? Elnökök átlaga 181.6 cm, szórása 5.3 cm. Miami Heat átlaga 203.2 cm, szórása 8.4 cm. z=(190.5-181.6)/5.3=1.67 z=(216-203.2)/8.4=1.52

A z eltérés interpretációja 32. oldal 2-14. ábra Ha egy érték kisebb mint az átlag, akkor a z érték negatív. Megszokott értékek: z értéke 2 és 2 között Szokatlan értékek: z érték < -2 vagy z érték > 2 (szokatlan előfordulása: mintaméret-függő)

Einstein IQ-ja 33. oldal Az IQ eloszlása jó közelítéssel haranggörbe alakú Az emberek IQ átlaga 100, szórása 16. Einstein IQ-ja 160-volt. z=(160-100)/16=3.75

Definíció 34. oldal Q 1 (Alsó/első kvartilis) nagyság szerint rendezett adatok alsó 25%-át választja el a felső 75%-tól. Q 2 (Második kvartilis) ugyanaz mint a median; elválasztja az adatok alsó és felső 50%-át egymástól. Q 3 (Felső/harmadik kvartilis) az alsó 75%- ot a felső 25%-tól választja el. 25% 25% 25% 25% (minimum) Q 1 Q 2 Q 3 (maximum) (median)

Percentilisek 35. oldal Ugyanúgy, ahogy a kvartilisek négy részre osztják az adatokat, a 99 percentilis (kvantilis) P 1, P 2,... P 99, az adatokat 100 csoportra osztja.

Hogyan találhatjuk meg, hogy egy érték melyik percentilis esik? 36. oldal x-nél kisebb értékek száma x percentilis értéke= 100 az összes értékek száma

Konverzió a k-adik percentilis és a megfelelő adat értékek között 37. oldal Jelölés n az adatok száma L = k 100 n k L a kvantilis száma lokátor, ami meghatározza a keresett adat sorszámát P k k-adik kvantilis

38. oldal Keressük meg 0.8152 kvantilis értékét 11/36 100 =30.55556 Kerekítve 31 0.8152 a 31. kvantilisbe esik

v 39. oldal Keressük meg P 31 értékét (a 31. kvantilist). 31 L = 36 = 11.16 Kerekítsük fel: 12. 100 Kezdve a legkisebb értékkel, számoljunk el a 12.- ig a rendezett listában. P 31 = 0.8152.

40. oldal A konverzió sémája 2-15. ábra

Néhány fontos jellemző 41. oldal Interkvartilis terjedelem (IQR): Q 3 - Q 1 Q - Q Fél-interkvartilis terjedelem: 3 1 Kvartilis felező: Q 3 + Q 1 10-90 kvantilis terjedelem: P 90 - P 10 2 2

Összefoglalás 42. oldal Ebben a fejezetben megvitattuk: a z értékeket z értékeket és szokatlan értékek Kvartilisek kvantilisek A kvantilisek konvertálása adatértékekre és vissza Más jellemzők

43. oldal 2-7. fejezet Exploratív adatanalízis (EDA)

Definíció 44. oldal Exploratív adatanalízis a statisztikai módszerek (mint ábrázolás, a centrum és a variabilitás meghatározása) alkalmazásának a folyamata, amit azért végzünk, hogy megismerjük az adatok legfontosabb statisztikai jellemzőit

Definíció 45. oldal Az outlier egy olyan érték, ami nagyon távol esik a többi adat többségétől.

Fontos elvek 46. oldal Egy outlier-nek drámai hatása lehet az átlagra Egy outlier-nek drámai hatása lehet a szórásra Egy outlier-nek drámai hatása lehet a hisztogramra, ami miatt az eloszlás teljesen zavaros lesz

Definíciók 47. oldal Egy adathalmazra vonatkozóan, az 5-szám összesítő a minimum értékből; a Q 1 első kvartilisből; a mediánból (Q 2 ); a harmadik kvartilisből, Q 3 ; és a maximum értékből áll. A boxplot egy a minimumtól a maximumig terjedő vonalból áll, valamint egy dobozból, amiben függőleges vonal húzódik az alsó kvartilisnél, Q 1 ; a mediánnál; és a felső kvartilisnél, Q 3.

Boxplot 48. oldal 2-16. ábra

Boxplot-ok 49. oldal 2-17. ábra

Módosított boxplot 50. oldal Outlier, ha Q 3 at 1.5 X IQR-el meghaladja Outlier, ha Q 1 nél 1.5 X IQR-el kisebb Ezeket kihagyjuk és csak jelöljük (csillaggal), a maradékra csinálunk boxplotot.

Módosított boxplot 51. oldal

Módosított boxplot 52. oldal

Összefoglalás 53. oldal Ebben a fejezetben áttekintettük: Exploratív adatanalízist Az outlier-ek hatását 5-szám összesítőt és a boxplot-ot