Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása. 2-5. fejezet. A variabilitás mér számai 3.



Hasonló dokumentumok
Elemi statisztika fizikusoknak

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

Matematikai statisztikai elemzések 2.

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Alapfogalmak áttekintése. Pszichológiai statisztika, 1. alkalom

A mintavétel bizonytalansága

Variancia-analízis (folytatás)

Adatok statisztikai feldolgozása

ELEMI VALÓSZÍNŰSÉGSZÁMÍTÁS és STATISZTIKAI MÓDSZEREK A FIZIKÁBAN

Statisztika gyakorlat

MINİSÉGSZABÁLYOZÁS. Dr. Drégelyi-Kiss Ágota

GAZDASÁGI STATISZTIKA

INTELLIGENS ADATELEMZÉS

A évi Baross Gábor Program pályázati kiírásaira a Dél-alföldi Régióban benyújtott pályaművek statisztikai elemzése

KVANTITATÍV MÓDSZEREK

Statisztika, próbák Mérési hiba

Kutatásmódszertan és prezentációkészítés

Statisztikai módszerek

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

Statisztikai alapismeretek (folytatás)

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

Statisztika. Politológus képzés. Daróczi Gergely április 17. Politológia Tanszék

Csicsman József-Sipos Szabó Eszter Matematikai alapok az adatbányászati szoftverek első megismeréséhez

A leíró statisztikák

Standardizálás, transzformációk

Feladatok és megoldások a 6. heti eladshoz

Az egyenértékő kúposság

statisztikai menürendszere Dr. Vargha András 2007

és élelmiszer-ipari termékek hozhatók forgalomba, amelyeket a vonatkozó jogszabá-

A statisztika részei. Példa:

Statisztikai programcsomagok

Bemenet modellezése II.

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

TERÜLETI ÖSSZEHASONLÍTÁSOK

konfidencia-intervallum Logikai vektorok az R-ben március 14.

Diplomás pályakezdők várható foglalkoztatása és bérezése a versenyszektorban magyarországi cég körében végzett felmérés elemzése gyorsjelentés

7. el adás Becslések és minta elemszámok fejezet Áttekintés

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 7. MA3-7 modul. Helyzetmutatók, átlagok, kvantilisek

Komputer statisztika gyakorlatok

Szabó Júlia-Vízy Zsolt: A szaktanácsadói munka tapasztalatai a képesség- készségfejlesztés területén (Földünk és környezetünk mőveltségterület)

SZENT ISTVÁN EGYETEM YBL MIKLÓS ÉPÍTÉSTUDOMÁNYI KAR EUROCODE SEGÉDLETEK A MÉRETEZÉS ALAPJAI C. TÁRGYHOZ

KÖZGAZDASÁGTAN I. Készítette: Bíró Anikó, K hegyi Gergely, Major Klára. Szakmai felel s: K hegyi Gergely június

A szakképzı iskolát végzettek iránti kereslet és kínálat várható alakulása 2010

Kosztolányi József Kovács István Pintér Klára Urbán János Vincze István. tankönyv. Mozaik Kiadó Szeged, 2013

Statisztika I. 6. előadás. Előadó: Dr. Ertsey Imre

Segítség az outputok értelmezéséhez

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Populációbecslések és monitoring 2. előadás tananyaga

Elméleti összefoglalók dr. Kovács Péter

Matematikai statisztikai elemzések 6.

Magyarország éghajlatának alakulása január-július időszakban

Metrológiai alapok. Horváthné Drégelyi-Kiss Ágota Fıiskolai tanársegéd, BMF BGK AGI. URL:

A friss beton konzisztenciájának mérése a terülési mérték meghatározásával

A.11. Nyomott rudak. A Bevezetés

Adatok gyűjtésének és értékelésének módszerei Domokos, Endre Csom, Veronika

A tanulás affektív tényezõi. Józsa Krisztián. Fejes József Balázs

PILIS NAGYKÖZSÉG ÖNKORMÁNYZATA Képviselı-testületének. 20/2002. (XII. 12) sz. önkormányzati rendelete

Valószínőségszámítás és statisztika elıadások Mérnök informatikus BSc szak MANB030, MALB030

Általánosítás. Többdimenziós normális eloszlás. Matematikai statisztika elıadás III. éves elemzı szakosoknak

Növényvédőszer maradékok eloszlásának vizsgálata egyedi terményekben

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

MINİSÉGBIZTOSÍTÁS. 8. ELİADÁS Mérıeszköz megfelelıség Mérıeszköz-képesség vizsgálat Április 4. Összeállította: Dr. Kovács Zsolt egyetemi tanár

A sárospataki Nagykönyvtár olvasóinak elégedettségi mérése. Készítette: Éger Gábor

MATEMATIKA TANTERV Bevezetés Összesen: 432 óra Célok és feladatok

Orvosi diagnosztikai célú röntgenképfeldolgozás

10.3. A MÁSODFOKÚ EGYENLET

Levegőminősítési indexek elemzése

ÚTMUTATÓ A MÓDSZERTANI SZIGORLAT LETÉTELÉHEZ

Matematikai statisztikai elemzések 5.

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

1. A skót bakák mellkas körmérete N(88, 10). A skót bakák mekkora hányada fér bele egy 84-es zubbonyba?

A nyugdíjban, nyugdíjszerű ellátásban részesülők halandósága főbb ellátástípusok szerint

1. A MÁSODIK OSZTÁLYBAN TANULTAK ISMÉTLÉSE

Az áprilisi vizsga anyaga a fekete betűkkel írott szöveg! A zölddel írott rész az érettségi vizsgáig még megtanulandó anyag!

KARÁCSONYI ÜNNEPVÁRÓ AJTÓDÍSZ. copyright oldal 1

JACIR HŐTİTORONY ÜZEMBE HELYEZÉSI ÉS KARBANTARTÁSI ÚTMUTATÓJA

Alkatrészek tőrése. 1. ábra. Névleges méret méretszóródása

Kétszemélyes négyes sor játék

Szakdolgozat. Pongor Gábor

Statisztikai módszerek gyakorlat - paraméteres próbák

LOVASKOCSIVAL AZ INFORMÁCIÓS SZUPERSZTRÁDÁN. információtartalma /1

A szárított faanyag minıségének korrekt meghatározása, különös tekintettel az EU-s szabványokra

Matematikai statisztikai elemzések 1.

Az új szja törvénnyel kapcsolatos béralkalmazkodási lépések a kisés közepes vállalkozások körében

Hipotézis-ellenırzés (Statisztikai próbák)

Próbatömörítés végrehajtásának eljárási utasítása és szabályai

Vargha András PSZICHOLÓGIAI STATISZTIKA DIÓHÉJBAN 1. X.1. táblázat: Egy iskolai bizonyítvány. Magyar irodalom. Biológia Földrajz

Biztosítási ügynökök teljesítményének modellezése

STATISZTIKA I. Tantárgykódok. Oktatók. Időbeosztás. Tematika Előadás Bevezetés, a statisztika szerepe

A év agrometeorológiai sajátosságai

Debreceni Egyetem Informatika Kar STATISZTIKAI PROBLÉMÁK MEGOLDÁSA SZÁMÍTÓGÉP SEGÍTSÉGÉVEL

11. Matematikai statisztika

ELTE Társadalomtudományi Kar, ELTE-UNESCO Kisebbségszociológiai Tanszék H-1018 Budapest, Pázmány P. sétány 1/a.;

Alkalmazott statisztika feladatok

Környezeti elemek védelme II. Talajvédelem

Vállalati és lakossági lekérdezés. Szécsény Város Polgármesteri Hivatala számára

SZAKDOLGOZAT. Takács László

Vízhasználatok gazdasági elemzése

Átírás:

. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása -1 Áttekintés - Gyakoriság eloszlások -3 Az adatok vizualizációja -4 A centrum mérıszámai -5 A szórás mérıszámai -6 A relatív elhelyezkedés mérıszámai -7 Exploratív adatelemzés 1. oldal -5. fejezet A variabilitás mér számai. oldal A variabilitás mér számai 3. oldal 4. oldal Várakozási id különböz bankokban percekben A szórás a statisztika egyik legalapvetıbb fogalma, ezért fontos hogy megértsük a lényegét 1 Bank of Nyúl Csajágröcsögei Bank 6.5 4. 6.6 5.4 6.7 5.8 6.8 6. 7.1 6.7 7.3 7.4 8.5 9.3 10.0 Bank of Nyúl Csajágröcsögei Bank Átlag Medián Módusz Midrange 7.15 7.0 7.10 7.15 7.0 7.10 5. oldal 6. oldal Az adat halmaz terjedelem (range) a legnagyobb és a legkisebb érték közti különbség A minta halmaz szórása (standard eltérése, standard deviation) az adatok eltérését méri az átlag körül legnagyobb érték legkisebb érték

A minta szórásának képlete s = -4. képlet Példa: 1, 3, 14 (tábla) Σ (x - x) n - 1 7. oldal A szórás kiszámításának procedúrája Számold ki az átlagot Vond le az átlagot minden egyes adatból Minden így kapott eltérést emelj a négyzetre Add össze ezeket az eltéréseket Az eredményt oszd el az adatok száma -1 Vonjál belıle gyököt x 8. oldal ( x x) ( x x) ( x x) n 1 -el. Egyszer sített képlet 9. oldal Szórás - kulcspontok 10. oldal s = -5. képlet n (Σx ) - (Σx) n (n - 1) A szórás az átlag körüli variabilitás mértéke Az s szórás pozitív (vagy 0) A szórás s értéke dramatikusan megnı, ha egy vagy több outlier (a többitıl messze esı) adat is van köztük Levezetjük a táblánál! Az s mértékegysége megegyezik az adatok mértékegységével A populáció szórása 11. oldal 1. oldal σ = Σ (x - µ) N A variancia (vagy szórásnégyzet) a standard eltérés négyzete. Minta variancia: A minta szórásának négyzete. Hasonló, mint a -4. képlet, azonban itt a populáció átlagát és a populáció nagyságát használjuk (és nem vonunk le 1-et). Populáció variancia: A populáció szórásának négyzete.

Variancia - Jelölések 13. oldal Miért van n-1 a -4. képletben? 14. oldal négyzetre emelt standard eltérés Jelölés } s σ Minta variancia Populáció variancia Szeretnénk, ha a mintából kiszámított s szórásnégyzet a lehetı legjobban megközelítené a populáció σ varianciáját. Nagyon sokféle módon választhatunk ki n db mintaelemet az N elemő populációból és így sok-sok különbözı becslést kapunk a populáció szórására. Számításokkal alátámasztható, hogy a -4. képlet az n-1 osztóval átlagosan a helyes becslést adja a szórásra, amit torzítatlan becslésnek nevezünk. Példa: 3 elemő populáció, véletlen (visszatevéses) mintavételezés Példa: 3, 6, 9 15. oldal Miért nem használjuk az abszolút eltérést? 16. oldal N=3 µ=6 n= 3,6 és 6,3 6,9 és 9,6 x=4.5 x=7.5 3,9 és 9,3 x=6 3,3 6,6 9,9 x=3 x=6 σ =((3 6) +(6 6) +(9 6) )/3=6.0 s =((3 4.5) +(6 4.5) )/1=4.5 s =((6 7.5) +(9 7.5) )/1=4.5 s =((3 6) +(9 6) )/1=18.0 s =((3 3) +(3 3) )/1=0.0 s =((6 6) +(6 6) )/1=0.0 x=9 s =((9 9) +(9 9) )/1=0.0 (4.5+4.5+4.5+4.5+18.0+18.0+0.0+0.0+0.0)/9=54.0/9=6.0 3 Átlag abszolút eltérés = x x n nem additív és nem torzítatlan becslése a populáció átlag abszolút eltérésének 17. oldal Példa: 18. oldal A variációs együttható (CV) megadja a szórást az átlag százalékában kifejezve CV = Minta s 100% x CV = Populáció σ µ 100% Arra jó, hogy különbözı variabilitásokat össze tudjunk hasonlítani. Megvizsgáltuk 100 férfi magasságát és súlyát Magasság: Magasság átlaga x = 173.58 cm Magasság szórása S= 7.67 cm Súly: Súly átlaga x = 78.6 kg Súly szórása S= 11.94 kg CV magasság =7.67cm/173.58cm=4.4% CV súly =11.94kg/78.6kg=15.6% A magasság sokkal kevésbé változékony mint a súly!

A standard eltérés kiszámítása 19. oldal a gyakoriság eloszlásból 0. oldal -6. képlet n [Σ(f x )] - [Σ(f x)] s = n (n - 1) Használjuk x értékeknek az osztályfelezı pontokat Csebisev tétel Az adatok legalább 1-1/K ad része mindig közelebb van az átlaghoz mint K standard eltérés, ahol K egy 1- nél nagyobb pozitív szám. K = esetén, legalább ¾-e (vagy 75%-a) az adatoknak nem tér el jobban az átlagtól mint standard eltérés K = 3 esetén, legalább 8/9-ada (vagy 89%-a) az adatoknak nem tér el jobban az átlagtól mint 3 standard eltérés következı tulajdonságok igazak: Empirikus (68-95-99.7) szabály Közelítıleg haranggörbe alakú eloszlás esetén a Mintegy 68%-a az értékeknek az átlag 1 standard eltérésnyi környezetébe esnek Mintegy 95%-a az értékeknek az átlag standard eltérésnyi környezetébe esnek Mintegy 99.7%-a az értékeknek az átlag 3 standard eltérésnyi környezetébe esnek 4 1. oldal Az empirikus szabály. oldal -13. ábra Az empirikus szabály 3. oldal Az empirikus szabály 4. oldal -13. ábra -13. ábra

Összefoglalás 5. oldal 6. oldal Ebben a fejezetben foglalkoztunk a: Az adatok terjedelmével A populáció és a minta szórásával (SD) A populáció és a minta varianciájával (VAR) A variációs együtthatóval (CV) A szórás kiszámításával a gyakoriság eloszlásból Empirikus szabály Csebisev tételével -6. fejezet A relatív helyzet mér számai 7. oldal Az eltérés mérése z érték 8. oldal z eltérés (vagy standard eltérés) x pozitív vagy negatív eltérése az átlagtól szórás egységekben mérve. 5 Minta z = x - x s Populáció z = x - µ σ Példa: 9. oldal A z eltérés interpretációja 30. oldal Lyndon Johnson volt a legmagasabb amerikai elnök, 190.5 cm. Shaquille O Neal a Miami Heat legmagasabb kosárlabda játékosa, 16 cm. Johnson volt-e sokkal magasabb mint az összes elnök, vagy O Neal a csapattársainál a Miami Heatben? Elnökök átlaga 181.6 cm, szórása 5.3 cm. Miami Heat átlaga 03. cm, szórása 8.4 cm. z=(190.5-181.6)/5.3=1.67 z=(16-03.)/8.4=1.5-14. ábra Ha egy érték kisebb mint az átlag, akkor a z érték negatív. Megszokott értékek: z értéke és között Szokatlan értékek: z érték < - vagy z érték >

Einstein IQ-ja Az IQ eloszlása jó közelítéssel haranggörbe alakú Az emberek IQ átlaga 100, szórása 16. Einstein IQ-ja 160-volt. z=(160-100)/16=3.75 31. oldal Q 1 (Alsó/elsı kvartilis) nagyság szerint rendezett adatok alsó 5%-át választja el a felsı75%-tól. Q (Második kvartilis) ugyanaz mint a median; elválasztja az adatok alsó és felsı separates 50%-át egymástól. 3. oldal Q 3 (Felsı/harmadik kvartilis) az alsó 75%- ot a felsı5%-tól választja el. Percentilisek 33. oldal Hogyan találhatjuk meg, hogy egy érték melyik percentilisbe esik? 34. oldal Ugyanúgy, ahogy a kvartilisek négy részre osztják az adatokat, a 99 percentilis P 1, P,... P 99, az adatokat 100 csoportra osztják. 6 x percentilis értéke= x-nél kisebb értékek száma 100 az összes értékek száma Konverzió a k-adik percentilis és a megfelelı adat értékek között 35. oldal 36. oldal L = Jelölés k 100 n n k L P k az adatok száma a percentilis száma lokátor, ami meghatározza a keresett adat sorszámát k-adik percentilis Keressük meg 0.815 percentilis értékét 11/36 100 =30.55556 Kerekítve 31 0.815 a 31. percentilisbe esik

37. oldal 38. oldal A konverzió sémája Keressük meg P 31 értékét (a 31. percentilist). 31 L = 36 = 11.16 Kerekítsük fel: 1. 100 Kezdve a legkisebb értékkel, számoljunk el a 1.- ig a rendezett listában. P 31 = 0.815. -15. ábra Néhány fontos jellemz 39. oldal Összefoglalás 40. oldal Ebben a fejezetben megvitattuk: Interkvartilis terjedelem (IQR): Q 3 - Q 1 Q Fél-interkvartilis terjedelem: 3 - Q 1 Kvartilis felez : Q 3 + Q 1 10-90 percentilis terjedelem: P 90 - P 10 7 a z értékeket z értékeket és szokatlan értékek Kvartilisek Percentilisek A percentilisek konvertálása adatértékekre és vissza Más jellemzık 41. oldal 4. oldal -7. fejezet Exploratív adatanalízis (EDA) Exploratív adatanalízis a statisztkai módszerek (mint ábrázolás, a centrum és a variabilitás meghatározása) alkalmazásának a folyamata, amit azért végzünk, hogy megismerjük az adatok legfontosabb statisztikai jellemzıit

43. oldal Fontos elvek 44. oldal Az outlier egy olyan érték, ami nagyon távol esik a többi adat többségétıl. Egy outlier-nek drámai hatása lehet az átlagra Egy outlier-nek drámai hatása lehet a szórásra Egy outlier-nek drámai hatása lehet a hisztogrammok skálájára, ami miatt az eloszlás teljesen zavaros lesz k Egy adathalmazra vonatkozóan, az 5-szám összefoglaló a minimum értékbıl; a Q 1 elsı kvartilisbıl; a mediánból (Q ); a harmadik kvartilisbıl, Q 3 ; és a maximum értékbıl áll. A boxplot egy a minimumtól a maximumig terjedı vonalból áll, valamint egy dobozból, amiben függıleges vonal húzódik az alsó kvartilisnél, Q 1 ; a mediánnál; és a felsı kvartilisnél, Q 3. 45. oldal 8 Boxplot -16. ábra 46. oldal Boxplot-ok 47. oldal Módosított boxplot 48. oldal Outlier, ha Q 3 at 1.5 X IQR-el meghaladja Outlier, ha Q 1 nél 1.5 X IQR-el kisebb Ezeket kihagyjuk és csak jelöljük (csillaggal), a maradékra csinálunk boxplotot. -17. ábra

Összefoglalás 49. oldal Ebben a fejezetben áttekintettük: Exploratív adatanalízist Az outlier-ek hatását 5-szám összefoglalót és a boxplot-ot 9