. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása -1 Áttekintés - Gyakoriság eloszlások -3 Az adatok vizualizációja -4 A centrum mérıszámai -5 A szórás mérıszámai -6 A relatív elhelyezkedés mérıszámai -7 Exploratív adatelemzés 1. oldal -5. fejezet A variabilitás mér számai. oldal A variabilitás mér számai 3. oldal 4. oldal Várakozási id különböz bankokban percekben A szórás a statisztika egyik legalapvetıbb fogalma, ezért fontos hogy megértsük a lényegét 1 Bank of Nyúl Csajágröcsögei Bank 6.5 4. 6.6 5.4 6.7 5.8 6.8 6. 7.1 6.7 7.3 7.4 8.5 9.3 10.0 Bank of Nyúl Csajágröcsögei Bank Átlag Medián Módusz Midrange 7.15 7.0 7.10 7.15 7.0 7.10 5. oldal 6. oldal Az adat halmaz terjedelem (range) a legnagyobb és a legkisebb érték közti különbség A minta halmaz szórása (standard eltérése, standard deviation) az adatok eltérését méri az átlag körül legnagyobb érték legkisebb érték
A minta szórásának képlete s = -4. képlet Példa: 1, 3, 14 (tábla) Σ (x - x) n - 1 7. oldal A szórás kiszámításának procedúrája Számold ki az átlagot Vond le az átlagot minden egyes adatból Minden így kapott eltérést emelj a négyzetre Add össze ezeket az eltéréseket Az eredményt oszd el az adatok száma -1 Vonjál belıle gyököt x 8. oldal ( x x) ( x x) ( x x) n 1 -el. Egyszer sített képlet 9. oldal Szórás - kulcspontok 10. oldal s = -5. képlet n (Σx ) - (Σx) n (n - 1) A szórás az átlag körüli variabilitás mértéke Az s szórás pozitív (vagy 0) A szórás s értéke dramatikusan megnı, ha egy vagy több outlier (a többitıl messze esı) adat is van köztük Levezetjük a táblánál! Az s mértékegysége megegyezik az adatok mértékegységével A populáció szórása 11. oldal 1. oldal σ = Σ (x - µ) N A variancia (vagy szórásnégyzet) a standard eltérés négyzete. Minta variancia: A minta szórásának négyzete. Hasonló, mint a -4. képlet, azonban itt a populáció átlagát és a populáció nagyságát használjuk (és nem vonunk le 1-et). Populáció variancia: A populáció szórásának négyzete.
Variancia - Jelölések 13. oldal Miért van n-1 a -4. képletben? 14. oldal négyzetre emelt standard eltérés Jelölés } s σ Minta variancia Populáció variancia Szeretnénk, ha a mintából kiszámított s szórásnégyzet a lehetı legjobban megközelítené a populáció σ varianciáját. Nagyon sokféle módon választhatunk ki n db mintaelemet az N elemő populációból és így sok-sok különbözı becslést kapunk a populáció szórására. Számításokkal alátámasztható, hogy a -4. képlet az n-1 osztóval átlagosan a helyes becslést adja a szórásra, amit torzítatlan becslésnek nevezünk. Példa: 3 elemő populáció, véletlen (visszatevéses) mintavételezés Példa: 3, 6, 9 15. oldal Miért nem használjuk az abszolút eltérést? 16. oldal N=3 µ=6 n= 3,6 és 6,3 6,9 és 9,6 x=4.5 x=7.5 3,9 és 9,3 x=6 3,3 6,6 9,9 x=3 x=6 σ =((3 6) +(6 6) +(9 6) )/3=6.0 s =((3 4.5) +(6 4.5) )/1=4.5 s =((6 7.5) +(9 7.5) )/1=4.5 s =((3 6) +(9 6) )/1=18.0 s =((3 3) +(3 3) )/1=0.0 s =((6 6) +(6 6) )/1=0.0 x=9 s =((9 9) +(9 9) )/1=0.0 (4.5+4.5+4.5+4.5+18.0+18.0+0.0+0.0+0.0)/9=54.0/9=6.0 3 Átlag abszolút eltérés = x x n nem additív és nem torzítatlan becslése a populáció átlag abszolút eltérésének 17. oldal Példa: 18. oldal A variációs együttható (CV) megadja a szórást az átlag százalékában kifejezve CV = Minta s 100% x CV = Populáció σ µ 100% Arra jó, hogy különbözı variabilitásokat össze tudjunk hasonlítani. Megvizsgáltuk 100 férfi magasságát és súlyát Magasság: Magasság átlaga x = 173.58 cm Magasság szórása S= 7.67 cm Súly: Súly átlaga x = 78.6 kg Súly szórása S= 11.94 kg CV magasság =7.67cm/173.58cm=4.4% CV súly =11.94kg/78.6kg=15.6% A magasság sokkal kevésbé változékony mint a súly!
A standard eltérés kiszámítása 19. oldal a gyakoriság eloszlásból 0. oldal -6. képlet n [Σ(f x )] - [Σ(f x)] s = n (n - 1) Használjuk x értékeknek az osztályfelezı pontokat Csebisev tétel Az adatok legalább 1-1/K ad része mindig közelebb van az átlaghoz mint K standard eltérés, ahol K egy 1- nél nagyobb pozitív szám. K = esetén, legalább ¾-e (vagy 75%-a) az adatoknak nem tér el jobban az átlagtól mint standard eltérés K = 3 esetén, legalább 8/9-ada (vagy 89%-a) az adatoknak nem tér el jobban az átlagtól mint 3 standard eltérés következı tulajdonságok igazak: Empirikus (68-95-99.7) szabály Közelítıleg haranggörbe alakú eloszlás esetén a Mintegy 68%-a az értékeknek az átlag 1 standard eltérésnyi környezetébe esnek Mintegy 95%-a az értékeknek az átlag standard eltérésnyi környezetébe esnek Mintegy 99.7%-a az értékeknek az átlag 3 standard eltérésnyi környezetébe esnek 4 1. oldal Az empirikus szabály. oldal -13. ábra Az empirikus szabály 3. oldal Az empirikus szabály 4. oldal -13. ábra -13. ábra
Összefoglalás 5. oldal 6. oldal Ebben a fejezetben foglalkoztunk a: Az adatok terjedelmével A populáció és a minta szórásával (SD) A populáció és a minta varianciájával (VAR) A variációs együtthatóval (CV) A szórás kiszámításával a gyakoriság eloszlásból Empirikus szabály Csebisev tételével -6. fejezet A relatív helyzet mér számai 7. oldal Az eltérés mérése z érték 8. oldal z eltérés (vagy standard eltérés) x pozitív vagy negatív eltérése az átlagtól szórás egységekben mérve. 5 Minta z = x - x s Populáció z = x - µ σ Példa: 9. oldal A z eltérés interpretációja 30. oldal Lyndon Johnson volt a legmagasabb amerikai elnök, 190.5 cm. Shaquille O Neal a Miami Heat legmagasabb kosárlabda játékosa, 16 cm. Johnson volt-e sokkal magasabb mint az összes elnök, vagy O Neal a csapattársainál a Miami Heatben? Elnökök átlaga 181.6 cm, szórása 5.3 cm. Miami Heat átlaga 03. cm, szórása 8.4 cm. z=(190.5-181.6)/5.3=1.67 z=(16-03.)/8.4=1.5-14. ábra Ha egy érték kisebb mint az átlag, akkor a z érték negatív. Megszokott értékek: z értéke és között Szokatlan értékek: z érték < - vagy z érték >
Einstein IQ-ja Az IQ eloszlása jó közelítéssel haranggörbe alakú Az emberek IQ átlaga 100, szórása 16. Einstein IQ-ja 160-volt. z=(160-100)/16=3.75 31. oldal Q 1 (Alsó/elsı kvartilis) nagyság szerint rendezett adatok alsó 5%-át választja el a felsı75%-tól. Q (Második kvartilis) ugyanaz mint a median; elválasztja az adatok alsó és felsı separates 50%-át egymástól. 3. oldal Q 3 (Felsı/harmadik kvartilis) az alsó 75%- ot a felsı5%-tól választja el. Percentilisek 33. oldal Hogyan találhatjuk meg, hogy egy érték melyik percentilisbe esik? 34. oldal Ugyanúgy, ahogy a kvartilisek négy részre osztják az adatokat, a 99 percentilis P 1, P,... P 99, az adatokat 100 csoportra osztják. 6 x percentilis értéke= x-nél kisebb értékek száma 100 az összes értékek száma Konverzió a k-adik percentilis és a megfelelı adat értékek között 35. oldal 36. oldal L = Jelölés k 100 n n k L P k az adatok száma a percentilis száma lokátor, ami meghatározza a keresett adat sorszámát k-adik percentilis Keressük meg 0.815 percentilis értékét 11/36 100 =30.55556 Kerekítve 31 0.815 a 31. percentilisbe esik
37. oldal 38. oldal A konverzió sémája Keressük meg P 31 értékét (a 31. percentilist). 31 L = 36 = 11.16 Kerekítsük fel: 1. 100 Kezdve a legkisebb értékkel, számoljunk el a 1.- ig a rendezett listában. P 31 = 0.815. -15. ábra Néhány fontos jellemz 39. oldal Összefoglalás 40. oldal Ebben a fejezetben megvitattuk: Interkvartilis terjedelem (IQR): Q 3 - Q 1 Q Fél-interkvartilis terjedelem: 3 - Q 1 Kvartilis felez : Q 3 + Q 1 10-90 percentilis terjedelem: P 90 - P 10 7 a z értékeket z értékeket és szokatlan értékek Kvartilisek Percentilisek A percentilisek konvertálása adatértékekre és vissza Más jellemzık 41. oldal 4. oldal -7. fejezet Exploratív adatanalízis (EDA) Exploratív adatanalízis a statisztkai módszerek (mint ábrázolás, a centrum és a variabilitás meghatározása) alkalmazásának a folyamata, amit azért végzünk, hogy megismerjük az adatok legfontosabb statisztikai jellemzıit
43. oldal Fontos elvek 44. oldal Az outlier egy olyan érték, ami nagyon távol esik a többi adat többségétıl. Egy outlier-nek drámai hatása lehet az átlagra Egy outlier-nek drámai hatása lehet a szórásra Egy outlier-nek drámai hatása lehet a hisztogrammok skálájára, ami miatt az eloszlás teljesen zavaros lesz k Egy adathalmazra vonatkozóan, az 5-szám összefoglaló a minimum értékbıl; a Q 1 elsı kvartilisbıl; a mediánból (Q ); a harmadik kvartilisbıl, Q 3 ; és a maximum értékbıl áll. A boxplot egy a minimumtól a maximumig terjedı vonalból áll, valamint egy dobozból, amiben függıleges vonal húzódik az alsó kvartilisnél, Q 1 ; a mediánnál; és a felsı kvartilisnél, Q 3. 45. oldal 8 Boxplot -16. ábra 46. oldal Boxplot-ok 47. oldal Módosított boxplot 48. oldal Outlier, ha Q 3 at 1.5 X IQR-el meghaladja Outlier, ha Q 1 nél 1.5 X IQR-el kisebb Ezeket kihagyjuk és csak jelöljük (csillaggal), a maradékra csinálunk boxplotot. -17. ábra
Összefoglalás 49. oldal Ebben a fejezetben áttekintettük: Exploratív adatanalízist Az outlier-ek hatását 5-szám összefoglalót és a boxplot-ot 9