Elemi statisztika >> =weiszd= << 2007. december 20. 1. 1. előadás Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] 2. 2. előadás 2.1. Mintabeli értékek átlaga x x = n 2.2. Populáció minden tagjára vett átlag x µ = N 2.3. Átlag számítása a gyakoriság eloszlásból (fx) x = f ahol x az osztály felezőpontja, f a gyakoriság, f pedig az n 2.4. Súlyozott átlag x = (wx) w 3. 3. előadás 3.1. Minta szórása s = (x x) 2 n 1 1
3.1.1. Egyszerűsített képlet n( x s = 2 ) ( x) 2 n(n 1) 3.2. Populáció szórása σ = (x µ) 2 3.3. Standard eltérés kiszámítása a gyakoriság eloszlásból n[ (fx s = 2 )] [ (fx)] 2 n(n 1) 3.4. Az eltérés mértéke [z érték] 3.4.1. Minta N z = x x s 3.4.2. Populáció z = x µ σ 3.5. Konverzió a k-adik percentilis és a megfelelő adat értékek között L = k 100 n 3.6. Kvartilisek 3.6.1. Interkvartilis terjedelem (IQR) Q 3 Q 1 3.6.2. Félinterkvartilis terjedelem 3.6.3. Kvartilis felező Q 3 Q 1 2 Q 3 + Q 1 2 2
3.6.4. 10-90 percentilis terjedelem 3.7. Outlier P 90 P 10 Outlier az érték akkor, ha Q 3 -at 1, 5IQR-rel meghaladja, vagy 1, 5IQR-nél kisebb. 4. 4. előadás 4.1. 1. szabály: A valószínűség közelítése a relatív gyakorisággal (A) bekövetkezéseinek száma hányszor ismétlődött a kísérlet összesen 4.2. 2. szabály: Klasszikus/kombinatorikus megközelítés (Egyformán valószínű kimeneteket feltételez) P (A) = s n = (A) bekövetkezésének esetei az összes elemi események száma 4.3. Formális összeadási szabály P (A + B) = P (A) + P (B) P (A B) 4.4. Komplementerer események szabályai 4.5. Feltételes valószínűség P (A) + P (A) = 1 P (A) = 1 P (A) P (A) = 1 P (A) P (B A) = P (A B) P (A) ahol P (B A) jelöli B esemény valószínűségét, feltéve, hogy A bekövetkezett. 4.6. Formális szorzási szabály Ha A és B független események, akkor P (A B) = P (A) P (B A) P (B A) = P (B) 3
5. 5.előadás 5.1. Valószínűség-eloszlás tulajdonságai P (x) = 1 ahol x pozitív értékeket vehet fel. 0 P (x) 1 minden x értékre 5.2. Átlag, variancia, szórás 5.2.1. Átlag µ = [x P (x)] 5.2.2. Variancia [rövidített] 5.2.3. Szórás 5.3. Várható érték σ 2 = [(x µ) 2 P (x)] σ 2 = [ x 2 P (x)] µ 2 σ = [x2 P (x)] µ 2 A diszkrét véletlen változó a kimenetek átlaga, jelölés: E 5.4. Binomiális eloszlás 5.4.1. Jelölések E = [x P (x)] S és F jelöli a két lehetséges kimenet csoportot [succes/failure], p és q jelöli ezek valószínűségét: P (S) = p ÉS P (F ) = 1 p = q n a fix próbálkozások száma x az n próbálkozások közül a sikeresek száma 4
P (x) annak valószínűsége, hogy pontosan x próbálkozás lesz sikeres n próbálkozás közül A binomiális eloszlás képlete ahol x = 0, 1, 2,..., n P (x) = n! (n x)!x! px q n x 5.5. A binomiális eloszlás átlaga, varianciája és szórása 5.5.1. Diszkrét eloszlásra vonatkozó képletek Átlag: µ = [x P (x)] µ = n p Variancia: σ 2 = [ x 2 P (x)] µ 2 σ 2 = n p q Szórás: σ = [ x 2 P (x)] µ 2 σ = n p q 5.6. Poisson eloszlás 5.6.1. Feltételek Az x véletlen változó bizonyos események előfordulásának számát adja meg egy adottintervallumban. Az előfordulásoknak véletlenszerűeknek és függetlenek kell lenniük, továbbá egyenletesen kell eloszlaniuk az inetrvallumon belül. 5.7. Standard normális eloszlás 5.7.1. Jellemzők Harang alakú, szórása=0, átlaga=1 f(x) = e 1 2 x µ 2 σ σ 2π 5
6. 6. előadás 6.1. A normális eloszlás alkalmazásai 6.1.1. Konverziós formula [standardizálás] azaz z = x µ σ x = µ + σz 6.1.2. Változó értékeinek megtalálása 1. Rajzolj egy normális eloszlás görbét, rajzold be, hogy hol és milyen valószínűségeket vagy százalékokat keresel, és rajzold be a keresett x értékeket! 2. A táblázatot használva keressük meg azt a z értéket, amelyik az x-től balra eső területhez tartozik. A táblázat belsejében keresd ki a területet és abból a z értéket! 3. Képlethasználat 4. Nézd meg az eredeti ábrán, hogy értelmes-e az eredmény. 6.2. Definíció A statisztika eloszlása (mint például a minta arány vagy a minta átlag eloszlása) a statisztika minden lehetséges értékének eloszlása abban az esetben, amikor értékét a populáció minden lehetséges n elemszámú mintájára kiszámítjuk. 6.3. Tulajdonságok 1. A minta arányok a populációs arányhoz tartanak. 2. Bizonyos feltételek mellett a mintabeli arányok eloszlása normális eloszlással közelítheti. 6.4. Központi határeloszlás tétel 6.4.1. Adott: 1. Az x véletlen változónak µ átlaga és s szórással rendelkező eloszlása van (ami vagy normális vagy sem). 2. Egyszerű n elemszámú véletlen mintákat választunk a populációból. (A mintákat úgy választjuk, hogy bármely n elemszámú mintát ugyanazzal az eséllyel választunk ki.) 6.4.2. Konklúziók 1. A minta átlag x, ahogy a minta méretét növeljük, a normális eloszláshoz tart. 2. A minta átlagok átlaga µ 6
3. A minta átlagok szórása pedig: σ x = σ n 4. Általában ha a minta n mérete nagyobb, mint 30, akkor a minta átlagok eloszlását meglehetősen jól lehet normális eloszlással közelíteni. A közelítés egyre jobb, ahogy n növekszik. 5. Ha az eredeti populáció maga is normális eloszlású, akkor a minta átlagok eloszlása mindig normális bármely n-re (nem csak a 30-nál nagyobb értékek esetén). 6.5. Binomiális eloszlás 1. A véletlen kísérletek száma állandó. 2. A kísérletek függetlenek. 3. Minden kísérletnek két kimenete van. 4. A siker valószínűsége állandó a kísérletek során. 6.6. Normál kvantilis plot Egy pontokból (x, y) álló gráf, ahol az x érték az eredeti minta adatokból áll és az y érték a megfelelő z érték, ami a standard normális eloszlásból származó kvantilis érték. 7. 7. előadás - Következtető statisztika 7.1. A populáció arány becslése 7.1.1. Feltételek 1. A minta egy egyszerű véletlen minta. 2. A binomiális eloszlás feltételei fennállnak. 3. np 5 és nq 5. [sikertelen és sikeres esetek száma] 7.1.2. A p-re vonatkozó konfidencia intervallum megkonstruálása 1. Feltételek 2. z α/2 [normális eloszlás-táblázat] 3. Hiba: 4. E = pq n p E < p < p + E 7
7.1.3. A minta elemszám [n] meghatározása E-s képletből 1. Ha van előzetes becslés p-re: 2. Ha nincs, p := 0, 25 n = (z α/2) 2 pq E 2 7.1.4. Pontbecslés p = (felső határ) + (alsó határ) / 2 [ugyanez E-nél] 7.2. Populáció átlagbecslés ismert σ esetén 7.2.1. Feltevések 1. A minta egyszerű véletlen mintavételezéssel lett kiválasztva. (Minden ugyanolyan hosszúságú minta kiválasztásának egyenlő az esélye.) 2. A populáció σ szórása ismert. 3. Egyik vagy mindkét alábbi feltétel igaz: A populáció normális eloszlású vagy n > 30. 7.2.2. Becslés A minta átlag x a populáció átlag µ legjobb pontbecslése. 7.2.3. Az átlag hibája E = z α/2 σ n 7.2.4. KI határok x E < µ < x + E 7.2.5. A µ populációs átlag meghatározásához szükséges minta elemszám n = [(z α/2)σ E ]2 7.3. A populáció átlag becslése, ha σ nem ismert - Student t 7.3.1. Student t-eloszlás t = x µ s n 8
7.3.2. Szabadsági fokok száma n 1 7.3.3. Hiba [σ nem ismert] s E = t α/2 n ahol t α/2 n 1 szabadsági fokkal rendelkezik 7.3.4. KI µ-re [σ nem ismert] x E < µ < x + E 7.4. A populáció variancia becslése 7.4.1. Feltételek 1. A minta legyen egyszerű véletlen. 2. A populációnak normális eloszlásúnak kell lennie (nem elég, hogy a minta nagy legyen). 7.4.2. χ 2 -eloszlás χ 2 (n 1)s2 = σ 2 d f = n 1 7.4.3. KI a populáció varianciára [σ 2 ] (n 1)s 2 < σ 2 < χ 2 R (n 1)s2 χ 2 L 8. 8-9. előadás - Hipotézis tesztelés 8.1. Definíció A hipotézis egy a populáció valamilyen tulajdonságára vonatkozó állítás/kijelentés. Standard módszer a szignifikancia vagy hipotézis tesztelés. 8.2. Ritka esemény szabály Ha, adott feltevések mellett egy bizonyos esemény valószínősége kicsi, de mi mégis megfigyeljük egy ilyen esemény bekövetkezését, akkor arra a konklúzióra jutunk, hogy a feltevés nem igaz. 9
8.3. A tesztelés elemei 8.3.1. Nullhipotézis 1. H 0 egy állítás a populáció valamilyen paraméter értékéről, miszerint az egyenlő valamilyen feltételezett értékkel. 2. H 0 -t közvetlenül tesztelhetjük. 3. Vagy elutasítjuk a H 0 -t hipotézist, vagy nem tudjuk elutasítani a H 0 hipotézist. 8.3.2. Alternatív hipotézis [H 1 ] 1. H 1 legyen a saját feltételezésünk 2. H 1 egy állítás, ami szerint a paraméter értéke valamilyen módon különbözik H 0 -tól. 3. H 1 szimbolikus kifejezése az alábbi szimbólumokat kell, hogy tartalmazza:, <, >. 8.3.3. Teszt statisztika A teszt statisztika egy olyan számérték, aminek segítségével döntést tudunk hozni H 0 -ról. A minta statisztika értékéből képezzük annak a feltevésével, hogy H 0 igaz. 8.3.4. Teszt statisztika - képletek Arányra: Átlagra: Varianciára: z = p p pq n z = x µ x σ n χ 2 = (n 1)2 s 2 σ 2 8.3.5. Szignifikancia szint [α] Az a valószínűség, amivel a teszt statisztika a kritikus tartományba esik, amikor H 0 valójában igaz. [α ugyanaz, mint z α/2 -ben!] Szokásos választások α-ra: 0.05, 0.01 és 0.1. 8.3.6. Kritikus értékek Elválasztják a kritikus tartományt (ahol elutasítjuk H 0 -t) azoktól az értékektől, ahol nem utasítjuk el. A kritikus értékek függnek H 0 fajtájától, a minta eloszlástól és a szignifikancia szinttől. 10
8.3.7. P -érték A P-érték annak a valószínűsége, hogy a teszt statisztika olyan értéket adjon, ami legalább annyira szélsőséges, mint az az érték, amit a mintánkból kaptunk, azzal a feltevéssel, hogy H 0 igaz. H 0 -t elvetjük, ha a P -érték nagyon kicsi, pl. < 0.05 8.3.8. Eredmény, döntési kritériumok 1. Mindig a H 0 -t teszteljük! 2. Tradicionális módszer: elvetjük H 0 -t, ha a teszt statisztika a kritikus tartományba esik; ha nem esik bele, nem tudjuk elvetni. 3. P -érték módszer: elvetjük H 0 -t, ha ha a P -érték α; nem tudjuk elvetni, ha P -érték > α 8.3.9. I. fajú hiba Akkor következik be, ha hibás módon elutasítjuk H 0 -t, amikor az igaz. Jelölés: α 8.3.10. II. fajú hiba Akkor következik be, ha nem utasítjuk el H 0 -t akkor, amikor az nem igaz. Jelölés: β 8.3.11. Erősség A helytelen H 0 elutasításának valószínűsége. [1 β] 8.4. Az arányra vonatkozó feltevés tesztelése 8.4.1. Feltevések 1. Véletlen egyszerű mintavétel. 2. A binomiális eloszlás feltételei fennállnak. 3. Az np 5 és nq 5 feltételek fennállnak, így a binomiális eloszlást egy olyan normálissal közelíthetjük, aminek a paraméterei µ = np és σ = npq 8.4.2. Az arányra vonatkozó teszt statisztika z = p p pq n 11
8.5. A populáció átlagra vonatkozó feltételezés tesztelése: [σ nem ismert] 8.5.1. Feltételek 1. A minta véletlen egyszerű. 2. Valamelyik, vagy mindkét feltétel igaz: A populáció normális eloszlású, vagy n > 30. 8.5.2. Teszt statisztika t = x µ x s n 8.6. A szórásra és a varianciára vonatkozó feltevések becslése 8.6.1. Feltételek 1. Véletlen egyszerő minta. 2. A populáció normális eloszlású. 8.6.2. Teszt statisztika [A σ 2 H 0 -ban van megadva!] χ 2 = (n 1)s2 σ 2 9. 10. előadás 9.1. Korreláció 9.1.1. Definíció Két változó között korreláció lép fel, ha az egyik a másikkal valamilyen módon kapcsolatban van. 9.1.2. Definíció A lineáris korrelációs együttható [r] méri a lineáris kapcsolat erősségét egy x és y párokból álló minta értékei között. [szórásdiagram!] 9.1.3. Követelmények 1. Az (x, y) párokból álló adatok véletlen független minta adatok. 2. Az adatok [ránézésre] nagyjából egyenest kell, hogy alkossanak. 3. Outleierek hatásának vizsgálata [kiszámoljuk azokkal és anélkül is az r-t] 12
9.1.4. Képlet r = n xy ( x)( y) n( x2 ) ( x) 2 n( y 2 ) ( y) 2 (xi x)(y i y) r xy = (n 1)s x s y 9.1.5. Megmagyarázott variabilitás Az r 2 érték mondja meg, hogy y variabilitásának hányad részét magyarázza az x és y közti lineáris kapcsolat. 9.1.6. Formális hipotézis tesztelés H 0 : ρ = 0 és H 1 0 Teszt statisztika [megegyezik az n 2 d f -ú Student-t statisztikával!] t = r 1 r 2 n 2 9.2. Regressziós egyenes és egyenlete az az egyenes, és az az egyenletet, ami legjobban reprezentálja a változók közti kapcsolatot. A regressziós egyenes illik legjobban az adatokhoz 9.2.1. Feltételek 1. Az adatpárok (x, y) véletlen minta adatok. 2. Vizuális vizsgálattal arra jutunk, hogy a szórásdiagram egy egyeneshez hasonló. 3. Ki kell hagyni azokat az outliereket, amik hibák miatt vannak jelen. 9.2.2. Általános alak y = b 0 + b 1 x 9.2.3. Meredekség, y tengelymetszet [b 1 és b 0 ] b 1 = n( xy) ( x)( y) n( x 2 ) ( x) 2 b 0 = y b 1 x 13
9.2.4. Reziduum A reziduum egy (x, y) adatpár esetén, az (y - yi különbség a megfigyelt y minta érték és a regressziós egyenes által adott y érték között. reziduum = megfigyelt y - prediktált y = y - ym Reziduum diagram felvételekor a szórásdiagram y koordináták helyett az y - ymra kapott koordinátákat használjuk! Ha a reziduális diagram nem mutat semmilyen szabályosságot vagy alakzatot, akkor a regressziós egyenlet jól reprezentálja a két változó közti kapcsolatot. Ha a reziduális diagram valamilyen szabályos mintázatot mutat, akkor a regressziós egyenlet nem jó reprezentáció. 9.3. Variabilitás és predikciós intervallum 9.3.1. Definíció A predikciós intervallum az y értékének egy intervallum becslése. 9.3.2. Definíció A teljes deviancia [eltérés] az (x, y) pont párra vonatkozóan az a függőleges y - y távolság, ami az (x, y) pont és a minta átlagon y keresztül húzott vízszintes vonal között van. [= magyarázott + nem magyarázott deviancia] 9.3.3. Definíció A magyarázott deviancia az a függőleges távolság, ami a becsült y-érték y - y távolsága a minta átlagától. 9.3.4. Definíció Nem magyarázott deviancia = reziduum [!] 9.3.5. A becslés hibájának szórása y2 b 0 y b1 xy s e = n 2 9.3.6. A becslési intervallum egyes y értékekre vonatkozóan ahol E = t α/2 s e x 0 az x megadott értéke. t α/2 -nek n 2 d f -e van. y E < y < y + E 1 + 1 n + n(x 0 x) 2 n( x 2 ) ( x) 2 14
9.4. Többszörös regresszió 9.4.1. Többszörös regressziós egyenlet Lineáris kapcsolat a válasz változó y és a kettő vagy több prediktor változó között (x 1, x 2, x 3,..., x k ) Általános alakja: y = b 0 + b 1 x 1 + b 2 x 2 +... + b k x k 9.4.2. Többszörös determinációs együttható R 2 annak a mérőszáma, hogy mennyire illik a többszörös regressziós egyenlet a mintaadatokhoz. 9.4.3. Korrigált többszörös determinációs együttható az előző R 2 olyan korrekciója, amely figyelembe veszi a változók számát és a minta méretét is. R 2 (n 1) = 1 [n (k + 1)] (1 R2 ) ahol n a minta elemszáma, k pedig a független változók (x) száma. 9.5. Modellezés Aki igényt tart rá, szóljon! [ES10.pdf / 86. oldaltól] [leginkább csak fv.-ek általános alakjai] 10. 11. előadás 10.1. Az első számjegyek, Branford törvénye 10.1.1. Képlet 10.1.2. Kulcsfogalmak P (d) = log 10(1 + 1 d ) log 1 0B Adott, kategóriákba sorolt adatok esetén azt a hipotézist teszteljük, hogy az adatok eloszlása megegyezik valamilyen általunk feltételezett eloszlással. A hipotézis teszt a χ 2 eloszlást használja a megfigyelt gyakoriságok és az általunk várt gyakoriságok összehasonlítására. 15
10.1.3. Definíció - Multinomiális kísérlet az alábbi feltételeknek tesz eleget: 1. A próbálkozások/kísérletek száma előre adott. 2. A próbálkozások/kísérletek függetlenek. 3. A kísérlet minden kimenetele egyértelműen besorolható pontosan egybe a lehetséges kategóriák közül. 4. A kísérletek során a kategóriák valószínűsége nem változik, állandó marad. 10.1.4. Definíció - Illeszkedés vizsgálat Az illeszkedés vizsgálatot annak tesztelésére használjuk, hogy a megfigyelt gyakoriságok illeszkednek a feltételezett gyakoriság eloszláshoz. 11. Megjegyzés Ha az utolsó előadás kell egyáltalán, akkor szóljon valaki, csak most már unom... :) Jó tanulást mindenkinek: Weisz Dávid 16