A Statisztika alapjai BME A3c Magyar Róbert 2016.05.12.
Mi az a Statisztika? A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány. Gyakran hívják statisztikának a statisztika módszereit és a statisztikai tevékenység eredményeként keletkező adatokat is. Matematikai értelemben: egy minta elemeinek (ismeretlen paramétert nem tartalmazó) függvénye. Mondás: "amíg a valószínűségszámítás megtanít valószínűségekkel számolni, addig a statisztika megtanít valószínűséget mérni".
A statisztika eredete és története Eredetileg államháztartástant jelentett, vagyis azon módszerek gyűjteményét és elméletét, amelyek segítségével az újkorban kialakuló modern államok számon tarthatták erőforrásaikat és a társadalmi problémákat (népesség, termelés, betegségek stb.) Eredete: statisticum collegium ( államtanács ) és az olasz statista ( államférfi, politikus) kifejezésekből származtatják. A szó mai értelmét ( az adatgyűjtés és adatfeldolgozás általános tudománya ) csak a tizenkilencedik század elején nyerte el.
A statisztika alapfogalmai Vizsgálat tárgya: Rendszer (Populáció) A Rendszer Objektumokból (Egyedekből) áll Például: emberek, társadalmak, folyók, biotópok, oldatok, spektrumok Az Objektumoknak tulajdonságai vannak Például: az emberek testméretei, a társadalmak lakosságszáma, nemzeti jövedelme, a folyók vízhozama adott időben, helyen, oldatok koncentrációi Sokaság: A rendszert alkotó objektumoknak számos tulajdonsága van, ezek összességét hívjuk (adat) sokaságnak Minta: Általában csak arra van módunk, hogy a rendszer egy részletét, vagy egy bizonyos állapotát figyeljük meg, azaz annak leíró adataiból mintát vegyünk. Mondás: a sokaság az összes elképzelhető minta összessége
I. Példa Egy ország választó polgárai (rendszer) között szeretnénk egy párt szimpátiáját felmérni (következtetni a sokaságra). Ehhez egy n elemű mintát veszünk. Kérdés: Legalább hány embert kell megkérdeznünk, hogy 90% pontossággal tudjuk megbecsülni a párt preferenciáját, 0,05 hibahatáron belül?
I. Példa X: a pártot támogatók száma n: a megkérdezettek száma, a minta elemszáma p: a párt valódi támogatottsága (hány százaléka a választóknak támogatja valójában a pártot) A Nagy Számok (Bernoulli) törvénye értelmében: P X p 1 p p < 0,05 1 n n 0,05 2 1 0,25 n 0,05 2 90 = 1 0,25 100 n 0,05 2 n = 1000 Megjegyzés: Független a lakosság számától!
A Minta tulajdonságai A minta vizsgálatának eredményéből következtetünk a sokaságra, a minta vétele tehát az eredmények értéke szempontjából elsőrendűen fontos. A minta legyen: reprezentatív, összetételében képviselje helyesen a sokaságot, amelyből vették, véletlen, a mintaelemek kerüljenek egymástól függetlenül, egyenlő valószínűséggel a mintába, elégséges méretű, elegendően nagy ahhoz, hogy a minta alapján levont következtetések kellően valószínűek legyenek.
A statisztika részterületei Leíró Statisztika Leíró Statisztika Célja egy már rendelkezésre álló, valóságra vonatkozó adathalmaz összefoglalása, elemzése, egyszóval az információtömörítés Sokaság leírása egy ismérv alapján: kvantilis értékek: k számú osztályközt akarunk képezni, akkor ehhez k 1 darab osztópontra van szükségünk. Ezeket az osztópontokat k-ad rendű kvantiliseknek nevezzük. helyzetmutatók (középértékek): medián, módusz, átlag szóródási mutatók: terjedelem, szórás, relatív szórás koncentráció elemzése: Lorenz-görbe, Herfindahl-index
A statisztika részterületei Következtető (Matematikai) Statisztika Következtető (Matematikai) Statisztika Célja a megfelelő vagyis a sokaság egészének paramétereit legjobban tükröző, reprezentáló minta kiválasztása, a sokasági paramétereknek a minta paramétereivel történő becslése, illetve a sokasági paraméterekre vonatkozó feltételezések, hipotézisek elfogadása vagy elvetése. Foglalkozik továbbá a valóság összefüggéseinek egyszerűsített megragadására törekvő modellekkel is, mint az idősor- és regressziós modellek. Főbb részterületei tehát a következők: mintavétel becsléselmélet hipotézisvizsgálat idősorelemzés korreláció- és regressziószámítás
A Statisztika valószínűségelméleti fogalma Valószínűségi értelemben az n-elemű minta egymástól teljesen független valószínűségi változókat jelent, melyek eloszlása megegyezik a sokaság eloszlásával. Ha ξ 1, ξ 2,, ξ n n-elemű minta, akkor ξ 1, ξ 2,, ξ n valószínűségi változók bármely függvényét statisztikának nevezzük.
Példák Statisztikára F ξ 1, ξ 2,, ξ n = ξ 1+ξ 2 + +ξ n n = x n Ezt a statisztikát tapasztalati átlagnak hívjuk. Rendezett minta: a minta elemeit növekvő sorrendbe állítjuk. Jelölése: F ξ 1, ξ 2,, ξ n = ξ 1,, ξ n Rendezett mintából példa: Y = ξ 1 +ξ n 2
Példák Statisztikára ξ i x n 2 F ξ 1, ξ 2,, ξ n = s 2 n n = i=1 n Ezt a statisztikát tapasztalati szórásnégyzetnek hívjuk. F ξ 1, ξ 2,, ξ n = s n = n n n 1 s n 2 = i=1 ξ i x n 2 Ezt a statisztikát korrigált tapasztalati szórásnak hívjuk. n 1
Egy konkrét példa ξ = egy adott évfolyam hallgatójának matek jegye Vegyünk egy 8 elemű mintát: ξ 1, ξ 2,, ξ 8 A minta egy realizációja: (2,1,4,5,4,4,2,4,) rendezett minta: ξ 1,, ξ 8 = (1,2,2,4,4,4,4,5) mintaátlag: x n = 26 8 = 3,25 szórásnégyzet: s 2 8 ξ n = i 3,25 2 i=1 8 = 1,6875 korrigált szórás: s n = 8 1,6875 = 1,48461 7
Paraméter becslés ξ i statisztikai sokaság, egy évfolyam hallgatóinak matek jegyei Szeretnénk becslést adni ennek várhatóértékére, más szóval az évfolyam átlagra Megj.: Pontos értéket tudnánk mondani, ha az évfolyam összes hallgatójának jegyét ismernénk, de a legtöbb esetben nem áll rendelkezésünkre az összes adat, csak egy n elemű minta, amit a becsléshez használhatunk Állítás: a mintaátlag jó becslése a várhatóértéknek Kérdés: Mit jelent az, hogy jó becslés?
Torzítatlan becslés Egy ξ valószínűségi változónak legyen θ egy paramétere. Például a várható értéke ξ 1, ξ 2,, ξ n n-elemű minta Valószínűségi változók bármilyen függvénye tekinthető valószínűségi változónak, így: X n = F ξ 1, ξ 2,, ξ n statisztika, maga is tekinthető valószínűségi változónak. Paraméter becsléseket F statisztikák segítségével végzünk Azt mondjuk, hogy F ξ 1, ξ 2,, ξ n statisztka torzítatlan becslése θ-nek, ha: M F ξ 1, ξ 2,, ξ n = M X n = θ
Példa Torzítatlan becslésre Egy ξ valószínűségi változónak legyen m a várhatóértéke: ξ 1, ξ 2,, ξ n n-elemű minta. Állítás: x n torzítatlan becslése m-nek, azaz: M x n = m Bizonyítás: M ξ 1+ξ 2 + +ξ n n = 1 n M ξ 1 + + M ξ n = 1 n n M ξ 1 = M ξ 1 = M ξ = m Megj.: ξ 1, ξ 2,, ξ n független, azonos eloszlású valószínűségi változók, várható értékük ezért megegyezik
Szórás torzítatlan becslése Definíció: F ξ 1, ξ 2,, ξ n statisztka aszimtotikusan torzítatlan becslése θ-nek, ha: lim M F ξ 1, ξ 2,, ξ n = θ n Egy ξ valószínűségi változónak legyen σ 2 a szórásnégyzete ξ 1, ξ 2,, ξ n n-elemű minta. Állítás bizonyítás nélkül: s n 2 aszimptotikusan torzítatlan becslése σ 2 -nek, azaz: lim n M s n 2 = σ 2 Állítás bizonyítás nélkül: s n torzítatlan becslése σ-nak, azaz: M s n = σ
Torzítatlan becslések hatásossága Ha F 1 és F 2 ugyanazon mintán értelmezett statisztikák és mindkettő torzítatlan becslése a θ paraméternek, akkor azt mondjuk, hogy F 1 hatásosabb F 2 -nél, ha: D 2 (F 1 ) < D 2 (F 2 ) Ha λ 1 + λ 2 + + λ n = 1, akkor az F ξ 1, ξ 2,, ξ n = λ 1 ξ 1 + λ 2 ξ 2 + + λ n ξ n statisztikák mindegyike torzítatlan becslése a várható értéknek, közülük a tapasztalati átlag a leghatásosabb! Ennek bizonyítása elhangzott előadáson, a levezetés megtalálható a Petz Lángné Matematika III. jegyzetben
Centrális Határeloszlás-Tétel ξ 1, ξ 2,, ξ n n-elemű minta M(ξ i ) = m D(ξ i ) = σ Tétel: ha n P a < x n m n σ < b Φ b Φ a, A tétel szerint a tapasztalati várható érték (mint valószínűségi változó), nagy mintaméret esetén megközelítőleg normális eloszlású m várhatóértékkel és σ n szórással, függetlenül attól, hogy ξ i milyen eloszlású
Intervallum becslés Normális eloszlásra Adott egy Normális eloszlású statisztikai sokaság ξ 1, ξ 2,, ξ n n-elemű minta M(ξ i ) = m ISMERETLEN D(ξ i ) = σ ADOTT Szeretnénk egy olyan intervallumot meghatározni, hogy az ismeretlen m érték 95%-os valószínűséggel beleessen, vagyis egy olyan c számot, melyre: P x n m < c = 0,95
Konfidencia intervallum Standardizálunk, hogy Standard Normális eloszlásfüggvényt tudjunk használni: P x n m < c = 0,95 P c n σ < x n m n σ < c n σ = 0,95 Φ c σ n Φ c n c n = 2 Φ σ σ Φ c n = 0,975 = Φ 1,96 σ 1,96 σ c = n 1 = 0,95 Vagyis az ismeretlen m paraméter 95%-os megbízhatósági szinten a x n 1,96 σ, x n n + 1,96 σ konfidencia (megbízhatósági) intervallumba esik. n
Elköszönő Dia