Intervallumek Matematikai statisztika Gazdaságinformatikus MSc 1. előadás 2018. szeptember 3. 1/53
- Előadó, hely, idő etc. Intervallumek Előadó: Vizer Máté (email: mmvizer@gmail.com) Előadások ideje/helye: H 10.15-13 (10.15-11.45 & 12.00-12.45), QBF11 Fogadóóra: előadás után (előzetes emaillel) Gyak. vez.: Palincza Richárd (email: pricsi@cs.bme.hu) Gyakorlatok ideje/helye: CS 10.15-12, QBF10 2/53
- Tárgykövetelmények A tárgyból szóbeli vizsga lesz a vizsgaidőszakban. A vizsgázás feltétele a gyakorlati aláírás megszerzése, melyet 1 db házifeladat beadásával lehet megszerezni a félév folyamán. A házifeladatokat (előre láthatóan) a november 12-i héten osztjuk ki és a szorgalmi időszak utolsó napjáig (december 7.) lehet beadni. A házifeladat egy komplex elemzés végrehajtása egy adatsoron. A vizsgán az előadáson elhangzottakat kell tudni. Intervallumek 3/53
- Adminisztratív ügyek Intervallumek a tárgy honlapja: http://www.cs.bme.hu/~pricsi/stat.html, ide felkerülnek az előadás slidejai (+ ütemterv, táblázatok etc.) ajánlott irodalom: 1. Ketskeméty - Pintér: Matematikai statisztika jegyzet (http://www.szit.bme.hu/~kela/stat.pdf) 2. Ketskeméty - Izsó - Könyves Tóth: Bevezetés az IBM SPSS Statistics programrendszerbe 3. Bolla - Krámli: következtetések elmélete 4/53
- Valószínűségszámítás átismétlése Első gyakorlaton a főbb fogalmak átismétlése (valószínűségi mező, valószínűségi változó, sűrűség- és eloszlásfüggvény, várható érték (momentumok), függetlenség, nevezetes (diszkrét és folytonos) eloszlások) Vetier András jegyzete http://math.bme.hu/~vetier/051360_ Vetier_Valoszinusegszamitas.pdf Intervallumek 5/53
(Előzetes) áttekintés a - címszavakban Intervallumek Hipotézisvizsgálat (paraméteres/ nem paraméteres) Varianciaanaĺızis Regresszióanaĺızis Faktor- és főkomponensanaĺızis Adatredukció Idősorok Mintavételezés, kérdőívek készítése 6/53
- Mi a statisztika? Intervallumek A statisztika a matematika azon ága, melynek alapfeladata az, hogy a politikus kezébe olyan eszközt adjon, mellyel tetszőleges álĺıtás és annak ellentéte is tudományos alapon igazolható. (ismeretlen forrás) A világ számszerűsíthető tényeinek szisztematikus összegyűjtése és azok elemzése. Feladat, cél: a tapasztalati adatokból az információk kinyerése, statisztikai törvényszerűségek feltárása, következtetések levonása és felhasználása. Modellépítés, paraméter, következtetések, hipotézisek vizsgálata. 7/53
- Példa Intervallumek 8/53
- Sokaság, populáció Intervallumek Sokaság, populáció: A vizsgálat tárgyát képező (általában nagyszámú) egyedek halmaza, amit le szeretnénk írni bizonyos tulajdonságaik alapján. Példa sokaságokra: Magyarország összes lakása Magyaroszág TV nézőinek halmaza Európa összes érvényes forgalmival rendelkező autójának halmaza Egy egyetemi kar hallgatóinak halmaza 9/53
- minta 1. Intervallumek Minta realizáltja: A populáció (általában kis elemszámú) részhalmazára vonatkozó adataink összessége. (ismérv) Eset: 1 elemre vonatkozó adatok. Mintaelemszám: A minta realizáltja hány elemre vonatkozó adatot tartalmaz. Változó: A populáció egy (mérhető) jellemzője. Adatmátrix: n p-es mátrix, amiben az n darab elemre vonatkozó adataink összességét tároljuk. (sorai= esetek, oszlopai= változók) 10/53
- Adatmátrix Intervallumek 11/53
- változók Intervallumek változókra: 1. Magyarország összes lakása: négyzetméter, ár, tégla/panel, komfortfokozat 2. Magyaroszág TV nézőinek halmaza: kor, nem, fizetés, tévézéssel töltött idő etc. Változók lehetnek: mennyiségi = számszerűen mérhető mennyiség minőségi = számszerűen nem mérhető (nem, foglalkozás etc.) 1 névleges = számok kötetlen hozzárendelése (pl férfi=1, nő=2) 2 sorrendi/ordinális = rangsor (pl filmek/fagylaltok etc. között melyik mennyire tetszik) 3 különbségi = önkényes nullpont (pl hőmérséklet etc.) 4 arányskála = valódi nullpont, azaz arány stb számolható (pl hosszúság, jövedelem etc.) 12/53
- adatok ábrázolása Pont-, és vonaldiagram Intervallumek 13/53
- mintavételezés Intervallumek Mi várnánk el? A reprezentatív legyen. Mint a cseppben a tenger. A populáció minden egyes elemének ugyanakkora esélyt kell biztosítani a mintába kerüléshez. A minta elemszámának elég nagynak kell lennie ahhoz, hogy a következtetéseink átvihetők lehessenek a populációra is. Mintavételezési eljárások: cenzus (nincs erőforrás) rétegzett mintavételezés: vannak információink, hogy az egész populációban adott tulajdonság hogy alakul és ezt a mintában is megtartjuk. véletlen kísérlet 14/53
- matematikai modell 1. Intervallumek populáció = Ω tulajdonság = valószínűségi változó X : Ω R p statisztikai minta = X 1,X 2,...,X n teljesen független, X -szel azonos eloszlású valószínűségi változó.!gyakorlati alkalmazásokban n darab szám (p-es), a matematikai modellben n teljesen független valváltozó! Lehetséges cél: például adott lehetséges eloszláscsaládból eldönteni, hogy melyik áll legközelebb a valódi eloszláshoz. 15/53
- matematikai modell 2. Intervallumek Legyen (X, F) egy mérhető tér és legyen P valószínűségi mértékek egy halmaza, ahol P P-re (X, F, P) egy Kolmogorov-féle valószínűségi mező. Az X = (X 1,..., X n ) T statisztikai megfigyelést statisztikai mintának nevezzük, ha X i -k teljesen független azonos eloszlású valószínűségi változók P P-n (X, F, P)-n. Azaz P P-re P(X i < x) = F P (x) (i = 1, 2,..., n), F P (X i1 < x 1,..., X ik < x k ) = Π k i=1f P (x i ). n=minta elemszáma, F P (x)=minta eloszlásfüggvénye, X i az i-edik mintaelem, µ P (A) = P(X i A) A F a minta eloszlása. ω Ω-ra (X 1 (ω),..., X n (ω)) a minta realizáltja. 16/53
- adatcentrum Intervallumek Tegyük fel hogy X : Ω R egy val. változó és X 1, X 2,..., X n egy ebből vett statisztikai minta. Ekkor X = n i=1 X i n a minta átlaga X k = ord k{x 1, X 2,..., X n } a k-adik legkisebb tehát X 1 = min{x 1, X 2,..., X n } és X n = max{x 1, X 2,..., X n } medián = X n+1, ha n páratlan és X n 2 2 + X n 2 +1, ha n páros módusz = mintában leggyakrabban előforduló elem. 17/53
- szórás standard szórás/korrigált empirikus szórás 1 n (X i X ) n 1 2 standard variáció 1 n 1 i=1 n (X i X ) 2 i=1 Intervallumek terjedelem X n X 1 18/53
- egyéb statisztikák 1. ferdeség/skewness 1 n s = ( 1 n n i=1 (X i X ) 3 n i=1 (X i X ) 2 ) 3 Mit mér? Mennyire szimmetrikus az eloszlás. Ha az érték 0(-hoz közeli), akkor (nagyjából) szimmetrikus. Ha pozitív, akkor jobbra, ha negatív, akkor balra tolódik el az eloszlás. Intervallumek (a) s < 0 (b) s > 0 19/53
- egyéb statisztikák 2. lapultság/curtosis 1 n c = ( 1 n n i=1 (X i X ) 4 3 n i=1 (X i X ) 2 ) 4 Mit mér? Csúcsossága hogy viszonyul a normális eloszláséhoz. Ha pozitív, akkor csúcsosabb. Intervallumek (a) c < 0 (b) c > 0 20/53
- matematikai fogalom 1. Legyen t n egy n-változós valós függvény. Akkor a statisztikai minta T n = t n (X 1, X 2,..., X n ) függvényét nevezzük statisztikának. A statisztika egy valószínűségi változó, aminek eloszlásfüggvényét a minta eloszlásfüggvényéből lehet kiszámolni. Intervallumek A T n (ω) = t n (X 1 (ω), X 2 (ω),..., X n (ω)) szám (amikor az argumentumba a mintarealizáció értékeit helyettesítjük), a statisztika számolt értéke. 21/53
1. Empirikus eloszlásfüggvény: 0 ha x X1, k F n (x) := n ha Xk < x X k+1 (k = 1, 2,..., n 1), 1 ha Xn < x. F n (x) = 1 n n I Xi <x, ahol i=1 Intervallumek I Xi <x := { 0 ha x < X i, 1 ha X i x. 22/53
2. Tétel (Glivenko Cantelli) P( lim sup n x R F n (x) F (x) = 0) = 1 Intervallumek Azaz az empirikus eloszlásfüggvény 1 valószínűséggel, egyenletesen konvergál az eloszlásfüggvényhez. 23/53
Tegyük fel, hogy a minta eloszlásfüggvénye képletét egy θ paraméter konkretizálja. Ha ismerjük az értékét, meg tudjuk pontosan adni az eloszlásfüggvényt: F = {F (x, θ) : θ Θ}. Intervallumek 24/53
- példa Intervallumek Példa Egy joghurt zsírtartalmát ellenőrzik. A laborban σ pontossággal meg tudják mérni a zsírtartalmat. A mérés a pontos érték körül a normális eloszlás szerint ingadozik. Ha vesznek egy mintát, akkor a minta eloszlása N(θ, σ)! Példa Egy brókerirodában m ügyfél kötvényeit kezelik. Egy ügyfél θ valószínűséggel kér eladást/vételt az irodától. A napi tranzakciók száma Bin(m, θ) eloszlást követ. 25/53
A θ paramétert egy statisztikával becsüljük. De mit értünk azon, hogy egy paramétert jól becslünk? 1. Torzítatlanság 2. Aszimptotikus torzítatlanság 3. Konzisztencia 4. Erős konzisztencia 5. Hatásosság Intervallumek 26/53
A paraméter e - torzítatlanság 1. Torzítatlanság A T n statisztika a θ paraméter torzítatlan e, ha E(T n ) = θ. A torzítatlanság azt jelenti, hogy a becslő statisztika éppen a becsülendő paraméterérték körül fogja felvenni az értékeit. Intervallumek 27/53
A paraméter e - torzítatlanság 2. Intervallumek 28/53
A paraméter e - aszimptotikus torzítatlanság Torzítatlanság A T n statisztika a θ paraméter aszimptotikusan torzítatlan e, ha lim n E(T n ) = θ. Intervallumek 29/53
A paraméter e - konzisztencia Ha garancia van arra, hogy a minta elemszám növekedtével növekszik a pontosságának valószínűsége, konzisztens ről beszélünk. Konzisztencia A T n statisztika a θ paraméter konzisztens e, ha minden ε > 0 teljesül, hogy lim n P( T n θ > ε) = 0. Intervallumek A statisztika, mint valószínűségi változó sztochasztikusan konvergál a konstans θ-höz. 30/53
A paraméter e - erős konzisztencia Erős konzisztencia A T n statisztika a θ paraméter erősen konzisztens e, ha ET n = θ és lim n σ 2 T n = 0. Erősen konzisztens konzisztens, de visszafelé nem feltétlen igaz. Intervallumek 31/53
A paraméter e - (erős) konzisztencia Intervallumek 32/53
A paraméter e - hatásosság A θ paramétert becslő két torzítatlan közül nyilván a kisebb varianciájú a jobb, hiszen kisebb mértékben ingadozik a paraméter körül. Intervallumek Hatásosság Azaz, a V n statisztika hatásosabb W n -nél, ha 1. EV n = EW n = θ 2. σ 2 V n σ 2 W n Egy torzítatlan hatásos, ha a varianciája minden más torzítatlan nél nem nagyobb. 33/53
A paraméter e - hatásosság Intervallumek 34/53
A paraméter e - példák 1. Intervallumek Legyen a becsülendő paraméter a várható érték, azaz θ = EX. Átlagstatisztika ( 1 n n i=1 X i) torzítatlan e, hiszen E( 1 n n X i ) = 1 n i=1 n E(X i ) = 1 n i=1 n θ = θ. i=1 35/53
A paraméter e - példák 2. Intervallumek Ha még azt is tudjuk, hogy σ 2 X <, akkor az átlagstatisztika erősen konzisztens is, hiszen σ 2 ( 1 n n n i=1 X i ) = σ2 X i i=1 n 2 = σ2 X n 0 Lineáris nek hívunk egy t, ha n i=1 w ix i alakú, ahol n i=1 w i = 1. Lineáris ek között az átlagstatisztika a hatásos, azaz σ 2 ( 1 n n n X i ) σ 2 ( w i X i ) i=1 i=1 36/53
A paraméter e - példák 3. Intervallumek Legyen a becsülendő paraméter X varianciája! Az empirikus szórásnégyzet s n = 1 n n i=1 (X i X ) 2 aszimptotikusan torzítatlan, a korrigált empirikus szórásnégyzet pedig torzítatlan, hiszen Es 2 n = E( 1 n = 1 n n (X i X ) 2 ) = 1 n i=1 n i=1 EX 2 i EX 2 n (θ + m 2 ) ( θ n + m2 ) = n 1 n θ. i=1 37/53
A paraméter e - példák összefoglalása Intervallumek Az átlagstatisztika a minta várható értékének mint paraméternektorzítatlan e. Ha a mintának létezik szórása, akkor ez a erősen konzisztens is. A minta empirikus szórásnégyzete a minta varianciájának mint paraméternek- aszimptotikusan torzítatlan e. (Ha a mintának létezik negyedik momentuma, akkor a konzisztens is.) A minta korrigált empirikus szórásnégyzet statisztika a minta varianciájának torzítatlan e. (Ha a minta negyedik momentuma létezik, akkor erősen konzisztens e.) 38/53
matematikai alapok - alapgondolat Intervallumek A módszer alapgondolatai a következők: 1. A mintánk eloszlásfüggvénye a θ paramétertől függ. 2. Ha egy kísérletnél több esemény is bekövetkezhet, legtöbbször a legnagyobb valószínűségű eseményt fogjuk megfigyelni. 3. A sokaságra vett mintavételezés során kaptunk egy realizációt. Feltételezzük, hogy azért éppen ezt a realizációt kaptuk, és nem mást, mert az összes realizációk közül ennek volt a legnagyobb a bekövetkezési valószínűsége. 4. Vegyük tehát, az összes lehetséges θ paraméter közül azt, amelynél éppen kapott realizáció bekövetkezése a maximális. 39/53
ML matematikai alapok - diszkrét eset. Intervallumek Legyen adott P valószínűségi mértékek egy tere és az X 1,..., X n diszkrét eloszlású statisztikai minta E R értékkészlettel minden P θ P-re.Jelölje L(θ, x) = P θ (X 1 = x 1,..., X n = x n ) = Π n i=1p θ (X i = x i ) minta együttes eloszlását. Az eloszlás maximum likelihood én azt a τ n (X 1,..., X n ) statisztikát értjük, amire igaz, hogy L(x, τ n (x)) = max θ R +L(x, θ). 40/53
ML példák 1. - Poisson eloszlás 1. Intervallumek p θ,i = θi i! e θ i = 0, 1, 2,... A likelihood függvény (x = (x 1,..., x n )): A loglikelihood függvénye: n i=1 x i L(x, θ) = Π n θ x i i=1 x i! e θ = θ Π n i=1 x i! e nθ l(x, θ) = ln θ n x i nθ ln(π n i=1x i! ) i=1 41/53
ML példák 1. - Poisson eloszlás 2. A maximumhelyek megkeresése deriválással: dl(x, θ) dθ = 1 θ n x i n = 0 θ = 1 n i=1 n x i = X i=1 Mivel Intervallumek ezért maximumhely. d 2 l(x, θ) d 2 θ = 1 n θ 2 x i < 0, i=1 42/53
ML - folytonos eset Intervallumek Legyen adott P valószínűségi mértékek egy tere és az X 1,..., X n statisztikai minta, amelyek eloszlásfüggvénye abszolút folytonos minden P θ P-re. Jelölje L(θ, x) = Π n i=1f θ (x i ) minta együttes sűrűségfüggvényét.a θ paraméter maximum likelihood én azt a τ n (X 1,..., X n ) statisztikát értjük, amire igaz, hogy L(x, τ n (x)) = max θ R +L(x, θ) teljesül x R n. 43/53
ML - normális eloszlás, ismert szórás esetén Sűrűségfüggvénye: Intervallumek f θ (x) = függvénye: Loglikelihood függvénye: 1 e 1 2σ 2 (x θ) 2 0 2πσ0 1 L(x, θ) = ( ) n e 1 2πσ0 2σ 2 0 1 l(x, θ) = n ln( ) 1 2πσ0 2σ 2 0 n i=1 (x i θ) 2 n (x i θ) 2 i=1 44/53
ML - normális eloszlás, ismert szórás esetén Intervallumek Mivel dl(x, θ) dθ ezért maximumhely. = 1 σ 2 0 n (x i θ) = 0 θ = X i=1 d 2 l(x, θ) d 2 θ = n σ 2 0 < 0, 45/53
1. Tegyük fel, hogy az eloszlásuk k darab paramétertől (θ 1,..., θ k ) függ és legyen m j = EX j Intervallumek Tegyük fel, hogy létezik g j (m 1,..., m k ) = θ j Ekkor tekintsük az m j = 1 n n i=1 X j i empirikus momentum statisztikákat. Ekkor a θ j = g j (m 1,..., m k ) a paraméterek momentumos ei. 46/53
2. - normális eloszlás e m = g 1 (m 1, m 2 ) = m 1, σ 2 = g 2 (m 1, m 2 ) = m 2 m 2 1 Intervallumek m 1 = 1 n n X i és m 2 = 1 n i=1 σ 2 = g 2 (m 1, m 2 ) = 1 n n i=1 X 2 i ( 1 n n i=1 X 2 i n X i ) 2 = sn 2 i=1 47/53
Intervallumek 1. Intervallumek A korábbi szakaszokban az ismeretlen paramétervektort a minta egy függvényével, azaz egyetlen statisztikával próbáltuk meg közeĺıteni. Konkrét realizációnál tehát, a paramétertér egy pontját egy másik ponttal becsüljük. Ezért beszélünk pontről. De tudjuk azt is, hogy folytonos eloszlásoknál, annak valószínűsége, hogy a valószínűségi változó az értékkészletének éppen egy tetszőlegesen kiválasztott pontját fogja felvenni, nulla. Tehát folytonos esetben nulla annak valószínűsége, hogy éppen a paramétert találtuk el a sel. Az intervallumeknél a mintából készített tartományokat definiálunk, amely tartományok nagy valószínűséggel lefedik a kérdéses paraméterpontot 48/53
Intervallumek 1. Intervallumek (a) Pont (b) Intervallum 49/53
Intervallumek 1. Legyen adott P valószínűségi mértékek egy tere és az X 1,..., X n statisztikai minta és ε rögzített. Azt mondjuk, hogy a θ paraméter éhez megadtunk egy 1 ε szignifikanciaszintű konfidenciaintervallumot,ha t 1 (X 1,..., X n ) és t 2 (X 1,..., X n ) olyan statisztikák, hogy minden P θ P-re fennáll, hogy P(t 1 (X 1,..., X n ) θ t 2 (X 1,..., X n )) 1 ε Intervallumek 50/53
Intervallumek - normális eloszlás várható értékre, ismert szórás esetén Intervallumek f θ (x) = 1 e 1 2σ 2 (x θ) 2 0 2πσ0 Tudjuk, hogy u = X σ n θ 0 n N(0, 1), tehát a sűrűségfüggvénye Legyen u ε olyan, hogy φ(t) = 1 2π e x2 2 uε u ε φ(t) 1 ε 51/53
Intervallumek - normális eloszlás várható értékre, ismert szórás esetén Átrendezve kapjuk, hogy P(X u εσ 0 n m X + u εσ 0 n ) 1 ε Intervallumek Tehát T 1 = X u εσ 0 n és T 2 = X n + u εσ 0 n. 52/53
Folyt. köv. Intervallumek 53/53