Segédayag a Leíró és matematikai statisztika tatárgyhoz 06 március Közgazdasági értelembe a statisztika a valóság tömör, számszer jellemzésére szolgáló tudomáyos módszerta, illetve gyakorlati tevékeység A statisztika ágai: Leíró statisztika: magába foglalja az iformációk összegy jtését, összegzését, tömör, számszer jellemzését szolgáló módszereket Matematikai statisztika: matematikai tudomáy, a valószí ségi változókkal jellemezhet jeleségek leíró adataiak feldolgozásáról, értelmezésér l és felhaszálásáról szóló tudomáyos módszerta Statisztikai következtetés: a valóságba a teljes sokaságot em tudjuk vagy akarjuk meggyeli, ezért csak az egyedek egy sz kebb csoportját gyeljük meg A viszoylag kisszámú egyedre voatkozó iformációk alapjá szereték a teljes sokaság egészére, egyes jellemz ire, tulajdoságaira érvéyes következtetéseket kimodai Statisztikai egység: a statisztikai vizsgálat tárgyát képez egyed Mide statisztikai egységek tárgyi, területi és id beli szempotból egyarát egyértelm e körülhatárolhatóak kell leie Statisztikai sokaság: a meggyelés tárgyát képez egyedek összessége, halmaza Rövide sokaságak hívjuk A sokaság egysége: a sokaság egy eleme A sokaságok csoportosítása: ) A sokaság egységeiek megkülöböztethet sége szerit diszkrét: a sokaság egységei elkülöülek egymástól (pl taulók a terembe) folytoos: a sokaság egységeit em tudjuk természetes módo elkülöítei (pl bauxittermelés) ) A sokaság id potra vagy id tartamra értelmezhet -e: álló: csak egy adott id potra értelmezhet mozgó: csak egy adott id tartamra értelmezhet 3) A sokaság számossága szerit: véges (a gyakorlatba általába ilyeekkel foglalkozuk) végtele Statisztikai ismérv (röv: ismérv): a sokaság egyedeit jellemz tulajdoság Az ismérvek típusai I mi ségi ismérv: az egyedek számszer e em mérhet tulajdosága meyiségi ismérv: az egyedek számszer e mérhet tulajdosága Két fajtájukat külöböztetjük meg: diszkrét: véges vagy megszámlálhatóa sok értéket vehet fel folytoos: egy adott itervallumo belül kotiuum számosságú értéket felvehet id beli ismérv: az egységek id beli elhelyezésére szolgáló redez elvek területi ismérv: az egységek térbeli elhelyezésére szolgáló redez elvek Az ismérvek típusai II közös ismérvek: tulajdoságok, amik szerit a sok egyedei egyformák megkülöböztet ismérv: azok a tulajdoságok, amik szerit a sokaság egyedei külöbözek egymástól Legye a sokaság: szobába lév hallgatók Példák ismérvekre: mi ségi: szemszí, em közös: orrok száma diszkrét meyiségi: testvérek száma megkülöböztet : testsúly folytoos meyiségi: testmagasság id beli: születési id területi: születési hely Ismérvváltozatok: az ismérvek lehetséges kimeetelei Például ha az ismérv a hallgatók eme, akkor az ismérvváltozatok: ú, láy Ugya természetes valójukba csak a meyiségi ismérv változatai kokrét számok, de a többi ismérvfajta lehetséges értékeit is számérték vé lehet alakítai Például a emekél a úkhoz redeljük hozzá az -et, a láyokhoz pedig a 0-t Ilyekor viszot ezekkel a számokkal a hagyomáyos számtai m veletekek em feltétle lesz értelme Matematikai szempotból az ismérv függvéykét fogható fel, amely valamilye értékeket redel a sokaság egyedeihez Ekkor az ismérvváltozatok halmaza az ismérv függvéy értékkészlete Mérési szitek: Névleges (omiális) mérési skála: a számok csak ú kódszámok, amik a sokaság egyedeiek azoosítására szolgálak Ezek között matematikai relációkat és m veleteket ics értelme végezi Pl a hallgatók eme Sorredi (ordiális) skála: a sokaság egyedeiek valamely tulajdoság alapjá sorba való redezése Pl a hallgatók jegyei egy tárgyból Itervallumskála: a skálaértékek külöbségei is valós iformációt adak a sokaság egyedeir l A skálá a ullpot meghatározása ökéyes Ilye skálákhoz mértékegység is tartozik Pl h mérséklet
Aráyskála: a skáláak va valódi ullpotja is Mide matematikai m velet elvégezhet ezekkel a számokkal Pl a hallgatók magassága Tipikusa a mi ségi ismérvek mérési szitje omiális, esetleg sorredi skála; a meyiségi ismérvek mérési szitje külöbségi vagy aráyskála; a területi ismérvek mérési szitje omiális skála; az id beli ismérveké pedig külöbségi skála Néha az itervallum- vagy aráyskálá mérhet tulajdoságokat metrikus ismérv ekek evezik Statisztikai adat: valamely sokaság elemeiek száma vagy a sokaság valamilye másféle számszer jellemz je, mérési eredméy A statisztikai adatok fajtái: Alapadatok: közvetleül a sokaságból származak (méréssel, megszámlálással) Leszármaztatott adatok: alapadatokból m veletek eredméyekét adódak (pl átlagolással, osztással) A statisztikai adatok em midig potosak: a téyleges és a mért adat közti külöbség eltérhet ullától Jelölje A a téyleges adatot, míg  a mért adatot Ekkor a := A  érték mutatja az abszolút hibát, ami a téyleges adat hiáyába a gyakorlatba általába ismeretle Így aztá a se lesz ismert, de redszerit tuduk adi rá egy fels becslést, jelölje ezt â, és hívjuk abszolút hibakorlátak! Ekkor A  = a â egyel tleséget átredezve kapjuk, hogy  â A  + â, azaz a téyleges A érték bee va az  ± â itervallumba Ha az adatokat bizoyos agyságredre közelítve adják meg, akkor az abszolút hibakorlát a következ képp számítható: â = 0m Itt m jelöli a agyságredet, például ha az adatok ezerbe foritba állak redelkezésükre, akkor m = 3 a Relatív hiba: A, ami megit ismeretle; becslését relatív hibakorlátak hívjuk: Általába százalékba szoktuk megadi ââ Statisztikai sor tágabb értelembe: a sokaság egyes jellemz iek felsorolása A statisztikai sorok fajtái: Csoportosító sor: a sokaság egy megkülöböztet ismérv szeriti osztályozásáak eredméye; az adatok összegezhet k (va 'Összese' sor) Összehasolító sor: a sokaság egy részéek a sokaságot egy megkülöböztet ismérv szeriti osztályozásáak eredméye; az adatok em összegezhet k Leíró sor: külöböz fajta, gyakra eltér mértékegység statisztikai adatokat tartalmaz Az ismérvek fajtája szerit beszélhetük mi ségi, meyiségi, id beli és területi sorokról Például ha egy statisztikai sor tartalmazza az osztályterembe a hallgatókat emek szerit, akkor ez mi ségi csoportosító sor Statisztikai tábla tágabb értelembe: a statisztikai sorok összefügg redszere A tábla dimeziószáma az a szám, ameyi statisztikai sorhoz egy-egy táblabeli adat tartozik Általába, maximum 3 dimeziós táblákkal dolgozuk, eél magasabb dimeziósat már ehéz áttekitei A statisztikai táblák fajtái: Egyszer tábla: ics bee csoportosító (összegz ) sor Csoportosító tábla: egyetle csoportosító sort tartalmaz Kombiációs vagy kotigeciatábla: legalább két csoportosító sort tartalmaz A statisztikai elemzések egyik legfotosabb eszközei a viszoyszámok viszoyszám két statisztikai adat háyadosa Jelölések: V = A B, ahol V : viszoyszám; A: a viszoyítás tárgya; B: a viszoyítás alapja A viszoyszámok fajtái: Megoszlási: a sokaság egy részét a sokaság egészéhez viszoyítjuk Koordiációs: a sokaság egy részéek a sokaság egy másik részéhez való viszoyítása Diamikus: két id pot vagy id szak adatáak háyadosa Itezitási: külöböz fajta adatok viszoyítása egymáshoz; gyakra a mértékegységük is eltér Ha egy teljes sokaságra és aak m részére redelkezésre áll a viszoyszám alapja és részei, akkor a viszoyszámokat ki tudjuk számoli a teljes sokaságra (jel V, ezt összetett viszoyszámak hívják) és aak részeire is (jel V,, V m ) Ekkor a teljes sokaságra számolt viszoyszám kiszámítási lehet ségei: m m m A i B i V i A i V = = m B i m B i }{{} súlyozott számtai átlag = m A i V i }{{} súlyozott harmoikus átlag A
A leíró statisztikai szakirodalomba az i idexeket pogyola módo le szokták hagyi: A BV A V = = = B B A V Id sorok elemzése (alapok) Id sorok fajtái: állapotid sor: a bee lév adatok egy-egy adott id potra voatkozak (pl egy cég raktárkészlete adott apoko); tartamid sor: a bee lév adatok id szakra voatkozak (pl egy cég havi yereségei) Véges id sor: Y,, Y, ahol Y i -k valószí ségi változók Ezek realizációját, kokrét értékeit jelöljük y,, y -el Az id sor meggyelt értékeib l számíthatuk diamikus viszoyszámokat A di viszoyszámok fajtái: Bázisviszoyszámok: b t = yt y b, ahol t =,, ; b x, eve: bázisid szak; Lácviszoyszámok: l t = yt y t, ahol t =,, Állítás A bázisviszoyszámok id sorából ki lehet számítai a lácviszoyszámok id sorát és fordítva: lácból bázis: b t = l l 3 l t (t =,, ); bázisból lác: l t = bt b t (t =,, ) Az id sor átlagos értékéek kiszámítása: y t t= tartamid sor eseté sima számtai átlaggal: y = y + y t+ yt t= állapotid sor eseté kroologikus átlaggal: y k = Az id sor átlagos változásáak vizsgálata: a fejl dés átlagos mértéke: d = y y a fejl dés átlagos üteme: l = y y Meyiségi sorok elemzése Meyiségi sor készítése: Ha a meyiségi ismérv diszkrét és viszoylag kevés ismérvérték va, akkor mide ismérvértéket felsoroluk Ha a meyiségi ismérv folytoos vagy sok ismérvérték va, akkor osztályközös gyakorisági sor t készítük Jelölje a sokaság elemszámát Az osztályközök meghatározása em egyértelm, gyakra választják az osztályok számáak a k = mi{k : k > } értéket Ha azoos hosszúságú (h) osztályközöket akaruk létrehozi, akkor h = xmax x mi k Stadard jelölések osztályközös gyakoriságú meyiségi sorokál: x i,a : az i osztályköz alsó határa; x i,f : az i osztályköz fels határa; x i : az i osztályközép, azaz x i = x i,a+x i,f ; f i : gyakoriság az i osztályközbe; f i : kumulált gyakoriság az i osztályközbe, azaz f i = i f i ; k= g i : relatív gyakoriság az i osztályközbe, azaz g i = f i f ; i g i : kumulált relatív gyakoriság az i osztályközbe; s i : az i osztályköz értékösszege: z i = x i f i ; s i az i osztályköz kumulált értékösszege z i : az i osztályköz relatív értékösszege: z i = s i s ; i z i az i osztályköz kumulált relatív értékösszege Kocetráció: a sokasághoz tartozó teljes értékösszeg jelet s része a sokaság kevés egységére összpotosul Legye a sokaság elem, a miket érdekl ismérv szerit a külöböz ismérvértékek x,, x k, ezek gyakoriságai pedig legyeek f j -k ( f j = ) j k k Gii-együttható: G = ( ) f i f j x i x j j= Lorez-görbe: a kocetráció mértékét szemléltet ábra A vízszites tegelye a g i kumulált relatív gyakoriságok, a függ leges tegelye a z i kumulált relatív értékösszegek szerepelek, 0-t l 00%-ig Behúzzuk a 45 fokos egyeest Végül megrajzoljuk a (0, 0), (g, z ), (g, z ),, (g k, z k ), (, ) potok összekötésével kapott töröttvoalat Kocetrációs területek hívjuk a töröttvoal és az átló által közbezárt területet Er s a kocetráció, ha a töröttvoal közel va a égyzet oldalaihoz Gyege a kocetráció, ha a töröttvoal közel va az átlóhoz A kocetráció mutatószámai: Kocetrációs együttható: L = G x i i 3
Ez em más, mit a kocetrációs terület -szerese Értéke 0 és között va Miél agyobb, aál er sebb a kocetráció Herdahl-idex : HI = k Értéke k Idex vagy idexszám: zi és közötti; miél agyobb, aál er sebb a kocetráció Érték-, ár- és volumeidexek közvetleül em összesíthet, de gazdaságilag összetartozó adatok átlagos változását mutató összetett viszoyszám Tegyük fel, hogy m külöböz terméket értékesítük két külöböz id szakba, és az értékesítés árbevételét szereték elemezi Jelölések: q 0,j : a j termékb l eladott meyiség a bázisid szakba q,j : a j termékb l eladott meyiség a tárgyid szakba p 0,j (p,j ): az j termék egységára a bázis- (tárgy)id szakba v 0,j : a j termék értékesítéséb l származó árbevétel (tágabb értelembe termelési érték) a bázisid szakba, számítása: v 0,j = q 0,j p 0,j v,j : a j termék értékesítéséb l származó árbevétel a tárgyid szakba, számítása: v,j = q,j p,j Egyedi idexek: (mostatól a j idexeket lehagyjuk) Egyedi volumeidexek: i q,j = q,j q 0,j i q = q q 0 Egyedi áridexek: i p,j = p,j p 0,j i p = p p 0 Egyedi értékidexek: i v,j = v,j v 0,j = q,j p,j p,j p 0,j i v = v v 0 = q p q 0 p 0 Összetett idexek: = i p i q Bázisid szaki Tárgyid szaki Idex fajtája súlyozású vagy súlyozású vagy Fisher-féle Laspeyres-féle Paasche-féle - Áridexek: Ip 0 = q0 p q0 p 0 Ip = q p q p 0 Ip F = Ip 0 Ip - Volumeidexek: Iq 0 = q p 0 q0 p 0 Iq = q p q0 p Iq F =, - Értékidex: I v = q p q0 p 0 Néháy összefüggés: I v = Iq 0 Ip = Iq Ip 0 = I 0 p = q0 p 0 i p q0 p 0 = q0 p q0 p ip q0 p 0 i v q0 p 0 = q p q p iv I 0 q I q Iq q0 p = i q q0 p = q p q p iq A tárgyi és bázis súlyozású összetett idexek közti kapcsolatot számszer síti a Bortkiewicz-összefüggés: Ip = I q Ip 0 Iq 0 = + V ip V iq R(i p, i q ) = + q0 p 0 (i q I 0 q )(ip I0 P ) q0 p 0 I 0 pi 0 q Az idexek képleteibe lév osztások helyett külöbségeket is lehet képezi, ekkor az I és i helyett K-t és k-t íruk Például K 0 p = q 0 p q 0 p 0 q(z) = q z = if{x : F (x) z}, és ameyibe F ivertálható, akkor q z = F (z)-re egyszer södik (0 < z < ) Fotos speciális kvatilisek: kvartilisek: Q := q alsó kvartilis 4 Q = Me := q mediá (középs mitaelem) Q 3 := q 3 fels kvartilis 4 Deíció Módusz: abszolút folytoos eloszlás eseté a s r ségfüggvéy Deíció z-kvatilis: maximumhelye(i), diszkrét eloszlás eseté pedig az eloszlás maximumhelye(i) Tehát Mo= argmax f(x), ha X abszolút folytoos; x R Mo= argmax P (X = x i ), ha X diszkrét x,x, Nem biztos, hogy létezik, és ha létezik, akkor se biztos, hogy egyértelm Deíció Ferdeség (skewess): skew(x) = E(X EX)3 (DX) 3 Értelmezése: a a skew(x)=0 az eloszlás szimmetrikus skew(x)>0 az eloszlás balra ferdült skew(x)<0 az eloszlás jobbra ferdült Deíció Csúcsosság (kurtosis): kurt(x) = E(X EX)4 3 (DX) 4 Értelmezés: V V V kurt(x)=0 az eloszlás csúcsossága a stadard ormáliséval megegyez kurt(x)<0 az eloszlás laposabb a st orm-ál kurt(x)>0 az eloszlás csúcsosabb a st orm-ál Mita: X,, X valószí ségi változó sorozat, jel X = (X,, X ) T A továbbiakba feltesszük, hogy függetleek és azoos eloszlásúak ezt rövide iid mitáak hívjuk (idepedet, idetically distributed) Az elméleti értékeket agy, a kokrét, realizált mitából számolt értékeket midig kis bet fogja jelöli, azaz mita eseté x,, x 4
Statisztika: a mita valamely függvéye: T : X Becslés: a mita eloszlásáak ismeretle paraméterét közelíti a mita segítségével Megj: Mide becslés statisztika Néháy léyeges statisztika: Redezett mita: X X em csökke sorredbe tesszük a mitaelemeket Terjedelem: R = X X (R=rage) X i Mitaátlag: X = (X i X) Tapasztalati szórás: S = Értelmezése: az átlagtól való átlagos eltérés abszolút mértékegységbe Korrigált tapasztalati szórás: S (X i X) = Szórási együttható: V = S X Értelmezése: az átlagtól való átlagos eltérés százalékba Megj: relatív szórásak is hívják I(X i <x) Tapasztalati eloszlásfüggvéy: F (x) = { ha X i < x ahol I(X i < x) = karakterisztikus függvéy 0 ha X i x Tapasztalati z-kvatilis: Realizált mitából sokféleképpe számolható, iterpolációs módszer: ) Sorszám megállapítása: ( + )z = e + t (e: egészrész, t: törtrész) ) q z = x e + t(x e+ x e) Értelmezése: a mitaelemek z-ed része legfeljebb a q z értéket veszi fel, ( z)-ed része pedig legalább q z Osztályközös gyakorisági sorba redelkezésre álló mita eseté a következ becsést lehet haszáli: keressük meg kumulálással azt az osztályközt, ahol a q z va, sorszám: ( + )z Jelölje j az osztályköz számát Ezutá q z = x j,a + z (+) f j f j h j x j,a : a kvatilist tartalmazó osztályköz alsó értéke; h j : a kvatilist tartalmazó osztályköz hossza; f j : a kvatilist közvetleül megel z osztályköz osztályköz kumulált gyakorisága f j : a kvatilist tartalmazó osztályköz gyakorisága Iterkvatilis terjedelem: IQR = Q 3 Q Tapasztalati módusz : a legtöbbször el forduló érték Értelmezése: a mita tipikus, leggyakrabba el forduló értéke Osztályközös gyakoriságok eseté iterpolációra va szükség, ekkor a következ becslést lehet haszáli: Mo= x mo,a + da d a+d f h mo, ahol x mo,a : a móduszt tartalmazó osztályköz alsó értéke; h mo : a móduszt tartalmazó osztályköz hossza; d a : a móduszt tartalmazó osztályköz gyakorisága míusz a móduszt közvetleül megel z osztályköz gyakorisága d f : a móduszt tartalmazó osztályköz gyakorisága míusz a móduszt közvetleül követ osztályköz gyakorisága (X i X) 3 Tapasztalati ferdeség: S 3 (X i X) 4 Tapasztalati csúcsosság: 3 S 4 Tétel (Gliveko-Catelli) A tapasztalati eloszlásfüggvéy valószí séggel ( egyeletese tart) a valódi eloszlásfüggvéyhez, P lim sup F (x) F (x) = 0 = x R Boxplot ábra: (ez fekv, de lehet álló is) ahol a bet k a következ értékeket jeletik: formálisa A = max{x, Q, 5 IQR}; B = Q ; C = Me; D = Q 3 ; E = mi{x, Q 3 +, 5 IQR}; F : kies értékek, azokat tütetjük fel potokkét, amik A- vagy E- kívülre esek 5
Nagy számú (x,, x ) adat elemzése: Adathibák keresése, irreális adatok, értékek törlése; esetleg korrigálása Alkalmas osztályközös gyakorisági sor készítése Középértékek kiszámítása Átlag (számtai vagy mértai amelyikek értelme va) Helyzeti középértékek: Módusz az osztályközös gyakorisági sorból Mediá Szóródási mutatók kiszámítása Terjedelem Iterkvatilis terjedelem Szórás Relatív szórás Alakmutatók kiszámítása Ferdeség Csúcsosság Ábrák készítése: S r séghisztogram Boxplot ábra Lorez-görbe (értékösszeg sor eseté) Nevezetes diszkrét eloszlások: Eloszlás eve Jelölése Eloszlása EX D X Karakterisztikus Id(p) P (X = ) = p p p( p) (idikátorvált) P (X = 0) = p Geometriai (Pascal) Geo(p) P (X = k) = p( p) k k=,, Hipergeometriai Hipgeo(N, M, ) P (X = k) = k=0,,, Biomiális Bi(, p) P (X = k) = k=0,,, bio- Negatív miális NegBi(, p) P (X = k) = k=,+, ( )( ) M N M k k ( ) N ( k) p k ( p) k ( ) k p ( p) k p M N M N p p ( ) ( M ) N N p p( p) Poisso Poi(λ) P (X = k) = λk k! e λ k=0,, λ λ p ( p) p Deíció X valváltozó eloszlásfüggvéye: F X (x) = P (X < x) Deíció X és Y kovariaciája: Cov(X, Y ) = E [(X EX)(Y EY )] Köv: Cov(X, Y ) = E(XY ) EXEY Ha Cov(X, Y ) = 0, akkor azt modjuk, hogy X és Y korrelálatlaok Állítás Ha X és Y függetleek egymástól, akkor korrelálatlaok is Ha X és Y korrelálatlaok, akkor ebb l em következik, hogy függetleek is!!!!! X, Y függetleek F X,Y (x, y) = F X (x) F Y (y) X, Y függetleek f X,Y (x, y) = f X (x) f Y (y) X, Y függetleek P (X = x, Y = y) = P (X = x) P (Y = y) X, Y függetleek E(XY ) = EX EY Cov(X, Y ) = 0 Állítás Legyeek X, Y, X i, Y j valószí ségi változók; a, b, c i, d j R Ekkor P (a X < b) = F X (b) F X (a) E c i X i = c i EX i ; D (ax + b) = a D X D (X + Y ) = D X + D Y + Cov(X, Y ) Cov( c i X i, d j Y j ) = c i d j Cov(X i, Y j ) i j i,j D ( X i ) = D X i + Cov(X i, X j ) i<j Állítás Normálás Legye X N(m, σ ) Ekkor X m σ N(0, ) Állítás Φ( x) = Φ(x) Állítás Φ (q) = Φ ( q) 0 < q < Nevezetes abszolút folytoos eloszlások: Eloszlás eve Jelölése Eloszlásfüggvéy S r ségfüggvéy EX D X 0 ha x a { x a ha a < x b Egyeletes E(a, b) ha a < x b b a a+b b a 0 külöbe Expoeciális Exp(λ) { ha b < x e λx ha x 0 0 külöbe Gamma Γ(α, λ) Stadard ormális N(0, ) Φ(x) = Normális N(m, σ ) { λe λx ha x 0 0 külöbe { Γ(α) λα x α e λx ha x 0 0 külöbe Állítás Legye X abszolút folytoos eloszlású Ekkor f(x)=f'(x); f(x) 0; λ α λ (b a) λ α λ e x x R 0 π e (x m) σ x R m σ πσ 6
f(x) dx = ; P (X = x) = 0 x-re; P (a < X b) = P (a X < b) = F (b) F (a) Abszolút folytoos valváltozó várható értéke: EX = Abszolút folytoos valváltozó l mometuma: EX l = Tétel Nagy számok (er s) törvéye (NSZT): Legyeek X, X, iid val változók, EX = m < Ekkor X ++X m valószí séggel Becsléselmélet Paramétertér: Θ, ahol Θ R p összefügg és yílt halmaz xf(x) dx x l f(x) dx Deíció Torzítatla becslés: T(X) statisztika torzítatla becslése g(ϑ)-ak, ha E ϑ T (X) = g(ϑ) ϑ Θ-ra Deíció Legyeek T (X) és T (X) torzítatla becslései g(ϑ)-ak Ekkor azt modjuk, hogy T (X) hatásosabb T (X)-él, ha Dϑ (T (X)) Dϑ (T (X)) mide ϑ Θ eseté Deíció Hatásos becslés: A T (X) tozítatla becslést hatásosak evezzük, ha mide torzítatla becslésél hatásosabb Tétel A hatásos becslés egyértelm sége Ha T (X) és T (X) hatásos becslései g(ϑ)-ak, akkor mide paraméterértékre valószí séggel megegyezek, azaz P ϑ (T (X) = T (X)) = ϑ Θ eseté Deíció Aszimptotikus torzítatlaság: A T (X) becsléssorozat ( =,, ) aszimptotikusa torzítatla becslése a g(ϑ)-ak, ha E ϑ T (X) g(ϑ) ϑ Θ eseté Deíció Gyege kozisztecia: A T (X) becsléssorozat ( =,, ) gyegé kozisztes becslése a g(ϑ)-ak, ha T (X) sztochasztikusa g(ϑ) ϑ Θ eseté Másképpe: ɛ > 0-ra P ϑ ( T (X) g(ϑ) ɛ) 0 ϑ Θ eseté Tétel Elégséges feltétel gyege koziszteciára Ha E ϑ T (X) g(ϑ) és Dϑ T (X) 0, akkor T becsléssorozat gyegé kozisztes becslése g(ϑ)-ak Deíció Er s kozisztecia: A T (X) becsléssorozat ( =,, ) er se kozisztes becslése a g(ϑ)-ak, ha T (X) vsz-gel g(ϑ) ϑ Θ eseté Másképpe: P ϑ ({ω : T (X(ω)) g(ϑ) } )= ϑ Θ eseté S r ségfüggvéy becslése magfüggvéy segítségével elem mitából: ( Parze-Roseblatt becslés: f (x) = h k x Xi h ), ahol h alkalmas 0-hoz tartó sorozat Ez felel meg a mitapot körüli itervallum hossza feléek Tétel A Parze-Roseblatt becslés koziszteciája Alkalmas feltételek eseté h -re és a magfüggvéyre, az f (x) Parze-Roseblatt becslés aszimptotikusa torzítatla és er se kozisztes becslése a valódi s r ségfüggvéyek Állítás Az eloszlásfüggvéy torzítatla és er se kozisztes becslése a tapasztalati eloszlásfüggvéy A várható érték torzítatla és er se kozisztes becslése a mitaátlag A szóráségyzet aszimptotikusa torzítatla és er se kozisztes becslése a tapasztalati szóráségyzet A szóráségyzet torzítatla és er se kozisztes becslése a korrigált tapasztalati szóráségyzet Deíció Likelihood függvéy: L(ϑ, x) = f ϑ (x) = Legye X = (X,, X ) iid mita f ϑ (x i ), ha az eloszlás folytoos L(ϑ, x) = P ϑ (X = x) = P ϑ (X i = x i ), ha az eloszlás diszkrét Deíció Log-likelihood függvéy: l(ϑ, x) = log(l(ϑ, x)) Paraméterbecslési módszerek Maximum likelihood módszer (ML-módszer): Azt a paraméterértéket keressük, ahol a likelihood függvéy a legagyobb értéket veszi fel: max L(ϑ, x) ϑ Ameyibe a függvéy deriválható ϑ szerit, akkor a maximumot 7
kereshetjük a szokásos módo, az els és második deriváltak segítségével, azoba a feladatukat jelet se megehezíti, hogy olya -szeres szorzatot kellee deriváli, amelyikek mide tagjába ott va az a változó, ami szerit deriváluk kellee Ezért likelihood függvéy helyett a log-likelihood függvéy maximumhelyét keressük Ha ϑ dimeziós, akkor az els red feltétel: ϑ l(ϑ, x) = 0 ˆϑ másodred feltétel: ϑ l(ϑ, x) < 0 Ha ϑ p dimeziós, akkor ϑ = (ϑ,, ϑ p ), az els red feltétel: ϑi l(ϑ, x) = 0 ˆϑ i (i =,, p) ˆϑ = ( ˆϑ,, ˆϑ p ) másodred feltétel: H(ϑ,, ϑ p ) = ( ϑi ϑj l(ϑ, x) ) i,j=,,p Hessemátrix egatív deit a ϑ = ˆϑ helye Mometum módszer: A mitából számítható tapasztalati mome- j tumokat (m i := xi j ) egyel vé tesszük az elméleti mometumokkal (M i := E ϑ X i ), az els t l kezdve, mégpedig ayit, ameyi paraméter va Tehát p darab ismeretle paraméter eseté a következ p ismeretlees egyeletredszert oldjuk meg: M = m M p = m p Megjegyzés: m = x Fisher-tétel: Ha ϑ ML-becslése ˆϑ, akkor tetsz leges g függvéy eseté g(ϑ) ML-becslése g( ˆϑ) Deíció χ -eloszlás: Az X valószí ségi változó szabadságfokú χ - eloszlást követ (jel: X χ ), ha X = U + + U, ahol U i N(0, ) mide i-re és függetleek egymástól Deíció t-eloszlás: Az X valószí ségi változó szabadságfokú Studet-féle t-eloszlást követ (jel: X t ), ha X = Z Y, ahol Z N(0, ) és Y χ függetleek egymástól Deíció F-eloszlás: Az X valószí ségi változó m, szabadságfokú F- eloszlást követ (jel: X F m, ), ha X = Ym m Z, ahol Y m χ m és Z χ függetleek egymástól Mostatól α egy 0-hoz közeli pozitív szám lesz (például 0, 05 = 5%), és vezessük be a következ jelöléseket: u α : N(0, ) eloszlás ( α)-kvatilise, azaz u α = Φ ( α) z α := u α (sok köyvbe ezt haszálják) t,α : szabadságfokú t-eloszlás ( α)-kvatilise χ,α : szabadságfokú χ -eloszlás α-kvatilise Fm, α : m, szabadságfokú F-eloszlás α-kvatilise Deíció Kodecia itervallum: Adott α-hoz legalább ( α) valószí séggel tartalmazza az adott paramétert (vagy aak egy függvéyét): P ϑ (T (X) < ˆϑ ) < T (X) α Gyakra keresük szimmetrikus kodecia itervallumot, ilyekor T = T =:, és az itervallum ˆϑ ± alakba írható Legye X,, X N(m, σ) iid mita m-re kodecia itervallum ha σ ismert, akkor x ± u α σ ha σ ismeretle, akkor x ± t, α σ -re kodecia itervallum: [ s ( ) (s ) ; ( ) (s χ ), α χ, α Kodecia itervallum a valószí ségre (p) agy mita eseté, ha ormális ˆp( ˆp) eloszlással közelítük: ˆp ± u α Hipotézisvizsgálat Hipotézis valami állítás, amiek igazságát vizsgáli szereték Paramétertér: Θ = Θ 0 Θ "valóság" Mitatér: X = X e X k "látszat" - MINTÁBÓL X k : kritikus tartomáy - azo X meggyelések halmaza, amikre elutasítjuk a ullhipotézist X e : elfogadási tartomáy - azo X meggyelések halmaza, amikre elfogadjuk a ullhipotézist Hipotézisvizsgálati feladat: H 0 : ϑ Θ 0 H : ϑ Θ ullhipotézis ellehipotézis ] 8
Tehát ha X X e, akkor elfogadjuk H 0 -t; ha X X k, akkor pedig elutasítjuk H 0 -t Ameyibe a Θ 0 halmaz egyelem, akkor azt modjuk, hogy H 0 egyszer H -re ugyaígy Az X mitatér felosztását általába egy statisztika (eve: próbastatisztika) segítségével végezzük el: legye T: X R, X k = {x X : T(x) > c} c eve: kritikus érték X e = {x X : T(x) c} Dötés H 0 -t "Valóság" elfogadjuk (X e ) elutasítjuk (X k ) H 0 teljesül (Θ 0 ) helyes dötés els fajú hiba H 0 em teljesül (Θ ) másodfajú hiba helyes dötés P(els fajú hiba)=α(ϑ)=p ϑ (X k ), ahol ϑ Θ 0 P(másodfajú hiba)=β(ϑ)=p ϑ (X e ), ahol ϑ Θ Er függvéy: ψ: Θ R, ψ(ϑ) = P ϑ (X k ) Terjedelem: α = sup {α(ϑ): ϑ Θ 0 } Azt modjuk, hogy az -es próba er sebb a -es próbáál, ha α = α és ψ (ϑ) ψ (ϑ) ϑ Θ ϕ: X [0,] eyi valószí séggel vetem el a H 0 -t a Próbafüggvéy: mita alapjá x X k ϕ(x) = x X e ϕ(x) = 0 p-érték: az az α terjedelem, ami eseté a próbastatisztika értéke egyel a kritikus értékkel : T(x)= c α A p-érték a legkisebb terjedelem, amire még elutasítjuk a H 0 -t Ha egy próbát számítógép segítségével végzük el, redszerit a p-érték révé tuduk dötei: ha (p-érték)< α, akkor elvetjük H 0 -t Ha mid H 0, mid H egyszer, akkor adott α terjedelemhez lehet leger sebb próbát találi, ezt pedig úgy hívják, hogy valószí ség-háyados próba A hipotéziseket folytoos esetre írom fel Diszkrétre a s r ségfüggvéy helyett a kokrét eloszlást kell íri H 0 : f = f 0 H : f = f { } A valószí ség-háyados próba kritikus tartomáya: X k = x : f (x) f 0 (x) > c α Tehát azokat az x-eket, amire az f (x) f 0 (x) agy, bepakoljuk a kritikus tartomáyba egésze addig, míg az adott α terjedelmet el em érjük Diszkrét esetbe ehhez általába véletleítésre va szükség, azaz bizoyos x-ek eseté em vagy 0, haem egy, e két szám közé es (jelöljük p α -val) valószí séggel vetjük el a ullhipotézist Néháy kokrét próba az α végig a próba terjedelmét jelöli, ami el re adott ) Egymitás próbák a) Egymitás u-próba X,, X N(m, σ ), ahol σ ismert, m paraméter a) H 0 : m = m 0 b) H 0 : m = m 0 c) H 0 : m = m 0 H : m m 0 H : m > m 0 H : m < m 0 A próbastatisztika: T(X)=u = X m 0 σ H 0 eseté N(0, ) A kritikus tartomáyok: a) X k = {x : u > u α/ } b) X k = {x : u > u α } c) X k = {x : u < u α } b) Egymitás t-próba X,, X N(m, σ ), ahol σ, m paraméter a) H 0 : m = m 0 b) H 0 : m = m 0 c) H 0 : m = m 0 H : m m 0 H : m > m 0 H : m < m 0 A próbastatisztika: T(X)=t = X m 0 H 0 eseté s t A kritikus tartomáyok: a) X k = {x : t > t,α/ } b) X k = {x : t > t,α } c) X k = {x : t < t,α } ) Kétmitás próbák X,, X N(m, σ ) Y,, Y m N(m, σ ) Az elvégzed próbák H 0 : m = m ullhipotézis eseté: a két mita a két mita függetle em függetle σ és σ ismert b) kétmitás u-próba egymitás u-próba a külöbségekre el zetes F-próba σ és σ ismeretle σ = σ σ σ egymitás t-próba c) kétmitás t-próba d) Welch-próba a külöbségekre 9
a) F-próba m, m, σ, σ paraméterek H 0 : σ = σ és H : ami a szövegköryezetbe értelmes (s ) H 0 eseté F (s A próbastatisztika: F =,m ha s ) > s (s ) F m, ha s > s (s ) H 0 eseté b) kétmitás u-próba m, m paraméterek, σ, σ ismert H 0 : m = m és H : ami a szövegköryezetbe értelmes A próbastatisztika: u = X Y σ + σ m H 0 eseté N(0,) c) kétmitás t-próba m, m, σ = σ paraméterek H 0 : m = m és H : ami a szövegköryezetbe értelmes A próbastatisztika: t = m X Y +m ( )(s ) +(m )(s ) +m d) Welch-próba m, m, σ σ paraméterek H 0 : m = m és H : ami a szövegköryezetbe értelmes A próbastatisztika: t = X Y H 0 eseté t f, ahol (s ) + (s ) m f = c = c + ( c) m (s ) (s, ha s ) + (s ) > s m χ -próbák H 0 eseté t +m a) Diszkrét illeszkedésvizsgálat Feladat: adott egy X = (X,, X ) elem mita, és azt akarjuk eldötei, hogy a mita egy általuk "remélt" eloszlásból származik-e Diszkrét illeszkedésvizsgálatál feltesszük, hogy a mitaelemek r külöböz értéket vehetek fel: P(X i = x j ) = p j j =,, r Jelöljük N j -vel a gyakoriságokat, azaz azt, hogy az elem mitába háy darab x j szerepel Osztályok r Összese Valószí ségek p p p r Gyakoriságok N N N r H 0 : a valószí ségek: p=(p,, p r ) H : em ezek a valószí ségek A próbastatisztika: T = r (N i p i ) p i H 0 eseté χ r A kritikus tartomáy: X k = {x : T (x) > χ r, α } eloszlásba, ha Becsléses illeszkedésvizsgálat: csak ayit "sejtük", hogy a mita valamilye eloszlású, viszot a paramétereir l ics sejtésük Ilyekor ameyibe ML-módszerrel becsüljük meg az s darab ismeretle paramétert, akkor H a próbastatisztika: T 0 eseté χ r s eloszlásba, ha Nagyo fotos: a próba csak akkor hajtható végre, ameyibe az egyes osztályokba eleged számú gyakoriság szerepel Nem egyértelm, milye határvoalat húzzuk meg Hüvelykujjszabálykét azt lehet modai, hogy a kisebb mitákál legalább 3, közepesekél legalább 5, agyobbakál legalább 0 elem szerepelje az egyes cellákba Általáosa korlátkét lehet alkalmazi még a 5 számot Ameyibe a cellákba túl alacsoy a gyakoriságok száma, akkor az éritett osztályokat össze kell voi Illeszkedésvizsgálat "szemmel": Q-Q plot és P-P plot Jelölje F az illesztett eloszlás eloszlásfüggvéyét, x k pedig a k redezett mitaelemet Q-Q plot: az illesztett eloszlás kvatiliseit vetjük össze ( a tapasztalati ( ) ) kvatilisekkel, azaz a következ potokat ábrázoljuk: F k +, x k, ahol k =,, P-P plot: az illesztett eloszlás valószí ségeit vetjük össze ( a tapasztalati valószí ségekkel, azaz a következ potokat ábrázoljuk: k +, F (x k ), ) ahol k =,, Midkét ábráál be szokták húzi a 45 fokos egyeest és miél jobba rásimulak a potok az egyeesre, aál jobbak tekithet az illeszkedés b) Diszkrét homogeitávizsgálat Feladat: va két függetle mita, midkett egy közös szempot szerit r osztály egyikébe sorolva Azt kell eldötei, hogy a két mita azoos eloszlásúak tekithet -e 0
Osztályok r Összese mita Valószí ségek p p p r Gyakoriságok N N N r mita Valószí ségek q q q r Gyakoriságok M M M r m H 0 : a valószí ségek: (p,, p r ) = (q,, q r ) H : em ezek a valószí ségek A próbastat: T,m = r ( ) Ni M i m N i +M i H 0 eseté χ r A kritikus tartomáy: X k = {x : T,m (x) > χ r, α } eloszlásba, ha c) Függetleségvizsgálat Feladat: va egy mita, két szempot szerit csoportosítva Azt kell eldötei, hogy a két szempot függetle-e egymástól p i,j =P(egy meggyelés az (i,j) osztályba kerül) N i,j =eyi meggyelés kerül az (i,j) osztályba A mitavétel eredméye: szempot j s Összese N N j N s N szempot i N i N ij N is N i r N r N rj N rs N r Összese N N j N s ahol N i = s és N j = r N ij j= N ij Ha r = s =, akkor a próbastatisztika T = (N N N N ) N N N N -re egyszer södik, az aszimptotikus eloszlás pedig szabadságfokú χ Feladat: Y val változót szereték közelítei X val változó lieáris függvéye segítségével: E[Y (ax + b)] mi a,b Megoldása: a opt = Cov(X,Y ) D (X) b opt = EY a opt EX Feladat (lieáris regresszió): Adottak (x, y ),, (x, y ) potok, ezekre szereték egyeest illesztei (eve: regressziós egyees) legkisebb égyzetek módszerével A modell: Y i = ax i + b + ε i, ahol Eε i = 0 és D ε i = σ < (i =,, ) Megoldás: â = (xi x)(y i y) (xi x), ˆb = y âx Reziduumok: ˆε i = y i âx i ˆb (,, ) Reziduális égyzetösszeg: RNÖ= ˆε i = (y i y) (xi x)(y i y) (xi x) ˆσ = RNÖ Tapasztalati korrelációs együttható: R = (xi x)(y i y) (xi x) (y Eek égy- i y) zetét, R -et determiációs együtthatóak hívjuk, és ezzel mérjük a modell jóságát Az R mutatja meg, hogy százalékba a modell az Y változékoyságából meyit magyaráz meg Értéke 0 és között lehet, ha 0-hoz közeli, akkor a modell gyegé teljesít, ha -hez, akkor jól H 0 : a szempotok függetleek, azaz p i,j = p i p j i, j-re H : em azok ( ) r s Ni,j A próbastatisztika: T = H N i N j 0 eseté χ (r )(s ) eloszlásba, ha j= A kritikus tartomáy: X k = {x : T (x) > χ (r )(s ), α }