Kabos: Statisztika II. Becslés 1.1 Statisztikai becslés Freedman, D. - Pisani, R. - Purves, R.: Statisztika. Typotex, 2005. Reimann J. - Tóth J.: Valószínűségszámítás és matematikai statisztika. Tankönyvkiadó, 1997. Statisztikai becslés a becslés torzítatlansága, a becslés hatásossága, valószínűség becslése. Freedman: 16.,17.,18.,20.,23. fejezet Reimann: 10.1-2. fejezet. Példa: időjárási adatok OMSz napi adatok, http://www.met.hu/ 1901 január 1-2000 december 31-ig date temp.ave.( C) precip.(mm) precip.type 1901-01-01-5.7 1.9 snow 1901-01-02-9.3 0 no precip 1901-01-03-9.1 0.8 snow 1901-01-04-11 0.2 snow 1901-01-05-11.1 0 no precip 1901-01-06-8 2.3 snow............
Kabos: Statisztika II. Becslés 1.2 Kabos: Statisztika II. Becslés 1. Kabos: Statisztika II. Becslés 1. Példa: időjárási adatok Kabos: Statisztika II. Becslés 1. Slide 4 Slide 4 Slide 4 Slide 5 Slide 5 Slide 5 36 525 nap 36 525 nap napi középhőmérséklet [ C] napi középhőmérséklet [ C] 36 a 36 525 525 napnapi átlaghőmérséklet a 36 525 napi átlaghőmérséklet napi = 11.078765229295 középhőmérséklet [ C] = 11.078765229295 anapi 36 525 csapadékösszeg napi átlaghőmérséklet [mm] napi csapadékösszeg [mm] = a 11.078765229295 csapadék fajtája [eső/hó] a csapadék fajtája [eső/hó] napi csapadékösszeg [mm] a csapadék fajtája [eső/hó] Példa: időjárási adatok Szóhasználat: Szóhasználat: ave = átlag ave = átlag Szóhasználat: tr.ave = trimmelt átlag = elhagyjuk a tr.ave = trimmelt átlag = elhagyjuk a ave legkisebb = átlag(itt) 20% -ot és a legnagyobb 20% -ot, és a legkisebb (itt) 20% -ot és a legnagyobb 20% -ot, és a tr.ave megmaradó = trimmelt 60% átlagát = vesszük elhagyjuk a megmaradó 60% átlagát vesszük legkisebb median = (itt) medián 20% -ot és a legnagyobb 20% -ot, és a median = medián megmaradó 60% átlagát vesszük median = medián Slide 6 Slide 6 Slide 6 Torzítatlan becslés Torzítatlan becslés az alapsokaság átlagára: Torzítatlan becslés az alapsokaság átlagára: a becslés várhatóértéke = az alapsokaság átlaga. a becslés várhatóértéke = az alapsokaság átlaga. Torzítatlan becslés az alapsokaság átlagára: a becslés várhatóértéke = az alapsokaság átlaga.
Kabos: Statisztika II. Becslés 1.3 Példa: időjárási adatok Példa: időjárási adatok Látjuk, hogy a várhatóérték és a variancia illesztése mellett is jelentős különbség van a hisztogram és sűrűségfüggvény között: csak egy egészen hozzávetőleges modell mondhatja azt, hogy a napi átlaghőmérséklet normális eloszlású, és az itt látott eltérést a véletlen okozza. Az eltérést a statisztikai mutatók is jellemzik, például a napi átlaghőmérsékletek mediánja=11.5 viszont az illesztett normális eloszlás mediánja = a várhatóérték = 11.0788 Látjuk, hogy a várhatóérték és a variancia illesztése mellett is jelentős különbség van a hisztogram és sűrűségfüggvény között: csak egy egészen hozzávetőleges modell mondhatja azt, hogy a napi átlaghőmérséklet normális eloszlású, és az itt látott eltérést a véletlen okozza. Példa: időjárási adatok A hisztogram és az illesztett sűrűségfüggvény eltérését a statisztikai mutatók is jellemzik, például a napi átlaghőmérsékletek mediánja=11.5 viszont az illesztett normális eloszlás mediánja = a várhatóérték = 11.0788
átlag = 11.10995 stand.hiba = 1.845422 stand.eltérés = 1.845686 Kabos: Statisztika II. Becslés 1.4 Bootstrap normális eloszlásból 25 elemű EVMintát vettünk a 11.0788 várhatóértékű, 74.54 varianciájú normális eloszlásból, meghatároztuk a mintaátlagot, (kétoldalról 20-20% -kal) trimelt mintaátlagot és a minta mediánját. Mindezt elvégeztük 100 000 független ismétlésben. 25 elemű EVMintát vettünk a 11.0788 várhatóértékű, 74.54 varianciájú normális eloszlásból, meghatároztuk a mintaátlagot, (kétoldalról 20-20%-kal) trimelt mintaátlagot és a minta mediánját. Mindezt elvégeztük 100 000 független ismétlésben. Bootstrap normális eloszlásból 0 5000 10000 15000 20000 0 5000 10000 15000 20000 0 5000 10000 15000 20000 0 5000 10000 15000 20000 25 elemű EVMintát vettünk a 11.0788 várhatóértékű, 74.54 varianciájú normális eloszlásból, meghatároztuk a mintaátlagot, (kétoldalról 20-20%-kal) trimelt mintaátlagot és a minta mediánját. Mindezt elvégeztük 100 000 független ismétlésben. 0 5000 10000 15000 20000 0 5000 10000 15000 20000 averages átlag = 11.09115 stand.hiba = 1.728315 25 stand.eltérés elemű EVMintát = 1.728359 vettünk a 11.0788 várhatóértékű, 74.54 varianciájú normális eloszlásból, meghatároztuk a mintaátlagot, (kétoldalról 20-20%-kal) trimelt mintaátlagot és a minta mediánját. Mindezt elvégeztük tr.averages 100 000 független of 25 elements ismétlésben. SRS átlag = 11.10995 stand.hiba = 1.845422 stand.eltérés histogram = of 1.845686 100 000 medians átlag = 11.11646 stand.hiba = 2.143337 stand.eltérés = 2.143668 Bootstrap normális eloszlásból 0 5000 10000 15000 20000 averages átlag = 11.09115 stand.hiba = 1.728315 stand.eltérés = 1.728359 0 5000 10000 15000 20000 átlag = 11.10995 stand.hiba = 1.845422 stand.eltérés = 1.845686 0 5000 10000 15000 20000 medians átlag = 11.11646 stand.hiba = 2.143337 stand.eltérés = 2.143668 averages átlag = 11.09115 stand.hiba = 1.728315 stand.eltérés = 1.728359
Kabos: Statisztika II. Becslés 1.5 A 25-elemű átlagok tulajdonságai a 1 = a 2 =... 25 n=1 50 X n az első mintavétel átlaga X n a második mintavétel átlaga n=26 a 100000 = 2500000 n=2499976 X n a 100 000 -ik mintavétel átlaga. A 25-elemű átlagok tulajdonságai a 1 várhatóértéke = 11.0788 a 1 standard hibája = 1 25 74.54 = 1.726732 és a 1, a 2, a 3... függetlenek és azonos eloszlásúak, tehát {a 1, a 2,..., a 100000 } EVM egy µ=11.0788 és σ=1.726732 paraméterű eloszlásból. (lásd: Freedman 17. és 20. fejezet) A 25-elemű átlagok tulajdonságai µ becslése: a = σ becslése: s s = 1 100000 100000 k=1 100000 k=1 a k = 11.09115 ( a k a ) 2 = 1.728315
Kabos: Statisztika II. Becslés 1.6 Becslések értékelése d 2 = átlagos négyzetes eltérés illetve d = standard eltérés d = 1 100000 100000 ( 2 a k µ) = 1.728359 s = 1 100000 k=1 100000 k=1 ( a k a ) 2 = 1.728315 A 25-elemű átlagok tulajdonságai Az s standard hiba a mintaátlagtól vett (négyzetes) eltéréseket, viszont d az alapsokaság átlagától vett (négyzetes) eltéréseket összegezi. A 25-elemű átlagok tulajdonságai Az a becslés a pontosabb, ahol az átlagos négyzetes eltérés kisebb. Az ábrákon a piros vonal jelzi az alapsokaság átlagát (µ = 11.0788), tehát akkor pontosabb a becslés, ha a hisztogramja (valamilyen átlagos értelemben) közelebb van a piros vonalhoz.
Kabos: Statisztika II. Becslés 1.7 Bootstrap az időjárási adatokból 25 elemű EVMintát vettünk Az 1901-2000 napi hőmérsékleti átlagok eloszlásából, mint alapsokaságból. Az alapsokaságbeli várhatóérték 11.0788, a variancia 74.54. Meghatároztuk a mintaátlagot, a trimelt mintaátlagot és a minta mediánját. Mindezt elvégeztük 100 000 független ismétlésben. 25 elemű EVMintát vettünk Az 19001-2000 napi hőmérsékleti átlagok eloszlásából, mint alapsokaságból. Az alapsokaságbeli várhatóérték 11.0788, a variancia 74.54. Meghatároztuk a mintaátlagot, (kétoldalról 20-20%-kal) trimelt mintaátlagot és a minta mediánját. Mindezt Bootstrap elvégeztük 100 000 független azismétlésben. időjárási adatokból 0 5000 10000 15000 20000 5000 0 10000 15000 20000 0 5000 10000 15000 20000 5000 0 10000 15000 20000 25 elemű EVMintát vettünk Az 19001-2000 napi hőmérsékleti átlagok eloszlásából, mint alapsokaságból. Az alapsokaságbeli várhatóérték 11.0788, a variancia 74.54. Meghatároztuk a mintaátlagot, (kétoldalról 20-20%-kal) trimelt mintaátlagot és a minta mediánját. Mindezt elvégeztük 100 000 független ismétlésben. 0 5000 10000 15000 20000 5000 0 10000 15000 20000 averages átlag =11.08104 stand.hiba =1.732433 25 stand.eltérés elemű EVMintát =1.732434 vettünk Az 19001-2000 napi hőmérsékleti átlagok eloszlásából, mint alapsokaságból. Az alapsokaságbeli várhatóérték 11.0788, a variancia 74.54. Meghatároztuk a mintaátlagot, (kétoldalról 20-20%-kal) tr.averages trimelt of 25 elements mintaátlagot SRS és a minta mediánját. Mindezt elvégeztük 100 000 független átlag ismétlésben. =11.34963 stand.hiba =2.162128 stand.eltérés histogram =2.179029 of 100 000 medians of 25 elements SRS átlag =11.47817 stand.hiba =2.910367 5 15 20 stand.eltérés =2.937644 Bootstrap az időjárási adatokból 0 5000 10000 15000 20000 averages átlag =11.08104 stand.hiba =1.732433 stand.eltérés =1.732434 0 5000 10000 15000 20000 átlag =11.34963 stand.hiba =2.162128 stand.eltérés =2.179029 0 5000 10000 15000 20000 medians átlag =11.47817 stand.hiba =2.910367 stand.eltérés =2.937644 averages átlag =11.08104 stand.hiba =1.732433 stand.eltérés =1.732434 átlag =11.34963 stand.hiba =2.162128 stand.eltérés =2.179029
medians átlag = 2.087908 Kabos: Statisztika II. Becslés 1.8 Szimulált adatok, 1. Az eredeti időjárási adatrendszerhez kétoldalt nagy eltéréseket is tartalmazó eloszlás részeket csatoltunk úgy, hogy a várhatóérték változatlanul 11.0788 maradt, de a medián 3.44 Szimulált adatok, 1. Az eredeti időjárási adatrendszerhez kétoldalt nagy eltéréseket is tartalmazó eloszlás részeket csatoltunk úgy, hogy a várhatóérték változatlanul = 11.0788 de a medián = 3.44 Az eredeti időjárási adatrendszerhez kétoldalt nagy eltéréseket is tartalmazó eloszlás részeket csatoltunk úgy, hogy a várhatóérték változatlanul 11.0788 maradt, itt a medián 10.2 Bootstrap szimulált adatokból 1. Data set 1 20 20 60 20 20 60 20 20 60 averages átlag = 11.11397 stand.hiba = 12.66842 stand.eltérés = 12.66847 átlag = 1.795904 stand.hiba = 8.155071 stand.eltérés = 12.35624
Data set 1 Bootstrap szimulált adatokból 1. method 20= averages 20 60 Kabos: Statisztika II. Becslés 1.9 Data set 1 method 20 = 20 tr.averages 60 method 20 20 = medians 60 averages átlag = 11.11397 stand.hiba = 12.66842 stand.eltérés = 12.66847 átlag = 1.795904 stand.hiba = 8.155071 stand.eltérés = 12.35624 A baloldali 20 oszlopban 20 60 az átlagok átlaga 2011.11397, 60ami egészen jó közelítésnek 20 20 tűnik. 60 átlag = 1.795904 stand.hiba = 8.155071 stand.eltérés = 12.35624 medians átlag = 2.087908 stand.hiba = 9.3481 stand.eltérés = 12.97006 A bal oldali oszlop torzítatlan, de nagy szórású, a másik két oszlop az alapsokaságbeli várhatóértékre nézve torzított, de kis szórású becslést ad. A középső oszlopban a trimmelt átlagok átlaga (1.795904), ez nagyon messze van a valódi várhatóértéktől (11.0788). Mindennek ellenére az átlagos négyzetes eltérés a középső oszlopban egy picit még jobb is, mint a baloldali oszlopban. A jobboldali oszlop a középsőhöz hasonló, de nagyobb az átlagos négyzetes eltérés. averages átlag = 11.11397 stand.hiba = 12.66842 stand.eltérés = 12.66847 Bootstrap szimulált adatokból 1. A bal oldali oszlop torzítatlan, de nagy szórású, a másik két oszlop az alapsokaságbeli várhatóértékre nézve torzított, de kis szórású becslést ad. medians átlag = 2.087908 stand.hiba = 9.3481 stand.eltérés = 12.97006 A bal oldali oszlop torzítatlan, de nagy szórású, a másik két oszlop az alapsokaságbeli várhatóértékre nézve torzított, de kis szórású becslést ad. A középső oszlopban a trimmelt átlagok átlaga (1.795904), ez nagyon messze van a valódi várhatóértéktől (11.0788). A baloldali oszlopban az átlagok átlaga 11.11397, ami egészen jó közelítésnek tűnik. Mindennek ellenére az átlagos négyzetes eltérés a középső oszlopban egy picit még jobb is, mint a baloldali oszlopban. A jobboldali oszlop a középsőhöz hasonló, de nagyobb az átlagos négyzetes eltérés. A középső oszlopban a trimmelt átlagok átlaga (1.795904), ez nagyon messze van a valódi várhatóértéktől (11.0788). Bootstrap szimulált adatokból 1. A bal oldali oszlopban az átlagok átlaga 11.11397, ami egészen jó közeĺıtésnek tűnik. Mindennek ellenére az átlagos négyzetes eltérés a középső oszlopban egy picit még jobb is, mint a baloldali oszlopban. A jobb oldali oszlop a középsőhöz hasonló, de nagyobb az átlagos négyzetes eltérés.
Kabos: Statisztika II. Becslés 1.10 Az eredeti időjárási adatrendszerhez kétoldalt nagy eltéréseket is tartalmazó eloszlás részeket csatoltunk úgy, hogy a várhatóérték változatlanul 11.0788 maradt, de a medián 3.44 Szimulált adatok, 2. Az eredeti időjárási adatrendszerhez kétoldalt nagy eltéréseket is tartalmazó eloszlás részeket csatoltunk úgy, hogy a várhatóérték változatlanul 11.0788 maradt, itt a medián 10.2 Szimulált adatok, 2. Az eredeti időjárási adatrendszerhez kétoldalt nagy eltéréseket is tartalmazó eloszlás részeket csatoltunk úgy, hogy a várhatóérték változatlanul = 11.0788 de a medián = 10.2 Bootstrap szimulált adatokból 2. Data set 2 60 20 20 60 60 20 20 60 60 20 20 60 averages átlag = 11.05051 stand.hiba = 13.00262 stand.eltérés = 13.00266 átlag = 9.115214 stand.hiba = 9.240082 stand.eltérés = 9.44641 medians
Data set 2 Kabos: Statisztika II. Becslés 1.11 Bootstrap szimulált adatokból 2. 60 20 20 60 Data set 2 60 20 20 60 60 20 20 60 averages átlag = 11.05051 stand.hiba = 13.00262 stand.eltérés = 13.00266 átlag = 9.115214 stand.hiba = 9.240082 stand.eltérés = 9.44641 medians átlag = 10.07415 stand.hiba = 6.355602 stand.eltérés = 6.43451 A 60 baloldali 20 oszlop 20 60átlaga adja az 60 alapsokaságbeli 20 20 60várható értékre 60a legjobban 20 20 közelítő 60 becslést, de a középső és különösen a jobb oldali oszlopot az átlagos négyzetes eltérés kedvezőbb tulajdonságúnak értékeli. Bootstrap szimulált adatokból 2. averages átlag = 11.05051 stand.hiba = 13.00262 stand.eltérés = 13.00266 A bal oldali oszlop átlaga adja az átlag = 9.115214 stand.hiba = 9.240082 stand.eltérés = 9.44641 alapsokaságbeli várható értékre a legjobban közeĺıtő becslést, de a középső és különösen medians átlag = 10.07415 stand.hiba = 6.355602 stand.eltérés = 6.43451 a jobb oldali oszlopot az átlagos négyzetes eltérés kedvezőbb tulajdonságúnak értékeli. A baloldali oszlop átlaga adja az alapsokaságbeli várható értékre a legjobban közelítő becslést, de a középső és különösen a jobb oldali oszlopot az átlagos négyzetes eltérés kedvezőbb tulajdonságúnak értékeli. Becslés hatásossága Azonos mintanagyság mellett két becslés közül az a hatásosabb, amelyiknek kisebb a standard eltérése.
Kabos: Statisztika II. Becslés 1.12 Torzítatlan becslés hatásossága Azonos mintanagyság mellett két torzítatlan becslés közül az a hatásosabb, amelyiknek kisebb a standard hibája. Valószínűség becslése p = P { egy véletlenszerűen kiválasztott napon volt csapadék (eső vagy hó) } N elemű EVM, ebben a mintában az esős napok gyakorisága: X az esős napok relatív gyakorisága: r = X N Valószínűség becslése Álĺıtás: r torzítatlan becslés p-re p (1 p) Álĺıtás: r standard hibája = N ( ) Bizonyítás: X B N, p azaz N rendű és p paraméterű binomiális eloszlás (lásd: Freedman 21. fejezet.)