Statisztikai programcsomagok Sz cs Gábor Szegedi Tudomáyegyetem, Bolyai Itézet Szeged, 2012. tavaszi félév Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 1 / 26
Bevezetés Statisztikai alapfogalmak Statisztikai alapfogalmak Valószí ségelmélet: Ismert eloszlású véletle változók tulajdoságai. Matematikai statisztika: A változók eloszlása ismeretle, a vizsgálatot empirikus adatok (meggyelések) alapjá végezzük. Leíró statisztika: Az empirikus adatok összegy jtése és feldolgozása. Statisztikai mita: Meggyelések egy véletle (vektor-)változó értékeire. Statisztikaelmélet: X 1,..., X FAE véletle (vektor-)változók. Gyakorlat: A változók egy realizációja, x 1,..., x meggyelések. Az értéket a mita méretéek evezzük. Kérdés: Mit állíthatuk a változók közös eloszlásáról a mita alapjá. GliveloCatelli-tétel: A háttéreloszlás 1 valószí séggel tetsz leges potosággal meghatározható, amit az mitaméret tart a végtelebe. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 2 / 26
Néháy fotosabb alapprobléma: Bevezetés Statisztikai alapfogalmak Becsléselmélet: ismeretle meyiségek becslése. Alapstatisztikák: várható érték, szórás, kovariacia, stb. Eloszlások ismeretle paraméterei. Kodecia-itervallumok: itervallumbecslés. Hipotézisvizsgálat: állítások valóságtartalmáak tesztelése. Alapstatisztikák becsléséek tesztelése. Eloszlástesztek. Ha a meggyelések egy X = (X (1),..., X (d) ) vektorváltozóra voatkozak, akkor milye kapcsolat va a kompoesek között? Függetleségvizsgálat. Regresszióaalízis: függvéykapcsolat a kompoesek között. F kompoes-aalízis, faktoraalízis: a kompoesek számáak csökketése kis iformációveszteséggel. Klaszteraalízis: a meggyelések típuscsoportokba redezése. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 3 / 26
Fotosabb alkalmazási területek: Bevezetés Statisztikai alapfogalmak Gyógyászat: betegségtesztek, gyógyszerkísérletek. Közvéleméykutatások: politika és marketig. Pézügyi matematika, biztosításmatematika. Egyéb: mi ségelle rzés, meteorológia, adatbáyászat, stb. Nehézség: A statisztikai módszerek számításigéyesek. Néháy számítógépes szoftver: Egyszer bb alkalmazások: Excel, Mathematica, Matlab. Statisztikai programcsomagok: SPSS, SAS, R. SPSS (Statistical Package for the Social Scieces), versio 19. 1968-2010: Staford Uiversity, SPSS Ic., v1-v18. 2010-: IBM, v19-v20. Az SPSS v20 agol yelv leírása az iterete: http://publib.boulder.ibm.com/ifoceter/spssstat/v20r0m0/idex.jsp Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 4 / 26
Bevezetés Az SPSS programcsomag Az SPSS programcsomag Iput Widow: Data View: bemeeti adatok, Variables ad Cases. Variable View: a változók tulajdoságai. Cases Variables Var1 Var2 Name Type 1 Var1 2 Var2 3 Var3 4 Var4 Variables Properties Data View Variable View Output Widow: a statisztikai vizsgálatok eredméyei. Másolás Microsoft Oce termékekbe, exportálás több formátumba. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 5 / 26
Bevezetés Beállítások a Variable View lapo: Az SPSS programcsomag Name: a változó eve. Max. 8 karakter, tiltott:,, %,... Type: a változó típusa. Szám, szöveg, dátum, valuta, stb. Width: mez szélesség, a megjeleített karakterek maximális száma. Decimals: az ábrázolt tizedesjegyek száma. Labels: cimkék, hosszabb magyarázat a változóevekhez. Values: a változó értékeiek kódolása, cimkézése. Missig: a hiáyzó meggyelések kezelése, pl. többféle hiáyok. Colums: a táblázat oszlopaiak szélessége. Alig: szövegigazítás jobbra, balra, középre. Measure: a változó mértéke. Meghatározza, hogy milye statisztikai m veleteket hajthatuk végre a változó értékei. Scale: értelmezhet ek a matematikai m veletek az értékeke. Ordial: icseek matematikai m veletek, de va redezés. Nomial: a változó értékei között ics redezés. Role: a változó szerepe a vizsgálatba, id két va jelet sége. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 6 / 26
Becsléselmélet és adatok ábrázolása Alapfogalmak Becsléselmélet és adatok ábrázolása Statisztikai mita: X 1,..., X F FAE, F (x), x R, ismeretle. Feladat: Adjuk becslést az F eloszlás valamely θ = θ(f ) függvéyére. Alapstatisztikák: várható érték, szórás, kovariacia. Paraméteres eloszláscsaládokba a paraméter becslése. Kétfajta becsléssel foguk dolgozi: Potbecslések: A θ értéket a változókak egy ˆθ = ˆθ (X 1,..., X ) statisztikával becsüljük. Itervallumbecslések: A mita függvéyébe megaduk egy [a, b ] itervallumot, mely agy valószí séggel tartalmazza a θ értéket. Legye ˆθ = ˆθ (X 1,..., X ) a θ potbecslése a mita alapjá. A becslés torzítatla, ha E(ˆθ ) = θ. P A becslés gyegé kozisztes, ha ˆθ θ,. A becslés er se kozisztes, ha ˆθ θ m.b. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 7 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák Alapstatisztikák Várható érték: E(X ) = R x df (x). Empirikus várható érték, mitaátlag, mea: E (X ) = X := X 1 + + X Tulajdoságai: torzítatla és er se kozisztes. Variacia: Var(X ) = E [ X E(X ) ]2 = E ( X 2) E 2 (X ). (Korrigálatla) empirikus variacia: Var (X ) := X 2 + + 1 X 2 ( X )2. Tulajdoságai: er se kozisztes, de torzított, ugyais E ( Var (X ) ) = 1 Var(X ). Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 8 / 26.
Becsléselmélet és adatok ábrázolása Alapstatisztikák Variacia (folytatás): Korrigált empirikus variacia, variace: Var (X ) := 1 Var (X ). Tulajdoságai: torzítatla és er se kozisztes. Szórás: D(X ) = Var(X ). (Korrigálatla) és korrigált empirikus szórás, stadard deviatio: D (X ) := Var (X ), D(X ) := Var (X ) = 1 Var (X ). Tulajdoságaik: midkett er se kozisztes, a korrigált torzítatla. A mitaátlag szórása: Var ( X ) ( ) X1 + + X = Var = Var(X ), D ( X ) = D(X ). A mitaátlag szórásáak becslése, stadard error of the mea: SE (X ) := D (X ). Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 9 / 26
Ferdeség, skewess: Becsléselmélet és adatok ábrázolása Alapstatisztikák ( ) X E(X ) 3 γ 1 := E = D(X ) E [ X E(X ) ] 3 (E [ X E(X ) ] 2 ) 3/2. Jeletése: Ha γ 1 = 0, akkor az eloszlás szimmetrikus a várható értékre. Példa: ormális eloszlás, fekete s r ségfüggvéy. Ha γ 1 > 0, akkor az eloszlás balra d l, kék görbe. Ha γ 1 < 0, akkor az eloszlás jobbra d l, piros görbe. Empirikus ferdeség: g 1 := ( i=1 i=1 ( Xi X ) 3/ ( Xi X ) ) 2/ 3/2. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 10 / 26
Lapultság, kurtosis: Becsléselmélet és adatok ábrázolása Alapstatisztikák γ 2 := E[ X E(X ) ] 4 (E [ X E(X ) ] 2 ) 2 3. Jeletése: Ha γ 2 = 0, akkor az eloszlás olya mértékbe lapult, mit a ormális eloszlás; fekete s r ségfüggvéy. Ha γ 2 > 0, akkor az eloszlás csúcsosabb, mit a ormális; kék görbe. Ha γ 2 < 0, akkor az eloszlás lapultabb, mit a ormális; piros görbe. Empirikus lapultság: g 2 := i=1 ( i=1 ( Xi X ) 4/ ( Xi X ) ) 2/ 2 3. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 11 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák A q α érték az X változó α-kvatilise, (0 < α < 1,) ha P(X < q α ) α P(X q α ). Az α-kvatilis em midig egyértelm. y α q α q α q α q α x Kvatilisfüggvéy: Q(α) = if{x R : F (x) α}. Speciális kvatilisek: Mediá: α = 0, 5. Alsó és fels kvartilis: α = 0, 25 és α = 0, 75. Decilisek: α = 0, 1,..., 0, 9. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 12 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák Kvatilisek (folytatás): Empirikus kvatilisfüggvéy: 1 +1 3 +1 k+1 +1 α k = α( + 1) 1 +1 k +1 X 1 X 2 X 3, X 4 X X k q α X k+1 A mita empirikus kvatilisei, percetiles: q α = X 1, α 1 + 1, q α = X, α + 1, q α = X α(+1) + (α(+1) α(+1) ) X α(+1) +1, egyébkét. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 13 / 26
Becsléselmélet és adatok ábrázolása Alapstatisztikák Mediá becslése: { X k+1 m =, = 2k + 1, (X + X )/2, = 2k. k k+1 Miimum, maximum: X 1, X. A mita terjedelme, rage: X X 1. Iterkvartilis távolság, Iterquartile rage: q 0,75 q 0,25. Empirikus relatív szórás: D (X )/X. Módusz: A mita legagyobb gyakoriságú eleme. Diszkrét eloszlás eseté a legagyobb valószí ség érték becslése. Abszolút folytoos eloszlás eseté a s r ségfüggvéy maximumáak becslése. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 14 / 26
Becsléselmélet és adatok ábrázolása Grakook Grakook Grakook az empirikus eloszlás ábrázolására: Oszlopdiagramm, Bar: Diszkrét (kevés érték ) változó eloszlása. Például: 100 kockadobás utá az eredméyek gyakorisága. Hisztogramm, Histogram: Folytoos (sok érték ) változó eloszlása. Például: 100 elem mita stadard ormális eloszlásból. 14 20 11 25 15 15 17 28 32 16 4 3 1 2 3 4 5 6 3 2 1 0 1 2 3 Boxplot: Kvartilisek, ferdeség és extremális elemek ábrázolása. Ábra a holapomo. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 15 / 26
Becsléselmélet és adatok ábrázolása Itervallumbecslések Itervallumbecslések Legye θ = θ(f ) a háttéreloszlés egy függvéye, 0 < α < 1. Cél: Adjuk meg egy [a, b] itervallumot, mely agy valószí séggel tartalmazza a θ értéket. Statisztikák: a = a (X 1,..., X ), b = b (X 1,..., X ). 1 α megbízhatósági szit kodecia-itervallum: ( ) P θ [a, b ] = 1 α. Megjegyzések: Jellemz e α = 0, 1, 0, 05, 0, 01. A mita egy x 1,..., x realizációja eseté az [a, b ] itervallum vagy tartalmazza a θ paramétert, vagy em. A miták 1 α háyada a jó mita, amikor θ [a, b ]. Sok esetbe csak közelít leg 1 α megbízhatóságú kodecia itervallumot tuduk kostruáli. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 16 / 26
Becsléselmélet és adatok ábrázolása Itervallumbecslések Példák: Kodecia itervallumot egy X N(0, 1) változó értékére x α = Φ ( 1)( 1 α/2 ), a = x α, b = x α, P ( X [ x α, x α ] ) = P ( x α X x α ) = 2Φ(xα ) 1 = 1 α. Kodecia itervallumot egy X Studet() változó értékére x α = Φ ( 1) ( ) 1 α/2, a = xα, b = x α, P ( X [ x α, x α ] ) = P ( x α X x α ) = 2Φ(xα ) 1 = 1 α. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 17 / 26
Becsléselmélet és adatok ábrázolása Itervallumbecslések Példa: Kodecia itervallum egy véges szórású X változó µ = E(X ) várható értékre, ha a σ = D(X ) szórás ismert, x α = Φ 1( 1 α/2 ). Ha X 1,..., X N(µ, σ 2 ) FAE, akkor X N ( µ, σ 2 / ) X µ, σ/ N(0, 1), és így az alábbi valószí ség 1 α: ( P x α + µ X µ ) ) σ/ x σ σ α + µ = P (X x α µ X + x α Ha X általáos, akkor a cetrális határeloszlás-tételb l és így X µ σ D N(0, 1), ( 1 α P x α + µ X µ = P ) σ/ x α + µ (X x α σ µ X + x α σ ). Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 18 / 26
Hipotézisvizsgálat Alapfogalmak Hipotézisvizsgálat Adott egy X 1,..., X Nullhipotézis: H 0. Ellehipotézis: H 1. mita és két egymást kizáró állítás: Feltesszük, hogy vagy H 0 vagy H 1 igaz. Feladat: Dötsük el, hogy elfogadjuk vagy elvetjük H 0 -t. Nehézség: A véletle mita alapjá em állíthatuk biztosat. Els fajú hiba: P(elvetjük H 0 -t H 0 igaz). Másodfajú hiba: P(elfogadjuk H 0 -t H 0 em igaz). Legye 0 < α < 1 rögzített érték, (általába 0, 1, 0, 05, 0, 01,) ez a szigikacia szit, a próba szigora. Célok: Megbízhatóság: P(elfogadjuk H 0 -t H 0 igaz) = 1 α. Er : P(elvetjük H 0 -t H 0 em igaz) max. Rögzített α mellett, ha a mitaméret, akkor er 1. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 19 / 26
Hipotézisvizsgálat Alapfogalmak Legye Θ 0 Θ 1 = R, Θ 0 Θ 0 =, olya módo, hogy ) P ((X 1,..., X ) Θ 0 H 0 = 1 α. Ekkor elfogadjuk H 0 -t (X 1,..., X ) Θ 0. Elfogadási vagy kritikus tartomáy: Θ 0. Lehete ezt esetle egyszer bbe? Tekitsük egy próbastatisztikát: S = S (X 1,..., X ), és egy kritikus értéket: x α, (ez α mooto övekv függvéye.) úgy, hogy S x α (X 1,..., X ) Θ 0 elfogadjuk H 0 -t. Kérdés: Hogya teszteljük egyszerre több α szigikacia szite? Vegyük észre, hogy tetsz leges mita eseté, ha α elég kicsi, (tehát Θ 0 elég b,) akkor elfogadjuk H 0 -t; ha α elég agy, (tehát Θ 0 elég sz k,) akkor elvetjük H 0 -t. Adjuk meg azt a kritikus szigikacia szitet, mely alatt elfogadjuk, és mely fölött elvetjük a ullhipotézist. Ez az az α, melyre S = x α. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 20 / 26
Hipotézisvizsgálat Az u-próba Az u-próba Tegyük fel, hogy σ = D(X ) ismert, és legye Próbastatisztika, kritikus érték: H 0 : E(X ) = µ 0, H 1 : E(X ) µ 0. u = X µ 0 σ/, x α = Φ 1( 1 α/2 ). Tegyük fel, hogy H 0 igaz. Ha a háttéreloszlás ormális, akkor P ( ( ) ) σ σ u x α = P X x α µ 0 X + x α = 1 α. Ha H 0 igaz, de a háttéreloszlás em ormális, akkor P ( ( ) ) σ σ u x α = P X x α µ 0 X + x α 1 α. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 21 / 26
Hipotézisvizsgálat További paraméteres próbák További paraméteres próbák Legye X 1,..., X FAE mita, H 0 : E(X ) = µ 0, H 1 : E(X ) µ 0. Egymitás t-próba: A D(X ) szórás em ismert. Próbastatisztika, illetve az eloszlása ormális eloszlású mita eseté t = X µ 0 D(X )/ Studet( 1). Kritikus érték: x α = Φ 1 (1 α/2). Emlékeztet ül, a kodecia itervallum a várható értékre: [ D [a, b ] = X x (X ) D ] α, X + x (X ) α. Ekkor E(X ) [a, b ] x α t x α. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 22 / 26
Hipotézisvizsgálat További paraméteres próbák Legye X 1,..., X és Y 1,..., Y m két egymástól függetle mita, H 0 : E(X ) E(Y ) = µ 0, H 1 : E(X ) E(Y ) µ 0. Kétmitás t-próba: Feltétel: D(X ) = D(Y ). Próbastatisztika, illetve az eloszlása ormális esetbe: t,m = D,m X Y µ 0 Studet( + m 2), ( + m)/m ahol D,m = ( 1)Var (X ) + (m 1)Var m(y ) D(X ) = D(Y ). + m 2 Eek segítségével kodecia itervallum is adható az E(X ) E(Y ) külöbségre. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 23 / 26
Hipotézisvizsgálat További paraméteres próbák Legye X 1,..., X és Y 1,..., Y m két egymástól függetle mita, H 0 : E(X ) E(Y ) = µ 0, H 1 : E(X ) E(Y ) µ 0. Welch-próba: Nics feltétel. Próbastatisztika, illetve az eloszlása ormális esetbe: ahol t,m = X Y µ 0 Var (X )/ + Var m (Y )/m Studet(ν), ν = ( ) Var (X )/ + Var 2 m(y )/m ( ) Var 2/( ( ) (X )/ 1) + Var 2/(m. m(y )/m 1) Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 24 / 26
Hipotézisvizsgálat További paraméteres próbák Legyeek (X 1, Y 1 ),..., (X, Y ) FAE mitaelemek, H 0 : E(X ) E(Y ) = µ 0, H 1 : E(X ) E(Y ) µ 0. Páros t-próba: Nics feltétel. Próbastatisztika, illetve az eloszlása ormális esetbe: t = X Y µ 0 Var (X Y )/ Studet( 1). Tegyük fel, hogy az (X, Y ) vektor kompoesei függetleek. Mivel teszteljük H 0 -t, kétmitás t-próbával, (szükség eseté Welch-próbával,) vagy páros t-próbával? Válasz: A kétmitás t-próbáál agyobb a szabadsági fok, azért agyobb a próba ereje, azt érdemes választai. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 25 / 26
Hipotézisvizsgálat További paraméteres próbák F-próba: X 1,..., X és Y 1,..., Y m egymástól függetle miták, H 0 : D(X )/D(Y ) = σ 0, H 1 : D(X )/D(Y ) σ 0. Próbastatisztika, illetve az eloszlása ormális esetbe: f = Var (X ) Var m(y )σ 2 0 F 1,m 1. Kritikus értékek: x 1 = F 1,m 1 (α/2), x 2 = F 1,m 1 (1 α/2). Akkor fogadjuk el a ull-hipotézist, ha x 1 f x 2. F-próba egy mita eseté: X 1,..., X FAE, H 0 : D(X ) = σ 0, H 1 : D(X ) σ 0. Próbastatisztika, illetve az eloszlása ormális esetbe: f = Var (X )/σ 2 0 F 1,. Kritikus értékek, elfogadás: mit a kétmitás esetbe. Sz cs Gábor (SZTE, Bolyai Itézet) Statisztikai programcsomagok 2012. tavaszi félév 26 / 26