SZDT-03 p. 1/22 Számítógépes döntéstámogatás Statisztikai elemzés Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu
Előadás SZDT-03 p. 2/22
Rendelkezésre álló adatbázis SZDT-03 p. 3/22
SZDT-03 p. 4/22 A két legfontosabb, legtöbbet használt érték Az adatok az átlag (számtani közép) körül ingadoznak: ATLAG(x 1,...,x n ) = x = x 1+x 2 +...+x n n Szóródásukat pedig a szórás méri: SZORASP(x 1,...,x n ) = s = (x 1 x) 2 +...+(x n x) 2 n Az előbbi esetben a szobaszámok, lakás méretek lakás életkorok és eladási árak átlaga és szórása: ATLAG(E2 : E69) = 2,7szoba SZORASP(E2 : E69) = 1,26szoba ATLAG(F2 : F69) = 71,68m 2 SZORASP(F2 : F69) = 30,06m 2 ATLAG(G2 : G69) = 33,35v SZORASP(G2 : G69) = 23,97v ATLAG(H2 : H69) = 3, 54mFt SZORASP(H2 : H69) = 1, 39mFt
Pl. az előbbi táblázatból kiválasztott minta SZDT-03 p. 5/22
SZDT-03 p. 6/22 Becslések a mintaadatokból az alapsokaság adataira 1. ÁTLAG(alapsokaság adatai) ÁTLAG(mintaadatok), ez a becslés jó (torzítatlan) 2. SZÓRÁSP(alapsokaság adatai) SZÓRÁSP(mintaadatok), ez nem igazán (nem torzítatlan) 3. SZÓRÁSP(alapsokaság adatai) SZÓRÁS(mintaadatok), ez is jó becslés (torzítatlan) SZORAS(x 1,...,x n ) = s = (x1 x) 2 +... + (x n x) 2 n 1
SZDT-03 p. 7/22 Statisztikai függvények ATLAG(x 1 ;x 2 ;...;x n ) SZORASP(x 1 ;x 2 ;...;x n ) SZORAS(x 1 ;x 2 ;...;x n )
Összefüggések SZDT-03 p. 8/22
SZDT-03 p. 9/22 Korreláció KORREL({x 1 ;x 2 ;...;x n }; {y 1 ;y 2 ;... ;y n }) = R = n i=1 (x i x)(y i y) n i=1 (x i x) 2 n i=1 (y i y) 2 Az előbbi két esetben KORREL(F2 : F69; H2 : H69) = 0, 81 KORREL(G2; G69; H2 : H69) = 0,09 A korreláció néhány fontos tulajdonsága : 1 R +1 Ha az (x i,y i ) pontok egy egyenesre illeszkednek, akkor R = +1 vagy 1 attól függően, hogy az egyenes növekvő-e (a meredeksége pozitív) vagy csökkenő (a meredeksége negatív). Ha a két adatsor összetartozó adatai függetlenek egymástól, akkor R = 0 Tehát R 1 erős (lineáris) kapcsolatot jelent, R 0 pedig gyengét.
Összefüggések SZDT-03 p. 10/22
Összefüggések SZDT-03 p. 11/22
Összefüggések SZDT-03 p. 12/22
SZDT-03 p. 13/22 A görbe egyenlete Lineáris kapcsolatot feltételezve y = mx + b Polinomiális kapcsolat esetén y = a n x n +... + a 2 x 2 + a 1 x + b Exponenciális kapcsolat mellett y = bm x
SZDT-03 p. 14/22 Legkisebb négyzetek módszere regressziós egyenes illesztésére Adottak (x 1,y 1 );(x 2,y 2 );...;(x n,y n ) Keressük az ezekre legjobban illeszkedő, ezekhez legközelebbi y = mx + b egyenes m és b paramétereit. A két paramétert megadó Excel függvény a m;b = LIN.ILL(ismert y ok;ismert x ek;konstans;stat) Pl. a lakások mérete és eladási ára diagramon az egyenes két paramétere úgy számítható ki, hogy kijelöljük az A2 és B2 mezőket, beírjuk, hogy LIN.ILL(H2 : H69; F2 : F69) és a < Shift > és a < Ctrl > gombokat lenyomva tartva megnyomjuk az < Enter > gombot (sima < Enter > nem elég). Az eredmény
SZDT-03 p. 15/22 Exponenciális görbe illesztése y = bm x A két paramétert megadó Excel függvény a m;b = LOG.ILL(ismert y ok;ismert x ek;konstans;stat) Az előbbi példában a LOG.ILL(H2 : H69;F2 : F9) függvény értéke
SZDT-03 p. 16/22 Statisztikai függvények, összefoglalás KORREL(tomb1; tomb2) m;b = LIN.ILL(ismert_y ok tombje;ismert_x ek tombje; konstans; stat) m;b = LOG.ILL(ismert_y ok tombje;ismert_x ek tombje; konstans; stat) uj_y ok tombje = TREND(ismert_y ok;ismert_x ek tombje; uj_x ek tombje; konstans) uj_y ok tombje = NOV (ismert_y ok;ismert_x ek tombje; uj_x ek tombje; konstans)
SZDT-03 p. 17/22 Többváltozós lineáris regresszió Adatfelvétel (mérés vagy megfigyelés) során az egyes adatok több (k + 1 db) számból állnak, azaz (x 1 1 ;x1 2 ;...;x1 k ;y),(x2 1 ;x2 2 ;...;x2 k ;y2 ),...,(x n 1 ;xn 2 ;... ;xn k ;yn ) alakúak (n mérésünk, ill. megfigyelésünk volt). Keressük az ezekre legjobban illeszkedő lineáris függvény y = m 1 x 1 + m 2 x 2 +... + m k x k + b egyenletéhez az m 1 ;m 2 ;... ;m k ;b paramétereket. Az eladási ár a szobaszám, a nagyság és a kor függvényében olyan y = m 1 x 1 + m 2 x 2 + m 3 x 3 + b függvénnyel becsülhető, ahol a szobaszámhoz tartozó m 1, a nagysághoz tartozó m 2 és a korhoz tartozó m 3, valamint a b változó értékei LIN.ILL(H2 : H69; E2 : G69)
Gyakorlat SZDT-03 p. 18/22
Nevezetes folytonos eloszlások SZDT-03 p. 19/22
SZDT-03 p. 20/22 Egyenletes eloszlás Sűrűségfüggvénye: 0, ha x a, f(x) = 1, ha a < x b, b a 0, ha x > b Eloszlásfüggvénye: F(x) = P(ξ < x)= Várható értéke: M(ξ) = a+b 2 Szórása: D(ξ) = b a 12 0, ha x a, x a, ha a < x b, b a 1, ha x > b Feladat: Egy műszer a környezeti hőmérséklettől függően 6 10 s múlva lesz üzemképes. Legyen ξ a bekapcsolástól a működésig eltelt idő egyenletes eloszlású valószínűségi változó. Határozzuk meg az eloszlás jellemzőit és a várható értékekhez tartozó valószínűségét.
SZDT-03 p. 21/22 Exponenciális eloszlás Sűrűségfüggvénye: 0, ha x 0, f(x) = λe λx, ha x > 0 Eloszlásfüggvénye: F(x) = P(ξ < x)= 0, ha x 0, 1 e λx, ha x > 0 Várható értéke: M(ξ) = 1 λ Szórása: D(ξ) = 1 λ Pl. alkatrészek élettertama radioaktív bomlási folyamatok Feladat: Egy röntgenberendezés működési ideje a meghibásodásig exponenciális eloszlású. A folyamatot leíró valószínűségi változó várható értéke legyen 400 óra. Határozzuk meg a ξ valószínűségi változó sűrűség- és eloszlásfüggvényét.
SZDT-03 p. 22/22 Normális eloszlás Egy tetszőleges ξ valószínűségi változó normális eloszlású, ha sűrűségfüggvényére igaz, hogy f(x) = 1 σ (x µ)2 e 2π 2σ 2 Az eloszlás várható értéke: M(ξ) = µ Szórása: D(ξ) = σ 1. Feladat: Tegyük fel, hogy a lakosság körében a fehérvérsejtszám várható értéke 8000, a szórása 1200 és az értékek normális eloszlást követnek. Várhatóan a lakosság hány %-a esik a 7000 és 10000 érték közé? 2. Feladat: Az SE-en az egyik tárgyból a hallgatók 30%-a rendszerint megbukik a teszt során. A pontszámok eloszlása normálisnak tekinthető 72-es átlaggal és 6 pont szórással. Hány pontot kell szereznie egy hallgatónak, hogy biztosan átmenjen a vizsgán?