4. előadás Statisztikai alkalmazások, Trendvonalak, regresszió Dr. Szörényi Miklós, Dr. Kallós Gábor 2013 2014 1
Tartalom Statisztikai alapfogalmak Populáció, mérési skálák, hisztogram Alapstatisztikák: átlag, módusz, medián, tapasztalati szórás Lapultság, ferdeség Korreláció Az Excel statisztikai (alap)függvényei Az adatelemzés bővítmény Példafeladat Alapstatisztikák, gyakoriság, leíró statisztika Trendvonalak Lineáris, polinomiális, logaritmikus és exponenciális közelítések Többváltozós regresszió 2
Statisztikai alapfogalmak (Statisztikai) populáció ~ alapsokaság population A vizsgálandó egyedek vagy objektumok adatainak az a (teljes) köre, amelyre a vizsgálat irányul, azaz amelyre következtetéseinket vonatkoztatni szeretnénk Minta sample A vizsgálandó egyedek vagy objektumok adatainak az a köre, amelyeket ténylegesen megvizsgálunk, azaz amelyeken következtetéseink alapulnak Megfigyelési egység observational vagy experimental unit A populáció, illetve a minta egy eleme, egy egyed vagy objektum adata, amelyet feljegyezünk (lehet egy ember vagy állat, egy vérminta, egyedek egy csoportja, pl. egy család, stb. adata) Változó variable Adat, jellemző, ismérv, tulajdonság, amelyet a mintabeli egyedeken megfigyelünk, megmérünk, feljegyzünk (életkor, testtömeg, kapott kezelés típusa, időtartama, stb.) A mintán megfigyelt adatokat az adatmátrix tartalmazza; szokásos elrendezésében minden sor egy mintavételi egységnek és minden oszlop egy változónak felel meg 3
Statisztikai alapfogalmak Mérési skálák measurement scales Nominális nominal csak kategóriák, se rendezés, se aritmetika (szemszín, foglalkozás) Ordinális ordinal rendezés van, aritmetika nincs ( jó közepes rossz, katonai rendfokozat) Intervallum interval a különbség értelmes, az arány nem ( C vagy ºF) Arány vagy abszolút rate, absolute az arány is értelmes, van abszolút 0 (testtömeg) Konverzió intervallum vagy abszolút skáláról ordinálisra Csoportosítás, pl. életkor helyett korcsoport, testtömeg helyett kicsiközepes-nagy, stb. vagy Rangsorolás (az adatokat sorba rendezzük és rangszámot rank adunk nekik), pl. 4
Statisztikai alapfogalmak Hisztogram histogram: tapasztalati sűrűségfüggvény Vízszintes tengelyén: osztályintervallumok, fölötte olyan téglalapok, amelyek területe megegyezik a megfelelő relatív, vagy százalékos gyakorisággal Így a hisztogram teljes területe 1, vagy 100% lesz Diszkrét változó esetén a változó értékei az intervallumok közepén helyezkednek el A hisztogram ha a minta elemszámát növeljük közelíti a valószínűségi változó elméleti sűrűségfüggvényét (Hisztogram helyett gyakorisági poligon is rajzolható) (Kumulatív hisztogram ~ tapasztalati eloszlásfüggvény) 5
Statisztikai alapfogalmak Alapstatisztikák Az eloszlás közepére vonatkozóak: az átlag, a medián és a módusz Átlag average, mean Legyenek a minta elemei x 1, x 2,, x n Ekkor: Az átlag az az érték, amely a legközelebb van a minta elemeihez A mintabeli értékek és a mintaátlag közti eltérések összege mindig 0 Módusz mode A leggyakrabban előforduló érték, jelölés: M 0 Medián median Sorbarendezett adatok középső eleme (50%-os vágóérték), jelölés: M e Percentilis: adott százalékos vágóérték Kvartilis (alsó, felső): 25, ill. 75%-os vágóérték Jelölés: Q 1 és Q 3, Q 2 a medián 6
Statisztikai alapfogalmak Alapstatisztikák (folyt.) Tapasztalati szórás és szórásnégyzet vagy más néven variancia variance A szórás a variancia négyzetgyöke (a képletben s a szórás, ennek négyzete pedig a variancia, s 2 ) A szórás azt mutatja meg, hogy az adataink átlagosan milyen távol helyezkednek el a számtani középtől Egyes esetekben csak normális eloszlásúnak tekinthető val. változó esetén az ún. korrigált tapasztalati szórást (Standard Deviation: SD) használjuk *Miért n 1-gyel osztunk: eggyel csökken a szabadsági fok (normális eloszlás) A programok általában használják a korrigált szórást is (nagy n esetén alig van eltérés, csak kicsi mintaelemszám esetén van szerepe) 7
Statisztikai alapfogalmak Alapstatisztikák (folyt.) Ha a mintából készített hisztogram elég jól közelíti a normális görbét, akkor a normális eloszlás táblázatából kiolvasható, hogy az ( x s, x + s) intervallumban van adataink kb. 68%-a (kb 2/3-a), az ( x 2 s, x + 2s) intervallumban van kb. 95%-a, az ( x 3 s, x + 3s) intervallumba pedig kb. 99,7%-uk esik (majdnem mind) Standard hiba (standard error, SE) teljes neve a mintaátlag standard hibája, azaz szórása (itt n a mintaelemszám): SE ( x) = SD( X ) / n Szemléletes jelentés: 100-szor több adatból 10-szer pontosabb statisztikai eredményt kapunk Matematikailag bizonyítható (Centrális határeloszlás tétel), hogy függetlenül a mintaelemek eloszlásától, a minta átlagának eloszlása mindig a normális eloszláshoz tart, és az átlag várható értéke a populáció várható értékével egyezik meg Kísérletsorozat: Az első felbukkanó szám nem rögzített, más és más lehet; de pl. tíz felbukkanó szám után már lehet tapasztalatokat levonni Pl. kérdőíves felmérésnél megbecsüljük, hogy hány adat alapján lehet kellően megbízható kijelentést tenni (a korlátot a populáció mérete is befolyásolja) De: egy bizonyos elemszám felett a becslés megbízhatósága már csak kevéssé javul (pártszimp. felmérés Mo-on, 1000 vagy 2000 fő majdnem mindegy, de a 2000 jóval drágább) 8
Statisztikai alapfogalmak Lapultság kurtosis Az eloszlás lapultságára, csúcsosságára vonatkozó statisztika Normális eloszlás esetén értéke 0, laposabb eloszlás esetén negatív, csúcsosabb eloszlás esetén pozitív Aszimmetria asymmetry ill. ferdeség skewness Az eloszlás aszimmetriájára, ill. ferdeségére vonatkozó statisztika Az aszimmetria mérhető a módusz és a medián segítségével is, x M 0 pl.: s Szimmetrikus esetben a mérőszámok értéke 0 (ekkor: módusz = medián és a kvartilisek átlaga = medián, de fordítva nem igaz a következtetés!) Aszimmetria: jobboldali kidudorodásnál negatív mérőszámok (jobboldali aszimmetria), baloldalinál pozitív Ferdeség: jobboldali kidudorodásnál szintén negatív mérőszámok (de: ez a balra ferde eloszlás) 9
Statisztikai alapfogalmak Korreláció correlation Két változó közötti kapcsolat erősségének mérőszáma ( együttfutás ) Pl. igaz-e, hogy ha kétszer akkora az autó tömege, akkor a fogyasztása is jóval nagyobb? Teljesül: 1 r 1 1 közeli értékek: erős kapcsolat; 1 közeli értékek: erős, de szembefutó kapcsolat; 0 közeli értékek: gyenge kapcsolat, függetlenség feltételezhető Ábrázolás: a pontokat összekötni nem szabad, de trendvonal húzható Kovariancia covariance R-négyzet Szintén változók közötti függőségek mérésére; a korreláció a kovariancia skálázott változata (osztjuk a szórásokkal) A korrelációs együttható négyzete, mindig nemnegatív 10
Az Excel statisztikai függvényei (Részben eml.: múlt félév) Átlag, Módusz, Medián, Kvartilis, Percentilis, Szórás, Var Kicsi, Nagy, Ferdeség, Csúcsosság Korrel, Kovar, Rnégyzet, Gyakoriság blokkfüggvény 11
Az Excel adatelemzés bővítménye Az Analysis ToolPak (Adatelemzés) bővítmény sok statisztikai lehetőséget kínál, néhány fontosabb (egyszerűbb): Leíró statisztika Korreláció-analízis Hisztogram Véletlenszám-generálás Többváltozós lineáris regresszió Statisztikai próbák Indítás: Adatok menüszalag Ha nem látjuk: bekapcsolás a szokásos módon (Fájl backstage) Ezután a megfelelő elem kiválasztható 12
Példafeladat (autók) Alapstatisztikák 13
Példafeladat (autók) Gyakoriság és hisztogram (tömeg) 14
Példafeladat (autók) Egyváltozós (leíró) statisztikák Numerikus adatokra kérhető 15
Példafeladat (autók) Korrelációs mátrix Elég a mátrix felét vizsgálni (pl. alsó háromszög) 16
Példafeladat (autók) Regressziós becslés az autók árára ár = a 1 *tömeg + a 2 *teljesítmény + + c Az együtthatók értéke becsülhető, de ez már egy munkás feladat Végül: a becsült ár és a tényleges ár összehasonlítható (alul- és túlárazott autók) 17
Trendvonal, regresszió Az Excel lehetővé teszi adatsorok tendenciáinak vizsgálatát, és előrejelzések is készíthetők A trend lehet: lineáris, polinomiális (többféle fok megadható), logaritmikus, exponenciális Kérhetjük a közelítő egyenlet és az R-négyzet értékének megjelenítését 18
Trendvonal, regresszió További információk pl. a hivatalos Office oldalról 19
Trendvonal, regresszió A legkisebb négyzetek módszere (szemléltetés) 20
Többváltozós regresszió Tipikus feladat: mérési vagy gazdasági adatokhoz minél pontosabban illeszkedő (összetettebb) függvényt kell találnunk, ahol a függvény bizonyos jellemzőit/tulajdonságait ismerjük A jelenség elméleti modellje alapján (szakmai gyakorlatból jövő tudás) Összetettebb: a függvény most nem sima lineáris, négyzetes vagy logaritmikus, hanem több tényezőből, tagból áll A mi mostani feladatunk Egy mérés eredménye zajjal terhelt Most az alapjel és a zajos jel is adott (a zaj nálunk véletlen számokkal generált) Készítsünk minél pontosabb regressziós függvényt, ha tudjuk, hogy a függvény ae -dx sin(bx + c) + e alakba írható, és nagyjából meg tudjuk becsülni az a, b, c, d, e paraméterek értékét Megoldás Felírjuk a regressziós közelítő függvény képletét Meghatározzuk a regressziós (négyzetes) eltérést pontonként Az eltérés négyzetösszegét a Solver segítségével minimalizáljuk 21
Többváltozós regresszió 22
Többváltozós regresszió 23