4. előadás. Statisztikai alkalmazások, Trendvonalak, regresszió. Dr. Szörényi Miklós, Dr. Kallós Gábor

Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Sz ekelyhidi L aszl o Val osz ın us egsz am ıt as es matematikai statisztika *************** Budapest, 1998

Gazdasági matematika II.

Statisztika március 11. A csoport Neptun kód

TANTÁRGYI ÚTMUTATÓ. Gazdasági matematika II. tanulmányokhoz

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 8. MA3-8 modul. A szórás és a szóródás egyéb mérőszámai

Dr. BALOGH ALBERT: AZ ÚJ STATISZTIKAI TERMINOLÓGIA

A fiatalok pénzügyi kultúrája Számít-e a gazdasági oktatás?

FIT-jelentés :: Intézményi jelentés. Összefoglalás

Kispesti Deák Ferenc Gimnázium

Mágneses szuszceptibilitás vizsgálata

Kispesti Deák Ferenc Gimnázium

Analízis elo adások. Vajda István október 3. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

WALTER-LIETH LIETH DIAGRAM

Illeszkedésvizsgálat

Kockázatkezelés és biztosítás

Elemi statisztika fizikusoknak

FIT-jelentés :: Intézményi jelentés. 8. évfolyam

Intézményi jelentés. Összefoglalás. Medgyessy Ferenc Gimnázium és Művészeti Szakközépiskola 4031 Debrecen, Holló László sétány 6 OM azonosító:

13. előadás. Matlab 7. (Statisztika, regresszió, mérési adatok feldolgozása) Dr. Szörényi Miklós, Dr. Kallós Gábor. Széchenyi István Egyetem

FIT-jelentés :: Szász Ferenc Kereskedelmi Szakközépiskola és Szakiskola 1087 Budapest, Szörény u OM azonosító: Intézményi jelentés

Azonosító jel: Matematika emelt szint

Elemi statisztika fizikusoknak

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Trigonometria

BIOMATEMATIKA ELŐADÁS

A mérési eredmény hibája

A döntő feladatai. valós számok!

Osztályozó és Javító vizsga témakörei matematikából 9. osztály 2. félév

Szakács Tamás Statisztika vizsgakérdések 2009.

MAGISTER GIMNÁZIUM TANMENET OSZTÁLY

Khi-négyzet próbák. Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet

FIT-jelentés :: Széchenyivárosi Óvoda és Általános Iskola 6000 Kecskemét, Lunkányi János u. 10. OM azonosító: Intézményi jelentés

Jelentéskészítő TEK-IK () Válaszadók száma = 610

Lineáris algebra gyakorlat

FIT-jelentés :: Zoltánfy István Általános Iskola 6772 Deszk, Móra F. u. 2. OM azonosító: Telephely kódja: 005. Telephelyi jelentés

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

A jelenség magyarázata. Fényszórás mérése. A dipólus keletkezése. Oszcilláló dipólusok. A megfigyelhető jelenségek. A fény elektromágneses hullám.

Milyen segítséget tud nyújtani a döntéshozatalban a nem-hagyományos jelfeldolgozás?

Sokféle matematikai és ezen kívül többféle kifejezetten statisztikai programcsomag

KOVÁCS BÉLA, MATEMATIKA I.

Bevezetés az ökonometriába

Fazekas Mihály Fővárosi Gyakorló Általános Iskola és Gimnázium

Jelentés a kiértékelésről az előadóknak

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

MELLÉKLET. A parancsikonok használata: Fıkomponens- és faktorelemzés. I : A fıkomponens- és a faktorelemzés indítása.

Matematika III. 7. Helyzetmutatók, átlagok, kvantilisek Prof. Dr. Závoti, József

- mit, hogyan, miért?

Bevezetés a lágy számítás módszereibe

Programozás I gyakorlat

1. Nyomásmérővel mérjük egy gőzvezeték nyomását. A hőmérő méréstartománya 0,00 250,00 kpa,

FIT-jelentés :: Bánki Donát Közlekedésgépészeti Szakközépiskola és Szakiskola 1138 Budapest, Váci út OM azonosító:

MATEMATIKA ÍRÁSBELI VIZSGA május 8.

Mérési hibák

Javítóvizsga témakörei matematika tantárgyból

Országos Középiskolai Tanulmányi Verseny 2011/2012 Matematika I. kategória (SZAKKÖZÉPISKOLA) Döntő. x 3x 2 <

Puskás Tivadar Távközlési Technikum

KOVÁCS BÉLA, MATEMATIKA I.

Csoportosított adatok megjelenítése sorhalmaz függvények használatával

GAZDASÁGI STATISZTIKA

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Operációkutatás. 2. konzultáció: Lineáris programozás (2. rész) Feladattípusok

Reiz Beáta április

A potenciális szélenergia és az időjárási frontok kapcsolata Magyarországon

FIT-jelentés :: 2014 Intézményi jelentés Összefoglalás Ady Endre-Bay Zoltán Középiskola és Kollégium

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Radon, Toron és Aeroszol koncentráció viszonyok a Tapolcai Tavas-barlangban

Kooperáció és intelligencia

Lineáris algebra jegyzet

A SZOCIOLÓGIA, MINT TUDOMÁNY

3. Egy szabályos dobókockát kétszer feldobva mennyi annak a valószínűsége, hogy a dobott számok különbségének abszolutértéke nagyobb mint 4?

HÁLÓZATSEMLEGESSÉG - EGYSÉGES INTERNET SZOLGÁLTATÁS-LEÍRÓ TÁBLÁZAT

Halmazok és függvények

Arany Dániel Matematikai Tanulóverseny 2011/2012-es tanév első (iskolai) forduló haladók I. kategória

Elméleti összefoglalók dr. Kovács Péter

A környezettan tantárgy intelligencia fejlesztő lehetőségei

Az előadás témakörei. A minőség fogalma. Alapfogalmak definíciói A minőségügy fejlődési lépcsői A minőség forrásai A minőséghurok

BOLYAI MATEMATIKA CSAPATVERSENY FŐVÁROSI DÖNTŐ SZÓBELI (2005. NOVEMBER 26.) 5. osztály

MATEMATIKA ÍRÁSBELI VIZSGA május 3.

Feladatok diszkriminancia anaĺızisre

Mutatószám alapú értékelés

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

1. forduló. MEGOLDÁSOK Pontszerző Matematikaverseny 2015/2016-os tanév

Párhuzamos programozás

A statisztika részei. Példa:

Szent István Közgazdasági Szakközépiskola és Kollégium

3. Térvezérlésű tranzisztorok

Conjoint-analízis példa (egyszerűsített)

VASÚTI PÁLYA DINAMIKÁJA

Diszkrét matematika I. gyakorlat

[GVMGS11MNC] Gazdaságstatisztika

Agrárgazdasági Kutató Intézet Piac-árinformációs Szolgálat. Borpiaci információk. III. évfolyam / 7. szám április

DPR Szakmai nap október 17. PTE Felnőttképzési és Emberi Erőforrás Fejlesztési Kar

Analízis elo adások. Vajda István szeptember 24. Neumann János Informatika Kar Óbudai Egyetem. Vajda István (Óbudai Egyetem)

GAZDASÁGI MATEMATIKA Gyakorlat

Dr. Balogh Albert: A statisztikai adatfeldolgozás néhány érdekessége

Emelt szintű érettségi feladatsorok és megoldásaik Összeállította: Szászné Simon Judit; dátum: november. I. rész

G Szabályfelismerés feladatcsomag

Épületvillamosság laboratórium. Villámvédelemi felfogó-rendszer hatásosságának vizsgálata

[MECHANIKA- HAJLÍTÁS]

Átírás:

4. előadás Statisztikai alkalmazások, Trendvonalak, regresszió Dr. Szörényi Miklós, Dr. Kallós Gábor 2013 2014 1

Tartalom Statisztikai alapfogalmak Populáció, mérési skálák, hisztogram Alapstatisztikák: átlag, módusz, medián, tapasztalati szórás Lapultság, ferdeség Korreláció Az Excel statisztikai (alap)függvényei Az adatelemzés bővítmény Példafeladat Alapstatisztikák, gyakoriság, leíró statisztika Trendvonalak Lineáris, polinomiális, logaritmikus és exponenciális közelítések Többváltozós regresszió 2

Statisztikai alapfogalmak (Statisztikai) populáció ~ alapsokaság population A vizsgálandó egyedek vagy objektumok adatainak az a (teljes) köre, amelyre a vizsgálat irányul, azaz amelyre következtetéseinket vonatkoztatni szeretnénk Minta sample A vizsgálandó egyedek vagy objektumok adatainak az a köre, amelyeket ténylegesen megvizsgálunk, azaz amelyeken következtetéseink alapulnak Megfigyelési egység observational vagy experimental unit A populáció, illetve a minta egy eleme, egy egyed vagy objektum adata, amelyet feljegyezünk (lehet egy ember vagy állat, egy vérminta, egyedek egy csoportja, pl. egy család, stb. adata) Változó variable Adat, jellemző, ismérv, tulajdonság, amelyet a mintabeli egyedeken megfigyelünk, megmérünk, feljegyzünk (életkor, testtömeg, kapott kezelés típusa, időtartama, stb.) A mintán megfigyelt adatokat az adatmátrix tartalmazza; szokásos elrendezésében minden sor egy mintavételi egységnek és minden oszlop egy változónak felel meg 3

Statisztikai alapfogalmak Mérési skálák measurement scales Nominális nominal csak kategóriák, se rendezés, se aritmetika (szemszín, foglalkozás) Ordinális ordinal rendezés van, aritmetika nincs ( jó közepes rossz, katonai rendfokozat) Intervallum interval a különbség értelmes, az arány nem ( C vagy ºF) Arány vagy abszolút rate, absolute az arány is értelmes, van abszolút 0 (testtömeg) Konverzió intervallum vagy abszolút skáláról ordinálisra Csoportosítás, pl. életkor helyett korcsoport, testtömeg helyett kicsiközepes-nagy, stb. vagy Rangsorolás (az adatokat sorba rendezzük és rangszámot rank adunk nekik), pl. 4

Statisztikai alapfogalmak Hisztogram histogram: tapasztalati sűrűségfüggvény Vízszintes tengelyén: osztályintervallumok, fölötte olyan téglalapok, amelyek területe megegyezik a megfelelő relatív, vagy százalékos gyakorisággal Így a hisztogram teljes területe 1, vagy 100% lesz Diszkrét változó esetén a változó értékei az intervallumok közepén helyezkednek el A hisztogram ha a minta elemszámát növeljük közelíti a valószínűségi változó elméleti sűrűségfüggvényét (Hisztogram helyett gyakorisági poligon is rajzolható) (Kumulatív hisztogram ~ tapasztalati eloszlásfüggvény) 5

Statisztikai alapfogalmak Alapstatisztikák Az eloszlás közepére vonatkozóak: az átlag, a medián és a módusz Átlag average, mean Legyenek a minta elemei x 1, x 2,, x n Ekkor: Az átlag az az érték, amely a legközelebb van a minta elemeihez A mintabeli értékek és a mintaátlag közti eltérések összege mindig 0 Módusz mode A leggyakrabban előforduló érték, jelölés: M 0 Medián median Sorbarendezett adatok középső eleme (50%-os vágóérték), jelölés: M e Percentilis: adott százalékos vágóérték Kvartilis (alsó, felső): 25, ill. 75%-os vágóérték Jelölés: Q 1 és Q 3, Q 2 a medián 6

Statisztikai alapfogalmak Alapstatisztikák (folyt.) Tapasztalati szórás és szórásnégyzet vagy más néven variancia variance A szórás a variancia négyzetgyöke (a képletben s a szórás, ennek négyzete pedig a variancia, s 2 ) A szórás azt mutatja meg, hogy az adataink átlagosan milyen távol helyezkednek el a számtani középtől Egyes esetekben csak normális eloszlásúnak tekinthető val. változó esetén az ún. korrigált tapasztalati szórást (Standard Deviation: SD) használjuk *Miért n 1-gyel osztunk: eggyel csökken a szabadsági fok (normális eloszlás) A programok általában használják a korrigált szórást is (nagy n esetén alig van eltérés, csak kicsi mintaelemszám esetén van szerepe) 7

Statisztikai alapfogalmak Alapstatisztikák (folyt.) Ha a mintából készített hisztogram elég jól közelíti a normális görbét, akkor a normális eloszlás táblázatából kiolvasható, hogy az ( x s, x + s) intervallumban van adataink kb. 68%-a (kb 2/3-a), az ( x 2 s, x + 2s) intervallumban van kb. 95%-a, az ( x 3 s, x + 3s) intervallumba pedig kb. 99,7%-uk esik (majdnem mind) Standard hiba (standard error, SE) teljes neve a mintaátlag standard hibája, azaz szórása (itt n a mintaelemszám): SE ( x) = SD( X ) / n Szemléletes jelentés: 100-szor több adatból 10-szer pontosabb statisztikai eredményt kapunk Matematikailag bizonyítható (Centrális határeloszlás tétel), hogy függetlenül a mintaelemek eloszlásától, a minta átlagának eloszlása mindig a normális eloszláshoz tart, és az átlag várható értéke a populáció várható értékével egyezik meg Kísérletsorozat: Az első felbukkanó szám nem rögzített, más és más lehet; de pl. tíz felbukkanó szám után már lehet tapasztalatokat levonni Pl. kérdőíves felmérésnél megbecsüljük, hogy hány adat alapján lehet kellően megbízható kijelentést tenni (a korlátot a populáció mérete is befolyásolja) De: egy bizonyos elemszám felett a becslés megbízhatósága már csak kevéssé javul (pártszimp. felmérés Mo-on, 1000 vagy 2000 fő majdnem mindegy, de a 2000 jóval drágább) 8

Statisztikai alapfogalmak Lapultság kurtosis Az eloszlás lapultságára, csúcsosságára vonatkozó statisztika Normális eloszlás esetén értéke 0, laposabb eloszlás esetén negatív, csúcsosabb eloszlás esetén pozitív Aszimmetria asymmetry ill. ferdeség skewness Az eloszlás aszimmetriájára, ill. ferdeségére vonatkozó statisztika Az aszimmetria mérhető a módusz és a medián segítségével is, x M 0 pl.: s Szimmetrikus esetben a mérőszámok értéke 0 (ekkor: módusz = medián és a kvartilisek átlaga = medián, de fordítva nem igaz a következtetés!) Aszimmetria: jobboldali kidudorodásnál negatív mérőszámok (jobboldali aszimmetria), baloldalinál pozitív Ferdeség: jobboldali kidudorodásnál szintén negatív mérőszámok (de: ez a balra ferde eloszlás) 9

Statisztikai alapfogalmak Korreláció correlation Két változó közötti kapcsolat erősségének mérőszáma ( együttfutás ) Pl. igaz-e, hogy ha kétszer akkora az autó tömege, akkor a fogyasztása is jóval nagyobb? Teljesül: 1 r 1 1 közeli értékek: erős kapcsolat; 1 közeli értékek: erős, de szembefutó kapcsolat; 0 közeli értékek: gyenge kapcsolat, függetlenség feltételezhető Ábrázolás: a pontokat összekötni nem szabad, de trendvonal húzható Kovariancia covariance R-négyzet Szintén változók közötti függőségek mérésére; a korreláció a kovariancia skálázott változata (osztjuk a szórásokkal) A korrelációs együttható négyzete, mindig nemnegatív 10

Az Excel statisztikai függvényei (Részben eml.: múlt félév) Átlag, Módusz, Medián, Kvartilis, Percentilis, Szórás, Var Kicsi, Nagy, Ferdeség, Csúcsosság Korrel, Kovar, Rnégyzet, Gyakoriság blokkfüggvény 11

Az Excel adatelemzés bővítménye Az Analysis ToolPak (Adatelemzés) bővítmény sok statisztikai lehetőséget kínál, néhány fontosabb (egyszerűbb): Leíró statisztika Korreláció-analízis Hisztogram Véletlenszám-generálás Többváltozós lineáris regresszió Statisztikai próbák Indítás: Adatok menüszalag Ha nem látjuk: bekapcsolás a szokásos módon (Fájl backstage) Ezután a megfelelő elem kiválasztható 12

Példafeladat (autók) Alapstatisztikák 13

Példafeladat (autók) Gyakoriság és hisztogram (tömeg) 14

Példafeladat (autók) Egyváltozós (leíró) statisztikák Numerikus adatokra kérhető 15

Példafeladat (autók) Korrelációs mátrix Elég a mátrix felét vizsgálni (pl. alsó háromszög) 16

Példafeladat (autók) Regressziós becslés az autók árára ár = a 1 *tömeg + a 2 *teljesítmény + + c Az együtthatók értéke becsülhető, de ez már egy munkás feladat Végül: a becsült ár és a tényleges ár összehasonlítható (alul- és túlárazott autók) 17

Trendvonal, regresszió Az Excel lehetővé teszi adatsorok tendenciáinak vizsgálatát, és előrejelzések is készíthetők A trend lehet: lineáris, polinomiális (többféle fok megadható), logaritmikus, exponenciális Kérhetjük a közelítő egyenlet és az R-négyzet értékének megjelenítését 18

Trendvonal, regresszió További információk pl. a hivatalos Office oldalról 19

Trendvonal, regresszió A legkisebb négyzetek módszere (szemléltetés) 20

Többváltozós regresszió Tipikus feladat: mérési vagy gazdasági adatokhoz minél pontosabban illeszkedő (összetettebb) függvényt kell találnunk, ahol a függvény bizonyos jellemzőit/tulajdonságait ismerjük A jelenség elméleti modellje alapján (szakmai gyakorlatból jövő tudás) Összetettebb: a függvény most nem sima lineáris, négyzetes vagy logaritmikus, hanem több tényezőből, tagból áll A mi mostani feladatunk Egy mérés eredménye zajjal terhelt Most az alapjel és a zajos jel is adott (a zaj nálunk véletlen számokkal generált) Készítsünk minél pontosabb regressziós függvényt, ha tudjuk, hogy a függvény ae -dx sin(bx + c) + e alakba írható, és nagyjából meg tudjuk becsülni az a, b, c, d, e paraméterek értékét Megoldás Felírjuk a regressziós közelítő függvény képletét Meghatározzuk a regressziós (négyzetes) eltérést pontonként Az eltérés négyzetösszegét a Solver segítségével minimalizáljuk 21

Többváltozós regresszió 22

Többváltozós regresszió 23