Mérési adatok illesztése, korreláció, regresszió

Hasonló dokumentumok
Regressziós vizsgálatok

[Biomatematika 2] Orvosi biometria

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Korreláció és lineáris regresszió

Rácsvonalak parancsot. Válasszuk az Elsődleges függőleges rácsvonalak parancs Segédrácsok parancsát!

1. Görbe illesztés a legkissebb négyzetek módszerével

EGYENES ILLESZTÉSE (OFFICE

Számítógépes döntéstámogatás. Statisztikai elemzés

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Bevezetés a Korreláció &

Matematikai geodéziai számítások 6.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A leíró statisztikák

Regresszió számítás. Tartalomjegyzék: GeoEasy V2.05+ Geodéziai Kommunikációs Program

Matematikai geodéziai számítások 6.

EGYENES ILLESZTÉSE (OFFICE

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

A kálium-permanganát és az oxálsav közötti reakció vizsgálata 9a. mérés B4.9

Korrelációs kapcsolatok elemzése

Segítség az outputok értelmezéséhez

Regresszió számítás az SPSSben

1. Görbe illesztés a legkisebb négyzetek módszerével

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Adatok statisztikai értékelésének főbb lehetőségei

Többváltozós lineáris regressziós modell feltételeinek

BIOMATEMATIKA ELŐADÁS

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

[Biomatematika 2] Orvosi biometria

MATEMATIKA HETI 5 ÓRA

2. Rugalmas állandók mérése jegyzőkönyv javított. Zsigmond Anna Fizika Bsc II. Mérés dátuma: Leadás dátuma:

BIOMATEMATIKA ELŐADÁS

A mérési eredmény megadása

Változók közötti kapcsolat III.: a folytonos eset. Regresszió és korreláció.

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

Al-Mg-Si háromalkotós egyensúlyi fázisdiagram közelítő számítása

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

[S] v' [I] [1] Kompetitív gátlás

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Modern Fizika Labor. Fizika BSc. Értékelés: A mérés dátuma: A mérés száma és címe: 5. mérés: Elektronspin rezonancia március 18.

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Rugalmas állandók mérése

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉP SZINT Függvények

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

2. Hangfrekvenciás mechanikai rezgések vizsgálata jegyzőkönyv. Zsigmond Anna Fizika Bsc II. Mérés dátuma: Leadás dátuma:

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉP SZINT Függvények

Rugalmas állandók mérése (2-es számú mérés) mérési jegyzõkönyv

AZ EURÓÁRFOLYAM VÁLTOZÁSÁNAK HATÁSA NYUGAT- MAGYARORSZÁG KERESKEDELMI SZÁLLÁSHELYEINEK SZÁLLÁSDÍJ-BEVÉTELEIRE, VENDÉGFORGALMÁRA 2000 ÉS 2010 KÖZÖTT

Korreláció számítás az SPSSben

Mérési hibák

NYOMÁS ÉS NYOMÁSKÜLÖNBSÉG MÉRÉS. Mérési feladatok

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Rugalmas állandók mérése

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK KÖZÉPSZINT Függvények

Biometria gyakorló feladatok BsC hallgatók számára

2014/2015. tavaszi félév

Compton-effektus. Zsigmond Anna. jegyzıkönyv. Fizika BSc III.

Modern Fizika Labor. A mérés száma és címe: A mérés dátuma: Értékelés: Infravörös spektroszkópia. A beadás dátuma: A mérést végezte:

b) Ábrázolja ugyanabban a koordinátarendszerben a g függvényt! (2 pont) c) Oldja meg az ( x ) 2

Adatbányászati szemelvények MapReduce környezetben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

Hangfrekvenciás mechanikai rezgések vizsgálata

Alkalmazott statisztika feladatok

2.Előadás ( ) Munkapont és kivezérelhetőség

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatsor feldolgozása Scilab-bal

MATEMATIKA HETI 5 ÓRA. IDŐPONT: június 8.

Mágneses szuszceptibilitás mérése

Egyenletek, egyenlőtlenségek grafikus megoldása TK. II. kötet 25. old. 3. feladat

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Termoelektromos hűtőelemek vizsgálata

Nehézségi gyorsulás mérése megfordítható ingával

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

Folyadékszcintillációs spektroszkópia jegyz könyv

Függvények Megoldások

x = cos αx sin αy y = sin αx + cos αy 2. Mi a X/Y/Z tengely körüli forgatás transzformációs mátrixa 3D-ben?

Regresszió. Fő cél: jóslás Történhet:

Gyakorló feladatok a 2. zh-ra MM hallgatók számára

Több valószínűségi változó együttes eloszlása, korreláció

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

GEOSTATISZTIKA. Földtudományi mérnöki MSc, geofizikus-mérnöki szakirány. 2018/2019 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

Egyenletek, egyenlőtlenségek VII.

Kovács Ernő 1, Füvesi Viktor 2

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Mikroszkóp vizsgálata Folyadék törésmutatójának mérése

Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Megoldások

2. Rugalmas állandók mérése

Megoldások MATEMATIKA II. VIZSGA (VK) NBT. NG. NMH. SZAKOS HALLGATÓK RÉSZÉRE (Kérjük, hogy a megfelelő szakot jelölje be!

Átírás:

Mérési adatok illesztése, korreláció, regresszió

Korreláció, regresszió Két változó mennyiség közötti kapcsolatot vizsgálunk. Kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában, stb. mért különböző változó között? Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A kapcsolat szorosságát mérőszámmal jellemezzük: legelterjedtebb a korrelációs együttható, vagy Pearson-féle korrelációs együttható. Az együtthatót r-rel jelöljük, és a mérések közötti lineáris kapcsolat szorosságát méri.

Az alábbi táblázat alapján ábrázoljuk a matematika és a nyelvek iránti érdeklődést egy szóródási diagramon! A pontok közelítőleg egy egyenes mentén helyezkednek el. Ha ilyen a pontok elhelyezkedése, akkor azt mondjuk, hogy a változók között jó a korreláció.

A korrelációs együttható ( r) számítása Jelölje a két változóra vett mintát x i, y i Ekkor a korrelációs koefficiens a következő képlet szerint számítható ki: A korrelációs együttható tulajdonságai r mindig -11 és 1 között van. Ha a pontok nem fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r=0),vagy gyenge korreláció van közöttük ( r közel van 0-hoz). 0 Ha a pontok egy egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt mondjuk, hogy a két változó között szoros a korreláció.

A korrelációs koefficiens értéke független a mértékegységektől,, amelyekben a két változó meg van adva pl. testmagasság és testsúly közötti korreláció, mindegy, hogy milyen mértékegységben (kiló, font, cm, inch) vannak ezek megadva A korrelációs koefficiens értékét az outlier (kilógó) értékek igen erősen befolyásolják. Ezt minden esetben végig kell gondolni, az adatokat transzformálni, esetleg, ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet óvatosan korrigálni. Vigyázat! a 0,95-nél nagyobb r érték biológiai rendszerekben gyanús, elsősorban arra utal, hogy az egyik mért érték a másikból következik, ill. ez által determinált. Ezt az erősnek mért korrelációk esetén mindig meg kell gondolni.

A lineáris (Pearson( Pearson) ) korrelációs koefficiens kiszámíthatóságának feltételei I. A vizsgált egyének (állatok, minták, stb.) egy nagyobb populációból véletlenszerűen lettek kiválasztva. Minden vizsgált egyénnél megmérték mindkét (x és y) változót. A megfigyelések egymástól függetlenek. A vizsgált egyének kiválasztása egymást nem befolyásolja (nincs rokonsági kapcsolat). Nem tekinthetők független megfigyeléseknek, ha ugyanazt a vizsgálatot ugyanazokban az egyénekben megismételjük és ezeket különálló mintáknak tekintjük (a kettőt összevonjuk). Az x és y értékeknek is függetleneknek kell lenni egymástól.

A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei II. Ha az x változó szisztematikusan változik, pl. idő, koncentráció vagy dózis) akkor nem korrelációt, hanem lineáris regressziót kell számolni, bár ugyanazt az r és P értéket kapjuk, de a regresszióból több következtetés vonható le. Mind az x, mind az y mintáknak normál eloszlást mutató populációból kell származniuk. Ha ez nem áll fenn, akkor nem paraméteres eljárást (Spearman korrelációs koefficiens) kell végeznünk. Az x és az y végig egy irányban kell változzon. Pl. az r - nek semmi értelme akkor, ha az x növekedésével egy darabig nő az y, de a további növelés után csökkenni kezd. Sohasem szabad két populációból származó mintát kombinálni, mert ez ál-szignifikáns korrelációt fog mutatni, noha sem az egyik, sem a másik mintában külön-külön nincs kapcsolat a két változó között.

Lineáris regresszió Ha két változó kapcsolatának vizsgálatakor magas korrelációt kapunk, megpróbálhatjuk az összefüggést egy ideális egyenessel jellemezni - egy olyan egyenessel, amely a legjobban reprezentálja a lineáris kapcsolatot. Ekkor felírhatjuk az egyenes egyenletét, és ezt használhatjuk pl. arra, hogy megjósoljuk egy adott x értékhez az ideális y-t. A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehető legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függőleges távolsága négyzeteinek összege nagyobb volna. -> Legkisebb négyzetek módszere

Mi történik, ha az x és az y közötti összefüggés nem lineáris? 1. Meg kell próbálni úgy transzformálni az értékeket, hogy lineárissá váljon az összefüggés. 2. Ha ez nem lehetséges, a nem-lineáris regresszióval kell dolgozni. A nem-lineáris regresszió lényege egy egyenlet illesztése az adatokhoz és annak a vizsgálata, hogy az adatok illeszkednek-e az egyenlet által meghatározott görbéhez (lineáris regesszió: ugyanez egyenessel). A számítógépes programokba számos egyenlet be van építve, de lehetőség van saját egyenlet készítésére is.

Az előző táblázat alapján készített, a matematika és a nyelvek iránti érdeklődés szóródási diagramján illesszünk egyenest a pontokhoz! Első lehetőség : trendvonal felvétele Jobb klikk az adatpontokra Trendvonal felvétele a menüből Egyebek fülön Egyenlet és R-négyzet látszik kiválasztása Matematika iránti érdeklődés 600 550 500 450 400 350 y = 1.0163x + 15.51 R 2 = 0.9978 350 400 450 500 550 Nyelv iránti érdeklődés

Másik lehetőség : LIN.ILL függvény használata Bal klikk egy üres cellára A menüből Beszúrás->Függvény->LIN.ILL (statisztikai) Argumentumok megadása-> Kész A cella és a mellette lévő cella együttes kijelölése F2 Crtl+Shift+Enter : az egyenes meredeksége és y-tengely metszéspontja

1., Határozzuk meg a két folyó vízállásának átlagát! Időpont (óra) Tisza (m) Duna (m) 1 5,5 7 2 6,4 7,4 3 6,7 7 4 7 8,6 5 6,3 8,6 6 7,8 9 7 7,8 9,4 8 8,5 9 9 8,5 10,6 10 9,3 9 11 8,5 11 12 10 10,6 2., Ábrázoljuk a vízállást grafikonon! 3., Illesszünk egyenest a két függvényre! 4., Számoljuk ki, hogy mennyi lenne a vízállás értéke 24, 36 és 48 óra elteltével!

24 36 48 13,85 18,08 22,30 14,91 19,00 23,10

Teljesítmény (kg m/min) 100 200 300 400 500 600 Perctérfogtat (l/min) Perctérfogat (liter/min) 15 10 5 3,05 4,98 6,33 7,48 8,67 9,98 Perctérfogat 1., Ábrázoljuk a perctérfogatot a teljesítményfüggvényében! 2., Illesszünk rá egyenest! 3., Becsüljük meg a perctérfogatot 800 és 1100 kg m/min teljesítmény mellett! y = 1.3391x + 2.0613 R 2 = 0.9915 Együtthatókkal 0 vigyázni! 100 200 300 400 500 600 Az x tengely beosztása nem 1, 2, 3, stb.!!! Ilyenkor LIN.ILL fgv-nyel kell Teljesítmény (kg m/min) meghatározni a paramétereket! 0.01339 2.0613 m b

Az egyenes egyenletének megadásával határozzuk meg a becsült perctérfogat értékeket! Ábrázoljuk diagramon mindkét értéket! Perctérfogtat (l/min) 15 10 5 0 Teljesítmény (kg m/min) 100 200 300 400 500 600 Perctérfogat 100 200 300 400 500 600 Teljesítmény (kg m/min) Perctérfogat (liter/min) 3.05 4.98 6.33 7.48 8.67 9.98 Perctérfogat (liter/min) Becsült perctérfogat (liter/min) Becsült perctérfogat (liter/min) 3.40 4.74 6.08 7.42 8.76 10.10

Az egyenes pontjait a mérési tartományon túl is határozzuk meg! Ábrázoljuk diagramon mindkét értéket! Teljesítmény (kg m/min) 0 100 200 300 400 500 600 700 Perctérfogat (l/min) 14 12 10 8 6 4 2 3.05 0 Perctérfogat (liter/min) 4.980 200 4.7400 600 800 6.33 7.48 8.67 9.98 Becsült perctérfogat (liter/min) 2.06 3.40 Teljesítmény 6.08 (kg m/min) 7.42 8.76 10.10 11.43

Ábrázoljuk Ázsia lakosságának növekedését! Illesszünk egyenest, illetve exponenciális görbét a mérési adatokra! 1600 1400 1200 1000 y = 164.57x + 43.857 R 2 = 0.8824 y = 246.72e 0.233x R 2 = 0.9823 Ázsia 800 Lineáris (Ázsia) 600 Expon. (Ázsia) 400 200 0 1650 1700 1750 1800 1850 1900 1950

Határozzuk meg az adatokhoz illeszthető egyenes paramétereit a LIN.ILL függvény használatával! Határozzuk meg az adatokhoz illeszthető exponenciális görbe paramétereit a LOG.ILL függvény használatával! Egyenes paraméterei: Exponenciális görbe paraméterei: m b m b 3.29-5222 y=3.29*x-5222 az egyenes egyenlete 1.004 0.143 y=0.143*1.004 x az exponenciális görbe egyenlete Vigyázat! A LOG.ILL y=b*m x alakú függvényt illeszt!

Másik lehetőség: XY pontpárokként ábrázoljuk, ekkor helyes az x tengely skálázása, és helyes eredményt ad a trendvonal illesztése. 1600 1400 1200 y = 0.1427e 0.0047x R 2 = 0.9823 Ázsia 1000 800 y = 3.2914x - 5222.4 R 2 = 0.8824 600 400 200 0 Határozzuk meg Ázsia várható népességét 2000-ben, ha lineáris, 1600 1650 1700 1750 1800 1850 1900 1950 2000 illetve ha exponenciális növekedést tételezünk fel! Használjuk a HATVÁNY(szám;kitevő) vagy a KITEVŐ(szám) függvényeket!

Két sejttípus növekedését vizsgálták. 1., Ábrázoljuk a szaporodást grafikonon! 2., Illesszünk exponenciális görbét a mérési pontokra! Eltelt idő (nap) 1 2 3 4 5 6 7 8 9 10 1. sejttípus 250 4 200 6 11150 16 100 28 42 50 69 101 152 242 300 0 2. sejttípus 3 6 12 18 32 40 61 y = 2.461e 0.4682x R 2 = 0.9893 y = 2.6219e 0.4571x R 2 = 0.9982 11102 3 4 5 6 7 8 9 10 149 1. 250 sejttípus 2. sejttípus Expon. (2. sejttípus) Expon. (1. sejttípus)

A LOG.ILL függvény y=b*m x alakú függvényt illeszt. 1. sejttípus m 1.579518 b 2.621866 2. sejttípus 1.597121 2.461048

Tegyük fel, hogy az előbbi vizsgálatot nem naponként, hanem két naponként végezték. Eltelt idő (nap) 1 3 5 7 9 11 13 15 1. sejttípus 4 6 11 16 28 42 69 101 300 2. sejttípus 250 200 150 100 50 3 6 12 18 32 0 40 61 110 y = 2.461e 0.4682x R 2 = 0.9893 y = 2.6219e 0.4571x R 2 = 0.9982 1 3 5 7 9 11 13 15 17 19 1. sejttípus 2. sejttípus Expon. (1. sejttípus) Expon. (2. sejttípus) Ha diagramon 17 ábrázoljuk 152 és 149 az x értéktengelyt csak feliratozzuk, az illesztett 19 görbék 242 paraméterei 250 nem adnak helyes értéket!

1. lehetőség: xy pontpárokként ábrázolni az első adatsort, a másodikat hozzáadni. Ezután exponenciális trendvonal felvétele. S ejtek szám a 300 250 200 150 100 50 y = 3.2951e 0.2286x R 2 = 0.9982 y = 3.1102e 0.2341x R 2 = 0.9893 1. sejttípus 2. sejttípus Expon. (1. sejttípus) Expon. (2. sejttípus) 0 0 5 10 15 20 Eltelt idő (nap)

2. lehetőség: Diagramon ábrázoljuk, de az exponenciális görbe paramétereit a LOG.ILL függvénnyel határozzuk meg. m b 1.sejttípus 1.256 3.295 2.sejttípus 1.263 3.110 Határozzuk meg az egyes sejttípusokban a sejtek számát 25, 30, illetve 40 nap elteltével! Eltelt napok 30 35 40 1.sejttípus 3131 9819 30787 2.sejttípus 3490 11251 36270