Mérési adatok illesztése, korreláció, regresszió
Korreláció, regresszió Két változó mennyiség közötti kapcsolatot vizsgálunk. Kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában, stb. mért különböző változó között? Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A kapcsolat szorosságát mérőszámmal jellemezzük: legelterjedtebb a korrelációs együttható, vagy Pearson-féle korrelációs együttható. Az együtthatót r-rel jelöljük, és a mérések közötti lineáris kapcsolat szorosságát méri.
Az alábbi táblázat alapján ábrázoljuk a matematika és a nyelvek iránti érdeklődést egy szóródási diagramon! A pontok közelítőleg egy egyenes mentén helyezkednek el. Ha ilyen a pontok elhelyezkedése, akkor azt mondjuk, hogy a változók között jó a korreláció.
A korrelációs együttható ( r) számítása Jelölje a két változóra vett mintát x i, y i Ekkor a korrelációs koefficiens a következő képlet szerint számítható ki: A korrelációs együttható tulajdonságai r mindig -11 és 1 között van. Ha a pontok nem fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r=0),vagy gyenge korreláció van közöttük ( r közel van 0-hoz). 0 Ha a pontok egy egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt mondjuk, hogy a két változó között szoros a korreláció.
A korrelációs koefficiens értéke független a mértékegységektől,, amelyekben a két változó meg van adva pl. testmagasság és testsúly közötti korreláció, mindegy, hogy milyen mértékegységben (kiló, font, cm, inch) vannak ezek megadva A korrelációs koefficiens értékét az outlier (kilógó) értékek igen erősen befolyásolják. Ezt minden esetben végig kell gondolni, az adatokat transzformálni, esetleg, ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet óvatosan korrigálni. Vigyázat! a 0,95-nél nagyobb r érték biológiai rendszerekben gyanús, elsősorban arra utal, hogy az egyik mért érték a másikból következik, ill. ez által determinált. Ezt az erősnek mért korrelációk esetén mindig meg kell gondolni.
A lineáris (Pearson( Pearson) ) korrelációs koefficiens kiszámíthatóságának feltételei I. A vizsgált egyének (állatok, minták, stb.) egy nagyobb populációból véletlenszerűen lettek kiválasztva. Minden vizsgált egyénnél megmérték mindkét (x és y) változót. A megfigyelések egymástól függetlenek. A vizsgált egyének kiválasztása egymást nem befolyásolja (nincs rokonsági kapcsolat). Nem tekinthetők független megfigyeléseknek, ha ugyanazt a vizsgálatot ugyanazokban az egyénekben megismételjük és ezeket különálló mintáknak tekintjük (a kettőt összevonjuk). Az x és y értékeknek is függetleneknek kell lenni egymástól.
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei II. Ha az x változó szisztematikusan változik, pl. idő, koncentráció vagy dózis) akkor nem korrelációt, hanem lineáris regressziót kell számolni, bár ugyanazt az r és P értéket kapjuk, de a regresszióból több következtetés vonható le. Mind az x, mind az y mintáknak normál eloszlást mutató populációból kell származniuk. Ha ez nem áll fenn, akkor nem paraméteres eljárást (Spearman korrelációs koefficiens) kell végeznünk. Az x és az y végig egy irányban kell változzon. Pl. az r - nek semmi értelme akkor, ha az x növekedésével egy darabig nő az y, de a további növelés után csökkenni kezd. Sohasem szabad két populációból származó mintát kombinálni, mert ez ál-szignifikáns korrelációt fog mutatni, noha sem az egyik, sem a másik mintában külön-külön nincs kapcsolat a két változó között.
Lineáris regresszió Ha két változó kapcsolatának vizsgálatakor magas korrelációt kapunk, megpróbálhatjuk az összefüggést egy ideális egyenessel jellemezni - egy olyan egyenessel, amely a legjobban reprezentálja a lineáris kapcsolatot. Ekkor felírhatjuk az egyenes egyenletét, és ezt használhatjuk pl. arra, hogy megjósoljuk egy adott x értékhez az ideális y-t. A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehető legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függőleges távolsága négyzeteinek összege nagyobb volna. -> Legkisebb négyzetek módszere
Mi történik, ha az x és az y közötti összefüggés nem lineáris? 1. Meg kell próbálni úgy transzformálni az értékeket, hogy lineárissá váljon az összefüggés. 2. Ha ez nem lehetséges, a nem-lineáris regresszióval kell dolgozni. A nem-lineáris regresszió lényege egy egyenlet illesztése az adatokhoz és annak a vizsgálata, hogy az adatok illeszkednek-e az egyenlet által meghatározott görbéhez (lineáris regesszió: ugyanez egyenessel). A számítógépes programokba számos egyenlet be van építve, de lehetőség van saját egyenlet készítésére is.
Az előző táblázat alapján készített, a matematika és a nyelvek iránti érdeklődés szóródási diagramján illesszünk egyenest a pontokhoz! Első lehetőség : trendvonal felvétele Jobb klikk az adatpontokra Trendvonal felvétele a menüből Egyebek fülön Egyenlet és R-négyzet látszik kiválasztása Matematika iránti érdeklődés 600 550 500 450 400 350 y = 1.0163x + 15.51 R 2 = 0.9978 350 400 450 500 550 Nyelv iránti érdeklődés
Másik lehetőség : LIN.ILL függvény használata Bal klikk egy üres cellára A menüből Beszúrás->Függvény->LIN.ILL (statisztikai) Argumentumok megadása-> Kész A cella és a mellette lévő cella együttes kijelölése F2 Crtl+Shift+Enter : az egyenes meredeksége és y-tengely metszéspontja
1., Határozzuk meg a két folyó vízállásának átlagát! Időpont (óra) Tisza (m) Duna (m) 1 5,5 7 2 6,4 7,4 3 6,7 7 4 7 8,6 5 6,3 8,6 6 7,8 9 7 7,8 9,4 8 8,5 9 9 8,5 10,6 10 9,3 9 11 8,5 11 12 10 10,6 2., Ábrázoljuk a vízállást grafikonon! 3., Illesszünk egyenest a két függvényre! 4., Számoljuk ki, hogy mennyi lenne a vízállás értéke 24, 36 és 48 óra elteltével!
24 36 48 13,85 18,08 22,30 14,91 19,00 23,10
Teljesítmény (kg m/min) 100 200 300 400 500 600 Perctérfogtat (l/min) Perctérfogat (liter/min) 15 10 5 3,05 4,98 6,33 7,48 8,67 9,98 Perctérfogat 1., Ábrázoljuk a perctérfogatot a teljesítményfüggvényében! 2., Illesszünk rá egyenest! 3., Becsüljük meg a perctérfogatot 800 és 1100 kg m/min teljesítmény mellett! y = 1.3391x + 2.0613 R 2 = 0.9915 Együtthatókkal 0 vigyázni! 100 200 300 400 500 600 Az x tengely beosztása nem 1, 2, 3, stb.!!! Ilyenkor LIN.ILL fgv-nyel kell Teljesítmény (kg m/min) meghatározni a paramétereket! 0.01339 2.0613 m b
Az egyenes egyenletének megadásával határozzuk meg a becsült perctérfogat értékeket! Ábrázoljuk diagramon mindkét értéket! Perctérfogtat (l/min) 15 10 5 0 Teljesítmény (kg m/min) 100 200 300 400 500 600 Perctérfogat 100 200 300 400 500 600 Teljesítmény (kg m/min) Perctérfogat (liter/min) 3.05 4.98 6.33 7.48 8.67 9.98 Perctérfogat (liter/min) Becsült perctérfogat (liter/min) Becsült perctérfogat (liter/min) 3.40 4.74 6.08 7.42 8.76 10.10
Az egyenes pontjait a mérési tartományon túl is határozzuk meg! Ábrázoljuk diagramon mindkét értéket! Teljesítmény (kg m/min) 0 100 200 300 400 500 600 700 Perctérfogat (l/min) 14 12 10 8 6 4 2 3.05 0 Perctérfogat (liter/min) 4.980 200 4.7400 600 800 6.33 7.48 8.67 9.98 Becsült perctérfogat (liter/min) 2.06 3.40 Teljesítmény 6.08 (kg m/min) 7.42 8.76 10.10 11.43
Ábrázoljuk Ázsia lakosságának növekedését! Illesszünk egyenest, illetve exponenciális görbét a mérési adatokra! 1600 1400 1200 1000 y = 164.57x + 43.857 R 2 = 0.8824 y = 246.72e 0.233x R 2 = 0.9823 Ázsia 800 Lineáris (Ázsia) 600 Expon. (Ázsia) 400 200 0 1650 1700 1750 1800 1850 1900 1950
Határozzuk meg az adatokhoz illeszthető egyenes paramétereit a LIN.ILL függvény használatával! Határozzuk meg az adatokhoz illeszthető exponenciális görbe paramétereit a LOG.ILL függvény használatával! Egyenes paraméterei: Exponenciális görbe paraméterei: m b m b 3.29-5222 y=3.29*x-5222 az egyenes egyenlete 1.004 0.143 y=0.143*1.004 x az exponenciális görbe egyenlete Vigyázat! A LOG.ILL y=b*m x alakú függvényt illeszt!
Másik lehetőség: XY pontpárokként ábrázoljuk, ekkor helyes az x tengely skálázása, és helyes eredményt ad a trendvonal illesztése. 1600 1400 1200 y = 0.1427e 0.0047x R 2 = 0.9823 Ázsia 1000 800 y = 3.2914x - 5222.4 R 2 = 0.8824 600 400 200 0 Határozzuk meg Ázsia várható népességét 2000-ben, ha lineáris, 1600 1650 1700 1750 1800 1850 1900 1950 2000 illetve ha exponenciális növekedést tételezünk fel! Használjuk a HATVÁNY(szám;kitevő) vagy a KITEVŐ(szám) függvényeket!
Két sejttípus növekedését vizsgálták. 1., Ábrázoljuk a szaporodást grafikonon! 2., Illesszünk exponenciális görbét a mérési pontokra! Eltelt idő (nap) 1 2 3 4 5 6 7 8 9 10 1. sejttípus 250 4 200 6 11150 16 100 28 42 50 69 101 152 242 300 0 2. sejttípus 3 6 12 18 32 40 61 y = 2.461e 0.4682x R 2 = 0.9893 y = 2.6219e 0.4571x R 2 = 0.9982 11102 3 4 5 6 7 8 9 10 149 1. 250 sejttípus 2. sejttípus Expon. (2. sejttípus) Expon. (1. sejttípus)
A LOG.ILL függvény y=b*m x alakú függvényt illeszt. 1. sejttípus m 1.579518 b 2.621866 2. sejttípus 1.597121 2.461048
Tegyük fel, hogy az előbbi vizsgálatot nem naponként, hanem két naponként végezték. Eltelt idő (nap) 1 3 5 7 9 11 13 15 1. sejttípus 4 6 11 16 28 42 69 101 300 2. sejttípus 250 200 150 100 50 3 6 12 18 32 0 40 61 110 y = 2.461e 0.4682x R 2 = 0.9893 y = 2.6219e 0.4571x R 2 = 0.9982 1 3 5 7 9 11 13 15 17 19 1. sejttípus 2. sejttípus Expon. (1. sejttípus) Expon. (2. sejttípus) Ha diagramon 17 ábrázoljuk 152 és 149 az x értéktengelyt csak feliratozzuk, az illesztett 19 görbék 242 paraméterei 250 nem adnak helyes értéket!
1. lehetőség: xy pontpárokként ábrázolni az első adatsort, a másodikat hozzáadni. Ezután exponenciális trendvonal felvétele. S ejtek szám a 300 250 200 150 100 50 y = 3.2951e 0.2286x R 2 = 0.9982 y = 3.1102e 0.2341x R 2 = 0.9893 1. sejttípus 2. sejttípus Expon. (1. sejttípus) Expon. (2. sejttípus) 0 0 5 10 15 20 Eltelt idő (nap)
2. lehetőség: Diagramon ábrázoljuk, de az exponenciális görbe paramétereit a LOG.ILL függvénnyel határozzuk meg. m b 1.sejttípus 1.256 3.295 2.sejttípus 1.263 3.110 Határozzuk meg az egyes sejttípusokban a sejtek számát 25, 30, illetve 40 nap elteltével! Eltelt napok 30 35 40 1.sejttípus 3131 9819 30787 2.sejttípus 3490 11251 36270