BIOMATEMATIKA ELŐADÁS 3. Hibaszámítás, lineáris regresszió Debreceni Egyetem, 2015 Dr. Bérczes Attila, Bertók Csanád
A diasor tartalma 1 Hibaszámítás Hibák fajtái, definíciók Abszolút, relatív, öröklött hiba Műveleti tulajdonságok Differenciálszámítás alkalmazása 2 Lineáris regresszió Bevezetés, célok Képletek, biológiai példa
Hibaszámítás Az elméleti tudományokban a méréseket és a mért tulajdonságokat a hibátlan voltuk is jellemzi. A mért tömeg pontosan x gramm, a vizsgált populációban nincs egyetlen mutáns egyed sem, a magasság kivétel nélkül mindenhol y és z méter közé esik, stb. A gyakorlati alkalmazás során azonban ez sosem teljesül. A hibáknak több fő típusát lehet megkülönböztetni: 1 Emberi figyelmetlenségből adódó hiba. 2 A műszer tulajdonságaiból adódó hiba (kalibrációhoz, precizitáshoz köthető). 3 A mért tulajdonság időbeli változásából adódó hiba (folyadékvesztés miatti tömegcsökkenés). 4 Egyéb, nem kategorizálható hiba (elromlik a laborban a párásító, lejár a vegyszer szavatossága).
Hibaszámítás - Definíciók Megkülönböztetünk továbbá szisztematikus és véletlen hibákat. Az elsőt rendszerint nehezebb észrevenni. Közelítés A továbbiakban ha x 1,x 2,...,x n méréssel rendelkezünk, úgy azok közelítő értékéül az x := x 1 + x 2 +... + x n n számtani közepet fogadjuk el, míg az átlagos hiba mértékéül az ( x 1 ) σ := 2 +... + ( x n ) 2 n 1 számot használjuk, ahol x i := x x i (i = 1,...,n).
Hibaszámítás - abszolút, relatív hiba Legyen a vizsgált mennyiségünk pontos értéke X. Ezt természetesen nem tudjuk, csupán abban lehetünk biztosak, hogy ez létezik. Legyen továbbá a mért értékünk x (ez a közelítő érték). Definíció Egy δ x számot az x közelítő érték abszolút hibakorlátjának nevezünk, ha a közelítő érték a pontos értéktől δ x -nél biztosan nem tér el jobban, azaz: X x δ x. Megjegyzés Ismertebb jelölés az X = x ± δ x.
Hibaszámítás - abszolút, relatív hiba Ez még önmagában nem túl használható, hiszen ha futni megyünk és a megtett távolságot ±2km-es pontossággal adjuk meg, akkor nem mindegy, hogy 100km ± 2km, vagy 3km ± 2km a megtett táv. Definíció Az x 0 közelítő érték relatív hibakorlátja alatt az r x := δ x x számot értjük. A későbbiekben feltesszük, hogy a mért közelítő értékek pozitívak (negatív esetben hasonló gondolatmenetek igazak). Ez már sokkal reprezentatívabb érték, hiszen lényegében "százalékos" elven tudja megadni a hiba mértékét.
Hibaszámítás - öröklött hiba Ha egy adott hibával rendelkező értékkel újabb és újabb (esetleg szintén hibával rendelkező) számításokat végzünk, akkor a hibák egyrészt halmozódnak, másrészt öröklődnek a későbbi műveletekre. Példa Oldószerek fagyáspontját a bennük oldott vegyületek rendszerint csökkentik. Tegyük fel, hogy szeretnénk meghatározni egy vegyület móltömegét úgy, hogy a kámfor fagyáspontcsökkenését vizsgáljuk az M = g 2 1000E g 1 T képlet alapján, ahol M a móltömeg értéke, g 2 az oldott anyag, g 1 pedig a kámfor tömege (grammban), E a kámfor moláris fagyáspontcsökkenése, T pedig a fagyáspontcsökkenés C-ban.
Hibaszámítás - öröklött hiba Példa Legyenek a mért (ezalatt általunk mért és táblázatból kinézett értéket is értünk most) adatok és a hibakorlátok a következők: T = 16,6 ± 0,02 g 1 = 0,48 ± 0,005 g 2 = 0,026 ± 0,0002 E = 37,7 ± 0,05. Ha csak a közelítő értékekkel számolunk, akkor az M = 123,017 értéket kapjuk. Kérdés, hogy mennyi ennek a számított értéknek az abszolút és relatív hibája? Mielőtt a tényleges eredményt megadjuk szükségünk van az összeadás, kivonás, szorzás, osztás hibára gyakorolt hatására.
Hibaszámítás - műveleti tulajdonságok Összeg, különbség Legyenek adottak az X és Y pontos értékek, illetve a hozzájuk tartozó x és y közelítő értékek. Ekkor például az összeg abszolút hibakorlátja a (X + Y) (x + y) = (X x) + (Y y) X x + Y y δ x + δ y összefüggés alapján számolható, azaz δ x+y = δ x + δ y. Fontos: a különbség hibakorlátjára is a hibák összege érvényes, azaz δ x y = δ x + δ y. Összeg relatív hibája: δ { x+y x + y = max δx x, δ } y. y Különbség relatív hibája: a közelítő értékek eltérésétől függően tetszőlegesen nagy lehet.
Hibaszámítás - műveleti tulajdonságok Szorzat, hányados Felhasználva a háromszög-egyenlőtlenséget az alábbi összefüggés adható: XY xy XY Xy + Xy xy X (Y y) + y X x Xδ y + yδ x. Mivel X értéke nem ismert, így ezt x-el közelítjük, azaz szorzat abszolút hibakorlátja: δ xy = xδ y + yδ x. Szorzat relatív hibakorlátja: δ xy xy = δ x x + δ y y. Szintén a háromszög-egyenlőtlenség felhasználásával kiszámolható, hogy a hányados abszolút hibakorlátja: δ x y = xδ y + yδ x y 2. Hányados relatív hibakorlátja: δ x y x y = δ x x + δ y y.
Hibaszámítás - példa folytatása A KORÁBBAN ELKEZDETT PÉLDA FOLYTATÁSA Visszaemlékezve a képletekre és adatokra: M = g 2 1000E g 1 T M = 123,017 T = 16,6 ± 0,02 g 1 = 0,48 ± 0,005 g 2 = 0,026 ± 0,0002 E = 37,7 ± 0,05. Meghatározandó δ M értéke. Felhasználva a hányados és szorzat abszolút hibájára vonatkozó összefüggéseket: δ M = δ Eg 2 1000 g 1 T = 1000 Tg 1δ Eg2 + Eg 2 δ Tg1 ( Tg 1 ) 2 = = 1000 Tg 1(Eδ g2 + g 2 δ E ) + Eg 2 (g 1 δ T + Tδ g1 ) ( Tg 1 ) 2 =
Hibaszámítás - példa folytatása = 1000 [16,6 0,48(37,7 0,0002 + 0,026 0,05+ (16,6 0,48) 2 + 37,7 0,026(0,48 0,02 + 16,6 0,005)] = 2,5. Azaz δ M = 2,5. A relatív hiba így: δ M M = 2,5 = 0,020, tehát 2%. 123,017 Másik megoldás Másik megoldásként az abszolút hiba helyett a relatív hibát számoljuk ki először. Tekintve, hogy szorzatnál és hányadosnál is a relatív hibák összeadódnak, így sokkal egyszerűbb dolgunk van: δ M M = δ E E + δ g 2 g 2 + δ T T + δ g 1 g 1 = = 0,05 37,7 + 0,0002 0,026 + 0,02 16,6 + 0,005 0,48 = 0,0206.
Hibaszámítás - differenciálszámítás LEHET-E PONTOSABBAN SZÁMOLNI A MÉRÉSEK SORÁN FELLÉPŐ ÖRÖKLÖTT HIBÁKAT? A parciális deriváltakról egy mondatban Legyen f : R m R egy függvény (azaz m különböző változója van: f (x 1,x 2,...,x m ) =...). Ekkor az f függvény i-edik változója szerinti parciális derivált alatt azt a deriváltat értjük, melyben az x i kivételével minden változót konstansként kezelünk. Megjegyzés A fenti bekezdés természetesen nem precíz definíció (sőt, nem is definíció), de számunkra most elegendő lesz. Jelölés: i f, vagy df dx i.
Hibaszámítás - differenciálszámítás Példa Legyen f (x,y,z) = 3xy + 5xyz + 10xy 2. Ekkor f : R 3 R, így három parciális deriváltja van: x f, y f és z f : x f = 3y + 5yz + 10y 2 y f = 3x + 5xz + 20xy z f = 5xy Megjegyzés A parciális deriváltak hasznosak többváltozós függvények vizsgálatánál, illetve a statisztika és valószínűségszámítás eszköztárában is fontos feladatot látnak el. Kiemelt szerepük van a parciális differenciálegyenletek és a differenciálgeometria területén, így közvetve-közvetlenül szinte az összes természettudományban képviseltetik magukat.
Hibaszámítás - differenciálszámítás Legyen adott m számú mennyiség és a hozzájuk tartozó mért a 1,a 2,...,a m értékek. Legyen továbbá f : R m R az a függvény, mely a mért értékek ismeretében megadja a keresett tulajdonság közelítő értékét. Azt vizsgáljuk, hogy ha ismertek a δ ai értékek, úgy mit tudunk mondani δ f (a) -ról (a := (a 1,...,a m ))? Ha a tényleges, pontos értékeket A := (A 1,...,A m )-el jelöljük, úgy ha f differenciálható a-ban és a parciális deriváltak egyike sem 0, úgy az f (A) f (a) különbség igen pontosan közelíthető f (a)(a a)-val, ha A a kicsi (vö. derivált definíciója). Így: f (A) f (a) m i=1 i f (a) A i a i Azaz f abszolút hibakorlátja: δ f (a) = m i=1 m i=1 i f (a) δ ai. i f (a) δ ai
Hibaszámítás - a korábbi példa Számoljuk ki a korábbi feladatot a fenti módszerrel! f (a 1,a 2,a 3,a 4 ) = 1000a 4a 2, ahol a 1 a 3 (a 1,a 2,a 3,a 4 ) = (g 1,g 2, T,E) = (0,48;0,026;16,6;37,7) és δ T = 0,02;δ g1 = 0,005;δ g2 = 0,0002;δ E = 0,05 A parciális deriváltak: 1 f (a) = g 21000E g 2 = 257, 1 T Így: 2 f (a) = 1000E g 1 T = 4731, 3 f (a) = g 21000E g 1 ( T) 2 = 7,4, 4 f (a) = 1000g 2 g 1 T = 3,25. δ f (a) = 257 0,005 + 4731 0,0002+ + 7,4 0,02 + 3,25 0,05 = 2,54
Lineáris regresszió LINEÁRIS REGRESSZIÓ Célja, fogalma A lineáris regresszió két mennyiség közötti lineáris függvénykapcsolatot ír le, azaz megmondja, hogy az egyik paraméter változtatásának hatására, hogyan változik a másik paraméter. A biológiában leggyakrabban egy adott tulajdonság időbeli változásának vizsgálatára használják, feltéve, hogy a vizsgált tulajdonság az idő elteltével lineárisan (egyenletesen) változik.
Lineáris regresszió Megjegyzés A lineáris regresszió ún. valószínűségi változók közötti kapcsolatot vizsgál, így a matematikai statisztika egyik fontos eszköze. Mi az előadás és gyakorlat keretei között lényegesen felületesebben foglalkozunk vele. A továbbiakban mindig lineáris illesztésről lesz szó. Amennyiben adott két adatsor (pl. tömeg és idő, magasság és életkor, stb.), melyek közül az egyik függését vizsgáljuk a másik függvényében (pl. hogy függ a tömeg az időtől), úgy az alábbi egyszerű egyenlet írható fel: y(x) = mx + b, ahol y(x) a függő változó. Keresendő m és b értéke úgy, hogy az így kapott egyenes a lehető legjobban illeszkedjen az adatsorunkra.
Lineáris regresszió A statisztikai háttér magyarázata és a kapott képletek levezetése nélkül álljon itt az m és a b paraméter kiszámításához szükséges két összefüggés: m = n i=1 (x i x)(y i y) n i=1 (x i x) 2 b = y xm Példa Házi patkányok tömegét vizsgáljuk a születéstől eltelt napok függvényében. A vizsgált napok: 67,70,72,74,75,76,77,78,81,82,83,83,83,84,85, 86,86,86,87,89,89,91,91,91,92,92,94,95,96,96,96,97,97,99,100, 101,101,101,101,101,103,103,103,107,108,108,108,109,110,110, 110,111,112,113,114,114,115,115,116,116,123,126,126,127,135.
Lineáris regresszió A kapott adatok: 36,28,34,28,48,50,62,22,82,84,64,77,82,92,91, 65,75,76,68,80,110,72,91,129,92,98,115,80,96,108,146,118,121, 106,79,103,113,118,119,141,115,131,139,102,91,111,115,134, 113,124,129,140,145,147,126,132,142,157,126,138,149,142,164, 172, 156. Feladat: illesszünk regressziós egyenest az adott ponthalmazra. Első lépésben meg kell nézni, hogy a kapott adatok között valóban sejthető-e lineáris függés. Amennyiben nem, úgy másfajta (exponenciális, logaritmikus, stb.) regressziót alkalmazunk (vagy teljesen inkonzisztens adatok esetén semmit). Ehhez a legegyszerűbb mód, ha ábrázoljuk őket egy diagramon.
Lineáris regresszió
Lineáris regresszió Az ábrából látható, hogy a pontok közel lineárisan helyezkednek el, így alkalmazhatjuk a tanultakat. Következő lépésben ki kell számítani az eltelt idő és a tömegek átlagát. Jelöljük az időt x-el, a tömeget y-al. A számolásba belekalkuláljuk azt is, hogy valamelyik nap több mérést is végeztünk. Most az x = 97,954 y = 103,677 m = n i=1 (x i x)(y i y) n i=1 (x i x) 2 képlet alapján kiszámoljuk m értékét: m = 2,069. Végül a b = y xm összefüggésből b = ( 99, 019) adódik. Így a regressziós egyenes: y(x) = 2, 069x 99, 019.
Lineáris regresszió
Lineáris regresszió A LEGGYAKORIBB HIBÁK 1 Teljesen véletlenszerű adatokra egyenes illesztése. 2 Rossz illesztési modell (lineáris, exponenciális, logaritmikus, stb.) használata. 3 Hibás extrapoláció.