Populációbecslések és monitoring 2. előadás tananyaga

Hasonló dokumentumok

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Statisztika, próbák Mérési hiba

Matematikai statisztikai elemzések 5.

6. AZ EREDMÉNYEK ÉRTELMEZÉSE

Elméleti összefoglalók dr. Kovács Péter

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

KVANTITATÍV MÓDSZEREK

11. Matematikai statisztika

Matematikai statisztikai elemzések 2.

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

Statisztikai módszerek

GAZDASÁGI STATISZTIKA

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

Variancia-analízis (folytatás)

OTKA szakmai zárójelentés

Alapfogalmak áttekintése. Pszichológiai statisztika, 1. alkalom

SZÁMOLÁSTECHNIKAI ISMERETEK

Reiczigel Jenő,

Ittfoglalomösszea legfontosabbtudnivalókat, részleteka honlapon, illetvea gyakorlatvezetőtől is kaptok információkat.

statisztikai menürendszere Dr. Vargha András 2007

Visszatérítő nyomaték és visszatérítő kar

Legénytoll a láthatáron II.

Bevezetés az ökonometriába

Matematikai statisztikai elemzések 6.

KOVÁCS BÉLA, MATEMATIKA I.

Vargha András PSZICHOLÓGIAI STATISZTIKA DIÓHÉJBAN 1. X.1. táblázat: Egy iskolai bizonyítvány. Magyar irodalom. Biológia Földrajz

EGÉSZSÉGÜGYI DÖNTÉS ELŐKÉSZÍTŐ

Kísérletek Készítette: Kiss Anett

Szeminárium-Rekurziók

LADÁNYI ERIKA A SZENVEDÉLYBETEGEK NAPPALI ELLÁTÁST NYÚJTÓ INTÉZMÉNYEIRŐL

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 7. MA3-7 modul. Helyzetmutatók, átlagok, kvantilisek

14-469/2/2006. elıterjesztés 1. sz. melléklete. KOMPETENCIAMÉRÉS a fıvárosban

OPERÁCIÓKUTATÁS, AZ ELFELEDETT TUDOMÁNY A LOGISZTIKÁBAN (A LOGISZTIKAI CÉL ELÉRÉSÉNEK ÉRDEKÉBEN)

Járási népesség-előreszámítás 2051-ig

A csõdelõrejelzés és a nem fizetési valószínûség számításának módszertani kérdéseirõl

Parciális differenciálegyenletek numerikus módszerei számítógépes alkalmazásokkal Karátson, János Horváth, Róbert Izsák, Ferenc

Szerzõ: Vizi István 1

gyógypedagógus, SZT Bárczi Gusztáv Egységes Gyógypedagógiai Módszertani Intézmény 2

ACÉLÍVES (TH) ÜREGBIZTOSÍTÁS

Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások

A TERMELÉSI FOLYAMATOK HATÉKONY ÉS OPTIMÁLIS IRÁNYÍTÁSA A KOMPLEX MÓDSZER ALKALMAZÁSÁVAL

Monte Carlo módszerek

Csődvalószínűségek becslése a biztosításban

Komputer statisztika gyakorlatok

On-line értékelési módszerek II. Lengyelné Molnár Tünde

Növelhető-e a csőd-előrejelző modellek előre jelző képessége az új klasszifikációs módszerek nélkül?

Elsôfokú egyenletek, egyenletrendszerek, egyenlôtlenségek

KIFEJEZÉSE: A GAMMA KOEFFICIENS. Csapó Benő Szegedi Tudományegyetem, Neveléstudományi Tanszék MTA-SZTE Képességkutató Csoport

STATISZTIKA PRÓBAZH 2005

Közbeszerzési referens képzés Gazdasági és pénzügyi ismeretek modul 1. alkalom. A közgazdaságtan alapfogalmai Makro- és mikroökonómiai alapfogalmak

SZENT ISTVÁN EGYETEM

A villamosenergia-szolgáltatással kapcsolatos fogyasztói elégedettség mérésének évi eredményei

4. modul Poliéderek felszíne, térfogata

Hosszú élettartamú fényforrások megbízhatóságának vizsgálata Tóth Zoltán. 1. Bevezetés

Az erdélyi magyar kulturális intézményrendszerrõl

A KÖRNYEZETI INNOVÁCIÓK MOZGATÓRUGÓI A HAZAI FELDOLGOZÓIPARBAN EGY VÁLLALATI FELMÉRÉS TANULSÁGAI

Érettségi vizsgatárgyak elemzése tavaszi vizsgaidőszakok FÖLDRAJZ

Statisztikai módszerek alkalmazása az orvostudományban. Szentesi Péter

A tanulás affektív tényezõi. Józsa Krisztián. Fejes József Balázs

Vasúti szállítás és infrastruktúra I.

AJÁNLÁSA. a központi közigazgatási szervek szoftverfejlesztéseihez kapcsolódó minőségbiztosításra és minőségirányításra vonatkozóan

Csicsman József-Sipos Szabó Eszter Matematikai alapok az adatbányászati szoftverek első megismeréséhez

Annak ellenére, hogy a számítógépes szövegszerkesztés az utóbbi 10 évben általánossá vált, az irodai papírfelhasználás

Veres Judit. Az amortizáció és a pénzügyi lízingfinanszírozás kapcsolatának elemzése a lízingbeadó szempontjából. Témavezető:

Illeszkedésvizsgálat χ 2 -próbával

MUNKAANYAG. Mohácsi Csilla. A víz- keretirányelvekben megfogalmazott követelmények

Matematikai statisztikai elemzések 1.

2. MÉRÉSELMÉLETI ISMERETEK

Vári Péter-Rábainé Szabó Annamária-Szepesi Ildikó-Szabó Vilmos-Takács Szabolcs KOMPETENCIAMÉRÉS 2004

IFJÚSÁG-NEVELÉS. Nevelés, gondolkodás, matematika

Megjelent: Magyar Földrajzi Konferencia tudományos közleményei (CD), Szeged, 2001

EMMI szakmai irányelv. az egészség-gazdaságtani elemzések készítéséhez

1. A kutatás célja, a munkatervben vállalt kutatási program ismertetése

Vállalati logisztikai menedzsment. 3. rész segédlet

III/1. Kisfeszültségű vezetékméretezés általános szempontjai (feszültségesés, teljesítményveszteség fogalma, méretezésben szokásos értékei.

Kecskeméti Fıiskola GAMF Kar Informatika Tanszék. Johanyák Zsolt Csaba

Bevezetés a statisztikai hipotézisvizsgálatba

Topográfia 7. Topográfiai felmérési technológiák I. Mélykúti, Gábor

Elemi matematika szakkör

Az enyhe értelmi fogyatékos fővárosi tanulók 2009/2010. tanévi kompetenciaalapú matematika- és szövegértés-mérés eredményeinek elemzése

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

AZ ÁLTALÁNOS ISKOLÁSOK IDEGENNYELV-TANULÁSI ATTITŰDJEI ÉS MOTIVÁCIÓJA

SZENT ISTVÁN EGYETEM GÖDÖLLŐ. DOKTORI (PhD) ÉRTEKEZÉS - TÉZISFÜZET

Regionális és megyei szakiskolai tanulói létszámok meghatározása

FELTÉTELES VALÓSZÍNŰSÉG, TELJES VALÓSZÍNŰSÉG TÉTELE, BAYES TÉTELE

A TALAJOK PUFFERKÉPESSÉGÉT BEFOLYÁSOLÓ TÉNYEZŐK ÉS JELENTŐSÉGÜK A KERTÉSZETI TERMESZTÉSBEN

A REJTETT GAZDASÁG KITERJEDÉSE 1997-BEN*

Regressziószámítás alkalmazása kistérségi adatokon

Mintapéldák és gyakorló feladatok

ADATBÁZISKEZELÉS ADATBÁZIS

Szakál Ferenc Pál A szükséges pedagógus-státuszok számításának változásai és egyéb összefüggései

CSESZNÁK ANITA * I. A VÁLTOZÓK KÖZÖTTI KAPCSOLATOK FELTÁRÁSA

Tehetséggondozás a munkahelyen

II. A következtetési statisztika alapfogalmai

Felügyelet nélküli, távtáplált erősítő állomások tartályainak általánosított tömítettségvizsgálati módszerei

INTELLIGENS ADATELEMZÉS

A hazai jövedelemegyenlõtlenség fõbb jellemzõi az elmúlt fél évszázad jövedelmi felvételei alapján*

4. Hazai kísérletek a lokális térségek versenyképességének elemzésére

Diplomás pályakezdők várható foglalkoztatása és bérezése a versenyszektorban magyarországi cég körében végzett felmérés elemzése gyorsjelentés

A foglalkoztatottság és a munkanélküliség szerkezetét befolyásoló társadalmi-területi tényezők

Átírás:

Populációbecslések és monitoring 2. előadás tananyaga 1. A becslések szerepe az ökológiában. (Demeter és Kovács 1991) A szabadon élő állatok egyedszámának kérdése csak bizonyos esetekben merül fel. De ha már felvetődik, akkor nyilvánvalóan úgy fogalmazódik meg, hogy hány darab állat él az adott időben és az adott területen a kérdéses fajból? Látszólag e kérdés megválaszolása egy rendkívül egyszerű számtani műveletet igényel: a számlálást (idegen szóval enumeráció vagy cenzus). Ez a művelet bizonyos esetekben - mondjuk egy szobai akvárium halain - viszonylag egyszerűen el is végezhető. De a számláló nehézségekkel találná magát szemben, ha ugyanezt a számlálást egy tavon éppen látható tőkés récéken akarná elvégezni. Ugyanis az állatoknak az a sajátsága, hogy állandó helyváltoztatásra képesek, nagymértékben zavarhatja a számlálást. Fényképezőgéppel persze meg lehet könnyíteni az egyszerre nagy számban megjelenő állatok számlálását. Csak kivételes esetekben adatik meg az a szerencse, hogy a növényekhez hasonlóan az állatok egyhelyben ülve várják meg, hogy számba vegyék őket. Azért persze ilyen is akad: pl. egy temető nedves kőfalán lassan csúszkáló csigákat, vagy egy tengerparti sziklára tapadó csészecsigákat elég könnyű megszámlálni. Azonban nem minden botanikus dolga irigylésre méltó: a vízben lebegő algákat kutató algológusok velünk egy cipőben járnak! Még nehezebb dolga van annak, aki valamilyen indíttatásból mégiscsak rászánja magát, hogy németcsótányait sorra megszámlálja. Ezek az állatok ugyanis nemcsak azzal zavarják a számlálót, hogy rendkívül gyorsan mozognak, hanem azzal is, hogy a leglehetetlenebb helyekre képesek elrejtőzni. A teljes számlálással tehát a legritkább esetben lehet szabadon élő állatok populációinak létszámát megismerni. Persze nem lehetetlen. De a temetői csigákra visszatérve, ha egy többszáz méteres falról van szó, akkor meglehetősen nagy feladatot jelenthet. Az esetek többségében a teljes számlálás olyan ráfordítással jár, amely már eleve megkérdőjelezi annak kivitelezhetőségét. Ha tehát le kell mondanunk arról, hogy az összes egyedet megszámoljuk, közvetett módon kell következtetnünk a populáció nagyságára. Kellő tapasztalatokkal rendelkező ember képes sokszor igen reálisan "vélekedni" a kérdéses populáció nagyságáról. Mivel azonban egyáltalán nem biztos, hogy minden állatot meglátunk vagy észlelünk, rendszerint még a nagy gyakorlattal rendelkező személyek is alábecsülik a populáció nagyságát. A következtetés fontosságára szolgáljon tanulságként a következő eset, ami az egyedszámbecslés problematikájának ma már klasszikus példája (ANDERSEN 1953): Dánia egy bizonyos részén felkérték a területet jól ismerő hivatásos vadászokat, hogy mérjék fel a 3,5 km 2 -nyi erdőben élő őzek számát. Mivel ezek az emberek sok időt töltöttek ebben az erdőben, várható volt, hogy feltételezésük meg fogja közelíteni a valóságot, más szóval megbízható lesz. A hivatásos vadászok szerint megközelítőleg 70 őz élt az erdőben. Amikor a populációt rövid időn belül teljesen kilőtték, bebizonyosodott, hogy az erdőben több mint 213 őz volt. Ez hozzávetőlegesen háromszorosa az előzetes véleményeknek. Az ilyenfajta vélekedést legjobb esetben is csak megközelítő felmérésnek" lehet nevezni. Legnagyobb hibája a teljesen ellenőrizhetetlen bizonytalanság. Mindezen hiányossága ellenére nagyon sok esetben ez az egyedüli lehetőség arra, hogy a populáció nagyságáról valamit is mondjunk. Az előzőekben említett tőkés réce számlálási példánál maradva, ha az egyedek nagy tömegben vannak jelen, valószínűleg a számlálás eleve kudarcra van ítélve, ezáltal automatikusan átmegy a megközelítő felmérésbe. Az ornitológusok az effajta vélekedést a létszámról gyakorta alkalmazzák (pl. 3000 daru szállt be éjszakázni). De valójában hasonló módszerrel gyűjtik a vadlétszám adatait a vadászok és vadgazdálkodási szakemberek is. Ez akkor válhat veszélyessé, ha fenntartás nélkül, az

ellenőrizhetetlenséget figyelmen kívül hagyva becslésként értelmezzük ezeket az adatokat. E zavarforrást elkerülendő, jelen kötetben a becslés szót kizárólag statisztikai terminusként használjuk és ezért ragaszkodunk -jobb híján- a nem éppen szerencsés "megközelítő felmérés" elnevezéshez. A megközelítő felmérés nem más, mint kényszerpálya, sokszor egyenesen zsákutca. Valójában azzal ámítjuk magunkat, hogy megszámláltuk populációnk egyedeit, holott pusztán egy szubjektív benyomás alapján adunk egy számszerű értéket. Bizonyos esetekben a megközelítő felmérés kényszerpályája sem járható. Ez leginkább a rejtett életmódot folytató fajok esetében nyilvánvaló. Ki vállalkozna arra, hogy az előbbiekben említett német csótány populáció nagyságát, vagy egy ligetes erdő kirajzó májusi cserebogarainak számát kitalálja? Valószínűleg senki. De ha mégis, akkor a fentebb leírt őzszámlálási példa alapján joggal kételkedhetnénk a közölt számban. Ha az egyedek megszámlálása nem járható út, és a megközelítő felmérés kényszerpályáját bizonytalansága miatt nem vállaljuk, eredeti kérdésünkre egyedül a mintavételi eljárás adja meg a választ. Ez az eljárás magában foglalja a kérdéses populáció mintavételezését, az adatok gyüjtését és végül a becslést, valamint a következtetést, amit nem pusztán a mintára, hanem az egész populációra vonatkoztatnak. Logikai alapon az ilyen típusú következtetésekre a bizonytalanság jellemző. Ha azonban az alkalmazott eljárás eleget tesz bizonyos statisztikai alapelveknek, következtetésünk bizonyossága, vagy éppenséggel bizonytalansága mérhetővé válik. A statisztikai értelemben vett becslésnek ez az a jellemzője, amely - képletesen szólva - megkoronázza a mintavételi eljárást. A biometria (a matematika.i statisztika biológiai alkalmazásainak tudománya) fejlődése, valamint az ökológiai vizsgálatok iránti megnövekedő igény az 1930-as, 1940-es évektől kezdve felgyorsította az egyedszám becslési módszerek fejlödését is. Az egyszerű, ad hoc modellektől az út az egyre bonyolultabb matematikai modellek felé vezetett. A sokszor már rendkívül kifinomult megoldások bizony a terepbiológusok számára egyre növekvő kihívást jelentettek. Az elmúlt két évtizedben újabb fellendülést jelentett a számítógépek rohamos elterjedése. Ezek segítségével a rabszolgamunka, a tömeges számítások manuális elvégzése egyszerűsödött, hihetetlenül felgyorsult. Hamarosan kiderült azonban, hogy a "konyhakész" számítógép programok sem használhatók anélkül, hogy a felhasználók ne lennének tisztában az egyedszámbecslés alapvető kérdéseivel. A hosszú fejlődés ellenére, a ma rendelkezésre álló módszerek végső soron néhány rendkívül egyszerű alapelvre épülnek. Ezekre az alapelvekre, mint szerkezeti vázra viszont rendkívül sokféle létszámbecslési modell építhető, hasonlóan egy összerakható játékhoz. Ma a módszerek színes palettája szinte zavarba ejti a választás előtt álló terepbiológust. Ezen az sem segít, hogy könyvtárnyi, szó szerint szobát megtöltő irodalma van a szakterületnek. A fejlődés eredményeképpen a populációk nagyságának és sűrűségének becslése egy speciális területévé vált a kvantitatív (a törvényszerűségeket számszerűleg elemző) ökológiának. De nemcsak az alapkutatás profitál e szakterület eredményeiből. A vadgazdálkodás, a nyíltvízi halászat, a növényvédelmi állattan és az ökológiai hatástanulmányok számára is rendkívül fontos, hiszen gazdálkodási terveket, kezelési előírásokat, természet átalakító beruházásokhoz szükséges ökológiai hatástanulmányokat lehetetlen készíteni helytálló alapadatok hiányában. Az ökológiai hatástanulmányoknál gyakran eldöntendő kérdés az, hogy a természeti beavatkozás előtti és utáni populációnagyság különbsége a hatásnak, vagy pedig a véletlennek, esetleg mintavételi hibának tulajdonítható. A nem eléggé körültekintően elvégzett felmérések visszafordíthatatlan következményekkel járhatnak.

2. A becslések megbízhatóságával kapcsolatos fogalmak 2.1. Alapsokaság minta - becslés A következő fogalom, amely elválaszthatatlan a becsléstől, az a minta ill. mintavételezés. Az alapsokaság, a statisztikai értelemben vett populáció teljes felmérése túl költséges, vagy éppenséggel kivitelezhetetlen, ezért az alapsokaságból mintát veszünk és a mintára vonatkozó megfigyelt tulajdonságokat vetítjük az alapsokaságra. Ezt induktív következtetésnek is hívjuk. Tételezzük fel, hogy feladatunk egy népes mezei rágcsáló populációban meghatározni a vemhes nőstények arányát. Mivel tudjuk, hogy több ezer él belőlük az adott területen, s nincs módunkban mindegyiket megvizsgálni - különben is csak boncolással lehetne megbízható adatokhoz jutnunk, s ráadásul ezzel veszélyeztetnék vizsgálati területünk állományát - ezért véletlenszerűen befogunk 50 nőstényt. A befogottak között 14 vemhes állatot találva arra a következtetésre jutunk, hogy 14/50, azaz az egész populációra vetítve a nőstények 28%-a vemhes. A tipikus becslési probléma, amikor egy X valószínűségi változó eloszlását ismerve, a minta alapján az eloszlás egy paraméterét kívánjuk meghatározni. Gyakoribb, hogy ezt az eloszlást nem ismerjük, de feltételezzük, hogy az elméleti modell, amelyet szerkesztettünk, a jelenséget jól leírja. A képletet, amellyel a becslés folyamatát végezzük, becslőnek, a számszerű értéket pedig, amelyet a képletben szereplő változók behelyettesítésével kapunk, becslésnek hívjuk. Tehát a becslés szó kettős értelmű, mind az eljárást, mind annak eredményét jellemzi. Igy például a várható érték leggyakrabban használt becslője azaz egy minta átlaga az alapsokaság átlagának becslője. A becslőt általában egy kis kalappal (^) jelöljük. Igy például a populációméret (N) becslője N^. A becslésekkel szemben bizonyos követelményeket támasztunk. Így fontos, hogy a becslés torzítatlan legyen, azaz a becslés várható értéke megegyezzen az alapsokaság keresett paraméterével, Amennyiben növekvő mintanagyság esetében ez a várható érték egyre inkább megfelel a-nak, ezt aszimptotikusan torzítatlan becslésnek nevezzük, mivel az 1. ábrán látható módon aszimptotaként közelíti becslésünk a valódi paraméter értékét.

1. ábra. A mintanagyság növelésével a becsült paraméter egyre közelít a valós értékhez, azaz a becslés aszimptotikusan torzítatlan A becslésnek konzisztensnek is kell lennie, ami azt jelenti, hogy ha egy becsléssorozatot végzünk, a mintanagyság növelésével a becsülendő paramétertől való "nagy", jelentős eltérés egyre kevésbé valószinű. Tehát a mintanagyság növekedésével a becslés varianciája egyre kisebb s végtelen nagyságú mintánál nulla. Mivel becslésünk egy várható érték, amelyhez egy variancia rendelhető, ha az általunk keresett paraméternek egynél több torzítatlan becslése is lehetséges, az lesz a leghatásosabb becslés, amely varianciája a legkisebb. Bizonyos feltételek rendkívül szigorúak, ezáltal az ezektől való kis eltérés nagymértékű torzítást okozhat. Vannak azonban olyan becslések, amelyek a feltételektől való kis eltéréseket eltűrik, becslésünk csak kevéssé lesz torzított. Az ilyen becsléseket robusztus, vagy ellenálló módszereknek nevezzük. 2.2. A létszámbecslés pontossága A becslések "helyességéről" alkotott véleményünket két, a hétköznapi értelemben is eltérő fogalommal illusztráljuk. Az egyik a megbízhatóság, amely egy rendszeres hibából adódó torzítást tükröz. Arról már tettünk említést, hogy létezik egy kismintatorzítás, de lehetséges modelltorzítás is, amikor az általunk konstruált modell, pl. eloszlásfüggvény alapvető feltételezéseit nem tartjuk be. A megbízhatósággal szemben a varianciával jellemezhető pontosság a becslés megismételhetőségére vonatkozik, és a becslés során nem a rendszeres, hanem a véletlen hibákra vezethető vissza. A hibák mértéke csökkenthető a becslés körülményeinek állandósításával, illetve az ismétiések számának növelésével. Míg a pontosság mérhető mennyiség, a torzítást csak ismert létszámú populáción végzett kísérlettel vagy szimulációval lehet felderíteni. Látható tehát, hogy egy módszer pontossága nem jelenti azt, hogy a becslés megbízható s természetesen a fordítottja is fenn áll. Ezt a problémát illusztrálja a 2. ábra, amely egy lőlapon szemlélteti a becslések pontosságának és megbízhatóságának lehetséges kombinációit. Arra kell törekednünk, hogy becslésünk a 2.d. ábra szerint történjék.

2. ábra. A megbízhatóság és pontosság szemléltetése: megbízhatatlan és pontatlan (a), megbízhatatlan, de pontos (b), megbízható, de pontatlan (c), és megbízható és pontos (d) (WHITE és munkatársai nyomán 1982) A probléma bemutatására vegyünk egy számszerű példát (DAVIS és WINSTEAD 1980): Egy fácán állományról tudjuk, hogy 84 egyedből áll. Egy módszerrel azonban csak 82 egyedet becsülünk. Így a különböző eredetű hibák miatt nem a valóságos populáció nagyságát kaptuk meg, hanem attól kissé eltérőt, valamilyen oknál fogva torzítottat. Akárhányszor megismételjük a becslést - egy rendszeres hi ba folytán - a becsült érték a valóságostól eltérő marad. Ennek a torzításnak a jellemzésére használtuk a megbízhatóság fogalmát. Egy módszer megbízhatósága tehát azt jelenti, hogy a számított érték milyen közel áll a valódihoz, a becsülni kivánt paraméter értékéhez. Ezzel szemben a pontosság a becslés megismételhetőségére vonatkozik. Tegyük fel, hogy két különböző módszerrel megbízható becsléshez jutunk fácánállományunkról: 84 fácánt találunk a területen. Az első esetben azonban a három egymást követő nap becslése nagyon eltérő eredményeket ad: rendre 40, 60 és 152 fácánt becsültünk az első, a második és a harmadik napon. Ezzel szemben a másik módszerrel 82, 87 és 83 fácánt becsülünk az egymást követő napokon. Ez utóbbi módszer pontosabb, mint az előző. A becslés pontatlansága vagy pontossága a becslés során jelentkező véletlen hibákra vezethető vissza. Ennek mértéke csökkenthető, ha a becslés körülményeit állandósítjuk, illetve az ismétlések számát növeljük. Amikor azt kívánjuk meghatározni, hogy a térben elkülönülő két populáció nagysága vagy egy adott populáció nagyságának időbeli változásai között van-e különbség, a becslés pontosságának problémájával is találkozunk. Az előbb említett fácán példában a becslésünk átlagértéke mindkét esetben 84 volt. Az első esetben azonban a pontosság kicsi, a másodikban nagy. A kis pontosságú becslésnél a becslés hibája (szórása) nagy (29 fácán). Ezért csak azt tudjuk mondani, hogy 100 becslésből 95 esetben 26 és 142 közötti fácánt találunk a területen, azaz ez a konfidencia-intervallum. A második esetben, amikor a pontosság nagy, a becslés hibája alacsony (1,3), kimondhatjuk, hogy 100 becslésből 95 esetben 81 és 87 fácánt találtunk a területen. A nagy pontosság előnye ebben az esetben a becslés valószínűségi határainak szűk intervallumában jelentkezik. Amikor a becslés szűk határokat ad meg, a populáció nagyságának kis változásai is mérhetők. Nézzünk meg egy példát ennek alátámasztására! Tegyük fel, hogy a fácánállományunk létszámát a következő évben is megbecsüljük két módszerrel, egy alacsony és egy nagy pontosságúval. A kis pontosságú becslés 60 és 182 közötti fácánállományt jelez, míg a nagy pontosságú 118 és 124 között (az átlag mindkét esetben 121 fácán). A kis pontosságú becslésnél a két év közötti határok átfedik egymást (26-142 és 60-182). A nagy pontosságú becslésnél azonban nincs átfedés (82-87 és 118-124). Becslésünk konfidencia-

intervallumából már eleve gyaníthatjuk, hogy a kevésbé pontos módszer nem alkalmas arra, hogy a két év populációnagyságát összehasonlítsuk. Ugyanis nem lehetünk biztosak abban, hogy a becsült nagyobb állománynagyságot a második évben nem a véletlen szülte. Ezzel szemben pontosabb módszerünk azt sugallja, hogy a két év populációnagyságának különbsége nem a véletlen műve. A probléma tényleges eldöntésére statisztikai próbát kell igénybe vennünk. Statisztikai koncepciók Várt érték [expected value, E()]: a becslés többszöri megismétlése alapján várható érték, amennyiben az egyes becslések feltételei állandóak. Pontosság (accuracy): milyen közel van a becsléssel kapott érték a populáció tényeleges nagyságához. A pontosságot az átlagos eltérésnégyzetösszeggel mérjük (MSE) = a valós érték és az egyes becslések közötti eltérések négyzetének átlaga. Torzítás (bias): a becslések alapján kapott várt érték és a valódi populációméret különbsége. A torzítást a várt érték és a valós érték közötti különbségnek a valós értékhez viszonyított százalékos arányával fejezzük ki (PRB, %). Megbízhatóság (precision): milyen közel van a várt érték a valós értékhez. A megbízhatóságot a varianciával (VAR) mérjük, amely a várt érték és a populációbecslések közötti négyzetes eltérések átlaga. MSE = VAR + bias 2. Standard hiba (standard error, SE): a variancia négyzetgyöke. Szintén a megbízhatóságot méri; a konfidencia-intervallum meghatározásához használjuk. Konfidencia intervallum (CI): a becslés "hihetőségének" kifejezésére szolgál - meghatározott valószínűségi szinten milyen sávba eshetnek az egyes becslések; normális eloszlás, 95%-os valószínűség esetén: x± 1.96*SE(x). 3. A becslés eredményének jellemzése: matematikai statisztikai alapfogalmak. 3.1. A várható érték A valószínűség relatív gyakoriságon alapuló definíciójából adódik, hogy egy adott X valószínűségi változó értékeit csak n számú elemi eseményen keresztül vehetjük fel, tehát X "várható" értéke a következőképpen jellemezhető: ahol az x i a valószínűségi változó lehetséges értékei, p i az egyes események valószínűsége. A továbbiakban p-vel jelöljük a relatív gyakoriságon alapuló valószínűséget. A "várható" érték fogalmát érthetőbbé tehetjük a középértékkel (az átlaggal). Ha véletlenszerűen kiveszünk egy babszemet egy urnából, amelyben különböző méretű babszemeket helyeztünk el, akkor "várhatóan" a legnagyobb valószínűséggel olyat fogunk kihúzni, amely átlagos méretű, mérete tehát a középérték körül van. Ennek képlete:

A minta lokalizációját mutatja az átlag és a medián, az átlag és variancia jelentősége a paraméteres próbákban, míg a medián fontosága a nemparaméteres tesztekben válik nyilvánvalóvá. Átlag (Barta és mtsai. 1995) Az x 1, x 2,.. x n adatból álló minta átlagát az alábbi módon számíthatjuk: ahol az l-től n-ig lévő x i -ek összege. 1. Példa. Kísérleti nyulak átlagtömegét az alábbi módon határozhatjuk meg: = (1009+1017+...+1020)/27 = 1007.8 g. Az átlagot rendszerint egy tizedesjeggyel pontosabban adjuk meg, mint az adatokat. Az átlag mértékegysége megegyezik a mérési egységével. Az átlag különbözhet a minta összes adatától, de nem eshet azokon kívül. Osztálybasorolt adatokra a mintaátlagot alapján számítjuk, ahol f j a j-edik osztály gyakorisága, y j az osztályközép és (rf) j a j- edik osztály relatív gyakorisága. Habár az átlag alkalmazása széles körben elterjedt, felhasználását két tulajdonsága limitálja. Egyrészt, aszimmetrikus eloszlásoknál az átlag nem reprezentálja az eloszlás középpontját. Másrészt, az átlag érzékeny a szélsőséges értékekre (nem rezisztens), ami hibát okozhat, hiszen éppen a szélsőértékek gyakran hibás mérések vagy jegyzőkönyvi elírások eredményei. 2. Példa. Egy ökológiai vizsgálatban mérték 1 dm 3 iszapban található árvaszúnyoglárvák számát. Tíz mintában az alábbi lárvaszámot kapták: 25 238 45 94 16 23 30 16 22 123. A minta átlaga

= (25+238+45+...+123)/10 = 63.2 lárva/dm 3. Az átlag azonban rosszul jellemzi a mintákban található lárvák denzitását, mivel a mintaszám nagyrészében az átlagnál kevesebb lárva volt, és csak három minta lárváinak száma volt az átlagnál nagyobb. Tételezzük fel, hogy az adatértékeléskor kiderül, a legnagyobb denzitást találó minta (238 lárva / dm 3 ) hibás mintavétel eredménye volt, így ezt az adatot ki kell zárni a feldolgozásból. Mennyit változik az átlag? A kilenc mintából számolt átlag: = (25+45+...+123)/9 = 43.8 lárva/dm 3 Így egyetlen, szélsőséges adat kizárásával kapott átlag 31 %-kal változott a teljes mintából számolt átlaghoz képest Medián Az átlag két előnytelen tulajdonságát orvosolja a medián. A medián az adatok középpontjának helye, azaz egyforma számú adat esik a mediántól "lefelé" és "felfelé". A medián kiszámításához az adatokat növekvő sorrendbe állítjuk, és a lista aljáról kezdve az (n +1)/2-ik adatot kiválasztjuk. Ha n páratlan, a medián a rangsorba állított adatok középső értéke. Ha n páros, akkor a medián a rangsorba állított lista két középső adatának átlaga. A medián egysége a mért változó egységével megegyező. A medián a minta középpontjának rezisztens mérője és alkalmas az aszimmetrikus eloszlások középpontjának jellemzésére. A szimmetrikus eloszlások átlaga és mediánja egybeesik. 3. Példa. A 2. példa tíz adatát használjuk. A minta mediánja M = 11/2 = 5.5-ik adat. Az 5.5-i adatot a minta sorba állítása után tudjuk kiválasztani: 16 16 22 23 25 30 45 94 123 238 így M = (25 + 30)/2 = 27.5 lárva/dm 3. A 2. példa adatainak mediánja M = 27.5 lárva/dm 3. A minták középpontját a medián reprezentálja, mivel a mediántól balra és jobbra egyaránt öt-öt adat helyezkedik el. Vajon mennyit változik a medián, ha x = 238 szélsőséges értéket kizárjuk? A szélsőséges érték kizárásával a medián keveset változott (9 %-ot), mivel M = (9 + 1)/2 = 5. adat, azaz M = 25 lárva/dm 3. 3.2. Variancia és szórás (Demeter és Kovács 1991) A várható értéket az átlaggal becsültük, ugyanígy létezik a várható értéktől való eltérés jellemzésére az átlagos eltérés, a variancia. Az eltéréseket (x - ) átlagolnunk kell, mivel azonban ezek összege nulla lenne a pozitív és a negatív előjelek miatt, ezeket négyzetre emeljük, s összegük az eltérésnégyzet-összeg. A variancia

a variancia négyzetgyöke (s) a szórás. A gyakorlati számítások során az előbbi képlet átrendezett alakját alkalmazzuk: Variancia és szórás (Barta és mtsai. 1995) A minta diszperziójának legelterjedtebb jellemzői. A variancia mutatja, mennyire terjednek szét az adatok a mintaátlag körül. Az n mérésből (megfigyelésből) álló minta (x 1, x 2,... x n ) varianciáját adja meg. Azaz, az adatok mintaátlagtól vett távolságát négyzetreemeljük, összegezzük és súlyozzuk 1/(n -1)-vel. A négyzetreemelés szükséges, máskülönben. Az n - 1-et szabadsági foknak (df) nevezzük. A szabadsági fok mutatja, hogy hány független adatból becsüljük a varianciát. Mivel, egyetlen x i - különbséget ki tudunk számolni a többi különbség ismeretében. Így nem n független adatból, hanem csak n - 1 adatból becsüljük a varianciát. A variancia számítását az alábbi képlet alapján végezzük: ahol C-t korrekciós tényezőnek nevezik: Osztálybasorolt változóknál a varianciát az alábbi képlet alapján számítjuk

ahol f j a j-edik osztály gyakorisága, y j az osztályközép és a mintaátlag. Szórásnak (s) a variancia pozitív négyzetgyökét nevezzük ( s 2 ). A szimmetrikus eloszlások jellemzésére az átlagot és a szórást használjuk. 4. példa. Egy hegyi patakban a pisztráng ivadékok grammokban mért tömege az alábbi volt: 4.5 4.8 5.0 5.0 5.1 5.2 5.5 5.8 6.0 6.1. A variancia s 2 = 1/9[(4.5 2 + 4.8 2 +. +6.1 2 )-(4.5 + 4. 8+...+6.1) 2 /10]= 0.2 g 2 és a szórás s = 0.28 = 0.53g. Interkvartilis tartomány A minta diszperziójának rezisztens jellemzője az interkvartilis tartomány. Az interkvartilis tartomány (IKT) az adatok 50 %-át tartalmazza, és kiszámítása a felsőkvartilis (K 3 ) és az alsókvartilis (K 1 ) ismeretében történik. IKT= K 3 -K l 5. Példa. A 4. példa adatainak interkvartilis tartományát az alábbi módon határozzuk meg: 4.5 4.8 5.0 5.0 5.1 5.2 5.5 5.8 6.0 6;1. M = (10 + 1)/2 = 5.5-ik adat, M = (5.1 + 5.2)/2 = 5.15 g K 1 = 5.0 g K 3 = 5.8 g és IKT = 5.8-5.0 = 0.8 g A nem szimmetrikus eloszlások jellemzésére gyakran használják a kvartilis ábrát (3. ábra). A kvartilis ábra az eloszlás öt tulajdonságát mutatja: legkisebb adat, alsó kvartilis, medián, felső kvartilis, legnagyobb adat.

3. ábra. Legkisebb adat: 973 g, alsó kvartilis: 996 g, medián: 1009 g, felső kvartilis: 1018 g, legnagyobb adat: 1063 g. Az átlag szórása A lokalizáció és diszperzió fenti mérőszámai a mintára vonatkoznak, nem pedig arra a populációra, amelyből a minta származott. Természetesen kíváncsiak vagyunk, mennyire pontosan becsüljük mintánkkal a populációt. Az átlag pontosságát mérhetjük úgy, hogy egy populációból több azonos elemszámú mintát veszünk, kiszámítjuk a minták átlagait majd vesszük az átlagok szórását. Ezt a szórást nevezzük az átlag szórásának vagy hibájának ( ). Kimutatható, hogy egyenlő a minta szórása osztva az elemszám négyzetgyökével: Az átlag szórását csökkenthetjük, azaz becslésünk pontosságát növelhetjük, ha csökkentjük a minták szórását, pl. megfelelő kísérleti elrendezés megválasztásával, vagy ha növeljük a minta elemszámát. Az átlag szórása nem keverendő össze a minta szórásával.

4. Statisztikai próbák. (Barta és mtsai. 1995) 4.1. Parametrikus próbák Bevezetés A statisztikai hipotézisek eldöntésére alkalmas próbák két csoportba különíthetők el, parametrikus és nemparametrikus próbák. A parametrikus próbák közös jellemzője, hogy feltételezik a vizsgált változók normáleloszlását. Másik feltétel, hogy a mérések legalább intervallumskálán történjenek, tehát kategóriába sorolt adatokon nem lehet pl. t-próbát végezni. A parametrikus próbák elnevezése onnan ered, hogy az általuk tesztelt nullhipotézisek a populáció eloszlásának valamely - elméletileg is jól leírható - paraméteréről állítanak valamit. Előnyeik közé tartozik: ha a feltételeik teljesülnek, akkor érzékenyebbek a nemparametrikus megfelelőjüknél. Másik tulajdonságuk, hogy jól kidolgozott elmélet áll a hátterükben, így a próbastatisztikák eloszlása pontosan ismert. Kétmintás próbák A kétmintás próbák két minta valamely paraméterét hasonlítják össze. F-próba A parametrikus próbák alkalmazásának sokszor előfeltétele a vizsgált populációk varianciáinak egyenlősége. Ezt a feltételt tesztelhetjük F-próbával. Más esetekren is fontos lehet a varianciák összehasonlítása, pl. numerikus taxonómiában két eltérő elterjedésű populáció valamely jellegének azonos-e a varianciája. Az F-próba feltétele, hogy a vizsgált jelleg eloszlása a populációban normális legyen. A tesztelendő hipotézispár: H 0 : σ 1 2 = σ 2 2. ; H 1 : σ 1 2 σ 2 2 A számítandó statisztika: ahol s 1 2 > s 2 2. A statisztika F-eloszlást követ. Az F-eloszlást két szabadsági fok határozza meg: n 1-1 ill. n 2-1. ahol n 1 az s 1 2 -hez, és n 2 az s 2 2 -höz tartozó minta elemszáma. Az F-eloszlás táblázatokba van rendezve a szabadsági fokok szerint. A táblázat egyoldalú, vagyis az eloszlás egyik végét tartalmazza. Ezért, ha a próbánk kétoldalú, akkor a táblázatbeli szignifikancia-szintet kettővel szorozni kell. A döntés úgy történik, hogy kikeressük a táblázatból. a megfelelő szabadsági fokokhoz és szignifikancia-szinthez tartozó kritikus értéket. Ha a számított értékünk ennél nagyobb, akkor H 0 -t elvetjük az adott szinten, ha kisebb akkor elfogadjuk. Egyoldalú próba esetén (H 0 : σ 1 2 = σ 2 2 ; H 1 : σ 1 2 > σ 2 2 vagy H 2 : σ 1 2 < σ 2 2 ) ugyanígy járunk el azzal a különbséggel, hogy a szignifikancia-szintet nem szorozzuk.

6. Példa. Egy brit-szigeti és egy magyarországi cinegepopuláció szárnyhossz-változatosságát hasonlították össze a szárnyhossz-szórások segítségével. A brit populációból vett minta szórása s 1 = 3.347 mm volt (n 1 = 12), míg a hazai cinkékre ez s 2 = 4.337 volt (n 2 = 9). Fs=4,337 2 /3,347 2 =18,81/ 11.202=1,679 p = 0.05-ös szinten vizsgálták a szórások egyenlőségét. Mivel a táblázat egyoldalú, ezért a kritikus értéket p/2 = 0.025 szignifikancia-szinthez és [8, 11] szabadsági fokokhoz keresték ki. Ez F 0.025[8,11] = 3.66 volt. Ennél a számított érték kisebb, a nullhipotézist nem vethették el. Páros t-próba A páros próbák esetén a két minta összetartozó párokból áll, pl. ugyanazokon az alanyokon végzünk két mérést: egyet a kísérlet előtt és egyet pedig utána. A kísérletező a kísérlet hatását vizsgálja: változott-e a vizsgált jelleg vagy sem. Az ilyen problémák analizálásakor hasznos a páros t-próba. Alkalmazásának feltételei, hogy a vizsgált változó mind a két mintában normális eloszlást kövessen, a két változó szórása szignifikánsan ne különbözzön és a két megfigyelés közötti különbség ne függjön a megfigyelt értékek nagyságától. A tesztelt hipotézisek: H 0 : l = 2 ; H 1 : l 2 Számításmenet: először kiszámítjuk az adatpárok különbségét (d i ), majd számítjuk d i -k átlagát és szórását. A próbastatisztika: df=n-1, amely t-eloszlást követ. Ha t s nagyobb a kritikus értéknél, akkor H 0 -t elvetjük, ellenkező esetben megtartjuk. 7. Példa. Egy fiziológiai kisérletben vizsgálták az ijedtség vérnyomásra kifejtett hatását. E célból kiválasztottak tíz önként jelentkezőt és megmérték a vérnyomásukat. Ezután egy ajtót becsapva, hirtelen megijesztették őket, majd vérnyomásmérés következett. A következő eredményeket kapták:

Vérnyomás ijesztés Személy előtt után Különbség (d i ) 2 d i 1 90 100 10 100 2 110 129 19 361 3 85 100 15 225 4 125 155 30 900 5 130 135 5 25 6 100 123 23 529 7 115 143 28 784 8 95 99 4 16 9 85 97 12 144 10 140 165 25 625 171 3709 =17,1 t s =17,1/2,953=5.791, df = 10-1 = 9. A kapott t-érték (t s ) nagyobb, mint a táblázatbeli kritikus érték (t 0,001[9] = 4.791). Így levonhatjuk a következtetést, hogy az ijesztés szignifikánsan (p < 0.001) növelte a vérnyomást. Kétmintás t-próba A próbát annak eldöntésére használjuk, hogy két függetlenül mintázott populáció átlaga megegyezik-e. A próba feltételei, hogy a minták függetlenek legyenek, a vizsgált változó normális eloszlású legyen és a két változó szórása megegyezzen. A függetlenséget a mintavétel során kell biztosítani. A normalitás tesztelhető a Kolmogorov-Szmirnov próbával, míg a szórások egyezését F-próbával vizsgálhatjuk. A tesztelt hipotézisek: H 0 : l = 2 ; H 1 : l 2; A próbastatisztika: ahol t s t-eloszlást követ df = n 1 +n 2-2 szabadsági fokkal. Ha a két minta nagysága egyenlő (n 1 = n 2 = n), akkor a képletünk egyszerűsödik:

df=2(n-1). Döntéskor a számított t s -értéket hasonlítjuk a táblázatbeli kritikus értékhez, a megfelelő szabadsági foknál. Ha a számított értékünk nagyobb a kritikus értéknél, akkor a nullhipotézist elvetjük. Ha a próba egyoldalú (H 1 : l > 2), akkor a szignifikancia-szintet felezzük. 8. Példa. Házi rozsdafarkú etetési viselkedését vizsgálták. A megfigyelések során mérték a szülők által a fészekbe hordott rovarok hosszát. Vajon a hím és a tojó által behordott rovarok hossza eltérő-e? A nullhipotézis, hogy a két nem által hozott rovarok hossza nem tér el. Egy korábbi vizsgálatból már ismert, hogy a bevitt rovarok hossza normális eloszlást követ. A következő eredményeket kapták. A tojó által bevitt rovarok átlagos hossza 1 = 128.5 mm volt (s 1 = 9.2, n 1 = 52), míg a hím átlagosan 2 = 131.9 mm-es rovarokkal etette a fiókákat (s 2 = 8.2. n 2 = 39). Mivel a szórások nem különböztek (hogyan döntötték el?) t-próbával hasonlították össze az átlagokat. df = 89. A táblázatban keresve a kritikus értéket egy problémába ütközünk: nem találunk df = 89-es szabadsági fokhoz tartozó sort. Csak df = 60 és df = 120-hoz vannak megadva az értékek. Ilyen esetekben általában lineáris interpolációt alkalmazunk. ahol t' az interpolált érték, t 60 és t 120 a táblázatban szereplő szabadsági fokokhoz tartozó t-értékek. A számolást elvégezve p = 0.05-ös szignifikancia-szintre, t' = 2.00+ (1.98-2.00)*89/(120-60) = 1.97 A számított t s -értékünk (abszolút értékben) kisebb, mint az interpolált érték. Így a nullhipotézis elutasítására nincs okunk, és nem állíthatjuk, hogy a két szülő különböző hosszúságú rovarokat hordott volna. Kétmintás t-próba a szórások különbözősége esetén (Welch-próba) Ha az F-próba alapján el kellett vetni a két vizsgált populáció szórásainak egyenlőségét, akkor t-próba helyett a Welch-probát alkalmazhatjuk. Ez a próba a szabadsági fokot igazítja. A null hipotézis ugyanaz, mint az előbbi t-próba esetében. A minta statisztika:

t-eloszlást követ, szabadsági fokkal. A döntés során, csakúgy mint a t-próbánál, a számított értéket vetjük össze a táblázatival. A szabadsági fok meghatározásánál interpolációt alkalmazhatunk. Többmintás próbák Varianciaanalízis Bevezetés Sok esetben előfordul, hogy nemcsak két, hanem több minta átlagát szeretnénk összehasonlítani. Különösen gyakori ez a kísérleti eredmények értékelésénél. A több minta átlagát azonban nem hasonlíthatjuk össze páronként t-próbával, mivel ebben az esetben az összehasonlítások nem függetlenek egymástól, és így a kapott szignifikancia szint nem valós. Célunkat a biometriában központi szerepet játszó varianciaanalízissel érhetjük el, amelyet R. A. Fisher fejlesztett ki e század harmincas éveiben. Gyakran nevezik ANOVA-nak is, amely az angol nevéb6l (ANalysis Of VAriance) képzett mozaikszó. A varianciaanalízisnek számos feltétele van (random mintavétel, az egyes mintaelemek függetlensége, a csoportokon belül a vizsgált változó normális eloszlású és a varianciák homogének). Több minta (csoport) esetén a mintákat összevonva egyetlen nagy mintába, kiszámíthatjuk ennek a nagy mintának a varianciáját. Ez a variancia két forrásra bontható fel: egyrészt az egyedi mérések eltérése a csoportátlagtól, másrészt a csoportátlagok eltérése az össz minta átlagától (nagyátlag). Az első varianciarészt nevezzük a csoporton belüli varianciának. Ennek kialakításában a figyelembe nem vett tényezők, a kisérleti hiba (egyszerűen szólva a véletlen) vesz részt. A második varianciarész a csoportok közötti variancia. Ha az egyes csoportok csak a véletlen miatt különböznek, akkor a csoportok közötti variancia kialakításában szintén csak a nem kontrolált tényezők és a kisérleti hiba játszik szerepet. Ebben az esetben mind a két variancia ugyanazt az értéket - a véletlen "okozta" varianciát - becsli (4.a ábra). Ha azonban az egyes csoportokon különböző kezeléseket alkalmazunk, akkor várhatjuk, hogy a kezelések hatására a csoportok átlagai eltolódnak. Ez viszont a csoportok közötti variancia növekedésével jár (4.b ábra), vagyis a két varianciarész a kezelések után már nem ugyanazt a varianciát becsli, így különböznek. E két variancia közötti különbséget F-próbával tesztelhetjük. Az

próbastatisztikát hasonlítjuk az F-táblázatbeli értékhez df = [a-l, n i -a] szabadsági fokoknál. Szignifikáns különbség esetén az átlagok különbözőségére következtethetünk. Lényeges különbség a kétmintás F-próbához képest, hogy varianciaanalízisben nem kell a táblázatbeli p-értéket felezni a szignifikancia-szint megállapításakor. Ez abból ered, hogy az ANOVA-ban mindig egyoldalú próbát használunk, mivel az alternatív hipotézisünk az, hogy s k 2 > s b 2, ui. a kezelés miatt mindenképpen s k 2 növekedését várjuk. Az F-próbával tulajdonképpen azt teszteljük, hogy a kezelés által kialakított variancia rész eltér-e szignifikánsan a "véletlen" által kialakított maradék varianciától. Ha eltér, akkor állíthatjuk, hogy a kezelésnek volt hatása, ellenkező esetben azt, hogy nem volt. A varianciaanalízis gyakorlatában a variancia elnevezés helyett a közepes négyzetösszeg (MS) használják. A varianciaanalízis eredményét az ún. ANOVA-táblában foglalják össze, feltüntetve a variabilitást előidéző tényezőket, a maradékot és az összeget. A maradék (csoporton belüli eltérésnégyzet összeg, error) becslése kell, hogy a lehető legpontosabb legyen, ui. ez tartalmazza a figyelembe nem vett tényezőket és a kisérleti hibát is, valamint ehhez hasonlítják a kezelések hatását. Nagy maradék eltérésnégyzet összeg teljesen elmoshatja (kimutathatatlanná teszi) a kezelések egyébként meglévő hatását.

4. ábra A kezelés hatása az eltérő árnyalattal jelölt vizsgálati csoportokat leíró variációkra. a, kezelés előtt; b, kezelés után. Számításmenet Legyen x ij az i-edik csoport j-edik eleme, 'a' a csoportok száma és n i az i-edik csoport elemszáma. A számolás során a következő lépések alapján járunk el.

1. Minden mintaelemet összeadunk: 2. A mintaelemek négyzeteit összegezzük: 3. Összeadjuk a csoportösszegek négyzeteit osztva a csoport elemszámával: 4. Kiszámítjuk a korrekciós tényezőt: 5. Az összes eltérésnégyzet-összeg: SS ö = (2.mennyiség)-(4.mennyiség). 6. A csoportok közötti eltérésnégyzet-összeg SS k = (3.mennyiség)- (4. mennyiség). 7. A csoporton belüli eltérésnégyzet-összeg: SS b = SS ö -SS k. Az ANOVA eredmény táblázat: Variáció forrása Szabadsági fok (df) Eltérésnégyzetösszeg (SS) Közepes négyzetesösszeg (MS) F s Csoportok között a-1 SS k MS k =SS k /df MS k /MS b Csoporton belül n i -a SS b MS b =SS b /df Összes n i -1 SS ö Ha F s nagyobb, mint a táblázatbeli F [a-1, ni-a] érték, akkor az átlagok egyezését állító null hipotézist elvetjük. 9. Példa. Egy laboratóriumban házi legyek szárnyhosszait mérték tizedmiliméteres pontossággal. A legyek három különböző üvegben, de ugyanazon a táptalajon növekedtek. Minden üvegből megmértek öt legyet. A mérési eredmények:

Üvegek 1 2 3 41 48 40 44 49 50 48 49 44 43 49 48 42 45 50 218 240 232 A kutatók arra keresték a választ, vajon a különböző üvegekben felnevelt legyek szárnyhossza különbözött-e. A kérdést varianciaanalízissel válaszolták meg. Számításmenet 1. 2. 3. 4. 5. SS ö = 31906-31740 = 166.00. 6. SS k = 31789.60-31740 = 49.60. 7. SS b = 166-49.60 = 116.40

Az ANOVA eredmény táblázat: Variáció forrása Szabadsági fok (df) Eltérésnégyzetösszeg (SS) Közepes négyzetesösszeg (MS) F s Csoportok között 2 49,6 24,8 2,557 Csoporton belül 12 116,4 9,7 Összes 14 166 Mivel F s kisebb, mint F 0.05[2,12] = 3.89, ezért az átlagok egyenlőségét kimondó nullhipotézist nyugodtan megtarthatjuk. A kutatók levonhatják a következtetést, hogy a különböző üvegekben való tartás nem befolyásolja a legyek szárnyhosszát. Végezzünk el egy gondolatkísérletet, az előbbi adatokat felhasználva. Tegyük fel, hogy a kutatók nem ugyanolyan táptalajon nevelték a legyeket, hanem három különfélét alkalmaztak: az első üvegben nem változtattak semmit, a másodikba növekedés-serkentőt, míg a harmadikba növekedésgátlót kevertek. Szimuláljuk ezeket a kezeléseket úgy, hogy az előző adattáblázat első oszlopán nem változtatunk semmit, a második minden eleméhez hozzáadunk hetet (növekedés- serkentés) és végül az utolsó oszlop minden eleméből kivonunk ötöt (növekedésgátlás): Üvegek 1 2 3 41 55 35 44 56 45 48 56 39 43 56 43 42 52 45 218 275 207 Végezzük el ezekre az adatokra is a varianciaanalízist.

Számításmenet: 1. 2. 3. 4. 5. SS ö = 33316-32666.667 = 649.333 6. SS k = 33199.600-32666.667 = 532.933 7. SS b = 649.333-532.933 = 116.40 Az ANOVA eredmény táblázat Variáció forrása Szabadsági fok (df) Eltérésnégyzetösszeg (SS) Közepes négyzetesösszeg (MS) F s Csoportok között 2 532,933 266,467 27,471 Csoporton belül 12 116,4 9,7 Összes 14 649,333 Az 1 %-os szignifikancia-szinthez tartozó táblázatbeli kritikus érték F 0,01[2,12] = 6.93, ennél a számított értékünk jóval nagyobb, így elvethetjük az átlagok azonosságát állító nullhipotézist. Ebből a gondolatkísérletből láthatjuk, hogy a kezelések hatása tényleg növeli a csoportok közötti közepes négyzetösszeget, míg a csoportokon belüli közepes négyzetösszeg nem változott. Regresszióanalízis Bevezetés A biológiai kutatásban gyakori, hogy egy mintavételi egységen (pl. patkányon) két változót (pl. kapott gyógyszer dózisát, vörösvértest számot) mérünk egyszerre. Ilyen esetekben érdekelhet bennünket a két változó közötti kapcsolat. Két kérdést tehetünk fel: 1,

Az egyik változó változásával a másik milyen irányban és mennyit változik? 2, A két változó között milyen irányú és szorosságú kapcsolat áll fenn? Az első kérdésre a regresszióanalízis, a másodikra a korrelációszámítás válaszol. Elsőként a regresszióanalízist tárgyaljuk, melynek eredményeképpen a két változó közötti kapcsolatot leíró fügvényt kapunk. Milyen célokat szolgál a függvénykapcsolat keresése? Egy ilyen kapcsolat megléte valószínűsíti az ok-okozati viszony létét, de nem bizonyítja. Populációk összehasonlításakor a leírt függvények paramétereinek (pl. az egyenes meredeksége) vizsgálata segítheti a populációk pontosabb elkülönítését (pl. ugyanúgy reagál-e két patkánypopuláció egy méreg koncentrációjának emelkedésére). A függvénykapcsolatokkal bizonyos tapasztalati törvényeket írhatunk le, amelyeket predikciós célokra használhatunk fel. Lényeges megemlíteni, hogy a kapott regressziós egyenes csak a vizsgált tartományon (x max - x min ) belül érvényes, azon túl nem alkalmazható predikciós célokra. Fontos területe a regresszióanalízis felhasználásának az ún. statisztikai kontroll, amikor regresszióanalízissel korrigálunk olyan hatásokat (pl. időjárás), amelyek egyébként nem állnak ellenőrzésünk alatt. A legegyszerűbb függvénykapcsolat két változó között a lineáris kapcsolat: Y = a+bx. ahol az Y a függő, X a független változó, b az egyenes meredeksége és a tengelymetszet. 5. ábra Két változó közötti függvénykapcsolat. A folytonos vonal a regresszióanalízissel kapott egyenes képe, míg a szaggatott vonalat a szerző szemre húzta be. Felül a regressziós egyenes egyenlete látható. A lineáris regresszióanalízis során a feladat megtalálni azt az egyenest, amely a legjobban illeszkedik a két változó értékeit mutató ponthalmazra. Az emberi szem nagy biztonsággal képes elvégezni ilyen feladatokat, de a vizuális illesztés szubjektív hibára ad lehetőséget (5. ábra). Az ún. legkisebb négyzetek elvének alkalmazásával elkerülhetjük a szubjektivitást. E módszer során keressük azt az egyenest, amelytől az adatpontok Y irányú távolsága (d i ) négyzetének összege ( d i 2 ) minimális (5. ábra). A feladat meghatározni ezen egyenes meredekségét (b) és az Y -tengellyel való metszéspontját (a).

6. ábra A függő változó (Y) eloszlása X különböző értékei mellett. A regresszióanalízis feltétele, hogy ezen eloszlások normálisak legyenek és szórásaik megegyezenek. A regresszióanalízis feltételei 1. A függő változó (Y) bármely x i értékre nézve normális eloszlású és a szórások ezen x i értékekre nézve homogének (6. ábra). 2. A független változó (X) rögzített és a kísérletező kontrollja alatt áll. Ez azt jelenti, hogy X nem véletlen változó. Ez utóbbi feltételt a biológiában sokszor figyelmen kívül hagyják pl. amikor két testméret közötti regressziót vizsgálnak, és a kapott egyenest az egyik testméret jóslására akarják használni. Itt mindkét változó véletlen változó, vagyis szigorúan véve a regresszióanalízis feltételei nem teljesülnek. Mivel azonban nincs jobb módszer, és a regresszióanalízis már annyira bevett az ilyen problémák megoldására, ezt használják. Számításmenet Regressziós koefficiens azaz az egyenes meredeksége (b): Az Y -tengellyel való metszéspontot (a) a következőképpen állapíthatjuk meg: a = - b* mivel a regressziós egyenes mindig átmegy az (, ) ponton. Szignifikancia-vizsgálat A regressziós egyenessel kapcsolatban két kérdés szokott felmerülni: (i) mennyire megbízhatóan magyarázza az egyenes az adatok varianciáját, vagyis mennyire szoros a két változó közötti kapcsolat, (ii) eltér-e az egyenes meredeksége nullától? Az első kérdésre varianciaanalízissel adhatjuk meg a választ. A függő változó varianciáját felbonthatjuk az egyenes által becsült érték (y') és a változó átlaga ( ) közötti különbségre (ez az egyenes által magyarázott variancia), valamint a becsült érték és a tényleges y i közötti különbségre (ez a véletlen okozta hiba). Az előbbi varianciát az utóbbival

szemben tesztelve megállapíthatjuk, vajon az egyenes által magyarázott varianciarész szignifikáns-e a véletlennek tulajdonítható variációrészhez képest. Számítás 1. Magyarázott eltérésnégyzet-összeg: 2. Maradék (nem magyarázott) eltérésnégyzet-összeg: SS E = SS y -SS Y, Az ANOVA tábla: Variáció forrása Szabadsági fok (df) Eltérésnégyzetösszeg (SS) Közepes négyzetesösszeg (MS) F s Az egyenes által magyarázott 1 SS Y MS Y =SS Y /df MS Y /MS E Maradék n-2 SS E MS E =SS E /df Összes n-1 SS Y Ha F s nagyobb, mint a kritikus érték, akkor a regressziós egyenes az Y változó varianciájának szignifikáns részét magyarázza, vagyis van kapcsolat a két változó között. Az egyenes meredekségének nullától való eltérése a következő módon tesztelhető: ahol t s t-eloszlást követ n-2 szabadsági fokkal. Ha t s nagyobb, mint a táblázatbeli t-érték, akkor a számított egyenesünk meredeksége szignifikánsan eltér nullától, vagyis az egyenes nem vízszintes. 10. Példa. Lisztbogarak szárazsághoz alkalmazkodását vizsgálták a következő kísérletben: a bogarakat hat napig éheztették különböző páratartalmú környezetben és mérték a súlycsökkenésüket. A kapott eredmények:

Relatív páratartalom Súlyveszetség X 2 Y 2 XY [%] (X) [mg] (Y) 0 8,98 0 80,64 0 12 8,14 144 66,26 97,68 29,5 6,67 870,25 44,489 196,765 43 6,08 1849 36,966 261,44 53 5,9 2809 34,81 312,7 62,5 5,83 3906,25 33,989 364,375 75,5 4,68 5700,25 21,902 353,34 85 4,2 7225 17,64 357 93 3,72 8649 13,838 345,96 453,5 54,2 31152,75 350,535 2289,26 =50,389 =6,022 Az egyenes meredeksége: Tengelymetszet a = 6.022-(-0.053)(50.389) = 8.693. Magyarázott variáció: SS Y = (-444,818) 2 /8301,389=23.515 Maradék: SS Y =350.535-(54,2) 2 /9=24.131, SS E =24.131-23.515=0.616. Az ANOVA tábla: Variáció forrása Szabadsági fok (df) Eltérésnégyzetösszeg (SS) Közepes négyzetesösszeg (MS) F s Az egyenes által magyarázott 1 23,515 23,515 267,216*** Maradék 7 0,616 0,088 Összes 8 24,131 *** p <0.001; Látható, hogy X változása szignifikáns részt magyaráz Y varianciájából.

A meredekség tesztelése: t s = -0,053/0,00325 = -16.301, df = 9-2 = 7. Mivel a kritikus érték ennél a szabadsági foknál még p < 0.001-nél is kisebb, állíthatjuk, hogy egyenesünk meredeksége szignifikánsan eltér nullától. Korrelációanalízis Bevezetés A korrelációanalízis során azt vizsgáljuk, hogy két változó függ-e egymástól. Eltérően a regresszióanalízistől, nem tételezünk fel köztük ok-okozati viszonyt és függvénykapcsolatot. Egyszerűen azt vizsgáljuk, hogy van-e a két változó között függő viszony. Ha a két változó nem független, akkor az egyik ismeretében jóslásokat tehetünk a másikra. A változók közötti viszony egyenrangú, nem különböztetünk meg függő és független változót. A korrelációanalízis feltétele, hogy a két változó együttes eloszlása kétdimenziós normál eloszlás legyen. Ha a két változó független egymástól, akkor a kétdimenziós normál eloszlás képe harang alakú. Amennyiben kapcsolat van köztük, akkor az eloszlás képe torzul, elnyúlt taraj alakúvá válik. A taraj annál élesebb, minél erősebb a függő viszony a két változó között. A kapcsolat erősségének a mérésére szolgál az ún. Pearson-féle korrelációs együttható (r). Értéke -1 és +1 között változhat. Nulla érték a két változó közötti kapcsolat hiányát, míg - 1 ill. + 1 a teljes meghatározottságott jelzi. Az előjel a kapcsolat irányát mutatja: pozitív együttható esetén az egyik változó növekedésével nő a másik változó, míg negatív előjelnél az egyik változó növekedésével a másik csökken. A korrelációs együttható négyzete (r 2 ) a determinációs együttható, ami megadja, hogy az egyik változó változása milyen arányban magyarázza a másik variációját. Minél inkább közelít egyhez a determinációs együttható értéke annál szorosabb a kapcsolat a változók között. A korrelációanalízis kiválóan alkalmas olyan esetekben, amikor a regresszióanalízis nem megfelelő, pl. két testméret közötti összefüggés vizsgálatakor. Ilyen problémák elemzésekor - vagyis mikor mindkét változó véletlen változó - mindig korrelációanalízist használjunk, hacsak nem célunk a regressziós egyenlet további alkalmazása (pl. predikciók megtételére). Számításmenet Legyen x 1 az első változó valamely eleme, x 2 a második változó valamely eleme és n az adatpárok száma. Lépések: 1. Az első változó elemeinek összege: x 1 2. Az első változó elemei négyzetének összege: x 1 2 3. A második változó elemeinek összege: x 2 4. A második változó elemei négyzetének összege: x 2 2

5. A két változó elemei szorzatának összege: x 1 x 2. 6. Az első változó eltérésnégyzet-összege: 7. A második változó eltérésnégyzet-összege: A korrelációs koefficiens próbája A próba során a következő nullhipotézist H 0 : r = 0, a H 1 : r 0 alternatív hipotézissel szemben tesztelve, vizsgáljuk, hogy van-e tényleges kapcsolat a változók között. Számítás: próbastatisztika t-eloszlást követ n-2 szabadsági fokkal. Ha a számított értékünk abszolút értéke kisebb a kritikus értéknél, akkor a nullhipotézist megtartjuk, mivel a változóink között valószínűleg nincs kapcsolat, ellenkező esetben a nullhipotézist elvetve a változók kapcsolatát állapítjuk meg. 11. Példa. A füsti fecskék vonulását vizsgálva a kutatók vizsgálták, van-e összefüggés a tavaszi visszatérés ideje és a madár kondíciója között. A visszatérési időt az április elseje óta eltelt napok számával, a kondíciót a madár súlyával jellemezték:

Egyed Visszatérés (nap) Súly (g) 1 13 19,1 2 13 21,6 3 11 20,5 4 9 24,3 5 15 18,2 6 16 19,2 7 10 19,9 8 22 17,2 S x 109 160 S x 2 1605 3233,84 x 1 = 13+13+...+22 = 109. x 2 1 = 132+132+...+222 = 1605. x 2 = 19.1+21.6+...+17.2 = 160.0. x 2 2 = (19.1)2+(21.6)2+...+(17.2)2 = 3233.84. x 1 x 2 = (13.19.1)+(13.21.6)+...(22.17.2) = 2130.9. SS 1 =1605- (109 2 /8)=119.875. SS 2 = 3233.84 (160 2 /8) = 33.84. SS 12 =2130.9-(109*160)/8= -49.1., df = 6. Mivel a t 0.05[6] = 2.447 < ts = -2.964 ezért a nullhipotézist elvethetjük, vagyis a két változó között szignifikáns kapcsolat van. A korrelációs koefficiens vizsgálatából levonhatjuk azt a következtetést, hogy minél nagyobbak a madarak, annál korábban érkeznek (negatív előjel). 4.2 Nem-paraméteres próbák Azon statisztikai eljárásokat, amelyekben a teszt alkalmazása nem függ a változók eloszlásától nem-paraméteres próbáknak nevezik. A nem-paraméteres próbákat két fő

csoportba sorolják. A valódi nem-paraméteres próbákban a próbastatisztika számításához nem szükséges a populáció egyetlen paraméterének pl. az átlagnak, varianciának ismerete sem, mivel a próbastatisztika számítása egy eloszlás alapján történik pl. illeszkedésvizsgálat és random előfordulási teszt. A nem-paraméteres próbák másik csoportját az eloszlásfüggetlen eljárások alkotják. Az utóbbi csoportba tartozó próbák nem követelik meg a változók bizonyos típusú eloszlását, ilyenek pl. a rangok sorrendjén alapuló próbák. Habár az első nem-paraméteres próbát (egy előjeltesztet) már az 1700-as évek elején kidolgozták, a nemparaméteres eljárásokat az 1940-es évekig ritkán alkalmazták. Az utóbbi évtizedekben a nemparaméteres eljárásokat egyre gyakrabban alkalmazzák a természettudományokban (pl. biológiában, fizikában) és a társadalomtudományokban. A nem-paraméteres eljárások előnye a paraméteres próbákkal szemben, hogy kevés feltételen alapulnak, így kisebb az esély a hibás felhasználásukra. A próbastatisztikák számítása egyszerű, és a próbák logikáját sok esetben könnyebb megérteni, mint a paraméteres megfelelőjükét. A nem-paraméteres eljárások képesek kis felbontású skálán mért változókat pl. rangon alapuló változókat tesztelni. Továbbá, a paraméteres eljárásokkal szemben számos nem-paraméteres próba skálaérzéketlen, azaz az adatok transzformálásával nem változik a próbastatisztika értéke. Mivel a próbák egy része rangsoron alapul, a szélsőséges adatok kevésbé módosítják a teszt szignifikancia szintjét, mint paraméteres megfelelőjükét. A nem-paraméteres eljárások használatát akkor javasolják, ha a tesztelendő hipotézis nem a populáció egy paraméterére vonatkozik. Például, a függetlenség- és homogenitás tesztelésekor nem használjuk fel a populáció egyetlen paraméterét sem pl. átlagát, varianciáját. Nem-paramétercs eljárásokat szükséges akkor is használni, ha a változót intervallumskálánál kisebb pontosságú skálán mértük, vagy a változónk eloszlása nem elégíti ki a paraméteres próbák követelményeit. A nem-paraméteres eljárások alkalmazása célszerű, ha az eredményeket gyorsan és egyszerűen szeretnénk kiszámítani. Páros előjelteszt Amennyiben két minta között kapcsolat áll fenn, pl. kísérleti alanyokat kísérlet előtt és után mértük, páros előjeltesztet vagy Wilcoxon páros előjeltesztet célszerű használni. A páros előjelteszt alkalmazása akkor is praktikus, amikor csak a változás előjelét tudjuk, de a változás mértékét nem. A páros előjelteszt alkalmazási feltétele, hogy a méréseket legalább ordinális skálán végezzük, a minta random méréspárokból álljon és a méréspárok egymástól függetlenek legyenek. A teszt nullhipotézise, hogy az összehasonlítandó minta különbségeinek mediánja nulla, azaz H 0 : M D =0 és H 1 : M D 0. Az egymintás előjelteszthez hasonlóan a próbastatisztika a pozitív és negatív előjelösszegek közül a kisebbik érték. A próbastatisztika kiszámításához D i = x i - y i különbségek előjeleit meghatározzuk. Ha D i = 0 az adatot kizáljuk az analízisból. Számítjuk a negatív és pozitív előjelek előfordulási gyakoriságát. A pozitív és negatív előjelösszegek közül a kisebbik értéket a binomiális eloszlással hasonlítjuk össze. A null hipotézist elutasítjuk, amennyiben a pozitív vagy a negatív előjelek túl ritkán fordulnak elő. 12. Példa. Rovarirtószerrel kezeltek növényeket. Tíz növény egy-egy levelén kezelés előtt és után megszámolták az atkákat. A null hipotézis, hogy a kezelés nem befolyásolta az atkák számát.