Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció c. Társulás d. Regionális.... z. Bioszféra 4. Mintavételi univerzum: a. diszkrét b. folytonos Ennek alapján minden vizsgálat kategorizálható, pl. kapcsolat egy faj vízigénye és hőmérséklet-tűrése között: 1a 2a - 3b 4b stb.
További példák Becslés Mintázatelemzés Egyváltozós Többváltozós Egyváltozós Többváltozós Folytonos Diszkrét Fa magasság, Magtermés növényenként Borítás, egyedszám, biomassza, diverzitás (kvadrátokkal), Sok ökológiai változó együttes becslése egyedekre Fajok korrelációi borítás alapján. Random növények Kvadrátok alkalmazása mintázat vizsgálatára Tavak, szigetek osztályozása a fauna alapján Mintaterületek osztályozása és ordinációja
Fontos definíciók: Paraméter - Minta elméleti érték, pl. testmagasság átlaga. Csak teljes enumerációval kapható meg. Ez ritkán lehetséges. - Lehetséges adatok részhalmaza Becslőfüggvény - Olyan formula, ami a mintából becsli a paramétert. Statisztika Becslés A paraméter becsült értéke.
SKÁLATÍPUSOK Nominális =, levélalak Ordinális =,, <, > keménység Intervallum =,, <, >, C o Arány =, <, >,, / súly, stb
Mindezek behatárolják az alkalmazható módszerek körét Legtöbb módszer: intervallum és arányskálára Pl. t-próba, variancia elemzés, Kevesebb: nominális Chi 2 -próba Legkevesebb: ordinális eset. Rang korreláció
Az eloszlás: a lehetséges adatok fontos jellemzője 1/6 1 2 3 4 5 6 Kockadobás IQ 100
Bevezetés a hipotézis vizsgálatba A mintavételi univerzumból sokszor vehetünk mintát Mindegyikre kaphatunk egy-egy becslést 1/6 Statisztikák eloszlása nézzük az átlagot, nagyon sokszor feldobva n kockát f(x) n = 3 f(x) n = 6 1 2 3 4 5 6 1 2 3 4 5 6 x 1 2 3 4 5 6 x
Tegyük fel, hogy csak egy mintát vehetünk, azaz 6 kockát feldobunk Nullhipotézis: a kocka szabályos f(x) n = 6 1 2 3 4 5 6 x
Alternatív hipotézis: nem szabályos f(x) n = 6 1 2 3 4 5 6 x
Vagyis: ha a statisztika olyan eredményt ad, ami valószínű, akkor elfogadjuk, hogy a statisztika az adott eloszlásból származik. Ha a statisztika olyan eredményt ad, ami nagyon valószínűtlen, akkor azt mondjuk, hogy NEM, a statisztika mégse ebből az eloszlásból származik!! Tévedés lehetősége: mégis abból származik, ez rendszerint 0.05% Általános munkamenet: a. A minta alapján kiszámítunk egy statisztikát b. Megnézzük egy táblázatban, hogy ez mennyire valószínű c. Eldöntjük, hogy az eredmény szignifikáns-e avagy sem.
Statisztikai próbák t-próba A mintából kapott átlag lehet-e egy adott µ érték becslése Kétmintás t-próba A két minta átlagai megegyeznek-e?? Variancia-analízis Sok minta átlagai megegyeznek-e, vagy van legalább egy minta. Amelyik kilóg a többiek közül.
Egyszerű példa: Kísérleti személyek egy tárgyat 20 cm-re elmozdítanak, először jelzik nekik a távolságot, másodszor viszont anélkül, becsukott szemmel. Kérdés: van-e távolságérzékelés?? Adatok: 22,1 20,1 20,5 16,6 22,2 18,7 20,6 20,6 n = 8, x = 20,225 s = 1,89 H 0 = a második kísérletben is 20 a becsült várható érték H 1 = a második kísérletben már nem 20 Számítás: t = x µ = s / n 20.225 20 1.89 / 8 = 0.225 0.668 = 0.336 d.f. = n-1 = 7, legyen α = 0.05, s ekkor t crit =2.365.
Változók közötti kapcsolatok vizsgálata Korreláció: vö. az intuitív tartalommal Akkor pozitív, ha x és y átlagosan ugyanabba az irányba tér el a saját várható értékétől, negatív ha ellentétes irányba. r=0.89 r=-0.94 korrelálatlanság: r=0
Lineáris regresszió Predikcióra alkalmas: adott x-hez meghatározható az y a kettő közötti függvénykapcsolat ismeretében. Lineáris esetben a feladat a legjobban illeszkedő egyenes egyenletének a meghatározása. Az elméleti tengelymetszet α, becslése pedig a, az elméleti meredekség β, becslése pedig b, tehát: y = a +bx becsli az y = α + βx kapcsolatot.
Megállapítható változók elemzése Ordinális, nominális esetre, 2 x 2-es kontingenciatábla a gyakoriságokkal Oltás Betegség + - + 5 144 149-15 117 132 Hipotézisvizsgálat: 20 261 281 H 0 : nincs összefüggés a két változó között, függetlenek H 1 : a két változó között van összefüggés χ 2 próba
Függetlenségvizsgálat: két valószínűségi változó független-e vagy összefüggenek (a függetlenségtől való eltérés szignifikáns-e, vagy csak a mintavételi hiba okozta)? ˆχ A fenti példára 2 X 2 = 2,96 + 3,34 + 0,22 + 0,25 = 6,63 és ˆχ 2 X 2 2 χ krit 2 χ krit ( 1, α = 0,05) = 3,84 Mivel > a null hipotézis elvethető, a két változó nem független, szignifikáns az összefüggés, az oltás hatásos.
Mann-Whitney teszt A kétmintás t-próba helyett alkalmazható. Nullhipotézisünk az, hogy a két minta ugyanabból az alapsokaságból származik. Ha ez igaz, akkor a rangszámok véletlenszerűen oszlanak meg a minták közt. Teljes keveredés 1. minta: 13 16 24 29 34 2. minta: 9 15 20 27 33 37 rangsz.: 1 2 3 4 5 6 7 8 9 10 11 Ekkor a véletlen csak nagyon ritkán produkál pl. olyan szélsőséges megoszlást, hogy az egyik minta minden eleme kisebb a másik minta összes eleménél: 1. minta: 27 29 33 34 37 2. minta: 9 13 15 16 20 24 rangsz.: 1 2 3 4 5 6 7 8 9 10 11 Itt egy U statisztikát számolunk, s annak szignifikanciáját nézzük meg a táblázatban.