Biostatisztika 1 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Biostatisztika 1 2. Dr. Dinya Elek Dr. Solymosi Róbert: Biometria a klinikumban Dr. Dinya Elek: Biostatisztika c. művei alapján Hullám Gábor

Változók típusai A változók jellegük szerint lehetnek: Minőségi - kvalitatív leírók Pl.: végzettség, nem, lakhely Mennyiségi - kvantitatív leírók Pl.: életkor, vérnyomás A változók értékkészletük szerint lehetnek: Diszkrét Pl.: testvérek száma Folytonos Pl.: testmagasság 2

Változók értékeinek skálája Nominális:a változó lehetséges értékei között csak az azonos vagy nem azonos reláció értelmezett (=, ). Ordinális: a változó lehetséges értékei között a kisebb v. nagyobb (<,>) reláció (rangsorolás) is értelmezett. (+ az előbbi relációk) pl.: termék minőségi osztályok Intervallum: a változó értékei között értelmezhető a távolság(különbség), pl.: hőmérséklet (nincs valódi nullpontja a skálának) Arányskála: mind a négy alapműveletértelmezett a változó értékein, pl.: beavatkozás költsége 3

Teljes populáció vs. minta Sokaság (populáció) Mindazon elemek halmaza, amelyre a statisztikai következtetés irányul. A jellemző változók (ismérvek) által felvett vagy felvehető értékek halmaza. Két típus vizsgálat időtartama szerint: Időpontban: álló sokaság Időintervallumban: mozgó sokaság 4

Teljes populáció vs. minta Minta Egy adott véges sokaságból kiválasztott véges számú elemek halmaza Megmért, rendelkezésre álló adathalmaz A minta vizsgálata alapján vonunk le következtetéseket a sokaságra Reprezentativitás: egyes változók értékeinek az aránya a mintában megegyezik a sokaságbeli aránnyal 5

Mintavételi típusok Véletlenszerű mintavételezés (random sampling) Rétegzett mintavételezés (stratified sampling) alpopulációk (rétegek, strata) kialakítása minden rétegből véletlenszerű mintavételezés Csoportos (többlépcsős) mintavételezés (cluster sampling) A populáció csoportokra bontása egy ismérv mentén, majd ebből véletlenszerű mintavételezés Opcionálisan: mintákból alcsoportok kialakítása, majd újabb mintavételezés Véletlen besorolásos vizsgálatok (random assignment) Résztvevők kiválasztása előzetesen megállapított kritériumok szerint véletlenszerű eljárással csoportba sorolás Kényelmi mintavételezés Nem ismert a populáció, paraméterei nem becsülhetőek Kvóta minta Részben ismert populáció, paraméterei becsültek Az ismert rétegeknek egyenlő esély a bekerülésre 6

Mintavételi hiba Mintavételi hiba: a minta eltérése a teljes populációhoz képest Csak egy részletet látunk, nem a teljes képet Függ: a (1) mintaszámtól és a (2) mintavételi módszertől Minél nagyobb a minta, annál nagyobb bizonyossággal vonhatunk le következtetéseket a sokaságra vonatkozóan Véletlen mintánál számítható érvényesen Nem mintavételi hiba: Adatfelvételnél keletkezhet: Szisztematikus vagy véletlen hiba Hiányzás (MCAR / MAR / NMAR) Adattisztítási és imputálási lépésekkel kezelhető 7

Változók gyakoriság (minta alapján) (Abszolút)Gyakoriság: egy változó által felvehető lehetséges értékekre jutó megfigyelések száma. Diszkrét esetben: pl.: 4 fej és 6 írás a 10 pénzfeldobásból Folytonos esetben csak intervallumra vonatkoztatva értelmezhető!! Pl.: testmagasság X<175 cm vagy 180,4 cm < X < 180,8 cm Relatív gyakoriság: egy változó által felvehető lehetséges értékekre vonatkoztatottgyakoriságelosztva a teljes minta nagyságával 8

Események véletlen kísérlet (=minta) Elemi esemény: minden lehetséges kimenetel (e 1,e 2,,e n ), amiről a kísérlet elvégzése után eldönthető, hogy bekövetkezett vagy sem e 1 e 2 e n = Ø Eseménytér: a kísérlet összes kimenetele, az összes elemi esemény halmaza (Ω). e 1 U e 2 U U e n =Ω Véletlen esemény: az eseménytér egy részhalmaza Biztos esemény: a kísérlet során biztosan (minden kimenetelnél) bekövetkezik. Ellentett esemény: akkor és csak akkor következik be, ha az eredeti esemény nem következik be 9

Valószínűség Egy adott A esemény valószínűsége (P(A)) az a számérték, amely körül az esemény relatív gyakorisága (f A ) ingadozik, ha egyre több kísérletet végzünk. P(A)= lim n f A P(A) tehát azt mutatja meg, hogy az Aesemény az összes kísérlet mekkora hányadában (%) következik be. Minden A eseményre 0 P(A) 1 P(\ A)= 1- P(A), ahol \ Aaz A esemény ellentettje Egy teljes eseményrendszer valószínűségeinek sorozatát valószínűségeloszlásnak nevezzük 10

Valószínűségi változó Valószínűségi változó: olyan változó, melynek értékei egy véletlen kísérlet lehetséges kimenetelei Kapcsolódó fogalmak: Kolmogorov-féle valószínűségi mező Eseménytér (Ω) Eseményalgebra (Ϝ) Valószínűségi mérték (P) Eloszlásfüggvény: leírja, hogy egy valószínűségi változó milyen valószínűséggel vehet fel egy adott értéket. 11

Diszkrét eloszlások Diszkrét valószínűségi változók esetén Binomiális eloszlás Poisson-eloszlás Bernoulli-eloszlás Hipergeometrikus eloszlás Diszkrét egyenletes eloszlás 12

Diszkrét eloszlások Binomiális eloszlás Valószínűség tömegfüggvény (pmf) Kumulatív eloszlásfüggvény (cdf) 13 https://en.wikipedia.org/wiki/binomial_distribution#/media/file:binomial_distribution_pmf.svg

Diszkrét eloszlások Poisson eloszlás Valószínűség tömegfüggvény (pmf) Kumulatív eloszlásfüggvény (cdf) F(k, λ) = 14 https://en.wikipedia.org/wiki/poisson_distribution#/media/file:poisson_pmf.svg

Folytonos eloszlások Normális eloszlás Exponenciális eloszlás Khí-négyzet eloszlás F-eloszlás T-eloszlás 15

Folytonos eloszlások normál eloszlás Valószínűségsűrűség függvény (pdf) 16 Dr. Dinya Elek: Biostatisztika

Folytonos eloszlások normál eloszlás Kumulatív eloszlásfüggvény (cdf) 17 Dr. Dinya Elek: Biostatisztika

Folytonos eloszlások Exponenciális eloszlás Valószínűségsűrűség függvény (pdf) Kumulatív eloszlásfüggvény (cdf) 18 https://en.wikipedia.org/wiki/exponential_distribution#/media/file:exponential_pdf.svg

Eloszlás jellemzése középértékkel Középértékek két típusa: Számított középérték Helyzeti középérték Követelmények: a) Számított középérték: közbenső helyet foglaljon el: x min középérték xmax b) Helyzeti középérték: gyakori érték legyen c) Legyen könnyen meghatározható és egyértelmű 19

Számított középértékek Átlag Egyszerű Súlyozott (figyelembe veszi az azonos értékek gyakoriságát) Típusai: Számtani(Aritmetikai) átlag Harmonikus átlag Mértani(Geometriai) átlag Négyzetes (Kvadratikus) átlag 20

Számított középértékek Átlagok: Számtani Mértani Harmonikus Négyzetes (aritmetikai) (geometriai) (kvadratikus) 21 Dr. Dinya Elek: Biostatisztika

Helyzeti középértékek Módusz (Mo) Diszkrét eset: a legnagyobb gyakorisággal előforduló érték Folytonos eset: az az érték, ahol a gyakorisági görbe a maximumot veszi fel Kvantilisek(K jk ) az összes előforduló érték j/k (j=1,2,,k-1) része kisebb és 1-(j/k) része nagyobb Pl.: K 2 3 : k=3, j=2 az összes érték 2/3-a kisebb, mint K 23, 1/3-a nagyobb Típusai: k=2 Medián (Me) k=3 Tercilis k=4 Qvartilis(Q) : Q1, Q2 = Me, Q3 k=10 Decilis K=100 Percentilis 22

Medián Medián (Me) Nagyságság szerint rendezett értékek közül a középső érték A szélső értékek nem befolyásolják Mikor melyik középértéket célszerű alkalmazni? Módusz Nominális Medián Ordinális Átlag Kvantitatív 23

Kvartilisek Q1: alsó kvartilis Q3: felső kvartilis 24 https://en.wikipedia.org/wiki/interquartile_range#/media/file:boxplot_vs_pdf.svg

A szóródás mérése Szóródás: egy változó értékeinek a különbözősége Mérése: egy változó értékeinek egymás közötti vagy a változó valamely középértékétől vett különbségei alapján Szóródási mutatók A szóródás terjedelme Átlagos abszolút eltérés Szórásnégyzet (variancia), szórás, relatív szórás Koncentráció 25

A szóródás terjedelme - IQR Terjedelem (range) : T= x max - x min IQR (interkvartilis terjedelem): Q3-Q1 26 https://en.wikipedia.org/wiki/interquartile_range#/media/file:boxplot_vs_pdf.svg

Terjedelem - outlier Q1 1,5 IQR : alsó küszöb, ez alatt már (enyhe) outlier Q3 + 1,5 IQR : felső küszöb, e felett már (enyhe) outlier 27 https://en.wikipedia.org/wiki/interquartile_range#/media/file:boxplot_vs_pdf.svg

Terjedelem extrém outlier Q1 3 IQR : alsó küszöb, ez alatt már extrém outlier Q3 + 3 IQR : felső küszöb, e felett már extrém outlier Q1-3 IQR Q3 + 3 IQR 28

Szórás és variancia Variancia (szórásnégyzet) : σ 2 vagy s 2 A számtani átlagtól való négyzetes eltérés várható értéke N N-1 * 29

Szórás Szórás (Standard deviation) Korrigált szórás (Sample standard deviation) s* 30 https://en.wikipedia.org/wiki/standard_deviation#/media/file:standard_deviation_diagram.svg

A szórás tulajdonságai Ha minden yértékhez ugyanazt a konstans számot hozzáadjuk (y+a), a szórás változatlan marad. Ha minden yértéket ugyanazzal a kkonstans számmal megszorozzuk, (k*y), a szórás is k-szorosára változik. Az eltérésnégyzet-összeg az átlagtól való eltérésekkel számolva a legkisebb A szórásnégyzet felírható a négyzetes átlag és a számtani átlag négyzetének a különbségeként. A sokaságot jellemző teljes szórásnégyzet(variancia) megegyezik a rész-sokaságok külső és belső szórásnégyzetének összegével (ANOVA): 31

További szóráshoz kapcsolódó mutatók Variációs együttható relatív szórás (V) Átlag szórása Standard errorof mean(sem) 32

Eloszlás aszimmetria Az aszimmetria Pearson-féle A-mutatószáma: Szimmetrikuseloszlás esetén: A= 0 Jobb oldali aszimmetria esetén: A> 0 Bal oldaliaszimmetriaesetén: A<0 Az aszimmetria F-mutatószáma: Szimmetrikuseloszlás esetén: F = 0 Jobb oldali aszimmetria esetén: F > 0 Bal oldaliaszimmetriaesetén: F <0 33

Eloszlás aszimmetria - ferdeség Ferdeség (skewedness) A ferdeség az eloszlás középérték körüli aszimmetriájának mértékétjelzi. A pozitív ferdeség a pozitív értékek irányába nyúló aszimmetrikus eloszlást jelez, míg a negatív ferdeség a negatív értékekirányában torzított. 34 https://en.wikipedia.org/wiki/skewness#/media/file:negative_and_positive_skew_diagrams_(english).svg

Eloszlás aszimmetria - csúcsosság Egy adathalmaz csúcsosságát számítja ki. A függvény a normális eloszláshoz viszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A pozitív értékek viszonylag csúcsos, a negatív értékek viszonylag lapos eloszlást jelentenek. 35 https://stats.stackexchange.com/questions/84158/how-is-the-kurtosis-of-a-distribution-related-to-the-geometry-of-the-density-fun

Intervallum becslés Célkitűzés: Határozzuk meg egy becsült paraméter körül azt az intervallumot amibe egy előre meghatározott valószínűséggel esik a minta alapján. Pl.: populációs átlag (μ) minta áltag (x^) A becsülendő értéket (μ) pontosan nem tudjuk, de a minta alapján számított érték (x^) körül van: nagy (1-α) valószínűséggel a fenti intervallumban, és kis (α) valószínűséggel esik ezen kívülre. 36

Konfidenciaintervallum Ha α = 0,05 (5%), akkorμ95% ban ebbena konfidenciaintervallumban lesz benne és 5% ban pedig ezen kívül α = 0,05 szignifikancia szint esetén z=1.96 37 Dr. Dinya Elek: Biostatisztika

Konfidencia intervallum Nem ismert σ, csak s a minta alapján esetén: A t* értékét a Student eloszlás alapján határozzuk meg df = N 1 szabadsági fok ismerete mellett. A t-eloszlás a normális eloszláshoz tart, ha n. Minél nagyobb mintából becslünk annál jobb lesz az átlag szórásának becslése is. Általában, n>30 esetre a konfidencia intervallumhoz a normális eloszlás táblázata megfelelő. 38

Hatáserősség konfidencia intervalluma Célváltozó: Y Pl.: Allergia{eset, kontroll} Magyarázó változó: X Pl.: Lakóhely légszennyezettsége {alacsony, normális,magas} Odds X (s) i = Odds: esély P( Y P( Y (1) (0) X X (s) i (s) i ) ) OR X (1,0) i = Odds Odds X X (1) i (0) i OR: odds ratio : esélyhányados 39

Hatáserősség konfidencia intervalluma A hatáserősség logaritmusa a normális eloszlást közelíti X ~ N(log(OR),σ 2 ) A konfidenica intervallum normális eloszlást feltételezve számítható: Ahol SE = σ/ N így számítható 40

Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. H0: null -hipotézis H1: alternatív hipotézis Pl. két minta átlagokra vonatkozóan formailag megfogalmazva H0: μ1= μ2 vagy μ1- μ2=0 H1: μ1 μ2 Hipotézisellenőrzés: az a statisztikai módszer, amelynek segítségével egy véletlen minta alapján eldöntjük, hogy az adott hipotézis (H0) elfogadható-e vagy sem. 41

Statisztikai próba Minta alapján dönt a hipotézis elfogadhatóságáról Konstruálunk egy próbafüggvényt, amely függ a mintától, és amelynek eloszlása ismert, ha H0 igaz. p-érték (empirikus szignifikancia-szint): Az a legkisebb valószínűség, amely mellett a vizsgált H0 hipotézist már elutasíthatjuk a H1 hipotézissel szemben. Döntés a p értéke alapján: p < α: H0-t elvetjük, elfogadjuk H1-et p α: H0-t elfogadjuk 42

Statisztikai próba Ha a próbafüggvény értéke az elfogadási tartományba esik, akkor a tapasztalati adatok αszignifikanciaszinten nem mondanak ellent H0-nak Ha a próbafüggvény értéke a kritikus tartományba esik α szignifikancia szinten, akkor elvetjük H0-t 43 Dr. Dinya Elek: Biostatisztika

Statisztikai próba Kétoldali próba: két oldalról állít alsó és felső korlátot (a feltételtől való eltérés tényét vizsgáljuk, irányát nem). Egyoldali próba: csak az egyik irányban állít korlátot (csak ilyen irányú eltérés lehetséges vagy fontos számunkra). 44 Dr. Dinya Elek: Biostatisztika

Elkövethető hibafajták Type I. error(α hiba vagy szignifikanciaérték): annak valószínűsége, hogy elutasítjuk a valós H0 hipotézist. Type II. error(β hiba): a hibás H0 hipotézis elfogadásának valószínűsége. Power: a téves H0 helyes elutasításának valószínűsége. = 1 -ß. Valós helyzet H0 igaz H0 hamis Döntés H0 elfogadása H0 elutasítása Helyes döntés (1-α) Elsőfajú hiba (Type I. error : α) Másodfajú hiba (Type II. error : β) Helyes döntés (1-β) 45

Döntések értelemzése 1 -α: H0 elfogadása, amikorazvalóban igaz (H1 elutasításahelyesen) H0: μ1 =μ 2 H1: μ1 μ 2 α : H0 elutasítása, amikor az igaz, és H1 elfogadása, holott az nemigaz H0: μ1 =μ 2 H1: μ1 μ 2 1 -β: H0 elutasítása, amikoraz hamis, és H1 elfogadása, amikorazigaz H0: μ1 =μ 2 H1: μ1 μ 2 β: H0 elfogadása, amikoraz hamis, és H1 elutasítása, holottaz igaz H0: μ1 =μ 2 H1: μ1 μ 2 46

A hipotézis vizsgálat menete A null- és alternatív hipotézis megfogalmazása. Próbafüggvény keresése/szerkesztése. Előre rögzített szignifikanciaszintmellett az elfogadási és elutasítási tartomány megszerkesztése. A próbafüggvény empirikus értékének meghatározása. Döntés 47

Paraméteres eljárások Feltétel: a vizsgált valószínűségi változók eloszlása normális eloszlást követ Normalitás vizsgálat Egy várható érték összevetése egy adott értékkel Két várható érték összevetése Varianciák homogenitásának vizsgálata 48

F-próba Két variancia homogenitásának eldöntésére, azaz a két minta azonos varianciájú alapsokaságból származik-e. H0: S 12 = S 22 vagyis S 12 -S 2 2 =0(varianciák azonosak) H1: S 12 S 22 vagyis S 12 -S 22 0 (varianciák nem azonosak) A két minta elemszámai: N1 és N2 A két szabadsági fok: df1=n1-1 és df2=n2 1. Az Fkrit, (N1-1, N2-1) két szabadságifoktól függvalamint α- tól. 49

F-próba - ha F-próbával a kétvariancia azonos, akkor pl. használhatunk kétmintás t-próbát - ha a két variancia nemazonos, akkor az ún. d-próbát (Welch próbát) használunk 50 Dr. Dinya Elek: Biostatisztika

Egymintás T-teszt Egy a populáció várható értéke megegyezik e egy feltételezett várható értékkel vagy pedig szignifikánsan eltér attól. Feltétel, hogy a változó legyen normális eloszlású. Hipotézisek: Ho: x^-μ=0 (nem tér el szignifikánsan μ-től) H1: x^- μ =0(szignifikánsan eltér) A vizsgálathoz a t statisztikára van szükség: Amennyiben a számolt t értékünk abszolút értéke kisebb, mint t krit, úgy a H0 nullhipotézist α szignifikanciaszinten elfogadjuk; ellenkező esetben elvetjük és a H1-t fogadjuk 51

Párosított T-teszt Ugyanazokon a mintákon két mérést végzünk különböző időpontokban: kezelés előtt (t0) és után (t1), így a két N- elemű összetartozó párokból álló mintát kapunk. A cél a kezelés hatásosságának vizsgálata, azaz történt e szignifikáns változás d i = x 0i -x 1i ; d^= 1/n Σ i (d i ) Ho: d^=0 (nincs szignifikáns eltérés) H1: d^ 0 (van szignifikáns eltérés) A vizsgálathoz a t statisztikára van szükség: 52

Kétmintás T-teszt Két független minta összehasonlítására használjuk. Feltételek: a) csoportok függetlensége b) adatok normalitása c) csoportok varianciája legyen azonos (F-próba). Hipotézisek: Ho: x 1^ = x 2^(nem tér el szignifikánsan egymástól) H1: x 1^ x 2^(szignifikánsan eltér) A vizsgálathoz a t statisztikára van szükség 53

Kétmintás T-teszt A.) Csoportok közötti variancia egyenlő A populáció torzítatlan becslése (pooled variance): A két átlag eltérésének standard hibája: Az számítandó t-statisztika: 54

Kétmintás T-teszt A.) Csoportok közötti variancia nem egyenlő A variancia becslése (Cochran-Cox metódus) A számítandó t-statisztika és annak korrekciója 55

Z-teszt Két független minta összehasonlítására használjuk. Feltételek: a) csoportok függetlensége b) adatok normalitása c) csoportok varianciája ismert Hipotézisek: Ho: μ 1^ = μ 2^(nem tér el szignifikánsan egymástól) H1: μ 1^ μ 2^(szignifikánsan eltér) A vizsgálathoz a z statisztikára van szükség 56

ANOVA (ANalysis Of VAriance) Több minta egyidejű összehasonlítására (vagy egy mintán belüli több csoport összehasonlítására) Lényege: A mintákból számolt összvarianciát két részre osztjuk: csoporton belüli (within) és csoportok közötti varianciára (between) A két részvarianciát hasonlítjuk össze F próbával Attól függően, hogy melyik hatás (csoporton belüli vagy csoportok közötti) a domináns, döntünk a vizsgálat felől. Ha a csoportok közötti eltérés jelentős, akkor a csoportok közötti variabilitás lesz a domináns rész a két variancia között és ilyenkor az F próba szignifikáns eredményt ad. A varianciaanalízis után végrehajtott post hoc tesztek adják meg, hogy mely jellemzők okozzák az eltéréseket 57

ANOVA - 2 Attól függően, hogy hány szempont (független faktor) szerint csoportosítjuk a vizsgált változót: egyszempontosvagy többszempontos ANOVA elrendezésekről beszélhetünk. A t-tesztek az ANOVA eljárás speciális esetéinek tekinthetők: a) Párosított t-teszt: ismételt méréses ANOVA két időpontra vonatkoztatva. b) Kétmintás t-teszt: egyszempontos ANOVA két csoportra vonatkoztatva. 58

ANOVA Példa: négy fajta készítmény (referens és három új készítmény) terápiás hatását vizsgáljuk, akkor az előbbiek értelmében azt vizsgáljuk, hogy az összvariabilitásból milyen jelentőséggel bír az egyes csoportokon belüli egyedi variabilitás, s mennyit jelent a csoportok közötti variabilitás (a tulajdonképpeni gyógyszerhatás). Ha a kezelések (gyógyszerhatások) közötti eltérés jelentős, akkor a csoportok közötti variabilitás lesz a domináns rész a két variancia között és ilyenkor az F próba szignifikáns eredményt ad. Azt, hogy melyik kezelések okozzák az eltéréseket a varianciaanalízis után végrehajtott post hoc tesztek adják meg. 59

Egyszempontos ANOVA Feltételek: a) legalább 3 diszjunkt csoport b) a vizsgált változó legyen normális (vagy közel normális) c) a csoportok között a variancia legyen homogén (Bartlett-próba, Levene-teszt) d) az esetszám lehetőleg legyen azonos csoportonként (balanced), ekkor lesz a legnagyobb a teszt ereje Ha a feltételek nem teljesülnek, akkor a nemparaméteres Kruskal-Wallistesztet kell alkalmazni Hipotézis: 1) 60 Ho: μ 1^ = μ 2^= μ 3^= = μ n^ (átlagok nem térnek el szignifikánsan egymástól, p 0.05) H1: μ 1^ μ 2^ μ 3^ μ n^ (átlagok szignifikánsan eltérnek p<0.05)

Egyszempontos ANOVA 2) Csoportok közötti variancia homogén (F-próba) Ho: σ 12 = σ 22 = σ 32 = = σ 2 n H1: σ 12 σ 22 σ 32 σ 2 n Lineáris egyenlet y i,j = μ + α i + e i,j yij: a függő változó értéke μ : a kísérlet főátlaga, fix hatás α i : fix hatás eij: hiba, vagy eltérés 61

Egyszempontos ANOVA A mintára vonatkozó teljes variabilitás: az egyes mintaelemeknek a nagy átlagtól való eltérésének négyzetösszege (Total Sum of Squares) kindex a csoportszámot, N j a csoportelemszámotjelöli, xija j edikcsoporti edikeleme 62

Egyszempontos ANOVA a teljes négyzetösszeg (SS 2 T ) két részre bontható: egy csoportonbelüli(within group: SS 2 W) és egycsoportok közötti (Between group:ss 2 B) négyzetes összegre: SS 2 T = SS 2 W + SS 2 B 63 Dr. Dinya Elek: Biostatisztika

Egyszempontos ANOVA a) a j edik csoport mintaelemeinek összege b) a teljesmintaösszege c) teljes mintára vonatkozó négyzetes összeg d) csoportokon belüli négyzetes összeg e) csoportok közötti négyzetes összeg 64

Egyszempontos ANOVA Arra nem kaptunk választ, vajon milyen csoportok átlagértékei között van eltérés Ehhez páronkénti összehasonlítások szükségesek, aminek a száma k(k 1)/2 m A többszörös összehasonlítás (többszörös hipotézistesztelés) azzal a veszéllyel jár, hogy megnövekszik az elsőfajú hiba elkövetési valószínűsége m tesztnél legalább 1 hiba: 1-(1-α) m Ennek kiküszöbölésére szignifikanciaszint korrekciós módszerek szükségesek Bonferroni Benjamini & Hochberg 65

Kétszempontos ANOVA (ismétlés nélkül) A vizsgált paramétert két szempont(faktor) hatásaként értékeljük Azt vizsgáljuk, hogy az egyes faktoroknak van e hatása az értékek alakulására A faktorok diszkrét értékkészletűek (vagy nominálisak) Táblázatos elrendezésben: az egyik faktor lehetséges értékei határozzák meg a sorok számát: r a másik faktorlehetséges értékei határozzák meg az oszlopok számát: c 66

Kétszempontos ANOVA (ismétlés nélkül) x ij : i-dik sorban és j-dik oszlopban álló értéket jelöli x i. : i-dik sor átlaga x. j : j-dik oszlop átlaga 67

Kétszempontos ANOVA (ismétlés nélkül) A teljes négyezetösszeg: Ez három komponensre osztható: sorok szerinti négyzetösszeg oszlop szerinti négyzetösszeg interakciós vagy residuális négyzetösszeg A teljes átlagtól való eltérésből kiindulva: 68

Kétszempontos ANOVA (ismétlés nélkül) Legyen: Si. azi ediksorösszeg, S.j a j edik oszlopösszeg, Sij azi ediksorbanés j edikoszlopbanállóérték Saz N megfigyelésösszege 69

Kétszempontos ANOVA (ismétlés nélkül) A kétszempontos variancianalízis matematikai modellje: x ij = μ + α i + β j + I ij + ε ij, ahol μ : a teljesmintaátlagértéke α i : i edik sorhatás, Σ i α i =0 β j : j edikoszlophatás, Σ j β j =0 I ij : az i ediksor és j edik oszlop interakciója(a kétfaktor közötti interakció, amit0 nak tételezünk fel) ε ij : hibatag (normális eloszlású valószínűségi változó 0 átlaggal az σ 2 varianciával). x ij : is normális eloszlású valószínűségi változó μ átlaggal és σ 2 varianciával 70

Kétszempontos ANOVA (ismétlés nélkül) Az analízis során két nullhipotézist tesztelünk: H0(1): minden sorátlag egyenlő x 1. = x 2. = x 3. = = x r. H0(2): minden oszlopátlag egyenlő x.1 = x.2 = x.3 = = x.c 71

Kétszempontos ANOVA ismétléssel A kétszempontos ismétléses variancianalízis modellje: x ijk = μ + α i + β j + I ij + ε ijk, ahol μ : a teljesmintaátlagértéke α i : i edik sorhatás, Σ i α i =0 β j : j edikoszlophatás, Σ j β j =0 I ij : az i ediksor és j edik oszlop interakciója(a kétfaktor közötti interakció, amit0 nak tételezünk fel) x ijk : a k adikmegfigyelésiértékazi ediksorés j edik oszlophatásra vonatkozóan ε ijk : x ijk -hoztartozó hibatag (normális eloszlású valószínűségi változó 0 átlaggal és σ 2 varianciával). 72

Kétszempontos ANOVA ismétléssel Az analízis során három nullhipotézist tesztelünk: H0(1): minden sorátlag egyenlő x 1. = x 2. = x 3. = = x r. H0(2): minden oszlopátlag egyenlő x.1 = x.2 = x.3 = = x.c H0(3): nincskereszthatása faktorokközött: I ij = 0 Az ellenőrzést mindig az interakció szignifikanciájával kezdjük! Ha nem szignifikáns, akkor a H0(1) és H0(2) hipotéziseket ellenőrizhetjük az adott α szignifikancia érték mellett Ha közel szignifikáns, akkor használjuk a korrekciós tényezőt, amivel S e2 helyettesíthető 73

Kétszempontos ANOVA ismétléssel Ha szignifikáns, akkor az ANOVA mellett további vizsgálatok szükségek, többek közt a faktorok közötti függőségek vizsgálatára Ekkor: 74

Kovarianciaanalízis - ANCOVA ANOVA + a vizsgált változóra egy másik folytonos változó (pl. életkor) hatást gyakorol Ezek az ún. kovariáns változók A modellben ezt / ezeket a változó/ka/t figyelembe kell venni 75

Kétszempontos ANOVA randomizált blokkok A randomizáltblokkokanalízise kétszempontosanova módszerrel végezhető Cél: a kezelés hatásánakvizsgálata, amicsak akkorad megbízható eredményt, ha az interakció kicsi A blokk elrendezéssel csökkenthetőa hibanagysága, ezáltal a vonatkozóf próbaérzékenyebbéés megbízhatóbbáválik. Lépései: Egyik faktor mentén történő csoportosítás, pl.: méret A csoportokon belül, a másik faktor szerinti besorolás random pl.: kezelés besorolás Kétszempontos ANOVA alkalmazása 76

Kétszempontos ANOVA randomizált blokkok Pl.: Gyakoriprobléma, azéletkor befolyásolóhatásánaka figyelembe vétele. A kort zavaró (confounded) változónak nevezzük, mert nem lehet igazából tudni, hogy egy vizsgálatban egy adott hatásért a ténylegesen vizsgált faktor vagy a kor a felelős. Ilyen esetekben a randomizáltblokk segít a blokkok közötti eltérés kiszűrésében. 77

Kétszempontos ANOVA latin négyzet Véletlen blokk, amely két confounding(két hibaforrás) változó hatását akarja kiegyenlíteni Az elrendezés tulajdonsága, hogy minden kezelés csak egyszer fordul elő a sorokban és oszlopokban. Az ilyen elrendezést kiegyensúlyozott (balanced) elrendezésnek is nevezzük. Három vagy magasabb szempontú ANOVA eljárásokra is alkalmazhatjuk(replikációval vagy anélkül) 1. II. III. IV. 1. A B C D 2. B D A C 3. C A D B 78 4. D C B A

MANOVA Többváltozós, azaz Mulitvariate ANOVA vizsgálat Függő változók korreláltak MANOVA-val megválaszolható kérdések: 79 A független változók értékeinek a változása befolyásolják-e szignifikánsan a függő változókat? Milyen kapcsolat áll fenn a függő változók között? Milyen kapcsolat áll fenn a független változók között? Alapja két variancia mátrix Modell (által magyarázott) variancia: Σ modell Reziduálisvariancia (hiba variancia): Σ res és ennek inverze:σ res -1 Legyen A= Σ modell x Σ res -1 H0: Σ modell = Σ res, vagyis A ~ I

MANOVA Használt statisztikák: Wilks lambda Pillai-M. S. Bartlett(trace) Lawley-Hotelling trace Roy's greatest root 80

Nemparaméteres eljárások Ha egy paraméteres statisztikai eljáráshoz kapcsolódó feltételeket nem tudjuk biztosítani, akkor annak megfelelő nemparaméteres eljárást válasszuk. A nemparaméteres vagy eloszlásmentes (distributionfree) tesztek nem igénylik a változók normalitását, nem igénylik a varianciák homogenitását, felteszik, hogy az összehasonlítandó minták eloszlása formája közel azonos. ezek gyengébb kritériumok mint a normalitás kritériuma A nemparamétereseljárások egyaránt érvényesek nominális, ordinális és intervallum skáláról származó adatokra A nemparaméteres tesztek ereje gyengébb mint a neki megfelelő paraméteres teszté, ami a háttérfeltételek hiányából adódik. 81

Nemparaméteres eljárások A minták összehasonlításakor a minták eloszlásának azonosságát teszteljük Nem tesztelhetjük a populáció átlagainak azonosságát, mivel az eljárás eloszlásmentes Ha feltesszük, hogy a populációk eloszlása szimmetrikus, akkor viszont a teszt az átlagok tesztelésére vezethető vissza Feltétel: szimmetrikus eloszlásnál a medián és az átlag azonos A tesztek az adatok növekvő sorrendbe rendezett sorszámait (rangjait) használják Ezért a név: rendstatisztika 82

Nemparaméteres eljárások A minták összehasonlításakor a minták eloszlásának azonosságát teszteljük Nem tesztelhetjük a populáció átlagainak azonosságát, mivel az eljárás eloszlásmentes Ha feltesszük, hogy a populációk eloszlása szimmetrikus, akkor viszont a teszt az átlagok tesztelésére vezethető vissza Feltétel: szimmetrikus eloszlásnál a medián és az átlag azonos 83

Nemparaméteres eljárások A tesztek az adatok növekvő sorrendbe rendezett sorszámait (rangjait) használják Ezért a név: rendstatisztika Azonos értékek kapcsolt rangot kapnak 84

Rangszámok nem mindig egész számok nagyon sok azonos érték rontja az alkalmazott próba érzékenységét különösen nem számszerű (nominális) változók esetén előnyös a használatuk A rangokra vonatkozóan az alábbi műveletek érvényesek: a) rangszámok összege R b) rangszámok négyzetösszege R c) rangszámok átlaga és varianciája 85

Előjel teszt (sign teszt) Páros minták összehasonlításának nemparamétereseljárása (~ egymintás t teszt) Két összetartozó minta különbségének előjelét vesszük (+, ) és azt elemezzük az alábbi statisztikával: Ahol z standard normális eloszlás alapján meghatározható Vagy binomiális eloszlás alapján (ami N esetén tart normálishoz) x: + esetek száma μ: Np Folytonossági korrekció: x+0.5 ha x<np; x-0.5 x>np 86

Wilcoxon signed-ranked teszt Párosított mintákra Hipotézis: H0: az érték párok közötti különbség egy 0 körüli szimmetrikus eloszlást követ H1: az érték párok közötti különbség nem követ szimmetrikus eloszlást Eljárás lépései: Párok közötti különbségek és a hozzá tartozó előjel meghatározása: x 2,i -x 1,i és sgn(x 2,i -x 1,i ) A 0 különbségűek elhagyását követően rangsor kialakítása az abszolút különbség alapján (Nr) W statisztika számítása: = [,, ], ahol Ri az i-edikpár rangja 87

Wilcoxon signed-ranked teszt H0 esetén W eloszlására igaz, hogy μ=0; = ( ) ( ) A kritikus érték táblázat alapján meghatározható (W kr ) Ha W >W kr akkor H0 elvethető 88

Mann Whitney U teszt Alkalmazás: ha a kétmintás t-teszt feltételei (a normalitás vagy a varianciák homogenitása) nem teljesülnek Lépései: 1. A két minta elemeinek összevonása, majd növekvő sorrendbe állítása. Végül minden értékhez a megfelelő rangszám hozzárendelése. 2. A csoportok rangszámainak összegének (R1, R2) meghatározása Ha a N1 N2 akkor legyen N1<N2. A kisebb mintához tartozó U-statisztika számítása: 89

Mann Whitney U teszt Ha N1 és N2 8, akkor az U közelítőleg normális eloszlású, tehát z-score alapján dönthetünk H0: R1=R2hipotézis tekintetében Az U1 és U2 statisztikára teljesül: 90

Kolmogorov Szmirnov teszt A tesztet a két minta eloszlásának tesztelésére használjuk. H0: a két eloszlás azonos a két minta kumulatív eloszlása összehasonlítása alapján: ahol F 1, n az első és F 2, n a második minta tapasztalati eloszlása. H0 hipotézist α szinten elvetjük, ha 91

Kruskal Wallis féle H próba k független minta összehasonlítása egyszempontos varianciaanalízis nemparaméteres változata Mann Whitney vagy a Wilcoxon rank sum teszt általánosítása H0: a k független minta ugyanabból a populációból való Lépései: 1) a megfigyelt értékek összevonása, egy mintává egyesítése (N = N1 + N2 + N3 +...+ Nk) 2) az értékek növekvő sorba állítása 3) rangszámok (ri) és a rangösszegek (Ri) meghatározása 4) H statisztika számítása a H0 hipotézistesztelésére, amelyk 1 szabadságfokúχ 2 eloszlástkövet. 92

Kruskal Wallis féle H próba Ha a rangok között kapcsolt rangok is előfordulnak, akkor korrekcióra van szükség: 93 ahol Tj = t3 t és t a kapcsolt rangok száma A korrekcióval H értéke is nő. Szignifikáns eltérés esetén szükségünk lehet a minták páronkénti összehasonlítására, vagyis egy post hoc teszt eredményére (pl.: Mann-Whitney U tesztet ).

Friedman-teszt kétszempontos varianciaanalízis nemparaméteres változata k számú összetartozó minta vizsgálata Sorok és oszlopok sorrendje véletlenszerűen választott Pl.: sorok betegek, oszlopok kezelések Cél: az oszlopok közötti eltérés vizsgálata 1) rangsorolás soronként, rang meghatározása (ri) 2) oszlopok rangösszegénekmeghatározása (Ri) 3) statisztika számítása 94

Friedman-teszt N a sorok száma k azoszlopok száma Ri 2 az oszlopok rangösszegének négyzete Azeloszlásχ 2 eloszlást követk 1 szabadságfokkal, ha a sorok és oszlopok száma nem túlságosan kicsi. A statisztikával a sorok közötti eltérés is ellenőrizhető Azígy meghatározottχ 2 eloszlás szabadságfoka N 1 95

Kontingencia táblák vizsgálata A nominális és ordinális skáláról származó diszkrét változók analízise a korábbiaktól eltérő típusú vizsgálati módszereket igényel Ezeket kontingencia(gyakorisági) táblák formájában vizsgáljuk Általános formában a kontingenciatáblázat mérete rxk, és szabadsági foka a df=(r-1) (k-1). A kontingenciatáblák méretét a sorok és oszlopok száma határozza meg. 96

Kontingencia táblák vizsgálata Alkalmazás függetlenség vizsgálat, homogenitás vizsgálat, eloszlás vizsgálat, két független binomiális arány vizsgálata irányul. A khí-négyzet teszt használatának feltételei a) a megfigyelt értékek táblázatában bármely cella értéke lehet 0, sőt sorok és oszlopok teljesen 0 értékűek is lehetnek, b) a várható értékekközött nemlehet 0 érték, c) a várható értékektáblázatában az olyan cellák száma, ahol az érték 1-5 közötti, nem lehet több, mint az össz cellaszám 25%-a, d) a teszt ereje N 30 mintaszámnál a legerősebb, alatta ne használjuk, 97

Kontingencia táblák vizsgálata Az elemzés során a megfigyelt és a várható gyakoriságok eltérését vizsgáljuk. A nullhipotézisszerint nincs eltérés ezen értékek közt, Ezt a gyakoriságokból készített Pearson féle χ 2 statisztikával ellenőrizhető:, ahol g ij : az i-ediksor és j-edikoszlopban lévő cella megfigyelési értéke e ij : az i-ediksor és j-edikoszlopban lévő cella várható értéke Egy cella várható értékét úgy kapjuk meg, hogy a hozzátartozó sor és oszlopösszeg szorzatát elosztjuk az N mintaszámmal: 98

Kontingencia táblák folytonossági korrekció Kismintákesetén a χ 2 statisztika eredménye pontosítható, ha folytonossági korrekciót alkalmazunk (Yates féle korrekció) 99

Asszociációs mérőszámok Ha a két változó nem független egymástól, akkor a közöttük lévő kapcsolat szignifikáns lesz Ekkor a két változó közötti kapcsolat erősségének megállapítására ún. szimmetrikus asszociációs mérőszámok használhatók: Kontingencia együttható: Értéke [0, 1] intervallumban van: 0 a függetlenséget, 1 a tökéletes kapcsolatot jelenti. 100

Asszociációs mérőszámok Phi-együttható Csuprov- együttható Értéke[0, 1] intervallumban helyezkedik el Cramer-együttható: Értéke: 0 V 1. 101

Fisher-egzakt és McNemar teszt Kis minták esetén használatos a χ 2 statisztika helyett: Fisher-egzakt teszt Nem független minták vizsgálata: McNemar-teszt 102

Spearman-féle rangkorreláció Lineáris korrelációs együttható speciális esetének tekinthető. A kapcsolat szorosságának mérésére a két változó rangszámainak különbségét használjuk fel: di = xi yi az x és y rangjainak különbsége N = a mintaszám Az együtthatóértékeia 1 r s 1 intervallumba esnek Minél közelebb vannak ezek az értékek a 1 hez vagy +1 hez, annál szorosabb a kapcsolat a két változó között. rs 0 estén a két ismérv szerinti rangsor fordított sorrendben van 103

Spearman-féle rangkorreláció Kapcsolt rangok esetén: di= xi yiaz x és y rangjainak különbsége N = a mintaszám T korrekciós tényező, t a kapcsolt rangok száma j = 1, 2, 3,..., iaz azonos rangszámú csoportok száma H0: a korrelációs koefficiens 0, az alábbi t statisztikával ellenőrizhető : 104

Spearman-féle rangkorreláció N 2 szabadságfokú t eloszlást követ. Ha az így kiszámított t > t krit a táblázatbeli kritikus értéknél, akkor az r s értéke a két változó kapcsolatának a jellemzésére használható Ellenkező esetben nincs valós kapcsolat a két változó között 105

Kendall-féle rangkorreláció Két változó kapcsolatát mérő τegyüttható a Spearman féle korrelációs együttható alternatívája. A számításhoz az egyes változók rang adatainak természetes sorrendjét vizsgáljuk Legyen (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ) megfigyelése halmaza X és Y random változó esetében, úgy hogy mindegyik érték egyedi Minden ( x i, y i ) és ( x j, y j ) megfigyelés pár,ahol i j, konkordánsha a rangsor mindkét változónál megegyezik, azaz [x i > x j és y i > y j] vagy [x i < x j és y i < y j] diszkordáns, ha [x i > x j és y i < y j] vagy [x i < x j és y i > y j] Ha x i = x j vagy y i = y j akkor a pár se sem konkordáns, se nem diszkordáns 106

Kendall-féle rangkorreláció A τ éréke a [ 1, +1] intervallumbanhelyezkedik el: +1 érték jelenti, hogy a rangpárok sorrendje természetes 1 a fordított sorrendet jelenti Kapcsolt rangok esetén: Ha egy párban kapcsolt rang szerepel, akkor értékük 0 Tx és Ty az X és Y változók kapcsolt rangjainak a számát jelenti S: n c -n d, ahol 107 n c a konkordáns párok száma; n d a diszkordáns párok száma:

Kendall-féle rangkorreláció H0: a változók között nincs valós kapcsolat Számítandó statisztika: H0 elvetése standard normális eloszlás adott α szint melletti kritikus értéke szerint 108

Korreláció és a regresszió kapcsolata Célkitűzés Két vagy több változó közötti kapcsolat vizsgálata Korreláció Változók közötti kapcsolat erősségének számszerű kifejezése Regresszió Egy vagy több változó (független változók) milyen hatással van egy kitüntetett változóra (függő változó) A változók közötti sztochasztikus kapcsolatban lévő törvényszerűségeket, tendenciát fejezi ki függvények formájában erős korreláció regressziós összefüggés megfelelő jellemzést ad gyenge korreláció regressziós összefüggés korlátozott jellemzést ad 109

Korreláció Két vagy több változó között a kapcsolat erősségének a megállapítása Fajtái a változók eloszlásától függően: a) lineáris korreláció: a változóknormáliseloszlásúak, pl.: Pearson-féle r együttható b) nemlineáriskorreláció: a változóknemnormáliseloszlásúak, pl.: Spearman-féle ρ A korrelációs együttható értéke [-1, +1] tartományban van: -1 a maximális negatív, +1 a maximális pozitív korrelációs kapcsolatot, 0 közeli érték a korrelálatlanságot (de nem függetlenséget) jelenti a változók között. Általánosanazalábbihipotéziseketvizsgáljuk: H0: nincskorrelációskapcsolataz Xés Y változókközött (vagy H0: r = 0) H1: van korrelációskapcsolataz Xés Xváltozókközött (vagy H1: r 0) 110

Kovariancia Két egymástól különböző valószínűségi változó együttes eloszlására jellemző érték, amely megadja a két változó együttmozgását A várható értékektől vett eltérések szorzatának várható értékét fejezi ki: Cov(X,Y) = E[(X-E(X)) (Y-E(Y))] = E(XY) - E(X) E(Y) Kovariancia számítása: Nem egyenlő (x i, y i ) előfordulási gyakoriság esetén cov(x,x) = Var(X) Mintából számítva: 111

Kovariancia A függvény értékkészlete: (-, ). Ha a kovariancia pozitív,akkor a két változó átlagosan ugyanabban az irányban tér el a saját átlagától, X növekedésével átlagosan Y is nő, Ha a kovariancia negatív az X növekedésével Y csökken 112

Lineáris korreláció Pearson féle korrelációs együttható: r, ahol x az x i értékek, y pedig az y i értékek átlaga Számításánakfeltételei: a) Az X és Y változóklegyeneknormáliseloszlásúak b) Az összes kovariancia legyen lineáris c) Az X és Y értékeket egymástólfüggetlenülmérjük Megjegyzés: A kiugró (outliers) értékek erőteljesen befolyásolják r értékét. 113

Lineáris korreláció a) A nevezőben a két változó szórásának szorzata szolgál standardizáló tényezőként: így r értéke standardizált lesz (és összevethető) b) Akkor értelmes, ha X és Y kapcsolata az adott tartományon belül jó közelítéssel lineáris. c)ha más természetű a kapcsolat, a korrelációs formula akkor is csak a lineáris komponensét méri. d) Ha r = 0, (illetve ha r nem különbözik szignifikánsan a 0-tól) akkor korrelálatlanságról beszélünk (Nem függetlenségről!) e) A korrelációs értékeket r 0.7 felett mondjuk erős kapcsolatnak 114

Korrelációs együttható szignifikanciája X és Y változók összes populációbeli N számú mintáját, akkor az így kapott sokaságot kétváltozós sokaságnak nevezzük, amelyről feltételezzük a kétváltozós normális eloszlást. E kétdimenziós normális eloszlás korrelációját az elméleti korrelációs együttható méri, amit ρ val jelölünk. Értékkészlete a [ 1, 1] intervallum A mintából meghatározott r ennek az elméleti korrelációs együtthatónak a becslése Az r eloszlása nem szimmetrikus, a ρ t a 1, 0, +1 értékek kivételével csak jól közelíti. A végpontok miatt ferde eloszlás, ami ρ = 0 estén válik szimmetrikussá. 115

Korrelációs együttható szignifikanciája Az r szignifikanciaértékének ellenőrzése N 2 szabadságfokú t statisztikával Szignifikáns eltérés esetén a H0: ρ = 0 hipotézist elvetjük és az r értékét valós kapcsolatnak minősítjük Döntés a t értéke alapján: Ha t<t krit, akkorh0-t elfogadjuk, vagyis az r értéknem különbözikszignifikánsana 0-tól. Ha t>t krit, akkorh0-t elvetjükaz adottszignifikanciaszinten. Ez esetben r olyan mértékben különbözik 0-tól, amit az adott mintaelemszámmelletta mintavételihiba márritkánokoz. 116

Korrelációs együttható szignifikanciája A ρ 0 vagyρ= ρ 1 hipotézisek tesztelésénél az r eloszlása aszimmetrikus, de azún. Fisher félez transzformációval normális eloszlást kapunk 117

Korrelációs együttható szignifikanciája Inverztranszformációvalvisszakapjuk a korrelációs együttható konfidencia intervallumánokalsó és a felső korlátját A két együttható eltérésének szignifikanciája tesztelhető: μ z1,μ z2 : az r1 és r2 együtthatókz eloszlásbeli átlagai σ z1-z2 : azr1 és r2 együtthatókz eloszlásbeli szórásainak különbsége 118

Többszörös korreláció Kettőnél több változó kapcsolatrendszerét vizsgáljuk Legyen három változónk X1, X2 és X3, a közöttük lévő páronkénti korrelációk r12, r13 és r23 Ahhoz, hogy ezek tisztán két változó közötti kapcsolat erősségét mutassák ki kell szűrni a többi változó hatását Ezt a cél szolgálja a parciális korreláció, ahol a többi változó hatása konstansként kezelt Az r12.3 parciális korrelációs együtthatója: 119

Többszörös korreláció 12.3 index bena pont utáni szám jelenti azt a változót, amelynek hatását kiszűrjük. Az r12.3 a reziduálokközötti korrelációt jelenti, az X3 hatásának kiszűrése után. A parciális korrelációs együttható szignifikanciáját, következő statisztikával ellenőrizhetjük a H0: r12.3 = 0 hipotézis mellett: amely df= N 3 szabadságfokút eloszlást követ. 120

Lineáris regresszió Két változó közötti kapcsolat jellegét becsli A lineáris regressziós függvény alakja: ahol yˆ: a függő változó x: a független változó yˆ =a+ b x a: az y tengely metszete b: az egyenlet meredeksége (az α szög tangense). https://commons.wikimedia.org/wiki/file:linear_regression.svg 121

Lineáris regresszió A regressziószámításfeltételei: Y változó eloszlása legyen normális X változóra hibamentes adatfelvétel a minta legyen reprezentatív Célkitűzés: Az egyenes paramétereinek meghatározásakor keressük azokat az a és b értékeket, amelyek mellett a mérési pontokra a regressziós egyenes a legjobban illeszkedik. A feladatot a legkisebb négyzetek módszerével végezzük el. 122

Lineáris regresszió Határozzuk meg az egyenlet (a, b) paramétereit, hogy a rezidumértékek eltérésének négyzetösszege minimális legyen: Min. Helyettesítsük be az egyenletbe a regressziós függvény általános alakját : Min. A feltételnek eleget tevő a és b értékét szélsőérték számítással kapjuk meg: 123

Lineáris regresszió Jelentés A b paraméter jelentése: az X független változó egységnyi változása milyen nagyságú változást okoz az Y függőváltozóban. Az a értéke a tengelymetszet magasságát adja. Eredmény értelmezése A regressziós összefüggés szignifikanciáját az ANOVA táblázat alapján vizsgáljuk. H0: nincskapcsolat X és Y változókközött H1: van kapcsolat X és Y változók között Ha az eredmény szignifikáns az adott α érték mellett, akkor fogadhatjuk csakel a valósnaka változók közöttikapcsolatot. 124

Lineáris regresszió Az ANOVA táblázat felépítése Az F krit kritikusértéketaz F-táblázatbóldf= (1, N 2) szabadságfoknál keressük 125

Lineáris regresszió Ezegy egyoldalúpróba(s R2 s H2 ), Ha F>F krit adott αmellett, akkor elvetjükh0-t és a b eltérése a 0-tól szignifikáns, Ekkora lineárisegyenletpredikciórahasználható: adottx érték mellett jósolható az y várt értéke Az egyenlet használata csak azon a tartományon belül valid, ahol a regressziót végeztük Az egyenes alakjától függően lehet: pozitív irányú regresszió (x és y értéke együtt nő) vagy negatív irányú regresszió (x értéke nő az y értéke csökken). 126

Többváltozós lineáris regresszió Y = β 0 +β 1 X 1 +β 2 X 2 + + β i X i Az alábbi hipotéziseket vizsgáljuk: H0: nincs kapcsolat az X i és Y változók között vagy H0: β i = 0 H1: van kapcsolat az X i és Y változók között vagy H1: β i 0 Az eljárás arra is választ ad, hogy az Xi változók közül melyek az Y szempontjából fontos (releváns) változók, melyek ténylegesen befolyásolják az értékét A módszer használatának feltétele: a) az Xi változók és Y között a kapcsolat lineáris b) Xi változók legyenek függetlenek (kollinearitás vizsgálat) A független változók között nemcsak folytonos, hanem nominális változók is megengedettek 127

Többváltozós lineáris regresszió Multikollinearitás Ha az Xi változók kapcsolat áll fenn, akkor azokat a változókat ki kell hagyni a további elemzésből. Multikollinearitásvizsgálatára a változók korrelációs mátrixának determinánsa is felhasználható: R = 0 estén a változók között a kapcsolat maximális, R = 1 néla változók függetlenek. R 2 és az ún. módosított R 2 (adjustedr 2 ) számítása Jelentése: az Xi változók az Yvarianciájának hány % át magyarázzák. A módosított R 2 érték kisebb, és megbízhatóbb mértéke a regresszió jóságának, mivel ez az érték már mintafüggetlen. 128

Nemlineáris regresszió Olyan esetekben, amikor a függő és független változók között a kapcsolat nem lineáris, az y becslésére a nemlineáris regressziós eljárást alkalmazzuk. Segítséget jelent, ha a kapcsolat jellegéről van előzetes információnk pl. polinommal írható le a kapcsolat, ismerjük a polinom fokszámát stb. A becslő függvénynél törekedni kell arra, hogy a) minélkevesebbparamétert tartalmazzon, b) jólilleszkedjena modell c) a residuálisok kicsik legyenek. H0: nincskapcsolatazxés Yváltozókközött. H1: van kapcsolatazxés Yváltozókközött. 129

Köszönöm a figyelmet! (gabor.hullam-at-mit.bme.hu) Budapest University of Technology and Economics Department of Measurement and Information Systems 130