3. rész. Két változó kapcsolatának vizsgálata. Minden összefügg mindennel!? Komputerstatisztika kurzus



Hasonló dokumentumok
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Korrelációs kapcsolatok elemzése

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Regressziós vizsgálatok

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

[Biomatematika 2] Orvosi biometria

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Függvények Megoldások

Segítség az outputok értelmezéséhez

KOVÁCS BÉLA, MATEMATIKA I.

A mérési eredmény megadása

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

(Independence, dependence, random variables)

Matematika (mesterképzés)

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Nemlineáris programozás 2.

First Prev Next Last Go Back Full Screen Close Quit

15. LINEÁRIS EGYENLETRENDSZEREK

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének

Az R halmazt a valós számok halmazának nevezzük, ha teljesíti az alábbi 3 axiómacsoport axiómáit.

3. Lineáris differenciálegyenletek

352 Nevezetes egyenlôtlenségek. , az átfogó hossza 81 cm

Dualitás Dualitási tételek Általános LP feladat Komplementáris lazaság 2017/ Szegedi Tudományegyetem Informatikai Intézet

Készítette: Fegyverneki Sándor

Korreláció és lineáris regresszió

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

A maximum likelihood becslésről

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

A leíró statisztikák

Matematika III előadás

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Gazdasági matematika II. vizsgadolgozat, megoldással,

Gépi tanulás a gyakorlatban. Lineáris regresszió

8. Egyenletek, egyenlőtlenségek, egyenletrendszerek II.

Feladatok megoldásokkal a 9. gyakorlathoz (Newton-Leibniz formula, közelítő integrálás, az integrálszámítás alkalmazásai 1.

A legjobb közeĺıtés itt most azt jelentette, hogy a lineáris

17. előadás: Vektorok a térben

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Losonczi László. Debreceni Egyetem, Közgazdaság- és Gazdaságtudományi Kar

11. Előadás. 11. előadás Bevezetés a lineáris programozásba

Matematikai geodéziai számítások 5.

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

Differenciálegyenletek. Vajda István március 4.

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Matematikai geodéziai számítások 6.

A brachistochron probléma megoldása

Egyenletek, egyenlőtlenségek VII.

Matematikai geodéziai számítások 6.

Adatok statisztikai értékelésének főbb lehetőségei

Principal Component Analysis

Matematika III. harmadik előadás

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉP SZINT Függvények

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI KÖZÉPSZINT Függvények

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

Matematika III előadás

Kétváltozós függvények differenciálszámítása

Line aris f uggv enyilleszt es m arcius 19.

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

KOVÁCS BÉLA, MATEMATIKA I.

Biomatematika 2 Orvosi biometria

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

BIOMATEMATIKA ELŐADÁS

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Konjugált gradiens módszer

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Funkcionálanalízis. n=1. n=1. x n y n. n=1

GVMST22GNC Statisztika II.

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Norma Determináns, inverz Kondíciószám Direkt és inverz hibák Lin. egyenletrendszerek A Gauss-módszer. Lineáris algebra numerikus módszerei

Többváltozós, valós értékű függvények

Függetlenségvizsgálat, Illeszkedésvizsgálat

Egészrészes feladatok

Trigonometria Megoldások. 1) Igazolja, hogy ha egy háromszög szögeire érvényes az alábbi összefüggés: sin : sin = cos + : cos +, ( ) ( )

Fraktálok. Kontrakciók Affin leképezések. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék. TARTALOMJEGYZÉK Kontrakciók Affin transzformációk

Lineáris regressziós modellek 1

Egyenletek, egyenletrendszerek, egyenlőtlenségek Megoldások

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Matematikai geodéziai számítások 5.

Matematikai statisztikai elemzések 5.

A szimplex algoritmus

A következő feladat célja az, hogy egyszerű módon konstruáljunk Poisson folyamatokat.

10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

MATEMATIKA ÉRETTSÉGI TÍPUSFELADATOK MEGOLDÁSAI EMELT SZINT Paraméter

[Biomatematika 2] Orvosi biometria

Átírás:

Két kapcsolatának vizsgálata Minden összefügg mindennel!? Komputerstatisztika kurzus Barczy Mátyás Informatikai Kar Debreceni Egyetem 1

A témái 1 2 3 4 5 6 2

A kapcsolat természete A statisztikai k (adatbázisok attributumainak) korábban megismert egyenkénti jellemzése leíró statisztikákkal és grafikus eszközökkel többnyire csak egy kezdeti lépés. A statisztikai k általában nem függetlenek egymástól, az egyes k értékei befolyásolják más k értékeit. A kapcsolat természete kétféle lehet: determinisztikus (függvényszerű): néhány egyértelműen (függvénnyel megadható módon) meghatározza más (k) értékét(eit), sztochasztikus (véletlenszerű): a fenti meghatározottság csak tendenciaszerű, bizonyos mértékű hiba erejéig érvényes. A kapcsolat irányultsága is kétféle lehet: aszimmetrikus: az egyik hat a másikra, pl. a viszony ok okozati, illetve időben eltérő, szimmetrikus: a k kölcsönösen hatnak egymásra, egyidejűek. 3

Példa (Determinisztikus kapcsolat) A hetente és havonta előállított termékek száma. (Az utóbbi az előbbiek összegzésével adódik). A kapcsolat aszimmetrikus abban az értelemben, hogy a havonta előállított termékek számából nem kapható meg a hetente előállított termékek száma, fordítva viszont igen. Az éves és a havi átlaghőmérsékletek. Egy termék vagy szolgáltatás ára és az áfa nagysága (20%-os áfa esetén az árat 0.2 del kell szorozni). A kapcsolat szimmetrikus abban az értelemben, hogy az áfa nagyságának ismeretében a termék ára és a kifizetett áfa kölcsönösen egyértelműen meghatározza egymást. 4

Példa (Sztochasztikus kapcsolat) Szemszín és a hajszín mint két diszkrét egyidejű kapcsolata (szimmetrikus kapcsolat). Testsúly és magasság mint két folytonos egyidejű kapcsolata (szimmetrikus kapcsolat). A termés nagysága és a különbőző termelési módok. A gépkocsi sebessége és a fékút hossza (aszimmetrikus kapcsolat). Az idő és a számítástechnikai eszközök fejlettsége (tárolókapacitás, számolási sebesség stb.). 5

Két kapcsolatának leírása Ez a lehetséges legegyszerűbb kapcsolat, ennek ellenére már itt is eltérő módszerekkel találkozunk aszerint, hogy milyen kat vizsgálunk, milyen skálán mérjük őket. Jelöljük a két t X szel és Y nal. Ha ok okozati kapcsolat áll fenn, akkor legyen X az ok és Y az okozat. Ekkor X et magyarázó, Y t függő nak nevezzük. A legalapvetőbb osztályozást akkor kapjuk, ha a kat a típusuk alapján, mint diszkrét és folytonos, különböztetjük meg. 6

Az alábbi négy esetet vizsgáljuk: Mindkét diszkrét: kontingencia táblák vizsgálata és rang. Mindkét folytonos: és regresszió analízis. X és Y között ok okozati kapcsolat áll fenn, az X ok diszkrét, az Y okozat folytonos: szórásanalízis. X és Y között ok okozati kapcsolat áll fenn, az X ok folytonos, az Y okozat diszkrét: osztályozási. 7

elemzése Legyenek az X és Y diszkrét k lehetséges értékei x 1,...,x r és y 1,..., y s. Tekintsünk az (X, Y) párra vonatkozóan egy olyan r s j=1 n ij elemű mintát, ahol n ij azon megfigyelések (rekordok) számát (gyakoriságát) jelöli, amelyeknél X = x i és Y = y j, i = 1,..., r, j = 1,...,s. Az összes elemző módszer ezután az így bevezetett gyakoriságokra épül. Ezek a mintában lévő teljes információt tartalmazzák, használatuk egy nagyon hatékony adattömörítő eszköz. 8

Elemzési eszköztár: statisztikai módszer: kontingencia táblák vizsgálata, rangs együttható, grafikus eszközök: haladottabb (osztott, csoportosított, halmozott stb.) fánk diagramok. A legfontosabb kérdés a két függetlensége. Amennyiben ezt elutasítjuk, a függőségük erősségének mérése. 9

Kontingencia táblázat A kontingencia (kereszt) táblázat egy kétdimenziós gyakorisági tábla, amellyel két diszkrét együttes gyakoriságait tudjuk megjeleníteni. Y X y1 y 2 y s x 1 n 11 n 12 n 1s n 1+ x 2 n 21 n 22 n 2s n 2+........ x r n r1 n r2 n rs n r+ n+1 n +2 n +s n ++ A táblázatbeli sor és oszlopösszegek az alábbi módon vannak definiálva: n i+ := s n ij, n +j := j=1 r n ij, n ++ := r j=1 s n ij =: n. 10

A megjelenítés hasonló a kétdimenziós diszkrét valószínűségeloszlás megadásához. Ekkor a táblázat valószínűségeket tartalmaz, az utolsó sor és oszlop pedig az ún. marginális (perem) eloszlásokat. A kontingencia tábla celláiban (abszolút) gyakoriságok helyett ábrázolhatunk relatív gyakoriságokat is. A statisztikai szoftverek emellé még számos egyéb lehetőséget is nyújtanak, pl. oszlop vagy sor százalék, várt érték a függetlenség esetén stb. A két függetlenségének vizsgálatát, illetve a függőségük erősségének mérését az alábbi két esetben tárgyaljuk: mindkét (diszkrét) t nominális skálán, illetve mindkét t ordinális skálán mérjük. 11

Nominális skálán mért diszkrét k Feltételezzük a továbbiakban, hogy r 2, s 2 és n i+ 1, n +j 1, i = 1,...,s, j = 1,...,r. Cramér mutató: ahol C := χ 2 := az ún. χ 2 statisztika. χ 2 n ++ min{r 1, s 1}, r j=1 ( s n ij n i+n +j n n i+ n +j n Az n i+ n +j /n értékeket (gyakoriságokat) a két függetlenségének feltételezése melletti gyakoriságoknak is szokás nevezni, ugyanis n i+ n +j n = n n i+ n n +j n. ) 2 12

Állítás A Cramér mutatóra teljesül, hogy C [0, 1]. Bizonyítás. Először megmutatjuk, hogy r s χ 2 n 2 = n ++ ij 1. n i+ n +j Valóban, ( ) r s n ij n 2 i+n +j n = n i+ n +j j=1 = = r j=1 r s s j=1 j=1 r s j=1 n 2 ij n i+ n +j 2 n ++ n ++ + n 2 ij n i+ n +j 1. ( n 2 ij 2 n ij + n ) i+n +j n i+ n +j n ++ (n ++ ) 2 1 (n ++ ) 2 r s n i+ j=1 n +j 13

Így elég azt ellenőriznünk, hogy r s nij 2 min{r, s}. n i+ n +j j=1 Felhasználva, hogy n ij n i+ 1, kapjuk, hogy r s j=1 n 2 ij n i+ n +j = i = 1,...,r, j = 1,...,s, r j=1 s j=1 s n ij n +j = s 1 n +j n +j = s. Hasonlóan belátható, hogy r s nij 2 r. n i+ n +j j=1 1 r n ij n +j j=1 14

Megjegyzés. C = 0 akkor és csak akkor, ha n ij = n i+n +j, i = 1,...,r, j = 1,...,s, n azaz, ha a megfigyelt és várt gyakoriságok megegyeznek. C = 0 : függetlenség. Ha s r, úgy C = 1 akkor és csak akkor, ha minden i = 1,...,r esetén n ij {0, n i+ }, j = 1,...,s, azaz minden sorban pontosan egy db n ij C = 1 : függőség. nem nulla. 15

Példa arra, hogy C = 0. Tekintsük az alábbi kontingencia táblázatot: Ekkor χ 2 = 0 és C = 0. Y X 2 4 1 2 2 4. 2 2 2 4 4 4 8 Példa arra, hogy C = 1. Tekintsük az alábbi kontingencia táblázatot: Y X 2 4 1 0 3 3 2 1 0 1 3 0 2 2 1 5 6 Ekkor χ 2 = 6 és C = 1.. 16

: χ T := 2. n ++ (r 1)(s 1) Nyilván, T C és így T [0, 1]. Értelmezés ugyanaz, mint a Cramér mutatónál. Megjegyzés A későbbiekben elemezni fogjuk, hogy a mutatók (pontosabban a χ 2 statisztika) milyen nagy értékei utalnak függőségre, lásd két teljes eseményrendszer függetlenségének vizsgálatára vonatkozó χ 2 próba. 17

Példa A szem és a haj színének a kapcsolatát vizsgáltuk 400 embernél. Eredményül az alábbi kontingencia táblát kaptuk: Hajszín Szemszín barna fekete szőke vörös kék 4 4 40 2 50 sötét 120 80 75 25 300 zöld 10 10 15 15 50 134 94 130 42 400 18

Megoldás. r = 3, s = 4 és a χ 2 statisztika értéke 84.32. A Cramér mutató értéke: 84.32 C = 400 min{3 1, 4 1} 0.3246. A értéke: 84.32 T := 400 (3 1)(4 1) 0.2933. A Cramér, ill. értéke alapján (mivel 0 hoz vannak közelebb, mint 1 hez) gyenge függőségre következtethetünk. Azonban a későbbi vizsgálatok során kiderül majd, hogy a jelen ban a Cramér mutató 0.3246 értéke alapján erős függőségre kell következtetnünk. 19

A függőség mértékének a megítélésében a P(χ 2 6 > 84.32) valószínűség nagysága az irányadó, ugyanis belátható, hogy a két függetlensége esetén a χ 2 statisztika aszimptotikusan χ 2 (r 1)(s 1) eloszlású, ahol χ 2 n az n szabadsági fokú χ 2 eloszlást jelöli. Esetünkben (r 1)(s 1) = 6 és P(χ 2 6 > 84.32) 0, így tényleg erős függőségre következtethetünk. Megjegyezzük továbbá, hogy érvényes ugyan a χ 2 n n 2n L N(0, 1) ha n, eloszlásbeli konvergencia, ez azonban elég lassú. 20

Gondoljunk ugyanis a Berry Esseen tételre, ahol is a konvergenciasebesség nagysága az abszolút ferdeségtől (harmadik abszolút centrált momentum osztva a szórás köbével) függ, ami χ 2 1 eloszlás esetén relatíve nagy. Mivel a gyakorló okban a χ 2 (r 1)(s 1) határeloszlás szabadsági foka, azaz (r 1)(s 1), általában kicsi, így a határeloszlásnak N((r 1)(s 1), 2(r 1)(s 1)) eloszlással való közelítését nem ajánljuk. A következő lapokon a példabeli kontingencia táblát ábrázoltuk különböző módokon. 21

Térbeli oszlopdiagram Előállította a SAS rendszer 22

Csoportosított oszlopdiagram Előállította a SAS rendszer 23

Halmozott oszlopdiagram Előállította a SAS rendszer 24

Csoportosított kördiagram Előállította a SAS rendszer 25

Halmozott kördiagram Előállította a SAS rendszer 26

Fánkdiagram Előállította a SAS rendszer 27

Ordinális skálán mért diszkrét k Legyen a két ordinális skálán mért, diszkrét ra megfigyelt minta a következő: X : x 1, x 2,..., x n Y : y 1, y 2,..., y n. Megjegyezzük, hogy valójában mintapárokat, úm. (x i, y i ), figyelünk meg, amelynek elemei összetartoznak. Rang:= a rendezett mintában hányadik az illető mintaelem. Jelöljük az X, ill. Y szerinti rangokat R X, illetve R Y módon. Ha egy mintaelem többször is előfordul, akkor ezekhez azon rangszámok súlyozatlan számtani átlagát rendeljük rangszámként, melyet akkor kapnánk, ha az adott mintaelemek páronként különbözőek lennének. Ezek az ún. kapcsolt rangok. 28

rangs együttható: az R X és R Y rangszámok tapasztalati (lineáris) s együtthatója: ahol S(X, Y) := (R X, R Y ), n (X, Y) := (x i x)(y i y) n (x i x) 2. n (y i y) 2 Azaz n S(X, Y) = (R x i R X )(R yi R Y ) n (R x i R X ) 2, n (R y i R Y ) 2 ahol R X := 1 n n R xi, R Y := 1 n n R yi. Megj.: A tapasztalati (lineáris) s együtthatóval két folytonos kapcsolatának elemzésekor majd részletesen foglalkozunk. 29

A rangs együttható tulajdonságai: S(X, Y) 1, Ha S(X, Y) = 1, akkor az R X és R Y rangszámsorozat egybeesik. Ha S(X, Y) = 1, akkor az R X és R Y rangszámsorozat egymás fordítottjai abban az értelemben, hogy R yi = R xi + n+1, i = 1,...,n. Ha S(X, Y) > 0, akkor pozitív irányú függésről beszélünk: az X-re vonatkozó mintában a nagyobb rang együttjár az Y -re vonatkozó mintában a nagyobb ranggal (illetve fordítva is). Ha S(X, Y) < 0, akkor negatív irányú függésről beszélünk: az X-re vonatkozó mintában a nagyobb rang együttjár az Y -re vonatkozó mintában a kisebb ranggal (illetve fordítva is). Ha S(X, Y) = 0, akkor a két rangsor között nincs kapcsolat. 30

Megjegyzés Ha nincsenek kapcsolt rangok, akkor S(X, Y) = 1 6 n (R x i R yi ) 2 n(n 2. 1) A gyakorlatban akkor is használatos a fenti formula, ha vannak kapcsolt rangok, de nem sok. 31

Az SPSS algoritmusa a rangs együttható számolására ahol S(X, Y) = T X + T Y n (R x i R yi ) 2 2 T X T Y, T X := n3 n ST X 12 ST X := ST Y :=, T Y := n3 n ST Y, 12 {t>1:t db mintaelem egybeesik az x 1,...,x n mintában} {t>1: t db mintaelem egybeesik az y 1,...,y n mintában} (t 3 t), (t 3 t). Ha T X = 0 vagy T Y = 0, akkor S(X, Y) nem kerül kiszámolásra. Valóban ellenőrizhető, hogy a fenti algoritmussal számolt rangs együttható megegyezik az általunk bevezetettel. 32

elemzése Legyen a két folytonos ra megfigyelt minta a következő: X : x 1, x 2,..., x n Y : y 1, y 2,..., y n Újra felhívjuk a figyelmet, hogy valójában mintapárokat, úm. (x i, y i ), figyelünk meg, amelynek elemei összetartoznak. Így bármilyen művelet (pl. rendezés) a mintán csak a párokon hajtható végre, ként pedig nem. Statisztikai eszközök: szimmetrikus eset: analízis, ok okozati eset: regresszió analízis. Grafikus eszköz: pontdiagram, melyben a Descartes koordinátarendszerben ábrázoljuk az (X, Y) párra kapott megfigyeléseket mint pontokat. A koordinátatengelyek kijelölése gyakran feltételez ok okozati viszonyt a két között. 33

Pearson féle s együttható Két valószínűségi közötti függőséget a kovariancia és s együttható mennyiségekkel mérhetjük. A ξ és η valószínűségi k (elméleti) kovarianciája: Cov(ξ,η) := E(ξ Eξ)(η Eη), és s együtthatója: Corr(ξ,η) := Cov(ξ,η) D 2 ξd 2 ξ. A s együtthatót akkor értelmezzük, ha 0 < D 2 ξ < és 0 < D 2 η <. Ezek tapasztalati megfelelőit vezetjük be az alábbiakban. 34

Definíció (Tapasztalati kovariancia és ) Az X és Y közötti tapasztalati kovariancia: c(x, Y) := 1 n n (x i x)(y i y). Pearson-féle tapasztalati (lineáris) s együttható: c(x, Y) n (X, Y) := s(x)s(y) = (x i x)(y i y) n (x i x) 2, n (y i y) 2 feltéve, hogy s(x) 0 és s(y) 0, ahol s(x), illetve s(y) az x 1,...,x n, ill. y 1,..., y n minta korrigálatlan tapasztalati szórását jelöli. Megj.: Korábban az x 1,..., x n minta korrigálatlan tapasztalati szórását s n módon jelöltük. A fentiekben a minta elemszámát nem tüntettük fel a jelölésben, azt viszont igen, hogy melyik mintára vonatkozik. 35

Megjegyzés c(x, Y) = 1 n n x i y i x y =: xy x y. X és Y között nem feltétlen van ok okozati kapcsolat. Bevezetve az alábbi jelöléseket: x i := x i x ns(x), ỹ i := y i y ns(y), i = 1,..., n, az X := ( x 1,..., x n ) és Ỹ := (ỹ 1,..., ỹ n ) mintákra teljesül, hogy (X, Y) = n x i ỹ i = X, Ỹ, ahol, az euklideszi belső szorzatot jelöli. (X, Y) 2 : determinációs együttható. 36

A s együttható tulajdonságai A tapasztalati kovariancia a két közös skáláján méri a kapcsolat erősségét, a tapasztalati s együttható ezzel szemben már normalizált skálán mér, így összehasonlításra jobban használható. Ha (X, Y) > 0, akkor pozitív irányú függésről beszélünk: az egyik értékének növelése a másik értékének a növekedését eredményezi. Ha (X, Y) < 0, akkor negatív irányú függésről beszélünk: az egyik értékének növelése a másik értékének a csökkenését eredményezi. Ha (X, Y) = 0, akkor korrelálatlanságról beszélünk. (Nem tévesztendő össze a függetlenséggel, ami egy erősebb dolog.) 37

Tétel Legyen X = (x 1,..., x n ) és Y = (y 1,..., y n ) olyan, hogy s(x) 0 és s(y) 0. Ekkor (X, Y) 1 és egyenlőség pontosan akkor áll fenn, ha léteznek olyan a, b R valós számok, hogy Y = ax + b, azaz y i = ax i + b minden i = 1,...,n re. Utóbbi esetben lineáris kapcsolatról beszélünk. Továbbá, a > 0, illetve a < 0 aszerint, hogy (X, Y) = 1, illetve (X, Y) = 1. 38

Bizonyítás. A Cauchy Schwarz egyenlőtlenség alapján: ( n n ) 1/2 n (x i x)(y i y) (x i x) 2 (y i y) 2, melyből átrendezéssel adódik az állítás. Egyenlőség pontosan akkor teljesül, ha (x 1 x,...,x n x) és (y 1 x,...,y n x) lineárisan függőek. Mivel s(x) 0 és s(y) 0, kapjuk, hogy pontosan akkor teljesül egyenlőség, ha létezik olyan a R, hogy y i y = a(x i x) minden i = 1,...,n esetén. Innen közvetlenül adódik, hogy y i = ax i + b, ahol b := y a x. 39

Ha Y = ax + b, ahol a > 0, akkor (X, Y) = c(x, ax + B) a c(x, X) = s(x)s(ax + b) a s(x)s(x) = 1. Ha Y = ax + b, ahol a < 0, akkor (X, Y) = c(x, ax + B) a c(x, X) = s(x)s(ax + b) a s(x)s(x) = 1. Összefoglalva: a s együttható a [ 1, 1] intervallumon (skálán) méri két folytonos kapcsolatának az erősségét. A skála két végpontja esetén a kapcsolat lineáris (Y = ax + b), a 1 végpont esetén a < 0, a +1 végpont esetén pedig a > 0. 40

Példa (olyan determinisztikus kapcsolatra, amelynél a k korrelálatlanok) Tekintsük az alábbi mintát: Ekkor x = 0, (x 1, y 1 ) = (1, 1), (x 2, y 2 ) = ( 1, 1), (x 3, y 3 ) = (2, 8), (x 4, y 4 ) = ( 2, 8). y = 1+1+8+8 = 4.5, 4 xy = 1 1+16 16 = 0, 4 így c(x, Y) = 0 és (X, Y) = 0. X és Y között determinisztikus kapcsolat van: y i = x 3 i, i = 1, 2, 3, 4. 41

Példa (A tapasztalati s együttható számolása) A minta: X: 1, 2, -1, 2, 1 Y: 2, 4, 0, 8, 1 Mivel x = 1 és y = 3 a centralizált minta: X x: 0, 1, -2, 1, 0 Y y: -1, 1, -3, 5, -2 c(x, Y) = 0 ( 1)+1 1+( 2) ( 3)+1 5+0 ( 2) 5 =2.4, s 2 (X) = 1 5 (02 + 1 2 +( 2) 2 + 1 2 + 0 2 ) = 1.2, s 2 (Y) = 1 5 (( 1)2 + 1 2 +( 3) 2 + 5 2 +( 2) 2 ) = 8. Ezért: (X, Y) = 2.4/ 1.2 8 = 0.7746. 42

Lineáris regresszió Láttuk, hogy maximális (azaz 1) abszolút értékű s együttható lineáris kapcsolatot jelent a k között. Hogyan lehet ennek a kapcsolatnak az együtthatóit meghatározni a minta alapján? Általánosabban, az Y függő t szeretnénk az X magyarázó lineáris függvényével közelíteni: Y ax + b. Milyen a és b valós együtthatókat válasszunk az (X, Y)-ra vonatkozó n elemű minta ismeretében? Először az elemi hibákat (veszteségeket) definiáljuk az alábbi módon e i := y i (ax i + b), i = 1,..., n. Ezután ezen (elemi) hibákból egy összesített hibát (rizikót) állítunk elő. Végül az így kapott összesített hibát, mint célfüggvényt minimalizáljuk az a és b együtthatók függvényében. Ez egy szélsőértékszámítási (optimalizációs). 43

A legkisebb négyzetek módszere Az együtthatók meghatározására használt legelterjedtebb elv a legkisebb négyzetek módszere. Ekkor az összesí tett hiba az elemi hibák négyzeteinek összege: E(a, b) := n ei 2 = Szélsőértékszámítási : n (y i (ax i + b)) 2. min (a,b) R 2 E(a, b). Az E függény előnye, hogy a szélsőértékszámítási megoldásánál támaszkodhatunk a differenciálszámítás eszköztárára, hiszen az E : R 2 R függvény mindkét ja szerint akárhányszor differenciálható. 44

Ismert, hogy az E : R 2 R függvénynek (â, b) lokális minimumhelye, ha (i) (â, b) stacionárius pont, azaz az elsőrendű parciális deriváltakból álló ún. gradiens vektorra E a (â, b) = 0, E b (â, b) = 0; (ii) a másodrendű parciális deriváltakból álló ún. Hesse mátrix pozitív definit az (â, b) helyen, azaz ( ) ( 2 E (â, b) 2 E u v a 2 a b (â, b) ) (u ) 2 E a b (â, b) > 0 2 E(â, b) v b 2 minden (u, v) (0, 0) esetén, vagy ekvivalens módon u 2 2 E a 2 (â, b)+2uv 2 E a b (â, b)+v 2 2 E b 2(â, b) > 0 minden u, v R, u 2 + v 2 > 0 esetén. 45

A regressziós együtthatók meghatározása I. Az E gradiens vektorára kapjuk, hogy E n b (a, b) =2 (y i (ax i + b))( 1) = 0, E n a (a, b) =2 (y i (ax i + b))( x i ) = 0. Ebből átrendezéssel kapjuk az alábbi ún. normál egyenleteket: a n a x 2 i n x i + bn = + b n x i = n y i, n x i y i. 46

A regressziós együtthatók meghatározása II. A normálegyenletek az x = 1 n n x i, y = 1 n n y i, x 2 = 1 n n x 2 i, xy = 1 n n x i y i, jelölések bevezetésével az alábbi egyszerűbb alakot öltik: a x + b =y, a x 2 + b x =xy, melyeket írhatunk mátrixos alakban is: ( )( ) 1 x b x x 2 = a ( ) y. xy 47

A regressziós együtthatók meghatározása III. Az első egyenletből kapjuk, hogy b = y a x. Ezt a második egyenletbe behelyettesítve adódik a megoldás: â = xy x y x 2 x 2, b = y xy x y x 2 x 2 x, amennyiben x 2 x 2. Ez utóbbi akkor és csak akkor teljesül, ha az X re vett minta nem konstans, ugyanis ( n n ) 2 x 2 = x 2 n xi 2 = x i, illetve a Cauchy Schwarz egyenlőtlenség szerint ( n ) 2 n x i n és egyenlőség akkor és csak akkor áll fenn, ha d R, hogy x i = d, i = 1,...,n. x 2 i 48

A regressziós együtthatók meghatározása IV. Mivel a másodrendű parciális deriváltak: 2 E n a 2 (a, b) = 2 xi 2, 2 E n a b (a, b) = 2 x i, 2 E b2(a, b) = 2n, a Hesse mátrix tetszőleges (a, b) R 2 helyen ( 2 n x i 2 2 n x ) i 2 n x i 2n Ez pozitív definit, hiszen u 2 2 n x 2 i + 2uv2 n x i + v 2 2n = 2 n (ux i + v) 2 > 0 ha u, v R, u 2 + v 2 > 0 és az X re vett minta nem konstans. 49

A regressziós együtthatók meghatározása V. Egyetlen dolgot kell még ellenőriznünk: az E függvény egyetlen lokális minimumhelye egyben globális minimumhely is. Ehhez elég belátni, hogy az E függvény szigorúan konvex. Ugyanis, ha egy szigorúan konvex függvénynek van lokális minimuma az szükségképpen globális minimum is. Az E szigorú konvexségéhez elég ellenőriznünk, hogy a Hesse-mátrixának sarokfőminorai pozitívak, azaz azt, hogy 2 n n 4 n x i 2 x 2 i > 0 és ( n ) 2 x i = 4n 2 (x 2 (x) 2 ) > 0. Ezek teljesülnek, hiszen az X re vett minta nem konstans. Ezzel beláttuk, hogy a normál egyenletek egyértelmű megoldása valóban globális minimumhelyet határoz meg. 50

A Felhasználva, hogy c(x, Y) = xy x y és azt, hogy a Steiner formula alapján s 2 (X) = x 2 x 2, a regressziós együtthatókat a következő alakban is felírhatjuk: â = (X, Y) s(y) s(x), b = y (X, Y) s(y) s(x) x. A át megoldó egyenes egyen letét, az ún. t az alábbi alakokban írhatjuk fel: Y = xy x y x 2 x 2 X + y xy x y x 2 x 2 x, Y = (X, Y) s(y) X + y (X, Y)s(Y) s(x) s(x) x. 51

Feltételezve, hogy az Y ra vett minta sem konstans, a másodikat átrendezve kapjuk, hogy Y y s(y) = (X, Y)X x s(x), azaz a két minta standardizálása után egy origón átmenő egyenest kapunk, melynek meredeksége a tapasztalati s együttható. 52

Nem Csak azzal a speciális esettel foglalkozunk, amikor az Y függő t szeretnénk az X magyarázó hatvány függvényével közelíteni: Y b a X, ahol feltételezzük, hogy a valódi a és b paraméterek pozitívak. Milyen a és b valós együtthatókat válasszunk az (X, Y)-ra vonatkozó n elemű minta ismeretében? A legkisebb négyzetek elve alapján olyan a és b értékeket választunk, melyekre az alábbi összesített hiba minimális: n (y i ba x i ) 2. Ezen nemlineáris szélsőértékszámítási megoldása helyett azonban sokszor az alábbi lineáris (így egyszerűbb) ot oldjuk meg. 53

Az eredeti s ot visszavezetjük egy s megoldására, linearizálunk: ln(y) ln(a)x + ln(b). Az (x i, ln(y i )), i = 1,...,n minta ismeretében az ln(a) és ln(b) paraméterek legkisebb négyzetes becslése teljesíti az alábbi normálegyenletet: ( )( ) ( ) 1 x ln(b) ln(y) =. x x 2 ln(a) x ln(y) 54

A korábbiak alapján, ha az X-re vett minta nem konstans, akkor az ln(a) és ln(b) paraméterek legkisebb négyzetes becslése egyértelmű: ln(a) = x ln(y) x ln(y) x 2 x 2, ln(b) x ln(y) x ln(y) = ln(y) x 2 x 2 x. Így az a és b paraméterek becslése: â = e ln(a), b = e ln(b). 55

A s és linearizáltjának a kapcsolata Legyenek az (X, Y) párra vonatkozó megfigyeléseink (x i, y i ), i = 1,...,n, ahol y i > 0, i = 1,...,n, és az X-re vett minta nem konstans. Vizsgáljuk meg az alábbi két közötti kapcsolatot. I. Legyen E 1 : R R R, n E 1 (u, v) := (ln(y i ) (ux i + v)) 2, u, v R. Minimalizáljuk E 1 -et és jelölje (û, v) a minimumhelyet. II. Legyen E 2 : (0, ) (0, ) R, n E 2 (a, b) := (y i ba x i ) 2, a, b > 0. Minimalizáljuk E 2 -t és jelölje (â, b) a minimumhelyet, melyről feltételezzük, hogy egyértelmű. Igaz-e, hogy (â, b) = (eû, e v )? 56

Az I. megoldása: û = x ln(y) x ln(y) x 2 x 2, v = ln(y) A II. megoldása: a x ln(y) x ln(y) x 2 x 2 x. E 2 a (a, b) = 0, E 2 (a, b) = 0, b egyenletrendszer az alábbi alakot ölti: n (y i ba x i )x i a x i = 0, n (y i ba x i )a x i = 0. Ezt általában nem tudjuk explicit módon megoldani. 57

Az (â, b) = (eû, e v ) összefüggés általában nem igaz. Példát adunk arra is, mikor teljesül és arra is, mikor nem. 1. Példa: Legyen n = 3 és (x 1, y 1 ) := (1, 6), (x 2, y 2 ) := (2, 18), (x 2, y 2 ) := (3, 54). Ekkor û 1.09861, v 0.693139, â = 3, b = 2, és teljesül az (â, b) = (eû, e v ) összefüggés. Továbbá, E 1 (û, v) 0, E 2 (â, b) = 0. 58

2. Példa: Legyen n = 3 és (x 1, y 1 ) := (1, 4), (x 2, y 2 ) := (2, 22), (x 2, y 2 ) := (3, 50). Ekkor û 1.26286, v 0.270724, eû 3.53553, e v 1.31091, â 2.60736, b 2.84918, és nem teljesül az (â, b) = (eû, e v ) összefüggés. Továbbá, E 1 (û, v) 94.873, E 2 (â, b) 18.929, azaz a s modell illeszkedik jobban. 59

Az előző példából legalább két tanulság is leszűrhető: a s nak és linearizáltjának a megoldása nem ekvivalens egymással. alapértelmezés szerint egyik módszer sem tekinthető jobbnak a másiknál, hiszen az egyik esetben egy nemlineáris egyenletrendszert kell megoldanunk, a másik esetben pedig linearizálunk. Azt, hogy melyik módszerrel kapott becslést fogadjuk el további vizsgálatok, szakmai megfontolások dönthetik el. 60

Példa: Moore törvény Gordon Moore, az Intel egyik alapítója fogalmazta meg 1975 ben: Az integrált áramkörökben lévő tranzisztorok száma minden 24. hónapban (azaz 2 évente) megduplázódik. Copyright: Intel Corporation. A függőleges tengelyen a tranzisztorok számának logaritmusa van ábrázolva. 61

Diszkrét és folytonos kapcsolata a k közötti ok okozati viszony esetén Ha a magyarázó diszkrét, akkor azt faktornak nevezzük. Ha a magyarázó folytonos, akkor a kovariáns elnevezéssel élünk. Statisztikai módszerek: Diszkrét magyarázó és folytonos függő : szórásanalízis. Folytonos magyarázó és diszkrét függő : osztályozási. Grafikus módszerek: Diszkrét magyarázó és folytonos függő : csoportosított hisztogram és doboz ábra. Folytonos magyarázó és diszkrét függő : halmozott hisztogram. 62

I. Figyeljük meg az Y folytonos t és az F (diszkrét) faktort (ez a korábban X szel jelölt magyarázó ). A minta: (y 1, f 1 ),(y 2, f 2 ),...,(y n, f n ). Tegyük fel, hogy az F faktor k értéket vehet fel, amelyeket nyilván kódolhatunk az 1, 2,...,k számokkal. Ezeket az értékeket szinteknek nevezzük. 63

II. A k szint alapján a mintát az alábbi módon oszthatjuk fel: y 11,y 12,...,y 1n1 y 21,y 22,...,y 2n2. y k1,y k2,...,y knk Az i edik sor előállítása: az (y l, f l ), l = 1,...,n mintaelemek közül megkeressük azokat, melyeknél f l = i, a hozzájuk tartozó y ok alkotják az i edik szinthez tartozó megfigyeléseket: y ij nél az első index a szintet, a második pedig a szinten belüli sorrendet jelöli. Nyilván, k n i = n. Kérdés: van e szerepe a faktornak, mennyire magyarázza a mintaelemeknek a (teljes) mintaátlag körüli szóródását? 64

III. Vezessük be az alábbi jelöléseket: y i := 1 n i y := 1 n Q T := Q K := Q B := n i j=1 y ij k n i j=1 y ij az i edik szint átlaga, teljes átlag, k n i (y ij y ) 2 teljes, j=1 k n i (y i y ) 2 külső, j=1 k n i (y ij y i ) 2 belső. j=1 65

Megjegyzés Q K = k n i (y i y ) 2. használatosak még az alábbi jelölések is: Q T = SST, Q K = SSK, Q B = SSB, ahol SS=Sum of Squares és T=teljes, K=külső, B=belső. 66

Tétel () Q T = Q K + Q B (SST = SSK + SSB). Bizonyítás. Alkalmazzuk a teve szabályt: (y ij y ) 2 = ((y ij y i )+(y i y )) 2 = (y ij y i ) 2 +(y i y ) 2 + 2(y ij y i )(y i y ) Világos, hogy elég belátni k n i (y ij y i )(y i y ) = 0. j=1 Ez következik abból, hogy mivel y i y nem függ j től, ezért a belső szummából kiemelhető és y i definíciója alapján n i n i (y ij y i ) = y ij n i y i = 0. j=1 j=1 67

Heurisztika A szórásfelbontásból következtethetünk a két közötti függőség erősségére. Ha a Q K külső relatíve nagy a Q B belső hez képest, akkor ez arra utal, hogy az Y ra vett együttes mintában lévő ingadozás elsősorban a szintek közötti különbségből adódik. Így az F faktor hatással van az Y függő ra. Ha viszont a Q K külső relatíve kicsi a Q B belső hez képest, akkor ez arra utal, hogy az Y ra vett együttes mintában lévő inga dozást elsősorban a szinteken belüli ingadozások magyarázzák. Így az F faktor nincs hatással az Y függő ra. 68

H 2 mutató H 2 := Q K Q T [0, 1]. Értelmezés: H 2 az Y tapasztalati ének az F faktor által megmagyarázott hányada. A H 2 = Q K /Q T tört számlálójában a Q K külső annak felel meg, hogy minden egyes szint esetén a szint összes mintaelemét a szint átlagával helyettesítjük és, ha ez a kicsi a teljes hez képest, akkor az F faktor csak kicsit magyarázza az Y mintaelemek szóródását. A heurisztika pontosítására a későbbiekben kerül sor. Nyilván, H 2 = Q K Q T = 1 Q B Q T. 69

Megjegyzés H 2 = 0 Q K = 0 y 1 = = y k = y, azaz minden szint átlaga megegyezik a teljes mintaátlaggal. A szintek között átlag szempontjából nincs különbség, a faktornak nincs szerepe. H 2 = 1 Q B = 0 y ij = y i, i = 1,...,k, j = 1,...,n i. Ez abban az értelemben függvényszerű kapcsolat, hogy ha megmondjuk, hogy melyik szintről van szó és, hogy mennyi az adott szint átlaga, akkor ezzel az adott szinthez tartozó összes mintaelemet is megmondtuk. 70

Teljes, külső és belső Teljes (tapasztalati) : s 2 T := Q T n Külső (tapasztalati) : s 2 K := Q K n Belső (tapasztalati) : s 2 B := Q B n Az i edik szinten belüli (tapasztalati) rész : ni si 2 j=1 := (y ij y i ) 2, i = 1,...,k. n i 71

Megjegyzés s 2 T = s2 K + s2 B, k ni sb 2 = j=1 (y ij y i ) 2 n = k n is 2 i n azaz a rész eknek az egyes szintekhez tartozó mintaelemek számával súlyozott számtani közepe a belső, és nem a teljes. H 2 = s2 K s 2 T = 1 s2 B st 2., 72

Ha az Y függő diszkrét, akkor osztályozási ról beszélünk. Ekkor ugyanis Y értékei egy egy csoportot jelölnek ki, és az X folytonos (valós értékű) magyarázó (kovariáns) segítségével akarjuk azt eldönteni, hogy a megfigyelés (rekord) melyik csoportba tartozik. Bináris osztályozási : Y értékei 0 vagy 1. Ekkor a mintát két csoportba, egy 0 ás és egy 1 es csoportba oszthatjuk. Az alábbiakban csak ezzel foglalkozunk. Példa Tranzakciók vizsgálata (csalás legális). Ügyfélszegmentáció (jó rossz ügyfél). Betegség felismerés (igen nem). Döntésfüggvény: egy d : R {0, 1} függvény, amellyel a számegyenest két részre bontjuk. A két részhalmaznak feleltetjük meg ezután a két csoportot. 73

A leírása: minden mintaelemet a 0 ás vagy 1 es csoportba szeretnénk besorolni. Már rendelkezésre áll egy 0 ás minta, illetve egy 1 es minta (azaz vannak mintaelemeink, melyeket a 0 ás, illetve az 1 es csoportba már besoroltunk). Vezesük be az alábbi jelöléseket: x 0 : a 0 ás minta mintaátlaga, s0 2: a 0 ás minta korrigálatlan emipirikus e, x 1 : az 1 es minta mintaátlaga, s 2 1 : az 1 es minta korrigálatlan emipirikus e. 74

Lineáris döntésfüggvény Tegyük fel, hogy s 2 0 = s2 1. Az x mintaelemet akkor soroljuk a 0 ás csoportba, ha x (½{x 0 >x 1 } ½{x 0 x 1 }) (½{x 0 >x 1 } ½{x 0 x 1 } )x 0 + x 1. 2 (1) Azaz x 0 > x 1 esetén az x mintaelemet akkor soroljuk a 0 ás csoportba, ha míg x 0 x 1 x x 0 + x 1, 2 esetén akkor, ha x x 0 + x 1. 2 Ekkor d : R {0, 1}, d(x) := 0, ha x R olyan, hogy (1) teljesül, egyébként pedig d(x) := 1. 75

Kvadratikus döntésfüggvény Az x mintaelemet akkor soroljuk a 0 ás csoportba, ha ( x x0 s 0 ) 2 ( ) x 2 ln s0 2 x1 ln s1 2 s. (2) 1 Ekkor d : R {0, 1}, d(x) := 0, ha x R olyan, hogy (2) teljesül, egyébként pedig d(x) := 1. Megj. Ellenőrizhető, hogy x 0 x 1 és s0 2 = s2 1 esetén a kvadratikus döntésfüggvénnyel is ugyanazt a döntést hozzuk meg, mint a lineáris döntésfüggvénnyel. Ha x 0 = x 1 és s0 2 = s2 1, akkor a kvadratikus döntésfüggvénnyel mindig a 0 ás csoportba soroljuk x et, a lineáris döntésfüggvénnyel nem mindig. A kérdéskörrel általánosabban foglalkozik a diszkriminancia analízis és a logisztikus regresszió. 76

Több kapcsolata Ilyen kapcsolatok vizsgálatára a statisztika egy rendkívül szerteágazó eszköztárat hozott létre (többs statisztikai módszerek). Valójában ezek a módszerek képezik a statisztikai szoftverek gerincét. Ezek közül egy hatékony leíró, vizualizációs eszköz az ún. többdimenziós (MDS: multidimensional scaling). A módszer során a megfigyeléseinket (az adatbázis rekordjait) ábrázoljuk egy alacsony (2 vagy 3) dimenziós térben. Legyenek a vizsgált statisztikai k X 1, X 2,..., X p, melyeket egy vektorba írunk: X := (X 1, X 2,..., X p ). Az X re vonatkozó megfigyelések, melyek szintén vektorok (az adatbázis rekordjai vagy sorai), pedig legyenek: x 1, x 2,...,x n. Ez egy ún. többdimenziós minta. 77