Regresszió és ANOVA. Freedman: fejezet. Freedman: fejezet. Freedman: fejezet

Hasonló dokumentumok
A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Statisztikai becslés

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Hipotézis vizsgálatok

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Korreláció és lineáris regresszió

Bevezetés a hipotézisvizsgálatokba

Statisztika elméleti összefoglaló

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Segítség az outputok értelmezéséhez

Statisztikai módszerek 7. gyakorlat

y ij = µ + α i + e ij

Nemparaméteres próbák

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Adatok statisztikai értékelésének főbb lehetőségei

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Többváltozós lineáris regressziós modell feltételeinek

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Elemi statisztika fizikusoknak

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Biostatisztika Összefoglalás

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biostatisztika Összefoglalás

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

A leíró statisztikák

Az első számjegyek Benford törvénye

Eloszlás-független módszerek 13. elıadás ( lecke)

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Hipotézis vizsgálatok

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

egyetemi jegyzet Meskó Balázs

Varianciaanalízis 4/24/12

Kutatásmódszertan és prezentációkészítés

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

KÖVETKEZTETŐ STATISZTIKA

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

A valószínűségszámítás elemei

Függetlenségvizsgálat, Illeszkedésvizsgálat

V. Gyakorisági táblázatok elemzése

[Biomatematika 2] Orvosi biometria

Több valószínűségi változó együttes eloszlása, korreláció

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Kettőnél több csoport vizsgálata. Makara B. Gábor

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Normális eloszlás paramétereire vonatkozó próbák

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Mérési hibák

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Kísérlettervezés alapfogalmak

IV. Változók és csoportok összehasonlítása

kritikus érték(ek) (critical value).

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Biostatisztika VIII. Mátyus László. 19 October

Mérési adatok illesztése, korreláció, regresszió

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Regressziós vizsgálatok

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Biometria gyakorló feladatok BsC hallgatók számára

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Átírás:

Kabos: Statisztika II. Összefüggésvizsgálat 11.9 Slide 1 Slide 1 Slide 1 Összefüggésvizsgálat 2. Regresszió és ANOVA Összefüggésvizsgálat összehasonlítása 2. Regresszió és ANOVA Összefüggésvizsgálat összehasonlítása 2. Freedman: 6-12. fejezet Regresszió és ANOVA összehasonlítása Freedman: 6-12. fejezet Slide 2 Slide 2 Slide 2 Slide 3 Slide 3 Slide 3 Összehasonlító példák Freedman: 6-12. fejezet 1901-2000 áprilisi havi középhőmérsékletei 1901-2000 áprilisi napi középhőmérsékletei Az Összehasonlító első példában példák a magyarázó változó 100 értéke mellett 1901-2000 a függő áprilisi változó havi 100 középhőmérsékletei értékét (havi átlag) elemezzük. 1901-2000 áprilisi napi középhőmérsékletei Az Összehasonlító első példában példák a magyarázó változó 100 értéke mellett 1901-2000 a függő áprilisi változó havi100 középhőmérsékletei értékét (havi átlag) elemezzük. 1901-2000 áprilisi napi középhőmérsékletei Az első példában a magyarázó változó 100 értéke mellett a függő változó 100 értékét (havi átlag) A második példában a magyarázó változó 100 értéke elemezzük. mellett 3000 nap (=100*30) adatait elemezzük, a magyarázó változó 100 értéke mellett ezért: A második csak az 1976-2000 példában részt a magyarázó ábrázoltuk változó (a számítások 100 értékea többi mellett részre 3000is nap kiterjednek), (=100*30) adatait elemezzük, a magyarázó boxplot ábra: változó egymás 100 értéke mellémellett helyezett ezért: napi átlag, medián, A második csak az interkvartilis 1976-2000 példában részt arange, magyarázó ábrázoltuk mintaterjedelem. változó (a számítások 100 értékea többi mellett részre 3000is nap kiterjednek), (=100*30) adatait elemezzük, a magyarázó boxplot ábra: változó egymás 100 értéke mellémellett helyezett ezért: napi átlag, medián, csak az interkvartilis 1976-2000 részt range, ábrázoltuk mintaterjedelem. (a számítások a többi részre is kiterjednek), boxplot ábra: egymás mellé helyezett napi átlag, medián, interkvartilis range, mintaterjedelem.

Kabos: Statisztika II. Összefüggésvizsgálat 11.10 Lineáris Regresszió April, 1901-2000 8 10 12 14 8 10 12 14 Lineáris Regresszió April, 1901-2000 1900 1920 1940 1960 1980 2000 years Az 1901-2000 évek áprilisi Lineáris havi középhőmérsékleti Regresszió adatok és a (legkisebb négyzetek módszerével illesztett) regressziós egyenes. A megfigyelt adatokat 1900 zöld 1920 színű, April, 1940a 1901-2000 regressziós 1960 1980egyenest 2000 piros pontok jelzik. years Az 1901-2000 évek áprilisi havi középhőmérsékleti adatok és a Az egyenes (legkisebb elhelyezkedése négyzetek módszerével olyan, hogy illesztett) a "lehető regressziós legközelebb" egyenes. legyen A az megfigyelt összes megfigyelt adatokat zöld adathoz. színű, a A regressziós pont "távolsága" egyenest piros a regressziós pontok egyenestől jelzik. nem a mértani távolság szerint értendő. A mértanban az egyenesre merőlegesen kell mérni a távolságot, Az egyenes elhelyezkedése olyan, hogy a "lehető legközelebb" itt mindig legyen az az y-tengellyel összes megfigyelt párhuzamosan. adathoz. A pont "távolsága" a regressziós egyenestől nem a mértani távolság szerint értendő. A mértanban az egyenesre merőlegesen kell mérni a távolságot, itt mindig az y-tengellyel párhuzamosan. 8 10 12 14 (Intercept) 10.76101 0.32049 33.576 0 (Slope) 0.01421 0.00551 2.578 0.0114 1900 1920 1940 1960 1980 2000 years (Intercept) 10.76101 0.32049 33.576 0 A lineáris regressziós becslés szerint az egyenes meredeksége (Slope) 0.01421 0.00551 2.578 0.0114 Az 1901-2000 évek áprilisi havi középhőmérsékleti adatok és a 0.05 szinten szignifikáns, értéke pozitív. (legkisebb négyzetek módszerével illesztett) regressziós egyenes. A lineáris megfigyelt regressziós adatokat becslés zöld színű, szerint a regressziós az egyenes egyenest meredeksége piros A számítás 0.05 pontok szinten SSQ jelzik. Y.R szignifikáns, és SSQ Y.W értéke értelmezésével pozitív. kezdődik: A Az számítás egyenes elhelyezkedése SSQ Y.R SSQolyan, Y.W értelmezésével hogy a "lehető kezdődik: legközelebb" legyen az összes megfigyelt adathoz. A pont "távolsága" a regressziós egyenestől nem a mértani távolság szerint értendő. A mértanban az egyenesre merőlegesen kell mérni a távolságot, itt mindig az y-tengellyel párhuzamosan. (Intercept) 10.76101 0.32049 33.576 0 (Slope) 0.01421 0.00551 2.578 0.0114 A lineáris regressziós becslés szerint az egyenes meredeksége 0.05 szinten szignifikáns, értéke pozitív. A számítás SSQ Y.R és SSQ Y.W értelmezésével kezdődik:

Kabos: Statisztika II. Összefüggésvizsgálat 11.11 1901-2000 április hónapjainak napi átlaghőmérsékletei, boxplot ábrázolásban. A szaggatott vonal a mintaterjedelem (range), a doboz az interkvartilis, a fekete csillag a medián helyét jelenti. A kiugró értéket különálló pont ábrázolja. A piros pont = havi átlaghőmérséklet. Regresszió: X az évek 1901-2000, Y: a 3000 áprilisi napi átlaghőmérséklet 1901-2000 (Intercept) április 10.76101 hónapjainak 0.142723 napi 75.40 átlaghőmérsékletei, 0 (Slope) 0.01421 0.002454 5.79 0.0000000078 boxplot ábrázolásban. A szaggatott vonal a mintaterjedelem R-squared: 0.01106 (range), F-statistic: a doboz 33.52 az interkvartilis, on 1 and 2998 DF, a fekete p-value: csillag 0.0000000078 a medián helyét jelenti. A kiugró értéket különálló pont ábrázolja. A piros Regresszió: pont = X havi az évek átlaghőmérséklet. 1901-2000, Y: a 100 áprilisi havi átlaghőmérséklet Regresszió: X Estimate az évek Std. 1901-2000, Error t value Pr(> t ) (Intercept) 10.76101 0.32049 33.576 0 Y: (Slope) a 3000 áprilisi 0.01421 napi átlaghőmérséklet 0.00551 2.578 0.0114 R-squared: 0.06352 F-statistic: Estimate 6.647 on 1 Std. and 98 Error DF, t p-value: Pr(> t ) 0.01142 (Intercept) 10.76101 0.142723 75.40 0 (Slope) Az együtthatók 0.01421 becslése változatlan, 0.002454 de változik 5.79 0.0000000078 az SH, R-squared: a megmagyarázott 0.01106 szórásnégyzet aránya, a szignif szint. F-statistic: 33.52 on 1 and 2998 DF, p-value: 0.0000000078 Regresszió: 1901-2000 április X az évek hónapjainak 1901-2000, napi átlaghőmérsékletei, boxplot Y: a 100 ábrázolásban. áprilisi havi átlaghőmérséklet A szaggatott vonal a mintaterjedelem (range), a doboz az interkvartilis, a fekete csillag a medián helyét (Intercept) jelenti. 10.76101 A kiugró értéket 0.32049 különálló 33.576 pont 0 ábrázolja. A (Slope) piros pont = 0.01421 havi átlaghőmérséklet. 0.00551 2.578 0.0114 R-squared: 0.06352 F-statistic: 6.647 on 1 and 98 DF, p-value: 0.01142 Regresszió: X az évek 1901-2000, Az Y: a együtthatók 3000 áprilisi becslése napi átlaghőmérséklet változatlan, de változik az SH, a megmagyarázott szórásnégyzet aránya, a szignif szint. (Intercept) 10.76101 0.142723 75.40 0 (Slope) 0.01421 0.002454 5.79 0.0000000078 R-squared: 0.01106 F-statistic: 33.52 on 1 and 2998 DF, p-value: 0.0000000078 Regresszió: X az évek 1901-2000, Y: a 100 áprilisi havi átlaghőmérséklet (Intercept) 10.76101 0.32049 33.576 0 (Slope) 0.01421 0.00551 2.578 0.0114 R-squared: 0.06352 F-statistic: 6.647 on 1 and 98 DF, p-value: 0.01142 Az együtthatók becslése változatlan, de változik az SH, a megmagyarázott szórásnégyzet aránya, a szignif szint.

Kabos: Statisztika II. Összefüggésvizsgálat 11.12 Slide 4 Slide 4 Slide 4 Slide 5 Slide 5 Slide 5 Slide 6 Slide 6 Slide 6 Fontos tudni, hogy a regressziós becslések csak az átlagokon (piros pontok) alapulnak. Ez a becslés legkisebb négyzetes természete miatt van, az azonos x-hez Fontostartozó tudni, y-ok hogy(egy a regressziós hónaponbecslések belüli) belső csak az szórását átlagokon az(piros illesztésnél pontok) egyáltalán alapulnak. nemezveszi a becslés figyelembe. legkisebb négyzetes természete miatt van, az azonos x-hez Fontostartozó tudni, y-ok hogy(egy a regressziós hónaponbecslések belüli) belső csak az szórását átlagokon az(piros illesztésnél pontok) egyáltalán alapulnak. nemezveszi a becslés figyelembe. legkisebb négyzetes természete miatt van, az azonos x-hez tartozó y-ok (egy hónapon belüli) belső figyelembe. A példában a 3000 napi átlagra vett regressziós becslés azért egyezik meg a 100 havi átlagra vett regressziós becsléssel, mert minden x-hez ugyanannyi A(=30) példában y tartozik. a 3000Ha napi ez nem átlagra ígyvett lenne, regressziós akkor az becslés átlagokat azért a hozzájuk egyezik meg tartozó a 100 pontok havi számával átlagra vett regressziós súlyozottanbecsléssel, kell számolni. mert minden x-hez ugyanannyi A(=30) példában y tartozik. a 3000Ha napi ez nem átlagra ígyvett lenne, regressziós akkor az becslés átlagokat azért a hozzájuk egyezik meg tartozó a 100 pontok havi számával átlagra vett regressziós súlyozottanbecsléssel, kell számolni. mert minden x-hez ugyanannyi (=30) y tartozik. Ha ez nem így lenne, akkor az Az átlagokat összes apontot hozzájuk figyelembe tartozókell pontok venni számával az SH, r 2 és a szignifikancia súlyozottan kell számításánál. számolni. Mindkét példában a regresszió szignifikáns 0.05-on (a AzHösszes 0 hipotézist pontotel figyelembe kell utasítani). kell venni az SH, r 2 és a szignifikancia A számított regressziós számításánál. együttható az Mindkét átlaghőmérséklet példábanévenkénti a regresszió 0.014 szignifikáns C fokos 0.05-on emelkedését (a AzHösszes 0 hipotézist pontot jelzi. el figyelembe kell utasítani). kell venni az SH, r 2 és a Megjegyezzük, szignifikancia A számított regressziós számításánál. hogy a meteorológiai együttható azkutatásban ennél Mindkét átlaghőmérséklet sokkal példában pontosabb évenkénti a regresszió modelleket 0.014 szignifikáns Chasználnak. fokos 0.05-on emelkedését (a H 0 hipotézist jelzi. el kell utasítani). Megjegyezzük, A számított regressziós hogy a meteorológiai együttható azkutatásban ennél átlaghőmérséklet sokkal pontosabb évenkénti modelleket 0.014 Chasználnak. fokos emelkedését jelzi. szórását az illesztésnél egyáltalán nem veszi Megjegyezzük, hogy a meteorológiai kutatásban ennél sokkal pontosabb modelleket használnak.

Kabos: Statisztika II. Összefüggésvizsgálat 11.13 Slide 7 Slide 7 Slide 7 Slide 8 Slide 8 Slide 8 Slide 9 Slide 9 Slide 9 Ha az X magyarázó változó szám-értékű, akkor regressziós, ha kategória-értékű akkor ANOVA modell szerint számolunk. Ezt Ha az a főszabályt X magyarázó tiszteletben változó szám-értékű, tartva három akkor példában mutatjuk regressziós, be ha ugyanazokra kategória-értékű az adatokra akkor ANOVA párhuzamosan a modell regressziós szerint és számolunk. Ha az X magyarázó az ANOVA változómodell szám-értékű, számításokat. akkor Ezt a főszabályt tiszteletben tartva három példában regressziós, ha kategória-értékű akkor ANOVA mutatjuk be ugyanazokra az adatokra párhuzamosan modell szerint számolunk. a regressziós és az ANOVA modell számításokat. Ezt a főszabályt tiszteletben tartva három példában ANOVA mutatjukegyenlet: be ugyanazokra SSQ Y = azssq adatokra Y.B + SSQ párhuzamosan Y.W Az a regressziós ANOVA SSQ és az Y.B ANOVA : a modell modell által számításokat. megmagyarázott SSQ rész mindig nagyobb, mint a regressziónál ANOVA egyenlet: a megfelelő SSQ Y SSQ = SSQ Y.B + SSQ Y.W Y.R Ennek Az ANOVA az az SSQ oka, Y.B hogy : a a modell regressziónál által van egy plusz kikötés: megmagyarázott az azonos SSQ x-hez rész tartozók mindig átlagait nagyobb, egy mint a ANOVA egyenlet: SSQ Y = SSQ Y.B + SSQ Y.W egyenesre regressziónál vetítjük. a megfelelő Az eredmény SSQ Y.R Az ANOVA SSQ kétféle lehet: az Y.B : a modell által előbbi Ennek példában az az oka, ezhogy a feltétel a regressziónál rontott azvan illeszkedés egy plusz megmagyarázott SSQ rész mindig nagyobb, mint a szignifikanciáján, kikötés: az azonosaz x-hez utóbbiban tartozók javított. átlagait egy regressziónál a megfelelő SSQ Y.R egyenesre vetítjük. Az eredmény kétféle lehet: az Ennek az az oka, hogy a regressziónál van egy plusz előbbi példában ez a feltétel rontott az illeszkedés kikötés: az azonos x-hez tartozók átlagait egy szignifikanciáján, az utóbbiban javított. egyenesre vetítjük. Az eredmény kétféle lehet: az előbbi Ha csakpéldában két különböző ez a feltétel x van, rontott akkor azregressziós illeszkedés szignifikanciáján, egyenes átmegy mindkét az utóbbiban részmintánál javított. az átlagnak megfelelő ponton. Ha Ebben csak az két esetben különböző a regresszió x van, akkor és az ANOVA a regressziós négyzetösszegei egyenes átmegy egymással mindkét részmintánál megegyező értéket az átlagnak adnak, a megfelelő szab.fokok ponton. Ha csak két különböző és a szignifikancia x van, akkor is megegyezik. a regressziós Ebben az esetben a regresszió és az ANOVA egyenes átmegy mindkét részmintánál az átlagnak négyzetösszegei egymással megegyező értéket adnak, megfelelő ponton. a szab.fokok és a szignifikancia is megegyezik. Ebben az esetben a regresszió és az ANOVA négyzetösszegei egymással megegyező értéket adnak, a szab.fokok és a szignifikancia is megegyezik.

Kabos: Statisztika II. Összefüggésvizsgálat 11.14 April, 1901-2000 and 25-years-April averages 8 10 12 14 8 10 12 14 April, 1901-2000 and 25-years-April averages 1900 1920 1940 1960 1980 2000 years Regresszió: X az értéktartomány a négy kvartilisközépe: 1913, 1938, 1963, 1988 April, 1901-2000 Y: az X-hez tartozó and 25-years-April év április averages havi átlaghőmérsékletei 1900 1920 1940 1960 1980 2000 Estimate Std. years Error t value Pr(> t ) (Intercept) 10.7483 0.3944 27.253 0 (Slope) 0.2921 0.1440 2.028 0.0453 8 10 12 14 Regresszió: X az értéktartomány a négy kvartilisközépe: 1913, 1938, 1963, 1988 Y: az X-hez tartozó 25 év április havi átlaghőmérsékletei Multiple R-squared: 0.04028 F-statistic: 4.113 on 1 and 98 DF, p-value: 0.04527 ANOVA: (Intercept) X és Y 10.7483 ugyanaz, mint 0.3944 fent, 27.253 de a négy 0 kvartilisközéppontot (Slope) nem 0.2921 illesztjük egy 0.1440 egyenesre 2.028 0.0453 Multiple R-squared: Estimate Std. 0.04028 Error t value Pr(> t ) (Intercept) F-statistic: 10.7524 4.113 on 1 0.3207 and 98 DF, 33.527 p-value: 0 0.04527 factor2 0.9196 0.4536 2.028 0.0454 factor3 1.0565 0.4536 2.329 0.0219 1900 1920 1940 1960 1980 2000 factor4 0.9279 0.4536 2.046 0.0435 középpontot nem illesztjük years egy egyenesre Multiple R-squared: 0.06748 F-statistic: 2.316 Estimate on 3 Std. and Error 96 DF, t p-value: Pr(> t ) 0.0806 (Intercept) 10.7524 0.3207 33.527 0 factor2 1913, 1938, 1963, 0.9196 1988 0.4536 2.028 0.0454 A factor3 regresszió kevesebb 1.0565 négyzetösszeget 0.4536 2.329 magyaráz, 0.0219 de kevesebb factor4 szab.fokkal, 0.9279 ezért jobb 0.4536 az F 2.046 szignifikanciája. 0.0435 Multiple (Intercept) R-squared: 10.74830.06748 0.3944 27.253 0 F-statistic: (Slope) 2.316 0.2921 on 3 and 0.1440 96 DF, 2.028 p-value: 0.0453 0.0806 ANOVA: X és Y ugyanaz, mint fent, de a négy kvartilis- Regresszió: X az értéktartomány a négy kvartilisközépe: Y: az X-hez tartozó 25 év április havi átlaghőmérsékletei Multiple R-squared: 0.04028 A regresszió kevesebb négyzetösszeget magyaráz, de F-statistic: 4.113 on 1 and 98 DF, p-value: 0.04527 kevesebb szab.fokkal, ezért jobb az F szignifikanciája. ANOVA: X és Y ugyanaz, mint fent, de a négy kvartilisközéppontot nem illesztjük egy egyenesre (Intercept) 10.7524 0.3207 33.527 0 factor2 0.9196 0.4536 2.028 0.0454 factor3 1.0565 0.4536 2.329 0.0219 factor4 0.9279 0.4536 2.046 0.0435 Multiple R-squared: 0.06748 F-statistic: 2.316 on 3 and 96 DF, p-value: 0.0806 A regresszió kevesebb négyzetösszeget magyaráz, de kevesebb szab.fokkal, ezért jobb az F szignifikanciája.

Kabos: Statisztika II. Összefüggésvizsgálat 11.15 0 2 4 6 8 10 0 2 4 6 8 10 November, 1901-2000 and 25-years-November averages November, 1901-2000 and 25-years-November averages 1900 1920 1940 1960 1980 2000 years Regresszió: X az értéktartomány a négy kvartilisközépe: 1913, 1938, 1963, 1988 November, 1901-2000 Y: az X-hez tartozó and 25-years-November év november averages havi átlaghőmérsékletei 1900 1920 1940 1960 1980 2000 Estimate Std. years Error t value Pr(> t ) (Intercept) 4.7715 0.4667 10.22 0 (Slope) 0.2862 0.1704 1.68 0.0962. 0 2 4 6 8 10 Regresszió: X az értéktartomány a négy kvartilisközépe: 1913, 1938, 1963, 1988 Y: az X-hez tartozó 25 év november havi átlaghőmérsékletei Multiple R-squared: 0.02798 F-statistic: 2.821 on 1 and 98 DF, p-value: 0.09623 ANOVA: (Intercept) X és Y 4.7715 ugyanaz, mint 0.4667 fent, de 10.22 a négy 0 kvartilisközéppontot (Slope) nem 0.2862 illesztjük egy 0.1704 egyenesre 1.68 0.0962. Multiple R-squared: Estimate Std. 0.02798 Error t value Pr(> t ) (Intercept) F-statistic: 4.4301 2.821 on 1 0.3663 and 98 DF, 12.094 p-value: 0 0.09623 factor2 1.6723 0.5180 3.228 0.00171 factor3 1.5661 0.5180 3.023 0.00321 1900 1920 1940 1960 1980 2000 factor4 0.9895 0.5180 1.910 0.05911 középpontot nem illesztjük years egy egyenesre Multiple R-squared: 0.1202 F-statistic: 4.371 Estimate on 3 Std. and Error 96 DF, t p-value: Pr(> t ) 0.00626 (Intercept) 4.4301 0.3663 12.094 0 1913, 1938, 1963, 1988 factor2 1.6723 0.5180 3.228 0.00171 Az factor3 ANOVA több 1.5661 négyzetösszeget 0.5180 magyaráz, 3.023 0.00321 és noha több factor4 szab.fokkal, 0.9895 mégis jobb 0.5180 az F szignifikanciája. 1.910 0.05911 Multiple (Intercept) R-squared: 4.77150.12020.4667 10.22 0 F-statistic: (Slope) 4.371 0.2862 on 3 and 0.1704 96 DF, 1.68 p-value: 0.0962 0.00626. ANOVA: X és Y ugyanaz, mint fent, de a négy kvartilis- Regresszió: X az értéktartomány a négy kvartilisközépe: Y: az X-hez tartozó 25 év november havi átlaghőmérsékletei Multiple R-squared: 0.02798 Az ANOVA több négyzetösszeget magyaráz, és noha F-statistic: 2.821 on 1 and 98 DF, p-value: 0.09623 több szab.fokkal, mégis jobb az F szignifikanciája. ANOVA: X és Y ugyanaz, mint fent, de a négy kvartilisközéppontot nem illesztjük egy egyenesre (Intercept) 4.4301 0.3663 12.094 0 factor2 1.6723 0.5180 3.228 0.00171 factor3 1.5661 0.5180 3.023 0.00321 factor4 0.9895 0.5180 1.910 0.05911 Multiple R-squared: 0.1202 F-statistic: 4.371 on 3 and 96 DF, p-value: 0.00626 Az ANOVA több négyzetösszeget magyaráz, és noha több szab.fokkal, mégis jobb az F szignifikanciája.

Kabos: Statisztika II. Összefüggésvizsgálat 11.16 8 10 12 14 8 10 12 14 April, 1901-2000 and 50-years-April averages April, 1901-2000 and 50-years-April averages 1900 1920 1940 1960 1980 2000 years Regresszió: X 1 = 1926 (az 1901-1950 középpontja) és X 2 =1976 (az 1951-2000 Temperature tartomány monthly averages, középpontja) April, 1901-2000 Y: az X-hez tartozó 50-50 év április havi átlaghőmérsékletei 1900 1920 and 50-years-April 1940 1960 averages 1980 2000 years (Intercept) 11.2122 0.2293 48.898 0 factor Regresszió: X 1 = 0.5324 1926 (az 1901-1950 0.3243 középpontja) 1.642 0.1038 és 8 10 12 14 X 2 =1976 (az 1951-2000 tartomány középpontja) Y: az X-hez tartozó 50-50 év április havi átlaghőmérsékletei R-squared: 0.02677 F-statistic: 2.696 on 1 and 98 DF, p-value: 0.1038 ANOVA: (Intercept) X és Y ugyanaz, 11.2122 mint 0.2293 a Regressziónál 48.898 0 factor Df Sum 0.5324 Sq Mean 0.3243 Sq F value 1.642 Pr(>F) 0.1038 factor 1 7.086 7.086 2.6955 0.1038 Residuals R-squared: 0.02677 98 257.630 2.629 F-statistic: 2.696 on 1 and 98 DF, p-value: 0.1038 ANOVA: X és Y ugyanaz, mint a Regressziónál 1900 1920 SSQ Y.B = 7.086 Df Sum 1940 Sq Mean 1960Sq F 1980 value 2000 Pr(>F) factor 1 7.086 SSQ Y.W = 257.630 years7.086 2.6955 0.1038 Residuals 98 257.630 2.629 SSQ Y = 264.716 Regresszió: X F = 7.086*98/257.630 1 = 1926 (az 1901-1950 középpontja) és = 2.696 R 2 X= 2 =1976 7.086/264.716 (az 1951-2000 = tartomány 0.02677 középpontja) Y: az X-hez tartozó 50-50 év április havi átlaghőmérsékletei SSQ Y.B = 7.086 SSQ Y.W = 257.630 (Intercept) SSQ Y = 264.716 11.2122 0.2293 48.898 0 F factor = 7.086*98/257.630 0.5324 = 2.696 0.3243 1.642 0.1038 R 2 = 7.086/264.716 = 0.02677 R-squared: 0.02677 F-statistic: 2.696 on 1 and 98 DF, p-value: 0.1038 ANOVA: X és Y ugyanaz, mint a Regressziónál Df Sum Sq Mean Sq F value Pr(>F) factor 1 7.086 7.086 2.6955 0.1038 Residuals 98 257.630 2.629 SSQ Y.B = 7.086 SSQ Y.W = 257.630 SSQ Y = 264.716 F = 7.086*98/257.630 = 2.696 R 2 = 7.086/264.716 = 0.02677 Slide 10 ANOVA teljesen korrekt alkalmazásának feltételei: csoportonkénti normalitás, szórás-homogenitás, a csoportok függetlensége.

ANOVA teljesen korrekt alkalmazásának feltételei: csoportonkénti normalitás, Slide 10 szórás-homogenitás, ANOVA a csoportok teljesen függetlensége. korrekt alkalmazásának feltételei: csoportonkénti normalitás, Slide 10 szórás-homogenitás, Kabos: Statisztika II. Összefüggésvizsgálat 11.17 a csoportok függetlensége. Slide 11 Slide 11 Slide 12 Slide 12 Robosztusság a matematikai statisztikában körültekintően (de bonyolultan) definiált fogalom, melyet a statisztikai ismeretterjesztők lazán, többféle értelemben Robosztusság használnak. a matematikai Az a módszer statisztikában robosztusabb, amelyik körültekintően kevésbé(de érzékeny bonyolultan) valamely definiált fogalom, (meghatározandó) melyet a statisztikai alkalmazási ismeretterjesztők feltétel lazán, megsértésére. többféle értelemben használnak. Az a módszer robosztusabb, amelyik kevésbé érzékeny valamely (meghatározandó) alkalmazási feltétel megsértésére. Az ANOVA robosztus a csoportonkénti normalitás feltételének megsértésére, közelítően korrekt módon használható a normálistól nem nagyon eltérő eloszlások Az ANOVAesetén. robosztus Vannak a csoportonkénti a normalitástnormalitás nem feltételező feltételénekanova megsértésére, alternatívák közelítően (pl Friedman-teszt), korrekt módon de használható ezek másodfajú a normálistól hibája általában nem nagyon lényegesen eltérő nagyobb, eloszlásokmint esetén. az ANOVA-nak, Vannak a normalitást midőn anem normálistól való feltételező eltérés ANOVA nem nagy alternatívák (lásd: Hipotézisvizsg. (pl Friedman-teszt), értékelése de ezek másodfajú előadás, kiugró hibája értékek). általában lényegesen nagyobb, mint az ANOVA-nak, midőn a normálistól való eltérés nem nagy (lásd: Hipotézisvizsg. értékelése előadás, kiugró értékek). Slide 13 Az ANOVA robosztus a csoportonkénti szórások homogenitásának megsértésére, közelítően korrekt módon használható a nem nagyon eltérő csoportonkénti szórások esetén. Azt meg kell jegyezni, hogy ismertek az ANOVA olyan alternatívái (pl. Welch-próba), melyek nem feltételezik a a szórások egyenlőségét, miközben a másodfajú hiba nem nő lényegesen. Slide 14 Az ANOVA alkalmazásában a csoportok mintavételi függetlensége fontos feltétel. Ha ez nem teljesül (pl. a férfiak és nők testmagasságának eltérését olyan mintán vizsgáljuk, ahol házaspárok vannak a mintában), akkor más eljárást kell használni (pl. páros próbák).

homogenitásának megsértésére, közelítően korrekt módon használható a nem nagyon eltérő Slide 13 csoportonkénti Az ANOVA robosztus szórásoka esetén. csoportonkénti Azt megszórások kell jegyezni, homogenitásának hogy ismertek megsértésére, az ANOVA közelítően olyan korrekt alternatívái módon használható (pl. Welch-próba), a nem nagyon melyek eltérő nem Slide 13 feltételezik csoportonkénti a a szórások egyenlőségét, esetén. Azt meg miközben kell a Kabos: Statisztika másodfajú jegyezni, hogy hiba II. ismertek nem nő az lényegesen. ANOVA Összefüggésvizsgálat olyan 11.18 alternatívái (pl. Welch-próba), melyek nem feltételezik a a szórások egyenlőségét, miközben a másodfajú hiba nem nő lényegesen. Slide 14 Slide 14 Az ANOVA alkalmazásában a csoportok mintavételi függetlensége fontos feltétel. Ha ez nem teljesül (pl. a férfiak és nők testmagasságának eltérését olyan mintán Az ANOVA vizsgáljuk, alkalmazásában ahol házaspárok a csoportok vannak mintavételi a mintában), függetlensége akkor fontos más feltétel. eljárást Hakell ezhasználni nem teljesül (pl. (pl. páros a férfiak próbák). és nők testmagasságának eltérését olyan mintán vizsgáljuk, ahol házaspárok vannak a mintában), akkor más eljárást kell használni (pl. páros próbák). Slide 15 Slide 15 Nem keverendő össze a robosztusság kérdése, és az eljárások hatékonyságának kérdése. Például ha a csoportonkénti eloszlásoknak normalitástól való eltérése Nem keverendő nagy, össze akkoracsak robosztusság az egyik kedvezőtlen kérdése, és az jelenség, eljárásokhogy hatékonyságának az ANOVA elsőfajú kérdése. hibája Például meghaladja a az csoportonkénti előírt értéket, eloszlásoknak a másik az, hogy normalitástóla másodfajú valóhiba is eltérése jelentősen nagy, megnő. akkor csak az egyik kedvezőtlen jelenség, hogy az ANOVA elsőfajú hibája meghaladja az előírt értéket, a másik az, hogy a másodfajú hiba is jelentősen megnő. Slide 16 A Y = l(x) + ε lineáris regresszió teljesen korrekt alkalmazásának feltételei: Y l(x) normális eloszlású, l(x) lineáris Y -ben, Y szórása állandó X-ben, az Y -ra vett megfigyelések függetlenek. Slide 17 A lineáris regresszió a normalitás, a linearitás és a szórások állandósának megsértésére robosztus, közelítően korrekt módon használható ezeket a feltételeket nem nagyon sértő esetekben. Ha a megfigyelések függetlensége nem teljesül, más eljárásokat (pl idősor-elemzés) kell használni.

A Y = l(x) + ε lineáris regresszió teljesen korrekt alkalmazásának feltételei: Slide 16 Y l(x) normális eloszlású, A Y l(x) = l(x) lineáris + εylineáris -ben, regresszió teljesen korrekt alkalmazásának Y szórása állandó feltételei: X-ben, Slide 16 Yaz Y l(x) -ra vett normális megfigyelések eloszlású, függetlenek. Kabos: Statisztika l(x) lineáris II. Y -ben, Összefüggésvizsgálat 11.19 Y szórása állandó X-ben, az Y -ra vett megfigyelések függetlenek. Slide 17 Slide 17 A lineáris regresszió a normalitás, a linearitás és a szórások állandósának megsértésére robosztus, közelítően korrekt módon használható ezeket a feltételeket A lineáris regresszió nem nagyon a normalitás, sértő esetekben. a linearitás és a Ha szórások a megfigyelések állandósának függetlensége megsértésére nem robosztus, teljesül, más eljárásokat közelítően korrekt (pl idősor-elemzés) módon használható kell használni. ezeket a feltételeket nem nagyon sértő esetekben. Ha a megfigyelések függetlensége nem teljesül, más eljárásokat (pl idősor-elemzés) kell használni. Slide 18 Slide 18 A lineáris regressziónak számos robosztus alternatívája ismert (pl. lokális regresszió), melyek alkalmazása mindig egyedi megítélést igényel, de általában A lineáris jelentősen regressziónak nő aszámos másodfajú robosztus hiba. Mint láttuk, alternatívája a linearitás ismert sérülése (pl. lokális esetén regresszió), a regresszió melyek kézenfekvő alkalmazásaalternatívája mindig egyedi azmegítélést ANOVA. igényel, de általában jelentősen nő a másodfajú hiba. Mint láttuk, a linearitás sérülése esetén a regresszió kézenfekvő alternatívája az ANOVA. Slide 19 Illeszkedésvizsgálat (kategória értékű változóra) Freedman: 28. fejezet 1-3. Slide 20 Egy képzeletbeli országban 10M ember lakik: 30% szőke, 10% barna, 60% fekete. N = 200 fős mintát vettünk, a mintabeli hajszín gyakoriságok: f szőke = 70, f barna = 25, f fekete = 105 a hajszín gyakoriságok várhatóértékei: e szőke = 60, e barna = 20, e fekete = 120

Slide 19 Illeszkedésvizsgálat (kategória értékű változóra) Illeszkedésvizsgálat (kategória értékű változóra) Slide 19 Kabos: Statisztika Freedman: II. 28. fejezet Összefüggésvizsgálat 1-3. 11.20 Slide 20 Slide 20 Freedman: 28. fejezet 1-3. Egy képzeletbeli országban 10M ember lakik: 30% szőke, 10% barna, 60% fekete. N = 200 fős mintát vettünk, a Egy mintabeli képzeletbeli hajszín országban gyakoriságok: 10M ember lakik: f 30% szőke szőke = 70,, 10% f barna barna = 25,, 60% f fekete. fekete = 105 a N hajszín = 200 fős gyakoriságok mintát vettünk, várhatóértékei: e a mintabeli szőke = 60, hajszín e gyakoriságok: barna = 20, e fekete = 120 f szőke = 70, f barna = 25, f fekete = 105 a hajszín gyakoriságok várhatóértékei: e szőke = 60, e barna = 20, e fekete = 120 Slide 21 Slide 21 S = (f szőke e szőke ) 2 e szőke + (f barna e barna ) 2 e barna + (f fekete e fekete ) 2 e fekete ez a statisztika mutatja, hogy megfelelően illeszkedik-e S = (f szőke e szőke ) 2 a mintabeli + (f barna e barna ) 2 e gyakoriság + eloszlás (f fekete e fekete ) 2 az szőke e barna e fekete alapsokasági eloszláshoz. ez a statisztika mutatja, hogy megfelelően illeszkedik-e a mintabeli gyakoriság eloszlás az alapsokasági eloszláshoz. Slide 22 Ha a minta EVM, akkor az S eloszlása χ 2 2 (szavakban: 2 szab.fokú khi-négyzet) melynek a táblázat szerint a 0.95 kvantilise = 5.991 S = (70 60)2 60 + (25 20)2 20 + (105 120)2 120 = 100 60 + 25 20 + 225 120 = 4.792 = Slide 23 H 0 : a mintavétel EVM H 0 vizsgálatára a végzett khi-négyzet próbánál (0.05 szignifikancia szinten) az elfogadási tartomány felső határa = 5.991 A próbastatisztika S = 4.792 ezért a H 0 hipotézist elfogadjuk.

Slide 22 Ha a minta EVM, akkor az S eloszlása χ 2 2 (szavakban: 2 szab.fokú khi-négyzet) melynek a táblázat szerint a 0.95 kvantilise = 5.991 Ha a minta EVM, akkor az S eloszlása χ 2 2 (szavakban: (70 60)2 2 szab.fokú (25 20)2khi-négyzet) (105 120)2 S = + + = melynek 60 a táblázat szerint 20 a 0.95 kvantilise 120 = 5.991 Slide 22 Kabos: Statisztika = 100 60 + 25 20 + 225 (70 120 = 4.792 60)2 II. (25 20)2 Összefüggésvizsgálat (105 120)2 11.21 S = + + = 60 20 120 = 100 60 + 25 20 + 225 120 = 4.792 Slide 23 Slide 23 H 0 : a mintavétel EVM H 0 vizsgálatára a végzett khi-négyzet próbánál (0.05 szignifikancia szinten) az elfogadási tartomány H felső 0 : a határa mintavétel = 5.991 EVM A H 0 próbastatisztika vizsgálatára a végzett S = 4.792 khi-négyzet próbánál ezért (0.05 a szignifikancia H 0 hipotézist szinten) elfogadjuk. az elfogadási tartomány felső határa = 5.991 A próbastatisztika S = 4.792 ezért a H 0 hipotézist elfogadjuk. Slide 24 Slide 24 Megjegyezzük, hogy ha csak a fekete/nem-fekete eloszlást nézzük, akkor az N = 200 elemű EVM p = 0.6 alapsokasági arány mellett amegjegyezzük, várható gyakoriság = 120, ennek SHja = hogy ha csak a fekete/nem-fekete eloszlást nézzük, 200 akkor 0.6 az 0.4 N = 200 48elemű EVM p = 0.6 alapsokasági arány mellett a várható gyakoriság = 120, ennek SHja = 200 0.6 0.4 = 48 1.96 200 0.6 0.4 = 13.579 miatt a 95%-os megbízhatósági tartomány: 120 ± 13.579 Slide 25 A megfigyelt f fekete = 105 kívül esik e tartományon. Ha csak a fekete/nem-fekete komponenst vizsgáljuk (z-próbával), akkor 0.05 szignifikancia szinten a H 0 hipotézist elutasítjuk. Slide 26 Ugyanezt az eljárást egy másik példán megbeszéltük a z-próba kapcsán. Abban a példában (0.05 szignifikancia szinten) a komponensek egyenként vizsgálva a null-hipotézis elfogadására vezettek, miközben a khi-négyzet próba eredménye szignifikáns eltérést jelzett, a null-hipotézist el kellett utasítani. Azt látjuk, hogy a különböző statisztikai próbák a

1.96 200 0.6 0.4 = 13.579 miatt a 95%-os megbízhatósági tartomány: 120 ± 13.579 Slide 25 1.96 200 0.6 0.4 = 13.579 miatt a A megfigyelt f fekete = 105 kívül esik e tartományon. 95%-os megbízhatósági tartomány: 120 ± 13.579 Ha csak a fekete/nem-fekete komponenst vizsgáljuk Slide 25 (z-próbával), akkor 0.05 szignifikancia szinten a H 0 Kabos: Statisztika hipotézist A megfigyelt elutasítjuk. II. f fekete = 105 kívülösszefüggésvizsgálat esik e tartományon. 11.22 Ha csak a fekete/nem-fekete komponenst vizsgáljuk (z-próbával), akkor 0.05 szignifikancia szinten a H 0 hipotézist elutasítjuk. Slide 26 Slide 26 Slide 27 Slide 27 Ugyanezt az eljárást egy másik példán megbeszéltük a z-próba kapcsán. Abban a példában (0.05 szignifikancia szinten) a komponensek egyenként vizsgálva Ugyaneztaaznull-hipotézis eljárást egy másik elfogadására példánvezettek, megbeszéltük miközben a z-próba akapcsán. khi-négyzet Abban próba a példában eredménye (0.05 szignifikáns eltérést szignifikancia jelzett, szinten) a null-hipotézist a komponensek el kellett egyenként utasítani. Azt vizsgálva látjuk, a null-hipotézis hogy a különböző elfogadására statisztikai vezettek, próbák a hipotézist miközben a más-más khi-négyzet szempontból próba eredménye ellenőrzik. szignifikáns eltérést jelzett, a null-hipotézist el kellett utasítani. Azt látjuk, hogy a különböző statisztikai próbák a hipotézist más-más szempontból ellenőrzik. Figyelem: a statisztikusok hanyag szóhasználatában a khi-négyzet próba nevet az illeszkedésvizsgálat mellett (több más, különböző próbával együtt) a most Figyelem: következő a statisztikusok khi-négyzethanyag függetlenségvizsgálatra szóhasználatábanis használjuk. a khi-négyzet próba nevet az illeszkedésvizsgálat mellett (több más, különböző próbával együtt) a most következő khi-négyzet függetlenségvizsgálatra is használjuk. Slide 28 Függetlenségvizsgálat kategória-értékű változókra Freedman: 28. fejezet Slide 29 Egy képzeletbeli országban 10M ember lakik. Tudjuk, hogy 68% kékszemű, 32% zöldszemű, 30% szőkehajú, 10% barnahajú, 60% feketehajú. Ezek az adatok leírják a szem- és a hajszín marginális eloszlását, de nem határozzák meg azt, hogy mi a szem- és hajszín együttes eloszlása.

Slide 28 Slide 28 Függetlenségvizsgálat kategória-értékű változókra Függetlenségvizsgálat kategória-értékű Freedman: változókra 28. fejezet Kabos: Statisztika II. Osszefüggésvizsgálat 2. Kabos: Statisztika II. Összefüggésvizsgálat 11.23 Slide 29 Slide 29 Slide 30 Slide 30 Freedman: 28. fejezet Egy képzeletbeli országban 10M ember lakik. Tudjuk, hogy 68% kékszemű, 32% zöldszemű, 30% Egy képzeletbeli szőkehajú, 10% országban barnahajú, 10M ember 60% feketehajú. lakik. Ezek Tudjuk, az adatok hogy leírják a szem- és a hajszín marginális 68% kékszemű, eloszlását, 32% zöldszemű, de nem határozzák meg azt, hogy 30% szőkehajú, mi a szem- 10% és hajszín barnahajú, együttes 60% eloszlása. feketehajú. Ezek az adatok leírják a szem- és a hajszín marginális eloszlását, de nem határozzák meg azt, hogy mi a szem- és hajszín együttes eloszlása. Feltesszük, hogy a szem- és a hajszín függetlenek, miközben tiszteletben tartjuk a marginálisokról előbb mondottakat. AFeltesszük, szem- és hajszín hogy a szem- együttes és aeloszlása hajszín (ezer függetlenek, fő): miközben szem \ haj tiszteletben szőke tartjuk barna a fekete marginálisokról összesen előbb mondottakat. kékszemű 2040 680 4080 6800 A szem- és hajszín együttes eloszlása (ezer fő): zöldszemű szem \ haj 960 szőke 320 barna 1920 fekete 3200 összesen összesen kékszemű 3000 2040 1000 680 6000 4080 10000 6800 zöldszemű 960 320 1920 3200 összesen 3000 1000 6000 10000 Slide 31 Először a teljes lakosságra vetített arányszámokkal kitöltjük a marginális sort és oszlopot: szem \ haj szőke barna fekete összesen kékszemű 0.68 zöldszemű 0.32 összesen 0.3 0.1 0.6 1 Slide 32 Ezután kitöltjük az üresen maradt cellákat a megfelelő marginálisaik szorzatával: szem \ haj szőke barna fekete összesen kékszemű 0.204 0.068 0.408 0.68 zöldszemű 0.096 0.032 0.192 0.32 összesen 0.3 0.1 0.6 1

Először a teljes lakosságra vetített arányszámokkal kitöltjük a marginális sort és oszlopot: szem \ haj szőke barna fekete összesen Slide 31 Először a teljes lakosságra vetített arányszámokkal kitöltjük kékszemű a marginális sort és oszlopot: 0.68 zöldszemű szem \ haj szőke barna fekete összesen 0.32 Slide 31 összesen 0.3 0.1 0.6 1 Kabos: Statisztika kékszemű II. Összefüggésvizsgálat 0.68 11.24 zöldszemű 0.32 összesen 0.3 0.1 0.6 1 Slide 32 Slide 32 Ezután kitöltjük az üresen maradt cellákat a megfelelő marginálisaik szorzatával: szem \ haj szőke barna fekete összesen Ezután kitöltjük az üresen maradt cellákat a megfelelő kékszemű marginálisaik 0.204 0.068 szorzatával: 0.408 0.68 zöldszemű szem \ haj szőke 0.096 barna 0.032 fekete 0.192 összesen 0.32 összesen kékszemű 0.3 0.204 0.1 0.068 0.6 0.408 1 0.68 zöldszemű 0.096 0.032 0.192 0.32 összesen 0.3 0.1 0.6 1 Slide 33 Slide 33 A Szignifikanciapróbák összefoglalóban egy általános jelölés szerepel: X \ Y Y = 1 Y = 2 Y = 3 marginális A Szignifikanciapróbák összefoglalóban egy általános jelölés X = szerepel: 1 p 1,1 p 1,2 p 1,3 p 1,+ X = \ Y 2 Y p = 2,1 1 Y p = 2,2 2 Y p = 2,3 3 marginális p 2,+ marginális X = 1 p +,1 1,1 p +,2 1,2 p +,3 1,3 p +,+ 1,+ X = 2 p 2,1 p 2,2 p 2,3 p 2,+ marginális p +,1 p +,2 p +,3 p +,+ Slide 34 A függetlenség azt jelenti, hogy P {X = i Y = j} = P {X = i} azaz p i,j = p i,+ teljesül minden (i, j) párra p +,j Például i = 2 és j = 3 esetén P {zöldszemű feketehajú} = P {zöldszemű} p 2,3 = 0.192 p +,3 0.6 = 0.32 = p 2,+ Slide 35 Ez azért megy ilyen szépen, mert az együttes eloszlás táblázatát a szorzási szabállyal készítettük, ezzel okoztuk a két változó függetlenségét. Ugyanezen marginális eloszlások tiszteletben tartása mellett tudunk nem-független együttes eloszlásokat is készíteni.

A függetlenség azt jelenti, hogy P {X = i Y = j} = P {X = i} azaz p i,j = p i,+ teljesül minden (i, j) párra p Slide 34 A +,j függetlenség azt jelenti, hogy Például = 2 és j 3 esetén P {X = i Y = j} = P {X = i} azaz P p i,j {zöldszemű feketehajú} = P {zöldszemű} = p 2,3 Slide 34 = 0.192 i,+ teljesül minden (i, j) párra p +,j p +,3 0.6 = 0.32 = p 2,+ Kabos: Statisztika Például i = 2II. és j = 3 esetén Összefüggésvizsgálat 11.25 P {zöldszemű feketehajú} = P {zöldszemű} p 2,3 = 0.192 p +,3 0.6 = 0.32 = p 2,+ Slide 35 Slide 35 Slide 36 Slide 36 Ez azért megy ilyen szépen, mert az együttes eloszlás táblázatát a szorzási szabállyal készítettük, ezzel okoztuk a két változó függetlenségét. Ugyanezen Ez azért megy marginális ilyen szépen, eloszlások mert tiszteletben az együttes tartása eloszlás mellett táblázatát tudunk a szorzási nem-független szabállyal együttes készítettük, eloszlásokat ezzel is készíteni. okoztuk a két változó függetlenségét. Ugyanezen marginális eloszlások tiszteletben tartása mellett tudunk nem-független együttes eloszlásokat is készíteni. Az alapsokasági relatív gyakoriságokat megszorozzuk az alapsokaság létszámával (itt 10M), és így kapjuk a bevezetőben mutatott gyakoriság eloszlási kereszt-táblát. Az alapsokasági relatív gyakoriságokat megszorozzuk Az az alapsokaság alapsokasági létszámával relatív gyakoriságokat (itt 10M), és a így statisztikus kapjuk a szleng bevezetőben totál-százalékos mutatott gyakoriság táblának is eloszlási mondja, ezenkívül értelemszerűen kereszt-táblát. használják a sorszázalékos és oszlopszázalékos Az alapsokasági relatív tábla elnevezéseket gyakoriságokat is. a statisztikus szleng totál-százalékos táblának is mondja, ezenkívül értelemszerűen használják a sorszázalékos és oszlopszázalékos tábla elnevezéseket is. Slide 37 Két kategória-értékű változó függetlenségének vizsgálata khi-négyzet próbával Modell: az X változó alapsokaságbeli értékei X = 1, 2,.., I az Y változó alapsokaságbeli értékei Y = 1, 2,.., J Hipotézis: H 0 : X és Y függetlenek Minta: az (X, Y ) változópárra vett N elemű EVM. Az adatok a gyakoriság kereszt-táblázatban: X \ Y Y = 1... Y = J marginális Slide 38 X = 1 f 1,1... f 1,J f 1,+......... f i,j... X = I f I,1... f I,J f I,+ marginális f +,1... f +,J N = f +,+ f i,j = az {X = i} és {Y = j} mintabeli együttes

vizsgálata khi-négyzet próbával Modell: Slide 37 az Két X kategória-értékű változó alapsokaságbeli változó értékei függetlenségének X = 1, 2,.., I vizsgálata az Y változó khi-négyzet alapsokaságbeli próbával értékei Y = 1, 2,.., J Modell: Hipotézis: H 0 : X és Y függetlenek Slide 37 az Minta: X változó az (X, alapsokaságbeli Y ) változópárra értékei vett N X elemű = 1, 2, EVM..., I Kabos: Statisztika az Az Y adatok változó II. a gyakoriság alapsokaságbeli kereszt-táblázatban: értékei Összefüggésvizsgálat Y = 1, 2,.., J 11.26 Hipotézis: H 0 : X és Y függetlenek Minta: az (X, Y ) változópárra vett N elemű EVM. Az adatok a gyakoriság kereszt-táblázatban: X \ Y Y = 1... Y = J marginális Slide 38 Slide 38 Slide 39 Slide 39 X = 1 f 1,1... f 1,J f 1,+... X \ Y Y... = 1...... Y f = i,j J marginális... I X = 1 f I,1 1,1...... f I,J 1,J f I,+ 1,+ marginális... f... +,1...... f +,J i,j N = f... +,+ f i,j az {X = i} és {Y = j} mintabeli együttes X = I f I,1... f I,J f I,+ előfordulásainak gyakorisága. marginális f +,1... f +,J N = f +,+ f i,j = az {X = i} és {Y = j} mintabeli együttes előfordulásainak gyakorisága. Ha X és Y függetlenek, akkor f i,j várhatóértéke = e i,j = f i+ f +j f ++ várhatóértéke Ez Ha az X állítás és Y függetlenek, precízebben akkor fogalmazva: ha X és Y függetlenek, akkor e i,j torzítatlan becslés N p i,j -re. f i,j várhatóértéke = e i,j = f i+ f +j várhatóértéke Másrészt f i,j torzítatlan becslés f ++ N p i,j -re, akár Ez teljesül az állítás X és precízebben Y függetlensége, fogalmazva: akár nem. ha X és Y függetlenek, akkor e i,j torzítatlan becslés N p i,j -re. Másrészt f i,j torzítatlan becslés N p i,j -re, akár teljesül X és Y függetlensége, akár nem. Slide 40 A függetlenségvizsgálat próbastatisztikája: I J (f i,j e i,j ) 2 S = mely χ 2 (I 1) (J 1) i=1 j=1 e i,j (szavakban: (I 1) (J 1) szab.fokú khi-négyzet) eloszlású közelítőleg, ha H 0 igaz. Slide 41 A χ 2 közelítés javítására szolgál 2 2 tábláknál a Yates-korrekció (a technikai részleteket nem tanuljuk). Ha 2 2 táblánál a marginális eloszlások rögzítettek, akkor a Fisher egzakt teszt alkalmazása indokolt (ez a helyzet például a korábban említett két mintás medián próbánál). A Fisher egzakt teszt a visszatevés nélküli mintavételnél szerepelt hipergeometrikus eloszláson alapul (az egyéb

A függetlenségvizsgálat próbastatisztikája: I J (f i,j e i,j ) 2 S = mely χ Slide 40 2 (I 1) (J 1) e i=1 j=1 i,j A függetlenségvizsgálat próbastatisztikája: (szavakban: (I 1) (J 1) szab.fokú khi-négyzet) I J (f eloszlású közelítőleg, i,j e i,j ) 2 S = ha Hmely 0 igaz. χ Slide 40 2 (I 1) (J 1) e i=1 j=1 i,j Kabos: Statisztika II. Összefüggésvizsgálat 11.27 (szavakban: (I 1) (J 1) szab.fokú khi-négyzet) Slide 41 Slide 41 eloszlású közelítőleg, ha H 0 igaz. A χ 2 közelítés javítására szolgál 2 2 tábláknál a Yates-korrekció (a technikai részleteket nem tanuljuk). Ha 2 2 táblánál a marginális eloszlások rögzítettek, A χ 2 közelítés akkor javítására a Fisher szolgál egzakt 2 teszt 2 tábláknál alkalmazása a indokolt Yates-korrekció (ez a helyzet (a technikai például részleteket a korábban nememlített két tanuljuk). mintásha medián 2 2próbánál). táblánál aamarginális Fisher egzakt eloszlások teszt arögzítettek, visszatevésakkor nélküli a Fisher mintavételnél egzakt teszt szerepelt alkalmazása hipergeometrikus indokolt (ez a helyzet eloszláson például alapul a korábban (az egyéb említett technikai két mintás részleteket medián próbánál). nem tanuljuk). A Fisher egzakt teszt a visszatevés nélküli mintavételnél szerepelt hipergeometrikus eloszláson alapul (az egyéb technikai részleteket nem tanuljuk). Slide 42 Slide 42 A megtévesztő szóhasználat miatt fokozott figyelem szükséges ahhoz, hogy mindig a feladatnak megfelelő khi-négyzet próbát használjuk. A megtévesztő szóhasználat miatt fokozott figyelem szükséges ahhoz, hogy mindig a feladatnak megfelelő khi-négyzet próbát használjuk.