Lineáris regresszió vizsgálata resampling eljárással

Hasonló dokumentumok
Regresszió számítás az SPSSben

Bevezetés a Korreláció &

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Statisztika II előadáslapok. 2003/4. tanév, II. félév

Esetelemzések az SPSS használatával

Korreláció, regresszió. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

A gravitációs modell felhasználása funkcionális távolságok becslésére

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Ökonometria. Dummy változók használata. Ferenci Tamás 1 tamas.ferenci@medstat.hu. Hetedik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

6. Előadás. Vereb György, DE OEC BSI, október 12.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

Statisztika II. feladatok

Logisztikus regresszió október 27.

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

GyőrBike a győri közösségi bérkerékpár rendszer első éve

MI MOZGATJA A HATÁRIDŐS DEVIZAPOZÍCIÓKAT? A magyar piac elemzése

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

1. Ismétlés Utóbbi előadások áttekintése IV. esettanulmány Uniós országok munkanélkülisége... 1

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Korreláció és lineáris regresszió

Correlation & Linear Regression in SPSS

Correlation & Linear Regression in SPSS

JA45 Cserkeszőlői Petőfi Sándor Általános Iskola (OM: ) 5465 Cserkeszőlő, Ady Endre utca 1.

FIT-jelentés :: Hild József Általános Iskola 1051 Budapest, Nádor u. 12. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

Statisztika elméleti összefoglaló

Bevezetés a hipotézisvizsgálatokba

Ökonometria BSc Gyakorló feladatok a kétváltozós regresszióhoz

Cséplő Máté PTE Egészségtudományi Doktori Iskola, hallgató

A HAZAI SPORTFINANSZÍROZÁSI RENDSZER HATÉKONYSÁGA AZ ÉLSPORTBAN

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

Adatok statisztikai értékelésének főbb lehetőségei

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Minitab 16 újdonságai május 18

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

FIT-jelentés :: Olcsai-Kiss Zoltán Általános Iskola 9900 Körmend, Thököly u. 31. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

Ökonometria gyakorló feladatok 1.

KÖVETKEZTETŐ STATISZTIKA

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina Boda PhD SZTE ÁOK Orvosi Informatikai Intézet

FIT-jelentés :: Telephelyi jelentés. 10. évfolyam :: Szakközépiskola

A évi országos kompetenciamérés iskolai eredményeinek elemzése

Telephelyi jelentés. 10. évfolyam :: Szakiskola

kompetenciakompetenciakompetenci akompetenciakompetenciakompeten ciakompetenciakompetenciakompete nciakompetenciakompetenciakompet

FIT-jelentés :: Bajza József Általános Iskola 1046 Budapest, Bajza u. 2. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Stromfeld Aurél Általános Iskola 1202 Budapest, Mártirok u OM azonosító: Telephely kódja: 001. Telephelyi jelentés

FIT-jelentés :: Telephelyi jelentés. 10. évfolyam :: Szakközépiskola

A többváltozós lineáris regresszió 1.

FIT-jelentés :: Vörösmarty Mihály Gimnázium 2030 Érd, Széchenyi tér 1. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

Faktoranalízis az SPSS-ben

1/8. Iskolai jelentés. 10.évfolyam matematika

Faktoranalízis az SPSS-ben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

JA45 Cserkeszőlői Petőfi Sándor Általános Iskola (OM: ) 5465 Cserkeszőlő, Ady Endre utca 1.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

TERÉZVÁROSI KERESKEDELMI ÉS KÖZGAZDASÁGI SZAKKÖZÉPISKOLA ÉS

Logisztikus regresszió

FIT-jelentés :: Weöres Sándor Általános Iskola, Gimnázium és Szakközépiskola - Gimnáziumtagintézmény. Telephelyi jelentés

A évi országos kompetenciamérés iskolai eredményeinek elemzése

FIT-jelentés :: Árpád-házi Szent Erzsébet Középiskola 2500 Esztergom, Mindszenty tér 7. OM azonosító: Telephely kódja: 001

FIT-jelentés :: 2008 Telephelyi jelentés 6. évfolyam :: Általános iskola József Attila Általános Iskola

FIT-jelentés :: Ölbey Irén Általános Iskola 4495 Döge, Osváth tér 6. OM azonosító: Telephely kódja: 004. Telephelyi jelentés

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Centura Szövegértés Teszt

Telephelyi jelentés. 10. évfolyam :: Szakiskola

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Mintavételi eljárások

Kerékpáros közösségi kölcsönző rendszer működésének szabályszerűségei

FIT-jelentés :: Telephelyi jelentés. 10. évfolyam :: 4 évfolyamos gimnázium

2. A 2016.évi Országos kompetencia mérés eredményeinek feldolgozása

Telephelyi jelentés. 10. évfolyam :: Szakiskola

FIT-jelentés :: Árpád-házi Szent Erzsébet Középiskola 2500 Esztergom, Mindszenty tér 7. OM azonosító: Telephely kódja: 001

Segítség az outputok értelmezéséhez

FIT-jelentés :: Telephelyi jelentés. 6. évfolyam :: Általános iskola

Többváltozós lineáris regressziós modell feltételeinek

FIT-jelentés :: Petőfi Sándor Általános Iskola és Benedek Elek Tagiskola 2163 Vácrátót, Petőfi tér 6. OM azonosító: Telephely kódja: 001

Szövegértés. Xántus János Két Tanítási Nyelvű Gimnázium és Szakgimnázium OM azonosító: Telephelyi jelentés Telephely kódja: 001

Sztochasztikus kapcsolatok

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK

Az objektív és szubjektív jóllét összekapcsolhatósága egy magyarországi példán keresztül

Diagnosztika és előrejelzés

FIT-jelentés :: Trefort Ágoston Kéttannyelvű Középiskola 1191 Budapest, Kossuth tér 12. OM azonosító: Telephely kódja: 001

y ij = µ + α i + e ij

[Biomatematika 2] Orvosi biometria

FIT-jelentés :: Hunyadi János Gimnázium és Szakközépiskola 9300 Csorna, Soproni út 97. OM azonosító: Telephely kódja: 001

FIT-jelentés :: 2008 Telephelyi jelentés 10. évfolyam :: Szakközépiskola Péchy Mihály Építőipari Szakközépiskola

Többváltozós lineáris regressziós modell feltételeinek tesztelése II.

FIT-jelentés :: Gvadányi József Általános Iskola és Óvoda 3733 Rudabánya, Petőfi u. 22. OM azonosító: Telephely kódja: 001

Lineáris regressziószámítás 1. - kétváltozós eset

: az i -ik esélyhányados, i = 2, 3,..I

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

1. (Sugár Szarvas fgy., 186. o. S13. feladat) Egy antikvárium könyvaukcióján árverésre került. = x = 6, y = 12. s y y = 1.8s x.

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

FIT-jelentés :: Terézvárosi Kereskedelmi és Közgazdasági Szakközépiskola és Szakiskola 1064 Budapest, Szondy utca 41. OM azonosító:

Átírás:

Lineáris regresszió vizsgálata resampling eljárással Dolgozatomban az European Social Survey (ESS) harmadik hullámának adatait fogom felhasználni, melyben a teljes nemzetközi lekérdezés feldolgozásra került, s amit 2006-ban végeztek. Az itt fellelhető változók közül kettőt választottam ki, melyek az első házasságkötés idejére és az első gyermek születésére vonatkoznak. Amennyiben kutatási kérdésként szeretnénk interpretálni a későbbiekben láthatóakat, akkor úgy fogalmazhatjuk meg: Milyen hatással bír az első gyermekvállalás idejére az, hogy ki milyen korban köt házasságot (először)? Így ezt a kapcsolatot fogom vizsgálni lineáris regresszió útján, továbbá a modell jóságát is. Az adatbázis és a minta előkészítése, az elemzési terv Elsőként is az évszámokat transzformálva megkaptuk a releváns életkorokat. Majd az adatbázist megtisztítva csak azokat az eseteket hagytam meg, melyek érvényes válaszokat tartalmaztak, és ahol a kérdések is vonatkoztak a válaszadókra. Így összesen 26889 esetünk volt, melyet a továbbiakban a populációnak tekintek, s melyek által pontosan ismerhető a valós paraméter. Ezután a közel 27000 elemből egyszerű visszatevés nélküli mintát vettem, melynek elemszáma 1500 volt. Ezen a mintán fogom elsőként elvégezni a lineáris regressziós becslést, megvizsgálva a tengelymetszetet és a meredekséget. Majd egyszerű visszatevéses mintavétellel alkalmazom a bootstrap eljárást, hogy 150-150 különböző mintanagyságon vizsgáljam a modell érvényességét. Összesen 5 különböző mintanagysággal fogom ezt megtenni 10, 100, 500, 750 és 1500 elemszámú variációkkal. Ezen becslések meredekségét és tengelymetszetét fogom összehasonlítani, legvégül pedig magával a valós paraméterrel megtéve ugyanezt. 1

A populációs paraméter A 26889 eset tekintetében a két vizsgált változó együttes eloszlásának pont diagramja a következő képet adja: 1. ábra Együttes eloszlás a populációban A lineáris regresszió végrehajtása után pedig a valós paraméter (tengelymetszet és meredekség) a következőképp alakult: Coefficients Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta Első házasság,751,004,733 176,810,000 (Constant) 7,413,105 70,739,000 1. táblázat Paraméterek értéka a populációban Látható, hogy a konstans tag, mely a tengelymetszetet adja 7,413 értéket vesz fel a populációban, míg az egyenes meredeksége 0,751. Így elmondható, hogy az első gyermek születésének ideje képletbe rendezve: 7,431(év)+0,751*első házasságkötéskor betöltött év 2

Ennek érdekessége, hogy ez alapján, ha valaki körülbelül harminc éves kora környékén házasodik, akkor ez egybeesik az első gyermek születésével is. Ha ennél fiatalabban házasodik, akkor a házasságkötés után válla gyereket. Míg ha ennél később házasodik, akkor már a szülés után teszi ezt meg. Az 1500 fős minta lineáris regressziós becslése A teljes populációból vett minta alapján - ahol a bemeneti változó a házasságkötés éve, a kimeneti pedig a gyermekvállalás éve volt- láthatjuk, hogy mindkét paraméterre való becslés szignifikáns 95 százalékon. Coefficients a Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) 7,236,448 16,169,000 Első házasság,755,018,735 41,957,000 2. táblázat Paraméterek értéke az 1500 fős mintában A táblázatból kiolvasható, hogy a tengelymetszet értéke 7,236 és a meredekségé pedig 0,755 a becslésünk alapján. Továbbá a modell összefoglaló táblázata alapján elmondható, hogy az R 2 értéke, a modell magyarázó ereje 0,54. Azaz a lineáris illeszkedés közepes, az teljes szórás 54 százalékát képes magyarázni a regressziós egyenesünk. Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate 1,735 a,540,540 3,43297 3. táblázat Modell magyarázó ereje - 1500 fős minta 3

mutatja: Az 1500 fős minta esetében a két változó együttes eloszlása a következő képet 2. ábra Együttes eloszlás az 1500 fős mintában A bootstrap eljárás Ezt követően bootstap eljárással vettem visszatevéses mintákat, 150-150 darabot az 1500 fős kiindulási mintámból. A módszer segítségével lehetőségünk van megvizsgálni az alkalmazott becslési módszer jelen esetben a lineáris regresszió- jóságát, érvényességét. Az elemszám szerinti kombinációk közül pedig bemutatnék egy-egy véletlenül kiválasztott mintavariációt a két változó együttes eloszlásának bemutatásához. 4

3. ábra Együttes eloszlások a különböző mintanagyságok esetében Látható, hogy az elemszám növekedésével az R 2 értéke közelít az 1500 fős, nem bootsrapelt minta értékéhez, ahogy a pontfelhő képe is. 5

A bootstrap minták szignifikanciája Elsőként azt fogom megvizsgálni, hogy az elemszámtól függően, mely bootsrapelt minták szignifikánsak? Azaz, hogy az egyes típusú minták közül mekkora arányban fordulnak elő. Tengelymetszet Meredekség 10 fős minták 14% 71% 100 fős minták 86% 100% 500 fős minták 100% 100% 750 fős minták 100% 100% 1500 fős minták 100% 100% 4. táblázat Szignifikáns becslések aránya A táblázatból leolvashatjuk a szignifikáns becslések arányát. Ebből láthatjuk, hogy a tengelymetszetre adott bootstrap becslések közül a 10 fős mintáknál csak 14 százalékuk volt szignifikáns 95 százalékon. Ugyanekkor a 100 fős minták esetében ez az arány már jócskán javult és a becslések 86 százaléka volt sziginifikáns, az ennél nagyobb elemszámú minták esetében pedig már minden becslésünk az volt. A meredekséget illetően, ott szintén a 10 fős mintáknál volt a legalacsonyabb ez az arány (71%), de minden más, ennél nagyobb elemszámú minta esetében már 100% volt a szignifikáns becslések aránya. Ez alapján elmondható, hogy a valóban kis mintákon kívül, már akár 100 fős esetben is elég jó arányban, vagy teljes arányban kapunk szignifikáns becsléseket a vizsgált paraméterekre. A bootstrap becslés és a valós paraméter Ez után megvizsgáltam, hogy az egyes elemszámú minták becslésére 1 szerkesztett 95 százalékos konfidencia intervallumok magukban foglalják-e a populáció valós paraméterét, vagy sem? Ez azért fontos, mert így látható, hogy a bootstrap eljárás javított-e az eredeti 1500 fős mintánk becslésén. 1 Az egyes becslések eloszlását lásd az Mellékletek 4. ábráján 6

Tengelymetszet Meredekség Alsó határ Felső határ Alsó határ Felső határ 10 fős minták 4,699 7,064 0,757 0,857 100 fős minták 6,122 7,150 0,758 0,802 500 fős minták 6,796 7,313 0,751 0,773 750 fős minták 6,950 7,405 0,748 0,767 1500 fős minták 7,116 7,405 0,747 0,759 7,413 0,751 Valós paraméter 5. táblázat Becslések konfidencia intervalluma Leolvasható, hogy a tengelymetszet esetében a valós paraméterhez (7,413) képest a becslésünk alálő, bár az elemszám növelésével egyre közelebbi intervallumokat kapunk. Azaz az 1500 fős, 150-szer bootstapelt minta konfidencia intervallumának felső határa is csak 7,405. De ez még mindig a paraméter valós értéke alatt van. Az egyenesünk meredekségének esetében a kisebb elemszámú minták (10 és 100 fős) becslései fölélőnek. Azonban az 500 fős bootstrapelt minták már tartalmazzák a valós paramétert (0,751), a mintanagyság növelésével pedig egyre pontosabb intervallumot kapunk becsléseinkre. Összességében elmondható, hogy a tengelymetszetre való becslés estében nem jártunk sikerrel a bootstrap eljárással. Az eredeti 1500 fős mintából való becslés alálövését az eljárás sem tudta javítani, ott is hasonló tendenciát figyelhettünk meg. A meredekség tekintetében viszont a bootstapelt minták elemszámának növelésével javult becslésünk pontossága. 7

Mellékletek 4. ábra Becsült paraméterek eloszlása 10 fős minták 100 fős minták 500 fős minták 750 fős minták 1500 fős minták 8

1. melléklet Syntax sor **** Lineáris regresszió SORT CASES BY minta. SPLIT FILE BY minta. EXECUTE. REGRESSION /DESCRIPTIVES NONE /STATISTICS COEFF /DEPENDENT elsogyerek /METHOD=ENTER hazassag. ***************10 fős minták 150-szer SET SEED=RANDOM. INPUT PROGRAM. LOOP minta=1 TO 150. + LOOP #I=1 TO 10. + COMPUTE sorszam=trunc(uniform(1500))+1. + END CASE. + END LOOP. + LEAVE minta. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. SORT CASES BY sorszam. MATCH FILES /FILE=* /FILE='C:\Users\hazassagminta.sav' /RENAME (sorszam = d0) /DROP= d0. 9

***************100 fős minták 150-szer SET SEED=RANDOM. INPUT PROGRAM. LOOP minta=1 TO 150. + LOOP #I=1 TO 100. + COMPUTE sorszam=trunc(uniform(1500))+1. + END CASE. + END LOOP. + LEAVE minta. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. SORT CASES BY sorszam. MATCH FILES /FILE=* /FILE='C:\Users\hazassagminta.sav' /RENAME (sorszam = d0) /DROP= d0. ***************500 fős minták 150-szer SET SEED=RANDOM. INPUT PROGRAM. LOOP minta=1 TO 150. + LOOP #I=1 TO 500. + COMPUTE sorszam=trunc(uniform(1500))+1. + END CASE. + END LOOP. + LEAVE minta. END LOOP. END FILE. 10

END INPUT PROGRAM. EXECUTE. SORT CASES BY sorszam. MATCH FILES /FILE=* /FILE='C:\Users\hazassagminta.sav' /RENAME (sorszam = d0) /DROP= d0. ***************750 fős minták 150-szer SET SEED=RANDOM. INPUT PROGRAM. LOOP minta=1 TO 150. + LOOP #I=1 TO 750. + COMPUTE sorszam=trunc(uniform(1500))+1. + END CASE. + END LOOP. + LEAVE minta. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. SORT CASES BY sorszam. MATCH FILES /FILE=* /FILE='C:\Users\hazassagminta.sav' /RENAME (sorszam = d0) /DROP= d0. ***************1500 fős minták 150-szer SET SEED=RANDOM. INPUT PROGRAM. LOOP minta=1 TO 150. + LOOP #I=1 TO 1500. 11

+ COMPUTE sorszam=trunc(uniform(1500))+1. + END CASE. + END LOOP. + LEAVE minta. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. SORT CASES BY sorszam. MATCH FILES /FILE=* /FILE='C:\Users\hazassagminta.sav' /RENAME (sorszam = d0) /DROP= d0. 12