Lneárs regresszó Statsztka I., 4. alkalom
Lneárs regresszó Ha két folytonos változó lneárs kapcsolatban van egymással, akkor az egyk segítségével elıre jelezhetjük a másk értékét. Szükségünk van a függı és független változó kválasztására, de ez nem jelent okság kapcsolatot! Azt sem jelent, hogy megértettük volna a kapcsolatot, de az összefüggés segíthet a megértését a kapcsolatnak és legfıképp releváns elırejelzésenk lehetnek. Példák: Évszakok váltakozása és az ókor görögök. Képességteszt és adott pozícóban való beválás. Felvétel vzsgapontszám és egyetem elımenetel. Adott áruckkel szemben atttőd és vásárlás hajlandóság. Kapcsolat szubjektív erıssége és nterakcók het gyakorsága. Ha az elırejelzés egy változó segítségével történk, akkor egyváltozós lneárs regresszó számításnak nevezzük az eljárást.
Lneárs regresszó Mnél szorosabb két változó kapcsolata, annál ksebb lesz az elırejelzés hbája. Pl. Egy varrónıvel szemben elégedettséget szeretnénk elıre jelezn egy varrás gyorsaság teszt alapján. Számos már dolgozó varrónıvel elvégezzük a tesztet, és nformálódunk fınökük munkájukkal való elégedettségérıl. Pl. korrelácóval megvzsgáljuk, hogy a számszerősített két változó összefügg-e egymással. Amennyben a teszt használhatónak tőnk, regresszós egyenest llesztünk az adatokra, hogy a teszt alapján a fınök elégedettségét bármely teszt érték esetén elıre jelezhessük. 4 - -4 X3-6 -3 - -1 1 Ábra a Máth jegyzetbıl. X1
Lneárs regresszó A lneárs kapcsolat természetesen egy egyenessel ragadható meg a legjobban. Ezt regresszós egyenesnek nevezzük. Az általános képlete egy egyenesnek:: Y = β X + β1 β β 1 konstans, az a pont ahol az egyenes metsz az y tengelyt, az az érték, am a legjobb becslés x= esetén a változó súlya, azt fejez k, hogy x egységny változása mekkora növekedést déz elı y becslésében A becslés csak tökéletes kapcsolat esetén lenne hbamentes (r=1 vagy r= -1). Az eljárás elnevezésének háttere: Sr Francs Galton a 19. században kutatta gyermekek genetkus meghatározottságát. Úgy fogalmazta meg eredményet, hogy a gyermekek magassága a szülık magasságához képest regredál az átlagosság rányába. A jelenség generalzálható teszt-reteszt sztuácókra, ez s mutatja, hogy a regresszós hatás egy természetes jelenség.
Lneárs regresszó A becslés csak tökéletes kapcsolat esetén lenne hbamentes (r=1 vagy r= -1). = β + β X + ε Y 1 A lehetı legksebb hbájú becslés a cél. A hbáról feltételezzük, hogy független X-tıl és átlaga nulla. A négyzetes hba mnmalzálására épülı legksebb négyzetek segítségével számolhatjuk becslését. A becslések normáls eloszlásúak, így tesztelhetı, hogy nullával egyenlıek-e a populácó szntjén. β = 1 ( X X )( Y ( X β = Y X 1 β X ) Y ) SE( β ) = σ 1 SE( β ) = σ 1 ( N 1) s x 1 X + N ( N 1) s x ˆ σ = ) Y Y N
Két változó kapcsolata Ha két változó normáls eloszlású, akkor csak lneárs kapcsolat képzelhetı el közöttük, azaz, ha nncs közöttük lneárs kapcsolat, akkor függetlenek egymástól. Ha két változó normáls eloszlású és korrelácójuk nulla, akkor függetlenek egymástól, ha korrelácójuk nullától különbözk, akkor lneárs kapcsolatban vannak, és ez a kapcsolat egy egyenessel megragadható. Fontos a korrelácó mértéke s (r=.1) A regresszós egyenes segítségével egyk változó értékének smeretében a másk változó értékét elıre jelezhetjük. Meg kell határoznunk a függı és független változót, k kell számítanunk a regresszós együtthatókat (, és β ). β 1 Ha a független változó értéke köz nem szerepel egy érték, de a megfgyelt tartományban van (megfgyelt mn. és max. érték között), akkor következtethetünk a függı változó értékére (nterpolácó), ha a megfgyelt tartományon kívül van, akkor ezt nem tehetjük meg (extrapolácó). β 1 Ha a független változó súlya ( ) a populácó szntjén különbözk nullától, akkor a független változó hatása szgnfkáns.
Lneárs regresszó A lneárs regresszó termnológája megtévesztı: -függı változó -független változó -változó hatása Csak akkor beszélhetünk okság kapcsolatról, ha random kísérletbıl származó adatokkal dolgozunk és mnden más, a vzsgált kapcsolat szempontjából releváns, tényezıt kontrollálunk. (A független változót m manpuláljuk és a személyeket random módon soroltuk a függı változó szernt csoportokba). Ha megfgyelésrıl van szó, számos külsı tényezı befolyással lehet mnd a függı, mnd a független változóra, okság kapcsolatról megfgyelés esetén nem beszélhetünk.
Lneárs regresszó Ha a regresszó tökéletes elırejelzésre ad lehetıséget, azaz a megfgyelt értékek, pontdagrammon ábrázolva tökéletesen lleszkednek egy egyenesre, akkor szokás függvénykapcsolatról beszéln. Pl. Eladott termék száma, eladásból származó bevétel. Az esetek döntı többségében azonban csak úgynevezett statsztka kapcsolatról van szó, ahol az elırejelzés nem tökéletes, az elırejelzés hbája vzuálsan a pontok távolsága az llesztett egyenestıl. Pl. az anya ntellgencájával próbáljuk bejósoln a gyermek ntellgencáját.
Lneárs regresszó Az általános képlete egy egyenesnek: β β 1 Y = β + β1x az a pont ahol az egyenes metsz az y tengelyt azt fejez k, hogy x egységny változása mekkora növekedést déz elı y-ban ˆ =β ˆ + ˆ β X Y = Y X 1 ε = Y ˆ ˆ β ( β + 1X ) = Y Yˆ Y ˆ β ˆ + ε = + β1x A becslés csak tökéletes kapcsolat esetén lenne hbamentes (r=1 vagy r= -1). a becslés hbája. ε A lehetı legksebb hbájú becslés a cél. A hbáról feltételezzük, hogy független X-tıl és átlaga nulla. A négyzetes hba mnmalzálására épülı legksebb négyzetek eljárás segítségével számolhatjuk és becslését. β β 1
Lneárs regresszó A becslés hbája: ε = Y ˆ ˆ β ( β + 1X ) = Y Yˆ A regresszós egyenes hbája, az ún. rezduáls hba vagy hbavaranca: ˆ Res = E[( Y Y ) ] = E[ ε ] = E[( ε ) ] = σ ε σ = σ + σ Y ˆ Y ε ss Y = ss Yˆ + ss ε R = ss ss Yˆ Y Az R négyzet érték, a determnácós együttható, azt mutatja meg, hogy az Y változó varancájának mekkora részét tudjuk megragadn az y becsült értékével. Ez pontosan a korrelácó négyzete lesz.