Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre
Összefüggés vizsgálatok
A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek feltárása, szabályszerűségek számszerű jellemzése.
A kapcsolat típusai lehetnek: a jelenségek között oksági kapcsolat áll fenn, funkcionális kapcsolat, valószínűségi vagy sztochasztikus kapcsolat (ezt korrelációs vagy statisztikai összefüggésnek is nevezzük).
Sztochasztikus kapcsolatok típusai Asszociáció: két minőségi ismérv közötti kapcsolat nemek és iskolai végzettség, traktor típusa és szántás minősége Rangkorreláció: sorba rendezett tényezők közötti kapcsolat borok minőségének megítélése Korreláció: két mennyiségi ismérv közötti kapcsolat műtrágya és termés mennyiség Vegyes kapcsolat: egy minőségi és egy mennyiségi ismérv közötti kapcsolat megyék és az egy főre jutó kereset
Mennyiségi ismérvek közötti kapcsolatok: y okozat, X 1, X,,X n, -okok, általában sok ható tényező, az összefüggés vizsgálatba bevont jellemzők valószínűségi változók.
Az összefüggések érzékeltetésének egyszerűbb eszközei: egymásmellé helyezett értékek (statisztikai sorok), kombinációs tábla ( kontingencia tábla, két mennyiségi ismérv kombinatív csoportosítása), grafikus ábrázolás (pont diagram)
Két változó összefüggése: először szakmailag kell eldönteni, hogy van-e összefüggés. egyenes vonalú (lineáris): ha az egyik változó megváltozásának irányát a másik változó állandó mértékű, hasonló vagy ellentétes irányú változása követi görbe vonalú összefüggés (nem lineáris): az egymáshoz kapcsolódó ponthalmaz valamely függvénytípushoz hasonlít.
Az összefüggés szorosságát lineáris korreláció esetén: korrelációs koefficiens korrelációs együttható 1 r Nem lineáris korreláció esetén: korrelációs indexet számolunk: r I 0 I 1 1 pozitív korreláció esetén 0-(+1)-ig negatív korreláció esetén 0-(-1)-ig érték 0-(+1) közé esik (negatív értéket nem értelmezünk)
1. Két változó lineáris korrelációjának mérése: 1.1. Előjel korreláció: az átlagtól való eltérések előjelpárjaiból kiindulva, az előjelek szorzási törvénye alapján határozzuk meg az összefüggés erősségét, p q r e =, p + q ahol p: egymáshoz tartozó eltéréspárok szerinti előjelbeli egyezés q: egymáshoz tartozó eltéréspárok szerinti előjelbeli különbözőség
1.. Rangkorreláció: általában területi sorok adatai közötti kapcsolat vizsgálatánál használjuk, nehezen, vagy egyáltalán nem mérhető változók közötti kapcsolatok számszerűsítésére alkalmas.
Számítás menete: a vizsgált két változó értékeit nagyságuk sorrendjében rangszámokkal látjuk el. Ha a változók értékeit tekintve azonos értéknagyság fordul elő, akkor a logikailag egymás után következő rangszámok számtani átlagát használjuk az azonos értékek rangszámaként. A rangsorolás akkor helyes ha a rangszámok összege mindkét változónál egyenlő és megegyezik a vizsgálatba bevont változópárok sorszámának összegével.
6 D = 1 n rr ( n 1) Meghatározzuk a rangsorszámok különbségét (D) és ( ΣD ) a különbségek négyzetösszegét.
Szignifikanciájának megítélése táblázatból történik a számított D értéket hasonlítjuk össze a táblázat megfelelő P% és szabadságfokánál található értékkel. Az összefüggés szignifikáns ha a számított D érték kisebb mint a táblázatbeli érték. Ha r r > r akkor a két változó közötti kapcsolat nem lineáris.
1.3. A legkisebb négyzetek elvén alapuló korreláció számítás szemben az előző módszerekkel pontosabb, megbízhatóbb, az átlagtól való eltérések, illetve a szóródás nagyságának vizsgálatán alapszik.
r = ( x) ( y ) Σx ( x) Σy ( ) Σx n n y ( x) ( y y) ( x) Σy ( ) Σx y Σx y n =
r = ( ) ( ) x y Σx n*σ x*σy y
r = kovariancia a két változó varianciájának mértani átlaga
az átlagtól való eltérések szorzatösszegének előjele meghatározza a lineáris kapcsolat típusát és a változás jellegét, a szorzatösszeget függetlenítenünk kell a megfigyelt adatpárok számától ezért osztjuk n -el. Ez az un. kovariancia, a mértékegység megválasztásából eredő önkényességet (hibát) kizárjuk, ha a kovarianciát osztjuk a változók szórásával.
1.3.1. A korrelációs együttható megbízhatósága a) véletlen hiba (m r ) b) korreláció biztosítottsága (t). a korrelációs együttható is valószínűségi változó, úgy tekintendő mint az alapsokaság tényleges együtthatójának becslése (véletlen hibával terhelt). m r 1 r = n 3 mr < - meg kell állapítanunk, hogy a változók közötti kapcsolat a véletlennek tulajdonítható-e vagy pedig szignifikáns összefüggésnek tekinthető. r
Alaphipotézis: r értékének 0-tól való eltérése a véletlennek köszönhető, a számított t értéket összehasonlítjuk a Student táblázatban a megfelelő valószínűségi szinten (P 5% ) és n- szabadság foknál található t értékkel. t = r 1 r n
ha a számított t érték a táblázatban lévő értéknél nagyobb t sz > t tábl. a nullhipotézist elvetjük, azaz a korrelációs együttható 0-tól való eltérése nem a véletlennek köszönhető, tehát szignifikáns.
Az 1 főre jutó évi jövedelem és az élelmiszerre fordított kiadás alakulása Háztartások sorszáma 1 főre jutó évi jövedelem élelmiszer kiadás x x y y ( y y ) ( x x )*( y y ) ( x x ) ezer Ft x y 1.. 3. 4. 5. Σ 7 4-38,60-14,80 1489,9 19,0 571,8 96 36-14,60 -,80 13,1 7,8 40,88 10 4 9,40 3,0 88,3 10, 30,08 130 44 19,40 5,0 376,3 7,0 100,88 135 48 4,40 9,0 595,3 84,6 4,48 553 194 763, 348,8 967,60 Átlag 110,60 38,80
a korrelációs együttható: r = ( x x )( y y ) ( x x ) * ( y y ) 967,6 763,*348,8 Az r értéke 0,7-nél nagyobb így megállapítható, hogy az egy főre jutó jövedelem és az élelmiszerkiadás között igen szoros az összefüggés. A korrelációs együttható megbízhatósága: = 0,986 1 r 1 0,986 1 0,9714 = = = = 0,013 n 5,36 Az mr értékének háromszorosa kisebb az r értékénél, azaz 0,013<0,986, így a korreláció biztosítottnak tekinthető mr =
t próba: r t = n 1 r = 0,986 1 0,986 3 = 0,986 1 0,9714 1,73 = 10,09 t p 5 % = 3,181 Szf=3 Nullhipotézisünk szerint az r=0, de mivel a számított t érték nagyobb, mint a kritikus t, így a korrelációs együttható nullától való eltérése nem a véletlennek köszönhető, azaz a nullhipotézist elvetjük