BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM Gazdaság- és Társadalomtudományi Kar Üzleti Tudományok Intézet. Dr. Hajdu Ottó.

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM Gazdaság- és Társadalomtudományi Kar Üzleti Tudományok Intézet. Dr. Hajdu Ottó."

Átírás

1 BUDAPESI MŰSZAKI ÉS GAZDASÁGUDOMÁNYI EGYEEM Gazdaság- és ársadalomtudományi Kar Üzleti udományok Intézet Dr. Hajdu Ottó Ökonometria oktatási segédanyag Budapest, 04

2 ARALOM A sokaság Az adatbázis Mőveletek sokaságokkal Centrális tendencia és variancia A sokaság eloszlása Sokaság és minta Statisztikai becslések Becslési kritériumok és módszerek Intervallumbecslés.... Statisztikai hipotézisek tesztelése Minta-likelihood-sokaság Likelihoodelméleti fogalmak A maximum likelihood becslés Hipotézisek likelihood alapú tesztelése A likelihood-arány teszt A Lagrange-multiplikátor elv A Wald elv A szóródás többváltozós jellemzése A variancia többváltozós általánosításai A kovariancia fogalma és tulajdonságai Kovariancia algebra Lineáris korreláció Az általánosított variancia A spektrális felbontás A szóródási mátrix öbbváltozós normalitás Fıkomponens változók elemzése Adatredukció és veszteség Az egyszerő struktúra igénye A kanonikus variancia Fıkomponensregresszió Klaszteranalízis A megfigyelési egységek klaszterezése Agglomeratív klaszterformálás: láncmódszer Banki ügyfélkör esettanulmány Divizív jellegő módszerek K-középpontú klaszterezés Kanonikus korreláció Modellfogalmak Szakágazati esettanulmány Szóródás csoportosított sokaságban A kovariancia csoportközi struktúrája Diszkriminancia változók A Mahalanobis távolság Diszkrimináló dimenziók feltárása... 59

3 9. Kategóriák korrespondencia analízise Elırejelzés: kiegészítı pontok ábrázolása Esettanulmány: sofırök és utasaik sérülése öbbszörös korrespondencia analízis Korrespondenciák feltárása Elırejelzés prediktív térképpel Klasszifikáció A döntési szabály A klasszifikációs mátrix Monoton asszociációs mértékek ROC analízis Pseudo R mutatók Bayes - klasszifikáció Normalitás alapú kvadratikus és lineáris klasszifikáció Mintavételi vonatkozások Homogenitásvizsgálat A diszkriminátor változók szelektálása A külsı szóródás tesztelése Diszkrimináló dimenziók Jackknife klasszifikáció ızsdetag brókercégek kvadratikus és lineáris klasszifikálása Stepwise lineáris diszkriminancia analízis Logisztikus regresszió Dichotom logisztikus regresszió Paraméterbecslés Hipotézisek tesztelése Polichotom logisztikus regresszió Nominális kategóriák logitjai Ordinális kategóriák kumulatív logitjai A diszkrét kiválasztási modell A polichotom logit modell esete A feltételes logit modell esete A vegyes modell alkalmazása A vegyes modell globális paraméterezése A Cox- regresszió: proportional hazards Függetlenség az irreleváns alternatíváktól Döntési fák Klasszifikációs és regressziós fák

4 A SOKASÁG A statisztika feladata a valóság vizsgált (társadalmi-gazdasági, pszichológiai, orvosi, mérnöki, stb. vonatkozású) jelenségeinek tömör, számértékekkel való jellemzése. Ennek során minél kevesebb adathordozóba sőrítjük a rendelkezésre álló információ minél nagyobb hányadát, hogy a vizsgált jelenség áttekinthetıvé, kezelhetıbbé váljon. Ha az információ tömörítése csekély veszteséggel jár, akkor a jelenségben rejlı tendenciákra megbízhatóan tudunk következtetni. A tömörség, az egyértelmőség és az összehasonlíthatóság alapját a számértékek teremtik meg. A statisztikai alapú elemzés elsı mozzanata tehát a valóság számokra való leképezése, amit operacionalizálásnak nevezünk. A számszerő jellemzés kiindulópontja az információ megszerzése. Ezt megfigyelés és mérés útján érjük el, melyek két kérdést vetnek fel. Egyrészt, hogy kikre vonatkozik a vizsgálat, másrészt, hogy mely tulajdonságaik érdekesek számunkra. Azon egyedeket akikre megfigyelésünk irányul, megfigyelési egységeknek, azokat a vizsgálati szempontokat pedig, amelyek tekintetében a megfigyelési egységek más-más sajátossággal, változattal bírnak, változóknak, másképpen ismérveknek nevezzük. A megfigyelési egységek összessége statisztikai sokaságot alkot. A megfigyelés eredményeképpen derül ki, hogy egy kérdéses egyed az adott szempont szerint milyen konkrét sajátosságot mutat. Ezt a megfigyelés kimenetelének nevezzük. Az ismérv tehát azon lehetséges kimenetelek együttese, amelyek valamelyike (és csak egyike) a kérdéses szempont tekintetében adott egyedhez egyértelmően hozzárendelhetı. Az ismérv lehetséges változatainak rendezett felsorolását az ismérv skálájának nevezzük. Ha az ismérvváltozatok egymásutániságának tárgyi tartalma van (pl. idıbeli, vagy másképpen ordinális), akkor az ennek megfelelı elrendezésük kézenfekvı. A skála lehet adottság, de magunk is definiálhatunk skálákat. Statisztikai értelemben a mérés nem jelent mást, mint egy megfigyelési egységhez hozzárendelni a kérdéses ismérv skálájának a megfelelı elemét. Jelölje a továbbiakban x az érdeklıdésünk homlokterében álló változót. Ekkor x tekintetében az i egyedre vonatkozó mérés eredményét x i azonosítja. Mennyiségi jellegő ismérv skáláját ismérvértékek, nem mennyiségi jellegő változó skáláját pedig kategóriák alkotják. Mennyiségi változók között megkülönböztetünk folytonos, és diszkrét változókat. A folytonos változók a számegyenes egy meghatározott intervallumán bármely értéket fölvehetnek, míg a diszkrét változók lehetséges kimenetelei fölsorolhatók. ermészetesen folytonos mennyiségi változók kimenetelei szegmentálhatók, és diszkrét mennyiségi ismérvek változatai is definiálhatnak kategóriákat. A statisztikai ismérvek egy speciális esetét az ún. alternatív, binomiális ismérvek képezik, amelyeknek két, és csak két kimenetele lehetséges. Ilyen pl. a nem szerinti hovatartozás, mely szerint valaki vagy férfi, vagy nı. Az alternatív ismérv fogalmához nevezetes, a csak 0 és értékekbıl álló mérési skála kötıdik: ha ugyanis az alternatív ismérv egyik kimenetelét 0 azonosítja, akkor a másik kimenetelt az egyértelmően meghatározza. A (0,) értékő bináris változókat dummy, másképpen indikátor változóknak nevezzük. Attól függıen, hogy egy mérési skála a sokaság milyen mélységő elemzését teszi lehetıvé, a mérési skálák az alábbiak szerint osztályozhatók, hierarchizálhatók. Nominális skála: nem mennyiségi kategóriákból álló skála, ahol a kategóriák egymáshoz való helyzetének a megváltoztatása nincs hatással a sokaság jellemzıire. A megyéket pl. bármilyen sorrendben felsorolhatjuk, ezért kézenfekvı a semleges, de a keresést meggyorsító betőrendi sorrend alkalmazása. Ordinális skála: olyan mérési skála, amelynek lehetséges változatai a skálán fölsorolt sokaságot nem csupán tagolják, hanem az egyes részekhez való tartozástól függıen rangsorolják is. Az ordinális skála változatainak a sorrendisége kötött. Egy futballmérkızés lehetséges kimenetelei vereség, döntetlen, gyızelem - ordinális skálát alkotnak. Intervallum skála: mennyiségi skála, amelynek a zéruspontja nem rögzített, és így csak az egyes ismérvértékek egymástól való távolsága informatív. Ilyenek pl. a hımérséklet mérésére szolgáló skálák. Arány skála: a legmagasabb szintő mennyiségi skála, amelynek már a zéruspontja rögzített, tehát az egyes ismérvértékek egymáshoz való arányának is információtartalma van. Arányskálán mérjük pl. a gazdasági vállalkozások értékesítésbıl származó nettó árbevételét, tárgyi eszközeik értékét, adófizetési kötelezettségüket, vagy a kifizetett osztalék mértékét. Annál magasabb szintő egy mérési skála a hierarchiában, minél több elemzési lehetıséget rejt magában. A magasabb szintő skálák tartalmazzák az alacsonyabb szintőek által nyújtott elemzési lehetıségeket. Így az intervallum és arányskála eleve ordinalitást hordoz magában, s így a sokaságot nem csupán tagolja, hanem egyben rangsorolja is. A mérési skála a sokaságot egymást át nem fedı, diszjunkt részekre bontja. E részsokaságok valamely számszerő jellemzıinek a skála mentén történı fölsorolása statisztikai sort alkot. A statisztikai sorok típusai a skála jellegéhez kötıdnek. Beszélhetünk területi, idıbeli, mennyiségi és egyéb nominális sorokól. A nominális sorok valamilyen kategóriához való tartozást fejeznek ki. 4

5 . AZ ADABÁZIS Az adatbázis a vizsgált jelenségrıl rendelkezésre álló információk, mérési eredmények összessége, adott formátumú felsorolása, azok elengedhetetlen azonosító, és megkülönböztetı jegyeivel egyetemben. Az adatbázis alapvetıen keresztmetszeti, vagy idısoros lehet. Valamely sokaság valamennyi megfigyelési egységét ugyanazon változók tekintetében jellemzı, ugyanarra az idıszakra (eszmei idıpontra) vonatkozó mérési eredmények keresztmetszeti adatbázist alkotnak. Ezzel szemben az idısoros adatbázis egy kiragadott megfigyelési egység jellemzésére szolgáló változóknak, a vizsgált egyedet különbözı idıpontokban jellemzı értékeinek az idırendi felsorolása. Az olyan adatállományt, mely mind keresztmetszeti, mind idırendi felsorolást tartalmaz, panel típusú, vagy longitudinális adatállománynak nevezzük. A többváltozós statisztikai módszerek tipikus adatállománya keresztmetszeti jellegő, melyre egy példát az alábbi tábla közöl.. tábla Adóellenırzéshez kiválasztott 995 vállalkozás néhány, 00#. évi mérleg- és eredményadatai Cég árgyi eszközök Nettó árbevétel Adózott eredmény Fizetett osztalék Fizetett adó Kiszabott bírság Alk. létszám ezer forint fı C C C C C C C C C C Nem mennyiségi jellegő változók is kifejezhetık számértékekkel, ún. dummy változók megfelelı rendszerének a segítségével, a következık szerint. A kategóriák egyikét ún. referencia csoportként rögzítjük, az összes többi kategóriát pedig olyan dummy változókként kezeljük, melyek megfigyelési egységenként attól függıen veszik fel az vagy 0 értéket, hogy az adott megfigyelési egység esetében az illetı kategória bekövetkezett-e a mérés során, vagy nem. Például, ha gazdasági társaságok a mőködési formájuk szerint a betéti társaság (Bt), korlátolt felelısségő társaság (Kft) és részvénytársaság (Rt) formák valamelyikéhez tartoznak, miközben a Bt a referencia csoport, akkor két nevezetesen a Kft és az Rt dummy változók 0 vagy értékei egyértelmően meghatározzák a társasági formához való tartozást:. tábla ársasági formák kategóriái ársasági forma Kft Rt Betéti társaság 0 0 Korlátolt felelısségő társaság 0 Részvénytársaság 0 Az egyes kategóriák együttes bekövetkezésének gyakoriságát közlı adatbázist jelent a dummy változók egy speciális rendszere, az indikátor mátrix. Az indikátor mátrix sorait az egyes megfigyelési egységek, oszlopait pedig valamennyi változó valamennyi lehetséges kimenetelei alkotják. A mátrixban jelzi, hogy az adott sor megfigyelési egysége adott változó melyik (és csak egy) változatához tartozik, egyébként a mátrix 0 elemeket tartalmaz. A mátrix sorösszegei tehát egyenlık egymással és a változók számával, oszlopösszegei pedig az egyes kategóriák elıfordulási gyakoriságaival. A társasági forma mellett bevezetve a nyereséges () vagy veszteséges (0) megkülönböztetést is, az indikátor mátrix struktúrája az alábbi:.3 tábla Gazdasági társaságok indikátor mátrixa Cég Bt Kft Rt Nyereséges Veszteséges C C C C C C C C C C Információ tömörítésre nyílik lehetıségünk, ha lemondunk a kategóriák cégekhez kötésérıl, és csak a kategóriák együttes bekövetkezésének a gyakoriságát vizsgáljuk. Ezt az információt a gyakorisági, vagy másképpen kontingencia tábla tartalmazza. A gazdasági társaságok kontingencia táblája az következı: 5

6 .4 tábla Gazdasági társaságok kontingencia táblája Eredméy ársasági forma Összesen Bt Kft Rt Nyereséges Veszteséges Összesen Ha a kontingencia táblát valódi kategóriák alapján képezzük, akkor az információ tömörítése során föllépı veszteség forrása csupán a megfigyelési egységek anonimmá válása, hiszen ilyenkor az adott kategória minden vonatkozó egyede egyforma. Ha a kategóriák mennyiségi változók intervallumai, akkor azt az információt is elveszítjük, hogy intervallumon belül mennyire különböztek az egyedek. Nyilvánvaló, hogy az indikátor mátrix mindig tömöríthetı kontingencia táblába, és a kontingencia tábla is indikátor mátrixszá formálható.. MŐVELEEK SOKASÁGOKKAL A sokaságot mindenekelıtt mérete jellemzi. A sokaság mérete alatt érthetjük egyrészt elemeinek N számosságát, másrészt az egyedeire összessített valamely mennyiségi jellemzıt. A sokaság méretének az ismeretében - további tulajdonságai feltárásában az alábbi mőveletek segítenek. A megfigyelési egységek rangsorolása Egyetlen változó esetében a rangsorolás nem ütközik nehézségbe. Városok poros voltát összehasonlítandó, a szálló por fajlagos tartalma és az ülepedı por fajlagos tartalma tekintetében külön-külön rangsorolva azonban már különböznek a rangsorok. Ha tehát a városokat általában a portartalom szerint kívánjuk rangsorolni, akkor ez a feladat már nem egyértelmő. A rangsorolás végeredménye mindig egy speciális statisztikai sor, a rangsor. A sokaság csoportosítása Ha az x változó tekintetében heterogén sokaságon belül homogén csoportok, részsokaságok vannak, illetve sejthetık, akkor érdemes a sokaságon belül e részeket egymástól elkülöníteni. A csoportosítással szemben az alábbi követelményeket támasztjuk. Átfedésmentesség: egy megfigyelési egység x tekintetében csak egyetlen csoporthoz tartozzon. eljesség, egyértelmőség: a sokaságnak minden egyes eleme egyértelmően besorolható legyen az elıre definiált csoportok valamelyikébe. Homogenitás: a kialakult csoportok x tekintetében legyenek minél homogénebbek, a csoportok viszont minél markánsabban különbözzenek egymástól. A csoportosítás egyszerre szolgálja a sokaság struktúrájának a kirajzolódását, és adatredukciós igényünket. Minél homogénebbek ugyanis a csoportok, annál kisebb veszteséget szenvedünk el azáltal, hogy az egyedi adatok felsorolása helyett csupán az egyes csoportok jellegzetességeit, és a megfelelı csoporthoz tartozás tényét közöljük. Kategória változatok esetén adott kategória a saját szempontjából természetszerőleg homogén csoportokat definiál. Nem ez a helyzet akkor, ha a csoportosító ismérv folytonos mennyiségi, vagy nagyon sokféle kimenetellel bíró diszkrét mennyiségi változó. Ez esetben a csoportok definiálása ugyanis a skála megfelelı intervallumokra, osztályokra bontását jelenti, ami szubjektív. Rövid osztályok homogén, hosszú osztályok várhatóan heterogén csoportokat eredményeznek. A túl rövid intervallumok kialakítása a csoportok számát növeli, és így a sokaság áttekinthetıvé tételét nem szolgálja. Osztályközök képzése esetén x kategóriáit az osztályközök jelentik. A csoportok mellett a számosságukat felsorolva gyakorisági sort hozunk létre. A sokaságot egyidejőleg kettı, vagy kettınél több ismérv alapján csoportosítva, majd a különféle kategóriák együttes bekövetkezési gyakoriságait táblába foglalva jutunk el a gyakorisági (kontingencia) táblához, melyet a korábbiakban már tárgyaltunk. Sokaságok összehasonlítása. Sokaságok számszerő jellemzıinek az összehasonlítása abszolút és relatív módon történhet. Az A és B jellemzık abszolút jellegő összehasonlítása az A-B különbségük, relatív jellegő összevetésük pedig az A/B arányuk képzésén alapul, ha ezeknek van tárgyi értelme. A V=A/B hányadost viszonyszámnak nevezzük, amelyben A a viszonyítandó, B pedig a viszonyítás alapjának a szerepét tölti be. A viszonyszámok között - az elemzési cél tekintetében - szokás megkülönböztetni a sokaság strukturáját leíró (a résznek az egészhez való viszonyát kifejezı) megoszlási viszonyszámot, a sokaságok idıbeli összehasonlítását szolgáló dinamikus viszonyszámot, és az intenzitási viszonyszámot. Ez utóbbi azt mutatja meg, hogy valamely sokaság egy egyedére egy másik sokaságból hány egyed jut. Mintavétel a sokaságból. Amennyiben a sokaság egészét nem tudjuk, vagy nem akarjuk megfigyelni, de az egészére szeretnénk valamilyen következtetést levonni, úgy kénytelenek vagyunk ezt a sokaságnak egy alkalmasan kiválasztott része, az ún. minta alapján megtenni. A mintavétel végrehajtása lehet véletlenszerő és nem véletlenszerő, visszatevéses, vagy visszatevés nélküli. A mintavételt akkor tekintjük véletlen jellegőnek, ha még a mintavételt megelızıen rögzítjük az egyes sokasági egyedek mintába Például a hazai benzinkutak teljes éves forgalma akár literben, akár forintban. A különbségképzés elengedhetetlen feltétele, hogy A és B azonos mértékegységű legyen. 6

7 kerülésének a valószínőségét. Visszatevéses mintavételkor valamely sokasági érték nem csak egyszer, hanem többször is kiválasztásra kerülhet, s így súlyozottan szerepelhet a mintában. A sokaság csonkolása, nyesése Ha a sokaság valamely egyedei a vizsgált változó(k) tekintetében extrém (kiugróan alacsony vagy magas) értékkel bírnak, úgy ezek az értékek a sokaság egészérıl kialakított általános képet torzítják, így elhagyásuk az elemzésbıl kézenfekvı. Elırejelzés A sokaság egyedeinek az értékét - elırejelzési, vagy adatredukciós céllal - helyettesíthetjük is. Ha már ismert, realizálódott értéket cserélünk ki egy másikra, akkor ex post elırejelzésrıl, ha pedig még nem ismert értéket rendelünk egy egyedhez, akkor ex ante elırejelzésrıl, másképpen prognózisról beszélünk..3 CENRÁLIS ENDENCIA ÉS VARIANCIA Reprezentálja a sokaság i sorszámú (i=,,...,n) egyedét az x változóban realizálódott megfigyelés x i értéke. A sokaság egyedei a kérdéses ismérvben különböznek egymástól, másszóval szóródnak. Feladatunk a szóródásban rejlı tendenciák, és az azokat kiváltó okok feltárása. Kérdés, hogy az egyedek mint pontok milyen centrum körül, milyen mértékben, és milyen típusú valószínőségi (gyakorisági) eloszlás mentén szóródnak. A szóródás tényét az egyedeknek egymástól, vagy egy kitüntetett egyedtıl mért távolságában, illetve hasonlóságában ragadhatjuk meg. A szóródás centrumát a centrális tendencia alakítja, miszerint az egyedek túlnyomó többsége egy tipikus egyed körül tömörül. A szóródás e centrumát centroidnak nevezzük, melyet valamely középérték definiál. Kétféle középértéket különböztetünk meg: helyzeti középértéket, és átlagot. Míg az elıbbiek a rangsorolt sokaságon belül elfoglalt helyük alapján közepesek, addig az átlagok számított értéke az ismérv skáláján alkot középpontot. A helyzeti középértékek a medián, és a módusz. A mediánt azon egyed kimenetele reprezentálja az x ordinális változó tekintetében, amely két, közel egyenlı részarányú alsó és felsı szegmensre bontja a sokaságot. Folytonos mennyiségi változó esetében ezt az értéket az x (0.5) rendő kvantilis közelíti. A módusz ezzel szemben az ismérv skáláján a leggyakrabban elıforduló kimenetel. A módusz tehát nominális skálán is értelmezett, de nem mindig létezik, nem mindig egyértelmő, és inkább kategóriaként mintsem pontszerő értékként van statisztikai tartalma. Az x változó számtani átlaga az N elemő sokaságban az az x szám, amellyel a sokaság valamennyi egyedének az értékét helyettesítve, azok összege nem változik meg: N xi N i = x =. A továbbiakban az átlagos megfigyelési egység reprezentálja a sokaság centroidját. A számtani átlagtól vett di = xi x eltéréseket képezve, azok algebrai összege zérus. Az átlagtól mért eltéréseket tartalmazó, és ezáltal zérus átlagúvá transzformált d i változót centrált változónak nevezzük. Ha a és b megfigyelésrıl megfigyelésre nem szóródó konstansok, akkor az y i =a+bx i transzformált változó átlaga: y = a + bx. Az egyedi értékek r. hatványának a számtani átlaga az r-ed rendő (vagy r-edik) momentumot eredményezi: N r xi i = M r N = ahol r=,, Speciálisan, a másodrendő momentum jelölése: 3 N N i i x N x = q q i= N =. i= Az átlag körüli szóródás alapvetı, egyváltozós mértéke a variancia, mely a centrált változó másodrendő momentuma: 4 Var( x) = σ = ( x x) = q x. N x i x N i = A variancia sohasem negatív, és csak akkor zérus, ha a sokaság minden egyede ugyanakkora értéket vesz fel az x változóban. A variancia invariáns az egyedi értékek ugyanazon konstanssal való növelésére (csökkentésére), viszont érzékeny azok konstanssal való szorzására. etszıleges a tengelymetszet és b meredekség mellett az y i =a+bx i megfigyelések varianciája: Var( y) = Var( a + bx) = b Var( x). A variancia pozitív négyzetgyöke a szórás (az angol nyelvő terminológiában standard deviation ): σ = Var( x). x 3 Megjegyezzük, hogy a másodrendű momentum pozitív gyöke az ún. négyzetes, vagy kvadratikus átlag. 4 A Var(x) és σ x jelöléseket ekvivalens módon használjuk, megválasztásuk a formulák könnyebb áttekintését szolgálja. 7

8 A zérus átlagúvá, és egységnyi varianciájúvá transzformált x x xɶ = (.) σ x változót standardizált változónak nevezzük. Dummy változót illetıen, ha az N elemő sokaságban K számú és (N-K) számú 0 egyed van, akkor az elemek részaránya P=K/N, és ez a dummy változó P +(-P) 0=P átlaga. A dummy változó varianciája: Var(0,) = P P = P( P). Mértékegységtıl független szóródási mutató a relatív szórás (coefficient of variation), mely a szórást a számtani átlag százalékában fejezi ki, ha az nem nulla. Ha a sokaságból n elemő mintát veszünk és a mintabeli szórás értékébıl következtetni akarunk a sokaság egyébként ismeretlen szórására, akkor a torzítatlan következtetés érdekében ún. korrigált szórást számolunk, az alábbi módon: s = x x n ( i ) (.) n i= ahol s a korrigált szórás konvencionális jelölése. 5 A nevezıbeni (n-) korrekció csak kicsiny mintaelemszám mellett okoz jelentıs számszaki eltérést..4 A SOKASÁG ELOSZLÁSA A végtelen sokaság egyedei értelemszerően nem sorolhatók fel teljeskörően, ezért valamely x jellemzıjének kimenetelei megfigyelésrıl megfigyelésre bıvülnek, véletlenszerően alakulnak. Végtelen sok megfigyelést végezhetünk adott típusú izzó teljes élettartamát, vagy biztonsági övek be-, illetve be nem kapcsolt voltát vizsgálva. Az ilyen esetekben x véletlen változó, és valószínőség eloszlását annak megfelelıen definiáljuk, hogy folytonos, vagy diszkrét jellegő. 6 A folytonos véletlen változót az eloszlásfüggvényével definiáljuk, ami azon esemény valószínőségét mondja meg, hogy a változó realizálódott értéke kisebb lesz egy elıre rögzített x 0 értéknél: F(x 0) = Pr(x<x 0), ahol F(.) monoton, 0 F(.), F(- )=0 és F( )=. Az eloszlásfüggvényt általánosságban az.. ábra szemlélteti.. ábra Az eloszlásfüggvény F(x) 0 x Az eloszlásfüggvény x szerinti deriváltja az ún. sőrőségfüggvényt nyújtja, melynek jelölése: f(x)=f (x). Definíciójából adódóan: 0 x0 =. F( x ) f ( x) dx Geometriai inerpretációt illetıen az eloszlásfüggvény értéke a sőrőségfüggvény alatti megfelelı területet jelenti. A sőrőségfüggvény alatti teljes terület egységnyi: f ( x) dx =. Legyen most az x változó diszkrét kimenető, vagyis x=k, ahol k=0,,,...integer. Ekkor x eloszlását a Pr(x=k) valószínőséggel definiáljuk. Követelményünk szerint 5 A torzítatlanság fogalmát, és általában a mintából történő következtetés elméletét lásd Hunyadi(00). 6 Jelen könyv a valószínűségelméleti fogalmakat csak olyan mélységben és terjedelemben tárgyalja, ami egyéb témakörök megértéséhez elengedhetetlen. 8

9 Pr( x = k) =. Végtelen sokaság esetén az átlagos érték megfelelıje a várható érték, mely definíció szerint folytonos esetben, és k = 0 E( x) = x f ( x) dx E( x) = k Pr( x = k) k = 0 diszkrét x változó esetén. A variancia ennek megfelelıen a várható értéktıl vett eltérések négyzeteinek a várható értéke. Folytonos esetben például: ( ) Var( x) = x E( x) f ( x) dx. A diszkrét eset ennek analógiája. Végtelen sokaság esetén a momentum is várható értékként, mégpedig a változó x r hatványának E(x r ) várható értékeként értelmezendı. A gyakorisági (valószínőségi) eloszlás tendenciájának árnyalt jellemzését szolgálják az x változó kitüntetett értékei, a kvantilisek. ekintsük a diszkrét x változó x x... xr... xk ordinális skáláját, melyen az x r referencia kategória a skálát két -egy alsó, és egy felsı - szegmensre bontja úgy, hogy megállapodás szerint a referencia kategóriát is az alsó szegmenshez soroljuk. Ekkor a skála a sokaságot magát is egy alsó és egy felsı szegmensre hasítja szét aszerint, hogy ki tartozik az alsó, és ki a felsı szegmens kategóriáihoz: xa x f. Jelölje az alsó szegmens részarányát a sokaságon belül p (0<p<), a felsıét pedig (-p). Ekkor a referencia kategória x r értékét p-ed rendő kvantilisnek nevezzük, mert a rendezett sokaságot p:(-p) arányban bontja ketté, és amelynek jelölése ezért: x (p ). A folytonos mennyiségi ismérvek skáláján kitüntetett rendő kvantilis értékeket keresünk azért, hogy a mérési skálán értelemszerően sorbarendezett sokaságot nevezetes arányban bontsuk két részre. Nevezetes rendő kvantiliseket az /p =, 3, 4, 5, 0, 00 esetekben kapunk. Ezek nevei rendre: medián, tercilis, kvartilis, kvintilis, decilis, percentilis. Például x (0.95) a 95. percentilis, amelyre teljesül, hogy sokaság 95 százaléka az alsó, a maradék 5% pedig a felsı szegmens eleme. Míg a diszkrét sokaság valamely egyedének x értékérıl mindig meg tudjuk mondani, hogy milyen rendő kvantilisnek felel meg, addig egy elıre rögzített p rendhez nem mindig rendelhetı hozzá a sokaság valamelyik konkrét egyedének az értéke. Látható tehát, hogy ha a kérdéses kvantilis értékének a meghatározásakor egy, az elemeinek a felsorolásával megadott sokaságra kell hagyatkoznunk, akkor a kvantilis meghatározása nem egyértelmő. A kvantilisek paraméteres matematikai eloszlások fontos jellemzıi, mert értékük rögzített eloszlástípus mellett numerikus integrálással egyértelmően meghatározható. A valószínőségelmélet számos nevezetes eloszlástípust ismer. Ezek közül most csak azokat definiáljuk, melyeket a késıbbiekben használunk, vagy amelyek más eloszlások származtatásának az alapjául szolgálnak. Az alábbiakban tárgyalt folytonos eloszlások kiragadott kvantilis értékeit táblázatok tartalmazzák.. Normális eloszlás. Gamma-eloszlás 3. Chi-négyzet eloszlás 4. Exponenciális eloszlás 5. Weibull eloszlás 6. Béta-eloszlás 7. Student-eloszlás 8. F-eloszlás 9. Binomiális eloszlás 0. Poisson-eloszlás. Probability plot 9

10 . SOKASÁG ÉS MINA ekintsünk egy véges x,...,x N, vagy egy végtelen, az f(x θ,...,θ q )=f(x θ) sőrőségfüggvénnyel definiált sokaságot, melyben az x változó valamely θ jellemzıje (paramétere) ismeretlen, de döntésünk ennek vélt ismeretén alapszik. Ekkor a végtelen sokaság teljes megfigyelése lehetetlen, a véges sokaság teljeskörő megfigyelése pedig esetenként ésszerőtlen: például költséges, vagy egy termék megsemmisülésével jár. Ilyenkor a sokaságból mintát veszünk, és a minta alapján következtetünk a sokaság egészére. A mintából történı következtetés exploratív formája a becslés, konfirmatív formája pedig a hipotézisek tesztelése. A becslést akkor alkalmazzuk, mikor semmilyen ismeretünk nincs a sokaság jellemzıjérıl, ezért a minta ismeretében közelítjük annak értékét. A hipotézisben viszont valamilyen elızetes elképzelésünk fogalmazódik meg a sokaság adott jellemzıjével kapcsolatban, és ilyenkor a mintát szembesítjük az elképzelésünkkel. A minta alapján csupán döntést hozunk, de meg nem bizonyosodhatunk. Mintának nevezzük a sokaság azon kitüntetett egységeit, melyekre a megfigyelésünk kiterjed. A minta mindig véges, elemszáma n, és elemei rendre: x,x,...,x n. A mintavétel részlegessége (nem teljes körő volta) miatt a következtetések mintevételi hibát hordoznak. Ha a hibázás valószínőségét kontrollálni akarjuk, akkor a mintát véletlen módon kell kiválasztanunk. Véletlen jellegő a mintavétel, ha a sokaság bármely egyede ismert valószínőséggel kerülhet be a mintába. Ekkor az x i mintaelem (i=,,...,n) mintavételi ingadozásnak van kitéve, vagyis mintavételi véletlen változó. Ha a mintaelemeket egymástól függetlenül választjuk ki, akkor a mintaelemek független véletlen változók, és valószínőségi eloszlásuk megegyezik a sokaság eloszlásával. Az ilyen típusú mintát független, azonos eloszlású (FAE) mintának nevezzük. Ha például a sokaság normális eloszlású µ várható értékkel, és σ varianciával, vagyis x~n(µ,σ ), és x,x,...,x n. FAE minta, akkor valamennyi mintaelem ugyanilyen normális eloszlású: x i ~N(µ,σ ), ahol i=,...,n. A θ paraméterre vonatkozó mintából történı következtetés eszköze mindenkor a mintaelemek valamely θ ˆ ( x ˆ ˆ, x,.., x n ) = θ n = θ transzformációja, amely leképezést statisztikának nevezzük. Ilyen statisztikák például a mintabeli átlag, variancia, részarány, vagy egyéb más, komplikáltabb formulák. A mintavételi hiba nagyságának behatárolása érdekében a statisztikák mintavételi eloszlásának jellemzıit (típusát, várható értékét, és varianciáját) ismernünk kell. Mintavételi eloszlás alatt a kérdéses ˆθ statisztikának minden létezı mintán szóródó eloszlását értjük. A mintavételi várha- ˆ Var θ ˆ. A mintavételi variancia pozitív gyökét, a mintavételi szó- tó érték jelölése E ( θ ), a mintavételi varianciájé pedig ( ) rást standard hibának (Standard Error) nevezzük, melynek jelölése SE ( θ ˆ ).. SAISZIKAI BECSLÉSEK Valamely ismeretlen θ sokasági paraméter értékének közelítı meghatározását becslésnek nevezzük. Ennek eszköze a becslıfüggvény, mely egy alkalmasan megválasztott ˆθ statisztika. A becslıfüggvény mintavételi változó, mely pontbecslést nyújt az ismeretlen paraméterre. A becslés megbízhatósága azon múlik, hogy mintavételrıl mintavételre haladva a becslıfüggvény milyen centrum körül, és milyen mértékben szóródik. Intuitíve is látható, hogy ez nagymértékben függ a minta elemszámától, továbbá attól is, hogy a sokaság maga milyen centrum körül, és mennyire szóródik... BECSLÉSI KRIÉRIUMOK ÉS MÓDSZEREK Alapvetı követelmény, hogy a becslıfüggvény mintavételi varianciája a lehetı legkisebb legyen. Nézzük, hogy milyen tényezık befolyásolják ezt a varianciát. Jelölje ε = θˆ θ a pontbecslés eltérését a paraméter valódi értékétıl (tehát a hibát), Q=ε pedig a hiba négyzetét. Ekkor a pontbecslés mintavételi varianciája megegyezik a hiba varianciájával, mely a variancia momentum felbontása alapján az alábbi formában is írható: 7 ˆ ˆ ˆ Var( θ ) = Var( θ θ ) = Var( ε ) = q ε = MSE( θ) Bias ( θ ˆ) ahol MSE (mean square error) az átlagos négyzetes hiba, Bias pedig az átlagos hiba, melynek elıjeles értéke a becslés torzításának a mértékét és irányát mutatja. A fentiek fényében a becslıfüggvény (ceteris paribus): 7 A variancia invariáns változójának konstanssal való eltolására. 0

11 . orzítatlan, ha a torzítás mértéke zéró: ekkor az átlagos hiba zéró, a becslıfüggvény várható értéke pedig megegyezik a paraméterrel, és a mintavételi variancia megegyezik az átlagos négyzetes hibával,. Aszimptotikusan torzítatlan, ha a mintaelemszám növelésével a torzítás mértéke zérushoz tart, 3. Konzisztens, ha a mintaelemszám növelésével a MSE zérushoz tart, 4. Leghatásosabb, ha torzítatlan becslıfüggvények körében legkisebb a varianciája. orzított becslıfüggvények között nem mindig készíthetı egyértelmő hatásossági rangsor a MSE alapján, mivel az átlagos négyzetes hiba függvénye lehet az ismeretlen, becsülendı paraméternek is. Adott θ paraméter pontbecslésére több, különféle tulajdonságú becslıfüggvény is szóba jöhet. A variancia pontbecslésére használhatjuk például a klasszikus (nem korrigált) mintabeli varianciát is. Közülük azt preferáljuk, amelyik leginkább eleget tesz a pontbecsléssel szemben támasztható ésszerő követelményeknek, becslési kritériumoknak. A becslıfüggvény formulája némely esetben intuitív módon kínálkozik. Ha a becsülendı paraméter tárgyi (statisztikai) tartalommal bír, akkor kézenfekvı a mintabeli analógiáját használni pontbecslésként. Az analógia módszerére példa a mintaátlag, vagy a mintabeli variancia. A becslıfüggvény formulájának a meghatározása azonban nem mindig kézenfekvı, ilyenkor valamilyen algoritmus szolgáltat becslıfüggvényt. Elıre rögzítjük a becslıfüggvénnyel szembeni elvárásunkat, majd meghatározzuk azt a formulát mely eleget tesz ezen követelménynek. A becslıfüggvény meghatározására irányuló módszereket becslési módszereknek nevezzük. A sokaság θ,θ,...,θ p paramétereinek a pontbecslésére szolgáló nevezetes becslési módszerek az alábbiak. Legkisebb négyzetek (LKN) módszere: a becslésbıl eredı, mintán belül tapasztalt hibák négyzetösszege minimális legyen: n ( x ˆ ˆ ˆ i xi p ) ( Errori ) n ˆ ( θ, θ,..., θ ) = min. i= i= Itt az ˆx függvény olyan elırejelzési szabály, mely nem föltétlenül igényli nevezetes eloszlás ismeretét. Momentumok módszere: Adott típusú eloszlás becsült paramétereivel kalkulálva, valamely momentum egyezzen meg a mintán belüli megfelelı rendő empirikus momentum értékével: n r ˆ ˆ ˆ xi = mr ( θ, θ,..., θ p ) ( r =,,..., p) n i = ahol E(x r )=m r (θ,θ,...,θ p ). Ez a módszer tehát ismert eloszlás paramétereinek a becslésére szolgál, és az m r függvény fejezi ki az r. rendő momentum, és a sokasági paraméterek kapcsolatát. A becslés praktikusan egy egyenletrendszer megoldását jelenti, melynek annyi egyenlete van, ahány becsülendı paraméter. Maximum likelihood (ML) módszer: Ha a minta együttes bekövetkezésének az esélyét (likelihoodját) a becslésünk értéke befolyásolja, akkor válasszuk azt a becslést, amely mellett a mintaelemek együttes realizációjának a likelihoodja maximális: L θˆ, θˆ,..., θˆ max. (.) ( p ) minta Ha az x i mintaelemek egymástól független véletlen változók, akkor az együttes minta likelihoodja a mintaelemek egyedi likelihoodjainak a szorzataként áll elı: L n ( ˆ ˆ ˆ ) ( ˆ ˆ ˆ p L xi p ) θ, θ,..., θ =, θ, θ,..., θ max. (.) minta i= A maximum likelihood módszer eloszlásfüggı eljárás, hiszen a likelihood értékének a kalkulálása konkrét valószínőségi eloszlást igényel. A következıkben a likelihooddal kapcsolatos kategóriákat tovább tárgyaljuk.. Példa Határozzuk meg az x változó sokasági átlagának becslıfüggvényét az LKN módszerrel úgy, hogy a becslés négyzetes távolsága a mintaelemektıl összességében (SS: sum of squares) minimális legyen: n i= ( x ˆ ) i SS = θ min. Deriválással: n SS = ( x ˆ i ) 0 ˆ θ = θ i= amibıl a számtani átlag definíciója szerint becslésként a mintaátlag adódik: θ ˆ =.. Példa ekintsük az x~n(µ,σ rögzített) normális eloszlás µ paraméterének becslését a ML módszerrel, és n= elemő minta, vagyis az x mintaelem alapján. Ekkor a mintaelem egyedi likelihoodja: x n

12 x µ σ L( x ) = e max. πσ Ez nyilvánvalóan akkor maximális, ha az exponenciálisban szereplı kifejezés zéró, tehát µ ˆ = x. Ha a mintavételt kiterjesztjük n elemőre, akkor a minta együttes likelihoodja (a maximálás szempontjából érdektelen konstans tag elhagyásával): n ( x ) i= i µ σ L( x ) L( x )... L( xn ) e max. Ez pedig akkor maximális, ha az exponenciálisban szereplı négyzetösszeg minimális. Vagyis ebben az esetben a ML módszer a LKN módszerre vezethetı. A négyzetösszeg pedig akkor minimális, mikor a µ paraméter becslése a mintaátlag: µ ˆ = x. n.. INERVALLUMBECSLÉS A becslés megbízhatóságának a javítása érdekében érdemes a pontszerő becslést egy minél szőkebb, de magas megbízhatóságú ún konfidencia intervalummá bıvíteni, mely magas, -α megbízhatósággal lefedi az ismeretlen θ paramétert: Pr θ ˆ < θ < θ ˆ = α ( a f ) ahol θ ˆ a és θ ˆ f a konfidencia intervallum alsó és felsı határa, α (alacsony) értéke pedig az alulbecslés, illetve a fölülbecslés kockázatának az (elızetesen rögzített) összege. Ez utóbbi két kockázatot (ha egyéb szempont mást nem indokol) egyenlı arányban osztjuk meg. A kockázatok rögzített értékének birtokában ismernünk kell a becslıfüggvény eloszlását, hogy kalkulálhassuk a megfelelı kvantiliseit: Pr θ ˆ < θ < θ ˆ = α. ( ( α / ) ( α / ) ) A θ ˆ ( α / ) és θ ˆ ( α / ) kvantilisek numerikus integrálással határozandók meg. Az esetek többségében nem közvetlen a becslıfüggvény, hanem valamely ( θˆ θ ) = ˆ monoton transzformációjának az eloszlását ismerjük, melynek kvantilis értékei esetleg táblázatos formában is rendelkezésre állnak. Ezért a numerikus integrálást megkönnyítendı, a Pr ˆ < ˆ < ˆ = α. ( ( α / ) ( α / ) ) konfidencia tartomány határait keressük meg. Legyen ugyanakkor általában θ = ( ˆ θ ), és így az eredeti konfidencia tartomány alsó határát a ( ˆ ˆ f θ ) és ( ˆ ˆ a θ ) értékek közül a kisebbik, felsı határát pedig a nagyobbik érték adja. A konfidencia intervallum képzésének két nevezetes esete, mikor E ( θ ˆ ) = θ torzítatlan, normális eloszlású becslıfüggvényre képezzük úgy, hogy vagy ismert annak SE ( θˆ ) standard hibája, vagy kénytelenek vagyunk e standard hibát is a mintából, se( θ ˆ ) segítségével becsülni. Az ismert standard hibával standard normális eloszlásúvá transzformálva a becslıfüggvényt, az alábbi valószínőségi azonosságot tudjuk definiálni: melybıl a ˆ Pr θ θ zα / < < z α / = α SE ( θˆ ) α / ( ˆ ) ˆ θ = θ ˆ ± z SE θ (.3) szimmetrikus konfidencia tartomány adódik. Ha a standard hibát mintából kell becsülnünk, akkor a se(.) becsült standard hiba is mintavételi változó, melynek mintavételi eloszlása szükséges a konfidencia intervallum képzéséhez. együk fel, hogy a becsült, és a valódi standard hiba között a k-szabadsági fokú CHI-négyzet eloszlás egyértelmő kapcsolatot teremt, a következık szerint: se( ) SE ( ) Ez esetben a t-eloszlás definíciója alapján ( θ θˆ )/ se( ˆ ) θ k szabadsági fokú t k -eloszlású, és az alábbi valószínőségi azonosságát felírását teszi lehetıvé: ˆ ˆ χk θ = θ. k

13 Innen a konfidencia intervallum: θˆ θ ( ˆ θˆ θ SE θ) Pr t ( / ) < = < t ( / ) k α k = α. α se( θˆ ) χk k α / ( ˆ ) θ = θ ˆ ± t se θ. (.4). SAISZIKAI HIPOÉZISEK ESZELÉSE A statisztikai következtetések konfirmatív jellegő alkalmazása hipotézisek vizsgálatán alapul. Hipotéziseket fogalmazunk meg, mikor a sokaság jellemzıi ismeretlenek, további döntéseink viszont vélt ismeretükön alapulnak. A hipotézis szubjektív képünket vetíti a sokaságra, ezt a képet átmenetileg érvényesnek fogadjuk el, majd mintára támaszkodva döntésünk eredménye az állítás fönntartása, vagy elvetése. A hipotézisvizsgálat fogalmi rendszere, és a döntéshozás menete az alábbi. A hipotézisnek egy véletlen mintavétel eredményével való szembesítését a hipotézis tesztelésének nevezzük. Mivel a sokaság a tesztelés során ismeretlen marad, ezért hozhatunk helyes, de helytelen döntést is. Hibát követünk el egyrészt a hipotézis helytelen elvetésekor, illetve a hipotézis helytelen elfogadásakor. Alapvetı szempont a hibás döntés(ek) valószínőségének a minimálása. A hipotézisben verbálisan foglalt állítás statisztikai vizsgálata annak formalizálását igényli. A hipotézisben foglalt állítások a gyakorlatban a sokaság eloszlásának a jellemzıire - paramétereire, vagy az eloszlás típusára vonatkoznak. artalmi szempontból az igaznak vélt, vagy remélt állítást kutatási hipotézisként kezeljük. A mintavétel célja annak alátámasztása, hogy a kutatási hipotézis áll közelebb a valósághoz. A kutatási hipotézis elfogadását szigorítjuk úgy, hogy a tagadását jelentı állítást tekintjük kiindulásként érvényesnek, ettıl az állítástól pedig csak akkor állunk el, ha ezt a konkrét mintánk markánsan indokolja. A kutatási hipotézis komplementerét teszt hipotézisnek nevezzük, mert ezt tekintjük átmenetileg érvényesnek s ennek fenntarthatóságát vagy elvetését teszteljük a próba során. Értékkészletüket tekintve a statisztikailag tesztelhetı hipotézisek lehetnek egyszerőek és összetettek. Egyszerőnek nevezzük a hipotézist, ha egyetlen rögzített számszerő értékre, és összetettnek, ha számértékeknek valamely tartományára vonatkozik. A hipotézisvizsgálat végrehajtásakor a teszt hipotézisben foglalt állítások halmazából csak a kutatási hipotézisnek legkevésbé ellentmondót helyezzük szembe a kutatási hipotézissel, mert ha ezt sem tudjuk tovább fenntartani, akkor a méginkább ellentmondókat még kevésbé tarthatjuk fenn. Egyszerő teszt hipotézis triviálisan legkevésbé mond ellent a kutatási hipotézisnek. Összetett teszt hipotézis alkalmazásakor viszont úgy kell rögzíteni a kutatási hipotézist, hogy a teszt hipotézis állításai közül egyértelmően kiragadható legyen a kutatási hipotézisnek legkevésbé ellentmondó. A kutatási hipotézis érvénytelen voltát jelentı, annak legkevésbé ellentmondó egyszerő állítást null hipotézisnek, az alternatíváját képezı kutatási hipotézist pedig alternatív hipotézisnek nevezzük. A nullhipotézist H 0, az alternatív hipotézist pedig H jelöli. Összetett teszt hipotézis vizsgálatát mindenkor visszavezethetjük egyszerő teszt hipotézis tesztelésére úgy, hogy az alternatív hipotézissel szemben a null hipotézis fenntartását, vagy elvetését teszteljük. Összetett teszt hipotézis vizsgálatakor a null hipotézis fenntartása egyben a teszt hipotézis fenntartását, elvetése pedig annak elvetését is magában foglalja. Mint már említettük, véletlen minta alapján téves döntést is hozhatunk. A kutatási hipotézis elfogadását szigorítandó, kicsiny esélyt adunk a helyes teszt hipotézis elutasításának. A tesztelés során mindig a null hipotézist teszteljük az alternatív hipotézis ellenében. Helyes null hipotézis elvetésekor az un. I. fajú hibát, helytelen nullhipotézis fenntartásakor pedig a II. fajú hibát követjük el, egyébként pedig helyes döntést hozunk. Az I. fajú hiba elkövetésének α valószínőségét szignifikancia szintnek nevezzük, a II. fajú hiba elkövetésének a valószínőségét pedig β jelöli. A null hipotézis helyes elvetésének a valószínőségét a teszt erejének, míg a null hipotézis helyes fenntartásának a valószínőségét a teszt megbízhatósági szintjének nevezzük. A szignifikancia szintet még a mintavétel elıtt, alkalmasan megválasztott alacsony, pl. 5%-os szinten elıre rögzítjük. A szignifikancia szint változtatása lényegében a kutatási hipotézis elfogadásának a szigorítását, illetve lazítását teszi lehetıvé. A döntéshozás során állításunkat megerısítı, vagy annak ellentmondó információt a véletlen mintavétel nyújt. A lehetséges n elemő véletlen minták halmazán a null hipotézis helyessége esetén bizonyos összetételő minták bekövetkezése valószínőbb és e minták ugyanakkor nem mondanak ellent a null hipotézisnek, míg másoké kevésbé valószínő és ellent is mondanak a null hipotézisnek. A mintatér egy szegmense tehát kritikus a nullhipotézis realitása szempontjából. 3

14 Adott hipotézis mellett egy x,x,...,x n véletlen minta realizálódásának az esélyét a minta együttes likelihoodja számszerősíti. A H 0, vagy H feltétel melletti likelihood értékek azt mutatják, hogy az adott minta bekövetkezése a H 0, vagy a H szerinti valóság esetén, hihetıbb-e. Egyszerő hipotézisek feltételezése esetén a két feltételes likelihood: L(x,x,...,x n H 0) L(x,x,...,x n H ). Azon minták halmazát, melyek ellentmondanak a null hipotézisnek, és bekövetkezésük null hipotézis érvénye melletti L 0 esélye alacsony, a mintatér kritikus, K n tartományának nevezzük. Hipotézisünk fönntartását, vagy elvetését egyszerően arra alapozzuk, hogy a konkrét minta eleme-e ezen kritikus tartománynak, vagy nem. A döntéshozás érdekében érdemes az n elemő minták terét - és így a kritikus tartományt is - egydimenzióssá leképezni. A n =(x,x,...,x n ) leképezést úgy választjuk meg, hogy a mintán belüli tendenciája a vizsgált hipotézis érvénye esetén értelemszerő, likelihoodja pedig kalkulálható legyen. 8 A mintaelemeknek olyan n transzformációját, melynek mintavételi feltételes eloszlása a null hipotézis érvénye mellett egyértelmően meghatározható, teszt statisztikának, másképpen próbafüggvénynek nevezzük. A teszt statisztika H 0 feltétel melletti eloszlását, melyet az L( n H 0) feltételes likelihood jellemez, null eloszlásnak nevezzük. Az alternatív hipotézis jellegének a szempontjából egyoldali tesztet hajtunk végre akkor, ha vagy csak az extrém alacsony, vagy csak az extrém magas értékek mondanak ellent a H 0 hipotézisnek. Az elıbbi esetben baloldali, az utóbbi esetben pedig jobboldali tesztrıl beszélünk. Kétoldali tesztet hajtunk végre ezzel szemben akkor, ha nek mind az extrém alacsony, mind az extrém magas értékei ellentmondanak a H 0 hipotézisnek. A döntés alapvetı kérdése tehát, hogy a teszt statisztika értékkészletén elhatároljuk a null hipotézisnek ellentmondó, annak fenntartása szempontjából kritikus tartományt. Kritikus tartománynak nevezzük a teszt statisztika értékeinek azon K tartományát, amely értékei a null hipotézis érvényessége esetén kicsiny valószínőséggel következnek be, leginkább ellentmondanak a null hipotézisnek, s ezért bekövetkezésük a null hipotézis elvetését támasztja alá. Baloldali teszt esetén a kritikus tartomány a null eloszlás baloldali alsó, jobboldali teszt esetén a felsı szakaszán helyezkedik el, míg kétoldali teszteléskor megosztva mindkét extrém szakaszon szerepel. A szignifikancia szint a teszt statisztika kritikus tartományba esésének a valószínősége. Kétoldali teszt esetén, mikor a kritikus tartomány megosztásra kerül, értelemszerően a szignifikancia szint is megosztásra kerül: Pr( K H ) = α + α = α n 0 a f ahol α a az alsó, α f pedig a felsı kritikus tartományba kerülés kockázata. Ez a megosztás, ha egyéb szempont mást nem diktál, egyenlı arányban történik: α a =α f =α/. Baloldali teszteléskor α f =0, jobboldali teszteléskor pedig α a =0. A kritikus tartomány határát képezı értéket kritikus értéknek nevezzük. A kritikus érték az adott null eloszlású véletlen változó azon kvantilis értéke, mely az elıre rögzített szignifikancia szint mellett a kritikus tartományt határolja. Az alsó kritikus érték jele: K a, melyre definíció szerint Pr( n <K a H 0)=α a teljesül, a felsı érték pedig K f melyre definíció szerint Pr( n >K f H 0)=α f teljesül. Kétoldali teszt mind alsó, mind felsı kritikus érték kijelölését igényli. A szignifikancia szint mértékének megválasztása a hipotézisvizsgálat szubjektív mozzanata, a döntéshozó feladata. Csökkentése (növelése) a kritikus tartomány terjedelmének szőkítését (tágítását), vagyis a teszt szigorítását (lazítását) teszi lehetıvé. A fentiekbıl azonnal következik, hogy az α szignifikancia szint csökkentésével együtt szőkül a kritikus tartomány, és nı a II. fajú hiba elkövetésének valószínősége. E kétféle kockázat tehát csak egymás rovására változhat. Mivel a teszt hipotézis kritikus tartománya a kutatási hipotézis elfogadását indokolja, ezért a szignifikancia szint megválasztásakor ügyelni kell arra, hogy melyik típusú hibás döntés jár nagyobb kárral a döntéshozó szempontjából. Ennek az esélyét kell minél lejjebb szorítani. Ehhez szükségünk van a II. fajú hiba feltételes valószínőségére, mely csak valamely egyszerő alternatív hipotézis rögzítése mellett számítható. E valószínőség kalkulálása igényli ugyanis a teszt statisztika H érvénye melletti eloszlását. A másodfajú hiba elkövetésének feltételes valószínősége: Pr( n K H) = β. Más szavakkal a másodfajú hiba annak a valószínősége, hogy a tesztstatisztika mintából számított értéke az adott szignifikancia szint melletti kritikus tartományon kívül esik, miközben az alternatív hipotézis igaz. Ugyanakkor a Pr( n K H) = β valószínőséget a teszt H feltétel melletti erejének nevezzük. A teszt statisztika ereje az igaz kutatási hipotézis elfogadásában rejlik. A szignifikancia szint és a másodfajú hiba elkövetésének, valamint a teszt erejének egymáshoz való viszonyát, továbbá a próba erejének grafikus meghatározását mutatja a. ábra ismert szórású normális eloszlás ismeretlen várható értékére vonatkozó jobboldali alternatív hipotézis esetén, rögzített egyszerő alternatív hipotézisek mellett. 8 A levegő szennyezettségére ügyelve, ha n mérés átlagos n eredménye meghaladja az egészségügyi határértéket, akkor ez a levegő minőségének a káros voltára utal. 4

15 . ábra Szignifikancia szint, és a próba ereje Az ábráról leolvasható, általános érvényő megállapítások a következık: A szignifikancia szint csökkentése növeli a másodfajú hiba elkövetésének a valószínőségét. Az alternatív hipotézis helyessége esetén, rögzített szignifikancia szint mellett minél messzebb van a valóságos H a feltételezett H 0 hipotézistıl, annál nagyobb a próba ereje. Az I. és II. fajú hiba elkövetésének összesített valószínősége akkor minimális, ha kritikus értékként azon értékét választjuk, amely mellett a feltételes eloszlások L 0() és L () likelihood függvényei metszik egymást. Ha az egyszerő alternatív hipotézis egybeesik a nullhipotézissel, akkor a teszt ereje megegyezik az aktuális szignifikancia szinttel. Általánosságban, az altenatív hipotézist végigfuttatva az ismeretlen paraméter teljes feltételezett tartományán, a tesztnek az egyes altenatívák melletti erejét leíró függvényt erıfüggvénynek nevezzük. Hasonlóan a becslıfüggvényekhez, a teszt statisztikákat is aszerint prefereáljuk, hogy eleget tesznek-e ésszerő kritériumoknak. A próbákat az erıfüggvény alapján, az alábbi ktitériumok szerint értékeljük. orzítatlanság: Egy kétoldali próba akkor torzítatlan, ha az erıfüggvény minimuma a null hipotézis pontjában van. Erısség: Ha a próba ereje a H pontban nagyobb, mint a próba ereje, akkor ebben a pontban erısebb mint. Ha az összes többi lehetséges próbafüggvénynél erısebb adott alternatíva mellett, akkor az adott pontban a legerısebb (Most Powerful) teszt. Az erısség vizsgálatát kiterjesztve az összes lehetséges alternatívára, jutunk el az egyenletesen erısebb, illetve az egyenletesen legerısebb (Uniformly Most Powerful) próba fogalmához. Ha egy próba csak egy intervallumban (pl. a null hipotézis egy szők környezetében) a legerısebb, akkor lokálisan legerısebb (Locally Most Powerful) tesztekrıl beszélünk. Konzisztencia: Egy próbát konzisztensnek nevezünk, ha ereje a mintanagyság tetszıleges növelése esetén bármely alternatíva mellett -hez konvergál. 5

16 3 MINA-LIKELIHOOD-SOKASÁG ekintsük az L(x θ,θ,...,θ q )=L(x θ) likelohood függvénnyel definiált sokaságot, melyben az x változó valamely θ jellemzıje (paramétere) ismeretlen, de döntésünk ennek közelítı ismeretét feltételezi. Ilyenkor becslési vagy hipotézisvizsgálati célból mintát veszünk a sokaságból, és a minta alapján következtetünk a sokaság egészére. 9 A többváltozós statisztika egy speciális területe az n elemő, x, x,..., x n véletlen minta tulajdonságainak a vizsgálata, ugyanis a mintavétel tetszılegesen sokszor megismételhetı, ezért valamennyi mintaelem mintavételrıl mintavételre szóródó, ún. mintavételi véletlen változó. A statisztikai következtetés alapvetı eszköze a mintaelemek, illetve a teljes minta likelihood függvénye, melyre a becsléselmélet és a hipotézisvizsgálat egyaránt támaszkodik. A likelihood becslési és hipotézisvizsgálati vonatkozásai többváltozós megközelítést igényelnek tehát, miként az az alábbiakban tárgyalásra kerül. 3. LIKELIHOODELMÉLEI FOGALMAK Az x változó eloszlását leíró L(x) likelihood függvény azon esély mértékét számszerősíti, miszerint a változó konkrét x értéke realizálódik. Az esélyt diszkrét kimenetelnél az L(x)=Pr(x=k) valószínőség (k=0,,,...), folytonos esetben pedig az L(x)=f(x) sőrőségfüggvény számszerősíti. Vegyünk az x eloszlásból egy n elemő x,x,...,x n véletlen mintát, ahol a minta elemei egymástól független és azonos eloszlású (FAE) valószínőségi változók, közös eloszlásuk egyben a sokasági L(x θ) eloszlás, ami a θ paraméter függvénye. Érdeklıdésünk most a mintaelemek együttes realizálódásának az esélye felé fordul, melyet az alábbiak szerint definiálunk: Lminta = L( x, x,..., xn θ ). A likelihood értéke ilymódon a mintában rejlı információ egyféle sőrítménye. Látható, hogy konkrét, már kiválasztott minta esetén is változik az együttes likelihood, ha változik a θ paraméter. Kihasználva, hogy a mintavétel FAE tulajdonságú, azaz a mintaelemek függetlenek és azonos eloszlásúak, a minta együttes likelihoodját a mintaelemek egyedi likelihoodjainak a szorzata adja meg: Lminta = L( x θ) L( x θ)... L( xn θ ) vagy tömörebben n i= ( ) L = L x θ. 3.. Példa Illusztratív céllal tekintsük a dummy jellegő x változót, melynek kimenetele csak 0, vagy lehet. A két eseményhez tartozó sokasági valószínőségek (egyedi likelihoodok) rendre Pr(x=)=P, és Pr(x=0)=-P. E sokaságból véve n= elemő mintát, a különféle minták likelihoodjait tartalmazza az alábbi tábla: 3.. áblázat Kételemő, dichotom minta likelihoodja Minta Együttes likelihood 0,0 (-P) (-P) 0, (-P) P,0 P (-P), P P Összesen E példa alapján a likelihood függvény kétirányú felhasználását illusztráljuk: Ha a fenti példában a P=P 0=0. hipotézissel élünk, akkor az egyes minták bekövetkezési valószínőségei rendre: 0.64, 0.6, 0.6, Így pl. ha az (,) minta bekövetkezik, akkor tekintve annak kicsi valószínőségét (likelihood értékét), hipotézisünket kétellyel fogadjuk. Az (,) összetételő minta kritikus a P=0. hipotézis fenntartását illetıen. Ha célunk a P paraméter becslése, akkor értelemszerően azt az értéket fogadjuk el, amely mellett a realizálódott minta bekövetkezésének likelihoodja a legnagyobb, tehát a véletlen kiválasztásal nyert konkrét minta realizálódása a leginkább hihetı. A példából látható, hogy amennyiben a (0,0) mintát kapjuk a mintavétel eredményeképp, akkor a megfelelı i 9 A becslés és hipotézisvizsgálat bevezető fogalmait lásd a () fejezetben. 6

17 likelihood (-P), ami akkor lesz maximális, ha P=0. Ha a (0,), vagy az (,0) mintát választottuk ki, akkor ennek likelihood függvénye P(-P), amely P=0.5 esetén veszi fel maximumát. Végül, ha olyan mintát kapunk, amelyben mindkét elem, akkor a megfelelı likelihood függvény P= mellett veszi fel maximumát, azaz P= esetén a leginkább valószínő, hogy éppen ilyen minta adódjék. 3.. A MAXIMUM LIKELIHOOD BECSLÉS Adott minta esetén a likelihood függvény csak az ismeretlen paraméter függvénye. Azt a paraméterértéket, amely mellet az adott minta likelihoodja a posteriori maximális, a paraméter maximum likelihood becslésének nevezzük: n i= ( ˆ i ML ) L = L x θ max. Ha a likelihood függvényt nem specifikáljuk egyetlen mintára, hanem a mintatér bármely elemére értelmezzük, akkor ez a maximum a priori a minta függvénye is, ekkor maximum likelihood becslıfüggvényrıl beszélünk. A maximum likelihood (ML) becslés e becslıfüggvénynek egy konkrét mintára történı alkalmazása. A ML becslıfüggvény a likelihood szélsı értékét és annak helyét keresi, és ez a hely nem változik, ha a likelihoodot szigorú monoton transzformációnak vetjük alá. A számítások egyszerősítése érdekében érdemes tehát nem magának a likelihood függvénynek, hanem logaritmusának, a loglikelihoodnak a szélsıérték helyét keresni a paraméter tekintetében. Ezáltal mint látni fogjuk nem csak a szélsıértékszámítás egyszerősödik, hanem a log-likelihood tulajdonságai további feladatok megoldását is lehetıvé teszik. A loglikelihood függvénynek a likelihoodjára alkalmazva: θ paraméter szerinti parciális deriváltja a score függvény, mely a minta együttes j u θ j log L = u =. θ A ML módszer gyakorlati alkalmazása úgy történik, hogy elıször elkészítjük a likelihood függvényt, ennek vesszük a logaritmusát, majd a score zérushelyét meghatározva a loglikelihood szélsıértékhelyét keressük meg. Ez általában a minta függvényében adja meg az ismeretlen paramétert. Amennyiben meggyızıdünk arról, hogy ez valóban maximumhely, a kapott függvényt a paraméter ML becslıfüggvényének tekintjük, adott minta esetén pedig számszerő értékét, a ML becslést is meghatározhatjuk. 3. Példa ekintsük az x dummy változót, melyet a Pr(x=k)=P k (-P) - k valószínőségi eloszlás jellemez, ahol k értéke 0 vagy. Becsüljük az x,x,...,x n FAE minta alapján a ML elv alkalmazásával e (Bernoulli) folyamat P paraméterét, ha tudjuk, hogy a mintában k számú realizálódott. E konkrét minta együttes (P tekintetében maximálandó) likelihoodja: k n k L = P ( P) max. Logaritmálással a likelihood összeggé transzformálható: ln L = k ln P + ( n k)ln( P) max amelybıl a score-függvény ln L k n k k np u = = =. P P P P( P) A loglikelihood (és így a likelihood) maximum helye azon P-érték lehet, amely mellett score=0 teljesül. Mint látjuk, ez a k PˆML = n érték, azaz az kimenetelek mintabeli relatív gyakorisága. Mivel ez egyben maximum hely (ez könnyen ellenırizhetı), ezért a mintán belüli relatív gyakoriság a P paraméter ML becslıfüggvénye. Ha történetesen egy 00 elemő mintában 3 esetben figyelünk meg tulajdonságú kimenetelt, akkor a ML becslés Példa Egyparaméteres, folytonos eloszlású, nemnegatív x változó paraméterének a becslésére tekintsük példaként az exponenciális eloszlást, melyet egy pozitív θ paraméter függvényében az alábbi sőrőség (egyedi likelihood) függvény jellemez: x L( x) e θ =. θ Készítsünk ML becslıfüggvényt az n elemő x,x,...,x n FAE minta alapján a θ paraméterre. A minta FAE tulajdonságát kihasználva a minta együttes likelihood függvénye: j j 7

18 A log-likelihood függvény ekkor: n n L L( xi ) e θ = = θ. i= nx ln L = n ln θ θ nx majd ennek deriváltja θ szerint: ln L n nx n( x θ) u = = + = (3.) θ θ θ θ amit 0-ra megoldva azt kapjuk, hogy θ ML becslıfüggvénye a mintaátlag, és mivel a második derivált ebben a pontban negatív, ez egyben maximumhely. A ML normálegyenleteknek nem mindig létezik explicit megoldása, és esetenként torzított becslıfüggvényt eredményez, továbbá a minta likelihoodja nem mindig definiálható. Ha viszont egy sokasági paraméternek létezik torzítatlan és hatásos (minimális varianciájú) becslı függvénye, akkor a ML ezt eredményezi. A ML kedvezı tulajdonságai nagy minták esetén érvényesülnek. Amennyiben a mintanagyságot tetszés szerint növeljük, akkor a ML becslıfüggvényrıl belátható, hogy konzisztens, aszimptotikusan hatásos, és mintavételi határeloszlása normális. 3. HIPOÉZISEK LIKELIHOOD ALAPÚ ESZELÉSE eszt statisztikák definiálása többféle elv, módszer alapján történhet. A próbakészítés konfidencia intervallum elvére a hipotésvizsgálat alapfogalmainak a tárgyalása során már kitértünk. Egymásba ágyazott (nested) modelleket definiáló H 0 és H hipotézisek közötti döntést azonban (nagymintás esetben) a minta maximált likelihoodja szolgálja. Az alternatív hipotézisbe ágyazottnak nevezzük a null hipotézist akkor, ha egy vagy több paraméterének a rögzítése az alternatív modell szőkített változatát eredményezi. Az L(x,x,...,x n H 0) és L(x,x,...,x n H ) feltételes likelihood értékek azt mutatják, hogy az adott minta bekövetkezése a H 0, vagy a H szerinti valóság esetén, hihetıbb-e. Beágyazott hipotézisek ellenırzésére az alábbi három konzisztens, nagy minták esetén használható módszer valamelyike szolgál. 3.. A LIKELIHOOD-ARÁNY ESZ ekintsük az x változó eloszlását jellemzı L(x,γ,γ,... θ,θ,...) likelihood függvényt, ahol L(x) értékét kötött γ, és szabad θ paraméterek egyaránt meghatározzák. A kötött paraméterek értéke adottság, nem változtatható. Rögzített x érték likelihoodját így a szabad paraméterek értékei alakítják. A H hipotézis az eloszlás likelihoodját (mint referencia modellt) a θ,θ,...θ p szabad paraméterekkel definiálja, míg a null hipotézis H 0:θ #=θ #0 megszorítást, korlátozást tesz kiemelt θ # paraméterekre. Ha a hipotetikus θ #0 érték zéró, akkor ez egyben a paraméterek körének a szőkítését is jelenti. Kérdés, hogy a korlátozott és a teljes modell között van-e lényegi különbség. Ennek eldöntését szolgálja az alábbi módszer, melynek alapelve, hogy a minta likelihoodját mind a H 0 modell által definiált, mind a H modell által definiált eloszlás mellett maximálja, és e két maximált L 0 és L likelihoodot összehasonlítja. Mivel korlátozott maximum nem haladhatja meg a korlátozás nélkülit, ezért L 0 L, és így a likelihood-arány (Likelihood Ratio): L0 0 < λ = LR = (3.) L ahol λ a nevezetes likelihood-arány. Látható, hogy ha λ értéke egyhez közeli, akkor a korlátozásnak nincs releváns hatása, ez pedig a null hipotézis fenntartását sugallja. Ezzel szemben, ha λ zéróközeli érték, akkor ez a korlátozás jelentıs voltát mutatja, azt, hogy az alternatív hipotézis szerinti modell becslése jelentısen növeli a minta likelihoodját. A likelihoodarány elv arra a tételre épül, miszerint a likelihood aránynak egy egyszerő transzformáltja a sokasági eloszlás típusától függetlenül nagy minták esetén közelítıleg chi-négyzet eloszlást követ q szabadságfokkal, ahol q a szabad paraméterekre tett korlátozások számát jelenti. ln λ = ( ln L0 ln L ) ~ χ q (3.3) 3.4 Példa ekintsük a Pr(x=k)=P k (-P) -k Bernoulli folyamat P paraméterére vonatkozó H 0:P=P 0 hipotézis LR tesztelését az x,x,...,x n FAE minta alapján, ahol k={,0}, és a mintaelemek között f számú található. Mint ismeretes, a P paraméter ML becslése a P ˆ = f / n mintabeli relatív gyakoriság. Mivel a minta likelihoodja P f (-P) n-f, ezért a LR teszt statisztika: f n f P0 ( P0 ) ln λ = ln. n f ˆ f P P ˆ ( ) 8

19 3..A LAGRANGE-MULIPLIKÁOR ELV A Lagrange-multiplikátor (vagy score) elv alapja, hogy a korlátozás nélküli modellben valamely paraméter ML becsült értékéhez tartozó loglikelihood parciális deriváltja (a maximálás miatt) zéró, míg a korlátozott modell esetén ettıl eltér. Az eltérést a score (u) varianciájával, a Fisher-féle információval normáljuk. Ha ez az eltérés jelentıs, akkor a korlátozás lényeges mértékben változtatja meg a likelihood értéket. A LM tesztfüggvény magja a score null hipotézis melletti értéke. A próbafüggvény egyetlen korlátozás esetében ( u( θ ) 0 ) I ˆ ( u ( ) ( θ ) ( ) 0 ) 0 u θ ( θ0 ) LM = = = (3.4) I I I ( θ0 ) ( θ0 ) ( θ0 ) alakú, amelyrıl kimutatható, hogy H 0 alatt aszimptotikusan szabadságfokú chi-négyzet eloszlást követ. 3.5 Példa ekintsük az ismert varianciájú N(µ,σ ) normális eloszlás µ várható értékére vonatkozó kétoldali hipotézis tesztelését, az LM tesztfüggvény alkalmazásával. A score függvény értéke a nullhipotézis pontjában: n n( x µ 0 ) u( µ 0 ) = i= ( xi µ 0 ) =. σ σ A Fisher-információ a nullhipotézis pontjában (jelen esetben független a µ paramétertıl, és így a nullhipotézistıl is): n I µ =. σ ( 0 ) A fentieket egybevéve a LM teszt statisztika: ( x µ 0) LM =. σ n Az ismert varianciájú normális eloszlás várható értékének a tesztelésére a LR és a LM teszt elv ugyanazt a próbafüggvényt javasolja. Nem mondható el viszont ugyanez a binomiális eloszlás P paraméterére vonatkozó H 0:P=P 0 hipotézis tesztelésekor. A score függvény a P 0 pontban: npˆ np0 u( P0 ) =, np0 ( P0 ) a Fisher-információ a nullhipotézis pontjában n I( P0 ) =, P0 ( P0 ) végül a LM teszt statisztika: ( npˆ np0 ) LM =. np 0 ( P 0 ) Ha a θ=(θ,θ,...,θ p ) paramétervektor nem egy, hanem p elemő, és k p számú korlátozást rögzít a nullhipotézis, akkor a LM próbafüggvényt az u score-vektort, és az E információs mátrixot tartalmazó kvadratikus forma adja: LM = u E u. ( θ0 ) ( θ0 ) ( θ0 ) Ez H 0 érvénye mellett aszimptotikusan chi-négyzet eloszlást követ k szabadsági fokkal A WALD ELV A harmadik aszimptótikus próbakészítési elv a Wald elv, mely a H : = 0 R θ r lineáris korlátozásokat tartalmazó nullhipotézist teszteli a H : R θ r alternatív hipotézissel szemben, ahol R együttható mátrix, r pedig a korlátozásokat tartalmazó vektor. Konstrukciójánál fogva ML tesztnek is nevezik, mivel teszt statisztikája nem más, mint a maximum likelihood becslésnek a hipotézistıl vett Mahalanobis távolsága (az információs E mátrix a ML becslések kovariancia mátrixának az inverze): ˆ W = ( θ θ ) E ( θˆ θ ). (3.5) 0 ( θˆ ) 0 A Wald-statisztika alternatív, de aszimptotikusan ekvivalens formája: ˆ W = ( θ θ ) E ( θˆ θ ). (3.6) 0 ( θ0 ) 0 9

20 Ha az R együttható mátrixban definiált független korlátozások száma k, vagyis R rangja k, akkor W aszimptotikusan χ eloszlású k szabadsági fokkal. 3.6 Példa A binomiális eloszlás P paraméterére vonatkozó H 0:P=P 0 hipotézis tesztelése Wald próbával az alábbiak szerint történik. A Fisher-információ a ML becslési pontban: n I( ˆ = P) Pˆ ( Pˆ ) és a Wald-statisztika: ( ˆ 0 ) ( npˆ np ) n 0 W = P P =. Pˆ ( Pˆ ) npˆ ( Pˆ ) A fenti három, általánosan alkalmazható próbakészítési elvvel kapcsolatban néhány összefoglaló megjegyzést kell tennünk. Mindhárom elv egymásba ágyazott hipotézisek esetére javasol aszimptotikus, nagy mintás érvényő teszt statisztikát. Az így kapott próbák aszimptotikusan ekvivalensek, konzisztensek, mindhárom chi-négyzet eloszlású, és jobboldali kritikus tartománnyal rendelkezik. A fenti elvek közül a LR két, a LM egy likelihood függvény értékelését követeli meg, míg a W elv esetén a likelihood függvényt csak a becslés elıállításához használjuk fel. Mivel mindhárom aszimptotikus érvényő és a határon ekvivalensek, a köztük való választást mindig az adott feladat, a célszerőség és az egyszerőség határozza meg. 0

21 4. A SZÓRÓDÁS ÖBBVÁLOZÓS JELLEMZÉSE Reprezentálja a sokaság i sorszámú (i=,...,n) egyedét az x,x,...,x p változókban realizálódott megfigyelések x i =[x i,x i,...,x ip ] vektora. A sokaság egyedei a kérdéses ismérvekben különböznek egymástól, másszóval szóródnak. Alapvetı kérdések, hogy az egyedek mint pontok milyen centrum körül, milyen mértékben, és milyen típusú valószínőségi (gyakorisági) eloszlás mentén szóródnak a p-dimenziós térben. A szóródás vizsgálata ad választ arra, hogy a megfigyelt egyedek hasonlók, vagy nagyon különbözık a vizsgált tulajdonságok tekintetében, ha különbözık, akkor vannak-e körükben homogén alcsoportok, illetve vannak e olyan tulajdonságaik, melyek tekintetében a többség hasonlóan, és más tulajdonságok, melyek tekintetében a többség fordítottan alakul. Bizonyos jellemzık tekintetében inkább, míg más jellemzık tekintetében kevésbé különböznek e megfigyelt egyedek. Megeshet továbbá, hogy az egyedek egy alcsoportja a vizsgált tulajdonságok közül csak néhány tekintetében alkot homogén csoportot, míg másik alcsoport más tulajdonságok tekintetében homogén. A szóródásban rejlı tendenciák, és az azokat kiváltó okok feltárásának eszközrendszere a variancia többdimenziós kiterjesztésének módozataihoz kötıdik. 4. A VARIANCIA ÖBBVÁLOZÓS ÁLALÁNOSÍÁSAI A szóródást vizsgálhatjuk egyidejőleg több változó tekintetében is. Ha kettınél több változó tekintetében mérjük a szóródását, úgy kézenfekvı a szóródást a változók minden lehetséges párosításában vizsgálni, valamennyi változó lineáris kombinációjának a szóródását jellemezni, a fenti két elvet kombinálva egyetlen, tömörített szóródási mértéket számítani. 4.. A KOVARIANCIA FOGALMA ÉS ULAJDONSÁGAI A sokaság egyedeit egyidejőleg egy x és egy y változó tekintetében ábrázolva a síkban, a pontdiagram szóródásában nem csupán a mérték az érdekes, hanem az a tendencia is, hogy a pontok a sík melyik tartományához tartoznak. Ennek jellemzésére a kovariancia mérıszám szolgál. Megfigyelésrıl megfigyelésre képezve két centrált változó értékeinek a szorzatait, az átlagos szorzat a két változó kovarianciáját eredményezi: 0 N Cov( x, y) = C = ( x x)( y y) (4.) x, y i i N i = N N = x ( y y ) ( x x ) N = y (4.) i i i i i= N i= N = xi yi x y N i = (4.3) ahol (4.3) a kovariancia momentum felbontását nyújtja. Adott változó önmagával vett kovarianciája az illetı változó varianciáját nyújtja. A kovariancia elıjeles mérıszám: pozitív az elıjele, mikor az egyedek többsége mindkét tekintetben átlag feletti, illetve mindkét tekintetben átlag alatti értéket vesz fel. Negatív viszont az értéke, ha az egyedek többsége esetében átlag alatti x átlag feletti y értékkel párosul, vagy fordítva. Az együtt ingadozás ilyen értelmő tendenciáját a két változó közötti korrelációnak nevezzük. Pozitív kovariancia pozitív, negatív kovariancia pedig negatív korrelációt jelez. Ha zérus a kovariancia értéke, akkor a két változót korrelálatlannak mondjuk. Ekkor a két változó páronkénti szorzatainak az átlaga megegyezik a két változó átlagainak a szorzatával. Zérus a kovariancia értéke továbbá, ha legalább az egyik változó nem szóródik. Standardizált változók kovarianciáját r x,y jelöli, mely az eredeti változók kovarianciájának és szórásainak a felhasználásával: Cov( x, y) Cov( xɶ, yɶ ) = rx, y =. (4.4) σ σ x y 4... KOVARIANCIA ALGEBRA Ha az x változó az x,x,...,x p változók csoportjában az a,a,...,a p súlyokkal képzett, az y változó pedig az y,y,...,y q változók 0 A két, egymással ekvivalens jelölési mód közüli választás csakúgy, mint a variancia esetében most is a formula könnyebb áttekintését szolgálja. Az átalakításnál kihasználjuk, hogy N N ( ) ( ) 0 i = i= i= i =. x y y y x x

22 csoportjában a b,b,...,b q súlyokkal képzett p x = a x, y = b y j j t t j = t = lineáris kombinációk rendre, akkor az átlagos értékek is a megfelelı átlagok lineáris kombinációi a megfelelı súlyokkal, az alábbiak szerint p q x = a x, y = b y j j t t j = t = Ezek után az x és y lineáris kombinációk közötti kovariancia a csoportközi kovarianciák lineáris kombinációja, mert definíció szerint: N p q Cov( x, y) = x y xy = a b Cov( x, y ) q. (4.5) i i j t j t N i = j = t = Mátrixalgebrai jelölésekkel: Cov(x,y) = a C xy b (4.6) ahol a =[a,a,...,a p ], és b=[b,b,...,b q ] a súlyok vektorai, C xy pedig a csoportközi kovarianciákat tartalmazó (p,q) rendő (nem szimmetrikus) mátrix. A (4.5) szabály (4.6) felírása a bi-kvadratikus formában kifejezett dekompozíciót jelenti. 4. Példa Egy vállalkozás telefonszámláját alkotó vezetékes, és mobil hívások idıtartamát (perc) és költségét (Ft) havi összesítésben, egymást követı öt hónapban a 4. tábla közli. A beszélgetési idıket különbözı díjkörzetek szerint részletezzük. (A példa fiktív, az egységnyi legolcsóbb percdíjhoz igazodó relatív árakat alkalmaz.) Feladatunk a vezetékes, és a mobil havi költségek közötti kovariancia meghatározása, visszavezetve a beszégetési idık közötti kovarianciáknak, és a fajlagos egységáraknak a hatására. 4. tábla: elefonszámlák jellemzıi Hónap Vezetékes beszélgetési idı (x) az Mobil beszélgetési idı (y) az Vezetékes Mobil Ft Ft 5Ft 5 8 Hívások havi díja percenkénti díjkörzeben (perc) percenkénti díjkörzeben (perc) Ft Ft Átlag A vezetékes beszélgetés havi egyszeri alapdíja 00, a mobil beszélgetésé pedig 600 Ft. Az egyszerőség kedvéért további díjféleségeket (pl. kapcsolási díj) nem veszünk figyelembe. A vezetékes beszélgetések havi díjának költségfüggvénye: x = 00 + x + x + 5x 3 a mobil beszélgetéseké pedig: y = y + 8y ahol (,,5;5,8) rendre az egy perc költsége (Ft/perc) a megfelelı díjkörzetben. Határozzuk meg a vezetékes, és a mobil költségek közötti kovarianciát! Elıbb definíció szerint: Cov( x, y ) = ( ) = Nézzük most, hogy ez az érték hogyan struktúrálódik a díjkörzetekben igénybevett beszégetési idık, és a percdíjak függvényében. ekintsük az (x,x,x 3,y,y ) beszélgetési idık közötti kovarianciákat tartalmazó kovariancia mátrixot: Változó x x x y y ahol például C = x x x y y = Cov(x,y ) = Cov(y,x ).

23 . A kétféle költség közötti kovariancia lineáris fölbontásához a beszélgetési idık (x,x,x 3 ),(y,y ) csoportközi kovarianciáira van szükségünk. Ezzel a blokkal (a kovariancia invariáns a változók konstanssal való eltolására): Cov(x,y) = Cov( (x-00),(y-600) ) = = [ 5 ] Mivel a variancia egyben önkovariancia, ezért a kovariancia dekompozíciója lehetıvé teszi a variancia lineáris felbontását is, az alábbi módon: Var( a x + a x a x ) = Var( x) = Cov( x, x) (4.7) p p p = j t j t j = t = p a a Cov( x, x ) mely mátrix jelölésekkel, kvadratikus formában: Var( a x + a x a x ) = a C a (4.8) p p xx ahol C xx az x j változók valamennyi párosítását jellemzı szimmetrikus, (p,p) rendő kovariancia mátrix. A (4.7) és (4.) azonosságra a továbbiakban VLD szabályként hivatkozunk. Fölismerve, hogy a j=t indexő kovarianciák egyben varianciák, és Cov(x j,x t )=Cov(x t,x j ), a lineáris kombináció varianciája más formában: p ( ) = j ( j ) + j t ( j, t ) j= j< t. (4.9) Var x a Var x a a Cov x x 4. Példa Az elızı példát folytatva, a vezetékes beszélgetés költségének a varianciája a vezetékes beszélgetési idık egymás közti kovarianciái alapján: Var( x) = [ 5 ] = ahol például 04.8=Cov(x,x ). A mobil beszélgetések költségének a varianciája a fentiek analógiájára: Var( y) = [ 5 8] = ahol például 5.4 = Cov(y,y ) LINEÁRIS KORRELÁCIÓ Standardizált változók kovarianciáját lineáris korrelációs együtthatónak nevezzük. Ennek statisztikai tartalmát az alábbi gondolatmenet alapján világítjuk meg.. Speciálisan, két változó összegének, és különbségének a varianciája: Var( x ± y) = Var( x) + Var( y) ± Cov( x, y) 0 (4.0) amely szerint, mivel a variancia sohasem negatív, két változó varianciájának az összege nem lehet kisebb, mint a két változó közötti kovariancia abszolút értékének a kétszerese: Var( x) + Var( y) Cov( x, y). Ez az öszefüggés két standardizált változó esetében az Cov( x, y) + σ σ formát ölti, melybıl végül r x,y. (4.) A kovariancia abszolút értékének felsı határa tehát a két szórás szorzata, két standardizált változó kovarianciája pedig következésképpen nem lehet nagyobb egynél. 3. ovábbmenve, ha x és y között egzakt y i =a+bx i lineáris kapcsolat van, akkor a kovariancia a meredekség elıje- x y Ez a Cauchy-Bunyakovszkij-Schwarcz-féle egyenlőtlenség. 3

24 létıl függıen felveszi a szélsı értékét. Ekkor ugyanis a kovariancia lineáris felbontása alapján: b b Cov( x, y) = Cov ( x,( a + bx) ) = bcov( x, x) = bvar( x) = b x x x y b σ σ = b σ σ. Ebben az esetben r x,y =, az egyenes meredeksége a fenti azonosságból Cov( x, y) b = Var( x) tengelymetszete pedig a = y bx. A normalizált r x,y kovariancia abszolút értéke a [0,] zárt intervallumon azt jelenti tehát, hogy az aktuális pontdiagram relatíve milyen közel (távol) húzódik az y i =a+bx i referencia egyeneshez képest. A fentiek alapján a lineáris korrelációs együttható jelölése: r x,y. 4.. AZ ÁLALÁNOSÍO VARIANCIA A két dimenzióban értelmezett szóródást a kovariancia mellett az ún. általánosított varianciával is jellemezhetjük. ekintsük a két változót mint két x és y pontot - a megfigyelések terében, és jelölje α az origóból a két pontba mutató vektor hajlásszögét. Minél kisebb ez a hajlásszög, annál inkább kifejezi az egyik változó alakulása a másik szerinti szóródást is, miközben kicsi a két változó által kifeszített paralelogramma területe. Ezzel szemben minél nagyobb α, annál inkább szükséges mindkét változó szóródásának az ismerete, s ekkor a paralelogramma területe relatíve nagy. Zérus a paralelogramma területe, ha a két változó közötti kovariancia maximális, vagyis a két változó maradéktalanul leírja a másik szóródásának az alakulását. Maximális a paralelogramma területe, mikor a két vektor merıleges egymásra, vagyis a kovarianciájuk zérus, tehát az egyik változó alakulásából semmilyen ismeretünk sincs a másik szerinti szóródásra vonatkozóan. Kézenfekvı tehát a változók szóródásában lévı redundancia mértékét a paralelogramma területével jellemezni. E terület négyzetét általánosított varianciának nevezzük: GV = σ σ sin α = σ σ ( cos α ) = σ σ σ σ r = σ σ C. x y x y x y x y x, y x y x, y A sokaságot egyidejőleg több, az x,x,...,x p változók tekintetében vizsgálva, kézenfekvı a szóródást a változók minden párosításában számított kovarianciákkal jellemezni, melyek a (p,p) rendő kovariancia mátrixot alkotják: C C C p C C C p C( p, p) =. C p C p Cpp A kovariancia mátrix szimmetrikus, és fıátlóján a varianciákat tartalmazza: C jt =C tj és C jj =Var(x j ). Elıállítása az alábbi módokon is történhet: N N C ( p, p) = ( i )( i ) i N x x x x = i= N C i= ahol x i az i egyedre vonatkozó megfigyelések sorozata, x a sokaság p-dimenziós centroidja (az átlagos értékek sorozata), a C i diadikus szorzat pedig az i egyednek a kovarianciákhoz való hozzájárulását tartalmazó mátrix. A kovariancia mátrix determinánsát általánosított varianciaként értelmezzük: Generalized Variance = GV = C. det ( ) ermészetesen a kétváltozós esetben is ezt a definíciót használtuk, mivel ekkor det(c (,)) = Var(x)(Var(y)-Cov (x,y). A kovariancia mátrix pozitív szemidefinit, ugyanis - a variancia (4.5) szerinti VLD felbontása alapján - bármely v 0 súlyvektorral a Var(v x v p x p ) = Var(v x) = v Cv 0 skalár-reláció mindig teljesül, mivel variancia nem lehet negatív. A kovariancia lineáris felbontásának egy speciális alkalmazása, mikor ugyanazon x változócsoport változóit különféle súlyrendszerekkel kombinálva nyerünk új (t=,,...,q) számú k i = v tx + v tx v pt x p Speciálisan, a (,) rendű mátrix determinánsa nem más, mint: (főátló elemeinek a szorzata mellékátló elemeinek a szorzata) = c c c c. 4

25 változókat, és a k lineáris kombinációk C kk kovariancia mátrixát vezetjük vissza az x változók páronkénti kovarianciáira, és a megfelelı súlyokra: C kk = V C xx V (4.) ahol a (p,q) rendő V mátrix t. oszlopa a k t kombinációra vonatkozó v jt súlyokat foglalja magában A SPEKRÁLIS FELBONÁS A kanonikus variancia az információsőrítés azon eszköze, amellyel a többváltozós szóródás vizsgálatát az egyváltozós szóródás mérésére vezetjük vissza. ekintsük a k=v x +v x +...+v p x p lineáris kombinációt azzal a megszorítással, hogy a súlyok négyzetösszege: v v=. Az e feltétel mellett maximált Var(k) varianciát kanonikus varianciának nevezzük: v ( Var kv ) ( xx ) λ = max ( ) = max v C v. Általánosságban t=,,...,p számú, páronként korrelálatlan k t komponenst véve, és varianciáikat az x változók összegzett varianciájának a százalékában kifejezve, a maximálási követelményt az elsı m (m=,,,p) komponens összegzett varianciájára fogalmazzuk meg: 3 t t = ( ) = max p VE m j = m λ v Var( x ) a VE(m)= maradék nélküli reprodukció feltétele mellett. Adott komponenshez tartozó v t súlyvektor a V súlymátrix t. oszlopát alkotja, ahol V ortonormált, és V V=I a (p,p) rendő egységmátrix. A (4.) kovariancia mátrix analógiájára a fıkomponensek (diagonális) kovariancia mátrixa C kk = V C xx V (4.3) ahol bármely két különbözı komponens közötti kovariancia zéró. E feltételek mellett a k t lineáris kombinációkat fıkomponenseknek nevezzük. A C kk mátrix átlóján a fıkomponensek λ,λ,...,λ p varianciái, egyben a C xx mátrix sajátértékei szerepelnek. E sajátértékek nem negatívak, hiszen a kovariancia mátrix pozitív szemidefinit. A V mátrix oszlopai a C xx kovariancia mátrix normált sajátvektorai. A (4.3) egyenlet következménye, hogy az x változók varianciáinak összege megegyezik a fıkomponensek varianciáinak összegével. A mátrixok nyomára (trace) vonatkozó szabály, és V ortonormált volta alapján a kanonikus varianciák összege az x változók összegzett varianciáját reprodukálja: 4 tr(c kk ) = tr(c xx V V) = tr(c xx ) p p p. = Var( x ) = λ = Var( k ) j t t j= t = t = Kihasználva, továbbá, hogy V ortonormáltsága miatt V =V -, a (4.3) egyenletbıl a kovariancia mátrix ún. spektrális felbontása adódik: C xx = VC kk V. (4.4) A spektrális felbontás alapján (a determinánsokra vonatkozó tételeket használva) az általánosított variancia a kanonikus varianciák a szorzataként is definiálható: 5 GV = det(c xx ) = det(v)det(c kk )det(v ) = det(v VC kk ) = det( C ) = λ. 4.3 Példa Kétváltozós esetben a kovariancia mátrix két sajátértéke zárt formulára vezet, és elemezhetı a két variancia, és a kovariancia függvényében. A sajátérték feladat definíció szerint a (C (,) - λi (,)) v = 0 egyenlet megoldását igényli. Ennek csak akkor van v 0 megoldása, ha a (C-λI) együttható mátrix nem invertálható, vagyis szinguláris. Ehhez az együttható mátrix determinánsának zérónak kell lennie. Mivel (,) rendő mátrix determinánsa a fıátlóelemek szorzata és a mellékátló elemek szorzata különbsége, ezért kétváltozós esetben feladatunk a j kk p t = t 3 A követelmény megnevezése: Variance Explained. 4 Egy négyzetes mátrix nyoma a főátlóelemek összegét jelenti, és tr(ab)=tr(ba) 5 Szorzat determinánsa megegyezik a tényezők determinánsainak a szorzatával. 5

26 σ λ C x det = ( σx λ)( σ y λ) C = 0 C σ y λ λ tekintetében másodfokú polinom zérushelyeinek a meghatározása. (C most értelemszerően a C x,y kovarianciát jelenti.) A zárójeleket felbontva: melynek zérushelye: Könnyen ellenırizhetı, hogy ( ) λ σ + σ λ + σ σ = 0 x y x y C σ x + σ y σ x σ y λ = ± + C λ + λ = σ + σ x y x y C λ λ = σ σ.. (4.5) A fentiek alapján az alábbi általános megállapításokat tehetjük: A két sajátérték összege megegyezik az eredeti varianciák összegével, míg szorzatuk a kovariancia mátrix determinánsát nyújtja. Ha a két változó korrelálatlan, vagyis C=0, akkor λ =Var(x) és λ =Var(y). Ha a két változó között függvényszerő lineáris kapcsolat van, akkor C=σ x σ y, és λ =Var(x)+Var(y) és λ =0. Ha a két változó varianciája megegyezik, és ez σ, akkor λ = σ ± C Ha mindkét változó standardizált, akkor λ = ± r. A sajátértékek ismeretében a sajátvektorokat úgy határozzuk meg, hogy az aktuális sajátvektor két elemének négyzetöszszege legyen: v + v =, v + v =. Standardizált változók kovariancia mátrixa a változók korrelációs mátrixa, melyet R jelöl. Mivel ez esetben R diagonálisán speciálisan az egységnyi varianciák szerepelnek, ezért R nyoma a változók számával egyenlı: tr(r)=p. Ebbıl viszont az következik, hogy R sajátértékeinek az összege p: p λ t R = p. t = Kétváltozós esetben a korrelációs mátrix spektrális felbontása mindig felírható az alábbi formában: r + r 0 r = 0 r A SZÓRÓDÁSI MÁRIX A kovariancia mátrix képzésének egyféle módja az X adatmátrixból képzett X X szóródási mátrixon alapul: N x x x x x x p X XX XX p x x x x x x p XX X X X p X X = = (4.6) N N N x px x px x px p XX p X X p X p ahol Σ a sokaság minden egyedére vonatkozó szummázást jelenti, és az X X mátrixszorzat az X mátrix minden lehetséges oszloppárosításának skaláris szorzatát tartalmazza. A szóródási mátrix fıbb tulajdonságai az alábbiak: Pozitív szemidefinit, mivel bármely v 0 vektorral a v X Xv = (Xv) (Xv) 0 reláció teljesül, hiszen itt az Xv vektor önmagával vett skaláris szorzatáról van szó, mely elemeinek a négyzetösszegét képezi. Ez pedig sohasem lehet negatív. 6

27 Centrált változók esetében a kovariancia mátrixszal esik egybe: Xd Xd = C xx N ahol X d oszlopai centrált változók. Standardizált változók esetén a korrelációs mátrixot állítja elı. ahol X z oszlopai standardizáltak. X z X z = R xx N ÖBBVÁLOZÓS NORMALIÁS A végtelen, p-dimenziós sokaságot p-dimenziós normális eloszlásúnak mondjuk µ és Σ paraméterekkel, azaz x~n(µ,σ), ha az x=[x,x,...,x p ] vektorváltozó sőrőségfüggvénye: ( ) x µ Σ ( x µ ) f ( x) = e (4.7) p / ( π) detσ ahol a µ paraméter az eloszlás p-dimenziós várható érték vektorát, a Σ paraméter pedig a (p,p) rendő pozitív definit kovariancia mátrixát reprezentálja. Ha x~n(µ,σ), akkor az x,x,...,x p változók bármely lineáris kombinációja egyváltozós normális eloszlást követ. ovábbmenve, ekkor (x-µ)~n(0,σ) eloszlású, vagyis (x-µ) k j fıkomponensei (j=,,...,p) zéró várható értékő, λ j varianciájú normális eloszlású, egymástól független véletlen változók: k j ~N(0,λ j ), ahol λ j a Σ mátrix megfelelı sajátértéke. ekintsük most a szóródási paraméter Σ=VLV spektrális felbontását, ahol V oszlopai Σ sajátvektorait, az L diagonális mátrix átlója pedig a sajátértékeket tartalmazza. E spektrális felbontással a sőrőségfüggvény exponenciálisa p szabadsági fokú khi-négyzet eloszlásra hozható, mivel: ( ) x µ Σ ( x µ ) = ( x µ ) VL V ( x µ ) = A fenti eredményt összefoglalva: ( V ( x µ )) L ( V ( x µ )) = = λ k k k p λ p p p p = k j k j = z j ~ p λ Var( k ) = χ. = k L k = k k... k λ p = j= j j = j j= ( x µ ) Σ ( x µ ) ~ χ p amellyel a sőrőségfüggvény tömörebb formában f ( x) = e χ p / ( π) detσ Vegyük észre, hogy itt χ nem más, mint az x pontnak a µ centroidtól vett Mahalanobis távolsága. A normalitásból származó másik nevezetes eloszlás az u Au idempotens kvadratikus forma eloszlása, ha u standard normális független változókat tartalmazó vektorváltozó, A pedig idempotens mátrix: A = A. Idempotens mátrix sajátértéke ugyanis csak az, és a 0 értékek valamelyike lehet, különben a hatványaik megváltoznának, és nem teljesülne a VL V = VLV követelmény. Látható, hogy L diagonálisán nem szerepelhet egytıl, vagy zérótól különbözı sajátérték. együk fel, hogy az sajátértékek száma K<p, és így az A mátrix rangja is K (tehát szinguláris, vagyis nem invertálható). Ekkor a kvadratikus forma értéke (a fenti indoklás analógiájára) K szabadsági fokú khi-négyzet eloszlást követ: (4.8) 7

28 u Au = u VLV u ( ) ( ) = V u L V u z = z Lz = z z... z p K z j ~ K. j = = χ z 0 z p 8

29 5 FİKOMPONENS VÁLOZÓK ELEMZÉSE A fıkomponensek az x j (j=,...,p) változók helyettesítését, azok varianciájának tömörítését szolgáló, magukból a változókból képzett olyan k t (t=,,...,p) lineáris kombinációk, melyek varianciájaλ t, páronként korrelálatlan rendszert alkotnak, és a sokaságban a változókat maradék nélkül reprodukálják: kt = v t x + vt x v jt x j v pt x p (5.) x j = v jk + v j k v jtkt v jpk p. (5.) A súlyok dupla alsó indexében az elsı (j) index x változóra, a második (t) pedig k fıkomponensre utal. A v jt súlyokat a V (p,p ) mátrixba foglalva, annak t. oszlopa az x változók súlyozására szolgál a k t fıkomponens kalkulálása érdekében, j. sora pedig a k fıkomponensek súlyozására szolgál az x j változó kalkulálása érdekében. Centrált, zérus átlagú x változók esetén a fıkomponensek is zérus átlagúak, és varianciáik összegével az x változók varianciáinak az összegét reprodukálják. Zérus átlagú fıkomponens értelmezésbeni elınye, hogy pozitív értékei átlagosnál nagyobb, negatív értékei pedig átlagosnál kisebb értékkel bíró megfigyelési egységet tükröznek. A fıkomponensek egymással való korrelálatlanságának köszönhetıen a v jt súly kizárólag a k t fıkomponens közvetlen hatását tükrözi az x j változó alakulásában. Ez az érzékenység-vizsgálatot egyszerősíti. Ha ugyanis a fıkomponensek egymással korrelálnának, akkor e multikollinearitás révén a többi fıkomponens változása befolyásolná a k t komponens alakulását, és ez az indirekt hatás is jelentkezne a v jt súlyban. A v súlyoknak statisztikai értelmet ad, ha segítségükkel kifejezzük az x változónak a k fıkomponenssel való kovarianciáját: ( t, j ) = ( t,( j + j jt t jp p )) = jt ( t, t ) = jt ( t ) Cov k x Cov k v k v k v k v k v Cov k k v Var k hiszen a fıkomponensek egymással páronként korrelálatlanok. Ebbıl következıen, a zéró átlagú fıkomponenst standardizált formában használva, vagyis a és ahol Végül λ t szórásával osztva: f = t k t λ v jtkt = v jt λ t ft = a jt ft x = a f + a f a f a f j j j jt t jp p a = v λ. jt jt t (, ) ( ) Cov f x = a Var f = a t t j jt t jt hiszen ekkor Var(f t )=). A standardizált fıkomponenst súlyozó a jt együttható ún. loading jellegő súly, mivel nagyságrendje azt fejezi ki, hogy a vizsgált x j változó alakulását mely fıkomponensek töltik fel tartalommal, tükrözik leginkább. Az a jt súlyokra a késıbbiekben vagy a tömör loading, vagy az értelemszerő faktorsúly megnevezéssel hivatkozunk. Standardizált xɶ változók mellett az a jt súly korrelációt jelent: r = a ft, xɶ j jt. Erre támaszkodva adott fıkomponens statisztikai tartalmát a vele legszorosabban (akár pozitív, akár negatív irányban) korreláló változók adják. 5.. Példa A példa adatállománya egy kereskedelmi bank 4 ügyfelére (vállalkozásra) vonatkozik, pénzügyi mutatóik alapján hasonlítva össze ıket. A bank célja az ügyfélkör minısítése, rangsorolása három dimenzió, nevezetesen azok likviditása, eladósodottsága, és jövedelmezısége tekintetében. E három szempont (látens tulajdonság) jellemzése érdekében az alábbi hat mérlegbıl és eredménykimutatásból számított indikátort (változót) mérjük:. Gyors likviditási ráta: GyorsLR = (forgóeszköz-készlet) / rövid lejáratú kötelezettség. Likviditási ráta: LikvidR = forgóeszköz / rövid lejáratú kötelezettség 3. Eladósodottság: Eladósod = 00*hosszú lejáratú kötelezettség/(hosszú lejáratú kötelezettség + saját tıke) 4. Bonitás: Bonitás = 00* hosszú lejáratú kötelezettség / saját tıke 5. Eszközarányos jövedelmezıség: EszkJöv = (adózott eredmeny + értékcsökkenés)/összes tárgyi eszköz 6. Árbevétel arányos jövedelmezıség: ÁrbJöv = (adózott eredmeny + értékcsökkenés)/nettó árbevétel. 9

30 Az - mutatók a rövidtávú fizetési képességet, a 3-4 mutatók a hosszú távú kötelezettségek mértékét, az 5-6 mutatók végül a gazdálkodás jövedelmezıségének színvonalát hivatottak tükrözni. Megjegyezzük, hogy mindhárom szemponthoz a döntéshozó további indikátorokat is főzhetne. 5.. tábla Pénzügyi mutatók leíró statisztikái Indikátor Átlag Szórás Rel.szórás. Korrelációs mátrix: Rxx GyorsLR LikvR Eladósod Bonitás EszkJöv GyorsLR LikvidR Eladósod Bonitás EszkJöv ArbJöv A korrelációs mátrix tükrözi az elemzı prekoncepcióját, miszerint az indikátorok három szempontot szeparáltan jellemeznek, hiszen a korrelációk között csak 3 jelentısen magas abszolút értékőt találunk, és éppen a szinoním indikátorok között. A minısítést végzı hipotézise, hogy a 6 indikátort 3 fıkomponensbe sőrítve, azok az információ túlnyomó hányadát megırzik, a vizsgálati szempontoknak megfelelı tartalommal lesznek felruházva, és így szolgálni fogják a vállalkozások rangsorolását, és szegmentálását. Az ügyfelekre vonatkozó indikátorokat standardizált X változatukban - az alábbi táblázat tartalmazza. A korrelációs mátrix sajátértékei rendre: λ=.606,.88,.3, 0.65, 0.084, Így az elsı 3 fıkomponens a 6 egységnyi összes variancia 95. százalékát reprodukálja. Az információvesztés tehát elhanyagolható. 5.. tábla: X = F Λ A Cég gylr lr elad bonit cf/e cf/á f f f3 f4 f5 f6 Standardizált fıkomponensek A faktorsúly-mátrixa f f f3 f4 f5 f A = gylr lr elad bonit cf/e cf/á Λ = Átlag Var(.) A változóknak a fıkomponensekkel történı elıállítását tömören a szinguláris érték felbontás (SVD eljárás) fogalmazza meg, amely szerint bármely valós X (n,p) mátrix felírható az alábbi formában: 6 X = FΛ V = (5.3) ( ) = = F VΛ FΑ (5.4) ahol az X (n,p) mátrix a változókra végzett megfigyelések értékeit, az F (n,p) mátrix az egymással páronként korrelálatlan és standardizált f fıkomponensek értékei, aλ = λ, λ,..., λ p diagonális mátrix diagonális elemei pedig a fıkomponensek szórásait (egyben az ún. szinguláris értékeket) tartalmazzák. A 6 Singular value decomposition. Az SVD eljárást a fejezet függeléke részletesen bemutatja. Változó alatt ebben az alfejezetben az x jellegű változókat fogjuk érteni. 30

31 VΛ = Α (5.5) mátrixba foglalt súlyok a loading-mátrixot alkotják. A (5.3) feladat az F F = C N ff = R ff = I, és a V V=I ortonormáltági feltételek mellett, az X X szóródási mátrix N spektrális felbontása útján oldandó meg, mivel a szóródási mátrix SVD kifejtésével, és az átalakítások elvégzésével: X X = VΛV. N Ekkor a szóródási mátrix λ, λ,..., λ p sajátértékei a fıkomponens varianciákat (a szinguláris értékek négyzeteit) jelentik, miközben V oszlopai a a megfelelı sajátvektorok. Így a k fıkomponensek kovariancia mátrixa, és a loading jellegő súlyok közötti összefüggés (5.5) felhasználásával: ( ) ( ) = = = A A VΛ VΛ Λ C kk. (5.6) Mivel Λ diagonális, a loading mátrixban bármely két oszlop skaláris szorzata zéró, ha az oszlopot nem önmagával szorozzuk. Ha viszont önmagával szorozzuk, akkor az így rögzített fıkomponenshez tartozó t. oszlop négyzetösszege az illetı fıkomponens varianciáját eredményezi: p t t jt j = Var ( k ) = λ = a ( t =,,..., p). (5.7) A (5.3) SVD felbontás egyszerő átrendezésével a standardizált fıkomponensek is elıállíthatók a változókból, az alábbi súlyrendszer felhasználásával: ( ) ahol VΛ az ún. fıkomponens-"score" koefficiensek mátrixa. Visszatérve a loading elemzéséhez, a (5.3) azonosságot elıbb az F = X VΛ (5.8) N X, majd az F mátrixszal balról szorozva: N X X = X FA, N N F X = F FA. N N Ha a változók centráltak, akkor a fenti egyenletek (lásd a szóródási mátrix (5.6) tulajdonságait) az alábbi formában is írhatók: C = C A (5.9) xx xf C fx = C ff A (5.0) ahol C ff = Rkk = I, mivel a fıkomponensek páronként korrelálatlanok és standardizáltak. Ezután (5.0) transzponálásával, majd a (5.8) azonosságnak balról, az X mátrixszal való szorzása révén N C = AR = C ( VΛ ) (5.) xf kk xx adódik, ahol C tartalmilag attól függıen jelöl kovariancia, vagy korrelációs mátrixot, hogy a változók csak centráltak, vagy standardizáltak is. A változók és a fıkomponensek közötti páronkénti kapcsolatok rendszerét leíró C xf kovariancia (korrelációs) mátrixot struktúrának nevezzük. és így a (5.) formulából C A (5.) következik, vagyis korrelálatlan fıkomponensek esetén a struktúra- és a loading-mátrix egybeesik. A loading további tulajdonsága (5.9) és (5.) egybevetésébıl: C xx = AR kk A (5.3) amibıl egymással korrelálatlan fıkomponensek mellett C = xx AA (5.4) adódik. 7 A fenti azonosság alapvetı, hiszen azt mondja, hogy a loading mátrix bármely két sorának skaláris szorzata a két sorindexhez (j,h) tartozó változók közötti kovarianciát (korrelációt) maradék nélkül reprodukálja: xf = 7 Mivel az x változó a főkomponensek lineáris kombinációja, ezért ez az azonosság a kovariancia algebrából azonnal következik. 3

32 Cov( x, x ) = a a ( j, h =,,..., p). (5.5) j h jt ht t = p Ebbıl következıen, standardizált változók esetén r jj =, vagyis ilyenkor a loadingok bármely sorában a súlyok négyzetöszszege:. Végül a standardizált fıkomponensek megfigyelésenkénti k it értékeinek közvetlen elıállítása érdekében, a változók súlyozására szolgáló score koefficiensek mátrixa a (5.) formulából az alábbi: vagy a loading súlyok felhasználásával másképpen VΛ = C C (5.6) xx VΛ = VΛ Λ = AΛ. A fıkomponenseket értelmezendı, a változókat külön-külön hozzárendeljük ahhoz a fıkomponenshez, amelyikkel a legszorosabban korrelál. Ez által a változók olyan csoportosulásai rajzolódnak ki, amely csoportokon belül a változók egymással szorosan, más csoportok változóival viszont (a fıkomponensek egymással való korrelálatlansága következtében) gyengén korrelálnak. Ennek eredményeképpen a fıkomponens statisztikai tartalmát a hozzá rendelt változók tartalma nyújtja. Mivel a loading a fıkomponens és a változó közötti kovariancia (az esetek többségében lineáris korrelációs együttható), ezért a fıkomponensek értelmét a loadingok A mátrixának a mintázata mutatja. Nyilvánvaló, hogy a leginkább szóródó fıkomponensek tartalmát adó változók tekintetében szóródik a leginkább, és a legkevésbé szóródó fıkomponensekkel szorosan korreláló változók tekintetében szóródik a legkevésbé a vizsgált sokaság. A fent mondottakat összefoglalva megállapíthatjuk, hogy mind a változók, mind a fıkomponensek a másik változókör elemeinek lineáris kombinációi, ahol a súlyok megválasztásától függıen (a sajátvektorok megfelelı v jt eleme, vagy az a jt loading, vagy a score koefficiens) nyerhetünk standardizált vagy nem standardizált adatból is akár standardizált, akár nem standardizált adatot. Az X változók (5.3) SVD felbontását bármely F és A ortogonális transzformáció kielégíti, ha a (p,p) rendő ( p,p) transzformációs mátrixra a =I p ortonormáltsági követelmény teljesül, ugyanis: xf ( ) X = ( F)( A) = F A = FA. Az ortogonális transzformáció után a fıkomponensek továbbra is páronként korrelálatlanok ( F) ( F) = F F = I. N N Végül az SVD felbontást négyzetes minimum tulajdonság is jellemzi, az alábbi felírásból kiindulva: µ v µ v X = k k k p. µ p v p Ebbıl kitőnik, hogy az X adatmátrix diádok összegeként is elıállítható: p p ˆ t t t t t t = t = X = µ k v = µ X. 5.. ADAREDUKCIÓ ÉS VESZESÉG Amennyiben az információ tömörítése végett csak az elsı m<p számú fıkomponenst használjuk, akkor az alábbi követelményeket, tulajdonságokat kell szem elıtt tartanunk. Mindenek elıtt a megırzött fıkomponensek által az összes varianciából reprodukált (maximált) VE(m) hányad érjen el egy ésszerően magas arányt, például 80%-ot. Az x változók öszszegzett varianciájának csak akkor van tárgyi értelme, ha azonos mértékegységőek. Ha ez nem teljesül, akkor érdemes az x változókat is standardizálni, és ekkor kovarianciájuk megegyezik korrelációjukkal, varianciáik összege pedig a változók p számával egyenlı. A megtartott fıkomponensekkel - a (5.4) módon - csak maradékkal tudjuk a kovariancia (korrelációs) mátrixot reprodukálni, hiszen a m ˆ ( m) x j, x h jt ht = x j, x h x j, xh t = C a a C C reziduális kovariancia csak akkor zéró, ha m=p, vagyis valamennyi fıkomponenst használjuk. Itt a 3

33 Cˆ = m ( m) x j, x a h jtaht t= mértéket reprodukált kovarianciának nevezzük. Innen, mivel az önkovariancia mindig varianciát jelent, standardizált változók esetén pedig a kovariancia korrelációnak felel meg, és a variancia egységnyi, ezért standardizált változókat használva a m ( m) x j, x = j j = j t= rˆ a VE ( m) kumulált négyzetes súly azt mondja meg, hogy az elsı m számú fıkomponens az x j változó varianciájának mekkora százalékát reprodukálja. A VE j (m) mutatót az X j változó elsı m fıkomponensre vonatkozó kommunalitásának nevezzük. Minél magasabb valamely változó kommunalitása, és ezzel összhangban minél alacsonyabbak a reziduális korrelációk (kovarianciák), annál jobban magyarázzák a megırzött fıkomponensek a változók ingadozását. A reprodukált, és így a reziduális kovariancia (korrelációs) mátrix is invariáns az ortogonális transzformációra, hiszen ha A m a loading-mátrix elsı m oszlopát tartalmazza, és = I, akkor m m m ( )( ) A A A A C ˆ. (5.7) ( m) m m m m = m m = xx 5.. AZ EGYSZERŐ SRUKÚRA IGÉNYE Ha a fıkomponensek a változókat nehezen értelmezhetı csoportokra bontják, akkor fölmerül a m transzformáció igénye, és megválasztásának a problémája. A fıkomponensek értelmezése érdekében érdemes azt a transzformációt választani, amely mellett a loading-mátrix az ún. "legegyszerőbb" struktúrát mutatják. Egyszerő struktúra alatt azt értjük, mikor egy változó lehetıleg csak egy fıkomponenshez tartozik nagy abszolút súllyal, és egy fıkomponens viszonylag kevés számú változót tölt fel nagy súllyal. Perfekt, tökéletes egyszerő struktúráról akkor beszélünk, ha adott x változó csak egy fıkomponenshez tartozik nem zéró súllyal. Standardizált változók esetén a loading egyben lineáris korreláció, tehát ilyenkor az -hez közeli abszolút értékő súly számít nagynak, és természetesen a zéróhoz közeli elhanyagolhatónak. Az egyszerő struktúra definíciója láthatóan nem egyértelmő, többféle ésszerő kritérium is megfogalmazható az egyszerő struktúrát mutató loading mátrixszal szemben. Egyféle kritérium lehet, hogy a négyzetes loading súly adott fıkomponenst rögzítve a lehetı legnagyobb mértékben szóródjon. Ez a variancia maximálás (5.Hiba! A könyvjelzı nem létezik.) alapján azt a tendenciát eredményezi, hogy a loading-mátrix adott oszlopában kevés -közeli, és sok zéróközeli abszolút érték található. Az egyszerő struktúra valamely kritériumának eleget tevı m transzformációval létrehozott loading mátrix elemeit rotált, elforgatott loadingoknak nevezzük. A négyzetes loading-értékek varianciáját fıkomponensenként rendre maximáló kritériumot VARIMAX kritériumnak nevezzük. Az elforgatott fıkomponensek tartalmukat tekintve már nem fıkomponensek, hanem ún. faktorok. Az alábbi példa illusztrálja a fıkomponensek tulajdonságait. A példában a fıkomponens azonosítója k, standardizált változatban f, elforgatva és standardizáltan pedig FK. A standardizált értékek között a pozitív érték átlag feletti céget, zéró érték átlagos céget, negatív érték pedig átlag alatti ügyfelet jelez. Mivel az indikátorok mértékegységei különbözık (van közöttük két százalékos), és így varianciáik összegének nincs tárgyi értelme, ezért a fıkomponenseket a korrelációs mátrix spektrális felbontása alapján határozzuk meg. A változók leíró statisztikáit, és korrelációs együtthatóikat a következı tábla tartalmazza. Az alábbiakban az ún. Little Jiffy elvre mutatunk egy példát. Ez az elv azt diktálja, hogy tartsuk meg az egynél nagyobb (az átlagosnál nagyobb) sajátértékő fıkomponenseket, majd derékszögő VARIMAX forgatással próbáljuk meg tartalommal felruházni ıket.a derékszögő VARIMAX módszerrel elforgatott három fıkomponens faktorsúlyait (loading-mátrix), a standardizált indikátorok súlyozására szolgáló faktorscore-koefficienseket, és a három faktor által meg nem magyarázott, reziduális korrelációkat az alábbi tábla közli. 5.. tábla A becsült faktormodell jellemzıi Indikátor VARIMAX faktorsúlyok Kommu- Faktorscore koefficiens Reziduális korrelációk FK FK FK3 nalitás FK FK FK3 GyLR LikvR Elad Bonit EJöv ÁJöv GyorsLR LikvidR Eladósod Bonitás EszkJöv ÁrbJöv

34 A kommunalitások nagyon magasak, tehát a csekély információvesztés nem csak globálisan, hanem az indikátorok szintjén külön-külön is elmondható. A rotált faktorsúlyok ideális, egyszerő struktúrát mutatnak: a magas faktorsúlyok alapján kirajzolódott, hogy az elsı faktor a jövedelmezıséget, a második az eladósodottságot, a harmadik pedig a likviditást tükrözi. Az ügyfelek faktorscore (FK) szerinti rendezése tehát az egyes szempontok szerinti rendezést is magukban foglalják. Mivel konstrukciójából adódóan a faktor is zéró átlagú, ezért pozitív értéke most is átlag felettiséget, negatív értéke pedig átlag alattiságot jelent. A faktorscore-koefficiensek segítségével elıállított score-értékeket mindhárom faktorra és valamennyi ügyfélre az alábbi táblába foglaltuk, majd rangsorba szedtük. Eszerint a 9 nevő cég a jövedelmezıségi faktorban FK=3. értéket vesz fel, ami extrém, kiugróan átlag feletti jövedelmezıségre utal. A legkevésbé eladósodott ügyfél FK=-0.55 alapján a 7 nevő cég, míg likviditás tekintetében a 4 ügyfél FK3=-0.04 értékkel átlagosnak mondható. A szabadságfokkal osztott Chi /3 érték a három faktor terében a centroidtól (most az origótól) vett normált (szabadságfokkal osztott) Mahalanobis-távolságot méri, tehát a kiugró, extrém, ún. outlier egyedek azonosítását szolgálja. Ez alapján, és ez a rangsorokban is kitőnik, a 9.,0.,9. ügyfelek kilógnak a tipikus tendenciából. Ha az ügyfeleket a faktorok alapján tovább klaszterezzük, akkor ıket tanácsos kihagyni a csoportképzésbıl, mert úgyis egyelemő klaszterben várhatók megjelenni tábla Ügyfelek a pénzügyi faktorok tükrében Cég- FK FK FK3 Chi /3 FK rangsor FK rangsor FK3 rangsor név cégnév FKS cég FKS cégnév FKS Megjegyezzük, hogy például az. ügyfél esetében a score az elsı faktorban az alábbiak szerint alakul: 0.37 = ( 0.37) + ( ) ( 0.7) ( 0.08) ahol varimax faktorscore mátrix = R A. Az outlier, kiugró esetek azonosításakor a centroidtól vett Mahalanobis távolság tesztelésére is lehetıség nyílik. A most Chi megnevezéső Mahalanobis távolság ugyanis, feltéve, hogy a vizsgált változók többdimenziós normális eloszlást követnek, chi-négyzet eloszlású annyi szabadsági fokkal, amennyi a tér változóinak a száma. Példánkban a 3 faktor esetén a szabadsági fok 3, a 95%-os percentilis 7.85, tehát, ha a többváltozós normalitás tartható, akkor 5%-os szignifikancia szinten a 7.85/3 érték számít kritikusnak a Chi /3 statisztika nagyságrendje szempontjából. 8 A többváltozós normalitás semmiképpen nem tartható, ha már a fıkomponensek sem követnek egyváltozós normilás eloszlást. 9 A fıkomponensek normalitásvizsgálatát illetıen (kiemelve a jövedelmezıségi faktort) a faktor normál-probability-plot ábrája az alábbi, az ábra nem mond ellent a normalitásnak. xx (3) χ / 3 = 7.8/ 3 =.6, ahol ( ) χ = x x C ( x x ) 8 3(.95) 9 öbbváltozós normális eloszlás bármely metszete (a változók bármely lineáris kombinációja) így a főkomponensek is, egyváltozós normális eloszlást követnek. 34

35 5.3. ábra Normal-probability-plot: jövedelmezıségi faktor 5..3 A KANONIKUS VARIANCIA A v C xx v = λ v kanonikus variancia feltételes maximálása a v v-=0 normáltsági feltétel figyelembe vételével a Lagrangemultiplikátor módszer alkalmazását jelenti, miszerint: ( v Cxxv ( v v ) ) λ = Cxx v λ v = 0 v ahol λ a multiplikátor. Ez az egyenlıség pedig v 0 megoldást csak olyan λ mellett nyújt melyre a ( C λi xx ) együttható mátrix szinguláris, tehát determinánsa zéró: det ( C λ I xx ) = 0. Látható, hogy λ a Cxx kovariancia mátrix sajátértéke, tehát maximálása a legnagyobb sajátérték meghatározását jelenti. A sajátérték birtokában: ( C λ I xx max ) v = 0 (5.8) amibıl kalkulálható a hozzá tartozó v λ sajátvektor, mellyel (ha szükségünk van rá) számíthatjuk a k λ fıkomponenst FİKOMPONENSREGRESSZIÓ yˆ = b + b x b x b x becsült modell egyik felhasználási lehetısége a parciális regressziós paraméterek Az 0 j j p p értelmezése: egyéb feltételek változatlansága mellett, ha abszolút értelemben x j egységnyivel nı, akkor y várhatóan b j egységnyivel nagyobb. Ha azonban a magyarázó változók között jelentıs a sztochasztikus kapcsolat mértéke, vagyis szignifikáns a multikollinearitás, akkor az útelemzés alapján x j egységnyi növekedése várhatóan a többi magyarázó változóban is változást indukál, tehát y megváltozásában a többi regressziós paraméter közvetett hatása is jelentkezik. Így az egyéb feltételek nem maradnak változatlanok, ezért a regressziós paraméterek értelmezhetetlenekké válnak. Kézenfekvı a gondolat, hogy a multikollineáris magyarázó változók rendszerét helyettesítsük a belılük létrehozott korrelálatlan fıkomponensekkel: yˆ = a + a k a k a k = a + a k 0 t t p p 0 t t t = A fıkomponenseket meghatározhatjuk akár a standardizált, akár a centrált x változók kovariancia mátrixából kiindulva. Centrált változók esetén a kovariancia mátrix λ λ... λ p sajátértékei és a megfelelı v,v,...,v p sajátvektorai felhasználásával a fıkomponensekre vonatkozó parciális regressziós paraméterek definiálása az p 35

36 C a Cov y v x v Cov y x p p y, kt t = =,, jt j = jt j σk λ j j t t = λt = ( ) módon történik, ahol t=,,...,p, λ t a megfelelı fıkomponens varianciája, és a 0 = y, mivel valamennyi fıkomponens átlaga zérus. (A paraméterek kétváltozós formuláját az indokolja, hogy a fıkomponensek páronként korrelálatlanok, a formula átalakításakor pedig a kovariancia lineáris felbontására vonatkozó CLD tételt használtuk.) Standardizált magyarázó változók esetében, mikor Var(x j )=, a fıkomponensek parciális regressziós paramétereinek a formulája (t=,,...,p) az alábbiak szerint írható: p at = v * jtσ yry, x j λt j= ahol most λ * t a magyarázó változók korrelációs mátrixának a sajátértékét jelöli. Kihasználva ezen a ponton, hogy a fıkomponensek a magyarázó változók lineáris kombinációi, az eredményváltozó becsült értéke az eredeti magyarázó változók szerepeltetésével: p p ( j = ) yˆ = a + a k = a + a v x = 0 t t 0 t jt j t = t = p p ( t = ) = a + a v x = a + b x 0 t jt j 0 j j j= j= p. Innen az eredeti magyarázó változókra vonatkozó regressziós paraméterek számítási módja: p j = a t tv = jt. b Amennyiben a fıkomponens regressziót standardizált magyarázó változókból kiindulva hajtjuk végre, a b j koefficiensnek nincs tárgyi értelme. Ilyenkor visszaállítjuk x j eredeti varianciáját a szórásával való átskálázás (fölszorzás) útján, majd a paraméterét osztjuk ugyanezen szórással. Az eredeti mértékegységben értelmezhetı paraméter tehát (mikor a standardizált magyarázó változók fıkomponenseit használjuk): b = σ. * p j a tv t = jt x j Nyilvánvaló, hogy ha valamennyi fıkomponenst használjuk a regressziós modellben, akkor ugyanazt a paramétervektort nyerjük akár a standardizált, akár a centrált magyarázó változókból indulunk ki, és ez egybeesik a klasszikus legkisebb négyzetek módszerével becsült paraméterekkel. A fıkomponens regresszió lényege tehát, hogy csak az elsı m legfontosabb fıkomponenst ırizzük meg a magyarázó változók reprodukálásakor. Ekkor a becsült paraméterek számítási módja: b b = m a v j( m) t= t jt = σ. * m j( m) a tv t = jt x j 5.. Példa A magyar vállalkozásokat négyjegyő EÁOR (tevékenységek egységes osztályozási rendszere) számjegyük alapján - alaptevékenységük szerint homogén osztályokba soroljuk, és az így létrejött 468 szakágazatot (tevékenységi csoportot) mérlegmutatóik, nevezetesen az egy vállalkozásra jutó átlagos mérlegadatok tekintetében jellemezzük. Eredményváltozónk az értékesítés nettó árbevétele (NARB, millió forint), a magyarázó változók pedig: a készletek értéke (KL, millió forint), a vevıkkel szembeni követelések állománya (VEVOK, millió forint), a hosszú és rövid lejáratú kötelezettségek állománya (HLK, RLK millió forint) és a foglalkoztatott létszám (fı). A megfigyelések tehát szakágazaton belül egy vállalkozásra értendık, és szakágazatonkénti átlagos értékeik és relatív szórásaik az alábbiak: Változó Átlag Relatív szórás NARB KL VEVOK HLK RLK FO p 36

37 Mivel a változók mértékegysége nem egyforma (millió Ft és fı is szerepel), ezért a fıkomponenseket a magyarázó változók korrelációs mátrixából határozzuk meg. Valamennyi változó korrelációs mátrixa az alábbi: A korrelációs mátrix: Változó NARB KL VEVOK HLK RLK KL VEVOK HLK RLK FO A klasszikus legkisebb négyzetek módszerével becsült modell többszörös determinációs együtthatója R =0.935, továbbá a becsült paraméterek és jellemzıik az alábbiak: 5.4 táblázat Paraméterbecslés Változó b j se(b j) t-érték P-érték olerancia Stand.reg.coeff b KL VEVOK HLK RLK FO táblázat A variancia analízis (ANOVA) eredményei SUM OF SQUARES DF MEAN SQUARE F-érték P-érték REGRESSZIÓ REZIDUALIS A szignifikánsan magas F-érték arra utal, hogy a regresszióból származó négyzetösszeg jelentısen magasabb a véletlen hatásokból származó reziduális négyzetösszegnél. Ezzel szemben a fıkomponens regresszióval nyert paraméterek és jellemzıik az alábbiak: A magyarázó változók korrelációs mátrixának sajátértékei: , , , 0.068, , melyek kumulatív megoszlásai: , , , ,, és a megfelelı sajátvektorok: 5.6 táblázat Sajátvektorok v v v3 v4 v5 r y,x KL VEVOK HLK RLK FO Az értékesítés nettó árbevételének (NARB) a fıkomponensekkel vett korrelációi rendre: , , , 0.008, A fıkomponensekkel magyarázott NARB becsült lineáris regressziója: ŷ = k k k k k 5 ahol a nettó árbevétel átlaga, és például = ( ) ahol 5.04 a nettó árbevétel relatív szórása, σ y = pedig a szórása. A sajátérték végül az elsı fıkomponens varianciája. 37

38 ovábbmenve. b = 3.95 = melybıl b * = 3.95 / ( ) =.997. A millió forintban mért készlet (KL) változó e paramétere mind az öt fıkomponenst használja, és így rekonstruálja a klasszikus legkisebb négyzetek módszerével kapott paramétert. Az alábbi tábla arról tájékoztat, hogy a fıkomponenseket egyesével, az eredmény változóval való korrelációjuk sorrendjében vonva be a magyarázó változók közé, miként változik a modell magyarázó ereje, valamint a eredeti mértékegységre átszámolt parciális, reziduális regressziós paraméterek értéke. 5.7 táblázat Regressziós koefficiensek a fıkomponensek felhasználásával Fıkomponens R engelymetszet Mgyarázó változók paraméterei KL VEVOK HLK RLK FO Mint látható, elég az elsı fıkomponenst használni ahhoz, hogy a nettó árbevétel varianciájának 88.5 százalékát megırizzük, miközben a paraméterek elhanyagolható mértékben tartalmazzák a többi változó közvetett, tovább győrőzı hatását. Így például, ha egy szakágazatban az átlagos vállalkozás készletnagysága millió forinttal emelkedik, akkor ennak hatására nettó árbevétele várhatóan.5 millió forinttal emelkedik, az elsı két fıkomponenst használva az elırejelzésre. Azért az elsı kettıt, mert a többszörös determinációs együttható itt még jelentısen, utána viszont elhanyagolhatóan emelkedik. 38

39 6 KLASZERANALÍZIS A heterogén adatállományt alkotó objektumok homogén csoportokra bontása az adatbányászat egyik alapvetı statisztikai mozzanata. A létrehozott csoportok következtetésre akkor alkalmasak, ha csoporton belüli viszonylatban az objektumok homogének, tehát a globális heterogenitás oka a csoportközi viszonylatokban keresendı. A csoportokat a sokaságról rendelkezésre álló információ tömörítésére, az egyedeit jellemzı tulajdonságok statisztikai kapcsolatának a vizsgálatára, elırejelzésre, de outlier extrém, kiugró értékek azonosítására is használjuk. Relatíve kevés (a sokaság elemszámához képest kevés) csoport kialakítására törekszünk. A fenti elvárásoknak eleget tevı alcsoportokat klasztereknek nevezzük A csoportosítandó objektum lehet a megfigyelés a változók terében, de lehet a változó is a megfigyelések tekintetében. Sıt, bizonyos megfigyelések, bizonyos változók tekintetében hasonló blokkjait is kereshetjük. echnikailag a klasztereket úgy alakítjuk ki, hogy az egymáshoz leginkább hasonló objektumok alkossanak önálló klasztert. A klaszterek száma és a klasztertagságok az eljárás végén válnak ismertté. A klaszter értelmét az elemeit kis veszteséggel helyettesítı tipikus objektuma nyújtja. Ez lehet az átlagos megfigyelés, vagy lehet változók fıkomponense. A klaszteranalízis adatbázisát az x,x,...,x p változóknak n megfigyelésre vonatkozó értékei alkotják. Ha a változók különbözı mértékegységőek, vagy különbözı mérési skálán mértek, akkor célszerő standardizálni azokat, egyes változók nagyobb súlyt kapnak a távolság, illetve a hasonlóság mérése során. Ha egy változó kimenetelei kategóriák, akkor a kategóriákat vagy diszkrét számértékekkel, vagy indikátor (dummy) változók egy rendszerével helyettesítjük. A klaszterek kialakítására hierarchikus vagy iteratív jellegő technikák állanak rendelkezésre. A hierarchikus módszereken belül agglomeratív és divizív eljárásokat különböztetünk meg. Az iteratív eljárás a megfigyelési egységeket annyi induló csoportba sorolja, amennyit a felhasználó az eljárás elején meghatározott, majd a klaszterezendı egységeket szükség esetén más klaszterbe helyezve át jut el a végsı csoportosításhoz. A hierarchikus technikák viszont a csoportok formálódásának a folyamatát mutatják be, a két extrém csoportosítás között. Az agglomeratív módszerek abból indulnak ki, hogy minden egyes objektum egy egyelemő klaszter, melyeket lépésrıl lépésre, egyre távolabbi objektumokkal bıvítünk addig, míg valamennyi objektum egyetlen klaszterben, a sokaságban nem egyesül. A divizív módszerek ezzel szemben elıbb a sokaságot, majd az egyre szőkülı klasztereket addig hasítják ketté, míg mindenki egy önálló klasztert nem alkot. A hierarchikus klaszterezés során az egyszer már közös klaszterbe került egyedek közös klaszterben is maradnak, illetve a már szétválasztottak külön is maradnak. 6. A MEGFIGYELÉSI EGYSÉGEK KLASZEREZÉSE A csoportképzı ismérvek (változók) lehetséges kimeneteleit, kategóriáit megadva az osztályozás egyértelmő abban az értelemben, hogy ki melyik kategóriához tartozik, melyik kritériumnak tesz eleget. Így a sokaság minden egyes elemét a vizsgált kritériumok együttesének egy sorozata jellemzi. Gazdálkodó egységek sokaságát tekintve például az millió forintos adózott nyereséget termelı, 5 alkalmazottat foglalkoztató korlátolt felelısségő társaság, melynek alaptıkéje 5 millió forint, és könyvvizsgálással foglalkozik, a kritériumok egy konkrét együttesét mutatja, amely együttest általánosságban kovariánsnak nevezünk. Ha a sokaságban sok egyed tartozik egy kovariánshoz, akkor ez a csoport a szóban forgó kritériumok szempontjából homogén klasztert alkot. Ha valamennyi változó folytonos, akkor extrém értelemben mindegyik megfigyelési egység egy önálló kovariáns, mely egy egyelemő klasztert definiál. Minél kevesebb a csoportképzı ismérv lehetséges kimeneteleinek a száma, annál szőkebb a lehetséges kovariánsok száma is, és ilyenkor több megfigyelés is azonos kovariánshoz tartozik, klasztert képezve. A klaszter tartalmát tehát a kovariánsa nyújtja. Ha a mőködési formát illetıen a sokaságban csak betéti társaság, korlátolt felelısségő társaság és részvénytársaság van, akkor a betéti társaságot rögzítı kovariánsok mőködési forma tekintetében tökéletesen homogén klasztereket jelentenek, és ugyanez a helyzet a másik két társasági forma tekintetében is. Ha viszont a csoportképzı ismérv számszerő, folytonos, mint például a nyereség (veszteség) mértéke, akkor annak terjedelmét sok szők osztályra kell hasítanunk ahhoz, hogy valamely osztályának valamely kovariánsa ha nagy gyakorisággal is fordul elı -, de homogén egyedek csoportját jelentse. A megfigyelési egységek klaszterezése során gyakorlatilag olyan egymástól jelentısen elütı kovariánsokat keresünk, melyek az egyedeket kevés számú, nagy gyakoriságú alcsoportban különítik el. Korántsem biztos, hogy a vizsgált sokaságban vannak ilyen homogén csoportok. echnikailag a klasztereket úgy alakítjuk ki, hogy az egymástól legkisebb távolságra levı egyedek kerüljenek egy-egy önálló (az analízis elıtt még ismeretlen) csoportba. A klaszterek száma és a klasztertagságok az eljárás végén alakulnak ki. Mivel a kovariáns a klaszter valamennyi egyedét jellemzi, ezért a klaszteranalízis egyféle adatredukciós technika, melynek veszteségét a belsı variancia mértéke számszerősíti. A folytonos jellegő mennyiségi változók terjedelmének szegmentálása és diszkrét jellegővé konvertálása már az analízis elıtt végrehajtható, de nem szükségszerő. 6.. AGGLOMERAÍV KLASZERFORMÁLÁS: LÁNCMÓDSZER 39

40 A hierarchikus klaszterképzés során az egymástól legkisebb távolságra lévı, illetve az egymással legnagyobb hasonlóságot mutató klasztereket soroljuk közös csoportba. ezért definiálnunk kell az egyesítési szabályt, hogy mit értünk két klaszter távolsága, illetve hasonlósága alatt. E definició birtokában a távolság (hasonlóság) mérése már csak egy megfelelı d metrika kiválasztását igényli. Alapvetıen az alábbi klaszteregyesítési eljárások közül választhatunk. Legközelebbi szomszéd elve, vagy egyszerő láncmódszer: két klaszter távolságát (hasonlóságát) a legközelebbi (maximális hasonlóságot mutató) elemeik távolságával (hasonlóságával) azonosítjuk. Legtávolabbi szomszéd elve, vagy teljes láncmódszer: két klaszter távolságát (hasonlóságát) a legtávolabbi (minimális hasonlóságot mutató) elemeik távolságával (hasonlóságával) azonosítjuk. Centroid módszer: két klaszter távolságát az átlagos klaszteren belüli elemek távolságával azonosítjuk. Átlagos láncmódszer: két klaszter távolságát (hasonlóságát) elemeik átlagos páronkénti távolságával (hasonlóságával) azonosítjuk. Ward-módszer: a Ward-féle elv két klaszter távolságán az egyesítésükkel kialakuló klaszteren belüli külsı variancia mértékét érti. Megállapodás szerint egy objektum önmagától vett távolsága zérus, és önmagára hasonlít a leginkább. A választott metrikának olyannak kell lennie, hogy két objektum egymástól való távolsága invariáns legyen az objektumok sorrendjére, illetve a mérési skála mértékegységére. Az agglomeratív láncmódszer kiindulásaként mindegyik egyedet egy-egy önálló klaszternek tekintjük, és klaszteregyesítések sorozatán keresztül utolsó lépésben egyetlen klaszterhez, a sokasághoz jutunk. Eközben lépésenként mindig csak a két legközelebbi klasztert egyesítjük, az alábbi algoritmus szerint. A klaszteregyesítést megelızıen az éppen rendelkezésre álló m számú klaszter között valamennyi párosításban megmérjük a d gt ( m ) távolságot, ahol g és t két tetszıleges klasztert jelöl az m lépésben. Ezután az egymáshoz legközelebb esı g * és t * klasztereket egyesítjük. Az eljárás akkor ér véget, amikor már mindenki egyetlen közös klaszterhez tartozik. A klaszterek egyesítésének menetét a klaszterfa jeleníti meg. E dendrogram nem más, mint az n számú klaszterezendı objektum összes lehetséges csoportosításából egy csoportosítás sorozat, melynek elsı és utolsó eleme a két triviális csoportosítás: az izolált objektumok rendszere, illetve a nem csoportosított sokaság. A klaszterfát a 6.. ábra szemlélteti. 6.. ábra: Klaszterfa ávolság Objektum d d d 3 d 4 A fenti láncmódszer ugyanazon klaszterezendı sokaság esetében is eredményezhet más és más klaszterfákat attól függıen, hogy melyik egyesítési eljárást, és milyen d metrikát alkalmazunk. Az alábbiakban a fontosabb klaszteregyesítési szabályokat, és metrikákat ismertetjük. A k-elemő legközelebbi szomszéd módszere E módszer szerint - az egyszerőség kedvéért elıbb a síkban gondolkodva - két klaszter távolságán azt a minimális r körsugarat értjük, amelyre mindkét klaszterben létezik egy-egy elem, melyeket r sugarú körök középpontjaiként tekintve, a két kör metszete k számú, a középpontoktól különbözı elemet lefed, vagy érint. Általánosságban tekintsük az A={a,a,,...,a na } és B={b,b,...,b nb } klasztereket. Ekkor a két klaszter távolsága az a legkisebb d k (A,B) érték, amely mellett létezik olyan i,j indexpár és x,...,x q,...,x k pont, amelyre d(a i,x q ) d k és d(b j,x q ) d k teljesül, miközben a i x q, b j x q. A centroid módszer 40

41 Ez az eljárás az átlagszámítás elvét használva, két klaszter távolságán a centroidjaik közötti távolságot érti. A g. klaszter centroidját az egyes változók klaszteren belüli átlagainak a sorozata alkotja: n g c = x ( j =,..., p) gj n g i= ahol n g a g. klaszterben lévı megfigyelési egységek száma. Bármelyik klaszteregyesítési elvet választjuk is, két klaszter távolságát mindig két pont távolságára vezetjük vissza. A Ward-féle eljárás ij Ward alternatív módszere szintén hierarchikus, agglomeratív technika, mely a klaszterképzéssel együttjáró információveszteség minimalizálásán alapul. A veszteséget a klaszteren belüli, valamennyi változóra összesített eltérésnégyzetösszeggel mérve, a kezdeti állapotban természetesen zérus a veszteség. Két megfigyelési egységet közös klaszterbe sorolva azonban nı a veszteség, viszont attól függıen, hogy mely két klasztert vonjuk össze, nem egyforma mértékben. Az eljárás során mindig azt a két klasztert vonjuk össze egy objektummá, amelyek egyesítése esetén a veszteség növekedése a legkisebb. ávolságmértékek Az elızıekben megismert általános Mahalanobis távolságmérték mellet az alábbi speciális metrikákat említjük meg. Folytonos változók esetén alkalmazható, paraméteres távolság a Minkowski távolság, melynek formulája az i és c pontok közötti távolságot mérve, az r paraméter függvényében: p r dminkowski ( i, c) = xij xcj. j= Az r paraméter értékének a változtatásával d M többé, vagy kevésbé érzékeny az extrém koordinátákra. A Minkowski mérték r= esetén a d E euklideszi távolsággal ekvivalens, r= esetén pedig a d Cb ún. city-blokk távolságot eredményezi. A Minkowski távolság (és így az euklideszi távolság is) érzékeny a változók mértékegységének a megválasztására. Ezt az alábbi példa szemlélteti. 6.. Példa ekintsük az A személyt súlya és magassága alapján a sík pontjaként, magasságát elıbb centiméterben, majd méterben kifejezve. Feladatunk, hogy az illetıt az adott C és C centroidok közül ahhoz soroljuk tagként, amelyikhez közelebb esik. Az alábbi tábla a páronkénti d E euklideszi távolságokat közli: 6.. tábla: Személyek közötti euklideszi távolságok Személy Súly Magasság d E (kg,cm) d E (kg,m) r A C C kg cm m A C C A C C ahol d A C kg cm = + = E (,, ) (70 73) (70 90) 0. d A C kg m = + = E (,, ) (70 73) (.7.9) 3.0 d A C kg cm = + = E (,, ) (70 75) (70 85) 5.8 d E ( A, C kg, m ) = (70 75) + (.7.85) = 5. A magasságot centiméterben mérve az A személyt a C csoporthoz, míg méterben mérve a C középponthoz soroljuk. Ez természetes, hiszen A a súly tekintetében a C centroidhoz, míg magasságát tekintve a C centroidhoz áll közelebb, és ez utóbbi tengelyen a koordináták távolsága az euklideszi metrikában a mértékegyégtıl függıen föl is nagyítódhat, de jelentéktelenné is válhat. A változókat a szórásukkal standardizálva, a távolságok rangsora már érzéketlen az eredeti mértékegyég megválasztására. Folytonos változókra alkalmazható továbbá a Bray-Curtis koefficiens is: 4

42 d BC ( i, c) = p j= p j= Diszkrét kimenetelő mérési eredmények terében a távolság, vagy a hasonlóság mérése speciális metrikákat igényel. Ezek közül az alábbiakat említjük meg. Két megfigyelés hasonlóságának a jellemzésére használhatjuk a lineáris korrelációs együtthatót, annak abszolút értékét, vagy a két megfigyelés által bezárt szöget, vagyis a korreláció (abszolút) értékének az arcus cosinuszát. Ha a lineáris korrelációt alkalmazzuk, akkor értelmeznünk kell, hogy mit értünk hasonlóbb, és kevésbé hasonló alatt. Ezt világítja meg három megfigyelés, és az x,x,x 3,x 4 diszkrét változók esetén a 6.. tábla: 6.. tábla Hasonlósági probléma Megfigyelés x x x 3 x A lineáris korrelációk az elsı megfigyelés viszonylatában: r,=, és r,3=0.8. Kérdés tehát, hogy az a két megfigyelés a hasonlóbb, amelyek egymáshoz képest kevesebb új információt tartalmaznak, vagy az a kettı, amelyek koordinátáik alapján közelebb húzódnak egymáshoz a térben. Arra az esetre, ha a változók speciálisan dummy jellegő {0,} kimenetelő változók, a távolság mérésére az A és B pontok között alábbi két metrikát említjük meg. A Jaccard-koefficiens: f djaccard ( A, B) = f + f0 + f0 és a metching-koefficiens: f + f00 dmetching ( A, B) = f + f0 + f0 + f00 ahol f AB annak gyakorisága hogy az idexben szereplı értékpáros (a sorrendjükre is tekintettel) hány változó esetén fordul elı az A és B egyedek viszonylatában. 6.. Példa A megfigyelési egységek (esetek) agglomeratív klaszterezésére 4 részvénytársaság csoportosítását mutatjuk be példaként, a részvénytársaságok 4 pénzügyi mutatója alapján, melyek a következık (a zárójelben a mértékegység mellett a változó rövidített azonosítója szerepel): x : alaptıke (millió forint, Alaptoke) x : az elızı évi adózott eredmény (millió forint, EeAdEred) x 3: az utolsó osztalék (%, UtOszt) x 4: az egy részvényre jutó eredmény (forint, Er/Rv). Az adatokat a.3 tábla közli tábla Részvénytársaságok pénzügyi adatai Cég Alaptoke (MFt) EeAdEred (MFt) UtOszt (%) Er/Rv (Ft) x x ij ij x cj + x cj. 4

43 Átlag Szórás A pénzügyi mutatók közötti páronkénti korrelációkat a 6.4. táblába, a változók standardizált adatait pedig a 6.5 táblába foglaltuk: 6.4. tábla A pénzügyi mutatók korrelációs mátrixa Változó Alaptoke EeAdEred UtOszt Er/Rv Alaptoke.0000 EeAdEred UtOszt Er/Rv tábla A változók standardizált adatai Cég Alaptoke EeAdEred UtOszt Er/Rv tábla A részvénytársaságok egymástól való euklideszi távolságai Cég A fentiek birtokában, az euklideszi távolságmértéket és a legközelebbi szomszéd egyesítési elvét választva, a klaszterek formálódását az alábbi klaszterfán követhetjük nyomon: 6.. ábra Klaszterfa az egyszerő láncmódszerrel ávolság A részvénytársaság sorszáma (neve) d I I I I I I I I + I I I I 0.3 I I + I I I I I I I I I I I I I I I I I I I I + I I I I I I I I I I I I I I I I I I I I I I I I I I I I I.5 I + I I I I I I I I.56 + I I I.533 I I I Az ábrán a sorszáma azonosítja a részvénytársaságokat. A 6.. ábráról leolvasható, hogy az 5. és a 3. cég van egymáshoz a legközelebb, ezért ık kerültek az elsı lépésben összevonásra, d=0.63 távolsági szinten. Ez a távolság az induló távol- 43

44 ságmátrix minimális eleme. Az összevonás eredményeként kialakult objektumot (klasztert) +, a már meglévı objektumokat pedig (akár egy, akár több elemő) I azonosítja. Az aláhúzás a klasztertagságokat jelzi. Ezt követıen ismét kételemő klaszterek jönnek létre, nevezetesen (0, d=0.3) és (,4 d=0.588). A 4. lépésben már egy háromelemő klaszter formálódik d=0.635 távolsági szinten úgy, hogy a 0., és. társaságokhoz csatoljuk a 8. céget is: (0,,8). Az 5. lépésben már közös klasztert alkotnak az (,4,0,,8) társaságok. A gondolatmenetet folytatva az utolsó, 3. lépésben valamennyi részvénytársaság egyetlen klaszterhez, a sokasághoz tartozik. Mint látható, a klaszterfán nyomon követhetjük a klaszterek formálódását. Célunk azonban általában egy konkrét csoportosítás kiválasztása. Ebben irányíthat minket, ha elıre rögzítjük a kívánt klaszterszámot. Ha például 4 klaszterre szeretnénk bontani a 4 céget, akkor az eredményrıl a 0. lépés tájékoztat (d=.56), miszerint a., a., és a 3. társaság külön-külön egyelemő klasztert alkot, míg az összes többi a maradék egy klasztert definiálja. Ez a csoportosítás természetesen messze van az ideálistól, hiszen az egyelemő klaszterek nyilván extrém egyedeket jelentenek, a többi cég viszont, bár közös klaszterben van, várhatóan heterogén csoportot képez. Általánosságban megfogalmazható elv tehát, hogy klaszteranalízis elıtt standardizáljuk a változókat, majd az extrém, outlier egyedeket zárjuk ki a vizsgálatból. Így elkerüljük az egyelemő csoportokat, és a kialakult klaszterek várhatóan homogének lesznek. A klaszterek összevonására most a centroid elvet választva (de maradva továbbra is az euklideszi távolságnál), a klaszterek alakulását az alábbi klaszterfán követhetjük nyomon: 6.3. ábra Klaszterfa a centroid módszerrel ávolság A részvénytársaság sorszáma (neve) d I I I I I I I I + I I I I 0.3 I I I I + I I I I I I I I I I I I I I I I I I I I I I I I I I I I + I I I I I I I I I I I I I.7 I I + I I I I I I I I I I I I I I I I.533 I I I A fenti klaszterfáról leolvasható, hogy bár az elsı lépésekben még megegyezik, de a 4. lépésben már különbözik az elızı dendrogramtól (a 8. céget most az. és a 4. céggel kapcsoljuk össze), azonban 4, vagy 3 klasztert definiálva a klasztertagságok megegyeznek a legközelebbi szomszéd módszerével nyert tagságokkal. A klaszterek jellemzését szolgálja az alábbi riport a klaszterfáról, mely az aktuálisan kialakult klaszter centroidját is közli. Az utolsó lépésben a zéró centroidhoz (az origóhoz) jutunk, mivel az input adatok most standardizáltak tábla Riport a centroid módszer klaszterfájáról Egyesítés Euklideszi a b Elemszám Alaptoke EeAdEred UtOszt Er/Rv sorszáma távolság határ* centroid** * Az A és B klaszterek egyesítésével aktuálisan kialakult klasztert a klaszterfán határoló A és B-beli egyedek. ** Az aktuálisan formálódott klaszter centroidja 6.. BANKI ÜGYFÉLKÖR ESEANULMÁNY 6.8 tábla: Euklideszi távolságmátrix három faktor (jövedelmezıség, eladósodottdág, likviditás) terében Cég

45 tábla: Háromfaktoros klaszterképzés, centroid, és legközelebbi szomszéd módszerrel AMALGAMAION Centroid LKSZ ORD DISANCE CASES FREQ Joved_f Ados_f Likvid_f Dist * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * I I I I I I I I I -+- I I I I I I I I I I I I I 0.08 I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I --+- I I I I I I I I I I I I I 0.58 I I I I -+-- I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I 0.6 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 0.46 I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 0.7 I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I 0.38 I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I 0.43 I I I I I I I -+- I I I I I I I I --+- I I I I I I I I I I I I 0.46 I I I I I I I I I I I I I I I I I I I I I I I I I 0.47 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I --+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I --+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I --+- I I I I I I I I I I I ábra Egyfaktoros klaszterképzés, centroid módszerrel, euklideszi távolsággal Lépés Joved átlag * * * * * * * * * * * * * * * * * * * * * * * * 0.35 I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I --+- I I I I I I I I I I I I I I I I I I I I I I 0.7 I I I I I I I I -+- I I I I I I I I I I I I I I I I I 0.07 I I I I I I I I I I I I I I I I I I I I I I I I I I I --+- I I I I -+- I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I Lépés Ados átlag * * * * * * * * * * * * * * * * * * * * * * * * I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I -+-- I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I --+- I I I I I I I I I I I I I I --+- I I I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 0.58 I I I I I I I I I I -+- I I I I I I --+- I I I I I I I I -+- I I I I I I I --+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I --+- I I I I 45

46 Lépés Likvid átlag * * * * * * * * * * * * * * * * * * * * * * * * I -+- I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I --+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I -+-- I I I I I I I.77 I I I I I I I I I I I I I I I I -+- I I I I I I I I I I I I I I I -+- I I I I --+- I I I I I I I I I I I I I I I I I I I I I I I I I I --+- I I I I I I I I I I I I I I I I.7 I DIVIZÍV JELLEGŐ MÓDSZEREK A divizív módszerek kezdetben a megfigyelési egységeket egyetlen közös klaszter elemeiként kezelik, s bontják szét elsı lépésben két klaszterré. Ezen a ponton rögtön egy komoly probléma jelentkezik, hiszen n megfigyelési egység esetén a sokaságot ( n -)/ különbözı módon lehet két klaszterré bontani. Emiatt még gyors számítógépek használata esetén is érdemes e kezdeti szétbontást valamilyen racionális szempont figyelembe vételével végrehajtani. Ha már a kezdeti szétbontás rendelkezésünkre áll, akkor az objektumokat egyik klaszterbıl a másik klaszterbe átmozgatva finomítjuk a klasztertagságokat, majd a következı lépésben mindkét klasztert újból két klaszterré bontjuk szét. A divizív eljárások tehát a kezdeti szétbontás mikéntjében és az újabb alcsoportok meghatározásának a módjában különböznek. A nagyszámú divizív technikák közül az alábbiakban egyet ragadunk ki, majd egy másikat késıbb, az iteratív módszer kapcsán tárgyalunk. Az átlagos távolság alapján szétbontó eljárás kezdetekor kiszámítjuk valamennyi megfigyelési egységnek az összes többitıl vett átlagos távolságát és a legnagyobb átlagos távolságot eredményezı megfigyelési egységet mint leválasztott klasztert, a maradék megfigyelési egységeket pedig mint fı klasztert kezeljük. Így két csoporthoz jutunk. Ezt követıen meghatározzuk a fı klaszter mindegyik elemének az átlagos távolságát egyrészt a leválasztott klaszter elemeitıl, másrészt a fı klaszter öszszes többi elemétıl. Ha egy fı klaszterbeli megfigyelési egység távolsága a lehasított klasztertıl kisebb, mint a fı klasztertıl, akkor ezt az egységet átsoroljuk a lehasított klaszterbe. Ezt az eljárást addig ismételjük, míg a leválasztott, és a fı klaszter stabilizálódik. Az ilymódon kialakult két objektum mindegyikét a fenti gondolatmenet alapján újabb két-két objektummá bonthatjuk egészen addig, míg valamennyi megfigyelési egység egy egyelemő önálló klasztert nem alkot. Egy további divizív technika az alábbi. Minden egyes j változó és g klaszter figyelembe vétele mellett meghatározzuk a Var jg varianciát, s kiválasztjuk azt a (j *,g * ) indexpárt, amelyre ez a variancia maximális. Ezután a g * klasztert a j * változó terjedelmének a középpontjánál két klaszterré hasítjuk szét. Ezt az eljárást addig folytatjuk, míg elérjük a kívánt klaszterszámot. Standardizált adatok esetében nem a maximális varianciájú, hanem a legrövidebb terjedelmő változó terjedelmének a középpontjánál bontjuk ketté a klasztereket. 6. K-KÖZÉPPONÚ KLASZEREZÉS A K-közép algoritmus kezdeti lépésként K számú induló klaszter definiálását igényli, és ezen induló klaszterek lépésrıl lépésre történı módosulásával alakul ki a végsı K számú klaszter. Induló klaszterek definiálására az alábbi módok valamelyikét javasoljuk. Ha valamilyen hipotézisünk van a klaszterhez való tartozásra vonatkozóan, akkor a megfelelı megfigyelési egységeket közös induló csoportokba soroljuk. Az induló klaszterek centroidjait definiáljuk. Konkrét megfigyelési egységeket megjelölhetünk, mint az induló klaszterek centroidjait. Hierarchikus klaszterezéssel bontjuk a sokaságot induló klaszterekre. A K-közép módszer az alábbi lépésekbıl áll.. Standardizáljuk a változókat.. Rögzítjük a kívánt klaszterszámot, és definiáljuk az induló klasztereket. 3. Ha szükséges, újra standardizáljuk a változókat a klaszteren belüli átlagos, pooled kovariancia mátrixszal. 4. Meghatározzuk a klaszterek centroidjait. 46

47 5. Megvizsgáljuk valamennyi klaszter mindegyik elemét, hogy a saját klaszterének a centroidjához áll-e a legközelebb. Ha igen, akkor a rendelkezésre álló klaszterek a végeredményt jelentik. Ha nem, akkor átsoroljuk az egységeket azokba a klaszterekbe, melyeknek a centroidjához a legközelebb esnek. 6. Ha voltak egységek, amelyeket el kellett mozdítani, akkor megváltoztak a klaszterek, és újraszámoljuk a centroidokat. 7. Ha nem voltak ilyen elemek, és a standardizálást csoporton belüli varianciával, vagy kovarianciával végeztük, akkor - mivel az utolsó standardizálás óta módosultak a klaszterek, s így az átlagos klaszteren belüli kovariancia mátrix is - újra standardizáljuk a változókat. A fenti algoritmus tehát akkor áll le, ha standardizálás után rögtön minden megfigyelési egység a saját centroidjához áll a legközelebb. A klaszterek formálása során mindig valamely megfigyelési egységnek valamely centroidtól való távolságát mérjük. E távolság mérésére a Mahalonobis-távolságnak a változók számával normált változatát alkalmazzuk: D ( i, g) = ( xig cg ) M ( xig c g ) p ahol x ig a g klaszterbeli i megfigyelési egység, c g pedig a g klaszter centroidja. Vizsgáljuk meg a D távolságképletet. Ha M egységmátrix, akkor vélelmezésünk szerint a változók ortogonális rendszert alkotnak, és így a p-dimenziós térben számított euklideszi távolság négyzetét használjuk. Ha M diagonális mátrix, és diagonális elemei a változók varianciái, akkor is ortogonálisnak vélelmezzük a változók rendszerét, de az euklideszi távolság számításakor egységnyi szórású változókat szerepeltetünk. Ezzel egyenlı súlyt adunk mindegyik változónak, akár milyen volt is az eredeti mértékegységük. Ha M diagonális mátrix, és diagonális elemei a változók belsı varianciái, akkor egységnyi belsı varianciájú változókat használunk. Ha M a kovariancia mátrix, akkor a távolságmérték kiszámításakor az egységnyi varianciájú változók terében azok korrelációs kapcsolatait is figyelembe vesszük. Végül, ha M az átlagos klaszteren belüli pooled kovariancia mátrix, akkor egységnyi belsı varianciájú változók korrelációs struktúrájára támaszkodunk a távolság számszerősítésekor. A standardizálás megválasztásával láthatóan a távolságképletet is rögzítjük. Itt hívjuk fel a figyelmet továbbá, hogy a Mahalanobis távolság invariáns a lineáris skálatranszformációkra. A K-közép algoritmus használatakor tanácsos a standardizáláshoz a Mahalanobis-távolság képletében az átlagos csoporton belüli kovariancia mátrixot választani, és az induló klaszterek definiálásához a divizív technikának és magának a K- közép algoritmusnak egyfajta keverékét alkalmazni. A divizív technikával ugyanis elsı lépésben nem K, hanem csak induló klaszterré hasítjuk a sokaságot, majd K-közép módszerrel kialakítjuk a végsı klasztert. Ezután újra a divizív elvet követve 3 induló klasztert hozunk létre, majd újra a K-közép módszerrel meghatározzuk a végsı 3 klasztert. Ezt követıen megint a divizív módszerrel 4 induló klasztert határozunk meg, s alakítjuk ki K-közép módszerrel a végsı 4 klasztert. Ezt az eljárást addig folytatjuk, míg a divizív módszer már az eredeti célnak megfelelı K számú induló klasztert nyújtja, amit most már a K-közép algoritmus valóban a végsı klaszterekké formál. A klaszterek egymáshoz való viszonyát a centroidjaik közötti távolságmátrix jellemzi, a klaszterek homogén voltának megítéléséhez a klaszteren belüli szórások nyújtanak támpontot, míg a változók csoportosításban betöltött relatív fontosságát a változónkénti külsı és a belsı eltérésnégyzetösszeg egymáshoz való aránya fejezi ki. A klaszterek homogenitását globálisan a Wilks lambda számításával jellemezhetjük. A klaszteranalízis végeredménye annál inkább értelmezhetıbb, minél kevesebb változót használunk csoportosító változóként. Ezért a klaszterezésre használt változókat tanácsos jelentıs fıkomponenseikkel helyettesíteni. A megfigyelési egységek klaszterezésével egy adott, rangsorba rendezett változót is csoportokra bonthatunk. Ha ugyanis a kérdéses változó (például fıkomponens) értékei között egymáshoz nagyon közelállók is vannak, akkor közöttük nincs értelme rangsorbeli különbséget tenni, és reálisabb a megfigyelési egységek rangsorát klaszterek rangsorára redukálni Példa ekintsük a 6. példában bevezetett 4 részvénytársaságnak a K-közép algoritmus felhasznlásával történı három klaszterre bontását, a Mahalanobis távolságban a klaszteren belüli pooled, átlagos kovariancia mátrixot szerepeltetve. A klasztertagságok, a saját centroidtól mért távolságok, valamint az átlagos klaszteren belüli távolságok a 6.0. táblában olvashatók tábla Klasztertagságok, és klaszteren belüli távolságok. klaszter. klaszter 3. klaszter Cég ávolság* Cég ávolság Cég ávolság

48 ..897 Átlag.43 Átlag.465 Átlag.647 * A saját centroidtól vett távolság A külsı szóródást jellemzendı, a klasztercentroidok közötti Mahalanobis távolságok: d M (,)=7.337, d M (,3)=0.464, és d M (,3)=6.49. Mint látható, a fenti csoportosítás mellett a részvénytársaságok szóródásában a klaszterközi külsı szóródás a domináns. A cégek számát redukálandó, az egyedi részvénytársaságok helyett a klaszterek centroidjaira, és a klaszterhez való tartozásra hivatkozhatunk. A négydimenziós centroidokat, és a változónkénti (egyváltozós) klaszteren belüli (korrigált) szórásokat a 6.. tábla tartalmazza. 6.. tábla Négydimenziós centroidok, és változónkénti szórások klaszteren belül Klaszter Centroid Klaszteren belüli szórás Alaptoke EeAdEred UtOszt Er/Rv Alaptoke EeAdEred UtOszt Er/Rv.( elemő) (4 elemő) (8 elemő) Összesen Az egyváltozós variancia hányadosok Var K/(Var K+Var B) értéke rendre: 86.8%, 68.6%, 6.5% és 73.8%. Az utolsó osztalék tekintetében tehát meglehetısen heterogének a csoportok. A klaszterek változónkénti profiljait az adott változó klaszterbeli átlagának a fıátlaghoz viszonyított relatív helyzete jellemzi. A Mahalanobis távolságban szerepeltetett, a standardizálás módját meghatározó csoporton belüli átlagos pooled kovariancia mátrix példánkban a következı: Változó Alaptoke EeAdEred UtOszt Er/Rv Alaptoke EeAdEred UtOszt Er/Rv A homogén klaszterek kialakítását könnyíti, ha a klaszterezést relatíve kevés változó alapján végezzük el, mivel ekkor kevesebb tulajdonság tekintetében kell az egyedeknek klaszteren belül hasonlítani egymásra. Kézenfekvı tehát, hogy klaszterezés elıtt a mérési változókat sőrítsük kevesebb számú fıkomponensbe, és a klaszterezést a fıkomponensek alapján hajtsuk végre. Példánkban az elsı két fıkomponens megtartásával csupán 3.36 százaléka vész el az összes varianciának, miközban a síkban is ábrázolhatjuk a részvénytársaságokat. Az elsı két fıkomponens értelmezését szolgáló faktorsúlyok a 6.. táblában találhatók. 6.. tábla Faktorsúlyok Változó FK FK Alaptoke EeAdEred UtOszt Er/Rv Az elsı fıkomponens az alaptıke és az elızı évi adózott eredmény alakulását, míg a második az utolsó osztalék, és az egy részvényre jutó eredmény alakulását tükrözi. A fıkomponensek vállalkozásonkénti értékeit (FK, FK) a 6.3. tábla közli tábla Részvénytársaságok fıkomponensei Cég FACOR FACOR

49 A fıkomponens-score arról tájékoztat, hogy a.,3.,. részvénytársaságok extrém értékkel bíró outlierek. A részvénytársaságok 3 klaszterre bontását (K-közép algoritmussal) két fıkomponens alapján a 6.4 tábla tartalmazza. A táblában a klasztertagságokat, és a saját centroidtól mért távolságokat olvashatjuk tábla Klasztertagságok fıkomponens alapján eljes minta. klaszter. klaszter 3. klaszter Cég ávolság* Cég ávolság Cég ávolság Átlag * ávolság a saját centroidtól. Az információtömörítést a megfigyelések számát illetıen a klaszteren belüli centroidok, a dimenziószámot illetıen pedig a fıkomponensek szolgálják. A klaszterek homogenitást pedig a külsı, és a belsı variancia egymáshoz való viszonya alapján ítéljük meg. Ezeket az információkat a 6.5. tábla közli tábla Klasztercentroidok, és klaszteren belüli szórások Klaszter Centroid Szórás FK FK FK FK.( elemő) (4 elemő) (8 elemő) A két egyváltozós variancia hányados Var K/(Var K+Var B) értéke rendre: 8.%, és 6.3%. Az elsı fıkomponens tekintetében tehát homogénebbek a csoportok, mint a második tekintetében. Fölhívjuk a figyelmet, hogy az elemzést célszerő lenne megismételni a.,3. és. outlierek elhagyásával, újra számolva a fıkomponenseket is. 49

50 7. KANONIKUS KORRELÁCIÓ öbbváltozós esetben a lineáris korreláció vizsgálata kiterjeszthetı két változócsoport közötti korreláció vizsgálatára is, ha mindkét csoportot egy-egy lineáris kombinációval helyettesítjük. Fölmerül a kérdés, hogy a két lineáris kombináció közötti korreláció milyen súlyrendszerekkel és milyen mértékben maximálható. A feladat a kanonikus korreláció fogalmához vezet el. 7. MODELLFOGALMAK ekintsük a standardizált változók x,x,...,x p, és a velük oksági kapcsolatban lévı, okozat jellegő, ugyancsak standardizált változók y,y,...,y q (q<p) csoportját, amely változók mindegyikére n számú megfigyeléssel rendelkezünk. árgyalásunkban az okozat jellegő eredmény változók alkotják a szőkebb csoportot, de ez nem kötelezı, sıt az ok és okozati irány rögzítése elhagyható. Képezzük az ok szerepét játszó x magyarázó változók lineáris kombinációjaként az u, és az y eredmény változók csoportjából képzett z lineáris kombinációk u = v x + v x + + v x t t t... pt p t = t + t qt q z w y w y w y párosait (t=,...,q), ahol valamennyi változó standardizált, és q p. A v és w súlyokat úgy határozzuk meg, hogy az u t és z t kanonikus változók közötti lineáris korreláció maximált legyen, miközben a kanonikus változók bármilyen más párosításban korrelálatlanok. E követelményeket fogalmazza meg a kanonikus változók korrelációs mátrixa az alábbi partícionált formában: u u z z u C = u z z q q q 0 r rq. r r 0 q q Az ilyen korrelálatlansági feltételek mellett maximált Cov(u t,z t )=r t lineáris korrelációt a t. kanonikus korrelációnak, az u t,z t változó párost pedig a t. kanonikus változópárnak nevezzük. Példaként 73 autómárka gyári jellemzıit vizsgáljuk. Ezek rendre az alábbiak: hengerőrtartalom (cm 3 ), lóerı (LE), tömeg (kg), végsebesség (km/h), gyorsulás ideje 00km/h-ra (mp), gyárilag ígért fogyasztás 00 kilométeren átlagosan 90 és 0 km/h sebességek mellett továbbá városban. Az értelemszerő rövidítések alkalmazásával a magyarázó és eredmény változók két köre a következı: A magyarázó jellegő változók köre: HengerUr, LE, omeg, az eredmény jellegő változók köre: VegSebes, Gyors00, 5 Fogy90, Fogy0, VarosiF. Fölhívjuk a figyelmet, hogy példánkban most a magyarázó jellegő változók köre alkotja a változók szőkebb körét. A páronkénti korrelációk mátrixa partícionált formában: 7.. tábla Korrelációs mátrix Változó HengerUr LE omeg VegSebes Gyors00 Fogy90 Fogy0 VarosiF y HengerUr.000 y LE y 3 omeg x VegSebes x Gyors x 3 Fogy x 4 Fogy x 5 VarosiF

51 Innen a kanonikus változók elıállítását szolgáló koefficiensek: 7.. tábla Kanonikus változók koefficiensei Változó Standardizált koefficiens z z z 3 HengerUr LE omeg u u u 3 VegSebes Gyors Fogy Fogy VarosiF A három lehetséges, maximált kanonikus korreláció (és zárójelben a négyzetes értékük) a következık: ( ), (0.484), 0.663(0.0766). A kanonikus változó értelmét a vele szorosan korreláló mérési változók adják. A kanonikus változók elemzésének eszköze tehát e korrelációk meghatározása. A kanonikus változónak a mérési változóval vett lineáris korrelációs értéke a kanonikus súly, vagy loading. Mivel standardizált változók kovarianciája egyben korreláció, az x j változónak az u t kanonikus változóval mért korrelációja: rx, u = Cx, u = C x,( v x + v x v x ) = ahol j=,,...,p és analóg módon j t j t j t t pt p = v r + v r v r t x j, x t x j, x pt x j, xp r = w r + w r w r yk, zt t yk, y t yk, y qt yk, yq ahol k=,,...,q. Példánkban a kanonikus struktúra, vagyis a vizsgált mérési változóknak a kanonikus változókkal vett lineáris korrelációi az alábbi tábla szerint alakul: 7.3. tábla A kanonikus súlyok (loading) struktúrája: Változó z z z HengerUr LE omeg u u u 3 VegSebes Gyors Fogy Fogy VarosiF A standardizált koefficiensekkel és a mérési változók egymás közötti korrelációs együtthatókkal például a hengertérfogat kanonikus súlya (loading) a csoportja elsı kanonikus változójával: r HengerUr, z = = A kanonikus loadingból további mutatók, az ún. redundancia indexek számíthatók. ekintsük az y eredmény változókat és a belılük levezetett z t kanonikus változót. Ekkor z t az y változók varianciáját átlagosan q ryt = ryk, zt q k = arányban magyarázza. Mivel ugyanekkor z t varianciájának u t az r t hányadát magyarázza meg, ezért u t az y változók szórásnégyzetének átlagosan az RI = r r hányadát determinálja. Hasonlóan: yt t yt 5

52 RI r r r r. p x = t t x j, u = t t xt p j = A kanonikus változók átlagos magyarázó erejét az alábbi redundancia indexek mutatják: 7.4. tábla Redundancia indexek Kanon.v r xu RI x r yz RI y r t E szerint az elsı kanonikus u változó az x változók varianciáját átlagosan 77.67% arányban, párja z pedig az y változók varianciáját átlagosan % hányadban okozza. Mivel z százalékban magyarázza u alakulását, ezért az y változók = , tehát átlagosan 74.5 százalékban determinálják az x változók ingadozását. A kanonikus korrelációk tesztelése A statisztikailag szignifikáns kanonikus korrelációk elhatárolása hipotézisvizsgálattal, szekvenciálisan történik. Elıbb azt teszteljük, hogy egyáltalán nincs lineáris kapcsolat a két változókör között, vagyis már az elsı, legnagyobb kanonikus korreláció sem különbözik zérustól. Ha ezt a hipotézist elvethetjük, akkor az a kérdés, hogy hány kanonikus korreláció szignifikáns. Általában az utolsó, legkisebb (q-k) számú (k=0,,,,q-) sokasági ρ kanonikus korrelációkra vonatkozó H 0: ρ k+=ρ k+=...=ρ q =0 hipotézist teszteljük. A k=0 esettel definiált globális null hipotézis elvetésével azt a következtetést fogadjuk el, hogy legalább az elsı, legnagyobb kanonikus korreláció nem zéró. Ezt követıen szekvenciális módon azt a null hipotézist teszteljük, miszerint a csökkenı sorba rendezett elsı k nem zérus kanonikus korrelációt követı maradék (q-k) kanonikus korreláció már mind zérussal egyenlı. A végsı döntés úgy történik, hogy k értékét zérótól indulva fokozatosan léptetjük, és mikor a null hipotézist elutasítjuk, akkor éppen az elsı k számú kanonikus változópár szignifikáns. E hipotézis-szekvencia tesztelésére a Bartlett-próba nyújt lehetıséget az y változók Wilks-lambdája alapján, ahol a Wilkslambdát most a négyzetes kanonikus korrelációk felhasználásával fejezzük: statisztikával teszteljük, ahol a reziduális Wilks-lambda: 3 p + q χ ( k) = n ln Λ q i= k + ( ri ) k Λ k =. (7.) A próbafüggvény H 0 érvénye mellett nagymintás esetben aszimptótikusan χ eloszlású (p-k) (q-k) szabadsági fokkal. A kanonikus korrelációk értéke, és Bartlett-féle szekvenciális tesztjük eredménye: 7.5. tábla Szekvenciális Bartlett teszt Sajátérték Kanonikus Szekvenciális Bartlett-teszt korreláció. H 0(k) χ DF PV Mint látható, az elsı maximált kanonikus korreláció , a második , míg az utolsó A Bartlett-teszt null hipotézise az elsı lépésben: H 0: ρ =ρ =ρ 3=0. A Wilks-lambda most: Λ 0 = ( )( 0.484)( ) =

53 amivel a teszt statisztika értéke χ = 73 ln ( ) = 63.3 melynek szabadsági foka DF=(5-0) (3-0)=5. E szabadsági fok mellett a χ =63.3 érték messze szignifikáns, hiszen a PV érték gyakorlatilag zéró. Elutasítjuk tehát azt a hipotézist (az alternatív hipotézist) miszerint egyetlen kanonikus változó sem szignifikáns. Ebbıl az következik praktikusan, hogy legalább az elsı, a legnagyobb szignifikáns. Kérdés, hogy van-e több statisztikailag szignifikáns kanonikus változópár is. Következı hipotézisünk tehát a sorban: H 0: ρ =ρ 3=0 amelyhez a reziduális Wilks-Λ értéke Λ = ( 0.484)( ) = a vonatkotó teszt statisztika értéke pedig χ = 73 ln ( ) = melynek szabadsági foka DF=(5-) (3-)=8. E szabadsági fok mellett a χ =46.58 értékhez gyakorlatilag zéró PV érték tartozik, tehát elvetjük a null hipotézist, vagyis amellett döntünk, hogy a maradék két kanonikus korreláció közül legalább a nagyobbik szignifikáns. A kérdés végül, hogy az utolsó kanonikus korreláció is szignifikáns, vagy sem. A teszt menete analóg a fentiekkel: H 0: ρ 3=0 amelyhez a reziduális Wilks-Λ értéke Λ = = a vonatkotó teszt statisztika értéke pedig χ = 73 ln ( ) =.893 melynek szabadsági foka DF=(5-) (3-)=3. E szabadsági fok mellett a χ =.893 értékhez tartozó ail-probability érték , tehát fönntartjuk a null hipotézist, miszerint az utolsó kanonikus változópár közötti (maximált) korreláció már nem szignifikáns. Látható, hogy a harmadik kanonikus változókkal egyik mérési változó sem korrelál jelentısen, tehát úgy tőnik, hogy ez a kanonikus pár praktikusan is elvethetı. Ezzel szemben az elsı kanonikus változókkal valamennyi megfelelı mérési változó szorosan pozitív elıjellel, kivéve a gyorsulást, mely negatív elıjellel korrelál. Alapvetı tendencia tehát, hogy a gépkocsi méretével általában a motor teljesítménye is nı, amivel várható a rövidebb idı alatt elért 00km/h sebesség, és nagyobb motor mindenhol többet fogyaszt mint a kisebb. ekintsük most a második kanonikus változókat, melyekkel nem csak a gyorsulás, hanem a hengerőrtartalom és a tömeg is negatívan korrelál. Másodlagos tendencia tehát, hogy magasabb lóerı kisebb tömeg, és kisebb hengerőrtartalom mellett is elérhetı, továbbá a nagyobb végsebesség és a jobb gyorsulás elsısorban a lóerınek, és nem föltétlenül a hengerőrtartalomnak köszönhetı. Végül a harmadik kanonikus változók, bár statisztikailag nem szignifikánsak, érzékeltetik, hogy alacsonyabb tömegő autókat is gyártanak nagyobb hengerőrtartalommal, de a magasabb motortérfogat nagyobb városi fogyasztást eredményez. 7. SZAKÁGAZAI ESEANULMÁNY Az alábbiakban a EÁOR négyszámjeggyel megkülönböztetett 469 szakágazatának (szakágazaton belül a vállalkozásokra összesített) mérleg és eredménykimutatás adatait vizsgáljuk, ahol a mutatók egyik (y) köre: nettó árbevétel (NarBev), üzleti eredmény (Ueredm), adózott eredmény (AdozEred), fizetett osztalék (Osztalek), személyi jellegő ráfordítás (SzeRafor), a másik (x) köre pedig rendre: befektetett eszközök (BefEszk), forgóeszközök (ForgEszk), hosszú lejáratú kötelezettségek (HlejKot), rövid lejáratú kötelezettségek (RlejKot), saját tıke (Sajoke), alkalmazott létszám (Letszam), a vállalkozások száma (VallalSz). Elemezzük a magyarázó és eredmény változók fenti két köre közötti kapcsolatot a kanonikus korrelációk segítségével, az alábbi eredmények alapján. 53

54 7.6. tábla Szakágazati mérlegsorok korrelációs mátrixa: Változó NarBev UEredm AdozEred Osztalek SzeRafor BefEszk ForgEszk HLejKot RLejKot Sajoke Letszam VallalSz NarBev.000 UEredm AdozEred Osztalek SzeRafor BefEszk ForgEszk HLejKot RLejKot Sajoke Letszam VallalSz tábla Szakágazati mérlegsorok kanonikus korrelációi Sajátérték Kanonikus Szekvenciális Bartlett-teszt korreláció. H 0(k) χ DF AIL-P tábla Szakágazati mérlegsorok kanonikus súlyai: Változó (y) Z Z Z3 Z4 Z5 NarBev UEredm AdozEred Osztalek SzeRafor Változó (x) U U U3 U4 U5 BefEszk ForgEszk HLejKot RLejKot Sajoke Letszam VallalSz

55 8 SZÓRÓDÁS CSOPOROSÍO SOKASÁGBAN A szóródás jellegzetes vetülete a g=,,...,m számú csoportra bontott sokaság egyedeinek a szóródása, ahol a g csoport elemszáma N g. Ekkor az egyedek szóródásában kétféle tendencia figyelhetı meg: a csoportközi különbségeket jellemzı külsı, és a csoporton belüli eltérésekben jelentkezı belsı szóródás. A sokaság totális szóródása e két hatás eredıje. Módszertani szempontból azt kell kimutatnunk, hogy a totális szóródás mekkora hányada köszönhetı az egyik, és mekkora a másik faktornak. Ebben segít a kovariancia csoportközi felbontása. 8. A KOVARIANCIA CSOPORKÖZI SRUKÚRÁJA A kovariancia csoportközi felbontása során a külsı Cov K kovarianciát a csoportátlagokkal helyettesített sokaság kovarianciájaként, a belsı Cov B kovarianciát pedig az átlagos csoporton belüli kovarianciaként definiáljuk. öbbdimenziós szóródás esetén a kovariancia mátrix felbontása a kovariancia csoportközi felbontásának az alkalmazása a változók minden párosítását tekintve. Így értelemszerően: C = C K + C B (7.) ahol C K a csoportátlagokkal helyettesített sokaság külsı, C B pedig az átlagos csoporton belüli kovariancia mátrix. 7. Példa ekintsük 8 telefonbeszélgetés idıtartamait (perc) és azok költségeit (Ft), a Ft/perc, 4Ft/perc és az Ft/perc díjkörzetek szerinti csoportosításban. A legolcsóbb díjtétel használata esetén beszélgetésenként Ft árengedményt adunk. A telefonbeszélgetések e kétdimenziós jellemzıit a 7. tábla tartalmazza. 7. tábla: elefonbeszélgetések szóródása Beszélgetés Csoportátlag Perc Díj:Ft P D Összesen 5 0 A táblában az egyes csoportokat vízszintes vonal határolja el egymástól. A csoportátlag címő két oszlopban P és D a percek, és a díjak csoportátlagaival helyettesített 8 beszélgetést reprezentálja. Ez utóbbi mesterséges sokaság tehát eltekint a csoporton belüli különbségektıl, ezért csak a csoportközi külsı szóródást tükrözi. így a totális kovariancia mátrix: Perc Díj a külsı kovariancia mátrix: C = Perc Díj D 6 4 majd a Cov = Cov K +Cov B összefüggésbıl a belsı kovariancia mátrix kivonással adódik: Perc Díj C K = P P D C = C = Perc B Díj 7.5 A belsı kovariancia mátrix az eredeti Perc és Díj tételek között, de csoporton belül, átlagosan jellemzi a változók varianciáit és a kovarianciát. Definíció szerint számolva tehát: C = 3 4 B 3 8 C + 8 C + 8 C = = = ahol C, C, C 3 rendre a csoporton belül meghatározott kovariancia mátrixok. A csoporton belüli homogenitás, illetve a csoportközi heterogenitás jellemzésére az ún. Wilks-lambda hányadost használ- 55

56 juk, mely a belsı általánosított varianciának a teljes általánosított varianciához való arányát fejezi ki: det( CB ) Wilks Λ = = det( C )det( CB ). (7.3) det( C) Minél alacsonyabb ez a hányad, annál homogénebbek a csoportok, és annál inkább a csoportközi szóródás dominál a sokaság totális szóródásában. Példánkban Wilks Λ = = tehát az adott csoportosítás a teljes varianciának csupán.5 százalékát nem magyarázza meg, így a csoportközi szóródás a meghatározó. 8. DISZKRIMINANCIA VÁLOZÓK A variancia hányados jellegő Wilks-lambda egyváltozós esetben a belsı és a teljes variancia hányadosává egyszerősödik. A többdimenziós szóródás esetén ezért érdemes a külsı és belsı szóródás vizsgálatát visszavezetni egyváltozós esetre, a megfigyelt változók valamely alkalmas z = b x + b x bp x p lineáris kombinációját képezve, melyet diszkriminancia változónak nevezünk. Ennek belsı és külsı varianciája: Var( z) = VarB ( z) + VarK ( z) vagy kvadratikus formában (fölhasználva a variancia lineáris felbontásának szabályát is): Var( z ) = b Cb = b C + C b ( ) B K = b CBb + b CKb. (7.4) A heterogenitás (homogenitás) jellemzésére most kétféle mérıszám képezhetı. Az egyik a külsı varianciát a belsı varianciához viszonyító diszkriminancia kritérium: ϕ = VarK ( z) K max VarB ( z) = b C b (7.5) b CBb a másik pedig a diszkriminancia változó külsı variancia hányadosa VarK ( z) b CKb ϕ ω = = = max. (7.6) Var( z) b Cb + ϕ Látható, hogy a két kritérium között összefüggés van, és mindkettı függ a b súlyok megválasztásától. A súlyokat a kritériumokat maximálandó választjuk meg. A ϕ diszkriminancia kritérium b szerinti maximálása a ( ) ( ) ( b C ) Bb ϕ CKb b CBb b CKb CBb = = 0 b egyenlet megoldását igényli, mely a b CBb skalárral való egyszerősítés és keresztbeszorzás, majd φ (7.5) definíciójának behelyettesítése után megfelelı átrendezéssel a C C ϕ I b = 0 (7.7) ( B K ) sajátérték-sajátvektor feladatra vezet. Ez a C ϕ( C C ) b = ( + ϕ) C ϕ C b = 0 átalakítással a ( ) ( ) K K K ϕ = + ϕ C CK I b ( K ) = C C ω I b = 0 sajátérték-sajátvektor feladat formájában is megoldható. A súlyokat tartalmazó b sajátvektor mindkét feladatra közös, a C C K mátrixnak pedig k=min{p,(m-)} számú pozitív sajátértéke van. Fölhívjuk a figyelmet, hogy CB C K nem szimmetrikus, tehát a b sajátvektorok nem ortogonálisak. A felhasználásukkal kalkulált z diszkriminancia változók viszont korrelálatlanok. 7. Példa A 8 telefonbeszélgetés példáját folytatva 56

57 CB C K = 7.5 = amelynek ϕ sajátértékei (a maximált diszkriminancia kritériumok) ϕ =35.0 és ϕ =0.046, a hozzájuk tartozó sajátvektorok pedig b =[0.9436, -0.33], és b =[ ,.3]. A diszkriminancia változó külsı varianciája a belsı variancia közel 35-szörösét érheti el maximum. A külsı variancia hányados maximálásakor továbbá C C K = = amelynek ω sajátértékei rendre ω =0.979, és ω =0.09, a megfelelı sajátvektorok pedig megegyeznek a diszkriminancia kritériumokhoz tartozó fenti sajátvektorokkal. Eszerint a három csoport valamelyikéhez való tartozás a totális szóródás 97. %-át idézi elı. A kétféle kritérium közötti összefüggés például az elsı sajátértékek vonatkozásában: ω = = = ϕ ϕ Az ω j variancia hányadosok komplementerei egyben a z változó (egyváltozós) Wilks-lambdái (j=,...,k). A Wilks-Λ, és a diszkriminancia kritériumok között összefüggés van, az alábbiak szerint. Elıbb a Wilks-Λ a diszkriminancia változó Wilks-lambdáinak a függvényében (7.) és (7.3) alapján: Λ = det( C ) det( C ) = det( C C ) ( K ) k = ( ω j ) = = det C ( C C ) det( I C C K ) B B (7.8) j = mivel a determináns az (I-C - C K ) mátrix (-ω) sajátértékeinek a szorzata. 0 Innen (7.6) felhasználásával a Wilks lambda a diszkrimnancia kritériumok segítségével is kifejezhetı: Λ =. (7.9) k + ϕ j= ( j ) Példánkban: Λ = 0.05 = ( 0.979)( 0.09) =. ( )( ) A Wilks-lambda értéke egyéb feltételek változatlansága mellett a csoportok számának növelésével csökken, mivel egyre homogénebb csoportok jönnek létre. Nem ilyen nyilvánvaló, hogy változatlan csoportosítás mellett is csökken (legalábbis nem nı), ha a z diszkriminancia változóban az x diszkriminátor változók körét bıvítjük. ekintsük ugyanis a z = b x + b x + + b x + b x... p p p+ p+ diszkriminancia változót. Az utolsó változó súlyára a b p +=0 megszorítást téve egy szőkebb, e megszorítást feloldva pedig egy tágabb lineáris kombinációt definiálunk. A megszorítás mellett feltételesen optimált (maximált) ω kritérium nem lehet optimálisabb mint a meg nem kötött modellben feltétel nélkül optimált ω kritérium, hiszen akkor a feltételes modellhez való egyszerő visszatérés tovább optimálná a célfüggvényt, ami értelmetlen. Másfelıl, a tágabb modellben a maximálandó kritériumok száma is több, a Wilks-lambda pedig e kritériumok (-ω) komplementereinek a szorzata. A Wilks-lambda tehát a diszkriminancia változók vetületében egy minimált belsı variancia hányados kritérium. 8.. A MAHALANOBIS ÁVOLSÁG Speciálisan két, rendre N és N elemszámú csoport esetén a külsı kovariancia mátrix (lásd e fejezet Függelékét) a NN C ( )( ) K = x x x x N formát ölti, ahol x és x a két csoport megfelelı centroidja, és N +N =N. Így a diszkriminancia kritérium maximálása a (7.7) sajátvektor feladat szerint a NN ( )( ) CB x x x x ϕ = N I b 0 0 Hiszen (I-C - C K -αi) = -(C - C K (-α)i) = -(C - C K ωi) ahonnan α=-ω. 57

58 egyenlet megoldását kéri, mely, figyelembe véve, hogy ( x x ) b skalár, átrendezhetı az alábbi formában: NN ϕ ( ) B ( ) = K B ( ) = N x x b C x x C x x b ahol K konstans. Nyilvánvaló, hogy a b vektorban foglalt súlyok abszolút értelemben nem, csak egymáshoz való arányaikban határozhatók meg. A K skálafaktort egységnyinek választva, az átskálázás után a CB ( x x ) = d súlyvektor adódik. E súlyok felhasználásával a két csoport centroidjainak a diszkriminancia változó tengelyén vett távolsága: = z z = d ( x x ) (7.0) = ( x x ) CB ( x x ). (7.) módon számítható. A (7.0) és (7.) formulákkal definiált távolságot a két csoport közötti (értsd a két centroid közötti) Mahalanobis távolságnak nevezzük. Ha a két csoport kovariancia mátrixa megegyezik egymással, úgy az (átlagos) belsı kovariancia mátrix egyben e közös kovariancia mátrix: C =C =C B. Ebben az esetben a d súlyvektorral definiált egyetlen (ugyanis min{p,(-)}=) diszkriminancia változót Fisher-féle diszkriminancia függvénynek nevezzük. Mindemellett a Mahalanobis távolság a diszkriminancia változó belsı varianciáját is jelenti, hiszen kvadratikus formában az alábbiak szerint is írható: = ( x x ) C C C ( x x ) B B B = d CBd = VarB ( z). A Mahalanobis távolságot a síkban csak x és y változót tekintve a következı formula alapján is számíthatjuk: x x σxb C B x x = y y CB σ yb y y mely (az egyszerő jelölés kedvéért a B indexet elhagyva, az invertálást végrehajtva, és az r lineáris korrelációs együtthatót bevezetve) az alábbiak szerint alakul: x x σ y C x x = σ y xσ y C y C σ y x y r x x σx x x = r y y y y r σ y x x y y x x y y = r +. r σx σ y σx σ y Látható, hogy ha a változók korrelálatlanok, vagyis C B diagonális (r=0), akkor és ez kettınél több dimenzióban, általában érvényes megállapítás a Mahalanobis távolság a standardizált változók terében értelmezett euklideszi távolsággá egyszerősödik. ovábbá, ha C B egységmátrix, akkor a Mahalanobis távolság az eredeti mértékegységben mért változók alapján számított euklideszi távolságot eredményezi. 7.3 Példa A Mahalanobis távolság a többváltozós térben a távolság meghatározásának alapvetı, standardizált metrikája, ahol a kovariancia mátrix inverzével történı standardizálás általánosabb értelmő, mint a klasszikus egydimenziós standardizálás. Lényegét megvilágítandó, kétdimenzióban való meghatározását az alábbiakban bemutatjuk. A számpélda jól illusztrálja a Mahalanobis távolságban történı standardizálás tartalmát. A vizsgált két populációnk a Pepsi és a Coca koffein-, és energiatartalmuk tekintetében. A Pepsi szabvány szerinti fajlagos, átlagos koffein tartalma (gr/liter) és energia tartalma (kjoul/00cm 3 ) rendre [7., 9], a Coca megfelelı centroidja pedig [7, 80]. A vizsgált két változó kovariancia mátrxa mindkét üdítı esetében ismert, és közös: CPepsi = CCoca = C B = Emlékeztetünk rá, hogy a csoportok száma most m=. 58

59 A Pepsi és a Coca közötti Mahalanobis távolság tehát: P, C = = = ahol r=0.=0,0/0.0/.75. A példa tanulsága kettıs. Egyfelıl fölhívja a figyelmet arra, hogy a koffein- és az energiatartalom között korrelációs kapcsolat van. Ebbıl következıen a kétféle üdítı közötti, a koffein tengelyen vett távolság megítélésekor figyelembe kell vennünk azt, hogy milyen távol vannak egymástól az energiatartalom tengelyen. Másfelıl, mivel rögzített populációkról van szó, ezért a külsı variancia adottság, ezért a diszkriminancia kritérium maximálása érdekében a diszkriminancia változó belsı varianciáját kell minimálnunk, ami most a értékő Mahalanobis távolság. 8.. DISZKRIMINÁLÓ DIMENZIÓK FELÁRÁSA A diszkriminancia változók értelmét azon x változók nyújtják, melyek relatíve nagy súllyal szerepelnek az elıállításukban, vagyis amely x változókkal az illetı diszkriminancia változó szorosan korrelál. A z t diszkriminancia változó elıállításában az x j standardizált mérési változó standardizált súlyát a w jt = b jt s j formában definiáljuk, ahol s j az x j változó mintabeli korrigált szórása. Így: x w bx s = teljesül. A diszkriminancia változók értelmezésének másik eszköze a diszkriminátor, és a diszkriminancia változók közötti korrelációk R xz struktúra mátrixa. Csakúgy mint a fıkomponensek és a kanonikus változók esetében, a diszkriminancia változók tartalmát is a velük legszorosabban korreláló mérési változók nyújtják. A szignifikáns diszkriminancia változók számát a kanonikus korrelációszámítás segítségével tesztelhetjük. Képezzük az m számú csoporthoz való tartozást leíró y,y,...,y m - dummy változókat, melyek értékeit a 7.. táblázat definiálja: 7.. tábla Dummy változók Csoport Dummy változó y y y3... ym m m Alkossák továbbá az y dummy változók a kanonikus korrelációszámítás eredmény változó halmazát, az x diszkriminátor változók pedig a magyarázó változók halmazát. Ekkor az r,r,...,r k kanonikus korrelációk és a φ,φ,...,φ k diszkriminancia kritériumok közötti összefüggés: ri ϕ i =. ri Világos, hogy a Wilks-lambda a kanonikus korrelációk négyzeteivel is kifejezhetı a Λ = k ( ri ) i= formula alapján. A szignifikáns diszkrimináló dimenziók számát tehát a szignifikáns kanonikus korrelációk tesztelésével behatárolhatjuk. 59

60 9. KAEGÓRIÁK KORRESPONDENCIA ANALÍZISE A korrespondencia analízis egy olyan exploratív többváltozós technika, mely az asszociációs kapcsolat vizuális elemzése érdekében egy gyakorisági tábla adatait grafikus ábrává konvertálja. Mivel a kapcsolatrendszer struktúrája szempontjából az egyes kategóriák előfordulásának a relatív gyakorisága érdekes, ezért a korrespondencia analízis induló adatállományát a kontingencia tábla normált változata (valamennyi gyakoriságát osztva az összes megfigyelés n számával), az ún. korrespondencia mátrix alkotja: 8.. táblázat. Korrespondencia tábla Kategória Oszlop Sorösszesen. j. J. Sor. p p j p J s Sor i. p i p ij =f ij /n p ij s i Sor I. p I p Ij p IJ s I Oszlopösszesen o o j o J ahol p ij =f ij /n és f ij az i sorkategória, és a j oszlopkategória együttes bekövetkezésének az abszolút, míg p ij a relatív gyakoriságát méri. A sorok s i és az oszlopok o j összesen adatai relatív perem gyakoriságként értelmezendők. Az eredményül kapott grafikus ábrán a kontingencia tábla sorai mint többdimenziós pontok az oszlopok (mint tengelyek) tekintetében, és oszlopai mint többdimenziós pontok a sorok (mint tengelyek) tekintetében kerülnek ábrázolásra. Az asszociáció tendenciáinak feltárása érdekében a sorok és az oszlopok saját belső megoszlásait a profiljait tekintjük, ahol s ij az i soron belül a j oszlop részesedését jelenti a sor s i összesenéből, míg o ij a j oszlopon belül az i sor részesedése az oszlop o j összesenéből. A sorok, illetve oszlopok belső szerkezeteit vizsgálva hozzuk egymással kapcsolatba azon (i,j) kategória párosításokat, melyek a sorok és az oszlopok szóródásához, illetve a közöttük lévő asszociációhoz a leginkább hozzájárulnak. Az egymást vonzó, illetve taszító (i,j) kategória párosítást a peremszerkezet alapján vártnál kiugróan magasabb, vagy alacsonyabb p ij gyakoriság jelzi. Matematikailag a korrespondencia analízis az asszociáció Pearson-féle χ mértékét bontja komponensekre. Az eljárás a sorokat (oszlopokat) a megoszlásaikból képzett, redukált dimenziójú, mesterséges térben jellemzi, ábrázolja. Itt a tengelyeket úgy definiáljuk, hogy rendre csökkenő százalékos mértékben (sorrendben) járuljanak hozzá a χ statisztikához. Mikor az első, vagy az első kettő mesterséges tengely a teljes asszociáció igen nagy (80-90% körüli vagy több) hányadát magyarázza, a gyakorisági tábla síkbeli ábrává konvertálható. Az oszlop- és sorprofilok grafikus megjelenítése természetesen nem csak két, hanem kettőnél több szempont (változó) szerint kategorizáló táblák esetén is lehetséges. Az i sorkategóriák és a j oszlopkategóriák közötti kapcsolat vizsgálatát egyszerű korrespondencia analízisnek nevezzük. Ebből a szempontból érdektelen, hogy a sor-, illetve oszlopkategóriákat esetleg több változó kategóriáinak kombinációjaként definiáljuk-e. öbbszörös korrespondencia analízist végzünk viszont akkor, ha a vizsgált változók számát kettőnél többre bővítjük, és az asszociáció vizsgálatát az előforduló kategóriák valamennyi párosítására kiterjesztjük. Az egyszerű korrespondencia analízis a gyakorisági tábla sorait egy ''pontfelhő'' pontjaiként értelmezi az oszlopok mint tengelyek tekintetében, oszlopait pedig egy másik ''pontfelhő'' pontjaiként a sorok mint tengelyek tekintetében. Az eljárás eredményeként a pontfelhőket grafikusan ábrázoljuk egy redukált, alacsony dimenziójú térben. A pontfelhők grafikus ábrán való elhelyezkedéséből következtetni tudunk arra, hogy a vizsgált változók mely kategóriái vonzzák és melyek taszítják egymást. Nagyméretű tábla (sok pontnak sok dimenzióban való kezelése) esetén a pontok centroidtól való távolságainak az áttekintése nehézkes, ezért érdemes a dimenziók számát kevésre, mondjuk kettőre redukálni, és a sorokat illetve az oszlopokat a síkban ábrázolni. A dimenzióredukálás akkor eredményes, ha az asszociáció mértékére, vagyis a pontfelhő szóródására vonatkozó információ túlnyomó hányada megmarad. A korrespondencia tábla kategóriái közötti asszociáció mértékét jellemző, egységnyi megfigyelésre jutó Pearson-féle χ érték definíció szerint: 3 Az. táblázat "Összesen" sorában és oszlopában foglalt perem relatív gyakoriságok szerkezete alapján várható gyakoriság: p* ij = s i o j. 3 A továbbiakban χ alatt mindig az egységnyi megfigyelésre normált χ értéket fogjuk érteni. 60

61 ( p s o ) χ = = I J ij i j I J gij i= j= sio j i= j= ahol s i o j az (i,j) cellának a peremmegoszlások alapján az asszociáció teljes hiánya esetén várt relatív gyakorisága. Ebből következően, a g standardizált korrespondencia gyakoriság zéró értéke az asszociáció hiányát, pozitív értéke pozitív, negatív értéke pedig negatív asszociációt jelez az i sor és a j oszlop között. Pozitív asszociáció esetén az i és j kategóriák gyakran következnek be együtt, vagyis vonzzák egymást, negatív asszociáció esetén pedig ritkán járnak együtt, tehát taszítják egymást. A χ mutatót inercia mértéknek nevezzük, mely egy súlyozott, többdimenziós szóródási mérőszám, és egyidejűleg mind a sorok, mind az oszlopok szerkezeteinek a szóródását jellemzi saját centroidjaik, azaz peremprofiljaik körül. A variancia fogalmának kiterjesztéseként egy pontfelhő inerciája a pontok centroidjuktól mért távolságainak a súlyozott átlaga, ahol a tengelyeket is súlyozottan vesszük figyelembe. A négyzetes euklideszi távolságban a tengelyeket saját relatív gyakoriságaik reciprokával, a pontokat pedig saját relatív gyakoriságaikkal súlyozzuk. Ebben a vonatkozásban az inercia a pontfelhő súlyozott varianciájaként értelmezendő. A sorok és az oszlopok azonos mértékben szóródnak. A korrespondencia analízis során a sorokat és az oszlopokat mint egy- vagy kétdimenziós pontfelhőket jelenítjük meg, ezért elengedhetetlen a dimenziók (tengelyek) számának a redukálása. Mivel a pontfelhők szóródásának mértéke szempontjából érdektelen a pontfelhő centroidjának a helye, ezért a pontok koordinátáit az origóhoz centráljuk. A sorok ábrázolásakor az oszlopok helyett definiálunk k=,,...,k számú mesterséges főtengelyt, és meghatározzuk az új tengelyekre vonatkozó centrált (zéró átlagú) x ik főkoordinátát. Az oszlopok ábrázolásakor a sorok helyett definiálunk K számú főtengelyt és számítjuk a centrált y jk főkoordinátát. Mind a sorokat, mind az oszlopokat a K dimenziós térben is ábrázolhatjuk információvesztés nélkül. Mivel egy sorprofil vagy egy oszlopprofil összege, ezért a mesterséges koordináta tengelyek lehetséges maximális száma: K=min{I-,J-}. A centrált főkoordinátákat úgy számítjuk, hogy egy pontnak a saját centroidjától vett távolsága ne változzon meg. A főkoordináták centroidját a K dimenziós térben az origó reprezentálja. A sorok és oszlopok szóródásának mértéke a teljes inercia. A sorok és oszlopok szóródása nemcsak globálisan, hanem tengelyek mentén parciálisan is értelmezhető, ahol a k tengely mentén mért variancia Var(k) a k. főinercia. A totális inercia a főinerciák öszszege. A sorok és oszlopok pontfelhőit közös koordináta rendszerben ábrázolva, felhőközi viszonylatban a pontok helyzetének az értelmezését az a tény szolgálja, hogy az egyik pontfelhő koordinátáinak átskálázásával a másik pontfelhő pontjainak a koordinátáihoz jutunk el. Az alábbi átviteli képleteket használva az i. sornak a k. főtengelyre vonatkozó x ik koordinátája, valamint a j. oszlopnak ugyancsak a k. tengelyre vonatkozó y jk koordinátája részletesen, rendre: J s I ij y jk oij xik xik =, y jk = j= µ k i= µ k ahol a főtengely szórása µ k, ezért az y jk /µ k és az x ik /µ k koordináták varianciája a k. tengely mentén egyaránt, tehát standardizáltak. Láthatóan a sorkoordináta a standardizált oszlopkoordináták súlyozott átlaga, míg az oszlopkoordináta a standardizált sorkoordináták súlyozott átlaga, súlyként a megfelelő sor-, illetve a megfelelő oszlopprofilt alkalmazva. Az oszlopok és a sorok koordinátáinak egymásba való átvitele lényegében a koordináták duális skálázását jelenti. A duális skálázás miatt egy oszlopprofil a pontok terében ahhoz a sorhoz húzódik közelebb, amelyiknek a súlya domináns az illető oszlopprofilban. Közös koordináta rendszerben ábrázolva a sorok és az oszlopok pontfelhőjét tehát, azon sorok és oszlopok kerülnek várhatóan közel egymáshoz, amelyek között szoros az asszociáció mértéke. Ez a megállapítás lényegi, mert pontok közötti távolságot csak pontfelhőn belül értelmezünk, pontfelhők között azonban nem. A pontoknak pontfelhők közötti korrespondenciáját a duális skálázás elve alapján ítéljük meg. Vannak inkább, és vannak kevésbé szóródó korrespondencia tengelyek, ugyanakkor mind a sorok, mind az oszlopok között vannak a centroidhoz közelebb, vagy attól távolabb eső kategóriák. A korrespondencia tengelyek értelmezését, és a redukált térbeni ábrázolás illeszkedésének a jellemzését a teljes inercia sorok, oszlopok és főtengelyek közötti megoszlása szolgálja, melyet az 8.. táblázat sémája szemléltet. 8.. táblázat. Az inercia struktúrája Pont.... k.... K. Összesen főtengely. sor s x s x k s x K INR(s ) i. sor s ix i s ix ik s ix ik INR(s i) 6

62 I. sor s Ix I s x Ik s Ix IK INR(s I) Összesen Var() Var(k) Var(K) INR. oszlop o y o y k o y K INR(o ) j. oszlop o jy j o jy jk o jy jk INR(o j) J. oszlop o Jy J o Jy Jk o Jy JK INR(o J) Általában az első m számú leginkább szóródó tengely a teljes inercia IE(m) hányadát reprodukálja. Ha az első, illetve az első kettő tengely a teljes inercia nagy hányadát magyarázza, akkor mind a sorokat, mind az oszlopokat ábrázolhatjuk az első, vagy az első kettő tengely dimenziójában. Az ábrázolást végezhetjük külön-külön egy-egy ábrán, azonban a két pontfelhőt közös ábrán is megjeleníthetjük. Míg a pontfelhők külön ábrája a pontfelhőn belüli szóródást mutatja, addig az összevont ábra a pontfelhők közötti korrespondenciát is láttatja. A redukált térben való megjelenítése esetén vizsgálnunk kell azt is, hogy az ábrázolt pontfelhő mely pontjai illeszkednek jól és melyek kevésbé jól a valódi pontfelhőhöz. Ezt a célt szolgálja a QL (quality) mérőszám meghatározása. Az első m dimenzió általában az i. sor, és a j. oszlop inerciájának rendre QL i m m x ik y k = k = jk, QL K j K x k ik y = k = jk = = hányadát reprodukálja. 4 Alacsony QL érték m= esetén például azt jelenti, hogy a pont kívül fekszik a síkon. Amennyiben a teljes inercia nagy hányada tartozik az első kettőt követő többi korrespondencia tengelyhez is, ez azt jelenti, hogy vannak pontok, amelyek rosszul reprezentáltak a két főtengely síkjában. Mivel aktuális ábránk a valódi pontok vetületét ábrázolja az adott síkra, ezért nem mutatja azt, hogy mely pontok vannak közelebb és melyek távolabb az illető síktól. Ahhoz, hogy egy ilyen korrespondencia ábrát korrekten értelmezzünk, az i. sornak és a j. oszlopnak a k. tengely főinerciájához való hozzájárulását is ismernünk kell (contribution) xik jk ik = i, jk = j µ k µ k CR s CR o A pontok tengelyen való elhelyezkedése és a tengelyen mért szóródáshoz való hozzájárulásuk révén tudjuk magukat a tengelyeket interpretálni. Ha már értelmeztünk egy dimenziót, akkor tudnunk kell, hogy a pontok milyen közel, vagy messze vannak ettől az egydimenziós altértől. A k. tengely relatív hozzájárulása az i. sor, valamint a j. oszlop inerciájához (négyzetes korreláció) si x o j y ik jk COR = ik, COR jk INR( s ) = INR( o ). i Alacsony COR érték azt jelenti, hogy a vizsgált pont az illető dimenzióban nincs jól reprezentálva. Láthatóan QL és COR nem függ a peremmegoszlástól, míg INR és CR igen. Ezért például egy sor lehet jól reprezentált egy partikuláris tengelyen, amelyhez kevés inerciával járul hozzá. Általában egy pont nagyarányú hozzájárulása a tengely inerciájához maga után vonja a tengely magas relatív hozzájárulását a pont inerciájához, de ez megfordítva nem szükségszerű. Kihasználva a tényt, hogy a korrespondencia mátrix egzaktan reprodukálható a K xik y jk pij = sio j + sio j k = µ k formula alapján, csak az első m főtengelyt használva a korrespondencia gyakoriságot csak maradékkal tudjuk közelíteni: m xik y jk pij sio j + sio j. k = µ k E közelítő formula segítségével egyrészt hiányzó adatot (missing value) tudunk imputálni. Másrészt rámutat arra, hogy hiába van egy sor és egy oszlop közel egymáshoz a síkon, ez csak akkor jelez szoros asszociációt közöttük, ha y j 4 A fenti kifejezések inercia tartalma a törtek s i, illetve az o j relatív gyakoriságokkal való bővítése után nyilvánvaló. 6

63 ugyanakkor az origótól távol esnek. Ugyanis a standardizált korrespondencia mátrix magas pozitív g ij eleme jelentős pozitív, nagy abszolút értékű negatív eleme erős negatív asszociációt, zérus körüli értéke pedig az asszociáció hiányát jelzi az i és a j kategóriák között. Ebből következően, ha x ik y jk zérushoz közeli a meghatározó tengelyeken, akkor zéróközeli g ij gyakorisággal állunk szemben, ami az asszociáció elhanyagolható fokára utal az adott sor és oszlop között. Itt hívjuk fel a figyelmet arra, hogy egy sor és egy oszlop közötti asszociációt nem csupán a két pont egymástól való, hanem az origótól, és egymástól mért távolságuk egyidejű mérlegelése alapján kell megítélni! 9. ELŐREJELZÉS: KIEGÉSZÍŐ PONOK ÁBRÁZOLÁSA Az alábbi esettanulmány korrespondencia táblázata három változó szerint kategórizál: i) a sérülés kimenete (Könnyű, Súlyos, Halálos), ii) a gépkocsiban való helyfoglalás (Sofőrülés, Anyósülés, Hátulülés) iii) és az övhasználat (Igen, Nem) tekintetében. A sorokat az elhelyezkedés és az övhasználat kimenetek valamennyi kombinációi, az oszlopokat pedig a sérülési kimenetek alkotják. Ilymódon eljárva természetesen lemondunk az elhelyezkedés és az övhasználat közötti kapcsolat vizsgálatáról, hiszen a három oszlopkategóriához hat sorkategóriát definiálunk. A ''kiszűrhető'' főtengelyek maximális száma, a teljes χ inercia értéke 0.067, a két főinercia pedig rendre 0.06 és ehát az első főtengely a teljes inercia 98.3%-át reprodukálja. A sorok és oszlopok szóródását az 8.3. táblázat alapján ítélhetjük meg, mely mindkét főtengely jellemzőit közli táblázat. A személyi sérüléssel járó balesetek korrespondencia jellemzői Pont PEREM QL() INR FAKOR COR CR FAKOR COR CR. tengely. tengely Sofır_I , Anyós_I , Hátul_I , Sofır_N , Anyós_N , Hátul_N Halálos , Súlyos 0.9 0, Könnyő , "FAKOR" a megfelelı fıkoordinátákat jelenti. Az 8.3. táblát tekintve a sorok szóródását az INR mérőszám alapján elsősorban az övet nem használó sofőrök és a jobboldali első (anyós) ülésen helyet foglalók kimenetelének az összes többi változatétól való lényeges eltérése alakítja ki. Ugyanakkor az. főinerciához is e két kategória járul hozzá meghatározó mértékben a CR mutató szerint. A magas COR értékek alapján valamennyi sor közel fekszik az. főtengelyhez, miközben a fent említett két kategória koordinátája pozitív, az összes többié pedig negatív. A gépkocsiban való elhelyezkedést az első főtengely a baleset kimenetele alapján a két szélső pont - a hátul ülő és övet használó, valamint az övet nem használó sofőr - között skálázza. Az oszlopok szóródását az INR mutató szerint a halálos balesetnek a nem halálostól való lényegi különbsége idézi elő, továbbá a CR mérőszám alapján az első főinerciát 7.8% arányban a halálos kimenetelű baleset magyarázza. A kategóriák mint pontok egymáshoz viszonyított helyzetét a síkban (tehát mindkét főtengelyt figyelembe véve) az 8.. ábra szemlélteti. Fölhívjuk a figyelmet, hogy mivel a dimenziók lehetséges száma esetünkben kettő, ezért most a síkban ábrázolt pontok nem közelítőleg, hanem egzaktan mutatják az egyes kategóriák egymáshoz való helyzetét. Mindazonáltal az első főtengely a teljes inercia igen nagy arányát képviseli, ezért a standardizált korrespondencia mátrix (8.) alapján jól közelíthető az első tengelyen mért koordináták és az első főinercia segítségével: (p ij - s i o j ) / s i o j x i y j / µ. Például a halálos kimenetelű balesetet szenvedett, övet nem használó sofőrök cellájának közelítése: / 0.06 ½. Figyeljük meg, hogy e jelentős korrespondencia gyakoriság csaknem maradék nélküli reprodukálása úgy következett be, hogy a halálos kimenetelű baleset és az övet nem használó sofőr kategóriája az első tengelyen közel van egymáshoz, de ugyanakkor távol az origótól. Hasonló a helyzet az anyós ülésen utazóval kapcsolatban is, aki nem használja az övet. Ezzel szemben a könnyű sérülés és az övet bekapcsoló sofőr is is közel van egymáshoz a síkban, miközben standardizált korrespondencia koordinátájuk lényegileg (egy tizedesre kerekítve) zéró, vagyis közöttük elhanyagolható az asszociációs kapcsolat. Ez az ábrán úgy ismerszik fel, hogy mindketten közel fekszenek az origóhoz. 8.. ábra: A sérülések kimeneteleinek és körülményeinek korrespondencia ábrája IH - 63

64 Halalos - - NA - A - NH - X I S - Konnyu IS - - NS - - IA Sulyos AXIS ermészetesen a baleset kimenetelére más tényezők is hatással vannak, és e tényezőket a baleset kimenetele szerinti megoszlásukkal jellemezve, mint kiegészítő sorokat ábrázolhatjuk az eredeti sorok pontfelhőjében. Az 8.4. táblában kiegészítő sorként a lakott területen, a lakott területen kívül és a sztrádán bekövetkezett baleseteknek a kimenetel szerinti megoszlását tüntettük fel, míg a kiegészítő sorok jellemzőit az 8.5. táblázat közli. A kategóriák egymáshoz való elhelyezkedését a síkban az 8.. ábra illusztrálja. (MARG a marginális profilt, tehát az origót jelenti.) Az ábra sugallja, hogy a halálos kimenetel elsősorban a lakott területen kívül valószínűsíthető, autópályán bekövetkezett baleset esetén pedig még a halálosnál is súlyosabb kimenetelre számíthatunk (az első főtengely skáláját tekintve) táblázat. Kiegészítő pont: az út jellege A baleset helye A sérülések száma (%) halálos súlyos könnyő Lakott terület Lakott területen kívül Autópálya táblázat. Az út jellegének korrespondencia jellemzői A baleset helye QL. fıtengely FAKOR COR Lakott terület Lakott területen kívül Autópálya ábra A sérülések kimeneteleinek és körülményeinek korrespondencia ábrája a kiegészítő pontokkal együtt ábrázolva IH Halalos - - NA - - NH - - Konnyu MARG IS - - IA NS - - Sulyos - A X I S 64

65 SZRADA NEMLAK - - LAKO AXIS ESEANULMÁNY: SOFŐRÖK ÉS UASAIK SÉRÜLÉSE A következő esettanulmány a személyi sérülések fokát vizsgálja a tehergépjármű sérülésének fokát az utasának sérülési fokával szembe állítva. Az adatállomány a Huntar felmérés adatait tartalmazza. A sérüléseket most a négyfokozatú skálán vizsgáljuk, ahol a sérülés hiányát, 4 pedig a halálos sérülést jelenti. A abszolút gyakoriságok korrespondencia mátrixát a 3.0 tábla közli. A táblában Margin az összesent jelzi. Figyelmünk az (,), (,), (3,3), és (4,4) kimenet-párosok gyakoriságaira irányul. Ezek alapján a megállapíthatjuk, hogy pozitív asszociáció van a sofőr és az utas sérülési foka között, de csak sztochasztikusan: túlnyomórészt mindketten könnyebben, vagy mindketten súlyosabban sérülnek, de minden párosítás előfordul, kivéve:. Ha a GV sérülés foka súlyos, akkor az Utas nem sérült eset nem fordult elő,. Ha a GV sérülés foka halálos, akkor a könnyen sérült Utas eset nem fordult elő. Ritka esemény továbbá, hogy. Ha a GV nem sérült, akkor az Utas sérülése súlyos,. Ha a GV sérülése halálos, akkor az Utas nem sérült táblázat Korrespondencia tábla GV_sérülés foka Utasok_Baleset súlyossága 3 4 Margin Margin A korrespondenciák, asszociációk feltárását egyfelől a 3. tábla sorprofilok elemzése segíti. Mass a vonatkozó kategóriák globális relatív gyakoriságait jelenti táblázat Sorprofilok GV_baleset súlyossága Utasok_baleset súlyossága 3 4 Margin,876,097,009,08,000,,444,67,67,000 3,000,54,385,46,000 4,5,000,375,500,000 Mass,684,38,079,099 A sorprofilok alapján az alábbi megállapításokat emeljük ki:. Ha a GV sérülés foka, akkor az Utas sérülése is túlnyomóan,. Ha a GV sérülés foka, akkor az Utas sérülése túlnyomóan, 3. Ha a GV sérülés foka 3, akkor az Utas sérülése túlnyomóan 4, 4. Ha a GV sérülés foka 4, akkor az Utas sérülése is túlnyomóan 4. 65

66 Az oszlopprofilok alapján hasonló megállapításokat tehetünk azzal az eltéréssel, hogy ha az Utas sérülése könnyű, akkor a Sofőr tulnyomóan nem sérült táblázat Oszlopprofilok Utasok_baleset súlyossága GV_baleset súlyossága 3 4 Mass,95,54,083,33,743,038,38,50,00,8 3,000,095,47,400,086 4,00,000,50,67,053 Margin,000,000,000,000 A korrespondencia ábra A korrespondencia ábra számszaki jellemőit a következő táblák tartalmazzák. E táblák alapján az alábbi főbb konklúziók tehetők:. Maximum 3 dimenzió szűrhető ki, de már az első kettő a pontfelhő egzakt ábrázolását teszi lehetővé a síkban (a dimenziók totális inerciához való hozzájárulásai: 85.7 és 4.3%). Az asszociáció Pearson-Chi értéke 0.8, Sig=0.000 szignifikancia értékkel szignifikáns. Az első kettő dimenzió korrelációja A Sofőr sérülési fokok hozzájárulása a totális inerciához nagyjából hasonló, de a 3(súlyos) foké a legmagasabb. Míg az első dimenzió inerciáját a sofőr súlyos sérülése, a második dimenziójét viszont a sofőr könnyű sérülése adja. Valamennyi sérülési kimenet egzaktan reprezentált a síkbeli ábrán. 3. Az Utas sérülési fokok közül a súlyos és a halálos kimenet hozzájárulása a totális inerciához a meghatározó. Míg az első dimenzió inerciáját az Utas halálos majd súlyos sérülése, a második dimenziójét viszont az Utas könnyű sérülése adja. Valamennyi sérülési kimenet egzaktan reprezentált a síkbeli ábrán. 4. A sofőrbaleset tekintetében a nemsérülés korrelál legkevésbé, és a súlyos sérülés a leginkább az - dimenzió síkjával. 5. Az utasbaleset tekintetében a könnyű sérülés korrelál legkevésbé, és a súlyos sérülés a leginkább az - dimenzió síkjával táblázat Összefoglaló jellemzők Dimension Singular Value Inertia Chi Square Sig. Proportion of Inertia Confidence Singular Value Accounted for Cumulative Standard Deviation Correlation,790,64,857,857,05,8,33,04,43,000,0 3,0,000,000,000 otal,79 0,769,000 a,000, táblázat A sorok pontfelhőjének jellemzői GV_balese t súlyossága Mass Score in Dimension Inertia Contribution Of Point to Inertia of Dimension Of Dimension to Inertia of Point otal,743 -,49,08,45,7,07,98,09,000,8,784 -,49,34,09,738,47,573,000 3,086,00,334,74,434,09,989,0,000 4,053,95,4,76,47,06,877,,000 otal,000,79,000, táblázat Az oszlopok pontfelhőjének jellemzői Utasbaleset súlyossága Mass Score in Dimension Inertia Contribution Of Point to Inertia of Dimension Of Dimension to Inertia of Point otal,684 -,53,83,60,44,07,954,046,000,38,93 -,399,097,05,838,097,903,000 66

67 3,079,86,3,7,346,03,993,006,000 4,099,779,508,55,395,079,968,03,000 Active otal,000,79,000, táblázat A sorok konfidenciája GV_baleset súlyossága Standard Deviation in Dimension Correlation -,053,066,057,434,3,397 3,400,37,507 4,667,435, táblázat Az oszlopok konfidenciája Utasbaleset súlyossága Standard Deviation in Dimension Correlation -,05,064,4,34,50 -,036 3,47,639,333 4,40,504,09 A következő ábrák a sofőr- és utassérülések pontjainak a vetületeit mutatják az első két dimenzió (főtengely) síkjára szeparáltan, majd összevontan. Ezek szerint a két pontfelhő konfigurációja csaknem egybeesik (lásd az összevont ábra), tehát erős vonzó asszociáció látszik az egymásnak megfelelő sérülési fokozatok között ábra A sofőrsérülés és utassérülés fokozatainak szeparált vetületei az - dimenzió síkjára 8.4. ábra A sofőr- és utassérülési fokozatok összevont vetülete az - dimenzió síkjára 9.3 ÖBBSZÖRÖS KORRESPONDENCIA ANALÍZIS Mikor kettőnél több változó szerepel vizsgálatunkban, a változók sorrá, vagy oszloppá kombinálása helyett célszerű a korrespondencia analízis többszörös változatát alkalmazni. A többszörös analízis ekvivalens az ún. indikátor mátrix egyszerű analízisével. A Z (n,j) indikátor mátrix sorait az i=,,...,n megfigyelési egységek alkotják, míg oszlopait Q számú Z q (q=,,...,q) diszkrét változó lehetséges kategóriái képezik, ahol a Z q változónak J q számú lehetséges kategóriája van. Így a mátrix oszlopainak száma J=J +J +...+J Q, és az oszlopok a Q számú csoport valamelyikének a tagjai. Az indikátor mátrix mindegyik sora Q számú elemet tartalmaz attól függően, hogy az illető megfigyelési egység adott változó melyik kategóriájához tartozik. Egyébként a mátrix elemei zérók. Ezt illusztrálja az alábbi általános tábla táblázat. Indikátor mátrix Megfigyelési A Z indikátor mátrix oszlopai (j=,,,j) Összesen egység Z kategóriái: Z Zq kategóriái: Z q ZQ kategóriái: Z Q J J q J Q Q Q 67

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai statisztika c. tárgy oktatásának célja és tematikája Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:

Részletesebben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris

Részletesebben

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1 Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában

Részletesebben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,

Részletesebben

I Tendenciák a szóródásban A sokaság Az adatbázis Műveletek sokaságokkal Centrális tendencia és variancia

I Tendenciák a szóródásban A sokaság Az adatbázis Műveletek sokaságokkal Centrális tendencia és variancia I endenciák a szóródásban... 5 A sokaság... 6. Az adatbázis... 7. Műveletek sokaságokkal... 8.3 Centrális tendencia és variancia... 9.4 A sokaság eloszlása....4. Normális eloszlás....4. Gamma-eloszlás...

Részletesebben

Statisztika elméleti összefoglaló

Statisztika elméleti összefoglaló 1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus

Részletesebben

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H

Részletesebben

Statisztika Elıadások letölthetık a címrıl

Statisztika Elıadások letölthetık a címrıl Statisztika Elıadások letölthetık a http://www.cs.elte.hu/~arato/stat*.pdf címrıl Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább 1-α valószínőséggel

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus. Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza

Részletesebben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x

Részletesebben

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani

Részletesebben

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel: Valószínűségi változó általános fogalma: A : R leképezést valószínűségi változónak nevezzük, ha : ( ) x, x R, x rögzített esetén esemény.

Részletesebben

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet GVMST22GNC Statisztika II. 3. előadás: 8. Hipotézisvizsgálat Kóczy Á. László Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Hipotézisvizsgálat v becslés Becslés Ismeretlen paraméter Közeĺıtő

Részletesebben

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz Elméleti összefoglaló a Sztochasztika alapjai kurzushoz 1. dolgozat Véletlen kísérletek, események valószín sége Deníció. Egy véletlen kísérlet lehetséges eredményeit kimeneteleknek nevezzük. A kísérlet

Részletesebben

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Egyszempontos variancia analízis. Statisztika I., 5. alkalom Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek

Részletesebben

A Statisztika alapjai

A Statisztika alapjai A Statisztika alapjai BME A3c Magyar Róbert 2016.05.12. Mi az a Statisztika? A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati

Részletesebben

Matematikai alapok és valószínőségszámítás. Normál eloszlás

Matematikai alapok és valószínőségszámítás. Normál eloszlás Matematikai alapok és valószínőségszámítás Normál eloszlás A normál eloszlás Folytonos változók esetén az eloszlás meghatározása nehezebb, mint diszkrét változók esetén. A változó értékei nem sorolhatóak

Részletesebben

y ij = µ + α i + e ij

y ij = µ + α i + e ij Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

A valószínűségszámítás elemei

A valószínűségszámítás elemei A valószínűségszámítás elemei Kísérletsorozatban az esemény relatív gyakorisága: k/n, ahol k az esemény bekövetkezésének abszolút gyakorisága, n a kísérletek száma. Pl. Jelenség: kockadobás Megfigyelés:

Részletesebben

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem.

Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem. Eseményalgebra. Esemény: minden amirl a kísérlet elvégzése során eldönthet egyértelmen hogy a kísérlet során bekövetkezett-e vagy sem. Elemi esemény: a kísérlet egyes lehetséges egyes lehetséges kimenetelei.

Részletesebben

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes

Részletesebben

Bevezetés a hipotézisvizsgálatokba

Bevezetés a hipotézisvizsgálatokba Bevezetés a hipotézisvizsgálatokba Nullhipotézis: pl. az átlag egy adott µ becslése : M ( x -µ ) = 0 Alternatív hipotézis: : M ( x -µ ) 0 Szignifikancia: - teljes bizonyosság csak teljes enumerációra -

Részletesebben

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Mi az adat? Az adat elemi ismeret. Az adatokból információkat Mi az adat? Az adat elemi ismeret. Tények, fogalmak olyan megjelenési formája, amely alkalmas emberi eszközökkel történő értelmezésre, feldolgozásra, továbbításra. Az adatokból gondolkodás vagy gépi feldolgozás

Részletesebben

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus Gyakorisági sorok Mennyiségi ismérv jellemző rangsor készítünk. (pl. napi jegyeladások száma) A gyakorisági sor képzése igazából tömörítést jelent Nagyszámú

Részletesebben

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum

Részletesebben

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM. STATISZTIKA 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 MAGY. MAT. TÖRT. KÉM. ANNA BÉLA CILI András hármas. Béla Az átlag 3,5! kettes. Éva ötös. Nóri négyes. 1 mérés: dolgokhoz valamely szabály alapján szám rendelése

Részletesebben

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás Matematikai alapok és valószínőségszámítás Valószínőségi eloszlások Binomiális eloszlás Bevezetés A tudományos életben megfigyeléseket teszünk, kísérleteket végzünk. Ezek többféle különbözı eredményre

Részletesebben

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika

Részletesebben

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat

Részletesebben

KÖVETKEZTETŐ STATISZTIKA

KÖVETKEZTETŐ STATISZTIKA ÁVF GM szak 2010 ősz KÖVETKEZTETŐ STATISZTIKA A MINTAVÉTEL BECSLÉS A sokasági átlag becslése 2010 ősz Utoljára módosítva: 2010-09-07 ÁVF Oktató: Lipécz György 1 A becslés alapfeladata Pl. Hányan láttak

Részletesebben

Hipotézis vizsgálatok

Hipotézis vizsgálatok Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével

Részletesebben

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

Elméleti összefoglaló a Valószín ségszámítás kurzushoz Elméleti összefoglaló a Valószín ségszámítás kurzushoz Véletlen kísérletek, események valószín sége Deníció. Egy véletlen kísérlet lehetséges eredményeit kimeneteleknek nevezzük. A kísérlet kimeneteleinek

Részletesebben

Biomatematika 2 Orvosi biometria

Biomatematika 2 Orvosi biometria Biomatematika 2 Orvosi biometria 2017.02.13. Populáció és minta jellemző adatai Hibaszámítás Valószínűség 1 Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza)

Részletesebben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision

Részletesebben

6. Előadás. Vereb György, DE OEC BSI, október 12.

6. Előadás. Vereb György, DE OEC BSI, október 12. 6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás

Részletesebben

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok Eloszlás-független módszerek (folytatás) 14. elıadás (7-8. lecke) Illeszkedés-vizsgálat 7. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok elemzésére Illeszkedés-vizsgálat Gyakorisági sorok

Részletesebben

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1 STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1 Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 3 III. VÉLETLEN VEKTOROK 1. A KÉTDIMENZIÓs VÉLETLEN VEKTOR Definíció: Az leképezést (kétdimenziós) véletlen vektornak nevezzük, ha Definíció:

Részletesebben

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás Matematikai statisztika elıadás, földtudományi BSc (geológus szakirány) 2014/2015 2. félév 6. elıadás Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább

Részletesebben

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés Gazdaságstatisztika 2. előadás Egy ismérv szerinti rendezés Kóczy Á. László KGK VMI Áttekintés Gyakorisági sorok Grafikus ábrázolásuk Helyzetmutatók Szóródási mutatók Az aszimmetria mérőszámai Koncentráció

Részletesebben

A maximum likelihood becslésről

A maximum likelihood becslésről A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának

Részletesebben

A leíró statisztikák

A leíró statisztikák A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az

Részletesebben

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai Változékonyság (szóródás) STATISZTIKA I. 5. Előadás Szóródási mutatók A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarhatják. A változékonyság az azonos tulajdonságú, de eltérő

Részletesebben

Adatok statisztikai értékelésének főbb lehetőségei

Adatok statisztikai értékelésének főbb lehetőségei Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése Matematikai alapok és valószínőségszámítás Statisztikai változók Adatok megtekintése Statisztikai változók A statisztikai elemzések során a vizsgálati, vagy megfigyelési egységeket különbözı jellemzık

Részletesebben

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI Gazdaságstatisztika 2. előadás Egy ismérv szerinti rendezés Kóczy Á. László KGK VMI Áttekintés Gyakorisági sorok Grafikus ábrázolásuk Helyzetmutatók Szóródási mutatók Az aszimmetria mérőszámai Koncentráció

Részletesebben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége [GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell

Részletesebben

4. A méréses ellenırzı kártyák szerkesztése

4. A méréses ellenırzı kártyák szerkesztése 4. A méréses ellenırzı kártyák szerkesztése A kártyákat háromféle módon alkalmazhatjuk. Az elızetes adatfelvétel során a fı feladat az eloszlás paramétereinek (µ és σ ) becslése a további ellenırzésekhez.

Részletesebben

Jármőtervezés és vizsgálat I. VALÓSZÍNŐSÉGSZÁMÍTÁSI ALAPFOGALMAK Dr. Márialigeti János

Jármőtervezés és vizsgálat I. VALÓSZÍNŐSÉGSZÁMÍTÁSI ALAPFOGALMAK Dr. Márialigeti János BUDAPESTI MŐSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM KÖZLEKEDÉSMÉRNÖKI KAR JÁRMŐELEMEK ÉS HAJTÁSOK TANSZÉK Jármőtervezés és vizsgálat I. VALÓSZÍNŐSÉGSZÁMÍTÁSI ALAPFOGALMAK Dr. Márialigeti János Budapest 2008

Részletesebben

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1 STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1 Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.15. Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza) alkotja az eseményteret. Esemény: az eseménytér részhalmazai.

Részletesebben

Nemparaméteres próbák

Nemparaméteres próbák Nemparaméteres próbák Budapesti Mőszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék 1111, Budapest, Mőegyetem rkp. 3. D ép. 334. Tel: 463-16-80 Fax: 463-30-91 http://www.vizgep.bme.hu

Részletesebben

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az

Részletesebben

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés

Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés Matematikai statisztika I. témakör: Valószínűségszámítási ismétlés Elek Péter 1. Valószínűségi változók és eloszlások 1.1. Egyváltozós eset Ismétlés: valószínűség fogalma Valószínűségekre vonatkozó axiómák

Részletesebben

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1. Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,

Részletesebben

Korreláció és lineáris regresszió

Korreláció és lineáris regresszió Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.

Részletesebben

Matematikai statisztika szorgalmi feladatok

Matematikai statisztika szorgalmi feladatok Matematikai statisztika szorgalmi feladatok 1. Feltételes várható érték és konvolúció 1. Legyen X és Y független és azonos eloszlású valószín ségi változó véges második momentummal. Mutassuk meg, hogy

Részletesebben

Több valószínűségi változó együttes eloszlása, korreláció

Több valószínűségi változó együttes eloszlása, korreláció Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...

Részletesebben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis 1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb

Részletesebben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás

Részletesebben

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1. Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,

Részletesebben

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef.

Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef. Intervallumbecsle s Mintave tel+ Hipote zisvizsga lat Egyminta s pro ba k Ke tminta s pro ba k Egye b vizsga latok O sszef. Feladatok Gazdaságstatisztika 7. Statisztikai becslések (folyt.); 8. Hipotézisvizsgálat

Részletesebben

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58 u- t- Matematikai statisztika Gazdaságinformatikus MSc 2. előadás 2018. szeptember 10. 1/58 u- t- 2/58 eloszlás eloszlás m várható értékkel, σ szórással N(m, σ) Sűrűségfüggvénye: f (x) = 1 e (x m)2 2σ

Részletesebben

Hipotézis vizsgálatok

Hipotézis vizsgálatok Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével

Részletesebben

Bevezető Mi a statisztika? Mérés Csoportosítás

Bevezető Mi a statisztika? Mérés Csoportosítás Gazdaságstatisztika 1. előadás Kóczy Á. László Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Oktatók Előadó Kóczy Á. László (koczy.laszlo@kgk.bmf.hu) Fogadóóra: szerda 11:30 11:55, TA125 Gyakorlatvezető

Részletesebben

Lineáris regressziószámítás 1. - kétváltozós eset

Lineáris regressziószámítás 1. - kétváltozós eset Lineáris regressziószámítás 1. - kétváltozós eset Orlovits Zsanett 2019. február 6. Adatbázis - részlet eredmény- és magyarázó jellegű változók Cél: egy eredményváltozó alakulásának jellemzése a magyarázó

Részletesebben

(Independence, dependence, random variables)

(Independence, dependence, random variables) Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,

Részletesebben

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.

Részletesebben

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre Összefüggés vizsgálatok A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek

Részletesebben

Normális eloszlás tesztje

Normális eloszlás tesztje Valószínűség, pontbecslés, konfidenciaintervallum Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra

Részletesebben

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Előadások-gyakorlatok 2018-ban (13 alkalom) IX.12, 19, 26, X. 3, 10, 17, 24, XI. 7, 14,

Részletesebben

Elemi statisztika fizikusoknak

Elemi statisztika fizikusoknak 1. oldal Elemi statisztika fizikusoknak Pollner Péter Biológiai Fizika Tanszék pollner@elte.hu Az adatok leírása, megismerése és összehasonlítása 2-1 Áttekintés 2-2 Gyakoriság eloszlások 2-3 Az adatok

Részletesebben

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE Tartalomjegyzék 5 Tartalomjegyzék Előszó I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE 1. fejezet: Kontrollált kísérletek 21 1. A Salk-oltás kipróbálása 21 2. A porta-cava sönt 25 3. Történeti kontrollok 27 4. Összefoglalás

Részletesebben

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687) STATISZTIKA 10. Előadás Megbízhatósági tartományok (Konfidencia intervallumok) Sir Isaac Newton, 1643-1727 Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Részletesebben

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár PhD kurzus Mi a statisztika? A sokaság (a sok valami) feletti áttekintés megszerzése, a sokaságról való információszerzés eszköze. Célja: - a sokaságot

Részletesebben

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI, Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár PhD kurzus. KOKI, 2015.09.17. Mi a statisztika? A sokaság (a sok valami) feletti áttekintés megszerzése, a sokaságról való információszerzés eszköze.

Részletesebben

Biostatisztika Összefoglalás

Biostatisztika Összefoglalás Biostatisztika Összefoglalás A biostatisztika vizsga A biostatisztika vizsga az Orvosi fizika és statisztika I. fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 0 kérdésre kell válaszolni

Részletesebben

egyetemi jegyzet Meskó Balázs

egyetemi jegyzet Meskó Balázs egyetemi jegyzet 2011 Előszó 2. oldal Tartalomjegyzék 1. Bevezetés 4 1.1. A matematikai statisztika céljai.............................. 4 1.2. Alapfogalmak......................................... 4 2.

Részletesebben

Dr. Karácsony Zsolt. Miskolci Egyetem november

Dr. Karácsony Zsolt. Miskolci Egyetem november Valószínűségszámítás és Matematikai statisztika Dr. Karácsony Zsolt Miskolci Egyetem, Alkalmazott Matematikai Tanszék 2013-2014 tanév 1. félév Miskolci Egyetem 2013. november 11-18 - 25. Dr. Karácsony

Részletesebben

Készítette: Fegyverneki Sándor

Készítette: Fegyverneki Sándor VALÓSZÍNŰSÉGSZÁMÍTÁS Összefoglaló segédlet Készítette: Fegyverneki Sándor Miskolci Egyetem, 2001. i JELÖLÉSEK: N a természetes számok halmaza (pozitív egészek) R a valós számok halmaza R 2 {(x, y) x, y

Részletesebben

[GVMGS11MNC] Gazdaságstatisztika

[GVMGS11MNC] Gazdaságstatisztika [GVMGS11MNC] Gazdaságstatisztika 1. előadás Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Óbudai Egyetem Oktatók Előadó Kóczy Á. László (koczy.laszlo@kgk.uni-obuda.hu)

Részletesebben

III. Képességvizsgálatok

III. Képességvizsgálatok Képességvizsgálatok 7 A folyamatképesség vizsgálata A 3 fejezetben láttuk, hogy ahhoz, hogy egy folyamat jellemzıjét a múltbeli viselkedése alapján egy jövıbeni idıpontra kiszámíthassuk (pontosabban, hogy

Részletesebben

1. Példa. A gamma függvény és a Fubini-tétel.

1. Példa. A gamma függvény és a Fubini-tétel. . Példa. A gamma függvény és a Fubini-tétel.. Az x exp x + t )) függvény az x, t tartományon folytonos, és nem negatív, ezért alkalmazható rá a Fubini-tétel. I x exp x + t )) dxdt + t dt π 4. [ exp x +

Részletesebben

Kutatásmódszertan és prezentációkészítés

Kutatásmódszertan és prezentációkészítés Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I

Részletesebben

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a Kabos: Statisztika II. t-próba 9.1 Egymintás z-próba Ha ismert a doboz szórása de nem ismerjük a doboz várhatóértékét, akkor a H 0 : a doboz várhatóértéke = egy rögzített érték hipotézisről úgy döntünk,

Részletesebben

Ismétlı áttekintés. Statisztika II., 1. alkalom

Ismétlı áttekintés. Statisztika II., 1. alkalom Ismétlı áttekintés Statisztika II., 1. alkalom Hipotézisek Milyen a jó null hipotézis?? H0: Léteznek kitőnı tanuló diszlexiások. Sokkal inkább: H0: Nincs diszlexiás kitőnı tanuló általános iskolában Mo-on.

Részletesebben

Segítség az outputok értelmezéséhez

Segítség az outputok értelmezéséhez Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró

Részletesebben

Biometria gyakorló feladatok BsC hallgatók számára

Biometria gyakorló feladatok BsC hallgatók számára Biometria gyakorló feladatok BsC hallgatók számára 1. Egy üzem alkalmazottainak megoszlása az elért teljesítmény %-a szerint a következı: Norma teljesítmény % Dolgozók száma 60-80 30 81-90 70 91-100 90

Részletesebben

Biostatisztika Összefoglalás

Biostatisztika Összefoglalás Biostatisztika Összefoglalás A biostatisztika vizsga A biostatisztika vizsga az Orvosi fizika és statisztika I. fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 0 kérdésre kell válaszolni

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p

Részletesebben

Variancia-analízis (folytatás)

Variancia-analízis (folytatás) Variancia-analízis (folytatás) 7. elıadás (13-14. lecke) Egytényezıs VA blokk-képzés nélkül és blokk-képzéssel 13. lecke Egytényezıs variancia-analízis blokkképzés nélkül Az átlagok páronkénti összehasonlítása(1)

Részletesebben