_Tulajdonágér-1. Tulajdonágér.1. A lineári érről A lineári ér, vagy vekorér halmaz, amelyben bizonyo műveleek érelmezeek, é amelynek elemeire meghaározo ulajdonágok érvényeek [1]. Szám-n-eek, vekorok ilyen elemek, ezek ehá lineári ér elemei. Ha a érben van n olyan elem, amelyek a lineári kombináció zabályai zerin má elemekből nem állíhaók elő, akkor ezek az elemek egy n- dimenzió ér báziainak ekinheők, é velük a ér minden ovábbi eleme előállíhaó. Az n- dimenzió érben az e 1, e,...e n egymára merőlege egyégvekorok n-méreű derékzögű koordináa rendzer fezíenek föl, amelyben bármely x vekor x 1 e 1 + xe +... + x n e n x (.1) alakban eőállíva ponkén, vagy az arra muaó nyílkén ábrázolhaó. A pon koordináái az egye bázivekorok x 1, x,...x n úlyá jelenik. Az n-dimenzió ere képező elemek egy kiebb dimenziójú rézhalmaza a ér alere, amelynek ermézeeen megmaradnak lineári ér ulajdonágai. A márixok ozlopai vagy orai vekorok, amelyekkel özefüggében felveődik a lineári függelenég é a márix rangjának kérdée. Egy I x J ( I > J) méreű D márix ozlopai egymáól lineárian függelenek, ha a c 1 d 1 + cd +... + c J d J 0 (.) egyenlőég nem eljeül (kivéve a c 1 c...c J 0 riviáli eee), azaz egyik d j vekor em állíhaó elő a öbbi vekor lineári kombinációjakén. Egy márix lineárian függelen vekorainak zámá a márix rangjának nevezik. Mivel a lineárian függelen vekorok záma nem lehe nagyobb, min a ere képező vekorok méree, egy márix rangja em lehe nagyobb, min kiebbik méree: rang( D ) min( I, J ) (.3) Ha (.3) reláció egyenlőégkén eljeül, akkor a márixo eljerangúnak zoká nevezni. Ha D márix, min zokáo, álló églalap márix, azaz I J, é nem eljeül (.) feléel, akkor rangja J é eljerangú. A J darab lineáriaan függelen vekor J dimenzió lineári ere fezí fel. Ha D márix cak R rangú volna, akkor a orvekorok álal kijelöl ponok a J-dimenzió ér R méreű alerében foglalnának helye. C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-.. Tulajdonágok lineári ere Az I x J méreú adamárix ulajdonágvekorai ekinhejük olyan lineári ér elemeinek, amelyeke a ulajdonágok egyégnyi hozúágú vekorai fezíenek fel. Ebben a ulajdonágérnek neveze érben az objekumok J koordináájú vekorai egy-egy pono, objekum-ponoka jelölnek ki..1 Példa: Legyen ado három benzin, darabonkén négy minában. Minden minában megmérik az alkán, alkén é arén mólöre. Van ehá I 1 objekum é J 3 ulajdonág. Az adamárix legyen a kövekező:.1 ábláza. Benzinözeéel I / J 1 3 1 0.7 0.1 0.18 0.68 0.15 0.17 3 0.75 0. 0.05 4 0.7 0.14 0.16 5 0.3 0.5 0.0 6 0.8 0.48 0.4 7 0.3 0.41 0.9 8 0.5 0.47 0.8 9 0.15 0.05 0.80 10 0.17 0.08 0.75 11 0.1 0 0.90 1 0. 0.0 0.78 Az adamárix objekum vekorainak (ponjainak) képe a háromdimenzió érben a.1 ábrán láhaó. Az objekumponok elhelyezkedée a ulajdonágérben az objekumok kapcolaá i ükrözi. Ez az elhelyezkedé ermézeeen háromnál öbb dimenzióban nem láni, az azonban mindenképpen kézenfekvő, hogy az egymához közelfekvő ponok rokon objekumokhoz aroznak. A ponok helyzeére ki ( - 3) dimenziójú ikra, érbe való veüleeikből lehe kövekezeni. Ha a ponok comókba, fürökbe, cluerekbe ömörödnek, az objekumok közö ajáágúak, ha a comók jól elválnak, idegenek. C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-3 0.8 0.6 Aren 0.4 0. 0.0 0. 0.4 alkan 0.6 0.8 0.0 0.1 0. 0.3 alken 0.6 0.5 0.4.1 ábra. Objekumok a ulajdonágérben Tekinünk haáreeeke. Tegyük fel, hogy az objekumoka olyan, együeen elozló, egymáal akár korreláló ulajdonágok jellemzik, amelyeknek becülheő várhaó éréke, zóráa, kovarianciája. Ilyen eeben a ulajdonágoknak az (1.4) özefüggében már emlíe J x J méreű zimmeriku kovariancia márixa C: 11 c1... c1j c1... cj C (.4)... c J1 cj... JJ ahol C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-4 ( d ki d i )( d kj d j ) k cij c ji (.5) J 1 az i-edik é j-edik ulajdonág becül kovarianciája é ( d ki di ) k cii ii (.6) J 1 az i-edik ulajdonág becül varianciája. Az objekumok ebben az eeben a J-dimenzió érben a T C 1 x x k (.7) egyenleű hiperellipzoiddal burkolhaó érrézbe kerülnek. Ennek a (zélőége eeben, egyenlő zóráoknál, zéru kovarianciáknál hipergömb) alakú érréznek veülee valamely ikra ellipzi (zélőége eeben kör). Má haáreeben az objekumok a érben vagy annak veüleeiben valamely jellegzee, pl. vonal-, íkmeni mináza menén helyezkednek el. IIyenkor az objekumok ulajdonágai közö függvénykapcola ejheő. Előfordulha az i, hogy az objekumponok egyenleeen, homogén módon zórják be a ere..3 Objekumok ávolága a ulajdonágérben A coporoíá alapja az objekumok kozöi haonlóág. Az objekumok haonlóága alkalma ulajdonágvekor definíciók (alkalma reprezenáció ) eeén egyenérékű az objekumok ulajdonágvekorainak haonlóágával. A ulajdonágok erében a haonló ulajdonágvekorú objekumok (ponok) min láuk egymához közel helyezkednek el, a különbözők meze. Az objekumoka képvielő ponok közöi ávolágnak ehá a coporoíá zemponjából dönő jelenőége van. A ávolágkén definiál mennyiégeknek fajájukól függően öbb-keveebb feléelnek kell elege enniök. A legfonoabbak: d 0 (.8) d 0 (.9) d d (.10) d 0 akkor é cak akkor, ha (.11) Távolágoka ok zemponnak megfelelően okféleképpen lehe definiálni. A ávolág előorban függ aól, hogy milyen ermézeűek az adaok: neveíők (nomináliak), bináriak, rendezők (ordináliak) vagy mérheők (merikuak). C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-5.3.1 Kaegoriku ulajdonágok rokonága Nomináli ulajdonágok ávolágáról akkor lehe bezélni, ha azoka binári ulajdonágúakká alakíjuk. Tegyük fel, hogy az objekumoknak J ulajdonága van. Minden objekumnak megfeleleünk egy rendeze, J elemű binári (Boole) vekor, amelyik azon a helyen aralmaz 1-éréke, amely az objekum ado ulajdonágának a helye, máhol zéru. Binári (J darab 1 vagy 0 éréke aralmazó) vekorok haonlóágára az elemek egyezéének é eléréének lezámláláa alapján kövekezeheünk []. Jelölje ké vekor eeén a b c d az 1-1 egyezéek zámá az 1 0 eléréek zámá a 0 1 eléréek zámá a 0 0 egyezéek zámá. A négy zámérékből valamely (a,b,c,d) ávolágméréke zámolnak, gyakran célzerűen kerek haárok közé normálva. A 0 0 egyezéeke óvaoan kell kezelni. Ké objekum közö ugyani nem jelen zükégképpen haonlóágo az, hogy egyiküknek inc meg ugyanaz az ado ulajdonága. A d zám ehá cak akkor veheő figyelembe, ha a ulajdonágok ávollée rokonágo igazol. A legegyzerűbb rokonágmérékek az (1-1) egyezéek zámá figyelik, vizonyiva valamilyen bázihoz: a a + b + c (Jaccard zám) (.1) a a + b + c + d (Ruel-Rao zám) (.13) a a + b + c (Sorenon zám) (.14) a a + ( b + c) (Edmonon zám) (.15) a b + c (Kulczinky zám) (.16) 1 a a + a + b a + c (Módoío Kulczinky zám) (.17) Az zámok 0 érékűek, ha a vekorelemek közö ninc egyezé (a 0), é (.16) kivéelével 1 érékűek, ha a vekorelemek közö ninc eléré (b 0 é c 0) C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-6 Az (1 1) é (0 0) egyezéeke i figyeli a a + d a + b + c + d (Egyzerű egyezéi zám) (.18), a + d a + d + ( c + b) (Roger-Tanimoo zám) (.19), ( a + d ) ( a + b) + c + d (Sokal-Sneah zám) (.0). Az zámok 0 érékűek, ha a vekorelemek közö ninc egyezé (a 0, é d 0), é (.15) kivéelével 1 érékűek, ha a vekorelemek közö ninc eléré (b 0 é c 0). A vekorelemek közöi eléréeke méri a [0,1] arományban a b + c (Tanimoo zám) (.1) a + b + c + d illeve annak négyzegyöke. A [-1,1] arományban jellemzi az egyezé méréké a ad bc (Yule zám) (.), ad + bc amely +1, ha nincenek elérő elemek (bc 0 é ad 0), 0, ha az egyező é elérő elempárok záma megegyezik (ad bc), é -1, ha nincenek egyező elemek (ad 0 é bc 0). Az eléréeke exenzív egyégekben (darabzámban) méri a Hamming zám b + c (.3) illeve annak négyzegyöke. Ezeek a zámoka a manhaan ávolág é az euklidezi ávolág binári megfelelőinek ekinhejük..3. Meriku ulajdonágok rokonága Mérheő adaok eeén egyik leggyakrabban haznál ávolágmérék az euklidezi ávolág: j T ( x x ) ( x x ) ( x x ) j j (.4) A ávolágo jobban kiemeli az euklidezi ávolág négyzee, Gyakran haználao a manhaan ávolág, amely ké objekum négyzerác menén megeheő újának hoza:. x x (.5) j j j C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-7 A ávolágfogalmak definiáláa orán gyakran feléelezik, hogy az objekumok olyan okaágokhoz aroznak, amelyeknél megadhaó a ulajdonágok zóráa é kovarianciájuk, igy a ávolág definiciójában célzerűen felléphe az S zórá- ill. C kovariancia márix. A ávolágo, má zóval, hzno lehe az objekumok kovariancia ellipzoidjai méreei felhaználva definiálni. Haználao emia az euklidezi ávolág olyan válozaa, a Pearon ávolág: amely az egye objekumok ulajdonágainak különbégei az ado ulajdonágok zóráához vizonyíja, azokkal normálja : T 1 ( x ) S ( x x ) ( x ) j xj x (.6) j j I S -1 a variancia márix inverze, a zóránégyzeek reciprokai aralmazó J x J méreű diagonáli márix. A Pearon ávolág dimenziómene. Az egye objekumok ávolága nagyíhaó, ha a Pearon ávolág d négyzeé haználják. A ulajdonágok közöi korreláció i figyelembevezi a Mahalanobi ávolág, amely ehá a ponfelhő burkoló hiperellipzoid valamennyi méreadaaival dolgozik: T 1 ( x x ) C ( x x ) (.7) I C a ulajdonágok már emlíe J x J méreű kovariancia márixa..3.4 A ávolágmárix Az objekumok közöi ávolágok ároláára vezeék be a ávolágmárixo, amely I objekumo aralmazó rendzer eeén egy I x I méreű, ado eeben nagy márix. A márix -edik orának é -edik ozlopának kerezeződéében az é objekumok ávolágá aralmazza. A ávolágok maemaikai kriériumaiból kövekezik, de könnyen be i láhaó, hogy a ávolágmárix zimmeriku, é annak áló elemei zéruok: 0 1... 1I 1 0... I T (.8)... 1I I...0 Emia a ávolágmárixnak cak I ( I 1)/ elemé kell árolni: C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-8.4 Objekumok coporjainak ávolága a ulajdonágérben Objekumok, min imeree, coporokba, cluerekbe ömörülhenek. Ezeknek a coporoknak felimerée, megkülönbözeée, jellemzée, egye objekumok beoroláa coporokba, ez a coporoíá é ozályozá feladaa. Felveődik ennek orán az a kérdé, hogyan lehe coporok egymáól való ávolágá zámíani. Melyek a coporok azon ponjai, amelyek közé az imer (euklidezi, manhaan b) ávolágoka be kell fekeni. Több leheőég közül lehe egy ado feladahoz a leginkább illő kiválazani. A coporegyeíé alapjakén leginkább haználao ávolágoka a. ábláza aralmazza:. ábláza. Coporávolágok zám megnevezé englih erm geomeriai aralom 1 egyzerű lánc (imple linkage) a coporok legközelebbi elemeinek ávolága elje lánc (complee linkage) a coporok legávolabbi elemeinek ávolága 3 álag ávolág (average linkage) az egyeíendő coporok elemei közöi ávolágok álaga 4 úlypon (cenroid linkage) a coporok úlyponjainak ávolága 5 McQuiy ávolág (McQuiy linkage) az egyeíe copor ávolága: a ké egyeíe copor ávolágának álaga 6 medián ávolág (median linkage) a copor mediánok ávolága 7 Ward ávolág (Ward linkage) azon zámío ávolág, amely bizoíja, hogy az egyeie copor coporonbelüli elérénégyzee minimáli legyen. A ábláza úlyponon (cenroid, barycener) a coporhoz arozó objekumoknak a ulajdonágér origójáól mér ávolágai (az objekum orvekorok) álagá képvielő pono (J elemű vekor) érjük: n g 1 ( g ) c x (.9) g ng i 1 i ahol n g : a g-edik copor objekumainak záma. Copor medián annak az objekumnak helye a érben, amely objekumnál a coporhoz arozó objekumok felének hozabbak, felének rövidebbek a ulajdonágér origójáól mér ávolágai. (Páro zámú objekumnál a ké középő objekumhoz álaga). A ávolág mindké eeben valamelyik válazo ávolágváloza. C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-9 (annak az objekumnak J elemű ulajdonág vekora), amelynél (páralan elemzámnál) az objekumokvekorok fele kiebb, fele nagyobb, páro elemzámnál a ké középő objekum álagvekora. A coporok közöi ávolág zámíáához vezeük be a.3 áblázaban megado jelöléeke..3 ábláza Jelöléek coporávolág zámíáához k n é n i i ki az egyik egyeíendõ copor jele, a máik egyeíendõ copor jele, az egyeíe copor jele, az egyik illeve máik copor objekumainek záma, az copor ávolága valamely i objekumól (a ávolág márix,i eleme) a copor ávolága valamely i objekumól (a ávolág márix,i eleme) az é coporok ávolága egymáól, (a ávolág márix, eleme) a k copor ávolága valamely i objekumól (a ávolág márix k,i eleme) Ezekből a mennyiégekből ki, a coporok ávolága (az újabb ávolágmárix eleme) az egye válazáoknál a kövekező képleekkel zámíhaó: egyzerű lánc, ingle (minimum) linkage ki 0.5 i +0.5 i - 0.5 i - i (.9) elje lánc, complee (maximum) linkage ki 0.5 i +0.5 i + 0.5 i - i (.30) coporálag, group average linkage ki n n i + i (.31) egyzerű álag, McQuiy linkage ki 0.5 i + 0.5 i (.3) úlyponi, cenroid linkage ki n n i + i - ( ) n n n + n (.33) C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC
_Tulajdonágér-10 medián, median (weighed cenroid) linkage ki 0.5 i +0.5 i -0.5 (.34) Ward féle, Ward linkage i ki - + n i i i + + n i ni i - + n i (.35) A coporok közöi ávolágoknak az objekumok coporoíáánál (cluer analyi) é ozályozáánál (claificaion) lez jelenőége. Előrebocáva, a módzerekről nagyjából mo az mondhaó, hogy az 1) ávolág haználaa lazán özearozó elemű nagy coporokhoz veze, a ) módzer jól elváló, kiciny, kerek coporoka ad, a 3) mód hajlik arra, hogy kilógó érékeke elkülönül coporokba ozon, a 4) ávolág nem kedvez jelenékelen coporoknak, a 6) egyeíéi módzer megőrzi a ki coporoka, ugyanúgy, min az 5) McQuiy eljárá, amely egyenlő úly ad minden copor-nak. A 7) Ward módzer nyilvánvalóan örekzik özearozó elemek ömör coporoíáá-ra. A úlyponi é Ward egyeíénél a négyzee ávolágmérékek haználaa ajánlo. Irodalom 1991. [1] Róza Pál: Lineári algebra é alkalmazáai. III. kiadá Tankönyvkiadó, Budape, [] I.E. Frank, R. Todechini: The daa analyi handbook. Elevier, Amerdam ec. 1994. C:\MULTIVARI\LECTURES\NEW\_TULAJDONSÁGTÉR.DOC