A főkomponens-elemzés alkalmazása a kémiában

Hasonló dokumentumok
Vektorterek. =a gyakorlatokon megoldásra ajánlott

A Shannon-féle entrópia mint molekula deszkriptor a szteroid vázas vegyületeknél

Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István

Principal Component Analysis

Szinguláris érték felbontás Singular Value Decomposition

Lin.Alg.Zh.1 feladatok

Összeállította: dr. Leitold Adrien egyetemi docens

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

LINEÁRIS ALGEBRA. matematika alapszak. Euklideszi terek. SZTE Bolyai Intézet, őszi félév. Euklideszi terek LINEÁRIS ALGEBRA 1 / 40

Lin.Alg.Zh.1 feladatok

Lineáris algebra Gyakorló feladatok

Vektorok, mátrixok, lineáris egyenletrendszerek

VIK A2 Matematika - BOSCH, Hatvan, 3. Gyakorlati anyag. Mátrix rangja

Matematika (mesterképzés)

Kvadratikus alakok és euklideszi terek (előadásvázlat, október 5.) Maróti Miklós, Kátai-Urbán Kamilla

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

Mátrixok 2017 Mátrixok

10. Előadás. Megyesi László: Lineáris algebra, oldal. 10. előadás Sajátérték, Kvadaratikus alak

Miért fontos számunkra az előző gyakorlaton tárgyalt lineáris algebrai ismeretek

Első zárthelyi dolgozat megoldásai biomatematikából * A verzió

Matematika A1a Analízis

A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek

Matematikai geodéziai számítások 5.

Lineáris algebra. =0 iє{1,,n}

Megjegyzések (észrevételek) a szabad energia és a szabad entalpia fogalmához

Saj at ert ek-probl em ak febru ar 22.

1. zárthelyi,

Lineáris leképezések. 2. Lineáris-e az f : R 2 R 2 f(x, y) = (x + y, x 2 )

Matematika elméleti összefoglaló

9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35

Skalárszorzat, norma, szög, távolság. Dr. Takách Géza NyME FMK Informatikai Intézet takach/ 2005.

Alkalmazott algebra - SVD

Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek

1. Lineáris transzformáció

Problémás regressziók

Keresztmetszet másodrendű nyomatékainak meghatározása

1.1. Vektorok és operátorok mátrix formában

1 Lebegőpontos számábrázolás

Matematikai geodéziai számítások 5.

1. Bázistranszformáció

Összeállította: dr. Leitold Adrien egyetemi docens

Saj at ert ek-probl em ak febru ar 26.

Lin.Alg.Zh.1-2 feladatok

Rang, sajátérték. Dr. Takách Géza NyME FMK Informatikai Intézet takach/ február 15

2. előadás. Lineáris algebra numerikus módszerei. Mátrixok Mátrixműveletek Speciális mátrixok, vektorok Norma

Főkomponens és Faktor analízis

Főkomponens és Faktor analízis

Determinánsok. A determináns fogalma olyan algebrai segédeszköz, amellyel. szolgáltat az előbbi kérdésekre, bár ez nem mindig hatékony.

Lineáris leképezések (előadásvázlat, szeptember 28.) Maróti Miklós, Kátai-Urbán Kamilla

Gauss-eliminációval, Cholesky felbontás, QR felbontás

Vektorok. Wettl Ferenc október 20. Wettl Ferenc Vektorok október / 36

Bevezetés a számításelméletbe (MS1 BS)

Testek. 16. Legyen z = 3 + 4i, w = 3 + i. Végezzük el az alábbi. a) (2 4), Z 5, b) (1, 0, 0, 1, 1) (1, 1, 1, 1, 0), Z 5 2.

Matematika A2 vizsga mgeoldása június 4.

Transzformációk síkon, térben

Példa keresztmetszet másodrendű nyomatékainak számítására

1. Az euklideszi terek geometriája

Kinematika szeptember Vonatkoztatási rendszerek, koordinátarendszerek

Mátrixfelbontások BSc szakdolgozat

Többváltozós lineáris regresszió 3.

A többváltozós lineáris regresszió III. Főkomponens-analízis

9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, mátrixegyenlet

9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, Leontyev-modell

Térbeli transzformációk, a tér leképezése síkra

Lineáris algebra mérnököknek

Összeállította: dr. Leitold Adrien egyetemi docens

i=1 λ iv i = 0 előállítása, melynél valamelyik λ i

Lineáris algebra gyakorlat

6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján

Gazdasági matematika II. tanmenet

Valasek Gábor

1. feladatsor Komplex számok

karakterisztikus egyenlet Ortogonális mátrixok. Kvadratikus alakok főtengelytranszformációja

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

Műveletek mátrixokkal. Kalkulus. 2018/2019 ősz

Számítógépes Grafika mintafeladatok

azonosságot minden 1 i, l n, 1 j k, indexre teljesítő együtthatókkal, amelyekre érvényes a = c (j) i,l l,i

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

Bázistranszformáció és alkalmazásai 2.

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

Matematika javítóvizsga témakörök 10.B (kompetencia alapú )

Algoritmusok Tervezése. 1. Előadás MATLAB 1. Dr. Bécsi Tamás

Térbeli geometriai transzformációk analitikus leírása

Gazdasági matematika II.

Lineáris algebra mérnököknek

és n oszlopból áll, akkor m n-es mátrixról beszélünk. (Az oszlopok száma a mátrix vízszintes mérete, a sorok 2 3-as, a ij..

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31

1. Határozzuk meg, hogy mikor egyenlő egymással a következő két mátrix: ; B = 8 7 2, 5 1. Számítsuk ki az A + B, A B, 3A, B mátrixokat!

1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)

1. Mit jelent az, hogy egy W R n részhalmaz altér?

Alkalmazott algebra - skalárszorzat

17. előadás: Vektorok a térben

Diszkrét matematika I., 12. előadás Dr. Takách Géza NyME FMK Informatikai Intézet takach november 30.

Lineáris algebra (10A103)

Diszkrét matematika I. gyakorlat

1. Mátrixösszeadás és skalárral szorzás

Lineáris algebra zárthelyi dolgozat javítókulcs, Informatika I márc.11. A csoport

Matematikai geodéziai számítások 10.

Lineáris algebra gyakorlat

Átírás:

r. Pósa Mihály, Szebenyi Anna ** és r. Gaál Ferenc A főkomponens-elemzés alkalmazása a kémiában 1. Bevezetés A főkomponens-elemzés (Principial Component Analysis, PCA) a molekulaszerkezet - hatás - kvantitatív kutatásának (Quantitative Structure Activity Relationships - QSAR) az egyik alapmódszere. 1 A PCA olyan matematikai eljárás, melynek alapvető célja az adatmátrix rendűségének csökkentése (az adatmátrix változóinak csökkentése). 1-3 a P a I > a I GK 1. ábra A főkomponens elemzés alkalmazása a adatmátrixon A főkomponens-elemzés alkalmazásakor a megfigyelt I objektumok (molekulák, különböző minták, stb, a mátrix sorai) a dimenziós vektortérből (a mátrix oszlopainak a száma, tulajdonképpen az I objektumok megfigyelt tulajdonságaik) a P főkomponens mátrixszal (vetítési mátrix, főkomponens-együtthatók mátrixa, loading) egy alacsonyabb dimenziójú (a, a<, a a lényeges főkomponensek száma) vek- r. Pósa Mihály, egyetemi docens, Újvidéki Egyetem, Orvostudományi Kar, Gyógyszerészettudományi anszék, Újvidék ** Szebenyi Anna, Ph hallgató, tanársegéd, Újvidéki Egyetem, Orvostudományi Kar, Gyógyszerészettudományi anszék, Újvidék r. Gaál Ferenc akadémikus, a Vajdasági udományos és Művészeti Akadémia rendes tagja, nyugalmazott egyetemi tanár, Újvidéki Egyetem, ermészettudományi Kar, Kémia Intézet, Újvidék 503

tortérbe, a főkomponens-térbe, (GK mátrixba) vetítődnek át. A GK mátrixot általában főkomponens-érték mátrixnak nevezik (score). 1,4 2. A kovarianciamátrix sajátértéke és sajátvektor - a kovarianciamátrix diagonizálása Ismeretes, hogy a négyzetes és szimmetrikus mátrixok ortogonálisan diagonizálhatók. Mivel a adatmátrix nem szimmetrikus (általában I ), azt először szimmetrikussá kell tenni. Viszont a adatmátrix kovarianciamátrixa C négyzetes és szimmetrikus mátrix, ahol a mátrix a adatmátrix transzponált alakját jelöli: C = (1), A kovarianciamátrix ortogonális diagonalizációját a következő mátrixegyenlettel ábrázolható: P P = Λ (2). A felső mátrixegyenletben P jelöli a kovarianciamátrix ortonormált sajátvektorainak (eigenvectors) mátrixát (a sajátvektorok a P mátrix oszlopvektorai), míg a Λ a mátrix sajátértékeinek λ (eigenvalues) a diagonális (átlós) mátrixa. Ha a kovarianciamátrix nem elfajult (reguláris, nem szinguláris), akkor darab sajátvektora, illetve sajátértéke van, így a P és Λ mátrixok rendű négyzetes mátrixok. Abban az esetben, ha a kovarianciamátrix szinguláris (a mátrix determinánsa nulla), r rangú mátrix és r számú sajátértéke, illetve sajátvektora van. A főkomponens-elemzés elméletében a P mátrix, tehát a sajátvektorainak a mátrixa, a főkomponens-vektorok p mátrixa. A főkomponens-vektorok p a P mátrix oszlopvektorai a vagy r dimenziós vektortérben. Helytálló a P mátrixnak a főkomponens-együtthatók mátrixának az elnevezése is, mivel a főkomponens-vektorok koordinátasorai (koordinátaegyütthatói) meghatározzák a p vektorok helyzetét (irányát) a vizsgált objektumok tulajdonságainak vektorterében. A p vektorok valójában egységvektorok, amelyek egymásra merőlegesek és irányuk meghatározza a fökomponens-tengelyt. 1 504

A kovarianciamátrix ortogonális diagonalizációjaként kapott P mátrix után következik a főkomponens-érték mátrix meghatározása: gk p (3). [ I 1] = [ I ] [ 1] A 3. egyenlet szerint, minden p vektor az I objektumokat a adatmátrix dimenziós vektorteréből az általa (p) meghatározott főtengelyre vetíti (amely kolineáris a p egységvektorral, és mindegyik főtengely merőleges minden más főtengellyel). ehát, a főkomponens-érték vektorok gk az I objektumok koordinátái a p által meghatározott főtengelyen. A főkomponens-érték vektorok ortogonálisak, de nem egységvektorok, hanem értékük egyenlő a velük komplementer sajátérték négyzetgyökével «(2 ábra). 1,3 z p z főkomponens -tengely főkomponens -tengely x p x p 1 = 1 p y y gk 1 λ 1 1/2 2. ábra A főkomponens-vektor p 1 egységvektor az x,y,z változok (a megfigyelt objektumok tulajdonságaik) terében, azaz a jelen példában az R 3 vektortérben. A p 1 koordinátai meghatározzák a főtengely irányát, amelyre vetítődnek az R 3 térből «gk i gk j = p i p j = (p i ) p j = p i p j p = λp p i p j = p i λ j p j = λ j p i p j p i p i = p i λ i p i = λ i p i p i, (p i p i = 0) gk i gk i = λ i gk i = λ 1/2 i. 505

a tanulmányozott objektumok. Az I objektumok főtengelybéli értékei meghatározzák a főkomponens-érték vektort gk 1 A főkomponens-érték mátrixot GK a 3-as kifejezés értelmében a következő mátrixegyenlet határozza meg: GK = P (4). A főkomponens-térben az I objektumok értékei alapján a következő kovarianciamátrixot lehet definiálni (főkomponensek kovarianciája): 1 C = GK GK (5). I 1 Ha az 5-ös kifejezésben a GK helyett a 4-es mátrixegyenlet szerinti P helyettesítjük, majd figyelembe vesszük a 2-es kifejezést, akkor a kovarianciamátrixra a következőt kapjuk «: 1 GK GK = I 1 1 ( P) I 1 P = P P = (6). 1 P PΛP P = I 1 1 Λ I 1 A 6-os kifejezés értelmében a főkomponensek kovarianciamátrixában az átlós elemek a főkomponensérték-vektorok, mint az I objektumok főkomponens-változóinak a szórásnégyzetei s 2 (gk i ), míg a nem átlós elemek nullával egyenlők: 1 s 2 ( gk λ 1) 0 1 L 2 1 s ( gk = i) I 1 L 2 0 s ( gk ) 0 L λ i L 0 λ «Mivel a P ortonormált mátrix, ezért P = P -1, azaz P -1 P = PP -1 = I; I pedig az egységmátrix. 506

Bebizonyították, hogy a s 2 (gk i ) szórásnégyzetek az eredeti adatmátrix változóinak (a mátrix oszlopainak) a szórásnégyzeteiből erednek. 1 A kovarianciamátrix kifejezhető a főkomponens-vektorok p sajátértékeikkel súlyzott dijádikus szorzatuk összegével (a kovariancia-mátrix spektrális felbontása, 3 ábra): 1,4 = λ L + 1 p1p1 + λ1p 2p2 + Lλ i pipi λp p j (7). Mivel a sajátértékek közül a λ 1 -nek van a legnagyobb értéke, a 7- es spektrális felbontásban az első dijádikus szorzat ad magyarázatot a legnagyobb mértékben az adatmátrix kovarianciamátrixára. Ezek szerint az eredeti adatok varianciájából legtöbbet az első főkomponens magyaráz. p 1 p = λ 1 p 1 rész + + λ p rész 3. ábra A adatmátrix spektrális felbontása Falco mátrixszorzási sémája szerint A főkomponens-érték mátrixban GK a főkomponensértékvektorok gk (oszlopvektorok) úgy sorakoznak, hogy balról jobbra haladva csökken az általuk megmagyarázott mátrix varianciájának a hányada. Így az első főkomponens-érték vektor gk 1 felöleli a mátrix varianciájának a legnagyobb részét, míg a második főkomponens-érték vektor gk 2 mutatja a mátrix varianciájának azt a részét, amelyet az első főkomponens-vektor nem utal. A harmadik főkomponens-érték vektor gk 3 pedig a mátrix azon varianciáját mutatja, amelyet az első kettő főkomponens-érték vektor nem utalt, stb. Wold szerint azok a főkomponensérték-vektorok amelyek sajátértékei alacsonyak, elhagyhatók a GK mátrixból, mivel ezek a főkomponens-érték vektorok az eredeti 507

adatmátrixban azt a szórást mutatják, amely a zajból vagy mérési hibából származik: 1,4 = gk 1 p 1 + gk 2 p 2 + gk 3 p 3 + E = rész1 + rész2 + rész3 + E (8). A 8-as kifejezésben az E a hibamátrix, amely tulajdonképpen az elhagyott kis sajátértékű főkomponens-érték vektorokban foglaltatott (4. ábra). p 1 p 3 I rész-1 = gk 1 + + gk rész-2 + E 4. ábra A Wold elmélet Falco-féle mátrix sémája 3. Alakfelismerés (pattern recognition) a főkomponens-érték vektorok terében A két- (gk 1 -gk 2 ) vagy három dimenziós (gk 1 -gk 2 -gk 3 ) főkomponens-értek vektortérben a hasonló tulajdonságú molekulák (minták) csoportokat alkotnak, így például a homológ vegyületek lineáris kongenerikus csoportokat. 1,5 Pósa és társai vizsgálták a hőmérséklet hatását az epesavak retenciós kapacitására reverz fázisú nagyhatékonyságú folyadék kromatográfiában (reverse phase high performance liquid chromatography RPHPLC). A kísérlet célja az volt, hogy kivizsgálják vajon a hőmérsékletváltozás a kromatográfiában hordoz-e olyan többlet információt, amely specifikus az epesavak szerkezetére, különösen a szteroidvázat illetően, ami főkomponens-elemzéssel leellenőrizhető. A kísérletben az adatmátrix a következő volt: az epesav molekulák képviselték az objektumokat (a mátrix sorai), míg a különböző hőmérséklet értékekhez tartozó retenciós kapacitások reprezentálták a mátrix oszlopait (4. ábra). A adatmátrix kovarianciamátrixa határozta meg a főkom- 508

ponenseket. Az első két főkomponens az eredeti adatmátrix varianciájának a 99%-ra adott magyarázatot. 5 4. ábra Az RPHPLC-beli kisérletben használt adatmátrix (Pósa, M., Pilipović, A., Lalić, M., Popović,. alanta doi: 10.1016/j.talanta.2010.11.050 (in press)) Az első két főkomponensérték-vektor síkjában (5. ábra) az epesavak három csoportot képeznek. Az első csoportra jellemző, hogy az epesav molekulák szteroidrendszerükben csak egy hidroxid csoportot tartalmaznak (C3-as OH), míg a második csoportban kettőt (C3-as OH, C7-es vagy a C12-es OH). A harmadik csoportba olyan epesav molekulák tartoznak, melyek szteroidváza oxo csoportot is tartalmaz, vagy az oxo csoporttal azonos térbeli helyzetű hidroxid csoportot (6. ábra). A három hidroxid csoportot tartalmazó epesavak a Cook-féle távolságaik 509

alapján nem tartoznak egyik csoportba sem, hanem különálló szigetet alkotnak. 5 5. ábra Az első két főkomponens-érték vektor síkjában történő csoportosulások (Pósa, M., Pilipović, A., Lalić, M., Popović,. alanta doi: doi.1016/j.talanta.2010.11.050 (in press)) 6. ábra Az 5-ös ábra epesav molekulák III csoportjának a szteroidvázuk közös sajátossága Newman-projekcióban ábrázolva (Pósa, M., Pilipović, A., Lalić, M., Popović,. alanta doi: 10.1016/j.talanta.2010.11.050 (in press)) 510

4. Az adatmátrix változóinak (az objektumok tulajdonságainak) korrelációja a főkomponens-vektorok (főkomponens-együtthatók) alapján Mivel a főkomponens-vektorok p együtthatói az eredeti vektortérben értelmezett koordinátaértékek, ezért ha az első két főkomponensvektort egymás függvényében ábrázoljuk, akkor az így kapott síkban minden eredeti tulajdonságnak (a mátrix oszlopváltozójának tulajdonságvektorának) egy rádiuszvektor felel meg. A rádiuszvektorok egymással bezárt szögeinek koszinusza arányos a rádiuszvektorokat reprezentáló változók közötti korrelációval. Minél kisebb a két helyvektor által bezárt szög, annál nagyobb a vektorokhoz rendelt tulajdonságok közötti korreláció. Az ortogonális rádiuszvektorok közötti korreláció nulla (7. ábra). Az adatmátrixból, a további prediktív (előrejelző) modell kidolgozásakor azok a tulajdonságvektorok közül, amelyek rádiuszvektorai a főkomponens-vektorok síkjában egymással éles szöget zárnak be, többségük elhagyható. 1,3-5 7. ábra Az adatmátrix tulajdonságvektorainak korrelációja az első kettő főkomponens-vektor síkjában(pósa, M., Pilipović, A., Lalić, M., Popović,. alanta doi: 10.1016/j.talanta.2010.11.050 (in press)) 511

5. Összegzés A főkomponens-elemzés olyan többváltozós adatelemzés, amelynél egy időben kapunk információt mind az adatmátrix objektumainak (molekulák) egymás közötti hasonlóságairól, mind a tulajdonságvektorok korrelációjáról. Felhasznált irodalom: 1. Pósa, M., 2010. Osnovne metode u hemometriji. Medicinski fakultet, Novi Sad. 2. Otto, M., 2007. Chemometrics, Willey-VCH, Weinheim. 3. King, F.., 2002. Medicinal Chemistry Principles and Practice, R.S.C., Cambridge. 4. Horvai, Gy., 2004. Chemometrics. Budapest, Nemzeti ankönyvkiadó. 5. Pósa, M., Pilipović, A., Lalić, M., Popović,., 2011. etermination and importance of temperature dependence of retention coefficient (RPHPLC) in QSAR model of nitrazepams partition coefficient in bile acid micelles. alanta doi: 10.1016/j.talanta.2010.11.050 (in press) 512