Eötvös Loránd Tudományegyetem Természettudományi Kar Lekli Henrietta Mátrixegyenlőtlenségek Matematika BSc, alkalmazott matematikus szakirány Témavezető: Fialowski Alice Algebra és Számelmélet Tanszék Budapest, 2017
Köszönetnyilvánítás Szeretnék köszönetet mondani témavezetőmnek, Fialowski Alicenak a téma kiválasztásában, a szakirodalom összegyűjtésében és feldolgozásában nyújtott segítségéért, illetve a szakdolgozat elkészítéséhez adott tanácsokért. 2
Bevezető A mátrixegyenlőtlenségek sokrétű alkalmazásaik miatt igen fontosak. A teljesség igénye nélkül három csoportra osztottam az általam vizsgált mátrixokkal kapcsolatos egyenlőtlenségeket. Az első fejezetben összefoglaltam a szükséges ismereteket. A második fejezetben a pozitív definit mátrixokat és az ezek közötti egyenlőtlenségeket vizsgáltam. Az így definiált mátrixok közötti részbenrendezést főleg a statisztikán belül használják. A harmadik fejezetben néhány fontos sajátértékre vonatkozó egyenlőtlenséget vezettem le. Mivel a sajátértékeket sokszor nem lehet pontosan kiszámolni, ezért fontos, hogy tudjuk őket közelíteni. Ezt a kérdést is vizsgáltam. Az utolsó fejezetben a pozitív elemű mátrixokkal foglalkoztam. Az ilyen mátrixokat főleg valószínűségszámításban alkalmazzák, mint például a sztochasztikus mátrixokat. A szakdolgozatomhoz több forrást is felhasználtam. A második fejezetet főleg a Peter D. Lax könyve alapján készítettem és ezt egészítettem ki V. V. Praszolov, Denis Serre, valamint Xingzhi Zhan könyvével, továbbá Gert K. Pedersen cikkével. A harmadik fejezetet Peter D. Lax könyve, Denis Serre könyve, Sean Brakken-Thal jegyzete, Jerry L. Kazdan könyve, valamint Bolla Marianna és Krámli András könyve alapján készítettem el. Az utolsó fejezet elkészítéséhez Peter D. Lax, Denis Serre, valamint Rózsa Pál könyvét illetve Ágoston István és Kiss Emil jegyzetét használtam. A számításokat a MAT- LAB program segítségével végeztem. Az ábrákat a GeoGebra programmal készítettem. 3
Tartalomjegyzék 1. Emlékeztető 5 1.1. Lineáris algebra.......................... 5 1.2. Funkcionálanalízis......................... 5 1.3. Statisztika............................. 6 2. Pozitív definit mátrixok 7 2.1. Pozitív definit mátrixok alaptulajdonságai........... 7 2.2. Pozitív definit mátrixok determinánsa.............. 15 3. Sajátértékekre vonatkozó egyenlőtlenségek 18 3.1. Schur-egyenlőtlenség....................... 18 3.2. Gershgorin-körök......................... 20 3.3. Valós elemű szimmetrikus mátrixok sajátértékeire vonatkozó egyenlőtlenségek.......................... 23 4. Pozitív elemű mátrixok 29 4.1. Perron-tétel............................ 29 4.2. Sztochasztikus mátrixok..................... 33 4
1. Emlékeztető 1.1. Lineáris algebra 1.1.1. Definíció. Legyen V vektortér C felett. Egy.,. : V V C leképezést skalárszorzatnak nevezzük, ha (i) y x, y lineáris ( rögzített x V esetén); (ii) y, x = x, y ( x, y V ); (iii) x, x > 0 ( x V, x 0). Ekkor a (V,.,. ) skalárszorzattal ellátott vektorteret euklideszi térnek nevezzük. 1.1.2. Definíció. Legyen A egy véges dimenziós, komplex euklideszi téren értelmezett A lineáris transzformációnak a mátrixa egy konkrét bázisban. Azt mondjuk, hogy A normális, ha felcserélhető az adjungáltjával, azaz AA = A A. A önadjungált, ha megegyezik az adjungáltjával, azaz A = A. A unitér, ha az adjungáltjával vett szorzata az identitás, azaz AA = I. 1.1.3. Megjegyzés. Ha valós euklideszi téren értelmezett lineáris transzformáció mátrixáról van szó, akkor A = A T, és az önadjungált mátrixot szimmetrikus mátrixnak, az unitér mátrixot pedig ortogonális mátrixnak nevezzük. A következőket ismertnek tekintem: sajátérték, sajátvektor, sajátaltér, karakterisztikus polinom, főminor, Jordan-alakú mátrix, determinánsok szorzástétele. 1.2. Funkcionálanalízis 1.2.1. Definíció. A p 1 valós számra az x C n vektor p-normája: ( n x p = i=1 x i p ) 1/p, ha p < ; max i x i, ha p =. 5
1.2.2. Megjegyzés. A 2-es norma a skaláris szorzásból származik, mivel x 2 = x, x. Ezt a normát x -vel szokták jelölni. 1.2.3. Definíció. Legyen. V egy tetszőleges vektornorma. Ekkor A = normát mátrixnormának nevezzük. sup Ax V x V =1 1.2.4. Definíció. Az A mátrix legnagyobb abszolút értékű sajátértékét a mátrix spektrálsugarának nevezzük, és ρ(a)-val jelöljük: ρ(a) = max{ λ i : λ i sajátértéke A-nak}. 1.2.5. Megjegyzés. Mindig igaz, hogy ρ(a) A, viszont ha A önadjungált, akkor ρ(a) = A. 1.2.6. Tétel (Spektrálfelbontási tétel). Legyen A egy n n-es önadjungált mátrix. Ekkor A-nak pontosan n valós sajátértéke van (nagyság szerint csökkenő sorrendben jelölje őket λ 1 λ 2... λ n ), és az ezekhez tartozó u 1, u 2,..., u n sajátvektorok megválaszthatók úgy, hogy ortonormáltak legyenek. Mátrixos alakban felírva ez az n A = UΛU = λ i u i u i i=1 felbontást jelenti, ahol Λ olyan diagonális mátrix, amelynek diagonális elemei a λ 1 λ 2... λ n sajátértékek, U pedig olyan unitér mátrix, amely az oszlopaiban a sajátértékekhez tartozó sajátvektorokat tartalmazza a sajátértékek sorrendjének megfelelően. A következőket ismertnek tekintem: ortogonális vektorok, normált vektorok, ortonormált bázis, Cauchy-Schwarz egyenlőtlenség, Hölder-egyenlőtlenség. 1.3. Statisztika 1.3.1. Definíció. Azt mondjuk, hogy az Y valószínűségi vektorváltozó p- dimenziós standard normális eloszlású, ha komponensei egydimenziós standard normális eloszlásúak és függetlenek. Jelölés: Y N p (0, I), utalva ezzel arra, hogy a p dimenziós Y valószínűségi vektorváltozó várható értékének vektora a 0 vektor, kovarianciamátrixa pedig I. 6
1.3.2. Definíció. Legyen az X valószínűségi változó X = AY + m alakú, ahol A p p méretű invertálható mátrix, m egy p dimenziós vektor, kovarianciamátrixa pedig C = AA T. Ekkor az X valószínűségi vektorváltozót nem elfajult többdimenziós normális eloszlásúnak nevezzük, és X N p (m, C)-vel jelöljük. 1.3.3. Tétel. Az X N p (m, C) komponensei pontosan akkor függetlenek, ha a C kovarianciamátrix diagonális. 2. Pozitív definit mátrixok Ebben a fejezetben pozitív definit mátrixokkal foglalkozunk. Először néhány alaptulajdonságot igazolunk, és az A < B relációt vizsgáljuk, majd az ilyen tulajdonságú mátrixok determinánsára mondunk ki néhány egyenlőtlenséget. 2.1. Pozitív definit mátrixok alaptulajdonságai Először elevenítsük fel a pozitív definitség és a pozitív szemidefinitség fogalmát, illetve a pozitív definitséggel ekvivalens tulajdonságokat. 2.1.1. Definíció. Egy önadjungált A mátrix pozitív definit, ha x, Ax > 0 x 0 esetén. Az A pozitív definitségét A > 0 jelöli. 2.1.2. Definíció. Egy önadjungált A mátrix pozitív szemidefinit, ha x, Ax 0 minden x esetén. Az A pozitív szemidefinitségét A 0 jelöli. 2.1.3. Tétel. A következő állítások ekvivalensek: Az A mátrix pozitív definit. Az A mátrixnak minden sajátértéke pozitív. Az A mátrix összes főminorának a determinánsa pozitív. Most nézzük meg, milyen tulajdonságok mondhatók el a pozitív definit mátrixokról. 7
2.1.4. Tétel. (i) Ha A és B pozitív definit, akkor A + B is az, illetve minden a pozitív szám esetén aa is pozitív definit. (ii) Egy A pozitív definit mátrix főátlóbeli elemei pozitívak. (iii) Ha A pozitív definit és Q invertálható, akkor Q AQ is pozitív definit. (iv) Ha A pozitív definit mátrix, akkor minden x esetén ahol λ min az A legkisebb sajátértékét jelöli. (v) A pozitív definit mátrixok invertálhatók. x, Ax λ min x 2, (1) (vi) Minden pozitív definit mátrixnak van egyértelműen meghatározott pozitív definit r-edik hatványa, ahol 0 r. (vii) A pozitív definit mátrixok halmaza nyílt részhalmaza az önadjungált mátrixok halmazának. (viii) A pozitív definit mátrixok halmazának határpontjai azok a pozitív szemidefinit mátrixok, amelyek nem pozitív definitek. Bizonyítás. (i) A skalárszorzat definíciójából következik. (ii) Indirekt tegyük fel, hogy a ii 0. Legyen x az a vektor, aminek i-edik koordinátája 1, a többi koordinátája 0. Ekkor x, Ax = a ii 0, tehát A nem pozitív. (iii) A Q AQ mátrixhoz tartozó kvadratikus alak: x, Q AQx = Qx, AQx = y, Ay, ahol y = Qx. Mivel Q invertálható és x 0, ezért y 0. (iv) A spektrálfelbontási tételt alkalmazva létezik olyan Λ diagonális mátrix, melynek diagonális elemei az A sajátértékei. Ekkor nyilván teljesül, hogy Λ λ min I 0. Ennek a tételnek az (ii) részét felhasználva Q = U választással, ahol U a spektrálfelbontásban szereplő U, az is teljesül, hogy U(Λ λ min I)U = A λ min I 0. Ez azt jelenti, hogy minden x 0-ra x, (A λ min I)x 0, azaz x, Ax λ min x 2. 8
(v) Mivel egy pozitív definit mátrix sajátértékei pozitívak, és a determináns a sajátértékek szorzata, ezért a determináns is pozitív. Ebből következik, hogy a mátrix invertálható. (vi) Mivel A pozitív definit, ezért A = UΛU alakban írható, ahol Λ elemei pozitívak. Ekkor A r a következőképpen definiálható: A r := UΛ r U. Itt Λ r elemei is pozitívak, tehát A r pozitív definit. (vii) Legyen A pozitív definit, és B olyan önadjungált mátrix, amelyre B A < λ min, ahol λ min az A mátrix legkisebb sajátértéke. Legyen C = B A. Ez azt jelenti, hogy x 0 esetén Cx C x < λ min x. Ezután a Cauchy-Schwarz egyenlőtlenséget használva, x 0 esetén x, Cx x Cx < λ min x 2. Ezt az egyenlőtlenséget és ennek a tételnek a (iv) részét felhasználva kapjuk: x, Bx = x, (A + C)x = x, Ax + x, Cx > λ min x 2 λ min x 2 = 0. Tehát B is pozitív definit. (viii) A határ definíciója miatt minden határon lévő B mátrix előáll A n > 0 mátrixok sorozatának határértékeként, azaz lim A n = B. n Ez azt jelenti, hogy lim x, A nx = x, Bx. n Mivel A n pozitív definit, és pozitív számok határértéke nemnegatív, ezért B pozitív szemidefinit. B nem lehet pozitív definit, mert akkor (vii) miatt nem lehetne a határon. Az önadjungált mátrixok között definiálható a pozitív definitség fogalmán alapuló részbenrendezés. 2.1.5. Definíció. Legyen A és B két önadjungált mátrix. Azt mondjuk, hogy A kisebb, mint B, azaz szimbólumokkal kifejezve A < B, 9
ha B A pozitív definit: 0 < B A. Az A B reláció hasonlóan definiálható. Ezt a mátrixok közötti relációt a statisztikán belül a becsléselméletben gyakran használják. Például a hatásosság definíciójában, és a Cramér-Rao egyenlőtlenségben is szerepel. Az önadjungált mátrixok részbenrendezése rendelkezik a valós számok rendezésének néhány tulajdonságával. A következő tulajdonságok a 2.1.4 Tételből következnek: Additivitás: Ha A < B és C < D, akkor A + C < B + D. Tranzitivitás: Ha A < B és B < C, akkor A < C. Multiplikativitás: Ha A < B és Q invertálható, akkor Q AQ < Q BQ. 2.1.6. Megjegyzés. Ez a három tulajdonság a reláció esetén is teljesül. Ezeken a tulajdonságokon kívül teljesül az inverzre való tulajdonság is. 2.1.7. Tétel. Legyenek A és B pozitív definit mátrixok, melyekre 0 < A B. (2) Ekkor A 1 B 1. (3) Bizonyítás. Először nézzük a B = I esetet. Az A I azt jelenti a definíció szerint, hogy I A 0. Ebből következik, hogy I A sajátértékei nemnegatívak, azaz A sajátértékei nem nagyobbak, mint 1. Feltettük, hogy A pozitív definit, tehát a sajátértékei pozitívak, ezért A 1 sajátértékei nem kisebbek, mint 1. Ebből az következik, hogy A 1 I sajátértékei nemnegatívak, tehát A 1 I 0, azaz A 1 I. Legyen most B tetszőleges pozitív definit mátrix. Ekkor létezik R > 0, hogy B = R 2. Itt R invertálható. A multiplikatív tulajdonságból következik, hogy 0 < R 1 AR 1 R 1 BR 1 = I. Az előbb beláttuk, hogy R 1 AR 1 inverze nem kisebb, mint I, azaz RA 1 R I. 10
Ismét kihasználva a multiplikatív tulajdonságot, az A 1 R 1 IR 1 = R 2 = B 1 egyenlőtlenség is teljesül. Ezzel a tételt beláttuk. Igaz-e, hogy két pozitív definit mátrix szorzata is pozitív definit? 2.1.8. Példa. Legyenek A és B a következő mátrixok: Ekkor A és B szorzata A = ( ) 1 0, B = 0 2 AB = ( ) 1 1. 2 4 ( ) 1 1. 1 2 Mivel nem önadjungált mátrixot kaptunk, ezért nem értelmezhető a pozitív definitség. Két önadjungált mátrix szorzata nem szükségképpen önadjungált, ezért definiáljuk az A és B mátrixok S szimmetrizált szorzatát a következőképpen: S = AB + BA. Ez a szimmetrizált szorzat mindig önadjungált lesz. Felmerül a kérdés, hogyha A és B pozitív definit mátrixok, akkor a szimmetrizált szorzatuk, azaz S is pozitív definit lesz-e? Nézzünk egy példát. 2.1.9. Példa. Legyenek A és B a következő mátrixok: A = ( ) 1 0, B = 0 2 ( ) 1 y. y z Ebben az esetben B akkor és csak akkor pozitív definit, ha detb > 0. Ekkor A és B szimmetrizált szorzata: ( ) ( ) ( ) 1 y 1 2y 2 3y S = AB + BA = + =, 2y 2z y 2z 3y 4z melynek determinánsa: dets = 8z 9y 2. 11
Tehát ha találunk olyan y-t és z-t, amire teljesül, hogy z y 2 > 0, 8z 9y 2 < 0, akkor S nem lehet pozitív definit. Ha például z = 1, akkor 0.943 < y < 1 kielégíti a fenti egyenlőtlenségeket. Tehát két pozitív definit mátrix szimmetrizált szorzata nem szükségképpen pozitív definit. Ezek után kicsit meglepődhetünk a következő tételen. 2.1.10. Tétel. Legyenek A és B önadjungált mátrixok a következő tulajdonságokkal: (i) az A pozitív definit; (ii) az S = AB + BA szimmetrizált szorzat pozitív definit. Ekkor B pozitív definit. Bizonyítás. ha t 0: Legyen a B(t) függvény a következő: B(t) = B + ta. Ekkor S(t) = AB(t) + B(t)A = AB + BA + 2tA 2 = S + 2tA 2 is pozitív, mivel S pozitív, és 2tA 2 nemnegatív. Ezenkívül ha t elég nagy, akkor B(t) is pozitív kell legyen, ugyanis x, B(t)x = x, Bx + t x, Ax. A Cauchy-Schwarz egyenlőtlenségből következik, hogy x, B(t)x x Bx B x 2. Mivel A pozitív, ezért az 2.1.4 Tétel miatt teljesül: x, Ax λ min x 2. Ezekből az egyenlőtlenségekből adódik: x, B(t) (tλ min B ) x 2, 12
amiből következik, hogy B(t) pozitív definit, ha t B λ min. Most nézzük a t = 0 esetet. Mivel B(t) folytonosan függ a t változótól, ezért ha B = B(0) nem lenne pozitív, akkor létezne olyan 0 és B λ min között lévő nemnegatív t 0, hogy B(t 0 ) a pozitív mátrixok határán van. Az 2.1.4 Tételben beláttuk, hogy a határon pozitív szemidefinit mátrixok vannak. Tehát létezik y 0, hogy B(t 0 )y = 0. Ekkor azonban y, S(t 0 )y = Ay, B(t 0 )y + B(t 0 )y, Ay = 0 is teljesül, ami ellentmond S(t) pozitív definitségénekek. Most nézzük meg, vajon a nemnegatív hatványra emelés megőrzi-e a pozitív definitséget. 2.1.11. Tétel (Löwner-Heinz). Ha 0 < A B, és 0 r 1, akkor A r B r. (4) Bizonyítás. Legyen A és B a feltételnek megfelelő két mátrix. Jelölje E azt a halmazt, ami azokból a [0, 1]-beli r számokból áll, amikre teljesül (4). Triviális, hogy 0 E és 1 E. Mivel az r A r folytonos leképezés, ezért E zárt halmaz. Megmutatjuk, hogy E konvex. Legyen t, s E. Mivel A s B s, ezért a multiplikatív tulajdonság miatt az is teljesül, hogy B s/2 A s B s/2 I. Ez ekvivalens azzal az alábbival: x, B s/2 A s B s/2 x = A s/2 B s/2 x, A s/2 B s/2 x = A s/2 B s/2 x 2 x 2. Ebből következik, hogy A s/2 B s/2 A 1. Hasonlóan t/2 B t/2 1 is igaz. Tudjuk, hogy ϱ(ab) = ϱ(ba). Emiatt teljesül a következő: B (s+t)/4 A (s+t)/2 B (s+t)/4 = ϱ(b (s+t)/4 A (s+t)/2 B (s+t)/4 ) = = ϱ(b s/2 A (s+t)/2 B t/2 ) = = B s/2 A (s+t)/2 B t/2 = = (A s/2 B s/2 ) A t/2 B t/2 (A s/2 B s/2 ) A t/2 B t/2 1. Innen következik: B (s+t)/4 A (s+t)/2 B (s+t)/4 I, azaz A (s+t)/2 B (s+t)/2. Ez azt jelenti, hogy (t+s)/2 E, tehát E konvex, azaz E = [0, 1]. Ezzel a tételt bebizonyítottuk. 13
2.1.12. Megjegyzés. Ez a tétel nemnegatív mátrixokra is igaz. Ugyanis ha 0 A B, akkor ε > 0-ra és x 0-ra is teljesül, hogy Tehát 0 < ε x 2 x, (A + εi)x x, (B + εi)x. 0 < A + εi B + εi (5) is fennáll ε > 0-ra. Ha a mátrixok nem invertálhatók, akkor az eredeti feltétel helyett vegyük a (5) egyenlőtlenséget. Ha a tétel invertálható mátrixokra igaz lenne, akkor teljesülne, hogy (A + εi) r (B + εi) r. Mivel (A + εi) r konvergál A r -hez, ha ε 0, és 0 < r 1, ezért az is igaz, hogy A r B r. (Az r = 0 eset közvetlenül látszik.) Felmerül a kérdés, hogy mi történik, ha r > 1? Vegyük például r = 2 esetet. Legyenek A és B a következő pozitív definit mátrixok: Ekkor azaz A < B. Azonban A = B 2 A 2 = ( ) 1 0, B = 0 1 B A = ( ) 5 5 5 7 ( ) 2 1. 1 3 ( ) 1 1 > 0, 1 2 ( ) 1 0 = 0 1 ( ) 4 5 0, 5 6 így B 2 A 2. Tehát r = 2 esetén nem feltétlenül teljesül az egyenlőtlenség. A következőkben egy módszert adunk a pozitív definit mátrixok konstruálására. 2.1.13. Definíció. Legyenek f 1,..., f n egy V euklideszi tér vektorai. Ekkor azt a G mátrixot, melynek elemei g ij = f j, f i, az f 1,..., f n vektorok Gram-mátrixának nevezzük. 2.1.14. Tétel. (i) Minden Gram-mátrix pozitív szemidefinit. 14
(ii) Lineárisan független vektorok Gram-mátrixa pozitív definit. (iii) Minden pozitív definit mátrix reprezentálható Gram-mátrixként. Bizonyítás. Írjuk fel egy Gram-mátrixhoz tartozó kvadratikus alakot: x, Gx = i,j x i g ij x j = i,j f i, f j x i x j = i,j x i f i, x j f j = = x i f i, i j 2 x j f j = x i f i. i Ebből következik az (i) és (ii) rész. Legyen A pozitív definit mátrix és definiáljuk a, A nemstandard skaláris szorzatot úgy, hogy x, y A = x, Ay, ahol A egy pozitív mátrix. Az f i = e i vektorok Gram-mátrixa Ebből következik a (iii) rész. g ji = e i, e j A = e i, Ae j = a ji. 2.2. Pozitív definit mátrixok determinánsa Ebben a fejezetben pozitív definit mátrixok determinánsára adunk egy felső becslést, és ennek a becslésnek egy következményét és általánosítását is vizsgáljuk. 2.2.1. Tétel. Az A pozitív definit n n-es mátrix determinánsa nem nagyobb a főátlóbeli elemek szorzatánál: n deta a ii. (6) i=1 Egyenlőséget pontosan akkor kapunk, ha A diagonális. Bizonyítás. Mivel A pozitív definit, ezért a főátlóbeli elemei pozitívak. Legyen D az a diagonális mátrix, melynek diagonális elemei d ii = 1 aii. Definiáljuk a B mátrixot úgy, hogy B = DAD. 15
Látható, hogy B olyan pozitív definit mátrix, melynek főátlójában végig 1 szerepel. A determinánsok szorzástétele miatt detb = deta detd 2 = deta ni=1 a ii. Tehát elég azt belátni, hogy detb 1. Ennek igazolásához legyenek B sajátértékei λ 1,..., λ n, melyek pozitívak, hiszen B pozitív definit. A számtanimértani közép közötti egyenlőtlenséget alkalmazva ( n ni=1 ) n λ i λ i. n i=1 Mivel a sajátértékek szorzata a determináns, és a sajátértékek összege a főátlóbeli elemek összege, ezért ezt az egyenlőtlenséget így is írhatjuk: ( ) n n detb = 1. n Egyenlőséget pontosan akkor kapunk, ha λ 1 =... = λ n. Ekkor B hasonló I-hez, ami csak akkor teljesülhet, ha B = I. Ekkor A diagonális mátrix. Ezt akartuk bizonyítani. Ennek a tételnek a következménye a Hadamard-egyenlőtlenség. 2.2.2. Tétel (Hadamard-egyenlőtlenség). Legyen T egy n n-es mátrix, amelynek oszlopai t 1,..., t n. Ekkor a T determinánsának abszolút értéke nem nagyobb, mint oszlopai hosszának szorzata: n dett t i. (7) i=1 Egyenlőséget pontosan akkor kapunk, ha t i, t j = 0 minden i j esetén, azaz T oszlopai páronként ortogonálisak. Bizonyítás. Legyen A = T T, melynek diagonális elemei n n a ii = t ji t ji = t ji 2 = t i 2. j=1 j=1 Ha T invertálható, akkor A pozitív definit az 2.1.4 Tétel (iii) része miatt. Ha T nem invertálható, akkor dett = 0, és az állítás triviális. Tehát feltehető, hogy T invertálható. Alkalmazzuk az előző tételt: n n deta a ii = t i 2. i=1 i=1 16
A determinánsok szorzástételéből és dett = dett -ből adódik, hogy Az utóbbi két formulából következik: deta = dett dett = dett 2. n dett 2 t i 2. i=1 Négyzetgyököt vonva a kívánt egyenlőtlenséget kapjuk. Egyenlőséget pontosan akkor kapunk, ha A diagonális, azaz T oszlopai páronként ortogonálisak. Ennek az egyenlőtlenségnek valós esetben geometriai jelentése is van: Adott t i oldalhosszúságú parallelepipedonok közül a téglatest térfogata a legnagyobb. A Hadamard-egyenlőtlenség előtti tételnek egy speciális általánosítása a Szász-egyenlőtlenség. Ennek kimondása előtt definiáljuk a k-adrendű principális aldetermináns fogalmát. 2.2.3. Definíció. Az A mátrix k-adrendű principális aldeterminánsának nevezzük a következő determinánst: a i1 i 1 a i1 i 2... a i1 i k a i2 i 1 a i2 i 2... a i2 i k.....,. a ik i 1 a ik i 2... a ik i k ahol i 1 < i 2 <... < i k. 2.2.4. Tétel (Szász-egyenlőtlenség). Legyen A pozitív definit, nemdiagonális n n-es mátrix, legyen P k az A mártix k-adrendű principális aldeterminánsainak szorzata. Ekkor ahol α k = ( ) n 1 1. k 1 Bizonyítás. P 1 > P α 2 2 >... > P α n 1 n 1 > P n, (8) Elég azt belátni, hogy P n k k > P k k+1, ahol 1 k n 1. 17
Az n = 2 eset a 2.2.1 Tétel miatt igaz. (Diagonális mátrixokra Pk n k = Pk+1 k teljesül.) Tegyük fel, hogy n 2 és minden 1 k n 1 esetén Pk n k > Pk+1. k Legyen A egy (n + 1) (n + 1)-es mátrix. Legyen A j az a mátrix, amelyet az A mátrixból a j-edik sor és j-edik oszlop törlésével kapunk. Legyen P k,j az A j mátrix k-adrendű principális aldeterminánsainak szorzata. Az indukciós feltétel miatt P n k k,j P k k+1,j, ha 1 k n 1 és 1 j n + 1. Az A j mátrixok között van nemdiagonális, hiszen A nemdiagonális mátrix. Tehát az egyenlőtlenségek közül legalább az egyik szigorú. Ebből következik, hogy azaz n+1 j=1 P n k k,j > k k+1,j P (n k)(n+1 k) k P k k+1,j, ha 1 k n 1, > P (n k)k k+1. Ha n k, akkor mindkét oldalból (n k)-adik gyököt vonva az állítást beláttuk. Ha n = k, akkor legyen B = adja, ahol adja az A mátrix előjeles aldeterminánsaiból alkotott mátrix transzponáltját jelöli. Mivel A inverze pozitív definit, ezért B > 0, és a Hadamard-egyenlőtlenség szerint azaz P n > Pn n+1. n+1 i=1 b ii > detb(deta) n, 2.2.5. Megjegyzés. A P 1 > P n egyenlőtlenség éppen a 2.2.1 Tételünket adja. 3. Sajátértékekre vonatkozó egyenlőtlenségek Ebben a fejezetben a sajátértékek közelítésével, becslésével foglalkozunk. 3.1. Schur-egyenlőtlenség A Schur-egyenlőtlenséggel a sajátértékek négyzetösszegére adunk egy felső becslést. 18
3.1.1. Tétel (Schur-felbontás). Minden komplex négyzetes A mátrix felírható A = U T U alakban, ahol U unitér, T felső háromszögmátrix; A pontosan akkor normális, ha T diagonális. Bizonyítás. Az A mátrix rendje szerinti indukcióval bizonyítjuk. Legyen x a λ sajátértékhez tartozó sajátvektor, azaz Ax = λx. Tegyük fel, hogy x = 1. Legyen W egy olyan unitér mátrix, amelynek első oszlopa az x vektor. (Ahhoz, hogy ilyen mátrixunk legyen, elég, ha x-hez olyan vektorokat veszünk hozzá, hogy ortonormált bázist alkossanak.) Ekkor λ W AW = 0. A. 1 0 Az indukciós feltevés szerint van olyan V unitér mátrix, hogy V A 1 V felső háromszögmátrix. Az ( ) 1 0 U = 0 V megfelel a követelményeknek. Az állítás második felének bizonyításához könnyű meggondolni, hogy a T T = T T és A A = AA egyenlőtlenségek ekvivalensek. Tehát már csak azt kell belátni, hogy minden normális felső háromszögmátrix diagonális. Ha t 11 t 12... t 1n 0 t 22... t 2n T =.....,. 0 0... t nn akkor (T T ) 11 = t 11 2 + t 12 2 +...+ t 1n 2 és (T T ) 11 = t 11 2. Ha a T T = T T egyenlőség fennáll, akkor t 11 = t 12 =... = t 1n = 0. Ezután hagyjuk el a T első sorát és oszlopát, és az így kapott mátrixra ismételjük meg az érvelést. Tehát T diagonális mátrix kell legyen. 3.1.2. Tétel (Schur-egyenlőtlenség). Ha λ 1,..., λ n az A mátrix sajátértékei, akkor n i=1 λ i 2 n i,j=1 a ij 2. Egyenlőséget pontosan akkor kapunk, ha A normális mátrix. 19
Bizonyítás. A Schur-felbontás miatt létezik olyan U unitér mátrix, hogy T = U AU felső háromszögmátrix. Ilyenkor T pontosan akkor diagonális, ha A normális. Ekkor T T = U AA U, aminek következtében tr(t T ) = tr(aa ). Ezután elég arra hivatkozni, hogy n n tr(t T ) = a ij, és tr(t T ) = λ i 2 + t ij 2, i,j=1 i=1 i<j és ebből már következik az állított egyenlőtlenség. 3.2. Gershgorin-körök A Gershgorin-körökkel a mátrix sajátértékeinek elhelyezkedésére adható egy nagyon egyszerű becslés. 3.2.1. Definíció. Legyen A egy n n -es komplex elemű mátrix, és legyen i {1,... n}. Ekkor a D i = {z : z a ii j i a ij } körlapot az i-edik Gershgorin-körlapnak nevezzük. 3.2.2. Tétel (Gershgorin-kör tétel). Az A mátrix minden sajátértéke valamelyik Gershgorin-körlapba esik. Bizonyítás. Legyen u az A mátrix egy sajátvektora úgy normálva, hogy u = 1 legyen. Ekkor valamely i indexre teljesül: u i = 1. Az Au = λu egyenlőség i-edik sora: a ii + a ij u j = λ. i j Legyen f i az a vektor, ami megegyezik az A mátrix i-edik sorával, kivéve az i-edik elemet, amit 0-ra állítunk. Ekkor azaz A Hölder-egyenlőtlenséget alkalmazva a ii + f i u = λ, λ a ii = f i u. f i u f i 1 u = i j a ij. Tehát λ a ii i j a ij. 20
Ez azt jelenti, hogy minden sajátérték egy Gershgorin-körlapban van. Nézzünk egy példát a Gershgorin-körökre! 3.2.3. Példa. Legyen A a következő mátrix: A = ( ) i 2. 1 i Az A mátrix sajátértékei: 3i, 3i. A Gershgorin-körlapok és a sajátértékek elhelyezkedését az alábbi ábra mutatja: 3. 2. 1. 2. 1. 0 1. 2. 1. 2. 1. ábra. 3.2.4. Megjegyzés. Az is igaz, hogy az A mátrix minden sajátértéke valamelyik, az A mátrix oszlopainak megfelelő Gershgorin-körben van, azaz λ a ii i j a ji (9) is teljesül, hiszen A T és A sajátértékei megegyeznek. Felmerül a kérdés: vajon minden Gershgorin-körlap tartalmaz-e sajátértéket? Ez nem minden esetben igaz. 21
3.2.5. Példa. Legyen A a következő mátrix: A = ( ) i 1 2 i Az A sajátértékei: 1, -1. Az alábbi ábra szemlélteti, hogy nincs minden Gershgorin-körlapban sajátérték. 2. 1. 2. 1. 0 1. 2. 3. 1. 2. 3. 2. ábra. Azonban a következő tétel mutatja, hogy ha egy Gershgorin-körlap speciálisan helyezkedik el a többi körlaphoz képest, akkor biztosan tartalmaz sajátértéket. 3.2.6. Tétel. Ha egy Gershgorin-körlap diszjunkt a többi körlaptól, akkor az pontosan egy sajátértéket tartalmaz. Bizonyítás. Legyen A(t) a következő mátrix: a 11 a 12 t... a 1n t a 21 t a 22... a 2n t A(t) =....... a n1 t a n2 t... a nn 22
Be kell látnunk, hogy az A(t) sajátértékei folytonosan függnek t-től, azaz a mátrix sajárértékei folytonosan függnek a mátrix elemeitől. Tudjuk, hogy a karakterisztikus polinom együtthatói a mátrix elemeinek folytonos függvényei. Azt kell csak igazolni, hogy a p(x) = x n + a n 1 x n 1 +... + a 0 polinom gyökei az a 0,..., a n 1 számok folytonos függvényei. Elég, ha a 0 gyök esetét belátjuk. (Ha x i nem nulla gyök, akkor hajtsuk végre az y = x x i helyettesítést.) Ha p(0) = 0, akkor a 0 = 0 kell legyen. Legyen ε > 0 tetszőleges. Tekintsük a q(x) = x n + b n 1 x n 1 +... + b 0 polinomot, ahol minden j-re b i a j < δ teljesül. Ha x 1,..., x n a q polinom gyökei, akkor a Vieteformulát alkalmazva kapjuk, hogy x 1... x n = b 0 < δ. Emiatt létezik x i, amire x i < n δ = ε. Tehát δ = ε n jó választás. Ezzel a folytonos függést beláttuk. Tudjuk, hogy A(0) az a mátrix, amely A diagonális elemeit tartalmazza, és azt is, hogy A(1) = A. Ezenkívül azt is tudjuk, hogy A(t)- nek van olyan Gershgorin-körlapja, mely minden 0 t 1-re diszjunkt a többi körlaptól. Ezért a folytonosságnak köszönhetően nincs mód arra, hogy A(t)-nek a diszjunkt Gershgorin-körlapjában található sajátértéke kikerüljön ebből a diszjunkt körlapból, hiszen akkor valamilyen t-re ez a sajátérték egyik Gershgorin-körlapban sincs benne. Hasonlóan belátható, hogy ebbe a körlapba más sajátérték nem kerülhet be, tehát ez a körlap pontosan egy sajátértéket tartalmaz. Ez a tétel nagyon hasznos az A mátrix sajátértékeinek iteratív megtalálására. Az A mátrixot hasonlósági transzformációk felhasználásával olyan B mátrixba visszük, mely már majdnem diagonális. Mivel A és B hasonlóak, tehát a sajátértékeik megegyeznek, így jobb becslést kapunk az A sajátértékeinek elhelyezkedésére. 3.3. Valós elemű szimmetrikus mátrixok sajátértékeire vonatkozó egyenlőtlenségek Ebben a fejezetben valós szimmetrikus mátrixok sajátértékeivel foglalkozunk. Az ilyen mátrixok sajátértékeinek optimumtulajdonságait a többváltozós statisztikai módszerek gyakran használják. 3.3.1. Tétel. Legyen A n n-es valós elemű szimmetrikus mátrix λ 1 λ 2... λ n sajátértékekkel és az ezekhez tartozó u 1,..., u n ortonormált sajátvektorokkal. Ekkor max x, Ax = λ 1, (10) x =1 23
és a maximumot a λ 1 -hez tartozó u 1 sajátvektoron veszi fel. Azután keressük a maximumot az erre merőleges altérben, így megkapjuk a második legnagyobb sajátértéket és sajátvektort. Ezt az eljárást folytatva a k-adik lépésben max x =1 x, Ax = λ k, (k = 2,..., r), (11) x T u i =0 (i=1,...,k 1) ahol r = rang(a). A maximumot a λ k -hoz tartozó u k sajátvektoron veszi fel. 3.3.2. Megjegyzés. Nyilvánvaló, hogy A x,ax x 2 x, Ax max x, Ax = max x =1 x 0 x 2. hányadost Rayleigh-hányadosnak nevezik, és a numerikus analízisben használják. A valós szimmetrikus mátrixok sajátértékeinek és sajátvektorainak legáltalánosabb minimax tulajdonságát a Courant-Fischer-Weyl-elv fogalmazza meg. Ennek kimondása és bizonyítása előtt belátjuk a Poincaré-egyenlőtlenséget, amiből a 3.3.1 Tétel is következik. 3.3.3. Tétel (Poincaré-egyenlőtlenség). Legyen A valós szimmetrikus mátrix λ 1... λ n sajátértékekkel és u 1,..., u n ortonormált sajátvektorokkal, továbbá legyen H az R n egy tetszőleges k-dimenziós altere. Ekkor vannak olyan egységnormájú x H és y H vektorok, hogy x, Ax λ k és y, Ay λ n k+1. Bizonyítás. Legyen R k az u k,..., u n vektorok által generált altér, azaz R k = Span(u k,..., u n ). Mivel dim(h)+dim(r k ) = n+1, ezért tudjuk, hogy H R k {0}. Tegyük fel, hogy x H R k, és x = 1. Az x kifejezhető az u k,..., u n báziselemekkel: x = n j=k ξ j u j, ahol n j=k ξj 2 = 1. A spektrálfelbontási tételt alkalmazva kapjuk, hogy n n x, Ax = ξj 2 λ j ξj 2 λ k = λ k. j=k Ezzel az első egyenlőtlenséget beláttuk. A második egyenlőtlenség következik az elsőből, ha A helyére A-t írunk. 24 j=k
3.3.4. Tétel (Courant-Fischer-Weyl minimax elv). Legyen A szimmetrikus mátrix λ 1... λ n sajátértékekkel és u 1,..., u n ortonormált sajátvektorokkal. Ekkor λ k = max H R n dim(h)=k min x H x =1 x, Ax = min max H R n x H dim(h)=n k+1 x =1 x, Ax. (12) Bizonyítás. A Poincaré-egyenlőtlenségből következik, hogy tetszőleges H R n k-dimenziós altérre min x T Ax λ k x H x =1 teljesül. Azonban a H = Span(u 1,..., u k ) altérre a fenti egyenlőtlenségben egyenlőség teljesül. Ezzel az első egyenlőséget beláttuk. A második egyenlőség következik az elsőből, ha azt A-ra alkalmazzuk. Most nézzünk egy statisztikai példát, ahol egy tétel bizonyításában felhasználjuk a 3.3.1 Tételt. 3.3.5. Példa. Legyen X N p (m, C) és tegyük fel, hogy a C kovarianciamátrix pozitív definit. Keressük X előállítását X = V Y + m (13) alakban, ahol m = EX az X várható értéke, V egy p p-s ortogonális mátrix, Y pedig független komponensű, p dimenziós normális eloszlású valószínűségi vektorváltozó. Mivel V invertálható, ezért (13) ekvivalens az Y = V 1 (X m) = V T (X m) felbontással. Jelölje C = UΛU T az X kovarianciamátrixának a spektrálfelbontását. Mivel Y kovarianciamátrixa diagonális, ezért az EY Y T = E [ V 1 (X m)(x m) T V ] = V 1 E [ (X m)(x m) T ] V = = V 1 CV = V 1 UΛU T V = (V 1 U)Λ(V 1 U) T mátrix akkor és csak akkor diagonális, ha V 1 U = I, azaz V = U. (Itt kihasználtuk, hogy V és U ortogonálisak, tehát V 1 U is ortogonális mátrix.) Ebből következik, hogy az X = UZ + m 25
felbontás lesz a kívánt felbontás, ahol Z jelöli a V = U választás melletti Y -t. Ez ekvivalens azzal, hogy Z = U 1 (X m)u T (X m). Ezt a Z-t az X valószínűségi vektorváltozó főkomponensvektorának, komponenseit pedig főkomponenseknek nevezzük. Tehát a k-adik főkomponens Z k = u T k (X m). 3.3.6. Tétel. Az első főkomponens, Z 1 szórása maximális az X m valószínűségi vektorváltozó komponenseinek összes lehetséges egységvektorral képzett lineáris kombináció szórása között, azaz max v =1 D2 [ v T (X m) ] = DZ 1. (14) A k-adik főkomponens, Z k szórása maximális az X m komponenseinek összes lehetséges, Z 1,..., Z k 1 -től független, egységvektorral képzett lineáris kombináció szórása között (k = 2,..., p). Bizonyítás. Legyen v R p tetszőleges egységvektor. Ekkor az Y = v T (X m) valószínűségi változó várható értéke 0, szórásnégyzete pedig D 2 Y = E [ v T (X m)(x m) T v ] = v T E [ (X m)(x m) T ] v = v, Cv. A 3.3.1 Tétel szerint max v, Cv = λ 1, v =1 és a maximumot a C kovarianciamátrix legnagyobb sajátértékéhez tartozó u 1 sajátvektoron éri el, tehát a maximumot adó valószínűségi változó u T 1 (X m) = Z 1 lesz. Azután keressük a maximumot az erre merőleges altérben, és megkapjuk a második legnagyobb sajátértéket és hozzá tartozó sajátvektort. A k-adik lépésben max v, Cv = λ k, v =1 v T u i =0 (i=1,...,k 1) (k = 2,..., r). A maximumot az u k sajátvektoron éri el, tehát a maximumot adó valószínűségi változó u T k (X m) = Z k lesz. (Ha egy sajátérték többszörös multiplicitású, akkor az őt adó maximumot a hozzá tartozó sajátaltér bármelyik 26
elemén felveszi ilyenkor, a főkomponensvektor megfelelő komponensei nem egyértelműek.) A függetlenségi feltétel minden lépésben a fenti ortogonalitási feltételbe megy át, ugyanis a nulla várható értékű v T (X m) és u T i (X m) valószínűségi változók akkor és csak akkor függetlenek, ha cov [ v T (X m), u T i (X m) ] = E [ v T (X m)u T i (X m) ] = teljesül. Ezzel a tételt beláttuk. = v T Cu i = λ i v T u i = 0 Végül bebizonyítjuk a Weyl-féle perturbációs tételt. Legyen A egy n n-es szimmetrikus mátrix, λ 1,..., λ n az A mátrix sajátértékei az abszolút értékeik szerint csökkenő sorrendbe rendezve, u 1,..., u n a hozzájuk tartozó sajátvektorok. Tudjuk, hogy A = λ 1. A tétel egy alsó becslést ad A B -ra. Ennek bizonyítása előtt bebizonyítjuk a Weyl-egyenlőtlenséget. 3.3.7. Lemma (Weyl-egyenlőtlenség). Legyenek A és C szimmetrikus mátrixok. Ekkor λ j (A + C) λ i (A) + λ j i+1 (C), ha i j, (15) λ j (A + C) λ i (A) + λ j i+n (C), ha i j. (16) Bizonyítás. Az első egyenlőtlenség bizonyításához tegyük fel, hogy i j. Jelölje u j, v j, illetve w j az A, C, illetve A + C mátrixok sajátvektorait a sajátértékek csökkenő sorrendjében. Tekintsük a V 1 = Span(u i,..., u n ), V 2 = Span(v j i+1,..., v n ), V 3 = Span(w 1,..., w j ) altereket. Ekkor dimv 1 = n i+1, dimv 2 = n és dimv 3 = j. Ebből következik: dim(v 1 V 2 V 3 ) = dim((v 1 V 2 ) V 3 ) = = dim(v 1 V 2 ) + dimv 3 dim(span(v 1 V 2, V 3 )) = = dimv 1 + dimv 2 dim(span(v 1, V 2 )) + dimv 3 dim(span(v 1 V 2, V 3 )) dimv 1 + dimv 2 + dimv 3 2n = 1. 27
Tehát a V 1 V 2 V 3 altárnek van egy nemtriviális közös x vektora. Feltehető, hogy x = 1. A Poincaré-egyenlőtlenség miatt: λ j (A + C) x, (A + C)x = x, Ax + x, Cx λ i (A) + λ j i+1. Ezzel az első egyenlőtlenséget beláttuk. A második egyenlőtlenség visszavezethető az elsőre az A helyére A-t, a C helyére C-t írva. 3.3.8. Következmény. Minden i = j = 1,..., n-re λ j (A) C λ j (A) + λ n (C) λ j (A + C) λ j (A) + λ 1 (C) λ j (A) + C. (17) Az első és az utolsó egyenlőtlenségben felhasználjuk, hogy C = λ 1(C). Ha a (17) egyenlőtlenségben C helyére (B A)-t írunk, akkor a következő egyenlőtlenséghez jutunk: λ j (A) A B λ j (B) λ j (A) + A B. Ennek átrendezésével kapjuk a következő tételt. 3.3.9. Tétel (Weyl perturbációs tétel). Legyenek A és B szimmetrikus mátrixok. Ekkor a egyenlőtlenség teljesül. max λ j (A) λ j (B) A B (18) j Ha B egy k-rangú mátrix, akkor tudjuk, hogy λ k+1(a) max λ j (A) λ j (B). j Azonban a ˆB := k i=1 λ i u i u T i mátrixra teljesül, hogy A ˆB = λ k+1 (A). Ezzel beláttuk, hogy a k-rangú szimmetrikus mátrixok közül az A mátrix legjobb közelítése ˆB. 28
4. Pozitív elemű mátrixok Ebben a fejezetben egy másfajta pozitivitás fogalmát vezetünk be. 4.0.1. Definíció. Egy valós x vektort pozitívnak hívunk, és x > 0-val jelöljük, ha minden eleme pozitív. Hasonlóan definiálhatók a nemnegatív vektorok is. 4.0.2. Definíció. Egy valós, négyzetes A mátrixot pozitívnak hívunk, és A > 0-val jelöljük, ha minden eleme pozitív. Hasonlóan definiálhatók a nemnegatív mátrixok is. Most ilyen pozitív mátrixokkal foglalkozunk. Vizsgáljuk ezeknek a mátrixoknak a sajátértékeit és a sajátvektorait, majd speciális pozitív mátrixokat, a sztochasztikus mátrixokat nézzük. 4.1. Perron-tétel A Perron-tétel a pozitív mátrixok sajátértékeire és sajátvektoraira fogalmaz meg néhány fontos tulajdonságot. 4.1.1. Tétel (Perron). Minden pozitív P mátrixnak van egy domináns sajátértéke, amelyet λ(p ) jelöl, és amely rendelkezik a következő tulajdonságokkal: (i) λ(p ) pozitív, és a hozzá tartozó h sajátvektor komponensei is pozitívak: (ii) λ(p ) egyszeres sajátérték; P h = λ(p )h, h > 0; (19) (iii) P minden más µ sajátértéke abszolút értékben kisebb, mint λ(p ): µ < λ(p ); (20) (iv) a P mátrixnak nincs más nemnegatív komponensű f sajátvektora. Bizonyítás. (i) Jelölje p(p ) azon λ nemnegatív számok halmazát, amelyek esetén létezik olyan nemnegatív x 0 vektor, amelyre P x λx. (21) A tétel bizonyításához szükségünk van a következő lemmára. 29
4.1.2. Lemma. Egy pozitív P mátrix esetén (a) p(p ) nem üres és tartalmaz pozitív számot, (b) p(p ) korlátos, (c) p(p ) zárt. Bizonyítás. (a) Legyen x tetszőleges pozitív vektor. Mivel P pozitív, ezért P x is pozitív vektor. Elég kicsi λ esetén teljesül (21). Ezzel beláttuk a lemma (a) részét. (b) Mivel (21) mindkét oldala az x vektor lineáris függvénye, ezért x normálható úgy, hogy a komponenseinek összege 1 legyen, azaz ξx = x i = 1, ahol ξ = (1,..., 1). Ekkor a (21) egyenlőtlenséget balról szorozva a ξ vektorral: ξp x λξx = λ. Legyen b a ξp legnagyobb komponense. Ekkor bξ ξp. Tudjuk, hogy ξx = 1. Ebből következik: b = bξx ξp x λ. Tehát p(p ) korlátos, vagyis a (b) rész bizonyításával is készen vagyunk. (c) Vegyünk egy λ n sorozatot a p(p ) halmazból. A definíció szerint létezik olyan x n 0 sorozat, amelyre P x n λ n x n, x n 0. Feltehetjük, hogy x n komponenseinek összege 1, azaz ξx n = 1. Ekkor x n -ek benne vannak R n egy korlátos és zárt részhalmazában. Így kiválasztható közülük egy részsorozat, ami egy nemnegatív x vektorhoz konvergál, ami normált, és λ n a λ-hoz tart. Mivel P x n λ n x n a határértékekre is teljesül, így λ és x kielégíti a (21)-t. Ebből következik, hogy p(p ) zárt. Ezzel a lemmát bebizonyítottuk. 30
A tétel (i) részének a bizonyítását folytatva, mivel p(p ) korlátos és zárt, ezért van maximuma. Legyen ez a maximum λ max. A lemma (a) része miatt λ max > 0. Megmutatjuk, hogy λ max a domináns sajátérték. Mivel (21) teljesül λ max -ra, így létezik olyan h 0 vektor, hogy P h λ max h, h 0. (22) Azt állítjuk, hogy (22)-ben egyenlőség teljesül. Indirekt tegyük fel, hogy a k-adik komponensre nem teljesül, azaz p ij h j λ max h i, ha i k, j p kj h j > λ max h k. j Legyen x := h+ɛe k az a vektor, ahol ɛ > 0 és az e k vektor k-adik komponense 1, a többi pedig 0. Mivel P pozitív, így P ɛe k > 0, tehát P x = P h + P ɛe k > P h. Azonban λ max x-nek csak a k-adik komponense lesz nagyobb, mint a λ max h-nak. Emiatt elég kis ɛ esetén P x > λ max x. A szigorú egyenlőtlenség miatt λ max helyére λ max + δ is írható, ahol δ egy kicsi pozitív szám. Ez ellentmond λ max maximális voltának. Ebből következik, hogy P h = λ max h, h 0. (23) Már csak azt kell belátnunk, hogy h komponensei is pozitívak. Mivel P pozitív és h 0, de nem azonosan nulla, ezért P h > 0. Tudjuk, hogy P h = λ max h, ahol λ max > 0. Ebből következik, hogy h > 0. Ezzel a tétel (i) részét beláttuk. (ii) Először igazoljuk, hogy a λ max -hoz tartozó sajáraltér egydimenziós. Indirekt tegyük fel, hogy létezik λ max -hoz tartozó y sajátvektor, ami nem h többszöröse. Ekkor létezik c 0 konstans, hogy h + cy 0, de valamelyik komponense nullával egyenlő. Mivel h + cy is a λ max -hoz tartozó sajátvektor, ez ellentmondás, hiszen (i)-ben beláttuk, hogy λ max -hoz csak pozitív sajátvektor tartozhat. Másodszor megmutatjuk, hogy λ max egyszeres sajátérték. Ehhez használjuk a következő lemmát. 31
4.1.3. Lemma. Ha (x λ) 2 k A (x) valamely A mátrixra, és v egy λ-hoz tartozó sajátvektor, akkor van olyan u 0 vektor, hogy u és v lineárisan függetlenek, és Au = λu + cv valamilyen c konstansra. Bizonyítás. Feltehető, hogy az A mátrix ilyen alakú: A = ( ) λ. 0 B Ekkor a λ-hoz tartozó sajátvektor: v = (1,..., 1) T. Mivel λ a B mátrixnak is sajátértéke, ezért létezik w 0, hogy Bw = λw. Legyen u = (1, w) T. Ekkor Au = ( λ 0 B ) ( ) 1 = w ( ) λ +, w = Bw Tehát c =, w. Ezzel az lemmát igazoltuk. ( ) λ +, w = λu +, w v. λw Folytatva a tétel bizonyítását most belátjuk, hogy λ max -hoz nem létezik ilyen u vektor. Indirekt tegyük fel, hogy létezik, azaz P u = λ max u + ch, ahol h a λ max -hoz tartozó sajátvektor, u és h lineárisan függetlenek. Tudjuk, hogy c 0, mert a λ max -hoz egydimenziós sajátaltér tartozik, ezért u nem lehet λ max -hoz tartozó sajátvektor. Szükség esetén u helyére u-t írva feltehető, hogy c > 0. Ha u helyére u = u + bh-t veszünk, akkor P (u + bh) = λ max (u + bh) + ch is teljesül. Tehát az is föltehető, hogy u > 0. Ekkor P (u) = λ max (u) + ch > λ max u, ahol u > 0. Ebből viszont az következik, hogy létezik δ > 0, amire P (u) (λ max + δ)u. Ez azt jelenti, hogy nem λ max a p(p ) halmaz legnagyobb eleme, tehát ellentmondásra jutottunk. Tehát λ max egyszeres sajátérték. Ezzel a tétel (ii) részét bizonyítottuk. (iii) Legyen µ λ max a P mátrix egy másik sajátértéke és y a hozzá tartozó sajátvektor (µ és y lehetnek komplexek is). Tehát P y = µy, azaz komponensenként kiírva: p ij y j = µy i, j 32 i-re.
A háromszög-egyenlőtlenséget alkalmazva: p ij y j p ij y j = µ y i, i-re. (24) j j A (21)-ből következik, hogy µ p(p ). Ha µ = λ max, akkor ( y 1,..., y n ) T a λ max sajátértékhez tartozó h sajátvektor többszöröse lenne, azaz y j = ch j, j. Ezenkívül a (24) egyenlőtlenségnél egyenlőség teljesülne. Komplex függvénytanból ismert, hogy y j = e iϕ y j. Az előző két egyenletből következik: y i = ce iϕ h i, azaz y = (ce iϕ )h. Ebből µ = λ max következik, tehát ellentmondásra jutottunk. Így µ < λ max. Ezzel a tétel (iii) részét is igazoltuk. (iv) Legyen f a P egy nemnegatív sajátvektora, mely a µ nemdomináns sajátértékhez tartozik, azaz µ λ max. A P pozitív mátrix, ezért P T is pozitív. Ezenkívül tudjuk, hogy P és P T sajátértékei megegyeznek. Legyen a P T domináns sajátértékéhez, azaz a λ max -hoz tartozó pozitív sajátvektora k. Ekkor k, P f = k, µf = µ k, f. Ugyanakkor k, P f = P T k, f = λ max k, f = λ max k, f. Mivel k pozitív és f nemnegatív, ezért k, f 0. Így µ = λ max következne, ami ellentmondás. Ezzel a tételt bebizonyítottuk. 4.2. Sztochasztikus mátrixok A sztochasztikus mátrixok speciális tulajdonságú pozitív mátrixok. 33
4.2.1. Definíció. Egy n n mátrix sztochasztikus mátrix, ha elemei nemnegatívak: s ij 0, és az egy oszlopban álló elemeinek az összege 1: s ij = 1, j = 1,..., n. i A sztochasztikus mátrixoknak a valószínűségszámításban van jelentősége. A mátrix elemeit átmenetvalószínűségnek nevezzük. Az s ij azt mutatja, hogy mennyi annak a valószínűsége, hogy az i-edik állapotba kerül a j-edik állapot egy lépés után. Ezek egy Markov-láncot határoznak meg. A Markov-lánc olyan diszkrét sztochasztikus folyamatot jelent, amely Markov-tulajdonságú. Markov-tulajdonságúnak lenni azt jelenti, hogy az n + 1-edik időbeli állapot csak az n-edik időbeli állapottól függ. 4.2.2. Példa. Legyen egy 20 millió fős nagyvárosban 4 bank. Nézzük egy város lakosait aszerint csoportosítva, hogy melyik banknak az ügyfelei. Feltehető, hogy mindenki valamelyik banknak az ügyfele, de egyszerre valaki csak egy banknak az ügyfele lehet. Ezenkívül az is feltehető, hogy egy ember bankot vált, és az nem függ attól, hogy korábban váltott-e bankot. Ekkor a feladat felírható egy S sztochasztikus mátrix segítségével, ahol s ij azt mutatja, hogy mennyi a valószínűsége annak, hogy a következő időpontban egy lakos a j-edik banktól az i-edik bankhoz megy át. Legyen az S mátrix ebben az esetben a következő: 0.85 0.03 0.06 0.01 0.04 0.9 0.07 0.05 S = 0.06 0.02 0.84 0.02. 0.05 0.05 0.03 0.92 Legyen x 0 egy olyan vektor, amelynek az i-edik koordinátája azt jelöli, hogy az i-edik bankban hány millió ügyfél van a t 0 kezdő időpontban. Ebben az esetben legyen 2 4 x 0 = 6. 8 34
Számoljuk ki, melyik banknak hány ügyfele lesz a t 1 időpontban: 0.85 0.03 0.06 0.01 2 2.2600 0.04 0.9 0.07 0.05 4 x 1 = Sx 0 = 0.06 0.02 0.84 0.02 6 = 4.5000 5.4000. 0.05 0.05 0.03 0.92 8 7.8400 Hasonlóan számolható ki, hogy mi lesz az ügyfélszám a t 2 időpontban, azaz x 2 = Ax 1 = A 2 x 0. Általánosan a t n időpontban az ügyfélszám x n = A n x 0. Nézzük meg, mi történik, ha n = 10. Ekkor 10 0.85 0.03 0.06 0.01 2 2.9987 x 10 = S 10 0.04 0.9 0.07 0.05 4 x 0 = 0.06 0.02 0.84 0.02 6 = 6.4193 3.2789. 0.05 0.05 0.03 0.92 8 7.3032 Most nézzük meg mi történik, ha n = 20. 20 0.85 0.03 0.06 0.01 2 3.0273 x 20 = S 20 0.04 0.9 0.07 0.05 4 x 0 = 0.06 0.02 0.84 0.02 6 = 6.7810 2.9477. 0.05 0.05 0.03 0.92 8 7.2439 Tényleg létezik egy olyan vektor, amihez S n x 0 konvergál, ha n? Erre ad választ a következő tétel. 4.2.3. Tétel. Legyen S pozitív sztochasztikus mátrix. (i) Az S mátrix domináns sajátértéke λ(s) = 1. (ii) Legyen x tetszőleges nemnegatív vektor (x 0). Ekkor lim N SN x = ch, (25) ahol h a domináns sajátvektor, c pedig egy pozitív konstans. 35
Bizonyítás. (i) Tudjuk, hogy S T és S domináns sajátértéke megegyezik, és S T olyan pozitív mátrix, hogy az egy sorban álló elemeinek az összege 1. Azaz S T -nak az (1,..., 1) T olyan sajátvektora, mely az 1 sajátértékhez tartozik. Mivel ennek a sajátvektornak a komponensei pozitívak, ezért a Perron-tételt alkalmazva S T -nak 1 lesz a domináns sajátértéke. Ebből következik, hogy S domináns sajátértéke is 1 lesz. (ii) Legyen S J, ahol J Jordan-alakú mátrix, azaz 1 0... 0 J = 0. J 0 és J sajátértékeire igaz, hogy abszolút értékük 1-nél kisebb. Ekkor tudjuk, hogy ( ) ( ) 1 0 1 0 J N = 0 (J ) N. 0 0 Legyen T az a mátrix, amellyel T 1 ST = J. Ekkor T -re teljesül, hogy az első oszlopa a domináns h sajátvektor. Mivel S = T JT 1, ezért S N = T J N T 1. Ebből következik, hogy S n x = T J N T 1 x. Legyen c T 1 x =.. Akkor emiatt c J N T 1 x 0., 0 c T J N T 1 x T 0. = ch. 0 36
Már csak c pozitivitását kell igazolni. Legyen ξ az S T domináns sajátvektora, azaz ξ = (1,..., 1) T. Mivel ξ = S T ξ = (S T ) N ξ, azt kapjuk, hogy S N x, ξ = x, (S T ) N ξ = x, ξ c h, ξ. Feltettük, hogy x nem azonosan 0, nemnegatív vektor, valamint ξ és h pozitív. Ezért c-nek is pozitívnak kell lennie. Sok esetben nemnegatív mátrixokkal találkozunk. Vajon ezekre a mátrixokra ugyanaz teljesül, mint a pozitív mátrixokra? Vegyük például a következő mátrixokat: ( ) 1 0, 0 1 ( ) 0 1 1 0 és ( ) 0 1. 0 0 Az első mátrixnak az 1 kétszeres sajátértéke, a második mátrix sajátértékei az 1 és a -1, tehát egyik sem domináns, a harmadiknak pedig mindkét sajátértéke 0. Tehát az ilyen mátrixokra nem feltétlenül teljesül a Perron-tétel. A nemnegatív mátrixokra a Perron-tétel általánosítása a Frobenius-tétel, amit bizonyítás nélkül mondunk ki. 4.2.4. Tétel (Frobenius-tétel). Minden nemnegatív n n-es N mátrixnak N 0 esetén van egy λ(n) sajátértéke a következő tulajdonságokkal: (i) λ(n) nemnegatív, és a hozzá tartozó sajátvektor komponensei is nemnegatívak: Nh = h, h 0; (26) (ii) az összes többi µ sajátérték abszolút értékben kisebb vagy egyenlő, mint λ(n): µ λ(n); (27) (iii) ha µ = λ(n), akkor ahol k és m pozitív egész szám, és m n. µ = 2 2πik/m λ(n), (28) 37
Hivatkozások [1] Peter D. Lax: Lineáris algebra és alkalmazásai, Akadémiai kiadó (2008) [2] V. V. Praszolov: Lineáris algebra, Typotex Kiadó (2005) [3] Xingzhi Zhan: Matrix Inequalities, Springer (2002) [4] Gert K. Pedersen: Some operator monotone functions, Proceedings of the American Mathematical Society Vol. 36 (1972) pp. 309-310. [5] Denis Serre: Matrices Theory and Applications, Springer (2002) [6] Sean Brakken-Thal: Gershgori s Theorem for Estimating Eigenvalues: http://buzzard.ups.edu/courses/2007spring/projects/ brakkenthal-paper.pdf [7] Jerry L. Kazdan: Linear Algebra Problems: https://www.math.upenn. edu/~kazdan/504/la.pdf#item.402 [8] Bolla Marianna, Krámli András: Statisztikai következtetések elmélete, Typotex kiadó (2005) [9] Rózsa Pál: Lineáris algebra és alkalmazásai, Tankönyvkiadó (1991) [10] Ágoston István előadásjegyzete: http://www.cs.elte.hu/~agoston/ bboard/la13tav/laa47-54.pdf [11] Kiss Emil előadásjegyzete: http://ewkiss.web.elte.hu/wp/ wordpress/wp-content/uploads/2017/03/alg2n2_print_5.pdf 38