Bevezetés az információelméletbe Csiszár Vill 2017. május 10. 1. A hírközlési rendszerek matematikai modellje Olyan rendszerekkel foglalkozunk, amikor egy forrás által kibocsátott információt valamilyen m szaki berendezésen csatornán keresztül el kell juttatni egy felhasználóhoz. Ilyen kommunikációs rendszerek részei a telefon, rádió, tévé, számítógép, router, m hold, de gondolhatunk arra is, amikor adathordozón tárolunk adatokat, például könyvben, CD-n, DVD-n. A forrás egy véges forrásábécébe tartozó jeleket bocsát ki egyesével (lehet a forrásábécé megszámlálhatóan végtelen, vagy folytonos is, ezekkel kevésbé fogunk foglalkozni). Olyan rendszerekre gondolunk, amikor nagyon sok ilyen jel van, és a kibocsátás véletlenszer, azaz a forrást az (X i ) valószín ségi változók együttes eloszlásával adjuk meg. A forrás emlékezet nélküli, ha az X i jelek függetlenek, a forrás stacionárius, ha az X i sorozat stacionárius. A forrás által kibocsátott jeleket a csatornán való átküldés el tt kódoljuk. Ennek több oka lehet: (a) a csatorna ábécéje különbözik a forrás ábécéjét l, (b) tömörítéssel gazdaságosabb információátvitel valósítható meg, (c) zajos csatorna esetén alkalmazhatunk olyan kódolást, mely a zajhatást csökkenti. Mint már említettük, a csatorna saját ábécével rendelkezik (s t, lehet külön bemeneti és kimeneti ábécé). Akkor nevezzük zajmentesnek, ha a kimen jelek egyértelm en meghatározzák a bemen jeleket, ellenkez esetben a csatorna zajos. A csatorna túlsó végén helyezkedik el a dekódoló, ami a kijöv jelek alapján megpróbálja megállapítani, hogy a forrás milyen jeleket adott le, majd ezt továbbítja a felhasználónak. A hírközlési rendszernek ez a modellje blokk-diagrammal ábrázolható. Feltesszük, hogy a forrás és a csatorna sztochasztikus m ködését ismerjük, feladatunk pedig az, hogy ehhez keressünk bizonyos kritériumoknak megfelel kódolást és dekódolást. Jegyzetünk a következ témaköröket érinti: 1) Hogyan mérhet a forrás által kibocsátott információ mennyisége? Megmutatjuk, hogy minden közlemény információtartalma számszer síthet, és ez az információtartalom a közlemény valószín ségét l függ. 2) Hogyan tudjuk a forrás által kibocsátott közleményeket kódolni? Olyan kódokat fogunk vizsgálni, amikor a közleményt állandó hosszú blokkokra bontjuk, és a blokkokat kódoljuk. Természetesen csak olyan kódokat szeretnénk használni, melyek egyértelm en (vagy legalábbis kis hibavalószín séggel) dekódolhatók. 3) Hogyan kódoljunk, ha a közleményt zajos csatornán kell átküldeni? Hogyan mérhetjük, hogy egy adott csatornán milyen sebességgel továbbítható megbízhatóan az információ? 2. Veszteségmentes forráskódolás Legyen a forrásábécé az m elem X halmaz. A forrásábécé bet ib l alkotott véges sorozatokat közleményeknek nevezzük. El ször a forráskódolás feladatát járjuk körül, ami azt jelenti, hogy a közleményeket szeretnénk kódolni egy Y kódábécével. Az egyszer ség kedvéért általában feltesszük, hogy Y = {0, 1}, azaz bináris kódokat tekintünk. Az eredmények a megfelel változtatásokkal ugyanígy bizonyíthatók az s elem kódábécé esetére is. 1
Tegyük fel el ször, hogy a közleményeket bet nként szeretnénk kódolni a g(x) Y kódszavakkal, ahol Y a kódábécé bet ib l alkotható véges sorozatok halmaza. A kódolást egyértelm en dekódolhatónak nevezzük, ha különböz közlemények kódja különböz. Az egyértelm en dekódolható kódok fontos speciális esete a prex kódok esete. 2.1. Deníció. A g : X Y kód prex tulajdonságú, ha minden x z esetén a g(x) kódszó nem folytatása a g(z) kódszónak. Prex kódot kapunk például úgy, ha minden kódszó végére egy külön erre a célra fenntartott szóköz jelet teszünk, ez azonban nem túl gazdaságos. Az állandó hosszúságú kódok is prex kódok, ilyenkor minden kódszó ugyanolyan hosszúságú. 2.2. Példa. Legyen a forrásábécé X = {A, B, C }, nézzük meg ennek néhány bináris kódját. 1. g(a) = 00, g(b) = 01, g(c) = 11 egy állandó (mégpedig 2) hosszúságú kód. 2. g(a) = 00, g(b) = 01, g(c) = 1 nem állandó hosszúságú, de prex kód. 3. g(a) = 0, g(b) = 01, g(c) = 1 nem egyértelm en dekódolható, hiszen a 01 egyaránt lehet a B és az AC közlemény kódja. 4. g(a) = 00, g(b) = 10, g(c) = 1 nem prex kód, viszont egy prex kód megfordítása, és így egyértelm en dekódolható. Ilyenkor az kódolt üzenetet hátulról kezdve lehet megfejteni, pl. az 1100000100 a CBAACA közlemény kódja. Jelölje L(x) a g(x) kódszó hosszát. Azt szeretnénk elérni, hogy a kódunk minél rövidebb legyen. 2.3. Tétel. (Kraft egyenl tlenség) Az {L(x) : x X } sorozat akkor és csak akkor felel meg egy bináris prex kód kódszóhosszainak, ha 2 L(x) 1. x X Bizonyítás. Az egyik irányban, legyen g prex kód, feleltessük meg minden g(x)-nek a t(x) = 0.g(x) 1... g(x) L(x) bináris (kettes számrendszerben felírt) számot. A prex tulajdonság miatt minden z x-re t(z) [t(x), t(x) + 2 L(x) ). Ezért a [t(x), t(x)+2 L(x) ) intervallumok diszjunktak, és mivel mind benne vannak a [0, 1) intervallumban, hosszuk összege legfeljebb 1. Fordítva, tegyük fel, hogy teljesül a tételbeli egyenl tlenség. Számozzuk X elemeit úgy, hogy L(x 1 ) L(x 2 ) L(x m ). Legyen t(x i ) = j<i 2 L(xj), ez tehát egy legfeljebb L(x i ) jegy bináris törtszám a [0, 1) intervallumban. Legyen a g(x i ) kódszó a t(x i ) szám L(x i ) bináris jegyig kiírva (tehát esetleg nullákat teszünk a végére), ez prex kód lesz. Ugyanis a kódszavak növekv hossza miatt g(x j ) csak úgy lehetne folytatása g(x i )-nek, ha j > i, ebben az esetben azonban j 1 t(x j ) t(x i ) = 2 L(xj) 2 L(xi), tehát t(x j ) els L(x i ) bináris jegye nem egyezhet meg t(x i ) megfelel bináris jegyeivel. k=i Vegyük észre, hogy a bizonyításban nem használtuk, hogy az X ábécé véges, tehát az állítás megszámlálhatóan végtelen ábécére is igaz. Ha az Y kódábécé elemszáma s, akkor a tételbeli egyenl tlenség helyett x X s L(x) 1 lesz szükséges és elégséges feltétel. A Kraft-egyenl tlenség egyértelm en dekódolható kódokra is igaz, ezt McMillan bizonyította. 2
2.4. Tétel. (McMillan) Az {L(x) : x X } sorozat akkor és csak akkor felel meg egy egyértelm en dekódolható bináris kód kódszóhosszainak, ha 2 L(x) 1. x X Bizonyítás. Nyilván csak azt az irányt kell bizonyítani, hogy tetsz leges egyértelm en megfejthet kód kódszóhosszai kielégítik a tételbeli egyenl tlenséget. Vegyünk egy egyértelm en megfejthet kódot, és legyen L max az L(x) kódszóhosszak maximuma, k pedig tetsz leges pozitív egész szám. Egy k hosszú x k = (x 1,..., x k ) közlemény kódját úgy kapjuk, hogy az egyes bet k kódszavait egymás után írjuk, azaz a közlemény kódjának hossza L(x k ) = L(x 1 ) + + L(x k ). Ezért ( ) k 2 L(x) = x X 2 L(x k) = x k X k kl max r=1 a(r)2 r, ahol a(r) azt jelöli, hogy hány olyan k hosszú közlemény van, melynek kódja r hosszú. Az egyértelm dekódolhatóság miatt a(r) 2 r. Ezért 2 L(x) (kl max ) 1/k x X minden k-ra, ez pedig csak úgy lehet, ha x X 2 L(x) 1. McMillan tétele is igaz marad, ha megszámlálhatóan végtelen X forrásábécét is megengedünk (a tételbeli egyenl tlenség a kód minden véges megszorítására igaz). Azt a némileg meglep eredményt kaptuk, hogy általános egyértelm en dekódolható kódokkal sem tudunk rövidebb kódot csinálni, mint a prex kódokkal. Tehát elegend prex kódokat vizsgálnunk. A Kraft-egyenl tlenség következménye Shannon egyértelm en dekódolható kódokra vonatkozó tétele, mely már a forrásábécé bet inek valószín ségét is gyelembe véve, a várható kódszóhosszra ad alsó és fels korlátot. Ehhez be kell vezetnünk az entrópia fogalmát. 2.5. Deníció. Legyen P = {p(x) : x X } tetsz leges eloszlás X -en. A P eloszlás Shannon-féle entrópiája H(P ) = p(x) log p(x), x ahol a logaritmus kettes alapú, és 0 log 0 = 0 deníció szerint. 2.6. Tétel. (Shannon) Legyen P tetsz leges eloszlás X -en, E(L) = x p(x)l(x) pedig egy egyértelm en dekódolható kód átlagos hossza. Ekkor E(L) H(P ). Továbbá van olyan prex kód, melyre L(x) = log p(x), és erre E(L) < H(P ) + 1. Szükség lesz a következ log-összeg egyenl tlenségre: 2.7. Lemma. (log-összeg egyenl tlenség) Legyenek p 1,..., p n és q 1,..., q n nemnegatív számok. Ekkor p i log p i ( p i ) log i p i q i i i q. i i Az egyenl ség feltétele, hogy p i = cq i legyen. Itt p log(p/q) nulla, ha p = 0, és, ha p > q = 0. Bizonyítás. Nyilván elég azt az esetet bizonyítani, ha a bal oldalon nincs tag, és a p i -k között sincs 0. Legyen p = i p i és q = i q i. A logaritmus függvény konkáv volta miatt p i log q i = p ( ) p i p i i p log q i p i p log p i i p qi = p log p p i i q, melyb l ( 1)-gyel szorozva a kívánt egyenl tlenséget kapjuk. Az egyenl ség feltétele a logaritmus függvény szigorú konkávitásából adódik. 3
Bizonyítás. (Tételé.) Els rész: Alkalmazzuk a log-összeg egyenl tlenséget q(x) = 2 L(x) szereposztással, és a Kraft-egyenl tlenséget: E(L) H(P ) = x p(x)(l(x) + log p(x)) = x p(x) log p(x) 2 L(x) 1 log x X 1 2 L(x) 1 log 1 = 0. Második rész: az L(x) = log p(x) értékek kielégítik a Kraft egyenl tlenséget, ezért van hozzájuk prex kód. Másrészt E(L) = x p(x) log p(x) < x p(x)( log p(x) + 1) = H(P ) + 1. A bizonyításból az is látszik, hogy E(L) = H(P ) csak úgy lehetséges, ha minden x-re p(x) = 2 n(x) valamilyen n(x) természetes számra, és ekkor persze L(x) = n(x) adja a legjobb kódszóhosszakat. Az entrópiát Shannon vezette be 1948-ban. El tte 1928-ban Hartley már bevezetett egy információmennyiséget: azt mondta, hogy ha megtudjuk, hogy n lehet ség melyike következett be, azzal log n bit (binary digit) információt nyerünk. Másképpen, ahhoz, hogy n lehet ség közül egyet beazonosítsunk, log n bit információra van szükség. Egy bit információ ugyanis egy igen-nem kérdésre adott válasz, és n lehet ség közül egynek a beazonosítására tényleg log n igen-nem kérdésre (illetve ennek fels egész részére) van szükség. Shannon vette észre, hogy a deníció hiányossága, hogy az egyes lehet ségek különböz valószín ségét nem veszi gyelembe. Ž azt javasolta, hogy egy esemény bekövetkezéséhez tartozó információmennyiség függjön az esemény valószín ségét l. Jelölje egy p valószín ség eseményhez tartozó egyedi információt h(p). A következ tétel arról szól, hogyan érdemes a h(p) függvényt deniálni. 2.8. Tétel. (Egyedi információ) Tegyük fel, hogy a h(p) (0 < p 1) nemnegatív függvényre teljesülnek az alábbiak: a) h(pq) = h(p) + h(q), azaz független események metszetéhez tartozó egyedi információ a két esemény egyedi információjának összege, b) h(1/2) = 1 (egység megválasztása). Ekkor h(p) = log p (a logaritmus kettes alapú). Bizonyítás. Egyrészt h(1 q) = h(1) + h(q) miatt h(1) = 0. Másrészt h monoton fogyó, hiszen p > r > 0 esetén h(r) = h(p r ) = h(p) + h(r/p) h(p). p Legyen ezután p (0, 1). Ekkor p = 2 x valamilyen x > 0 számra. Az a) tulajdonság miatt h(p n ) = nh(p), azaz ( n = h(2 n ) = h (2 n/m ) m) = mh(2 n/m ), azaz h(2 r ) = r minden racionális r számra. Ha most x irracionális, akkor minden m-hez van olyan n, hogy n/m < x < (n + 1)/m, azaz 2 (n+1)/m < 2 x < 2 n/m. A monotonitás miatt ebb l n/m < h(2 x ) < (n + 1)/m, azaz minden m-re h(2 x ) x < 1/m. Ebb l pedig h(2 x ) = x adódik. Így H(P ) éppen a P = {p(x) : x X } valószín ség teljes eseményrendszerhez tartozó egyedi információk várható értéke: H(P ) = E(h(p(X))), ahol P (X = x) = p(x). Nézzünk meg néhány konkrét kódolási eljárást közelebbr l! eloszlás. Legyen tehát P = {p 1,..., p m } egy 4
Az els csokorba olyan kódok tartoznak, ahol a p i valószín ségeket nagyság szerint csökken sorrendbe rendezzük, azaz tegyük fel, hogy p 1 p 2... p m. Ezeknek a kódolásoknak az a hátránya, hogy a valószín ségeket át kell rendezni, ami nagy ábécé esetén munkaigényes m velet lehet. A kódnak három változatát ismertetjük. (Shannon-kódok) Készítsük el az L i = log p i kódszóhosszakat, ezek kielégítik a Kraft-egyenl tlenséget, és monoton n nek. Ezután legyen az i. kódszó a t i = j<i bináris tört alakjának els L 2 Lj i törtjegye. A Kraft-egyenl tlenség bizonyításában láttuk, hogy ezzel prex kódot kaptunk. A második változatban t i = j<i p j, az L i mennyiségek változatlanok. Ekkor is prex kódot kapunk, hiszen j > i esetén t j t i p i 2 Li, vagyis a j. kódszó nem lehet folytatása az i.-nek. A harmadik változatban legyen ismét t i = j<i p j, de az L i hosszakat nem adjuk meg el re. Ehelyett a [0, 1) intervallumból indulva, addig felezzük az intervallumokat, amíg mindegyikben legfeljebb egy t i pont marad (minden intervallum balról zárt, jobbról nyílt). Ezután az i. kódszó a t i pontot tartalmazó, egyre sz kül intervallumok kódja lesz. Így nyilván prex kódot kapunk. Mennyi ennek a kódnak az átlagos kódszóhossza? A kód konstruálása alapján t i az egyetlen pont az t tartalmazó 2 Li hosszú intervallumban, viszont az eggyel el tti, 2 Li+1 hosszú intervallum t i 1 és t i+1 legalább egyikét még tartalmazza. Mivel p i = t i+1 t i t i t i 1 = p i 1, ezért p i < 2 Li+1. Innen log p i < L i + 1, azaz L i < log p i + 1, amib l E(L) < H(P ) + 1. A második csokorba olyan kódok tartoznak, melyekhez nem kell a valószín ségeket nagyság szerint rendezni. Ezeknek két változatát mutatjuk be. (Shannon-Fano-Elias kódok) Legyen t i = j<i p j + p i /2, ezek (0, 1)-beli számok. Legyen továbbá L i = log p i + 1, és az i. kódszó a t i bináris tört alakjának els L i törtjegye. Így prex kódot kapunk, hiszen j > i esetén t j t i p i /2 2 Li, vagyis a j. kódszó nem lehet folytatása az i.-nek. A második változatban legyen t i ugyanaz, mint az el bb, de az L i hosszakat nem adjuk meg el re. Ehelyett kezdjük el felezgetni az intervallumokat: el ször a [0, 1) intervallumot felezzük meg, majd mindig azokat a részintervallumokat felezzük tovább, melyekben egynél több t i van. Ha készen vagyunk, akkor t i -hez rendeljük hozzá az t tartalmazó egyre sz kül intervallumok kódjait. Így nyilván prex kódot kapunk. Mennyi ennek a kódnak az átlagos kódszóhossza? A t i -t tartalmazó utolsó el tti, 2 Li+1 hosszú intervallum t i 1 és t i+1 legalább egyikét tartalmazza. Mivel t i a p i hosszú intervallum felez pontja, ebb l p i /2 < 2 Li+1. Innen log p i 1 < L i + 1, azaz L i < log p i + 2, amib l E(L) < H(P ) + 2. Itt jegyezzük meg, hogy minden prex kódhoz hozzárendelhet egy kódfa. A fa minden leveléhez a levélhez vezet ághoz tartozó kódszó tartozik. Egy ilyen fa keres faként is értelmezhet : tegyük fel, hogy n lehet ség közül kell egyet beazonosítanunk úgy, hogy minden lépésben a még szóbajöv lehet ségeket két csoportra oszthatjuk, és megkérdezhetjük, hogy a keresett elem melyik halmazba esik. Így tehát az átlagosan legkevesebb kérdést használó keresési stratégia megegyezik a legrövidebb átlagos kódszóhosszal rendelkez prex kódnak. A keres fát (illetve kódot) alfabetikusnak nevezzük, ha a fa bármely csúcsán átmen ágakhoz tartozó levelek indexei szomszédosak. Ez olyan keresési stratégiának felel meg, amikor a még szóbajöhet lehet ségeket két olyan csoportra kell osztani, melyek szomszédos sorszámú elemeket tartalmaznak. Az ilyen kódok alkalmazása az alábbi: tegyük fel, hogy a p 1,..., p m eloszlásból úgy szeretnénk generálni, hogy a [0, 1] intervallumon egyenletes eloszlású változóról megkeressük, hogy az s i = j i p j osztópontok által meghatározott intervallumok közül melyikbe esik. Ezt úgy tehetjük meg, hogy egymás után választunk osztópontokat, és azokkal összehasonlítjuk a véletlen számunkat. Könnyen látszik, hogy a fenti második csokor kódjai alfabetikusak, így közel optimális stratégiát adnak arra, hogyan válasszuk sorba ezeket az osztópontokat. 5
2.9. Példa. Legyen P = ( 7 32, 2 32, 4 osztópontok: ( 7 64, 16 64, 22 64, 30 64, 39 64, 48 64, 56 32, 4 32, 5 32, 4 32, 4 32, 2 64, 62 64 32 ). A Shannon-Fano-Elias alfabetikus kódban a t i ). Az intervallumfelezéssel kapott kódszavak tehát: 00, 0100, 0101, 011, 10, 110, 1110, 1111. Ennek átlagos kódszóhossza 3, ugyanakkor H(P ) = 2.898 bit. Véletlen számot úgy generálhatunk ebb l az eloszlásból, hogy a a [0, 1] intervallumon egyenletes eloszlású változóról el ször megnézzük, hogy nagyobbe, mint 17/32. Ha igen, akkor megnézzük, hogy nagyobb-e, mint 22/32, ellenkez esetben pedig, hogy nagyobb-e, mint 7/32. És így tovább. A Shannon tételben az alsó korlát csak akkor érhet el, ha minden valószín ség 2 n alakú valamilyen egész n-re, és ekkor a Shannon-féle kód eléri ezt a korlátot. Nézzünk most egy egyszer példát! Legyen X = 5, és a valószín ségek: 0.49, 0.24, 0.1, 0.1, 0.07. A Shannon-féle kód: 00, 010, 0110, 0111, 1000. Ez nyilván nem optimális. Egy kód hatásfokát azzal mérhetjük, hogy mennyire közelíti meg az entrópiát, azaz az E(L)/H(P ) hányadossal. Száz százalék hatásfokú kód csak speciális esetben létezik (lásd fent), de minden esetben létezik maximális hatásfokú kód, ugyanis egy adott kódnál nem rosszabb hatásfokú kódból csak véges sok van, tehát van köztük legjobb. Felmerül a kérdés, hogy általános esetben megadható-e az optimális prex kód? Igen, egy ilyen eljárás neve Human-féle kódolás. Megint csak a bináris esettel foglalkozunk (tetsz leges ábécé esetén is hasonló az eljárás, bár kissé bonyolultabb). A következ észrevételeket tesszük: 1) Optimális kódra a kisebb valószín ség jelhez legalább olyan hosszú kódszó tartozik, azaz p 1... p m esetén L 1... L m. 2) Optimális kód kódfájában a gyökéren kívül minden bels pont foka három. Ebb l a két észrevételb l kapjuk, hogy optimális kód esetén feltehet, hogy x m 1 és x m kódszava egyforma hosszú, és a két kódszó csak az utolsó bitben különbözik. Tegyük most fel, hogy m 1 elem eloszlásokra már tudunk optimális kódot készíteni. Készítsünk el egy K optimális kódot a p 1,..., p m 2, p m 1 + p m eloszlásra, majd az utolsó kódszót nullával, illetve eggyel kiegészítve kapjunk egy K kódot az eredeti eloszlásra. Ekkor K optimális lesz. Ha ugyanis nem lenne az, akkor a nála jobb M optimális kódból a fenti észrevételek szerint készíthetnénk egy M kódot a kisebb elemszámú eloszlásra, mely K -nél jobb lenne: E(L M ) = E(L M ) (p m 1 + p m ) < E(L K ) (p m 1 + p m ) = E(L K ). A Human-féle optimális kódot tehát iteratívan állíthatjuk el : 1) vonjuk össze a P eloszlás két legkisebb valószín ségét 2) az új eloszlásra konstruáljunk optimális kódfát 3) az összevont valószín séghez tartozó levélhez toldjunk hozzá két levelet. 3. Információelméleti mennyiségek Az el z szakaszban bevezettük egy véges halmazon megadott eloszlás Shannon-féle entrópiáját. Ebb l kiindulva további hasznos információelméleti mennyiségek vezethet k le. El bb azonban foglaljuk össze az entrópia néhány tulajdonságát. Legyen most P = (p 1,..., p m ) egy valószín ség-eloszlás. Megmutatjuk, hogy a H(P ) entrópia a következ tulajdonságokkal rendelkezik: 1) H(P ) a P vektor folytonos függvénye (rögzített m-re). 2) H(P ) = H(P ), ha P és P csak a valószín ségek sorrendjében különbözik. 3) Minden m elem P eloszlásra H(P ) H(1/m,..., 1/m). 4) H(p 1,..., p m, 0) = H(p 1,..., p m ). 5) Legyen p m = q 1 +... + q k, ahol q i 0, és legyen Q = (q 1 /p m,..., q k /p m ). Ekkor H(p 1,..., p m 1, q 1,..., q k ) = H(P ) + p m H(Q). 6) H(1/2, 1/2) = 1. Az állítások közül csak a 3) és az 5) nem triviális. A 3) a log-összeg egyenl tlenség következménye: H(1/m,..., 1/m) H(P ) = log m + i p i log p i = i p i log p i 1/m 0. 6
Az 5) állítás pedig egyszer átalakítással kapható a denícióból. Az állítás következménye, hogy az események tovább-bontásával az eseményrendszer entrópiája növekszik. Megmutatható, hogy ha a véges P eloszlásokon deniált H függvény rendelkezik az 1) 6) tulajdonságokkal, akkor az csak a Shannon-féle entrópia lehet. 3.1. Példa. Hasonlítsuk össze a következ három eloszlás entrópiáját! P = (1/256, 255/256) H(P ) = 0.037 bit P = (1/2, 1/2) H(P ) = 1 bit P = (7/16, 9/16) H(P ) = 0.989 bit Ha a második esetben a második valószín séget tovább bontjuk: 1/2 = 1/4 + 1/8 + 1/8, akkor ( 1 H 2, 1 4, 1 8, 1 ) ( 1 = 1.75 bit = H 8 2, 1 ) + 1 ( 1 2 2 H 2, 1 4, 1 ) = 1 + 1 1.5 = 1.75 bit. 4 2 Mostantól az egyedi információ, az entrópia, és egyéb bevezetend információelméleti mennyiségek argumentumaiba eloszlást és valószín ségi változót is írunk majd, remélve, hogy ez nem okoz nagy zavart. Legyenek tehát X, Y, Z valószín ségi változók az X, Y, Z véges halmazokon. Legyen h X (x) = log P (X = x) h X Y (x y) = log P (X = x Y = y) h X,Y (x y) = P (X = x, Y = y) log P (X = x)p (Y = y) h X,Y Z (x y z) = P (X = x, Y = y Z = z) log P (X = x Z = z)p (Y = y Z = z) A bal oldalon álló mennyiségek nevei: egyedi információ, egyedi feltételes információ, egyedi kölcsönös információ és egyedi feltételes kölcsönös információ. Az els sor várható értékét véve észrevehetjük, hogy éppen az entrópiát kapjuk: E(h X (X)) = x P (X = x) log P (X = x) = H(X). A többi sorban várható értéket véve, a kapott mennyiségek: 1) H(X Y ): Az X feltételes entrópiája Y -ra nézve. Erre H(X Y ) = y P (Y = y)h(x Y = y), ahol H(X Y = y) az X változó Y = y feltétel melletti feltételes eloszlásának entrópiája. Nyilván H(X Y ) is nemnegatív, és a h X,Y (x, y) = h X (x) + h Y X (y x) összefüggésb l H(X, Y ) = H(X) + H(Y X) adódik. Hasonlóan kapható, hogy H(X, Y Z) = H(X Z) + H(Y X, Z). Általában pedig a következ láncszabály érvényes: 3.2. Lemma. H(X 1,..., X k ) = k H(X i X 1,..., X i 1 ), és ez akkor is érvényes, ha minden entrópia feltételébe még egy Y változót is beleírunk. 2) I(X Y ): az X és Y kölcsönös információja. Azt fejezi ki, hogy X ismerete mennyivel csökkenti az Y változó entrópiáját, illetve fordítva. A log-összeg egyenl tlenség szerint I(X Y ) = x,y P (X = x, Y = y) log P (X = x, Y = y) P (X = x)p (Y = y) 0, azaz a kölcsönös információ nemnegatív, bár adott x, y-ra h X,Y (x y) negatív is lehet. Az I(X Y ) = 0 feltétele az, hogy X és Y független legyen. Továbbá, mivel h X,Y (x y) = h X (x) h X Y (x y), így I(X Y ) = H(X) H(X Y ) = H(Y ) H(Y X) = H(X) + H(Y ) H(X, Y ). 7
Ebb l adódik, hogy 0 H(X Y ) H(X). Az els helyen csak akkor van egyenl ség, ha X az Y függvénye, a második helyen pedig csak akkor, ha X és Y függetlenek. 3) I(X Y Z): az X és Y feltételes kölcsönös információja Z-re nézve. Mivel I(X Y Z) = z P (Z = z)i(x Y Z = z), így a feltételes kölcsönös információ is nemnegatív, és csak akkor lehet nulla, ha X és Y feltételesen független Z-re. Megint csak a h mennyiségek közötti összefüggésb l adódik, hogy I(X Y Z) = H(X Z) H(X Y, Z). Következésképpen H(X Z) H(X Y, Z). A kölcsönös információra is létezik láncszabály: 3.3. Lemma. I(X 1,..., X k Y ) = k I(X i Y X 1,..., X i 1 ), és ez akkor is érvényes, ha minden kölcsönös információ feltételébe még egy Z változót is beleírunk. Bizonyítás. Az I(X 1,..., X k Y ) = H(X 1,..., X k ) H(X 1,..., X k Y ) felírás tagjaira alkalmazzuk a 3.2. Lemmát. A fenti információelméleti mennyiségek közötti számos összefüggés leolvasható egy analóg Venndiagrammról. Feleltessünk meg minden valószín ségi változónak egy halmazt, a változó entrópiáját a halmaz területe fejezi ki. Ekkor a H(X, Y ) együttes entrópia az X Y halmaz területe, a H(X Y ) feltételes entrópia az X \ Y halmaz területe, az I(X Y ) kölcsönös információ pedig az X Y halmaz területének felel meg. Független valószín ségi változókhoz diszjunkt halmazok tartoznak, ha pedig Y = f(x), akkor a halmazokra Y X teljesül. 3.4. Példa. Egy tanfolyamra nyolc gyerek jár, akiket A és B csoportokba osztottak be. Az A csoportba három ú és egy lány, a B-be egy ú és három lány került. Véletlenszer en kiválasztva két gyereket, jelölje X, hogy hány út választottunk, Y pedig azt, hogy hány A csoportost. Az eloszlásokat kiszámolva kapjuk, hogy H(X) = H(Y ) = 1.414, H(X, Y ) = 2.606, valamint H(X Y ) = H(Y X) = 1.192, I(X Y ) = 0.222. X optimális kódjára E(L) = 1.429, a kód hatásfoka 98.95%. Ha az (X, Y ) párt ezzel a kóddal bet nként kódoljuk, akkor E(L) = 2.858, ennek a kódnak hatásfoka 91.18%. Ha a párt együttesen kódoljuk, akkor a Human kódra E(L) = 2.643, hatásfoka 98.60%. A kód: (X, Y ) (0, 0) (0, 1) (0, 2) (1, 0) (1, 1) (1, 2) (2, 0) (2, 1) (2, 2) esély 3/28 3/28 0 3/28 10/28 3/28 0 3/28 3/28 kódszó 010 011 100 00 101 110 111 3.5. Deníció. Jelöljön egy forrást X. A forrás bet nkénti entrópiája ha ez a határérték létezik. 1 H(X) = lim k k H(X 1,..., X k ), Azt mondjuk, hogy X stacionárius forrás, ha minden k-ra és n-re ahol L az eloszlást jelöli. L(X 1,..., X k ) = L(X n+1,..., X n+k ), 3.6. Tétel. Ha X stacionáris forrás, akkor létezik a bet nkénti entrópiája, és H(X) = lim k H(X k X 1,..., X k 1 ). 8
Bizonyítás. Jelölje H j = H(X j X 1,..., X j 1 ), ekkor a láncszabály szerint H(X 1,..., X k ) = k j=1 H j. Elég tehát belátni, hogy H j konvergens. A stacionaritás miatt H j 1 = H(X j X 2,..., X j 1 ) H(X j X 1,..., X j 1 ) = H j. Így a H j sorozat monoton fogyó, és mivel nemnegatív, van határértéke. A fenti bizonyításból az is látszik, hogy az 1 k H(X 1,..., X k ) sorozat monoton csökken. Legyen tehát X stacionárius forrás, és g k : X k {0, 1} a k elem blokkok valamely prex kódja. Ekkor az 1 forrásjelre es kódbitek átlagos száma E(L k )/k, melyre Shannon tétele szerint továbbá van olyan g k kód, melyre E(L k ) k H(X 1,..., X k ), k E(L k ) k < H(X 1,..., X k ) + 1. k Tehát megkaptuk, hogy az 1 forrásjelre es kódbitek átlagos száma legalább a forrás bet nkénti entrópiája, és ez az alsó korlát tetsz legesen megközelíthet elég nagy k választásával. Az X, Y, Z hármast (ebben a sorrendben) Markov láncnak hívjuk, ha X és Z feltételesen független Y -ra. Ez azzal ekvivalens, hogy p(z x, y) = p(z y). Erre az X Y Z jelölést fogjuk használni. 3.7. Tétel. (Adatfeldolgozási egyenl tlenség) Ha X Y Z, akkor I(X Y ) I(X Z). Bizonyítás. I(X Y, Z) = I(X Y ) + I(X Z Y ) = I(X Z) + I(X Y Z). Az egyenl tlenség abból következik, hogy I(X Z Y ) = 0 és I(X Y Z) 0. Az állítást átírva kapjuk, hogy H(X Y ) H(X Z). Speciálisan, ha Z = f(y ), akkor X Y Z. Ezért kapjuk, hogy I(X Y ) I(X f(y )), vagy másképp H(X Y ) H(X f(y )). A bizonyításbeli egyenl séget átírva kapjuk azt is, hogy Markov láncra I(X Y ) I(X Y Z) = I(X Z) 0. Ez az összefüggés nem mindig igaz, pedig a Venn diagramm alapján azt gondolhatnánk. Ha például X, Y független érmedobások eredményei, és Z = X + Y, akkor I(X Y ) = 0, de I(X Y Z) = H(X Z) H(X Y, Z) = H(X Z) 0 = 0.5, hiszen H(X Z) = H(X Z = 0) 1 4 + H(X Z = 1)1 2 + H(X Z = 2)1 4 = 0 + 1 1 2 + 0 = 0.5. Az viszont mindig igaz, hogy I(X Y ) I(X Y Z) = I(X Z) I(X Z Y ) = I(Z Y ) I(Z Y X). 4. Állandó hosszúságú kódolás hibával Ha egy forrás által kibocsátott üzenetet kódolás után egy zajos csatornán kell továbbítanunk, akkor a dekódolási hibákat nem tudjuk teljes mértékig kiküszöbölni. Ezért nem nagy veszteség, ha egy kis hibavalószín séget már a kódolásnál megengedünk. Az állandó hosszúságú kódoknak az az el nyük, hogy egyszer bb a konstruálásuk és a dekódolásuk is. Egy változó hosszúságú prex kódnál ellenben megtörténhet, hogy egyetlen jel eltorzulása miatt egy hosszú szakasz dekódolása lehetetlenné válik, vagy elromlik. Az ilyen kódok tanulmányozásához hasznos az alábbi. Ha p [0, 1], akkor jelölje H(p) a P = (p, 1 p) eloszlás entrópiáját. 9
4.1. Lemma. (Fano egyenl tlenség) Legyen X Y Z, és P e = P (Z X), jelölje X az X értékkészletét. Ekkor H(X Y ) H(X Z) H(P e ) + P e log X. Bizonyítás. Az els egyenl tlenséget már korábban bizonyítottuk. A másodikhoz legyen E = χ(x Z). Ekkor H(E, X Z) = H(X Z) + H(E X, Z) = H(E Z) + H(X E, Z). Egyrészt H(E X, Z) = 0, másrészt H(E Z) H(E) = H(P e ), valamint H(X E, Z) = (1 P e )H(X Z, E = 0) + P e H(X Z, E = 1) 0 + P e log X. 4.2. Tétel. Legyen g : X n M az X n = (X 1,..., X n ) sorozat olyan kódja, melyet ε hibavalószín séggel lehet dekódolni. Ekkor 1 n log M 1 n H(X 1,..., X n ) ε log X 1 n. Bizonyítás. Jelölje a dekódolót f, erre tehát A láncszabály szerint P (f(g(x n )) X n ) ε. H(X n ) = H(g(X n ), X n ) = H(g(X n )) + H(X n g(x n )). Az els tagot a log M mennyiséggel becsülhetjük felülr l, míg a másodikra a Fano-egyenl tlenség szerint. H(X n g(x n )) H(X n f(g(x n ))) ε log X n + H(ε) ε log X n + 1 Megint koncentráljunk arra az esetre, amikor a forrást bináris sorozatokkal kódoljuk, azaz a g kódra g : X n {0, 1} k. Ekkor k/n = R a jelsebesség vagy ráta, ennyi bit szükséges egy forrásjel kódolásához. A fenti tételb l ekkor azt sz rhetjük le, hogy ha az X stacionárius forrásnak van egy R n rátasorozattal rendelkez g n kódsorozata, melyek ε hibával dekódolhatók, akkor miatt 1 n log M = 1 n log 2k = k n = R n lim inf R n H(X) ε log X. Ennél többet mondhatunk információstabilis forrásokra. 4.3. Deníció. Legyen X stacionárius forrás, a véges dimenziós eloszlásokat egy közös p szimbólummal jelöljük, azaz p(x n ) = p(x 1,..., x n ) = P (X 1 = x 1,..., X n = x n ). A forrás információstabilis (IS), ha sztochasztikusan. 1 n log p(x 1,..., X n ) H(X) (n ) Kés bb látni fogjuk, hogy a gyakorlatban el forduló források rendelkeznek ezzel a tulajdonsággal. A legegyszer bb eset az emlékezet nélküli stacionárius forrás, amikor az X i -k függetlenek és azonos eloszlásúak. Ekkor 1 n log p(x 1,..., X n ) = 1 n log p(x i ) E( log p(x 1 )) = H(X 1 ) = H(X) n a nagy számok törvénye szerint. 10
4.4. Deníció. Adott stacionárius forráshoz, ε-hoz és n-hez deniáljuk a tipikus jelsorozatok halmazát: A (n) ε = {x n X n : 2 n(h(x)+ε) p(x n ) 2 n(h(x) ε) }. 4.5. Tétel. Legyen X IS forrás. Ekkor minden ε > 0 esetén (i) P (A (n) ε ) 1, ha n. (ii) A (n) ε 2 n(h(x)+ε). (iii) Minden δ > 0 esetén A (n) ε (1 δ)2 n(h(x) ε), ha n elég nagy. Bizonyítás. Az (i) rész az információstabilitás deníciójának átfogalmazása. Az (ii) rész a tipikus sorozatok valószín ségre adott alsó korlátból következik: 1 P (A (n) ε ) = p(x n ) 2 n(h(x)+ε) = 2 n(h(x)+ε) A (n) ε. x n A (n) ε x n A (n) ε A (iii) rész pedig a tipikus sorozatok valószín ségre adott fels korlátból következik (ii)-hez hasonlóan, felhasználva, hogy elég nagy n-re a tipikus halmaz valószín sége már legalább (1 δ). A fenti (i) angol neve asymptotic equipartition property. Ez azt fejezi ki, hogy nagy n-re találunk egy közel 1 valószín ség halmazt úgy, hogy a benne lév jelsorozatok majdnem egyforma valószín ség ek. Térjünk vissza az állandó hosszúságú kódokra. A legkisebb hibájú kódot úgy kapjuk, ha a lehetséges 2 k darab kódszót a legnagyobb valószín ség x n sorozatok között osztjuk ki (a többi sorozat kódja pedig tetsz leges). Ha N(n, ε) jelöli azt, hogy hány x n sorozatot kell összegy jteni ahhoz, hogy együttes valószín ségük legalább 1 ε legyen, akkor az optimális ε-hibájú g n kód rátája R n = log N(n, ε). n 4.6. Tétel. Ha X IS, akkor minden pozitív ε-ra log N(n, ε)/n H(X). Bizonyítás. A tipikus halmaz becsempészésével bizonyítunk. Legyen 0 < δ < min(ε, 1 ε) tetsz leges. Egyrészt tudjuk, hogy elég nagy n-re az A (n) δ halmaz valószín sége már legalább 1 ε. Ezért nagy n-re amib l A másik irányhoz legyen B (n) ε N(n, ε) A (n) δ 2 n(h(x)+δ), lim sup log N(n, ε) n H(X). a legvalószín bb N(n, ε) darab sorozat halmaza. Ekkor P (A (n) δ B (n) ε ) 1 ε δ, ha n elég nagy. A tipikus sorozatok valószín ségére ismert fels korlát miatt amib l N(n, ε) A (n) δ lim inf B (n) ε (1 ε δ)2 n(h(x) δ), log N(n, ε) n H(X). Azt kaptuk tehát, hogy az optimális R n jelsebességet aszimptotikusan a H(X) entrópia adja meg. 4.7. Deníció. Legyen X egy forrás. Egy g : X n {0, 1} nr kódot (R, n)-kódnak nevezünk. Ha megadunk egy f : {0, 1} nr X n dekódolót is, akkor a kódoló-dekódoló pár hibája P (n) e = P (f(g(x n )) X n ). Az R rátát elérhet nek nevezzük, ha létezik olyan (R, n)-kódok sorozata, melyre lim n P (n) e = 0. 11
A fentiekben beláttuk, hogy ha X IS forrás, akkor minden R > H(X) rátára létezik tetsz legesen kicsi, de x ε > 0 hibavalószín ség kódsorozat. Most belátjuk, hogy nullához tartó hibavalószín ség is elérhet. Az állítást a véletlen választás módszerével bizonyítjuk, azaz nem adjuk meg a jó kódsorozatot, csak azt látjuk be, hogy léteznie kell. Ez a módszer gyakran m ködik az információelméletben. Válasszunk egy g : X n {0, 1} nr kódot véletlenszer en, azaz legyen minden g(x n ) kódszó, egymástól függetlenül, egyenletes eloszlású a {0, 1} nr halmazban. Dekódolásra pedig használjuk a tipikussági dekódolót: ha a z nr {0, 1} nr sorozathoz egyetlen olyan x n tipikus sorozat van, hogy g(x n ) = z nr, akkor legyen f(z nr ) = x n, ellenkez esetben (ha nincs ilyen tipikus sorozat, vagy egynél több van), legyen mondjuk f(z nr ) = 0 n (feltesszük, hogy 0 X ). A tipikusságnál használjunk olyan ε-t, melyre ε < R H(X). Rögzített g esetén a hibávalószín ség: P (n) e (g) = P g (f(g(x n )) X n ) = P (X n A (n) ε ) + x n A (n) ε Vegyünk most várható értéket a g választása szerint: ( E(P e (n) (g)) = P A (n) ε ) + x n A (n) ε p(x n )P ( y n x n, y n A (n) ε ( P A (n) ε A konstrukció szerint P (g(y n ) = g(x n )) = 2 nr, így ( E(P e (n) (g)) P A (n) ε ) p(x n )χ( y n x n, y n A (n) ε : g(y n ) = g(x n )). ) + x n A (n) ε : g(y n ) = g(x n )) p(x n ) + 2 nr A (n) ε P (A (n) ε ). y n x n,y n A (n) ε P (g(y n ) = g(x n )). A 4.5 Tétel (i) és (ii) pontja szerint a jobboldal nullához tart. Végül arra hivatkozunk, hogy ha a véletlenül választott kódra a várható hiba nullához tart, akkor van olyan kódsorozat, melyre a hiba nullához tart. Fontos észrevétel, hogy a g kódról csak azt használtuk ki, hogy az x n y n sorozatokra P (g(x n ) = g(y n )) 2 nr. Ezáltal belátható, hogy X = {0, 1} esetben az R ráta lineáris kóddal is elérhet : legyen G egy nr n méret 0 1 mátrix, ez deniálja a g(x n ) = Gx n kódot, ahol a m veleteket a kételem véges testben végezzük. Ha most G minden elemét egymástól függetlenül, 1/2 1/2 valószín séggel választjuk 0-nak vagy 1-nek, akkor x n y n esetén P (g(x n ) = g(y n )) = P (G(x n y n ) = 0 nr ) = nr P (G i (x n y n ) = 0) = 2 nr, ahol G i a G mátrix i-edik sora. A lineáris kódok el nye, hogy nem kell egy hatalmas kódszótárat tárolni, csak a kis G mátrixot. Természetesen a lineáris kódok nagyobb véges testek felett is megadhatók. Számoljunk most egy kicsit. Nézzük meg, hogy ha az egyre hosszabb X n blokkokat mindig egy rögzített R jelsebességel kódoljuk, akkor a hibavalószín ség hogyan viselkedik. Emlékezet nélküli forrásra belátjuk, hogy ha R > H(X 1 ), akkor a hiba exponenciálisan nullához tart. 4.8. Tétel. Legyen X emlékezet nélküli, stacionáris forrás, melyre az x jel valószín sége P (X i = x) = p(x), és legyen R > H(X 1 ) rögzített ráta. Jelölje P e (n) az optimális (legkisebb hibavalószín ség ) (R, n)- kód hibavalószín ségét. Ekkor P e (n) 2 ne(r), ahol az e(r) hibaexponens az alábbi: e(r) = 1 a sup 0<a<1 a ( R 1 1 a log x p a (x) ). 12
Bizonyítás. Jelölje B a 2 nr darab legvalószín bb x n sorozat halmazát Ekkor P e (n) = 1 P (B). Jelölje még b n a B halmaz legkisebb valószín ség elemét. A sorozatok valószín ségét most is a közös p szimbólummal jelöljük. Ekkor minden 0 < a < 1-re P (n) e = x n B p(x n ) x n B p(x n ) ( p(b n ) 1 a ) p(x n = ) = p(b n ) 1 a x n B p(x n ) a p(b n ) 1 a x n p(x n ) a. Mármost Ezért p(b n ) a 2 nr P (n) e x n B (2 nr ) 1 a a p(x n ) a 2 nr x n p(x n ) a. ( p(x n ) a Mivel a függetlenség és azonos eloszlás miatt p(x n ) = n p(x i), ezért p(x n ) a = ( ) n p(x) a. x n x Visszahelyettesítve, P (n) e (2 nr ) 1 a a ( x p(x) a ) n a x n ) 1 a 1 a n 2 a (R 1 1 a log x p(x)a ). A tételben szerepl H a (P ) = 1 1 a log x X pa (x) mennyiség a Rényi-féle entrópia. Könnyen látszik, hogy ez a Shannon-entrópiára jellemz 6 axióma közül csak a tovább-bontási axiómát nem elégíti ki, a másik ötöt igen. Belátjuk, hogy rögzített eloszlás esetén a Rényi-entrópia az a monoton fogyó függvénye. Ehhez legyen φ(a) = log p a (x), el ször belátjuk, hogy ez konvex függvény. Deníció szerint ez azt jelenti, hogy két függvényérték konvex kombinációja nagyobb vagy egyenl, mint a függvény értéke a két argumentum konvex kombinációjában. Legyen 0 < c < 1. cφ(a) + (1 c)φ(b) = c log p a (x) + (1 c) log [ ( c ( ) ] 1 c p b (x) = log p (x)) a p b (x). A Hölder-egyenl tlenség szerint ( ) c ( ) 1 c p a (x) p b (x) (p a (x)) c (p b (x)) 1 c = p(x) ca+(1 c)b, azaz a logaritmus monoton növekedése miatt Nézzük a függvény egy szel jének meredekségét: cφ(a) + (1 c)φ(b) φ(ca + (1 c)b). φ(a) φ(1) a 1 = log p a (x) 0 a 1 = H a (P ). Mivel φ konvex, ezeknek a szel knek a meredeksége monoton n, amint a egyhez tart (balról). Az el z b l az is látszik, hogy φ (1) = lim a 1 H a (P ). Rövid számolással kapjuk, hogy φ (a) = 1 1 p p a a (x) log p(x) (x) ln p(x) =, ln 2 pa (x) pa (x) 13
amib l φ (1) = H(P ), azaz lim a 1 H a (P ) = H(P ). Tehát a H a (P ) Rényi entrópia a H 0 (P ) Hartleyentrópiát köti össze monoton csökken en a H 1 (P ) Shannon-entrópiával. A tételben szerepl hibaexponenst tovább vizsgálva (a Rényi entrópiák argumentumából a x P eloszlást elhagyva), minden R-re igaz, hogy e(r) lim a 1 1 a a (R H a) = 0. Az is triviális, hogy e(r) monoton növ. Továbbá, ha R > H, akkor van olyan 1-hez közeli a is, hogy R > H a, azaz e(r) > 0. Végül, ha R H, akkor R H a is igaz minden a-ra, így e(r) = 0. 5. Információstabilis források Az emlékezet nélküli stacionárius forrás triviálisan IS a nagy számok gyenge törvénye szerint. A gyakorlatban el forduló források persze a legritkább esetben ilyenek. Viszont sok forrás jól közelíthet k- adrend stacionárius Markov lánccal. Vezessük be egy vektor részvektorára a következ jelölést: ha v = (v 1,..., v m ) és 1 a b m, akkor va b = (v a,..., v b ) és v b = v1. b 5.1. Deníció. Az X 1, X 2,... folyamat k-adrend Markov lánc, ha minden n-re és x n+1 -re, melyre a következ feltételes valószín ségek értelmesek, teljesül, hogy P (X n+1 = x n+1 X n = x n ) = P (X n+1 = x n+1 X n n k+1 = x n n k+1) = r(x n n k+1, x n+1 ), ahol r(x k, y) jelöli azt az átmenetvalószín séget, hogy az x k sorozat után a következ jel y lesz. Legyen X k-adrend Markov lánc. Ekkor az Y n = Xn n+k 1 folyamat (az állapotokat k-asával összefogjuk) els rend Markov lánc, melyr l feltesszük, hogy irreducibilis az I állapottéren, mely esetleg sz kebb az X k halmaznál, azaz tetsz leges x k I kiindulási sorozat és tetsz leges y k I sorozat esetén pozitív a valószín sége, hogy az y k sorozat el bb-utóbb felbukkan. Gondoljunk például a magyar nyelvre, ha ezt másodrend Markov lánccal szeretnénk modellezni, akkor például az xq párt nem tesszük bele az állapottérbe, mert ez a két bet soha nem jön egymás után. I elemei tehát a megengedett sorozatok. Ismert tétel, hogy véges állapotter, irreducibilis Markov láncnak egyértelm en létezik stacionárius eloszlása, mely szigorúan pozitív. Tehát az I X k állapottéren egyértelm en megadható egy π(x k ) eloszlás, és ha P (X k = x k ) = π(x k ) a forrás els k jelének az eloszlása, akkor X stacionárius folyamat lesz. Belátjuk, hogy ekkor X IS. El ször is, erre a forrásra Másrészt H(X) = lim n H(X n+1 X 1,..., X n ) = H(X k+1 X 1,..., X k ) = E[ log p(x k+1 X k 1 )]. n 1 log p(x1 n ) = log p(x1 k ) + i=k n 1 log p(x i+1 Xi k+1) i = log p(x1 k ) + ahol f(x k+1 ) = log p(x k+1 x k 1). Vegyük észre, hogy az Y n = Xn n+k összefogjuk) els rend, stacionárius Markov lánc, és irreducibilis az állapottéren. Ezzel I = {x k+1 : x k I, r(x k, x k+1 ) > 0} I X 1 n log p(xn 1 ) = log p(xk 1 ) n + 1 n 1 f(y i k+1 ). n i=k i=k f(x i+1 i k+1 ), folyamat (az állapotokat k + 1-esével A jobboldalon az els tag 1 valószín séggel nullához tart, míg a második tag a (véges állapotter, irreducibilis) Markov láncokra vonatkozó nagy számok törvénye szerint az E(f(Y 1 )) = E[ log p(x k+1 X k 1 )] = H(X) 14
entrópiához tart, tehát a forrás információstabilis. Egy lépéssel tovább menve, most tekintsük egy az egyszer ség kedvéért els rend Markov forrás függvényét: legyen X (irreducibilis, stacionárius) Markov forrás, φ egy (esetleg véletlen) függvény a Markov lánc állapotterén, és Y n = φ(x n ). Ismert, hogy ekkor Y = (Y 1, Y 2,...) nem feltétlenül Markov folyamat, viszont az Y forrás nyilván stacionárius. Hogyan számolható ki ezen forrás bet nkénti entrópiája? 5.2. Tétel. Minden n-re teljesül a H(Y n Y n 1 2, X 1 ) H(Y) H(Y n Y n 1 1 ) egyenl tlenség, valamint a két korlát különbsége nullához tart. Bizonyítás. A fels becslés már ismert. Az alsó becslés: H(Y n Y2 n 1, X 1 ) = H(Y n Y2 n 1, X 1, Y k) 1 H(Y n Y n 1 ) H(Y) k, ahol az els egyenl ség azért teljesül, mert Y n és Y k 1 feltételesen függetlenek X 1, Y2 n 1 -re nézve. A kényelem kedvéért, hogy ne kelljen a változók indexelését eltolni, feltettük, hogy X (és így Y is) kétirányban végtelen folyamatok, ez nyilván feltehet. Nézzük most a két korlát különbségét! Ismét a feltételes függetlenséget használva, H(Y n Y2 n 1, X 1 ) = H(Y n Y1 n 1, X 1 ), és ezért a két korlát különbsége A láncszabályt alkalmazva, minden m-re H(Y n Y n 1 1 ) H(Y n Y n 1 1, X 1 ) = I(X 1 Y n Y n 1 1 ). m n=1 k I(X 1 Y n Y n 1 1 ) = I(X 1 Y m 1 ) H(X 1 ). Ezért n=1 I(X 1 Y n Y n 1 1 ) <, tehát a tagok nullához tartanak. A következ kérdés, hogy Y IS-e? Egy nagyon általános tétel szerint igen. A Shannon-McMillan-Breiman tétel kimondja, hogy minden ergodikus forrás IS. Az ergodikus folyamatokra gondolhatunk úgy, mint a legáltalánosabb folyamatokra, melyekre a nagy számok er s törvénye teljesül. A pontos deníció az eseménytéren megadott stacionárius, ergodikus transzformáció segítségével történik. 5.3. Deníció. Legyen (Ω, A, P ) valószín ségi mez. Az T : Ω Ω (mérhet ) transzformáció stacionárius ergodikus, ha minden A A eseményre P (T A) = P (A), és P (A T A) = 0 esetén P (A) nulla vagy egy. 5.4. Deníció. Az X 0, X 1,... folyamat stacionárius ergodikus, ha létezik az Ω eseménytéren X valószín ségi változó és T stacionárius ergodikus transzformáció, hogy X n (ω) = X(T n ω). Ekkor persze a folyamat negatív indexekre is kiterjeszthet : X n (ω) = X(T n ω). A Birkho-féle ergodtétel szerint ha X 1, X 2,... stacionárius ergodikus folyamat, akkor 1 n n 1 X i egy valószín séggel konvergál az E(X i ) várható értékhez (amennyiben ez a várható érték véges). Ha a folyamat értékkészlete véges, akkor az ergodikusság azzal ekvivalens, hogy minden k-ra a k-dimenziós tapasztalati eloszlás tart az elméletihez. Ha X kétirányban végtelen stacionárius, ergodikus folyamat, akkor az Y n = f(x n ) (n = 1, 2,...) folyamat is az. Ugyanis Y n (ω) = Y (T n ω), ahol Y (ω) = f(x(ω), X(T 1 ω),...). A Shannon-McMillan-Breiman tétel a következ. 5.5. Tétel. Ha X = (X 1, X 2,...) véges értékkészlet, stacionárius ergodikus folyamat, akkor 1 n log p(xn ) H(X) 1 valószín séggel. 15
A bizonyítás azon múlik, hogy a 1 n log p(xn ) = 1 n n log p(x i X i 1 ) = 1 n n log Y i felírásban az Y i folyamat nem ergodikus, de valamilyen értelemben becsülhet az U i = p(x i X i 1 i k ) és V i = p(x i X ) i 1 ergodikus folyamatokkal, melyekre alkalmazható a Birkho ergodtétel. A részleteket nem közöljük. A szakasz végén bevezetünk egy új információelméleti mér számot. Tegyük fel, hogy X és Y is az X halmazon veszik fel értékeiket. Vezessük be a D(X Y ) = x P (X = x) log P (X = x) P (Y = x) mennyiséget, mely az X és az Y információs divergenciája, vagy Kullback-Leibler divergenciája, vagy relatív entrópiája. Ez is nemnegatív a log-összeg egyenl tlenség szerint, és csak akkor nulla, ha a két változó eloszlása megegyezik. Vegyük észre, hogy I(X Y ) = D(X, Y X, Y ), ahol X, illetve Y ugyanolyan eloszlású, mint X, illetve Y, de függetlenek. Természetesen a divergencia csak a két valószín ségi változó eloszlásától függ, ezért az argumentumba írhatjuk az eloszlásokat is: D(P Q). A divergencia valamilyen értelemben a két eloszlás különböz ségét méri. Tegyük fel például, hogy egy emlékezet nélküli forrás eloszlása P, de mi azt hisszük, hogy az eloszlás ˆP (például hosszasan meggyeltük a forrást, és ˆP a tapasztalati eloszlás). Ekkor a ˆP szerinti (közel optimális) Shannon kódra L(x) = log ˆp(x). Hasonlítsuk össze ennek a kódnak átlagos hosszát a forrás entrópiájával: E(L) H(P ) = x p(x) log ˆp(x) + x p(x) log p(x) x p(x) log ˆp(x)+ x p(x) log p(x) = D(P ˆP ). Tehát bet nként átlagosan D(P ˆP )-vel több bitet használunk, mint ha ismernénk a P eloszlást, és annak megfelel en kódolnánk. 5.6. Lemma. A divergenciára a következ láncszabály érvényes. Legyen P XY, Q XY két eloszlás az X Y szorzathalmazon, a marginális eloszlásokat jelölje P X, Q X illetve P Y, Q Y. Deniáljuk a feltételes eloszlások divergenciáját: D(P Y X Q Y X ) = p(x) p(y x) log p(y x) q(y x). x y Ez is nemnegatív, és D(P XY Q XY ) = D(P X Q X ) + D(P Y X Q Y X ). Bizonyítás. A nemnegativitás a log-összeg egyenl tlenségb l következik, a második állításhoz pedig csak fel kell írni a két oldalon álló mennyiségeket. A jobboldallal kezdve: D(P X Q X ) + D(P Y X Q Y X ) = p(x) log p(x) q(x) + p(x) p(y x) log p(y x) q(y x) = x x y p(x, y) log p(x) q(x) + p(x, y) log p(y x) q(y x) = p(x, y) p(x, y) log q(x, y) = D(P XY Q XY ). x,y x,y x,y Vegyünk most egy véges állapotter, irreducibilis X = (X 1, X 2,...) Markov láncot, jelölje X n eloszlását P n, a kezdeti eloszlás tehát P 1. Jelölje továbbá a stacionárius eloszlást π. 5.7. Tétel. (a) Legyen P 1, Q 1 két kezdeti eloszlás. Ekkor a d n = D(P n Q n ) sorozat monoton csökken. (b) Tetsz leges kezdeti eloszlásra D(P n π) monoton csökken. Továbbá, ha π az egyenletes eloszlás, akkor H(P n ) monoton n. 16
Bizonyítás. (a) A Markov tulajdonság szerint P n+1 n = Q n+1 n. A 5.6 Lemma értelmében ezért D(P n,n+1 Q n,n+1 ) = D(P n Q n ) + 0 = D(P n+1 Q n+1 ) + D(P n n+1 Q n n+1 ). A divergencia nemnegativitásából következik az állítás. (b) Az el z következménye, ha Q 1 = π. Végül az utolsó állítás abból következik, hogy ha π az egyenletes eloszlás, akkor D(P n π) = log X H(P n ). 6. A Slepian-Wolf tétel megosztott források kódolására Most olyan kódolásról lesz szó, amikor egyszerre több helyen keletkeznek kódolandó üzenetek, melyeket a keletkezési helyükön szeretnénk kódolni, majd a kódsorozatokat beküldeni egy központba, ahol a dekódolás történik. Gondoljunk arra, hogy több különböz állomáson végeznek méréseket, meggyeléseket, melyeket aztán a központban értékelnek ki. Általában az egyes állomások mérései korreláltak. Meghatározandó az elérhet rátatartomány. Az egyszer ség kedvéért csak két állomással foglalkozunk. Az eredmények általánosítását több állomásra az olvasóra bízzuk. Legyen tehát (X, Y) = ((X 1, Y 1 ), (X 2, Y 2 ),...) stacionárius forrás. Feltehetjük, hogy a forrás emlékezet nélküli, vagy általánosabban, hogy IS (kés bb pontosítjuk, hogy most mit értünk ezalatt). 6.1. Deníció. (R 1, R 2, n)-kódnak nevezünk egy g 1 : X n {0, 1} nr1, g 2 : Y n {0, 1} nr2 párt, ahol X illetve Y az X illetve Y források véges értékkészletei. Ha megadunk egy f : {0, 1} nr1 {0, 1} nr2 X n Y n dekódolót is, akkor a kódoló-dekódoló hibavalószín sége P (n) e = P (f(g 1 (X n ), g 2 (Y n )) (X n, Y n )). Az (R 1, R 2 ) rátapár elérhet, ha létezik olyan (R 1, R 2, n) kódsorozat, hogy lim n P e (n) rátatartomány az elérhet rátapárok halmazának lezártja. = 0. Az elérhet Az adott esetben pontosan meg tudjuk majd határozni az elérhet rátatartományt, melyet nem meglep módon az entrópiák határoznak meg. Ha R 1 > H(X) és R 2 > H(Y), akkor az (R 1, R 2 ) rátapár nyilván elérhet. Ha a két forrást megengedett lenne együtt kódolni, akkor szintén az eddigiekb l látszik, hogy az elérhet séghez R 1 + R 2 H(X, Y) szükséges. Látni fogjuk, hogy ez a feltétel nem elégséges, az R 1, R 2 rátáknak külön-külön is elég nagynak kell lenniük. Lássuk akkor a Slepian-Wolf tételt! 6.2. Tétel. Ha (X, Y) stacionárius, emlékezet nélküli megosztott források, akkor az elérhet rátatartomány: R = {(R 1, R 2 ) : R 1 H(X Y ), R 2 H(Y X), R 1 + R 2 H(X, Y )}. Bizonyítás. El ször azt látjuk be, hogy a fenti R halmaz bels pontjai elérhet k. Ugyanúgy, mint korábban, a g 1, g 2 kódokat válasszuk véletlenül, és használjuk a tipikussági dekódolót. Lényeges, hogy az (x n, y n ) sorozatpárt most akkor nevezzük (együttesen) tipikusnak, ha 1 n log p(xn ) H(X) < ε, 1 n log p(yn ) H(Y ) < ε, Jelölje ezt a halmazt is A (n) ε 1 n log p(xn, y n ) H(X, Y ) < ε. (1), vagy ha precízebbek akarunk lenni, A (n) ε (X, Y ). Vizsgáljuk a hibát! A hibás dekódolásnak négy oka lehet: (1) A kódolt (x n, y n ) sorozatpár nem együttesen tipikus. A többi esetben (x n, y n ) tipikus, de vagy (2) van olyan u n x n, hogy (u n, y n ) tipikus és g 1 (u n ) = g 1 (x n ), vagy (3) van olyan v n y n, hogy (x n, v n ) tipikus és g 2 (v n ) = g 2 (y n ), vagy (4) van olyan u n x n és v n y n, 17
hogy (u n, v n ) tipikus és g 1 (u n ) = g 1 (x n ) és g 2 (v n ) = g 2 (y n ). Jelölje a négy lehet ség valószín ségét (az (x n, y n ) választása valamint a (g 1, g 2 ) választása szerint) rendre Q 1, Q 2, Q 3, Q 4. Kaptuk, hogy E(P (n) e (g 1, g 2 )) Q 1 + Q 2 + Q 3 + Q 4. A nagy számok törvénye szerint P (A (n) ε (X, Y )) 1, így Q 1 0. A többi esetben a korábban bemutatott triviális fels becslést alkalmazzuk. Q 4 -re: Q 4 P (A (n) ε ) A (n) ε 2 n(r1+r2), hiszen P (g 1 (u n ) = g 1 (x n ), g 2 (v n ) = g 2 (y n )) = 2 n(r1+r2). A 4.5 Tétel (ii) pontja szerint Q 4 0, ha ε < R 1 + R 2 H(X, Y ). Q 2 elemzéséhez vezessük be az jelölést. Ekkor Q 2 = (x n,y n ) A (n) ε (x n,y n ) A (n) ε A (n) ε (X y n ) = {x n : (x n, y n ) A (n) ε (X, Y )} p(x n, y n )P ( u n x n : (u n, y n ) A (n) ε, g 1 (u n ) = g 1 (x n )) p(x n, y n ) P (g 1 (u n ) = g 1 (x n )) P (A (n) ε ) A (n) ε (X y n ) 2 nr1, u n A (n) ε (X y n ),u n x n ami a 6.3 Lemma szerint nullához tart, ha ε < (R 1 H(X Y ))/2. Q 3 hasonlóan nullához tart, amivel az elérhet ség bizonyítását befejeztük. Korábban láttuk, hogy R 1 +R 2 H(X, Y ) az elérhet ség szükséges feltétele. Másrészt megmutatjuk, hogy ha (R 1, R 2 ) elérhet pár, akkor (R 1, H(Y ) + δ) is az (bármilyen kis pozitív δ-ra), amib l már következik R 1 H(X, Y ) H(Y ) δ = H(X Y ) δ. Létezik ugyanis egy H(Y ) + δ rátájú h 2 kódsorozat Y-ra, melynek hibája nullához tart. Ekkor a (g 1 (x n ), h 2 (y n )) párból valóban nullához tartó hibával visszaállítható (x n, y n ), hiszen h 2 (y n )-b l dekódolással kapjuk ŷ n -et, majd azt kódolva g 2 szerint, a (g 1 (x n ), g 2 (ŷ n )) párból a feltétel szerint dekódolhatjuk (x n, ŷ n )-et. 6.3. Lemma. A (n) ε (X y n ) 2 n(h(x Y )+2ε). Bizonyítás. Ha (x n, y n ) A (n) ε (X, Y ), akkor deníció szerint egyrészt p(x n, y n ) 2 n(h(x,y )+ε), másrészt p(y n ) 2 n(h(y ) ε). Ebb l osztással p(x n y n ) 2 n(h(x,y ) H(Y )+2ε) = 2 n(h(x Y )+2ε). Rögzített y n mellett 1 x n A (n) ε (X y n ) p(x n y n ) A (n) ε (X y n ) 2 n(h(x Y )+2ε), amib l a lemma állítását kapjuk. Megjegyezzük, hogy hasonló alsó becslés is érvényes, de arra most nem volt szükségünk. A Slepian-Wolf tétel az IS (X, Y) forrásokra is igaz (és ugyanígy bizonyítható): ezek azok a források, melyekre az (1) képlettel (csak a H(X), H(Y), H(X, Y) bet nkénti entrópiákkal) deniált tipikus halmaz valószín sége 1-hez tart. Végül meggondolható, hogy a Slepian-Wolf tétel által karakterizált elérhet ráták lineáris kódokkal is elérhet k. 7. A csatornakapacitás Térjünk most rá a csatorna vizsgálatára! Feltesszük, hogy az ismert struktúrájú stacionárius forrás által kibocsátott üzeneteket már megfelel en tömörítettük, méghozzá elhanyagolható hibavalószín séggel. 18