Információs rendszerek elméleti alapjai. Információelmélet

Inormációs rendszerek elméleti alapjai Inormációelmélet

Relatív bonyolultság Kolmogorov-Chaitin-Solomono alaptétele, invariancia tétel (újabban) Tétel: Létezik : NN optimális parciális rekurzív üggvény, amelyhez bármely : NN parciális rekurzív üggvény esetében létezik k konstans, hogy C (x) C (x)+ k, x-re Következmény: (invariancia), g optimális üggvények, C (x)-c g (x) < k,g, x-re Tehát C (x) konstans erejéig egyértelmű 217. 4. 11. 2

Relatív bonyolultság Rögzítsük mostantól az optimális üggvényt (Általában jó az univerzális Turing-gép megelelő változata) Deinició: Az x N, Kolmogorv bonyolultságán C(x)= C (x) üggvényt értjük Intuitív háttér 217. 4. 11. 3

Invariancia tétel Bizonyítása : Tetszőleges, x. Ha C (x) = k, akkor legyen (p)=x, és l(p)=k. C x min lp: p Vegyük az U(g,n) univerzális parciális rekurzív üggvényt. Legyen, sorszáma n, azaz U(p,n)= (y), A z=n p kódból (z)=u( 12 (z), 11 (z))= U(p,n)= (p)= x Ezért C (x) l(z)=l(n p)= l(p)+2l(l(n))+l(n)+1= C (x) +k Tehát optimális. QED. x 217. 4. 11. 4

Invariancia tétel Tulajdonságok Két konkrét tulajdonsággal lehet bizonyítást végezni: a) Az Invariancia tétel alapján elülről becsülhető C(x) konkrét C (x) ből. b) C (x) =k, jelentése: létezik egy konkrét k hosszú p szó, amelyre l(p)=k. 1. Tulajdonság: C (x) l(x)+ k 1 Bizonyítás: (p)=p-vel, az a) tulajdonságból. 2. lim C (x) =, x. Bizonyítás: ha sokszor N korlát alatt maradna, az a b) tulajdonság miatt csak 2 N, kód használatát jelentené, ami lehetetlen 217. 4. 11. 5

Invariancia tétel Tulajdonságok 3. C (x) totális (teljes) üggvény, de nem kiszámítható. Bizonyítás: Indirekten: ha az volna, akkor legyen x 1 : ahol C (x) először nagyobb 2-nél, x 2 : ahol C (x) először nagyobb 2 2 -nél,.. xk : x k > x k-1, és C (x) először nagyobb 2 k -nál, C(x k ) > 2 k.. Legyen (p)=x p. C (x k )log 2 k log 2 (log 2 C(x k )) azért, mert C (x k )=min {l(p): (p)=x k }=min {l(k): (k)=x k }, és l(k)= log 2 k, log 2 C(x k )> k Nyilván: C(x k ) C (x k )+k log 2 (log 2 C(x k ))+ k Csak véges sok x k -ra teljesülhet, ellentmondás. QED. 217. 4. 11. 6

Invariancia tétel Tulajdonságok Az a) és b) tulajdonságok alapján a C (x) el mégis lehet valamit kezdeni. Tulajdonság: {x:l(x)=n, C (x) < n-} < 2 n- a lehetséges kódok száma b) szerint : 1+2+4+ + 2 n- -1= 2 n- -1 Jelentés: a szavak több mint a ele nem tömöríthető! 217. 4. 11. 7

Invariancia tétel Tulajdonságok Tulajdonság: i. lim C (x) =, x.; vagyis nem korlátos v. (a b) miatt) ii. Legyen m (x) = min C (y), ahol yx, az alsó burkoló. m a legnagyobb monoton növő alsó korlátja C-nek. m (x) nem korlátos iii. Bármely olyan végtelenbe tartó, monoton, parciális rekurzív (x) v.-re, amelyre valamilyen x -tól ((x) ), m(x) < (x) véges sok x kivételével. Más szavakkal, noha m(x) a végtelenbe tart, sokkal lassabban teszi azt, mint bármelyik nem korlátos parciális üggvény. Bizonyítás: (ii.) indirekt módon: m (x) növekedési helyen levő x-nek legyen m (x) a kódja. A legrövidebb program kód, amely x et előállítja. m (x) = i, x i <xx i+1., ilyen i indexek, x i kódok/ programok találhatók (p) =x, l(p)i, ha x> x i (a) miatt ez ellentmondásra vezet, ha m(x) korlátos volna, akkor C(x)C (x)+c és lim C (x) = miatt) (iii.) Lassabb kiszámítható v. létezése, ugyan ehhez az ellentmondáshoz vezet. QED. 217. 4. 11. 8

Invariancia tétel Tulajdonságok i. Bármely olyan végtelenbe tartó, monoton, parciális rekurzív (x) v.-re, amelyre valamilyen x -tól ((x) ), m(x) < (x) véges sok x kivételével. Más szavakkal, noha m(x) a végtelenbe tart, sokkal lassabban teszi azt, mint bármelyik nem korlátos parciális üggvény. Bizonyítás: (ii.) indirekt módon: m (x) növekedési helyen levő x-nek legyen m (x) a kódja. A legrövidebb program kód, amely x et előállítja. m (x) = i, x i <xx i+1., ilyen i indexek, x i kódok/ programok találhatók (p) =x, l(p)i, ha x> x i (a) miatt ez ellentmondásra vezet, ha m(x) korlátos volna, akkor C(x)C (x)+c és lim C (x) = miatt) (iii.) Lassabb kiszámítható v. létezése, ugyan ehhez az ellentmondáshoz vezet. QED. 217. 4. 11. 9

C(x) graikonja mint v. az egész számokon 217. 4. 11. 1

Invariancia tétel Tulajdonságok 6. Tulajdonság: kis változásra mennyit változik? (Folytonosság) C (x+h) C (x)+ l(h) + 2log l(h) +c, (p)=x, l(p)= C (x) választással z=h p-ből, (z)= ( 12 (z))+ 11 (z)= (p)+h= x +h, C (x+h) l(p)+ l(h) + 2l( l(h) )+c. QED. A g(x,h)=x+h helyett tetszőleges kétváltozós kiszámítható üggvényt vehetünk. Adatbázisokra értelmezve, nagy adatbázis kis módosítása, nem növeli a Kolmogorov bonyolultságot. Megjegyzés: (a kétváltozós üggvény kiszámítási idejét itt nem veszi igyelembe!) 217. 4. 11. 11

Feltételes Kolmogorov bonyolultság Kérdés: Mennyit segít y ismerete x kiszámításában? Mekkora a legrövidebb program kódjának a hossza, ami y-ból x-et kiszámítja? p kód, p : NN parciális üggvények p (y)=x. A programok kódjai p 1, p 2,, p n. Legáltalánosabban rekurzívan elsorolható halmaz, egy h(i)=p i a elsorolás, akkor h 217. 4. 11. i pi i,y hi y pi y p y i p y, i p,y nincs ha valamilyen x i - re értelmezve,ha nincs i, amire p h i hi p i p. 12

Feltételes Kolmogorov bonyolultság Deiníció: p : N 2 N szerinti eltételes bonyolultsága x-nek az y eltétel ismeretében: C Tétel : Létezik parciálisa n rekurzív amire bármely parciálisa n rekurzív k C x y 217. 4. 11. konstans, hogy l p: p, y min p, ha nem létezik optimális : : 2 üggvény, ilyen üggvényhe x y C x y k, x, y N re N 2 N : x N 2 p N z létezik 13

Feltételes Kolmogorov bonyolultság optimális parciálisa n rekurzív üggvények eltételes bonyolults ága csak egy konstansba n tér el egymástól 2,g 2 : N 2 N optimális, C C x y C 2 2 2 2 rögzítjük az 2 x N, eltételes x x y C 2 x y g y K 217. 4. 11. 14,g optimális üggvényt Kolmogorov bonyolults ága

Feltételes Kolmogorov bonyolultság Bizonyítás: Ugyanúgy mint az egyszerű (nem eltételes bonyolultság) esetében U((n,p), y) kétváltozós univerzális parciális üggvények segítségével 217. 4. 11. 15

Feltételes Kolmogorov bonyolultság Tulajdonságai: 1) Alaptétel: C(x y) konkrét C (x y) ismeretében csak elülről becsülhető. 2) C(x y)=k jelentése: p: (p,y)=x, és l(p)=k 3) C(x) C(x y)+c(y)+2log 2 C(y)+K 217. 4. 11. 16

Programok és C(x) LISP (Erlang)-unkcionális, lista kezelő Fortran 1, 2,, - Lisp programok 1, 2,.., Fortran programok Felsorolás minden program tekinthető parciális rekurzív üggvény C LISP (x) és C Fortran (x), kijelölve egy reerencia gépet. Ezek egy additív konstans erejéig különböznek. Mindegyik elsorolás tartalmaz egy U univerzális gépet (interpretert) 217. 4. 11. 17

Programok és C(x) LISP programok elsorolása tartalmaz egy LISP interpretert, amelyik minden LISP programot végre tud hajtani. De nyilván létezik p LISP program, amelyik Fortran interpreter, amelyik minden Fortran programot végre tud hajtani. C LISP (x) C Fortran (x)+2l( p ), hasonlóan C Fortran (x) C LISP (x)+2l( L ) C LISP (x)- C Fortran (x) 2l( p )+ 2l( L ) 217. 4. 11. 18

Feltételes Kolmogorov bonyolultság 4) Halmaz szerinti eltételes bonyolultság (véges halmaz elemeinek a halmaz szerinti eltételes bonyolultsága) A={a 1,,a n } C(x A)=?, x A, < A >= a 1,, a n => C(x A)=C(x < A >) [A kódolása önkorlátozó kóddal] általános eset: adott A, A =N, kódja p [Mennyire tömören ábrázolható?] 217. 4. 11. 19

Feltételes Kolmogorov bonyolultság 4) {x x A és C(x A)<log 2 N-}?, keressük : p kódot: (p, < A >)=x A, 1, 2, log 2 N--1 <-[kódhossz] 1+2+2 2 + +2 log 2 N--1 = 2 log 2 N- -1 x x A C x x x A A log 2 N-δ 2 2 log 2 log 2 N-δ N 2 217. 4. 11. 2

Feltételes Kolmogorov bonyolultság A elemeinek többségére az A szerinti eltételes bonyolultság nem lehet érdemben kisebb mint log 2 N log 2 N-nél -val rövidebb kódok száma, amit használhat N 2 - egyenletes kódhossz választása indokolt Szükséges a megelelő halmaz megtalálása A halmaz ismeretében sem lehet tömörebben ábrázolni a legtöbb elemet az egyenletes kódolásnál. Keresem a lehető a legkisebb halmazt, ami leedi a jelenséget és egyenletesen kódolom 217. 4. 11. 21

Példa Személyek adataira relációs Adatbázis R(csnév, unév) csnév: 2 byte = 16 bit unév: 2 byte = 16 bit A : az összes lehetséges reláció előordulás Lehetséges különböző sorok száma: 2 16 2 16 = 2 32 Lehetséges előordulások száma, az összes lehetséges részhalmaz, a hatványhalmaz, aminek a számossága: 217. 4. 11. 22

Példa A 2 2 32 32 2 32 I I A,C I A log 2 2 2 Sorok számára van egy korlát a való életben < 1 milliárd (1 9 ) 217. 4. 11. 23

Példa csnév: első 256 leggyakoribb (8 %) unév: első 256 leggyakoribb (8 %) 4 szegmens készítése: 1. Mindkét név gyakori: 64% - 2 byte 2. Családnév gyakori : 16% - 22 byte 3. Utónév gyakori : 16% - 22 byte 4. Egyik név sem gyakori : 4% - 4 byte ( Jól kell részhalmazokra szétszedni). 217. 4. 11. 24

Paraméteres halmazsereg (pl. adatbázis (reláció) sémának rögzítek egy paraméterét és az előordulás a halmazsereg). - a paraméter kód, a -> B a, véges halmaz h(a)= B a h egy totális rekurzív v. (meg tudom mondani, hogy mi van a halmazban és mi nincs benne). 217. 4. 11. 25

Paraméteres halmazsereg Legyen A N N, rekurzívan elsorolható részhalmaz, B a ={x (x,a) A} 217. 4. 11. 26

Paraméteres halmazsereg Megszorítás: minden a-ra B a =m a véges a alapján B a elemei elsorolhatók algoritmikusan m a -t nem tudom megmondani(kiszámítani) (mert A rekurzívan elsorolható, de a komplementer halmazáról nem tudunk semmit, ezért nem eldönthető) 217. 4. 11. 27

Paraméteres halmazsereg Tétel: létezik k A, hogy C x B C x a log a 2 m a k A x B a ra, és A - ra A halmaz elemeinek a tömöríthetősége mindig eléri a log 2 (elemszám) ot, alulról elülről is becsülni tudjuk 217. 4. 11. 28

Paraméteres halmazsereg Bizonyítás: B a elemei : A-hoz elsoroló üggvény (t,a) konstruálása - Futtatjuk A elsorolását, 217. 4. 11. 29

Paraméteres halmazsereg Első x B a (,a) =x 1 Megyünk tovább (1,a) =x 2,, (n,a)= x n B a eleme elsorolásra került (t,a) ezután nincs értelmezve 217. 4. 11. 3

Paraméteres halmazsereg Az C C és másutt Legyen t,a Ebből x B m x a C x a k lt k lt Vagyis üggvény, értelmezve a x, és t : sehol. x Ba Cx a log2 ma ka a t,a, akkor, az a - ban van t 1,,,m a nyilván 1helyeken létezik k t, hogy log2 ma elsőbecslés k. QED. Jelentés: (adatbázis) séma+paraméter jó megválasztása, Ezen belül már nem érdemes más kódolást használni, csak a homogén hosszúságút, azaz log 2 m a hosszút. 217. 4. 11. 31

217. 4. 11. Érdekes halmazsereg D Meg ha p x tudjuk optimális hosszú értékre k hely lépés 1 1 2 3 : : 1 x C 1 1 2 3 xd k x 1 1 2 3 k k - e konstruáln i a elsoroló v. hely és lépésszám bejárása 2 2 3 3 3 : valamelyik kapunk eredményt paraméterb en ez k egy v. - t? halmazsere g 32

Érdekes halmazsereg D nincs - e x x jobb x ui. akkor a C is kiszámítha tó volna ; általában nem lehet bebizonyít ani, hogy a Kolmogorov bonyolults ága valaminek D * ' k k x C x C Nem tudom megmondani k k nem kiszámítha tó ez kód nála sem kiszámítha tó, hogy halmaz k halmaz 217. 4. 11. 33

Összehasonlítás a Shannon entrópiával Minél nagyobb/jelentősebb az adott, vizsgált jelenség, annál szorosabb a kapcsolat a két entrópia ogalom között. Hosszú sorozat, N hosszú üzenetek : H entrópia (Shannon) [stacionáris, ergodikus orrás] Két halmazba sorolható: Lényeges, tipikus halmaz: ebbe 1- val.szeg.-gel. esik a választás 2 N(H-) <M(N)< 2 N(H+). M(N)- tipikus halmaz elemszáma. 217. 4. 11. 34

Összehasonlítás a Shannon entrópiával Mi jellemzi a tipikus halmazt? Kolmogorov: x üzenet tipikus statisztika jellemzi, A N halmazba esik, (ez lesz a paraméteres halmaz sereg). A N ={tipikus N hosszú sorozatok} x A N : C(x A N )=C(x N)log 2 M(N)+k orrás 217. 4. 11. 35

Összehasonlítás a Shannon entrópiával, ha P x TIP 1, Kiszámítha tó A paraméter A A C N log 2 M N, x lx N P x N N log 2 A x TIP N x TIP TIP x A N log2 AN ka log2 M N ka 217. 4. 11. tipikus ha nem predikátum halmaz : hosszú sorozatok 36

Összehasonlítás a Shannon entrópiával Behelyette sítve tetsző leges -ra az Egy szimbólumra H ~ H Shannon tipikuselemére az alsó becslés, a teljesre a első teljesül : log 2 A N A N N H Cx A NH N Kolmogorov C x A N N N k orrás H ~ H N hosszú üzenetek kódját osztjuk N-nel, Shannon entrópia H N k orrás Shannon 217. 4. 11. 37

Összehasonlítás a Shannon entrópiával Egy szimbólumra jutó (Shannon) entrópia a tipikus halmaz elemein a eltételes Kolmogorov entrópia egy szimbólumra jutó részével Ha nagyon nagy jelenségeket veszünk, akkor a tipikus halmaz Kolmogorov bonyolultsága visszaadja a Shannon entrópiát. 217. 4. 11. 38

Összehasonlítás a Shannon entrópiával Mögötte meghúzódó jelenség: a tipikus halmazbeli üzenetek egyenletes eloszlással jellemezhetők. Összes közül melyek a tipikus halmazbeli üzenetek és melyek nem 1 sorozatok véletlenszerűségét vizsgáljuk. Lehet-e pénzeldobás eredménye? 217. 4. 11. 39

Összehasonlítás a Shannon entrópiával 1 1 1 1 1 1......... 1........... 1 pénzeldobás 11 véletlenszerű Egyeseket (1) egyesével -ra cserélem:.. nem véletlen Van-e határvonal a véletlen és a nem véletlen között? 217. 4. 11. 4

Összehasonlítás a Shannon entrópiával Szabályszerűség Ami igazán véletlen az nem tömöríthető (Kezdőszelet bonyolultsága a hosszal nő) Mennyire tipikus Véletlenség deektusa jellemezhető: {x x A és C(x A)<log 2 A -} A véletlen deektusa legalább 217. 4. 11. 41

Példa Fekete ehér színezések Sakktábla Homogén illetve mákos sűrűség Fele ekete- ele ehér Egymásra helyezve a óliát érdekes jelenség Saját görbére illeszkedő transzormáció elerősödik 217. 4. 11. 42

217. 4. 11. 43

217. 4. 11. 44

217. 4. 11. 45

217. 4. 11. 46

217. 4. 11. 47

217. 4. 11. 48

217. 4. 11. 49

A jellemző szabályosságok írják le a tipikus halmazt, elemein a legbizonytalanabb, egyenletes eloszlást vesszük. Ha megtaláltuk a jó homogén halmazt, lehet, hogy a elhasználás, üzenet szempontjából a konkrét elem már érdektelen. Példa: szürke színezés. Az 1/2 szürkeség - Fuzzy halmaz - bármelyik tipikus színezéssel szemléltethető. Két színezés és sajátosságaik: a szórásnégyzet második tagja A véges világban - tehát a digitalizált világban - a matematika végtelen ideális konstrukciói - a olytonosság, végtelen, univerzális algoritmusok - csak segítenek, végtelennel közelítik a véges modellt, amit utána vissza kell véges közelítésbe hozni. np 2 p1 p 2 2n kp1 p 3 217. 4. 11. 5

217. 4. 11. 51

217. 4. 11. 52

Matematikai kitérő C A kibertérben mivel azonosíthatók p -? -? C (x) U(.,.) x minl p: p p, amire p : C x ha nincs Megjegyzés x x nem mindig kiszámítha tó 217. 4. 11. 53

Intuitív kitérő Egy bizonyos objektumot egy véges bináris stringgel kívánunk leírni Több leírás is létezhet, de egy leírás egy objektumot ír le Egyszerű objektum rövid leírás Bonyolult objektum hosszú leírás Richard-Berry paradoxon: Deiniáljunk egy természetes számot: a legkisebb olyan természetes szám, amelyet nem lehet leírni húsznál kevesebb szóval. 217. 4. 11. 54

Intuitív kitérő Ha ilyen szám létezik, akkor ezt a számot tizenkét szóval leírtuk, ellentmondva a deiníciójának. Ha ilyen szám nem létezik, akkor az összes természetes számot le lehetne írni húsznál kevesebb szóval. A leírás ogalmát pontosítani kell! D: Y X, D(y)=x, Y leírások, X az objektumok, x legyen véges mint leírás, X = Y =, (megszámlálható). - y{,1} *, üzenet továbbítás költsége távközlésben az üzenet hossz l(y). - Legkisebb költség legkisebb hossz 217. 4. 11. 55

Intuitív kitérő Algoritmikus inormáció elmélet vívmányai (innovációi) 1. Formális értelemben eektív leírás deiníciójára szorítkozva, ez a deiníció leedi mind az intuitív mind a matematika és logikai szempontjából elogadható nézőpontokat. 2. Erre az eektív deinícióra szorítkozás maga után vonja, hogy létezik egy olyan univerzális leíró módszer, amely minorálja az összes egyéb leíró módszerből származtatható leírás hosszát vagy komplexitását. 3. Egy objektum leírásának hossza az objektum elválaszthatatlan tulajdonsága, amely üggetlen a partikuláris leíró vagy ormalizáló módszertől. 4. A zavaró Richard Berry paradoxon nem og eltűnni, hanem Gödel nem-teljességi tételével kapcsolatban elő og kerülni, vagyis nem minden igaz matematikai állítás bizonyítható matematikában. 217. 4. 11. 56

217. 4. 11. 57