Az Informatika Elméleti Alapjai dr. Kutor László Az üzenet információ-tartalma és redundanciája Tömörítő algoritmusok elemzése http://mobil.nik.bmf.hu/tantárgyak/iea.html Felhasználónév: iea Jelszó: IEA07 BMF NIK dr. Kutor László IEA 7/1 Az információ mérésére vonatkozó függvény Additivitás: I (X k ) + I (C j )= I (X k, C j ) f 1 (n) + f 1 (m) = f 1 (n * m) f 2 (1/n) + f 2 (1/m) = f 2 (1/n * 1/m) f 3 (p{x k }) + f 3 (p{c j })= f 3 (p{x k *C j } f = log? BMF NIK dr. Kutor László IEA 7/2
R. Hartley formula (egyenlő előfordulási valószínűségű) dolgok kiválasztásához kapcsolódó információ mérésére H= k * log n Ahol H = az információ mennyiség egy üzenet (szó) kiválasztásakor n = az üzenet - ABC betűinek száma k = a betűk száma az üzenetben (szóban) Az információ mértékegységei különböző logaritmusok estén: H = k * log 10 n [ Hartley] H = k * log 2 n [ Shannon, bit] H = k * log e n [ Nat ] BMF NIK dr. Kutor László IEA 7/3 Példák az egy elem kiválasztását leíró információ nagyságára I = 1, 2, 3, 4, 5 I(x i ) = log 2 (n), vagy -log 2 (1/n), vagy - log 2 (p(x i )) BMF NIK dr. Kutor László IEA 7/4
C. E. Shannon és N.Wiener információ értelmezése Kérdés: Véges számú közleményből véletlenszerűen kiválasztunk ki egyet, és ebből milyen következtetést vonhatunk le az egész közlemény bizonytalanságára? Hány bit szükséges egy üzenet továbbításához?! Legyen: x 1,x 2,x 3,.x i, x n = az egyedi közlemények S = x 1 +x 2 +x 3 + +x i +.. x n (Az összes üzenet) H(S) = a közlemény információ tartalma P{x 1 }, P{x 2 }, P{x 3 }, P{x i }, P{x n } = az üzenetek előfordulási valószínűsége BMF NIK dr. Kutor László IEA 7/5 A Shannon összefüggés magyarázata Ha a kibocsátott üzenetek száma: M, akkor X i előfordulásának száma: g i = M * p(x i ) I M = g 1 *I(x 1 ) + g i *I(x i ) + g n *I(X n ) I(x i ) = az i-ik üzenet információ tartalma = -log 2 p(x i ) I M = - M* p( x i }ó)* log 2 p(x i ) H(S) = - p( x i )* log 2 p(x i )?! BMF NIK dr. Kutor László IEA 7/6
Az információ redundanciája 1. Redundancia köznapi értelmezése: terjengősség A redundancia információ elméleti értelmezése: n H S = - p{ x i }* log 2 p{x i } (Shannon) i=1 n H max = - 1/n * log (1/n)= - log (1/n) = log (n) i=1 (Hartley) H relatív = H S H max = az információ-forrás jósága BMF NIK dr. Kutor László IEA 7/7 Az információ redundanciája 2. H S = a hírforrás információ tartalma (entrópiája) H max = a hírforrás maximális információ tartalma H relatív = H S H max = az információ forrás jósága H R S = 1 - S A hírforrás által közölt információ * 100 H hány százaléka felesleges max Példa: H S = 1.684 H max = 2 Hr = 1.684 = 0.842 2 R S = (1 0.842) * 100 = 15.8 ~ 16% BMF NIK dr. Kutor László IEA 7/8
Példa az írott szöveg redundancájára 1 ( a szöveg minden 3 karakteréből 2 elhagyva) A programozók (minden ellenkező híresztelés ellenére) emberek, akik éjnek éjjelén, teljesen alkalmatlan fejlesztőprogramokkal, hibáktól hemzsegő hardverek egymáshoz nem illeszthető konglomerátumán megkísérlik, hogy a feladatra alkalmatlan megbízóik megrendelésére megbízóik egymásnak ellentmondó kívánságait olyan programokká alakítsák át, amelyeket aztán a végén, senki sem fog használni. BMF NIK dr. Kutor László IEA 7/9 Példa az írott szöveg redundancájára 2 ( a szöveg minden 3 karakteréből 1 elhagyva) A programozók (minden ellenkező híresztelés ellenére) emberek, akik éjnek éjjelén, teljesen alkalmatlan fejlesztőprogramokkal, hibáktól hemzsegő hardverek egymáshoz nem illeszthető konglomerátumán megkísérlik, hogy a feladatra alkalmatlan megbízóik megrendelésére megbízóik egymásnak ellentmondó kívánságait olyan programokká alakítsák át, amelyeket aztán a végén, senki sem fog használni. BMF NIK dr. Kutor László IEA 7/10
Példa az írott szöveg redundancájára 1 ( a szöveg minden karaktere kiírva) A programozók (minden ellenkező híresztelés ellenére) emberek, akik éjnek éjjelén, teljesen alkalmatlan fejlesztőprogramokkal, hibáktól hemzsegő hardverek egymáshoz nem illeszthető konglomerátumán megkísérlik, hogy a feladatra alkalmatlan megbízóik megrendelésére megbízóik egymásnak ellentmondó kívánságait olyan programokká alakítsák át, amelyeket aztán a végén, senki sem fog használni. BMF NIK dr. Kutor László IEA 7/11 A magyar nyelv betűgyakorisága és információ tartalma 10 000 szavas újságszöveg alapján Gyakoriság Információ (% ) tartalom (bit) Fülöp Géza Gyakoriság Információ (% ) tartalom (bit) http://www.mek.oszk.hu/03100/03118/html/#5 Gyakoriság Információ (% ) tartalom (bit) A 9,35 3,43 Á 3,72 4,77 B 1,72 5,87 C 0,60 7,40 D 1,71 5,90 E 9,71 3,37 É 3,87 4,71 F 0,88 6,87 G 3,55 4,83 H 1,23 6,37 I 4,39 4,53 J 1,21 6,39 K 5,35 4,24 L 6,30 4,00 M 3,92 4,69 N 5,47 4,21 O 4,47 4,50 Ö 2,14 5,57 P 1,04 6,61 R 4,22 4,58 S 6,57 3,94 T 7,87 3,68 U 1,29 6,30 Ü 0,93 6,77 V 1,81 5,81 X 0,01 13,33 Y 2,21 5,52 Z 4,46 4,50 I átlag = 4.44 bit BMF NIK dr. Kutor László IEA 7/12
Tömörítő programok hatékonysága A kiinduló fájl típusa:.exe.img.txt A kiinduló fájl mérete: 277 766 168 974 151 579 Huffmann 103 408 57 383 42 576 LZW 117 811 55 108 48 322 Aritmetikai 177 042 79 870 101 322 PKZIP 96 525 56 380 39 953 ARJ 92 560 50 236 36 913 Koschek Vilmos BMF NIK dr. Kutor László IEA 7/13 Az angol nyelv betűgyakorisága Betű Betű Információ [bit] gyakoriság A 8,4966% 3,5570 B 2,0720% 5,5928 C 4,5388% 4,4615 D 3,3844% 4,8850 E 11,1607% 3,1635 F 1,8121% 5,7862 G 2,4705% 5,3391 H 3,0034% 5,0573 I 7,5448% 3,7284 J 0,1965% 8,9913 K 1,1016% 6,5043 L 5,4893% 4,1872 M 3,0129% 5,0527 Betű Betű Információ[bit] gyakoriság N 6,6544% 3,9095 O 7,1635% 3,8032 P 3,1671% 4,9807 Q 0,1961% 8,9942 R 7,5809% 3,7215 S 5,7351% 4,1240 T 6,9509% 3,8467 U 3,6308% 4,7836 V 1,0074% 6,6332 W 1,2899% 6,2766 X 0,2902% 8,4287 Y 1,7779% 5,8137 Z 0,2722% 8,5211 I átlag = 4.22 bit BMF NIK dr. Kutor László IEA 7/14
Tömörítő programok tesztje 1. Szövegfájlok méret szerint Kiinduló fájlok mérete: 1.22 MBájt BMF NIK dr. Kutor László IEA 7/15 Tömörítő programok tesztje 2. Szövegfájlok idő szerint Kiinduló fájlok mérete: 1.22 MBájt BMF NIK dr. Kutor László IEA 7/16
Tömörítő programok tesztje 3..doc fájlok méret szerint 12.34 MBájt BMF NIK dr. Kutor László IEA 7/17 Tömörítő programok tesztje 4..doc fájlok idő szerint 12.34 MBájt BMF NIK dr. Kutor László IEA 7/18
Tömörítő programok tesztje 2.. exe fájlok méret szerint 8.47 MBájt BMF NIK dr. Kutor László IEA 7/19 Tömörítő programok tesztje 6.. exe fájlok 8.47 MBájt BMF NIK dr. Kutor László IEA 7/20
Tömörítő programok tesztje 7. kép fájlok (.png) méret szerint 70.62 MBájt BMF NIK dr. Kutor László IEA 7/21 Tömörítő programok tesztje 8. kép fájlok (.png) idő szerint 70.62 MBájt BMF NIK dr. Kutor László IEA 7/22
Tömörítő programok tesztje 9. hang fájlok (.wav) méret szerint 15.66 MBájt BMF NIK dr. Kutor László IEA 7/23 Tömörítő programok tesztje 10. hang fájlok (.wav) idő szerint 15.66 MBájt BMF NIK dr. Kutor László IEA 7/24
Tömörítő programok tesztje 11. Tömörítvények (.zip) méret szerint 6.61 MBájt BMF NIK dr. Kutor László IEA 7/25 Tömörítő programok tesztje 12. Tömörítvények (.zip) idő szerint 6.61 MBájt BMF NIK dr. Kutor László IEA 7/26