Veszteséges képtömörítő eljárások pszichovizuális összehasonlítása Berke József 1 - Kocsis Péter 2 - Kovács József 2 1 - Pannon Agrártudományi Egyetem, Georgikon, Mezőgazdaságtudományi Kar, Szaktanácsadási, Továbbképzési és Informatikai Központ, Keszthely 2 - Gábor Dénes Főiskola, Keszthelyi Központ Bevezetés A digitalizált vizuális információ (mozgó, álló) meghatározó szerepet tölt be a legtöbb multimédia alapú anyagban. A CD-ROM-ot, mint adathordozót napjainkra szinte kinőtték az igényesebb alkalmazások. Ugyan az elmúlt év végén bevezetésre került egy új technológia /DVD/, azonban az erre optimalizált vizuális adatstruktúra is erőteljesen épít a redundáns vizuális információ veszteséges tömörítésére. Jól kidolgozott eljárások terjedtek el, melyeknek az adaptív DCT képezi az alapját. A fejlesztők és felhasználók számára kevésbé ismert, de rendkívül hatékony eljárás a képek belső szerkezeti szabályainak felismerésén alapuló, fraktál tömörítő eljárás alkalmazása. Végfelhasználói szempontokat is alapúl véve, pszichovizuális összehasonlító vizsgálatot végeztünk két veszteséges ( és FIF) tömörítő eljárás egymás közötti és tömörítetlen képekkel történő összehasonlítására. A szabvány A (Joint Photographic Experts Group) szabvány (adaptív) diszkrét koszinusz transzformáción (DCT) alapuló képtömörítési eljárás, melyeket az ISO (International Standards Organization) és a CCITT (Consultation Committee on International Telephon and Telegraph) szervezetek által 1986-ban felállított munkacsoport fejlesztett ki. A látvány kismértékű romlása árán kb. 1/30 arányú tömörítés érhető el. A tömörítési arány illetve az esetleges minőségromlás mértéke felhasználói paraméterrel állítható. A szabvány kialakításakor ügyeltek a fejlesztők arra, hogy hardver és szoftver úton is egyaránt hatékonyan lehessen az eljárást alkalmazni. Az eljárás az egyes színösszetevőket (RGB) egymástól függetlenül kezeli. Ha a tömörítés veszteségmentes lenne, nem lenne túl nagy jelentősége annak, hogy a képpontértékek milyen színrendszerben vannak ábrázolva. Mivel azonban a szabvány megengedi a veszteséget, értelemszerűen célszerű azt a képpontérték-ábrázolást választani, amely az elkövetett hibával szemben a legkevésbé érzékeny, illetve amelyben az adatok belső összefüggései a legnagyobb tömörítési arány elérését teszik lehetővé. Így a szokásos RGB színrendszer helyett az YUV színrendszert használja a. Ezáltal a színösszetevők adatai a látás szempontjából fontosabb és kevésbé fontos adatokra válnak szét. Az emberi látás ugyanis az ún. krominancia összetevőkre sokkal kevésbé érzékeny, mint az
ún. luminancia összetevőre. Ebből következően, célszerű a színes képet a tömörítés előtt ebbe a színrendszerbe transzformálni. A tömörítő eljárás részletes leírásával nem kívánunk foglalkozni, mivel számos irodalmi hivatkozásban megtalálható, csupán röviden foglaljuk össze a szabvány lényeges elemeit: Az adott színösszetevőt ábrázoló képsávot egymástól független, 8*8 képpontból álló blokkokra bontjuk. A transzformáció végrehajtásával blokkonként 8*8 = 64 db., 2D (kétdimenziós) diszkrét bázis-függvényhez tartozó együtthatót kapunk. Az eljárás képlettel a következőképpen fejezhető ki: ahol: a blokk mérete (a szabványban: 8) a képpontérték blokk-relatív pozíciók Az előbbi képlet közvetlen számításokra alkalmatlan, mivel valós adatokon nagyszámú művelet elvégzését igényli. A transzformáció igen hatékonyan számítható közelítése pl. az RVFFT (Real Valued Fast Fourier Transform) eljáráson alapul. Míg a blokk 64 képpontja egymással többnyire erősen korrelál, a transzformáció után kapott 64 együttható gyakorlatilag nem mutat belső összefüggést. A pszichovizuális kísérletek igazolták, hogy e 64 együttható nem azonos mértékben fontos az eredetit közelítő látvány létrehozásához (a magasabb frekvenciájú képtartalom-változást reprezentáló bázisfüggvények a látvány létrehozásában nem játszanak túl nagy szerepet). Így az együtthatók kvantálásakor figyelembe veszik, hogy a magasabb frekvenciájú összetevőkhöz tartozó együtthatók pontatlanabbul kódolhatók, mint az alacsony frekvenciához tartozóak. A szabvány rendkívül elterjedt (WWW, Multimédia, DVD, stb), ismert és könnyen adaptálható tetszőleges alkalmazáshoz. Fraktál alapú tömörítés A DCT transzformáción alapuló eljárásoktól gyökeresen eltérő, rendkívül hatékony képtömörítési módszer Michael Barnsley fraktál transzformáción alapuló eljárása. Az eljárás lényege: A tónusos vagy színes képek fraktálok alkalmazásával való előállításának szabályait keresi meg a kép elemzésével, s e szabályokat tárolja. A valós világról készített digitális képeken található objektumok kontrakció révén tetszőlegesen kicsire zsugoríthatók. A mögötte lévő matematikai transzformációs eljárások ismertek. Feladat a képen található objektumok felismerése és meghatározása fraktálok
segítségével. A részletes matematikai eljárás (Barnsley Hurd, 1993) ismertetésétől eltekintve megállapítható, hogy létezik a transzformációnak hatékony implementációja. Ugyan jelentős a tömörítés irányú számításigénye az eljárásnak (800x600x24 pixelxpixelxbites kép esetén, Pentium 100 processzorral kb. 1-2 perc), azonban a jelenlegi populáris processzorok számítási teljesítménye már alkalmas a feladat elvégzésére. Mivel a kitömörítés (helyreállítás) sokkal gyorsabban elvégezhető (800x600x24 pixelxpixelxbit-es kép esetén, Pentium 100 processzorral kb. kb. 1-2 másodperc) mint a betömörítés, a multimédiás alkalmazásoknál gyakran használt állóképek esetén a felhasználók szinte nem is veszik észre. A helyreállítás után a kép nagyítható, s ekkor látszatra új részletek jönnek elő a globális mintázatok lokális ismétlésével. Anyag (képek, tömörítő programok) Az eredeti képek mindegyike professzionális Kodak színes diára készült, majd PhotoCD-re került átírásra Kodak RFS 2035 scanner digitalizálásával. A képeket Photoshop 3.0 képfeldolgozó program segítségével készítettük, melyek 24 bites tömörítetlen TIFF képek alapján kerültek tömörítésre. A fraktál alapú tömörítések az Iterated Systems, Incorporation szerveréről (http://www.iterated.com) szabadon letölthető program (Fractal Imager 1.1) segítségével készült. Minden kép mérete 640 x 480 x 24 (pixel x pixel x bit) volt. Az eredeti képpel történő összehasonlítások során a kétféle tömörítő eljárás minőségi faktorait úgy választottuk, hogy a kapott file-ok átlagos mérete közel hasonló legyen. Így is a képek mérete közel kétszerese volt a FIF képekének. Az egymással történő összehasonlítás során a maximális minőségi faktort állítottuk mindkét tömörítés esetén. Ekkor is a képek mérete kétszerese volt a FIF képekének. Tesztkérdések A tesztkérdések összeállításakor az alábbi szakmai és technikai szempontokat vettük figyelembe: A kérdések minimális szakmai ismeretekkel megválaszolhatók legyenek. WWW-re könnyen adaptálhatók legyenek a kérdések. Közel azonos körülmények biztosításával történjen a válaszadás. Rövid, egyszerű kérdéseket tartalmazzon a tesztlap. Könnyű legyen a válaszadás (megfelelő válasz beikszeléssel). Maximálisan 10 kérdést tartalmazhat egy-egy tesztlap. Az alábbi táblázat a kérdések kiértékelés szempontjából fontos elemeinek összehasonlítását szemlélteti: Kérdések lényegi szempontja(i) Részletgazdagság eredeti + nagyított Kapcsolódó kérdések száma Összehasonlítás 2+2 Tömörítetlen - Színárnyalatok 2 Tömörítetlen -
Színtelítettség 2 Tömörítetlen - Részletgazdagság eredeti + nagyított 2+2 Tömörítetlen - FIF Színárnyalatok 2 Tömörítetlen - FIF Színtelítettség 2 Tömörítetlen - FIF Színárnyalatok 1 FIF- Felismerhetőség 1 FIF- 1. táblázat A kérdések kiértékelés szempontjából fontos elemeinek összehasonlítása Minden válaszadó két tesztlapot töltött ki. Az egyik a tömörítetlen és a tömörített képeket, míg a másik a tömörítetlen és a fraktál tömörített képeket hasonlította össze. Mindkét kérdéssorozat között elhelyeztünk két-két azonos kérdést, amely a és fraktál alapú eljárásokat hasonlította össze. A kérdések egy részének Internet-es változatai az alábbi helyen találhatók: http://jnos.georgikon.pate.hu. Eredmények Az eddig elvégzett vizsgálatok több mint 100 fővel történtek. Ezek közel 80 %-a tanult felsőfokú informatikát. A teljes létszám 40 %-a multimédia alapú tantárgyakat is hallgatott (multimédia eszközök, multimédia szoftverek, számítógépes grafika). A kísérletben résztvevők 10 %-a pedig digitális képfeldolgozást gyakorlati és elméleti szinten hallgatott. A tömörítetlen és a tömörített képek összehasonlító vizsgálatainak eredménye azt mutatja, hogy szinte minden feltett kérdés esetén a felhasználók jelentősnek, azaz zavarónak ítélték a 1/30 arányban tömörített képek és a tömörítetlen képek közötti eltérést. Különösen zavaró (idegen) volt szinte mindenki számára, a képek nagyításakor jelentkező digitális hatás. Ugyanezen kérdésekre adott válaszok során a felhasználók a fraktál tömörített és a tömörítetlen képek esetén észrevehetőnek, néhány esetben zavarónak ítélték az eltérést. Az emberi agy számára idegen digitális hatás nem volt érezhető a felhasználók között. A két tömörítő eljárás összehasonlításakor egyértelmű különbség mutatkozott a fraktál tömörített képek javára (1. Ábra). Ez elsősorban a színárnyalatok visszaadása során volt feltűnően érezhető.
1. ábra - Fraktál tömörített képek összehasonlítása Irodalom BARNSLEY, M. F. - HURD, P. L. (1993): Fractal image compression, AK Peters, Ltd., Wellesley. BERKE, J. - HEGEDŰS, GY. CS. - KELEMEN, D. - SZABÓ, J. (1996): Digitális képfeldolgozás és alkalmazásai. Keszthelyi Akadémia Alapítvány, Keszthely. ENCARNACAO, J.L. PEITGEN, H.-O. SAKAS, G. ENGLERT, G. editors (1992): Fractal Geometry and Computer Graphics, Springer-Verlag, Berlin Heidelberg. PEITGEN, H.-O. SAUPE, D. editors (1988): The Science of Fractal Images, Springer-Verlag, Berlin Heidelberg.