NEURONHÁLÓS HANGTÖMÖRÍTÉS. Áfra Attila Tamás

Hasonló dokumentumok
A digitális földfelszíni mûsorszórás forráskódolási és csatornakódolási eljárásai

Távközlő hálózatok és szolgáltatások Távközlő rendszerek áttekintése

16. Tétel. Hangkártya szabványok. Hangállományok tömörítése, szabványok, kódolási módszerek Az MPEG Audio. Egyéb állományformátumok (PCM, WMA, OGG).

Kiegészítés a Párbeszédes Informatikai Rendszerek tantárgyhoz

Mintavételezés: Kvantálás:

Kétcsatornás tömörített és tömörítetlen digitális hangjelek minőségi vizsgálata

Digitális hangtechnika. Segédlet a Kommunikáció-akusztika tanulásához

A REJTETT GAZDASÁG KITERJEDÉSE 1997-BEN*

Az INTEL D-2920 analóg mikroprocesszor alkalmazása

ELŐADÁS VÁZLATOK. Multimédia eszközök és szoftver II. Vezetőtanár: Csánky Lajos Dr. Nádasi András

1. Ismertesse az átviteltechnikai mérőadók szolgáltatásait!

prímfaktoriz mfaktorizáció szló BME Villamosmérn és s Informatikai Kar

Az 5-2. ábra két folyamatos jel (A és B) azonos gyakoriságú mintavételezését mutatja ábra

XIII. Bolyai Konferencia Bodnár József Eötvös József Collegium, ELTE TTK, III. matematikus. A véletlen nyomában

10. fejezet Az adatkapcsolati réteg

2. MODUL Gazdasági és pénzügyi ismeretek Elméleti rész

Csıke Krisztina * KOMPETENS KÜLKERES? AVAGY MENNYIRE FELEL MEG AZ OKTATÁS A MUNKAERİPIAC MEGVÁLTOZOTT IGÉNYEINEK

11. Orthogonal Frequency Division Multiplexing ( OFDM)

Mérési útmutató. Széchenyi István Egyetem Távközlési Tanszék. QPSK moduláció jellemzőinek vizsgálata

Kísérleti hangrendszer tervezése házimozihoz

3.5. Videotömörítési algoritmusok

1: Idõ(tartam), frekvencia (gyakoriság) mérés

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

AKUSZTIKAI ALAPOK. HANG. ELEKTROAKUSZ- TIKAI ÁTALAKITÓK.

Az élet szép, környezetünk tele van fákkal, virágokkal, repdeső madarakkal, vidáman futkározó állatokkal.

HÍRADÁSTECHNIKA SZÖVETKEZET


EÖTVÖS LORÁND TUDOMÁNYEGYETEM BÖLCSÉSZETTUDOMÁNYI KAR

Iránymérés adaptív antennarendszerrel

ELEKTRONIKUS KOMMUNIKÁCIÓS CSATORNÁK HASZNÁLATA KISKUNMAJSÁN

SZERVIZELÉSI ÚTMUTATÓ

A kiptográfia alapjai. Történet és alapfogalmak

A csõdelõrejelzés és a nem fizetési valószínûség számításának módszertani kérdéseirõl

100% BIO Natur/Bio kozmetikumok és testápolás

XXI. Országos Ajtonyi István Irányítástechnikai Programozó Verseny

IFJÚSÁG-NEVELÉS. Nevelés, gondolkodás, matematika

Edzéstervezési segédlet Tarján Tamás Alapozás

Hangkártya programozása

Bevezető. Analóg rádióvevők általános felépítése

DIGITÁLIS KÖZPONT SZIMULÁCIÓJA

Mesterséges intelligencia, 7. előadás október 13. Készítette: Masa Tibor (KPM V.)

A KÖRNYEZETI INNOVÁCIÓK MOZGATÓRUGÓI A HAZAI FELDOLGOZÓIPARBAN EGY VÁLLALATI FELMÉRÉS TANULSÁGAI

Mintapéldák és gyakorló feladatok

Budapest a kulturális turizmus szemszögéből A Budapesti Kulturális Munkacsoport tanulmánya. Szerzők: Nyúl Erika és Ördög Ágnes 1

2. MÉRÉSELMÉLETI ISMERETEK

Adatstruktúrák, algoritmusok, objektumok

Az Ön kézikönyve OPEL CD30 MP3

PARAMÉTERES GÖRBÉK ALKALMAZÁSA VALÓSIDE- JŰ DIGITÁLIS HANGFELDOLGOZÁS SORÁN

INFORMATIKA. 6 évfolyamos osztály

Mérési útmutató. Széchenyi István Egyetem Távközlési Tanszék. SDR rendszer vizsgálata. Labor gyakorlat 1 (NGB_TA009_1) laboratóriumi gyakorlathoz

Használati utasítás MCC-10

Mérési útmutató. Széchenyi István Egyetem Távközlési Tanszék. Impulzus szélesség moduláció (PWM) jellemzőinek vizsgálata

2,4GHz Vezeték nélküli csatlakozófejes AV jeltovábbító Használati útmutató (Használatba helyezés előtt kérjük olvassa el)

ELEKTRONIKUS KOMMUNIKÁCIÓS CSATORNÁK HASZNÁLATA MEZİCSÁTON

Digitális matematika taneszközök a. hatékonyabb tanulásszervezés szolgálatában. Szerző: Huszka Jenő

Egyetemi Számítóközpont

DC TÁPEGYSÉG AX-3003L-3 AX-3005L-3. Használati utasítás

MATEMATIKA Kiss Árpád Országos Közoktatási Szolgáltató Intézmény Vizsgafejlesztő Központ

Jelalakvizsgálat oszcilloszkóppal

RÖNKTÉRI ANYAGMOZGATÁS AZ ENERGIAFELHASZNÁLÁS TÜKRÉBEN

választással azaz ha c 0 -t választjuk sebesség-egységnek: c 0 :=1, akkor a Topa-féle sebességkör teljes hossza 4 (sebesség-)egységnyi.

6. AZ EREDMÉNYEK ÉRTELMEZÉSE

JOGSZABÁLY. LI. ÉVFOLYAM, 15. SZÁM Ára: 693 Ft JÚNIUS 5. TARTALOM. 1. (1) A rendelet hatálya fenntartótól függetlenül

Humánpolitika a dolgozó szegények munkahelyein*

5 HOZZÁFÉRÉS-VÉDELEM. A fejezet VIDEOTON fejlesztési dokumentációk felhasználásával készült

Digitális technika VIMIAA01

Dr. Grandpierre Atilla A kozmikus tudat 1. rész Megjelent: IPM Június, old.

A kvarc-oszcillátor nem csak a DRM vételre alkalmas, hanem más kísérletekhez is, pl. skálahitelesítéshez és egy kis AM adóval zeneátvitelre is.

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA

mtatk A kistérségi gyerekesély program és az általános iskolai oktatás teljesítményének összefüggése MTA TK Gyerekesély Műhelytanulmányok 2015/3

A BESZÉDPRODUKCIÓ ÉS BESZÉDPERCEPCIÓ ÖSSZEFÜGGÉSEI: AZ ELHANGZÓ HÍREK FELDOLGOZÁSA

Minőségérték. A modellezés céljának meghat. Rendszer elemzés. Módszer kiválasztása. Modell megfelelőség elemzés. Működés szimuláció

OKTATÁSI, KÉPZÉSI IGÉNYEK MEGHATÁROZÁSÁRA IRÁNYULÓ KÉRDŐÍVES VIZSGÁLATOK MÓDSZERTANA

SZENT ISTVÁN EGYETEM GÖDÖLLŐ. DOKTORI (PhD) ÉRTEKEZÉS - TÉZISFÜZET

Szervizelési útmutató

A PC vagyis a személyi számítógép. XII. rész

Analóg és digitális jelek. Az adattárolás mértékegységei. Bit. Bájt. Nagy mennyiségû adatok mérése

Az adatkezelés eszközei

INTELLIGENS ADATELEMZÉS

KIFEJEZÉSE: A GAMMA KOEFFICIENS. Csapó Benő Szegedi Tudományegyetem, Neveléstudományi Tanszék MTA-SZTE Képességkutató Csoport

CÉLZOTT TERMÉKEK ÉS SZOLGÁLTATÁSOK PI- ACI VIZSGÁLATA

Gyakorló feladatok - 2.

Találatgaranciás Lottóvariációk gy jteménye

Geoinformatika I. (vizsgakérdések)

Informatikai eszközök fizikai alapjai Lovász Béla

beállításokat veszi figyelembe a program. Egy általános mencoder parancssor a következõképpen néz ki:

Új távgépíró üzemmód, a PSK31

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

MÛHELY. A nemek és generációk jellegzetességei az információs technológiák használatában és megítélésében*

AJÁNLÁSA. a központi közigazgatási szervek szoftverfejlesztéseihez kapcsolódó minőségbiztosításra és minőségirányításra vonatkozóan

AJÁNLÓ évfolyam Számtan, algebra... 24

(11) Lajstromszám: E (13) T2 EURÓPAI SZABADALOM SZÖVEGÉNEK FORDÍTÁSA. (51) Int. Cl.: H04N 7/173 ( )

wlsn* Kétirányú vezeték nélküli hálózat A megbízható védelem leggyorsabb módja

E6 laboratóriumi mérés Fizikai Tanszék

7. Szisztolikus rendszerek (Eberhard Zehendner)

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Programozható logikai vezérlõk

MAGYAR NYELV ÉS IRODALOM

Vári Péter-Rábainé Szabó Annamária-Szepesi Ildikó-Szabó Vilmos-Takács Szabolcs KOMPETENCIAMÉRÉS 2004

I 2 C, SPI, I 2 S, USB, PWM, UART, IrDA

Átírás:

NEURONHÁLÓS HANGTÖMÖRÍTÉS Áfra Attila Tamás

Tartalom Bevezetés Prediktív kódolás Neuronhálós prediktív modell Eredmények Források

Bevezetés Digitális hanghullámok Pulzus kód moduláció Hangtömörítés Veszteségmentes hangtömörítés

Digitális hanghullámok Az analóg hanghullámok folytonosak. Digitalizálás során a jelet diszkrét elemekre kell bontani, vagyis mintákat kell venni egyenlő időközönként, ugyanakkor a minták is véges precizitásúak kell legyenek. A legelterjettebb digitalizálási módszer a PCM (Pulse Code Modulation = pulzus kód moduláció). Az ilyen módon digitalizált jelet két paraméterrel lehet jellemezni: bitmélység (a minták pontossága) és mintavételezési frekvencia (felbontás).

Pulzus kód moduláció (4 bit) http://en.wikipedia.org/wiki/pulse_code_modulation

Pulzus kód moduláció Ahhoz, hogy jó minőségő digitális hanghullámot kapjunk, minimum 16 bites mintapontosságra és 44.1kHz-es mintavételezésre van szükség (CD minőség). Általában stereo a hangforrás, ezért egy helyett két mintára van szükség időegységenként. Manapság egyre elterjettebb a 24 bites pontosság, 96-192 khz-es mintavételezés és 6/8 csatorna (pl. DVD-Audio).

Hangtömörítés Miért van szükség hangtömörítésre? 1 órányi 24 bites, 96 khz-es, 6 csatornás hangadat mérete kb. 6 GB! A legelterjetteb CD minőségű hang veszteséges tömörítésére alkalmas hangformátum az MP3. Manapság sokkal nagyobb az adathordozók tárolási kapacitása, mint 13 éve, az MP3 megjelenésekor, ezért nincs már szükség olyan nagy mértékű, veszteséges tömörítésre. A hangminőség javításán van a hangsúly.

Veszteségmentes hangtömörítés Professzionális stúdió minőség eléréséhez elengedhetetlen, hogy a tömörítés veszteségmentes legyen, vagyis a kitömörített adat tökéletesen megegyezzen az eredetivel. A tárolási kapacitással együtt a hangadatok paraméterei is egyre jobban növekednek, ezért fontos, hogy a tömörítés hatékony is legyen. Általános célú tömörítési algoritmusokkal csak nagyon kis mértékben lehet tömöríteni hangot, ezért speciális módszerekre van szükség. Jelen pillanatban a legelterjettebb veszteségmenes hangtömörítési formátum a FLAC.

Prediktív kódolás Modell Frame Reziduális jel Kódolás FLAC

Modell A hangminták nem teljesen függetlenek egymástól. Ezt használja ki a prediktív kódolás. A soron következő mintát általában kicsi hibával meg lehet jósolni az előzők alapján. A hatékonyság és sebesség érdekében mindig csak az előző N mintát, a kontextust, kell figyelembe venni (N a kontextushossz). A jóslást egy olyan függvény végzi el, amelynek N paramétere van és a becsült értéket adja vissza. Ez a függvény képezi a tömörítési modellt.

Modell A modell egyik fontos jellemzője, hogy kevés memóriát igényeljen, így a tömörített fájlban el lehet tárolni anélkül, hogy jelentősen megnövelné a méretet. Ezért elég, ha a modell csak a tömörítendő hanghullám esetében hatékony. Ez csak abban az esetben érhető el, ha alkalmazkodik az illető hangadatokhoz. Tehát a prediktív modell adaptív kell legyen.

Frame A hangfájl könnyebb kezelhetősége és a modell nagyobb hatékonysága érdekében a hanghullámot kisebb blokkokra, ú.n. frame-ekre kell bontani. Minden frame rendelkezhet saját modellel, így a jóslás pontosabb lehet, mivel az illető modell jobban tud alkalmazkodni rövidebb blokkokhoz. A frame méretének meghatározása nem könnyű feladat, mivel a tömörítés kevésbe lesz hatékony, ha a méret túl kicsi vagy túl nagy (ekkor a seek művelet, vagyis tetszőleges pozícióra való ugrás, lassú). Általában egy frame pár ezer mintából áll.

Reziduális jel Mivel a modell nem tökéletes, ezért szinte mindig lesz eltérés az eredeti minta és a jósolt minta között. Ez az eltérés a predikciós hiba. Ahhoz, hogy visszakapjuk az eredeti jelet, elég csak a hibaértékeket eltárolni. A hibaértékek összessége képezi a reziduális jelet, ami az eredeti és a jósolt jel különbsége. A reziduális jelben sokkal nagyobb a redundancia mint az eredetiben, ezért annak hatékony kódolása tömörítéshez vezet.

Reziduális jel Eredeti jel Reziduális jel

Kódolás Mivel a hibaértékek statisztikai eloszlása általában nem egyenletes, vagyis egyes értékek gyakrabban fordulnak elő, mint mások, ezért lehet statisztikai kódolást alkalmazni. Több ilyen kódolási algoritmus is létezik: Huffman, Rice, aritmetikai kódolás, stb. Hang- és képtömörítésnél a Rice (a Huffman egy speciális esete) kódolás a legelterjettebb, amely egyben a leggyorsabb is, viszont csak ebben a doméniumban hatékony, más típusú adatok tömörítésére nem alkalmas.

Kódolás A kódoláson nem lehet jelentősen javítani a jelenlegi módszerekhez képest, mivel az eddig ismert algoritmusokkal már majdnem elérhető az optimális tömörítés. Ezért egy prediktív kódolás alapú tömörítő ereje a modellben rejlik. Az ilyen tömörítés nagyon rugalmas is, mivel egy kódolót össze lehet kapcsolni több, egymástól akár radikálisan különböző, modellel is.

FLAC A FLAC (Free Lossless Audio Codec) egy lineáris prediktív modellt használó tömörítő / fájlformátum. A nagyobb hatékonyság érdekében a kódolás előtt optimizálja a reziduális jelet. Az egyik legnagyobb előnye a sebesség. Léteznek hatékonyabb tömörítők (pl. Monkey s Audio) de azok lassabbak.

Neuronhálós prediktív modell Lineáris prediktív modell Neuronhálós prediktív modell A tömörítés fázisai

Lineáris prediktív modell A leggyakrabban használt modell a lineáris prediktív modell. A lényege az, hogy a jósolt érték az előző N érték lineáris kombinációjával egyenlő. Ahhoz, hogy a jóslás pontos legyen, meg kell találni a megfelelő együtthatókat. Előny: gyors és hatékony az esetek többségében Hátrány: komplex hullámokat nem tud elég jól megjósolni a linearitása miatt

Lineáris prediktív modell Lineáris jóslás: s i s w s w... i 1 1 i 2 2 s i N w N Minden előző N mintához (s) tartozik egy súly (w). Minden frame esetében a minták kódolása előtt ki kell számolni a súlyokat. A modell kódolása során ezt az N darab súlyt kell eltárolni.

Neuronhálós prediktív modell Ahhoz, hogy csökkenteni tudjuk a hibák mértékét, egy nemlineáris modellt kell alkalmaznunk. Ebben az esetben viszont sokkal nehezebb és erőforrásigényesebb kiszámolni a megfelelő együtthatókat. Erre a problémára ad megoldást a neuronháló, ami egy adaptív, nemlineáris függvényapproximációs rendszer. Az egyik legnagyobb hátránya, hogy relatív lassú. Egy ilyen neuronhálónak kell legyen N bemenete és egy kimenete. Több hangcsatorna esetén meg lehet többszörözni ezeknek a számát a nagyobb hatékonyság érdekében.

A tömörítés fázisai Egy frame tömörítése a következő fázisokból áll: a modell létrehozása, vagyis a neuronháló betanítása a modell, vagyis a kapott együtthatók (súlyok), kódolása a reziduális jel kiszámolása és kódolása Kitömörítés: a modell dekódolása a reziduális jel dekódolása az eredeti jel kiszámolása

Eredmények Implementáció A hibaértékek statisztikai eloszlása A tömörítés mértéke N függvényében......és a rejtett neuronok száma függvényében Tömörítők összehasonlítása Következtetések

Implementáció Az algoritmus C++ nyelvben és a FANN neuronháló könyvtár felhasználásával lett implementálva. Az alkalmazott neuronháló-tanítási algoritmus: RPROP A program kódolás helyett kiszámolja az ideális tömörített méretet, ami aritmetikai kódolással majdnem elérhető. A tesztadatot egy 65536 mintából álló 16 bites pontosságú hangfájl képezte (tehát a fájl tömörítetlen mérete 128 KB).

Előfordulási szám A hibaértékek statisztikai eloszlása 350 300 250 200 150 100 50 0-600 -400-200 0 200 400 600 Hiba

N (kontextushossz) A tömörítés mértéke N függvényében... 16 61,47% 10 61,75% 9 61,21% 8 7 60,49% 60,52% 6 4 61,35% 61,53% 59,50% 60,00% 60,50% 61,00% 61,50% 62,00% Tömörítési arány (tömörített / eredeti méret)

Rejtett neuronok száma...és a rejtett neuronok száma függvényében (N = 8) 20 18 17 16 15 14 13 12 8 4 60,40% 60,41% 60,41% 60,42% 60,45% 60,52% 60,51% 60,50% 60,49% 60,50% 60,30% 60,35% 60,40% 60,45% 60,50% 60,55% Tömörítési arány (tömörített / eredeti méret)

Tömörítők összehasonlítása FLAC 52,10% ZIP 86% Neuron 60,40% 0,00% 20,00% 40,00% 60,00% 80,00% 100,00% Tömörítési arány (tömörített / eredeti méret)

Következtetések A tömörítés abban az esetben a legjobb, ha N 7 vagy 8, egyetlen rejtett réteg van és a benne levő neuronok száma 14 és 17 között van. Azért nem éri el a FLAC teljesítményét, mert abban az esetben a kódolás további optimizációs algoritmusokat is tartalmaz. Ezeket a bemutatott módszerbe is be lehet építeni.

Források http://flac.sourceforge.net http://flac.sourceforge.net/documentation_format_overview.html http://flac.sourceforge.net/format.html http://en.wikipedia.org/wiki/pulse_code_modul ation