Kétcsatornás tömörített és tömörítetlen digitális hangjelek minőségi vizsgálata



Hasonló dokumentumok
Digitális hangtechnika. Segédlet a Kommunikáció-akusztika tanulásához

Mintavételezés: Kvantálás:

16. Tétel. Hangkártya szabványok. Hangállományok tömörítése, szabványok, kódolási módszerek Az MPEG Audio. Egyéb állományformátumok (PCM, WMA, OGG).

AKUSZTIKAI ALAPOK. HANG. ELEKTROAKUSZ- TIKAI ÁTALAKITÓK.

HÍRADÁSTECHNIKA SZÖVETKEZET

Távközlő hálózatok és szolgáltatások Távközlő rendszerek áttekintése

NEURONHÁLÓS HANGTÖMÖRÍTÉS. Áfra Attila Tamás

ELŐADÁS VÁZLATOK. Multimédia eszközök és szoftver II. Vezetőtanár: Csánky Lajos Dr. Nádasi András

Az INTEL D-2920 analóg mikroprocesszor alkalmazása

A digitális földfelszíni mûsorszórás forráskódolási és csatornakódolási eljárásai

A stabil üzemű berendezések tápfeszültségét a hálózati feszültségből a hálózati tápegység állítja elő (1.ábra).

Új távgépíró üzemmód, a PSK31

A DRF 13/03-06 típusú digitális mikrohullámú rádiórelé rendszer

1. Ismertesse az átviteltechnikai mérőadók szolgáltatásait!

Digitális QAM-jelek tulajdonságai és méréstechnikája

Tanulmányozza az 5. pontnál ismertetett MATLAB-modell felépítést és működését a leírás alapján.

Kiegészítés a Párbeszédes Informatikai Rendszerek tantárgyhoz

3. számú mérés Szélessávú transzformátor vizsgálata

Hangtechnikus Hangtechnikus Hangmester Hangtechnikus

Szójegyzék/műszaki lexikon

4. mérés Jelek és jelvezetékek vizsgálata

Használati útmutató. 1.0 verzió október

Bevezető. Analóg rádióvevők általános felépítése

Jelalakvizsgálat oszcilloszkóppal

11. Analóg/digitális (ADC) és Digital/analóg (DAC) átalakítók

FONTOS BIZTONSÁGI UTASÍTÁSOK


Láncbakapcsolt PCM csatornák átviteli minőségromlásának hatása a beszédsávi adatátvitelre

I 2 C, SPI, I 2 S, USB, PWM, UART, IrDA

4. témakör. Amplitúdó moduláció AM modulátorok, demodulátorok

Mérési útmutató. Széchenyi István Egyetem Távközlési Tanszék. QPSK moduláció jellemzőinek vizsgálata

Hangkártya programozása

Irányítástechnika. II. rész. Dr. Turóczi Antal

Mérési útmutató. Széchenyi István Egyetem Távközlési Tanszék. SDR rendszer vizsgálata. Labor gyakorlat 1 (NGB_TA009_1) laboratóriumi gyakorlathoz

Az 5-2. ábra két folyamatos jel (A és B) azonos gyakoriságú mintavételezését mutatja ábra

11. Orthogonal Frequency Division Multiplexing ( OFDM)

FIR és IIR szűrők tervezése digitális jelfeldolgozás területén

Oszcilloszkópos mérések II. laboratóriumi gyakorlat

III/1. Kisfeszültségű vezetékméretezés általános szempontjai (feszültségesés, teljesítményveszteség fogalma, méretezésben szokásos értékei.

Következõ: Lineáris rendszerek jellemzõi és vizsgálatuk. Jelfeldolgozás. Lineáris rendszerek jellemzõi és vizsgálatuk

A mikroszámítógép felépítése.

Az elektroncsövek, alap, erősítő kapcsolása. - A földelt katódú erősítő. Bozó Balázs

Jeltárolás. Monitorozás

1. Bevezetés. Átviteli út

A kvarc-oszcillátor nem csak a DRM vételre alkalmas, hanem más kísérletekhez is, pl. skálahitelesítéshez és egy kis AM adóval zeneátvitelre is.

5 Egyéb alkalmazások. 5.1 Akkumulátorok töltése és kivizsgálása Akkumulátor típusok

Az oszcillátor olyan áramkör, amely periodikus (az analóg elektronikában általában szinuszos) jelet állít elő.

> 2. iíc 3. Hibridintegrált aktív transzformátorok és zajviszonyaik

Colin Hargis Elektromágneses összeférhetõség - útmutató erõsáramú mérnökök részére

Mutatós műszerek. Lágyvasas műszer. Lapos tekercsű műszerek. Kerek tekercsű műszerek

Hálózatok. Alapismeretek. A kommunikáció alapjai (általános távközlés-technikai fogalmak)

MV4 megfigyelővevő. Czigány Sándor, valószínűleg jóval több IC-ből fog állni, mint modern társai, és gyengébbek

Beszéd és hallásdiagnosztika (BMEVITMM203) Mérési jegyzőkönyv. Hallásküszöb mérés. Készítette: Jánosa Dávid Péter. FDSA7Y október 25.

HITELESÍTÉSI ELŐ ÍRÁS HIDEGVÍZMÉRŐ K IMPULZUSADÓS VÍZMÉRŐ K HE 6/2-2004

HITELESÍTÉSI ELŐÍRÁS HE

Digitális adatátvitel analóg csatornán

Elektromágneses hullámok, a fény

6. AZ EREDMÉNYEK ÉRTELMEZÉSE

A G320 SERVOMOTOR MEGHAJTÓ ÜZEMBE HELYEZÉSE (2002. március 29.)

EGÉSZSÉGÜGYI DÖNTÉS ELŐKÉSZÍTŐ

Interrupt. ile ile 1 / 81

Országos kompetenciamérés. Országos jelentés

Digitális technika VIMIAA01

1. Adja meg az áram egységének mértékrendszerünkben (m, kg, s, A) érvényes definícióját!

DT1100 xx xx. Galvanikus leválasztó / tápegység. Kezelési útmutató

MISKOLC MJV ENERGETIKAI KONCEPCIÓJA

A közlekedés társadalmi költségei és azok általános és közlekedési módtól függő hazai sajátosságai

S7021 ADATGYŰJTŐ. 2-csatornás adatgyűjtő számláló és bináris bemenettel. Kezelési leírás

Kísérleti hangrendszer tervezése házimozihoz

18, A zaj fogalma, hullámegyenletek, szintek, műveletek szintekkel,hangszin zaj hatása az emberi fülre..

2.5 Soros adatkommunikációs rendszerek CAN (Ötödik rész)

Jel- és adatfeldolgozás a sportinformatikában

hírek - Bemutatkoznak fejlesztőink - Nyári szabadságunk időpontja A CableWorld Kft. technikai magazinja június

HPR sorozatú aktív hangsugárzók Használati útmutató

Billenő áramkörök Jelterjedés hatása az átvitt jelre

Képfeldolgozási módszerek a geoinformatikában

Mérési útmutató Nagyfeszültségű kisülések és átütési szilárdság vizsgálata Az Elektrotechnika tárgy laboratóriumi gyakorlatok 1. sz.

TANTÁL KFT. NLPC Gold nyelvoktató berendezés. kezelési utasítás

i TE a bemenetére kapcsolt jelforrást és egyéb fogyasztókat (F) táplál. Az egyes eszközök

Alacsonypályás műholdvétel megvalósítása szoftverrádiós eszközökkel. Dudás Levente

3 Tápegységek. 3.1 Lineáris tápegységek Felépítés

45. sz. laboratótiumi gyakorlat Elektronikus motorvédelem vizsgálata

Környezetvédelmi mérések fotoakusztikus FTIR műszerrel

Billenőkörök. Mindezeket összefoglalva a bistabil multivibrátor az alábbi igazságtáblázattal jellemezhető: nem megen

(1) Sztereóerõsítõ. Kezelési útmutató XM-ZR Sony Corporation Printed in Czech Republic (EU)

Elektromos zajcsökkentés vezetékelés és földelés szerepe. BME Fizika Tanszák Nanoszeminárium előadás Balogh Zoltán

RC és RLC áramkörök vizsgálata

Nagy adattömbökkel végzett FORRÓ TI BOR tudományos számítások lehetőségei. kisszámítógépes rendszerekben. Kutató Intézet

FILCOM. Visszamosatást vezérlő egység

Kódolás, hibajavítás. Tervezte és készítette Géczy LászlL. szló 2002

Passzív optikai hálózat csillapításának mérése optikai adó-vevővel Összeállította: Békefi Ádám hallgató Mészáros István tanszéki mérnök

hét Sorrendi hálózatok tervezési lépései: szinkron aszinkron sorrendi hálózatok esetén

Az analóg médiák: fénykép(analóg fényképezővel készített), analóg hangfelvétel, analóg videofelvétel.

MÁSODIK TÍPUSÚ TALÁLKOZÁS A MÁTRÁBAN CLOSE ENCOUNTERS OF THE SECOND KIND IN MÁTRA HILL

AJÁNLÁSA. a központi közigazgatási szervek szoftverfejlesztéseihez kapcsolódó minőségbiztosításra és minőségirányításra vonatkozóan

= szinkronozó nyomatékkal egyenlő.

MŰSORSZÓRÓ SZOLGÁLAT MŰSZAKI IRÁNYELVEI

Kvantumkriptográfia III.

HORDOZHATÓ LCD-KÉPERNYŐS DVD-LEJÁTSZÓ Modell: MES-202 Rend. sz.:

Értékelés Összesen: 100 pont 100% = 100 pont A VIZSGAFELADAT MEGOLDÁSÁRA JAVASOLT %-OS EREDMÉNY: EBBEN A VIZSGARÉSZBEN A VIZSGAFELADAT ARÁNYA 15%.

Átírás:

SZÉCHENYI ISTVÁN EGYETEM MŰSZAKI TUDOMÁNYI KAR INFORMATIKAI ÉS VILLAMOSMÉRNÖKI INTÉZET TÁVKÖZLÉSI TANSZÉK digitális hangjelek minőségi vizsgálata VILLAMOSMÉRNÖKI SZAK Rádióhírközlés szakirány 2005

Tartalomjegyzék Bevezetés...7 1. A digitális hangtechnika alapjai...8 1.1. Digitális hangjelek...8 1.2. Az analóg és a digitális hangjel feldolgozás...9 1.2.1. Az analóg jelfeldolgozás...10 1.2.2. Az átviteli csatorna jellemzői...11 1.2.2.1. Jel-zaj viszony...11 1.2.2.2. Dinamika...11 1.2.2.3. Sávszélesség...11 1.2.2.4. Linearitás...12 1.2.2.5. Harmónikus torzítás...12 1.2.3. Az analóg átvitel jellemzői...12 1.2.4. A digitális átvitel és jelfeldolgozás jellemzői...13 1.2.5. Digitális hangjel feldolgozás előnyei az analóggal szemben...14 1.3. A digitalizálás folyamata...15 1.3.1. Bevezetés...15 1.3.2. Bemeneti aluláteresztő szűrő...18 1.3.3. Mintavevő- és tartó áramkör...19 1.3.4. A/D átalakítás (kvantálás)...21 1.3.5. Kódolás...24 1.3.6. Hibafelismerés, hibajavítás...25 1.3.7. Hibaelfedés...26 1.3.8. Csatornakódolás, csatornamoduláció...27 1.3.9. A PCM jel visszaalakítása analóg hangfrekvenciás jellé...30 2. Pszihoakusztikai áttekintés...32 2.1. Fletcher-Munson görbék...32 2.2. Maszkolási effektus...34 2.3. Kritikus sávok...35 3. Tömörítési, kódolási eljárások...36 3.1. Bevezetés...36 3.2. A hangjelek tömörítésének alapjai...36 3.3. Veszteségmentes tömörítés...37 3.3.1. Lineáris PCM...37 3.3.1.1. CD...38 3.3.1.2. DVD-Audio...38 3.4. Veszteséges tömörítés...39 3.4.1. AC-3 (Audio Compression 3)...40 3.4.2. ATRAC ( Adaptive Transform Acoustic Coding )...40 3.4.3. ATRAC kódolás és dekódolás...41 3.4.4. MPEG/audio tömörítés...43 3.4.4.1. Az MPEG/audio tömörítési eljárás alapjai...43-5 -

3.4.4.2. MPEG/audio kódolás és dekódolás...44 3.4.4.3. Layer I...45 3.4.4.4. Layer II...46 3.4.4.5. Layer III...46 3.4.5. Sztereo többletkódolás (Stereo Redundancy Coding)...48 4. A szakirodalomból levont tapasztalatok...49 5. A hangminták előállításának folyamata...50 5.1. AC3...50 5.2. CD...50 5.3. MP3...51 5.4. ATRAC...51 6. Hangminták spektrumának összehasonlítása a Sound Forge 8.0 program segítségével...53 6.1. CD...54 6.2. AC3...55 6.3. ATRAC LP2...56 6.4. MP3 256kbit...57 6.5. MP3 128kbit...58 7. Kódolási eljárások összevetése egy mintacsoport ún. A/B tesztjei alapján (szubjektív vizsgálat)...59 7.1. Hangfelvételek esztétikai megítélése...59 7.2. A hangminták hallgatási sorrendjének meghatározása...61 7.3. A vizsgálat menete...63 7.4. Eredmények...64 7.4.1. Hangszínezet...67 7.4.2. Térérzet...68 7.4.3. Hangtisztaság...69 7.4.4. Sztereóhatás...70 7.4.5. Egyensúly...71 7.4.6. Zajmentesség...72 7.4.7. Dinamika...73 7.4.8. Összbenyomás...74 7.5. A vizsgálat hitelességének alátámasztása...75 8. Összefoglalás...77 9. Irodalomjegyzék...81 10. Mellékletek...82 10.1. Az ATRAC által használt kritikus frekvenciasávok...82 10.2. Az MPEG algoritmus által használt kritikus sávok...83 10.3. Hangfelvételek esztétikai megítélése (értékelő lap)...84 10.4. A vizsgált hangminták értékelése (adattábla)...85-6 -

Bevezetés Világunkban a digitális technika fejlődése soha nem látott méreteket öltött az elmúlt néhány évtized során. Ennek köszönhetően folyamatosan jelennek meg az élet minden területén a különböző analóg készülékek, berendezések leváltására alkalmas, egyre modernebb digitális változataik. Ez alól a szórakoztató elektronika sem kivétel, hiszen szinte nap, mint nap hallhatunk valami újdonságról ezen a területen is. A különböző tömörítési eljárásoknak megfelelően egyre csökken az az adatmennyiség, amellyel az eredetihez hasonló hangélmény visszaadható. Természetesen az adatmennyiség csökkenésért cserébe be kell érnünk egy lecsökkent, vagy megváltozott hangzásvilággal. A változás mértéke és minősége minden esetben függ az alkalmazott digitalizálási és kódolási eljárástól. A számunkra legoptimálisabb megoldás kiválasztásához tisztában kell lennünk azzal, hogy melyik eljárás milyen hatással van egy-egy hanganyag jellemző paramétereire. Szakdolgozatom céljául azt tűztem ki, hogy egy előre kiválasztott hangfelvétel részletet különböző kódolási, illetve tömörítési eljárások alkalmazása után, objektív és szubjektív szempontok alapján összehasonlítom. A feladat megoldásához segítséget kértem a Liszt Ferenc Zeneművészeti Egyetem első évfolyamos hangszeres hallgatóitól, akik természetszerűleg rengeteg élő hangzásbeli tapasztalattal rendelkeznek, és könnyedén elemeznek hanganyagot több szempont alapján. - 7 -

1. A digitális hangtechnika alapjai 1.1. Digitális hangjelek A híradástechnikában az átviendő, vagy rögzítendő információ megjelenési formája a jel. Ezek elektromágneses jelek, mert csak ezeket lehet elektronikus úton átvinni, illetve feldolgozni. Matematikai osztályozás alapján léteznek analóg, lépcsős (amplitúdóban diszkrét), mintavételezett (időtartományban diszkrét) és digitális jelek. Jel Értelmezési tartomány Értékkészlet analóg folytonos folytonos lépcsős folytonos diszkrét mintavételezett diszkrét folytonos digitális diszkrét diszkrét 1.1. táblázat - 8 -

1.2. Az analóg és a digitális hangjel feldolgozás A digitális hangjelek eredeti forrása mindig analóg jel, melyet a digitalizálás folyamata során alakítunk digitális jellé. Az analóg berendezések bemenetére kerülő jelet a berendezésen belül általában valamilyen elektromos, vagy mágneses mennyiség képviseli. Ez a mennyiség erősítőkben feszültség vagy áram. A magnetofon felvevőjének résében mágneses térerősség, a szalagon pedig mágnesezettség lehet. Az adott mennyiség pillanatértéke tetszőleges értéket vehet fel. Természetesen a rendszer szabta határokon belül, például a tápfeszültség, vagy a magnetofonszalag telítődési szintje is határérték. Tehát mivel az analóg rendszer jeleihez minden időpillanatban tartozik valamilyen véges nagyságú amplitúdó, az analóg jeleket időben és amplitúdóban folytonosnak mondjuk (1.1. táblázat). A digitális jel az analóg jelből meghatározott időközönként vett mintákból áll, melyeket kettes számrendszerbeli - bináris - számsorozatokká alakítva továbbítjuk. Ettől kezdve az egymást követő számokból képzett számsorozatok képviselik a hanginformációt. A készülékek ezeket rögzítik, továbbítják, illetve matematikai műveleteket végeznek rajtuk Az 1.1. ábrán, egy analóg hanghullám számsorozattal történő helyettesítésére,. a minták értékének kettes számrendszerbe történő konvertálására, és az egymást követő minták adatfolyammá rendezésére láthatunk példát.[1] 1.1.ábra - 9 -

1.2.1. Az analóg jelfeldolgozás Az analóg technikában a hangrezgést a mikrofon váltakozó feszültséggé alakítja. A mikrofon kimeneti feszültsége minden időpillanatban követi a hangnyomás változását. Ha nő a pillanatnyi hangnyomás, nő a kimeneti feszültség, és fordítva ugyanez érvényes. Sőt, ha változik a hangrezgés frekvenciája, a kimeneti feszültség frekvenciája is változik. 1.2.ábra Az erősítő a bemenetére csatlakoztatott mikrofon jelét felerősíti, és a kimenetére csatlakoztatott hangszóróra továbbítja. A vázolt példában a mikrofon a jel forrása, az erősítő az átviteli csatorna, a hangszóró pedig a fogyasztó. Mindegy, hogy mennyire bonyolult úton jut el a jel a forrástól a fogyasztóig, ez a felbontás mindig elvégezhető. Ebből a szempontból lényegtelen, hogy analóg, vagy digitális jelfeldolgozásról van szó. Viszont fontos tudni, hogy az átviteli csatornának vannak olyan tulajdonságai, amelyek befolyásolják az átvitt jelet. Ezeken kívül felléphetnek még különböző külső zavarójelek is. - 10 -

1.2.2. Az átviteli csatorna jellemzői 1.2.2.1. Jel-zaj viszony Az átvitel során a csatornán mindig fellép valamilyen zavaró hatás is, ami például hangszóróból áradó zavaró jelként (zajként) érzékelhető. A jel-zaj viszony a hasznos és a zavaró jel aránya db-ben (1.3. ábra). A jel-zaj viszonyt lineáris frekvenciamenet és lezárt be- és kimenet mellett mérik. A zajt az átviteli csatornát felépítő aktív és passzív alkatrészek hozzák létre. 1.2.2.2. Dinamika A kifogástalanul reprodukálható kimenő jel maximális értékének és a még zajmentesnek érzékelt kimenő jel minimális értékének aránya db-ben. A dinamikát felülről a kivezérelhetőség, alulról a zaj korlátozza. Ha a bemenő jel pillanatnyi értéke meghaladja a megengedett legnagyobb értéket, a torzítás ugrásszerűen megnő, mivel a jel a rendszer bitszámának megfelelő kódokkal már nem írható le. Ezt nevezzük túlvezérlési torzításnak. Ezek a torzítások általában igen rövid (mintavételnyi) idejűek, amit fülünk tehetetlensége miatt nem érzékelünk. 1.2.2.3. Sávszélesség Az átviteli csatorna sávszélességét tekintve sávszűrő jellegű. A frekvencia növekedésével a hasznos jel amplitúdója csökken, ezen kívül egyenfeszültségű, illetve kisfrekvenciás összetevők átvitelére általában nincs lehetőség. A sávszélesség az a frekvenciatartomány, amelyen belül a kimenő jel értéke a vonatkoztatási frekvencián mért értékhez képest maximum 3 db-lel tér el (1.4. ábra). 1.4.ábra - 11 -

1.2.2.4. Linearitás Ideális átviteli csatorna esetén a bemeneti jel a kimeneti jellel lineáris viszonyban van. De egy megvalósított csatorna nem sikerül teljesen lineárisra, egy adott környezetben működik, mely környezet hatással van rá. Mindez azt eredményezi, hogy a csatornán továbbított jel torzulni fog. Ezen torzulások közös jellemzője az, hogy a csatorna kimenetén megjelenő jel spektrumában olyan összetevők is megjelennek, melyek a bemenő jel spektrumában nem szerepeltek. Ezt a jelenséget nemlineáris torzításnak nevezzük (1.5. ábra). A nemlineáris torzításokat általában az aktív elemek görbült jelleggörbéi okozzák. 1.2.2.5. Harmónikus torzítás Az átviteli csatorna kimenetén általában a bemeneti jel bizonyos frekvencia összetevőinek felharmónikusai is megjelennek. A torzítás mértékét a Klirrfaktor fejezi ki, amely a felharmónikusok effektív értékének és a felharmónikusokkal terhelt kimeneti jel értékének hányadosa %- ban kifejezve. 1.5. ábra 1.2.3. Az analóg átvitel jellemzői A jel tartalmát (a jelentést) nem veszi figyelembe. Az átvitel során a jel csillapodik, ezért erősítőket kell alkalmazni. Az erősítők nem képesek a hasznos jel és a zaj szétválasztására, így a zajt is erősítik, ami a J/Z viszony folyamatos romlását idézi elő. Minél több erősítő fokozaton halad keresztül a jel, annál torzultabb lesz. Analóg rendszerben azonban a torzulás nem biztos, hogy információ veszteséget okoz. - 12 -

1.2.4. A digitális átvitel és jelfeldolgozás jellemzői A zavarójelek a digitális jel durva H/L struktúráját nem tudják olyan könnyen megzavarni. A zavarófeszültséggel terhelt digitális jelből egyszerű határolással visszaállítható az eredeti négyszögjel (1.6. ábra). Így a csatornából származó zaj kiszűrhető, emiatt pedig a J/Z viszony a 90 db-t is meghaladhatja. A fentiek következménye, hogy másolatok készítése esetén a másolat minősége az eredetiével megegyező. 1.6. ábra Hátrányok: A digitális jel érzékeny az adatvesztésre és a hibák javítása nem egyszerű feladat a fogyasztói oldalon. A digitális jelfeldolgozó áramkörök bonyolultak. Az áramkörök túlvezérlése a digitális jel teljes összeomlásához vezet. Fontos, hogy a 90 db-es érték a rendszerdinamika. Nem tévesztendő össze a hangfrekvenciás jel dinamika értékével, vagyis a leghangosabb és leghalkabb hangok közötti különbséggel. - 13 -

1.2.5. Digitális hangjel feldolgozás előnyei az analóggal szemben A fentiekben összefoglaltam az analóg és a digitális hangtechnika fontosabb jellemzőit. Az előnyök és hátrányok tükrében egyértelműen leszögezhetjük, hogy a digitális hangtechnika korlátai az analóg eszközök korlátainál lényegesen távolabb vannak. A meggyőződést fokozandó a hangminőség és a hang manipulálhatósága szempontjából tömören három pontban foglalhatók össze a digitális rendszerek előnyei: A reprodukált hang minősége kizárólag az analóg-digitális, digitális-analóg átalakítás minőségétől függ Az analóg hang digitálisba konvertálása olyan lehetőségeket is megnyit, melyek az analóg berendezésekkel aligha valósíthatók meg.(pl. hangmagasság változtatása, sebességtől függetlenül) A felvételek minőségromlás nélkül sokszorosíthatók Gyártástechnológiai szempontból is előnyösebb, hiszen a digitális áramkörök jól integrálható, egyszerű elektronikus kapcsolóáramkörökből épülnek fel, így a tömeggyártás és a miniatürizálás lényegesen egyszerűbb. Ennek köszönhetően a kommersz készülékek ára viszonylag alacsony lehet. Továbbá az üzemeltetés szempontjából is kedvezőbb, hiszen mivel az integrált áramkörök öregedése nem befolyásolja a készülék működését, csökkennek a karbantartási költségek. Ráadásul jó tervezés esetén nagyfokú zavarvédettség és nagy jel-zaj viszony jellemzi. Ismeretes, hogy egy több tagból álló átviteli láncon áthaladó jelhez az analóg rendszer minden tagja hozzáteszi saját torzítását, zaját. Mivel mind a hasznos jel, mind a zavar időben és amplitúdóban folytonos analóg jel, szétválasztásuk csak nehezen és drágán valósítható meg. A digitális rendszerekben a hasznos jelet, vagyis az információt kódolt formában tároljuk, továbbítjuk, miáltal a zavarjelek többségétől könnyedén meg lehet különböztetni. - 14 -

1.3. A digitalizálás folyamata 1.3.1. Bevezetés Az időben és értékben folytonos analóg jelek diszkrét minták sorozatává történő átalakításának elméleti alapjai már régóta ismeretesek. Több tudós, így H. Nyquist és C. E. Shannon is foglalkozott ezzel a problémával. C. E. Shannon matematikus 1948-as munkájában kifejti, hogy a mintavétellel nyert diszkrét mintákból álló impulzussorozat információtartalma megegyezik az eredeti, időben folytonos analóg jel információtartalmával. Ez a megállapítás viszont csak bizonyos feltételek érvényesülése esetén igaz. Eme feltételeket a Shannon-féle mintavételi tétel tartalmazza: a mintavételezett jelből akkor állítható vissza információ veszteség nélkül az eredeti analóg jel, ha a mintavételi frekvencia (f m ) legalább kétszerese az analóg jelben előforduló legmagasabb frekvenciának (f max ). A mintavételi frekvencia a digitális hangtechnika legfontosabb paramétere. Eme frekvencia értéke határozza meg az átvinni kívánt hangfrekvenciás jel frekvenciatartományát és az átviteli csatorna sávszélességét. A digitális hangfeldolgozó rendszerben egységes mintavételi frekvenciára van szükség, a digitális interfészek pedig ezen túlmenően még szabványos értékűt igényelnek. A mintavételi frekvencia értékének tehát állandónak kell lennie. Képletbe foglalva a fentebb összefoglaltakat: f m > 2f max Az analóg jelben előforduló legmagasabb (f max ) frekvenciát Nyquist - frekvenciának is nevezik. - 15 -

A 1.7. ábrán látható a mintavevő és - tartó áramkör kimenetén megjelenő kimeneti feszültség idő- és frekvenciatartománybeli képe. 1.7.ábra Látható, hogy az eredeti alapsávi spektrum mellett a mintavevő frekvencia és annak felharmónikusai környezetében járulékos oldalsávok is megjelennek. Ha a mintavételi tételt nem tartjuk be, akkor az alapsáv és az f m mellett megjelenő alsó oldalsáv között átlapolódás jön létre (1.8. ábra). Az ebbe a tartományba eső rész eltorzul és többé nem rekonstruálható. 1.8. ábra - 16 -

A hangfrekvenciás jelek digitális feldolgozása a PCM technikán alapul (Pulse Code Modulation). Az analóg jeltől a PCM kódolású digitális jelig a 1.9. ábrán látható úton jutunk, tehát a digitalizálás folyamata a következő: 1.9. ábra - 17 -

1.3.2. Bemeneti aluláteresztő szűrő Feladata a bemenő analóg jel felső frekvenciahatárolása, hogy megfeleljen a mintavételi tételben megfogalmazott követelményeknek. Anti-aliasing szűrőnek is nevezik. Az antialiasing szűrővel szemben támasztott követelmények: Vízszintes átviteli karakterisztika egészen a felső határfrekvenciáig Meredek átmenet az áteresztő tartományból a záró tartományba Az f max frekvencia fölött min. 80 db-es csillapítás Kis harmónikus torzítás Kis tranziens idő Kis fázistorzítás Kis csoportfutási idő Az egész digitális rendszernél kisebb saját zaj Míg a bemeneti aluláteresztő szűrők alkalmazása miatt a hangjel felülről sávhatárolt, addig alacsony frekvenciákon digitális oldalról semmi sem korlátozza a jel spektrumát. Ha a rendszer analóg fokozatai lehetővé teszik, akár az egyenfeszültség is átvihető, de hangjelek esetében erre nincs szükség, sőt kimondottan káros lenne. Viszont az alacsony frekvenciájú spektrum-összetevők átvitele kimondottan növeli a hangfelvétel hűségét. - 18 -

1.3.3. Mintavevő- és tartó áramkör A sávhatárolt bemenő jel mintavételezését végzi. Elvi kapcsolási rajza a 1.10. ábrán látható. Az analóg kapcsolót a mintavevő jel vezérli. A kapcsoló zárt állapotában a kondenzátor a bemeneti feszültség pillanatnyi értékére töltődik fel, majd a kapcsoló nyit és a kondenzátorban a kapcsoló következő zárásáig tárolódik a feszültség minta. 1.10.ábra Azt az időt amikor a kapcsoló zárt állapotban van nevezik mintavételi időnek, amikor pedig nyitva van az a tartási idő. A tartási idő alatt a kondenzátorban tárolt feszültség értéket a kvantáló áramkörnek fel kell dolgoznia. Ezalatt a kondenzátorban tárolt feszültség nem változhat meg. Természetesen vannak veszteségek. A kondenzátor nem képes egyik pillanatról a másikra feltöltődni a kondenzátor feltöltődési idejét nevezik beállási időnek. Miután a kapcsoló nyit a kondenzátor az áramkör szórt ellenállásain keresztül igen lassan kisül. A töltőellenállás - ami a vezetékek és a kapcsoló szórt ellenállásából tevődik össze - és a tároló kondenzátor aluláteresztő szűrőt alkot, ami befolyásolja a frekvenciamenetet. A mintavevő és -tartó áramkör minőségét a beállási idő és a kisülés határozzák meg (1.11. ábra). 1.11. ábra - 19 -

Mintavételi frekvencia konverzió Berendezéseinket csak akkor tudjuk közvetlenül összekapcsolni, ha azonos mintavételi frekvencián működnek. Azonban a mintavételi frekvencia nem minden készüléknél választható meg szabadon. A CD-R író és a Mini Disc például kizárólag 44,1 khz-cel tud rögzíteni, de probléma adódik akkor is, ha különböző mintavételi frekvenciával dolgozó forrásokból származó jeleket szeretnénk digitálisan keverni. A probléma megoldását mindkét esetben a készülékek közé csatlakoztatott mintavételi frekvencia konverter jelenti. Kezdetben csak nagyméretű, drága, szinkron mintavételi frekvencia konverterek léteztek. Ezek egymásután végrehajtott interpoláció és decimálás segítségével módosították a jelfolyam mintavételi frekvenciáját. A napjainkban használt aszinkron konverterek már egyetlen integrált áramkörben elférnek, és az áruk is megfizethetővé vált. Sőt, digitális keverőasztaloknál sok esetben az összes bemeneti csatornába beépítenek egy-egy konvertert. 1.12. ábra Az aszinkron konverter a bemenetére érkező hangminta sorozatból rekonstruálja, hogy a kimeneti hangminták időpillanataiban mekkora lenne az analóg jel amplitúdója, és ennek megfelelő értékű hangmintákat küld a kimenetére. Ez a megoldás lényegesen kevesebb műveletvégzést igényel, mint a szinkron konverterek egymást követő interpolációja és decimálása. - 20 -

1.3.4. A/D átalakítás (kvantálás) A mintavevő és -tartó áramkörrel előállított, időben diszkrét amplitúdóminták még végtelen sok értéket vehetnek fel, tehát végeredményben még analóg jelek. A kvantáló feladata a jel értékkészletének diszkrétté tétele. Azaz a végtelen sok értéket véges sok érték segítségével kell ábrázolnia, ugyanis csak meghatározott számú bináris adatszó áll rendelkezésre attól függően, hogy hány bitre kvantálunk. Általában 16 bites kvantálást alkalmaznak, ami 65536 amplitúdóérték megkülönböztetését jelenti. A kvantálót is a mintavevő jel vezérli. Az A/D átalakító bemenetére vezetett amplitúdóminták bináris adatszavakká átalakítva jelennek meg a kimenetén. A kvantálás lehet lineáris és nemlineáris. Az előbbi esetben a kvantálási lépcsők azonos nagyságúak. A jelben azonban sokkal gyakoribbak a kis amplitúdójú minták és így a kisebb helyértékű bitek sokkal jobban kihasználtak. Emiatt a kvantálási bitek számát csökkentik és a bemeneti jelet egy dinamika kompresszorra vezetik, ami a jel dinamikáját lecsökkenti, így alkalmassá válik a kevesebb bittel történő ábrázolásra. Visszaalakítás során a jelet egy dekompresszoron vezetik keresztül, melynek karakterisztikája pontosan ellentétes a kompresszoréval, így az eredeti dinamika visszaállítható Kialakításukat tekintve megkülönböztethetők integráló rendszerű és szukcesszív approximációs elven működő A/D átalakítók. - 21 -

Az A/D átalakítók hibái: Kvantálási zaj: mivel a kvantáló csak véges számú értéket különböztet meg, a végtelen sok értéket felvehető minta értéke esetleg két kvantálási szint közé esik. Ebben az esetben a kvantáló dönti el, hogy a minta melyik szinthez tartozik, azaz +/-1/2 lépésköznyi hibát visz be a jelbe. Ezt a hibát nevezik kvantálási zajnak. 1.13. ábra Granulációs zaj: ha a kvantálásra kerülő jel amplitúdója olyan kicsi, hogy jellemzéséhez az LSB (Least Significant Bit = legkisebb súlyú bit) is elegendő, akkor a szinuszjel négyszögjellé torzul. A négyszögjel azonban minden frekvencia összetevőt tartalmaz, így tartalmazhat olyan összetevőket is, amelyek miatt aliasing jön létre. Ez a torzítás sokkal erősebben érzékelhető, mint a nemlineáris torzítás. A granulációs torzítás értéke az amplitúdó csökkentésével növekszik. - 22 -

Linearitási hiba: ideális esetben az A/D átalakítók karakterisztikája lineáris, azaz lineárisan növekvő bemeneti feszültség esetén az A/D átalakítóhoz csatlakoztatott D/A átalakító kimenetén egyenletes lépcsőzésű jel jelenik meg. Az egyenletes lépcsőzéstől való eltérés az abszolút nemlinearitás, az ideális karakterisztikától való két mintavételi érték közötti eltérés pedig a differenciális nemlinearitás. Mindkettőt az LSB sokszorosaként, vagy töredékeként adják meg (1.14.ábra). 1.14. ábra 1.15. ábra Monotonitáshiba: a lineárisan növekvő bemenő jel ellenére a D/A átalakító kimenetén a lépcsős jel folytonossága megszakad (1.15. ábra). Nagy torzítást okoz. Ofszethiba: az egyenfeszültségi szint eltolódása. Hatására az A/D átalakító kimenetén is eltolódnak a bináris értékek, illetve lecsökken a kivezérelhetőségi tartomány. Az alkalmazott műveleti erősítők pontos beállításával kiküszöbölhető. Túlvezérlési hiba: az A/D átalakító túlvezérlése esetén a kimenetén vagy a maximális érték jelenik meg, vagy annak komplemense. Ebben az esetben az A/D átalakító teljesen meghamisítja a bemeneti jelet. - 23 -

1.3.5. Kódolás A kódolásra azért van szükség, mert az A/D átalakító kimenetén megjelenő bináris kódszavak csak a minta értékét adják meg, az előjeléről nem tartalmaznak információt. Általában kettes komplemens kódot alkalmaznak: a pozitív számokat normál bináris kóddal ábrázolják (LSB a jobb oldalon áll), a negatív számokat pedig az adott számérték kettes komplemensével. Egy szám kettes komplemense a szám bitenkénti invertálásával és +1 hozzáadásával képezhető. A következő példában 8 különböző amplitúdó értéket különböztetünk meg. Ehhez kettes komplemens kódban négy bitet alkalmaznak, mert az előjelet plusz egy biten - az MSB-n (Most Significant Bit = legnagyobb súlyú bit) ábrázolják. Nézzük példaképpen a 3 és a -3 kettes komplemens kódját: 3 (10) = 0011 (2) -3 (10) = inv0011 (2) + 1 = 1100 (2) + 1 = 1101 (2) Az előjelbit (MSB) pozitív számok esetén 0, negatív számok esetén pedig 1. A kettes komplemens kódolású jel már a PCM jelnek felel meg. Ezt a jelet nevezik forráskódnak, magát a folyamatot pedig forráskódolásnak. A PCM jel az A/D átalakító kimenetén párhuzamos, vagy soros formában jelenik meg. Az egyes bitek között a jelszint a bitek értékétől függően a 0, vagy az 1 szinten marad. Ez az NRZ kódolás (Non Return to Zero). - 24 -

1.3.6. Hibafelismerés, hibajavítás A hibák detektálásának illetve javításának nagy szerepe van a megbízható digitális átvitel kialakításában. A digitális jel az átviteli csatornán ugyanúgy ki van téve a csatornát érő zavaró hatásoknak, mint az analóg jel. A különbség az, hogy amennyiben a digitális jel eltorzul (olyan mértékben, hogy a határolással nem állítható helyre az eredeti négyszögjel), akkor megváltozik az információtartalma. A hiba tulajdonképp egy vagy több bit invertálódását jelenti. A csatornát érő zavarimpulzusok - hosszuktól függően - több kódszót is tönkretehetnek. Ez az ún. burst error. Ahhoz, hogy a hiba javítható legyen először is fel kell ismerni a hiba tényét, helyét és jellegét. Ezután az alkalmazott hibajavítási eljárástól függően újrakérik a hibás részt, vagy ha a hibafelismerő/-javító eljárás olyan, hogy önmagában is elegendő információt szolgáltat a hiba javításához, akkor a rendszer egyszerűen kijavítja a hibát. Az elterjedt hibafelismerő és -javító eljárások: Paritásbit Hosszirányú redundancia ellenőrzés (LRC = Longitudinal Redundancy Check), az egyszerű paritásbites eljárás továbbfejlesztése Ciklikus redundancia ellenőrzés (CRC = Cyclic RC). - 25 -

1.3.7. Hibaelfedés Egyetlen hibajavító eljárás sem képes minden hiba kijavítására. A hibaelfedés pszihoakusztikai jellemzőkre épül. A hibák miatti hiányzó adatokat a hibás kódszava(ka)t megelőző és követő kódszavak magasabb rendű interpolálásával nyerik. Az így kapott kódszóval a hibás részt elfedik (maszkolás). Ha egymás után több kódszó is megsérül, akkor a hibaelfedés nem működik helyesen. A hatékonyság a kódszavak tér- és időbeli összekeverésével növelhető (interleaving). Így a kódszavak nem a keletkezésük sorrendjében továbbítódnak. A helyes sorrendet a dekódolás során vissza kell állítani. Az eljárás következtében nagyobb lesz a valószínűsége, hogy egy hibás kódszót hibátlan kódszavak fognak közre. Az interleaving eljárás egyik speciális formája a cross interleaving (1.16. ábra). 1.16. ábra - 26 -

1.3.8. Csatornakódolás, csatornamoduláció A forráskódolású jelet az átviteli csatorna jellemzőihez a csatornakódolás során illesztik. A csatornakódolásra két okból van szükség: egyrészt a csatornán felléphetnek zavarok, ami miatt meghibásodik az átvitt digitális jel. A csatornakódolás segítségével elősegíthető a hibák egyszerűbb javítása. A második ok a bitek megfelelő időben történő kiolvasása. Ha nem szinkron átvitelről van szó, akkor a csatornakódolású jelből elő kell tudni állítani az eredeti órajelet is, illetve az átvitt jel nem tartalmazhat egyenfeszültségű, vagy kisfrekvenciás összetevőket. Ezek a követelmények a forráskódolású jelbe való járulékos élátmenetek bejuttatásával elégíthetők ki. A csatornakódok jellemzői: Futási hossz (T): két szintváltozás közötti távolság bitekben. Az előre definiált futási hosszal rendelkező kódok az ún. RLL kódok (Run Length Limited). Az RLL kódok a két élváltozás közötti minimális (T min ) és maximális (T max ) futási hosszal jellemezhetők (1.17. ábra). 1.17. ábra - 27 -

Jitter margin (fázishiba - T w ): egy intervallumot (időablakot) jelöl ki. Soros adatjel kiértékelésénél van jelentősége. A jitteres jelet az órajelnek megfelelő ütemben olvassák ki. Ha a jitter egy bizonyos szint fölé emelkedik, akkor a biteket hibásan detektálják (1.18. ábra). Az a tartomány, amin belül a detektálás még biztosan helyesen történik a jitter margin. Egy bit kifogástalan kiértékeléséhez a T min -től függő idő áll rendelkezésre: T w = +/-1/2T min 1.18. ábra DSV (Digital Sum Value): a csatornakód egyenfeszültségű komponensére jellemző összeg. A H szintű biteket +1-el, az L szintűeket -1-el helyettesítve minden bitet összeadnak - ez a DSV. Amennyiben ez 0, akkor a jel nem tartalmaz DC összetevőt. 1.19. ábra - 28 -

1.20. ábra Szemábra: a szintingadozások, jitterhibák és egyéb zavarok, zajok miatt a csatornakódolt jel eltorzítva jelenik meg az átviteli csatorna kimenetén (1.19. ábra). Ha ezt a jelet egy oszcilloszkóp függőleges bemenetére vezetjük, és a vízszintes bemenetet az órajellel hajtjuk meg, akkor kapjuk a szemábrát (1.20. ábra). A szemábrán T w -nek két jelszintátmenet közötti távolság felel meg. A maximális szemnyílás jelenti a maximális amplitúdót. Vízszintes irányban a növekvő fázishiba korlátozza a szemnyílást. - 29 -

1.3.9. A PCM jel visszaalakítása analóg hangfrekvenciás jellé A PCM jelet időben és értékben újra folytonossá kell tenni. Ezt a következő úton valósítják meg: először D/A átalakító segítségével PAM (Pulse Amplitude Modulation) jelet hoznak létre. Ezután a PAM impulzusok szélességét mintavevő és -tartó segítségével megnövelik, végül egy aluláteresztő szűrő segítségével integrálással nyerik az eredeti analóg jelet. Az aluláteresztő szűrőnek az integrálás mellett még egy fontos szerepe van: a PCM jel PAM jellé alakítása a D/A átalakítóval egy újabb mintavételi folyamatot jelent és így az alapsávi spektrum mellett ismét megjelenik a zavaróspektrum, amit ki kell szűrni. A bináris számsorokból álló PCM jel egyes kódszavaihoz a D/A átalakító az egyes kódszavak információtartalmával arányos feszültség értéket rendeli hozzá. A legkisebb feszültség értékét az átalakító áramköri felépítése határozza meg. A maximális kimeneti feszültség: U kimax = U LSB * 2 n A D/A átalakítók felépítésük alapján lehetnek: Létrahálózatot alkalmazó passzív áramosztósak Aktív áramosztósak Integráló rendszerűek A D/A átalakítók esetében is felléphetnek a fent ismertetett hibák. Ezen kívül még a beállási idő jellemzi a D/A átalakítókat, ami azt adja meg, hogy mennyi idő kell ahhoz, hogy a D/A átalakító bemenetére adott jel átalakításakor a kimeneti feszültség +/-1/2 LSB pontossággal beálljon annak értékére. - 30 -

A D/A átalakítóban áramgenerátor és a PCM jel által vezérelt félvezető kapcsolók segítségével történik a kódszavak feszültséggé alakítása. A kapcsolók nem egyidejű átkapcsolásának következménye az ún. glitche. Ez a beállási szakaszon látható zavarójel (1.19.ábra). Ezért a D/A átalakító kimeneti jelét glitchementesítő áramkörre vezetik, amelynek működése szintén az 1.21. ábrán látható. A glitchementesítő impulzus szélessége általában a mintavételi intervallum felével egyenlő. A D/A átalakítók pontossága még az alkalmazott referenciafeszültség pontosságától is függ. 1.21. ábra - 31 -

2. Pszihoakusztikai áttekintés 2.1. Fletcher-Munson görbék Az emberi fül által hallható hang tulajdonképp nem más, mint nyomásváltozás a közvetítő közegben. Erőssége kifejezhető a nyomásváltozás nagyságával. Általában ezt egy referenciaértékhez viszonyítva, db-ben adják meg. Ez a fizikai jellemző a hangnyomás szint:,ahol p a hangnyomás időbeli változása, p 0 az 1 khz frekvenciájú, emberi fül által még éppen hallható hangnyomás (p 0 = 20 mpa). Az a hangnyomás szint, amit 1 khz-en épp meghallunk nem biztos, hogy meghallható más frekvencián. Általában két egyforma teljesítményű, de különböző frekvenciájú hangot nem azonos hangerejűnek hallunk. Ezen kívül alkalmazzák még az intenzitás szintet, amelyet szintén db-ben adnak meg:, ahol I 0 = 1 pw/m 2, szintén 1 khz-es hangra vonatkozik. A fizikai jellemzők azonban közvetlenül nem hordoznak információt az emberi hallás szubjektív jellemzőiről. A pszihofizikai jellemzők a fizikai jellemzők áttételei az érzeti síkra. Ezek a jellemzők a hangerősség és a hangosság. A hangerősség (L n ) mértékegysége a phon. Egy hang hangerőssége annyi phon, ahány db a vele azonos hangosságérzetet keltő 1 khz-es szinuszos hang hangnyomásszintje. Így az éppen hallható hangerősség 0 phon. A hangerősség hátránya, hogy több hang együttes megszólalása esetén nem alkalmazható. A hangosság az egyszerre megszólaló hangokra vonatkozik, jele: N; mértékegysége a son: Ha a megszólaló hangok hangerőssége mind nagyobb, mint 40 phon, akkor egyszerű összegezéssel számítható a hangosság. - 32 -

A fül érzékenysége a frekvencia függvénye. Az ember számára érzékelhető hanghullámok 20 Hz-től 20 khz-ig lévő frekvenciatartományba esnek. A 20 Hz alatti hangok az infrahangok. 16 khz - 100 MHz ultrahang. Az emberi fül az 1000 Hz körüli hangokra a legérzékenyebb. Hallásküszöb:A fülhöz érkező fizikai hang bizonyos erősségtől kezdve hallhatóvá válik. Azt a legkisebb hangerősséget, amelynél a vizsgált hang hangérzetet kelt, hallásküszöbnek nevezzük. Az emberi hallás is frekvenciafüggő. Ennek következménye, hogy a különböző rezgésszámú hangok hallásküszöbértéke is különböző. A kisebb rezgésszámok, tehát mélyebb hangok küszöbértéke nagyobb, mint a magasabb hangoké. Fájdalomküszöb: Ha a hang intenzitása növekszik, a hangérzet erőssége is nő, végül már fájdalmat okoz. Ez a fájdalomküszöb (130 db). A fájdalomküszöb kevésbé függ a frekvenciától, gyakorlatilag az egész frekvenciatartományban azonos. Hangmagasság: A hangmagasság a hangok rezgésszámától függ. A dupla rezgésszámú hang az oktáv. Ha egy rögzített hangot dupla sebességgel fogunk lejátszani, akkor egy oktávval magasabban fog szólni és fele annyi ideig fog tartani. A hang magassága függ a beszélő hangerejétől is. Minél hangosabban beszél valaki, annál magasabb lesz a hangmagassága. Hangdinamika: A hangdinamika a hangos és halk hangok aránya. A hangrögzítésben a legerősebb hangjel (mely még torzítás nélkül rögzíthető) és a készülékben keletkező alapzaj aránya. A 2.1. ábrán láthatók a Fletcher- Munson görbék különböző hangerő értékekre. A "0 phon" feliratú görbe ábrázolja a minimális értékeket, amit a fül érzékelni képes különböző frekvenciákon. A görbék azt ábrázolják, hogy a fül bizonyos frekvenciákon érzékenyebb, mint másokon. 2.1. ábra - 33 -

2.2. Maszkolási effektus Maszkolásról akkor beszélünk, ha egy hangot egy másik hang hallhatatlanná tesz. Egyidejű maszkolás akkor lép fel, amikor két hang egyszerre szól, mint pl. amikor egy beszélgetést (a maszkolt jel) elnyom egy vonat dübörgése (a maszkoló). Visszafelé irányuló maszkolásról akkor beszélünk, ha a maszkolt jel előbb befejeződik, mint ahogy a maszkoló elkezdődik; előre irányuló a maszkolás, ha a maszkolt jel azután kezdődik, hogy a maszkoló véget ért. A maszkolás annál erősebb, minél közelebb áll egymáshoz - idő- és frekvencia tartományban egyaránt - a két jel. Pl. az egyidejű maszkolás erősebb a visszafelé- és az előre irányuló maszkolásnál is, mert a hangok egy időben szólalnak meg. A maszkolási kísérletekben általában maszkolóként keskeny sávszélességű fehér zajt használnak és tiszta szinuszos hang hallásküszöbét vizsgálják különböző időben és frekvenciákon. Az egyidejű- és az időleges maszkolásokra a 2.2. és a 2.3. ábrán láthatunk példát. 2.2. ábra 2.3. ábra Az ábrákból fontos következtetéseket vonhatunk le. Először is, az egyidejű maszkolás akkor a leghatásosabb, ha a maszkolt jel frekvenciája megegyezik, vagy nagyobb, mint a maszkolóé. Másodszor, míg az előre irányuló maszkolás jelentős ideig hatásos az után, hogy a maszkoló elhallgatott, a visszairányuló kevesebb, mint 2-3 ms -ig él a maszkoló megszólalása előtt. - 34 -

2.3. Kritikus sávok A kritikus sávok ötlete a fül azon tulajdonságából adódott, hogy a hallható frekvencia tartományt alsávokra osztva analizálja. Az egy kritikus sávon belüli frekvenciák hasonlóak a fül érzékelési tulajdonságaihoz, és más kritikus sávoktól elkülönítve dolgozzák fel őket. A kritikus sávokat hallási kísérletekkel határozták meg, és levezethetők a belső fülben található érzékelő cellák elhelyezkedése alapján is. A kritikus sávok felfoghatók úgy, mint a fül által használt frekvencia sávok. Alacsonyabb frekvenciák esetén sokkal keskenyebbek, tulajdonképp a kritikus sávok 3/4 része 5 khz alatt található. Ez azt jelenti, hogy az alacsonyabb frekvenciákból több információt kap a fül, mint a magasakból. A digitális hangtömörítő algoritmusok a tömörítéshez jelentős mértékben hasznosítják a pszihofizikai jellemzőket az idő-frekvencia tartomány átalakítás és a bit kiosztás során. - 35 -

3. Tömörítési, kódolási eljárások 3.1. Bevezetés Az adattömörítés célja, hogy hangfelvételeinket minél kevesebb tárolókapacitás lefoglalásával rögzíthessük, minél kisebb csatornakapacitás felhasználásával továbbíthassuk. Az elmúlt évek során két irányzat alakult ki a digitális hangtechnikai fejlesztések terén, amelyek céljukat tekintve ellentétesek. Míg az egyik oldalon a minél tökéletesebb hangzás érdekében mindent megtesznek a paraméterek javításáért - gondoljunk csak a nagyobb felbontású, nagyobb mintavételi frekvenciával, dolgozó rendszerekkel való kísérletezésre -, addig a másik oldalon egyre gyakrabban használnak adatcsökkentő eljárásokat, főleg anyagi megfontolásokra hivatkozva. A különféle, egymással általában nem kompatibilis adatredukciós eljárások legtöbbje valamiféle minőségi kompromisszum árán próbálja gazdaságosabbá tenni a digitalizált hangot tartalmazó adatállományok tárolását, továbbítását. 3.2. A hangjelek tömörítésének alapjai A hangjelek tömörítésének alapja a redundancia és irrelevancia csökkentése. A hangfelvételekkel kapcsolatban redundáns információról beszélünk, ha az adott kódolási eljáráshoz képest a rögzített hang kevesebb adat felhasználásával is kódolható lenne oly módon, hogy az később tökéletesen visszaalakítható eredeti formájába. A hangminták kódolására legelterjedtebben alkalmazott lineáris PCM kódolás például a digitális jelfeldolgozás szempontjából kimondottan előnyös, az adattárolás és adattovábbítás szempontjából viszont meglehetősen pazarló eljárás. A hangesemények továbbá felbonthatók releváns (lényeges) és irreleváns (lényegtelen) összetevőkre. Relevánsnak számít minden hanginformáció, ami hallhatóan befolyásolja a hangzás révén keletkező érzetet, benyomásokat. Irreleváns ezzel szemben azon része, mely nem tartalmaz ilyen információt, és ezért elhagyható anélkül, hogy hangérzetünk megváltozna. - 36 -

3.3. Veszteségmentes tömörítés Az entrópia kódolásnak is nevezett, veszteségmentes tömörítő eljárások az adatok redundanciáját csökkentik. A beavatkozás reverzíbilis, a kódolás és dekódolás során információ nem vész el. Veszteségmentes tömörítésnél a tömörítés mértéke nagymértékben függ a forrásállomány tartalmától. A hangállományok statisztikai kódeloszlása viszonylag egyenletes, méretük entrópia kódolással mindössze 10-15 % - kal csökkenthető. Érthető, hogy a hangtechnikában csak kivételes esetekben alkalmazzák. Ilyen kivételnek számítanak az igen redundáns, nagyfelbontású formátumok, mint például a DVD-Audio-nál bevezetett 96 khz/24 bites mód, vagy a Super Audio CD DSD-je. Ezeknél a formátumhoz optimalizált összetett entrópiakódoló algoritmussal valamivel nagyobb, mint 1:2 tömörítés valósítható meg. 3.3.1. Lineáris PCM A lineáris PCM tömörítetlen (veszteségmentes) digitális hangot jelent. Ezt a formátumot használják a CD-ken és a legtöbb stúdió masteren. 48 vagy 96 khz-es lehet, 16, 20 vagy 24 bites mintavételezést használhat. (A hang CD 44,1 khz-re, 16 bitre van korlátozva.) 1-től 8 csatornát tartalmazhat. A maximális bitráta 6,144 Mb/s, ami korlátozza a mintavételezést és a minták felbontását, ha 5 vagy annál több csatornát használnak. Általánosságban elmondható, hogy a 120 db-es dinamika (20 bites felbontásnál), és a a 48 khz-es mintavételezésből adódó kb. 22 khz-es frekvencia-átvitel elegendő a nagy felbontású hangvisszaadáshoz. Azonban további biteket és magasabb mintavételezést is használhatnak audiofil alkalmazásokhoz, stúdiómunkához, zajszűréshez, fejlett digitális feldolgozáshoz, és háromdimenziós hangtér előállításához. A DVD lejátszóknak támogatniuk kell az LPCM minden változatát, de elég sok készülék lekeveri a 96 khz-es hangot 48 khz-re, és néhány nem használja mind a 20 vagy 24 bitet. A digitális kimeneten megjelenő jelet (a külső digitális-analóg átalakítókhoz) korlátozhatják 96 khz-nél kisebb mintavételezésre, és 24 bitnél kisebb felbontásra. - 37 -

3.3.1.1. CD A CD (a Compact Disc rövidítése) egy nagy kapacitású optikai tároló, amely leginkább jó minőségű hang, valamint adat tárolására használatos. Méreteit tekintve általában 120 mm átmérőjű, de léteznek a Mini CD lemezek, 80 mm-es átmérővel. Fontosabb paraméterei: Műsoridő: legfeljebb 74 perc 33 másodperc Csatornaszám: 2 csatorna (4 csatornás felvétel is lehetséges) Kvantálás: lineáris 16 bites Mintavételi frekvencia: 44,1 khz Hibavédő rendszer: Cross Interleave Reed-Salamon Code Modulációs rendszer: EFM (Eight- to Fourteen Modulation ) 3.3.1.2. DVD-Audio Kiváló minőségű hanganyag, mely kötelezően tartalmaz legalább 1 db LPCM hangsávot. Legfeljebb hatcsatornás, 48/96/192 khz-es mintavételezésű (44,1/88,2/176,4 khz is engedélyezett), a minták felbontása 16/20/24 bit lehet. Így az elméleti frekvencia átvitel akár 96 khz is lehet, a dinamika pedig elérheti a 144 db-t. A többcsatornás PCM hangot lekeverheti a lejátszó, de 192 és 176,4 khz-en csak két csatorna engedélyezett. A mintavételezés és a minták nagysága csatornánként eltérhet, de ezeket előre definiált csoportokból kell kiválasztani. A maximális adatátvitel 9,6 Mb/s. A CD lemezekénél összehasonlíthatatlanul jobb, 192kHZ-es vagy 96kHz/24-bites lineáris PCM hangzás tisztább hangzást és a hangszerek hangjainak valóságosabb visszaadását eredményezi. Ezen a lemezformátumon kényelmesen nagy tartalékok állnak a magas hangtartományok rendelkezésére, valamint a közép és mély tartományok is árnyaltabban és valósághűbben tudnak megszólalni. A gyors, nagyfrekvenciájú hangcsatornák eredményeként az egyes hangjegyek jobban elválnak egymástól, a sztereo hangképzés pedig a precízebb, mélyebb és egységesebb hangzástérről gondoskodik. Érdekesség, hogy a DVD Audio nevével ellentétben sávonként akár 99 képet is tárolhat, valamint lejátszás közben a dalszöveg kiírására is lehetőség nyílik. - 38 -

3.4. Veszteséges tömörítés A hangtechnikai alkalmazásoknál a veszteségmentes tömörítéssel elérhetőnél általában lényegesen nagyobb mértékű adatcsökkentés kívánatos, amit csak veszteséges tömörítéssel lehet megvalósítani. A veszteséges tömörítés a felvétel irrelevanciájának csökkentésén alapszik. Ezek az eljárások zajt adnak a hasznos jelhez, de ez a zaj hallásfiziológiai módszerek alkalmazásával elrejthető. A hangjelek tömörítésére kifejlesztett rendszerekben az alábbiakban felsorolt elemekkel találkozhatunk: Huffman-kódolás Prediktív kódolás Futamhossz kódolás Alsáv kódolás Nemlineáris kódolás Lebegőpontos kódolás Transzform kódolás Érzeti kódolás Spektrális sávismétlés Frekvencia- és időtartománybeli elfedés A továbbiakban ismertetett tömörítési eljárások túlnyomó részben az érzeti kódolás alapelveire, a pszihoakusztikai jellemzők kihasználására épülnek. - 39 -

3.4.1. AC-3 (Audio Compression 3) A Dolby Digital kódolási formátuma. 1965-ben, Londonban Ray M. Dolby amerikai fizikus alapította meg a Dolby Laboratories-t, amely az 1990-es évek elejére fejlesztette ki ezt a többcsatornás kódolási eljárást, az eredeti veszteségmentes PCM hangot a AC3 kódolással, 48 khz-es mintavételezéssel 16-24 bites felbontással tömöríti. A sávszélesség 64 és 448 kbit/s között lehet. Dolby Digital 5.1 esetén ez többnyire 384 és 448 kbit/s között mozog, míg a hagyományos sztereónál elegendő a 192 is. Fontos kritérium, hogy a Dolby Digital nem egyértelműen jelenti az 5.1-es hangzást, mivel a szabvány tartalmazza a monó (1.0), duál monó (1+1), sztereó (2.0), surround (3.0) és a prologic (4.0) hangsávok alkalmazását is. 3.4.2. ATRAC ( Adaptive Transform Acoustic Coding ) Az Adaptive Transform Acoustic Coder-t a Sony a Minidisc-hez fejlesztette ki. Működési elvét tekintve hibrid érzeti tömörítő. A lecsökkent tárolókapacitás ellenére szükséges volt, hogy a MD jó hangminőséget adjon és 74 perces játékidővel rendelkezzen. Ezért az ATRACot úgy tervezték, hogy megfeleljen a következő követelményeknek: a 16 bites, 44,1 khz -es sztereo audio jelet kevesebb, mint 1/5 -ére tömörítse össze a hangminőség minimális romlása mellett. Hordozható készülékekben is alkalmazható egyszerű és olcsó hardverrel is megoldható legyen a kódolás és a dekódolás. A digitális audio jel tömörítésekor bizonyos mennyiségű zaj adódik a jelhez. A legtöbb audio kódolási eljárásnak az az alapelve, hogy az ilyen zaj-, idő- és frekvencia tartománybeli eloszlását úgy kezeljék, hogy az hallhatatlan legyen az emberi fül számára. Ha ez sikeres, akkor az ilyen módon előállított jel megkülönböztethetetlen lesz az eredetitől. - 40 -

3.4.3. ATRAC kódolás és dekódolás Az audio kódoló rendszerek általában úgy működnek, hogy felosztják a jelet különböző idő- és frekvenciatartománybeli egységekre. Ezt a felosztást használva a jelet a pszihoakusztikai törvényszerűségeknek megfelelően elemzik. Az elemzés során kimutatható, hogy mely egységek a kritikusak és ezért nagy pontossággal kódolandók, és mely egységek kevésbé jelentősek és így elviselnek némi kvantálási zajt a kívánt hangminőség romlása nélkül. Erre az információra alapozva rendelik az elérhető biteket az egyes egységekhez. A spektrális összetevőket ezután kvantálják ezeknek a biteknek a felhasználásával. A dekóderben a kvantált spektrumot visszaalakítják a bit kiosztásnak megfelelően és ezután audio jellé szintetizálják. Az ATRAC rendszer is a fentieknek megfelelően - csak számos kiegészítéssel - működik. A pszihoakusztikus jellemzőket ugyanis nem csak a bit kiosztás során használja, hanem az idő- és a frekvencia tartomány felosztásakor is. A bemeneti jelet nem azonos frekvenciaosztásokban analizálják, és így kiemelik a fontos, alacsony frekvenciás összetevőket. Ezen kívül változó hosszúságú blokkokat használnak, ami a bemeneti jelhez igazodik. Így a statikus részek is hatékonyan kódolhatók és az átmeneti, gyorsan változó részekre nem pazarolják az időbeli felbontást. 3.1. ábra A 3.1. ábrán látható a kódoló blokkdiagramja. A kódoló három részből áll. Az analízis rész spektrális összetevőire bontja a jelet, amelyeket csoportokba (BFU = Block Floating Unit) rendeznek. A bit allokáció rész elosztja a rendelkezésre álló biteket az egyes BFU -k között, kevesebb bitet osztva a kisebb jelentőségű csoportoknak. A kvantálás rész kvantálja az egyes spektrális összetevőket a meghatározott szóhosszúságra. - 41 -

Először a jelet felosztják három alsávra: 0-5,5 khz, 5,5-11 khz és 11-22 khz. A kritikus frekvenciasávok listáját munkámhoz mellékletként (1. számú melléklet) csatoltam. Ezután minden egyes alsávot áttranszformálnak a frekvencia tartományba, így létrehozva a spektrális összetevőket. Végül ezeket a spektrális össztevőket nem azonos méretű csoportokba - a BFU -kba - fogják. Az alsávokra történő felosztást nagymeredekségű (100dB/oktáv) QMF (Quadrature Mirror Filter) szűrők használatával oldják meg. A bemenő jelet felső- és alsó sávra osztja az első QMF szűrő, majd a másodikat ismét két részre osztja a második szűrő. A QMF -ek használata biztosítja, hogy az alsávokra osztás miatt keletkezett időtartománybeli aliasing megszűnjön a rekonstruálás során. 3.2. ábra A dekóder először a spektrális összetevőket állítja elő a kvantált értékekből a szó hosszt és a skála felbontási paramétert használva. Ezekből állítja elő az eredeti audio jelet. Az összetevőket először visszatranszformálják az idő tartományba az inverz MDCT segítségével, hosszú- és rövid módot használva a paramétereknek megfelelően. Végül a három, időtartománybeli jelből szintetizálják a kimeneti jelet QMF szintézisszűrőkkel. - 42 -

3.4.4. MPEG/audio tömörítés 3.4.4.1. Az MPEG/audio tömörítési eljárás alapjai Az MPEG/audio tömörítési algoritmus egy ISO, Hi-Fi minőségű audio tömörítési szabvány. Ez része, egy három részből álló tömörítési szabványcsoportnak. A másik két résszel együtt a szinkronizált, digitális video és audio jel tömörítéséhez szükséges kompozit szabványt adja. Az így kialakuló adatsebesség durván 1,5 Mb/s. Bár az MPEG algoritmus transzparens, azaz érzékelhető minőségromlás nélküli tömörítést valósíthat meg, azért mégiscsak veszteséges. A tömörítési algoritmus jó hatásfoka a maszkolási effektus kihasználásán alapszik. A fülnek van még egy, ide kapcsolódó hiányossága: korlátolt frekvencia szelektivitással rendelkezik, amely 100 Hz -től (a legmélyebb hallható hangokra) 4 khz -ig (a legmagasabb hangokra) terjed. Emiatt lehetséges a hallható frekvenciatartomány felosztása kritikus sávokra, amelyek a fül frekvencia függő hangkezelését tükrözik. Az algoritmus által használt kritikus sávok listáját mellékletként csatoltam (2.számú melléklet). A fül fenti tulajdonsága miatt a zaj maszkolás kizárólag egy frekvencia sávon belüli jelaktivitás függvénye. Ez a tulajdonság a tömörítési eljárás esetén úgy hasznosítható, hogy az audio jelet a frekvencia tartományba transzformálják, az így kapott spektrumot felosztják a kritikus sávoknak megfelelő alsávokra, és végül az egyes alsávokat a kvantálási zaj hallhatóságának függvényében kvantálják. Optimális tömörítés esetén minden egyes sávhoz éppen akkora kvantálási szintet kell biztosítani, amely feltétlenül szükséges ahhoz, hogy a kvantálási zaj hallhatatlan legyen. A továbbiakban részletesen foglalkozom az MPEG/audio algoritmussal. - 43 -

3.4.4.2. MPEG/audio kódolás és dekódolás 3.3. ábra A 3.3. ábrán látható az MPEG kóder és dekóder blokkdiagramja. A bemeneti jel egy szűrőcsoporton halad keresztül, amely alsávokra osztja fel azt. A jel egyidejűleg áthalad egy pszihoakusztikai modellen is, amely meghatározza a jel-maszk viszonyt (signal-to-mask ratio = SMR) az egyes alsávokra. A bit- vagy zaj allokációs blokk használja az SMR-t a kvantáláshoz rendelkezésre álló összes bit alsávok közötti kiosztásakor, a kvantálási zaj minimalizálását célként kitűzve. A legutolsó blokk fogja a kvantált mintákat egy dekódolható bit folyammá alakítani. A dekóder ezt az átalakítást egyszerűen megfordítja, felépíti a kvantált alsávok értékeit és végül visszatranszformálja ezeket egy időtartománybeli jellé. Az MPEG elvárásainak megfelelõen az audio jelhez tartozó kísérő információkra nincs szükség, de alkalmazható a kódolt bitfolyamban. Az MPEG/audio szabványnak három, elkülönített rétege van. A Layer I tartalmazza az alap algoritmust, a Layer II és III pedig továbbfejlesztések, amelyek használják az I -es bizonyos részeit. Minden egyes plusz réteg javítja a kódolás hatékonyságát, de növeli a kóder és dekóder bonyolultságát is. - 44 -

3.4.4.3. Layer I Az alap szűrőcsoportot használja, amit minden réteg tartalmaz. Ez a szűrőcsoport a jelet 32 állandó szélességű frekvencia sávra osztja. A szűrők viszonylag egyszerűek és a fül képességeihez mérten jó idő- és frekvencia tartománybeli felbontást biztosítanak. Ez egy kompromisszumos megoldás három fontos engedménnyel. Először, a 32 állandó szélességű frekvencia sáv nem tükrözi a fül kritikus sávjait (3.4. ábra). A sávszélesség túl nagy az alacsony frekvenciák esetén, így a kvantálási bitek számát nem lehet speciálisan egy-egy kritikus sávra meghatározni. Ehelyett a sávba eső legnagyobb zajérzékenységű kritikus sáv határozza meg a kvantáló bitek számát. Másodszor, a szűrőcsoport és inverze nem veszteségmentes átalakítások. Még a kvantálást elhagyva sem kapnánk vissza tökéletesen az eredeti bemeneti jelet. Szerencsére a szűrők által bevitt hiba kicsi és nem hallható. Harmadszor, a szomszédos szűrők jelentős frekvenciaátlapolással rendelkeznek. Egy adott frekvenciájú jel így két szomszédos szűrőt befolyásolhat. 3.4. ábra A Layer I -es kóder 32 db 12 mintát tartalmazó csoportot foglal egy keretbe (32 * 12 = 384 minta). Minden egyes csoport megkapja a bit allokációt és ha ez nem nulla, akkor a felbontási tényezőt is. Sztereo többletkódolás esetén ez másképp működik. A bit allokáció határozza meg, hogy egy mintára hány bit jut. A felbontási tényezõ egy szorzó, ami úgy méretezi a mintákat, hogy maximális legyen a kvantáló felbontása. Az audio adat mellet minden keret tartalmaz egy fejrészt, egy opcionális CRC szekvenciát és esetleg egyéb többlet információkat. - 45 -