Objektív beszédminısítés



Hasonló dokumentumok
Objektív beszédminősítés

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

Teremakusztikai méréstechnika

Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás. Csapó Tamás Gábor

ÉRZÉKELŐK ÉS BEAVATKOZÓK I. 3. MÉRÉSFELDOLGOZÁS

Mobil kommunikáció /A mobil hálózat/ /elektronikus oktatási segédlet/ v3.0

pacitási kihívások a mikrohullámú gerinc- és lhordó-hálózatokban nkó Krisztián

Milyen elvi mérési és számítási módszerrel lehet a Thevenin helyettesítő kép elemeit meghatározni?

Híradástechikai jelfeldolgozás

2. gyakorlat Mintavételezés, kvantálás

NOVOFER Távközlési. Innovációs Zrt.

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Zaj (bevezetés) A zaj hatása Zaj Környezeti zaj Zajimisszió Zajemisszió Zaj szabályozás Zaj környezeti és gazdasági szerepe:

2. Az emberi hallásról

Távközlő hálózatok és szolgáltatások IP hálózatok elérése távközlő és kábel-tv hálózatokon

Mérési struktúrák

Építsünk IP telefont!

Kalibrálás és mérési bizonytalanság. Drégelyi-Kiss Ágota I

Az LTE. és a HSPA lehetőségei. Cser Gábor Magyar Telekom/Rádiós hozzáférés tervezési ágazat

Villamosságtan szigorlati tételek

Közösség detektálás gráfokban

Grafikonok automatikus elemzése

SzIP kompatibilis sávszélesség mérések

Kommunikációs hálózatok 2 Analóg és digitális beszédátvitel

Hallás időállandói. Következmények: 20Hz alatti hang nem hallható 12Hz kattanás felismerhető

Elektromos nagybıgı megvalósítása DSP-vel

Harmadik-generációs bázisállomások szinkronizációja

Távközlő hálózatok és szolgáltatások IP hálózatok elérése távközlő és kábel-tv hálózatokon

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

NEPTUN-kód: KHTIA21TNC

Mérési hibák

ANTAL Margit. Sapientia - Erdélyi Magyar Tudományegyetem. Jelfeldolgozás. ANTAL Margit. Adminisztratív. Bevezetés. Matematikai alapismeretek.

Mintavétel: szorzás az idő tartományban

Elektronika Előadás. Modulátorok, demodulátorok, lock-in erősítők

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Jelek és rendszerek 1. 10/9/2011 Dr. Buchman Attila Informatikai Rendszerek és Hálózatok Tanszék

Távközlő hálózatok és szolgáltatások Távközlő rendszerek áttekintése

Első egyéni feladat (Minta)

SVANTEK. Termékismertető

Voice over IP (VOIP) Dr. Répás Sándor

Képrestauráció Képhelyreállítás

Kommunikációs hálózatok 2 Analóg és digitális beszédátvitel

Digitális jelfeldolgozás

Valószínűségszámítás összefoglaló

Informatikai eszközök fizikai alapjai Lovász Béla

( ) ( ) ( ) Fourier: : minden (idı)függvény( összetehetı harmonikus. függvényekbıl. (Fourier. transzformáció) mennyiség a teljesítmény-spektrum

Analóg digitális átalakítók ELEKTRONIKA_2

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Mérési útmutató a Mobil infokommunikáció laboratórium 1. méréseihez

Informatikai hálózattelepítő és - Informatikai rendszergazda

Infokommunikáció - 3. gyakorlat

Akusztikai tervezés a geometriai akusztika módszereivel

Hibadetektáló rendszer légtechnikai berendezések számára

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

Statisztikai módszerek a skálafüggetlen hálózatok

STATISZTIKAI PROBLÉMÁK A

16. Tétel. Hangkártya szabványok. Hangállományok tömörítése, szabványok, kódolási módszerek Az MPEG Audio. Egyéb állományformátumok (PCM, WMA, OGG).

Transzformátor rezgés mérés. A BME Villamos Energetika Tanszéken

Fourier-sorfejtés vizsgálata Négyszögjel sorfejtése, átviteli vizsgálata

Dunakanyar Holding Kft.

Az NIIF VoIP rendszernek üzemeltetési tapasztalatai Fehér Ede, NIIF Iroda Tirpák Miklós, MTA SzTAKI Networkshop 2004 Győr, április 7.

A MEGTÖRT CSEND. Muntag András december 9. L DEN + L NIGHT. A megtört csend

Építsünk IP telefont!

VIHIMA07 Mobil és vezeték nélküli hálózatok. Forgalmi modellezés és tervezés

Digitális mérőműszerek. Kaltenecker Zsolt Hiradástechnikai Villamosmérnök Szinusz Hullám Bt.

Az infrastruktúra minősége: kinek a felelőssége?

Több valószínűségi változó együttes eloszlása, korreláció

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

NEURONHÁLÓS HANGTÖMÖRÍTÉS. Áfra Attila Tamás

Növelt energiaminőség az épületüzemeltetésben

Elektronika Előadás. Digitális-analóg és analóg-digitális átalakítók

BME Mobil Innovációs Központ

Vízóra minıségellenırzés H4

ELTE TáTK Közgazdaságtudományi Tanszék MAKROÖKONÓMIA. Készítette: Horváth Áron, Pete Péter. Szakmai felelős: Pete Péter

IP Telefónia és Biztonság

Típus: SZQ392. Termékleírás. Típus: WRC840. Termékleírás. Típus: SFA Termékleírás. Típus: WCM709. Termékleírás. Típus: 420TVL (SH)

Jelfeldolgozás. Gyakorlat: A tantermi gyakorlatokon való részvétel kötelező! Kollokvium: csak gyakorlati jeggyel!

Interferencia jelenségek a BME permanens állomásán

Szélessávú kényszerpálya. Budapest,

[Biomatematika 2] Orvosi biometria

Magspektroszkópiai gyakorlatok

A Brüel & Kjaer zajdiagnosztikai módszereinek elméleti alapjai és ipari alkalmazása

Biometria gyakorló feladatok BsC hallgatók számára

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

AGSMHÁLÓZATA TOVÁBBFEJLESZTÉSE A NAGYOBB

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Informatikai hálózattelepítő és - Informatikai rendszergazda

Brüel & Kjaer 2238 Mediátor zajszintmérő

3D számítógépes geometria és alakzatrekonstrukció

Cellák. A cella nagysága függ a földrajzi elhelyezkedéstől és a felhasználók számától, ill. az általuk használt QoS-től! Korszerű mobil rendszerek

Fehérzajhoz a konstans érték kell - megoldás a digitális szűrő Összegezési súlyok sin x/x szerint (ez akár analóg is lehet!!!)

OFDM technológia és néhány megvalósítás Alvarion berendezésekben

Értékelés Összesen: 100 pont 100% = 100 pont A VIZSGAFELADAT MEGOLDÁSÁRA JAVASOLT %-OS EREDMÉNY: EBBEN A VIZSGARÉSZBEN A VIZSGAFELADAT ARÁNYA 15%.

A napsugárzás mérések szerepe a napenergia előrejelzésében

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Normális eloszlás tesztje

Átírás:

Objektív beszédminısítés Fegyó Tibor fegyo@tmit.bme.hu Beszédinformációs rendszerek -- Objektív beszédminõsítés 1 Bevezetı kérdések Mi a [beszéd] minıség [a beszédkommunikációban]? Mi befolyásolja a minıséget? Lehet-e mérni szubjektív / objektív módon a minıséget? Mennyire megbízhatóak az értékelések, avagy mindig ugyanúgy értékelünk? Mi alapján értékeljük a beszédet? Mi rontja el a beszéd minıségét? Lehet-e befolyásolni / javítani a beszéd minıségét? Beszédinformációs rendszerek -- Objektív beszédminõsítés 2 1

Alkalmazási példák beszédminıség rendszeres mérése telefon csatornán nagyobb rekonstrukció után a minıség változásának kimutatása országos minıségtérkép készítése Beszédinformációs rendszerek -- Objektív beszédminõsítés 3 Példa hangminták győjtésére mobil hálózat háttérzaj, interferencia, fading, lineáris és nemlineáris torzítás beépített mobil adagyőjtı berendezés (PC, telefon, GPS) Beszédinformációs rendszerek -- Objektív beszédminõsítés 4 2

3 Példa hangminták győjtésére VoIP hálózat VoIP adó VoIP vevı LAN1 LAN2 Hálózati forgalom szabályozó Minıség mérés kódoló, hangfile Vezérlı csomagvesztés, jitter Beszédinformációs rendszerek -- Objektív beszédminõsítés 5 Példa torzított felvételekre Beszédinformációs rendszerek -- Objektív beszédminõsítés 6

Szubjektív beszédminısítés Szabvány ITU-T P.800 abszolút értékelés elıre definiált skála alapján (ACR) jelenség észlelési tesztek romlás megfigyelése eredetihez képest (DCR) referencia rendszerrel összehasonltás pl. MNRU (Modulated Noise Reference Units P.81) jól meghatározott referenciák MOS (mean opinion score) sok ember véleményének átlaga Beszédinformációs rendszerek -- Objektív beszédminõsítés 7 Az abszolút értékelés problémája A kiválasztott teszthalmaz minıség eloszlásától függ a az egyes felvételek értékelése, mivel ugyanaz a felvétel jobb minıségő környezetben gyengébb osztályzatot kap, mint roszabb minıségő környezetben. Egyenletes teszthalmazt könyebb összeállítani, viszont a valóságban több a jó minıségő felvétel. Beszédinformációs rendszerek -- Objektív beszédminõsítés 8 4

Minıség Példa a minıség eloszlására egy valódi rendszer esetén 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 201 401 601 801 1001 1201 1401 1601 1801 2001 Mondatok Beszédinformációs rendszerek -- Objektív beszédminõsítés 9 A szubjektív vélemény változása a környezet függvényében 5 4,5 4 MOS (14 ember) 3,5 3 2,5 2 1,5 1 MOS [valódi] = 3,136 MOS [egyenletes] = 3.258 0,5 0 valódi eloszlás 60 mondat egyenletes eloszlás Beszédinformációs rendszerek -- Objektív beszédminõsítés 10 5

Szubjektív minısítés szerepe pontos módszer, bár az eredmény függ a kísérlet körülményeitıl tömeges mérésre nem alkalmas, mert drága és lassú az objektív minısítés kiindulási alapja, kalibrálásához szükséges Beszédinformációs rendszerek -- Objektív beszédminõsítés 11 Objektív (gépi) minısítés feladata az MOS lehetı legjobb közelítése a hatékonyság mértékei: maximális korreláció MOS-el 1/n*Σ{(x i -m x ) (y i -m y )} σ x σ y minimális négyzetes eltérés MOS-tıl 1/n* Σ (x i -y i ) 2 Beszédinformációs rendszerek -- Objektív beszédminõsítés 12 6

Felhasználási területek Analóg beszédátvitel vezetékes telefonok mobil telefonok Digitális beszéd átvitel kis sebességő kódolók,tömörítık (PSQM/ITU P.861, PESQ/ITU P.862) tervezésük során folyamatos kontrollt biztosít GSM kódoló (PSQM +) kiválasztása során nagy mennyiségő szubjektív és objektív tesztett végeztek el IP, ATM (csomag kapcsolt) beszéd átvitel, pl.: VoIP Beszédinformációs rendszerek -- Objektív beszédminõsítés 13 Beszéd Minıség vs. sávszélesség Lineáris kódolás: 8kHz 16bit : 128 kbps Telefon (nemlineáris: A/µ law) 8kHz 8bit (12bit) : 64kbps VoIP (LPC, CELP ) 4-64 kbps Zene CD minıség: 44,1kHz, 16bit (stereo) : 1411 kbps MP3: 64-128-256-384 kbps Realaudio: 32kbps Késleltetés ingadozásra (jitter) érzékeny a realtime média, függetlenül a sávszélességtıl. Beszédinformációs rendszerek -- Objektív beszédminõsítés 14 7

8 Minısítési eljárások Összehasonlítás alapú mérés beszélı Abszolút besorolás (beszéd --- mérıjel) beszélı hálózat m é r é s hálózat m é r é s hallgató hallgató Beszédinformációs rendszerek -- Objektív beszédminõsítés 15 A jelfeldolgozás általános menete felvétel referencia Pszichoakusztikus modell Pszichoakusztikus modell R inn távolság számítás R inn optimális leképezés az MOS skálára linearizálás és skála transzformáció belsı távolság objektív mérték Beszédinformációs rendszerek -- Objektív beszédminõsítés 16

Pszicho-akusztikus modell Idı - frekvencia leképzés Keretekre vágás rövid idejő (15-50 ms), átlapolódó (50%) keretek Ablakozás Fourier transzformáció Pszicho-akusztikus érzeti modellezés Az emberi hallás modellezésén alapul, célja a hallható különbségek kiemelése, és a nem észlelhetıek elnyomása monoton legyen a kapcsolat a belsı távolság és az MOS között Beszédinformációs rendszerek -- Objektív beszédminõsítés 17 Pszicho-akusztikus modell elemei Transzformálás az érzeti tartományra nemlineáris frekvencia skálák (mel, bark ) Frekvencia elfedés közeli frekvenciák esetén az erısebbik elnyomja a gyengébbet Idıbeli elfedés egymás utáni rövid impulzusokat egynek hallunk egy erıs hang elnyomja a környezı gyengébbeket Pszicho-akusztikus hangosság jel energia és hangosság kapcsolata nemlineáris Beszédinformációs rendszerek -- Objektív beszédminõsítés 18 9

10 Problémák a szabványtól eltérı alkalmazási területen (NMT) Hagyományos (analóg méréseknél, ill. kis bitsebességő kódolóknál ajánlott) módszerek nem használhatók, mert: a csatorna nem stacionárius, nehezen modellezhetı az eredeti hanganyag nem használható referenciaként a mérések nem reprodukálhatók az idıben változó környezet miatt a jelzésváltás a hangcsatornán belül történik, de ezt nem kell figyelembe venni Beszédinformációs rendszerek -- Objektív beszédminõsítés 19 referencia felvétel A pszicho-akusztikus modell egy lehetséges megvalósítása illesztés a referenciához elıkiemelés 30 ms keretekre vágás, ablakolás A jelfeldolgozás lépései követik az egyszerősített emberi hallásmodell jellegzetességeit keretenkénti energia normalizálás 33 sávú mel-skálás FFT szőrısor vonal bontás detektálása jelzésváltás detektálása R inn lineáris torzítás kompenzálása belsõ reprezentásió logaritmikus transzformáció alap zaj hozzáadása szőrısor kimenetek simítása csönd detektálása súlyozás Beszédinformációs rendszerek -- Objektív beszédminõsítés 20

Egy alkalmazás során felmerült speciális jelenségek Jelzésváltás: A hangúton belül történik. Mivel a bázisállomás kezdeményezi, így a kezdete hallható a felvételek során. Csönd detekció: A csendes részeken az additív zaj relatív nagyobb spektrális torzítást okoz, amit kompenzálni kell. Áthallás: Speciális kategóriája a torzításnak, de csak az egyéb zajokkal azonos módon tudjuk kezelni. Beszédinformációs rendszerek -- Objektív beszédminõsítés 21 Keretenkénti minıséggörbe Beszédinformációs rendszerek -- Objektív beszédminõsítés 22 11

12 Az illesztés hatása a korrelációra 0,96 0,9553 0,94 0,9411 0,928 0,92 Korreláció 0,9 0,88 0,8922 0,86 0,8466 0,84 0,82 0 ms 10 ms 15 ms 20 ms 25 ms Illesztési hiba Beszédinformációs rendszerek -- Objektív beszédminõsítés 23 Korreláció 0.96 0.94 0.92 0.9 0.88 0.86 0.84 0.82 0.8 A pszichoakusztikus modell elemeinek hatása a korrelációra csatornaváltás detektálása nélkül csatornaváltás detektálásával nincs lineáris komp. alap zaj simítás alap zaj és simítás alap zaj és lin.komp. simítás és lin. komp. alap zaj és simítás és lin. komp. Beszédinformációs rendszerek -- Objektív beszédminõsítés 24

Linearizálás és skála transzformáció Belsı távolság = (pl.) keretenkénti euklideszi távolság átlaga A belsı távolság monoton, de nemlineáris módon követi az MOS-t D lin = log( D inn + c ) /log: kísérletezéssel megállapított fv/ A lineáris távolság skálája nem egyezik az MOS skálával Q obj = a D lin + b Q obj értéke D lin =0 esetén 5.0 kell legyen, ehhez a c kontanst iteratív módon lehet meghatározni Beszédinformációs rendszerek -- Objektív beszédminõsítés 25 A kísérleti eredmények szórása MOS vs.belsı távolság 5 4,5 4 3,5 Corr. = 0.8892 MSE = 8.9254 MOS 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 Be lsı táv ols ág Beszédinformációs rendszerek -- Objektív beszédminõsítés 26 13

14 A kísérleti eredmények szórása MOS vs. Lineáris távolság 5 4,5 4 3,5 Corr. = 0.9298 MSE = 13.4 3 MOS 2,5 2 1,5 1 0,5 0-3 -2-1 0 1 2 3 Linearizált távolság (c = 0) Beszédinformációs rendszerek -- Objektív beszédminõsítés 27 A kísérleti eredmények szórása MOS vs. Objektív távolság 5 4,5 4 3,5 3 MOS 2,5 2 1,5 1 0,5 Corr. = 0.9298 MSE = 0.315 0-2 0 2 4 6 8 Objektív távolság (c = 0) Beszédinformációs rendszerek -- Objektív beszédminõsítés 28

15 A kísérleti eredmények szórása MOS vs. Optimális objektív távolság MOS 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Corr. = 0.9553 MSE = 0.156 0 1 2 3 4 5 Objektív minõség ( c = optimum) Beszédinformációs rendszerek -- Objektív beszédminõsítés 29 A kísérleti eredmények szórása Illeszkedı eljárással VoIP mérés Beszédinformációs rendszerek -- Objektív beszédminõsítés 30

16 A kísérleti eredmények szórása Nem illeszkedı eljárással NMT mérés Beszédinformációs rendszerek -- Objektív beszédminõsítés 31 A kísérleti eredmények szórása Illeszkedı eljárással NMT mérés Beszédinformációs rendszerek -- Objektív beszédminõsítés 32

17 A kísérleti eredmények szórása Nem illeszkedı eljárással VoIP mérés Beszédinformációs rendszerek -- Objektív beszédminõsítés 33 Aktív vs. passzív mérések Aktív mérések + Irányított mérések, adott/ vett jel ismert + Pontos minıségmérés lehetséges - Plusz terhelést jelent a hálózaton, különösen tömeges mérések esetén - Hozzá kell férni a végpontokhoz - PESQ eljárást is adaptálni kell speciális megoldások esetén Passzív mérések + Nincs szükség plusz terhelésre - Hogyan mérjük ismeretlen jel minıségét? + Elegendı a központi elemekhez hozzáférni Beszédinformációs rendszerek -- Objektív beszédminõsítés 34

Passzív mérési módszer Ötlet: beszédfelismerés a zajban nehezebb Jellemzık ismert minta esetén Mondat felismerési valószínősége Többi mondat illeszkedési valószínősége Általános beszédmodell(ek) illeszkedési valószínősége Jellemzık ismeretlen minta esetén Általános beszédmodell illeszkedési valószínősége Mindkét megoldás hasonlóan gyenge a PESQ-hoz képest Beszédinformációs rendszerek -- Objektív beszédminõsítés 35 Felhasználás 2 Minıség mérés rendszer tesztelés Adat LAN-hoz adódó VoIP forgalom esetén elızetes minıségmérés Összekapcsolt rendszerek esetén egymás ellenırzése (VoIP VoIP, PSTN VoIP, GSM VoIP) Mesterségesen elıállított beszéd minıségének mérése Rádió adások minıségének mérése Beszédinformációs rendszerek -- Objektív beszédminõsítés 36 18

Továbblépések Audio jelek minıségének mérése Képek minıségének mérése (tömörítés esetén) Videó jelek minıségének mérése Beszédinformációs rendszerek -- Objektív beszédminõsítés 37 19