Objektív beszédminősítés

Hasonló dokumentumok
Objektív beszédminısítés

Új módszerek és eszközök infokommunikációs hálózatok forgalmának vizsgálatához

Teremakusztikai méréstechnika

Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás. Csapó Tamás Gábor

ÉRZÉKELŐK ÉS BEAVATKOZÓK I. 3. MÉRÉSFELDOLGOZÁS

Híradástechikai jelfeldolgozás

Zaj (bevezetés) A zaj hatása Zaj Környezeti zaj Zajimisszió Zajemisszió Zaj szabályozás Zaj környezeti és gazdasági szerepe:

Mobil kommunikáció /A mobil hálózat/ /elektronikus oktatási segédlet/ v3.0

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

Hallás időállandói. Következmények: 20Hz alatti hang nem hallható 12Hz kattanás felismerhető

Milyen elvi mérési és számítási módszerrel lehet a Thevenin helyettesítő kép elemeit meghatározni?

pacitási kihívások a mikrohullámú gerinc- és lhordó-hálózatokban nkó Krisztián

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Grafikonok automatikus elemzése

Távközlő hálózatok és szolgáltatások IP hálózatok elérése távközlő és kábel-tv hálózatokon

Mérési hibák

Kommunikációs hálózatok 2 Analóg és digitális beszédátvitel

ANTAL Margit. Sapientia - Erdélyi Magyar Tudományegyetem. Jelfeldolgozás. ANTAL Margit. Adminisztratív. Bevezetés. Matematikai alapismeretek.

NOVOFER Távközlési. Innovációs Zrt.

2. Az emberi hallásról

Digitális jelfeldolgozás

2. gyakorlat Mintavételezés, kvantálás

A digitális KábelTV melléktermékeinek minőségi kérdései

A Brüel & Kjaer zajdiagnosztikai módszereinek elméleti alapjai és ipari alkalmazása

A napsugárzás mérések szerepe a napenergia előrejelzésében

Távközlő hálózatok és szolgáltatások IP hálózatok elérése távközlő és kábel-tv hálózatokon

Mérési struktúrák

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Közösség detektálás gráfokban

Építsünk IP telefont!

Kommunikációs hálózatok 2 Analóg és digitális beszédátvitel

Villamosságtan szigorlati tételek

Az LTE. és a HSPA lehetőségei. Cser Gábor Magyar Telekom/Rádiós hozzáférés tervezési ágazat

Valószínűségszámítás összefoglaló

NEPTUN-kód: KHTIA21TNC

Építsünk IP telefont!

SzIP kompatibilis sávszélesség mérések

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Elektronika Előadás. Modulátorok, demodulátorok, lock-in erősítők

Jelek és rendszerek 1. 10/9/2011 Dr. Buchman Attila Informatikai Rendszerek és Hálózatok Tanszék

Képrestauráció Képhelyreállítás

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Informatikai hálózattelepítő és - Informatikai rendszergazda

Mintavétel: szorzás az idő tartományban

Mozgásmodellezés. Lukovszki Csaba. Navigációs és helyalapú szolgáltatások és alkalmazások (VITMMA07)

Analóg digitális átalakítók ELEKTRONIKA_2

Távközlő hálózatok és szolgáltatások Távközlő rendszerek áttekintése

VÁLLALATGAZDASÁGTAN II. Döntési Alapfogalmak

Első egyéni feladat (Minta)

Az emberi hallás. A fül felépítése

Több valószínűségi változó együttes eloszlása, korreláció

Akusztikai tervezés a geometriai akusztika módszereivel

Voice over IP (VOIP) Dr. Répás Sándor

SVANTEK. Termékismertető

Elektromos nagybıgı megvalósítása DSP-vel

Statisztikai módszerek a skálafüggetlen hálózatok

[Biomatematika 2] Orvosi biometria

STATISZTIKAI PROBLÉMÁK A

Jelfeldolgozás. Gyakorlat: A tantermi gyakorlatokon való részvétel kötelező! Kollokvium: csak gyakorlati jeggyel!

Az infrastruktúra minősége: kinek a felelőssége?

Az NIIF VoIP rendszernek üzemeltetési tapasztalatai Fehér Ede, NIIF Iroda Tirpák Miklós, MTA SzTAKI Networkshop 2004 Győr, április 7.

A HŐMÉRSÉKLET ÉS A CSAPADÉK HATÁSA A BÜKK NÖVEKEDÉSÉRE

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Növelt energiaminőség az épületüzemeltetésben

A MEGTÖRT CSEND. Muntag András december 9. L DEN + L NIGHT. A megtört csend

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

VIHIMA07 Mobil és vezeték nélküli hálózatok. Forgalmi modellezés és tervezés

Mérési útmutató a Mobil infokommunikáció laboratórium 1. méréseihez

T E R M É K T Á J É K O Z TAT Ó

Digitális mérőműszerek. Kaltenecker Zsolt Hiradástechnikai Villamosmérnök Szinusz Hullám Bt.

Távközlő hálózatok és szolgáltatások Távközlő rendszerek áttekintése

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Mérés és modellezés Méréstechnika VM, GM, MM 1

Autonóm jármű forgalomszimulátorba illesztése

Előrejelzett szélsebesség alapján számított teljesítménybecslés statisztikai korrekciójának lehetőségei

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Informatikai eszközök fizikai alapjai Lovász Béla

16. Tétel. Hangkártya szabványok. Hangállományok tömörítése, szabványok, kódolási módszerek Az MPEG Audio. Egyéb állományformátumok (PCM, WMA, OGG).

Méréselmélet MI BSc 1

Transzformátor rezgés mérés. A BME Villamos Energetika Tanszéken

Fourier-sorfejtés vizsgálata Négyszögjel sorfejtése, átviteli vizsgálata

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

2040 Budaörs, Edison u. 4.

Az idősorok összetevői Trendszámítás Szezonalitás Prognosztika ZH

Funkcionális konnektivitás vizsgálata fmri adatok alapján

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

1. A hang, mint akusztikus jel

Cellák. A cella nagysága függ a földrajzi elhelyezkedéstől és a felhasználók számától, ill. az általuk használt QoS-től! Korszerű mobil rendszerek

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

BME Mobil Innovációs Központ

Elektronika Előadás. Digitális-analóg és analóg-digitális átalakítók

Normális eloszlás tesztje

OFDM technológia és néhány megvalósítás Alvarion berendezésekben

Hibadetektáló rendszer légtechnikai berendezések számára

ELTE TáTK Közgazdaságtudományi Tanszék MAKROÖKONÓMIA. Készítette: Horváth Áron, Pete Péter. Szakmai felelős: Pete Péter

Monostori Balázs Szarvas Attila. Konzulens: Sujbert László

Kísérlettervezés alapfogalmak

IP Telefónia és Biztonság

NIIF VoIP projekt. 3. HBONE tábor Budapest, november 4-6.

SZIPorkázó optikai hálózatok telepítési és átadás-átvételi mérései

Átírás:

Objektív beszédminősítés Fegyó Tibor fegyo@tmit.bme.hu Beszédinformációs rendszerek -- Objektív beszédminõsítés 1

Beszédinformációs rendszerek -- Objektív beszédminõsítés 2 Bevezető kérdések Mi a [beszéd] minőség [a beszédkommunikációban]? Mi befolyásolja a minőséget? Lehet-e mérni szubjektív / objektív módon a minőséget? Mennyire megbízhatóak az értékelések, avagy mindig ugyanúgy értékelünk? Mi alapján értékeljük a beszédet? Mi rontja el a beszéd minőségét? Lehet-e befolyásolni / javítani a beszéd minőségét?

Beszédinformációs rendszerek -- Objektív beszédminõsítés 3 Alkalmazási példák beszédminőség rendszeres mérése telefon csatornán nagyobb rekonstrukció után a minőség változásának kimutatása országos minőségtérkép készítése

Beszédinformációs rendszerek -- Objektív beszédminõsítés 4 Példa hangminták gyűjtésére mobil hálózat háttérzaj, interferencia, fading, lineáris és nemlineáris torzítás beépített mobil adagyűjtő berendezés (PC, telefon, GPS)

Beszédinformációs rendszerek -- Objektív beszédminõsítés 5 Példa hangminták gyűjtésére VoIP hálózat VoIP adó VoIP vevő LAN1 LAN2 Hálózati forgalom szabályozó Minőség mérés kódoló, hangfile Vezérlő csomagvesztés, jitter

Példa torzított felvételekre Beszédinformációs rendszerek -- Objektív beszédminõsítés 6

Szubjektív beszédminősítés Szabvány ITU-T P.800 abszolút értékelés előre definiált skála alapján (ACR) jelenség észlelési tesztek romlás megfigyelése eredetihez képest (DCR) referencia rendszerrel összehasonltás pl. MNRU (Modulated Noise Reference Units P.81) jól meghatározott referenciák MOS (mean opinion score) sok ember véleményének átlaga Beszédinformációs rendszerek -- Objektív beszédminõsítés 7

Beszédinformációs rendszerek -- Objektív beszédminõsítés 8 Az abszolút értékelés problémája A kiválasztott teszthalmaz minőség eloszlásától függ a az egyes felvételek értékelése, mivel ugyanaz a felvétel jobb minőségű környezetben gyengébb osztályzatot kap, mint roszabb minőségű környezetben. Egyenletes teszthalmazt könyebb összeállítani, viszont a valóságban több a jó minőségű felvétel.

Minőség Beszédinformációs rendszerek -- Objektív beszédminõsítés 9 Példa a minőség eloszlására egy valódi rendszer esetén 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 201 401 601 801 1001 1201 1401 1601 1801 2001 Mondatok

MOS (14 ember) Beszédinformációs rendszerek -- Objektív beszédminõsítés 10 A szubjektív vélemény változása a környezet függvényében 5 4,5 4 3,5 3 2,5 2 1,5 1 MOS [valódi] = 3,136 MOS [egyenletes] = 3.258 0,5 0 valódi eloszlás 60 mondat egyenletes eloszlás

Beszédinformációs rendszerek -- Objektív beszédminõsítés 11 Szubjektív minősítés szerepe pontos módszer, bár az eredmény függ a kísérlet körülményeitől tömeges mérésre nem alkalmas, mert drága és lassú az objektív minősítés kiindulási alapja, kalibrálásához szükséges

Beszédinformációs rendszerek -- Objektív beszédminõsítés 12 Objektív (gépi) minősítés feladata az MOS lehető legjobb közelítése a hatékonyság mértékei: maximális korreláció MOS-el 1/n* {(x i -m x ) (y i -m y )} x y minimális négyzetes eltérés MOS-től 1/n* (x i -y i ) 2

Beszédinformációs rendszerek -- Objektív beszédminõsítés 13 Felhasználási területek Analóg beszédátvitel vezetékes telefonok mobil telefonok Digitális beszéd átvitel kis sebességű kódolók,tömörítők (PSQM/ITU P.861, PESQ/ITU P.862) tervezésük során folyamatos kontrollt biztosít GSM kódoló (PSQM +) kiválasztása során nagy mennyiségű szubjektív és objektív tesztett végeztek el IP, ATM (csomag kapcsolt) beszéd átvitel, pl.: VoIP

Beszéd Minőség vs. sávszélesség Lineáris kódolás: 8kHz 16bit : 128 kbps Telefon (nemlineáris: A/ law) 8kHz 8bit (12bit) : 64kbps VoIP (LPC, CELP ) 4-64 kbps Zene CD minőség: 44,1kHz, 16bit (stereo) : 1411 kbps MP3: 64-128-256-384 kbps Realaudio: 32kbps Késleltetés ingadozásra (jitter) érzékeny a realtime média, függetlenül a sávszélességtől. Beszédinformációs rendszerek -- Objektív beszédminõsítés 14

Beszédinformációs rendszerek -- Objektív beszédminõsítés 15 Minősítési eljárások Összehasonlítás alapú mérés beszélő Abszolút besorolás (beszéd --- mérőjel) beszélő hálózat m é r é s hálózat m é r é s hallgató hallgató

A jelfeldolgozás általános menete felvétel referencia Pszichoakusztikus modell távolság számítás Pszichoakusztikus modell optimális leképezés az MOS skálára linearizálás és skála transzformáció belső távolság objektív mérték Beszédinformációs rendszerek -- Objektív beszédminõsítés 16

Beszédinformációs rendszerek -- Objektív beszédminõsítés 17 Pszicho-akusztikus modell Idő - frekvencia leképzés Keretekre vágás rövid idejű (15-50 ms), átlapolódó (50%) keretek Ablakozás Fourier transzformáció Pszicho-akusztikus érzeti modellezés Az emberi hallás modellezésén alapul, célja a hallható különbségek kiemelése, és a nem észlelhetőek elnyomása monoton legyen a kapcsolat a belső távolság és az MOS között

Beszédinformációs rendszerek -- Objektív beszédminõsítés 18 Pszicho-akusztikus modell elemei Transzformálás az érzeti tartományra nemlineáris frekvencia skálák (mel, bark ) Frekvencia elfedés közeli frekvenciák esetén az erősebbik elnyomja a gyengébbet Időbeli elfedés egymás utáni rövid impulzusokat egynek hallunk egy erős hang elnyomja a környező gyengébbeket Pszicho-akusztikus hangosság jel energia és hangosság kapcsolata nemlineáris

Beszédinformációs rendszerek -- Objektív beszédminõsítés 19 Problémák a szabványtól eltérő alkalmazási területen (NMT) Hagyományos (analóg méréseknél, ill. kis bitsebességű kódolóknál ajánlott) módszerek nem használhatók, mert: a csatorna nem stacionárius, nehezen modellezhető az eredeti hanganyag nem használható referenciaként a mérések nem reprodukálhatók az időben változó környezet miatt a jelzésváltás a hangcsatornán belül történik, de ezt nem kell figyelembe venni

Beszédinformációs rendszerek -- Objektív beszédminõsítés 20 referencia felvétel A pszicho-akusztikus modell illesztés a referenciához egy lehetséges megvalósítása előkiemelés 30 ms keretekre vágás, ablakolás keretenkénti energia normalizálás 33 sávú mel-skálás FFT szűrősor A jelfeldolgozás lépései követik az egyszerűsített emberi hallásmodell jellegzetességeit vonal bontás detektálása jelzésváltás detektálása csönd detektálása R inn lineáris torzítás kompenzálása belsõ reprezentásió logaritmikus transzformáció alap zaj hozzáadása szűrősor kimenetek simítása súlyozás

Beszédinformációs rendszerek -- Objektív beszédminõsítés 21 Egy alkalmazás során felmerült speciális jelenségek Jelzésváltás: A hangúton belül történik. Mivel a bázisállomás kezdeményezi, így a kezdete hallható a felvételek során. Csönd detekció: A csendes részeken az additív zaj relatív nagyobb spektrális torzítást okoz, amit kompenzálni kell. Áthallás: Speciális kategóriája a torzításnak, de csak az egyéb zajokkal azonos módon tudjuk kezelni.

Keretenkénti minőséggörbe Beszédinformációs rendszerek -- Objektív beszédminõsítés 22

Korreláció Beszédinformációs rendszerek -- Objektív beszédminõsítés 23 Az illesztés hatása a korrelációra 0,96 0,94 0,92 0,9553 0,9411 0,928 0,9 0,8922 0,88 0,86 0,8466 0,84 0,82 0 ms 10 ms 15 ms 20 ms 25 ms Illesztési hiba

Korreláció nincs lineáris komp. alap zaj simítás Beszédinformációs rendszerek -- Objektív beszédminõsítés 24 alap zaj és simítás alap zaj és lin.komp. simítás és lin. komp. alap zaj és simítás és lin. komp. A pszichoakusztikus modell elemeinek hatása a korrelációra 0.96 0.94 0.92 csatornaváltás detektálása nélkül csatornaváltás detektálásával 0.9 0.88 0.86 0.84 0.82 0.8

Beszédinformációs rendszerek -- Objektív beszédminõsítés 25 Linearizálás és skála transzformáció Belső távolság = (pl.) keretenkénti euklideszi távolság átlaga A belső távolság monoton, de nemlineáris módon követi az MOS-t D lin = log( D inn + c ) /log: kísérletezéssel megállapított fv/ A lineáris távolság skálája nem egyezik az MOS skálával Q obj = a D lin + b Q obj értéke D lin =0 esetén 5.0 kell legyen, ehhez a c kontanst iteratív módon lehet meghatározni

MOS Beszédinformációs rendszerek -- Objektív beszédminõsítés 26 A kísérleti eredmények szórása 5 4,5 MOS vs.belső távolság 4 3,5 Corr. = 0.8892 MSE = 8.9254 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 Belső távolság

MOS Beszédinformációs rendszerek -- Objektív beszédminõsítés 27 A kísérleti eredmények szórása MOS vs. Lineáris távolság 5 4,5 4 3,5 Corr. = 0.9298 MSE = 13.4 3 2,5 2 1,5 1 0,5 0-3 -2-1 0 1 2 3 Linearizált távolság (c = 0)

MOS Beszédinformációs rendszerek -- Objektív beszédminõsítés 28 A kísérleti eredmények szórása MOS vs. Objektív távolság 5 4,5 4 3,5 3 2,5 2 1,5 Corr. = 0.9298 MSE = 0.315 1 0,5 0-2 0 2 4 6 8 Objektív távolság (c = 0)

MOS Beszédinformációs rendszerek -- Objektív beszédminõsítés 29 A kísérleti eredmények szórása MOS vs. Optimális objektív távolság 5 4,5 4 3,5 3 2,5 2 1,5 1 Corr. = 0.9553 MSE = 0.156 0,5 0 0 1 2 3 4 5 Objektív minõség ( c = optimum)

Beszédinformációs rendszerek -- Objektív beszédminõsítés 30 A kísérleti eredmények szórása Illeszkedő eljárással VoIP mérés

Beszédinformációs rendszerek -- Objektív beszédminõsítés 31 A kísérleti eredmények szórása Nem illeszkedő eljárással NMT mérés

Beszédinformációs rendszerek -- Objektív beszédminõsítés 32 A kísérleti eredmények szórása Illeszkedő eljárással NMT mérés

Beszédinformációs rendszerek -- Objektív beszédminõsítés 33 A kísérleti eredmények szórása Nem illeszkedő eljárással VoIP mérés

Beszédinformációs rendszerek -- Objektív beszédminõsítés 34 Aktív vs. passzív mérések Aktív mérések + Irányított mérések, adott/ vett jel ismert + Pontos minőségmérés lehetséges - Plusz terhelést jelent a hálózaton, különösen tömeges mérések esetén - Hozzá kell férni a végpontokhoz - PESQ eljárást is adaptálni kell speciális megoldások esetén Passzív mérések + Nincs szükség plusz terhelésre - Hogyan mérjük ismeretlen jel minőségét? + Elegendő a központi elemekhez hozzáférni

Beszédinformációs rendszerek -- Objektív beszédminõsítés 35 Passzív mérési módszer Ötlet: beszédfelismerés a zajban nehezebb Jellemzők ismert minta esetén Mondat felismerési valószínűsége Többi mondat illeszkedési valószínűsége Általános beszédmodell(ek) illeszkedési valószínűsége Jellemzők ismeretlen minta esetén Általános beszédmodell illeszkedési valószínűsége Mindkét megoldás hasonlóan gyenge a PESQ-hoz képest

Beszédinformációs rendszerek -- Objektív beszédminõsítés 36 Felhasználás 2 Minőség mérés rendszer tesztelés Adat LAN-hoz adódó VoIP forgalom esetén előzetes minőségmérés Összekapcsolt rendszerek esetén egymás ellenőrzése (VoIP VoIP, PSTN VoIP, GSM VoIP) Mesterségesen előállított beszéd minőségének mérése Rádió adások minőségének mérése

Beszédinformációs rendszerek -- Objektív beszédminõsítés 37 Továbblépések Audio jelek minőségének mérése Képek minőségének mérése (tömörítés esetén) Videó jelek minőségének mérése

Beszédinformációs rendszerek -- Objektív beszédminõsítés 38 Jegyzet Könyv: 12.2-es fejezet