Objektív beszédminősítés Fegyó Tibor fegyo@tmit.bme.hu Beszédinformációs rendszerek -- Objektív beszédminõsítés 1
Beszédinformációs rendszerek -- Objektív beszédminõsítés 2 Bevezető kérdések Mi a [beszéd] minőség [a beszédkommunikációban]? Mi befolyásolja a minőséget? Lehet-e mérni szubjektív / objektív módon a minőséget? Mennyire megbízhatóak az értékelések, avagy mindig ugyanúgy értékelünk? Mi alapján értékeljük a beszédet? Mi rontja el a beszéd minőségét? Lehet-e befolyásolni / javítani a beszéd minőségét?
Beszédinformációs rendszerek -- Objektív beszédminõsítés 3 Alkalmazási példák beszédminőség rendszeres mérése telefon csatornán nagyobb rekonstrukció után a minőség változásának kimutatása országos minőségtérkép készítése
Beszédinformációs rendszerek -- Objektív beszédminõsítés 4 Példa hangminták gyűjtésére mobil hálózat háttérzaj, interferencia, fading, lineáris és nemlineáris torzítás beépített mobil adagyűjtő berendezés (PC, telefon, GPS)
Beszédinformációs rendszerek -- Objektív beszédminõsítés 5 Példa hangminták gyűjtésére VoIP hálózat VoIP adó VoIP vevő LAN1 LAN2 Hálózati forgalom szabályozó Minőség mérés kódoló, hangfile Vezérlő csomagvesztés, jitter
Példa torzított felvételekre Beszédinformációs rendszerek -- Objektív beszédminõsítés 6
Szubjektív beszédminősítés Szabvány ITU-T P.800 abszolút értékelés előre definiált skála alapján (ACR) jelenség észlelési tesztek romlás megfigyelése eredetihez képest (DCR) referencia rendszerrel összehasonltás pl. MNRU (Modulated Noise Reference Units P.81) jól meghatározott referenciák MOS (mean opinion score) sok ember véleményének átlaga Beszédinformációs rendszerek -- Objektív beszédminõsítés 7
Beszédinformációs rendszerek -- Objektív beszédminõsítés 8 Az abszolút értékelés problémája A kiválasztott teszthalmaz minőség eloszlásától függ a az egyes felvételek értékelése, mivel ugyanaz a felvétel jobb minőségű környezetben gyengébb osztályzatot kap, mint roszabb minőségű környezetben. Egyenletes teszthalmazt könyebb összeállítani, viszont a valóságban több a jó minőségű felvétel.
Minőség Beszédinformációs rendszerek -- Objektív beszédminõsítés 9 Példa a minőség eloszlására egy valódi rendszer esetén 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 201 401 601 801 1001 1201 1401 1601 1801 2001 Mondatok
MOS (14 ember) Beszédinformációs rendszerek -- Objektív beszédminõsítés 10 A szubjektív vélemény változása a környezet függvényében 5 4,5 4 3,5 3 2,5 2 1,5 1 MOS [valódi] = 3,136 MOS [egyenletes] = 3.258 0,5 0 valódi eloszlás 60 mondat egyenletes eloszlás
Beszédinformációs rendszerek -- Objektív beszédminõsítés 11 Szubjektív minősítés szerepe pontos módszer, bár az eredmény függ a kísérlet körülményeitől tömeges mérésre nem alkalmas, mert drága és lassú az objektív minősítés kiindulási alapja, kalibrálásához szükséges
Beszédinformációs rendszerek -- Objektív beszédminõsítés 12 Objektív (gépi) minősítés feladata az MOS lehető legjobb közelítése a hatékonyság mértékei: maximális korreláció MOS-el 1/n* {(x i -m x ) (y i -m y )} x y minimális négyzetes eltérés MOS-től 1/n* (x i -y i ) 2
Beszédinformációs rendszerek -- Objektív beszédminõsítés 13 Felhasználási területek Analóg beszédátvitel vezetékes telefonok mobil telefonok Digitális beszéd átvitel kis sebességű kódolók,tömörítők (PSQM/ITU P.861, PESQ/ITU P.862) tervezésük során folyamatos kontrollt biztosít GSM kódoló (PSQM +) kiválasztása során nagy mennyiségű szubjektív és objektív tesztett végeztek el IP, ATM (csomag kapcsolt) beszéd átvitel, pl.: VoIP
Beszéd Minőség vs. sávszélesség Lineáris kódolás: 8kHz 16bit : 128 kbps Telefon (nemlineáris: A/ law) 8kHz 8bit (12bit) : 64kbps VoIP (LPC, CELP ) 4-64 kbps Zene CD minőség: 44,1kHz, 16bit (stereo) : 1411 kbps MP3: 64-128-256-384 kbps Realaudio: 32kbps Késleltetés ingadozásra (jitter) érzékeny a realtime média, függetlenül a sávszélességtől. Beszédinformációs rendszerek -- Objektív beszédminõsítés 14
Beszédinformációs rendszerek -- Objektív beszédminõsítés 15 Minősítési eljárások Összehasonlítás alapú mérés beszélő Abszolút besorolás (beszéd --- mérőjel) beszélő hálózat m é r é s hálózat m é r é s hallgató hallgató
A jelfeldolgozás általános menete felvétel referencia Pszichoakusztikus modell távolság számítás Pszichoakusztikus modell optimális leképezés az MOS skálára linearizálás és skála transzformáció belső távolság objektív mérték Beszédinformációs rendszerek -- Objektív beszédminõsítés 16
Beszédinformációs rendszerek -- Objektív beszédminõsítés 17 Pszicho-akusztikus modell Idő - frekvencia leképzés Keretekre vágás rövid idejű (15-50 ms), átlapolódó (50%) keretek Ablakozás Fourier transzformáció Pszicho-akusztikus érzeti modellezés Az emberi hallás modellezésén alapul, célja a hallható különbségek kiemelése, és a nem észlelhetőek elnyomása monoton legyen a kapcsolat a belső távolság és az MOS között
Beszédinformációs rendszerek -- Objektív beszédminõsítés 18 Pszicho-akusztikus modell elemei Transzformálás az érzeti tartományra nemlineáris frekvencia skálák (mel, bark ) Frekvencia elfedés közeli frekvenciák esetén az erősebbik elnyomja a gyengébbet Időbeli elfedés egymás utáni rövid impulzusokat egynek hallunk egy erős hang elnyomja a környező gyengébbeket Pszicho-akusztikus hangosság jel energia és hangosság kapcsolata nemlineáris
Beszédinformációs rendszerek -- Objektív beszédminõsítés 19 Problémák a szabványtól eltérő alkalmazási területen (NMT) Hagyományos (analóg méréseknél, ill. kis bitsebességű kódolóknál ajánlott) módszerek nem használhatók, mert: a csatorna nem stacionárius, nehezen modellezhető az eredeti hanganyag nem használható referenciaként a mérések nem reprodukálhatók az időben változó környezet miatt a jelzésváltás a hangcsatornán belül történik, de ezt nem kell figyelembe venni
Beszédinformációs rendszerek -- Objektív beszédminõsítés 20 referencia felvétel A pszicho-akusztikus modell illesztés a referenciához egy lehetséges megvalósítása előkiemelés 30 ms keretekre vágás, ablakolás keretenkénti energia normalizálás 33 sávú mel-skálás FFT szűrősor A jelfeldolgozás lépései követik az egyszerűsített emberi hallásmodell jellegzetességeit vonal bontás detektálása jelzésváltás detektálása csönd detektálása R inn lineáris torzítás kompenzálása belsõ reprezentásió logaritmikus transzformáció alap zaj hozzáadása szűrősor kimenetek simítása súlyozás
Beszédinformációs rendszerek -- Objektív beszédminõsítés 21 Egy alkalmazás során felmerült speciális jelenségek Jelzésváltás: A hangúton belül történik. Mivel a bázisállomás kezdeményezi, így a kezdete hallható a felvételek során. Csönd detekció: A csendes részeken az additív zaj relatív nagyobb spektrális torzítást okoz, amit kompenzálni kell. Áthallás: Speciális kategóriája a torzításnak, de csak az egyéb zajokkal azonos módon tudjuk kezelni.
Keretenkénti minőséggörbe Beszédinformációs rendszerek -- Objektív beszédminõsítés 22
Korreláció Beszédinformációs rendszerek -- Objektív beszédminõsítés 23 Az illesztés hatása a korrelációra 0,96 0,94 0,92 0,9553 0,9411 0,928 0,9 0,8922 0,88 0,86 0,8466 0,84 0,82 0 ms 10 ms 15 ms 20 ms 25 ms Illesztési hiba
Korreláció nincs lineáris komp. alap zaj simítás Beszédinformációs rendszerek -- Objektív beszédminõsítés 24 alap zaj és simítás alap zaj és lin.komp. simítás és lin. komp. alap zaj és simítás és lin. komp. A pszichoakusztikus modell elemeinek hatása a korrelációra 0.96 0.94 0.92 csatornaváltás detektálása nélkül csatornaváltás detektálásával 0.9 0.88 0.86 0.84 0.82 0.8
Beszédinformációs rendszerek -- Objektív beszédminõsítés 25 Linearizálás és skála transzformáció Belső távolság = (pl.) keretenkénti euklideszi távolság átlaga A belső távolság monoton, de nemlineáris módon követi az MOS-t D lin = log( D inn + c ) /log: kísérletezéssel megállapított fv/ A lineáris távolság skálája nem egyezik az MOS skálával Q obj = a D lin + b Q obj értéke D lin =0 esetén 5.0 kell legyen, ehhez a c kontanst iteratív módon lehet meghatározni
MOS Beszédinformációs rendszerek -- Objektív beszédminõsítés 26 A kísérleti eredmények szórása 5 4,5 MOS vs.belső távolság 4 3,5 Corr. = 0.8892 MSE = 8.9254 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 Belső távolság
MOS Beszédinformációs rendszerek -- Objektív beszédminõsítés 27 A kísérleti eredmények szórása MOS vs. Lineáris távolság 5 4,5 4 3,5 Corr. = 0.9298 MSE = 13.4 3 2,5 2 1,5 1 0,5 0-3 -2-1 0 1 2 3 Linearizált távolság (c = 0)
MOS Beszédinformációs rendszerek -- Objektív beszédminõsítés 28 A kísérleti eredmények szórása MOS vs. Objektív távolság 5 4,5 4 3,5 3 2,5 2 1,5 Corr. = 0.9298 MSE = 0.315 1 0,5 0-2 0 2 4 6 8 Objektív távolság (c = 0)
MOS Beszédinformációs rendszerek -- Objektív beszédminõsítés 29 A kísérleti eredmények szórása MOS vs. Optimális objektív távolság 5 4,5 4 3,5 3 2,5 2 1,5 1 Corr. = 0.9553 MSE = 0.156 0,5 0 0 1 2 3 4 5 Objektív minõség ( c = optimum)
Beszédinformációs rendszerek -- Objektív beszédminõsítés 30 A kísérleti eredmények szórása Illeszkedő eljárással VoIP mérés
Beszédinformációs rendszerek -- Objektív beszédminõsítés 31 A kísérleti eredmények szórása Nem illeszkedő eljárással NMT mérés
Beszédinformációs rendszerek -- Objektív beszédminõsítés 32 A kísérleti eredmények szórása Illeszkedő eljárással NMT mérés
Beszédinformációs rendszerek -- Objektív beszédminõsítés 33 A kísérleti eredmények szórása Nem illeszkedő eljárással VoIP mérés
Beszédinformációs rendszerek -- Objektív beszédminõsítés 34 Aktív vs. passzív mérések Aktív mérések + Irányított mérések, adott/ vett jel ismert + Pontos minőségmérés lehetséges - Plusz terhelést jelent a hálózaton, különösen tömeges mérések esetén - Hozzá kell férni a végpontokhoz - PESQ eljárást is adaptálni kell speciális megoldások esetén Passzív mérések + Nincs szükség plusz terhelésre - Hogyan mérjük ismeretlen jel minőségét? + Elegendő a központi elemekhez hozzáférni
Beszédinformációs rendszerek -- Objektív beszédminõsítés 35 Passzív mérési módszer Ötlet: beszédfelismerés a zajban nehezebb Jellemzők ismert minta esetén Mondat felismerési valószínűsége Többi mondat illeszkedési valószínűsége Általános beszédmodell(ek) illeszkedési valószínűsége Jellemzők ismeretlen minta esetén Általános beszédmodell illeszkedési valószínűsége Mindkét megoldás hasonlóan gyenge a PESQ-hoz képest
Beszédinformációs rendszerek -- Objektív beszédminõsítés 36 Felhasználás 2 Minőség mérés rendszer tesztelés Adat LAN-hoz adódó VoIP forgalom esetén előzetes minőségmérés Összekapcsolt rendszerek esetén egymás ellenőrzése (VoIP VoIP, PSTN VoIP, GSM VoIP) Mesterségesen előállított beszéd minőségének mérése Rádió adások minőségének mérése
Beszédinformációs rendszerek -- Objektív beszédminõsítés 37 Továbblépések Audio jelek minőségének mérése Képek minőségének mérése (tömörítés esetén) Videó jelek minőségének mérése
Beszédinformációs rendszerek -- Objektív beszédminõsítés 38 Jegyzet Könyv: 12.2-es fejezet