Objektív beszédminısítés Fegyó Tibor fegyo@tmit.bme.hu Beszédinformációs rendszerek -- Objektív beszédminõsítés 1 Bevezetı kérdések Mi a [beszéd] minıség [a beszédkommunikációban]? Mi befolyásolja a minıséget? Lehet-e mérni szubjektív / objektív módon a minıséget? Mennyire megbízhatóak az értékelések, avagy mindig ugyanúgy értékelünk? Mi alapján értékeljük a beszédet? Mi rontja el a beszéd minıségét? Lehet-e befolyásolni / javítani a beszéd minıségét? Beszédinformációs rendszerek -- Objektív beszédminõsítés 2 1
Alkalmazási példák beszédminıség rendszeres mérése telefon csatornán nagyobb rekonstrukció után a minıség változásának kimutatása országos minıségtérkép készítése Beszédinformációs rendszerek -- Objektív beszédminõsítés 3 Példa hangminták győjtésére mobil hálózat háttérzaj, interferencia, fading, lineáris és nemlineáris torzítás beépített mobil adagyőjtı berendezés (PC, telefon, GPS) Beszédinformációs rendszerek -- Objektív beszédminõsítés 4 2
3 Példa hangminták győjtésére VoIP hálózat VoIP adó VoIP vevı LAN1 LAN2 Hálózati forgalom szabályozó Minıség mérés kódoló, hangfile Vezérlı csomagvesztés, jitter Beszédinformációs rendszerek -- Objektív beszédminõsítés 5 Példa torzított felvételekre Beszédinformációs rendszerek -- Objektív beszédminõsítés 6
Szubjektív beszédminısítés Szabvány ITU-T P.800 abszolút értékelés elıre definiált skála alapján (ACR) jelenség észlelési tesztek romlás megfigyelése eredetihez képest (DCR) referencia rendszerrel összehasonltás pl. MNRU (Modulated Noise Reference Units P.81) jól meghatározott referenciák MOS (mean opinion score) sok ember véleményének átlaga Beszédinformációs rendszerek -- Objektív beszédminõsítés 7 Az abszolút értékelés problémája A kiválasztott teszthalmaz minıség eloszlásától függ a az egyes felvételek értékelése, mivel ugyanaz a felvétel jobb minıségő környezetben gyengébb osztályzatot kap, mint roszabb minıségő környezetben. Egyenletes teszthalmazt könyebb összeállítani, viszont a valóságban több a jó minıségő felvétel. Beszédinformációs rendszerek -- Objektív beszédminõsítés 8 4
Minıség Példa a minıség eloszlására egy valódi rendszer esetén 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 201 401 601 801 1001 1201 1401 1601 1801 2001 Mondatok Beszédinformációs rendszerek -- Objektív beszédminõsítés 9 A szubjektív vélemény változása a környezet függvényében 5 4,5 4 MOS (14 ember) 3,5 3 2,5 2 1,5 1 MOS [valódi] = 3,136 MOS [egyenletes] = 3.258 0,5 0 valódi eloszlás 60 mondat egyenletes eloszlás Beszédinformációs rendszerek -- Objektív beszédminõsítés 10 5
Szubjektív minısítés szerepe pontos módszer, bár az eredmény függ a kísérlet körülményeitıl tömeges mérésre nem alkalmas, mert drága és lassú az objektív minısítés kiindulási alapja, kalibrálásához szükséges Beszédinformációs rendszerek -- Objektív beszédminõsítés 11 Objektív (gépi) minısítés feladata az MOS lehetı legjobb közelítése a hatékonyság mértékei: maximális korreláció MOS-el 1/n*Σ{(x i -m x ) (y i -m y )} σ x σ y minimális négyzetes eltérés MOS-tıl 1/n* Σ (x i -y i ) 2 Beszédinformációs rendszerek -- Objektív beszédminõsítés 12 6
Felhasználási területek Analóg beszédátvitel vezetékes telefonok mobil telefonok Digitális beszéd átvitel kis sebességő kódolók,tömörítık (PSQM/ITU P.861, PESQ/ITU P.862) tervezésük során folyamatos kontrollt biztosít GSM kódoló (PSQM +) kiválasztása során nagy mennyiségő szubjektív és objektív tesztett végeztek el IP, ATM (csomag kapcsolt) beszéd átvitel, pl.: VoIP Beszédinformációs rendszerek -- Objektív beszédminõsítés 13 Beszéd Minıség vs. sávszélesség Lineáris kódolás: 8kHz 16bit : 128 kbps Telefon (nemlineáris: A/µ law) 8kHz 8bit (12bit) : 64kbps VoIP (LPC, CELP ) 4-64 kbps Zene CD minıség: 44,1kHz, 16bit (stereo) : 1411 kbps MP3: 64-128-256-384 kbps Realaudio: 32kbps Késleltetés ingadozásra (jitter) érzékeny a realtime média, függetlenül a sávszélességtıl. Beszédinformációs rendszerek -- Objektív beszédminõsítés 14 7
8 Minısítési eljárások Összehasonlítás alapú mérés beszélı Abszolút besorolás (beszéd --- mérıjel) beszélı hálózat m é r é s hálózat m é r é s hallgató hallgató Beszédinformációs rendszerek -- Objektív beszédminõsítés 15 A jelfeldolgozás általános menete felvétel referencia Pszichoakusztikus modell Pszichoakusztikus modell R inn távolság számítás R inn optimális leképezés az MOS skálára linearizálás és skála transzformáció belsı távolság objektív mérték Beszédinformációs rendszerek -- Objektív beszédminõsítés 16
Pszicho-akusztikus modell Idı - frekvencia leképzés Keretekre vágás rövid idejő (15-50 ms), átlapolódó (50%) keretek Ablakozás Fourier transzformáció Pszicho-akusztikus érzeti modellezés Az emberi hallás modellezésén alapul, célja a hallható különbségek kiemelése, és a nem észlelhetıek elnyomása monoton legyen a kapcsolat a belsı távolság és az MOS között Beszédinformációs rendszerek -- Objektív beszédminõsítés 17 Pszicho-akusztikus modell elemei Transzformálás az érzeti tartományra nemlineáris frekvencia skálák (mel, bark ) Frekvencia elfedés közeli frekvenciák esetén az erısebbik elnyomja a gyengébbet Idıbeli elfedés egymás utáni rövid impulzusokat egynek hallunk egy erıs hang elnyomja a környezı gyengébbeket Pszicho-akusztikus hangosság jel energia és hangosság kapcsolata nemlineáris Beszédinformációs rendszerek -- Objektív beszédminõsítés 18 9
10 Problémák a szabványtól eltérı alkalmazási területen (NMT) Hagyományos (analóg méréseknél, ill. kis bitsebességő kódolóknál ajánlott) módszerek nem használhatók, mert: a csatorna nem stacionárius, nehezen modellezhetı az eredeti hanganyag nem használható referenciaként a mérések nem reprodukálhatók az idıben változó környezet miatt a jelzésváltás a hangcsatornán belül történik, de ezt nem kell figyelembe venni Beszédinformációs rendszerek -- Objektív beszédminõsítés 19 referencia felvétel A pszicho-akusztikus modell egy lehetséges megvalósítása illesztés a referenciához elıkiemelés 30 ms keretekre vágás, ablakolás A jelfeldolgozás lépései követik az egyszerősített emberi hallásmodell jellegzetességeit keretenkénti energia normalizálás 33 sávú mel-skálás FFT szőrısor vonal bontás detektálása jelzésváltás detektálása R inn lineáris torzítás kompenzálása belsõ reprezentásió logaritmikus transzformáció alap zaj hozzáadása szőrısor kimenetek simítása csönd detektálása súlyozás Beszédinformációs rendszerek -- Objektív beszédminõsítés 20
Egy alkalmazás során felmerült speciális jelenségek Jelzésváltás: A hangúton belül történik. Mivel a bázisállomás kezdeményezi, így a kezdete hallható a felvételek során. Csönd detekció: A csendes részeken az additív zaj relatív nagyobb spektrális torzítást okoz, amit kompenzálni kell. Áthallás: Speciális kategóriája a torzításnak, de csak az egyéb zajokkal azonos módon tudjuk kezelni. Beszédinformációs rendszerek -- Objektív beszédminõsítés 21 Keretenkénti minıséggörbe Beszédinformációs rendszerek -- Objektív beszédminõsítés 22 11
12 Az illesztés hatása a korrelációra 0,96 0,9553 0,94 0,9411 0,928 0,92 Korreláció 0,9 0,88 0,8922 0,86 0,8466 0,84 0,82 0 ms 10 ms 15 ms 20 ms 25 ms Illesztési hiba Beszédinformációs rendszerek -- Objektív beszédminõsítés 23 Korreláció 0.96 0.94 0.92 0.9 0.88 0.86 0.84 0.82 0.8 A pszichoakusztikus modell elemeinek hatása a korrelációra csatornaváltás detektálása nélkül csatornaváltás detektálásával nincs lineáris komp. alap zaj simítás alap zaj és simítás alap zaj és lin.komp. simítás és lin. komp. alap zaj és simítás és lin. komp. Beszédinformációs rendszerek -- Objektív beszédminõsítés 24
Linearizálás és skála transzformáció Belsı távolság = (pl.) keretenkénti euklideszi távolság átlaga A belsı távolság monoton, de nemlineáris módon követi az MOS-t D lin = log( D inn + c ) /log: kísérletezéssel megállapított fv/ A lineáris távolság skálája nem egyezik az MOS skálával Q obj = a D lin + b Q obj értéke D lin =0 esetén 5.0 kell legyen, ehhez a c kontanst iteratív módon lehet meghatározni Beszédinformációs rendszerek -- Objektív beszédminõsítés 25 A kísérleti eredmények szórása MOS vs.belsı távolság 5 4,5 4 3,5 Corr. = 0.8892 MSE = 8.9254 MOS 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 Be lsı táv ols ág Beszédinformációs rendszerek -- Objektív beszédminõsítés 26 13
14 A kísérleti eredmények szórása MOS vs. Lineáris távolság 5 4,5 4 3,5 Corr. = 0.9298 MSE = 13.4 3 MOS 2,5 2 1,5 1 0,5 0-3 -2-1 0 1 2 3 Linearizált távolság (c = 0) Beszédinformációs rendszerek -- Objektív beszédminõsítés 27 A kísérleti eredmények szórása MOS vs. Objektív távolság 5 4,5 4 3,5 3 MOS 2,5 2 1,5 1 0,5 Corr. = 0.9298 MSE = 0.315 0-2 0 2 4 6 8 Objektív távolság (c = 0) Beszédinformációs rendszerek -- Objektív beszédminõsítés 28
15 A kísérleti eredmények szórása MOS vs. Optimális objektív távolság MOS 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Corr. = 0.9553 MSE = 0.156 0 1 2 3 4 5 Objektív minõség ( c = optimum) Beszédinformációs rendszerek -- Objektív beszédminõsítés 29 A kísérleti eredmények szórása Illeszkedı eljárással VoIP mérés Beszédinformációs rendszerek -- Objektív beszédminõsítés 30
16 A kísérleti eredmények szórása Nem illeszkedı eljárással NMT mérés Beszédinformációs rendszerek -- Objektív beszédminõsítés 31 A kísérleti eredmények szórása Illeszkedı eljárással NMT mérés Beszédinformációs rendszerek -- Objektív beszédminõsítés 32
17 A kísérleti eredmények szórása Nem illeszkedı eljárással VoIP mérés Beszédinformációs rendszerek -- Objektív beszédminõsítés 33 Aktív vs. passzív mérések Aktív mérések + Irányított mérések, adott/ vett jel ismert + Pontos minıségmérés lehetséges - Plusz terhelést jelent a hálózaton, különösen tömeges mérések esetén - Hozzá kell férni a végpontokhoz - PESQ eljárást is adaptálni kell speciális megoldások esetén Passzív mérések + Nincs szükség plusz terhelésre - Hogyan mérjük ismeretlen jel minıségét? + Elegendı a központi elemekhez hozzáférni Beszédinformációs rendszerek -- Objektív beszédminõsítés 34
Passzív mérési módszer Ötlet: beszédfelismerés a zajban nehezebb Jellemzık ismert minta esetén Mondat felismerési valószínősége Többi mondat illeszkedési valószínősége Általános beszédmodell(ek) illeszkedési valószínősége Jellemzık ismeretlen minta esetén Általános beszédmodell illeszkedési valószínősége Mindkét megoldás hasonlóan gyenge a PESQ-hoz képest Beszédinformációs rendszerek -- Objektív beszédminõsítés 35 Felhasználás 2 Minıség mérés rendszer tesztelés Adat LAN-hoz adódó VoIP forgalom esetén elızetes minıségmérés Összekapcsolt rendszerek esetén egymás ellenırzése (VoIP VoIP, PSTN VoIP, GSM VoIP) Mesterségesen elıállított beszéd minıségének mérése Rádió adások minıségének mérése Beszédinformációs rendszerek -- Objektív beszédminõsítés 36 18
Továbblépések Audio jelek minıségének mérése Képek minıségének mérése (tömörítés esetén) Videó jelek minıségének mérése Beszédinformációs rendszerek -- Objektív beszédminõsítés 37 19