Beszéd alapfrekvencia követés hatékony zöngésség detektálással

Beszéd alapfrekvencia köveés haékony zöngésség deekálással Bárdi Tamás, PhD hallgaó Pázmány Péer Kaolikus Egyeem, Információs Technológia Kar Cím: 1083 Budapes Práer u 50/A. e-mail: bardi.amas@ik.ppke.hu Abszrak - A beszédjel alapfrekvenciá meghaározó algorimusok, más néven pich deekorok helyes mködése csak úgy leheséges, ha az auomaikus zöngés-zöngélen megkülönbözeés is megbízhaó. Az alábbiakban ismerejük pich deekorunka, melyben a zöngésség deekálása a konkurens módszereknél alacsonyabb hiba százalékkal mködik. Algorimusunk a jól ismer auokorrelációs módszeren alapszik. Algorimusunk zöngésség deekáló erejé egy olyan adabázison vizsgáluk, melyben a beszéddel szinkronban laryngográf jele is rögzíeek. I. BEVEZET Az emberi hallás modern elméleei hiel érdemlen megállapíoák, hogy a hangmagasság (pich) észlelés nem mindig van egy-egy érelm kapcsolaban az alapfrekvenciával (F0). Ennek ellenére a digiális beszéd-feldolgozásban az F0 becsl módszereke hagyományosan pich deekor algorimusoknak (PDA) nevezik. A ényleges beszéddallamo jól közelí pich konúr sok alkalmazásban hasznosíhaó. Jelens szerepe van a prozódikus elemzésekben. Ilyen például a monda hangsúlyos helyeinek megalálása a hanglejés alapján, vagy a kérd és kijelen mondaok auomaikus megkülönbözeése. A beszédfelismerés a onális nyelveken, min például a kínai vagy a vienami, megoldhaalan pich deekor nélkül. A szakirodalomban pich deekor émában jó néhány módszer láo napvilágo az elmúl évizedekben [10], a legszélesebb kör áekinésük Hess-nél olvashaó [7]. A megoldások öbbsége mérsékel eljesíményével elégedelenségre adha oko, de azér van néhány egészen jó is. Ilyen Bagshaw esrpd [3, 4] módszere, amely kevesebb, min 1%-ban becsli rosszul az alapfrekvenciá, ha zönge van a beszédben. De a zöngés gerjeszés megléé vagy hiányá már 3-4% hibával deekálja. Álalánosságban elmondhaó, hogy nyelvani jelenéssel bíró pich csak a zöngés szegmenumokon figyelhe meg. Ezér pich frekvencia meghaározásának feléele a jó zöngésség deekció. A zöngés-zöngélen megkülönbözeés (V/UV - voiced/unvoiced) szerepe a beszédfelismerésben is jelens, hiszen számos olyan szópár van, pl. kö - köd, melyek kiejésben csak egyik mássalhangzójuk zöngésségében különböznek. Egy zöngésség meghaározására szolgáló algorimus (VDA - voicing deerminaion algorihm) gyakran implici része egy PDA-nak vagy beszédfelismernek, de megvalósíhaó különállóan is. Számos VDA szülee [7, 1] már különféle elméleek beveésével, közülük néhány igazán figyelemre méló, jó eljesímény azonban csak nagyon kevés mua. A pich deekoroknál álalában a V/UV éveszések nagyobb százalékban fordulnak el, min az F0 becslési hibák. Aal és Rabiner [1,, 8] egy ö dönési paraméer használó VDA-val próbálkozo saiszikus mináza-felismerési megközelíés alkalmazva. Módszerük 4%-os hibaarány ado egy nehezebb felada megoldásában, nevezeesen a zöngés/zöngélen/csendes (nincs beszéd) (V/U/S - voiced/unvoiced/silen) oszályozásban az egyszerbb zöngés/zöngélen (V/UV) dönés helye. Egy PDA- épíeünk, melyben egy haékony beépíe zöngésség deekor mködik. Algorimusunk az auokorreláció függvényen (ACF) alapszik. A zönge deekcióban módszerünk %-hoz közeli hibaarány ér el. Az algorimus, ha az ACF számíásához FFT- alkalmazunk, kevesebb, min megaflop per szekundum processzorigénnyel megvalósíhaó 8 khz-es minavéelezés melle. Az alábbi szakaszok az algorimus moduláris szerkezeének megfelelen szervezdek. A. szakasz az elfeldolgozó rész árgyalja. Preprocesszorunka úgy ervezük, hogy a V/UV megkülönbözeés a lehe legjobban segíse, az emlíe hibaarány elérésében nélkülözheelen szerepe jászik. Az elfeldolgozás uán a beszédjelbl rövid idaramú szakaszok kerülnek a basic exracor-nak neveze egységhez. I számíjuk az ACF-e, majd ebbl nyerjük a V/UV dönéshez és az F0 becsléshez szükséges

paraméereke. Ebbl a részbl "halszálka" módszer alkalmazása érdemel emlíés, amely az "F0 a fels limien" ípusú hibáka csökkeni. Mindezeke a 3. szakasz árgyalja. Az egyszer, de haékony beépíe VDA részleezése és kiérékelése a 4. szakasz és egyben cikkünk f árgya. A V/UV dönés ké paraméeren alapszik, mindke egy-egy küszöbbel hasonlíjuk össze. Ez a kéküszöbös módszer szinén hozzájárul a hibaszázalék csökkenéséhez. A szakirodalomban szokásos az elállío pich konúrok uólagos simíására egy poszprocesszor alkalmazni. Ilye mi nem használunk, mer a vizsgálaunk célja a beépíe VDA képességének felmérése vol. A kiérékelésben a fókusz a megbízhaó zöngésség deekálásra helyezük. II. A BESZÉDJEL ELFELDOLGOZÓ Álalában egy PDA három f komponensbl épül fel: 1) preprocesszor, ) basic exracor, 3) poszprocesszor. A preprocesszor f feladaa úgy ranszformálni a beszédjele, hogy uána az F0 becslés és a zönge deekálás könnyebb legyen. A basic exracor rendszerin a beszédjelbl ve ipikusan 0-50 milliszekundumos ablakokon dolgozik. A megkülönbözeés azonban, hogy mely mveleek aroznak a preprocesszorhoz és melyek a basic exracorhoz nagyon gyakran csak formális jelenség. Ha elbb kivesszük az ablako a beszédjelbl, majd azon fuajuk a preprocesszor, akkor egyrész fölöslegesen duplikálunk egy csomó számíás, ha az ablakok áfedik egymás, másrész a preprocesszor és a basic exracor munkájá nehéz lesz külön-külön vizsgálni. Ha így eszünk, nem udjuk például összefüggen meghallgani a preprocesszorból kijöv jele. A javaslaunk, hogy inkább fuassuk a preprocesszor a beszédjel eljes hosszában, majd ebbl vegyünk ablakoka és küldjük ke a basic exracor-hoz elemzésre. Ha így eszünk, érzékszervileg megfigyelhevé válik a rendszer egy bels állapoában. Érzékszervi ellenrz ponok elhelyezése egy összee beszédfeldolgozó rendszer belsejében segíhei az empirikusan opimálandó paraméerek szerencsés megválaszásá. Elfeldolgozónka részben fülre "opimáluk": finomhangolásakor a kimenee mindig visszahallgava néhány paraméeré addig állígauk, amíg a hangzás alapján úgy nem érezük, hogy jó lesz. Preprocesszorunkban alul-áeresz szrés és ún. cenerclip-e, magyarul középre vágás használunk. Mindke igen elerjed a pich deekorok szakirodalmában [6, 9, 11]. Az alul-áenged szrnk (Csebisev I-es ípus) és a cener clip karakeriszikájá az 1. ábra muaja. 1. ábra: Az elfeldolgozóban alkalmazo alul-áeresz szr és a cener clip karakeriszikája. Az adapív középre vágás echnikája idben válozó vágási szine alkalmaz, mely a jel ampliúdójának függvényében válozik. Álalában ez a válozó középre vágási szin a beszédjel valamilyen burkolójának egy rögzíe százaléka. A módszerünkben az újíás, hogy kombinálja a ké lépés, az alul áeresz szrés és a középre vágás. A burkoló az eredei beszédjel ampliúdójából számíjuk, majd ennek 40%-á alkalmazzuk válozó középre vágási szinkén, de már a szr jelen. Mivel a iszán szohaszikus gerjeszés beszéd szegmenumokon álalában ennél nagyobb a nagy frekvenciás komponensek részaránya, a módszerünk a zöngélen mássalhangzóka gyakorlailag mindenü nullára redukálja. A, 3. és 4. ábra muaja a preprocesszorunk mködésé. A 4. ábrán láhaó, hogy a módszerünk növeli a jel periodikusságá a zöngés szegmenumon (az ACF nagyobb lesz az alapperiódus idnél), ugyanakkor nullává válik a kimene a zöngélenen. Ez az effekus jelensen javíja az auomaikus V/UV dönés esélyei.

. ábra: Az eredei beszédjel a burkolójával és a szr jel. 3. ábra: A szr jel és a válozó középre vágási szin. 4.ábra: Az eredei beszédjel és a preprocesszor kimenee.

III: A BASIC EXTRACTOR A PDA-nak ez a része elször a beszéd ablak auokorreláció függvényé számíja ki, majd az algorimus az ACF "legjobb" csúcsá keresi meg. Az ACF éréke a kiválaszo csúcsnál, min a periodiciás egy méréke a zöngésség deekálására szolgál, a csúcs elolási ideje pedig a periódus id becsli. De hogy aláljuk meg a "legjobb" csúcso? Amin az a késbbiekben láni fogjuk, a "legjobb" lokális maximum korán sem felélenül globális is egyben. Elöljáróban megjegyezzük, hogy az összes i leír képleben az id dimenziójú válozók és konsansok (,, u, W) másodpercben érendk, a beszédjel kezelése analóg: inegrálokkal, folyonos idvel és ampliúdóval. Az ampliúdó a rendszerben feldolgozhaó maximális ampliúdó arányában jelöljük: 1.0 x ( ) 1. 0. A feni jelölésekkel bizosíjuk a árgyalás függelenségé a minavéeli frekvenciáól és bi-mélységl. Konkré alkalmazásban a minavéeli frekvencia és a minák számábrázolása ismereében formuláink könnyen a megfelel digiális válozara konverálhaók. A rövid ávú auokorrelációnak a jelfeldolgozásban gyakran használ "rézsúos" (biased) definíciója helye de Cheveigné [5] javaslaa alapján annak "egyenes" (unbiased) definíciójá használjuk, majd az ACF-e meserségesen lejsíjük. (W az ablak hossza, a vizsgála során 3 ms- használunk) + W W ( ) = + W r x( u) x( u τ ) du τ (,, u, W szekundumban) (1) W x( u) du és a meserséges lejés (a gr ényezvel szabályozhajuk az ersségé): r ( τ ) = r ( τ ) (1 gr τ ) biased () Az ACF lejése okáv éveszés elkerülése mia fonos, így a ényleges alapperiódusnak elny bizosíhaunk a öbbszöröseivel szemben. A "rézsúos" definíció a lejés auomaikusan bizosíja, de ennek méréke kizárólag W-l függ. A meserséges lejéssel az ablak hossz és a "lejszög" külön-külön hangolhaó. Mélyhangok kezdei szakaszán az ACF maximuma gyakran a keresési inervallum szélére esik. Ez a jelenség okozza az "F0 a fels limien" ípusú hibáka, melyre az 5. ábrán láhaunk egy példá. 5. ábra: Egy alacsony frekvenciás (67 Hz) hang kezdei szakasza és annak auokorrelációja. Az ACF nagyobb éréke vesz fel a keresési aromány szélén, min az alapperiódus idnél. Megoldási javaslaunk a problémára a "halszálka" módszer, a szkeleon függvény alkalmazása. Egy függvény szkeleonja a függvény éréké veszi fel annak lokális széls érékeinél és nullá egyébkén. I a céljainknak a lokális széls érék szigorú és nem szigorú definíciói közöi ámene felel meg. A 6. ábra muaja érelmezésünke.

Definíció: Definíció: 6. ábra: A szkeleon függvény 0 ahol az eredeije vízszines. f : R R valós függvénynek lokális széls éréke van x - ben, ha f nem szigorúan monoon és nem sík x - ben. g = skeleon( f ) akkor és csak akkor f ( x) ( x) = 0 ha f - nek lokális széls éréke van x - ben g (3) egyébkén A meserséges lejés ellenére a iszán zöngés hangok elhalkuló végein az ACF hajlamos a ényleges alapperiódus id öbbszöröseinél egyre növekv csúcsoka muani, amin az a 7. ábrán láhaó. 7. ábra: Egy magánhangzó elhalkuló vége és annak auokorrelációja. Ez a jelenség csak olyankor fordulha el, ha az ACF a periódus idnél 1-hez közeli vagy afölöi éréke vesz fel. Ezér a probléma megoldására egy preferencia szin bevezeésé javasoljuk. Az algorimus válassza az els csúcso, ami a preferencia szine meghaladja. Ha ilyen nincs, akkor a legmagasabb csúcso. Mi apaszalai alapon 0.75-ö használunk preferencia szinkén. Összegezve a basic exracor algorimusunk lépései a korrek végrehajási sorrendben a kövekezk: Sep 1: Az ACF kiszámíása (1) szerin. Sep : Szálkásíás: sr ( τ ) = skeleon( r ( τ )). Sep 3: A keresési aromány korláozása (limied skeleon): Legyen [ F 0 min 0.5 srl ( ) = sr ( τ ) 0.5 ; F 0 max ha ha ha ] a keresési inervallum, τ < 1/ F0 1/ F0 max τ > 1/ F0 max τ (4) τ 1/ F0 min min

Sep 4: Meserséges lejés: srl biased ( τ ) (1 gr τ ) srl ( τ ) = ; ahol gr=1.75 (5) Sep 5: F0 becslés. Sep 5/A: Preferencia szin alkalmazása: * biased τ = min{ τ : srl ( τ ) 0.75} (6) Sep 5/B: Ha 5/A sikerelen, válasszuk a legmagasabb csúcso: * biased = arg max{ ( )} (7) és ekkor az alapfrekvencia: Sep 6: A V/UV dönési paraméer: τ τ srl * 1 τ F 0 =. (8) * τ rm ( τ * = srl ) az "egyenes" (unbiased) korláozo (limied) szkeleonból (9) A 8. ábra muaja az algorimus mködésé. 8. ábra: Az srl (limied skeleon) maximuma muaja a beszéd ablak alapperiódusá. IV: ZÖNGÉS-ZÖNGÉTLEN MEGKÜLÖNBÖZTETÉS Zöngésség deekorunk rm paraméer (9) használja dönése meghozaalában, valamin a jel energia logarimusá: + W 1 p = 10 log10 ( x( u) du) (decibel) (10) W W A definícióból kövekezik, hogy a maximális ampliúdójú négyszögjelre p = 0 db. Ezek uán a VDA egyszeren összehasonlíja a paraméereke egy-egy küszöbbel. A zöngésség indikáor függvény pedig: 1 ha ( rm > rmh) & ( p > ph) voicing( ) = 0 minden más eseben Ahol rmh és ph a küszöbök. A kulcskérdés a ovábbiakban a küszöbök opimális megválaszása. A hangolási folyamao egybe kööük a dönési hibaarány kiérékelésével. A kiérékelésre szolgáló adabázis ké részre oszouk: az egyik felén a beaníás, a másik felén az ellenrzés végezzük. Taníáskor a küszöböke opimáljuk az adabázis els felén, a másik felén pedig ellenrizzük a VDA- az opimál küszöbökkel. Természeesen az adabázis ké fele nem aralmazha közös rész, ez meghamisíaná a kiérékelés. A aníó és a esz halmazba vegyesen eük a ni és férfi beszéd felvéeleke, hogy az opimalizáció lehe legnagyobb beszélfüggelensége bizosísa. A dönési paraméerek kinyerése a esz során W=3 ms ablakhosszal örén. Az F0 keresési aromány 55 és 480 Hz közö vol. A 9/a. ábra muaja a paraméerek eloszlásá a aníó halmazon. A világos ponok jelölik a zöngés, a söéek a zöngélen szakaszokból származó paraméer pároka. A közük haladó egyenes vonalak a kéküszöbös dönési módszer (11) ábrázolják. A vonalakon úlra éved söé és világos pöyök muaják, hogy ez a módszer sem ökélees. (11)

A kéválozós várhaó hibaarány felüle az eloszlásokból származik. A felüle éréke az (x,y) ponban az jeleni, hogy rmh=x és ph=y küszöböke válaszva ennyi a V/UV éveszés aránya a aníó halmazon. A felüle mélyponja jelöli az opimális küszöböke. A 9/b ábrán láhaó a várhaó hibaarány felüle. 9/a ábra: A dönési paraméerek eloszlása. 9/b ábra: Várhaó hibaarány felüle. Az opimál küszöbök: ph = 55. db és rmh = 0. 3. A hibafelüle éréke ebben a ponban 1.95%. A kapo küszöböke eszelük az adabázis másik felén és a V/UV éveszési arány.13%. Ez a hibaszázaléko min végeredmény ekinhejük, ez az algorimusunk eljesíménye. V: ÖSSZEGZÉS Áekinve az algorimusunka úgy lájuk, három jó részmegoldás jászo kulcsszerepe a.13%-os hibaarány elérésében. Az els az alul-áeresz szrés kombinálása a cener clip-pel, a másik szkeleon függvény használaa a basic exracor-ban, a harmadik pedig a jel energia figyelembe véele a zöngésség meghaározásban. A jel energia sokkal jobban jelzi a zöngé, ha az az elfeldolgozó uán mérjük, min ha az eredei beszéden. Az algorimus precíz megfogalmazása és a korrek végrehajási sorrend szinén lényeges. VI: A KIÉRTÉKELÉS ADATBÁZISA Algorimusunka a Fundamenal Frequency Deerminaion Algorihm (FDA) elnevezés beszéd adabázison ellenrizük. Ez a Universiy of Edinburgh egyeem Cenre for Speech Technology Research inézeében készíeék. A szerzje Paul Chrisopher Bagshaw. Az adabázis leölhe az Inernerl, az URL: hp://www.csr.ed.ac.uk/ pcb/fda eval.ar.gz. 7 percnyi beszéde aralmaz. 50 angol monda, mindegyik egy férfi és egy ni beszél elmondásában. A ejes id 37%-ában zöngés szegmenumok és 63%-ban zönge nélküliek (zöngélen mássalhangzó és beszédszüne együ). A beszéde laryngográf jellel szinkronban veék fel. Ez alapján cimkézék a zöngés és zönge nélküli szegmenumoka. KÖSZNETNYILVÁNÍTÁS A szerz szerené köszöneé kifejezni émavezejének, Dr. Takács Györgynek az iránymuaásáér és segíségéér, a Pázmány Péer Kaolikus Egyeem Információs Technológiai Kar dokori iskolája vezeinek a bizalomér és a ámogaásér, valamin Dr. Lajha Györgynek a segíségéér. HIVATKOZÁSOK [1] B. S. Aal and L. R. Rabiner "A Paern Recogniion Approach o Voiced Unvoiced Silence Classificaion wih Applicaions o Speech Recogniion" IEEE Trans. Acous., Speech, Signal Processing, Vol. ASSP-4, pp. 01 1, 1976. [] B. S. Aal and L. R. Rabiner "Voiced-unvoice decision wihou pich deecion" J Acous. Soc. Am., Vol. 58, 1975.

[3] P. C. Bagshaw Auomaic prosodic analysis for compuer aided pronunciaion eaching PhD Thesis, Univ. Edinburgh, 1994. [4] P. C. Bagshaw, S. M. Hiller and M. A. Jack "Enhanced pich racking and he processing of F0 conours for compuer aided inonaion eaching" Proc. 3rd European Conf. on Speech Comm. and Technology, Vol., pp. 1003 1006, Berlin, 1993. [5] A. de Cheveigné and H. Kawahara. "YIN, a fundamenal frequency esimaor for speech and music" J Acous. Soc. Am., Vol. 111, Apr 00. [6] J. R. Deller, J. H. L. Hansen and J. G. Proakis Discree-Time Processing of Speech Signals, Macmillan, New York, 1993. [7] W. A. Hess Pich Deerminaion of Speech Signals, Berlin, Springer-Verlag, 1983. [8] L. R. Rabiner "Evaluaion of a saisical approach o voiced-unvoiced-silence analysis for elephone qualiy speech" Bell Sys. Tech. J., Vol. 56, pp. 455 48, 1977. [9] L. R. Rabiner "On he Use of Auocorrelaion Analysis for Pich Deecion" IEEE Trans. Acous., Speech, Signal Processing, Vol. ASSP-5, pp. 4 33, 1977. [10] L. R. Rabiner, M. J. Cheng, A. E. Rosenberg and C. A. McGonegal "A Comparaive Performance Sudy of Several Pich Deecion Algorihms" IEEE Trans. Acous., Speech, Signal Processing, Vol. ASSP-4, pp. 399 418, 1976. [11] L. R. Rabiner and R. W. Schafer Digial Processing of Speech Signals, Prenice Hall, Engelwood Cliffs NJ, 1978. [1] L. S. Smih "A Neurally Moivaed Technique for Voicing Decision and F0 Esimaion for Speech" Cenre for Cogniive and Compuaional Neuroscience, Tech. Rep., Vol. CCCN-, Univ. Sirling, Scoland, 1996.