Beszéd alapfrekvencia követés hatékony zöngésség detektálással



Hasonló dokumentumok
Beszéd alapfrekvencia követés hatékony zöngésség detektálással

Síkalapok vizsgálata - az EC-7 bevezetése

ELEKTRONIKAI ALAPISMERETEK

ELEKTRONIKAI ALAPISMERETEK

Túlgerjesztés elleni védelmi funkció

Elektronika 2. TFBE1302

Előszó. 1. Rendszertechnikai alapfogalmak.

ELEKTRONIKAI ALAPISMERETEK

3. Gyakorlat. A soros RLC áramkör tanulmányozása

Gépi tanulás. Bagging, Boosting Adaboost

ELEKTRONIKAI ALAPISMERETEK

8 A teljesítményelektronikai berendezések vezérlése és

GAZDASÁGI ÉS ÜZLETI STATISZTIKA jegyzet ÜZLETI ELŐREJELZÉSI MÓDSZEREK

8. előadás Ultrarövid impulzusok mérése - autokorreláció

JELEK ALAPSÁVI LEÍRÁSA. MODULÁCIÓK. A CSATORNA LEÍRÁSA, TULAJDONSÁGAI.

Tiszta és kevert stratégiák

Negyedik gyakorlat: Szöveges feladatok, Homogén fokszámú egyenletek Dierenciálegyenletek, Földtudomány és Környezettan BSc

Ancon feszítõrúd rendszer

Mesterséges Intelligencia MI

6. szemináriumi. Gyakorló feladatok. Tőkekínálat. Tőkekereslet. Várható vs váratlan esemény tőkepiaci hatása. feladatok

SPEKTROSZKÓPIA: Atomok, molekulák energiaállapotának megváltozásakor kibocsátott ill. elnyeld sugárzások vizsgálatával foglalkozik.

ELEKTRONIKAI ALAPISMERETEK

ELEKTRONIKAI ALAPISMERETEK

Fourier-sorok konvergenciájáról

1. Előadás: Készletezési modellek, I-II.

HF1. Határozza meg az f t 5 2 ugyanabban a koordinátarendszerben. Mi a lehetséges legbővebb értelmezési tartománya és

A BIZOTTSÁG MUNKADOKUMENTUMA

Mobil robotok gépi látás alapú navigációja. Vámossy Zoltán Budapesti Műszaki Főiskola Neumann János Informatikai Kar

Dinamikus optimalizálás és a Leontief-modell

) (11.17) 11.2 Rácsos tartók párhuzamos övekkel

ELEKTRONIKAI ALAPISMERETEK

A sztochasztikus idősorelemzés alapjai

Aggregált termeléstervezés

Kommunikációs hálózatok 2 Analóg és digitális beszédátvitel

Faanyag rugalmas állandóinak dinamikus meghatározása, összehasonlítása. Dynamic determination and comparison of wood s elastic constants

5. Differenciálegyenlet rendszerek

Instrumentális változók módszerének alkalmazásai Mikroökonometria, 3. hét Bíró Anikó Kereslet becslése: folytonos választás modell

3. Mekkora feszültségre kell feltölteni egy defibrillátor 20 μf kapacitású kondenzátorát, hogy a defibrilláló impulzus energiája 160 J legyen?

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

II. Egyenáramú generátorokkal kapcsolatos egyéb tudnivalók:

PILÓTA NÉLKÜLI REPÜLŐGÉP REPÜLÉSSZABÁLYOZÓ RENDSZEREINEK MINŐSÉGI KÖVETELMÉNYEI I. BEVEZETÉS

Kiadja a Barankovics István Alapítvány Felelős kiadó: a Kuratórium Elnöke Nyomda: Onix Nyomda, Debrecen

SZABÁLYOZÁSI ESZKÖZÖK: Gazdasági ösztönzők jellemzői. GAZDASÁGI ÖSZTÖNZŐK (economic instruments) típusai. Környezetterhelési díjak

DIPLOMADOLGOZAT Varga Zoltán 2012

Visszatekintve az elmúlt esztendô mûszaki-távközlési

Üzemeltetési kézikönyv

Statisztika gyakorló feladatok

5. HŐMÉRSÉKLETMÉRÉS 1. Hőmérséklet, hőmérők Termoelemek

REV23.03RF REV-R.03/1

3. feladatsor: Görbe ívhossza, görbementi integrál (megoldás)

Szilárdsági vizsgálatok eredményei közötti összefüggések a Bátaapáti térségében mélyített fúrások kızetanyagán

Intraspecifikus verseny

PÉNZÜGYMINISZTÉRIUM MUNKAANYAG A KÖLTSÉGVETÉSI RENDSZER MEGÚJÍTÁSÁNAK EGYES KÉRDÉSEIRŐL SZÓLÓ KONCEPCIÓ RÉSZLETES BEMUTATÁSA

Takács Lajos ( ) és Prékopa András ( ) emlékére.

MNB-tanulmányok 50. A magyar államadósság dinamikája: elemzés és szimulációk CZETI TAMÁS HOFFMANN MIHÁLY

A termelési, szolgáltatási igény előrejelzése

Demográfiai átmenet, gazdasági növekedés és a nyugdíjrendszer fenntarthatósága

Az összekapcsolt gáz-gőz körfolyamatok termodinamikai alapjai

Elméleti közgazdaságtan I. A korlátozott piacok elmélete (folytatás) Az oligopólista piaci szerkezet formái. Alapfogalmak és Mikroökonómia

BODE-diagram szerkesztés

Radnai Márton. Határidős indexpiacok érési folyamata

ELEKTRONIKAI ALAPISMERETEK

ÁLLAPOTELLENÕRZÉS. Abstract. Bevezetés. A tönkremeneteli nyomások becslése a valós hibamodell alapján

STATISZTIKAI IDŐSORELEMZÉS A TŐZSDÉN. Doktori (PhD) értekezés

Betonfelületek permeabilitásvizsgálata

Lineáris programozási modellek érzékenységvizsgálati eredményeinek alkalmazási problémái a termelésmenedzsmentben. Dr. TamásKoltai

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR ELEKTROTECHNIKAI-ELEKTRONIKAI TANSZÉK DR. KOVÁCS ERNŐ ELEKTRONIKA II.

GÁZMINŐSÉGEK VIZSGÁLATA AZ EGYSÉGES EURÓPAI GÁZSZOLGÁLTATÁSI SZABVÁNY VONATKOZÁSÁBAN

Mondd meg, mit hallasz, és megmondom, ki vagy

Schmitt-trigger tanulmányozása

A Ptk (2) bekezdése védelmében.

Kommunikációs hálózatok 2 Analóg és digitális beszédátvitel

Módszertani megjegyzések a hitelintézetek összevont mérlegének alakulásáról szóló közleményhez

REAKCIÓKINETIKA ALAPFOGALMAK. Reakciókinetika célja

A hőérzetről. A szubjektív érzés kialakulását döntően a következő hat paraméter befolyásolja:

OKTATÁSGAZDASÁGTAN. Készítette: Varga Júlia Szakmai felelős: Varga Júlia június

Megtelt-e a konfliktuskonténer?

Parametrikus nyugdíjreformok és életciklus-munkakínálat

OKTATÁSGAZDASÁGTAN. Készítette: Varga Júlia Szakmai felelős: Varga Júlia június

13 Wiener folyamat és az Itô lemma. Options, Futures, and Other Derivatives, 8th Edition, Copyright John C. Hull

[ ] ELLENÁLLÁS-HİMÉRİK

A derivált alkalmazásai

Modern Fizika Labor Fizika BSC

BODE-diagram. A frekvencia-átviteli függvény ábrázolására különféle módszerek terjedtek el:

Vezetéki termikus védelmi funkció

Függvények július 13. f(x) = 1 x+x 2 f() = 1 ()+() 2 f(f(x)) = 1 (1 x+x 2 )+(1 x+x 2 ) 2 Rendezés után kapjuk, hogy:

A T LED-ek "fehér könyve" Alapvetõ ismeretek a LED-ekrõl

! Védelmek és automatikák!

4 utú és 5 utú útváltók: Funkciójuk visszavezetheto 2 db. egyidejuleg muködtetett 312-es útváltóra. l~ ~-J~ITLTL1\!~

Bevezetés 2. Az igény összetevői 3. Konstans jellegű igény előrejelzése 5. Lineáris trenddel rendelkező igény előrejelzése 14

Folyamatszemléleti lehetőségek az agro-ökoszisztémák modellezésében

GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

5. konzultáció. Kovács Norbert SZE GT. Bertrand-duopólium. p 2 A 2. vállalat termékei iránti kereslet Bertrand versenyben. p 1

Komáromi András * Orova Lászlóné ** MATEMATIKAI MODELLEK AZ INNOVÁCIÓ TERJEDÉSÉBEN

t 2 Hőcsere folyamatok ( Műv-I o. ) Minden hővel kapcsolatos művelet veszteséges - nincs tökéletes hőszigetelő anyag,

A MAGYAR KÖZTÁRSASÁG NEVÉBEN!

Kamat átgyűrűzés Magyarországon

A magyar pénzpiaci alapok összehasonlító elemzése

Fizika A2E, 11. feladatsor

Σ imsc

Átírás:

Beszéd alapfrekvencia köveés haékony zöngésség deekálással Bárdi Tamás, PhD hallgaó Pázmány Péer Kaolikus Egyeem, Információs Technológia Kar Cím: 1083 Budapes Práer u 50/A. e-mail: bardi.amas@ik.ppke.hu Abszrak - A beszédjel alapfrekvenciá meghaározó algorimusok, más néven pich deekorok helyes mködése csak úgy leheséges, ha az auomaikus zöngés-zöngélen megkülönbözeés is megbízhaó. Az alábbiakban ismerejük pich deekorunka, melyben a zöngésség deekálása a konkurens módszereknél alacsonyabb hiba százalékkal mködik. Algorimusunk a jól ismer auokorrelációs módszeren alapszik. Algorimusunk zöngésség deekáló erejé egy olyan adabázison vizsgáluk, melyben a beszéddel szinkronban laryngográf jele is rögzíeek. I. BEVEZET Az emberi hallás modern elméleei hiel érdemlen megállapíoák, hogy a hangmagasság (pich) észlelés nem mindig van egy-egy érelm kapcsolaban az alapfrekvenciával (F0). Ennek ellenére a digiális beszéd-feldolgozásban az F0 becsl módszereke hagyományosan pich deekor algorimusoknak (PDA) nevezik. A ényleges beszéddallamo jól közelí pich konúr sok alkalmazásban hasznosíhaó. Jelens szerepe van a prozódikus elemzésekben. Ilyen például a monda hangsúlyos helyeinek megalálása a hanglejés alapján, vagy a kérd és kijelen mondaok auomaikus megkülönbözeése. A beszédfelismerés a onális nyelveken, min például a kínai vagy a vienami, megoldhaalan pich deekor nélkül. A szakirodalomban pich deekor émában jó néhány módszer láo napvilágo az elmúl évizedekben [10], a legszélesebb kör áekinésük Hess-nél olvashaó [7]. A megoldások öbbsége mérsékel eljesíményével elégedelenségre adha oko, de azér van néhány egészen jó is. Ilyen Bagshaw esrpd [3, 4] módszere, amely kevesebb, min 1%-ban becsli rosszul az alapfrekvenciá, ha zönge van a beszédben. De a zöngés gerjeszés megléé vagy hiányá már 3-4% hibával deekálja. Álalánosságban elmondhaó, hogy nyelvani jelenéssel bíró pich csak a zöngés szegmenumokon figyelhe meg. Ezér pich frekvencia meghaározásának feléele a jó zöngésség deekció. A zöngés-zöngélen megkülönbözeés (V/UV - voiced/unvoiced) szerepe a beszédfelismerésben is jelens, hiszen számos olyan szópár van, pl. kö - köd, melyek kiejésben csak egyik mássalhangzójuk zöngésségében különböznek. Egy zöngésség meghaározására szolgáló algorimus (VDA - voicing deerminaion algorihm) gyakran implici része egy PDA-nak vagy beszédfelismernek, de megvalósíhaó különállóan is. Számos VDA szülee [7, 1] már különféle elméleek beveésével, közülük néhány igazán figyelemre méló, jó eljesímény azonban csak nagyon kevés mua. A pich deekoroknál álalában a V/UV éveszések nagyobb százalékban fordulnak el, min az F0 becslési hibák. Aal és Rabiner [1,, 8] egy ö dönési paraméer használó VDA-val próbálkozo saiszikus mináza-felismerési megközelíés alkalmazva. Módszerük 4%-os hibaarány ado egy nehezebb felada megoldásában, nevezeesen a zöngés/zöngélen/csendes (nincs beszéd) (V/U/S - voiced/unvoiced/silen) oszályozásban az egyszerbb zöngés/zöngélen (V/UV) dönés helye. Egy PDA- épíeünk, melyben egy haékony beépíe zöngésség deekor mködik. Algorimusunk az auokorreláció függvényen (ACF) alapszik. A zönge deekcióban módszerünk %-hoz közeli hibaarány ér el. Az algorimus, ha az ACF számíásához FFT- alkalmazunk, kevesebb, min megaflop per szekundum processzorigénnyel megvalósíhaó 8 khz-es minavéelezés melle. Az alábbi szakaszok az algorimus moduláris szerkezeének megfelelen szervezdek. A. szakasz az elfeldolgozó rész árgyalja. Preprocesszorunka úgy ervezük, hogy a V/UV megkülönbözeés a lehe legjobban segíse, az emlíe hibaarány elérésében nélkülözheelen szerepe jászik. Az elfeldolgozás uán a beszédjelbl rövid idaramú szakaszok kerülnek a basic exracor-nak neveze egységhez. I számíjuk az ACF-e, majd ebbl nyerjük a V/UV dönéshez és az F0 becsléshez szükséges

paraméereke. Ebbl a részbl "halszálka" módszer alkalmazása érdemel emlíés, amely az "F0 a fels limien" ípusú hibáka csökkeni. Mindezeke a 3. szakasz árgyalja. Az egyszer, de haékony beépíe VDA részleezése és kiérékelése a 4. szakasz és egyben cikkünk f árgya. A V/UV dönés ké paraméeren alapszik, mindke egy-egy küszöbbel hasonlíjuk össze. Ez a kéküszöbös módszer szinén hozzájárul a hibaszázalék csökkenéséhez. A szakirodalomban szokásos az elállío pich konúrok uólagos simíására egy poszprocesszor alkalmazni. Ilye mi nem használunk, mer a vizsgálaunk célja a beépíe VDA képességének felmérése vol. A kiérékelésben a fókusz a megbízhaó zöngésség deekálásra helyezük. II. A BESZÉDJEL ELFELDOLGOZÓ Álalában egy PDA három f komponensbl épül fel: 1) preprocesszor, ) basic exracor, 3) poszprocesszor. A preprocesszor f feladaa úgy ranszformálni a beszédjele, hogy uána az F0 becslés és a zönge deekálás könnyebb legyen. A basic exracor rendszerin a beszédjelbl ve ipikusan 0-50 milliszekundumos ablakokon dolgozik. A megkülönbözeés azonban, hogy mely mveleek aroznak a preprocesszorhoz és melyek a basic exracorhoz nagyon gyakran csak formális jelenség. Ha elbb kivesszük az ablako a beszédjelbl, majd azon fuajuk a preprocesszor, akkor egyrész fölöslegesen duplikálunk egy csomó számíás, ha az ablakok áfedik egymás, másrész a preprocesszor és a basic exracor munkájá nehéz lesz külön-külön vizsgálni. Ha így eszünk, nem udjuk például összefüggen meghallgani a preprocesszorból kijöv jele. A javaslaunk, hogy inkább fuassuk a preprocesszor a beszédjel eljes hosszában, majd ebbl vegyünk ablakoka és küldjük ke a basic exracor-hoz elemzésre. Ha így eszünk, érzékszervileg megfigyelhevé válik a rendszer egy bels állapoában. Érzékszervi ellenrz ponok elhelyezése egy összee beszédfeldolgozó rendszer belsejében segíhei az empirikusan opimálandó paraméerek szerencsés megválaszásá. Elfeldolgozónka részben fülre "opimáluk": finomhangolásakor a kimenee mindig visszahallgava néhány paraméeré addig állígauk, amíg a hangzás alapján úgy nem érezük, hogy jó lesz. Preprocesszorunkban alul-áeresz szrés és ún. cenerclip-e, magyarul középre vágás használunk. Mindke igen elerjed a pich deekorok szakirodalmában [6, 9, 11]. Az alul-áenged szrnk (Csebisev I-es ípus) és a cener clip karakeriszikájá az 1. ábra muaja. 1. ábra: Az elfeldolgozóban alkalmazo alul-áeresz szr és a cener clip karakeriszikája. Az adapív középre vágás echnikája idben válozó vágási szine alkalmaz, mely a jel ampliúdójának függvényében válozik. Álalában ez a válozó középre vágási szin a beszédjel valamilyen burkolójának egy rögzíe százaléka. A módszerünkben az újíás, hogy kombinálja a ké lépés, az alul áeresz szrés és a középre vágás. A burkoló az eredei beszédjel ampliúdójából számíjuk, majd ennek 40%-á alkalmazzuk válozó középre vágási szinkén, de már a szr jelen. Mivel a iszán szohaszikus gerjeszés beszéd szegmenumokon álalában ennél nagyobb a nagy frekvenciás komponensek részaránya, a módszerünk a zöngélen mássalhangzóka gyakorlailag mindenü nullára redukálja. A, 3. és 4. ábra muaja a preprocesszorunk mködésé. A 4. ábrán láhaó, hogy a módszerünk növeli a jel periodikusságá a zöngés szegmenumon (az ACF nagyobb lesz az alapperiódus idnél), ugyanakkor nullává válik a kimene a zöngélenen. Ez az effekus jelensen javíja az auomaikus V/UV dönés esélyei.

. ábra: Az eredei beszédjel a burkolójával és a szr jel. 3. ábra: A szr jel és a válozó középre vágási szin. 4.ábra: Az eredei beszédjel és a preprocesszor kimenee.

III: A BASIC EXTRACTOR A PDA-nak ez a része elször a beszéd ablak auokorreláció függvényé számíja ki, majd az algorimus az ACF "legjobb" csúcsá keresi meg. Az ACF éréke a kiválaszo csúcsnál, min a periodiciás egy méréke a zöngésség deekálására szolgál, a csúcs elolási ideje pedig a periódus id becsli. De hogy aláljuk meg a "legjobb" csúcso? Amin az a késbbiekben láni fogjuk, a "legjobb" lokális maximum korán sem felélenül globális is egyben. Elöljáróban megjegyezzük, hogy az összes i leír képleben az id dimenziójú válozók és konsansok (,, u, W) másodpercben érendk, a beszédjel kezelése analóg: inegrálokkal, folyonos idvel és ampliúdóval. Az ampliúdó a rendszerben feldolgozhaó maximális ampliúdó arányában jelöljük: 1.0 x ( ) 1. 0. A feni jelölésekkel bizosíjuk a árgyalás függelenségé a minavéeli frekvenciáól és bi-mélységl. Konkré alkalmazásban a minavéeli frekvencia és a minák számábrázolása ismereében formuláink könnyen a megfelel digiális válozara konverálhaók. A rövid ávú auokorrelációnak a jelfeldolgozásban gyakran használ "rézsúos" (biased) definíciója helye de Cheveigné [5] javaslaa alapján annak "egyenes" (unbiased) definíciójá használjuk, majd az ACF-e meserségesen lejsíjük. (W az ablak hossza, a vizsgála során 3 ms- használunk) + W W ( ) = + W r x( u) x( u τ ) du τ (,, u, W szekundumban) (1) W x( u) du és a meserséges lejés (a gr ényezvel szabályozhajuk az ersségé): r ( τ ) = r ( τ ) (1 gr τ ) biased () Az ACF lejése okáv éveszés elkerülése mia fonos, így a ényleges alapperiódusnak elny bizosíhaunk a öbbszöröseivel szemben. A "rézsúos" definíció a lejés auomaikusan bizosíja, de ennek méréke kizárólag W-l függ. A meserséges lejéssel az ablak hossz és a "lejszög" külön-külön hangolhaó. Mélyhangok kezdei szakaszán az ACF maximuma gyakran a keresési inervallum szélére esik. Ez a jelenség okozza az "F0 a fels limien" ípusú hibáka, melyre az 5. ábrán láhaunk egy példá. 5. ábra: Egy alacsony frekvenciás (67 Hz) hang kezdei szakasza és annak auokorrelációja. Az ACF nagyobb éréke vesz fel a keresési aromány szélén, min az alapperiódus idnél. Megoldási javaslaunk a problémára a "halszálka" módszer, a szkeleon függvény alkalmazása. Egy függvény szkeleonja a függvény éréké veszi fel annak lokális széls érékeinél és nullá egyébkén. I a céljainknak a lokális széls érék szigorú és nem szigorú definíciói közöi ámene felel meg. A 6. ábra muaja érelmezésünke.

Definíció: Definíció: 6. ábra: A szkeleon függvény 0 ahol az eredeije vízszines. f : R R valós függvénynek lokális széls éréke van x - ben, ha f nem szigorúan monoon és nem sík x - ben. g = skeleon( f ) akkor és csak akkor f ( x) ( x) = 0 ha f - nek lokális széls éréke van x - ben g (3) egyébkén A meserséges lejés ellenére a iszán zöngés hangok elhalkuló végein az ACF hajlamos a ényleges alapperiódus id öbbszöröseinél egyre növekv csúcsoka muani, amin az a 7. ábrán láhaó. 7. ábra: Egy magánhangzó elhalkuló vége és annak auokorrelációja. Ez a jelenség csak olyankor fordulha el, ha az ACF a periódus idnél 1-hez közeli vagy afölöi éréke vesz fel. Ezér a probléma megoldására egy preferencia szin bevezeésé javasoljuk. Az algorimus válassza az els csúcso, ami a preferencia szine meghaladja. Ha ilyen nincs, akkor a legmagasabb csúcso. Mi apaszalai alapon 0.75-ö használunk preferencia szinkén. Összegezve a basic exracor algorimusunk lépései a korrek végrehajási sorrendben a kövekezk: Sep 1: Az ACF kiszámíása (1) szerin. Sep : Szálkásíás: sr ( τ ) = skeleon( r ( τ )). Sep 3: A keresési aromány korláozása (limied skeleon): Legyen [ F 0 min 0.5 srl ( ) = sr ( τ ) 0.5 ; F 0 max ha ha ha ] a keresési inervallum, τ < 1/ F0 1/ F0 max τ > 1/ F0 max τ (4) τ 1/ F0 min min

Sep 4: Meserséges lejés: srl biased ( τ ) (1 gr τ ) srl ( τ ) = ; ahol gr=1.75 (5) Sep 5: F0 becslés. Sep 5/A: Preferencia szin alkalmazása: * biased τ = min{ τ : srl ( τ ) 0.75} (6) Sep 5/B: Ha 5/A sikerelen, válasszuk a legmagasabb csúcso: * biased = arg max{ ( )} (7) és ekkor az alapfrekvencia: Sep 6: A V/UV dönési paraméer: τ τ srl * 1 τ F 0 =. (8) * τ rm ( τ * = srl ) az "egyenes" (unbiased) korláozo (limied) szkeleonból (9) A 8. ábra muaja az algorimus mködésé. 8. ábra: Az srl (limied skeleon) maximuma muaja a beszéd ablak alapperiódusá. IV: ZÖNGÉS-ZÖNGÉTLEN MEGKÜLÖNBÖZTETÉS Zöngésség deekorunk rm paraméer (9) használja dönése meghozaalában, valamin a jel energia logarimusá: + W 1 p = 10 log10 ( x( u) du) (decibel) (10) W W A definícióból kövekezik, hogy a maximális ampliúdójú négyszögjelre p = 0 db. Ezek uán a VDA egyszeren összehasonlíja a paraméereke egy-egy küszöbbel. A zöngésség indikáor függvény pedig: 1 ha ( rm > rmh) & ( p > ph) voicing( ) = 0 minden más eseben Ahol rmh és ph a küszöbök. A kulcskérdés a ovábbiakban a küszöbök opimális megválaszása. A hangolási folyamao egybe kööük a dönési hibaarány kiérékelésével. A kiérékelésre szolgáló adabázis ké részre oszouk: az egyik felén a beaníás, a másik felén az ellenrzés végezzük. Taníáskor a küszöböke opimáljuk az adabázis els felén, a másik felén pedig ellenrizzük a VDA- az opimál küszöbökkel. Természeesen az adabázis ké fele nem aralmazha közös rész, ez meghamisíaná a kiérékelés. A aníó és a esz halmazba vegyesen eük a ni és férfi beszéd felvéeleke, hogy az opimalizáció lehe legnagyobb beszélfüggelensége bizosísa. A dönési paraméerek kinyerése a esz során W=3 ms ablakhosszal örén. Az F0 keresési aromány 55 és 480 Hz közö vol. A 9/a. ábra muaja a paraméerek eloszlásá a aníó halmazon. A világos ponok jelölik a zöngés, a söéek a zöngélen szakaszokból származó paraméer pároka. A közük haladó egyenes vonalak a kéküszöbös dönési módszer (11) ábrázolják. A vonalakon úlra éved söé és világos pöyök muaják, hogy ez a módszer sem ökélees. (11)

A kéválozós várhaó hibaarány felüle az eloszlásokból származik. A felüle éréke az (x,y) ponban az jeleni, hogy rmh=x és ph=y küszöböke válaszva ennyi a V/UV éveszés aránya a aníó halmazon. A felüle mélyponja jelöli az opimális küszöböke. A 9/b ábrán láhaó a várhaó hibaarány felüle. 9/a ábra: A dönési paraméerek eloszlása. 9/b ábra: Várhaó hibaarány felüle. Az opimál küszöbök: ph = 55. db és rmh = 0. 3. A hibafelüle éréke ebben a ponban 1.95%. A kapo küszöböke eszelük az adabázis másik felén és a V/UV éveszési arány.13%. Ez a hibaszázaléko min végeredmény ekinhejük, ez az algorimusunk eljesíménye. V: ÖSSZEGZÉS Áekinve az algorimusunka úgy lájuk, három jó részmegoldás jászo kulcsszerepe a.13%-os hibaarány elérésében. Az els az alul-áeresz szrés kombinálása a cener clip-pel, a másik szkeleon függvény használaa a basic exracor-ban, a harmadik pedig a jel energia figyelembe véele a zöngésség meghaározásban. A jel energia sokkal jobban jelzi a zöngé, ha az az elfeldolgozó uán mérjük, min ha az eredei beszéden. Az algorimus precíz megfogalmazása és a korrek végrehajási sorrend szinén lényeges. VI: A KIÉRTÉKELÉS ADATBÁZISA Algorimusunka a Fundamenal Frequency Deerminaion Algorihm (FDA) elnevezés beszéd adabázison ellenrizük. Ez a Universiy of Edinburgh egyeem Cenre for Speech Technology Research inézeében készíeék. A szerzje Paul Chrisopher Bagshaw. Az adabázis leölhe az Inernerl, az URL: hp://www.csr.ed.ac.uk/ pcb/fda eval.ar.gz. 7 percnyi beszéde aralmaz. 50 angol monda, mindegyik egy férfi és egy ni beszél elmondásában. A ejes id 37%-ában zöngés szegmenumok és 63%-ban zönge nélküliek (zöngélen mássalhangzó és beszédszüne együ). A beszéde laryngográf jellel szinkronban veék fel. Ez alapján cimkézék a zöngés és zönge nélküli szegmenumoka. KÖSZNETNYILVÁNÍTÁS A szerz szerené köszöneé kifejezni émavezejének, Dr. Takács Györgynek az iránymuaásáér és segíségéér, a Pázmány Péer Kaolikus Egyeem Információs Technológiai Kar dokori iskolája vezeinek a bizalomér és a ámogaásér, valamin Dr. Lajha Györgynek a segíségéér. HIVATKOZÁSOK [1] B. S. Aal and L. R. Rabiner "A Paern Recogniion Approach o Voiced Unvoiced Silence Classificaion wih Applicaions o Speech Recogniion" IEEE Trans. Acous., Speech, Signal Processing, Vol. ASSP-4, pp. 01 1, 1976. [] B. S. Aal and L. R. Rabiner "Voiced-unvoice decision wihou pich deecion" J Acous. Soc. Am., Vol. 58, 1975.

[3] P. C. Bagshaw Auomaic prosodic analysis for compuer aided pronunciaion eaching PhD Thesis, Univ. Edinburgh, 1994. [4] P. C. Bagshaw, S. M. Hiller and M. A. Jack "Enhanced pich racking and he processing of F0 conours for compuer aided inonaion eaching" Proc. 3rd European Conf. on Speech Comm. and Technology, Vol., pp. 1003 1006, Berlin, 1993. [5] A. de Cheveigné and H. Kawahara. "YIN, a fundamenal frequency esimaor for speech and music" J Acous. Soc. Am., Vol. 111, Apr 00. [6] J. R. Deller, J. H. L. Hansen and J. G. Proakis Discree-Time Processing of Speech Signals, Macmillan, New York, 1993. [7] W. A. Hess Pich Deerminaion of Speech Signals, Berlin, Springer-Verlag, 1983. [8] L. R. Rabiner "Evaluaion of a saisical approach o voiced-unvoiced-silence analysis for elephone qualiy speech" Bell Sys. Tech. J., Vol. 56, pp. 455 48, 1977. [9] L. R. Rabiner "On he Use of Auocorrelaion Analysis for Pich Deecion" IEEE Trans. Acous., Speech, Signal Processing, Vol. ASSP-5, pp. 4 33, 1977. [10] L. R. Rabiner, M. J. Cheng, A. E. Rosenberg and C. A. McGonegal "A Comparaive Performance Sudy of Several Pich Deecion Algorihms" IEEE Trans. Acous., Speech, Signal Processing, Vol. ASSP-4, pp. 399 418, 1976. [11] L. R. Rabiner and R. W. Schafer Digial Processing of Speech Signals, Prenice Hall, Engelwood Cliffs NJ, 1978. [1] L. S. Smih "A Neurally Moivaed Technique for Voicing Decision and F0 Esimaion for Speech" Cenre for Cogniive and Compuaional Neuroscience, Tech. Rep., Vol. CCCN-, Univ. Sirling, Scoland, 1996.