Mély neuronhálók alkalmazása és optimalizálása

magyar nyelv beszédfelismerési feladatokhoz 2015. január 10. Konzulens: Dr. Mihajlik Péter

A megvalósítandó feladatok Irodalomkutatás Nyílt kutatási eszközök keresése, beszédfelismer rendszerek tervezése magyar nyelv beszédadatbázisokhoz A neurális hálózatos módszerek hagyományos eljárásokkal szembeni teljesítményének elemzése Paraméter-nomhangolás, optimalizálás Számítási er forrásigények meghatározása

Akusztikus bemenetb l szöveges kimenet el állítása: lényegkiemelés mintaillesztés

Mintaillesztési módok súlyozások ((w)) súlyozások ((w)) Statisztikai módszerek: cél a feldolgozott hangra legjobban illeszked fonémák, szavak, szósorozatok keresése Hagyományos módszerek: rejtett Markov-modellek Az újabb kelet neurális hálózatos megoldásokkal jobb pontosság érhet el bemeneti réteg (x) f (x T w) rejtett réteg(ek) kimeneti réteg (y)

Kaldi: nyílt forráskódú beszédfelismer keretrendszer támogatja a klasszikus és a neurális hálós modellek tanítását is szabadon módosítható, testreszabható kódok Beszédadatbázisok híradó-hanganyagok (64 óra; 16kHz) telefonos ügyfélszolgálati hanganyagok (54, 38 és 27 óra; 8kHz)

A f bb kísérleti paraméterek adatbázisméret akusztikus modell (HMM vs. DNN) bemeneti jellemz k (pl. normalizálás, dimenziócsökkentés, lényegkiemelés módja) neuronháló-architektúra és tanítási paraméterek (pl. dimenziók, tanulási sebesség) lehet ségek a beszél adaptációra

Eredmények a hír-hanganyagokon HMM DNN WERavg % 36 34 32 30 28 26 24 22 a legjobb hagyományos és neuronhálós modellek teljesítménye legjobb konguráció 4 1024 méret neuronháló indokolt a dimenziócsökkentés, normalizálás 20 10 óra 20 óra 64 óra

Eredmények a hír-hanganyagokon (folyt.) beszél adaptáció újrabeszél kre az adatbázis sok ismeretlen beszél t tartalmaz, a felvételek zajosak, gyakori az egyszerre beszélés stb. megoldás: újrabeszél k alkalmazása az hangjukra tesztelési id ben adaptálható a modell az adaptáció az adaptálatlan modellhez képest 17%-os relatív javulást hoz hagyományos HMM-módszereknél neurális hálókkal is érzékelhet javulás, bár kisebb (3%)

Eredmények az ügyfélszolgálati hanganyagokon HMM DNN WERavg % 45 40 35 30 25 a hír-hanganyagoknál tapasztaltak itt is érvényesek a rosszabb akusztikai körülmények miatt magasabbak a szóhibaarányok 20 1/A 2/A 2/C

Tanítási er forrásigények, dekódolási id 3 1024, 2GB GPU 4 1024, 2GB GPU 3 1024, 4GB GPU 4 1024, 4GB GPU 3 1024, CPU 4 1024, CPU Tanítási idö (perc) 10,000 8,000 6,000 4,000 Real Time Factor: RTF = t(dekódolás) t(dekódalandó anyag) Átlagos RTF a híranyagon: 0,36 2,000 32 óra 64 óra

Összefoglalás és további irányok neurális hálózatokkal minden esetben javulás érhet el, ez átlagosan relatív 16% a hagyományos módszerekhez képest a dimenziócsökkentés javulást hoz, 3-4 1000 dimenziós rejtett réteg teljesít a legjobban további irányok új neuronháló-architektúrák automatikus beszél klaszterezés

Kérdések?

Bírálói kérdések Mi a különbség a DEV az EVAL teszthalmazok között? Miért kell külön DEV teszthalmaz, ha egyszer a felismerés ideje elhanyagolható a betanításhoz képest? A DEV halmaz hagyományosan a modellek nomítására, az EVAL pedig a végs tesztelésre szolgál, alapvet en nem különböznek (a tartalmukat leszámítva). Mi az oka, hogy a 3.6-os táblázatban feltüntetett eredmények jelent sen rosszabbak a referenciához képest (3.2 táblázat)? Vajon az újrabeszél k rosszabbul mondták fel az elhangzottakat, mint az eredeti beszél k? Az újrabeszél -teszthalmaz anyaga nem azonos az eredeti teszthalmazzal, sokkal kisebb annál (ilyen formában csak az adaptációs lehet ségek vizsgálatára szolgált), de a kérdésben felvetett eset is el fordulhat.

Bírálói kérdések (folyt.) A 10 és a 20 órás adatbázison betanított modellek ugyanazon a teszthalmazon lettek tesztelve (3.4 pont)? Igen.

Köszönöm a gyelmet!