Mély neuronhálók alkalmazása és optimalizálása

Hasonló dokumentumok
Mély neuronhálók alkalmazása és optimalizálása magyar nyelv beszédfelismerési feladatokhoz

Hibadetektáló rendszer légtechnikai berendezések számára

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

Beszédtechnológia a médiában. Tibor Fegyó SpeechTex Kft.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Önálló laboratórium beszámoló BME-TMIT

Beszédfelismerés, beszédmegértés

Beszédfelismerés és videó keresés web2 módra

Magyar nyelvű, élő közéleti- és hírműsorok gépi feliratozása

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

III.6. MAP REDUCE ELVŰ ELOSZTOTT FELDOLGOZÁSI ALGORITMUSOK ÉS TESZTKÖRNYEZET KIDOLGOZÁSA ADATBÁNYÁSZATI FELADATOK VÉGREHAJTÁSÁHOZ

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására


Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2.

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Takács Árpád K+F irányok

Beszédfelismerő szoftver adaptálása C# programozási nyelvre

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Deep Learning a gyakorlatban Python és LUA alapon. Beszédfelismerés (ASR)

Gépi tanulás és Mintafelismerés

Google Summer of Code Project

Makroökonómia (G-Kar és HR) gyakorló feladatok az 1. és 2. szemináriumra

1. szemináriumi. feladatok. Ricardói modell Bevezetés

Neurális hálózatok.... a gyakorlatban

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

1 Rendszer alapok. 1.1 Alapfogalmak

Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás. Csapó Tamás Gábor

Rejtett Markov Modell

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

0 0 1 Dekódolás. Az órajel hatására a beolvasott utasítás kód tárolódik az IC regiszterben, valamint a PC értéke növekszik.

Mély neuronhálós akusztikus modellek gyors adaptációja multi-taszk tanítással

Mesterséges intelligencia alapú regressziós tesztelés

Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában

Neurális hálózatok bemutató

A vizsgafeladat ismertetése: Az B) vizsgafeladatban manipulált hanganyag értékelése

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Robotok inverz geometriája

A szóbeli vizsgatevékenység sikertelen, ha bármelyik vizsgafeladat értékelése 50% alatt van.

MINTA BIZTONSÁGI KATEGORIZÁLÁS SEGÉDLET

Crawler.NET: Elosztott webrobotok koordinálása és vezérlése

A szupraszegmentális jellemzők szerepe és felhasználása a gépi beszédfelismerésben. Szaszák György

Kovács Ernő 1, Füvesi Viktor 2

CARE. Biztonságos. otthonok idős embereknek CARE. Biztonságos otthonok idős embereknek Dr. Vajda Ferenc Egyetemi docens

A készletezés Készlet: készletezés Indok Készlettípusok az igény teljesítés viszony szerint

MULTIPARAMETRIKUS MR VIZSGÁLATOK SZEGMENTÁLÁSA NYAKI RÉGIÓBAN

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

A 92. sorszámú Stúdióvezető megnevezésű szakképesítés-ráépülés szakmai és vizsgakövetelménye 1. AZ ORSZÁGOS KÉPZÉSI JEGYZÉKBEN SZEREPLŐ ADATOK

Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr.

Környezetfüggő akusztikai modellek létrehozása Kullback-Leibler divergencia alapú klaszterezéssel

Intelligens orvosi műszerek VIMIA023

Beszédfelismerő modellépítési kísérletek akusztikai, fonetikai szinten, kórházi leletező beszédfelismerő kifejlesztése céljából

[1000 ; 0] 7 [1000 ; 3000]

Gépi tanulás a gyakorlatban. Bevezetés

Mély neuronhálók az akusztikus modellezésben

Az egyetemi publikációs adatbázis

Az alapvető jogok biztosának Jelentése Az AJB-574/2016. számú ügyben (Előzményi ügy: AJB-4424/2015. )

A FELSŐOKTATÁSI MINŐSÉGI DÍJ MODELL BEMUTATÁSA

A vasúti er sáramú szimuláció és szerepe a vasúti fejlesztések m szaki tartalmának meghatározásában

19. melléklet a 44/2015. (XI. 2.) MvM rendelethez

Diplomás gazdaságvédelmi szakreferens szakirányú továbbképzési szak

A vezérlő alkalmas 1x16, 2x16, 2x20, 4x20 karakteres kijelzők meghajtására. Az 1. ábrán látható a modul bekötése.

Tantárgy: TELJESÍTMÉNYELEKTRONIKA Tanár: Dr. Burány Nándor Tanársegéd: Mr. Divéki Szabolcs 3. FEJEZET

Online kérd íves felmérés a Gazdálkodás olvasóinak és szerz inek körében

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

Mesterséges Intelligencia Elektronikus Almanach. MI Almanach projektismertetı rendezvény április 29., BME, I. ép., IB.017., 9h-12h.

NAGY TELJESÍTM. Szerzők Dévai. István Automatizálási. és s Alkalmazott Informatikai Tanszék

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

TÁMOP : ÁTFOGÓ MINŐSÉGFEJLESZTÉS A KÖZOKTATÁSBAN

Objektív beszédminősítés

EEG mérések hardveres és szoftveres validációja

Adatmodellezés, alapfogalmak. Vassányi István

Hadházi Dániel.

A neurális hálózatok tanításának alapjai II.: Módszerek a túltanulás elkerülésére. Szoldán Péter

Kulcsszókeresési kísérletek hangzó híranyagokon beszédhang alapú felismerési technikákkal

TANMENET INFORMATIKA (0. évfolyamos képzés) 9.A1 9.A2 csoport

Makroökonómia. 2. szeminárium

Deep Learning a gyakorlatban Python és LUA alapon Tanítás: alap tippek és trükkök

Intelligens adatelemzés

Az olvasási képesség szerepe a matematikai gondolkodás fejlődésében. Steklács János Kecskeméti Főiskola Humán Tudományok Intézete steklacs@gmail.

Hordozott szám statisztika

1. gyakorlat. Mesterséges Intelligencia 2.

Mit gondolnak a vállalatvezetők az üzleti kapcsolatok értékéről?

Tantárgyi követelmény Szakiskola 9/E évfolyam

II. LABOR Tanulás, Perceptron, Adaline

Számítógép és programozás 2

ELEKTRONIKAI ALAPISMERETEK

Digitális bemenetek: 2 darab 0-5V jelszintű digitális bemenet Pl. nyitásérzékelők, risztóközpontok, mozgásérzékelők, átjelzők, stb.

AUTONÓM JÁRMŰVEK A POLGÁRI JOGI FELELŐSSÉG ÉS A SZERZŐI JOG SZEMSZÖGÉBŐL

Az új történelemérettségi hatása a történelemtanítás megújítására

A hallgatói preferenciák elemzése statisztikai módszerekkel

Agrárinformatikai kutatások helyzetének áttekintése

BOI LÁSZLÓ AZ UTAZÓ BŰNÖZÉS ÉS A SOROZATBŰNCSELEKMÉNYEK ÖSSZEFÜGGÉSEI

A deprivációs folyamatok várható alakulása a klímaváltozás árnyékában

Átírás:

magyar nyelv beszédfelismerési feladatokhoz 2015. január 10. Konzulens: Dr. Mihajlik Péter

A megvalósítandó feladatok Irodalomkutatás Nyílt kutatási eszközök keresése, beszédfelismer rendszerek tervezése magyar nyelv beszédadatbázisokhoz A neurális hálózatos módszerek hagyományos eljárásokkal szembeni teljesítményének elemzése Paraméter-nomhangolás, optimalizálás Számítási er forrásigények meghatározása

Akusztikus bemenetb l szöveges kimenet el állítása: lényegkiemelés mintaillesztés

Mintaillesztési módok súlyozások ((w)) súlyozások ((w)) Statisztikai módszerek: cél a feldolgozott hangra legjobban illeszked fonémák, szavak, szósorozatok keresése Hagyományos módszerek: rejtett Markov-modellek Az újabb kelet neurális hálózatos megoldásokkal jobb pontosság érhet el bemeneti réteg (x) f (x T w) rejtett réteg(ek) kimeneti réteg (y)

Kaldi: nyílt forráskódú beszédfelismer keretrendszer támogatja a klasszikus és a neurális hálós modellek tanítását is szabadon módosítható, testreszabható kódok Beszédadatbázisok híradó-hanganyagok (64 óra; 16kHz) telefonos ügyfélszolgálati hanganyagok (54, 38 és 27 óra; 8kHz)

A f bb kísérleti paraméterek adatbázisméret akusztikus modell (HMM vs. DNN) bemeneti jellemz k (pl. normalizálás, dimenziócsökkentés, lényegkiemelés módja) neuronháló-architektúra és tanítási paraméterek (pl. dimenziók, tanulási sebesség) lehet ségek a beszél adaptációra

Eredmények a hír-hanganyagokon HMM DNN WERavg % 36 34 32 30 28 26 24 22 a legjobb hagyományos és neuronhálós modellek teljesítménye legjobb konguráció 4 1024 méret neuronháló indokolt a dimenziócsökkentés, normalizálás 20 10 óra 20 óra 64 óra

Eredmények a hír-hanganyagokon (folyt.) beszél adaptáció újrabeszél kre az adatbázis sok ismeretlen beszél t tartalmaz, a felvételek zajosak, gyakori az egyszerre beszélés stb. megoldás: újrabeszél k alkalmazása az hangjukra tesztelési id ben adaptálható a modell az adaptáció az adaptálatlan modellhez képest 17%-os relatív javulást hoz hagyományos HMM-módszereknél neurális hálókkal is érzékelhet javulás, bár kisebb (3%)

Eredmények az ügyfélszolgálati hanganyagokon HMM DNN WERavg % 45 40 35 30 25 a hír-hanganyagoknál tapasztaltak itt is érvényesek a rosszabb akusztikai körülmények miatt magasabbak a szóhibaarányok 20 1/A 2/A 2/C

Tanítási er forrásigények, dekódolási id 3 1024, 2GB GPU 4 1024, 2GB GPU 3 1024, 4GB GPU 4 1024, 4GB GPU 3 1024, CPU 4 1024, CPU Tanítási idö (perc) 10,000 8,000 6,000 4,000 Real Time Factor: RTF = t(dekódolás) t(dekódalandó anyag) Átlagos RTF a híranyagon: 0,36 2,000 32 óra 64 óra

Összefoglalás és további irányok neurális hálózatokkal minden esetben javulás érhet el, ez átlagosan relatív 16% a hagyományos módszerekhez képest a dimenziócsökkentés javulást hoz, 3-4 1000 dimenziós rejtett réteg teljesít a legjobban további irányok új neuronháló-architektúrák automatikus beszél klaszterezés

Kérdések?

Bírálói kérdések Mi a különbség a DEV az EVAL teszthalmazok között? Miért kell külön DEV teszthalmaz, ha egyszer a felismerés ideje elhanyagolható a betanításhoz képest? A DEV halmaz hagyományosan a modellek nomítására, az EVAL pedig a végs tesztelésre szolgál, alapvet en nem különböznek (a tartalmukat leszámítva). Mi az oka, hogy a 3.6-os táblázatban feltüntetett eredmények jelent sen rosszabbak a referenciához képest (3.2 táblázat)? Vajon az újrabeszél k rosszabbul mondták fel az elhangzottakat, mint az eredeti beszél k? Az újrabeszél -teszthalmaz anyaga nem azonos az eredeti teszthalmazzal, sokkal kisebb annál (ilyen formában csak az adaptációs lehet ségek vizsgálatára szolgált), de a kérdésben felvetett eset is el fordulhat.

Bírálói kérdések (folyt.) A 10 és a 20 órás adatbázison betanított modellek ugyanazon a teszthalmazon lettek tesztelve (3.4 pont)? Igen.

Köszönöm a gyelmet!