Beszédtechnológia a médiában. Tibor Fegyó SpeechTex Kft.

Tibor Fegyó SpeechTex Kft.

SpeechTex Kft Célunk korszerű beszédfelismerő motor és kapcsolódó alkalmazások, megoldások fejlesztése, kapcsolódva a hanganalitikai, hangbányászati feladatokhoz Fő kutatás-fejlesztési területek : Nagyszótáras beszédfelismerés Beszédanalitika Multimédia archívumok indexelése Automatikus hívásirányítás Multimodális felhasználói felületek Magyar és közép-európai nyelvekre fókuszálva 2

Beszédfelismerési technológia Saját fejlesztésű beszédfelismerő motor és fejlesztői környezet Kliens-szerver alapú, elosztott működést támogató felismerő motor Valós idejű feldolgozás komplex, nagyméretű modellek esetén is Nincs szótárméret korlát, akár millió szavas szótár is kezelhető Egyedi, személyre szabott beszédfelismerési modellek Akusztikus modellezési módszerek: hagyományos GMM (Gaussian Mixture Modell) és újabban DNN (Deep Neural Network) Nyelvi modellezési módszer: WFST (Weighted Finite States Transducers) Nem csodaszer: nem hibátlan, nem univerzális, nem végtelenül gyors 3

Motiváció Motiváló statisztikák Youtube 2,5m+ óra feltöltés havonta Médiafigyelés: ~400 rádió / TV adó Magyarországon Az élő műsorok aránya ismét nő 4

Feladatok, kihívások A nagyok számára kötelező a feliratozás, ami valós időben emberi erővel nem megoldható A videók életciklusát, használhatóságát a kereshetőséggel, indexeléssel lehet növelni Élő műsorok kihívásai A beszédfelismerő számára kijelölt témakör egyre szélesebb A spontán beszéd jelentősen különbözik a tervezett bemondói beszédtől 5

Mikor tekintjük jónak a beszédfelismerőt? Általános megközelítés szerint a beszédfelismerés pontosságát szóhibaaránnyal mérjük. WER( word error rate) substitution insertion deletion number _ of _ input _ words WER egy jól definiált feladaton, parlamenti jegyzőkönyvek esetén: hivatalos kézi lejegyzés hibája: WER = 15.7% gépi beszédfelismerés hibája: WER = 19.2% Szükség lenne szöveganalitikai indíttatású hibaarány definícióra 6

Nyelv modellezése Tipikus korpusz méret: 10-100M tokens Szótárméret 50K to 1.5M types Szó-/ morf-alapú megoldások a ragozott nyelvek kezelésére Szó-alapú nyelvi modellek 3/4-gram modell (feladatra/adatbázisra optimalizálva) Morf-alapú nyelvi modellek 4/5/6-gram modell (feladatra/adatbázisra optimalizálva) 7

Gépi tanulás modellezés Statisztikai alapelven működik, adatvezérelt eljárások a beszéd különböző szintjein Szavak, szókapcsolatok: szöveges adatbázisokon tanul, mint pl. Hírportálok, nyilvános webes tartalmak Jogi anyagok Parlamenti felszólalások Kiejtés: félautomatikus módszerek Beszédhangok: 100+ óra hanganyag A tanító mintának illeszkedni kell a feladathoz 8

Tematikus korpuszok nyelvi modellezéshez Témakör Forrás Szóalakok száma Szavak száma Hírek TV műsor leiratok 602k 15.9m egyéb hírforrások 1 200k 54.7m Diktálás támogatás jogi diktálás 1 355k 35.6m Telefonos ügyfélszolgálat fordító memória 616k 14.4m beszélgetés leiratok 48k 1.0m bővített korpusz 98k 3.2m Témakörönként jelentős különbség a tanítóminták mennyiségében nem egyenletes a használt szókincs sem az adatgyűjtés költsége sem azonos 9

Szükségesek-e a tematikus korpuszok? 75 65 telefonos ügyfélszolgálat hírműsorok jogi diktálás 55 WER [%] 45 35 25 15 5 AM: telefon LM: ügyfélszolgálat AM: telefon LM:hírműsor AM:telefon LM: jogi AM: stúdió LM: ügyfélszolgálat AM:stúdió LM:hírműsor AM: stúdió LM: jogi Szóhibaarány a feladatokhoz illeszkedő, illetve nem illeszkedő modellek esetén 10

Memória optimalizálás Forrás Szótár Szavak száma Korpuszbővítés eredményesebb domain-közeli szövegekkel Nem gazdaságos feleslegesen bővíteni Memória WER TV-műsor leiratok 602k 15.9m 1.3 Gb 27% Egyéb hírforrások (1 200k) 54.7m 3.6Gb 30% TV-műsor leiratok + egyéb hírforrások 931k 70.6m 4.0 Gb 26% TV-műsor leiratok + egyéb hírforrások legjobban illeszkedő 50%-a TV-műsor leiratok + egyéb hírforrások legjobban illeszkedő 25%-a 931k 43.3m 2.7Gb 26.1% 931k 29.6m 2.1Gb 26.3% 11

Számításigény (sebesség) optimalizálás Szóhibaarány (WER) vs. Sebesség (RTF) 30 25 Legpontosabb Legyorsabb 20 RTF 15 10 5 0 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% WER 12

Számításigény (sebesség) optimalizálás Szóhibaarány (WER) vs. Sebesség (RTF) 1 0,9 0,8 Legpontosabb Legyorsabb 0,7 0,6 RTF 0,5 0,4 0,3 0,2 0,1 0 36,00% 36,50% 37,00% 37,50% 38,00% 38,50% 39,00% 39,50% 40,00% WER 13

Szóhibaarány a médiában WER [%] 45 40 35 30 25 20 15 10 5 Magazin Sportmagazin Hírháttér Sporthír Híradó Időjárás Az eltérések főbb indokai: egymásra beszélés spontán beszéd háttérzaj tematika eltérés (sport, bulvár) 14

Beszédstílusonként átlagolva Broadcast Conversation (BC) Broadcast News (BN) 35 34,6 WER [%] 25 15 12,7 29,3 26,3 10,5 9,9 5 GMM 64 óra DNN 64 óra DNN 500 óra Jelentősen javuló eredmények: a tanító korpusz méretének növelése technológia váltás 15

Demó Kézi felirat + gépi felirat (hírháttér jellegű műsorok - BC) Ma Reggel építkezés Ma Reggel családtámogatás Ma Délben tőzsde Ezekben a műsorokban a fix részekhez előre megírt, az élő részekhez valós időben kézzel gépelt felirat kerül jelenleg adásba Csak gépi felirat (BN) Híradó Előre tárolt feliratokkal kerül adásba 16

Köszönjük a figyelmet!