Beszédtechnológia a médiában. Tibor Fegyó SpeechTex Kft.



Hasonló dokumentumok

MÉDIAAJÁNLAT Sopronmédia

Beszédfelismerés és videó keresés web2 módra

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

A hallási fogyatékkal élők befogadását segítő feliratozással kapcsolatos kívánalmak ellenőrzése (2014. II. negyedév)

Közúti biztonsági program

A megtett úttal arányos útdíjfizetés sajátosságai és eredményei Magyarországon

Mély neuronhálók alkalmazása és optimalizálása

Támogatási gyakorlat a legnagyobb eléréssel rendelkező televízióknál

MÉDIA- AJÁNLÓ 2015 FELHAGYNI A REKLÁMOZÁSSAL, HOGY PÉNZT SPÓROLJ, OLYAN, MINT MEGÁLLÍTANI AZ ÓRÁT, HOGY IDŐT SPÓROLJ. (HENRY FORD)

HELYI TANTERV BIOLÓGIA Tantárgy

A NEMZETI MÉDIA- ÉS HÍRKÖZLÉSI HATÓSÁG MÉDIATANÁCSÁNAK. 1167/2014. (XII.1.) számú HATÁROZATA

Közhasznúsági melléklet 2012

Családvédelmi Szolgálat helyzete országos összesítő

Mihályi Általános Iskola Pedagógiai Programja

,2M. A küldetésünk

REMIT WORKSHOP.. Budapest, 2015/12/07

KOMMUNIKÁCIÓS EGYÜTTMŰKÖDÉSI SZERZŐDÉS TERVEZET VEZETÉKES MŰSORSZOLGÁLTATÁSRA (VÁROSI TELEVÍZIÓ), KÁBEL TV CSATORNA HASZNOSÍTÁSÁRA ÉS ÜZEMELTETÉSÉRE

Adattár. Adattár. Elemzések, modellezés. Adatszolgáltatás

Deep Learning a gyakorlatban Python és LUA alapon. Beszédfelismerés (ASR)

A Nógrád Megyei Pedagógiai Intézet évre szóló SZOLGÁLTATÁSI AJÁNLATA Óvodák részére

Foglalkozási napló a 20 /20. tanévre

KOMLÓ VÁROS ÖNKORMÁNYZAT KÉPVISELŐ-TESTÜLETÉNEK 13/2011. (V.27.) ö n k o r m á n y z a t i r e n d e l e t e

A TANKÖNYVFEJLESZTÉS PROGRAMJA

ÉPÜLETVILLAMOSSÁGI GYENGEÁRAMÚ MUNKARÉSZ ENGEDÉLYEZÉSI TERVDOKUMENTÁCIÓJÁHOZ

társalkodó felsőfokú nyelvvizsga felépítése [1]

KONYHABÚTOR FELSŐK ELEMJEGYZÉKE

Modellkiválasztás és struktúrák tanulása

MÓRA FERENC ÁLTALÁNOS ISKOLA ÉS ALAPFOKÚ MŰVÉSZETI ISKOLA. Pedagógiai program. Sárvári Tankerület. Répcelak

Felnőttképzési nyilvántartási szám: ; Intézmény-akkreditációs lajstromszám: AL-1290

Tehergépkocsi TANFOLYAMOK ÁRAI. Képzés díja (Oktatási + Vizsgadíjak): "C" kategória OKTATÁSI DÍJ. VIZSGADÍJAK (az NKH részére fizetendők)

Távközlési Zrt. VÁLLALKOZÁSI FELTÉTELEI ADATHÁLÓZATI (Internet) SZOLGÁLTATÁSRA

Európa legjobbjai között a Philips legújabb androidos tévéje. Írta: EISA augusztus 17. hétfő, 13:28

Neumann János Általános Iskola. Pedagógiai Program

Nevelési program Tartalomjegyzék 1. A nevelő-oktató munka pedagógiai alapelvei, céljai, feladatai, eszközei, eljárásai

Procontrol Clienter ügyfélhívó rendszer általános leírása

HATÁROZAT ,- Ft, azaz hétszáztizenötezer forint összegű bírság megfizetésére kötelezi.

TÁJÉKOZTATÓ a 2012/2013-as tanév/nevelési év indításának tapasztalatairól

Vállalatgazdaságtan. A termelés és szolgáltatás típusai. A vállalat tevékenységi rendszere. 8. előadás. Értékteremtő folyamatok

Országos Szakiskolai Közismereti Tanulmányi Verseny 2005/2006 SZÁMÍTÁSTECHNIKA

A DOBBANTÓ PROGRAM TANULÁSSZERVEZÉSI KERETEI Munkaanyag. Tartalomjegyzék

2011. november DIGITÁLIS ÁTÁLLÁS MONITORING (1. FÉLÉV) KUTATÁSI EREDMÉNYEK LAKOSSÁGI ADATOK

Magyar nyelvű, élő közéleti- és hírműsorok gépi feliratozása

KISTÉRSÉGI MINŐSÉGIRÁNYÍTÁSI PROGRAM

Geoinformatikai szakember szakirányú továbbképzési szak

Budapest a kulturális turizmus szemszögéből A Budapesti Kulturális Munkacsoport tanulmánya. Szerzők: Nyúl Erika és Ördög Ágnes 1

Médiaajánlat. Opauszki Zoltán ügyvezető igazgató

OKTATÁSI, KÉPZÉSI IGÉNYEK MEGHATÁROZÁSÁRA IRÁNYULÓ KÉRDŐÍVES VIZSGÁLATOK MÓDSZERTANA

Szellemi Tulajdon Nemzeti Hivatala. pályázatot hirdet. 1 fő. részére. az Ügyvitelfejlesztési és Informatikai Főosztályán.

ORSZÁGOS RÁDIÓ ÉS TELEVÍZIÓ TESTÜLET. 2111/2009. (X. 28.) sz. HATÁROZATA

Ligetváros szociális célú rehabilitációja elnevezésű projekttel kapcsolatos önkormányzati soft feladatok ellátása - módosítás

Györffy István Katolikus Általános Iskola. Szervezeti és Működési Szabályzata. Fenntartó által jóváhagyva: a számú határozat alapján

Click to edit headline title style

E L Ő T E R J E S Z T É S Komló Város Önkormányzat Képviselő-testületének március 29-én tartandó ülésére

Jegyzőkönyv. Tokodaltáró Község Önkormányzat Képviselő-testülete

ÖNÉRTÉKELÉSI SZABÁLYZAT AZ INTÉZMÉNYI ELVÁRÁS-RENDSZER ALAPJÁN

MILYEN AZ IDEÁLIS NAPI ÉTREND?

Bemutatkozik az ElixirNet.hu közösségi portál

Közzétételi lista. Szekszárdi I. Béla Gimnázium Kollégiuma

2010. Gyermekek és fiatalok társadalmi integrációját segítő programok B Ifjúságügyi és Kábítószerügyi komponens

Magyar C nyelvi programkövetelmény

Helyi tanterv. Célok és feladatok

Dr. Ditrói Tóth Zsuzsa ügyvéd, adótanácsadó. Szolgáltatások

MAGYAR LÁSZLÓ GIMNÁZIUM 7020 Dunaföldvár, Templom u. 5.

Energiaigény; előrejelzése. Várható fogyasztás modellezése

PEDAGÓGIAI PROGRAMJA ÉS HELYI TANTERVE

PÁLYÁZATI FELHÍVÁS. Kós Károly Művelődési Ház és Könyvtár büfé üzemeltetése

KISKÖREI ÓV-LAK ÓVODA. OM azonosító: PEDAGÓGIAI PROGRAM

A település fontosabb adatai. A településsel határos más települések: Sárrétudvari, Püspökladány, Bucsa Külterületi településrész: Hosszúhát

A Nemzeti Média- és Hírközlési Hatóság Médiatanácsának 748/2015. (VI.16.) számú HATÁROZATA

Esélyegyenlőségi Útmutató a Regionális Fejlesztési Operatív Programok keretében években kiírt pályázatokhoz

1. Pedagógiai módszertani felkészültség

MUNKATERV 2014/15 tanév

ORSZÁGOS RÁDIÓ ÉS TELEVÍZIÓ TESTÜLET HATÁROZATA

25/2013. számú Hirdetmény ingatlanfedezettel nyújtott hitelekről ( )

HELYI TANTERV AZ ÉLŐ IDEGEN NYELV tanításához Szakközépiskola évfolyam

Kollégiumi munkaterv 2014/2015.

KOMPLEX SZAKKÉPZÉSI INTÉZMÉNY KAESZ GYULA FAIPARI SZAKKÖZÉPISKOLÁJA ÉS SZAKISKOLÁJA. Belső Ellenőrzési Csoport

139/2008. (X. 22.) FVM

A M É D I A T A N Á C S R É S Z É R E

PEDAGÓGIAI PROGRAM. Nevelési program helyi tanterv. Átdolgozott változat

A BUDAPESTI GAZDASÁGI EGYETEM CAFETÉRIA SZABÁLYZATA

A Nemzeti Média- és Hírközlési Hatóság Médiatanácsának. 790/2012. (IV.25.) sz. HATÁROZATA

Felhasználói Segédlet. A Set Top Box beállítása, a távirányító használata, TV nézés

Szent Anna Idősek Otthona Intézményfejlesztési Terve

Összefoglaló elemzés a 2010 során a televíziókban sugárzott reklámokról

INFORMATIKA. 6 évfolyamos osztály

Informatika 5 8. évfolyama számára heti 1 óra. Óraterv 5 8. évfolyam 5. évf. 6. évf. 7. évf. 8. évf. Informatika heti 1 óra

A évi költségvetési beszámoló szöveges indoklása. Összefoglaló

SALGÓTARJÁNI ÁLTALÁNOS ISKOLA ÉS KOLLÉGIUM SZÉKHELYINTÉZMÉNYE SALGÓTARJÁN, JÓZSEF ATTILA UTCA 2.

Ajánlás-tervezet a médiaszolgáltatásban közzétett termékmegjelenítés és az arról szóló tájékoztatás feltételeiről 1

A vidékfejlesztési támogatások rendszere 2014 után

TOVÁBBKÉPZÉSI PROGRAM 2010/2011. Az Észak-Magyarországi Regionális Munkaügyi Központ nyilvántartási száma:

HÍRKÖZLÉSTECHNIKA. 7.ea. Dr.Varga Péter János

2.9 Az iskolai beszámoltatás, az ismeretek számonkérésének követelményei és formái

IKT 0-1 AJÁNLOTT KOMPETENCIA LISTA

Hálózatsemlegesség - egységes internet szolgáltatás-leíró táblázat

H A T Á R O Z A T ,- Ft, azaz egymillió-háromszázezer forint összegű bírság megfizetésére kötelezi.

Ügyiratszám: Ügyintéző: személyes adat Tárgy:

Általános Szerzõdési és Felhasználási feltételek

Átírás:

Tibor Fegyó SpeechTex Kft.

SpeechTex Kft Célunk korszerű beszédfelismerő motor és kapcsolódó alkalmazások, megoldások fejlesztése, kapcsolódva a hanganalitikai, hangbányászati feladatokhoz Fő kutatás-fejlesztési területek : Nagyszótáras beszédfelismerés Beszédanalitika Multimédia archívumok indexelése Automatikus hívásirányítás Multimodális felhasználói felületek Magyar és közép-európai nyelvekre fókuszálva 2

Beszédfelismerési technológia Saját fejlesztésű beszédfelismerő motor és fejlesztői környezet Kliens-szerver alapú, elosztott működést támogató felismerő motor Valós idejű feldolgozás komplex, nagyméretű modellek esetén is Nincs szótárméret korlát, akár millió szavas szótár is kezelhető Egyedi, személyre szabott beszédfelismerési modellek Akusztikus modellezési módszerek: hagyományos GMM (Gaussian Mixture Modell) és újabban DNN (Deep Neural Network) Nyelvi modellezési módszer: WFST (Weighted Finite States Transducers) Nem csodaszer: nem hibátlan, nem univerzális, nem végtelenül gyors 3

Motiváció Motiváló statisztikák Youtube 2,5m+ óra feltöltés havonta Médiafigyelés: ~400 rádió / TV adó Magyarországon Az élő műsorok aránya ismét nő 4

Feladatok, kihívások A nagyok számára kötelező a feliratozás, ami valós időben emberi erővel nem megoldható A videók életciklusát, használhatóságát a kereshetőséggel, indexeléssel lehet növelni Élő műsorok kihívásai A beszédfelismerő számára kijelölt témakör egyre szélesebb A spontán beszéd jelentősen különbözik a tervezett bemondói beszédtől 5

Mikor tekintjük jónak a beszédfelismerőt? Általános megközelítés szerint a beszédfelismerés pontosságát szóhibaaránnyal mérjük. WER( word error rate) substitution insertion deletion number _ of _ input _ words WER egy jól definiált feladaton, parlamenti jegyzőkönyvek esetén: hivatalos kézi lejegyzés hibája: WER = 15.7% gépi beszédfelismerés hibája: WER = 19.2% Szükség lenne szöveganalitikai indíttatású hibaarány definícióra 6

Nyelv modellezése Tipikus korpusz méret: 10-100M tokens Szótárméret 50K to 1.5M types Szó-/ morf-alapú megoldások a ragozott nyelvek kezelésére Szó-alapú nyelvi modellek 3/4-gram modell (feladatra/adatbázisra optimalizálva) Morf-alapú nyelvi modellek 4/5/6-gram modell (feladatra/adatbázisra optimalizálva) 7

Gépi tanulás modellezés Statisztikai alapelven működik, adatvezérelt eljárások a beszéd különböző szintjein Szavak, szókapcsolatok: szöveges adatbázisokon tanul, mint pl. Hírportálok, nyilvános webes tartalmak Jogi anyagok Parlamenti felszólalások Kiejtés: félautomatikus módszerek Beszédhangok: 100+ óra hanganyag A tanító mintának illeszkedni kell a feladathoz 8

Tematikus korpuszok nyelvi modellezéshez Témakör Forrás Szóalakok száma Szavak száma Hírek TV műsor leiratok 602k 15.9m egyéb hírforrások 1 200k 54.7m Diktálás támogatás jogi diktálás 1 355k 35.6m Telefonos ügyfélszolgálat fordító memória 616k 14.4m beszélgetés leiratok 48k 1.0m bővített korpusz 98k 3.2m Témakörönként jelentős különbség a tanítóminták mennyiségében nem egyenletes a használt szókincs sem az adatgyűjtés költsége sem azonos 9

Szükségesek-e a tematikus korpuszok? 75 65 telefonos ügyfélszolgálat hírműsorok jogi diktálás 55 WER [%] 45 35 25 15 5 AM: telefon LM: ügyfélszolgálat AM: telefon LM:hírműsor AM:telefon LM: jogi AM: stúdió LM: ügyfélszolgálat AM:stúdió LM:hírműsor AM: stúdió LM: jogi Szóhibaarány a feladatokhoz illeszkedő, illetve nem illeszkedő modellek esetén 10

Memória optimalizálás Forrás Szótár Szavak száma Korpuszbővítés eredményesebb domain-közeli szövegekkel Nem gazdaságos feleslegesen bővíteni Memória WER TV-műsor leiratok 602k 15.9m 1.3 Gb 27% Egyéb hírforrások (1 200k) 54.7m 3.6Gb 30% TV-műsor leiratok + egyéb hírforrások 931k 70.6m 4.0 Gb 26% TV-műsor leiratok + egyéb hírforrások legjobban illeszkedő 50%-a TV-műsor leiratok + egyéb hírforrások legjobban illeszkedő 25%-a 931k 43.3m 2.7Gb 26.1% 931k 29.6m 2.1Gb 26.3% 11

Számításigény (sebesség) optimalizálás Szóhibaarány (WER) vs. Sebesség (RTF) 30 25 Legpontosabb Legyorsabb 20 RTF 15 10 5 0 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% WER 12

Számításigény (sebesség) optimalizálás Szóhibaarány (WER) vs. Sebesség (RTF) 1 0,9 0,8 Legpontosabb Legyorsabb 0,7 0,6 RTF 0,5 0,4 0,3 0,2 0,1 0 36,00% 36,50% 37,00% 37,50% 38,00% 38,50% 39,00% 39,50% 40,00% WER 13

Szóhibaarány a médiában WER [%] 45 40 35 30 25 20 15 10 5 Magazin Sportmagazin Hírháttér Sporthír Híradó Időjárás Az eltérések főbb indokai: egymásra beszélés spontán beszéd háttérzaj tematika eltérés (sport, bulvár) 14

Beszédstílusonként átlagolva Broadcast Conversation (BC) Broadcast News (BN) 35 34,6 WER [%] 25 15 12,7 29,3 26,3 10,5 9,9 5 GMM 64 óra DNN 64 óra DNN 500 óra Jelentősen javuló eredmények: a tanító korpusz méretének növelése technológia váltás 15

Demó Kézi felirat + gépi felirat (hírháttér jellegű műsorok - BC) Ma Reggel építkezés Ma Reggel családtámogatás Ma Délben tőzsde Ezekben a műsorokban a fix részekhez előre megírt, az élő részekhez valós időben kézzel gépelt felirat kerül jelenleg adásba Csak gépi felirat (BN) Híradó Előre tárolt feliratokkal kerül adásba 16

Köszönjük a figyelmet!