Beszédtechnológia élő sportközvetítések gépi feliratozása Tibor Fegyó SpeechTex Kft.
Előzmények TV műsor feliratozás 2014 K+F együttműködés 2016 szolgáltatás A megvalósítás fő kihívásai nagy mennyiségű releváns tanító adat összegyűjtése feldolgozása valósidejű integráció Mindroom projekt 2008 tematikus reklámelhelyezés Beszédtechnológia 2
Motiváció Az elsődleges cél megfelelés a törvényi kötelezettségnek JBE szolgáltatók 24 órában kötelesek felirattal ellátni a műsoraikat A kezdeti rendszer a sportműsorokat még nem kezelte elég hatékonyan Magyarországon ma nincs olyan publikus kereső, ahol az elhangzott műsorokban tartalmilag lehetne keresni Beszédtechnológia 3
Kitekintés IBM (ustream) headlines (2017) How AI will change live sports broadcasting Contextual video advertising: why it matters and how AI can help To win in streaming media services, get clever with data How advances in cognitive awareness promise to redefine video industry economics How Watson Video Enrichment can provide better decisionmaking data and unlock new business possibilities in the media industry Beszédtechnológia 4
IBM (ustream) motivation AI & sport The real game-changer for live sports broadcasting is artificial intelligence. AI will not only affect viewers, but also advertisers, broadcasters, and even the athletes and coaches. It will enrich video content with better insights and better recommendations. Soon, we may not recognize a sporting event without it. Beszédtechnológia 5
Sport labdarúgás feliratozás Miért labdarúgó-mérkőzések? nagyon népszerűek sok az élő adás Nehezebb feladat, mint a közéleti műsorok Zajos környezet Nagyrészt spontán, töredezett, kontextus nélküli beszéd Sok személynév (akár minden 7. szó!) Kézi feliratozás: nagyon hiányos és sokat késik Cél: minél hatékonyabban kiváltani a kézi módszereket Beszédtechnológia 6
Élő TV műsor feliratozás Élőmunka igény Kézi feliratozás (gépelés) késik, hiányos, drága, de pontos Szószerinti újrabeszélés élő, hiányos, drága, kevésbé pontos Élő gépi feliratozás élő, teljes, olcsó, kevésbé pontos (~5-30% WER) Újrabeszélés + élő szerkesztés késik (~5 sec), hiányos (60-80%), drága, de pontos (1-5% WER) Gépi feliratozás + utófeldolgozás Élő felirat Adás késleltetés Késleltetett felirat Rendelkezés re álló idő Beszédtechnológia 7
Kézi valósidejű feliratozás Sport műsor kézi felirat Az ipari sztenderd : képzett leiratozók 4-6 óra alatt készítenek 99% pontosságú leiratot a hangminőség függvényében (3 USD / min) Sztenográf alkalmazása (US) Gyakorlott bírósági jegyzőkönyv írók 3-6 hónapos képzés: élő adások leiratozása további 12-18 havi képzés után: élő sportközvetítések leiratozása Beszédtechnológia 8
Gépi feliratozás: kihívások - válaszok Témához illeszkedő tanító korpusz Releváns forrásokból gyűjtött szöveg 100m+ szó / 1.6m szó Zajos környezet Valós környezetben rögzített hangfelvételek 500+ óra Gyorsan változó, rövid ideig érvényes, de fontos névelemek Bővíthető nyelvi modell szükséges Olvashatóság központozás Beszédtechnológia 9
A kiindulási modell Releváns tanító korpusz Sportműsor kézi leiratok Sporthír feliratok Élő közvetítések utólag javított feliratai Sport témájú webkorpusz Hírműsorok kézi leiratok Hír témájú webkorpusz Parlament webkorpusz 3-gram szóalapú modellek Részmodellek lineáris interpolációja Számításigény 24 óra / 128Gbyte memória Beszédtechnológia 10
Modell bővítési mintafeladat: EB 2016 2016-os labdarúgó EB bírói, edzői, játékosai Alanyesetű személynevek listája 595 személy pl: Wayne Rooney 2 alakban: Rooney, Wayne_Rooney (összesen 1190 névalak) Főnévi esetragokkal ellátott lista 6 féle esetrag: részes, tárgy, eszközh., ablativus, delativus, allativus (~85%-os lefedettség) Összesen 7 x 1190 névalak Beszédtechnológia 11
Környezetfüggetlen szótárbővítés Névalakok izolált elhelyezése a nyelvi modellben Nem igényel tanítószöveg előkészítést! Elhelyezés tanítószövegben Szélsőségesen egyszerű Névalakok felsorolása a tanítószövegben Interpoláció unigram modellel Unigram nyelvi modell a névalakokból Interpoláció a többi nyelvi modellel Beszédtechnológia 12
Környezetfüggő szótárbővítés Tanítószöveg előkészítés szükséges! Releváns kontextus keresése Személynév felismerés a kézi leiratokon (NER) Kiindulás: hiányosan címkézett tanítószöveg Címkézés SzegedNE-vel (nagy pontosság) Stanford-NER tanítása: kézi címkék + SzegedNE címkék Eredmény: ~95% pontosság, ~88% felidézés Osztály n-gram tanítása Névelemek behelyettesítése a személynév címkék helyére Beszédtechnológia 13
Szótárbővítés hatása Szótárbővítés Tanító szövegben felsorolt nevek 3% Interpolált névlista 6% N-gramm modellek 10% Maximum 0,5% szótár bővítés Relatív hiba csökkenés Modell újratanítás minden esetben szükséges Az N-gramm modellek további jelentős befektetést igényelnek A közvetítés előtt közvetlenül a modell ezen módszerekkel nem módosítható Beszédtechnológia 14
Szótárbővítés demó Bővített modell Kezdeti nyelvi modell Beszédtechnológia 15
Környezetfüggetlen szótárbővítés Futásidejű modell interpoláció a motorban A nagy modell és a névlista önálló modellként kerül betöltésre Több modell is betölthető Minden modell súlyozható Modellek átjárhatóak Elveszítjük az N-gramm modell előnyeit Percek alatt bővíthető a modell Beszédtechnológia 16
Eredmény Sportoló nevekkel bővített, Központozott, Kereshető (Webvtt html5 szabvány) Feliratozott élő sportközvetítések Beszédtechnológia 17
Köszönöm a figyelmet! A projekt részben az EUREKA DANSPLAT projekt támogatásával került megvalósításra, szerződésszám: EUREKA_15_1_2016-0019