Beszédfelismerés alapú megoldások AITIA International Zrt. Fegyó Tibor fegyo@aitia.hu www.aitia.hu
AITIA Magyar tulajdonú vállalkozás Célunk: kutatás-fejlesztési eredményeink integrálása személyre szabott komplex informatikai rendszerekbe, szolgáltatásokba Szoros kapcsolat egyetemi kutatóhelyekkel
AITIA termékcsoportok Távközlési mérımőszerek és szolgáltatások Társadalmi és gazdasági folyamatok szimulációja Web fejlesztés Beszédfelismerés és alkalmazásai
Beszédfelismerési technológia Célja: beszédbıl szöveg átalakítása Alkalmazási típusai Parancsszó vezérlés (pl. név szerinti tárcsázás) Kulcsszó keresés rövid szövegben, a parancsszó vezérlés kiterjesztése Kulcsszó keresés folyamatos szövegben Folyamatos felismerés (diktálás, archívum indexálás) Kihívások: < 100% pontosság, zajos környezet, nincs univerzális megoldás
VOXenter Hangportál keretrendszer Teljes IVR funkcionalitás GUI a dialógus szerkesztéshez Hívás fogadás és indítás Különbözı adatbázis, és telefon interfészek Példák Név alapú tárcsázás, okmányirodai, önkormányzati tájékoztatás, tudakozó szolgáltatás, helyfüggı szolgáltatás, www.gyorgyszervonal.hu
VOXearch Rögzített hanganyagok feldolgozása, indexelése folyamatos beszédfelismerési módszerrel Tematikus betanítást igényel Adatbázisok győjtése 20-70 óra/ 200k-5M szó Jelenlegi teszek valós idıben 60-80%-os pontosság Nem diktálás, hanem keresés a cél Példa: híradó keresı (www.mindroom.hu), hangarchívum keresı
VOXerver Saját fejlesztéső beszédfelismerı motor + tanító keretrendszer Parancsszó vezérléstıl a folyamatos felismerésig azonos az alap technológia Morféma alapú statisztikus nyelvi modellezés Interfészek külsı alkalmazások felé, beépíthetı fekete dobozként Mobil eszközre portolásra kísérletek
Mitıl mőködik? A beszédfelismerı alapvetıen adatvezérelt, statisztikai megközelítéseket tartalmaz A beszéd hangokat sok ember hangjával kell tanítani, témafüggetlen, de akusztikus környezet, és beszédstílus függı A szótárat (nyelvi modell) azzal a témakörrel kell tanítani, ahol használják. Alkalmazás függvényében a tanító szöveg: szó lista folyamatos szöveg A keretrendszer kész, de a tanítás nem megkerülhetı egyedi projektek
Őrlapkitöltés, leletezés Az őrlapok egyes mezıiben korlátos válasz lehetıségbıl választhatunk A szabad szavas mezık is tipikusan kis szótárral leírhatóak A tanítás együttmőködést igényel az alkalmazó részérıl, mivel a tanító adat ott áll rendelkezésre Többlépcsıs tanítás a pontosság növelése érdekében: írott, majd elmondott adatokkal Folyamatos karbantartással javul a minıség
Őrlapkitöltés, leletezés (2) A kitöltött őrlap szabványos formátumban kerül tárolásra, így integrálható akár a meglévı kórházi dokumentum kezelı rendszerekkel is Elosztott, és centralizált megoldás is elképzelhetı
Betegirányítás Automata telefonos rendszer Hangbemondással lehet elérni az osztályokat Általános információk adhatók automatikusan Tehermentesíti a portást/ telefonközpontost Idıpont egyeztetés Szőrıvizsgálatok eredményének lekérdezése
Demonstráció (1) Folyamatos felismerı 1.2M szóval tanított rendszer (politikai) jellegő hírek feldolgozása
Demonstráció (2) Név szerinti tudakozó 24 000 elemő szótár Név+város+utca Parancsszavas üzemmód
Demonstráció (3) Híradó keresı Folyamatos felismerésre épülı címkézı rendszer 5+ M szavas tanító halmaz Tetszıleges kulcsszóra kereshetünk Új szavak is elıfordulhatnak a morféma modellek miatt