Beszédfelismerés, beszédmegértés



Hasonló dokumentumok
I R Á N Y E LV E K Az Óvodai nevelés országos alapprogramja a sajátos nevelési igényű gyermekek óvodai nevelésében

1. évfolyam. Két tanítási nyelvű 1-4. évf. Idegen nyelv - angol

Az ellenőrzés módszertana

Történeti áttekintés

Beszámoló az MTA Magyar nyelvészeti munkabizottsága évi tevékenységérıl

A SZOFTVER TELEPÍTÉSE ELŐTT TELEPÍTÉS WINDOWS KÖRNYEZETBEN TELEPÍTÉS MACINTOSH KÖRNYEZETBEN HIBAKERESÉS

A szövegértés és meghatározó tényezőinek vizsgálata hetedikes tanulóknál

INFORMATIKA. Célok és feladatok évfolyam

TÁJÉKOZTATÓ A BERLITZ NYELVISKOLA ONLINE NYELVTANFOLYAMAIRÓL

ERKEL FERENC Pedagógiai Program TARTALOMJEGYZÉK MAGYAR NYELV ÉS IRODALOM TANTERV MATEMATIKA KÖRNYEZETISMERET

Magyar nyelv. 5. évfolyam

Hogyan böngésznek a fogyatékkal élő emberek?

Stratégiai menedzsment

MOZGÓKÉPKULTÚRA ÉS MÉDIAISMERET 10 OSZTÁLY HELYI TANTERV

AZ EURÓPAI KÖZÖSSÉGEK BIZOTTSÁGA

Helyi tanterv. Szakiskolát végzettek középiskolája. Közismeret

INFORMATIKA 5. évfolyam

Kézikönyv a Wir lernen Deutsch 6. tanításához

15. BESZÉD ÉS GONDOLKODÁS

Word 2010 magyar nyelvű változat

Optikai karakterfelismerés

BELSŐ ELLENŐRZÉSI KÉZIKÖNYV

Dr. Szeles Péter 1. A közszféra közmegítélésének javítása

MAGYAR NYELV ÉS IRODALOM

Számítógép kártevők. Számítógép vírusok (szűkebb értelemben) Nem rezidens vírusok. Informatika alapjai-13 Számítógép kártevők 1/6

Javaslat AZ EURÓPAI PARLAMENT ÉS A TANÁCS RENDELETE

Rajz és vizuális kultúra 1-2. évfolyam

PDT Sync Pack v 1.3. PDT Sync Server és Sync Client

Digitális kártyák vizsgálata TESTOMAT-C" mérőautomatán

Az információs társadalom lehetőségeivel csak azok a személyek tudnak megfelelő módon élni, akik tudatosan alkalmazzák az informatikai eszközöket,

200 Az Európai Unió Hivatalos Lapja AZ EURÓPAI UNIÓ HIVATALOS LAPJA

SZKA_106_29. A modul szerzője: Nahalka István. é n é s a v i l á g SZOCIÁLIS, ÉLETVITELI ÉS KÖRNYEZETI KOMPETENCIÁK 6. ÉVFOLYAM

Beszédfelismerés és szintézis tételek:

Nokia 2730 classic - Felhasználói kézikönyv

JÁSZAPÁTI VÁROS ÖNKORMÁNYZATÁNAK SZERVEZETFEJLESZTÉSE

Hatályos Jogszabályok Gyűjteménye

Az Ön kézikönyve HP SCANJET 7490C SCANNER

A látássérültek információszerzésének módjai és lehetőségei. Várhelyi Eszter 2004

KREATÍVAN HASZNÁLHATÓ IDEGENNYELV-TUDÁS MEGSZERZÉSÉNEK NYELVPEDAGÓGIÁJA NEUROLINGVISZTIKAI MEGKÖZELÍTÉSBEN

Az óvoda nevelési feladatai Az óvodai nevelés feladata az óvodáskorú gyermek testi és lelki szükségleteinek kielégítése.

2015/10/10 03:40 1/7 Minőség

Informatika. Célok és feladatok. Helyi tantervünket az OM által kiadott átdolgozott kerettanterv alapján készítettük.

Az őrültek helye a 21. századi magyar társadalomban

A lakosság körében átfogó felmérés és elemzés készítése a közszolgáltatással kapcsolatos elégedettségről és a felmerülő igényekről

A Gyorstelepítés rövid leírását lásd a hátsó borítón.

A tanári és a tanulói beszéd vizsgálata

AZ EU KÖZÖS ÁRUSZÁLLÍTÁSI LOGISZTIKAI POLITIKÁJA

KOORDINÁCIÓ, DÖNTÉSI MECHANIZMUSOK

1sz. melléklet Nevelıtestületi klíma mérése

ÉNEK-ZENE A változat

IFFK 2014 Budapest, augusztus Intelligens városok közlekedése. Dr. Tánczos Lászlóné

AZ ÜZLETI BIZTOSÍTÁS, A NYUGDÍJBIZTOSÍTÁS ÉS AZ EGÉSZSÉGBIZTOSÍTÁS JOGI SZABÁLYOZÁSÁNAK PROBLÉMÁI

MAGYAR NYELV ÉS IRODALOM... 3 TÖRTÉNELEM ÉS ÁLLAMPOLGÁRI ISMERETEK HON- ÉS NÉPISMERET TÁNC ÉS DRÁMA... 43

A dokumentum lapméretének és a margóinak a beállítását a menüszalag Lap elrendezése lapján tehetjük meg. Külön állítjuk be a lapméretet.

NEVELÉSI PROGRAM A MAGYAR-ANGOL KÉT TANÍTÁSI NYELVŰ OSZTÁLYOK RÉSZÉRE

ÜGYFÉLSZOLGÁLATI MONITORING VIZSGÁLAT A FŐTÁV ZRT. RÉSZÉRE MÁSODIK FÉLÉV

INFORMATIKA Helyi tantárgyi tanterv

Pedagógiai Program 2015

Belsőellenőrzési kézikönyv

Ismeretszerzési, - feldolgozási és alkalmazási képességek fejlesztésének lehetőségei, feladatai

Az infravörös spektroszkópia analitikai alkalmazása

ÁSZF. I. A Szolgáltató. II. A tartalmak szellemi tulajdona. III. A Weboldal rendszere

Adóigazgatási szakügyintéző

MAGYAR NYELV ÉS IRODALOM 1-4. BEVEZETŐ

Az adaptív-elfogadó iskola projekt újraértelmezése az innováció szempontjából

Előterjesztés Békés Város Képviselő-testülete december 16-i ülésére

II. év. Adatbázisok és számítógépek programozása

Felhasználóbarát kliensszoftver

MAGYAR NYELV ÉS IRODALOM

Az Ön kézikönyve HP D325 MICROTOWER DESKTOP PC

Az üzemfenntartási ismeretek szerepe a rendelkezésre állás növelésében

A hierarchikus adatbázis struktúra jellemzői

beolvadási hibájának ultrahang-frekvenciás kimutatása

Százhalombattai Alapfokú Művészeti Iskola

Nokia Nseries PC Suite kiadás

Tej. Szívvel-lélekkel! Gyűjts össze 100 tejszívet és nyerj egy játszóteret!

E L İ T E R J E S Z T É S

Pécsi Tudományegyetem Állam- és Jogtudományi Kar Doktori Iskola Bőnügyi Tudományok. Hautzinger Zoltán. PhD értekezés tézisei

Az Alsóvárosi Óvoda Pedagógiai Programja

Kísérletek Készítette: Kiss Anett

MARKETINGELMÉLET. A stratégiai marketingtervezés alapjai. Kutatási módszerek

KELE3. Felhasználói kézikönyv

ÓVODA NEVELÉSI PROGRAMJA

A drámafoglalkozások vezetése A drámaóra vezetése gyökeresen eltérő a hazai gyakorlatban hagyományosnak tekinthető frontális osztálymunkán alapuló

Beszédadatbázis irodai számítógép-felhasználói környezetben

OFFICEJET PRO Felhasználói kézikönyv A811

Látás, érzékelés. Werner Ágnes. PDF created with pdffactory trial version

HP Scanjet 8270 síkágyas lapolvasó. Felhasználói kézikönyv

Elektronikus önkormányzati ügyintézés

2.3. A rendez pályaudvarok és rendez állomások vonat-összeállítási tervének kidolgozása A vonatközlekedési terv modellje

Miskolci Éltes Mátyás Óvoda, Általános Iskola és Egységes Gyógypedagógiai Módszertani Intézmény HELYI TANTERV

Pedagógiai program. Helyi tanterv. enyhe értelmi fogyatékos tanulók számára

Magyar nyelv és irodalom

HP Officejet Pro 276dw többfunkciós nyomtató. Felhasználói útmutató

PEST MEGYE ÖNKORMÁNYZATÁNAK KÖZLÖNYE

A nyelvi fejlődés állomásai, az evési mechanizmus. logopédus

Irodai berendezések nyomtató funkcióval (nyomtatók, másolók, multifunkcionális eszközök) KT-65. Érvényes: december 17-ig.

FOGYASZTÓ ELÉGEDETTSÉGI FELMÉRÉS A FŐTÁV ZRT. SZÁMÁRA 2012.

SZÜKSÉGLETFELMÉRÉS SZOLGÁLTATÁSTERVEZÉS MÓDSZERTANI AJÁNLÁS

4. évfolyam, 8. évfolyam, 12. évfolyam, minimumszint. minimumszint. minimumszint. KER-szintben nem megadható. Első idegen nyelv. Második idegen nyelv

Átírás:

Beszédfelismerés, beszédmegértés Werner Ágnes

Beszéd, ember-gép kapcsolat A beszéd az emberek közötti legtermészetesebb információátviteli forma. Az ember és a gép kapcsolatában is ez lehetne talán a legcélravezetőbb, ha a számítógépekhez jó minőségű beszédperifériák állnának rendelkezésre. Beszédfelismerés, beszédgenerálás

Szempontok A beszédfelismerő alkalmazások egy részénél csak kényelmi vagy anyagi szempontok játszanak szerepet, máshol azonban a kéz és a szem felszabadítása az alapvető szempont. Ilyen alkalmazások például: telefonálás vezetés közben, diktálás sötétben (pl. röntgenezésnél), leltározás terepen, fogyatékosok számára használható rendszerek stb.

Nehéz feladat A beszédfelismerő rendszerek elkészítése nagyon nehéz feladat. Oka: a feladatok nehezek és sokrétűek, az adott nyelvtől is nagyban függnek. A magyar nyelvű beszédfelismerő programokat elsősorban hazai fejlesztéssel kell kidolgozni. Oka: nyelvünk sajátos, ragozással kifejező jelleg, a szükséges beszédadatbázisokat csak anyanyelvi környezetben lehet megfelelően kiépíteni és tesztelni.

A beszédfelismerőktől elvárható feladatok a rendszer ismerje fel a beszédet (általánosságban: beszédszöveg átalakítás) beszéddetekció: annak felismerése, hogy beszéd van vagy nincs zöngés/zöngétlen meghatározás, leginkább csak támogatja a beszédfelismerőket, de néha önálló feladatnak is tekintik beszélő felismerése beszélő azonosítása mintaszöveg felvétele, amit belépéskor el kell mondani véletlenszerűen kisorsolt minta: sok mintát vesznek fel, és ezek közül egyet véletlenszerűen sorsol a rendszer a belépéskor

A beszédfelismerés több szempontból is osztályozható kis (kötött) szótáras, kb. 100 szó nagy szótáras (kötetlen szótáras), 20-80000 szó személyfüggő: egy személy beszédét ismeri fel, általában adaptív rendszer, egy adott személyre rátanul személyfüggetlen: nagyon sok mintával dolgozik, a személyfüggőséget megpróbálja kiátlagolni izolált szavas: egymástól hosszú idővel elválasztott szavak (pl. utasítások) kapcsolt szavas: a szavak közti szünetek minimálisak folyamatos beszéd: diktáló rendszerek jó minőségű beszédből felismerők: mindig innen indul a felismerés, és valamilyen trükkel sikerül robosztussá tenni robosztus rendszerek: elég nagy zaj mellett is felismerik a beszédet

A beszédfelismerés történeti áttekintése a célkitűzések szemszögéből Cél: olyan szoftver/hardver készítése, amely a beszédjelet írott alakra konvertálja írógép, amelynek diktálni lehet Huszadik század első felében: a távközlés motiválta a beszédvizsgálatát a feldolgozási eljárások legtöbbje a beszédkódolásból származó módszereken alapszik Ötvenes - hatvanas évek digitális technológia fejlődése a területen zajló kutatásnak újabb lökést adott rövid beszédszeleteket próbáltak fonémaként besorolni hosszabb egységek esetében az időbeli változatosságot (rövidülés, nyúlás) még nem képesek kezelni hosszabb egységek esetén két megoldási javaslat: a beszédet fonémákra kell szegmentálni, majd pedig a szegmenseket kell felismerni nagyobb egységeket (pl. szavakat) kell venni és az időtengely menti lehetséges torzulásokat ún. dinamikus idővetemítéssel kell kezelni

Később Hetvenes évek az utóbbi megoldás letisztulása és elterjedése jellemzi megpróbálják a felismerés során felhasználni a magasabb szintű (lexikális, szintaktikai, szemantikai) információkat beszédfelismerés helyett beszédmegértés célkitűzésük a rendszer helyesen reagáljon az elhangzott utasításra-a mondanivaló lényegét kellett megérteni Nyolcvanas évek az ismeretalapú rendszerek iránti érdeklődés megcsappant folyamatos beszédfelismerésre a dinamikus idővetemítési módszert ún. kapcsoltszavas felismeréssé egészítették ki rejtett Markov-modell alapú felismerés alapja, hogy minden felismerendő egységhez tartozik egy valószínűségi modell, amely egy adott megfigyelést valamilyen valószínűséggel generál, kimeneteként a legnagyobb valószínűséget adó modellt választjuk

Később Kilencvenes évek: HMM alapú rendszerek dominálnak óriási adatbázisok készültek, melyek segítségével a felismerők rejtett Markov modelljei egyre több tanítandó paramétert tartalmazhatnak Utóbbi évek multimédia elterjedése a személyi számítógépek is képesek beszédfelismerésen alapuló alkalmazások futtatására a fejlődés miatt audiovizuális beszédfelismerés

Automatikus beszédfelismerés Az emberekhez hasonlóan a gépi felismerőnek is szüksége van tanulásra, mind a nyelvi, mind az akusztikus információt valamilyen formában előre be kell vinni a rendszerbe. Ha egy nyelv szókészletének egy részével és hangjainak paramétereivel (spektrum, időbeli lefolyás) és kiejtési szabályaival betanítunk egy gépi felismerőt, akkor lehet esély arra, hogy önálló szavakat vagy hosszabb kifejezéseket gépi úton felismertessünk.

Kötetlen, folyamatos beszéd felismeréséhez vagy a nagy háttérzajban történő felismeréshez szükséges a nyelvi és tartalmi elemzés is, mint ahogy az ember is csak azt ismeri fel biztonságosan, amit megért.

A gépi beszédfelismerés folyamata Akusztikus előfeldolgozás: melynek során a beszéd információtartalmát jellemző paramétereket határozzák meg. Ennek során eltávolítják a beszélőre, annak hangulatára, és a környezetre vonatkozó adatokat. A beszédfelismerés célja a beszéd információtartalmának kinyerése.

A gépi beszédfelismerés folyamata Mintaillesztés: Az előfeldolgozás után kapott paramétereket mintaillesztéssel vetik össze a referenciamintákkal vagy modellekkel, amelyeket a betanítás során készítenek és tárolnak el. A felismerés alapegységei lehetnek az egyes beszédhangok és ezek kombinációi (kettőshangok, hármas hangok, félszótagok, szótagok, szavak vagy akár hosszabb kifejezések). Az angolban és számos más nyelvben a szavak a legalkalmasabb alapegységek. A magyar nyelvben a ragozás, toldalékolás miatt minden szónak több száz vagy akár ezer alakja is lehet, ezért a szavaknál kisebb egységeket szokás választani. A beszédhangok nemcsak attól függenek milyen hang van előttük/utánuk, hanem az akusztikai környezettől, a beszélő személyétől, nemétől, szociális és regionális hovatartozásától stb.

A gépi beszédfelismerés folyamata Ezen változékonyság kezelésére jelenleg a leghatékonyabb megoldást a rejtett Markov modelleken (HMM) alapuló statisztikus módszerek nyújtják. Ha a modellek jól be vannak tanítva, akkor minden kiejtett szót a saját modellje állítja elő a legnagyobb valószínűséggel. Szó helyett rövidebb és hosszabb egységekre is alkalmazható a módszer, de akár mondatok nyelvi modellezésére is. Folynak kísérletek egyéb módszerekkel, főként mesterséges neuron hálózatokkal (ANN), de ezek hatékonysága még elmarad a HMM technikától.

A gépi beszédfelismerés folyamata Nyelvi elemzés: az akusztikai illesztésnél legjobbnak bizonyult elemek sorozatából a legvalószínűbb szavakat vagy hosszabb szövegeket választhatjuk ki a szótárt és a nyelvtani ismereteket tároló tudásbázisból. A beszédhangokon, mint elemi egységeken alapuló, ún. nyílt szótáras felismerés lehetővé teszi, hogy új szavak egyszerűen felvehetők legyenek a szótárba. A modelleket nagymennyiségű, beszédhangokra szegmentált mintával kell betanítani.

Melyek azok a szintek, amelyeken a beszédet értelmezni lehet, s hogyan segíthetnek ezek a felismerésben? Fonetika milyen hang lehet az? Fonológia hogyan módosíthatták a hangot a szomszédai, állhat-e itt ilyen hang? Lexika, morfológia -van-e ilyen szó, szóalak? Szintaktika helyes-e nyelvtanilag ez a szerkezet? Szemantika van-e értelme? Pragmatika vajon ebben a szituációban, szövegkörnyezetben miért ezt mondta?

Tudományterületek, amelyek érintettek a beszédfelismerésben: Villamosmérnöki tudományok Akusztika, pszichoakusztika Neurofiziológia Kognitív pszichológia Nyelvészet Mesterséges intelligencia (induktív tanulás, fuzzy technológia, neurális hálózatok) Szükséges a megfelelő információáramlás!

Alkalmazási lehetőségek Irányítás Csupán néhánytucat vezényszót kell felismerni (pl. olyan rádiótelefon, mely betanítható hogy utasításra tárcsázzon). Többnyire csak izolált szavakat kell felismerni. Egyszerű esetekben a szókincs is olyan kicsi hogy az összest be lehet mondatni a felhasználóval. Ha a vezényszavak elég különbözőek, megbízható felismerés érhető el.

Diktálóprogramok Feladat: hangról hangra leírni az elhangzott szöveget, bármiről legyen is szó, és bármilyen szavakat használjon is a beszélő. A nyelvtan a lehető legszabadabb, és a szótár a lehető legnagyobb - ezért az akusztikai-fonetikai szintű felismerésnek kell nagyon erősnek lennie. A szintaktika és szemantika kezelésére - sztochasztikus nyelvi modellek - becslést adnak arra, hogy egy szó milyen valószínűséggel fordulhat elő. Nagyon tiszta beszédet igényelnek, továbbá erősen beszélőfüggők.

Dialógusrendszerek Legtöbbször telefonos alkalmazások, amikor a gép és a felhasználó párbeszédet folytat. A párbeszéd célja lehet valamely adat lekérdezése adott adatbázisból, vonatjegy rendelése stb. A beszéd szükségszerűen zajos és folyamatos, beszélőfüggetlen felismerőre van szükség. A szókincs kicsi (1-2 ezer szó), a mondatok felépítése könnyen leírható, sőt a párbeszéd is megtervezhető dialógus modellezés. Egy kérdés válasz kör a következő lépésekből épül fel: beszédfelismerés, nyelvi elemzés, szemantikai elemzés, adatbázis lekérdezés, válaszgenerálás.

Magyar fejlesztések Morphologic Kft. szótárprogramok fordítóprogramok Mobimouse

Néhány megvalósított rendszer Windows XP Tablet PC Edition A Windows XP Tablet PC Edition egyik legfontosabb újdonságai a hangvezérlési, illetve beszédfelismerési funkciók, melyek csak az angol nyelvet támogatják. Mikrofonon keresztül adhatjuk ki parancsainkat a számítógépnek, s érhetjük el a Windows vagy az alkalmazások különböző menüpontjait igen kényelmesen. A diktálás opció aktiválásával lehetőség nyílik rövidebb-hosszabb szövegek bevitelére is.

FülElek A FülElek(R) Ability beszédfelismerő program használatával rendkívüli módon leegyszerűsödnek a szövegszerkesztéssel járó formázó, szerkesztési és fájlkezelő műveletek. A vezérlő parancsokat szóban is kiadhatja a felhasználó, méghozzá magyar nyelven. A program 37 parancsot ismer fel és hajt végre, melyek között sok olyan is szerepel, amit egérrel csak bonyolult módon lehet előhívni.

Az Audi beszédfelismerő rendszere Segítségével szóban adott utasításokkal vezérelhető a navigációs rendszer, a rádióberendezés, az autótelefon-kihangosító legfontosabb alapfunkciói. A vezető vagy utasa szóban jelölheti meg az utcát, a házszámot vagy más egyéb úticélt, ezzel vezérelve az útvonalszámítást és útvonalvezetést. A rendszer különböző nyelvi stílusokat és nyelvjárásokat is megért. Azonosítani képes a gyors beszédtempó miatt összefolyó szavakat is. Az elektronikus zajcsökkentő hatékonyan kiszűri a mellékzajokat.

Beszédfelismerés radiológusoknak 10 nyelven A Speech Magic 10 nyelven a teljes radiológus szókincset tartalmazza, amivel 60 százalékkal csökkenti a dokumentációs időt a röntgenosztályokon.

Szájról olvasó, jelbeszédet értő számítógépek Sokkal jobban értjük a beszélő személyt, ha nemcsak hallgatjuk, de látjuk is. audiovizuális beszédfelismerés Az IBM Thomas J. Watson Kutatóközpontjában már négy éve fejlesztenek audiovizuális beszédfelismerő technológiákat. Csendben, gyenge és erős háttérzajjal tesztelték a rendszert. Sokkal jobb eredményeket kaptak, mint a csak audió kísérletek során.

Nyelvtanulás számítógépes szimulációval Immáron nem elég a háborúban diadalmaskodni, de a békét is meg kell nyerni. Esetleg úgy, hogy anyanyelvükön kommunikálunk, barátságosan elbeszélgetünk az ellenséges, illetve megszállt területek lakosságával. A katonai felkészülés során igénybe vehető a játékalapú nyelvi szimulátor Tactical Language Training System: az intelligens ágenseket alkalmazó játékok megkönnyítik, személyre szabják a sok gondot, fejtörést okozó nyelvtanulást; interaktív viszonyban állnak a monitoron megjelenő, általuk választott gesztusokkal felvértezett avatárokkal, a helybélieket megszemélyesítő virtuális karakterekkel; taktikus és praktikus, hadműveletek, békefenntartás közben bármikor bevethető tudásra tesznek szert.

Beszélő számítógép A SpeakBoard segítségével magyar nyelven, természetes hangzású női vagy férfi hangon tudjuk felolvastatni a word dokumentumokat, e-mailjeinket, az Interneten található weblapokat, pdf dokumentumokat, szöveges állományokat és minden más a képernyőn megjelenő szöveget. Pontosan és jól érthetően olvas fel, megkönnyítve a tanulást a diszlexiások számára. www.speecht.com

Vakok és gyengén látók számára Profivox beszédszintetizátor Képes karaktersorozatok felolvasására és mesterséges intelligencia technikák segítségével fontos információkat nyer ki a felhasználók számára.

Rendszám-azonosító HP ipaq zsebszámítógépre kifejlesztett szoftver rendőrök használhatják az autóban vezetés közben megérti, visszabetűzi a beolvasott rendszámot és figyelmeztet, ha azt körözik

Játékok Az első elérhető magyar nyelvű alkalmazás a korábban már nagy sikert aratott "Színözön" játék HP ipaq Pocket PC-re készült változata. Ajáték vezérlése beszédhanggal történik. A program magyar nyelven ért. A szavak felismerése személyfüggetlenül történik, vagyis nem kell előzetesen betanítani.