Beszédfelismerés. Bálint Enikő



Hasonló dokumentumok
Rejtett Markov Modell

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Markov modellek

Mély neuronhálók alkalmazása és optimalizálása

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Beszédfelismerés, beszédmegértés

Beszédfelismerő szoftver adaptálása C# programozási nyelvre

Beszédfelismerés. Izolált szavas, zárt szótáras beszédfelismerők A dinamikus idővetemítés

Gépi tanulás és Mintafelismerés

Adatelemzés SAS Enterprise Guide használatával. Soltész Gábor solteszgabee[at]gmail.com

ÉRZÉKELŐK ÉS BEAVATKOZÓK I. 0. TANTÁRGY ISMERTETŐ

A maximum likelihood becslésről

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Informatika Rendszerek Alapjai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Microsoft Access alapok

1. Jelölje meg az összes igaz állítást a következők közül!

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Grafikonok automatikus elemzése

Automatikus beszédfelismerés Mérési Segédlet

Wavelet transzformáció

Bánsághi Anna 2014 Bánsághi Anna 1 of 68

Hidden Markov Model. March 12, 2013

Beszédfelismerés. Benk Erika

Programozás I. Matematikai lehetőségek Műveletek tömbökkel Egyszerű programozási tételek & gyakorlás V 1.0 OE-NIK,

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Számítógépes alapismeretek 2.

Visszacsatolt (mély) neurális hálózatok

Intelligens biztonsági megoldások. Távfelügyelet

TDK-dolgozat. Kis szótáras beszédfelismerő hatékonyságának vizsgálata különböző jel-zaj viszonyokkal

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Beszédtechnológia az információs esélyegyenlőség szolgálatában

Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2.

Informatika érettségi vizsga

y ij = µ + α i + e ij

Teljesítményértékelések eredményeinek rögzítése a Neptun Egységes Tanulmányi Rendszerben

Beszédinformációs rendszerek 6. gyakorlat

Matematika. 1. osztály. 2. osztály

Pontfelhő létrehozás és használat Regard3D és CloudCompare nyílt forráskódú szoftverekkel. dr. Siki Zoltán

Soros felépítésű folytonos PID szabályozó

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Rendezések. A rendezési probléma: Bemenet: Kimenet: n számot tartalmazó (a 1,a 2,,a n ) sorozat

A fejlesztés várt eredményei a 1. évfolyam végén

Képfeldolgozás Szegmentálás Osztályozás Képfelismerés Térbeli rekonstrukció

Objektumorientált paradigma és programfejlesztés Bevezető

Bevezetés a programozásba. 5. Előadás: Tömbök

KÖZÉPSZINT BESZÉDKÉSZSÉG ÉRTÉKELÉSI ÚTMUTATÓ

Java Programozás 11. Ea: MVC modell

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Adatelemzés az R-ben április 25.

Az informatika kulcsfogalmai

12. előadás - Markov-láncok I.

13. óra op. rendszer ECDL alapok

Neurális hálózatok bemutató

Felhasználói dokumentáció. a TávTagTár programhoz. Készítette: Nyíri Gábor, hdd@nc-studio.com GDF Abakusz regisztrációs kód: GDFAba43

I. LABOR -Mesterséges neuron

Nagy HF u tmutato 2011/2012 II. fe le v

Operációs rendszerek. 11. gyakorlat. AWK - szintaxis, vezérlési szerkezetek UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Lineáris regressziós modellek 1

Értékelési útmutató a középszintű szóbeli vizsgához. Angol nyelv

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

Alkalmazások fejlesztése A D O K U M E N T Á C I Ó F E L É P Í T É S E

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

Egyirányban láncolt lista

Vizuális nyelv. Olvasás és írás. Ellis, W. (2004) Olvasás, írás és diszlexia október

Adatbázis-kezelés Access XP-vel. Tanmenet

HASZNÁLATI ÚTMUTATÓ DOLGOZÓK IMPORTÁLÁSA KULCS BÉR PROGRAMBA AZ ONLINE MUNKAIDŐ NYILVÁNTARTÓ RENDSZERBŐL. Budapest, november 08.

Java gyakorlat feladatai e s megolda sai ( )

SPS PRO sorozatú szünetmentes áramforrmásrok 500VA-1200VA és 800VA-1500VA sorozatok Felhasználói kézikönyv

Szinkronizmusból való kiesés elleni védelmi funkció

Least Squares becslés

Képfeldolgozás. 1. el adás. A képfeldolgozás m veletei. Mechatronikai mérnök szak BME, 2008

Rendszámfelismerő rendszerek

Használati alapú és modell alapú tesztelés kombinálása szolgáltatásorientált architektúrák teszteléséhez az ipari gyakorlatban

Az ErdaGIS térinformatikai keretrendszer

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Akusztikus MEMS szenzor vizsgálata. Sós Bence JB2BP7

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Telepítési útmutató a SMART Notebook 10 SP1 szoftverhez

Informatika 6. évfolyam

Képfeldolgozás. 1. el adás. A képfeldolgozás alapfogalmai. Mechatronikai mérnök szak BME, 2008

Tájékoztató. Használható segédeszköz: -

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Táblázatkezelés Excel XP-vel. Tanmenet

Az egységugrás függvény a 0 időpillanatot követően 10 nagyságú jelet ad, valamint K=2. Vizsgáljuk meg a kimenetet:

Felvételi tematika INFORMATIKA

Középszintű szóbeli érettségi vizsga értékelési útmutatója. Olasz nyelv

Egyszerű programozási tételek

Programozás alapjai Bevezetés

A PiFast program használata. Nagy Lajos

Struktúra nélküli adatszerkezetek

"Eseményekre imm/connection Server scriptek futtatása

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Kezdő lépések Microsoft Outlook

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

TANTÁRGYI PROGRAM Matematikai alapok II. útmutató

Átírás:

Beszédfelismerés Bálint Enikő 1

Tartalom 1. Bevezetés 2. Történelmi áttekintés 3. Alapfogalmak a beszédfelismerésben 4. Hogyan működik? 5. BF-ek osztályozása 6. BF módszerek 7. Példa Java BF-applikációra 8. Linkek 2

1. Bevezetés 1.1 Definíciók 1.2 Alkalmazási területek 1.3 A BF nehézségei 3

1.1 Definíciók Beszédfelismerés (BF): az a folyamat, melynek során a beszédfelismerő gép azonosítja a kiejtett beszédjeleket és átalakítja ezeket szöveggé, vagy más, számítógép által feldolgozható adattá. (Automatic) Speech Recognition ASR Miért van szükségünk rá? Hatékony kommunikáció a számítógéppel 4

Beszéd: hangok kibocsájtása (akusztikus hullámok) = fonémák Nem csupán fonémák sorozata, hanem fontos a kontextus is: hangsúlyozás, hanglejtés stb. A BF szintjén beszédjlek (speech signal) = fonémák elektronikus képe 5

1.2 Alkalmazási területek Diktálás: a leggyakrabban használt terület napjainkban Hallássérültek oktatása Mobiltelefonok (hangtárcsázás stb.) Tartalomkeresés audiofájlokban 6

Otthoni gépesítés (domotics): fény és légkondicionáló vezérlése, ajtó, ablakok bezárása, riasztóberendezés bekapcsolása, multimédiás eszközök elindítása, automatikus virágöntözés és háziállat etetése 7

Diktálás: 1. hangadat bevitele 2. szöveggé alakítás 3. a szöveg javítása, nyelvtani, helyesírási korrekció (egyelőre még emberi beavatkozás szükséges) a diktálás egy alfaja: orvosi dokumentációk, leletkészítés Magyarországon már sikeresen használják 8

1.3 A beszédfelismerés nehézségei A BF rendszerek sok problémával szembesülnek befolyásolják a program teljesítményét Ok: az emberi nyelv, a kommunikáció komplexitása Ma már a fejlettebb BF-ek képesek ezeknek a problémáknak a kezelésére Az embernek van bizonyos háttértudása a személyről, akivel beszél, a témáról, a másodlagos jelentésekről, a testbeszédről stb. számítógép 9

A beszélők közötti különbség: mindenki másképp ejt ki egy hangot Egy beszélő sem képes kétszer pontosan ugyanazt a hangot produkálni Különböző beszédstílusok, hangmagasság, beszéd gyorsasága Anatómiai felépítés: beszédhibás emberek stb. Megoldás: lényegkiemelés Lehetséges eljárás: lineáris predikció, Fourier transzformáció stb. 10

Zajos környezet Megoldás: léteznek zajkiszűrő algoritmusok (pl. Kálmán szűrő) Több mikrofon használata Még megoldatlan problémák: Beszélt nyelv írott nyelv Korlátlan adatmennyiség 11

Tartalom 1. Bevezetés 2. Történelmi áttekintés 3. Alapfogalmak a beszédfelismerésben 4. Hogyan működik? 5. BF-ek osztályozása 6. BF módszerek 7. Példa Java BF-applikációra 8. Linkek 12

2. Történelmi áttekintés BF: eredetileg mozgássérültek számára fejlesztették ki 1936: a AT&T's Bell Labs cég megalkotja az első elektronikus beszédszintetizáló gépet, a Vodert 1950-es évek: a legkorábbi kísérletek automatikus beszédfelismerés terén 1969: John Pierce azt állította, hogy az automatikus beszédfelismerés nem valósítható meg még néhány évtizedig, mert ehhez szükség van mesterséges intelligencára. 13

1970-es évek eleje: Lenny Baum feltalálja a Rejtett Markov Modell (Hidden Markov Model (HMM)) alkalmazhatóságát BF-ek esetén. A HMM elvet hamarosan minden vezető beszédfelismeréssel foglalkozó cég alkalmazza 1985: a Kurzweil cég, első 1000 szavas beszédfelismerő, a Kurzweil Voice System 90-es évek vége: sok BF, jobb tulajdonságok, hozzáférhető ár (1997: a Microsoft 45 millió dollárt fektetett egy olyan projektbe, ami lehetővé tette a Microsoft és Corel Office beszédvezérlését) Napjainkban széles körben alkalmazzák 14

Tartalom 1. Bevezetés 2. Történelmi áttekintés 3. Alapfogalmak a beszédfelismerésben 4. Hogyan működik? 5. BF-ek osztályozása 6. BF módszerek 7. Példa Java BF-applikációra 8. Linkek 15

3. Alapfogalmak a beszédfelismerésben Kijelentések (Utterances) Két szünet közötti folyamatos beszéd Egy egységes jelentésű elemnek tekinti a BF Állhat egy szóból, vagy akár több szóból is. Beszélőfüggőség (Speaker Dependence) A BF egy meghatározott beszélőre van tervezve. Pontosak az illető beszélő esetében, de kevésbé pontosak más beszélők esetén. Általában lehetőség van a rendszer tanítására. 16

Szótár (Vocabularies, Dictionaries) Szavak és kijelentések listája, amit a BF rendszer képes azonosítani. Egy szónak több jelentése is lehet Pontosság (Accuract) Egy BF képessége = pontosságával Milyen jól ismeri fel a kijelentéseket. Tanítás (Training) Alkalmazkodik a felhasználóhoz. A BF tanítása növeli annak a pontosságát 17

Kiejtés (Pronunciations) Egy szónak többféle kiejtése is lehet (pl. az angolban a the ) Nyelvtan (Grammars) Megadja a szavak használatának, sorrendjének a helyességét Egy speciális szintaxisból, szabályok sorozatából áll Nem minden BF használja a nyelvtanokat 18

Jellegvektor vagy lényegvektor (Feature vector): egy adott n dimenziós vektor, amely olyan jellemzőket tárol, amelyek alkalmasak felismerésre, szegmentálásra. Az ablakokra (időszegmensekre) osztott beszédjel jellemzőit tárolja 19

Spektrogram: A beszédjel(ek) frekvenciaváltozásának időbeli vizuális megjelenítése Két- vagy háromdimenziósan ábrázolják: idő, frekvencia ( + energia) Gyakran használnak különböző színeket az energia kimutatására Fourier transzformációval hozható létre 20

Példa kétdimenziós spektogramra (középső rész) 21

Tartalom 1. Bevezetés 2. Történelmi áttekintés 3. Alapfogalmak a beszédfelismerésben 4. Hogyan működik? 5. BF-ek osztályozása 6. BF módszerek 7. Példa Java BF-applikációra 8. Linkek 22

4. Hogyan működik? A BF általában a következő fázisokra bontható le: 1.) Hangfelvétel. A beszédjel továbbítása a BFnek 23

2.) Előzetes szűrés vagy lényegkiemelés (Pre- Filtering): A beszédjelbõl megkísérli meghatározni a beszéd tartalmát hordozó mennyiségeket, és kiküszöbölni a felismerés szempontjából érdektelen információkat (zaj, fázis, torzítások). Törekvés az invariáns elemek kiemelésére Kimenet: egy adott dimenziójú lényegvektorsorozat 24

3.) Keretezés (Framing and Windowing): Ablak mérete ms-ban (10-30 ms), 50%-os fedésben A lényegvektor-sorozat feldarabolása 4.) További szűrés: Nem minden esetben jelenik meg, van, amikor az előzetes szűrés elégséges. Sokszor itt megy végbe az időillesztés és a normalizálás. 25

5.) Összehasonlítás és illesztés (osztályozás): Felismerni a kijelentést. Ez legtöbbször valamilyen mintával való összehasonlítást jelent (például két jellegvektor összehasonlítása) Minden alkalmazott módszer egy valószínűségi és pontossági illesztést végez. 6.) Kimenet (pl. írott szöveg), feldolgozás 26

Tartalom 1. Bevezetés 2. Történelmi áttekintés 3. Alapfogalmak a beszédfelismerésben 4. Hogyan működik? 5. BF-ek osztályozása 6. BF módszerek 7. Példa Java BF-applikációra 8. Linkek 27

5. BF-ek osztályozása Többféle osztályozási szempont is létezik 1. A szótár nagysága szerint 2. A megvalósítás módja szerint 3. A feldolgozott kijelentések típusa szerint 28

5.1 A szótár mérete szerint a. kis (kötött, zárt) szótáras, kb. 100 szó b. nagy szótáras (kötetlen, nyílt szótáras), 20-80000 szó Lehet finomítani pl. közepes méretű 29

5.2 A megvalósítás módja szerint hogyan kezeli a bemeneti hangadatot, illetve, hogy milyen algoritmusokat használ a. Mintafelismerő Napjainkban főleg ezt használják Ilyen pl. Rejtett Markov Modell b. Akusztikus-fonetikus Pl. Neuronális hálós és a ismeretalapú (tudásalapú) módszer 30

5.3 A feldolgozott kijelentések típusa szerint a.) Izolált szavak, kijelentések felismerése egyszerre csak egy kijelentést vár a beszélő kell várakozzon Egy szótárelemet határoz meg a szótárból Beszédjel bemenet Lényegkiemelõ Kezdõ- és végpont meghatározó Idõillesztõ és osztályozó A felismert szótárelem kódja Referenciaszótárelemek 31

b.) Összekapcsolt kijelentések Hasonlít az előzőhöz, de a hallgatás ideje minimális A BF nem ismeri a szavak határát minden kombinációt figyelmbe kell vegyen Megjelenik a nyelvtan is: a szavak összekapcsolása Nyelvtan Beszédjel bemenet Lényegkiemelõ Kezdõ- és végpont meghatározó Idõillesztõ és osztályozó A felismert szótárelemek kódjai Referenciaszótárelemek 32

c.) Folyamatos beszéd Nehéz ilyen rendszereket alkotni Valószínűségszámítási algoritmusok pl. HMM Nyelvtan Beszédjelbemenet Lényegkiemelõ Modellek bejárása Osztályozó A felismert mondatok (Folyamatos beszéd) Rejtett Markov modell adatok 33

d.) Hangfelismerés Különböző felhasználók hangjainak a megkülönböztetése 34

Tartalom 1. Bevezetés 2. Történelmi áttekintés 3. Alapfogalmak a beszédfelismerésben 4. Hogyan működik? 5. BF-ek osztályozása 6. BF módszerek 7. Példa Java BF-applikációra 8. Linkek 35

6. BF módszerek Rejtett Markov Modell (HMM) 6.1 Markov Modell 6.2 Markov Modell példa 6.3 Rejtett Markov Modell 6.4 HMM példa 6.5 HMM összegzés 36

6.1 Markov Modell Állapotok, állapotátmenetek Forrás:digitus.itk.ppke.hu/~flugi/hmm.p df 37

6.2 Markov Modell példa: időjárás Állapotok: S={S1:Napos, S2:Borult, S3:Esős} Állapotátmenetek mátrixa (S i S j ): Valószínűségeket tárol Kérdés: adott állapot-sorozat valószínűsége Pl: Mi az esélye, hogy egy Napos állapot után {Napos, Esős} sorozat következzen? P({S1,S1,S3} S1)=1*a1,1*a1,3=1*0.8*0.3=0.24 38

6.3 Rejtett Markov Modell (HMM) Fonéma, félszótag vagy szó = állapotok sorozata A beszéd egy folyamat, ez a folyamat minden t= 1, 2,... időpillanatban egy S = {S 1, S 2,..., S N } állapotban van (q t ) A mátrix állapotátmenetek valószínűsége A modell az adott állapotban megfigyeléseket tesz, (O=(O 1,...O M ), M - megfigyelések száma) B mátrix a megfigyelések valószínűsége 39

Rejtett: a megfigyelés az állapotok valamilyen sztochasztikus függvénye, így a belső állapotok rejtve maradnak. Az előbbi példában a megfigyelések konkrét, fizikai állapotokra vonatkoztak, a rejtett MM-ben az állapotokhoz rendelt megfigyelések valószínűséget jelölnek A folyamat minden lépésben új állapotba kerül a valószínűségi értékek alapján. Az állapotátmenetek a BF-ben ismertek, nagy adatbázisokból kinyerhetők Általános esetben q t = S j valószínűsége függhet attól, hogy a t-t megelőző pillanatokban milyen állapotban volt a rendszer. 40

6.4 HMM példa Éremfeldobás Úgy, hogy nem láthatod, valaki érmeket dobál fel Nem mondja meg, hogy éppen mit csinál, csak az eredményt : fej vagy írás rejtett éremdobálás, megfigyelés: a fej vagy írás eredmények sorozata Pl. O = F F I F I I... (F fej, I-írás) Megoldandó probléma: hogyan építünk fel egy HMM-et, ami megmagyarázza a kapott sorozatunkat 41

Az első lépés annak az eldöntése, hogy mit tartunk állapotnak Utána el kell dönteni, hogy hány állapot lesz a modellben Ha csak egyetlen érmét veszünk, akkor egy kétállapotos modellt tudunk felrajzolni, amelyikben egy állapot az érmének az egyik felét jelenti a MM megfigyelhető 42

Ha két érmét veszünk és két állapotot, amiben az egyik állapot az egyik érmére, a másik állapot a másik érmére vonatkozik Az érméket egyszerre hajítjuk fel Mindegyik állapotot egy valószínűségi eloszlás jellemzi, az állapotátmeneteket le lehet írni egy megfelelő mátrixszal 43

A HMM három alapfeladata: 1. Adott O megfigyeléssorozat és β modell alapján hogyan számítjuk ki hatékonyan a P(O β) valószínűséget 2. Adott O megfigyeléssorozat és β modell alapján hogyan számítunk ki egy megfelelő q állapotsorozatot, ami optimális az adott esetben (a modell rejtett részének a meghatározása, fontos folyamatos beszéd felismerése esetén) 3. Hogyan állítsuk be adott β modell esetén a paramétereket (A, B), hogy maximalizáljuk a P(O β) valószínűséget ( a modell tanítása ) 44

6.5 HMM - összegzés Ahhoz, hogy egy HMM sikeresen működjön, beszédfelismerési vagy egyéb rendszerekben, az A és B mátrixok pontos becslése szükséges. Ezeket az értékeket adatbázisok tartalmából ki lehet számítani megközelítőleg A megoldás a statisztika, a maximum likelihood módszer. 45

Tartalom 1. Bevezetés 2. Történelmi áttekintés 3. Alapfogalmak a beszédfelismerésben 4. Hogyan működik? 5. BF-ek osztályozása 6. BF módszerek 7. Példa Java BF-applikációra 8. Linkek 46

Java BF Speech engine (pl. Microsoft SAPI4 v. SAPI5) Java Speech API (JSAPI) jsapi.jar import javax.speech.*; import javax.speech.recognition.*; (van synthesis is) Egy JSAPI-t megvalósító alkalmazás (sok ingyenes is van pl. Sphinx-4) 47

Java Speech API 48

Egy egyszerű BF projekt A következőkben egy egyszerű Java BF létrehozását mutatom be, majd rátérek a saját alkalmazásomra Az én programom két részből áll: 1. Nyelvtan definiálása: txt fájl Meghatározza, hogy mit ismer fel a BF 2. A java kód, ami ezt a nyelvtant felhasználja 49

A JSpeech Grammar formátuma (JSGF) //header #JSGF V1.0 ISO8859-1 en; grammar gram1; //body public <valami> = Mary loves John apple; 50

A java BF létrehozásának lépései A BF deklarálása: Recognizer rec; A BF létrehozása a Central osztály egy metódusával: rec = Central.createRecognizer( new EngineModeDesc(Locale.ENGLISH)); Angolnyelvű BF 51

A BF elindítása, ellenőrzi, hogy a BF-nek minden forrása megvan-e: rec.allocate(); A nyelvtan fájlból való beolvasása és engedélyezése: FileReader reader = new FileReader( grammar.txt ); RuleGrammar gram = rec.loadjsgf(reader); gram.setenabled(true); 52

A BF-hez hozzá kell rendelni egy listenert (megoldás később): rec.addresultlistener(new MyResultListener()); Ha a nyelvtanban bármilyen változás volt, ezt jelezni kell: rec.commitchanges(); A következő két metódus nélkül a BF nem indul el (nem aktív): rec.requestfocus(); rec.resume(); 53

A listener osztály: Class MyResultListener extends ResultAdapter Egyetlen metódust implementál: azt az esetet, amikor a felismerés sikeres volt RESULT_ACCEPTED eseményt kap public void resultaccepted(resultevent e) {} 54

Az eredményből (Result r ) kivesszük a legpontosabb találatokat és egy vektorban tároljuk: ResultToken tokens[] = r.getbesttokens(); Egy elemre való hivatkozás: tokens[i].getspokentext() A BF megszüntetése és kilépés rec.deallocate(); System.exit(0); 55

Saját BF A projekt egy beszédvezérléses e-mailküldő rendszert szimulál (e-mailküldő funkció nélkül) A program képes különböző utasításokat végrehajtani beszéd segítségével: o o o Egy szöveges mezőbe diktálás Igen/nem válaszok eldöntése Kilépés a programból Csak beszéd útján működik 56

Tartalom 1. Bevezetés 2. Történelmi áttekintés 3. Alapfogalmak a beszédfelismerésben 4. Hogyan működik? 5. BF-ek osztályozása 6. BF módszerek 7. Példa Java BF-applikációra 8. Linkek 57

Ingyenes szoftverek + tutorial XVoice http://www.zachary.com/creemer/xvoice.html Sphinx-4 http://cmusphinx.sourceforge.net/sphinx4/ GVoice Gtk/GNOME applikációk vezérlésére FreeTTS http://freetts.sourceforge.net/docs/index.php JavaTM Speech API Programmer's Guide http://java.sun.com/products/javamedia/speech/fordevelopers/jsapi-guide/index.html 58

Néhány hasznos cím az interneten BF-ről általában: HMM: http://tldp.org/howto/speech-recognition- HOWTO/introduction.html (angol) http://www.stillhq.com/diary/asr-short.pdf (angol) http://web.mit.edu/6.435/www/rabiner89.pdf (angol) http://cslu.cse.ogi.edu/hltsurvey/ch1node7.html (angol) http://www.cs.brown.edu/research/ai/dynamics/tutorial/docum ents/hiddenmarkovmodels.html (angol) http://digitus.itk.ppke.hu/~flugi/hmm.pdf (magyar) 59

Köszönöm a figyelmet. 60