Mély neuronhálók alkalmazása és optimalizálása magyar nyelv beszédfelismerési feladatokhoz
|
|
- Gizella Illés
- 8 évvel ezelőtt
- Látták:
Átírás
1 Budapesti M szaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Távközlési és Médiainformatikai Tanszék Mély neuronhálók alkalmazása és optimalizálása magyar nyelv beszédfelismerési feladatokhoz Szakdolgozat Készítette Varga Ádám Csaba Konzulens Dr. Mihajlik Péter december 11.
2 Tartalomjegyzék Kivonat 4 Abstract 5 Bevezet 6 1. A gépi beszédfelismerés elméleti hátterének áttekintése és gyakorlati eredményei Bevezetés a gépi beszédfelismerésbe A nyelvi modellezésr l röviden A lényegkiemelés folyamata Akusztikus modellezés Dekódolás Nemzetközi eredmények Jelenlegi irányok A beszédfelismer keretrendszer specikációja A nyílt forráskódú megoldások áttekintése A Kaldi beszédfelismer keretrendszer Kísérletek hírm sorok hanganyagain A rendszer felépítése A kísérletek során vizsgált paraméterek Tesztek a 10 órás adatbázison Kiinduló rendszer Tesztek lterbank bemeneti jellemz kkel A beszél adaptáció lehet ségei Tesztek a 20 órás adatbázison Hagyományos GMM-alapú módszerek Neuronhálós modellezési megoldások Tesztek a 64 órás adatbázison Összegzés Kísérletek telefonos ügyfélszolgálati hanganyagokon Beszédfelismerési eredmények az MTÜBA-1/A-n
3 4.2. Beszédfelismerési eredmények az MTÜBA-2/A-n Beszédfelismerési eredmények az MTÜBA-2/C-n Összegzés Az akusztikus modellek tanításának és dekódolásának er forrásigényei 51 Összefoglalás 54 Köszönetnyilvánítás 55 Rövidítések jegyzéke 56 Ábrák jegyzéke 57 Táblázatok jegyzéke 58 Irodalomjegyzék 61 2
4 HALLGATÓI NYILATKOZAT Alulírott Varga Ádám Csaba, szigorló hallgató kijelentem, hogy ezt a szakdolgozatot meg nem engedett segítség nélkül, saját magam készítettem, csak a megadott forrásokat (szakirodalom, eszközök stb.) használtam fel. Minden olyan részt, melyet szó szerint, vagy azonos értelemben, de átfogalmazva más forrásból átvettem, egyértelm en, a forrás megadásával megjelöltem. Hozzájárulok, hogy a jelen munkám alapadatait (szerz (k), cím, angol és magyar nyelv tartalmi kivonat, készítés éve, konzulens(ek) neve) a BME VIK nyilvánosan hozzáférhet elektronikus formában, a munka teljes szövegét pedig az egyetem bels hálózatán keresztül (vagy autentikált felhasználók számára) közzétegye. Kijelentem, hogy a benyújtott munka és annak elektronikus verziója megegyezik. Dékáni engedéllyel titkosított diplomatervek esetén a dolgozat szövege csak 3 év eltelte után válik hozzáférhet vé. Budapest, december 11. Varga Ádám Csaba hallgató
5 Kivonat Az automatikus gépi felismerés területén jelenleg a legígéretesebb irányt a mély (mesterséges) neurális hálózatokkal megvalósított akusztikus modellek alkalmazása jelenti. Bár teljesítményük lényegesen felülmúlja a hagyományos, generatív akusztikus modellekét, nagyszótáras, magyar nyelv, folyamatos beszédfelismerési feladatokra való alkalmazásuk terén eddig kevés kutatási eredmény született. A szakdolgozat célja, hogy magyar nyelv beszédadatbázisok alapján vizsgálja a mély neurális hálózatos modellek alkalmazási lehet ségeit ipari környezetben megvalósítandó beszédfelismerési feladatokra, elemezze az azokkal elérhet javulást a hagyományos modellekkel szemben és megtalálja az optimális neurálishálózat-architektúrát és paraméter-kongurációt az egyes feladatokhoz. Az 1. fejezet bemutatja a beszédfelismerés elméleti hátterét, kitérve a hagyományos megközelítésekre, valamint áttekinti a neurális hálózatok jellemz it és a velük megvalósítható akusztikus modellezést, végül röviden ismerteti a hasonló feladatokon elért nemzetközi eredményeket. A 2 fejezet specikálja a keretrendszert, amiben a kísérletek megvalósításra kerülnek. A 3. és 4. fejezetekben két különböz magyar nyelv beszédfelismerési feladathoz készíthet akusztikus modellek teljesítményének elemezésére kerül sor. Az el bbi feladat televízióban sugárzott hírm sorok alapján készíthet rendszerek vizsgálata, az utóbbi pedig telefonos ügyfélszolgálati adatbázisok alapján rögzített beszélgetéseken alapul. A feladat mindkét esetben minél jobb pontosságú, a hanganyagok automatikus feliratozására, lejegyzésére a gyakorlatban is használható akusztikus modell készítése. A 5. fejezet összefoglalja a neurális hálózatok tanításának er forrásigényeit. Végül az eredmények összegzésére és a további kutatási irányok kijelölésére kerül sor. 4
6 Abstract Currently, one of the most promising direction in automatic speech recognition is the use of acoustic models based on deep articial neural networks. Although they signicantly outperform traditional generative acoustic models, there has been little research conducted on their applications to Hungarian large vocabulary continuous speech recognition tasks. The aim of this thesis is to examine the possibilities of using neural network based models built on Hungarian speech databases for industrial speech recognition tasks, to analyze the obtainable improvement compared to traditional models, and to nd the optimal neural network architecture and parameter conguration for each task. Chapter 1 describes the theoretical background of speech recognition, including traditional approaches and the characteristics of neural networks, as well as the acoustic modeling methods based on them. It also reviews some of the international results acheived on similar tasks. Chapter 2 species the toolkit in which the experiments are conducted. Chapters 3 and 4 analyze the performance of acoustic models built for two dierent Hungarian language speech recognition tasks. Chapter 3 describes and examines systems built on television broadcast media. The models introduced and evaluated in Chapter 4 are based on telephone helpdesk conversation databases. In both cases the goal is to build acoustic models with optimal accuracy that can be used for creating subtitles or audio transcriptions automatically. Chapter 5 summarizes the computational resources necessary for the training of neural networks. Finally, the results are summarized and further research directions are given. 5
7 Bevezet Szakdolgozatom során célom és feladatom beszédfelismerési feladatok megvalósítása magyar nyelv beszédadatbázisokon. Ezen belül munkám fókuszát az ún. mély mesterséges neurális hálózatokkal történ mintaillesztési technológiák jelentik. A mesterséges neurális hálózatok tanításával végzett feladatok a gépi tanulási módszerek esetén a hagyományos technikákat lényegesen felülmúlóan teljesítenek, és ez a megoldás más területek (pl. képfelismerés, cs del rejelzés) beszédfelismerési feladatokra is eredményesen alkalmazható. A neurális hálókkal történ beszédfelismerés jelenleg is a nemzetközi kutatás középpontjában helyezkedik el, mivel alkalmazásuk jelent s javulást hozott az addigi rejtett Markov-modelleken alapuló technológiákhoz képest a kétezres évek végén. Bár a beszédfelismerési kutatások és fejlesztések már több évtizede folynak és az id k során a mindennapi számítógépes- vagy mobilalkalmazásokban is megjelennek, a neuronhálók új lendületet adtak a területnek, hiszen alkalmazásukkal egyes esetekben akár több tíz százaléknyi relatív javulás is meggyelhet a beszédfelismerési pontosságban. A technika viszonylag kés i megjelenése azzal is magyarázható, hogy a neuronháló-tanítás rendkívül er forrás-igényes folyamat, így a korábbi számítógépes kongurációk nem, vagy csak rendkívül hosszú id alatt lettek volna alkalmasak ezen számítási feladatok elvégzésére. Bár a neurális hálózatok a legígéretesebb irányt jelentik jelenleg a beszédfelismerés területén, magyar nyelv, folyamatos, nagyszótáras felismerési feladatokon történ alkalmazásukat illet en eddig azonban csak kevés vizsgálat történt. Célom így az általam végzett kísérletek alapján egy átfogó képet adni a különböz magyar nyelv beszédfelismerési feladatokon elérhet eredményekr l. A neuronhálók számos szabadon hangolható paramétere tág teret hagy a tanítások adott adatbázisokhoz, feladatokhoz való optimalizálásukhoz; ezen optimumok megtalálása is feladataim közé tartozik. A feladat megvalósítását a Kaldi nyílt forráskódú keretrendszer [20] segítségével végzem el. A nemzetközi gyakorlatban használt, beszédfelismerési feladatok kutatás-fejlesztését támogató rendszerek közül jelenleg ezen keresztül érhet ek el a legfrissebb neurális hálós tanítási módszerek, valamint a kódok szabad módosítása lehet vé teszi a módszerek adott feladatokhoz történ testreszabását. Bizonyos lépéseket a Kaldin kívüli egyéb keretrendszerekben is megvalósítok az eddigi, más rendszerekben elért összehasonlíthatóság érdekében. Kísérleteim több magyar nyelv beszédadatbázis köré épülnek, amelyek ipari feladatokhoz közel álló rendszerek megvalósításához szolgálnak alapul. Minden esetben megvizsgálom a hagyományos megoldások hatékonyságát különböz modell-architektúrák és para- 6
8 méterbeállítások mellett, esetlegesen további módszereket (pl. dimenziócsökkentés, beszél adaptáció) alkalmazva. Ezt követ en áttekintem a neurális hálózatok tanításával elérhet eredményeket adott felépítés (rétegszám, aktivációs függvény, dimenzió) és paraméterbeállítások mellett. Az így elérhet hibaarányt ezen paraméterek nomhangolásával és különböz architektúrák alkalmazásával próbálom minimalizálni az optimális konguráció megtalálásáig. A feladataim alapját jelent adatbázisok alapvet en televíziós híranyagokat és egyéb m sorokat, valamint telefonos ügyfélszolgálatok rögzített beszélgetéseit tartalmazzák. Ennek fényében vizsgálataim, eredményeim és a létrehozott akusztikus modelljeim használhatóak lesznek televíziós adások, valamint telefonbeszélgetések automatikus feliratozására, átiratok készítésére. A feladat megvalósítása érdekében általánosságban az 1. fejezetben áttekintem a a gépi beszédfelismerési folyamatok elméleti hátterét, kitérve a hagyományos, generatív modellekre, valamint részletesen bemutatva a neurális hálózatokkal történ beszédfelismerési (és általános gépi tanulási) módszereit. Felvázolom a nemzetközi szakirodalom alapján a hasonló beszédfelismerési feladattípusokon elért eredményeket. Röviden bemutatom a különböz, beszédfelismerési pontosságot javító technikákat, mint a dimenziócsökkentés, beszél adaptáció. A 2. fejezetben specikálom és röviden bemutatom a beszédfelismerési feladatokhoz használt keretrendszert. A 3. és 4. fejezetekben részletesen elemzem a két f adatbázis-típuson (híranyagok, valamint telefonos ügyfélszolgálat) megvalósított feladatokat, a klasszikus megoldásokkal elérhet eredményeket, majd részletesen ismertetem a neurális hálózatok tanításával elérhet felismerési pontosságot, valamint azok egyes paramétereinek hatását és jelent ségét a szóhibaarány alakulására. Az 5. fejezetben elemzem az egyes modellek tanításához szükséges er forrásigényeket, a tanítási id k alakulását a különböz modellek és adatbázis-méretek, valamint adott CPU-konguráció mellet. Áttekintem a modellek tanításának memóriaigényeit, valamint a grakus processzoron való futtatás lehet ségeit, és a videomemória méretének hatását a tanítási sebességre. Végül összegzem a feladataim megvalósítása során elért eredményeket, következtetéseket vonok le az egyes adatbázisoknál legjobbnak bizonyuló kongurációkat illet en és áttekintem az esetleges további kutatási irányokat. 7
9 1. fejezet A gépi beszédfelismerés elméleti hátterének áttekintése és gyakorlati eredményei 1.1. Bevezetés a gépi beszédfelismerésbe Az alábbiakban ismertetem a beszédfelismerési feladatokhoz használt rendszerek m ködésének lépéseit és a megvalósításukhoz használt elméleti hátteret. Bemutatom a lényegkiemelési eljárások, az akusztikai és a nyelvi modellezés alapvet épít elemeit. Áttekintem az akusztikai modellezésben alkalmazott hagyományos megoldásokat, és bemutatom a feladatom szerves részét képez neurális hálózatok m ködésének alapjait. Röviden kitérek az olyan, felismerési pontosságot pozitívan befolyásoló tényez kre is, mint a tanítóvektorok dimenziócsökkentése, valamint a beszél adaptáció. Az itt olvasható elméleti összefoglaló alapját [5] valamint [14] jelenti, ahol valamint a további megfelel helyeken hivatkozott irodalomban megtalálható a lépések részletesebb ismertetése. Egy beszédfelismer rendszer alapvet feladata a bemenetre érkez akusztikus információt (hanghullámok) az elhangzott szavaknak, mondatoknak megfelel szöveges kimenetté alakítani. Ez a gyakorlatban a lehetséges célszavak illetve -mondatok közül a legvalószín bb kiválasztásával történik, amihez ismernünk kell a mondatok, szókapcsolatok elhangzásának valószín ségét (nyelvi modell), a szavak és a fonémasorozatok összerendelését (lexikon), valamint az egyes fonémák adott akusztikai megvalósulásának valószín ségét (akusztikus modell) [14]. A végs kimenetet ezen modellek kombinált valószín ségeinek felhasználásával kaphatjuk meg. A beszédfelismerési feladat formális megfogalmazásához jelöljük a bemenetre érkez akusztikus jelek sorozatát O-val a következ képp: O = o 1, o 2, o 3,..., o n, (1.1) ahol o i a teljes jelsorozat i. eleme (ezeket reprezentálhatja például az adott id pillanatban a bemenetre érkez jel frekvencia-komponenseit tartalmazó vektor, a pontos eljárást lejjebb 8
10 ismertetem). Jelöljön továbbá W egy adott szósorozatot (mondatot) az alábbi módon: W = w 1, w 2, w 3,..., w m (1.2) ahol w j a szósorozat j. szava. Ilyenkor a beszédfelismerési feladatot megfogalmazhatjuk a következ képpen: adott O akusztikus bemenet esetén keressük a legvalószín bb Ŵ szósorozatot L nyelvben, azaz: Ŵ = arg max P (W O) (1.3) W L Mivel a P (W O) valószín ség nem számítható, ezért a Bayes-szabály alkalmazásával átalakítjuk az egyenletet: P (W O) = P (O W )P (W ) P (O) (1.4) Behelyettesítve: Ŵ = arg max W L P (O W )P (W ) P (O) = arg max P (O W )P (W ) (1.5) W L Az 1.5 egyenletben lév utolsó egyszer sítést azért tehetjük meg, mert az összes lehetséges mondat közül keressük a legvalószín bbet, P (O) viszont eközben változatlan, így nem befolyásolja az eredményt [14]. Az 1.5 egyenletet szokás a beszédfelismerés alapegyenletének nevezni [5], mivel összefoglalja a beszédfelismerés során megoldandó feladatokat: P (W ) kiszámítása a nyelvi modell, míg meghatározása P (O W ) az akusztikus modell feladata. Az 1.1 ábrán sematikusan végigkövethet k a beszédfelismerés lépései és ahhoz szükséges modellek szerepe. A feladat két f szintje a lényegkiemelés és a mintaillesztés. El bbi során (részletesen ld. az részt) a bejöv akusztikus információból történik a mintaillesztéshez használt jellemz vektorok kinyerése, míg az utóbbi lépcs tartalmazza az akusztikus és nyelvi modellek és a lexikon felhasználásával dekódolható legvalószín bb mondatot. Amint az ábrán is látható, a P (O W ) valószín ség meghatározása az akusztikus modell és a lexikon együttes feladata. Míg a lexikon az adott szósorozatokhoz rendelhet fonémasorozatok valószín ségét tartalmazza, addig az akusztikus modell feladata az adott fonémákhoz tartozó legvalószín bb jellemz vektorok megkeresése. A fonémákat Φ-vel jelölve, Viterbi-approximációt alkalmazva így a 1.5 egyenlet a következ képpen módosítható (a gyakorlatban célszer szorzás helyett a valószín ségek logaritmusát összegezni): Ŵ = arg max P (O Φ)P (Φ W )P (W ) (1.6) W L A nyelvi modellezésr l röviden A nyelvi modellezés célja egy adott szósorozat, mondat valószín ségének meghatározása egy adott nyelvben (P (W )). Én röviden a leggyakrabban alkalmazott módszert, az N- 9
11 LÉNYEGKIEMELÉS lényegkiemelés jellemz vektorok O MINTAILLESZTÉS akusztikus modell fonémavalószín ségek P (O W ) lexikon nyelvi modell P (W ) dekódolás Az úton áll az autó... P (W O) 1.1. ábra. A beszédfelismerési feladat lépéseinek áttekintése [14] alapján gram modelleket mutatom be. Az N-gram modellek egy adott szósorozat valószín ségét egy korpuszban (a kérdéses nyelven írott szövegek lehet leg minél nagyobb gy jteményéb l) való együttes el fordulásaik alapján határozzák meg. Egy l hosszú szósorozat (W l ) N-gram valószín sége a következ módon számítható: P N gram (W l ) = l i=1 P (w i w i N+1,..., w i 1 ) (1.7) Egy példán keresztül illusztrálva az A kutya ugat. mondat valószín ségét egy bigram modell (N = 2) esetén a következ képpen számíthatjuk: P 2 gram ( s a kutya ugat /s ) = (1.8) P ( a s )P ( kutya a )P ( ugat kutya )P ( /s ugat ), 10
12 ahol s a mondat kezdetét, /s pedig a végét jelöli. Az általam megvalósított rendszerek nyelvi modellezése 3-gram modellekkel történt, ahol a trigram valószín ségeken túl a bigram és az unigram (azaz az egyszer el fordulási) valószín ségek is gyelembe voltak véve (backo -elv [14]). A gyakorlatban egyéb modellezési technikák is el fordulhatnak, ilyenek pl. az ígéretesnek látszó neurális hálós nyelvi modellek [2], ezekkel azonban feladatom során nem foglalkozom A lényegkiemelés folyamata A beszédfelismerési feladat els eleme a bemenetre érkez a tanítás-tesztelés során beszédadatbázisból származó, felhasználás során valós idej akusztikai információt az akusztikus modellek számára feldolgozhatóvá tenni, azaz a hanghullámoknak egy jól használható és az emberi beszéd f akusztikai jellemz it meg rz reprezentációt találni. A legeredményesebbnek az ún. MFCC-vektorok (Mel Frequency Cepstral Coecients, melfrekvenciás kepsztrális együtthatók) bizonyultak, az alábbiakban ezt ismertetem, majd röviden kitérek az általam is vizsgált egyéb jellemz vektorokra. MFCC-vektorok A bejöv beszéd hanghullámainak átalakításához az analóg jelet digitalizálni kell. Amennyiben a modellek tanítása és tesztelése során beszédadatbázisokat alkalmazunk, ezzel már nem kell tör dni, hiszen az anyag megfelel formátumban van. Valósidej felismerés esetén a számítógép vagy mobileszköz mikrofonjára érkez jelet mintavételezni és kvantálni kell, ez ilyenkor a beépített analóg-digitális konverterrel történik. A beszédfelismerési feladatok során tipikusak a 16kHz-en mintavételezett, 16 biten kvantált anyagok, azonban telefonvonalon elhangzó anyagokon végzett beszédfelismerés esetén a kisebb sávszélesség miatt a 8kHz mintavételezési frekvencia is elegend [6]. A mintavételezett és kvantált digitális jeleket ezt követ en bevett gyakorlat el kiemelésnek (preemphasis) alávetni, ahol egy els rend felülátereszt sz r vel a kisebb energiájú magasabb frekvenciájú összetev ket a nagyobb energiával rendelkez alacsonyabb frekvenciakomponensekkel hozzuk közel azonos energiaszintre, megel zve így a különbségek miatti információvesztesége (ez a spektrális lejtés az emberi beszéd sajátosságaiból következik). Az el kiemelést követ lépés a beérkez akusztikai jelek ablakozása. A beszédfelismerési feladat során a bemen beszéd spektrális tulajdonságai nem állandóak, ezért a fonémákra való leképezés érdekében célszer azt rövid, néhány tíz ms-os részekre osztani. Így élhetünk azzal a feltevéssel, hogy az egyes ablakokon belül a jel stacionárius. A gyakorlatban az ablakozás egymásba lapolódó keretekkel történik, Hamming-ablak 1 alkalmazásával a spektrumban fellép szakadások elkerülése érdekében. A beszédhangokat (mint az akusztikai jeleket általában) jól jellemzik a frekvenciakomponensei és azok energiája, ezért a lényegkiemelés egyik f lépése a jelek frekvenciatartományba való transzformálása a diszkrét Fourier-transzformáció segítségével. A spektrumot 1 w Hamming[k] = { 0, 54 0, 46 cos( 2πk L, 0 k L 1 0,, egyébként 11
13 ezt követ en a négyzetére emeljük és az így kapott energiaspektrummal dolgozunk tovább. Az energiaspektrum el állítását az emberi hallást modellez ún. mel-skálára 2 való transzformálás követi. Erre azért van szükség, mert az emberi hallás magasabb frekvenciákon (kb. 1kHz felett) kevésbé érzékeny. A gyakorlatban ez egy sz r sor segítéségével történik, amely az egyes frekvenciasávokban dolgozó sz r kb l épül fel. A sz r k 1kHz alatt lineárisan helyezkednek el a frekvenciatartományban, felette pedig távolságuk logaritmikusan n. További, az emberi hallást jellemz megoldás a sz r sor utáni logaritmizálás, amely ezen tényez n túl a bemeneten el forduló kisebb ingadozásokra való érzékenységet is csökkenti. A fenti, emberi tényez ket gyelembe vev megoldások igazoltan javítják a beszédfelismerési pontosságot. A lényegkiemelés utolsó lépése a sz réssel és logaritmizálással kapott spektrum visszatranszformálása az id tartományba. Ez történhet a frekvenciatartományba való áttéréshez használt transzformáció inverzével, azaz inverz diszkrét Fourier-transzformációval, azonban jelenleg a gyakorlatban szinte kizárólag diszkrét koszinusz-transzformációt (DCT) alkalmaznak ennek megvalósítására. Az így kapott id tartománybeli jelet az eredeti jel kepsztrumának (cepstrum) nevezzük, ami a spektrum logaritmusának a spektrumaként is deniálható (amennyiben gyelmen kívül hagyjuk a mel-sz r sor használatát). Az így nyert kepsztrum el nye, hogy azon túl, hogy jól reprezentálja az egyes beszédhangokra jellemz paramétereket (mint pl. a formánsértékek 3 ), a kepsztrális együtthatók a Fourieregyütthatókkal szemben dekorreláltak, ami a hagyományos beszédfelismerési technológiák számára jelent sen könnyebbé teszi az egyes paraméterek megtanulását. A gyakorlatban az els 12 kepsztrális együttható alkalmazása elegend a kiemelt jellemz vektorokban, mivel ezek hordozzák a lényeges információkat. A 12 kepsztrális együtthatón túl a jellemz vektorok tartalmazzák az adott id keretbe tartozó jel energiáját is, mivel ez lényeges információt hordoz a kérdéses beszédhangok természetét illet en (pl. az [a] hang több energiával bír, mint a [p] stb.). A jel energiáján túl célszer nek bizonyul a jel változásának ( ), valamint a változás változásának ( ) jellemz vektorokhoz történ hozzáf zése is. Az egyszeres és kétszeres deriváltak jó képet adnak a beszédjelek nem-konstans tulajdonságairól, mint például a formánsértékek változása és ennek a változásnak a sebessége (gyorsulás), vagy egy felpattanó zárhang (pl. [b]) esetén a felpattanás tulajdonságai. A deriváltak számítását a gyakorlatban célszer nem keretenként, hanem több id keret összefogásával, lineáris regresszió segítségével végezni. A és értékek kiszámítása a jel energiájára nézve is szolgálhat hasznos információval, így ezeket is konkatenáljuk a jellemz vektorokhoz. A lényegkiemelés lépéseit az 1.2 ábra foglalja össze. A gyakorlatban s r n alkalmazott és általam is használt jellemz vektorok tehát 39 dimenziósak és a következ képp épülnek fel: 12 kepsztrális együttható, valamint ezek egyszeres és kétszeres deriváltjai (összesen 36 dimenzió), valamint további három, jelenergiát reprezentáló dimenzió az energia és annak és értékei. 2 mel(f) = 1127 ln( ) 3 A beszédhangok spektrumának kiugró csúcsai, amelyek a sz r ként viselked emberi toldalékcs (garat, szájüreg, orrüreg, valamint egyéb, a beszédképzésben részt vev szervek) er sítési frekvenciáit jelzik. 12
14 el kiemelés ablakozás DF T () 2 mel() log() x 2 [k] d dt, d2 dt 2 DCT + MFCC ábra. A 39-dimenziós MFCC-vektorok felépítésének lépései Filterbank-vektorok Bár a hagyományos beszédfelismerési technológiák esetén a kepsztrális együtthatók alkalmazás bizonyul a leghatékonyabbnak, a jelenleg legjobb eredményeket produkáló neurális hálózatos modellek esetén a mel-sz r sor közvetlen kimenetén el álló jellemz k alkalmazása is eredményesnek bizonyult, bizonyos esetekben az MFCC-vektoroknál jobban teljesítettek [26]. Ezért feladatom során lterbank-jellemz kkel (a továbbiakban FBANK) is végeztem vizsgálatokat. Ilyen esetekben a lényegkiemelési lépések annyiban különböznek az 1.2 ábrán láthatóknál, hogy a feldolgozási lépések végén a sz rt energiaspektrum id tartományba való visszatranszformálását elhagyjuk. FBANK-jellemz k alkalmazása esetén a sz r sorban található sz r k száma szabad paraméter, amely valamilyen mértékben befolyásolhatja a felismerési eredményeket; az általam vizsgált esetekben ez 27 és 40 között változott. Normalizálás A jellemz vektor-kiemelés lépése után bevett módszer azokon valamilyen normalizálási eljárást végezni. Erre annak érdekében van szükség, hogy a beszél k és a beszédmódok egyéni különbségeit kompenzáljuk, így növelve a beszédfelismerést végz modell általánosító képességét. A leggyakrabban alkalmazott normalizációs módszer a kepsztrumátlagok és a variancia kiegyenlítése, a Cepstral Mean and Variance Normalization (CMVN). A módszer során a jellemz vektorok komponenseib l kivonjuk az adott komponensek jellemz vektorok között számított átlagát, majd az adott komponens vektorok közötti szórásával osztjuk el értéküket [21]: CMV N(x i [k]) = x i[k] µ i [k] σ i [k] (1.9) Az átlag és a szórás kiszámítását nem a teljes jellemz vektor-sorozaton, hanem csak azoknak egy véges N méret ablakozásán számítjuk, ahol az ablak közepén a kérdéses 13
15 jellemz vektor helyezkedik el: σ 2 i [k] = 1 N Akusztikus modellezés µ i [k] = 1 N k+n/2 1 n=k N/2 k+n/2 1 n=k N/2 x i [n] (1.10) (x i [n] µ i [k]) 2 (1.11) A beszédfelismerés egyik legfontosabb lépése a rendszer központját jelent akusztikai modellezés. Ez a legkritikusabb elem a végs felismerési pontosság tekintetében, ezért számos megoldás született rá. A terület folyamatosan fejl dik, és számos lehet ség kínálkozik az eddigi modellek továbbfejlesztésére, valamint a meglév k adott feladatokra történ optimalizálására. A most következ kben el ször áttekintem az akusztikus modellezés f feladatait, majd alapjaiban bemutatom a hagyományosan alkalmazott architektúrákat. Ezt követ en ismertetem a neurális hálózatok felépítésének, paramétereinek és tanításának f jellemz it. A megvalósítandó feladat A beszédfelismerési feladatok során alapvet en egy gépi tanulási folyamatot valósítunk meg. A célunk, hogy a rendelkezésre álló adatokból (beszédadatbázis) kinyert jellemz vektorok alapján a modell megtanulja az egyes beszédhangok, hangkapcsolatok jellemz it, majd ezen betanult paraméterek alapján olyan anyagokat is minél pontosabban ismerjen fel, amilyenekkel korábban a tanulás során még nem találkozott. A rendszerek tanítása többféle adattal történhet. Feladataim során felügyelt tanítással (supervised learning) dolgozom, azaz a beszédadatbázisokban található hanganyagokhoz minden esetben tartozik szöveges átirat. Az akusztikus modell feladata, hogy ezeknek a hanganyagoknak (illetve a bel lük készített jellemz vektoroknak) és a hozzájuk rendelhet átiratoknak az ismeretében a tanítás során a paramétereit úgy hangolja, hogy közben a tanítóhalmazon (TRAIN) mérhet felismerési hibaarányt minél alacsonyabb mérték re csökkentse. Bizonyos esetekben el fordulhat azonban a túltanulás jelensége: ilyen esetekben a tanítóhalmazon ugyan nagyon jól teljesít a rendszer, kés bb, a felismerési feladat során azonban a pontosság még nem látott adatokon rossz lesz. A tanulást követ en a modell teljesítményét egy elkülönített tesztel halmazon (TEST, EVAL) mérhetjük; ez célszer en állhat az adott beszédadatbázis egy olyan részhalmazából, amelyet a tanítás során nem használtunk fel. A teszthalmaz mellet bizonyos esetekben egy ún. fejlszt halmazon (DEV) is mérhetjük a felismerési teljesítményt; ez szolgálhat a végs tesztelés el tt a legjobb modell kiválasztására, paraméter-nomhangolásra stb. (ilyenkor értelemszer en ebbe is olyan anyagok kerülnek, amelyek sem a tanító- sem a teszthalmazokban nem szerepelnek). Az egyes modellek felismerési pontosságának számszer sítésére leggyakrabban a hiba- 14
16 arányt (error rate) használjuk, amelyet a következ képpen deniálunk: ER = S + D + I, (1.12) N ahol S a helyettesítések, D a törlések, I pedig a beszúrások száma az összes vizsgált (N) egység között. Amennyiben a kiértékelést szóalapon végezzük, szóhibaarányról (Word Error Rate, ) beszélhetünk, bizonyos esetekben azonban érdemes lehet a bet ket (LER) vagy a mondatokat (SER) kiértékelési egységnek tekinteni (pl. a magyar nyelvre a toldalékolások, szóösszetételek miatt a meglehet sen pesszimista mér száma a felismerési teljesítménynek [17]). Beszédfelismerés rejtett Markov-modellekkel A hagyományos beszédfelismer rendszerekben az akusztikus modellezés ún. rejtett Markovmodellekkel (Hidden Markov Model, HMM ) [9] történik. A fonémamodellezés jellemz en háromállapotú (plusz egy kezdet- és végállapot) rejtett Markov-modellekkel végezhet, ahol három állapotot feleltetünk meg a fonéma elejének, közepének és végének, és az állapotok között átmeneti valószín ségeket deniálunk. Egy ilyen modell látható a 1.3 ábrán, ahol p ij jelzi a következ állapotba való átmenés, illetve az adott állapotban maradás valószín ségét (i = j esetén). Egy fonémasorozat valószín ségét egyszer en az adott fonémákhoz tartozó modellek egymás után f zésével és a konkatenált modell alkalmazásával kaphatjuk meg. p 01 p 12 start start eleje közepe vége stop p 23 p 34 p 11 p 22 p ábra. Példa egy háromállapotú, fonémamodellezésre használható rejtett Markov-modellre Rejtett Markov-modellek alkalmazása esetén az egyes állapotokhoz tartozó valószín ségeket Gauss-függvények lineáris kombinációiból állíthatjuk el. Ez azért célravezet, mivel ilyen esetben az egyes átlagértékek, valamint kovariancia-mátrixok már egyértelm en meghatározzák a kérdéses eloszlásokat, így elegend ezeket eltárolni az azonosításukhoz. A Gauss-eloszlások kombinációit alkalmazó klasszikus, rejtett Markov-modelles felismer rendszereket emiatt a szakirodalom kevert Gauss-modelleknek (Gaussian Mixture Models, GMM) is nevezi. GMM-modellek esetén a normáleloszlás többdimenziós (MFCC-vektorok esetén 39) általánosítását használjuk, és a kérdéses jellemz vektorok adott állapothoz tartozó valószín ség-eloszlását a megfelel en módosított Baum-Welch-algoritmussal vagy Viterbi-tanítással számíthatjuk (a módszerek részletezése és összehasonlítása megtalálható [23]-ban). A fonémamodellezés során triviális megoldás az egyes beszédhangok önmagában, környezett l nem függ modellezése. Az ilyen megoldásokat monofón rendszereknek nevezzük. 15
17 Közismert azonban, és feladataim megvalósítása során is jól látszott, hogy az így végzett beszédfelismeréssel gyenge teljesítmény érhet csak el. Ennek fényében célszer a trifón modellek alkalmazása, ahol egy-egy hangot három érték jellemez: a kérdéses hang, valamint az el tte álló és utána következ hangok (vagy szóhatárok). Ez a megközelítés jelent s javuláshoz vezet, és egyben magában foglalja a beszédben artikulált alakok olyan mögöttes reprezentációtól való eltéréseit, mint pl. a magyar zöngésségi hasonulások (pl. /me:zhez/ [me:shez]) [17]. A trifónok építése történhet kézzel, de hatékonyabb automatikusan, döntési fák alkamazásával végezni [19]. A trifónokon túl további pozíciófüggést is vihetünk a rendszerbe, ha a nyelvi modellben is megkülönböztetjük egymástól a szóeleji, szóbelseji és szóvégi elhelyezkedéseket. Beszédfelismerés mesterséges neurális hálózatokkal Jelenleg a nemzetközi kutatás középpontjában álló akusztikus modellek az ún. mély mesterséges neurális hálózatok (Deep Neural Networks, DNN), amelyek a fentebb ismertetett GMM-alapú architektúráknál szignikánsan jobb eredmények produkálására képesek. A neuronhálók elnevezésüket az emberi agyban található neuronok között zajló kommunikációs architektúrához hasonló felépítésük miatt kapták, fontos megjegyezni azonban, hogy az általam is vizsgált mesterséges neuronhálózatok nem hivatottak az emberi agyat modellezni, csupán matematikai modellek, amelyek jól alkalmazhatók gépi tanulási, mintaillesztési feladatokra. A neuronhálózatok számos egyszer, elemi egységb l épülnek fel; ezeket a biológiai analógia mintájára neuronoknak nevezzük. A 1.4 ábrán látható egy ilyen neuron sematikus szerkezete. A bemenetére érkez x értékeket egy adott w súlyozás szerint veszi gyelembe. Az így összeadódó súlyozott bemeneti értékeket ezt követ en egy, a neuronra jellemz aktivációs függvény (f) alapján transzformálja; így áll el a neuron kimeneti értéke (y): y = f(x T w) (1.13) x 0 w 0 x 1 w 1 Σx i w i f(σx i w i ) y x n w n 1.4. ábra. Egy neuron sematikus szerkezete Az aktivációs függvény megválasztása egy a neurális hálózatok paraméterei közül, ami 16
18 befolyásolhatja a felismerési pontosságot. A legegyszer bb megoldás egy egyszer küszöbérték kijelölése, ami alatt a kimeneten y = 0, a küszöböt átlépve y = 1 jelenik meg. Mivel azonban célunk az, hogy a súlyok kismérték változtatása a kimenetben is kis változást okozzon, ezért a tangens hiberbolikuszt approximáló szigmoid-függvény alkalmazása terjedt el [22]: sigmoid(x) = 1, c R (1.14) 1 + e cx Ezen túlmen en gyakori és az általam megvalósított feladatokban is szerepl megoldás az ún. rektikációs függvény alkalmazása is (rect(x) = max{0; x}), ami a klasszikus szigmoidnál jobb eredmények elérésére is képes. A kétfajta aktivációs függvényt a 1.5 ábrán láthatjuk ábra. a. A szigmoid-függvény (c = 1) az origóba eltolva b. A rektikációs függvény Egy neuron önmagában csak bináris klasszikációra használható, így a több osztály felett végzett mintaillesztési feladatok megvalósításra (mint a beszédfelismerés is) több neuront kell összekapcsolnunk neuronhálóvá. A neurális hálót felépít neuronokat rétegekbe rendezzük, ahol a rétegeken belül az általam vizsgált architektúrákban nem futnak összeköttetések (ezek az ún. el recsatolt, vagy feed forward neurális hálózatok), az egyes rétegek között azonban minden neuron kimenete minden következ réteg-beli neuron bemenetére csatlakozik. A neurális hálót felépít neuronrétegek három típusba sorolhatók: be- és kimeneti, valamint rejtett rétegekre. A bemeneti réteg gyakorlatilag csak a bemen jellemz k tárolására szolgál. Beszédfelismerési feladat esetén jellemz en több jellemz vektor kerül a bemenetre ablakszer en: a kérdéses vektor, valamint azt megel z és követ további vektorok (az ablakméret általában 7 és 17 között változik). A valódi számítások és a tanulás a neuronháló közbüls, ún. rejtett rétegeiben történik. A rejtett rétegek száma, és a rejtett rétegeket felépít neuronok száma kritikus paraméter a tanulás szempontjából. A három vagy több rejtett réteget tartalmazó neuronhálókat illeti a szakirodalom mély jelz vel. A kimeneti réteg megvalósítására használható kézenfekv megoldás minden felismerend osztályhoz egy neuront rendelni. Ilyenkor a leger sebb aktivációjú kimeneti neuronhoz tartozó osztályba sorolhatjuk a kérdéses mintát. Egy ilyen megoldást szemléltet a 1.6 ábra, ahol sötét színezés jelzi az éppen tüzel neuront. 17
19 súlyozások (w) súlyozások (w) rejtett réteg bemeneti réteg kimeneti réteg 1.6. ábra. Példa egy egyszer, egy rejtett réteg neurális hálózatra, a kimenetén egy tüzel neuronnal A gyakorlatban a rejtett rétegek és a kimeneti rétegek közé kerülhet egy a kimenetnél nagyobb dimenziójú ún. softmax-réteg. Ennek szerepe, hogy egyfel l a kimenet el tt egy szélesebb réteget képezve növelje a tanulás hatékonyságát, valamint hogy a kimeneten megjelen klasszikációs valószín ségek összegét 1-re normalizálja a softmax-függvény 4 segítségével [22]. A neuronháló tanítása lényegében az egyes súlyok nomhangolását jelenti. Célunk az általános gépi tanulási paradigmához hasonlóan a tanítóhalmaz alapján megkeresni a hibafüggvény minimumát a megfelel súlyozás megválasztásával úgy, hogy ezt követ en a teszthalmazon is minél jobb felismerési eredményt érjünk el. A hibafüggvényt adott W súlymátrix mellett a következ képpen számíthatjuk [18]: C(W) = 1 2N t(x) y(x) 2 (1.15) x N a tanítóvektorok száma, y(x) a neuronháló által becsült, t(x) pedig a ténylegesen x-hez tartozó osztály ( v a vektor hosszát jelöli). 5 A hibafüggvény minimumának megkeresése matematikailag összetett feladat, ezért itt ennek részletezésébe nem bocsátkozom. Alapját a sztochasztikus leszálló gradiens (stochastic gradient descent) és a visszalép algoritmus (backpropagation algorithm) jelenti [18]. Ezen módszerek segítségével a neurális hálót tanító algoritmus a súlyokat minden tanítási 4 softmax(x) i = ex i N e x k k=1 (N neuron esetén az i. neuronra) 5 x bemeneti vektor több MFCC-jellemz vektor összef zése. y(x) és t(x) felfogható a neurális háló kimeneti rétegének reprezentációjaként, pl. ha egy öt neuronból álló kimeneti rétegb l a 3. neuron aktív, akkor y(x) = [0, 0, 1, 0, 0] T 18
20 ciklusban w értékkel mozdítja el (a súlyok kezdeti inicializálása 0 körül, adott szórással, véletlenszer en történik) [12]: w i = ε C(W) w i (1.16) A 1.16 egyenletben szerepl ε szabadon hangolható érték, a tanulási sebesség (learning rate). Mint látni fogjuk, megválasztása nagyban befolyásolja a felismerési eredményeket, a túl nagy érték túl felületes tanulást eredményezhet, míg a túl alacsony túltanuláshoz és még nem látott anyagokon rossz teljesítményhez vezethet. A gyakorlatban ε nem állandó, hanem a tanulás során megadott értékek között változik, vagy addig csökken, amíg a tanítóanyagon a hibafüggvény javulása bizonyos érték alá nem kerül. Dimenziócsökkentés A beszédfelismerési pontosság javítása érdekében tanítandó akusztikus modell bemenetére érkez jellemz vektorokat a lineáris diszkrimináns-elemzés (Linear Discriminant Analysis, LDA) [10] segítségével egy el zetes transzformációnak vethetjük alá, ami a modell által tanulandó dimenziók számát csökkenti úgy, hogy eközben a dimenziócsökkentés során kialakult osztályok közti megkülönböztethet séget növeli (azaz sok, egymástól kevéssé különböz dimenzióból kevesebb, jobban szeparálható dimenziót állít el ). Az LDA megvalósítása is gépi tanulási paradigmában történik, ahol az el zetesen felcímkézett tanítóadatok alapján igyekszik a rendszer egy olyan transzformációt végrehajtani, amely eredményeként az egyes, jobban összetartozó minták könnyebben szeparálható csoportokba képez dnek le. Az általam megvalósított beszédfelismerési feladatokban az LDA elvégzését minden esetben Maximum Likelihood lineáris transzformáció (MLLT) követi [7], ami a Gauss-függvények paramétereinek további, a megkülönböztethet séget növel nomhangolását végzi. Beszél adaptáció További, a felismerési pontosságot optimalizáló tényez az akusztikus modell paramétereinek egy-egy adott beszél tulajdonságaira való hangolása (hangszín, beszédmód stb.). A beszél adaptív tanítás módszere (Speaker Adaptive Training, SAT) megköveteli, hogy az egyes hanganyagokhoz rendelkezésre álljon az információ, hogy az melyik beszél t l hangzott el. Az ún. fmllr-eljárás (Feature-Space Maximum Likelihood Linear Regression, jellemz térben végzett Maximum Likelihood lineáris regresszió) azzal az el nnyel bír, hogy nemcsak beszél adaptív tanításhoz, hanem egy adaptálatlanul tanított modell dekódolás során történ tesztanyaghoz hangolásához is használható (amennyiben a tesztanyag beszél it ismerjük). Továbbá amíg a klasszikus SAT-technikák (MLLR, MAP) csak GMM-alapú rendszereknél alkalmazhatók, fmllr-adaptációt neurális hálók esetében is végezhetünk. Ezen eljárás során a jellemz vektor-térben végzünk a bemeneti jellemz kön egy lineáris transzformációt, a módszer pontos leírása megtalálható [8]-ban. Amennyiben nem áll rendelkezésre információ az egyes beszél k kilétér l, lehet ség van a beszél k automatikus módon történ, felügyeletlen gépi tanulással végzett csoportosítá- 19
21 sára (klaszterezésére). A klasztercímkékkel ellátott anyagokkal már lehetséges adaptívan tanítani az akusztikus modelleket. A legegyszer bb esetben az egyes anyagrészeken tanított GMM-modellek közötti eltérés számszer sítése alapján végezhet csoportosítás [13] Dekódolás A beszédfelismerési feladatok során alkalmazott modellek (nyelvi és akusztikus modell és ezek épít elemei) a tanítást követ en összevonhatók egyetlen közös felismerési gráfba. Ez a gráf a modellezés összes lépését magában foglalja, ezáltal a legvalószín bb mintaillesztés egy optimális útkeresési feladattá egyszer södik, ami dinamikus programozási módszerekkel oldható meg [5]. A gyakorlatban ez a Viterbi-algoritmussal történik, ahol az egyes utak kezd pontját a bemen jellemz vektor-sorozatok, végpontját pedig a kimeneten felismert szósorozatok (mondatok) jelentik. A gyakorlati megvalósítás során az összes lehetséges út megkeresésének elkerülése érdekében a legjobb út valószín ségénél adott értékkel kisebb valószín ség lehet ségek elvetésre kerülnek (pruning) Nemzetközi eredmények Egy beszédfelismer rendszer létrehozása során az azzal kapható felismerési pontosságot a modellparamétereken és az alkalmazott technikákon túl alapvet en befolyásolja a megvalósítandó feladat típusa, valamint a tanításhoz rendelkezésre álló beszédadatbázis mérete és tulajdonságai (mintavételezési frekvencia, átiratok min sége, beszél információ stb.). Nyilvánvaló, hogy egy egyetlen beszél re adaptált, kisszámú különböz szót (pl. egy mobiltelefon használója által beolvasott számjegyeket) felismerni hivatott rendszer sokkal jobb eredményeket képes produkálni egy nagyszótáras, folyamatos beszédfelismer rendszerrel szemben. Mivel az általam megvalósított feladatok ez utóbbi kategóriába oszthatók, az alábbiakban röviden bemutatom a nemzetközi kutatások során hasonló feladatokon elért eredményeket. Broadcast-anyagokon elért eredmények Mivel egyik f feladatom magyar nyelv, televízióban sugárzott m sorok (híradó, beszélget s m sorok stb.) automatikus feliratozásához használható beszédfelismer -rendszer építése volt, ezért megvizsgáltam néhány más nyelven megvalósított, broadcast-médiára épül rendszer teljesítményét. Mivel az egyéni feladatokra készült rendszerek esetében minden esetben eltér a tanító-adatbázisok mérete és tartalma, ezért a sztenderd korpuszokkal ellentétben ezek összehasonlítási alapnak kevéssé használhatók, tájékozódásképp azonban érdemes lehet áttekinteni ket. Az elmúlt húsz évben a beszédfelismerési kutatásoknak és az új technológiáknak köszönhet en a különböz televízióban, rádióban sugárzott m sorok felismerésében elért eredményeiben jelent s javulás gyelhet meg. [3] 1994-es cikkében spontán beszéden 62,9%-os, felolvasott beszédben (pl. hírolvasók) 49%-os szóhibaarányról számol be. Ugyanezek a kon- gurációk egy évvel kés bb 59,7% és 48%-ra csökkennek. 20
22 A broadcast-anyagokat kutató publikációk többsége hagyományos, Markovmodell-alapú technikákkal dolgozik, újabban azonban a neurális hálózatok el térbe kerülésével ilyen kutatásokról is olvashatunk. A 2014-ben megjelent német tanulmány [25] esetén jól meggyelhet a neuronhálók el nye a sztenderd GMM-modellekkel szemben: míg hagyományos technikákkal spontán m soranyagokon 50%-os szóhibaarányt sikerült csak elérni, addig mély neurális hálózatokkal ez az érték ugyanazon a teszthalmazon 37,6%. Ez 25%-os relatív javulás, ami egyértelm en megmutatja alkalmazásuk el nyét. A legjobb eredmények 26%-os szóhibaarány magasságában fekszenek [15], azonban ebben nagyban közrejátszik a korpuszban található anyagok típusa míg az utóbbi hírm sorokon tanított rendszerek f leg koordinált (hírolvasás) stúdiófelvételekre épülnek, addig a német tanulmányban spontán, zajos, több beszél s anyagok is találhatók a tanító- és teszthalmazokban. Mivel az általam megvalósítandó feladat is hasonló jelleg, ezért 30% alatti szóhibaarány elérése elfogadható célnak látszik. Telefonos adatbázisokon elért eredmények Feladataim másik nagy típusát a telefonbeszélgetések alapján épített akusztikus modellek teljesítményének vizsgálata jelenti. A folyamatos telefonbeszélgetés-alapú felismerési feladat nemzetközi sztenderdje a Switchboard-korpusz, 6 azonban fontos kiemelni, hogy ez esetben több mint 300 órányi tanítóanyag áll rendelkezésre, ahol a beszélgetések két oldala csatornánként fel van címkézve, valamint beszél címkékkel is el van látva, pontosabb adaptációs megoldások alkalmazását téve lehet vé ezzel. Ezzel szemben az általam vizsgált feladatok során kisebb adatbázisok állnak csak rendelkezésemre, általában beszél információ nélkül. A közös jellemz a m soranyagoknál alacsonyabb sávszélesség (és mintavételezési frekvencia), ami negatívan befolyásolja a felismerési pontosságot. A Switchboard-korpuszon [11] HMM-architektúrák alkalmazásával 27,4%-os elérhet szóhibaarányról számol be, amit 7 rejtett réteget tartalmazó neurális hálók segítségével 19,6%- ra csökken. [29] alapján 5 rejtett réteg alkalmazásával 22,5%-os -érték érhet el. Várakozásaim szerint a feljebb említett okok miatt az általam vizsgált adatbázisokon csak magasabb hibaarány-érték lesz elérhet, azonban a tendenciák és a neuronhálók pozitív hatása szempontjából érdemes szem el tt tartani ezeket az eredményeket. [1] 70 órányi német nyelv telefonbeszélgetés alapján tanított hagyományos GMMmodellekkel 40% körüli -r l számol be, így a rendelkezésemre álló (mind 60 órányi anyagnál kisebb) adatbázisokkal ezen technikákkal 40% feletti szóhibaarány várható, amin neurális hálózatokkal javulás érhet el; [24] neuronhálókkal 28%-os relatív javulást mutat fel a Switchboard-korpuszon, így kisebb adatbázison is jelent s hibaarány-csökkenésre lehet számítani Jelenlegi irányok A neurális hálózatok alkalmazásával elérhet beszédfelismerési pontosság a nemzetközi irodalom alapján szignikánsan jobb a hagyományos megoldások teljesítményénél, azonban
23 az eddigi eredményekhez képest további javulást hozhat az ún. konvolúciós neuronhálók alkalmazása. A bemeneti konvolúciós réteget eredményesen alkalmazták más mintaillesztési feladatokra, és amint [27] munkájából is látszik, a beszédfelismerésben is sikerrel használható. További irány lehet a sztenderd szigmoid, és a nála jobban teljesít rektikációs aktivációs függvények után további függvénytípusokat alkalmazni; jelenleg különböz maxout aktivációjú [28] neuronáhálók terén is folyik kutatás. Ígéretes irányt jelent az ún. dropout-típusú (kiejtéses) hálózatok alkalmazása, amelyeknél az egyes rétegbeli neuronok kimenetéb l egy bizonyos százalékot kinullázunk, így kényszerítve a neuronokat az önálló tanulásra [4]. A neurális hálózatok vizsgálata és beszédfelismerésre történ alkalmazásuk aktívan kutatott és dinamikusan fejl d terület, az el relépéseknek a legsz kebb keresztmetszete a rendkívül nagy er forrásigény neuronhálós tanításokhoz sok és gyors processzorra és/vagy grakus egységre van szükség, ami konvolúciós hálózatok alkalmazása esetén hatványozottan igaz. 22
24 2. fejezet A beszédfelismer keretrendszer specikációja 2.1. A nyílt forráskódú megoldások áttekintése A feladataim megvalósításához alapvet en egy olyan kutatási eszközre volt szükségem, ami egyfel l támogatja az általam vizsgálni kívánt beszédfelismerési módszereket, különös tekintettel a neurális hálós akusztikus modellezésre. Olyan eszközt kerestem, amelyben az alapvet megoldások, valamint a kiegészít, felismerési eredményeket pontosító technikák (dimenziócsökkentés, beszél adaptáció stb.) megfelel en implementálva vannak, ugyanakkor lehet séget nyújt a hagyományos, kevert Gauss-modelleken alapuló akusztikus modellek vizsgálatára is. Fontos volt számomra, hogy egy rendszeren belül tudjam megvalósítani a beszédfelismerési feladat összes lépését, azaz legyenek támogatva különböz lényegkiemelési eljárások, importálhatóak legyenek a nyelvi modellek, szótárak, és a dekódolást, valamint a kiértékelést is meg tudjam valósítani. A másik fontos elvárásom a rendszer módosíthatósága volt az egyes feladatokhoz történ testreszabhatóság érdekében. Ezek fényében mindenképpen egy olyan nyílt forráskódú, szabadon terjeszthet és módosítható eszközt kerestem, ami minél jobban megfelel a céljaimnak. Korábban a beszédfelismerési kutatásokban legszélesebb körben alkalmazott ilyen rendszer a HTK Toolkit 1 volt, sok rendszer továbbra is e köré az eszköz köré épül. Fontos hátránya azonban, hogy a neurális hálózatos tanításokat egyáltalán nem támogatja, ezért mindenképpen másik megoldásra volt szükségem. További nyílt forráskódú megoldásként a CMU Sphinx-rendszer 2 jöhetett volna szóba, azonban ennek alkalmazása az elavult technológia és az er sen hiányos dokumentáció miatt nem látszott célszer nek. A nemzetközi szakirodalmat vizsgálva óta egy másik sokat hivatkozott beszédfelismer keretrendszer a Kaldi névre hallgató nyílt forráskódú eszköz. 3 [20] A nyílt forráskódú, C++-ban készült rendszer Linux-alapú környezetben futtatható, kódja szabadon módosítható és b víthet, Apache 2.0 licensz alatt érhet el. A HTK Toolkittel szemben itt meg vannak valósítva különböz neurális hálós tanítóalgoritmusok, így ez utóbbi tulajdonsága,
25 valamint a jelenlegi kutatásokban való szélesebb kör alkalmazása miatt választottam a Kaldit feladataim megvalósításához A Kaldi beszédfelismer keretrendszer A Kaldi bármilyen UNIX-alapú környezetben telepíthet, Windows alatt a Cygwin alkalmazása jelenthet megoldást, azonban a dokumentáció szerint azonban ilyenkor számos kompatibilitási probléma fordulhat el. Ennek fényében ezt a lehet séget nem vizsgáltam, a keretrendszert Ubuntu operációs rendszer alatt használtam feladataim megoldásához. A rendszer programozása alapvet en UNIX shell-szkriptben (bash) történik, amely segítségével a bash-en belül elvégezhet feldolgozási lépéseken túl a Kaldiban megtalálható futtatható C++ állományokat hívjuk meg a beszédfelismerési lépések lényegi része ezeken keresztül történik. Ezen állományok a Kaldi C++ könyvtáraira hivatkoznak, ezeknek pedig további küls könyvtárakra lehet szükségük a mátrixok, véges állapotú transzdúcerek kezelésére, valamint a GPU-támogatás elérésére [20]. A rendszer felépítését a 2.1 ábra illusztrálja. Unix Shell Szkript futtatható Kaldi C++ állományok matrix nnet gmm hmm fst... Kaldi C++ könyvtárak OpenFST LibATLAS CUDA küls könyvtárak 2.1. ábra. A Kaldi beszédfelismer rendszer környezetének felépítése [20] nyomán A csomag letöltéséhez és a folyamatosan megjelen frissítések kezeléséhez szükséges a subversion verziómenedzser megléte, valamint a telepítéshez az automake eszköz is el feltétel. Amennyiben ezek rendelkezésre állnak, a telepítés automatikusan történik, azonban sok esetben el fordulhat, hogy bizonyos, a Kaldi számára szükséges további küls csomagokat kézileg kell telepíteni, pl. a LibATLAS 4 lineáris algebrai megoldásokat szolgáltató gy jteményt, illetve az OpenFST 5 véges állapotó transzdúcereket menedzsel programcsomagot. Amennyiben a neurális hálózatok tanítását gyorsítani szeretnénk, lehet ségünk van videokártyán futtatni azokat. A Kaldi a CUDA Toolkit 6 segítségével végzi ezt, így ennek a
Mély neuronhálók alkalmazása és optimalizálása
magyar nyelv beszédfelismerési feladatokhoz 2015. január 10. Konzulens: Dr. Mihajlik Péter A megvalósítandó feladatok Irodalomkutatás Nyílt kutatási eszközök keresése, beszédfelismer rendszerek tervezése
RészletesebbenBudapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Neurális hálók Előadó: Előadás anyaga: Hullám Gábor Pataki Béla Dobrowiecki Tadeusz BME I.E. 414, 463-26-79
RészletesebbenBEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA
BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció
RészletesebbenGépi tanulás és Mintafelismerés
Gépi tanulás és Mintafelismerés jegyzet Csató Lehel Matematika-Informatika Tanszék BabesBolyai Tudományegyetem, Kolozsvár 2007 Aug. 20 2 1. fejezet Bevezet A mesterséges intelligencia azon módszereit,
RészletesebbenIntelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban
Intelligens Rendszerek Elmélete : dr. Kutor László Versengéses és önszervező tanulás neurális hálózatokban http://mobil.nik.bmf.hu/tantargyak/ire.html Login név: ire jelszó: IRE07 IRE 9/1 Processzor Versengéses
RészletesebbenIntelligens Rendszerek Gyakorlata. Neurális hálózatok I.
: Intelligens Rendszerek Gyakorlata Neurális hálózatok I. dr. Kutor László http://mobil.nik.bmf.hu/tantargyak/ir2.html IRG 3/1 Trend osztályozás Pnndemo.exe IRG 3/2 Hangulat azonosítás Happy.exe IRG 3/3
RészletesebbenMit látnak a robotok? Bányai Mihály Matemorfózis, 2017.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák
RészletesebbenKeresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)
RészletesebbenHibadetektáló rendszer légtechnikai berendezések számára
Hibadetektáló rendszer légtechnikai berendezések számára Tudományos Diákköri Konferencia A feladatunk Légtechnikai berendezések Monitorozás Hibadetektálás Újrataníthatóság A megvalósítás Mozgásérzékelő
RészletesebbenA Markowitz modell: kvadratikus programozás
A Markowitz modell: kvadratikus programozás Harry Markowitz 1990-ben kapott Közgazdasági Nobel díjat a portfolió optimalizálási modelljéért. Ld. http://en.wikipedia.org/wiki/harry_markowitz Ennek a legegyszer
RészletesebbenI. LABOR -Mesterséges neuron
I. LABOR -Mesterséges neuron A GYAKORLAT CÉLJA: A mesterséges neuron struktúrájának az ismertetése, neuronhálókkal kapcsolatos elemek, alapfogalmak bemutatása, aktivációs függvénytípusok szemléltetése,
RészletesebbenNeurális hálózatok bemutató
Neurális hálózatok bemutató Füvesi Viktor Miskolci Egyetem Alkalmazott Földtudományi Kutatóintézet Miért? Vannak feladatok amelyeket az agy gyorsabban hajt végre mint a konvencionális számítógépek. Pl.:
RészletesebbenHosszú Zsuzsanna Körmendi Gyöngyi Tamási Bálint Világi Balázs: A hitelkínálat hatása a magyar gazdaságra*
Hosszú Zsuzsanna Körmendi Gyöngyi Tamási Bálint Világi Balázs: A hitelkínálat hatása a magyar gazdaságra* A hitelkínálat elmúlt évekbeli alakulását, szerepének jelentőségét vizsgáljuk különböző megközelítésekben,
RészletesebbenTanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function
Tanulás az idegrendszerben Structure Dynamics Implementation Algorithm Computation - Function Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha az A sejt axonja elég közel van a B sejthez,
RészletesebbenSzámítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló
RészletesebbenMesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás
Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás http:/uni-obuda.hu/users/kutor/ IRE 7/50/1 A neurális hálózatok általános jellemzői 1. A
RészletesebbenL'Hospital-szabály. 2015. március 15. ln(x 2) x 2. ln(x 2) = ln(3 2) = ln 1 = 0. A nevez határértéke: lim. (x 2 9) = 3 2 9 = 0.
L'Hospital-szabály 25. március 5.. Alapfeladatok ln 2. Feladat: Határozzuk meg a határértéket! 3 2 9 Megoldás: Amint a korábbi határértékes feladatokban, els ként most is a határérték típusát kell megvizsgálnunk.
RészletesebbenEGÉSZTESTSZÁMLÁLÁS. Mérésleírás Nukleáris környezetvédelem gyakorlat környezetmérnök hallgatók számára
EGÉSZTESTSZÁMLÁLÁS Mérésleírás Nukleáris környezetvédelem gyakorlat környezetmérnök hallgatók számára Zagyvai Péter - Osváth Szabolcs Bódizs Dénes BME NTI, 2008 1. Bevezetés Az izotópok stabilak vagy radioaktívak
RészletesebbenTűgörgős csapágy szöghiba érzékenységének vizsgálata I.
Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Tudományos Diákköri Konferencia Tűgörgős csapágy szöghiba érzékenységének vizsgálata I. Szöghézag és a beépítésből adódó szöghiba vizsgálata
RészletesebbenA készletezés Készlet: készletezés Indok Készlettípusok az igény teljesítés viszony szerint
A készletezés Készlet: Olyan anyagi javak, amelyeket egy szervezet (termelő, vagy szolgáltatóvállalat, kereskedő, stb.) azért halmoz fel, hogy a jövőben alkalmas időpontban felhasználjon A készletezés
RészletesebbenStatisztikai módszerek a skálafüggetlen hálózatok
Statisztikai módszerek a skálafüggetlen hálózatok vizsgálatára Gyenge Ádám1 1 Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Számítástudományi és Információelméleti
Részletesebben0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)
Legyen adott a P átmenetvalószín ség mátrix és a ϕ 0 kezdeti eloszlás Kérdés, hogy miként lehetne meghatározni az egyes állapotokban való tartózkodás valószín ségét az n-edik lépés múlva Deniáljuk az n-lépéses
RészletesebbenVéletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.
Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza
RészletesebbenTaylor-polinomok. 1. Alapfeladatok. 2015. április 11. 1. Feladat: Írjuk fel az f(x) = e 2x függvény másodfokú Maclaurinpolinomját!
Taylor-polinomok 205. április.. Alapfeladatok. Feladat: Írjuk fel az fx) = e 2x függvény másodfokú Maclaurinpolinomját! Megoldás: A feladatot kétféle úton is megoldjuk. Az els megoldásban induljunk el
RészletesebbenBeszédfelismerés, beszédmegértés
Beszédfelismerés, beszédmegértés Werner Ágnes Beszéd, ember-gép kapcsolat A beszéd az emberek közötti legtermészetesebb információátviteli forma. Az ember és a gép kapcsolatában is ez lehetne talán a legcélravezetőbb,
RészletesebbenRegresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
RészletesebbenÁltalános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László
Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László Általános statisztika II Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László Publication
RészletesebbenRegressziószámítás alkalmazása kistérségi adatokon
Lengyel I. Lukovics M. (szerk.) 2008: Kérdıjelek a régiók gazdasági fejlıdésében. JATEPress, Szeged, 264-287. o. Regressziószámítás alkalmazása kistérségi adatokon Szakálné Kanó Izabella 1 A lokális térségek
RészletesebbenKépfeldolgozás. 1. el adás. A képfeldolgozás alapfogalmai. Mechatronikai mérnök szak BME, 2008
Képfeldolgozás 1. el adás. A képfeldolgozás alapfogalmai BME, 2008 A digitális képfeldolgozás alapfeladata Deníció A digitális képfeldolgozás során arra törekszünk, hogy a természetes képek elemzése révén
RészletesebbenHajlított tartó elmozdulásmez jének meghatározása Ritz-módszerrel
Hajlított tartó elmozdulásmez jének meghatározása Ritz-módszerrel Segédlet az A végeselem módszer alapjai tárgy 4. laborgyakorlatához http://www.mm.bme.hu/~kossa/vemalap4.pdf Kossa Attila (kossa@mm.bme.hu)
RészletesebbenBeszédfelismerő szoftver adaptálása C# programozási nyelvre
Beszédfelismerő szoftver adaptálása C# programozási nyelvre Készítette: Sztahó Dávid A szoftver leírása A szoftver által megvalósított funkciók blokkvázlatát az 1. ábra mutatja. A szoftver valós idejű
RészletesebbenFEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
RészletesebbenModellezés és szimuláció. Szatmári József SZTE Természeti Földrajzi és Geoinformatikai Tanszék
Modellezés és szimuláció Szatmári József SZTE Természeti Földrajzi és Geoinformatikai Tanszék Kvantitatív forradalmak a földtudományban - geográfiában 1960- as évek eleje: statisztika 1970- as évek eleje:
RészletesebbenÖnálló laboratórium beszámoló BME-TMIT
Önálló laboratórium beszámoló BME-TMIT Készítette: Varga Ádám Csaba, KHLU9W Konzulens: Dr. Mihajlik Péter Tanév: 2013-14 tavaszi félév Téma címe: Mély neuronhálók alkalmazása a beszédfelismerésben Feladatkiírás:
RészletesebbenBiztosítási ügynökök teljesítményének modellezése
Eötvös Loránd Tudományegyetem Természettudományi Kar Budapest Corvinus Egyetem Közgazdaságtudományi Kar Biztosítási ügynökök teljesítményének modellezése Szakdolgozat Írta: Balogh Teréz Biztosítási és
RészletesebbenVektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27
Vektorterek Wettl Ferenc 2015. február 17. Wettl Ferenc Vektorterek 2015. február 17. 1 / 27 Tartalom 1 Egyenletrendszerek 2 Algebrai struktúrák 3 Vektortér 4 Bázis, dimenzió 5 Valós mátrixok és egyenletrendszerek
RészletesebbenSztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával
Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával * Pannon Egyetem, M szaki Informatikai Kar, Számítástudomány
RészletesebbenIntelligens Rendszerek Elmélete
Intelligens Rendszerek Elmélete Dr. Kutor László : Mesterséges neurális hálózatok felügyelt tanítása hiba visszateresztő Back error Propagation algoritmussal Versengéses tanulás http://mobil.nik.bmf.hu/tantargyak/ire.html
RészletesebbenTanulás az idegrendszerben
Tanulás az idegrendszerben Structure Dynamics Implementation Algorithm Computation - Function Funkcióvezérelt modellezés Abból indulunk ki, hogy milyen feladatot valósít meg a rendszer Horace Barlow: "A
RészletesebbenGépi tanulás a gyakorlatban. Lineáris regresszió
Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják
RészletesebbenGépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
RészletesebbenEllátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével
Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével Pekárdy Milán, Baumgartner János, Süle Zoltán Pannon Egyetem, Veszprém XXXII. Magyar Operációkutatási
RészletesebbenÉrdekes informatika feladatok
A keres,kkel és adatbázissal ellátott lengyel honlap számos díjat kapott: Spirit of Delphi '98, Delphi Community Award, Poland on the Internet, Golden Bagel Award stb. Az itt megtalálható komponenseket
Részletesebben4. sz. Füzet. A hibafa számszerű kiértékelése 2002.
M Ű S Z A K I B I Z O N S Á G I F Ő F E L Ü G Y E L E 4. sz. Füzet A hibafa számszerű kiértékelése 00. Sem a Műszaki Biztonsági Főfelügyelet, sem annak nevében, képviseletében vagy részéről eljáró személy
RészletesebbenSCILAB programcsomag segítségével
Felhasználói függvények de niálása és függvények 3D ábrázolása SCILAB programcsomag segítségével 1. Felhasználói függvények de niálása A Scilab programcsomag rengeteg matematikai függvényt biztosít a számítások
Részletesebben1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)
Matematika A2c gyakorlat Vegyészmérnöki, Biomérnöki, Környezetmérnöki szakok, 2017/18 ősz 1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás) 1. Valós vektorterek-e a következő
RészletesebbenIdegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel
statisztikai és nyelvi eszközökkel Témalabor 2. beszámoló Témavezet : Vámos Gábor 2009. január 9. Mir l lesz szó? A cél: tesztelni és tanítani 1 A cél: tesztelni és tanítani Eszközök és célok Szókincs
RészletesebbenHatározott integrál és alkalmazásai
Határozott integrál és alkalmazásai 5. május 5.. Alapfeladatok. Feladat: + d = Megoldás: Egy határozott integrál kiszámolása a feladat. Ilyenkor a Newton-Leibniz-tételt használhatjuk, mely azt mondja ki,
RészletesebbenFuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában
Budapesti Műszaki és Gazdaságtudományi Egyetem Fuzzy rendszerek és neurális hálózatok alkalmazása a diagnosztikában Cselkó Richárd 2009. október. 15. Az előadás fő témái Soft Computing technikák alakalmazásának
RészletesebbenGépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
RészletesebbenPenta Unió Zrt. Az Áfa tükrében a zárt illetve nyílt végű lízing. Név:Palkó Ildikó Szak: forgalmi adó szakirámy Konzulens: Bartha Katalin
Penta Unió Zrt. Az Áfa tükrében a zárt illetve nyílt végű lízing Név:Palkó Ildikó Szak: forgalmi adó szakirámy Konzulens: Bartha Katalin Tartalom 1.Bevezetés... 3 2. A lízing... 4 2.1. A lízing múltja,
RészletesebbenSZAKDOLGOZAT VIRÁG DÁVID
SZAKDOLGOZAT VIRÁG DÁVID 2010 Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Áramlástan Tanszék SZÁRNY KÖRÜLI TURBULENS ÁRAMLÁS NUMERIKUS SZIMULÁCIÓJA NYÍLT FORRÁSKÓDÚ SZOFTVERREL VIRÁG
RészletesebbenSzent István Egyetem Gazdaság- és Társadalomtudományi Kár Gazdaságelemzési és Módszertani Intézet Gazdasági Informatika Tanszék
Szent István Egyetem Gazdaság- és Társadalomtudományi Kár Gazdaságelemzési és Módszertani Intézet Gazdasági Informatika Tanszék A mesterséges neuronális hálózatok alkalmazása az értékpapír piaci elırejelzések
RészletesebbenI: Az értékteremtés lehetőségei a vállalaton belüli megközelítésben és piaci szempontokból
16. Tétel Az értékteremtés lehetőségei a vállalaton belüli megközelítésben és piaci szempontokból. Az értékteremtő folyamatok a vállalat működésében, az értéklánc elemei. A teljesítmény és menedzsmentje,
RészletesebbenFüggvények július 13. f(x) = 1 x+x 2 f() = 1 ()+() 2 f(f(x)) = 1 (1 x+x 2 )+(1 x+x 2 ) 2 Rendezés után kapjuk, hogy:
Függvények 015. július 1. 1. Feladat: Határozza meg a következ összetett függvényeket! f(x) = cos x + x g(x) = x f(g(x)) =? g(f(x)) =? Megoldás: Összetett függvény el állításához a küls függvényben a független
RészletesebbenTanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok
Zrínyi Miklós Gimnázium Művészet és tudomány napja Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok 10/9/2009 Dr. Viharos Zsolt János Elsősorban volt Zrínyis diák Tudományos főmunkatárs
RészletesebbenKépfeldolgozás. 1. el adás. A képfeldolgozás m veletei. Mechatronikai mérnök szak BME, 2008
Képfeldolgozás 1. el adás. A képfeldolgozás m veletei Mechatronikai mérnök szak BME, 2008 1 / 61 Alapfogalmak transzformációk Deníció Deníció Geometriai korrekciókra akkor van szükség, ha a képr l valódi
RészletesebbenInformatika Rendszerek Alapjai
Informatika Rendszerek Alapjai Dr. Kutor László Alapfogalmak Információ-feldolgozó paradigmák Analóg és digitális rendszerek jellemzői Jelek típusai Átalakítás rendszerek között http://uni-obuda.hu/users/kutor/
RészletesebbenDeep Learning a gyakorlatban Python és LUA alapon Tanítás: alap tippek és trükkök
Gyires-Tóth Bálint Deep Learning a gyakorlatban Python és LUA alapon Tanítás: alap tippek és trükkök http://smartlab.tmit.bme.hu Deep Learning Híradó Hírek az elmúlt 168 órából Deep Learning Híradó Google
RészletesebbenTARTALOM AZ INFORMATIKA FOGALMA... 3 1. A fogalom kialakítása... 3 2. Az informatika tárgyköre és fogalma... 3 3. Az informatika kapcsolata egyéb
TARTALOM AZ INFORMATIKA FOGALMA... 3 1. A fogalom kialakítása... 3 2. Az informatika tárgyköre és fogalma... 3 3. Az informatika kapcsolata egyéb tudományterületekkel... 4 4. Az informatika ágai... 5 AZ
RészletesebbenFEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
RészletesebbenVisszacsatolt (mély) neurális hálózatok
Visszacsatolt (mély) neurális hálózatok Visszacsatolt hálózatok kimenet rejtett rétegek bemenet Sima előrecsatolt neurális hálózat Visszacsatolt hálózatok kimenet rejtett rétegek bemenet Pl.: kép feliratozás,
RészletesebbenDr. Ábrahám István * A BOLOGNAI FOLYAMAT ÉS A TANKÖNYVEK
Dr. Ábrahám István * A BOLOGNAI FOLYAMAT ÉS A TANKÖNYVEK A fels oktatásban legalapvet bb változás az elmúlt id szakban a hallgatói létszámok területén történt: az utóbbi néhány évben, évtizedben mintegy
RészletesebbenSkalárszorzat, norma, szög, távolság. Dr. Takách Géza NyME FMK Informatikai Intézet takach@inf.nyme.hu http://inf.nyme.hu/ takach/ 2005.
1 Diszkrét matematika II., 4. el adás Skalárszorzat, norma, szög, távolság Dr. Takách Géza NyME FMK Informatikai Intézet takach@inf.nyme.hu http://inf.nyme.hu/ takach/ 2005. március 1 A téma jelent sége
RészletesebbenFüggvények határértéke, folytonossága
Függvények határértéke, folytonossága 25. február 22.. Alapfeladatok. Feladat: Határozzuk meg az f() = 23 4 5 3 + 9 a végtelenben és a mínusz végtelenben! függvény határértékét Megoldás: Vizsgáljuk el
RészletesebbenAnalóg digitális átalakítók ELEKTRONIKA_2
Analóg digitális átalakítók ELEKTRONIKA_2 TEMATIKA Analóg vs. Digital Analóg/Digital átalakítás Mintavételezés Kvantálás Kódolás A/D átalakítók csoportosítása A közvetlen átalakítás A szukcesszív approximációs
Részletesebben1. A k-szerver probléma
1. A k-szerver probléma Az egyik legismertebb on-line probléma a k-szerver probléma. A probléma általános deníciójának megadásához szükség van a metrikus tér fogalmára. Egy (M, d) párost, ahol M a metrikus
RészletesebbenOTDK-DOLGOZAT 2015 1
OTDK-DOLGOZAT 2015 1 Környezeti vezetői számvitel alkalmazhatóságának kérdései a szarvasmarha tenyésztés területén, kiemelten az önköltségszámításban Questions of applicability of environmental management
RészletesebbenKibernetika korábbi vizsga zárthelyi dolgozatokból válogatott tesztkérdések Figyelem! Az alábbi tesztek csak mintául szolgálnak a tesztkérdések megoldásához, azaz a bemagolásuk nem jelenti a tananyag elsajátítását
RészletesebbenMŰANYAGOK FELDOLGOZÁSA
MŰANYAGOK FELDOLGOZÁSA Ömledék homogenitásának javítási lehetőségei fröccsöntésnél és extrúziónál A reprodukálható termékminőséghez elengedhetetlen a homogén ömledék biztosítása. Színhibák elkerülése,
RészletesebbenIngatlanvagyon értékelés
Nyugat-Magyarországi Egyetem Geoinformatikai Kar Ingatlanfejlesztı 8000 Székesfehérvár, Pirosalma u. 1-3. Szakirányú Továbbképzési Szak Ingatlanvagyon értékelés 2. Számviteli alapok Szerzı: Harnos László
RészletesebbenPszichometria Szemináriumi dolgozat
Pszichometria Szemináriumi dolgozat 2007-2008. tanév szi félév Temperamentum and Personality Questionnaire pszichometriai mutatóinak vizsgálata Készítette: XXX 1 Reliabilitás és validitás A kérd ívek vizsgálatának
RészletesebbenPedagógiai program. Helyi tanterv. enyhe értelmi fogyatékos tanulók számára
Klebelsberg Intézményfenntartó Központ Budapest XX. Kerületi Tankerület Benedek Elek Óvoda, Általános Iskola, Speciális Szakiskola és EGYMI Pedagógiai program Helyi tanterv az enyhe értelmi fogyatékos
RészletesebbenGÁZMINŐSÉGEK VIZSGÁLATA AZ EGYSÉGES EURÓPAI GÁZSZOLGÁLTATÁSI SZABVÁNY VONATKOZÁSÁBAN
Műszaki Földtudományi Közlemények, 85. kötet, 1. szám (2015), pp. 64 72. GÁZMINŐSÉGEK VIZSGÁLATA AZ EGYSÉGES EURÓPAI GÁZSZOLGÁLTATÁSI SZABVÁNY VONATKOZÁSÁBAN GALYAS ANNA BELLA okl. olaj- és gázmérnök Miskolci
RészletesebbenEötvös Loránd Tudományegyetem Tanító- és Óvóképző Kar. Útmutató a szakdolgozat szerkesztéséhez
Eötvös Loránd Tudományegyetem Tanító- és Óvóképző Kar Útmutató a szakdolgozat szerkesztéséhez Sarbó Gyöngyi 2013 TARTALOMJEGYZÉK TARTALOMJEGYZÉK... 1 ELŐSZÓ... 2 ALAPOK... 3 TERJEDELEM ÉS MÉRET... 3 FORMAI
RészletesebbenTantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.
Tantárgyi útmutató 1. A tantárgy helye a szaki hálóban Gazdálkodási és menedzsment szakirány áttekintő tanterv Nagyításhoz kattintson a képre! Turizmus - vendéglátás szakirány áttekintő tanterv Nagyításhoz
RészletesebbenBAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.
BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. 1 Mérési hibák súlya és szerepe a mérési eredményben A mérési hibák csoportosítása A hiba rendűsége Mérési bizonytalanság Standard és kiterjesztett
RészletesebbenAZ ÉPÍTÉSI MUNKÁK IDŐTERVEZÉSE
UDPESTI MŰSZKI ÉS GZDSÁGTUDOMÁNYI EGYETEM ÉPÍTÉSZMÉRNÖKI KR ÉPÍTÉSKIVITELEZÉSI és SZERVEZÉSI TNSZÉK dr. Neszmélyi László Z ÉPÍTÉSI MUNKÁK IDŐTERVEZÉSE - 2015. - Tartalom 1. EVEZETÉS... 4 2. Z ÉPÍTÉSEN
RészletesebbenVezetéses Totó kulcsok Enciklopédiája I.
Szerencsetippek Sorozat Vezetéses Totó kulcsok Enciklopédiája I. 781 Vezetéses Totó kulcs 13 találat garanciával, 0 hibapontos játékokhoz 4-366080 tipposzlopon 605 Vezetéses Totó kulcs 12 találat garanciával,
RészletesebbenKontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz Szekér Szabolcs 1, Dr. Fogarassyné dr. Vathy Ágnes 2 1 Pannon Egyetem Rendszer- és Számítástudományi Tanszék, szekersz@gmail.com
RészletesebbenSzámlakészítés a SPRINT programmal
Számlakészítés a SPRINT programmal A jelen dokumentáció leírás a 2016. január 1 után kiadott SPRINT programmal végezhető számlakészítéshez. A dokumentáció nem tartalmazza a SPRINT program telepítési módjait
RészletesebbenSzervezési, irányítási és ellenőrzési modell
Szervezési, irányítási és ellenőrzési modell Jóváhagyta az Eni Hungaria Zrt. Igazgatósága 2015. november 2-án 1 / 46 TARTALOMJEGYZÉK 1. FEJEZET... 5 MODELL... 5 1.1 Bevezetés... 5 1.2 Az Eni Hungaria Zrt.
RészletesebbenÜtemezési modellek. Az ütemezési problémák osztályozása
Ütemezési modellek Az ütemezési problémák osztályozása Az ütemezési problémákban adott m darab gép és n számú munka, amelyeket az 1,..., n számokkal fogunk sorszámozni. A feladat az, hogy ütemezzük az
Részletesebbenrank(a) == rank([a b])
Lineáris algebrai egyenletrendszerek megoldása a Matlabban Lineáris algebrai egyenletrendszerek a Matlabban igen egyszer en oldhatók meg. Legyen A az egyenletrendszer m-szer n-es együtthatómátrixa, és
RészletesebbenBeszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor
Beszédfelismerés alapú megoldások AITIA International Zrt. Fegyó Tibor fegyo@aitia.hu www.aitia.hu AITIA Magyar tulajdonú vállalkozás Célunk: kutatás-fejlesztési eredményeink integrálása személyre szabott
RészletesebbenGyakori elemhalmazok kinyerése
Gyakori elemhalmazok kinyerése Balambér Dávid Budapesti M szaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Számítástudomány szakirány 2011 március 11. Balambér Dávid (BME) Gyakori
RészletesebbenKomplex számok. Komplex számok és alakjaik, számolás komplex számokkal.
Komplex számok Komplex számok és alakjaik, számolás komplex számokkal. 1. Komplex számok A komplex számokra a valós számok kiterjesztéseként van szükség. Ugyanis már középiskolában el kerülnek olyan másodfokú
RészletesebbenMérési struktúrák
Mérési struktúrák 2007.02.19. 1 Mérési struktúrák A mérés művelete: a mérendő jellemző és a szimbólum halmaz közötti leképezés megvalósítása jel- és rendszerelméleti aspektus mérési folyamat: a leképezést
RészletesebbenAz atipikus formában szervezhetı munkalehetıségek feltárása és elterjesztésének lehetıségei
KONSZENZUS BUDAPEST Az atipikus formában szervezhetı munkalehetıségek feltárása és elterjesztésének lehetıségei ATIPIKUS MUNKAHELYEK KIALAKÍTÁSÁNAK MÓDSZERTANI ALAPJAI Készült a TÁMOP 1.3.1 kiemelt projekt
RészletesebbenAz interjú id pontja: Kezel hely kódszáma: Interjúkészít kódszáma: A kérdez súlyosság-értékelése. Név: A kliens kódja:
Név: A kliens kódja: Az interjú id pontja: Kezel hely kódszáma: Interjúkészít kódszáma: év hó nap A kérdez súlyosság-értékelése 0-1 Valódi probléma nem áll fenn /nincs szükség segítségre 2-3 Kevésbé súlyos
Részletesebben3. jegyz könyv: Bolygómozgás
3. jegyz könyv: Bolygómozgás Harangozó Szilveszter Miklós, HASPABT.ELTE 21. április 6. 1. Bevezetés Mostani feladatunk a bolygók mozgásának modellezése. Mint mindig a program forráskódját a honlapon [1]
RészletesebbenGoogle Summer of Code Project
Neuronhálózatok a részecskefizikában Bagoly Attila ELTE TTK Fizikus MSc, 2. évfolyam Integrating Machine Learning in Jupyter Notebooks Google Summer of Code Project 2016.10.10 Bagoly Attila (ELTE) Machine
RészletesebbenKonvolúciós neurális hálózatok (CNN)
Konvolúciós neurális hálózatok (CNN) Konvolúció Jelfeldolgozásban: Diszkrét jelek esetén diszkrét konvolúció: Képfeldolgozásban 2D konvolúció (szűrők): Konvolúciós neurális hálózat Konvolúciós réteg Kép,
RészletesebbenVasúti infrastruktúragazdálkodás kontrolling bázisú döntéselőkészítő rendszerek alkalmazásával
Budapesti Műszaki és Gazdaságtudományi Egyetem Közlekedésmérnöki és Járműmérnöki Kar Közlekedésüzemi és Közlekedésgazdasági Tanszék Vasúti infrastruktúragazdálkodás kontrolling bázisú döntéselőkészítő
RészletesebbenIV. Szakmai szolgáltatások funkcionális tervezése
Magyarország-Szlovénia Phare CBC Program 2003 A határrégió emberi erőforrás potenciáljának maximalizálása támogatási konstrukció A régióban működő foglalkoztatási paktumok közötti koordináció projekt A
RészletesebbenLineáris egyenletrendszerek
Lineáris egyenletrendszerek 1 Alapfogalmak 1 Deníció Egy m egyenletb l álló, n-ismeretlenes lineáris egyenletrendszer általános alakja: a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a
RészletesebbenPENTA UNIÓ Zrt. A nemzetközi munkaerő-kölcsönzés személyi jövedelemadó kérdésének vizsgálata Magyarországon és egyes tagállamokban NÉV: SZABADOS ÉVA
PENTA UNIÓ Zrt. A nemzetközi munkaerő-kölcsönzés személyi jövedelemadó kérdésének vizsgálata Magyarországon és egyes tagállamokban NÉV: SZABADOS ÉVA Szak: Okleveles nemzetköziadó-szakértő Konzulens: Horváth
RészletesebbenX. ANALÓG JELEK ILLESZTÉSE DIGITÁLIS ESZKÖZÖKHÖZ
X. ANALÓG JELEK ILLESZTÉSE DIGITÁLIS ESZKÖZÖKHÖZ Ma az analóg jelek feldolgozása (is) mindinkább digitális eszközökkel és módszerekkel történik. A feldolgozás előtt az analóg jeleket digitalizálni kell.
RészletesebbenDévaványa Város Önkormányzata
Dévaványa Város Önkormányzata Esélyegyenlőségi és Fenntarthatósági Terv Készítette: Educatio Bene Kft. 21. március 11. I. BEVEZETŐ...4 II. III. 1. AZ ESÉLYEGYENLŐSÉG...4 2. A FENNTARTHATÓ FEJLŐDÉS...4
RészletesebbenMegoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1
Megoldott feladatok 00. november 0.. Feladat: Vizsgáljuk az a n = n+ n+ sorozat monotonitását, korlátosságát és konvergenciáját. Konvergencia esetén számítsuk ki a határértéket! : a n = n+ n+ = n+ n+ =
Részletesebben