Önálló laboratórium beszámoló BME-TMIT

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Önálló laboratórium beszámoló BME-TMIT"

Átírás

1 Önálló laboratórium beszámoló BME-TMIT Készítette: Varga Ádám Csaba, KHLU9W Konzulens: Dr. Mihajlik Péter Tanév: tavaszi félév Téma címe: Mély neuronhálók alkalmazása a beszédfelismerésben Feladatkiírás: Mára bebizonyosodott, hogy az ún. deep belief networks, azaz a speciális, több szintből álló mesterséges neurális hálózatok a különféle biológiai mintaillesztési feladatokban kiválóan teljesítenek, a hagyományos technikákat lényegesen felülmúlóan. A feladat ezen technológia alkalmazása valós beszédfelismerési feladatokban. A mesterséges beszédfelismerés legnagyobb kihívása a komplex akusztikai jelekből azonosítani a beszédhangokat. Jelenleg az említett technológia jelenti a legkecsegtetőbb megoldást a beszéd akusztiai modellezésére, ennek megismerése, alkalmazása a feladat.

2 Önálló laboratórium beszámoló 1. A laboratóriumi munka környezetének ismertetése A félév során beszédfelismerő rendszerek mintaillesztési módszereinek hatékonyságát tanulmányoztam, valamint a felismerési pontosság javítási lehetőségeit vizsgáltam. A beszédfelismerők hibaarányát különböző technikákkal kíséreltem meg csökkenteni. Az önálló laboratórium keretében főként az ún. mély neuronhálókkal történő mintaillesztési feladatok eredményeire kocentráltam, hiszen ez a megközelítés a hagyományos megoldásoknál lényegesen jobb eredményeket produkál. A klasszikus statisztikai módszerek felismerési pontosságával való összehasonlítás után a neuronhálók különböző paramétereinek hangolásával próbáltam a hatékonyságot növelni, valamint a hibaarány további csökkentése érdekében a neuronhálók és hagyományos módszerek ötvözésével nyert hibrid módszerek teljesítményét is megvizsgáltam Elméleti összefoglaló Lényegkiemelés és mintaillesztés Az alábbiakban röviden ismertetem a beszédfelismerő rendszerek működésének alapvető összetevőit, módszereit, különös tekintettel a neurális hálókkal történő mintaillesztési feladatra, mivel ez a félév során elvégzett munka gerincét jelenti, és a működés hátterének áttekintése szükséges az eredmények értelmezéséhez. Az összefoglaló főként Fegyó Tibor és Mihajlik Péter Gépi beszédfelismerés című oktatási segédanyagára[1] valamint Mihajlik Péter Spontán magyar nyelvű beszéd gépi felismerése nyelvspecifikus szabályok nélkül[7] című doktori disszertációjára épít. Egy beszédfelismerő rendszer két alapvető lépcsőből épül fel: a lényegkiemelő fokozatból és a statisztikai mintaillesztést végző egységből. A lényegkiemelés első lépése a spektrális analízis. Ennek során a bemenetre érkező digitális jelből előbb egymással átlapolódó rövid (10-30ms) ablakokat képzünk, és ezen ablakok tartalmát a diszkrét Fourier-transzformációt megvalósító FFT (Fast Fourier Transform) algoritmussal a frekvenciatartományba transzformáljuk. A Fourier-transzformációt további transzformációs lépések követhetik. Esetünkben az ún. mel-kepsztrum előállítása a következő lépés. Ennek során a spektrum négyzetét (a teljesítményspektrumot) az emberi halláshoz igazodó mel-skálára képezzük le, majd a melfrekvenciáknál a teljesítmények logaritmusát vesszük. Az így kapott értékeken az időtartományba való visszatérés és a dimenziószám csökkentése érdekében diszkrét koszinusz-transzformációt végzünk. A lényegkiemelés lépéseit az 1. ábra foglalja össze. A beszélők és a beszédmódok (lassabb, gyorsabb, halkabb, hangosabb, stb.) eltéréseinek 2

3 1.1 Elméleti összefoglaló Önálló laboratórium beszámoló 1. ábra. A lényegkiemelés lépései F F T () 2 mel() log() DCT kompenzálása érdekében a mintákon normálást végzünk. Ez esetünkben a kepsztrumátlagok és a varianca normalizásával történik.[8] Az így előállított, transzformált és normált értékeket tartalmazó vektorok lesznek az adott beszédszegmentum jellemzővektorai, amelyek tartalmazzák a beszédre jellemző és a felismerési feladathoz használandó értékeket. Ezeket kiegészíthetjük a felismerési pontosságot javító további paraméterekkel, amelyeket a vektorok végére fűzünk. Ilyen lehet például a paraméterek időbeli változásának ( ) és a változás változásának ( ) mértéke. A tulajdonságvektorok előállítása után következő feladat a mintaillesztés, azaz a feldolgozott akusztikus jelekből képzett jellemzővektorok leképezése nyelvi egységekre (fonémák, szavak). Ez jelenti tehát a beszéd tulajdonképpeni felismerését. Az alábbiakban az általam az önálló laboratóriumi munka során vizsgált mintaillesztési módszerek alapjait mutatom be röviden, kitérve először a hagyományos statisztikai eljárásokra, majd a neurális hálókkal történő felismerés módszereire. A mintaillesztés során a cél mindig a bejövő vektorsorozathoz legjobban illeszkedő fonémavagy szósorozat megkeresése. Ezt célszerűen valószínűségi modellek használatával végezzük, majd a lehetséges illesztések közül megkeressük a legjobban illeszkedőt ez a dekódolás folyamata.[7] Az illesztést végző probabilisztikus modellek két szintre bonthatók: a nyelvi és az akusztikus modellre. A nyelvi modell egy adott szósorozat előfordulási valószínűségének meghatározására szolgál. A legyegyszerűbb és legszélesebb körben használt megoldást az ún. N-gram modell ek jelentik, amelyek N db szó együttes előfordulási valószínűségét adják meg egy korpuszban mérhető közös és izolált előfordulások alapján. A tesztekhez én bigram modellt (azaz N = 2) használtam, amely két szóból álló párok előfordulási valószínűségeit használja: P (w 2 w 1 ) = c(w 2, w 1 ), c(w 1 ) ahol P (w 2 w 1 ) a w 2 szó előfordulási valószínűsége, feltéve hogy előtte w 1 állt, c(w 2, w 1 ) a két szó együttes, c(w 1 ) pedig az első szó izolált előfordulásainak száma. Az akusztikus modell célja, hogy egy adott, a fenti lényegkiemeléssel jellemzővektorsorozathoz a legmegfelelőbb szósorozatot rendelje. Ennek megvalósítása további lépcsőkre 3

4 1.1 Elméleti összefoglaló Önálló laboratórium beszámoló bontható: a teljes akusztikus modell a fonológiai és a fonéma szintű modellekből építhető fel. Az előbbi egy adott szósorozathoz tartozó fonémasorozat valószínűségét foglalja magában, míg az utóbbi egy adott fonémasorozathoz rendelhető akusztikai jellemzővektor-sorozat valószínűségét méri. A cél a legjobb illeszkedés keresése, ez végezhető a Viterbi-algoritmussal[1]. Az ilyen módon approximált szósorozat ezzel a módszerrel formálisan a következőképpen modellezhető: Ŵ = arg max P (W )P (Φ W )P (O Φ), W ahol Ŵ a felismert szósorozat, W a modellezett szósorozat, Φ az ehhez tartozó lehetséges fonémasorozat, valamint O a Φ-hez tartozó lehetséges jellemzővektor-sorozat. A fonológiai modell felépítése egy kiejtési szótár alapján történik, ahol az adott szavakhoz, szósorzatokhoz valószínűségi alapon hozzárendeljük a hozzájuk tartozó fonémasorozatokat. A fonéma-modell során az adott fonémasorozathoz legjobban illeszkedő jellemzővektrosorozat keresése a cél. Ennek a feladatnak a megoldása esetünkben (és általában a beszédfelismerő alkalmazásokban) ún. rejtett Markov-modellekkel[2] történik. Egy egy fonémát három állapottal modellező (kezdet, közép, vég) rejtett Markov-modellt látahatunk a 2. ábrán. Az egyes állapotok és a köztük lévő átmeneti valószínűségek (p ij ) alapján következtethetünk a vektorsorzat adott fonémasorozathot tartozó valószínűségére. Az egyes állapotokhoz tartozó valószínűségeket a gyakorlatban Gauss-függvények lineáris kombinációjából állíthatjuk elő ez azért hatékony megoldás, mert az átlagértékek és kovariancia-mátrixok tárolása elegendő ezek meghatározásához. Egy fonémasorozathoz tartozó modellt az egyes fonémákhoz tartozó modellek konkatenációjával kaphatunk meg. 2. ábra. Példa egy rejtett Markov-modellre p 01 p 12 start start eleje közepe vége stop p 23 p 34 p 11 p 22 p 33 A fonéma-modellben alkalmazhatunk környzetfüggetlen (monofón) beszédhangmodelleket: ebben az esetben egy-egy beszédhangot csak önálló, izolált formájában modellezünk. Az elvégzett kísérletek során azonban egyértelműen látható volt, hogy a jobb eredmények érdekében a modellezés során a környezetet is érdemes figyelembe venni, hiszen egy-egy beszédhangra jelentős hatása van az azt megelőző illetve követő hangnak (hangoknak). Így 4

5 1.1 Elméleti összefoglaló Önálló laboratórium beszámoló többnyire trifón modell alkalmazása az elterjedt, ahol hanghármasokkal dolgozunk az adott beszédhangot a saját maga és az őt megelőző illetve követő hangok által alkotott hármassal modellezzük. A beszédfelismerő-rendszerben az ismertetett modellek (a nyelvi és az akusztikus modell, illetve ennek részei) egybevonhatók egy olyan közös felismerési gráfba, ami magában foglalja az összes modellezési lépcsőt. Az általam használt rendszer is ezt a megoldást alkalmazza, ugyanis ilyenkor a legjobban illeszkedő minta megkeresése egy optimális útkeresési feladatra vezethető vissza a kezdőpont (bemeneti jellemzővektor-sorozat) és a lehetséges végpontok (lehetséges szósorozatok) között: a cél a legnagyobb valószínűségű út megtalálása, ez a Viterbi-algoritmussal hatékonyan megvalósítható dinamikus programozási módszerekkel Lehetőségek a mintaillesztés pontosítására A beszédfelismerési hatékonyság javítása érdekében számos technikát alkalmazhatunk. Ezek közül az alábbiakban röviden bemutatom azokat, amelyekkel a féléves munkám során foglalkoztam. Nem célom a különböző módszerek részletes elméleti és technikai hátterének ismertetése, így csak áttekintem a főbb megoldásokat. A már említett legalapvetőbb módszerek közé tartozik egyrészt a jellemzővektorok végére konkatenált és értékek használata, valamint monofón modell helyett trifón modell alkalmazása. A továbbiakban bemutatott megoldások mind felhasználják ezt a két bővítést. A lineáris diszkrimináns-analízis (Linear Discriminant Analysis, LDA) célja a dimenziócsökkentés úgy, hogy a beszédhangosztályok megkülönböztethetőségét maximalizáljuk. A módszer általában a Maximum Likelihood lineáris transzformációval (MLLT) van ötvözve, ami a kevert Gauss-függvények paraméterhangolását végzi.[3] A beszélőadaptív tréning (Speaker Adaptive Training, SAT) célja, hogy a beszédfelismeréshez használt modell bizonyos paraméterei egy adott beszélő egyéni tulajdonságaira beszédhangszínére, beszédmódjára, stb. legyenek hangolva. A gyakorlatban ritkán áll rendelkezésre elegendő adat ahhoz, hogy a modellt egyes személyekre lehessen hangolni, azonban a legalapvetőbb női-férfi megkülönböztetés eredményesen kivitelezhető.[5] Jelen esetben én a fenti LDA-módszer beszélőadaptív tréninggel kiegészített változatának teljesítményét is vizsgáltam. A Subspace Gaussian Mixture Model (SGMM) technika a rejtett Markov-modellek egyes állapotaihoz tartozó valószínűségek számítására használt Gauss-eloszlások lineáris kombinációját veszi alapul, azoban ebben az esetben az így előálló kombinált eloszlás paraméterei nem a teljes modell paramétereit jelentik. Ehelyett minden állapothoz tartozik egy állapotvektor, 5

6 1.1 Elméleti összefoglaló Önálló laboratórium beszámoló amelyből egy, a teljes modellre érvényes leképezés alapján állítható elő az adott állapothoz tartozó kombinált Gauss-eloszlás.[9] Mintaillesztés neurális hálókkal Az önálló laboratórium során végzett munkám gerincét a mesterséges neurális hálózatokkal végzett beszédfelismerési feladatok teljesítményének vizsgálata jelentette. Mára bebizonyosodott, hogy a feljebb ismertetett hagyományos rejtett Markov-modell-alapú felismerésnél hatékonyabbak az így megvalósított megoldások célom egyrészt ennek igazolása volt, másrészt a felismerési pontosság minél nagyobb mértékű növelése különböző megközelítésekkel; ez jelentheti egyrészt a neurális hálók bizonyos paraméterbeállításainak optimalizálását, másrészt azoknak a klasszikus módszerekkel való kombinációját, ami adott esetben mégjobb eredményhez vezethet. Egy neurális háló alapvető tulajdonsága, hogy sok egyszerű, elemi egységből épül fel, amelyek párhuzamosan működnek egymással. Az elemi egységeket a biológiai analógia alapján neuronoknak nevezzük. Egy ilyen neuron működését szemlélteti a 3. ábra. A neuronok bemenetein lévő értékek az adott bementre előírt súlyozás figyelembevételével összeadódnak, majd az így kapott összegből a neuron meghatározott aktivációs függvénye alapján áll elő a kimeneti érték. Az aktivációs függvény megválasztása nagyban befolyásolhatja a neurális hálót alkalmazó beszédfelismerő rendszer hatékonyságát, kísérleteim során erre is láthatunk majd példát. 3. ábra. Egy neuron sematikus szerkezete x 0 w 0 x 1 w 1 Σx i w i f(σx i w i ) y x n w n Egy neuron használható a bemenő adat osztályokba sorolására, azaz a súlyok megfelelő megválasztásával elérhetjük, hogy ha a bemenő adat egy adott osztályhoz tartozik (pl. egy hang zöngés), akkor a kimenetén "1"-et kapjunk, ha pedig nem (pl. zöngétlen), akkor "0"-t. 6

7 1.1 Elméleti összefoglaló Önálló laboratórium beszámoló Mivel azonban a teljes beszédfelismerési feladatban több osztály felett szükséges szeparációt végezni, ezért egy neuron ennek megoldására nem lenne elegendő. Így hozhatjuk létre a neuronok összekapcsolásával a neurális hálót, amely már képes lesz ellátni ezt a feladatot. Egy neurális háló ún. rétegekből épül fel, a rétegek pedig neuronokból állnak. Az egymást követő rétegek neuronjai között összeköttetések futnak, azaz minden adott réteg-beli neuron kimenete az őt követő réteg minden neuronjának bemenetére csatlakozik egy adott súlyozáson keresztül. Egy adott réteg neuronjai között nincs összeköttetés. A rétegeket három csoportba sorolhatjuk: a bementi és a kimeneti réteg, valamint a közbülső rejtett réteg vagy rétegek. A bemeneti réteg tárolja a beérkező mintákat, ez számításokat tehát nem végez. A tényleges osztályozás a kimeneti rétegben történik meg: az adott osztályhoz tartozó kimeneti neuron kimenete fog tüzelni ("1"-es értéket vesz fel), míg a többi nem. A 4. ábrán egy egy rejtett rétegű neurális hálót láthatunk (a piros szín a tüzelő neuront jelzi). 4. ábra. Példa egy egyszerű neurális hálóra súlyozások súlyozások rejtett réteg bemeneti réteg kimeneti réteg A neurális hálók klasszikusan egy rejtett réteget tartalmaznak, azonban ezek számának növelésével növelhetjük a számítási komplexitást és ezáltal jobb felismerési eredményeket érhetünk el. Az általam végzett tesztek során is az egyik központi paraméter volt a rejtettrétegszám; ezen kívül még a rétegenkénti dimenziószám (azaz a rétegenkénti neuronok száma) is összefüggésben áll a neurális hálót alkalmazó beszédfelismerő-rendszer teljesítményével (és természetesen a számításigénnyel). 7

8 1.1 Elméleti összefoglaló Önálló laboratórium beszámoló A fő feladat természetesen az egyes súlyok optimális megválasztása a lehető legjobb teljesítmény elérése érdekében. Ez a neurális háló tanításával történik. A tanításhoz használt beszédminták esetünkben a tanításhoz és a tesztek futtatásához használt beszédadatbázis egy részhalmazát képzik. A tanítás során a cél a tanítóminták alapján a lehető legjobb eredményt produkáló módon beállítani a neuronok közötti összeköttetések súlyait; a pontos algoritmusok részletezésétől most eltekintek A felismerési pontosság számszerűsítése A betanított neurális háló (valamint minden egyéb feljebb ismertetett modell) teljesítményét két halmazon mérjük. Mivel alapvetően nem az a célunk, hogy a tanítóhalmazon való felismerési pontosságot vizsgáljuk, hanem az általános felismerési tejesítményre vagyunk kíváncsiak, ezért a tesztelést olyan adatokon érdemes végezni, amelyekkel a modell a tanulás során nem találkozott. Így először egy fejlesztőhalmazon (development set) vizsgáljuk a beszédfelismerés pontosságát, amely a teljesítménymérés melett arra is szolgál, hogy kiválassza a tanítások közül a legjobbat. Ezt követően az így kiválasztott legjobb modell teljesítményét le kell mérni egy olyan teszthalmazon, amely olyan mintákat tartalmaz, amelyek se a tanítóse a fejlesztőhalmazban nem fordultak elő. A beszédfelismerők teljesítményét úgy mérhetjük, hogy meghatározzuk, hogy milyen arányban ismerte fel helyesen a bejövő szavakat, szósorokat, azaz mennyi hibát vétett a felismerési feladat végrehajtása során. Erre a leggyakrabban és esetünkben is használt mérőszám a Word Error Rate (WER, szóhibaarány), amely figyelembe veszi a felismerés során elkövetett helyettesítéseket (azaz például egy adott bemenő fonémát egy másikkal helyettesít helytelenül), a beszúrások számát (olyan helyre is beilleszt egy elemet, ahol nem kéne semminek állnia), a törlések számát (hiányzó elem a felismert szóban vagy szósorozatban) és a helyesen felismert elemek számát. Ezek alapján a következőképpen definiálhatjuk a szófelismerési pontosságot és -hibaarányt:[7] Acc = N S D I N W ER = 1 Acc = S +D +I, N ahol Acc a szófelismerési pontosság, W ER a szóhibaarány, N az összes felismerési egység száma, S a helyettesítések, D a törlések és I pedig a beszúrások száma. 8

9 1.2 A munka állapota a félév elején Önálló laboratórium beszámoló 1.2. A munka állapota a félév elején Az önálló laboratórium során végzett munkámhoz készen kaptam kézhez a TIMIT beszédadatbázist 1, amely 630 amerikai beszélő által felolvasott mondatot tartalmaz 16kHz-es mintavételezési frekvenciával és 16 biten kódolva, PCM formátumban. Az adatbázis tartalmazza a továbbá a mondatok átiratait, és a felolvasott mondatokat előre tanító- fejlesztő- és teszthalmazokba rendezett módon találhatjuk meg benne. A munkámhoz rendelkezésemre volt bocsájtva továbbá egy nagy sebességű processzorral és a tesztek futtatásához szükséges memóriával felszerelt, hálózatra kapcsolt számítógép Ubuntu operációs rendszerrel, amelyen távoli eléréssel is tudtam dolgozni. A gép a félév folyamán videokártyával lett bővítve a számítási kapacitás növelése érdekében. 2. Az elvégzett munka eredményeinek ismertetése 2.1. A Kaldi keretrendszer telepítése A megfelelő irodalomrészletek tanulmányozása után a különböző módszerek gyakorlatban történő kipróbálása jelentette a következő lépést. Ehhez nyílt kutatási eszközök keresése volt a cél. A megoldást a Kaldi nyílt forráskódú keretrendszer 2 jelentette ez egy beszédfelismeréskutatásra kifejlesztett C++-alapú keretrendszer, amelyben lehetőség nyílik a fent ismertetett módszerek tetszőleges beszédadatbázison történő tesztelésére. A kódok szabadon módosíthatóak, bővíthetőek, így lehetséges azokat egy-egy konkrét adatbázisra optimalizálni, valamint különböző paraméterek állításával, esetlegesen új modulok implementációjával lehetőség nyílik új megoldások kipróbálására, vagy a már létezők eredményeinek javítására.[10] A Kaldi UNIX-környezetben telepíthető. A csomag letöltése után a telepítést az abban megtalálható automatikus telepítő- és konfigurálószkriptek végzik. Az installáció során ezeket a kódokat részben módosítani kellett, mivel az alapértelmezett telepítőfájlok több esetben hibához vezettek. Szükséges volt a g++-fordító visszaállítása egy kettővel korábbi verzióra, mivel a legfrissebb változat bizonyos pontokon új szintaxissal működik, a telepítőkódokkal így nem volt kompatibilis. A telepítés megkezdéséhez további segédalkalmazások installálására is szükség volt, úgy mint a subversion verziómenedzser, illetve az automake eszköz. A Kaldi telepítése során megtörtént a működéséhez szükséges kiegészítő eszközcsomagok telepítése is, ennek legfőbb

10 2.2 A TIMIT adatbázis előkészítése Önálló laboratórium beszámoló eleme az OpenFST végesállapotú transzdúcereket menedzselő programcsomag 3. Szükséges volt továbbá a LibATLAS lineáris algebrai megoldásokat nyújtó szoftver 4 külön kézi telepítése is, mivel ez nem zajlott le automatikusan. A Kaldi-csomaghoz tartozó fájlok, kódok, mintaszkriptek a számítógép /home/vargaada/kaldi trunk/ mappájában találhatóak. A továbbiakban hivatkozott fájlok és elérési utak a ~/kaldi trunk/egs/timit/s5 mappa alkönyvtáraiként értendők A TIMIT adatbázis előkészítése A TIMIT adatbázis fejléc nélküli nyers PCM-formátumban tartalmazza a beszédmintákat, 16kHz-es 16 bites lineáris kódolással. A Kaldi rendszer ezzel szemben a bemenő és feldolgozandó adatokat SPHERE-formátumban várja, amelyeket egy átalakító szkript segítésgével WAV-formátumba konvertál, majd ezeken a fájlokon kezdi meg a lényegkiemelést. Látható, hogy a bemeneti és a fogadó oldal fájlformátumai nem kompatibilisek egymással, ezért először ezt a problémát kellett megoldani. A konvertálást a sox parancssorból futtatható alkalmazással végeztem. Első lépésben át kellett állítani a fájlok alapértelmezett jogosultságait, hogy a program módosítani tudja őket, ezt követően a.pcm kiterjesztést le kellett cserélni.raw-ra, hogy a konvertálóprogram felismerje a formátumot. Így már el lehetett végezni az átalakítást WAV-formátumba az eredeti 16kHz-es beszédminták mellett mindegyikről egy-egy 8kHz-es mintavételezésű konverziót is készítettem a további kísérletezési lehetőségek érdekében. A fájlok nagy száma miatt a konverzióhoz az alábbi egyszerű Bash-szkriptet írtam (megtalálható /home/vargaada/convert.sh fileban). Második lépésben a Kaldi adatfeldolgozó részében történő SPHERE-WAV konverziót kellett kiiktatni, hiszen a fenti kód már WAV-fájlokat generál, így nem szükséges további átalakítás. Ehhez módosítani kellett a local/timit_data_prep.sh fájl vonatkozó sorát (99. sor), eltávolítva belőle az sph2wav átalakítót meghívó részleteket. Ezt követően az adatbázis már készen állt a Kaldival történő kísérletek futtatására A hagyományos mintaillesztési eljárások vizsgálata A Kaldiban a beszédfelismerési kutatásokhoz, tesztekhez gyakran használt minden beszédadatbázishoz (pl. a TIMIT vagy a Wall Street Journal-korpusz, stb.) találhatók előre elkészített receptek, amelyek a beszédfelismerő technológiákban bevett módszereket hiva atlas.sourceforge.net/ 10

11 2.3 A hagyományos mintaillesztési eljárások vizsgálata Önálló laboratórium beszámoló tottak demonstrálni. Így elsőként az elméleti bevezetőben is áttekintett módszerek működését vizsgáltam és az egyes megoldások eredményeit vetettem össze egymással. A kód elvégzi az adatbázis előkészítését: felépíti belőle a nyelvi modellt, majd lényegkiemelést végez rajta a fent már ismertetett módszerekkel. Az így kinyert jellemzővektorokon ezt követően lefuttatja a különböző mintaillesztési módszereket és azoknak eredményeit fájlokba menti. Az alapértelmezett kódban kisebb változtatásokat kellett eszközölni, mivel bizonyos paraméterek átállításra szorultak (pl. az elérési utak esetenként nemlétező helyekre mutattak, vagy olyan paraméterekkel hívtak meg kódokat, amelyeket azok nem tudtak értelmezni). Az ilyen apróbb hibák annak tudhatók be, hogy a Kaldi kódjai folyamatosan frissülnek, és bizonyos esetekben az egymásra hivatkozó kódrészletek nem követik egymás változtatásait. A frissebb verziókban ezek általában kijavításra kerülnek, de ilyen hibák esetében a kód módosítása magától értetődő. A jelenleg működő változat a run.sh szkriptben található meg. A nem neurális háló alapú mintaillesztési eljárások közül a monofón, az egyszerű trifón delta és delta-delta paramtéreket tartalmazó, a lineáris diszkriminánsanalízissel és MLLTvel, valamint ennek egy további beszélőadaptív tréninggel kiegészített változatát vizsgáltam, továbbá az SGMM-et alkalmazó tanítás eredményeit is vizsgáltam. A monofón módszert leszámítva minden eljárás trifón modellt használt. Az eredmények ebben a sorrendben javultak: míg az egyszerű monofón modell 34% feletti szóhibaarányt eredményezett a fejlesztőhalmazon (továbbiakban DEV), addig az SGMM-módszerrel 21,35%-ig sikerült levinni a hibát. Az egyes módszerekhez tartozó hibaértékek a DEV- és a TEST-halmazokon a 5. ábrán követhetők A mintavételezés hatása a hibaarányra Kísérleti célokkal a 16kHz-en mintavételezett hangfájlokból egy 8kHz-es konverziót is készítettem. Jól látható szinten a 5. ábrán, hogy ebben az esetben a hiba növekszik, hiszen a kevesebb mintavételi pont miatt a jellemzővektorok tartalma is pontatlanabb lesz. Fontos megjegyezni, hogy teljesítményjavulásnak ára van, azaz általánosan elmondható, hogy az egyre kisebb hibát produkáló feladatok növekvő számításigényűek, hiszen a tanítás során további paraméterfinomító statisztikai eljárásokat alkalmazunk. Különösen az SGMMmódszerre igaz, hogy a tanítás sok időt és memóriát vesz igénybe. 11

12 2.4 Mintaillesztés neurális hálókkal Önálló laboratórium beszámoló 5. ábra. A hibaarány javulása a különböző vizsgált módszerek mellett WER% kHz DEV 16kHz TEST 8kHz TEST 8kHz DEV mono D+DD LDA+MLLT LDA+MLLT+SAT SGMM 2.4. Mintaillesztés neurális hálókkal A továbbiakban a fő vizsgálódási területet a neurális hálókkal történő beszédfelismerési feladatok teljesítményének vizsgálata és kiértekélese jelentette. A célom a hibaarány minél nagyobb mértékű csökkentése volt, ennek érdekében a neurális hálók különböző paramétereinek hangolásaival kísérleteztem, úgy mint a rejtett rétegek és a rétegenkénti neuronok száma, az aktivációs függvény típusa, a kezdeti súlyok beállítása, stb. A félév második felében a hatékonyabb, videokártyára optimalizált tanítási algoritmusokkal is lehetőségem nyílt kísérletezni Az aktivációs függvény megválasztása A TIMIT-hez készített alapértelmezett Kaldi-recept a neurális hálókkal történő felismerésnél 24,28%-os hibát produkált a DEV halmazon. Mivel ennél már az előzőekben látott LDA+SAT kombinált megoldás is jobb teljesítményt hozott, mindenképpen javítani kellett valamilyen módon ezen az eredményen. Elsőként az alapértelmezett kódban megtalálható aktivációs függvény mellett futtattam a tanítást (steps/nnet2/train_tanh.sh), ami a fenti hibaarányt eredményezte. Ebben az esetben az egyes neuronok egy tangens hiberbolikusz függvény szerint transzformálják a bejövő súlyozott összegeket. Tóth László 2013-as cikkében[11] azonban rámutat, hogy rektifikációs függvények használatával jelentős javulás érhető el a teljesítményben (rektifikációs függvé- 12

13 2.4 Mintaillesztés neurális hálókkal Önálló laboratórium beszámoló nyen itt most az f(x) = max(0; x) függvényt kell érteni, tehát egy olyan függvényt, ami a negatív tartományban nulla, a pozitívban pedig x értékét veszi fel). A megoldáshoz létrehoztam a /steps/nnet2/train_rectifier.sh szkriptet, ami a train_ tanh.sh kód mintájára végzi el a neurális hálók tanítását azzal a különbséggel, hogy tangens hiberbolikusz helyett rektifikációs függvényt használ aktivációs függvénynek. Így a módosított kódban a TanhComponent osztály helyett a RectifiedLinearComponent osztály használatára kerül sor. Ez változtatás önmagában jól látható javulást eredményez: a DEV halmazon a korábbi 24,28%-os hibaarány 22,9%-ra csökken, míg a TEST-en a 26,31%-ról 24,64%-ra. A 6. ábrán a javulás grafikus formában is nyomonkövethető. 6. ábra. Az aktivációs függvény hatása a hibaarányra DEV TEST WER% tangens hiberbolikusz rektifikációs A réteg- és dimenziószám hatása A teljesítmény további javulása érdekében a teszteket a neurális hálók mélyítésével folytattam. A mély neuronhálók abban különböznek az egyszerűektől, hogy míg azok csak 1-2 rejtett réteget tartalmaznak, a mély neurális hálók esetében három vagy annál több rejtett réteggel történik a beszédfelismerés. Alapértelmezett esetben két rejtett réteget tartalmazó neurális hálókon futott a teszt, 300 neuronnal rétegenként. A hibaarány nagymértékű csökkentése érdekében a teljes mélységet első lépésben több mint háromszorosára növeltem előbb a rétegdimenzió növelésével

14 2.4 Mintaillesztés neurális hálókkal Önálló laboratórium beszámoló re, majd a rétegek számát is megkétszereztem a következő lépésben. Ezeknek a teszteknek a futtatása során továbbra is az előző pontban bemutatott módon rektifikációs aktivációs függvényű neuronokkal dolgoztam, hiszen ezek jobb teljesítményt mutattak, így ebben az irányban látszott érdemesnek továbbhaladni. A két paraméter hangolása a következő módon történik: a kívánt rejtettréteg-számot tanítást végző kód meghívásakor is beállíthatjuk, a rétegenkénti neuronok számát azonban csak közvetelnül a kódban (train_rectifier.sh) tudjuk elvégezni. A rejtett régetek számát a num hidden layersn kapcsoló használatával állíthatjuk, ahol N a kívánt rejtettrétegszám. A dimenzió állításához a kódban a hidden_layer_dim változó értékét kell módosítani. A további paramétereken ebben az esetben nem változtattam, hanem az alapértelmezetten beállított, TIMIT-hez javasolt értékekkel dolgoztam (pl. a kezdeti és végső tanulási rátáktól initial learningrate0.015, final learning rate0.002 nem volt érdemes eltérni). A neurális háló mélységének növelése jól érzékelhető javulást eredményezett a beszédfelismerési pontosságban: míg két rejtett réteggel és rétegenkénti 300 neuronnal a DEV halmazon 22,9%-os WER volt jellemző, addig a négy rejtett réteggel és rétegenként 2000 neuronnal ez a hibaarány 20,97%-ig csökkent. Természetesen a dimenziók növelése (a két szélső esetet összevetve 600-ról 8000-re) jelentős számításiigény-növekedéssel is jár, ezért a tesztek futási sebessége arányosan jóval lassabb lesz mig a as neurális háló tanítása néhány óráig tartott, addig a es méretű már több napot vett igénybe. A legnagyobb mélységű vizsgált neuronhálón a réteg- és diemnziószám növelése mellett további optimalizálási kísérleteket is végeztem, szintén Tóth cikke[11] alapján. Alapvetően két további ponton változtattam a Kaldiban megtalálható alapértelmezett paramétereken: egyrészt növeltem a bemeneti vektorablak méretét, másrészt pontosítottam a neurális háló kezdeti súlyainak beállítását. A felismerési pontosságra a neurális háló bemenetére érkező jellemzővektor körüli környezet és azt meghatározó ablakméret is hatással van. Ez alatt azt kell érteni, hogy a gyakorlatban nem csak egy-egy bementi jellemzővektor alapján történik a felismerés, hanem a bemeneten az aktuális vektor mellett annak egy adott sugarú környezetét is felhasználjuk, azaz saját magán kívül a tőle jobbra és balra elhelyezkedő N darab vektorral tanítjuk a neurális hálót. Alapértelmezettben N értéke 4, azaz egyszerre összesen 9 vektor vizsgálata történik. Én ezt a méretet 8-ra emeltem, így összesen pedig 8+1+8=17 vektorral dolgozunk. A paraméter a train_rectifier.sh kód splice_width változójának állításával történik. A másik, a teljesítményt befolyásoló tényező lehet a tanítás megkezdése előtt a neurális 14

15 2.4 Mintaillesztés neurális hálókkal Önálló laboratórium beszámoló háló kezdeti súlyainak megfelelő inicializálása. Ez adott intervallumban egyenletes eloszlással történik, az egyes súlyokat ez alapján véletlenszerűen beállítva. A Kaldiban megtalálható alapértelmezett intervallum a [ c 6 ; c 6], én ezt [11] alapján a következőre módosítottam: n n 6 6 [ c n+m ; c n+m ], ahol n a rejtett rétegekenti neuronok, m pedig a rejtett rétegek száma, c pedig egy konstans, ami kísérletek alapján 0,4 érték esetén vezet optimális eredményhez. Ezt a paramétert a train_rectifier.sh szkript 209. sorában található stddev változó tartalmának módosításával állíthatjuk be. A 7. ábra összefoglalja a réteg- és dimenziószám növelésének eredményeit: jól látható a mélység növekedésével arányos pontosságjavulás. Az utolsó, es eset a fentebb ismertetett paramétermódosításokkal elért eredményt tükrözi, a korábbi esetekben ezeknek a változóknak az alapértelmezett értékük mellett futott a teszt. 7. ábra. A réteg- és dimenziószám növelésének hatása a felismerési hibaarányra DEV TEST 23.5 WER% *300 2*2000 4*1000 4*2000 Érdemes észrevenni, hogy bár a második és a harmadik esetben a rejtett rétegek számának és a rétegenkénti neuronszámnak a szorzata állandó (4000), a beszédfelismerés mégis az utóbbi esetben működött nagyobb pontossággal. Ebből arra következtethetünk, hogy a rejtett rétegek számának nagyobb hatása van a hibaarányra, mint annak, hogy hány neuron található egy rejtett rétegben, így a teljesítmény javulása érdekében célszerű lehet ennek a növelését előtérben helyezni. 15

16 2.4 Mintaillesztés neurális hálókkal Önálló laboratórium beszámoló GPU-optimalizált tanítás A neurális hálók tanítása rendkívül számításigényes folyamat, így célravezető a folyamatok minél nagyobb mértékű párhuzamosítása. Az eddig vizsgált, alapvetően Daniel Povey és munkatársai által létrehozott tanítóalgoritmusok 5 ezt főként a CPU-ra alapozva teszik meg, azonban a Kaldiban is megtalálható, Karel Veselý és kollégái által implementált megoldás ezt a párhuzamosítást videokártya segítségével végzi (anélkül az előbbinél kb. 10-szer lenne lassabb a futási idő). 6 A GPU-ra optimalizált tanítási módszer némiképp eltér az eddig vizsgálttól, azonban várhatóan jobb eredményeket is produkál a beszédfelismerési pontosságban. A kísérletek folytatása érdekében ezért a számítógépet egy nvidia GeForce GTX 650 típusú grafikus kártyával bővítettük. A beszerelés után a driver telepítése volt a következő feladat (amely Linux alatt nem teljesen triviális). A párhuzamos folyamatfuttatás támogatása érdekében a driver mellett szükséges volt a CUDA Toolkit 7 telepítése is, amely pont ilyen feladatok megvalósításához lett kifejlesztve. A nvidia honlapján található telepítési útmató követése sajnos nem vezetett eredményes működéshez. A telepítés során az a módszer bizonyult hatékonynak, amikor a Toolkit installálásakor kihagytam a driver telepítését végző lépést és ezt utólag, manuálisan telepítettem a rendszerre. A megfelelő verzió megtalálása hosszas kísérletezések eredménye volt, végül a 311-es verziószámú csomag bizonyult működőképesnek és megbízhatónak. A tesztek futtatásához a runbrno.sh szkriptet hoztam létre. Mivel a TIMIT-hez nem készült a videokártyára optimalizált tanításhoz recept, ezért azt én építettem fel, az egyéb adatbázisokhoz (pl. Wall Street Journal 8 ) készült megoldásokra alapozva. A teljes megoldás pontos lépései és paraméterei megtalálhatók a fent említett fájlban, így csak a tesztek során változtatott paraméterekre térek ki. A GPU-alapú tanítás alapvetően három lépésből épül fel, ennyiben összetettebb a korábban használt módszernél. Az első lépés egy előtanítás, amely tulajdonképpen a kezdeti súlyok optimális inicializálását végzi a tényleges tanítás megkezdése előtt. Ennek a lépésnek fontos szerepe van (különösen kis adatbázisok esetén, mint a TIMIT), így az eredmények javítása érdekében főleg ebben a lépésben látszott fontosnak a praméterek megfelelő hangolása. Az előtanítás a neurális hálókhoz igen hasonló ún. korlátolt Boltzmann-gépekkel[4] történik, ezek mechanizmusának részletezésétől most eltekintek. A második lépés a neurális háló klasszikus értelemben vett tanítása, majd ezt az a leg- 5 részletesen ld. 6 bővebben:

17 2.4 Mintaillesztés neurális hálókkal Önálló laboratórium beszámoló jobb eredmények függvényében egy a teljesítményt tovább javító utólagos hangolása követi, amely a teljes mondatok felismerésére optimalizálja a neurális hálót a keretszintű optimum helyett.[12] A tesztek során bebizonyosodott, hogy ez esetben az előtanítást végző Boltzmann-gépek paraméterei az abban található egységek és rétegek, valamint az előtanítási iterációk száma nagyobb hatással vannak a beszédfelismerési hibaarányra, mint a középső szakaszban lévő neurális háló mélysége (bár annak hatása is megfigyelhető). Kísérleteim során négy esetet vizsgáltam: az első és második tesztnél egy dimenziójú neurális hálós tanítást; ez esetben az előtanítás során először majd méretű egységekkel dolgoztam, amelyek 50 iterációt végeztek. A nagyobb dimenziójú előtanítás javított a hibaarányon. A harmadik kísérletben a neurális háló dimenzióját is re emeltem változatlan előtanítás mellett, ez azonban a DEV-halmazon romlást eredményezett (míg a TEST-en csekély javulás látszott). Végül az előtanítást es méretű egységgel végezve, a neurális háló mélységét re visszavéve a DEV-halmazon 19,56%-ig sikerült csökkentenem a szóhibaaarányt. Az előtanító Boltzmann-gép rétegdimenzió-száma és iterációinak száma rendre a pretrain_ dbn.sh szkript meghívásakor a hid dim és rbm iter kapcsolókkal állítható, míg a rétegszámot a szkript nn_depth változója tartalmazza, a neurális háló pedig a már ismertetett módon paraméterezhető. A GPU engedélyezéséhez a megfelelő helyeken a use_gpu változó értékét "yes"-re, a szkriptek meghívásakor a use gpu id kapcsoló értékét pedig "0"-ra kell állítani Az eredményeket a 8. ábrán követhetjük. 8. ábra. A GPU-alapú tanítás eredményei 21.5 DEV TEST 21 WER% *1024+4*1024 4*2000+4*1024 4*2000+4*2000 6*2048+4*

18 2.5 Az eredmények összefoglalása Önálló laboratórium beszámoló Kombinált modell A fenti módszerrel megvalósított, legjobb eredményt produkáló neurális hálót végül az esetleges további javulások érdekében a korábban már ismertetett SGMM-alapú felismeréssel kombináltam. A rendszerkombináció esetünkben minimális Bayes-rizikó módszerével történik.[13] A hibrid modellekre gyakran igaz, hogy a közös teljesítményük jobb, mint különkülön a részmodelleiknek ez esetünkben is így történt: a kombinált megoldás 19,14%-ig csökkentette tovább a hibát a DEV-en. A 9-es ábrán összehasonlítható az egyes modellek önálló és közös teljesítménye. A kombinált modellre vonatkozó szkript a runsgmm.sh fájlban található. 9. ábra. A kombinált modell teljesítményjavulása DEV TEST WER% SGMM neurális háló hibrid 2.5. Az eredmények összefoglalása Az önálló laboratóriumi munka során először megvizsgáltam a klasszikus mintaillesztési eljárások teljesítményét, majd a neurális hálókkal történő beszédfelismeréso feladatok optimalizálására összpontosítottam. A kiinduló alapértelmezett állapot 24,28%-os hibát eredményezett, ami a klasszikus módszereknél is rosszabb eredményt jelent, így a különböző paraméterek (rétegszám, aktivációs függvény, stb.) hangolásával igyekeztem csökkenteni ezt. A végső, legjobb eredmény 19,56%-os szóhibaarány volt a DEV-halmazon, amit egy hibrid modellel 19,14%-ig tudtam levinni. Az aktuális szakirodalomban (pl. [11]) között a TIMIT-re 18

19 2.6 A munka állapota a félév végén Önálló laboratórium beszámoló 19,19%-os WER szerepel a DEV-en és 21,68% a TEST-en. Ez utóbbin az általam vizsgált megoldás 20,47%-ot produkált, így sikerült ezeken az értékeken javítanom. Áttekintésként a 10. ábrán látható táblázat bemutatja a TIMIT adatbázison az elmúlt huszonöt évben a különböző módszerekkel elért eredményeket a TEST-halmazon; összehasonlításként az általam elért eredményt is feltüntetem (piros színnel). Bővebben az egyes hibaarányokhoz tartozó módszerekről ld. Lopes és Perdigão összefoglaló cikkét.[6] 10. ábra. A TIMIT adatbázison elért eredmények az évek során TEST WER% év 2.6. A munka állapota a félév végén A munkám végeztével az egyes általam létrehozott vagy módosított szkriptek mind megtalálhatók a kaldi trunk/egs/timit/s5 elérési útvonalon; a szükséges beállítások és magyarázatok megtalálhatók a dokumentáció megfelelő pontjain. A runtest.sh kód csak a tesztelés egyes részleteinek futtatására szolgál (hogy ne kelljen az egész kódot módosítani mindig). Az adatbázis és az aktuális eredményekhez tartozó fájlok és futtatási naplók a /host könyvtárban helyezkednek el (timit és exp mappák). 19

20 HIVATKOZÁSOK Önálló laboratórium beszámoló Hivatkozások [1] Fegyó T., Mihajlik P. Gépi beszédfelismerés. Oktatási segédanyag. hu/~mihajlik/baf/beszfelokt.pdf [2] Gales M., Young S The Application of Hidden Markov Models in Speech Recognition. Foundations and Trends in Signal Processing 1/3, pp. 195?304. [3] Haeb-Umbach, R., Ney, H Linear discriminant analysis for improved large vocabulary continuous speech recognition. Acoustics, Speech, and Signal Processing, [4] Hinton, G. E A Practical Guide to Training Restricted Boltzmann Machines. Neural Networks: Tricks of the Trade. Lecture Notes in Computer Science Volume 7700, 2012, pp [5] Jurafsky, D., Martin, J. H Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Második kiadás, Pearson, London, pp [6] Lopes, C., Perdigão, F Phoneme Recognition on the TIMIT Database. In: Ipsic, Ivo (szerk.). Speech Technologies. InTech. [7] Mihajlik, Péter Spontán magyar nyelvű beszéd gépi felismerése nyelvspecifikus szabályok nélkül. Doktori értekezés, Budapesti Műszaki és Gazdaságtudományi Egyetem, Budapest. [8] Ole Morten Str., Andreas E Cepstral mean and variance normalization in the model domain. ISCA Tutorial and Research Workshop on Robustness Issues in Conversational Interaction, University of East Anglia, Norwich, Anglia, August 30-31, [9] Povey, D., Akyazi, P., Feng, K., Ghoshal, A., Glembek, O., Goel, N. K., Karafiát, M., Rastrow, A., Rose, R. C., Schwarz, P., Thomas, S Subspace Gaussian Mixture Models for Speech Recognition. Proceedings of ICASSP [10] Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., Motlíček, P., Qian, Y., Schwarz, P., Silovský, J., Stemmer, G., Veselý, K The Kaldi Speech Recognition Toolkit. IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. [11] Tóth, László Phone Recognition with Deep Sparse Rectifier Neural Networks. Proceedings of ICASSP 2013, pp [12] Veselý, K., Ghoshal, A., Burget, L., Povey, D Sequence-discriminative training of deep neural networks. ISCA [13] Xu, H., Povey, D., Mangu, L., Zhu, J Minimum Bayes Risk decoding and system combination based on a recursion for edit distance. Computer Speech and Language,

Mély neuronhálók alkalmazása és optimalizálása

Mély neuronhálók alkalmazása és optimalizálása magyar nyelv beszédfelismerési feladatokhoz 2015. január 10. Konzulens: Dr. Mihajlik Péter A megvalósítandó feladatok Irodalomkutatás Nyílt kutatási eszközök keresése, beszédfelismer rendszerek tervezése

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció

Részletesebben

Neurális hálózatok bemutató

Neurális hálózatok bemutató Neurális hálózatok bemutató Füvesi Viktor Miskolci Egyetem Alkalmazott Földtudományi Kutatóintézet Miért? Vannak feladatok amelyeket az agy gyorsabban hajt végre mint a konvencionális számítógépek. Pl.:

Részletesebben

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás http:/uni-obuda.hu/users/kutor/ IRE 7/50/1 A neurális hálózatok általános jellemzői 1. A

Részletesebben

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban Intelligens Rendszerek Elmélete : dr. Kutor László Versengéses és önszervező tanulás neurális hálózatokban http://mobil.nik.bmf.hu/tantargyak/ire.html Login név: ire jelszó: IRE07 IRE 9/1 Processzor Versengéses

Részletesebben

I. LABOR -Mesterséges neuron

I. LABOR -Mesterséges neuron I. LABOR -Mesterséges neuron A GYAKORLAT CÉLJA: A mesterséges neuron struktúrájának az ismertetése, neuronhálókkal kapcsolatos elemek, alapfogalmak bemutatása, aktivációs függvénytípusok szemléltetése,

Részletesebben

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák

Részletesebben

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)

Részletesebben

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban OpenCL alapú eszközök verifikációja és validációja a gyakorlatban Fekete Tamás 2015. December 3. Szoftver verifikáció és validáció tantárgy Áttekintés Miért és mennyire fontos a megfelelő validáció és

Részletesebben

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló

Részletesebben

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I. : Intelligens Rendszerek Gyakorlata Neurális hálózatok I. dr. Kutor László http://mobil.nik.bmf.hu/tantargyak/ir2.html IRG 3/1 Trend osztályozás Pnndemo.exe IRG 3/2 Hangulat azonosítás Happy.exe IRG 3/3

Részletesebben

Feladat. Bemenő adatok. Bemenő adatfájlok elvárt formája. Berezvai Dániel 1. beadandó/4. feladat 2012. április 13. Például (bemenet/pelda.

Feladat. Bemenő adatok. Bemenő adatfájlok elvárt formája. Berezvai Dániel 1. beadandó/4. feladat 2012. április 13. Például (bemenet/pelda. Berezvai Dániel 1. beadandó/4. feladat 2012. április 13. BEDTACI.ELTE Programozás 3ice@3ice.hu 11. csoport Feladat Madarak életének kutatásával foglalkozó szakemberek különböző településen különböző madárfaj

Részletesebben

Hibadetektáló rendszer légtechnikai berendezések számára

Hibadetektáló rendszer légtechnikai berendezések számára Hibadetektáló rendszer légtechnikai berendezések számára Tudományos Diákköri Konferencia A feladatunk Légtechnikai berendezések Monitorozás Hibadetektálás Újrataníthatóság A megvalósítás Mozgásérzékelő

Részletesebben

X. ANALÓG JELEK ILLESZTÉSE DIGITÁLIS ESZKÖZÖKHÖZ

X. ANALÓG JELEK ILLESZTÉSE DIGITÁLIS ESZKÖZÖKHÖZ X. ANALÓG JELEK ILLESZTÉSE DIGITÁLIS ESZKÖZÖKHÖZ Ma az analóg jelek feldolgozása (is) mindinkább digitális eszközökkel és módszerekkel történik. A feldolgozás előtt az analóg jeleket digitalizálni kell.

Részletesebben

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Neurális hálók Előadó: Előadás anyaga: Hullám Gábor Pataki Béla Dobrowiecki Tadeusz BME I.E. 414, 463-26-79

Részletesebben

Automatikus beszédfelismerés Mérési Segédlet

Automatikus beszédfelismerés Mérési Segédlet Automatikus beszédfelismerés Mérési Segédlet Készítette: Lükő Bálint Budapest, BME-TTT, 1998. TARTALOMJEGYZÉK 1. BEVEZETÉS... 3 2. A BESZÉDFELISMERŐKRŐL ÁLTALÁBAN... 4 2.1 ALAPVETŐ BESZÉDFELISMERÉSI MÓDSZEREK...

Részletesebben

Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László)

Szimuláció RICHARD M. KARP és AVI WIGDERSON. (Készítette: Domoszlai László) Szimuláció RICHARD M. KARP és AVI WIGDERSON A Fast Parallel Algorithm for the Maximal Independent Set Problem című cikke alapján (Készítette: Domoszlai László) 1. Bevezetés A következőkben megadott algoritmus

Részletesebben

A/D és D/A konverterek vezérlése számítógéppel

A/D és D/A konverterek vezérlése számítógéppel 11. Laboratóriumi gyakorlat A/D és D/A konverterek vezérlése számítógéppel 1. A gyakorlat célja: Az ADC0804 és a DAC08 konverterek ismertetése, bekötése, néhány felhasználási lehetőség tanulmányozása,

Részletesebben

Többsávos, zajtűrő beszédfelismerés mély neuronhálóval

Többsávos, zajtűrő beszédfelismerés mély neuronhálóval Szeged, 2016. január 21-22. 287 Többsávos, zajtűrő beszédfelismerés mély neuronhálóval Kovács György 1, Tóth László 2 1 KU Leuven, Department of Electrical Engineering Leuven, Kasteelpark Arenberg 10,

Részletesebben

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése...

TARTALOMJEGYZÉK. TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS A lágy számításról A könyv célkitűzése és felépítése... TARTALOMJEGYZÉK TARTALOMJEGYZÉK...vii ELŐSZÓ... xiii BEVEZETÉS...1 1. A lágy számításról...2 2. A könyv célkitűzése és felépítése...6 AZ ÖSSZETEVŐ LÁGY RENDSZEREK...9 I. BEVEZETÉS...10 3. Az összetevő

Részletesebben

Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2.

Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2. Mesterséges Intelligencia II. kötelező feladat (3. forduló) - Ajánló rendszer 2. 1. Feladat kiírása A második forduló feladata hasonlóan az előző fordulóhoz egy ajánló rendszer modelljének elkészítése.

Részletesebben

Beszédfelismerő szoftver adaptálása C# programozási nyelvre

Beszédfelismerő szoftver adaptálása C# programozási nyelvre Beszédfelismerő szoftver adaptálása C# programozási nyelvre Készítette: Sztahó Dávid A szoftver leírása A szoftver által megvalósított funkciók blokkvázlatát az 1. ábra mutatja. A szoftver valós idejű

Részletesebben

Yottacontrol I/O modulok beállítási segédlet

Yottacontrol I/O modulok beállítási segédlet Yottacontrol I/O modulok beállítási segédlet : +36 1 236 0427 +36 1 236 0428 Fax: +36 1 236 0430 www.dialcomp.hu dial@dialcomp.hu 1131 Budapest, Kámfor u.31. 1558 Budapest, Pf. 7 Tartalomjegyzék Bevezető...

Részletesebben

Környezetfüggő akusztikai modellek létrehozása Kullback-Leibler divergencia alapú klaszterezéssel

Környezetfüggő akusztikai modellek létrehozása Kullback-Leibler divergencia alapú klaszterezéssel 174 XI. Magyar Számítógépes Nyelvészeti Konferencia Környezetfüggő akusztikai modellek létrehozása Kullback-Leibler divergencia alapú klaszterezéssel Grósz Tamás, Gosztolya Gábor, Tóth László MTA-SZTE

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

Első egyéni feladat (Minta)

Első egyéni feladat (Minta) Első egyéni feladat (Minta) 1. Készítsen olyan programot, amely segítségével a felhasználó 3 különböző jelet tud generálni, amelyeknek bemenő adatait egyedileg lehet változtatni. Legyen mód a jelgenerátorok

Részletesebben

Rendszermodellezés: házi feladat bemutatás

Rendszermodellezés: házi feladat bemutatás Rendszermodellezés: házi feladat bemutatás Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement

Részletesebben

Hardver és szoftver követelmények

Hardver és szoftver követelmények Java-s Nyomtatványkitöltő Program Súgó Telepítési útmutató Hardver és szoftver követelmények A java-s nyomtatványkitöltő program az alábbi hardverigényt támasztja a számítógéppel szemben: 400 MHz órajelű

Részletesebben

Rubin SPIRIT TEST. Rubin firmware-ek és hardverek tesztelése esettanulmány V1.0. Készítette: Hajnali Krisztián Jóváhagyta: Varga József

Rubin SPIRIT TEST. Rubin firmware-ek és hardverek tesztelése esettanulmány V1.0. Készítette: Hajnali Krisztián Jóváhagyta: Varga József Rubin firmware-ek és hardverek tesztelése esettanulmány V1.0 Készítette: Hajnali Krisztián Jóváhagyta: Varga József Rubin Informatikai Zrt. 1149 Budapest, Egressy út 17-21. telefon: +361 469 4020; fax:

Részletesebben

OPENCV TELEPÍTÉSE SZÁMÍTÓGÉPES LÁTÁS ÉS KÉPFELDOLGOZÁS. Tanács Attila Képfeldolgozás és Számítógépes Grafika Tanszék Szegedi Tudományegyetem

OPENCV TELEPÍTÉSE SZÁMÍTÓGÉPES LÁTÁS ÉS KÉPFELDOLGOZÁS. Tanács Attila Képfeldolgozás és Számítógépes Grafika Tanszék Szegedi Tudományegyetem OPENCV TELEPÍTÉSE SZÁMÍTÓGÉPES LÁTÁS ÉS KÉPFELDOLGOZÁS Tanács Attila Képfeldolgozás és Számítógépes Grafika Tanszék Szegedi Tudományegyetem OpenCV Nyílt forráskódú szoftver (BSD licensz) Számítógépes látás,

Részletesebben

Digitális jelfeldolgozás

Digitális jelfeldolgozás Digitális jelfeldolgozás Kvantálás Magyar Attila Pannon Egyetem Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék magyar.attila@virt.uni-pannon.hu 2010. szeptember 15. Áttekintés

Részletesebben

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok Zrínyi Miklós Gimnázium Művészet és tudomány napja Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok 10/9/2009 Dr. Viharos Zsolt János Elsősorban volt Zrínyis diák Tudományos főmunkatárs

Részletesebben

Pontműveletek. Sergyán Szabolcs Óbudai Egyetem Neumann János Informatikai Kar február 20.

Pontműveletek. Sergyán Szabolcs Óbudai Egyetem Neumann János Informatikai Kar február 20. Pontműveletek Sergyán Szabolcs sergyan.szabolcs@nik.uni-obuda.hu Óbudai Egyetem Neumann János Informatikai Kar 2012. február 20. Sergyán (OE NIK) Pontműveletek 2012. február 20. 1 / 40 Felhasznált irodalom

Részletesebben

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs hidasi@tmit.bme.hu Konzulens: Gáspár-Papanek Csaba Budapesti

Részletesebben

Analóg-digitális átalakítás. Rencz Márta/ Ress S. Elektronikus Eszközök Tanszék

Analóg-digitális átalakítás. Rencz Márta/ Ress S. Elektronikus Eszközök Tanszék Analóg-digitális átalakítás Rencz Márta/ Ress S. Elektronikus Eszközök Tanszék Mai témák Mintavételezés A/D átalakítók típusok D/A átalakítás 12/10/2007 2/17 A/D ill. D/A átalakítók A világ analóg, a jelfeldolgozás

Részletesebben

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function Tanulás az idegrendszerben Structure Dynamics Implementation Algorithm Computation - Function Tanulás pszichológiai szinten Classical conditioning Hebb ötlete: "Ha az A sejt axonja elég közel van a B sejthez,

Részletesebben

Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr.

Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr. Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével 2011. május 22. Konzulens: Dr. Pataki Béla Tartalomjegyzék 1. Bevezetés 2 2. Források 2 3. Kiértékelő szoftver 3 4. A képek feldolgozása

Részletesebben

Modellkiválasztás és struktúrák tanulása

Modellkiválasztás és struktúrák tanulása Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális

Részletesebben

Villamos jelek mintavételezése, feldolgozása. LabVIEW 7.1

Villamos jelek mintavételezése, feldolgozása. LabVIEW 7.1 Villamos jelek mintavételezése, feldolgozása (ellenállás mérés LabVIEW támogatással) LabVIEW 7.1 előadás Dr. Iványi Miklósné, egyetemi tanár LabVIEW-7.1 KONF-5_2/1 Ellenállás mérés és adatbeolvasás Rn

Részletesebben

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

A PiFast program használata. Nagy Lajos

A PiFast program használata. Nagy Lajos A PiFast program használata Nagy Lajos Tartalomjegyzék 1. Bevezetés 3 2. Bináris kimenet létrehozása. 3 2.1. Beépített konstans esete.............................. 3 2.2. Felhasználói konstans esete............................

Részletesebben

Visszacsatolt (mély) neurális hálózatok

Visszacsatolt (mély) neurális hálózatok Visszacsatolt (mély) neurális hálózatok Visszacsatolt hálózatok kimenet rejtett rétegek bemenet Sima előrecsatolt neurális hálózat Visszacsatolt hálózatok kimenet rejtett rétegek bemenet Pl.: kép feliratozás,

Részletesebben

Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás. Csapó Tamás Gábor

Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás. Csapó Tamás Gábor Beszédinformációs rendszerek 5. gyakorlat Mintavételezés, kvantálás, beszédkódolás Csapó Tamás Gábor 2016/2017 ősz MINTAVÉTELEZÉS 2 1. Egy 6 khz-es szinusz jelet szűrés nélkül mintavételezünk

Részletesebben

Verifikáció és validáció Általános bevezető

Verifikáció és validáció Általános bevezető Verifikáció és validáció Általános bevezető Általános Verifikáció és validáció verification and validation - V&V: ellenőrző és elemző folyamatok amelyek biztosítják, hogy a szoftver megfelel a specifikációjának

Részletesebben

Mély neuronhálók alkalmazása és optimalizálása magyar nyelv beszédfelismerési feladatokhoz

Mély neuronhálók alkalmazása és optimalizálása magyar nyelv beszédfelismerési feladatokhoz Budapesti M szaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Távközlési és Médiainformatikai Tanszék Mély neuronhálók alkalmazása és optimalizálása magyar nyelv beszédfelismerési

Részletesebben

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Adaptív dinamikus szegmentálás idősorok indexeléséhez Adaptív dinamikus szegmentálás idősorok indexeléséhez IPM-08irAREAE kurzus cikkfeldolgozás Balassi Márton 1 Englert Péter 1 Tömösy Péter 1 1 Eötvös Loránd Tudományegyetem Informatikai Kar 2013. november

Részletesebben

A GeoEasy telepítése. Tartalomjegyzék. Hardver, szoftver igények. GeoEasy telepítése. GeoEasy V2.05 Geodéziai Feldolgozó Program

A GeoEasy telepítése. Tartalomjegyzék. Hardver, szoftver igények. GeoEasy telepítése. GeoEasy V2.05 Geodéziai Feldolgozó Program A GeoEasy telepítése GeoEasy V2.05 Geodéziai Feldolgozó Program (c)digikom Kft. 1997-2008 Tartalomjegyzék Hardver, szoftver igények GeoEasy telepítése A hardverkulcs Hálózatos hardverkulcs A GeoEasy indítása

Részletesebben

Osztott algoritmusok

Osztott algoritmusok Osztott algoritmusok A benzinkutas példa szimulációja Müller Csaba 2010. december 4. 1. Bevezetés Első lépésben talán kezdjük a probléma ismertetésével. Adott két n hosszúságú bináris sorozat (s 1, s 2

Részletesebben

Intelligens Rendszerek Elmélete

Intelligens Rendszerek Elmélete Intelligens Rendszerek Elmélete Dr. Kutor László : Mesterséges neurális hálózatok felügyelt tanítása hiba visszateresztő Back error Propagation algoritmussal Versengéses tanulás http://mobil.nik.bmf.hu/tantargyak/ire.html

Részletesebben

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes) 6-7 ősz. gyakorlat Feladatok.) Adjon meg azt a perceptronon implementált Bayes-i klasszifikátort, amely kétdimenziós a bemeneti tér felett szeparálja a Gauss eloszlású mintákat! Rajzolja le a bemeneti

Részletesebben

Gauss-Seidel iteráció

Gauss-Seidel iteráció Közelítő és szimbolikus számítások 5. gyakorlat Iterációs módszerek: Jacobi és Gauss-Seidel iteráció Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor London András Deák Gábor jegyzetei alapján 1 ITERÁCIÓS

Részletesebben

A GeoEasy telepítése. Tartalomjegyzék. Hardver, szoftver igények. GeoEasy telepítése. GeoEasy V2.05+ Geodéziai Feldolgozó Program

A GeoEasy telepítése. Tartalomjegyzék. Hardver, szoftver igények. GeoEasy telepítése. GeoEasy V2.05+ Geodéziai Feldolgozó Program A GeoEasy telepítése GeoEasy V2.05+ Geodéziai Feldolgozó Program (c)digikom Kft. 1997-2010 Tartalomjegyzék Hardver, szoftver igények GeoEasy telepítése A hardverkulcs Hálózatos hardverkulcs A GeoEasy indítása

Részletesebben

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével

Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével Ellátási lánc optimalizálás P-gráf módszertan alkalmazásával mennyiségi és min ségi paraméterek gyelembevételével Pekárdy Milán, Baumgartner János, Süle Zoltán Pannon Egyetem, Veszprém XXXII. Magyar Operációkutatási

Részletesebben

Rejtett Markov Modell

Rejtett Markov Modell Rejtett Markov Modell A Rejtett Markov Modell használata beszédfelismerésben Készítette Feldhoffer Gergely felhasználva Fodróczi Zoltán előadásanyagát Áttekintés hagyományos Markov Modell Beszédfelismerésbeli

Részletesebben

A PhysioBank adatmegjelenítő szoftvereinek hatékonysága

A PhysioBank adatmegjelenítő szoftvereinek hatékonysága A PhysioBank adatmegjelenítő szoftvereinek hatékonysága Kaczur Sándor kaczur@gdf.hu GDF Informatikai Intézet 2012. november 14. Célok, kutatási terv Szabályos EKG-felvétel: P, Q, R, S, T csúcs Anatómiai

Részletesebben

Dr. habil. Maróti György

Dr. habil. Maróti György infokommunikációs technológiák III.8. MÓDSZER KIDOLGOZÁSA ALGORITMUSOK ÁTÜLTETÉSÉRE KIS SZÁMÍTÁSI TELJESÍTMÉNYŰ ESZKÖZÖKBŐL ÁLLÓ NÉPES HETEROGÉN INFRASTRUKTÚRA Dr. habil. Maróti György maroti@dcs.uni-pannon.hu

Részletesebben

2. Elméleti összefoglaló

2. Elméleti összefoglaló 2. Elméleti összefoglaló 2.1 A D/A konverterek [1] A D/A konverter feladata, hogy a bemenetére érkező egész számmal arányos analóg feszültséget vagy áramot állítson elő a kimenetén. A működéséhez szükséges

Részletesebben

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika

Részletesebben

Informatika Rendszerek Alapjai

Informatika Rendszerek Alapjai Informatika Rendszerek Alapjai Dr. Kutor László Alapfogalmak Információ-feldolgozó paradigmák Analóg és digitális rendszerek jellemzői Jelek típusai Átalakítás rendszerek között http://uni-obuda.hu/users/kutor/

Részletesebben

Struktúra nélküli adatszerkezetek

Struktúra nélküli adatszerkezetek Struktúra nélküli adatszerkezetek Homogén adatszerkezetek (minden adatelem azonos típusú) osztályozása Struktúra nélküli (Nincs kapcsolat az adatelemek között.) Halmaz Multihalmaz Asszociatív 20:24 1 A

Részletesebben

Új eredmények a mély neuronhálós magyar nyelvű beszédfelismerésben

Új eredmények a mély neuronhálós magyar nyelvű beszédfelismerésben Szeged, 2014. január 16 17. 3 Új eredmények a mély neuronhálós magyar nyelvű beszédfelismerésben Grósz Tamás 1, Kovács György 2, Tóth László 2 1 Szegedi Tudományegyetem, TTIK, Informatikai Tanszékcsoport,

Részletesebben

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének 6. Függvények I. Elméleti összefoglaló A függvény fogalma, értelmezési tartomány, képhalmaz, értékkészlet Legyen az A és B halmaz egyike sem üreshalmaz. Ha az A halmaz minden egyes eleméhez hozzárendeljük

Részletesebben

Neurális hálózatok.... a gyakorlatban

Neurális hálózatok.... a gyakorlatban Neurális hálózatok... a gyakorlatban Java NNS Az SNNS Javás változata SNNS: Stuttgart Neural Network Simulator A Tübingeni Egyetemen fejlesztik http://www.ra.cs.unituebingen.de/software/javanns/ 2012/13.

Részletesebben

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1.

Nagyságrendek. Kiegészítő anyag az Algoritmuselmélet tárgyhoz. Friedl Katalin BME SZIT február 1. Nagyságrendek Kiegészítő anyag az Algoritmuselmélet tárgyhoz (a Rónyai Ivanyos Szabó: Algoritmusok könyv mellé) Friedl Katalin BME SZIT friedl@cs.bme.hu 018. február 1. Az O, Ω, Θ jelölések Az algoritmusok

Részletesebben

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés

Részletesebben

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Neurális hálók 2. Előadó: Hullám Gábor Pataki Béla BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki

Részletesebben

Jelek és rendszerek Gyakorlat_02. A gyakorlat célja megismerkedni a MATLAB Simulink mőködésével, filozófiájával.

Jelek és rendszerek Gyakorlat_02. A gyakorlat célja megismerkedni a MATLAB Simulink mőködésével, filozófiájával. A gyakorlat célja megismerkedni a MATLAB Simulink mőködésével, filozófiájával. A Szimulink programcsomag rendszerek analóg számítógépes modelljének szimulálására alkalmas grafikus programcsomag. Egy SIMULINK

Részletesebben

Modellezés és szimuláció. Szatmári József SZTE Természeti Földrajzi és Geoinformatikai Tanszék

Modellezés és szimuláció. Szatmári József SZTE Természeti Földrajzi és Geoinformatikai Tanszék Modellezés és szimuláció Szatmári József SZTE Természeti Földrajzi és Geoinformatikai Tanszék Kvantitatív forradalmak a földtudományban - geográfiában 1960- as évek eleje: statisztika 1970- as évek eleje:

Részletesebben

Statisztikai módszerek a skálafüggetlen hálózatok

Statisztikai módszerek a skálafüggetlen hálózatok Statisztikai módszerek a skálafüggetlen hálózatok vizsgálatára Gyenge Ádám1 1 Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Számítástudományi és Információelméleti

Részletesebben

Villamos jelek mintavételezése, feldolgozása. LabVIEW előadás

Villamos jelek mintavételezése, feldolgozása. LabVIEW előadás Villamos jelek mintavételezése, feldolgozása (ellenállás mérés LabVIEW támogatással) LabVIEW 7.1 2. előadás Dr. Iványi Miklósné, egyetemi tanár LabVIEW-7.1 EA-2/1 Ellenállás mérés és adatbeolvasás Rn ismert

Részletesebben

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük

Részletesebben

y ij = µ + α i + e ij

y ij = µ + α i + e ij Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai

Részletesebben

Analóg-digitál átalakítók (A/D konverterek)

Analóg-digitál átalakítók (A/D konverterek) 9. Laboratóriumi gyakorlat Analóg-digitál átalakítók (A/D konverterek) 1. A gyakorlat célja: Bemutatjuk egy sorozatos közelítés elvén működő A/D átalakító tömbvázlatát és elvi kapcsolási rajzát. Tanulmányozzuk

Részletesebben

Mély neuronhálók az akusztikus modellezésben

Mély neuronhálók az akusztikus modellezésben Szeged, 2013. január 7 8. 3 Mély neuronhálók az akusztikus modellezésben Grósz Tamás, Tóth László MTA-SZTE Mesterséges Intelligencia Kutatócsoport, e-mail: groszt@sol.cc.u-szeged.hu,tothl@inf.u-szeged.hu

Részletesebben

Virtualizációs technológiák Linux alatt (teljesítményteszt)

Virtualizációs technológiák Linux alatt (teljesítményteszt) Virtualizációs technológiák Linux alatt (teljesítményteszt) Ebben a dokumentációban a virtualizációs technológiák sebességét, teljesítményét hasonlítom össze RedHat-alapú Linux disztribúciókkal. A teszteléshez

Részletesebben

Iványi László ARM programozás. Szabó Béla 6. Óra ADC és DAC elmélete és használata

Iványi László ARM programozás. Szabó Béla 6. Óra ADC és DAC elmélete és használata ARM programozás 6. Óra ADC és DAC elmélete és használata Iványi László ivanyi.laszlo@stud.uni-obuda.hu Szabó Béla szabo.bela@stud.uni-obuda.hu Mi az ADC? ADC -> Analog Digital Converter Analóg jelek mintavételezéssel

Részletesebben

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence) Gépi tanulás Hány tanítómintára van szükség? VKH Pataki Béla (Bolgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Induktív tanulás A tanítás folyamata: Kiinduló

Részletesebben

Windows hálózati adminisztráció

Windows hálózati adminisztráció Windows hálózati adminisztráció 6. Göcs László főiskolai tanársegéd NJE-MIK GAMF Informatika Tanszék 2017-18. tanév tavaszi félév Kiselőadás tartása + dokumentáció Témák: Power Shell és az Active Directory

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatelemzés - Gyakorlat Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Adatelemzés szerepe a rendszermodellezésben Lényeges paraméterek meghatározása

Részletesebben

Szilipet programok telepítése Hálózatos (kliens/szerver) telepítés Windows 7 operációs rendszer alatt

Szilipet programok telepítése Hálózatos (kliens/szerver) telepítés Windows 7 operációs rendszer alatt Szilipet programok telepítése Hálózatos (kliens/szerver) telepítés Windows 7 operációs rendszer alatt segédlet A Szilipet programok az adatok tárolásához Firebird adatbázis szervert használnak. Hálózatos

Részletesebben

A/D és D/A átalakítók gyakorlat

A/D és D/A átalakítók gyakorlat Budapesti Műszaki és Gazdaságtudományi Egyetem A/D és D/A átalakítók gyakorlat Takács Gábor Elektronikus Eszközök Tanszéke (BME) 2013. február 27. ebook ready Tartalom 1 A/D átalakítás alapjai (feladatok)

Részletesebben

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Funkcionális konnektivitás vizsgálata fmri adatok alapján Funkcionális konnektivitás vizsgálata fmri adatok alapján Képalkotási technikák 4 Log Resolution (mm) 3 Brain EEG & MEG fmri TMS PET Lesions 2 Column 1 0 Lamina -1 Neuron -2 Dendrite -3 Synapse -4 Mikrolesions

Részletesebben

Intelligens orvosi műszerek VIMIA023

Intelligens orvosi műszerek VIMIA023 Intelligens orvosi műszerek VIMIA023 Neurális hálók (Dobrowiecki Tadeusz anyagának átdolgozásával) 2017 ősz http://www.mit.bme.hu/oktatas/targyak/vimia023 dr. Pataki Béla pataki@mit.bme.hu (463-)2679 A

Részletesebben

Mérési hibák 2006.10.04. 1

Mérési hibák 2006.10.04. 1 Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség

Részletesebben

DIGITÁLIS TEREPMODELL A TÁJRENDEZÉSBEN

DIGITÁLIS TEREPMODELL A TÁJRENDEZÉSBEN DIGITÁLIS TEREPMODELL A TÁJRENDEZÉSBEN DR. GIMESI LÁSZLÓ Bevezetés Pécsett és környékén végzett bányászati tevékenység felszámolása kapcsán szükségessé vált az e tevékenység során keletkezett meddők, zagytározók,

Részletesebben

Kódverifikáció gépi tanulással

Kódverifikáció gépi tanulással Kódverifikáció gépi tanulással Szoftver verifikáció és validáció kiselőadás Hidasi Balázs 2013. 12. 12. Áttekintés Gépi tanuló módszerek áttekintése Kódverifikáció Motiváció Néhány megközelítés Fault Invariant

Részletesebben

AWK programozás, minták, vezérlési szerkezetek

AWK programozás, minták, vezérlési szerkezetek 10 AWK programozás, minták, vezérlési szerkezetek AWK adatvezérelt szkriptnyelv text processing, adat kiterjesztés, tagolt adatok automatizált soronkénti feldolgozása a forrásállományt soronként beolvassa

Részletesebben

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Principal Component Analysis Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb. SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.hu Mesterséges intelligencia oktatás a DE Informatikai

Részletesebben

Konzulensek: Mikó Gyula. Budapest, ősz

Konzulensek: Mikó Gyula. Budapest, ősz Önálló laboratórium rium 2. M.Sc.. képzk pzés Mikrohullámú teljesítm tményerősítők linearizálása adaptív v módszerekkelm Készítette: Konzulensek: Sas Péter P István - YRWPU9 Dr. Sujbert László Mikó Gyula

Részletesebben

Mintaillesztő algoritmusok. Ölvedi Tibor OLTQAAI.ELTE

Mintaillesztő algoritmusok. Ölvedi Tibor OLTQAAI.ELTE Mintaillesztő algoritmusok Ölvedi Tibor OLTQAAI.ELTE Mintaillesztő algoritmusok Amiről szó lesz: Bruteforce algoritmus Knuth-Morris-Pratt algoritmus Rabin-Karp algoritmus Boyer-Moore algoritmus Boyer-Moore-Horspool

Részletesebben

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI Az MTA Cloud a tudományos alkalmazások támogatására Kacsuk Péter MTA SZTAKI Kacsuk.Peter@sztaki.mta.hu Tudományos alkalmazások és skálázhatóság Kétféle skálázhatóság: o Vertikális: dinamikusan változik

Részletesebben

Felhasználói dokumentáció. a TávTagTár programhoz. Készítette: Nyíri Gábor, hdd@nc-studio.com GDF Abakusz regisztrációs kód: GDFAba43

Felhasználói dokumentáció. a TávTagTár programhoz. Készítette: Nyíri Gábor, hdd@nc-studio.com GDF Abakusz regisztrációs kód: GDFAba43 a TávTagTár programhoz Készítette: Nyíri Gábor, hdd@nc-studio.com GDF Abakusz regisztrációs kód: GDFAba43 Tartalomjegyzék Futási feltételek... 3 Telepítés... 3 Indítás... 3 Főablak... 4 Új személy felvétele...

Részletesebben

Orvosi készülékekben használható modern fejlesztési technológiák lehetőségeinek vizsgálata

Orvosi készülékekben használható modern fejlesztési technológiák lehetőségeinek vizsgálata Kutatási beszámoló a Pro Progressio Alapítvány számára Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Mérnök informatika szak Orvosi készülékekben használható modern

Részletesebben

Google Summer of Code Project

Google Summer of Code Project Neuronhálózatok a részecskefizikában Bagoly Attila ELTE TTK Fizikus MSc, 2. évfolyam Integrating Machine Learning in Jupyter Notebooks Google Summer of Code Project 2016.10.10 Bagoly Attila (ELTE) Machine

Részletesebben

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László

II. rész: a rendszer felülvizsgálati stratégia kidolgozását támogató funkciói. Tóth László, Lenkeyné Biró Gyöngyvér, Kuczogi László A kockázat alapú felülvizsgálati és karbantartási stratégia alkalmazása a MOL Rt.-nél megvalósuló Statikus Készülékek Állapot-felügyeleti Rendszerének kialakításában II. rész: a rendszer felülvizsgálati

Részletesebben

A számítógép egységei

A számítógép egységei A számítógép egységei A számítógépes rendszer két alapvető részből áll: Hardver (a fizikai eszközök összessége) Szoftver (a fizikai eszközöket működtető programok összessége) 1.) Hardver a) Alaplap: Kommunikációt

Részletesebben