Rekurráló neurális hálózatok, beszédfelismerő programok. Szoldán Péter

Hasonló dokumentumok
Visszacsatolt (mély) neurális hálózatok

A kibontakozó új hajtóerő a mesterséges intelligencia

Hibadetektáló rendszer légtechnikai berendezések számára

A neurális hálózatok tanításának alapjai II.: Módszerek a túltanulás elkerülésére. Szoldán Péter

Konvolúciós neurális hálózatok (CNN)

I. LABOR -Mesterséges neuron

NEURONHÁLÓS HANGTÖMÖRÍTÉS. Áfra Attila Tamás

Neurális hálózatok bemutató

TestLine - Angol teszt Minta feladatsor

Bevezetés a számítástechnikába

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

EXKLUZÍV AJÁNDÉKANYAGOD ÖNÖK KÉRTÉK VALÓDI BESZÉLT ANGOL + BEÉGETŐS

Lopocsi Istvánné MINTA DOLGOZATOK FELTÉTELES MONDATOK. (1 st, 2 nd, 3 rd CONDITIONAL) + ANSWER KEY PRESENT PERFECT + ANSWER KEY

2. Elméleti összefoglaló

Véges állapotú gépek (FSM) tervezése

Neurális hálózatok elméleti alapjai TULICS MIKLÓS GÁBRIEL

SYS700-PLM Power Line Monitor modul DDC rendszerelemek, DIALOG-III család

Digitális hangtechnika. Segédlet a Kommunikáció-akusztika tanulásához

Üzleti élet Nyitás. Nagyon hivatalos, a címzettnek meghatározott rangja van, aminek szerepelnie kell

Üzleti élet Nyitás. Nagyon hivatalos, a címzettnek meghatározott rangja van, aminek szerepelnie kell

Madarassy László, mérnök, BME - Mobil Innovációs Központ. lmadarassy@mik.bme.hu

Informatikai Rendszerek Alapjai

Please stay here. Peter asked me to stay there. He asked me if I could do it then. Can you do it now?

Webdesign II Oldaltervezés 3. Tipográfiai alapismeretek

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

ACTIVE frekvenciaváltó. Kezelési Kézikönyv 230V / 400V 0,55 kw 132,0 kw

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Programozás. (GKxB_INTM021) Dr. Hatwágner F. Miklós április 4. Széchenyi István Egyetem, Gy r

Lesson 1 On the train

E O N E O N E O N S

Használati útmutató. 1.0 verzió október

Neurális hálózatok.... a gyakorlatban

EXKLUZÍV AJÁNDÉKANYAGOD A Phrasal Verb hadsereg! 2. rész

Háromfázisú komparatorok, Pontossági osztály 0.01% Ellenrz számlálók egy- vagy háromfázisú, Pontosság 0.02 % vagy 0.05% Méretalonok egy- vagy

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla

REZGÉSVIZSGÁLAT GYAKORLATI ALKALMAZÁSI LEHETŐSÉGEI A MAGYAR HONVÉDSÉG REPÜLŐCSAPATAINÁL

Programozás. (GKxB_INTM021) Dr. Hatwágner F. Miklós május 6. Széchenyi István Egyetem, Gy r

Automatikus beszédfelismerés Mérési Segédlet

Helyezze be a CR2032 elemet az elemtartó zsebbe, amelyet a pull feliratú füllel tud előhúzni. Majd zárja vissza a

Full-on gain, csúcs Full-on gain, 1600 Hz. HFA full-on gain Referencia teszt erősítés Nyugalmi áramfelvétel Működési áramfelvétel

DT1100 xx xx. Galvanikus leválasztó / tápegység. Kezelési útmutató

ZC3. vezérlőpanel. Általános jellemzők. A vezérlőpanel leírása

Véges állapotú gépek (FSM) tervezése

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Informatikai eszközök fizikai alapjai Lovász Béla

M-LINE 80.2 M-LINE M-LINE Kezelési utasítás..autoradiokeret.

Beszédfelismerés és szintézis tételek:

ARM programozás. Iványi László Szabó Béla

Mr. Adam Smith Smith's Plastics 8 Crossfield Road Selly Oak Birmingham West Midlands B29 1WQ





2. gyakorlat Mintavételezés, kvantálás

Kovács Ernő 1, Füvesi Viktor 2

Bináris egység: bit (binary unit) bit ~ b; byte ~ B (Gb Gigabit;GB Gigabyte) Gb;GB;Gib;GiB mind más. Elnevezés Jele Értéke Elnevezés Jele Értéke

VLT Micro Drive. Kis frekvenciaváltó maximális terherbírás és megbízhatóság

7. osztály Angol nyelv

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Dokumentációra vonatkozó általános információ

Angelina Jolie a legnépszerűbb(1) az Egyesült Államokban

Mintaillesztő algoritmusok. Ölvedi Tibor OLTQAAI.ELTE

Az Ön kézikönyve LG E2380VX

Mintavétel: szorzás az idő tartományban

A rendszerbe foglalt reléprogram, 1954 óta. Szilárdtest relék optocsatolóval, bekapcsolás a feszültség nullátmeneténél vagy nem szinkronizált módon

Elektromos fűtők vezérlőegységei Kezelési és karbantartási útmutató

ISMÉTLÉS 2. IGEIDŐK-SPECIÁLIS ESETEK

FELÜGYELT ÉS MEGERŐSÍTÉSES TANULÓ RENDSZEREK FEJLESZTÉSE

Hallás időállandói. Következmények: 20Hz alatti hang nem hallható 12Hz kattanás felismerhető

KONVOLÚCIÓS NEURONHÁLÓK. A tananyag az EFOP pályázat támogatásával készült.

Szekvenciális hálózatok és automaták

Daloló Fülelő Halász Judit Szabó T. Anna: Tatoktatok Javasolt nyelvi szint: A2 B1 / Resommended European Language Level: A2 B1

A mintavételezéses mérések alapjai

HALLÁS UTÁNI SZÖVEGÉRTÉS 24. Beauty and the Beast. A szépség és a szörnyeteg 1. rész

Meddő teljesítmény szabályzó termékcsalád

Elektronika Előadás. Digitális-analóg és analóg-digitális átalakítók

EXKLUZÍV AJÁNDÉKANYAGOD Szerkezetek 3. rész

T E R M É K T Á J É K O Z TAT Ó

Mély neuronhálók alkalmazása és optimalizálása

Hadházi Dániel.

Könnyen, Gyorsan Angolul!

Széchenyi István Egyetem

mondat ami nélkül ne indulj el külföldre

Felhasználói kézikönyv

Kezelési útmutató az STA 1 szekcionális meghajtóhoz

Programozás alapjai. 5. előadás

FONTOS BIZTONSÁGI UTASÍTÁSOK

CTCSS DTMF kóder leírása

Digitális technika (VIMIAA02) Laboratórium 3

Megerősítéses tanulás

Szövegszerkesztő programok: Jegyzettömb, WordPad, Microsoft Word

EuroOffice Professzionális Vonalkód és QR kód generátor

ANGOL NYELVI SZINTFELMÉRŐ 2014 A CSOPORT

Tanulás tanuló gépek tanuló algoritmusok mesterséges neurális hálózatok

Digitális technika (VIMIAA02) Laboratórium 3

Élje át a hatást nagy képernyœn

Az emberi információfeldolgozás modellje. Az emberi információfeldolgozás modellje (továbbgondolás) Mintázatfelismerés kontextusfüggő észlelés

Digitális ki-bemenetek kezelése, bitszintű műveletek

ANGOL NYELV Helyi tanterv

Átírás:

>ready to transmit

Rekurráló neurális hálózatok, beszédfelismerő programok Szoldán Péter

Új facebook csoport https://www.facebook.com/groups/4964840 64185906 Ha kérdéseik vannak, ott is szívesen megválaszoljuk Érdekes újdonságokat, cikkeket is megosztunk

Percepció Verbális kommunikáció Hang Betűk, szavak Értelem Szintézis

Szövegfeldolgozás A szöveg rengeteg karakter egymás utáni sorozata Minden karakternek van egy száma, például az A betű kódja 65. B -é 66, és így tovább. Ezt ASCII kódnak hívjuk ( American Standard Code for Information Interchange ) Az ékezetes (magyar, és más nyelvek) karaktereknek speciális kódja van, és a programoknak ezzel néha nehézsége támad

Hálózat szövegre naív megoldás Ha van például egy 12 karakteres szöveg, csinálhatnánk egy hálózatot 12 bemeneti neuronnal...

Karakterszámtól független megoldás kéne Ha több a karakter, mint a bemeneti neuron, mit csinálunk velük? Ha kevesebb a karakter, mint a bemeneti neuron, akkor ki kell tölteni a maradék helyet szóközzel, vagy valami mással, de ez rontja a hálózat teljesítményét, mert a szóközöket is megtanulja

A rekurrens hálózatok (RNN) Adjuk be egyesével a karaktereket, és futtassuk ugyanazt a hálózatot újra és újra, amíg ki nem fogyunk a karakterből! Ez így még nem tökéletes, mert csak külön fogja értelmezni az egyes karaktereket Kéne valami memóriát gyártani neki, hogy megjegyezze, mi volt korábban

Ötlet memória egységre Építsünk egy több neuronból álló memóriaegységet! Legyen benne középen egy tároló, ami egy értéket tárol hosszabb távon Csináljunk neuronokat, amik eldöntik, hogy mit jegyezzünk meg, mikor felejtsük el, illetve mi legyen a kimenet: a tárolt érték, vagy a bemenet

Long Short-Term Memory (LSTM) Bemenet I M O Kimenet Bemeneti kapu Kimeneti kapu F Felejtés kapu

Bemenet Ugyanúgy lehet ebből is építkezni

Ez már tud valamit kezdeni a szöveggel A memória meg tudja jegyezni a korábbi részeit a szövegnek, és kontextusba tudja helyezni Nagyon jó a szintaktika (helyesírási szabályok, zárójelezési szabályok) felismerésében De nehéz neki nagyobb struktúrákat áttekinteni, mert a memória nem tudja, hogy milyen régen volt ott az adat

Szöveg hangulatelemzése Automatikus hírolvasó tőzsdei felhasználáshoz: Kideríti, melyik tőzsdei cégről (vagy országról) van szó Milyen a szöveg hangulata? Bizakodó, semleges, vagy negatív? Ez alapján lehet kereskedni: részvényt, kötvényt venni vagy eladni

Szöveg generálás Egy érdekes applikáció a szöveg generálás egy adott szerző stílusában Andrej Karpathy 2015-ös cikke 1 ad erre néhány érdekes példát Próza Paul Graham stílusában Dráma Shakespeare stílusában Wikipedia szócikk 1 Andrej Karpathy: The Unreasonable Effectiveness of Recurrent Neural Networks http://karpathy.github.io/2015/05/21/rnneffectiveness/

AI Wikipedia: szintaktika pontos '''See also''': [[List of ethical consent processing]] == See also == *[[Iender dome of the ED]] *[[Anti-autism]] ===[[Religion Religion]]=== *[[French Writings]] *[[Maria]] *[[Revelation]] *[[Mount Agamul]]

AI Shakespeare: értelem hiányzik CASSIUS: And in desire, And call'd me ballant Cassius. BARDOLPH: Tost in it, what then take your madder? DUKE OF YORK: She would be ready, this advice, say you a chaste. Second Neris: Now, blessed France, and with thy speech can know?

AI film: Sunspring Youtube-on megtalálják: https://youtu.be/ly7x2ihqjmc Érezhető rajta, hogy bizonyos kliséket megtanult De átfogóan egy érthetetlen zűrzavar az egész Aki szereti a groteszket, jól fog rajta szórakozni

Fordító AI ( bábel hal ) Sokkal nehezebb feladat, a szöveg értelmét kell átadni Szintaktika kell, de az még édeskevés Azzal kísérleteznek, hogy nem betűket, hanem szavakat jelölnek kóddal Egész pontosan vektorokkal, word2vec

Wikipedia több nyelven elérhető Stefan Jansen 2017. májusban közzétett cikke 1 Szócikkeken lehet tanítani a hálózatot (persze ellenőrizni kell, hogy a hossza és szerkezete a cikkeknek hasonlít) Először beágyazta a szavakat minden nyelven Majd a beágyazáson tanította a hálózatot fordítani: 30-40%-os pontosságot ért el 1 Stefan Jansen: Word and Phrase Translation with word2vec, https://arxiv.org/pdf/1705.03127.pdf

Szó jóslás a környezetéből A hálózat feladata az, hogy egy (kitakart) szót kitaláljon a szövegkörnyezetből Elizabeth's early years were marked by constant fluctuations of fortune. Meglepően pontos struktúráját építi fel a nyelvnek ez az egyszerű feladat

Beágyazás (embedding) király királynő herceg hercegnő

rang 50-100 jelentés dimenzió király királynő herceg hercegnő nem

Egyenlet formában is működik Királynő = király férfi + nő Hasonló struktúrák alakultak ki mind a négy nyelven Ez nagyon jó kiindulópont volt a fordító program megalkotására 30-40%-os pontosságot értek el

Hanghullámok Sűrűsödő-ritkuló levegő, a változás terjed Minél gyorsabban sűrűsödik-ritkul, annál nagyobb a frekvencia, magasabb a hang https://youtu.be/qnf9nzvnd1k

Különböző zoom szinteken

Konvertáljuk számokká 0 1-0,5 0 1 0-1

Mintavételezési frekvencia Minél több mintát veszünk, annál hűségesebb a hang, de több adatot kell rögzíteni Emberi fül 20kHz-ig működik 44.1kHz a zenei CD-k mintavételezése

Frekvencia meghatározása A hallás első lépése a hallott zajok, zörejek, beszéd, zene fekvenciájának meghatározása ( spektrum analizálás ) Ebben a fül nagyon jó, ha több hang is hallatszódik egyszerre, akkor is Hogyan tudja ezt egy hálózat vajon megcsinálni?

Az 1D konvolúció Különböző neuronok különböző időközönkénti mintákat adnak össze 0 0 1 0 0 0 0 0 1 0 0 0 fázisban van: az összeg 2 1 0 0 0 1 0 0 1 0 0 0 1 nincs fázisban: az összeg kb. 0

Spektrum analízis az első réteg után hang bemenet 100Hz 200Hz 300Hz 400Hz 500Hz 600Hz 700Hz 20 000Hz

A beszéd (és zene) struktúrája Az, hogy egy pillanatban milyen hangok szólnak, csak az első lépés A beszédnek, csakúgy, mint a zenének, időben hosszan elhúzódó struktúrája van Ahhoz, hogy 5 másodperces struktúrát felderítsünk, 44.1kHz esetén 220,000 bemenet kellene neurononként

Konvolváljuk a konvolúciókat! Az egymás után fűzött konvolúciós rétegekkel keressünk egyre magasabb struktúrákat a hangban Például a felharmonikusok határozzák meg a hangszínt: a második réteg már fel tudja ismerni, hogy ki beszél Vagy milyen hangszer(ek) játszik(-anak)

DeepMind WaveNet Keressünk egyre magasabb struktúrákat a hangban Például a felharmonikusok határozzák meg a hangszínt: a második réteg már fel tudja ismerni, hogy ki beszél Vagy milyen hangszer(ek) játszik(-anak)

Kevés művelet, nagy átlátóképesség

Beszéd szintetizálás Hagyományos beszédszintetizálás: WaveNet beszédszintetizálás: Zongoramű:

Percepció Verbális kommunikáció Hang Betűk, szavak Értelem Szintézis

Google Assistant https://youtu.be/d5vn56jqmwm?t=70

>connection ended