Bevezetés a nyelvtudományba. Számítógépes nyelvészet



Hasonló dokumentumok
Beszédtechnológia az információs esélyegyenlőség szolgálatában

Szerkesztők és szerzők:

A HANGOK TANÁTÓL A BESZÉDTECHNOLÓGIÁIG. Gósy Mária. MTA Nyelvtudományi Intézet, Kempelen Farkas Beszédkutató Laboratórium

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Beszédinformációs rendszerek 6. gyakorlat

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

Akusztikai mérések SztahóDávid

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

Tartalomjegyzék. Rövidítések jegyzéke... EMBER, NYELV, BESZÉD. 1. A beszéd és az információs társadalom... 3

Értékelési útmutató a középszintű szóbeli vizsgához. Angol nyelv

KÖZÉPSZINT BESZÉDKÉSZSÉG ÉRTÉKELÉSI ÚTMUTATÓ

Középszintű szóbeli érettségi vizsga értékelési útmutatója. Olasz nyelv

Értékelési útmutató a középszintű szóbeli vizsgához. Angol nyelv. Általános jellemzők. Nincs értékelés

2006. szeptember 28. A BESZÉDPERCEPCI DPERCEPCIÓ. Fonetikai Osztály

A magyar beszéd. Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek.

Multi-modális ember-gép kapcsolatok

book 2010/9/9 14:36 page v #5

Történet John Little (1970) (Management Science cikk)

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Nyelvtechnológia Balázs Andrea

Beszédfeldolgozási zavarok és a tanulási nehézségek összefüggései. Gósy Mária MTA Nyelvtudományi Intézete

A középszintű szóbeli vizsga értékelési útmutatója. Orosz nyelv. Általános útmutató

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Óvodás és kisiskolás gyermekek interpretált beszédének vizsgálata

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop Április , Pécs

Az SKT és SMT rövid áttekintése

Önálló labor feladatkiírásaim tavasz

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Minta. Az emelt szintű szóbeli vizsga értékelési útmutatója

Beszédkutatás a technológiai fejlődés tükrében. Gráczi Tekla Etelka MTA Nyelvtudományi Intézet, Fonetikai osztály

Beszédinformációs rendszerek

A következő táblázat az értékelési szempontokat és az egyes szempontok szerint adható maximális pontszámot mutatja.

III. Az állati kommunikáció

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Multifunkcionális, multimédia elemeket tartalmazó mobil elérésű távoktatási tananyag összeállítása és tesztelése

MESTERSÉGES INTELLIGENCIA ÉS HATÁRTERÜLETEI

Szintetizált beszéd természetesebbé tétele

Mély neuronhálók alkalmazása és optimalizálása

Az emelt szintű szóbeli vizsga értékelési útmutatója

MAGYAR IRODALOM ÓRAVÁZLAT

Budapesti Műszaki és Gazdaságtudományi Egyetem Idegen Nyelvi Központ Tolmács- és Fordítóképző Központ

ÉS S NYELVI REPREZENTÁCI CIÓ. MTA Nyelvtudományi Intézet

A magyar létige problémái a számítógépes nyelvi elemzésben

a munkaerőpiac számos szegmensében egyaránt szükségszerű a használata (Szabó

A spontán beszéd kísérőjelenségei

Alkalmazások architektúrája

A Jövő Internet Nemzeti Kutatási Program bemutatása

Számítógépes nyelvészet

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Nyelvi tudásra épülő fordítómemória

Még mindig a minőség az úr Biztosítsa Ön is!

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Beszédfelismerés, beszédmegértés

Nyugat-magyarországi Egyetem Savaria Egyetemi Központ Bölcsészettudományi Kar Filológiai és Interkulturális Kommunikáció Intézet

Lexikon és nyelvtechnológia Földesi András /

Angol nyelv. 5. évfolyam

Nyugat-magyarországi Egyetem Savaria Egyetemi Központ Berzsenyi Dániel Pedagógusképző Kar Filológiai és Interkulturális Kommunikáció Intézet

Rendszer szekvencia diagram

Záróvizsgatételek Kognitív Tanulmányok mesterszak, Filozófia:

Beszédfelismerés. Izolált szavas, zárt szótáras beszédfelismerők A dinamikus idővetemítés

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

A Mazsola KORPUSZLEKÉRDEZŐ

Bevezetés a kommunikációelméletbe 4.

Nyelv és zene az evolúció tükrében. Mészáros Anna Debreceni Egyetem BTK (MA)

Az ISO 17100:2015 szabványban szereplő szakkifejezések és meghatározásuk

A Hunglish Korpusz és szótár

Tartalom-visszamondások szerveződése felolvasás után

Bodó / Csató / Gaskó / Sulyok / Simon október 9. Matematika és Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár

Tartalom. Előszó feladat: Fordítás a megszokott eszközökkel A számítógép hatékony használatáról... 18

A deixis megjelenési formái a prozódiában

EFOP VEKOP A köznevelés tartalmi szabályozóinak megfelelő tankönyvek, taneszközök fejlesztése és digitális tartalomfejlesztés

ALKALMAZOTT NYELVÉSZETI DOKTORI PROGRAM szigorlatának menete és a választható témák

Feladataink, kötelességeink, önkéntes és szabadidős tevékenységeink elvégzése, a közösségi életformák gyakorlása döntések sorozatából tevődik össze.

Olvasás-szövegértés fejlesztése. Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály)

Méréselmélet MI BSc 1

Első Hazai Adatkezelő Kft. All Rights Reserved.

MAGYAR NYELVÉSZETI TÁRGYAK ISMERTETÉSE BA NYELVTECHNOLÓGIAI SZAKIRÁNY

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

Bevezetés a nyelvtudományba. A nyelv leírása

A számítógépes nyelvészet elmélete és gyakorlata. Automaták

Bevezetés a nyelvtudományba

Web of Science (WoS) Bemutató

Információ megjelenítés Alapok

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Beszédkutatás Nyelvhasználat és alkalmazások. Programfüzet november

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

SYLLABUS. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar magyar nyelv és irodalom

Phonak Virto TM. Hozzáférés megadva

Syllabus. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

Szerintem ez igaz. Teljesen egyetértek. Ezt én is így gondolom. Ez így van. Fogalmam sincs. Nincs véleményem. Talán így van. Lehet.

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Bevezetés a digitális bölcsészetbe

Beszédadatbázisok a gépi beszédfelismerés segítésére

Intelligens biztonsági megoldások. Távfelügyelet

Számítógépes alapismeretek 2.

Beszédfelismerés. Benk Erika

Átírás:

Bevezetés a nyelvtudományba Számítógépes nyelvészet

Bevezetés számítógépes nyelvészet nyelvtechnológia: - műszaki tudomány, mely természetes nyelvű szövegek számítógépes feldolgozásával foglalkozik, az informatika hívta létre - interdiszciplináris: informatika (formális nyelvek, automataelmélet) matematika ( statisztika, halmazelmélet, stb.) nyelvészet pszichológia

Bevezetés

A kezdetek gépi fordítás/kódolás igénye mesterséges intelligencia Alan Turing 1950: a Turing teszt (gondolatkísérlet) 60-as évek: a számítógépes fordítás 1. sokkal lassabb, 2. sokkal drágább, 3. sokkal rosszabb, mint a humán fordítás a fejlődés megtorpan

A kezdetek ELIZA ( J. Weizenbaum) 1966: pszicoterapeuta szimulálása - A férfiak mind egyformák. - Ezt hogy érted? - Mindig nyaggatnak minket valamiért. - Mondanál egy konkrét példát? - Hát, a pasim küldött ide. - A pasid küldött ide. - Azt mondja, mindig depressziós vagyok. - Sajnálom, hogy depressziós vagy. - Talán ki kellene békülnöm az anyámmal. - Mesélj még a családodról.

A kezdetek hogyan működik? kulcsszó keresés: mindig, anyám kulcsszó aktivál egy szabályt: Mondanál egy konkrét példát? Mesélj még a családodról. reguláris kifejezések segítségével behelyettesítés a szabálynak megfelelően: pasim -> pasid reguláris kifejezés: egy olyan, bizonyos szintaktikai szabályok szerint leírt jelsorozat amivel meghatározható jelsorozatok egy halmaza. kulcsszavak rangsorolva vannak http://psych.fullerton.edu/mbirnbaum/psych101/eliza.htm

A kezdetek Roger Schank (70-es évek) script (forgatókönyv) rendszerek Egy ember bement egy étterembe és rendelt egy hamburgert. Amikor a hamburger megérkezett, meg volt elégedve vele és amikor távozott, kifizette a számlát és sok borravalót hagyott. Kérdés: Megette az ember a hamburgert? Válasz: (Valószínűleg) igen. forgatókönyvek élethelyzetekről tipikus események részletes leírása: pl. étterem forgatókönyv: bemegyünk az étterembe a ruhatárban letesszük a kabátot kiválasztunk egy asztalt, stb.

Nyelvtechnológia Írott vagy beszélt nyelvi jelek automatikus gépi feldolgozása illetve produkciója Feldolgozás: Ingerérzékelés (írott karakter, beszédhang, kézjelek) Elemzés (a szöveg különböző szinteken történő rendszerezése, az elemek közti viszony feltárása) Megértés Produkció: Gondolat (mentális reprezentáció) Kódolás Megjelenítés

Módszerek - szabályalapú: előzetes nyelvi tudás, hipotézis a szövegben előforduló lehetséges szerkezetekről - kompetencia - példaalapú statisztikai: a szövegben felismert szabályszerűségek számítanak: korpusz - performancia - hibrid módszerek

Értékelés A gépi modell minősége: két egymással ellentétes cél: fedés növelése minél több szerkezet felismerése pontosság növelése a felismerni vélt szerkezetek közül minél több legyen helyes

Dialógus rendszerek Természetes nyelvű ember-gép kommunikáció A. C. Clarke: 2001. Űrodüsszeia. A hármas gyártási számú 9000-es számítógép vagyok. 1997. január 12-én kezdtem működni Illinois állam Urbana városában, a HAL gyárban. Róka koma gyorsabb, mint a rest eb. Répa, retek, mogyoró, korán reggel ritkán rikkant a rigó. Dave, itt vagy még? HAL 9000 számítógép: beszéd-felismerés és megértés/nyelvgenerálás és beszéd-előállítás/szintézis Miért nem tud a gép emberi nyelven kommunikálni? Lehetséges-e olyan gépet építeni, amely beszél és megérti a beszédet?

Ember és számítógép - veleszületett nyelvi képesség - kognitív képességek (gondolkodás, tudásszerzés, kommunikáció, tanulás) - világismeret

Beszéd-előállítás Beszédszintézis: beszédhangok előállítása és folyamatos beszéddé alakítása

Beszéd-előállítás 1791. Kempelen Farkas emberi hangot mechanikusan előállító gépet szerkeszt (fújtató és egyéb mechanizmusok) 22 évig dolgozott rajta http://fonetika.nytud.hu/menu_hu.htm

Beszéd-előállítás 19. sz. Alexander Graham és Melville Bell beszélő fej (szintetikus anyagokból) mama a hangképző szervek fizikai modellje

Beszéd-előállítás 1939. Bell Laboratories: vocoder (Talking Machine) hanghullámok előállítása http://reaktorplayer.wordpress.com/2009/11/20/th e-birth-of-the-vocoder-and-its-use-in-modernmusic/

Beszéd-előállítás Hol használunk gépi beszédet? - kiegészítő információként a vizuális visszajelzés mellett - ember-gép kommunikáció - információ nyújtása ott, ahol ez máshogy nem lehetséges - emberi munka kiváltása

Beszéd-előállítás ma: 1. kötött (szó)készletű rendszerek - előre rögzített emberi vagy gépi hangok feldarabolása, majd összefűzése - a tárolt egységek nagysága eltérő lehet: - fonémák: rugalmasabb, de kevésbé jó eredmény - mondatok: szűkebb alkalmazási terület, feladatorientált - adott, szűk témához kapcsolódó, véges számú üzenet előállítása - példa: bankszámla, MÁV, GPS, stb.

Beszéd-előállítás kötött szótáras beszédszintetizátor (Pandur, 2011)

Beszéd-előállítás 2. szabály alapú beszéd-előállítás, fizikai modellezés: mérésekből és tapasztalati úton szerzett információk alapján felállított szabályok szerint állítják elő a gépi beszédhangot 3 fő módszer: - egész szavak előállítása - morfémák előállítása - hangok előállítása akusztikai jegyeik alapján előnye: nagyobb sebességnél is jól érthető, kisebb memóriaigény példa: képernyőolvasó

Beszéd-előállítás 3. Hidden Markov Model alapú tanulási fázis: beszédadatbázisra épül HMM-eket tanul eredménye: HMM modell-adatbázis működési fázis: tényleges szintetizálás a tárolt paraméterekből szintetizált hullámformát állít elő

Beszéd-előállítás Text-to-speech rendszerek működési elve: front end (adat szintű előkészítés) - a nyers szöveget tördeli, majd átalakítja csak szavakból álló szöveggé (számok, szimbólumok) - az egyes szavakhoz hozzárendeli fonetikus megfelelőjüket, és intonációs egységeket alakít ki back end (hangzó beszéd előállítása) hangzó beszédet állít elő, amely ideális esetben egyszerre érthető és természetes

Beszéd-előállítás szövegfelolvasó rendszer (Pandur, 2011)

Beszéd-előállítás: alkalmazások beszéd előállítása általános szövegből (text-to-speech) rendszerek: regényfelolvasás: http://vilaghallo.hu hírfelolvasás, időjárás jelentés: www.metnet.hu gyógyszervonal: www.gyogyszervonal.hu szövegfeldolgozás és beszéd-előállítás célzott alkalmazásokhoz: elektronikus-levél felolvasó, SMS-felolvasó név- és címfelolvasás céginformációkhoz menetrendi információk gépi generálása telefonba és állomásokon banki rendszerek, egyenleglekérdezés vakok és gyengénlátók részére készített beszélő alkalmazások számítógépre és mobiltelefonra, bankautomatára

Beszédfelismerés - cél: beszéd-szöveg átalakítás környezeti zajtól, beszélőtől és témakörtől függetlenül, a hangfelismerés automatizálása - problémák: a beszéd folytonossága (szünet) a hangok variabilitása (hangerő, hangmagasság, artikulációs különbségek (akcentus, dialektus) szupraszegmentális tényezők: intonáció, hangsúly, ritmus, szünet nagy szókincs zaj

Beszédfelismerés Területek: - az elhangzott hangsor megfejtése (beszélőfüggetlen rendszer) - egy adott beszélőre korlátozott, beszélőfüggő rendszer - az elhangzott hangsor alapján történő kiválasztás előre meghatározott elemhalmazból (izolált szavas rendszerek - parancsszavas vezérlés) - beszélő felismerés: a beszélő személy felismerése (azonosítás) - a beszélő személy kiválasztása adott csoportból - zajtűrő beszédfelismerés: zajos környezethez (pl. autóban) alkalmazkodó jelfeldolgozó eljárások - a beszéd érzelmi töltetének felismerése: érzelmi kategóriák (öröm, harag, félelem, stb.) felismerése a beszéd akusztikai jegyei alapján (l. spemoticon)

Beszédfelismerés a ma ismert eljárások összehasonlításokon alapulnak, előre tárolt mintákat hasonlítanak össze a bejövő jel mintasorozatával általános beszédfelismerő (Pandur, 2011)

Beszédfelismerés: alkalmazások - beszéddel vezérelhető telefonközpont - kötött témakörű diktált szöveg lejegyzése (pl. röntgenleletező) - vezetés közbeni utasítások felismerése (Audi) - dialógusrendszerek (pl. menetrendi információ telefonon, jegyrendelés) - beszédhanggal vezérelt játékok

Ember-gép interakció: egy példa Herme - társalgás (Nick Campbell)

Herme és Him

Herme

Gépi fordítás eredeti cél: MT (machine translation): teljes szövegek automatikus fordítása forrásnyelvről célnyelvre mai cél: CAT (computer aided translation): géppel segített fordítás, az egysíkú szellemi munka segítése és nem önálló elvégzése, fordítási részfeladatok

Gépi fordítás -történeti jelentőség: első terület (10 évig kizárólagosan) - ha input/output: beszélt nyelv minden nyelvtechnológiai alkalmazást felölel - a fejlesztés inkább Európában zajlik, az EU soknyelvűsége miatt

Gépi fordítás A gépi fordítás lehetséges alkalmazási területei: - információ kinyerés webről (pl. idegen nyelvű cikkek): idegen nyelvről anyanyelvre laikusok használják releváns nyelvi tudás nélkül a fordítás lehet alacsonyabb színvonalú - információ átadás (technikai leírások, jogi szövegek, időjárás jelentés) anyanyelvről idegen nyelvre fordító memória (korábbi fordítások újra felhasználása) időjárás jelentés, repülőjegy foglalás gyakran speciális szókincs, terminológiai adatbázis létrehozása pusztán emberi erővel túl időigényes, túl egyhangú lenne - irodalmi szövegek fordítása nem igazán alkalmas rá a számítógép (stílus, nyelvezet, stb.)

Gépi fordítás - a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MTrendszereknek. - bizonyos körülmények közt a MT minőségi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. - a beszéd beszéd MT továbbra is kutatási téma

Gépi fordítás CAT formái - fordító memória - egy -és kétnyelvű szótárazás - terminológia kezelés - szinkronizálás - helyesírás-ellenőrzés

Gépi fordítás

Gépi fordítás Problémák a gépi fordítás számára: 1. Many elephants smell. 2. havat hányni 3. lovagi torna 4. feldobta a talpát 5. essen - fressen 6. vörös, piros

Gépi fordítás http://translate.google.com http://babelfish.com http://webforditas.hu http://www.systranet.com/translate/

Ajánlott irodalom Babarczy Anna: Számítógépes nyelvészet. In: Kovács Ilona & Szamarasz Vera Zoé (szerk.): Látás, nyelv, emlékezet. Budapest:Typotex, 2006. Campbell, N.: Hello?, Hi!, managing contact. Talk presented at Interdisciplinary Workshop on Linguistic Annotation and Interaction Knowledge Systems, France, May 23-25th 2011 Németh Géza és Olaszy Gábor: A MAGYAR BESZÉD - Beszédkutatás, beszédtechnológia, beszédinformációs rendszerek. Budapest: Akadémiai Kiadó 2010. Prószéky Gábor Kis Balázs: Számítógéppel emberi nyelven. Bicske: Szak Kiadó, 1999. Prószéky Gábor: A nyelvtechnológia (és) alkalmazásai. Budapest, Aranykönyv Kiadó, 2005. Prószéky G. Olaszy G. Váradi T.: Nyelvtechnológia In: Kiefer F. (ed): Magyar nyelv. Budapest: Akadémiai Kiadó, 2006. Pandur Balázs: Üzenetkezelő rendszer vak és látássérült felhasználók részére mobil eszközökön. Kézirat. 2011. http://magyarbeszed.tmit.bme.hu/index.php?p=home

Köszönöm a figyelmet!