Nyelvtechnológia Balázs Andrea

Hasonló dokumentumok
Számítógépes nyelvészet

Klasszikus héber nyelv 4.: Szintaxis

Bevezetés a nyelvtudományba. Számítógépes nyelvészet

A megértés folyamata

Számítógépes alkalmazásai

Fonetika és fonológia

Akusztikai mérések SztahóDávid

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Vizuális nyelv. Olvasás és írás. Ellis, W. (2004) Olvasás, írás és diszlexia október

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

A hangok a fejemben, avagy: mi a fonológia?

Bevezetés a nyelvtudományba Fonetika

A beszédpercepció és az anyanyelv fonotaxisa. Bevezetés a társas-kognitív nyelvészetbe Fehér Krisztina március 21.

A fonetik ar ol altal aban szeptember 15.

A HANGOK TANÁTÓL A BESZÉDTECHNOLÓGIÁIG. Gósy Mária. MTA Nyelvtudományi Intézet, Kempelen Farkas Beszédkutató Laboratórium

Klasszikus héber nyelv 4.: Szintaxis

A magyar létige problémái a számítógépes nyelvi elemzésben

A Mazsola KORPUSZLEKÉRDEZŐ

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény

A beszédhang felfedezése. A hangok jelölése a fonetikában

A hangtan irányai, fajai Olvasnivaló: Bolla Kálmán: A leíró hangtan vázlata. Fejezetek a magyar leíró hangtanból. Szerk. Bolla Kálmán. Bp., 1982.

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 30.

Beszédészlelés 1: Beszédpercepció. A beszédpercepció helye a beszédmegértési folyamatban

MAGYAR NYELVÉSZETI TÁRGYAK ISMERTETÉSE BA NYELVTECHNOLÓGIAI SZAKIRÁNY

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Bevezetés a nyelvtudományba. 5. Szintaxis

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Magyar nyelvtan tanmenet 4. osztály

Beszédhiba és beszédfeldolgozás

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Szintaxis. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba. 5. előadás 2009 Pázmány Péter Katolikus Egyetem

0. előadás Motiváció

Magyar nyelv és irodalom Fejlesztési terv

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Irodalom Szövegértés, szövegfeldolgozás 9. NY Órakeret:36 óra

KÁROLY KRISZTINA SZÖVEGKOHERENCIA A FORDÍTÁSBAN

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Fonetika. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba 2. előadás 2009 Pázmány Péter Katolikus Egyetem

Az énekelt magánhangzók észlelése réshangkörnyezetben

A nyelvtudomány rövid története: humanizmus & kora újkor

A HUNGLISH PÁRHUZAMOS KORPUSZ

Név:... Iskola:... Összpontszám: 240 pont Elért pontszám:... Helyezés:...

A MAGYAR. kézikönyve. Szerkesztette KIEFER FERENC. A szerkesztő munkatársa SIPTÁR PÉTER AKADÉMIAI KIADÓ, BUDAPEST

Tartalomjegyzék. Tartalomjegyzék

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

ÉS S NYELVI REPREZENTÁCI CIÓ. MTA Nyelvtudományi Intézet

Klasszikus héber nyelv 4.: Szintaxis

Gépi tanulás és Mintafelismerés

A jegygeometria kiterjesztése az autoszegmentális fonológia

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Fonológia. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba 3. előadás 2009 Pázmány Péter Katolikus Egyetem

MagyarOK 1. tanmenetek

MagyarOK 1. tanmenetek

SYLLABUS. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

Lexikon és nyelvtechnológia Földesi András /

10. Morfológia és statisztikai grammatika Morfémák és variációszámok

Bevezetés az e-magyar programcsomag használatába

0. előadás Motiváció. Dr. Kallós Gábor

A megértés folyamata Lukács Ágnes

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

E. KISS KATALIN - KIEFER FERENC - SIPTAR PETER ÚJ MAGYAR NYELVTAN

A spontán beszéd kísérőjelenségei

Fonetika és fonológia

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

A TANTÁRGY ADATLAPJA

Fonetika és fonológia

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

MagyarOK 1. tanmenetek

Fonetika február 14.

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Szintetizált beszéd természetesebbé tétele

TANTÁRGYI PROGRAM. 2. osztály. Éves óraszám: 74 óra 2 óra/hét. fogalmak, ismeretek Új tantárgyunk: az anyanyelv. Bevezetés. A beszéd és az írás.

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

NT MAGYAR NYELV ÉS KOMMUNIKÁCIÓ 6. TANMENETJAVASLAT. (heti 2 óra, azaz évi 74 óra)

A beszéd prozódiai jellemzőinek észlelése. Honbolygó Ferenc

Mondd meg, mit hallasz, és megmondom, ki vagy

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

1. Nagy betűk - először a magánhangzók: A E U Ú I Í O Ó É Á Ü Ű Ö Ő - utána a mássalhangzók: M L H T S K R N B Z G V D SZ P C GY J CS NY F TY ZS LY

12. osztály nyelvtan anyaga: Nyelvi szinkrónia és diakrónia; a nyelv eredete és típusai

Az emberi információfeldolgozás modellje. Az emberi információfeldolgozás modellje. Alakészlelés. Más emberek észlelése.

2006. szeptember 28. A BESZÉDPERCEPCI DPERCEPCIÓ. Fonetikai Osztály

Nagy munka ez! Nem mértem én ezt azonban. Csak a cél volt előttem. (Reguly Antal)

Információ megjelenítés Alapok

E. KISS KATALIN - KIEFER FERENC - SIPTAR PÉTER ÚJ MAGYAR NYELVTAN

Bevezetés a nyelvtudományba. A nyelv leírása

MagyarOK 1. tanmenetek

Rezgés, Hullámok. Rezgés, oszcilláció. Harmonikus rezgő mozgás jellemzői

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

A szóhasonlóság mértékének tesztelése CVCVC szerkezetű hangkivető főnevekkel. Rung András BME Fizikai Intézet

Európai Gazdasági és Monetáris Unió

Klasszikus héber nyelv 4.: Szintaxis

A közbeékelt parentézis megszakítja a folyó megnyilatkozás folyamatosságát

Irodalom. II. A Biblia 4. A Biblia jellemzői Szereplők és történetek a Bibliából (Bibliai kislexikon című rész a füzetből)

II. Gyermeknyelv, anyanyelvelsajátítás

Átírás:

A diák összeállításában közreműködö=: Babarczy Anna Ladányi Enikő Nyelvtechnológia Balázs Andrea Látás, nyelv, emlékezet Budapesti Műszaki és Gazdaságtudományi

Mire jó a nyelvtechnológia? Helyesírás- ellenőrző Beszédfelismerés Gépi fordítás Gépi összegzés, szövegkivonatolás Jegyrendelés Budapesti Műszaki és Gazdaságtudományi

Propozicionális reprezentáció, mint a nyelvtechnológia alapja A világot leképző modellek szimbólumokból építkeznek, amelyek kapcsolata a világ egy reprezentációját adja Propozició = állítás (<=> imperasvus) Propozicionális reprezentáció: Minden amit tudunk kijelentések formájában van a fejünkben

Frege a modern propozicionális reprezentáció első kifejtője Frege 1879 Fogalomírás, a.szta gondolkodás formulanyelve az aritme.ka mintája szerint Argumentum- függvény (alany- állítmány) helye=

Klasszikus kognisv felfogás Szimbólikus soklépcsős átkodolási folyamatok Az információfeldolgozás szekvenciális A megimsermés egyelen ak>v feldolgozó központja Minden feladatot egyetlen közös propozicionális nyelvre fordítunk le A feldolgozás gépies: kicsiny kapacitású operasv és óriási kapacitású há=értárak

Mesterséges intelligencia Intelligens- e a gépi társalkodórendszer? Alan Turing, 1950: a Turing teszt (gondolatkísérlet) Akkor megy át egy gép a próbán, ha a középen lévő ember nem tudja eldönteni, géptől vagy embertől jö=- e a válasz? Budapesti Műszaki és Gazdaságtudományi

Eliza: pszichoterapeuta Weisenbaum 1966 A férfiak mind egyformák. Ezt hogy érted? Mindig nyaggatnak minket valamiért. Mondanál egy konkrét példát? Hát, a fiúm küldö= ide. A fiúd küldö= ide. Azt mondja, mindig depressziós vagyok. Sajnálom, hogy depressziós vagy. Talán ki kellene békülnöm az anyámmal. Mesélj még a családodról. Budapesti Műszaki és Gazdaságtudományi

A módszer: Kulcsszókeresés mindig anyám Kulcsszó válasz- szabályokat akfvál Mondanál egy konkrét példát? Mesélj még a családodról. Reguláris kifejezések segítségével behelye=esítés a szabálynak megfelelően s/.* (depressziós szomorú) vagyok.* /Sajnálom, hogy \x vagy/ Budapesti Műszaki és Gazdaságtudományi

Eliza

Nyelvtechnológia ma: Két alapelv Szabályalapú (Nem- stat) Példaalapú stafszfkai korpuszok Két egymással ellentétes cél: Lefede=ség növelése (hamis negasvok csökkentése) - - lazítás Pontosság növelése (hamis pozisvok 50 40 30 20 10 csökkentése) - - szigorítás 0 Éves amerikai nyelvtechnológia konferencia (ACL) 1990 2003 Nem-stat Stat Budapesti Műszaki és Gazdaságtudományi Egyetem Gazdaságtudományi

Gépi nyelvfeldolgozás általános szintjei Beszédfelismerés (inger érzékelés) Bayes, N- gram Parsing (elemzés) szófaji, morfológiai, szintakfkai SzemanHkai elemzés (értelmezés)

Gépi nyelvfeldolgozás általános szintjei Beszédfelismerés (inger észlelés) Bayes, N- gram Parsing (elemzés) Parsing (szófaji,morfológiai,szintakfkai) SzemanHkai elemzés (értelmezés)

Nemtom NEM TUDOM Beszédfelismerés Hangsorokból szavak Budapesti Műszaki és Gazdaságtudományi

Szükséges tudás Fonetika: a hangok akusztikai tulajdonságai (formánsfrequenciák) Fonológia: egy-egy nyelv hangrendszere Esetleg egy kiejtési szótár

A hang hullámként terjed a levegőben. A beszédhang összetett, több hullám együtteséből áll (formánsszerkezet). Kétféle összetett hang: periodikus: ismétlődő hullámalak (magánhangzó) aperiodikus: rendszeres ismétlődés nélküli (bizonyos mássalhangzók)

[a] és [s] hullámalak

A beszédhang fizikai jellemzői: rezgés szaporasága (frekvencia) rezgés erőssége (intenzitás) rezgés időtartama Az összetett hullámok tulajdonságait a spektrogram jeleníti meg: vízszintes tengely: idő függőleges tengely: rezgésszám (formánsok: F 0 (100-200Hz), F 1 (300-600Hz), F 2 (800-3000Hz)) harmadik dimenzió (jel erőssége): intenzitás

Gyakori réshangok: f, j, s, sz, v, z, zs

Ami bonyolítja a feladatot A hangok variabilitása: Beszélőtől függően (hangerő, hangmagasság, artikulációs különbségek) Folyamatos beszédben szövegkörnyezettől függően Allofónok: n vs. ng Hasonulás: mézízű, méztartalmú, mésztartalmú Prozodikai jelenségek: intonáció, hangsúly, ritmus

A gépi beszédfelismerést nehezíf a folyamatos beszéd zajosság sta.on ejtése két különböző beszélő által Budapesti Műszaki és Gazdaságtudományi

Jó napot! ugyanaz a személy egy nap eltéréssel Budapesti Műszaki és Gazdaságtudományi

Véges-állapotú transzducer Az állapotok közötti átmeneteket párok definiálják Pl. fonéma spektrál elemzés vektor Minden lehetséges akusztikus jelhez hozzárendel egy vagy több fonémát és megfordítva ({[n], [ng]} ß à n)

SPECTRAL ELEMZÉS

Egy hasonló transzducer a fonémákat betűkhöz rendelheti à beszédfelismerő szoftver De a módszer nem elég megbízható Ki kell egészíteni valószínűségekkel. Top-down módszer segíthet

Bayesi beszédfelismerés (fonéma valószínűégek megállapítása) Ha adott egy hangsor h, mi a valószínűsége egy s szónak: P(s h) Korpusz: szógyakoriság Variáció-korpusz: hangsorokhoz rendelt szólisták ([tom] -> Tom, tudom, atom) Fonotaktikai folyamatok valószínűségei (pl. szóközi szótag lehagyása) Legvalószínűbb szó: maximális P(h s)p(s) Helyesírásellenőrzés hasonló elveken Jobb eredmény a szövegkörnyezet figyelembevételével

N-gram modellek (Markov láncok) Véges-állapotú automaton, ahol az átmenetekhez valószínűségeket rendelünk

A mondat következő szavának prediktálása Korpusz A nyelvtan: egy szó valószínűsége, ha az előző (egy, kettő, három...) szó a mondatban adott: P(s n s n-1 ) s n gyakorisága s n-1 után Osztva s n-1 gyakoriságával Minél nagyobb a szövegkörnyezet, annál pontosabb a nyelvtan: Északnyugat felől felszakadozik, csökken a

N- gram (biagram)nyelvtan egy szó valószínűségi előfordulása adol szövegkörnyezetben szem eszem Azt hiszem zöldeskék.059.000.000 villával.000.013.000 komolyan.000.001.721 Budapesti Műszaki és Gazdaságtudományi Egyetem Gazdaságtudományi

Bigram nyelvtan atom tudom találom nem.000.470.022 helyesnek.000.001.009 iráni.003.000.000

Gépi beszédfelismerő rendszer a három tenchnika kokmbinálásával

Az n-gram modell hátrányai: Stílus- és témafüggő Hatalmas korpuszokat igényel

Gépi nyelvfeldolgozás általános szintjei Beszédfelismerés (inger érzékelés) Bayes, N- gram Parsing (elemzés) szófaji, morfológiai, szintakfkai SzemanHkai elemzés (értelmezés)

ALAKÍTOTTÁK alak<noun[ít]verb<past> <PLUR><DEF>> Parsing Szófaji és morfológiai elemzés Budapesti Műszaki és Gazdaságtudományi

Elemző komponensei Szófaj meghatározása + morfológiai összetétel elemzése Szótár Szótövek listája Szófaji kategóriájuk (főnév, ige, határozószó, stb) Morfofonológiai kategóriájuk Sziszegő végű: olvas (olvasol és nem olvassz) <=> (pl.: hallasz, vársz, ugrasz) AlternaSv töveik (pl.: bokor, bokr - > bokrot) - > ELEMZÉS CSAK SZÓTÁRRAL? Budapesti Műszaki és Gazdaságtudományi

Elemző komponensei Szabályok Toldalékok listája Milyen szófajhoz milyen morfológiai jegy tartozhat Morfofonológiai kategóriák: Sziszegő végű: olvas, olvasol, *olvassz Egyéb: fél, félsz Morfotakfka: affixumok sorrendje Kenyer- em- et, *kenyer- et- em Budapesti Műszaki és Gazdaságtudományi

Az elemzés feladatai Szóalakok felcímkézése a szótár és nyelvtan szabályai alapján egy egyértelmű eredmény több lehetséges elemzés nem található a szótárban Budapesti Műszaki és Gazdaságtudományi

alak alak<noun> alakult1 alak<noun[ul]verb<past>> alakult2 alak<noun[ul]verb[past_part]adj> alakíto=ák alak<noun[ít] VERB<PAST><PLUR><DEF>> alakítsunk alak<noun[ít] VERB<SUBJUNC- IMP><PERS<1>><PLUR>> Budapesti Műszaki és Gazdaságtudományi

Kihívás: A többértelműség feloldása Szövegkörnyezet segítségével A tűz felmelegítege az áhagyog túrázókat tűz <NOUN> tűz <VERB> A tűz tűz <NOUN> Ma megint erősen tűz a Nap tűz <NOUN> tűz <VERB> tűz a tűz <VERB> Budapesti Műszaki és Gazdaságtudományi

Ismeretlen szavak Ha a szótárban nem szerepel egy szó... Többértelmű címkézés+egyértelműsítés szövegkörnyezet alapján egyenletes elosztásban (minden címke) címke- gyakoriság szerint (bizonyos gyakorisági küszöb fölö=) Morfológiai szerkezet alapján 95 98% teljesítmény (a címketár méretétől függően) Megfelel az ember teljesítményének! Roxfortban Szémisen ro=olnak a makánok a leghöntebb mu~otukban. Budapesti Műszaki és Gazdaságtudományi

A Det kutya NounNom kergette VerbPast a Det macskát NounAcc [A Det kutya Noun ] NP [kergette VerbPast [a Det macskát NounAcc ] NP ] VP Parsing Mondat szerkezef elemzése Budapesti Műszaki és Gazdaságtudományi

Mondatelemzés Elemzés célja: a szavak közö szintakfkai/szemanfkai viszonyok feltárása Dependencia nyelvtanok: A nyelvtan kiterjeszteg szókapcsolagár Frázis- struktúra nyelvtanok: Mondatszerkezet feltárása Szerkeze. többértelműségek kimutatása Hierarchikus rend Budapesti Műszaki és Gazdaságtudományi

Budapesti Műszaki és Gazdaságtudományi

Környezet- független nyelvtan Mondat à Határozói_fr Igei_fr Határozói_fr à Határozószó Igei_fr à Ige Főnévi_fr Főnévi_fr à Főnévi_fr Főnévi_fr Főnévi_fr à Névelő (Melléknévi_fr) Főnév Főnévi_fr à Névelő Főnév Melléknévi_fr à Melléknév Határozószó à tegnap Ige à lá=am Névelő à a Melléknév à fiatal Főnév à rendőrt, távcsővel... Budapesti Műszaki és Gazdaságtudományi

+ Morfológiai megkötések *Tegnap lá=alak a rendőrt a távcsővel *Tegnap látom a rendőrt a távcsővel. *Tegnap lá=am a rendőrhöz a távcsőnek + Szabadabb szórend Lá=am tegnap a rendőrt a távcsővel. A rendőrt tegnap lá=am a távcsővel. A távcsővel a rendőrt tegnap lá=am. Budapesti Műszaki és Gazdaságtudományi

Gépi nyelvfeldolgozás általános szintjei Beszédfelismerés (inger érzékelés) Bayes, N- gram Parsing szófaji, morfológiai, szintakfkai SzemanHkai elemzés (értelmezés)

Van egy autóm x,y Birtokol(x) Birtokló (Beszélő,x) BirtokolValamit (y,x) Autó(y) Szeman.ka A jelentés meghatározása Budapesti Műszaki és Gazdaságtudományi

Információk kivonása Mondjon nekem reggeli járatokat kedden Bostonból San Franciscoba. MUTAT: JÁRAT: EREDET: VÁROS: Boston DÁTUM: kedd IDŐ: reggel CÉL: VÁROS: SF Budapesti Műszaki és Gazdaságtudományi

LISTÁZ - > mondjon nekem szeretnék mutatna INDULÁSIIDŐ - > ÓRA (elő= körül után) reggel délután este ÓRA - > egy két három huszonnégy JÁRAT - > (egy) járat járatok EREDET - > VÁROS- EREDET_HELYRAG CÉL - > VÁROS- CÉL_HELYRAG VÁROS - > Boston San Francisco Budapest Budapesti Műszaki és Gazdaságtudományi

Mondat temafkai elemzése Frázisok Temafkus szerepek a morfoszintakfkai struktúra alapján A kutya tegnap a házig kergege a macskát. Alany Ágens Tárgy Páciens Helyragos NP/PP/helyhatározó Cél Időhatározó/PP/ragozo= NP Idő Budapesti Műszaki és Gazdaságtudományi

Gépi fordítás Szabályalapú rendszerek morfoszintakfkai és szemanfkai elemzés nyelv- független általánosítás szöveg generálása a célnyelven Stafszfkai rendszerek Parallel korpuszok: (fordítóprogramok betanítása) A ke=ő kombinációja Budapesti Műszaki és Gazdaságtudományi

Webforditas.hu Az olvasónak mindenesetre jó találgatást és kevés tévedést kívánnak a szerkesztők. The editors wish the reader a good guessing and few mistakes whatever. A szerkesztők kívánnak az olvasó egy jó találgató és kevés hiba bármi. Budapesti Műszaki és Gazdaságtudományi

A google fordító mint példa Stafszfkai elemzések Nagy mennyiségű kétnyelvű szövegkorpuszok Öntanuló algoritmus Felhasználói visszajelzések figyelembe vétele

Szövegkivonatolás Kivonatolás Szavak, szókapcsolatok, mondatok kiválasztása a szövegen belüli gyakoriság és pozíció és az általános gyakoriság alapján Absztraktkészítés Jelentésreprezentáció a szövegről, és ez alapján generál összefoglalót Budapesti Műszaki és Gazdaságtudományi

Chatterbot- ok ELIZA A.L.I.C.E. többszörös Loebner díjas Jabberwacky Kyle Mitsuku Budapesti Műszaki és Gazdaságtudományi

Köszönöm a figyelmet!