A nyelvtechnológia alapjai



Hasonló dokumentumok
Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

YANG ZIJIAN GYŐZŐ 杨子剑

KREATÍVAN HASZNÁLHATÓ IDEGENNYELV-TUDÁS MEGSZERZÉSÉNEK NYELVPEDAGÓGIÁJA NEUROLINGVISZTIKAI MEGKÖZELÍTÉSBEN

Logika nyelvészeknek, 11. óra A kvantifikáció kezelése a klasszikus és az általánosított kvantifikációelméletben

Számítógépes nyelvészet

IDEGEN NYELVEK TANÍTÁSA A NEMZETKÖZI ÉRETTSÉGI (IB) PROGRAMBAN LANGUAGE B

Beszédfelismerés, beszédmegértés

Jelentésváltozás nélküli interkulturális üzenetváltások a neten

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation

A héber nyelv története

TBL05A01 Bevezetés a matematikába. 2 7 m K I.

SZEMLE. Szemle 89. Cambridge University Press, Cambridge, lap

AZ INFORMATIKA OKTATÁSÁNAK MÚLTJA ÉS JELENE A KOLOZSVÁRI EGYETEMEN

A MAGYAR NYELV ÉS IRODALOM ÉRETTSÉGI VIZSGA ÁLTALÁNOS KÖVETELMÉNYEI

Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 25.

Az informatika fejlõdéstörténete

HELYI TANTERV MATEMATIKA (emelt szintű csoportoknak) Alapelvek, célok

EMMI kerettanterv 51/2012. (XII. 21.) EMMI rendelet 2. sz. melléklet Matematika az általános iskolák 5 8.

MATEMATIKA 5 8. ALAPELVEK, CÉLOK

A JOGI NYELV NYELVÉSZETI MEGKÖZELÍTÉSE VINNAI EDINA

NN: Német nemzetiségi tagozat Tantárgyak és óraszámok Tantárgy 9. évfolyam. 10. évfolyam. 11. évfolyam Kötelező tantárgyak Magyar nyelv és irodalom 2

MAGYAR NYELV ÉS IRODALOM


Számítógépes adatbiztonság

/Gyula Szent István út 38./ Szakiskolát végzettek szakközépiskolai érettségire történő felkészítésének helyi tanterve

Előzetes követelmény(ek): Feltételezett tudásanyag, előképzettségi szint: Szervezés 1. Oktató tanszék(ek) 6 :

KÖSZÖNTJÜK HALLGATÓINKAT!

MAGYAR NYELV ÉS IRODALOM

Matematika. Padányi Katolikus Gyakorlóiskola 1

A nyelvelsajátítás tipikus menete

Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...)

MAGYAR NYELV ÉS IRODALOM... 3 TÖRTÉNELEM ÉS ÁLLAMPOLGÁRI ISMERETEK HON- ÉS NÉPISMERET TÁNC ÉS DRÁMA... 43

Matematika helyi tanterv 5 8. évfolyam számára Alapelvek, célok

TÁJÉKOZTATÓ SZOLGÁLTATÁSOKRÓL

MATEMATIKA ÉVFOLYAM

KÖVETELMÉNYEK 2015/ félév. Informatika II.

TANTÁRGYI ÚTMUTATÓ. Statisztika 2. normál kurzusok számára

Árpád Fejedelem Gimnázium és Általános Iskola Megyervárosi Iskola MÁSODIK IDEGEN NYELV

H. Tomesz Tímea A TARTALOMHOZ FORMA. A tömegkommunikáció szövegfajtái történeti és pragmatikai keretben

Informatikai alapképzésben vizsgázó hallgatók eredményei a kreativitás tükrében

5. évfolyam. Gondolkodási módszerek. Számelmélet, algebra 65. Függvények, analízis 12. Geometria 47. Statisztika, valószínűség 5

Magyar nyelv és irodalom (nyelvtan)

OKOS VÁROS FOGALMA, KONCEPCIÓJA, LEHETSÉGES ÉRTÉKELÉSI MÓDSZEREI

E GY L a f v sz Művészeti stúdiumok MA I. félév 4 v 4 5

Csalásfelderítés és előrejelzési megoldás május 20.

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

II. Gyermeknyelv, anyanyelvelsajátítás

A SZORONGÁS FENOMENOLÓGIÁJA

Pedagógiai program. IX. kötet

A TÚLTERHELÉS SZERINTI KIS STABILITÁSSAL RENDELKEZŐ MEREVSZÁRNYÚ REPÜLŐGÉPEK NÉHÁNY JELLEMZŐ TULAJDONSÁGA

INFORMATIKAI ALAPISMERETEK

Pléh Csaba Eszterházy Károly Főiskola Kognitív és Kommunikációs Kutatócsoport

KLASSZIKA-FILOLÓGIA MESTERKÉPZÉSI SZAK Indított szakirány : latin

A4. Hőre lágyuló műanyagok melegalakítása

Miért érdekes kétnyelvűeket vizsgálni?

Mintatanterv magyartanár -- német nyelv és kultúra tanára szakos hallgatók számára Közös képzési szakasz

A TANTÁRGY ADATLAPJA

HELYI TANTERV MATEMATIKA GIMNÁZIUMI OSZTÁLYOK

Szent József Katolikus Általános Iskola és Óvoda Helyi tanterv Nem szakrendszerű tanterv

MAGYAR NYELV ÉS IRODALOM 9 12.

GYAKORLÓISKOLAI RENDSZER SZTENDERDIZÁLÁSA ÉS STRATÉGIA KIALAKÍTÁSA

Matematika évfolyam. tantárgy 2013.

Az elefántcsonttorony átépítése *

A BARCSAY JENŐ ÁLTALÁNOS ISKOLA PEDAGÓGIAI PROGRAMJA III. TANULÓK ÉRTÉKELÉSE

Kombi-alagút szellőzés

TANÁRI MESTERKÉPZÉSI SZAK. Bölcsészettudományi Kar

MAGYAR NYELV ÉS IRODALOM évfolyam

PEDAGÓGIAI PROGRAM ÉS HELYI TANTERV MÓDOSÍTÁSA

NYILVÁNOS KÖNYVTÁRI KATALÓGUSOK

Az Ambiance & Friends Club Card Törzsutas Program Általános Szerződési Feltételei Hatályos: május 29-től

Arany János Általános Iskola Pedagógiai programjának melléklete

Nemzeti alaptanterv 2012 MATEMATIKA

Tantárgy adatlap Operációkutatás

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

Tantárgy adatlap Szociológiai elméletek I.

Tájékoztató kiadvány a megváltozott Munka Törvénykönyvér l

Ismeretlen kifejezések és a szófaji egyértelm sítés

Korszakváltás az energiahatékonyságban: források, szabályozások, lehetőségek Az épületautomatika és energiamenedzsment, mint lehetséges válasz

Hátrányos helyzet = nyelvi hátrány?

Igei szerkezetek gyakorisági szótára

OTKA T LEHETŐSÉGEINEK KULTURÁLIS ALAPJAI. Fejlesztési javaslatunk alapja egy empirikus tapasztalatok alapján kiigazított értékelési módszertan.

HATODIK SÍP. Tartalom XI. ÉVFOLYAM /1-4 HOGYVOLT?

VIZUÁLIS KULTÚRA. 4 évf. gimnázium reál orientáció

Útmutató. a szakdolgozat elkészítéséhez. Szegedi Tudományegyetem Egészségtudományi és Szociális Képzési Kar. (ápoló szakirány számára)

értelmezéséhez, leírásához és kezeléséhez. Ezért a tanulóknak rendelkezniük kell azzal a képességgel és készséggel, hogy alkalmazni tudják

Hegedűs Rita Kötő- és módósítóelemek grammatikája és szemantikája

Útmutató. Az adatszolgáltató adatai Az adatszolgáltató intézmény adatait olvashatóan, nyomtatott nagybetűkkel kell kitölteni.

SZÁMOLÁSTECHNIKAI ISMERETEK

Francia C nyelvi programkövetelmény

Ma már senki sem vitatja, hogy az idegen nyelv megtanulásának elengedhetetlen

Az irodalomtudomány alapjai. Anglisztika alapszak Germanisztika alapszak

II. RÉSZ Kompetenciafejlesztés, műveltségközvetítés, tudásépítés

Idő/Terem Aula Aud. Max. IX. terem X. terem Szerda Csütörtök Szerda Csütörtök Szerda Csütörtök Szerda Csütörtök

P. Lakatos Ilona T. Károlyi Margit Iglai Edit, Változó nyelvhasználat a hármas határ mentén

Szemantikus Technológia

Pszichológia témájú tájékoztató vélemény. Általános tájékoztató

Tudományközi beszélgetések

Kommunikatív nyelvi tesztek kritériumai 1

Átírás:

Prószéky Gábor A nyelvtechnológia alapjai 2015/2016 tanév, 1. félév

A tantárgy órái 2015-ben 1. óra: szeptember 9. 2. óra: szeptember 16. (elmarad: szeptember 23.) 3. óra: szeptember 30. 4. óra: október 7. 5. óra: október 14. 6. óra: október 21. (őszi szünet: október 28.) 7. óra: november 4. 8. óra: november 11. 9. óra: november 18. 10. óra: november 25. 11. óra: december 2. 12. óra: december 9.

A tantárgy felépítése Előadás: szerdánként heti 3 óra, azaz max. 135 perc menete: két részben, egy (kis) szünettel kezdete: 9.15 (pontosan), vége: 11.40 (témától függően) Gyakorlatok: heti 2 óra gyakorlatvezető: Yang Zijian Győző Követelmény: jelenlét előadáson (80%) és gyakorlaton is + aktivitás az órán + házi feladatok megoldása + 2 zárthelyi dolgozat (pótlása kritikus!) + kötelező vizsga az idei (!) előadások anyagából (a diák az előadások után elérhetek lesznek)

Miről lesz szó ebben a tárgyban? (A tantárgy vázlatos tematikája) A szövegek kódolása Véges állapotú módszerek a nyelvtechnológiában Szóelemzés és -generálás A szóelemzés szerepe a gyakorlatban A mondatok szerkezete és elemzésük Szemantika, világábrázolás, ontológiák Intelligens szótárak Fordítástámogatás, fordítómemóriák Gépi fordítás...

A tantárgy irodalmához Folyóiratok: Computational Linguistics Natural Language Engineering Journal of Corpus Linguistics Language Resources and Evaluation Machine Translation Alapkönyv: Daniel Jurafsky & James Martin: Speech and Language Processing. Prentice-Hall, 2000/2008

Magyar irodalom és egy egyedülálló archívum Prószéky Gábor: Számítógépes nyelvészet. Számalk, 1989 Prószéky Gábor & Kis Balázs: Számítógéppel emberi nyelven. SZAK, 1999 Prószéky Gábor: A nyelvtechnológia (és) alkalmazásai. Aranykönyv, 2005 ACL Anthology http://aclweb.org/anthology-new/

A nyelvtechnológia alapjai 1. A nyelvtechnológia története

A nyelvtechnológia evolúciója 1950-60: ötletek (vannak már gépek) 1960-70: kísérletek (kialakulnak az igények) 1970-80: programok (megjelennek a használható gépek) 1980-90: termékek (a gépek kapacitása megnő) 1990-től: technológia (a kommunikációs helyzet megváltozik) 2000-től: ipar (egyre több a feldolgozandó szöveg) 2010-től: internet

A nyelvtechnológia elnevezései MT CL NLP LE HLT machine translation gépi fordítás computational linguistics számítógépes nyelvészet natural language processing természetesnyelv-feldolgozás language engineering nyelvmérnökség human language technologies humán nyelvtechnológiák

A gépi nyelvészet történelmének kezdetei Általános tapasztalat: a nyelv változik Ezért: a nyelvészet a 20. századig = történeti nyelvészet A deskriptív nyelvészet mechanikus segédért kiált (ami a preskriptív nyelvészetnek is jól jön majd!) A számítógép és a gépi fordítás gondolata egyaránt a világháború hozadéka Booth és Weaver: sifrírozás/desifrírozás (1947 49) Bar-Hillel (1951): a teljesen automatikus gépi fordítás megvalósítható A gépi fordítás bemutatkozik (némi kormánytámogatással): Georgetown/IBM Szovjetunió és Kelet-Európa: ott inkább matematikai nyelvészet Magyarországon is megindul a gépi fordítás kutatása

Modern nyelvelméletek és elméletmentes gépi kísérletek Generatív grammatika: Chomsky: Syntactic Structures (1957) Probléma: a transzformációk nem invertálhatók A számítógépes elemezni akar elsősorban, és nem generálni Amit inkább használnak: kategoriális (Bar-Hillel 1953), füzér- (Harris 1955) és függőségi (Tesniére1957) leírások Bar-Hillel (1959): a teljesen automatikus gépi fordítás (FAMT) nem lehetséges Kis (tudománypolitikai) kitérő: hidegháború és holdraszállási program (1961) Katz & Fodor (1963): megjelenik a szemantika! Chomsky Aspects of the Theory of Syntax (1965): szintaktikai jegyek (következmény: szabály -> szabályosztály) A gépi fordítási korszak vége (1966): az ALPAC Report (ahol igen korán megjelenik a fordítómemóriák alapgondolata!)

Önálló gépi nyelvelméletek? ALPAC-következmény: a számítógépes nyelvészet (computational linguistics: CL) megszületése Woods (1969): Lunar (holdprogram!) Egy korszak-meghatározó melléktermék: Augmented Transition Network (ATN) Winograd (1972): a nyelv procedurális közelítése (SHRDLU) Mesterséges intelligencia számítógépes pszicholingvisztika A gépi fordítás nagy túlélői: Systran (Toma, 1968 EC, 1976 & Gachot, 1986) Logos (vietnami háború Wang/IBM/Sun, 1970 ) Metal (Texas Siemens, 1978) Gépi fordítás az USÁ-n kívül: METEO, Eurotra, DLT és az 5. generációs japán álom Új fogalom: természetesnyelv-feldolgozás (natural language processing: NLP)

Új generatív elméletek és új gépi megoldások Chomsky elejtett fonalának felszedése (1978): a Bay Areanyelvtanok GPSG, LFG, HPSG Frege számítógépesítése : logikai szemantika és a rule-torule hipotézisre épülő gépi fordítás (Rosetta) Winograd nyelvi proceduralitása egy kvázi-elmélet formájában: Language as a Cognitive Process (1983) Elméleti áttörés: a reguláris nyelvtanok és a véges állapotú átmenethálók újjászületése : a kétszintes morfológia (Koskenniemi 1983) Megjelennek az első piaci alkalmazások: helyesírásellenőrzés, elválasztás - Macintosh, majd IBM PC (1985) A gépi fordítás leszáll a PC-re: PC Logos; Siemens Metal > Langenscheidt T1; Systran + Globalink, Kielikone, ProMT Függőségi és tudás-alapú paradigmák a nyelvtechnológiában: kognitív gépi nyelvelméletek, lexikális szemantika ( WordNet 1985)

A statisztika mindenhatósága felé (és tovább) Chomsky: a Governmenet & Binding (1981) újabb változatai a Minimalista program-ig (1995) a transzformáció nem tűnik el A statisztika beszáll a nyelvi modellezésbe (v.ö. Chomsky) Szövegfeldolgozás a beszédtechnológia alapmódszereivel(1992) Van elég géppel feldolgozható szöveg: megszületik a korpusznyelvészet (1995) Nyelv- és beszédfeldolgozás: ebből igazi üzletet lehet csinálni! (2000: L&H, SAIL, majd ScanSoft és Nuance) Kialakul a nyelvtechnológia fogalma és megjelenik a gépi beszédfordítás ígérete (2002) Az IBM mesterségesintelligencia- és nyelvtechnológiai erődemonstrációkat tart: Deep Blue (1997) és Watson (2011) Egy ideig gyakorlati, majd már elvi probléma: még sincs elég adat bizonyos témákhoz és nyelvekhez (sparse data problem) Hibrid megoldások: lehet, hogy az ember is így csinálja?

de a korpusz-alapú közelítés sem annyira új, mint gondolnánk Simonyi Egy új új grammatikai módszert van akar tehát behozni, megjelenőben, könyve inductive mely induktív halad, módon azaz a példákból halad, azaz kiindulva a példákból tanítja kiindulva a szabályt, ismeri fel nem a szabályt. pedig dogmatice. A grammatikát A grammaticát tehát az elolvasott, tehát valami feldolgozott olvasmány szövegek alapján alapján akarja építjük, előadni, úgy úgy hogy a a szabályokat a a tanár gép tanítványai a példák segítségével közreműködésével állítja össze vonhatja statisztikai le ésszerű következtetések következtetések útján. Ezáltal útján. Ilyenképp ez a módszer tehát véget ezen vet módszer az előre véget megadott vet a szabályok lelketlen mechanikus magolásnak, és azt alkalmazásának, észfejlesztő inductióval és azt indukcióval pótolja. Eszerint pótolja. a A szabályok is mélyebben így tárolódnak vésődnek el a gép be a memóriájában, gyermek emlékezetébe, mert amit mert amit magunk magunk találunk, azt azt jobban jobban tudjuk, tudjuk, mint mint amit amit más más mond mond vagy vagy más más tanultat tanultat velünk. velünk. Riedl Frigyes: Simonyi kis nyelvtana (1882)