Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Hasonló dokumentumok
Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

A HUNGLISH PÁRHUZAMOS KORPUSZ

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

A Mazsola KORPUSZLEKÉRDEZŐ

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Szemantikus Technológia

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Bevezetés a nyelvtudományba

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Szemantikus világháló a BME-n

Könnyen, Gyorsan Angolul!

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

MESTERSÉGES INTELLIGENCIA ÉS HATÁRTERÜLETEI

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

A szemantikus világháló oktatása

Természetesnyelv-feldolgozás. Mesterséges intelligencia május 9.

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

MAGYAR NYELVÉSZETI TÁRGYAK ISMERTETÉSE BA NYELVTECHNOLÓGIAI SZAKIRÁNY

GYAKORLATI FILOZÓFIA FILOZÓFIA TANÉV II. ELŐADÁS SZEPT. 18.

2.5 A LKALMAZÁSI ESZKÖZÖK

Kognitív módszerek a vallástudományban és a hebraisztikában

PROGRAMTERVEZŐ INFORMATIKUS ALAPKÉPZÉSI SZAK

A kibontakozó új hajtóerő a mesterséges intelligencia

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Korpuszlekérdezők evolúciója

TUDOMÁNYOS MÓDSZERTAN ÉS ÉRVELÉSTECHNIKA

A gyakorlatok során pszichológiai kísérletek és tesztek kerülnek bemutatásra az észlelés, képzelet, figyelem, tanulás, emlékezés témaköreiből.

2006. szeptemberétől. kódja

Záróvizsgatételek Kognitív Tanulmányok mesterszak, Filozófia:

Mérnökinformatikus alapszak (BSc)

Szoftver-technológia I.

A 2018-as Modellező (A) specializáció tanegységei. Számítógépes rendszerek

PÁRHUZAMOS IGEI SZERKEZETEK

TANMENETJAVASLATOK. Általánosságban: egy lecke mindig egy heti anyagot jelent, a heti óraszámnak megfelelően.

Mi legyen az informatika tantárgyban?

2220 Vecsés (Magyarország)

A személyiségtanuláselméleti megközelítései

Egy kvantitatív szemiotika felé? Takács Boglárka

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

. Argumentumszerkezet: Lexikai szabályok, vagy konstrukciók? Kálmán László március 6.

Informatikai Kar Eötvös Loránd Tudományegyetem Mesterséges neuronhálók

MÉRNÖKINFORMATIKUS ALAPSZAK TANULMÁNYI TÁJÉKOZATÓ 2017.

A szótárról. 1. Mi ez?

Tanegységlista (BA) Szabad bölcsészet alapszak elméleti nyelvészet szakmai modul (specializáció) 2018-tól fölvett hallgatóknak

Tudásalapú információ integráció

Internetes Statisztikai Felmérés ISF 2007

A nyelvészet története okt. 15. Communicatio PhD, A nyelv rendszere

BIRTOKLÁST KIFEJEZŐ VAN (HAVE GOT) (valakinek VAN valamije)

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Négy Hét Alatt Alapszinten Angolul. GYAKORLÁS nap

A Hunglish Korpusz és szótár

Nyelv és gondolkodás

Mi a mesterséges intelligencia? Történeti áttekintés. Mesterséges intelligencia február 21.

Mi ez pontosan? Miért készült? Miért nehéz?

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop Április , Pécs

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet MANYE vitaülés február 20.

Igekötős szerkezetek a magyarban

Közgazdász hallgatók szaknyelvi készségeinek fejlesztése elektronikus tananyag segítségével

Nyelvtudományi irányzatok és módszerek a 20. században

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

A 2017 szeptemberétől érvényes kurzuslisták BA major szakosok nyelvészeti tárgyai

Az emberi információfeldolgozás modellje. Az emberi információfeldolgozás modellje. Alakészlelés. Más emberek észlelése.

Ismerkedjünk meg a Linuxszal!

UTAK: Zene és zenehallgatás társadalomtudományi kutatásokban I.

Active / Passive Verb Forms Cselekvő és szenvedő igék

Téma: Az írástudók felelőssége

Kurzuskód Kurzus címe, típusa (ea, sz, gy, lab, konz stb.) Tárgyfelelős Előfeltétel (kurzus kódja) típusa

Számítógépes döntéstámogatás. Bevezetés és tematika

ÁLTALÁNOS NÉVMÁSOK. pl. Both Fred and Barney are intelligent. (Frédi és Béni is intelligens.)

EXKLUZÍV AJÁNDÉKANYAGOD ÖNÖK KÉRTÉK VALÓDI BESZÉLT ANGOL + BEÉGETŐS

Amerikából jelentem CXXXI. - No problem vs you're welcome or uh-huh

A roma közösségekben dolgozó védőnők munkafeltételeinek javítása című projekt OKTATÁSI ANYAG

SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN

Projekt beszámoló. Könyvelési Szakértői Rendszer Kifejlesztése Repetitív Könyvelési Feladatok Szabályalapú Feldolgozására

Áldás az Adminisztrátornak

Tartalom. Bevezetés 11

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

A Jövő Internet Nemzeti Kutatási Program bemutatása

Programtervező informatikus BSc 2018, Szoftverfejlesztő specializáció ajánlott tantervi háló. Törzsanyag. Konzultáció Kredit

Programtervező informatikus. Tanári. szakirányok mintatanterve szeptemberétől

Bánki Zsolt István Csáki Zoltán Petőfi Irodalmi Múzeum Könyvtár és Informatika. Networkshop 2014 Pécs

YANG ZIJIAN GYŐZŐ 杨子剑

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Könnyen, Gyorsan Angolul!

A magyar létige problémái a számítógépes nyelvi elemzésben

4 ÉVFOLYAMOS FELVÉTELI EREDMÉNYEK

MATEMATIKA - STATISZTIKA TANSZÉK

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Mesterséges intelligencia, 7. előadás október 13. Készítette: Masa Tibor (KPM V.)

Könnyen, Gyorsan Angolul!

Integrált gyártórendszerek. Ágens technológia - ágens rendszer létrehozása Gyakorlat

ELTE, matematika alapszak

Félévi óraszám Ajánlott félév. Követelmény. Heti óraszám. Felvétel típusa. Kreditpont. Felvétele. típusa

A programozó matematikus szak kredit alapú szakmai tanterve a 2003/2004. tanévtől, felmenő rendszerben

Átírás:

NYELVTECHNOLÓGIA Sass Bálint sass@digitus.itk.ppke.hu Pázmány Nap 2007. október 17.

1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS

1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS

BEVEZETŐ Language makes us human. Turing teszt nyelv és gondolkodás nyelv gondolkodás (Sapir Whorf) minden nyelv azonos mértékben alkalmas a gondolatok kifejezésére nyelv, nyelvi képesség vizsgálata agy működése, intelligencia

MI A NYELVTECHNOLÓGIA? Célja a beszélő gép létrehozása. szükséges hozzá: beszédértés és -szintézis, mély megértés, információ kivonatolás, következtetés Az emberi nyelvhasználatot leíró modellek gyakorlati, számítógépes megvalósításával foglalkozik. Az emberi nyelvi képesség számítógépes aspektusaival foglalkozik. Az információfeldolgozásnak a természetes nyelvek kezelésére szakosodott területe. Az internet nagyrészt szöveg. Nyerjük ki a szükséges/lényeges tartalmat. A nyelvi technológiák szerepe kettős: egyfelől rendkívül fontos eszközei az európai kulturális örökség megőrzésének, másfelől a gazdasági növekedés forrását jelentik. (EU)

KAPCSOLÓDÓ TUDOMÁNYOK nyelvészet, pszichológia, logika kognitív tudomány matematika, statisztika számítástudomány, mesterséges intelligencia szoftvertechnológia, adatbányászat

TERÜLETEI Elemzési szintek: morfológia szintaxis szemantika: WSD, ontológiák, anafora-feloldás... Alkalmazások: helyesírásellenőrzés, elválasztás kereséstámogatás információ kivonatolás és osztályozás természetes nyelvi interfészek gépi fordítás

SZABÁLYOK VS. STATISZTIKA számítógépek teljesítménynövekedése + korpuszalapú gépi tanulóeljárások kifejlesztése ugrásszerű fejlődés korpusz: elemzett szöveggyűjtemény Magyar Nemzeti Szövegtár Magyar Webkorpusz http://corpus.nytud.hu/mnsz http://mokk.bme.hu/resources/webcorpus

1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS

TÖBBÉRTELMŰSÉG: MORFOLÓGIA csontváza darabot középállás http://corpus.nytud.hu/ joker/demo/egy

TÖBBÉRTELMŰSÉG: MORFOLÓGIA csont váz a darab o t közép állás http://corpus.nytud.hu/ joker/demo/egy

TÖBBÉRTELMŰSÉG: MORFOLÓGIA csont váza dara bot közé pállás http://corpus.nytud.hu/ joker/demo/egy

TÖBBÉRTELMŰSÉG: MÉLY MEGÉRTÉS Ő az, aki három éve beugrott helyettesíteni a leányfalui lelkigyakorlatos házba előadóként meghívott, de időközben megsebesült Cantalamessa atyát, a pápa gyóntatóját. Ha nem vigyázunk, úgy múlik el József Attila centenáriuma, hogy a magyarság nagyobb része nem is értesül róla. Készült ugyan egy filmsorozat a költő életéről és poéziséről, a négyrészes Eszmélet után; ezt 2004 decemberében a Duna Televízió be is mutatta...

TÖBBÉRTELMŰSÉG: MÉLY MEGÉRTÉS Ő az, aki három éve beugrott helyettesíteni a leányfalui lelkigyakorlatos házba előadóként meghívott, de időközben megsebesült Cantalamessa atyát, a pápa gyóntatóját. Ha nem vigyázunk, úgy múlik el József Attila centenáriuma, hogy a magyarság nagyobb része nem is értesül róla. Készült ugyan egy filmsorozat a költő életéről és poéziséről, a négyrészes Eszmélet után; ezt 2004 decemberében a Duna Televízió be is mutatta...

TÖBBÉRTELMŰSÉG: MÉLY MEGÉRTÉS Ő az, aki három éve beugrott helyettesíteni a leányfalui lelkigyakorlatos házba előadóként meghívott, de időközben megsebesült Cantalamessa atyát, a pápa gyóntatóját. Ha nem vigyázunk, úgy múlik el József Attila centenáriuma, hogy a magyarság nagyobb része nem is értesül róla. Készült ugyan egy filmsorozat a költő életéről és poéziséről, a négyrészes Eszmélet után; ezt 2004 decemberében a Duna Televízió be is mutatta...

TÖBBÉRTELMŰSÉG: MÉLY MEGÉRTÉS Ő az, aki három éve beugrott helyettesíteni a leányfalui lelkigyakorlatos házba előadóként meghívott, de időközben megsebesült Cantalamessa atyát, a pápa gyóntatóját. Ha nem vigyázunk, úgy múlik el József Attila centenáriuma, hogy a magyarság nagyobb része nem is értesül róla. Készült ugyan egy filmsorozat a költő életéről és poéziséről, a négyrészes Eszmélet után; ezt 2004 decemberében a Duna Televízió be is mutatta...

1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS

TÉMÁM: MAGYAR IGEI KERETEK Altschuler elégedetlenül ráncolta össze a homlokát, egyesek semmiféle kapcsolatban sem álltak az ellenzéki mozgalommal, nyilván csak azért kerültek be a névsorba, mert Rákosi egy füst alatt más természetű vitáit is rendezni kívánta, de a valóban résztvevők is csak a második-harmadik vonulatát alkották a mozgalomnak.

TÉMÁM: MAGYAR IGEI KERETEK Altschuler elégedetlenül ráncolta össze a homlokát, egyesek semmiféle kapcsolatban sem álltak az ellenzéki mozgalommal, nyilván csak azért kerültek be a névsorba, mert Rákosi egy füst alatt más természetű vitáit is rendezni kívánta, de a valóban résztvevők is csak a második-harmadik vonulatát alkották a mozgalomnak. összeráncol homlokát áll kapcsolatban vmivel bekerül vmibe rendez vmit (füst alatt) alkot vmijét vminek Célom: a magyar igék bővítményszerkezetének feltárása.

KERET-BÖNGÉSZŐ: MAZSOLA

KERET-BÖNGÉSZŐ: MAZSOLA http://corpus.nytud.hu/mazsola Felhasználói név: pazmanynap jelszó: 2007

ALKALMAZÁS: GÉPI FORDÍTÁS

ALKALMAZÁS: GÉPI FORDÍTÁS http://www.webforditas.hu

ALKALMAZÁS: GÉPI FORDÍTÁS Fülön csípték a tolvajt. Csípi a szememet a füst. Kudarcot vallottak. Egy fess fiatalemberré nőtte ki magát. De: Látogatóba jöttünk hozzátok.

ALKALMAZÁS: GÉPI FORDÍTÁS Fülön csípték a tolvajt. The thief was caught. Csípi a szememet a füst. The smoke stings my eye. Kudarcot vallottak. They failed. Egy fess fiatalemberré nőtte ki magát. He grew into a comely young man. De: Látogatóba jöttünk hozzátok. Into a visitor we were added to you.

IGEPROFILOK AUTOMATIKUS ELŐÁLLÍTÁSA Cél: nyelvfüggetlen (!) igekeret-feltérképező algoritmus Lehetséges alkalmazás: automatikus szótárgenerálás forog 20% forog vmiben 7% forog vmin 5% forog vmi körül 4% forog veszélyben 4% forog kockán 4% forog vmivel 2% forog sírjában 2% forog vmit 2% forog veszélyben élete 1%

IGEPROFILOK AUTOMATIKUS ELŐÁLLÍTÁSA Cél: nyelvfüggetlen (!) igekeret-feltérképező algoritmus Lehetséges alkalmazás: automatikus szótárgenerálás húz vmit 17% húz 5% húz vmit vmire 3% húz időt 3% húz hasznot vmiből 3%

IGEPROFILOK AUTOMATIKUS ELŐÁLLÍTÁSA Cél: nyelvfüggetlen (!) igekeret-feltérképező algoritmus Lehetséges alkalmazás: automatikus szótárgenerálás megköszörül torkát 89% megköszörül vmit 9%

ÉLŐSÉG Alszik. Elromlott.

ÉLŐSÉG Alszik. He is sleeping. Elromlott. It has gone wrong.

ÉLŐSÉG Alszik. He is sleeping. Elromlott. It has gone wrong. Adott ige alanya élő vagy élettelen?

ÉLŐSÉG Alszik. He is sleeping. Elromlott. It has gone wrong. Adott ige alanya élő vagy élettelen? Előzetes eredmény pontosság: 94%

ÉLŐSÉG Alszik. He is sleeping. Elromlott. It has gone wrong. Adott ige alanya élő vagy élettelen? Előzetes eredmény pontosság: 94% Köszönöm a figyelmet!