Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.



Hasonló dokumentumok
Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

A HUNGLISH PÁRHUZAMOS KORPUSZ

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

A Mazsola KORPUSZLEKÉRDEZŐ

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Január 7. hétfő. I. Beszédtechnológia, fonológia

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Ismeretlen kifejezések és a szófaji egyértelm sítés

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Magyar nyelvű néprajzi keresőrendszer

Különírás-egybeírás automatikusan

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

A tananyag beosztása, informatika, szakközépiskola, 9. évfolyam 36

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven

Lexikon és nyelvtechnológia Földesi András /

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

A Hunglish Korpusz és szótár

Események detektálása természetes nyelvű szövegekben

Magyar nyelv webes szövegek számítógépes feldolgozása

Igekötős szerkezetek a magyarban

Önálló labor feladatkiírásaim tavasz

Számítógépes alkalmazásai

Számítógépes nyelvészet

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Angol nyelvű összetett kifejezések automatikus azonosítása i

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

PurePos: hatékony morfológiai egyértelműsítő modul

Bevezetés az e-magyar programcsomag használatába

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Szövegbányászat. Pancza Judit SPSS Nyári Iskola

10 A KERESNYELVEK KUTATÁSA, FEJLESZTÉSE, ALKALMAZÁSA- HELYZETKÉP ÉS TRENDEK. Összeáll. dr. Pálvölgyi Mihály. BDF KIT, tanév, 1.

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

a Szeged FC Treebankben

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Nyelvi tudásra épülő fordítómemória

Tartalom. Előszó feladat: Fordítás a megszokott eszközökkel A számítógép hatékony használatáról... 18

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

sallang avagy Fordítótervezés dióhéjban Sallai Gyula

Informatika 9Ny. Az informatikai eszközök használata

Morfológiai újítások a Szeged Korpusz 2.5-ben

A szógyakoriság és helyesírás-ellenőrzés

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

YANG ZIJIAN GYŐZŐ 杨子剑

Analogikus általánosítási folyamatok a gyereknyelvben c. kutatási projekthez

Az Ómagyar Korpusz bemutatása

Javában taggelünk.

2. 3. Keresés az Interneten. Navigáció az Interneten: Megoldások. Internetes keresés buktatói. 1. Keresőmotorok. Webes keresési lehetőségek

Gépi tanulás a gyakorlatban. Bevezetés

STATISZTIKAI GÉPI FORDÍTÁS

Önálló labor feladatkiírásaim tavasz

Magyar nyelvtan tanmenet 4. osztály

A kibővített Magyar történeti szövegtár új keresőfelülete

Egy általános célú morfológiai annotáció kiterjesztése

Tartalomelemzés. Magyar nyelvű előfeldolgozási feladat szövegelemzéshez. Készítették: Halányi Ferenc Paróczi Zsombor Porohnavec József

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

KOPI. Plágiumkeresés különböző nyelvek között MTA SZTAKI DSD. Pataki Máté. Department of Distributed Systems

1.BEVEZETÉS. Subecz Zoltán 1. Információkinyerés természetes nyelvű szövegekből

A nyelvtechnológia alapjai

Klasszikus héber nyelv 4.: Szintaxis

EXKLUZÍV AJÁNDÉKANYAGOD A Phrasal Verb hadsereg! 2. rész

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

A nyelvtudomány rövid története: humanizmus & kora újkor

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

HunLearner: a magyar nyelv nyelvtanulói korpusza

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 25.

Szemantikus Technológia

Jelentésváltozás nélküli interkulturális üzenetváltások a neten

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Nyelvtechnológia a lexikográfia szolgálatában Pajzs Júlia

A magyar létige problémái a számítógépes nyelvi elemzésben

Multimédiás adatbázisok

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Boros Andrea és Ignéczi Lilla Neumann-ház, Budapest. Networkshop 2004 konferencia Győr, április 4 7.

ANGOL NYELV. 1. osztály. köszönés, bemutatkozás és elköszönés számok elmondása 1-19-ig. a tanult dalok közül 3 eléneklése

Szemantikus világháló a BME-n

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

MSD-KR harmonizáció a Szeged Treebank 2.5-ben

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop Április , Pécs

Fordítás, többnyelvűség, szótárak

Átírás:

Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9.

Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing (természetesnyelv-feldolgozás) Computational linguistics (számítógépes nyelvészet) Human language technology (nyelvtechnológia)

Célok az ember-ember, az ember-gép kommunikáció hatékonyabbá tétele az emberi munkavégzés megkönnyítése újszerű, számítógépes termékek és szolgáltatások biztosításával hátrányos helyzetű csoportok (siketek, gyengénlátók, baleset következtében beszédkészségüket elvesztők, idegen nyelveket nem tudók) életminőségének javítása

Nyelvtechnológia a mindennapokban Helyesírás-ellenőrző Webes keresés (Google) Fordítóoldalak (Google Translate, webforditas) Címkézés [origo] Hanghívás Telefonos tudakozó

Részterületek Nyelvi szintek (elemzés): szegmentálás morfológia szintaxis szemantika Alkalmazások (pl.): információ-visszakeresés és kinyerés gépi fordítás

Mi kell a sikeres elemzéshez? Megfelelő program, ill. algoritmus Ezek tanító, illetve tesztadatbázist igényelnek -> kézzel annotált korpusz Kiértékelés: emberi teljesítményhez mérik

Korpusz speciális célokra létrehozott, (gyakran tematikus) adatbázis szöveggyűjtemény nyelvészek (szakértők) kézzel bejelölik (annotálják) a szövegekben a releváns információkat lehet annotáció nélküli is (statisztika, gyakorisági adatok mérése) Magyar Nemzeti Szövegtár Szeged Korpusz és Treebank Webkorpusz

Mondatszegmentálási problémák mondat az a szövegegység, amely nagybetűvel kezdődik és ponttal, kérdőjellel vagy felkiáltójellel zárul nem szokványos írásjel: Mondottam, ember: küzdj és bízva bízzál! szöveg tagolása, formázása HTML-ben: <p><strong>a sofőr közvetített</strong></p><p>a román ügyészség szerint Vantu a csőd előtt jelentős összegeket vont ki az FNI-ből, majd eladta a céget. kisbetűs mondatkezdet: iphone-t kért karácsonyra. írásjel a mondat közepén: A Yahoo! a Yahoo! Inc. amerikai cég védjegye, amellyel egy internetes portált és katalógust üzemeltet.

A szövegszavakra bontás problémás esetei szövegszó: a szövegnek az a részlete, amely két szóköz között helyezkedik el, leszámítva az írásjeleket mondatok vagy bekezdések első szava többszavas kifejezések (kútba esés, Magyar Nemzeti Bank, 3 000 000) számmal írt sorszámnevek (1992. évi LVIII. törvény) pontra végződő rövidítések (stb.) írásjelet tartalmazó szavak (labdarúgóvilágbajnokság, McDonald s)

Morfológiai elemző Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését és a hozzájuk tartozó szótöveket magyar vs. angol nem gazdaságos szótárban tárolni a szóalakokat új szavak születnek: összetétel, képzés a szótárban való keresés nem elégséges: más módszerek kellenek

Lemmatizálás Szótövesítés: a morfológiai elemző feladata a szóalakot tőre (lemmára) és toldalékokra bontja normális szavak esetén az elemző szótárra + toldaléklistára hagyatkozik ismeretlen (új, szótárban nem szereplő) szavak (pl. a tulajdonnevek) nincsenek benne a szótárban -> csak a toldaléklista elérhető -> lehetséges toldalékok levágása a szó végéről (Pannon Pann?)

Automaták a morfológiában

Szófaji egyértelműsítés Part-of-speech (POS)-tagging POS-tagger A morfológiai elemző által adott kódok közül kiválasztja az adott környezetbe illőt: Megcsípett, a szemét! V DET N-NOM Hol csípte meg? ADV V PREV A szemét. DET N-ACC (ADV: határozószó, DET: névelő, N-ACC: tárgyesetű főnév, N-NOM: alanyesetű főnév, PREV: igekötő, V: ige) Szekvenciajelölés MEMM vagy CRF

Magyar morfológiai elemzők és POS-taggerek Hunmorph Hunpos Humor magyarlanc http://mokk.bme.hu/resources/hunmorph http://www.inf.u-szeged.hu/rgai/magyarlanc

Szintaxis Szavak között levő kapcsolatok azonosítása gépi úton: adott mondathoz az elemzési fákat megtalálni és kiválasztani a legjobbat Parsing parser Sekély vs. mély elemzés Részleges elemzés (chunking) főnévi csoportok (NP-k)

Szintaxiselméletek függőségi nyelvtanok frázisstruktúra-nyelvtanok szabad szórendű nyelvek leírására különösen a függőségi nyelvtanok hasznosak kötött szórendű nyelvekre jók a frázisstruktúra-nyelvtanok

Szintaktikai többértelműség bővítmények csatolása: Láttam a lányt a távcsővel. Kinél van a távcső? mellérendelés: (Sikoltozó (gyerekek és anyukák)) szaladgáltak a játszótéren. ((Sikoltozó gyerekek) és (anyukák)) szaladgáltak a játszótéren. szintaktikai egyértelműsítés: az összes lehetséges fa előállítása a mondathoz és a legjobb kiválasztása Show me the meal on Flight UA 386 from San Francisco to Denver. 14 elemzési fa

Magyar treebankek és elemzők Szeged Treebank: frázisstruktúra dependencia Hunpars MetaMorpho magyarlanc

Szemantika Tartalmi elemzés automatikusan? Szöveg jelentésének megragadása távoli cél Információkinyerést és gépi fordítást nagyban segítené Szavak jelentésének azonosítása könnyebb jelentésegyértelműsítés (word sense disambiguation, WSD)

Alkalmazások Az előző technológiák, algoritmusok, elemzők stb. gyakorlati hasznosítása A jéghegy csúcsa Hétköznapi ember számára is hasznos Információ-visszakeresés Információkinyerés Gépi fordítás

Információ-visszakeresés Information retrieval (IR) Olyan dokumentumok összegyűjtése, melyek relevánsak az adott keresés szempontjából Keresőprogramok Szemantikus web Kell(ene) hozzá: WSD (póló) Lemmatizálás (foci, focinak, focival stb.) Tagadás és bizonytalanság felismerése

Információkinyerés Information extraction (IE) Nyers strukturálatlan szövegből strukturált információ Pl. gazdasági hírekből (teljes mondatokból) rendezett n-esek kinyerése: Eladó-vevő-áru-érték Hatékonyabb, de nagyobb szakértői tudást igényel Általában doménspecifikus megoldások (üzleti hírek vs. orvosi szövegek)

IE-alkalmazások Névelem-felismerés Anonimizálás Orvosi, biológiai dokumentumokból információ kigyűjtése Véleménykinyerés Címkézés, kulcsszókinyerés

NE-felismerés NE = Named Entity ~ tulajdonnevek és azonosítók Rendszámok, telefonszámok, webcímek - reguláris kifejezésekkel felismerhetők Alkalmazásfüggő, mi számít NE-nek (vegyületek, génnevek, páciens neve, orvos neve ) 4 klasszikus kategória: PER (person személy), ORG (organization szervezet), LOC (location hely), MISC (miscellaneous egyéb)

Miért kell a NER? NE-k különleges bánásmódot igényelnek George Bush György Bokor? Barack Obama Peach Obama? Kovács János János Kovács ENSZ UN Beijing Peking Anonimizálás: azonos típusúra lecserélni

Orvosi-biológiai IE automatikus BNO-kódolás (betegségek nemzetközi osztályozása) betegek dohányzási státuszának, káros szenvedélyeinek megállapítása kórlapok alapján elhízottság és kapcsolódó betegségek megállapítása kórlapok automatikus osztályozása pl. a fentiek alapján

Kivonatolás Címkézés / kulcsszókinyerés: dokumentumokhoz azok tartalmát jól tükröző szavak, kifejezések hozzárendelése [origo] Véleménykinyerés: fórumokból, blogokból a szerzők véleményének megállapítása egy adott témával kapcsolatban -> piackutatás, fogyasztói visszajelzések megismerése

Gépi fordítás Nehéz feladat: jelentést kell visszaadni, ugyanakkor a másik nyelv morfológiai és szintaktikai szabályainak is meg kell felelni Jelenleg a minőség (jelentősen) elmarad az emberi fordítástól DE: bizonyos részterületeken elég Receptek Időjárás-jelentés Óriási igény lenne rá, főleg Magyarországon

Domének EU: nyersfordítás készítése, amit emberi erővel ellenőriznek / javítanak Szépirodalom: nagyon nehéz, megoldhatatlan Szakszövegek, használati utasítások: elég jól automatizálható, minimális emberi erőforrás

Módszerek Példaalapú: adatbázisban tárolt mondatok/kifejezések közül melyikre hasonlít legjobban Szótáralapú: gyenge, rokon nyelvekre lehet jó (szintaktikai) transzfer alapú: legtöbb módszer ezt használja, tűrhető megoldások Interlingua: köztes nyelvre fordít utópia

Fejlesztések MetaMorpho (www.webforditas.hu) Hunglish nyersfordító Emberi fordítást segítő eszközök fejlesztése: intelligens szótárak lexikai adatbázisok fordítómemóriák párhuzamos korpuszok

2006-ból Összetett szavak: Vicces példák bányászszív [miner sucks] bulvárszíndarab [boulevard colour][ piece] gyertyamártás candle sauce habképző [foam][ derivational suffix] hajsütés hair baking halálnem death gender halmajonéz [dying mayonnaise] hóhányás [snow][ vomit] hóhullás [snow][ corpse] hőképzés [heat][ training] hőkiütés [heat][ knockout] időjóslat [time][ prophecy] + light verb construction fényigeszerkezet (2012)

Magyar-angol fordítás Nyelvtani hiányosságok: Ma te vigyáztál a gyerekeire, nem? [Today][ you] vigyáztál[ his children],[ gender]? (MetaMorpho) Yet today your are take care the about your child, not? (InterTran) You looked after her children today, didn t you? (referencia)

Angol-magyar fordítás Többjelentésű szó nem megfelelő jelentésben: Her children go to the same school as mine. A gyerekei bányaként járnak ugyanabba az iskolába. (MetaMorpho) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) A gyerekei ugyanabba az iskolába járnak, mint az enyémek. (referencia)

Angol-magyar fordítás Többjelentésű szó nem megfelelő jelentésben: There are no biscuits left! Kekszek nincsenek balra! (MetaMorpho) Nincs kétszersültek bal! (InterTran) Nincs több keksz! (referencia)