7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz"

Átírás

1 A nyelvtechnológia eszközei és nyersanyagai 2015/ félév 7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz Laki László

2 A GÉPI FORDÍTÁS FAJTÁI ÉS NEHÉZSÉGEI

3 Fordítási nehézségek Egy szónak több jelentése lehet (homonímia) Szótárból választás Kifejezések felismerése Szerkezeti (nyelvtani) többértelműség Szórendi eltérések Névmások kezelése Igeidők

4 Szabályalapú gépi fordítás A gépi fordítás módszerei Közvetlen fordítás Interlingva Transzfer Példaalapú fordítás Statisztikai gépi fordítás Hibrid Emberi közreműködéssel

5 STATISZTIKAI GÉPI FORDÍTÁS (SMT)

6 A SMT előnyei Az internet segítségével nagyszámú digitálisan tárolt szöveg áll rendelkezésünkre, melyek segítségével nagyméretű korpuszok állíthatók elő A statisztikai gépi fordítórendszerek nem igényelnek speciális nyelvi ismereteket és bármilyen nyelvpárra alkalmazhatók A szabályalapú fordító esetében szükséges, hogy emberi erővel állítsák elő a különböző szabályokat ezzel szemben a statisztikai módszer teljesen automatikus, emiatt olcsóbb az előállítása A módszer kifejezetten alkalmas olyan fordítások elvégzésére, ahol a szövegekben nagyon kevés az eltérés

7 A SMT elméleti háttere Célnyelvi mondatok(t) Zajos csatorna (SMT rendszer) The cat caught the mouse. Forrásnyelvre lefordított mondatok(s ) T = argmax T P T S = argmax T P T P S T Komponensek: Nyelvmodell (folyékonyság) Fordítási modell (helyesség) Dekóder T : legjobb fordítás S : forrásnyelvi mondat T : célnyelvi mondat P T S = φ S T λ φ P LM T λ LM d S, T λ d ω T λ ω

8 Nyelvmodell A következő szó az őt megelőző n-1 szó alapján határozható meg (n-gram modell) Feladata, hogy kiválassza a legjobb fordítást a fordítási modell által adott lehetőségek közül Ezek a valószínűségek a relatív előfordulási gyakoriságból becsülhetők N-gram alapú közelítés a rákövetkező szó feltételes valószínűségére: Egy teljes szósorozat valószínűsége:

9 Fordítási modell A P(f e) fordítási modell feladata, hogy megtalálja az eredményül kapott célnyelvi kifejezésre a legmegfelelőbb bemenetet Párhuzamos korpuszból Szószintű fordítási modell Kifejezés szintű fordítási modell Frázisok megtalálása (e) Frázisok fordításának megtalálása (f) Átrendezési távolság mértéke

10 Szószintű összekapcsolás A macska megfogta az egeret The cat caught the mouse

11 Szószintű összekapcsolás A nagymama macskája megfogta az egeret The mouse was caught by the cat of grandma

12 Dekódolás A dekódoló feladata, hogy egy adott forrásnyelvi mondathoz megtalálja a legjobb célnyelvi mondatot Ez egy keresési feladat A NAGYMAMÁM MACSKÁJA MEGFOGOTT EGY APRÓ EGERET. GRANDMOTHER CAT CAUGHT A LITTLE MOUSE. MY GRANDMOTHER MY GRANDMOTHER S CAT LITTLE MOUSE LITTLE MOUSE. A LITTLE MOUSE

13 SZINTAXIS ALAPÚ GÉPI FORDÍTÁS

14 Egy kifejezés alapú szabály kifejtése [Koehn, 2011]

15 Egy kifejezés alapú szabály kifejtése [Koehn, 2011]

16 Egy kifejezés alapú szabály kifejtése [Koehn, 2011]

17 Egy hierarchikus szabály kifejtése [Koehn, 2011]

18 Egy szintaxis alapú szabály kifejtése [Koehn, 2011]

19 Egy szintaxis alapú szabály kifejtése [Koehn, 2011]

20 NEURÁLIS HÁLÓZAT ALAPÚ GÉPI FORDÍTÁS

21 Neuronháló alapú nyelvmodell

22 Neuronháló alapú nyelvmodell

23 Neuronháló alapú dekóder [Bahdanau et al. 2015]

24 AZ SMT-MODELLEK KÜLÖNFÉLE ALKALMAZÁSAI (SAJÁT KUTATÁSI TEVÉKENYSÉGEM)

25 CIGÁNY-MAGYAR SMT

26 Hasonló morfológiai gazdagságú nyelvpárok Korpusz: Vesho-Farkas-féle lovári nyelvű Újszövetség Cigány-magyar SMT Káldi-féle (Neovulgáta) magyar Újszövetség Eredmény: Sokkal magasabb BLEU Olvashatóbb, érthetőbb fordítás Rendszer BLEU érték Cigány-magyar (MOSES) 30.53% Cigány-magyar (JOSHUA) 29.20% Magyar-cigány (MOSES) 30.38% Magyar-cigány (JOSHUA) 35.88%

27 Példamondat (cigány-magyar) Cigány referenciamondat: le but manusha pale tele sharadine penge gada po drom, kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen. Magyar referenciamondat: a hatalmas tömeg pedig leterítette ruháit az útra, mások meg ágakat vagdostak a fákról és az útra szórták. MOSES fordítás: a nép pedig le terítették ruháikat az úton, mások pedig ágakat phagrenas le a fa, és az úton rispisarnaslen. JOSHUA fordítás: a nép pedig le terítették ruháikat az úton, mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen.

28 Saját doktori munkám MORFÉMA ALAPÚ SMT SZÓRENDI ÁTRENDEZÉSSEL

29 Frázis alapú SMT Probléma Angol magyarra gyenge eredmények a szórend és a morfémák szavakba szerveződése túl különböző A dekóder beépített eszközei nem elég erősek adathiány a morfológiánál a torzítás gyenge modell az átrendezésre

30 Motiváció Angol németre, angol törökre is gyenge eredmények szórendi problémák: mellékmondati szórend inverziós szerkezetek gyakori szóvesztés, illetve rosszul fordított grammatikai szerepek Javulás a forrásnyelvi mondatok átrendezésével [Fraser Gojun 2012, Oflazer Yeniterzi 2010]

31 Módszer Forrásnyelvi mondatok szintaktikai elemzése Célnyelvi mondatok morfológiai egyértelműsítése Forrásnyelvi mondatok átrendezése angol mondatok magyarhoz hasonló szórenddel csak a szisztematikus szórendi különbségeket kezeljük Két modell morfémaalapú szóalapú, faktoros

32 Átrendezési példák in my house in my house my house in ház am ban

33 Példamondat függőségi elemzéssel root(root-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) I sleep in my house. I/PRP sleep/vbp in/in my/prp$ house/nn./.

34 Példamondat függőségi elemzéssel root(root-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) sleep/vbp I/PRP in/in my/prp$ house/nn./.

35 Példamondat függőségi elemzéssel root(root-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) sleep/vbp I/PRP in/in house/nn my/prp$./.

36 Passzív szerkezet

37 Birtokos szerkezet I like to see the sons of the merchants. like/vbp_i/prp see/vb_to/to the/dt merchant/nn sons/nns_of/in_acc/acc./. I like to see the hats of the sons of the merchants. like/vbp_i/prp see/vb_to/to the/dt merchant/nn sons/nns_of/in_nak/nak the/dt hats/nns_of/in_acc/acc./.

38 Morféma alapú modell After you were picked up at sea after/[in] up/[rp] pick/[vb] [PPart] D_they/[P3] you/[prp] acc/[acc] sea/[nn] at/[in] Fordítás miután/[kot] felvesz/[ige] [Past] [t3] [Def] maga/[fn_nm] [t3] [ACC] a/[det] tenger/[fn] [SUP] Generálás miután felvették magukat a tengeren

39 Morféma alapú modell Fordítandó mondat: After you were picked up at sea, our listening post in Malta intercepted that fax. Alaprendszer fordítása: maga után felemelte a tengeren, és az málta elfogtuk, hogy fax. Morfémaalapú rendszer fordítása: miután felvették magukat a tengeren, Máltában lehallgatónk elfogta a faxot.

40 Faktoros szóalapú modell at my request the ceremony was postponed for a year. request/[nn] [NN]my/[PRP$]at/[IN] postpone/[vb] [VB][PPart]D_they/[P3] the/[dt] [DT] ceremony/[nn] [NN]acc/[ACC] a/[dt] [DT] year/[nn] [NN]for/[IN]./[.] [.] Fordítás kérés/[fn] [FN][PSe1][SUB] elhalaszt/[ige] [IGE][Past][t3][Def] a/[det] [DET] szertartás/[fn] [FN][ACC] egy/[det] [DET] év/[fn] [FN][SUB]./[PUNCT] [PUNCT]

41 Faktoros szóalapú modell kérés/[fn] [FN][PSe1][SUB] elhalaszt/[ige] [IGE][Past][t3][Def] a/[det] [DET] szertartás/[fn] [FN][ACC] egy/[det] [DET] év/[fn] [FN][SUB]./[PUNCT] [PUNCT] Generálás kérésemre elhalasztották a szertartást egy évre.

42 Faktoros szóalapú modell Fordítandó mondat: at my request the ceremony was postponed for a year. Fordítás szóalapú rendszer: kérésemre elhalasztották a szertartást egy évre. Fordítás alaprendszer: az én kérésemre a szertartás volt. Fordítás morféma alapú rendszer: kérésemre halasztották a szertartást.

43 Eredmények emberi kiértékelés Minden kiértékelő összehasonlításaiból azonos sorrend állt össze Baseline rendszer (14.57% BLEU) Szóalapú rendszer (14.83% BLEU) Faktoros rendszer (10.88% BLEU) Morféma alapú rendszer (12.22% BLEU) Referenciafordítás A korpusz minőségét jellemzi, hogy a referenciafordítás rangja messze 1 alatt van

44 Rendszerek w-bleu mm-bleu SZÓALAPÚ_T0 13,56% 58,93% SZÓALAPÚ_T6 13,83% 59,32% SZÓALAPÚ_ÁT_T0 14,25% 57,79% SZÓALAPÚ_ÁT_T6 14,85% 58,06% SZÓALAPÚELEMZETT _T0 12,75% 56,10% SZÓALAPÚELEMZETT _T6 12,89% 56,84% SZÓALAPÚELEMZETT _ÁT_T0 13,02% 57,10% SZÓALAPÚELEMZETT _ÁT_T6 13,05% 57,21% MORFÉMAALAPÚ _T0 11,69% 63,18% MORFÉMAALAPÚ _T6 12,19% 63,87% MORFÉMAALAPÚ _ÁT_T0 12,01% 64,24% MORFÉMAALAPÚ _ÁT_T6 12,22% 64,94% FAKTORALAPÚ _T0 9,70% 56,01% FAKTORALAPÚ _T6 9,84% 57,09% FAKTORALAPÚ _ÁT_T0 10,50% 59,56% FAKTORALAPÚ _ÁT_T0_FIX 10,64% 60,28% FAKTORALAPÚ _ÁT_T6 10,78% 59,97% FAKTORALAPÚ _ÁT_T6_FIX 10,88% 60,83% Google Translate 15,68% 55,86% Bing Translator 12,18% 53,05% MetaMorpho 6,86% 50,97%

45 STATISZTIKAI SZÖVEGELEMZŐ

46 Definíció és nehézségek Teljes morfológiai egyértelműsítés Szófaji egyértelműsítés (POS-tagging) Szótövesítés Agglutináló nyelvek Rengeteg különböző szóalak A morfoszintaktikai címkék halmazának mérete Szótövesítés (pl. az ikes igék szótöve)

47 Elméleti háttér arg max p( T W) arg max p( W T) p( T) T HMM-alapú: arg max p( T W) ar T T T arg max P( wi ti) P( ti ti 1, ti 2) T i 1 SMT-alapú: T i k i k arg max ( wi ti ) P( ti ti 1, ti 2,..., ti j ) T i 1

48 1. lépés (morfológiai guesser alkalmazása) Az étkezés egyik nagy forradalmát a konzervek elterjedése jelentette. Guesser Az étkezés egyik nagy forradalmát a <n translation="2##[nc-pn]" prob=" ">konzervek</n> elterjedése jelentette.

49 2. lépés (címkézés és szótövesítés) Az étkezés egyik nagy forradalmát a <n translation="2##[nc-pn]" prob=" ">konzervek</n> elterjedése jelentette. SMT dekóder 0##[Tf] 0##[Nc-sn] 0##[Pi3-sn] 0##[Afp-sn] 2##[Ncsa---s3] 0##[I] 2##[Nc-pn] 1##[Nc-sn---s3] 4##[Vmis3s---y] 0##[.]

50 3. lépés (szótövek generálása) 0##[Tf] 0##[Nc-sn] 0##[Pi3-sn] 0##[Afp-sn] 2##[Nc-sa---s3] 0##[I] 2##[Nc-pn] 1##[Nc-sn---s3] 4##[Vmis3s---y] 0##[.] Generálás Az/az/[Tf] étkezés/étkezés/[nc-sn] egyik/egyik/[pi3-sn] nagy/nagy/[afp-sn] forradalmát/forradalom/[nc-sa---s3] a/a/[i] konzervek/konzerv/[nc-pn] elterjedése/elterjedés/[nc-sn---s3] jelentette/jelent/[vmis3s---y]././[.]

51 Eredmények Nyelv Rendszer Címkepontosság Magyar(MSD) Szótövesítéspontosság HuLaPos2 96,51% 98,60% PurePos 96,35% 97,51% HuLaPos2 96,70% 98,23% Magyar (HUMOR) Horvát Szerb PurePos 96,50% 96,27% PurePos + MA 98,96% 99,53% HuLaPos2 93,25% 96,21% HunPos + CST 87,11% 97,78% HuLaPos2 92,28% 92,72% HunPos + CST 85,00% 95,95%

52 Eredmények Nyelv Rendszer Címke pontosság Portugál Angol Bolgár HuLaPos % HMM-alapú PoS tagger 92.00% TnT 96.48% PBT (SMT-alapú) 96.97% HuLaPos % Stanford tagger % SCCN 97.50% MaxEnt alapú 95.72% MaxEnt alapú + lexikon 97.80% HuLaPos % MaxEnt alapú + lexikon + szabályok 97.98%

53 FORDÍTÓMEMÓRIA INTEGRÁLÁSA

54 Fordítómemória integrálása Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát.

55 Fordítómemória integrálása Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát.

56 Fordítómemória integrálása Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát. A sweet grandma s dog caught the nasty cat.

57 Fordító memória integrálása A kedves nagymama macskája megfogta az egeret. TM match The sweet grandma s macskája caught az egeret. SMT dekóder The sweet grandma s cat caught the mouse.

58 SZÓTÁR HOZZÁADÁSA A KORPUSZHOZ

59 Szótár hozzáadása a korpuszhoz Szótár: mondat Rendszer BLEU érték 1 Alaprendszer fordítása: 10.85% 2 Alap+1xszótár rendszer fordítása: 11.18% 3 Alap+2xszótár rendszer fordítása: 11.01% 4 Alap+3xszótár rendszer fordítása: 10.88% 5 Alap+4xszótár rendszer fordítása: 10.88% 6 Alap+5xszótár rendszer fordítása: 10.87% 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram

60 Példa (angol-magyar) Angol referencia mondat: Magyar referencia mondat: Alaprendszer fordítása: Alap+1xszótár rendszer fordítása: Alap+2xszótár rendszer fordítása: Alap+3xszótár rendszer fordítása: Alap+4xszótár rendszer fordítása: Alap+5xszótár rendszer fordítása: " i wonder who 'll be teaching us? " said hermione as they edged into the chattering crowd. - kíváncsi vagyok, ki tartja a tanfolyamot - morfondírozott hermione, miközben barátaival befurakodtak a tömegbe. - csak tudnám, ki lesz a tanítást? - kérdezte hermione, mikor ő az. - csak tudnám, ki lesz tanított nekünk? - szólt hermione, mikor elindult a jóvoltából. - kíváncsi vagyok, aki tanított nekünk? - szólt hermione, mikor elindult a zsibongó tömeg. - kíváncsi vagyok, ki lesz tanított nekünk? - szólt hermione, mikor elindult az összeverődött tömegen. - kíváncsi vagyok, ki lesz tanított nekünk? - szólt hermione, mikor elindult az összeverődött tömegen. - kíváncsi vagyok, ki lesz tanított nekünk? - szólt hermione, mikor elindult az összeverődött tömegen.

61 A MOZAIK NYELVMODELL

62 Az ANAGRAMMA elemző alprojektje Metódus: emberi megértési minták alkalmazása Minden elérhető információ használata (statisztika és szabályok) Prototípus magyarra, később más nyelveken is tesztelni Kézzel írt szabályok (norma) és statisztika (élettapasztalat)

63 Gestaltok és minták Pléh & Lukács (2014): emberi feldolgozási minták Néhányat már azonosítottak, ezeket követjük Egészleges feldolgozás (Gestalt) Többszavas egységek kezelése, részletes elemzés nélkül Számítógépeknél: cache-elés Cél az elemzés gyorsítása letárolt minták segítségével A grice-i maximákra alapozva Nyelvtechnológiában: korpuszminták Nem feltétlenül teljesen kitöltött szerkezetek!

64 Példák Többszavas kifejezések: a kisebbik kormánypárt, ördög ügyvédje, éjnek évadján, hűlt helye volt Szólásmondások: Hamarabb utolérik, Itt van a kutya Udvariassági sémák: Jó [napszak][acc]!, Szia [keresztnév]! Merev szerkezetek: Az országgyűlés a javaslatot [SZN DIGIT][NOM] igennel elfogadta. Igei szerkezetek: lemma:esik szó [*][DEL] Név + titulus: Orbán Viktor Magyarország miniszterelnöke Névelemek: Petőfi Sándor utcai Általános Iskola

65 Nyelvmodellek vs. korpuszminták A nyelvmodell feladata, hogy megjósolja a következő szót Faktoros nyelvmodellek erre több faktort használnak Nem céljuk, hogy elemzést adjanak Kis n-re csinálnak csak n-gramokat Korpuszminták Elég speciális esetekben léteznek rájuk algoritmusok (Mazsola) Nagy az állapottér

66 Az elérhető korpuszok jellemzői Név Mondatok száma Tokenek száma Mondatokban az átlagos tokenszám Szeged Korpusz ,824 MNSZ ,175 MNSZ ,455 Szószablya ,487 Pázmány Korpusz Méret (n-gram) Szeged Korpusz MNSZ 1 MNSZ 2 Token WLT Token WLT Token WLT 1 1.2E5 1.8E5 6.2E6 9.5E6 7.2E6 8.6E E5 1.7E7 1.3E7 2.0E9 1.9E8 2.5E E5 2.1E8 1.9E7 2.8E10 3.1E8 4.2E E5 1.7E9 1.8E7 2.5E11 3.0E8 4.0E11

67 Eszközök Gyors prototípus-építés + Big Data Memóriába nem fér bele, lemezre kell dolgozni Hátha van egy hatékony, használható adatbázis-kezelő Létező nagy n-gram modellt építő programok Saját program Szempontok: UTF-8, RE, szótártípus, feladatorientált Scriptnyelvek: Perl, Python, Linux Coreutils + AWK Végül: MAWK (egy AWK variáns) a leggyorsabb GNU AWK-nál is, bár kevesebb dolgot tud...

68 Sketch Engine

69 Zipf görbe

70 Zipf görbe (ábra)

71 Zipf görbe (ábra)

72 Előzetes eredmények Durva minőségbecslés: n-gram alapú nyelvfelismerő Érzékeny a túl rövid mondatokra (nem kellenek) Érzékeny az idegen szavakra (ritka névelemek) Érzékeny a tokenizálási hibákra (erre van szükségünk) Eszközök (langid.py, textcat): kb. 30%-on egyeztek meg A korpuszok összetétele nem megfelelő Hosszú, ismétlődő mondatok nagyja a Parlamenti Napló Kicsi a korpusz a méréshez A címkézési hibákat felerősítjük Zajérzékeny a rendszerünk

73 Módszer Egyszerű generálás: gyors, sok a redundancia Az azonos frekvenciájú esetekből a legkonkrétabbat tartjuk csak meg (zajérzékeny) Manuálisan előszűrjük az unigramokat: PUNCT címke törlése (különben túl gyakori lesz) Ritka szóalakok, szótövek, címkék törlése Minden f frekvenciájú n-gram Legalább f frekvenciájú n-k gramokból állhatnak Inkrementálisan építhető n=1-től

74 Példák

75 Triviális vs. nem triviális minták Nagyon sok kimenet keletkezik, szűrni kell Ezek nagy része érdektelen az ember számára A gépnek viszont minden információ új! Osztályozni kell a mintákat! Ehhez szükséges a maximális mintákat megtalálni A részminták nem fontosak, eldobhatók Létező metrikák felhasználásával Nyelvészetileg érdekes ritka minták nincsenek. Talán nagyobb korpuszban

76 Alkalmazási lehetőségek Elemzőhöz: a szemantikai reprezentáció leírása Hogy dolgozná fel az ember az adott mintát? Nyelvmodellként, deformált szöveg zajszűrésére NP-k belsejének elemzésére Pontosan ismert, hogy mi NP része és mi nem Egymás melletti NP-k határainak vizsgálatára Szófaji címkék finomításához Sketch Engine-keresésekhez ötletek

77 Jövőbeli fejlesztések Nagyobb, tisztább korpusz alkalmazása Minőségbecsléssel kiszűrni a haszontalan mondatokat Lassan teljesen elkészül a Pázmány Korpusz! Metrikák adaptálása a nagy állapottérhez Peter Hanks: Corpus Pattern Analysis Kézzel generált szemantikai, nem lexikalizált minták Géppel generálás az ismertetett módszerrel Integrálás az AnaGramma elemzőbe

78

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink

Részletesebben

STATISZTIKAI GÉPI FORDÍTÁS

STATISZTIKAI GÉPI FORDÍTÁS STATISZTIKAI GÉPI FORDÍTÁS MÓDSZERÉNEK ALKALMAZÁSA EGY- ÉS TÖBBNYELVŐ NYELVTECHNOLÓGIAI PROBLÉMÁK HATÉKONY MEGOLDÁSÁRA DOKTORI (PH.D.) DISSZERTÁCIÓ Laki László János Témavezető: Dr. Prószéky Gábor, az

Részletesebben

STATISZTIKAI GÉPI FORDÍTÁS

STATISZTIKAI GÉPI FORDÍTÁS STATISZTIKAI GÉPI FORDÍTÁS MÓDSZERÉNEK ALKALMAZÁSA EGY- ÉS TÖBBNYELVŐ NYELVTECHNOLÓGIAI PROBLÉMÁK HATÉKONY MEGOLDÁSÁRA DOKTORI (PH.D.) DISSZERTÁCIÓ Laki László János Témavezető: Dr. Prószéky Gábor, az

Részletesebben

Mozaik nyelvmodell az AnaGramma elemzőhöz

Mozaik nyelvmodell az AnaGramma elemzőhöz 260 XII. Magyar Számítógépes Nyelvészeti Konferencia Mozaik nyelvmodell az AnaGramma elemzőhöz Indig Balázs 1,2, Laki László 1,2, Prószéky Gábor 1,2,3 1 MTA PPKE Magyar Nyelvtechnológiai Kutatócsoport

Részletesebben

Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák

Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák A nyelvtechnológia eszközei 10. Indig Balázs 2016. április 28. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai

Részletesebben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.

Részletesebben

A gépi fordítás kiértékelése

A gépi fordítás kiértékelése PÁZMÁNY PÉTER KATOLIKUS EGYETEM KIEMELT FELSŐOKTATÁSI INTÉZMÉNY INFORMÁCIÓS TECHNOLÓGIAI ÉS BIONIKAI KAR A gépi fordítás kiértékelése Yang Zijian Győző Témavezető: Dr. Prószéky Gábor Pázmány Péter Katolikus

Részletesebben

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 30.

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 30. Bevezetés a nyelvtechnológiába 9. Gépi fordítás Ezt olvassuk a gépi fordításról A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi

Részletesebben

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9. Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok

Részletesebben

PurePos: hatékony morfológiai egyértelműsítő modul

PurePos: hatékony morfológiai egyértelműsítő modul PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás

Részletesebben

Lexikon és nyelvtechnológia Földesi András /

Lexikon és nyelvtechnológia Földesi András / Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.

Részletesebben

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség

Részletesebben

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Az igekötők gépi annotálásának problémái Kalivoda Ágnes Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás

Részletesebben

Nyelvi tudásra épülő fordítómemória

Nyelvi tudásra épülő fordítómemória Nyelvi tudásra épülő fordítómemória Hodász Gábor 1, Grőbler Tamás 2 1 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Budapest hodasz@morphologic.hu 2 MorphoLogic Kft. Budapest grobler@morphologic.hu

Részletesebben

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer Laki László János Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar laki.laszlo@itk.ppke.hu Kivonat: Jelen munkában az

Részletesebben

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:

Részletesebben

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6. Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6. Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek

Részletesebben

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17. NYELVTECHNOLÓGIA Sass Bálint sass@digitus.itk.ppke.hu Pázmány Nap 2007. október 17. 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS BEVEZETŐ Language makes us human. Turing teszt

Részletesebben

A Mazsola KORPUSZLEKÉRDEZŐ

A Mazsola KORPUSZLEKÉRDEZŐ A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1

Részletesebben

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők

Részletesebben

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS

Részletesebben

KÁROLY KRISZTINA SZÖVEGKOHERENCIA A FORDÍTÁSBAN

KÁROLY KRISZTINA SZÖVEGKOHERENCIA A FORDÍTÁSBAN KÁROLY KRISZTINA SZÖVEGKOHERENCIA A FORDÍTÁSBAN Budapest, 2014 TARTALOM ELŐSZÓ...9 1. BEVEZETÉS...15 1.1. A vizsgálat tárgya...17 1.2. Célkitűzések és kutatási kérdések...18 1.3. A vizsgált nyelvek, műfaj

Részletesebben

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9. Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9. Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing

Részletesebben

Számítógépes alkalmazásai

Számítógépes alkalmazásai Természetes nyelvek Tartalom Nyelvtechnológia elmélete Nyelvtechnológiai alkalmazások Morfológiai elemzés Egyértelműsítés Mondatelemzés Szemantika Szöveggenerálás Diskurzus-reprezentáció Számítógépes alkalmazások

Részletesebben

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program

Részletesebben

VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila Vincze Veronika

VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila Vincze Veronika VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 ISBN: 978 963 306 121 3 Szerkesztette:

Részletesebben

Fordító részei. Fordító részei. Kód visszafejtés. Izsó Tamás szeptember 29. Izsó Tamás Fordító részei / 1

Fordító részei. Fordító részei. Kód visszafejtés. Izsó Tamás szeptember 29. Izsó Tamás Fordító részei / 1 Fordító részei Kód visszafejtés. Izsó Tamás 2016. szeptember 29. Izsó Tamás Fordító részei / 1 Section 1 Fordító részei Izsó Tamás Fordító részei / 2 Irodalom Izsó Tamás Fordító részei / 3 Irodalom Izsó

Részletesebben

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák

Részletesebben

Ismeretlen kifejezések és a szófaji egyértelm sítés

Ismeretlen kifejezések és a szófaji egyértelm sítés Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,

Részletesebben

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban

Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban Prószéky Gábor MorphoLogic & PPKE ITK www.morphologic.hu & www.itk.ppke.hu A magyar nyelv helyzete a digitális korban - MTA, 2013. január

Részletesebben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény

Részletesebben

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok A számítógépes nyelvészet elmélete és gyakorlata Korpuszok Mi a korpusz? A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint

Részletesebben

A közbeékelt parentézis megszakítja a folyó megnyilatkozás folyamatosságát

A közbeékelt parentézis megszakítja a folyó megnyilatkozás folyamatosságát BEVEZETÉS - A KUTATÁS MOTIVÁCIÓJA A közbeékelt parentézis megszakítja a folyó megnyilatkozás folyamatosságát Különösen feltehetően nyelvfeldolgozási nehézséget okoz (Biber et al. 1999: 1097, Hoffmann 1998,

Részletesebben

BIRTOKLÁST KIFEJEZŐ VAN (HAVE GOT) (valakinek VAN valamije)

BIRTOKLÁST KIFEJEZŐ VAN (HAVE GOT) (valakinek VAN valamije) FELÉPÍTÉSE BIRTOKLÁST KIFEJEZŐ VAN (HAVE GOT) (valakinek VAN valamije) akinek van vmije + HAVE (="van ) GOT + amije van (a birtokos) (E/3. sz: HAS GOT) (a birtok) pl. Marknak van egy számítógépe. Mark

Részletesebben

A magyar létige problémái a számítógépes nyelvi elemzésben

A magyar létige problémái a számítógépes nyelvi elemzésben A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:

Részletesebben

Igekötős szerkezetek a magyarban

Igekötős szerkezetek a magyarban Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek

Részletesebben

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK

Részletesebben

A HUNGLISH PÁRHUZAMOS KORPUSZ

A HUNGLISH PÁRHUZAMOS KORPUSZ A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április

Részletesebben

Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével

Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével Siklósi Borbála 1, Novák Attila 1,2, Prószéky Gábor 1,2, 1 Pázmány Péter Katolikus Egyetem Információs Technológiai

Részletesebben

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems KOPI A fordítási plágiumok keresője Pataki Máté Kovács László MTA SZTAKI MTA SZTAKI Elosztott Rendszerek Osztály 1995. óta létezik 12 teljes állású munkatárs,

Részletesebben

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció

Részletesebben

A MUTATÓNÉVMÁSOK. A mutatónévmások az angolban is (mint a magyarban) betölthetik a mondatban

A MUTATÓNÉVMÁSOK. A mutatónévmások az angolban is (mint a magyarban) betölthetik a mondatban A MUTATÓNÉVMÁSOK ez this /ðɪs/ az that /ðæt/ ezek these /ði:z/ azok those /ðəʊz / A mutatónévmások az angolban is (mint a magyarban) betölthetik a mondatban a) az ALANY szerepét - Ilyenkor (a már említett

Részletesebben

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban

Részletesebben

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori

Részletesebben

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai 2015. november 25.

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai 2015. november 25. Bevezetés a nyelvtechnológiába 9. Gépi fordítás Ezt olvassuk a gépi fordításról A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi

Részletesebben

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete A számítógépes nyelvészet elmélete és gyakorlata Formális nyelvek elmélete Nyelv Nyelvnek tekintem a mondatok valamely (véges vagy végtelen) halmazát; minden egyes mondat véges hosszúságú, és elemek véges

Részletesebben

Számítógépes nyelvészet

Számítógépes nyelvészet Számítógépes nyelvészet Babarczy Anna A MESTERSÉGES INTELLIGENCIA KEZDETEI Az intelligens gép Az embert régóta foglalkoztatja az intelligenciával rendelkező gép ötlete. Érdekes, és filozófiai szempontból

Részletesebben

A azonosító számú Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz tartozó Foglalkoztatás I tantárgy

A azonosító számú Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz tartozó Foglalkoztatás I tantárgy A 11497-12 azonosító számú Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz tartozó Foglalkoztatás I tantárgy 1. 1. A 11497-12 azonosító számú, Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz

Részletesebben

Fordítás, többnyelvűség, szótárak

Fordítás, többnyelvűség, szótárak Fordítás, többnyelvűség, szótárak Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu Minden hivatalos anyagot minden

Részletesebben

Foglalkoztatás I. tantárgy Idegen nyelv

Foglalkoztatás I. tantárgy Idegen nyelv Szakiskola 11. évfolyam Foglalkoztatás I. tantárgy Idegen nyelv 64 óra A Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz tartozó tantárgyak és a témakörök oktatása során fejlesztendő kompetenciák

Részletesebben

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására PhD disszertáció tézisfüzete Orosz György Pázmány Péter Katolikus Egyetem Információs

Részletesebben

Egy szónak is száz a vége

Egy szónak is száz a vége Egy szónak is száz a vége Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály oravecz@nytud.hu Magyar tudomány napja, MTA, 2003. 11. 04. Bevezetés mit lát a számítógép a természetes nyelvi

Részletesebben

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2015. november 25. Témaválasztás házi dolgozatra (ע "ו ( igeragozás Ismétlés: Mondatok: Arnold & Choi 5. rész A mondat belső

Részletesebben

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29. Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban 2014. szeptember 29. Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

Javában taggelünk.

Javában taggelünk. 336 VIII. Magyar Számítógépes Nyelvészeti Konferencia Javában taggelünk Novák Attila 1, Orosz György 2, Indig Balázs 2 1 MorphoLogic Kft., 1116 Budapest, Kardhegy utca 5. novak@morphologic.hu 2 Pázmány

Részletesebben

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

A számítógépes nyelvészet elmélete és gyakorlata. A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek

A számítógépes nyelvészet elmélete és gyakorlata. A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek A számítógépes nyelvészet elmélete és gyakorlata A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek A szövegfeldolgozás lépései - elektronikusan hozzáférhető szövegek - a feldolgozás

Részletesebben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A

Részletesebben

Mély neuronhálók alkalmazása és optimalizálása

Mély neuronhálók alkalmazása és optimalizálása magyar nyelv beszédfelismerési feladatokhoz 2015. január 10. Konzulens: Dr. Mihajlik Péter A megvalósítandó feladatok Irodalomkutatás Nyílt kutatási eszközök keresése, beszédfelismer rendszerek tervezése

Részletesebben

sallang avagy Fordítótervezés dióhéjban Sallai Gyula

sallang avagy Fordítótervezés dióhéjban Sallai Gyula sallang avagy Fordítótervezés dióhéjban Sallai Gyula Az előadás egy kis példaprogramon keresztül mutatja be fordítók belső lelki világát De mit is jelent, az hogy fordítóprogram? Mit csinál egy fordító?

Részletesebben

Változók. Mennyiség, érték (v. objektum) szimbolikus jelölése, jelentése Tulajdonságai (attribútumai):

Változók. Mennyiség, érték (v. objektum) szimbolikus jelölése, jelentése Tulajdonságai (attribútumai): Python Változók Mennyiség, érték (v. objektum) szimbolikus jelölése, jelentése Tulajdonságai (attribútumai): Név Érték Típus Memóriacím A változó értéke (esetleg más attribútuma is) a program futása alatt

Részletesebben

eπque: Gépi fordítás minőségét becslő programcsomag

eπque: Gépi fordítás minőségét becslő programcsomag eπque: Gépi fordítás minőségét becslő programcsomag Doktori (PhD) disszertáció Yang Zijian Győző Roska Tamás Műszaki és Természettudományi Doktori Iskola Pázmány Péter Katolikus Egyetem Információs Technológiai

Részletesebben

Osztályozó és javítóvizsga témakörei és követelményei angol nyelvből. 9. évfolyam

Osztályozó és javítóvizsga témakörei és követelményei angol nyelvből. 9. évfolyam Osztályozó és javítóvizsga témakörei és követelményei angol nyelvből Személyes vonatkozások 9. évfolyam A tanuló személye, életrajza, életének fontos állomásai Családi élet, családi kapcsolatok Emberek

Részletesebben

Bevezetés az e-magyar programcsomag használatába

Bevezetés az e-magyar programcsomag használatába Bevezetés az e-magyar programcsomag használatába Vadász Noémi 2019. február 7. MTA Nyelvtudományi Intézet vadasz.noemi@nytud.mta.hu Az előadás felépítése 1. szövegelemzés számítógéppel elemzési lépések

Részletesebben

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?

Részletesebben

Tartalom. Előszó... 13. 1. feladat: Fordítás a megszokott eszközökkel... 17 A számítógép hatékony használatáról... 18

Tartalom. Előszó... 13. 1. feladat: Fordítás a megszokott eszközökkel... 17 A számítógép hatékony használatáról... 18 Előszó... 13 1. feladat: Fordítás a megszokott eszközökkel... 17 A számítógép hatékony használatáról... 18 1.1. Előkészítés... 21 A munka fogadása... 21 Az elektronikus levelezés technikája és etikája...

Részletesebben

ANGOL NYELV, MINT ELSŐ IDEGEN NYELV

ANGOL NYELV, MINT ELSŐ IDEGEN NYELV Nyelvtan: ANGOL NYELV, MINT ELSŐ IDEGEN NYELV megszámlálható és megszámlálhatatlan főnevek, főnevek többes száma névelők és főnévbővítmények: the, a, an, some, any, much, many, a lot of, a few, a little

Részletesebben

Négy Hét Alatt Alapszinten Angolul. GYAKORLÁS nap

Négy Hét Alatt Alapszinten Angolul. GYAKORLÁS nap Négy Hét Alatt Alapszinten Angolul GYAKORLÁS 12-14. nap ISMÉTLÉS-GYAKORLÁS - többes szám - birtokos névmások - rövid válaszok 12-14. lecke TÖBBES SZÁM PLURAL TÖBBES SZÁM Hogyan képezzük a legtöbb esetben

Részletesebben

ELTE Bölcsészettudományi Kar Fordítástudományi Doktori Program

ELTE Bölcsészettudományi Kar Fordítástudományi Doktori Program Robin Edina ELTE Bölcsészettudományi Kar Fordítástudományi Doktori Program Fordítási univerzálék Baker (1993) Nyelvi jellemzők, amelyek jellegzetesen a fordított és nem az eredetileg célnyelven írott szövegekben

Részletesebben

Egy szónak is száz a vége

Egy szónak is száz a vége Egy szónak is száz a vége Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés mit lát a számítógép a természetes nyelvi megnyilatkozásokból? karaktersorozatokat

Részletesebben

Önálló labor feladatkiírásaim tavasz

Önálló labor feladatkiírásaim tavasz Önálló labor feladatkiírásaim 2016. tavasz (ezekhez kapcsolódó saját témával is megkereshetnek) Mészáros Tamás http://www.mit.bme.hu/~meszaros/ Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika

Részletesebben

Big Data az adattárházban

Big Data az adattárházban Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi

Részletesebben

TANMENETJAVASLATOK. Általánosságban: egy lecke mindig egy heti anyagot jelent, a heti óraszámnak megfelelően.

TANMENETJAVASLATOK. Általánosságban: egy lecke mindig egy heti anyagot jelent, a heti óraszámnak megfelelően. TANMENETJAVASLATOK Általánosságban: egy lecke mindig egy heti anyagot jelent, a heti óraszámnak megfelelően. a) változat (heti 3 óra) Egy leckére átlagosan 3 óra jut, de ehhez nem kell feltétlenül ragaszkodni.

Részletesebben

PÁRHUZAMOS IGEI SZERKEZETEK

PÁRHUZAMOS IGEI SZERKEZETEK PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3. 1 EGYNYELVŰ IGEI SZERKEZETEK

Részletesebben

Különböző hagyományos és nem-hagyományos eljárások kombinálása: miért és hogyan? április 16.

Különböző hagyományos és nem-hagyományos eljárások kombinálása: miért és hogyan? április 16. Különböző hagyományos és nem-hagyományos eljárások kombinálása: miért és hogyan? 2008. április 16. Életből vett problémák, projektek Dunai Vasmű: acélkonverter modellezése Orvosi röntgenkép-kiértékelés

Részletesebben

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március

Részletesebben

A szótárról. 1. Mi ez?

A szótárról. 1. Mi ez? A szótárról 1. Mi ez? A szótár, amit az olvasó a kezében tart, a leggyakoribb magyar igei szerkezeteket tartalmazza. Egynyelvű szótár explicit szótári értelmezések nélkül; a szerkezeteket, azok jelentését

Részletesebben

Az Informatika Elméleti Alapjai

Az Informatika Elméleti Alapjai Az Informatika Elméleti Alapjai dr. Kutor László Minimális redundanciájú kódok Statisztika alapú tömörítő algoritmusok http://mobil.nik.bmf.hu/tantargyak/iea.html Felhasználónév: iea Jelszó: IEA07 BMF

Részletesebben

Tartalomjegyzék. Tartalomjegyzék

Tartalomjegyzék. Tartalomjegyzék Tartalomjegyzék A főnév 11 Kis és nagy kezdőbetűk 11 A főnevek neme 12 A főnevek többes száma 13 Nem megszámlálható főnevek 15 Csak többes számban használatos főnevek 16 Foglalkozások 17 Címek, rangok,

Részletesebben

Egy sok szálon futó nyelvelemző program moduljainak kialakítása és harmonizációja

Egy sok szálon futó nyelvelemző program moduljainak kialakítása és harmonizációja Egy sok szálon futó nyelvelemző program moduljainak kialakítása és harmonizációja Indig Balázs PhD disszertáció Témavezető: Dr. Prószéky Gábor az MTA doktora Pázmány Péter Katolikus Egyetem Információs

Részletesebben

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Farkas Richárd 1, Szarvas György 1 1 MTA-SZTE, Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1., Hungary, {rfarkas,

Részletesebben

Olvasás-szövegértés fejlesztése. Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály)

Olvasás-szövegértés fejlesztése. Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály) Olvasás-szövegértés fejlesztése Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály) Feladataink szókincs gyarapítása a használt szavak jelentésrétegeinek, stílusértékének

Részletesebben

Szintaxis. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba. 5. előadás 2009 Pázmány Péter Katolikus Egyetem

Szintaxis. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba. 5. előadás 2009 Pázmány Péter Katolikus Egyetem Szintaxis Tóth Ildikó, PhD. Bevezetés a nyelvtudományba 5. előadás 2009 Pázmány Péter Katolikus Egyetem 1 Végesből végtelen Hangok Szavak - véges sok - véges sok rekurzív szabályok (pl. beágyazás, mellérendelés)

Részletesebben

Reported Speech Függő beszéd

Reported Speech Függő beszéd ~ T u d á s N y e l v i s k o l a ~ 4027 Debrecen, Lóverseny u. 22047/8. Fszt./2. Tel: +36 20 266 1989 www.tudasnyelviskola.hu tudas@tudasnyelviskola.hu Felnőttképzési nyilvántartási szám: 09-0018-06 Reported

Részletesebben

Vagy igen, vagy nem. Lássuk a választ néhány példán keresztül. 1. Mi a különbség a következő mondatok jelentése és nyelvtani szerkezete között?

Vagy igen, vagy nem. Lássuk a választ néhány példán keresztül. 1. Mi a különbség a következő mondatok jelentése és nyelvtani szerkezete között? Vagy igen, vagy nem. Lássuk a választ néhány példán keresztül. Ú R I H U N C U T S Á G O K A Z A N G O L N Y E L V B E N? 1. Mi a különbség a következő mondatok jelentése és nyelvtani szerkezete között?

Részletesebben

Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák

Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák kategória (nyelvtani) értékek szám egyes, kettes, többes mennyiség egyedi, kollektív, megszámlálható nem hím, nő, semleges eset alany, tárgy, birtokos idő jelen, múlt, jövő aspektus imperfektív, perfektív,

Részletesebben

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2017. szeptember 13. Informatikusviccek Az informatikus felesége elküldi a férjét a boltba: - Hozzál margarint, és ha van

Részletesebben

Osztályozó vizsga Angol mint első idegen nyelv

Osztályozó vizsga Angol mint első idegen nyelv Osztályozó vizsga Angol mint első idegen nyelv Az írásbeli szóbeli vizsga 50-50 %-os arányban számítanak be a vizsga eredményébe. Tanév végi osztályozó vizsgán az éves munka és a vizsgaeredmény 75-25 %-ban

Részletesebben

Postfilter. Kadlecsik József KFKI RMKI <kadlec@sunserv.kfki.hu>

Postfilter. Kadlecsik József KFKI RMKI <kadlec@sunserv.kfki.hu> Postfilter Kadlecsik József KFKI RMKI Tartalom Bevezetés Postfilter rendszer felépítése Szűrési feltételek CGI felületek Demo Előzmények Postfix per_user_uce patch: 1999-2002 postfilter

Részletesebben

Közösség detektálás gráfokban

Közösség detektálás gráfokban Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a

Részletesebben

Az Ómagyar Korpusz bemutatása

Az Ómagyar Korpusz bemutatása Az Ómagyar Korpusz bemutatása Simon Eszter 2017. január 13. 29. Finnugor Szeminárium Simon Eszter Az Ómagyar Korpusz bemutatása Az előadás vázlata 1 A projektek 2 A korpusz anyaga 3 A feldolgozás lépései

Részletesebben

Strukturált Generátorrendszerek Online Tanulása és Alk-ai

Strukturált Generátorrendszerek Online Tanulása és Alk-ai Strukturált Generátorrendszerek Online Tanulása és Alkalmazásai Problémamegoldó Szeminárium 2010. nov. 5 Tartalomjegyzék Motiváció, példák Regressziós feladatok (generátorrendszer fix) Legkisebb négyzetes

Részletesebben

Sémi összehasonlító nyelvészet

Sémi összehasonlító nyelvészet Sémi összehasonlító nyelvészet BMA-HEBD-303 Biró Tamás 5. A nyelvtörténeti rekonstrukció alapjai. Jelentéstan. 2016. március 30. Összehasonlító rekonstrukció: alapok A történeti rekonstrukció klasszikus

Részletesebben

0. előadás Motiváció

0. előadás Motiváció 0. előadás Dr. Kallós Gábor 2015 2016 1 A reguláris kifejezések alkalmazása széleskörű Szövegek javítása, minták cseréje Érvényesség-ellenőrzés (beíráskor) Védett űrlapok Elektronikus oktatás, javítás

Részletesebben

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak A nyelvtechnológia szerepe a lexikográfiában A szótárak célja ma emberek számára készülnek gépek számára készülnek Miből hozunk létre ma szótárakat?

Részletesebben

Tanmenetjavaslat heti 3 óra

Tanmenetjavaslat heti 3 óra Tanmenetjavaslat heti 3 óra Egy leckére átlagosan 3 óra jut, de ehhez nem kell feltétlenül ragaszkodni. Vannak olyan leckék, amelyek 2 óra alatt elvégezhetők, míg olyanok is, amelyek több gyakorlást igényelnek.

Részletesebben