7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz
|
|
- Péter Bogdán
- 7 évvel ezelőtt
- Látták:
Átírás
1 A nyelvtechnológia eszközei és nyersanyagai 2015/ félév 7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz Laki László
2 A GÉPI FORDÍTÁS FAJTÁI ÉS NEHÉZSÉGEI
3 Fordítási nehézségek Egy szónak több jelentése lehet (homonímia) Szótárból választás Kifejezések felismerése Szerkezeti (nyelvtani) többértelműség Szórendi eltérések Névmások kezelése Igeidők
4 Szabályalapú gépi fordítás A gépi fordítás módszerei Közvetlen fordítás Interlingva Transzfer Példaalapú fordítás Statisztikai gépi fordítás Hibrid Emberi közreműködéssel
5 STATISZTIKAI GÉPI FORDÍTÁS (SMT)
6 A SMT előnyei Az internet segítségével nagyszámú digitálisan tárolt szöveg áll rendelkezésünkre, melyek segítségével nagyméretű korpuszok állíthatók elő A statisztikai gépi fordítórendszerek nem igényelnek speciális nyelvi ismereteket és bármilyen nyelvpárra alkalmazhatók A szabályalapú fordító esetében szükséges, hogy emberi erővel állítsák elő a különböző szabályokat ezzel szemben a statisztikai módszer teljesen automatikus, emiatt olcsóbb az előállítása A módszer kifejezetten alkalmas olyan fordítások elvégzésére, ahol a szövegekben nagyon kevés az eltérés
7 A SMT elméleti háttere Célnyelvi mondatok(t) Zajos csatorna (SMT rendszer) The cat caught the mouse. Forrásnyelvre lefordított mondatok(s ) T = argmax T P T S = argmax T P T P S T Komponensek: Nyelvmodell (folyékonyság) Fordítási modell (helyesség) Dekóder T : legjobb fordítás S : forrásnyelvi mondat T : célnyelvi mondat P T S = φ S T λ φ P LM T λ LM d S, T λ d ω T λ ω
8 Nyelvmodell A következő szó az őt megelőző n-1 szó alapján határozható meg (n-gram modell) Feladata, hogy kiválassza a legjobb fordítást a fordítási modell által adott lehetőségek közül Ezek a valószínűségek a relatív előfordulási gyakoriságból becsülhetők N-gram alapú közelítés a rákövetkező szó feltételes valószínűségére: Egy teljes szósorozat valószínűsége:
9 Fordítási modell A P(f e) fordítási modell feladata, hogy megtalálja az eredményül kapott célnyelvi kifejezésre a legmegfelelőbb bemenetet Párhuzamos korpuszból Szószintű fordítási modell Kifejezés szintű fordítási modell Frázisok megtalálása (e) Frázisok fordításának megtalálása (f) Átrendezési távolság mértéke
10 Szószintű összekapcsolás A macska megfogta az egeret The cat caught the mouse
11 Szószintű összekapcsolás A nagymama macskája megfogta az egeret The mouse was caught by the cat of grandma
12 Dekódolás A dekódoló feladata, hogy egy adott forrásnyelvi mondathoz megtalálja a legjobb célnyelvi mondatot Ez egy keresési feladat A NAGYMAMÁM MACSKÁJA MEGFOGOTT EGY APRÓ EGERET. GRANDMOTHER CAT CAUGHT A LITTLE MOUSE. MY GRANDMOTHER MY GRANDMOTHER S CAT LITTLE MOUSE LITTLE MOUSE. A LITTLE MOUSE
13 SZINTAXIS ALAPÚ GÉPI FORDÍTÁS
14 Egy kifejezés alapú szabály kifejtése [Koehn, 2011]
15 Egy kifejezés alapú szabály kifejtése [Koehn, 2011]
16 Egy kifejezés alapú szabály kifejtése [Koehn, 2011]
17 Egy hierarchikus szabály kifejtése [Koehn, 2011]
18 Egy szintaxis alapú szabály kifejtése [Koehn, 2011]
19 Egy szintaxis alapú szabály kifejtése [Koehn, 2011]
20 NEURÁLIS HÁLÓZAT ALAPÚ GÉPI FORDÍTÁS
21 Neuronháló alapú nyelvmodell
22 Neuronháló alapú nyelvmodell
23 Neuronháló alapú dekóder [Bahdanau et al. 2015]
24 AZ SMT-MODELLEK KÜLÖNFÉLE ALKALMAZÁSAI (SAJÁT KUTATÁSI TEVÉKENYSÉGEM)
25 CIGÁNY-MAGYAR SMT
26 Hasonló morfológiai gazdagságú nyelvpárok Korpusz: Vesho-Farkas-féle lovári nyelvű Újszövetség Cigány-magyar SMT Káldi-féle (Neovulgáta) magyar Újszövetség Eredmény: Sokkal magasabb BLEU Olvashatóbb, érthetőbb fordítás Rendszer BLEU érték Cigány-magyar (MOSES) 30.53% Cigány-magyar (JOSHUA) 29.20% Magyar-cigány (MOSES) 30.38% Magyar-cigány (JOSHUA) 35.88%
27 Példamondat (cigány-magyar) Cigány referenciamondat: le but manusha pale tele sharadine penge gada po drom, kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen. Magyar referenciamondat: a hatalmas tömeg pedig leterítette ruháit az útra, mások meg ágakat vagdostak a fákról és az útra szórták. MOSES fordítás: a nép pedig le terítették ruháikat az úton, mások pedig ágakat phagrenas le a fa, és az úton rispisarnaslen. JOSHUA fordítás: a nép pedig le terítették ruháikat az úton, mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen.
28 Saját doktori munkám MORFÉMA ALAPÚ SMT SZÓRENDI ÁTRENDEZÉSSEL
29 Frázis alapú SMT Probléma Angol magyarra gyenge eredmények a szórend és a morfémák szavakba szerveződése túl különböző A dekóder beépített eszközei nem elég erősek adathiány a morfológiánál a torzítás gyenge modell az átrendezésre
30 Motiváció Angol németre, angol törökre is gyenge eredmények szórendi problémák: mellékmondati szórend inverziós szerkezetek gyakori szóvesztés, illetve rosszul fordított grammatikai szerepek Javulás a forrásnyelvi mondatok átrendezésével [Fraser Gojun 2012, Oflazer Yeniterzi 2010]
31 Módszer Forrásnyelvi mondatok szintaktikai elemzése Célnyelvi mondatok morfológiai egyértelműsítése Forrásnyelvi mondatok átrendezése angol mondatok magyarhoz hasonló szórenddel csak a szisztematikus szórendi különbségeket kezeljük Két modell morfémaalapú szóalapú, faktoros
32 Átrendezési példák in my house in my house my house in ház am ban
33 Példamondat függőségi elemzéssel root(root-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) I sleep in my house. I/PRP sleep/vbp in/in my/prp$ house/nn./.
34 Példamondat függőségi elemzéssel root(root-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) sleep/vbp I/PRP in/in my/prp$ house/nn./.
35 Példamondat függőségi elemzéssel root(root-0, sleep-2) nsubj(sleep-2, I-1) prep(sleep-2, in-3) pobj(in-3, house-5) poss(house-5, my-4) sleep/vbp I/PRP in/in house/nn my/prp$./.
36 Passzív szerkezet
37 Birtokos szerkezet I like to see the sons of the merchants. like/vbp_i/prp see/vb_to/to the/dt merchant/nn sons/nns_of/in_acc/acc./. I like to see the hats of the sons of the merchants. like/vbp_i/prp see/vb_to/to the/dt merchant/nn sons/nns_of/in_nak/nak the/dt hats/nns_of/in_acc/acc./.
38 Morféma alapú modell After you were picked up at sea after/[in] up/[rp] pick/[vb] [PPart] D_they/[P3] you/[prp] acc/[acc] sea/[nn] at/[in] Fordítás miután/[kot] felvesz/[ige] [Past] [t3] [Def] maga/[fn_nm] [t3] [ACC] a/[det] tenger/[fn] [SUP] Generálás miután felvették magukat a tengeren
39 Morféma alapú modell Fordítandó mondat: After you were picked up at sea, our listening post in Malta intercepted that fax. Alaprendszer fordítása: maga után felemelte a tengeren, és az málta elfogtuk, hogy fax. Morfémaalapú rendszer fordítása: miután felvették magukat a tengeren, Máltában lehallgatónk elfogta a faxot.
40 Faktoros szóalapú modell at my request the ceremony was postponed for a year. request/[nn] [NN]my/[PRP$]at/[IN] postpone/[vb] [VB][PPart]D_they/[P3] the/[dt] [DT] ceremony/[nn] [NN]acc/[ACC] a/[dt] [DT] year/[nn] [NN]for/[IN]./[.] [.] Fordítás kérés/[fn] [FN][PSe1][SUB] elhalaszt/[ige] [IGE][Past][t3][Def] a/[det] [DET] szertartás/[fn] [FN][ACC] egy/[det] [DET] év/[fn] [FN][SUB]./[PUNCT] [PUNCT]
41 Faktoros szóalapú modell kérés/[fn] [FN][PSe1][SUB] elhalaszt/[ige] [IGE][Past][t3][Def] a/[det] [DET] szertartás/[fn] [FN][ACC] egy/[det] [DET] év/[fn] [FN][SUB]./[PUNCT] [PUNCT] Generálás kérésemre elhalasztották a szertartást egy évre.
42 Faktoros szóalapú modell Fordítandó mondat: at my request the ceremony was postponed for a year. Fordítás szóalapú rendszer: kérésemre elhalasztották a szertartást egy évre. Fordítás alaprendszer: az én kérésemre a szertartás volt. Fordítás morféma alapú rendszer: kérésemre halasztották a szertartást.
43 Eredmények emberi kiértékelés Minden kiértékelő összehasonlításaiból azonos sorrend állt össze Baseline rendszer (14.57% BLEU) Szóalapú rendszer (14.83% BLEU) Faktoros rendszer (10.88% BLEU) Morféma alapú rendszer (12.22% BLEU) Referenciafordítás A korpusz minőségét jellemzi, hogy a referenciafordítás rangja messze 1 alatt van
44 Rendszerek w-bleu mm-bleu SZÓALAPÚ_T0 13,56% 58,93% SZÓALAPÚ_T6 13,83% 59,32% SZÓALAPÚ_ÁT_T0 14,25% 57,79% SZÓALAPÚ_ÁT_T6 14,85% 58,06% SZÓALAPÚELEMZETT _T0 12,75% 56,10% SZÓALAPÚELEMZETT _T6 12,89% 56,84% SZÓALAPÚELEMZETT _ÁT_T0 13,02% 57,10% SZÓALAPÚELEMZETT _ÁT_T6 13,05% 57,21% MORFÉMAALAPÚ _T0 11,69% 63,18% MORFÉMAALAPÚ _T6 12,19% 63,87% MORFÉMAALAPÚ _ÁT_T0 12,01% 64,24% MORFÉMAALAPÚ _ÁT_T6 12,22% 64,94% FAKTORALAPÚ _T0 9,70% 56,01% FAKTORALAPÚ _T6 9,84% 57,09% FAKTORALAPÚ _ÁT_T0 10,50% 59,56% FAKTORALAPÚ _ÁT_T0_FIX 10,64% 60,28% FAKTORALAPÚ _ÁT_T6 10,78% 59,97% FAKTORALAPÚ _ÁT_T6_FIX 10,88% 60,83% Google Translate 15,68% 55,86% Bing Translator 12,18% 53,05% MetaMorpho 6,86% 50,97%
45 STATISZTIKAI SZÖVEGELEMZŐ
46 Definíció és nehézségek Teljes morfológiai egyértelműsítés Szófaji egyértelműsítés (POS-tagging) Szótövesítés Agglutináló nyelvek Rengeteg különböző szóalak A morfoszintaktikai címkék halmazának mérete Szótövesítés (pl. az ikes igék szótöve)
47 Elméleti háttér arg max p( T W) arg max p( W T) p( T) T HMM-alapú: arg max p( T W) ar T T T arg max P( wi ti) P( ti ti 1, ti 2) T i 1 SMT-alapú: T i k i k arg max ( wi ti ) P( ti ti 1, ti 2,..., ti j ) T i 1
48 1. lépés (morfológiai guesser alkalmazása) Az étkezés egyik nagy forradalmát a konzervek elterjedése jelentette. Guesser Az étkezés egyik nagy forradalmát a <n translation="2##[nc-pn]" prob=" ">konzervek</n> elterjedése jelentette.
49 2. lépés (címkézés és szótövesítés) Az étkezés egyik nagy forradalmát a <n translation="2##[nc-pn]" prob=" ">konzervek</n> elterjedése jelentette. SMT dekóder 0##[Tf] 0##[Nc-sn] 0##[Pi3-sn] 0##[Afp-sn] 2##[Ncsa---s3] 0##[I] 2##[Nc-pn] 1##[Nc-sn---s3] 4##[Vmis3s---y] 0##[.]
50 3. lépés (szótövek generálása) 0##[Tf] 0##[Nc-sn] 0##[Pi3-sn] 0##[Afp-sn] 2##[Nc-sa---s3] 0##[I] 2##[Nc-pn] 1##[Nc-sn---s3] 4##[Vmis3s---y] 0##[.] Generálás Az/az/[Tf] étkezés/étkezés/[nc-sn] egyik/egyik/[pi3-sn] nagy/nagy/[afp-sn] forradalmát/forradalom/[nc-sa---s3] a/a/[i] konzervek/konzerv/[nc-pn] elterjedése/elterjedés/[nc-sn---s3] jelentette/jelent/[vmis3s---y]././[.]
51 Eredmények Nyelv Rendszer Címkepontosság Magyar(MSD) Szótövesítéspontosság HuLaPos2 96,51% 98,60% PurePos 96,35% 97,51% HuLaPos2 96,70% 98,23% Magyar (HUMOR) Horvát Szerb PurePos 96,50% 96,27% PurePos + MA 98,96% 99,53% HuLaPos2 93,25% 96,21% HunPos + CST 87,11% 97,78% HuLaPos2 92,28% 92,72% HunPos + CST 85,00% 95,95%
52 Eredmények Nyelv Rendszer Címke pontosság Portugál Angol Bolgár HuLaPos % HMM-alapú PoS tagger 92.00% TnT 96.48% PBT (SMT-alapú) 96.97% HuLaPos % Stanford tagger % SCCN 97.50% MaxEnt alapú 95.72% MaxEnt alapú + lexikon 97.80% HuLaPos % MaxEnt alapú + lexikon + szabályok 97.98%
53 FORDÍTÓMEMÓRIA INTEGRÁLÁSA
54 Fordítómemória integrálása Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát.
55 Fordítómemória integrálása Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát.
56 Fordítómemória integrálása Fordítandó szöveg: A kedves nagymama macskája megfogta az egeret. A memóriában található szöveg: A kedves nagymama kutyája megfogta a csúnya macskát. A sweet grandma s dog caught the nasty cat.
57 Fordító memória integrálása A kedves nagymama macskája megfogta az egeret. TM match The sweet grandma s macskája caught az egeret. SMT dekóder The sweet grandma s cat caught the mouse.
58 SZÓTÁR HOZZÁADÁSA A KORPUSZHOZ
59 Szótár hozzáadása a korpuszhoz Szótár: mondat Rendszer BLEU érték 1 Alaprendszer fordítása: 10.85% 2 Alap+1xszótár rendszer fordítása: 11.18% 3 Alap+2xszótár rendszer fordítása: 11.01% 4 Alap+3xszótár rendszer fordítása: 10.88% 5 Alap+4xszótár rendszer fordítása: 10.88% 6 Alap+5xszótár rendszer fordítása: 10.87% 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram
60 Példa (angol-magyar) Angol referencia mondat: Magyar referencia mondat: Alaprendszer fordítása: Alap+1xszótár rendszer fordítása: Alap+2xszótár rendszer fordítása: Alap+3xszótár rendszer fordítása: Alap+4xszótár rendszer fordítása: Alap+5xszótár rendszer fordítása: " i wonder who 'll be teaching us? " said hermione as they edged into the chattering crowd. - kíváncsi vagyok, ki tartja a tanfolyamot - morfondírozott hermione, miközben barátaival befurakodtak a tömegbe. - csak tudnám, ki lesz a tanítást? - kérdezte hermione, mikor ő az. - csak tudnám, ki lesz tanított nekünk? - szólt hermione, mikor elindult a jóvoltából. - kíváncsi vagyok, aki tanított nekünk? - szólt hermione, mikor elindult a zsibongó tömeg. - kíváncsi vagyok, ki lesz tanított nekünk? - szólt hermione, mikor elindult az összeverődött tömegen. - kíváncsi vagyok, ki lesz tanított nekünk? - szólt hermione, mikor elindult az összeverődött tömegen. - kíváncsi vagyok, ki lesz tanított nekünk? - szólt hermione, mikor elindult az összeverődött tömegen.
61 A MOZAIK NYELVMODELL
62 Az ANAGRAMMA elemző alprojektje Metódus: emberi megértési minták alkalmazása Minden elérhető információ használata (statisztika és szabályok) Prototípus magyarra, később más nyelveken is tesztelni Kézzel írt szabályok (norma) és statisztika (élettapasztalat)
63 Gestaltok és minták Pléh & Lukács (2014): emberi feldolgozási minták Néhányat már azonosítottak, ezeket követjük Egészleges feldolgozás (Gestalt) Többszavas egységek kezelése, részletes elemzés nélkül Számítógépeknél: cache-elés Cél az elemzés gyorsítása letárolt minták segítségével A grice-i maximákra alapozva Nyelvtechnológiában: korpuszminták Nem feltétlenül teljesen kitöltött szerkezetek!
64 Példák Többszavas kifejezések: a kisebbik kormánypárt, ördög ügyvédje, éjnek évadján, hűlt helye volt Szólásmondások: Hamarabb utolérik, Itt van a kutya Udvariassági sémák: Jó [napszak][acc]!, Szia [keresztnév]! Merev szerkezetek: Az országgyűlés a javaslatot [SZN DIGIT][NOM] igennel elfogadta. Igei szerkezetek: lemma:esik szó [*][DEL] Név + titulus: Orbán Viktor Magyarország miniszterelnöke Névelemek: Petőfi Sándor utcai Általános Iskola
65 Nyelvmodellek vs. korpuszminták A nyelvmodell feladata, hogy megjósolja a következő szót Faktoros nyelvmodellek erre több faktort használnak Nem céljuk, hogy elemzést adjanak Kis n-re csinálnak csak n-gramokat Korpuszminták Elég speciális esetekben léteznek rájuk algoritmusok (Mazsola) Nagy az állapottér
66 Az elérhető korpuszok jellemzői Név Mondatok száma Tokenek száma Mondatokban az átlagos tokenszám Szeged Korpusz ,824 MNSZ ,175 MNSZ ,455 Szószablya ,487 Pázmány Korpusz Méret (n-gram) Szeged Korpusz MNSZ 1 MNSZ 2 Token WLT Token WLT Token WLT 1 1.2E5 1.8E5 6.2E6 9.5E6 7.2E6 8.6E E5 1.7E7 1.3E7 2.0E9 1.9E8 2.5E E5 2.1E8 1.9E7 2.8E10 3.1E8 4.2E E5 1.7E9 1.8E7 2.5E11 3.0E8 4.0E11
67 Eszközök Gyors prototípus-építés + Big Data Memóriába nem fér bele, lemezre kell dolgozni Hátha van egy hatékony, használható adatbázis-kezelő Létező nagy n-gram modellt építő programok Saját program Szempontok: UTF-8, RE, szótártípus, feladatorientált Scriptnyelvek: Perl, Python, Linux Coreutils + AWK Végül: MAWK (egy AWK variáns) a leggyorsabb GNU AWK-nál is, bár kevesebb dolgot tud...
68 Sketch Engine
69 Zipf görbe
70 Zipf görbe (ábra)
71 Zipf görbe (ábra)
72 Előzetes eredmények Durva minőségbecslés: n-gram alapú nyelvfelismerő Érzékeny a túl rövid mondatokra (nem kellenek) Érzékeny az idegen szavakra (ritka névelemek) Érzékeny a tokenizálási hibákra (erre van szükségünk) Eszközök (langid.py, textcat): kb. 30%-on egyeztek meg A korpuszok összetétele nem megfelelő Hosszú, ismétlődő mondatok nagyja a Parlamenti Napló Kicsi a korpusz a méréshez A címkézési hibákat felerősítjük Zajérzékeny a rendszerünk
73 Módszer Egyszerű generálás: gyors, sok a redundancia Az azonos frekvenciájú esetekből a legkonkrétabbat tartjuk csak meg (zajérzékeny) Manuálisan előszűrjük az unigramokat: PUNCT címke törlése (különben túl gyakori lesz) Ritka szóalakok, szótövek, címkék törlése Minden f frekvenciájú n-gram Legalább f frekvenciájú n-k gramokból állhatnak Inkrementálisan építhető n=1-től
74 Példák
75 Triviális vs. nem triviális minták Nagyon sok kimenet keletkezik, szűrni kell Ezek nagy része érdektelen az ember számára A gépnek viszont minden információ új! Osztályozni kell a mintákat! Ehhez szükséges a maximális mintákat megtalálni A részminták nem fontosak, eldobhatók Létező metrikák felhasználásával Nyelvészetileg érdekes ritka minták nincsenek. Talán nagyobb korpuszban
76 Alkalmazási lehetőségek Elemzőhöz: a szemantikai reprezentáció leírása Hogy dolgozná fel az ember az adott mintát? Nyelvmodellként, deformált szöveg zajszűrésére NP-k belsejének elemzésére Pontosan ismert, hogy mi NP része és mi nem Egymás melletti NP-k határainak vizsgálatára Szófaji címkék finomításához Sketch Engine-keresésekhez ötletek
77 Jövőbeli fejlesztések Nagyobb, tisztább korpusz alkalmazása Minőségbecsléssel kiszűrni a haszontalan mondatokat Lassan teljesen elkészül a Pázmány Korpusz! Metrikák adaptálása a nagy állapottérhez Peter Hanks: Corpus Pattern Analysis Kézzel generált szemantikai, nem lexikalizált minták Géppel generálás az ismertetett módszerrel Integrálás az AnaGramma elemzőbe
78
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink
RészletesebbenSTATISZTIKAI GÉPI FORDÍTÁS
STATISZTIKAI GÉPI FORDÍTÁS MÓDSZERÉNEK ALKALMAZÁSA EGY- ÉS TÖBBNYELVŐ NYELVTECHNOLÓGIAI PROBLÉMÁK HATÉKONY MEGOLDÁSÁRA DOKTORI (PH.D.) DISSZERTÁCIÓ Laki László János Témavezető: Dr. Prószéky Gábor, az
RészletesebbenSTATISZTIKAI GÉPI FORDÍTÁS
STATISZTIKAI GÉPI FORDÍTÁS MÓDSZERÉNEK ALKALMAZÁSA EGY- ÉS TÖBBNYELVŐ NYELVTECHNOLÓGIAI PROBLÉMÁK HATÉKONY MEGOLDÁSÁRA DOKTORI (PH.D.) DISSZERTÁCIÓ Laki László János Témavezető: Dr. Prószéky Gábor, az
RészletesebbenMozaik nyelvmodell az AnaGramma elemzőhöz
260 XII. Magyar Számítógépes Nyelvészeti Konferencia Mozaik nyelvmodell az AnaGramma elemzőhöz Indig Balázs 1,2, Laki László 1,2, Prószéky Gábor 1,2,3 1 MTA PPKE Magyar Nyelvtechnológiai Kutatócsoport
RészletesebbenEgy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák
Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák A nyelvtechnológia eszközei 10. Indig Balázs 2016. április 28. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai
RészletesebbenSass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola
IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.
RészletesebbenA gépi fordítás kiértékelése
PÁZMÁNY PÉTER KATOLIKUS EGYETEM KIEMELT FELSŐOKTATÁSI INTÉZMÉNY INFORMÁCIÓS TECHNOLÓGIAI ÉS BIONIKAI KAR A gépi fordítás kiértékelése Yang Zijian Győző Témavezető: Dr. Prószéky Gábor Pázmány Péter Katolikus
RészletesebbenBevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 30.
Bevezetés a nyelvtechnológiába 9. Gépi fordítás Ezt olvassuk a gépi fordításról A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi
RészletesebbenMorfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.
Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok
RészletesebbenPurePos: hatékony morfológiai egyértelműsítő modul
PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás
RészletesebbenLexikon és nyelvtechnológia Földesi András /
Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.
RészletesebbenVIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség
RészletesebbenAz igekötők gépi annotálásának problémái Kalivoda Ágnes
Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás
RészletesebbenNyelvi tudásra épülő fordítómemória
Nyelvi tudásra épülő fordítómemória Hodász Gábor 1, Grőbler Tamás 2 1 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Budapest hodasz@morphologic.hu 2 MorphoLogic Kft. Budapest grobler@morphologic.hu
RészletesebbenKOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás
RészletesebbenA Hunglish Korpusz és szótár
A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu
RészletesebbenSMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer
SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer Laki László János Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar laki.laszlo@itk.ppke.hu Kivonat: Jelen munkában az
RészletesebbenFőnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:
RészletesebbenSzintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.
Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6. Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek
RészletesebbenMi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.
NYELVTECHNOLÓGIA Sass Bálint sass@digitus.itk.ppke.hu Pázmány Nap 2007. október 17. 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS BEVEZETŐ Language makes us human. Turing teszt
RészletesebbenA Mazsola KORPUSZLEKÉRDEZŐ
A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1
RészletesebbenNyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők
RészletesebbenKérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint
ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS
RészletesebbenKÁROLY KRISZTINA SZÖVEGKOHERENCIA A FORDÍTÁSBAN
KÁROLY KRISZTINA SZÖVEGKOHERENCIA A FORDÍTÁSBAN Budapest, 2014 TARTALOM ELŐSZÓ...9 1. BEVEZETÉS...15 1.1. A vizsgálat tárgya...17 1.2. Célkitűzések és kutatási kérdések...18 1.3. A vizsgált nyelvek, műfaj
RészletesebbenTermészetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.
Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9. Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing
RészletesebbenSzámítógépes alkalmazásai
Természetes nyelvek Tartalom Nyelvtechnológia elmélete Nyelvtechnológiai alkalmazások Morfológiai elemzés Egyértelműsítés Mondatelemzés Szemantika Szöveggenerálás Diskurzus-reprezentáció Számítógépes alkalmazások
RészletesebbenReklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint
ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program
RészletesebbenVIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 ISBN: 978 963 306 121 3 Szerkesztette:
RészletesebbenFordító részei. Fordító részei. Kód visszafejtés. Izsó Tamás szeptember 29. Izsó Tamás Fordító részei / 1
Fordító részei Kód visszafejtés. Izsó Tamás 2016. szeptember 29. Izsó Tamás Fordító részei / 1 Section 1 Fordító részei Izsó Tamás Fordító részei / 2 Irodalom Izsó Tamás Fordító részei / 3 Irodalom Izsó
RészletesebbenMit látnak a robotok? Bányai Mihály Matemorfózis, 2017.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák
RészletesebbenIsmeretlen kifejezések és a szófaji egyértelm sítés
Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,
RészletesebbenÜzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban
Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban Prószéky Gábor MorphoLogic & PPKE ITK www.morphologic.hu & www.itk.ppke.hu A magyar nyelv helyzete a digitális korban - MTA, 2013. január
RészletesebbenA Magyar Nemzeti Szövegtár új változatáról Váradi Tamás
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény
RészletesebbenA számítógépes nyelvészet elmélete és gyakorlata. Korpuszok
A számítógépes nyelvészet elmélete és gyakorlata Korpuszok Mi a korpusz? A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint
RészletesebbenA közbeékelt parentézis megszakítja a folyó megnyilatkozás folyamatosságát
BEVEZETÉS - A KUTATÁS MOTIVÁCIÓJA A közbeékelt parentézis megszakítja a folyó megnyilatkozás folyamatosságát Különösen feltehetően nyelvfeldolgozási nehézséget okoz (Biber et al. 1999: 1097, Hoffmann 1998,
RészletesebbenBIRTOKLÁST KIFEJEZŐ VAN (HAVE GOT) (valakinek VAN valamije)
FELÉPÍTÉSE BIRTOKLÁST KIFEJEZŐ VAN (HAVE GOT) (valakinek VAN valamije) akinek van vmije + HAVE (="van ) GOT + amije van (a birtokos) (E/3. sz: HAS GOT) (a birtok) pl. Marknak van egy számítógépe. Mark
RészletesebbenA magyar létige problémái a számítógépes nyelvi elemzésben
A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:
RészletesebbenIgekötős szerkezetek a magyarban
Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek
RészletesebbenMotiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu
VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK
RészletesebbenA HUNGLISH PÁRHUZAMOS KORPUSZ
A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április
RészletesebbenHelyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével
Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével Siklósi Borbála 1, Novák Attila 1,2, Prószéky Gábor 1,2, 1 Pázmány Péter Katolikus Egyetem Információs Technológiai
RészletesebbenKOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems KOPI A fordítási plágiumok keresője Pataki Máté Kovács László MTA SZTAKI MTA SZTAKI Elosztott Rendszerek Osztály 1995. óta létezik 12 teljes állású munkatárs,
RészletesebbenBEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA
BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció
RészletesebbenA MUTATÓNÉVMÁSOK. A mutatónévmások az angolban is (mint a magyarban) betölthetik a mondatban
A MUTATÓNÉVMÁSOK ez this /ðɪs/ az that /ðæt/ ezek these /ði:z/ azok those /ðəʊz / A mutatónévmások az angolban is (mint a magyarban) betölthetik a mondatban a) az ALANY szerepét - Ilyenkor (a már említett
RészletesebbenKORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL
KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban
RészletesebbenDoktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint
MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori
RészletesebbenBevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai 2015. november 25.
Bevezetés a nyelvtechnológiába 9. Gépi fordítás Ezt olvassuk a gépi fordításról A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi
RészletesebbenA számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete
A számítógépes nyelvészet elmélete és gyakorlata Formális nyelvek elmélete Nyelv Nyelvnek tekintem a mondatok valamely (véges vagy végtelen) halmazát; minden egyes mondat véges hosszúságú, és elemek véges
RészletesebbenSzámítógépes nyelvészet
Számítógépes nyelvészet Babarczy Anna A MESTERSÉGES INTELLIGENCIA KEZDETEI Az intelligens gép Az embert régóta foglalkoztatja az intelligenciával rendelkező gép ötlete. Érdekes, és filozófiai szempontból
RészletesebbenA azonosító számú Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz tartozó Foglalkoztatás I tantárgy
A 11497-12 azonosító számú Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz tartozó Foglalkoztatás I tantárgy 1. 1. A 11497-12 azonosító számú, Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz
RészletesebbenFordítás, többnyelvűség, szótárak
Fordítás, többnyelvűség, szótárak Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu Minden hivatalos anyagot minden
RészletesebbenFoglalkoztatás I. tantárgy Idegen nyelv
Szakiskola 11. évfolyam Foglalkoztatás I. tantárgy Idegen nyelv 64 óra A Foglalkoztatás I. megnevezésű szakmai követelménymodulhoz tartozó tantárgyak és a témakörök oktatása során fejlesztendő kompetenciák
RészletesebbenHibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására PhD disszertáció tézisfüzete Orosz György Pázmány Péter Katolikus Egyetem Információs
RészletesebbenEgy szónak is száz a vége
Egy szónak is száz a vége Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály oravecz@nytud.hu Magyar tudomány napja, MTA, 2003. 11. 04. Bevezetés mit lát a számítógép a természetes nyelvi
RészletesebbenKlasszikus héber nyelv 4.: Szintaxis
Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2015. november 25. Témaválasztás házi dolgozatra (ע "ו ( igeragozás Ismétlés: Mondatok: Arnold & Choi 5. rész A mondat belső
RészletesebbenKorpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.
Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban 2014. szeptember 29. Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció
RészletesebbenRegresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
RészletesebbenJavában taggelünk.
336 VIII. Magyar Számítógépes Nyelvészeti Konferencia Javában taggelünk Novák Attila 1, Orosz György 2, Indig Balázs 2 1 MorphoLogic Kft., 1116 Budapest, Kardhegy utca 5. novak@morphologic.hu 2 Pázmány
RészletesebbenGépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
RészletesebbenA számítógépes nyelvészet elmélete és gyakorlata. A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek
A számítógépes nyelvészet elmélete és gyakorlata A számítógépes feldolgozás szempontjából fontos természetes nyelvi jelenségek A szövegfeldolgozás lépései - elektronikusan hozzáférhető szövegek - a feldolgozás
RészletesebbenFőnévi csoportok azonosítása szabályalapú és hibrid módszerekkel
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A
RészletesebbenMély neuronhálók alkalmazása és optimalizálása
magyar nyelv beszédfelismerési feladatokhoz 2015. január 10. Konzulens: Dr. Mihajlik Péter A megvalósítandó feladatok Irodalomkutatás Nyílt kutatási eszközök keresése, beszédfelismer rendszerek tervezése
Részletesebbensallang avagy Fordítótervezés dióhéjban Sallai Gyula
sallang avagy Fordítótervezés dióhéjban Sallai Gyula Az előadás egy kis példaprogramon keresztül mutatja be fordítók belső lelki világát De mit is jelent, az hogy fordítóprogram? Mit csinál egy fordító?
RészletesebbenVáltozók. Mennyiség, érték (v. objektum) szimbolikus jelölése, jelentése Tulajdonságai (attribútumai):
Python Változók Mennyiség, érték (v. objektum) szimbolikus jelölése, jelentése Tulajdonságai (attribútumai): Név Érték Típus Memóriacím A változó értéke (esetleg más attribútuma is) a program futása alatt
Részletesebbeneπque: Gépi fordítás minőségét becslő programcsomag
eπque: Gépi fordítás minőségét becslő programcsomag Doktori (PhD) disszertáció Yang Zijian Győző Roska Tamás Műszaki és Természettudományi Doktori Iskola Pázmány Péter Katolikus Egyetem Információs Technológiai
RészletesebbenOsztályozó és javítóvizsga témakörei és követelményei angol nyelvből. 9. évfolyam
Osztályozó és javítóvizsga témakörei és követelményei angol nyelvből Személyes vonatkozások 9. évfolyam A tanuló személye, életrajza, életének fontos állomásai Családi élet, családi kapcsolatok Emberek
RészletesebbenBevezetés az e-magyar programcsomag használatába
Bevezetés az e-magyar programcsomag használatába Vadász Noémi 2019. február 7. MTA Nyelvtudományi Intézet vadasz.noemi@nytud.mta.hu Az előadás felépítése 1. szövegelemzés számítógéppel elemzési lépések
RészletesebbenSzemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.
Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?
RészletesebbenTartalom. Előszó... 13. 1. feladat: Fordítás a megszokott eszközökkel... 17 A számítógép hatékony használatáról... 18
Előszó... 13 1. feladat: Fordítás a megszokott eszközökkel... 17 A számítógép hatékony használatáról... 18 1.1. Előkészítés... 21 A munka fogadása... 21 Az elektronikus levelezés technikája és etikája...
RészletesebbenANGOL NYELV, MINT ELSŐ IDEGEN NYELV
Nyelvtan: ANGOL NYELV, MINT ELSŐ IDEGEN NYELV megszámlálható és megszámlálhatatlan főnevek, főnevek többes száma névelők és főnévbővítmények: the, a, an, some, any, much, many, a lot of, a few, a little
RészletesebbenNégy Hét Alatt Alapszinten Angolul. GYAKORLÁS nap
Négy Hét Alatt Alapszinten Angolul GYAKORLÁS 12-14. nap ISMÉTLÉS-GYAKORLÁS - többes szám - birtokos névmások - rövid válaszok 12-14. lecke TÖBBES SZÁM PLURAL TÖBBES SZÁM Hogyan képezzük a legtöbb esetben
RészletesebbenELTE Bölcsészettudományi Kar Fordítástudományi Doktori Program
Robin Edina ELTE Bölcsészettudományi Kar Fordítástudományi Doktori Program Fordítási univerzálék Baker (1993) Nyelvi jellemzők, amelyek jellegzetesen a fordított és nem az eredetileg célnyelven írott szövegekben
RészletesebbenEgy szónak is száz a vége
Egy szónak is száz a vége Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés mit lát a számítógép a természetes nyelvi megnyilatkozásokból? karaktersorozatokat
RészletesebbenÖnálló labor feladatkiírásaim tavasz
Önálló labor feladatkiírásaim 2016. tavasz (ezekhez kapcsolódó saját témával is megkereshetnek) Mészáros Tamás http://www.mit.bme.hu/~meszaros/ Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika
RészletesebbenBig Data az adattárházban
Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi
RészletesebbenTANMENETJAVASLATOK. Általánosságban: egy lecke mindig egy heti anyagot jelent, a heti óraszámnak megfelelően.
TANMENETJAVASLATOK Általánosságban: egy lecke mindig egy heti anyagot jelent, a heti óraszámnak megfelelően. a) változat (heti 3 óra) Egy leckére átlagosan 3 óra jut, de ehhez nem kell feltétlenül ragaszkodni.
RészletesebbenPÁRHUZAMOS IGEI SZERKEZETEK
PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3. 1 EGYNYELVŰ IGEI SZERKEZETEK
RészletesebbenKülönböző hagyományos és nem-hagyományos eljárások kombinálása: miért és hogyan? április 16.
Különböző hagyományos és nem-hagyományos eljárások kombinálása: miért és hogyan? 2008. április 16. Életből vett problémák, projektek Dunai Vasmű: acélkonverter modellezése Orvosi röntgenkép-kiértékelés
RészletesebbenSZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből
2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március
RészletesebbenA szótárról. 1. Mi ez?
A szótárról 1. Mi ez? A szótár, amit az olvasó a kezében tart, a leggyakoribb magyar igei szerkezeteket tartalmazza. Egynyelvű szótár explicit szótári értelmezések nélkül; a szerkezeteket, azok jelentését
RészletesebbenAz Informatika Elméleti Alapjai
Az Informatika Elméleti Alapjai dr. Kutor László Minimális redundanciájú kódok Statisztika alapú tömörítő algoritmusok http://mobil.nik.bmf.hu/tantargyak/iea.html Felhasználónév: iea Jelszó: IEA07 BMF
RészletesebbenTartalomjegyzék. Tartalomjegyzék
Tartalomjegyzék A főnév 11 Kis és nagy kezdőbetűk 11 A főnevek neme 12 A főnevek többes száma 13 Nem megszámlálható főnevek 15 Csak többes számban használatos főnevek 16 Foglalkozások 17 Címek, rangok,
RészletesebbenEgy sok szálon futó nyelvelemző program moduljainak kialakítása és harmonizációja
Egy sok szálon futó nyelvelemző program moduljainak kialakítása és harmonizációja Indig Balázs PhD disszertáció Témavezető: Dr. Prószéky Gábor az MTA doktora Pázmány Péter Katolikus Egyetem Információs
RészletesebbenStatisztikai alapú tulajdonnév-felismerő magyar nyelvre
Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Farkas Richárd 1, Szarvas György 1 1 MTA-SZTE, Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1., Hungary, {rfarkas,
RészletesebbenOlvasás-szövegértés fejlesztése. Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály)
Olvasás-szövegértés fejlesztése Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály) Feladataink szókincs gyarapítása a használt szavak jelentésrétegeinek, stílusértékének
RészletesebbenSzintaxis. Tóth Ildikó, PhD. Bevezetés a nyelvtudományba. 5. előadás 2009 Pázmány Péter Katolikus Egyetem
Szintaxis Tóth Ildikó, PhD. Bevezetés a nyelvtudományba 5. előadás 2009 Pázmány Péter Katolikus Egyetem 1 Végesből végtelen Hangok Szavak - véges sok - véges sok rekurzív szabályok (pl. beágyazás, mellérendelés)
RészletesebbenReported Speech Függő beszéd
~ T u d á s N y e l v i s k o l a ~ 4027 Debrecen, Lóverseny u. 22047/8. Fszt./2. Tel: +36 20 266 1989 www.tudasnyelviskola.hu tudas@tudasnyelviskola.hu Felnőttképzési nyilvántartási szám: 09-0018-06 Reported
RészletesebbenVagy igen, vagy nem. Lássuk a választ néhány példán keresztül. 1. Mi a különbség a következő mondatok jelentése és nyelvtani szerkezete között?
Vagy igen, vagy nem. Lássuk a választ néhány példán keresztül. Ú R I H U N C U T S Á G O K A Z A N G O L N Y E L V B E N? 1. Mi a különbség a következő mondatok jelentése és nyelvtani szerkezete között?
RészletesebbenSzerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák. Szerkezetek és kategóriák
kategória (nyelvtani) értékek szám egyes, kettes, többes mennyiség egyedi, kollektív, megszámlálható nem hím, nő, semleges eset alany, tárgy, birtokos idő jelen, múlt, jövő aspektus imperfektív, perfektív,
RészletesebbenKlasszikus héber nyelv 4.: Szintaxis
Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2017. szeptember 13. Informatikusviccek Az informatikus felesége elküldi a férjét a boltba: - Hozzál margarint, és ha van
RészletesebbenOsztályozó vizsga Angol mint első idegen nyelv
Osztályozó vizsga Angol mint első idegen nyelv Az írásbeli szóbeli vizsga 50-50 %-os arányban számítanak be a vizsga eredményébe. Tanév végi osztályozó vizsgán az éves munka és a vizsgaeredmény 75-25 %-ban
RészletesebbenPostfilter. Kadlecsik József KFKI RMKI <kadlec@sunserv.kfki.hu>
Postfilter Kadlecsik József KFKI RMKI Tartalom Bevezetés Postfilter rendszer felépítése Szűrési feltételek CGI felületek Demo Előzmények Postfix per_user_uce patch: 1999-2002 postfilter
RészletesebbenKözösség detektálás gráfokban
Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a
RészletesebbenAz Ómagyar Korpusz bemutatása
Az Ómagyar Korpusz bemutatása Simon Eszter 2017. január 13. 29. Finnugor Szeminárium Simon Eszter Az Ómagyar Korpusz bemutatása Az előadás vázlata 1 A projektek 2 A korpusz anyaga 3 A feldolgozás lépései
RészletesebbenStrukturált Generátorrendszerek Online Tanulása és Alk-ai
Strukturált Generátorrendszerek Online Tanulása és Alkalmazásai Problémamegoldó Szeminárium 2010. nov. 5 Tartalomjegyzék Motiváció, példák Regressziós feladatok (generátorrendszer fix) Legkisebb négyzetes
RészletesebbenSémi összehasonlító nyelvészet
Sémi összehasonlító nyelvészet BMA-HEBD-303 Biró Tamás 5. A nyelvtörténeti rekonstrukció alapjai. Jelentéstan. 2016. március 30. Összehasonlító rekonstrukció: alapok A történeti rekonstrukció klasszikus
Részletesebben0. előadás Motiváció
0. előadás Dr. Kallós Gábor 2015 2016 1 A reguláris kifejezések alkalmazása széleskörű Szövegek javítása, minták cseréje Érvényesség-ellenőrzés (beíráskor) Védett űrlapok Elektronikus oktatás, javítás
RészletesebbenBevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak
Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak A nyelvtechnológia szerepe a lexikográfiában A szótárak célja ma emberek számára készülnek gépek számára készülnek Miből hozunk létre ma szótárakat?
RészletesebbenTanmenetjavaslat heti 3 óra
Tanmenetjavaslat heti 3 óra Egy leckére átlagosan 3 óra jut, de ehhez nem kell feltétlenül ragaszkodni. Vannak olyan leckék, amelyek 2 óra alatt elvégezhetők, míg olyanok is, amelyek több gyakorlást igényelnek.
Részletesebben