Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29."

Átírás

1 Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban szeptember 29.

2 Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció Wall Street Journal (WSJ) Üzleti nyelv Egyes részei kézzel annotálva (morfológia, szintaxis) Reuters ~100 millió szövegszó dokumentumok, bekezdések határai Gigaword korpusz 2 milliárd szó Penn TreeBank 5 millió szövegszó szófaji kód szintaktikai elemzés (konstituensfa) Feladatspecifikus korpuszok: CoNLL-2003 (tulajdonnevek), SemEval (szemantika) néhány százezer szövegszó

3 Magyar Nemzeti Szövegtár (MNSZ) 187,6 millió szövegszó Sajtó, szépirodalom, tudományos, hivatalos, személyes szövegek Határon túli nyelvváltozatok is Automatikus szótövezés és szófaji elemzés Gigaword verzió (1 milliárd szövegszó)

4 Webkorpusz több mint 1,48 milliárd szó (szűretlenül, illetve 589 millió megszűrt szó) jelenleg a legnagyobb magyar nyelvű korpusz 18 millió weboldal (.hu) corpus

5 Párhuzamos korpuszok olyan két- vagy többnyelvű korpuszok, amelyben egy mű és annak egy vagy több nyelvre lefordított változatai szerepelnek Bekezdés-, mondat- vagy szószinten párhuzamosított szövegek Alkalmazási lehetőségek: fordítástudomány, kontrasztív nyelvészet, gépi fordítás

6 Néhány párhuzamos korpusz Hansard: angol-francia 1984: közép- és kelet-európai nyelvek Hunglish: magyar-angol SzegedParalell: magyar-angol HunOr: magyar-orosz

7 Szegedi korpuszok Szeged Treebank Szeged Dependencia Treebank Magyar WordNet Bizonytalanságra annotált korpuszok Tulajdonnévkorpuszok Lemmatizált tulajdonnevek Többszavas kifejezések korpuszai Jelentés-egyértelműsített korpusz Kutatói adatok HTML korpusza SzegedParalell HunOr Véleménydetekciós korpusz Kulcsszókinyerési korpuszok HunLearner

8 Szeged (Dependencia) Treebank mondat 1,5 millió szövegszó írásjel 6 domén iskolai fogalmazások számítógépes szövegek irodalom jogi szövegek újságcikkek üzleti rövidhírek Kézzel ellenőrzött morfológiai és szintaktikai (konstituens és függőségi) elemzés, névelemek, félig kompozicionális szerkezetek (FX), koreferencia

9 1 ROOT _ ROOT ELL ELL Japánban Japán Japán N N SubPOS=p Num=s Cas=2 NumP=none PerP=none NumPd=none SubPOS=p Num=s Cas=2 NumP=none PerP=none NumPd=none OBL 1 1 OBL 3,, PUNCT, PUNCT,, ahol ahol ahol R SubPOS=r Deg=none Num=none Per=none R 9 SubPOS=r Deg=none Num=none Per=none 9 TLOCY TLOCY ban M M SubPOS=c Num=s Cas=2 Form=d NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=2 Form=d NumP=none PerP=none NumPd=none OBL 9 9 OBL 6 közel közel közel R SubPOS=x Deg=none Num=none Per=none R 7 SubPOS=x Deg=none Num=none Per=none 7 MODE MODE 7 félmillió félmillió félmillió M M SubPOS=c Num=s Cas=n Form=l NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=n Form=l NumP=none PerP=none NumPd=none ATT 8 8 ATT 8 válást válás válás N N SubPOS=c Num=s Cas=a NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=a NumP=none PerP=none NumPd=none OBJ 9 9 OBJ 9 mondtak mond mond V V SubPOS=m Mood=i Tense=s Per=3 Num=p Def=n SubPOS=m Mood=i Tense=s Per=3 Num=p Def=n 1 1 ATT ATT 10 ki ki ki R R SubPOS=p Deg=none Num=none Per=none 9 SubPOS=p Deg=none Num=none Per=none 9 PREVERB PREVERB 11,, PUNCT, PUNCT,, ben M M SubPOS=c Num=s Cas=2 Form=d NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=2 Form=d NumP=none PerP=none NumPd=none OBL 1 1 OBL 13 már már már R SubPOS=x Deg=none Num=none Per=none R 15 SubPOS=x Deg=none Num=none Per=none 15 MODE MODE 14 2,6 2,6 2,6 M M SubPOS=f Num=s Cas=n Form=d NumP=none PerP=none NumPd=none SubPOS=f Num=s Cas=n Form=d NumP=none PerP=none NumPd=none NUM NUM 15 milliót millió millió M M SubPOS=c Num=s Cas=a Form=l NumP=none PerP=none NumPd=none SubPOS=c Num=s Cas=a Form=l NumP=none PerP=none NumPd=none OBJ 1 1 OBJ 16.. PUNCT. PUNCT.. 0 0

10

11 WordNet Lexikális adatbázis Fogalmak hálóba rendezve különféle relációk alapján Angol: Princeton WordNet (PWN) Más nyelvekre is: EuroWordNet, BalkaNet stb. Magyar: Hungarian WordNet (HuWN)

12 A HuWN bemutatása synset (általános ontológia) üzleti nyelvi, ill. 650 jogi nyelvi synset (szakontológia) Főnevek Igék Melléknevek Határozószók Alapelv: ahol csak lehet, a PWNnek megfeleltetni a synseteket

13 Melléknevek a HuWN-ben

14 WSD korpusz Jelentés-egyértelműsítés A WordNet építése mellett elkészült Szegeden az első (Lexical Sample) tanítókorpusz magyarra (finom jelentésmegkülönböztetés) 39 szóalak szóalakonként címkézett példa 6 melléknév: anyagi, élő, erős, képes, pontos, szociális 21 főnév: civil, család, élet, ház, helyzet, intézmény, iskola, kép, képviselő, kormány, nap, oldal, ország, perc, pont, program, század, személy, szervezet, tanár, világ, víz 12 ige: függ, hat, jár, kap, kerül, marad, rendelkezik, szerepel, tart, tartozik, tud, válik

15

16 NE-korpuszok CoNLL-verseny normáit követi ORG / LOC / PER / MISC osztályok ~ szövegszó (SZK üzleti hírek) ~ szövegszó (HVG-cikkek) Szó szerinti (tag-for-tag) Metonimikus jelölés (tag-for-meaning)

17 SzegedParalell Magyar-angol párhuzamos korpusz Kézzel párhuzamosított bekezdés és mondat szinten: nyelvkönyvek EU-s szövegek Kétnyelvű újságok irodalom mondatszintű egység Egy része FX-ekre annotálva

18 Bizonytalanságra annotált korpuszok BioScope (20K mondat) Orvosi szövegek Biológiai absztraktok Biológiai cikkek CoNLL-2010 Shared Task korpuszok (Biológiai cikkek (18K mondat) + Wikipedia-szócikkek (20K mondat) ) Szeged Uncertainty Corpus Újraannotált CoNLL FactBank Egységes annotációs elvek WikiWeasel 2.0: diskurzusszintű bizonytalanság huncertainty: magyar korpusz (17K mondat)

19 A O O lap O O szerint B-doxastic B-doxastic P. O O. O O Márió O O kitart B-doxastic O amellett O O, O O hogy O O egyáltalán O O nem O O emlékszik O O arra O O, O O hogy O O őt O O bárki O O is O O üldözte O O volna O O. O O Állítólag B-epistemic B-epistemic azon O O a O O területen O O, O O ahol O O a O O vérengzés O O történt O O, O O csak O O a O O gyilkos O O kocsijának O O a O O keréknyomát O O találták O O meg O O

20 MWE-korpuszok Többszavas kifejezések Wiki50 korpusz: 50 angol Wikipedia-szócikk (4700 mondat) MWE-k és NE-k kézzel jelölve Szeged Treebankben és SzegedParalell egy részében FX-ek JRC-Acquis jogi párhuzamos korpuszban FX-ek angol, német, spanyol és magyar nyelven (~100K token minden nyelven)

21 Wiki50

22 HunLearner Középhaladó és haladó szintű tanulók fogalmazásai Többségében horvát vagy észt anyanyelvűek Számítógépen, szótár és nyelvkönyv nélkül írt fogalmazások 1400 mondat Főnévi morfológiai hibák jelölve Alanyi/tárgyas ragozási hibák

23 1 A a Tf 2 DET T SubPOS=f 2 gyerek gyerek Nc-sn 9 SUBJ N SubPOS=c Num=s Cas=n NumP=none PerP=none NumPd=none 3 nagyon nagyon Rx 4 MODE R SubPOS=x Deg=none 4 okos okos Afp-sn 9 ATT A SubPOS=f Deg=p Num=s Cas=n NumP=none PerP=none NumPd=none 5 és és Ccsw 4 CONJ C SubPOS=c Form=s Coord=w 6 kedves kedves Afp-sn 5 COORD A SubPOS=f Deg=p Num=s Cas=n NumP=none PerP=none NumPd=none 7 és és Ccsw 6 CONJ C SubPOS=c Form=s Coord=w 8 jól jól Rxp 7 COORD R SubPOS=x Deg=p 9 müködik müködik X 0 ROOT X _ 10 a a Tf 11 DET T SubPOS=f 11 kapcsolatünk kapcsolatünk X 9 OBL X _ kapcsolatunk Stem: A Assimilation: 1 Matching: B Suffix number: PUNCT. _

24 Véleménydetekciós korpusz Népszavazás a kettős állampolgárságról 1294 fórumhozzászólás Igennel/nemmel szavazna érvénytelenül szavaz nem releváns kategóriák szerint felcímkézve

25 Személyiségjegyek és vélemények 500 utazási blog 5 úticélhoz kapcsolódva Angol nyelvű Pozitív és negatív vélemények adott dologra vonatkoztatva Személyiségjegyekre utaló szövegrészek is jelölve

26

27 Koreferenciakorpusz Azonos referenciájú elemek összekötése Szeged Treebank szövegei Folyamatban

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22. Korpuszok létrehozása Korpuszok a nyelvészeti kutatásban 2014. szeptember 22. Alapfogalmak Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis szöveggyűjtemény Annotáció: a szövegek nyelvi

Részletesebben

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés

magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés 368 IX. Magyar Számítógépes Nyelvészeti Konferencia magyarlanc 2.0: szintaktikai elemzés és felgyorsított szófaji egyértelműsítés Zsibrita János 1, Vincze Veronika 2, Farkas Richárd 1 1 Szegedi Tudományegyetem,

Részletesebben

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?

Részletesebben

A HUNGLISH PÁRHUZAMOS KORPUSZ

A HUNGLISH PÁRHUZAMOS KORPUSZ A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április

Részletesebben

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában

Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában 182 IX. Magyar Számítógépes Nyelvészeti Konferencia Domének közti hasonlóságok és különbségek a szófajok és szintaktikai viszonyok eloszlásában Vincze Veronika 1,2 1 MTA-SZTE Mesterséges Intelligencia

Részletesebben

Események detektálása természetes nyelvű szövegekben

Események detektálása természetes nyelvű szövegekben Események detektálása természetes nyelvű szövegekben Subecz Zoltán, Nagyné Csák Éva Összefoglalás Az események detektálásának a feladata az esemény-előfordulások azonosítása a szövegekben. Esemény előfordulásnak

Részletesebben

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség

Részletesebben

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6. Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6. Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek

Részletesebben

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Lexikális szemantika Jelentés-egyértelműsítés Szójelentés

Részletesebben

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9. Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9. Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing

Részletesebben

a Szeged FC Treebankben

a Szeged FC Treebankben Szeged, 2014. január 16 17. 67 Többszintű szintaktikai reprezentáció kialakítása a Szeged FC Treebankben Simkó Katalin Ilona 1, Vincze Veronika 2, Farkas Richárd 1 1 Szegedi Tudományegyetem, TTIK, Informatikai

Részletesebben

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok A számítógépes nyelvészet elmélete és gyakorlata Korpuszok Mi a korpusz? A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők

Részletesebben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A

Részletesebben

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Az igekötők gépi annotálásának problémái Kalivoda Ágnes Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás

Részletesebben

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK

Részletesebben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény

Részletesebben

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9. Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok

Részletesebben

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt 5/3/2011 1 Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok

Részletesebben

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Középiskolás szakkör előadás fóliák http://www.inf.u-szeged.hu/hlt 2008.12.04. 1 Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok

Részletesebben

A HunOr magyar-orosz párhuzamos korpusz

A HunOr magyar-orosz párhuzamos korpusz Szeged, 2011. december 1 2. 341 A HunOr magyar-orosz párhuzamos korpusz Szabó Martina Katalin 1, Schmalcz András 2, Nagy T. István 2, Vincze Veronika 3 1 Szegedi Tudományegyetem, Magyar Nyelvészeti Tanszék

Részletesebben

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:

Részletesebben

Január 7. hétfő. I. Beszédtechnológia, fonológia

Január 7. hétfő. I. Beszédtechnológia, fonológia Január 7. hétfő 09:15-10:45 Regisztráció, kávé 10:45-11:00 Megnyitó 11:00-12:00 Plenáris előadás Gósy Mária: Spontán beszéd: szabályok és szabálytalanságok I. Beszédtechnológia, fonológia 12:00-12:20 Grósz

Részletesebben

Főnevek a Magyar WordNetben

Főnevek a Magyar WordNetben Főnevek a Magyar WordNetben Hatvani Csaba 1, Kocsor András 1, Miháltz Márton 2, Szarvas György 1, Szécsi Katalin 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport 6720 Szeged, Árpád tér 2. {hacso,

Részletesebben

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban

Részletesebben

Bevezetés az e-magyar programcsomag használatába

Bevezetés az e-magyar programcsomag használatába Bevezetés az e-magyar programcsomag használatába Vadász Noémi 2019. február 7. MTA Nyelvtudományi Intézet vadasz.noemi@nytud.mta.hu Az előadás felépítése 1. szövegelemzés számítógéppel elemzési lépések

Részletesebben

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank

Angol Nyelvészeti Tanszék DELITE március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank Angol Nyelvészeti Tanszék DELITE 2014. március 12. A Lexikai-Funkcionális Grammatikai Kutatócsoport: ParGram > HunGram > Treebank http://hungram.unideb.hu/ A csapat (LFGKCS) Tóth Ágoston Laczkó Tibor Rákosi

Részletesebben

Magyar nyelvű néprajzi keresőrendszer

Magyar nyelvű néprajzi keresőrendszer Szeged, 2013. január 7 8. 361 Magyar nyelvű néprajzi keresőrendszer Zsibrita János 1, Vincze Veronika 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport zsibrita@inf.u-szeged.hu 2 MTA-SZTE Mesterséges

Részletesebben

magyar nyelvű szövegekben

magyar nyelvű szövegekben Szeged, 2014. január 16 17. 99 Bizonytalanságot jelölő kifejezések azonosítása magyar nyelvű szövegekben Vincze Veronika 1,2 1 Szegedi Tudományegyetem, TTIK, Informatikai Tanszékcsoport, Szeged Árpád tér

Részletesebben

Bizonytalanság azonosítása

Bizonytalanság azonosítása Bizonytalanság azonosítása természetes nyelvű szövegekben A DOKTORI ÉRTEKEZÉS TÉZISEI Vincze Veronika MTA-SZTE Mesterséges Intelligencia Kutatócsoport és Szegedi Tudományegyetem 2014. július Témavezető:

Részletesebben

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar DR. VINCZE VERONIKA ELÉRHETŐSÉG MTA-SZTE Mesterséges Intelligencia Kutatócsoport 6720 Szeged, Tisza Lajos krt. 103. Telefon: +36-62-54-41-40 Mobil: +36-70-22-99-108 Fax: +36-62-54-67-37 E-mail: vinczev@inf.u-szeged.hu

Részletesebben

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP 2016. június 1. szeminárium, MTA NYTI Sass Bálint sass.balint@nytud.mta.hu Cím NoSkE = korpuszkezelő rendszer ( lényeg!) NoSketchEngine (régi nevén: Manatee/Bonito)

Részletesebben

A Mazsola KORPUSZLEKÉRDEZŐ

A Mazsola KORPUSZLEKÉRDEZŐ A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1

Részletesebben

Korpuszlekérdezők evolúciója

Korpuszlekérdezők evolúciója Korpuszlekérdezők evolúciója Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály 2015. november 10. korpusz? lekérdező? 2 / 19 korpusz =

Részletesebben

MODELLALAPÚ SZEMANTIKUS KERESŐ RENDSZER KIDOLGOZÁSA

MODELLALAPÚ SZEMANTIKUS KERESŐ RENDSZER KIDOLGOZÁSA TECH_08_A2/2-2008-0092 MODELLALAPÚ SZEMANTIKUS KERESŐ RENDSZER KIDOLGOZÁSA IDŐKÖZI SZAKMAI BESZÁMOLÓ 3. SZAKASZ SZÓEGYÉRTELMŰSÍTŐ (WSD) MODUL KIDOLGOZÁSA Alkalmazott Logikai Laboratórium Szegedi Tudományegyetem

Részletesebben

Igekötős szerkezetek a magyarban

Igekötős szerkezetek a magyarban Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek

Részletesebben

Morfológiai újítások a Szeged Korpusz 2.5-ben

Morfológiai újítások a Szeged Korpusz 2.5-ben 332 X. Magyar Számítógépes Nyelvészeti Konferencia Morfológiai újítások a Szeged Korpusz 2.5-ben Vincze Veronika 1,2, Varga Viktor 2, Simkó Katalin Ilona 2, Zsibrita János 2, Nagy Ágoston 2, Farkas Richárd

Részletesebben

Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban

Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban Szeged, 2010. december 2 3. 91 Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban Vincze Veronika 1, Felvégi Zsuzsanna 2, R. Tóth Krisztina 3 1 Szegedi Tudományegyetem,

Részletesebben

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17. NYELVTECHNOLÓGIA Sass Bálint sass@digitus.itk.ppke.hu Pázmány Nap 2007. október 17. 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS BEVEZETŐ Language makes us human. Turing teszt

Részletesebben

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ SZERKEZETEK KINYERÉSE KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet Budapest, 2011. június 16. 1 / 33 1 MAGYAR IGEI SZERKEZETEK Alapmodell és

Részletesebben

Diszlexiások/diszgráfiások anyanyelvi és idegen nyelvi szókincsszerkezete

Diszlexiások/diszgráfiások anyanyelvi és idegen nyelvi szókincsszerkezete Diszlexiások/diszgráfiások anyanyelvi és idegen nyelvi szókincsszerkezete Kohlmann Ágnes Pázmány Péter Katolikus Egyetem Nyelvtudományi Doktori Iskola kohlmannagi@yahoo.de Előzmények és kutatási kérdés

Részletesebben

Lexikon és nyelvtechnológia Földesi András /

Lexikon és nyelvtechnológia Földesi András / Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.

Részletesebben

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.

Részletesebben

MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5

MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5 Durst Péter 1 Szabó Martina Katalin 2 Vincze Veronika 3 Zsibrita János 4 MAGYAR MINT IDEGEN NYELV TANKÖNYVEK NYELVI ANYAGÁNAK SZÁMÍTÓGÉPES ELEMZÉSE 5 Abstract This paper presents the results of an analysis

Részletesebben

Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel

Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel Miháltz Márton MorphoLogic Kft. 1118 Budapest, Késmárki utca 8. mihaltz@morphologic.hu Kivonat. A cikk bemutatja a folyamatban lév,

Részletesebben

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven Szeged, 2011. december 1 2. 59 Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven Vincze Veronika 1, Nagy T. István 2, Zsibrita János 2 1 Magyar Tudományos Akadémia, Mesterséges

Részletesebben

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program

Részletesebben

Nyelvtechnológia - nyelvészeknek

Nyelvtechnológia - nyelvészeknek Nyelvtechnológia - nyelvészeknek A korpusznyelvészettől a nyelvtechnológiáig Váradi Tamás MTA Nyelvtudományi Intézet varadi@nytud.hu A 2006. november 30-án a Nyelvtudományi Intézetben tartott előadás bővített

Részletesebben

RDFS. (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék https://www.mit.bme.hu/oktatas/targyak/vimiac04

RDFS. (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék https://www.mit.bme.hu/oktatas/targyak/vimiac04 RDFS (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék https://www.mit.bme.hu/oktatas/targyak/vimiac04 1 RDF Eredetileg webes metaadat kezelés javasolt megközelítése

Részletesebben

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában B y G y F v v m y b E y u m y ( m ó ) y v b y v u m y m j 20. A j m : m y v 1 ü - b ü ó, v m y v - v ó y, m y j y v - u m y ü m j m v. A y v u m y y m u m y, ó ü v, m m m u m y. J, m b m ó b. A MTA 56

Részletesebben

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?

Részletesebben

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt

Részletesebben

HunLearner: a magyar nyelv nyelvtanulói korpusza

HunLearner: a magyar nyelv nyelvtanulói korpusza Szeged, 2013. január 7 8. 97 HunLearner: a magyar nyelv nyelvtanulói korpusza Vincze Veronika 1, Zsibrita János 2, Durst Péter 3, Szabó Martina Katalin 4 1 MTA-SZTE Mesterséges Intelligencia Kutatócsoport

Részletesebben

Egy általános célú morfológiai annotáció kiterjesztése

Egy általános célú morfológiai annotáció kiterjesztése Egy általános célú morfológiai annotáció kiterjesztése Recski Gábor MTA SZTAKI, Nyelvtechnológiai Kutatócsoport recski@sztaki.hu Kivonat: Egy szó nyelvtani jegyeinek kódolására számos különböző annotációs

Részletesebben

PÁRHUZAMOS IGEI SZERKEZETEK

PÁRHUZAMOS IGEI SZERKEZETEK PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3. 1 EGYNYELVŰ IGEI SZERKEZETEK

Részletesebben

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata) TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata) Miháltz Márton Hungarian Natural Language Processing Meetup, 2014. szeptember 25. www.trendminer-project.eu TrendMiner Projekt

Részletesebben

Nem lexikalizált fogalmak a Magyar WordNetben

Nem lexikalizált fogalmak a Magyar WordNetben 90 VIII. Magyar Számítógépes Nyelvészeti Konferencia Nem lexikalizált fogalmak a Magyar WordNetben Vincze Veronika, Almási Attila Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged, Árpád tér

Részletesebben

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2015 Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika Szeged, 2015. január 15-16. http://rgai.inf.u-szeged.hu/mszny2015 ISBN: 978-963-306-359-0

Részletesebben

WordNet egy számítógépes lexikai adatbázis Somogyi Gábor

WordNet egy számítógépes lexikai adatbázis Somogyi Gábor WordNet egy számítógépes lexikai adatbázis Somogyi Gábor SZTE BTK angol kommunikáció szak hpl_hu@freemail.hu A számítástechnika rohamos fejlődése, az internetnek mint a legnagyobb, vagyis világméretű hálózatnak

Részletesebben

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért Szegedi Tudományegyetem Juhász Gyula Pedagógusképző Kar Magyar és Alkalmazott Nyelvészeti Tanszék Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért HunCLARIN korpuszok és

Részletesebben

YANG ZIJIAN GYŐZŐ 杨子剑

YANG ZIJIAN GYŐZŐ 杨子剑 YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,

Részletesebben

Javaslat a magyar igei WordNet kialakítására

Javaslat a magyar igei WordNet kialakítására Javaslat a magyar igei WordNet kialakítására Kuti Judit, Vajda Péter, Varasdi Károly MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály 068 Budapest, Benczúr u. 33. {kutij, vajda, varasdi}@nytud.hu

Részletesebben

Az Ómagyar Korpusz bemutatása

Az Ómagyar Korpusz bemutatása Az Ómagyar Korpusz bemutatása Simon Eszter 2017. január 13. 29. Finnugor Szeminárium Simon Eszter Az Ómagyar Korpusz bemutatása Az előadás vázlata 1 A projektek 2 A korpusz anyaga 3 A feldolgozás lépései

Részletesebben

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával. Doktori (Ph.D.) értekezés tézisei A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával Hócza András Témavezet : Gyimóthy Tibor, PhD Szegedi Tudományegyetem

Részletesebben

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2017. november 22. Visszajelzés a beadott házi feladatokkal és a negyedévi zh-val kapcsolatban igék ragozása ע "ו és ל "א

Részletesebben

2

2 1 SZÉKELY GÁBOR EGY SAJÁTOS NYELVI JELENSÉG, A FOKOZÁS 2 3 SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ 66. SZÉKELY GÁBOR EGY SAJÁTOS NYELVI JELENSÉG, A FOKOZÁS TINTA KÖNYVKIADÓ BUDAPEST, 2007 4 KÖNYVEM

Részletesebben

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2017. szeptember 13. Informatikusviccek Az informatikus felesége elküldi a férjét a boltba: - Hozzál margarint, és ha van

Részletesebben

Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1

Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1 Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1 Prószéky Gábor Miháltz Márton MorphoLogic 1126 Budapest, Orbánhegyi út 5. proszeky@morphologic.hu, mihaltz@morphologic.hu Benyújtva: 2008.

Részletesebben

XIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Vincze Veronika

XIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Vincze Veronika XIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2017 Szerkesztette: Vincze Veronika Szeged, 2017. január 26-27. http://rgai.inf.u-szeged.hu/mszny2017 ISBN: 978-963-306-518-1 Szerkesztette: Vincze

Részletesebben

Klasszikus héber nyelv 4.: Szintaxis

Klasszikus héber nyelv 4.: Szintaxis Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2015. november 25. Témaválasztás házi dolgozatra (ע "ו ( igeragozás Ismétlés: Mondatok: Arnold & Choi 5. rész A mondat belső

Részletesebben

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Farkas Richárd 1, Szarvas György 1 1 MTA-SZTE, Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1., Hungary, {rfarkas,

Részletesebben

Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ

Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ Pajzs Júlia Bevezetés A NooJ nyelvészek számára készült, szövegfeldolgozásra alkalmas szoftver, amelynek használatával nyelvtechnológiai háttérrel nem

Részletesebben

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel Kutatási terv Gábor Kata A kutatásom célja egy strukturált lexikai adatbázis felépítése magyar nyelvre gépi tanulási módszerek alkalmazásával.

Részletesebben

Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...)

Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...) Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...) A korpusznyelvészet alapgondolata Korpusz: meghatározott szempontok alapján kiválasztott szövegmennyiség, amelyen

Részletesebben

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet Keresés korpuszban Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért 2018. október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu Témák NoSkE

Részletesebben

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 30.

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai november 30. Bevezetés a nyelvtechnológiába 9. Gépi fordítás Ezt olvassuk a gépi fordításról A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi

Részletesebben

Magyar nyelvű történeti korpuszok

Magyar nyelvű történeti korpuszok Magyar nyelvű történeti korpuszok Simon Eszter Debrecen, 2019. február 7. MTA Nyelvtudományi Intézet Az előadás vázlata 1. A történeti korpuszok jellemzői 2. A történeti szövegek feldolgozása 3. A korpuszok

Részletesebben

Magyar nyelvtan tanmenet 4. osztály

Magyar nyelvtan tanmenet 4. osztály COMENIUS ANGOL-MAGYAR KÉT TANÍTÁSI NYELVŰ ÁLTALÁNOS ISKOLA Magyar nyelvtan tanmenet 4. osztály 2013/2014 Tanítók: Tóth Mária, Buruncz Nóra Tankönyvcsalád: Nemzeti Tankönyvkiadó Anyanyelvünk világa 4. osztály

Részletesebben

28 millió szintaktikailag elemzett mondat és igei szerkezet

28 millió szintaktikailag elemzett mondat és igei szerkezet 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu Kivonat Két nagy méretű, magyar nyelvi erőforrást teszünk közzé. Az egyik

Részletesebben

Magyar nyelv és irodalom Fejlesztési terv

Magyar nyelv és irodalom Fejlesztési terv és a Magyar nyelv és irodalom Fejlesztési terv A sport összeköt testvériskolai kapcsolat kiépítése a és a Boglári Általános Iskola és Alapfokú Művészeti Iskola között Készítette: Pap Andrea Pétervására,

Részletesebben

TÉMAKÖR: A MAGYAR NYELV TÖRTÉNETE 5. A NYELVMŰVELÉS ÉS NYELVTERVEZÉS JELENTŐSÉGE; SZEREPE NAPJAINKBAN

TÉMAKÖR: A MAGYAR NYELV TÖRTÉNETE 5. A NYELVMŰVELÉS ÉS NYELVTERVEZÉS JELENTŐSÉGE; SZEREPE NAPJAINKBAN TÉMAKÖR: A MAGYAR NYELV TÖRTÉNETE 5. A NYELVMŰVELÉS ÉS NYELVTERVEZÉS JELENTŐSÉGE; SZEREPE NAPJAINKBAN 1. A nyelvművelés a nyelv életébe való tudatos beavatkozás a javítás szándékával. Ez a tevékenység

Részletesebben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.

Részletesebben

Különírás-egybeírás automatikusan

Különírás-egybeírás automatikusan Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia

Részletesebben

Nyelvészeti módszerek és irányzatok, bibliai és rabbinikus héber

Nyelvészeti módszerek és irányzatok, bibliai és rabbinikus héber Nyelvészeti módszerek és irányzatok, bibliai és rabbinikus héber BMA-HEBD-111, P/TÖ/HB-1, BBV-101.51, BMVD-101.78 Biró Tamás 2015. március 10.: Morfológia, kísérletes nyelvészet Egy kutatási projekt (és

Részletesebben

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer Laki László János Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar laki.laszlo@itk.ppke.hu Kivonat: Jelen munkában az

Részletesebben

3. A KORPUSZOKRÓL. 3.1. Bevezetés

3. A KORPUSZOKRÓL. 3.1. Bevezetés 3. A KORPUSZOKRÓL 3.1. Bevezetés Megszokott dolog, hogy a korpuszok ismertetése a Brown Korpusszal kezdődik, hiszen ez volt az első elektronikus korpusz. E fejezet azonban két előfutárt mutat be elsőként,

Részletesebben

Az URaLUID adatbázis bemutatása

Az URaLUID adatbázis bemutatása Hatás alatt álló nyelvek Az URaLUID adatbázis bemutatása Simon Eszter MTA Nyelvtudományi Intézet 2017. január 13. 29. Finnugor Szeminárium Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január

Részletesebben

Javában taggelünk.

Javában taggelünk. 336 VIII. Magyar Számítógépes Nyelvészeti Konferencia Javában taggelünk Novák Attila 1, Orosz György 2, Indig Balázs 2 1 MorphoLogic Kft., 1116 Budapest, Kardhegy utca 5. novak@morphologic.hu 2 Pázmány

Részletesebben

Orsolya egyetemi docens. egyetemi docens dr. Beretzky Ágnes egyetemi docens dr. Sárosdyné dr. Szabó Judit egyetemi docens. Szabó Judit egyetemi docens

Orsolya egyetemi docens. egyetemi docens dr. Beretzky Ágnes egyetemi docens dr. Sárosdyné dr. Szabó Judit egyetemi docens. Szabó Judit egyetemi docens Mintatanterv hagyományos angol szakos főiskolai diplomával rendelkező angoltanári mesterszakos hallgatók számára (T/D) (2 félév, 30 ) (A pedagógia-pszichológia modult l. a Tanárképzési tanszék honlapján)

Részletesebben

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény Az első és az egyetlen Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény "Újdonság" Áttörés a szövegfordítás technológiájában! Nincs szükség internet kapcsoaltra! Angol-Magyar Beszélő

Részletesebben

Tanegységlista (BA) Modern filológia képzési ág. Germanisztika alapszak (BA) német szakirány 2019-től fölvett hallgatóknak

Tanegységlista (BA) Modern filológia képzési ág. Germanisztika alapszak (BA) német szakirány 2019-től fölvett hallgatóknak Tanegységlista (BA) Modern filológia képzési ág Germanisztika alapszak (BA) német szakirány 2019-től fölvett hallgatóknak 1 Jelek, rövidítések: EF = egyéni felkészülés G = gyakorlati jegy K = kollokvium

Részletesebben

Kétnyelvű környezetben élő diákok (szerb és magyar anyanyelvűek) mentális lexikona

Kétnyelvű környezetben élő diákok (szerb és magyar anyanyelvűek) mentális lexikona Mgr. Takács Izabella Kétnyelvű környezetben élő diákok (szerb és magyar anyanyelvűek) mentális lexikona A pilóta-kutatás kérdésfelvetése arra vonatkozik, hogy ugyanazokat a szavakat hívja-e elő mentális

Részletesebben

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak

Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak A nyelvtechnológia szerepe a lexikográfiában A szótárak célja ma emberek számára készülnek gépek számára készülnek Miből hozunk létre ma szótárakat?

Részletesebben

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA Magyar Tudomány 2014/9 A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA Váradi Tamás Oravecz Csaba tudományos főmunkatárs, osztályvezető, tudományos munkatárs, MTA Nyelvtudományi Intézet Nyelvtechnológiai

Részletesebben

ANGLISZTIKA. Oldal 1

ANGLISZTIKA. Oldal 1 KÓD TÍPUS TANTÁRGY NEVE KORÁBBI TANTÁRGY NEVE (EKVIVALENS TÁRGY) KREDIT KÖVETELMÉNY JELLEG (EA/SZEM/GYAK) FELELŐS TANSZÉK félév1 TT160 törzs A társadalomtudomány alapjai (filozófiai, társadalmi ismeretek)

Részletesebben

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN?

HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN? NAGY VIKTOR HOGYAN LELJÜNK BARÁTOKAT A KORPUSZBAN? Dolgozatom azokkal a korpuszlekérdezési problémákkal foglalkozik, amelyekben a keresési feltételek a korpuszban expliciten nem megjelenő tulajdonságokra

Részletesebben

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás

Részletesebben

Zárójelentés a K számú OTKA-projektről

Zárójelentés a K számú OTKA-projektről Zárójelentés a K 72983 számú OTKA-projektről Jelentésünket az éves időközi szakmai beszámolókra alapozva, azok lényegi részeit kiemelve és röviden kommentálva állítjuk össze: kutatási ünk és eredményeink

Részletesebben

Tartalom. Előszó... 13. 1. feladat: Fordítás a megszokott eszközökkel... 17 A számítógép hatékony használatáról... 18

Tartalom. Előszó... 13. 1. feladat: Fordítás a megszokott eszközökkel... 17 A számítógép hatékony használatáról... 18 Előszó... 13 1. feladat: Fordítás a megszokott eszközökkel... 17 A számítógép hatékony használatáról... 18 1.1. Előkészítés... 21 A munka fogadása... 21 Az elektronikus levelezés technikája és etikája...

Részletesebben