Angol nyelvű összetett kifejezések automatikus azonosítása i

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Angol nyelvű összetett kifejezések automatikus azonosítása i"

Átírás

1 Angol nyelvű összetett kifejezések automatikus azonosítása i Nagy T. István SZTE TTIK Informatikai Doktori Iskola nistvan@inf.u-szeged.hu Kivonat: A jelen munkában az angol nyelvű összetett kifejezések automatikus azonosítására kifejlesztett, alapvetően a Wikipediára támaszkodó szótárillesztési megközelítés hatékonyságát vizsgáljuk a Wikipedia folyamatos bővülésének függvényében. Emellett két különböző korpuszon automatikusan generált tanítóhalmazon tanított gépi tanuló megközelítést értékeltünk ki, valamint megvizsgáltuk, hogyan hat az automatikusan generált tanítóhalmaz mérete a gépi tanuló módszer hatékonyságára. 1 Bevezetés Ebben a munkában angol nyelvű összetett kifejezések automatikus felismerésére fókuszálunk. Azon többszavas kifejezéseket, amelyek olyan lexikai egységet alkotnak, amely több, önállóan is létező részből áll, továbbá rendszerint valamilyen többletjelentéssel is bír az önálló részek jelentéséhez képest (Sag et. al. 2002), valamint szintaktikailag egységként viselkednek (Kiefer 2000), összetett szavaknak nevezzük. Ezen kifejezések lehetnek főnevek (swimming pool), összetett melléknevek (red haired), összetett határozószók (above all), összetett prepozíciók (in front of), valamint összetett kötőszavak (in order that). Az összetett szavak igen gyakran fordulnak elő az angol nyelvű szövegekben: az általunk vizsgált Wiki50 korpuszon (Vincze et al. 2011) átlagosan a mondatok 67,5%-a tartalmazott összetett szót. Ezen kifejezések automatikus azonosítását nagyban nehezíti az összetett szavak produktív tulajdonsága, vagyis hogy egy eddig nem létező, új összetett szó bármikor felbukkanhat egy adott szövegben. Ugyanakkor az összetett szavak megfelelő kezelése igen hasznos tud lenni számos természetesnyelv-feldolgozó alkalmazás számára, úgymint gépi fordítás vagy információkinyerés. A jelen tanulmányunkban bemutatjuk angol nyelvű összetett szavakat folyó szövegekben automatikusan azonosító, Wikipedián alapuló szabályalapú rendszerünket, valamint gépi tanuló megközelítésünket. Módszereinket az 50 véletlenszerűen kiválasztott Wikipedia-oldalból álló Wiki50 korpuszon értékeltük ki, ahol a mondatokban előforduló összetett szavak manuálisan annotálva vannak. Mivel módszereink alapvetően a Wikipediára támaszkodtak, ezért bemutatjuk, hogyan változtak eredményeink a i A jelen kutatást a futurict.hu nevű, TÁMOP C-11/1/KONV azonosítószámú projekt támogatta az Európai Unió és az Európai Szociális Alap társfinanszírozása mellett. Alknyelvdok7 Szerk.: Váradi Tamás MTA Nyelvtudományi Intézet, Budapest, 2013 ISBN

2 Nagy T. I.: Angol nyelvű összetett kifejezések automatikus azonosítása 151 Wikipedia bővülésével párhuzamosan. Ehhez vettük a Wikipedia minden év január elsejei aktuális állapotát annak 2001-es indulása óta, és aszerint értékeltük ki a rendszereinket. A megközelítéseink által elért eredmények felülmúlják az összetett szavak automatikus kinyerésére kifejlesztett mwetoolkit (Ramisch et al. 2010a) rendszer eredményeit. 2 Kapcsolódó munkák Többszavas kifejezések, azon belül is az összetett kifejezések folyó szövegben való automatikus azonosítására már számos kísérlet született. Bonin és munkatársai (2010) különböző szűrési technikák segítségével nyertek ki tudományos, jogi, valamint Wikipedia-szövegekből többszavas kifejezéseket, jórészt összetett kifejezéseket. Az mwetoolkit eszköz segítségével angol nyelvű szövegekből automatikusan nyerhetünk ki összetett kifejezéseket. Ramisch és munkatársai (2010a, 2010b) a Genia és az Europarl korpuszon, valamint általános szövegeken szemléltette az eszköz hatékonyságát. Caseli és munkatársai (2009) különböző párhuzamosítási technikákkal nyertek ki összetett kifejezéseket gyermekgyógyászati párhuzamos korpuszokon. Jelen munkában a Vincze és munkatársai (2011) által kifejlesztett, alapvetően a Wikipedián alapuló szótárillesztési megközelítés hatékonyságát vizsgáltuk a Wikipedia bővülésének függvényében, valamint egy gépi tanuló megközelítés robosztusságát teszteltük. 3 Összetett kifejezések automatikus azonosítása Ebben a fejezetben különböző megközelítéseket ismertetünk angol összetett kifejezések automatikus azonosítására. 3.1 Felhasznált korpuszok Különböző megközelítéseink kiértékeléséhez alapvetően két korpuszt használtunk. Elsősorban az 50 különböző angol Wikipedia-oldalt és 2929 angol összetett szót tartalmazó Wiki50 korpuszra támaszkodtunk, melyen többféle többszavas kifejezés (többek közt az összetett szavak), valamint tulajdonnevek is manuálisan jelölve vannak. Megközelítéseinket szintén kiértékeltük a British National Corpusból véletlenszerűen kiválasztott, 1000 mondatból álló adathalmazon (Nicholson Baldwin 2008), melyben 485 összetett kifejezés található. Korpusz Mondat Token NC Wiki BNC táblázat. A kiértékeléshez használt korpuszok adatai. NC: összetett kifejezések.

3 AlkNyelvDok Wikipedia-alapú módszer összetett kifejezések automatikus azonosítására Összetett kifejezések automatikus azonosítására a Vincze és munkatársai (2011) által megvalósított, Wikipedián alapuló megközelítést alkalmaztunk. A módszer lényege, hogy az angol nyelvű Wikipedia-oldalakról automatikusan összegyűjtésre kerültek azon kisbetűs, több szóból álló linkek, amelyek nem tartalmaztak nem angol nyelvű kifejezéseket, tulajdonneveket, valamint numerikus értékeket. Az így létrejött listát felhasználva, három különböző eljárást alkalmaztak. Az első esetben az így kinyert listában szereplő összetett kifejezéseket illesztették a folyó szövegekre. Az összeolvasztás módszer esetében, amennyiben A B és B C is előfordult a kinyert listában, A B C-t szintén elfogadták mint összetett kifejezést. A harmadik esetben a potenciális öszszetett kifejezés abban az esetben került elfogadásra, amennyiben az szerepelt a listában, és a szófaji kód szekvenciája illeszkedett egy előre definiált mintára (például melléknév + főnév). A szófaji kódokat a Stanford szófaji elemző segítségével (Toutanova Manning 2000) határozták meg. Végül pedig vették a fenti három megközelítés kombinációját. Vincze és munkatársai (2011) módszerüket csupán a Wikipedia egy aktuális állapotán vizsgálták. Ugyanakkor úgy gondoltuk, érdekes lehet megvizsgálni, miként hat a módszer hatékonyságára a Wikipedia folyamatos bővülése. Ezért a fentebb ismertetett módszer segítségével összegyűjtöttük a Wikipedia aktuális állapotának megfelelő potenciális angol összetettkifejezés-listát a Wikipedia 2001-es kezdete óta, és kiértékeltük a kombinált módszert a Wiki50 korpuszon. Év Wikipedia oldalak száma NC-lista mérete Fedés Pontosság F-mérték ,12 68,42 09, ,22 59,05 25, ,99 71,69 37, ,81 69,57 45, ,11 66,20 49, ,42 64,15 52, ,91 63,35 53, ,51 62,82 54, ,33 62,45 55, ,69 62,66 56, ,36 60,58 56, ,67 59,84 56,59 2. táblázat. A Wikipedián alapuló listaillesztési megközelítés eredményei a Wikipedia bővülésének függvényében. Wikipedia-oldalak: az adott évben az angol Wikipedia oldalainak a száma. NC-lista: a Wikipediáról automatikusan gyűjtött lista mérete. Mivel az angol nyelvű Wikipedia 2001-ben indult, ezért a fentiekben már ismertetett potenciális összetett kifejezések listáját a Wikipedia január elsejei állapotából nyertük ki. A 2. táblázat, valamint az 1. ábra mutatja be a Vincze és munkatársai által megvalósított, szótárillesztés alapú módszer hatékonyságát, a Wikipedia-oldalak számát, a kinyert lista nagyságát, a Wikipedia egyes év eleji állapotának függvényében.

4 Nagy T. I.: Angol nyelvű összetett kifejezések automatikus azonosítása Gépi tanuló megközelítés Összetett kifejezések automatikus azonosítására egy gépi tanuló megközelítést is implementáltunk. Mivel a feladatot szekvenciajelölési problémaként definiáltuk, ezért a probléma megoldásának legsikeresebbnek vélt képviselőjét, az elsőrendű lineáris feltételes véletlen mezők (Conditional Random Fields) szekvenciális tanuló MALLET (McCallum 2002) implementációját alkalmaztuk. A szekvenciális tanuló alkalmazása mellett szólt az is, hogy a felhasznált korpuszokon csupán az összetett kifejezések egyes előfordulásai vannak manuálisan annotálva, míg negatív példák nem, ezért osztályozó algoritmust nem tudtunk alkalmazni. Mivel az összetett kifejezések és a többszavas tulajdonnevek is olyan szerkezetek, amelyek több szóból állnak, de egyetlen egységet alkotnak, ezért igen hasonlóképpen viselkednek (Vincze et al. 2011). Ezért az általunk megvalósított gépi tanuló megközelítés jellemzőkészlete egy tulajdonnév-felismerési alap jellemzőkészleten alapszik, amelyeket a következő kategóriákba sorolhatunk: felszíni jellemzők: kis-/nagybetűs kezdet, szóhossz, a szó belsejében előforduló különleges karakterek (számok, nagybetűk stb.), karakter bi- és trigramok, toldalékok; szótárak: személynevek, cégnevek, helynevek, főnevek szótövei, az angol Wikipediából gyűjtött összetett főnevek; gyakorisági jellemzők: a token gyakorisága, a kis- és nagybetűs alakok előfordulásának aránya, a nagybetűs és mondatkezdő alakok előfordulásának aránya; nyelvi jellemzők: szófaj, függőségi viszonyok; környezeti jellemzők: mondatbeli pozíció, a szó környezetében előforduló leggyakoribb szavak, idézőjelek a szó körül stb. Ezt az alap jellemzőkészletet egészítettük ki néhány, az összetett szavakat leíró jellemzőkkel. Alapvetően a szótár jellemzőket egészítettük ki. A Wikipediáról gyűjtött listát az egyes összetett kifejezések előfordulásai szerint rendeztük, és különböző gyakorisági értékekhez tartozó összetett kifejezések által alkotott listákkal egészítettük ki a már meglévő szótárakat. Továbbá a 2010-ben megrendezésre került SemEval sorozat 9-es feladatának tanuló és teszthalmazát is felhasználtuk mint szótárt. A nyelvi jellemzők szófaji szabályokkal lettek kiegészítve. Vagyis amennyiben a szöveg szófajikód-szekvenciája illeszkedett egy előre definiált összetett kifejezés mintájára, a szekvenciatagok igaz értéket kaptak, egyébként pedig hamisat. Továbbá a mondatban előforduló egyéb entitásokra is jellemzőként tekintettünk, úgymint mondatokban szerepelő tulajdonnevek, valamint félig kompozicionális szerkezetek. Tulajdonnevek automatikus azonosítására a Stanford tulajdonnév-felismerő eszközét alkalmaztuk (Finkel 2005), valamint a félig kompozicionális szerkezetek automatikus azonosítására is egy már meglévő alkalmazást használtunk (Nagy et al. 2011). A fent ismertetett jellemzőkészlettel tanított szekvenciajelölőt 50-szeres keresztvalidációval értékeltük ki a Wiki50 korpuszon. Ekkor 50 lépésben történik a kiértékelés, és minden lépésben egy dokumentum jelenti a teszthalmazt, a többi negyvenkilenc uniója pedig a tanulóhalmazt. Ezáltal minden dokumentum pontosan egyszer szerepel teszthalmazként, ezek uniója így megegyezik a tanító adatbázissal. A szekvenciajelölő tanítására automatikusan generált tanító adatbázist is használtunk.

5 AlkNyelvDok Ebben az esetben a tanító adatbázis olyan véletlenszerűen kiválasztott Wikipediaoldalakból állt, amelyek nem tartalmaztak táblázatot vagy egyéb strukturált szöveget. Mivel ezek a dokumentumok nem voltak manuálisan annotálva, ezért a már fentiekben ismertetett szótárillesztési megközelítés eredményét tekintettük etalon jelölésnek. Ezen az automatikusan kialakított tanító adatbázison tanítottuk a fentebb részletezett jellemzőkészlettel a szekvenciális tanulót. Ekkor a tanító adatbázis etalonnak tekintett címkéi alapvetően az alkalmazott szótárillesztési megközelítés hatékonyságától függenek, ugyanakkor kvázi tetszőleges nagyságú tanító adatbázis generálható. Ezért megvizsgáltuk, hogy az ilyen módon automatikusan generált tanító adatbázis mérete hogyan hat a szekvenciális tanuló hatékonyságára. Ezért a kezdetben 10 véletlenszerűen kiválasztott Wikipedia-oldalból álló tanító adatbázist folyamatosan növeltük egészen ig. A 2. ábra mutatja, hogyan hat a tanító adatbázis mérete a szekvenciajelölő teljesítményére. Összehasonlítottuk a teljesen felügyelt keresztvalidációval kiértékelt modell, az automatikusan generált tanítóhalmazon tanított modell, valamint a szótárillesztési megközelítés eredményeit a Wiki50 korpuszon, valamint a BNC adathalmazon. A 4. táblázatban találhatók az összehasonlítható adatok. Mivel véletlenszerűen választottuk ki az automatikusan generált tanító adatbázishoz a Wikipedia-oldalakat, ezért megvizsgáltuk, hogyan hat az eredményre ezen véletlen kiválasztás. Ezért automatikusan generáltunk tíz különböző véletlenszerű tanító adatbázist, amelyeken a szótárillesztési megközelítést tekintettük etalon jelölésnek, és ezeken tanítottuk a szekvenciális tanuló algoritmust a fentebb részletezett jellemzőkészlettel. Ezen eredmények a 3. táblázatban találhatók. 4 Eredmények A 2. táblázatban látható az évek függvényében a Wikipedián alapuló szótárillesztési módszer eredményei január 1-jén az angol Wikipedia csupán oldalból állt, amiből 5892 potenciális összetett kifejezést tudtunk kinyerni, amivel a Wiki50 korpuszon 9,58 F-mértéket értünk el. Ugyanakkor a Wikipedia dinamikus bővülésének köszönhetően január 1-jén az angol Wikipedia már oldalt tartalmazott, amelyből a vizsgált módszerrel potenciális összetett kifejezést nyertünk ki, amivel 56,59 F-mértéket értünk el. A módszer fedésére elsősorban a Wikipediából automatikusan kinyert potenciális összetettkifejezés-lista mérete van hatással, ami a Wikipedia dinamikus bővülésével a 2. táblázatban látható módon folyamatosan javul. A 2. ábra mutatja, hogyan hat az automatikusan generált tanító adatbázis mérete a gépi tanuló megközelítés eredményeire. Míg a csupán 10 véletlenszerűen kiválasztott Wikipedia-oldalból álló tanítóhalmazon tanított szekvenciajelölő modell 46,99 F- mértéket ért el, addig a Wikipedia oldalt tartalmazón tanított 56,06 F-mértéket volt képes elérni. A 3. táblázatban található a 10 különböző Wikipedia oldalból álló automatikusan generált tanítóhalmazon tanított szekvenciajelölő modellek eredményei a Wiki50 korpuszon. Az átlagos F-mérték 59,99 volt, míg az eredmények szórása 0,3237. A 4. táblázat mutatja a különböző megközelítések eredményeit a Wiki50 korpuszon és a BNC adathalmazon. A különböző megközelítések hibaelemzéséhez megvizsgáltuk a korpuszokon előforduló angol összetett kifejezések hosszúságát. Ahogy az 1. táblázatban is látható, a Wiki50 korpuszon előforduló összetett kifejezések

6 Nagy T. I.: Angol nyelvű összetett kifejezések automatikus azonosítása ,37%-a (2442 előfordulás) két szóból áll, 13,17%-a (386 előfordulás) három szóból, míg négy vagy annál több szóból az összetett kifejezések 3,46%-a (101 előfordulás) áll. Mindegyik módszer a két szóból álló összetett kifejezések azonosításában bizo- nyult a leghatékonyabbnak. 1. ábra: A gépi tanuló megközelítés eredményei az automatikusan generált tanító adatbázis függvényében (Wikipedia-oldalak száma) Fedés Pontosság F-mérték 1 57,02 55,21 56, ,74 55,38 56, ,26 55,73 56, ,64 55,02 55, ,46 55,25 56, ,88 55,61 56, ,98 55,03 55, ,20 54,94 55, ,08 53,73 55, ,85 55,04 55,93 Átlag: 56,91 55,10 55,99 3. táblázat. A gépi tanulási módszer eredményei különböző automatikusan generált tanítóhal- mazon Dokumentumszintű keresztvalidációval kiértékelt gépi tanuló megközelítés érte el a legjobb eredményt a Wiki50 korpuszon 68,16 F-mértékkel, míg az automatikusan generált tanítóhalmazon tanított modell, valamint a szótárillesztési megközelítés egy- aránt 56 F-mérték feletti eredményt ért el, más-más fedés és pontosság értékekkel. Ugyanakkor a gépi tanuló megközelítés 4,23 ponttal magasabb F-mértéket volt képes elérni a BNC adathalmazon. 2. ábra: : Szótárillesztési megközelítés eredménye a Wikipedia oldalainak számának függvé- nyében.

7 AlkNyelvDok Az eredmények értékelése A Wiki50 korpuszon mind a három különböző megközelítést kiértékeltük. Ezek közül a dokumentumszintű keresztvalidációval kiértékelt gépi tanuló modell érte el a legjobb eredményt. Ugyanakkor az automatikusan generált tanítóhalmazon tanított modell is hatékonynak bizonyult. Ebben az esetben megvizsgáltuk, hogyan hat az automatikusan generált tanítóhalmaz mérete a módszer hatékonyságára. Ahogy a 2. ábrán is látható, az automatikusan generált korpusz méretének növekedésével folyamatosan növekszik a gépi tanuló megközelítés eredménye, a Wiki50 korpuszon, viszont a javulás mértéke folyamatosan csökken. Ugyanakkor a módszer eléggé robosztusnak bizonyult, hiszen az eredmények 0,3237 szórást mutattak, amikor tíz különböző automatikusan generált, Wikipedia-oldalból álló tanítóhalmazon tanítottuk és a Wiki50 korpuszon értékeltük ki. Továbbá megvizsgáltuk, hogy a szótárillesztési megközelítés hatékonyságára hogyan hat a Wikipedia bővülése. Ahogy az 1. ábra is mutatja, a Wikipedia dinamikus növekedésével egyre jobb eredményt ér el a módszer, de a javulás mértéke egyre csökken. Mivel minden évben bővül a Wikipediából kinyert, potenciális összetettkifejezés-lista mérete, ezért ez a 2. táblázatban látható módon igen kedvező hatással van a módszer fedésére, viszont kedvezőtlenül hat annak pontosságára. Összességében egészen 2012-ig ez az F- mértékben javulást eredményez, 2013-ban viszont már a fedés javulása nem tudja kompenzálni a pontosság csökkenését, ezért ekkor már csökken az előző évhez képest az F- mérték. Amikor megvizsgáltuk az angol összetett kifejezések tulajdonságait, azt kaptuk, hogy ezek jellemzően két szóból állnak. A vizsgált megközelítések mindegyike a két szóból álló angol összetett kifejezések azonosításában bizonyult a leghatékonyabbnak. A vizsgálat eredményei a 4. és az 5. táblázatban találhatóak. LOO WikiTrain Szótárillesztés Pont. Fed. F Pont. Fed. F Pont. Fed. F 2 69,12 79,62 74,00 64,86 60,14 62,41 61,14 64,66 62, ,33 62,93 57,14 29,02 47,86 36,13 30,05 49,79 37, ,73 45,10 31,94 08,60 40,00 14,16 06,45 75,00 11,88 Össz. 64,39 72,40 68,16 56,57 55,57 56,06 53,67 59,84 56,59 4. táblázat: Különböző megközelítések eredményei pontosság, fedés és F-mérték tekintetében a Wiki50 korpuszon. LOO: dokumentumszintű keresztvalidáció. WikiTrain: automatikusan generált tanítóhalmazon tanított modell. Szótárillesztés: Wikipedián alapuló szótárillesztési megközelítés. A szótárillesztési megközelítés, valamint az automatikusan generált tanítóhalmazon tanított modell nagyjából azonos F-mértéket ért el a Wiki50 korpuszon, viszont eltérő pontosság és fedés értékekkel. Míg a gépi tanuló megközelítés több példát tudott azonosítani, addig a szótárillesztés inkább pontosabbnak bizonyult. Ennek elsődleges oka lehet, hogy a gépi tanuló megközelítésnél egy nagyobb méretű, ám automatikusan generált tanító adathalmazt használtunk, amelyen etalon címkének a szótárillesztés eredményeit vettük. A BNC adathalmazon kiértékelt automatikusan generált tanítóhalmazon tanított gépi tanuló modell hatékonyabbnak bizonyult a szótárillesztéses megközelítésnél. Mivel ez az adathalmaz a BNC korpuszból véletlenszerűen kiválasztott 1000 mondatból áll, valamint a Wiki50-nél jelentősen kevesebb angol nyelvű össze-

8 Nagy T. I.: Angol nyelvű összetett kifejezések automatikus azonosítása 157 tett kifejezést tartalmaz, ezért nem értékeltük ki a Wiki50-hez hasonlóan dokumentumszintű keresztvalidációval. Ugyanakkor ezen az adathalmazon a kiértékelt módszerek kevésbé jó eredményt értek el, mint a Wiki50 korpuszon. WikiTrain Szótárillesztés Pont. Fed. F Pont. Fed. F 2 40,60 45,04 42,70 33,49 45,06 38, ,00 22,86 21,33 17,50 17,95 17, ,00 00,00 00,00 00,00 00,00 00,00 Össz. 38,02 41,53 39,70 31,40 40,75 35,47 5. táblázat: Különböző megközelítések eredményei pontosság, fedés és F-mérték tekintetében a BNC adathalmazon. WikiTrain: automatikusan generált tanítóhalmazon tanított modell. Szótárillesztés: Wikipedián alapuló szótárillesztési megközelítés. 6 Összegzés A jelen munkában két különböző korpuszon vizsgáltuk meg egy szótárillesztési módszer, valamint gépi tanuló megközelítések hatékonyságát angol nyelvű összetett kifejezések automatikus azonosítására. Ezen megközelítések erősen a Wikipediára támaszkodnak. Míg a szótárillesztési megközelítés a Wikipediából automatikusan generált listán alapszik, addig a gépi tanuló megközelítések jellemzőkészletét ezen listával egészítettük ki. Ezért megvizsgáltuk, hogyan hat a Wikipedia bővülése ezen módszerek hatékonyságára. Úgy találtuk, hogy a Wikipedia dinamikus bővülése segíti ezen módszerek eredményességét, ugyanakkor a javulás mértéke folyamatosan csökken az idő előrehaladtával. Mivel az automatikusan generált adathalmazon tanított modell alapvetően a szótárillesztési megközelítésen alapszik, ezért a jövőben javítani kívánjuk e módszer pontosságát. Irodalom Bonin, F., Dell Orletta F., Venturi G., Montemagni S Contrastive filtering of domainspecific multi-word terms from different types of corpora. In: Proceedings of the 2010 workshop on multiword expressions: From theory to applications. Beijing, China: Coling 2010 Organizing Committee Caseli, H. de M., Villavicencio A., Machado A., Finatto M. J Statistically driven alignment-based multiword expression identification for technical domains. In: Proceedings of the workshop on multiword expressions: Identification, interpretation, disambiguation and applications. Singapore: ACL Finkel, J. R., Grenager T., Manning C Incorporating non-local information into information extraction systems by Gibbs Sampling. In: Proceedings of the 43nd annual meeting of the association for computational linguistics (ACL 2005) Letöltés dátuma: Kiefer, F A szóösszetétel. In: Kiefer, F. (szerk.) Strukturális magyar nyelvtan. 3. Alaktan. Akadémiai Kiadó, Budapest McCallum, A. K Mallet: A machine learning for language toolkit. Elérhető: Letöltés dátuma: Nagy, T. I., Vincze V., Berend G Domain-dependent identification of multiword expressions. In: Proceedings of recent advances in natural language processing (RANLP) Hissar, Bulgaria

9 AlkNyelvDok Nicholson, J., Baldwin, T Interpreting compound nominalisations. In: LREC 2008 Workshop: Towards a shared task for multiword expressions (MWE 2008). Marrakech, Morocco Ramisch, C., Villavicencio A., Boitet C. 2010a. Multiword expressions in the wild? The mwetoolkit comes in handy. In: Coling 2010: Demonstrations. Beijing, China Ramisch, C., Villavicencio A., Boitet C. 2010b. Mwetoolkit: a framework for multiword expression identification. In: Proceedings of LREC 10. Valletta, Malta: ELRA. Sag, I. A., Baldwin T., Bond F., Copestake A., Flickinger D Multiword expressions: A pain in the neck for NLP. In: Proceedings of CICLing Mexico City, Mexico Toutanova, K., Manning, C. D Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In: Proceedings of EMNLP Stroudsburg, PA, USA. ACL Vincze, V., Nagy T. I., Berend G Multiword expressions and named entities in the Wiki50 corpus. In: Proceedings of recent advances in natural language processing (RANLP) Hissar, Bulgaria

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Farkas Richárd 1, Szarvas György 1 1 MTA-SZTE, Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1., Hungary, {rfarkas,

Részletesebben

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven

Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven Szeged, 2011. december 1 2. 59 Félig kompozicionális szerkezetek automatikus azonosítása magyar és angol nyelven Vincze Veronika 1, Nagy T. István 2, Zsibrita János 2 1 Magyar Tudományos Akadémia, Mesterséges

Részletesebben

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI Összetett kifejezések automatikus azonosítása természetes nyelvű szövegekben A DOKTORI ÉRTEKEZÉS TÉZISEI Nagy T. István 2014. október Témavezető: Prof. Dr. Csirik János és Dr. Farkas Richárd Szegedi Tudományegyetem

Részletesebben

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI

Összetett kifejezések automatikus. azonosítása természetes nyelvű. szövegekben. Nagy T. István A DOKTORI ÉRTEKEZÉS TÉZISEI Összetett kifejezések automatikus azonosítása természetes nyelvű szövegekben A DOKTORI ÉRTEKEZÉS TÉZISEI Nagy T. István 2014. október Témavezető: Prof. Dr. Csirik János és Dr. Farkas Richárd Szegedi Tudományegyetem

Részletesebben

4FX: félig kompozicionális szerkezetek automatikus azonosítása többnyelvű korpuszon

4FX: félig kompozicionális szerkezetek automatikus azonosítása többnyelvű korpuszon Szeged, 2014. január 16 17. 317 4FX: félig kompozicionális szerkezetek automatikus azonosítása többnyelvű korpuszon Rácz Anita 1, Nagy T. István 1, Vincze Veronika 2 1 Szegedi Tudományegyetem, TTK, Informatikai

Részletesebben

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március

Részletesebben

Lexikon és nyelvtechnológia Földesi András /

Lexikon és nyelvtechnológia Földesi András / Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.

Részletesebben

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Az igekötők gépi annotálásának problémái Kalivoda Ágnes Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás

Részletesebben

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar

DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar DR. VINCZE VERONIKA ELÉRHETŐSÉG MTA-SZTE Mesterséges Intelligencia Kutatócsoport 6720 Szeged, Tisza Lajos krt. 103. Telefon: +36-62-54-41-40 Mobil: +36-70-22-99-108 Fax: +36-62-54-67-37 E-mail: vinczev@inf.u-szeged.hu

Részletesebben

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17 Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott

Részletesebben

Félig kompozicionális főnév + ige. szerkezetek: elméleti kérdések és. számítógépes nyelvészeti elemzések

Félig kompozicionális főnév + ige. szerkezetek: elméleti kérdések és. számítógépes nyelvészeti elemzések Félig kompozicionális főnév + ige szerkezetek: elméleti kérdések és számítógépes nyelvészeti elemzések A DOKTORI ÉRTEKEZÉS TÉZISEI Vincze Veronika Szegedi Tudományegyetem 2011. augusztus Témavezető: Dr.

Részletesebben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A

Részletesebben

Ismeretlen kifejezések és a szófaji egyértelm sítés

Ismeretlen kifejezések és a szófaji egyértelm sítés Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás

Részletesebben

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján Hegedűs István Ajánló rendszerek Napjainkban egyre népszerűbb az ajánló rendszerek alkalmazása A cégeket is hasznos információval

Részletesebben

magyar nyelvű szövegekben

magyar nyelvű szövegekben Szeged, 2014. január 16 17. 99 Bizonytalanságot jelölő kifejezések azonosítása magyar nyelvű szövegekben Vincze Veronika 1,2 1 Szegedi Tudományegyetem, TTIK, Informatikai Tanszékcsoport, Szeged Árpád tér

Részletesebben

Események detektálása természetes nyelvű szövegekben

Események detektálása természetes nyelvű szövegekben Események detektálása természetes nyelvű szövegekben Subecz Zoltán, Nagyné Csák Éva Összefoglalás Az események detektálásának a feladata az esemény-előfordulások azonosítása a szövegekben. Esemény előfordulásnak

Részletesebben

Igekötős szerkezetek a magyarban

Igekötős szerkezetek a magyarban Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek

Részletesebben

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?

Részletesebben

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben * Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben * Vincze Veronika 1. Bevezetés A dolgozat a kollokációk egy altípusának, a félig kompozicionális szerkezeteknek más néven funkcióigés

Részletesebben

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.

Részletesebben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény

Részletesebben

A szegénység fogalmának megjelenése a magyar online médiában

A szegénység fogalmának megjelenése a magyar online médiában A szegénység fogalmának megjelenése a magyar online médiában Tartalomelemzés 2000 január és 2015 március között megjelent cikkek alapján Bevezetés Elemzésünk célja, hogy áttekintő képet adjunk a szegénység

Részletesebben

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?

Részletesebben

Nyelvfüggetlen tulajdonnév-felismerő rendszer, és alkalmazása különböző domainekre

Nyelvfüggetlen tulajdonnév-felismerő rendszer, és alkalmazása különböző domainekre Nyelvfüggetlen tulajdonnév-felismerő rendszer, és alkalmazása különböző domainekre Farkas Richárd 1, Szarvas György 1 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport 6720 Szeged, Árpád tér 2. {rfarkas,

Részletesebben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.

Részletesebben

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük

Részletesebben

Adatbáziskezelés. SQL parancsok. Függvények

Adatbáziskezelés. SQL parancsok. Függvények SQL parancsok Függvények Az SQL függvények csoportosítása Két csoportra oszthatjuk a függvényeket, attól függően, hogy milyen környezetben alkalmazzuk azokat. Amelyek CSAK egy adott adatelemen végrehajthatóak.

Részletesebben

BÍRÁLATOK ÉS KONFERENCIÁK

BÍRÁLATOK ÉS KONFERENCIÁK BÍRÁLATOK ÉS KONFERENCIÁK Sass Bálint sass.balint@itk.ppke.hu témavezető: dr. Prószéky Gábor Doktoranduszi szeminárium 2008. november 7. 1 BÍRÁLATOK 2 KONFERENCIÁK 3 CFP DB 1 BÍRÁLATOK 2 KONFERENCIÁK 3

Részletesebben

A HUNGLISH PÁRHUZAMOS KORPUSZ

A HUNGLISH PÁRHUZAMOS KORPUSZ A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április

Részletesebben

PurePos: hatékony morfológiai egyértelműsítő modul

PurePos: hatékony morfológiai egyértelműsítő modul PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás

Részletesebben

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink

Részletesebben

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.

ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok. ADATBÁZIS-KEZELÉS ALAPOK Főbb Adattípusok: Igen/Nem Bájt Ez az adattípus logikai adatok tárolására alkalmas. A logikai adatok mindössze két értéket vehetnek fel. (Igen/Nem, Igaz/Hamis, Férfi/Nő, Fej/Írás

Részletesebben

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés Az egyszerű mondat szerkezete (É. Kiss 1992) a fő összetevők lehetséges sorrendje: Imre ismeri Erzsit. Erzsit ismeri Imre. Imre Erzsit ismeri.

Részletesebben

A magyar létige problémái a számítógépes nyelvi elemzésben

A magyar létige problémái a számítógépes nyelvi elemzésben A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:

Részletesebben

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt

Részletesebben

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program

Részletesebben

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására PhD disszertáció tézisfüzete Orosz György Pázmány Péter Katolikus Egyetem Információs

Részletesebben

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei 1. Mi az elsődleges következménye a gyenge logikai redundanciának? inkonzisztencia veszélye felesleges tárfoglalás feltételes függés 2. Az olyan tulajdonság az egyeden belül, amelynek bármely előfordulása

Részletesebben

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:

Részletesebben

Személynév-egyértelm sítés a magyar weben

Személynév-egyértelm sítés a magyar weben Szeged, 2010. december 2 3. 127 Személynév-egyértelm sítés a magyar weben Nagy T. István 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport 6720, Szeged, Árpád tér 2. nistvan@inf.u-szeged.hu

Részletesebben

Elliptikus listák jogszabályszövegekben

Elliptikus listák jogszabályszövegekben Szeged, 2015. január 15 16. 273 Elliptikus listák jogszabályszövegekben Hamp Gábor 1, Syi 1, Markovich Réka 2,3 1 BME Szociológia és Kommunikáció Tanszék 1111 Budapest, Egry József u. 1. hampg@eik.bme.hu,

Részletesebben

Intelligens elektronikus szótár és lexikai adatbázis

Intelligens elektronikus szótár és lexikai adatbázis Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002 Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés a jelenlegi helyzet: nincs az informatikai

Részletesebben

Adatbázis, adatbázis-kezelő

Adatbázis, adatbázis-kezelő Adatbázisok I. rész Adatbázis, adatbázis-kezelő Adatbázis: Nagy adathalmaz Közvetlenül elérhető háttértárolón (pl. merevlemez) Jól szervezett Osztott Adatbázis-kezelő szoftver hozzáadás, lekérdezés, módosítás,

Részletesebben

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség

Részletesebben

A Mazsola KORPUSZLEKÉRDEZŐ

A Mazsola KORPUSZLEKÉRDEZŐ A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1

Részletesebben

PÁRHUZAMOS IGEI SZERKEZETEK

PÁRHUZAMOS IGEI SZERKEZETEK PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3. 1 EGYNYELVŰ IGEI SZERKEZETEK

Részletesebben

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes)

E x μ x μ K I. és 1. osztály. pontokként), valamint a bayesi döntést megvalósító szeparáló görbét (kék egyenes) 6-7 ősz. gyakorlat Feladatok.) Adjon meg azt a perceptronon implementált Bayes-i klasszifikátort, amely kétdimenziós a bemeneti tér felett szeparálja a Gauss eloszlású mintákat! Rajzolja le a bemeneti

Részletesebben

Beszédadatbázis irodai számítógép-felhasználói környezetben

Beszédadatbázis irodai számítógép-felhasználói környezetben Beszédadatbázis irodai számítógép-felhasználói környezetben Vicsi Klára*, Kocsor András**, Teleki Csaba*, Tóth László** *BME Távközlési és Médiainformatikai Tanszék, Beszédakusztikai Laboratórium **MTA

Részletesebben

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv

Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel Kutatási terv Gábor Kata A kutatásom célja egy strukturált lexikai adatbázis felépítése magyar nyelvre gépi tanulási módszerek alkalmazásával.

Részletesebben

Hadházi Dániel.

Hadházi Dániel. Hadházi Dániel hadhazi@mit.bme.hu Orvosi képdiagnosztika: Szerepe napjaink orvoslásában Képszegmentálás orvosi kontextusban Elvárások az adekvát szegmentálásokkal szemben Verifikáció és validáció lehetséges

Részletesebben

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar Doktori Disszertáció Tézisei Recski Gábor Számítógépes módszerek a szemantikában Nyelvtudományi Doktori Iskola Tolcsvai Nagy Gábor MHAS Elméleti Nyelvészet

Részletesebben

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok

Részletesebben

Magyar nyelvtan tanmenet 4. osztály

Magyar nyelvtan tanmenet 4. osztály COMENIUS ANGOL-MAGYAR KÉT TANÍTÁSI NYELVŰ ÁLTALÁNOS ISKOLA Magyar nyelvtan tanmenet 4. osztály 2013/2014 Tanítók: Tóth Mária, Buruncz Nóra Tankönyvcsalád: Nemzeti Tankönyvkiadó Anyanyelvünk világa 4. osztály

Részletesebben

Aromo Szöveges Értékelés

Aromo Szöveges Értékelés Aromo Szöveges Értékelés AROMO Iskolaadminisztrációs Szoftver v2.50 - Felhasználói kézikönyv- Szöveges értékelés 1 Tartalomjegyzék Aromo Szöveges Értékelés 1 Bevezetés 3 A Szöveges Értékelés modul koncepciója

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre

Részletesebben

YANG ZIJIAN GYŐZŐ 杨子剑

YANG ZIJIAN GYŐZŐ 杨子剑 YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,

Részletesebben

Fogalmak: Adatbázis Tábla Adatbázis sorai: Adatbázis oszlopai azonosító mező, egyedi kulcs Lekérdezések Jelentés Adattípusok: Szöveg Feljegyzés Szám

Fogalmak: Adatbázis Tábla Adatbázis sorai: Adatbázis oszlopai azonosító mező, egyedi kulcs Lekérdezések Jelentés Adattípusok: Szöveg Feljegyzés Szám Fogalmak: Adatbázis: logikailag összefüggő információ vagy adatgyőjtemény. Tábla: logikailag összetartozó adatok sorokból és oszlopokból álló elrendezése. Adatbázis sorai: (adat)rekord Adatbázis oszlopai:

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

A kibővített Magyar történeti szövegtár új keresőfelülete

A kibővített Magyar történeti szövegtár új keresőfelülete A kibővített Magyar történeti szövegtár új keresőfelülete Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu A nyelvtörténeti kutatások újabb eredményei IX. 2016. április 27., Szeged Nszt

Részletesebben

ESZR - Feltáró hálózat

ESZR - Feltáró hálózat ESZR - Feltáró hálózat ERDŐGAZDÁLKODÁS/FELTÁRÓ HÁLÓZAT Bevezetés Az erdészeti tevékenységeket támogató technológiák folyamatos fejlődésével szükségessé válik az erdőfeltárás, az erdőfeltáró hálózatok -

Részletesebben

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat.

Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat. Súgó Az alábbiakban a portál felépítéséről, illetve az egyes lekérdező funkciókról kaphat részletes információkat. A lekérdező rendszer a Hírközlési Szolgáltatások és Interfész bejelentések, valamint az

Részletesebben

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9. Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9. Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing

Részletesebben

Gazdasági matematika II. vizsgadolgozat megoldása A csoport

Gazdasági matematika II. vizsgadolgozat megoldása A csoport Gazdasági matematika II. vizsgadolgozat megoldása A csoport Definiálja az alábbi fogalmakat!. Egy eseménynek egy másik eseményre vonatkozó feltételes valószínűsége. ( pont) Az A esemény feltételes valószínűsége

Részletesebben

Különírás-egybeírás automatikusan

Különírás-egybeírás automatikusan Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia

Részletesebben

Nyelvi tudásra épülő fordítómemória

Nyelvi tudásra épülő fordítómemória Nyelvi tudásra épülő fordítómemória Hodász Gábor 1, Grőbler Tamás 2 1 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Budapest hodasz@morphologic.hu 2 MorphoLogic Kft. Budapest grobler@morphologic.hu

Részletesebben

Gépi tanulás és Mintafelismerés

Gépi tanulás és Mintafelismerés Gépi tanulás és Mintafelismerés jegyzet Csató Lehel Matematika-Informatika Tanszék BabesBolyai Tudományegyetem, Kolozsvár 2007 Aug. 20 2 1. fejezet Bevezet A mesterséges intelligencia azon módszereit,

Részletesebben

Dr. habil. Maróti György

Dr. habil. Maróti György infokommunikációs technológiák III.8. MÓDSZER KIDOLGOZÁSA ALGORITMUSOK ÁTÜLTETÉSÉRE KIS SZÁMÍTÁSI TELJESÍTMÉNYŰ ESZKÖZÖKBŐL ÁLLÓ NÉPES HETEROGÉN INFRASTRUKTÚRA Dr. habil. Maróti György maroti@dcs.uni-pannon.hu

Részletesebben

Jelnyelvi szótár használati útmutató

Jelnyelvi szótár használati útmutató jelesély Jelnyelvi szótár használati útmutató 2015 TÁMOP 5.4.6/B-13/1-2013-0001 Tartalomjegyzék 1. Szótár leírása, funkciói... - 1-2. Szótár használata... - 2-3. A keresőpanelen a magyar nyelvi oldalról

Részletesebben

H N S A d a t K a p c s o l a t

H N S A d a t K a p c s o l a t HNS AdatKapcsolat HNS AdatKapcsolat 2009 március 31 HNS SPC Statisztikai folyamatszabályozó és minőségellenőrző program Copyright 1995-2009 HNS Műszaki Fejlesztő Kft. 9027 Győr, Gesztenyefa u. 4. Tel.:

Részletesebben

I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE

I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE Komplex termékek gyártására jellemző, hogy egy-egy termékbe akár több ezer alkatrész is beépül. Ilyenkor az alkatrészek általában sok különböző beszállítótól érkeznek,

Részletesebben

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők

Részletesebben

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István Teljesen elosztott adatbányászat pletyka algoritmusokkal Jelasity Márk Ormándi Róbert, Hegedűs István Motiváció Nagyméretű hálózatos elosztott alkalmazások az Interneten egyre fontosabbak Fájlcserélő rendszerek

Részletesebben

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem, 138-145

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem, 138-145 Milyen a jó Humor? Novák Attila MorphoLogic Kft., Budapest novak@morphologic.hu Kivonat. Magyar nyelvű szövegek morfológiai elemzésére elterjedten alkalmazzák a MorphoLogic Kft. által kifejlesztett Humor

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr.

Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr. Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével 2011. május 22. Konzulens: Dr. Pataki Béla Tartalomjegyzék 1. Bevezetés 2 2. Források 2 3. Kiértékelő szoftver 3 4. A képek feldolgozása

Részletesebben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x

Részletesebben

Parlagfű Bejelentő Rendszer

Parlagfű Bejelentő Rendszer Parlagfű Bejelentő Rendszer felhasználói útmutató A rendszer elérése: Elérési cím: www.govcenter.hu/pbr Felhasználói funkciók: 1. Regisztráció Új felhasználói fiókot az oldalsó menüben a [Regisztráció]-ra

Részletesebben

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS

Részletesebben

Informatikai Rendszerek Alapjai

Informatikai Rendszerek Alapjai Informatikai Rendszerek Alapjai Dr. Kutor László A redundancia fogalma és mérése Minimális redundanciájú kódok 1. http://uni-obuda.hu/users/kutor/ IRA 2014 könyvtár Óbudai Egyetem, NIK Dr. Kutor László

Részletesebben

Javában taggelünk.

Javában taggelünk. 336 VIII. Magyar Számítógépes Nyelvészeti Konferencia Javában taggelünk Novák Attila 1, Orosz György 2, Indig Balázs 2 1 MorphoLogic Kft., 1116 Budapest, Kardhegy utca 5. novak@morphologic.hu 2 Pázmány

Részletesebben

Elektronikus pályázati űrlap (eform) létrehozása - Útmutató

Elektronikus pályázati űrlap (eform) létrehozása - Útmutató Az elektronikus pályázati űrlap (eform) létrehozása Az Európa a polgárokért programban a projektjavaslatokat elektronikus pályázati űrlap (e-űrlap) használatával kell benyújtani. A papír alapon, postai

Részletesebben

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk?

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk? Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk? Nem szükséges informatikusnak lennünk, vagy mélységében átlátnunk az

Részletesebben

1. gyakorlat. Mesterséges Intelligencia 2.

1. gyakorlat. Mesterséges Intelligencia 2. 1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott

Részletesebben

Shannon és Huffman kód konstrukció tetszőleges. véges test felett

Shannon és Huffman kód konstrukció tetszőleges. véges test felett 1 Shannon és Huffman kód konstrukció tetszőleges véges test felett Mire is jók ezek a kódolások? A szabványos karakterkódolások (pl. UTF-8, ISO-8859 ) általában 8 biten tárolnak egy-egy karaktert. Ha tudjuk,

Részletesebben

INFORMATIKAI ALAPISMERETEK

INFORMATIKAI ALAPISMERETEK Informatikai alapismeretek középszint 0631 ÉRETTSÉGI VIZSGA 2006. október 24. INFORMATIKAI ALAPISMERETEK KÖZÉPSZINTŰ ÍRÁSBELI ÉRETTSÉGI VIZSGA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ OKTATÁSI ÉS KULTURÁLIS MINISZTÉRIUM

Részletesebben

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer

SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer Laki László János Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar laki.laszlo@itk.ppke.hu Kivonat: Jelen munkában az

Részletesebben

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban Intelligens Rendszerek Elmélete : dr. Kutor László Versengéses és önszervező tanulás neurális hálózatokban http://mobil.nik.bmf.hu/tantargyak/ire.html Login név: ire jelszó: IRE07 IRE 9/1 Processzor Versengéses

Részletesebben

Atomi er mikroszkópia jegyz könyv

Atomi er mikroszkópia jegyz könyv Atomi er mikroszkópia jegyz könyv Zsigmond Anna Julia Fizika MSc III. Mérés vezet je: Szabó Bálint Mérés dátuma: 2010. október 7. Leadás dátuma: 2010. október 20. 1. Mérés leírása A laboratóriumi mérés

Részletesebben

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Algoritmusok Tervezése 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Mi az algoritmus? Lépések sorozata egy feladat elvégzéséhez (legáltalánosabban) Informálisan algoritmusnak nevezünk bármilyen jól definiált

Részletesebben

Szerencsejátékok. Elméleti háttér

Szerencsejátékok. Elméleti háttér Szerencsejátékok A következőekben a Szerencsejáték Zrt. által adott játékokat szeretném megvizsgálni. Kiszámolom az egyes lehetőségeknek a valószínűségét, illetve azt, hogy mennyi szelvényt kell ahhoz

Részletesebben

Egy általános célú morfológiai annotáció kiterjesztése

Egy általános célú morfológiai annotáció kiterjesztése Egy általános célú morfológiai annotáció kiterjesztése Recski Gábor MTA SZTAKI, Nyelvtechnológiai Kutatócsoport recski@sztaki.hu Kivonat: Egy szó nyelvtani jegyeinek kódolására számos különböző annotációs

Részletesebben

Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban

Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban Szeged, 2010. december 2 3. 91 Félig kompozicionális szerkezetek a SzegedParalell angol magyar párhuzamos korpuszban Vincze Veronika 1, Felvégi Zsuzsanna 2, R. Tóth Krisztina 3 1 Szegedi Tudományegyetem,

Részletesebben

FIT - jelentés 2011. Kompetenciamérés a SIOK Vak Bottyán János Általános Iskolában

FIT - jelentés 2011. Kompetenciamérés a SIOK Vak Bottyán János Általános Iskolában FIT - jelentés 2011. Kompetenciamérés a SIOK Vak Bottyán János Általános Iskolában 1. Létszámadatok: A 2011-es kompetenciamérésben, a 6.évfolyamosok közül 64, míg a nyolcadik évfolyamosok közül 76 tanuló

Részletesebben

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015 A mérés problémája a pedagógiában Dr. Nyéki Lajos 2015 A mérés fogalma Mérésen olyan tevékenységet értünk, amelynek eredményeként a vizsgált jelenség számszerűen jellemezhetővé, más hasonló jelenségekkel

Részletesebben