Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1"

Átírás

1 Magyar WordNet: az első magyar lexikális szemantikai adatbázis 1 Prószéky Gábor Miháltz Márton MorphoLogic 1126 Budapest, Orbánhegyi út 5. proszeky@morphologic.hu, mihaltz@morphologic.hu Benyújtva: március 3.; elfogadva: március 3. Abstract: WordNet is an electronic lexical semantic database, a network of linguistic concepts and their relationships, represented by synonym sets (synsets) interconnected by a vast number of semantic relations of different types (hypernym, meronym, antonym etc.) Our paper describes the construction of Hungarian WordNet, which was carried out by 3 intstitutions in a 3-year project, resulting in 40,000 Hungarian synsets by 2007, most of them connected to English WordNet and through it to wordnets of other languages. We describe the general structure of mono- and multilingual wordnets, and the design considerations, methods and results of the Hungarian WordNet project, together with the solutions for the Hungarian language-specific phenomena. Keywords: Hungarian WordNet, wordnet, ontology, computational linguistics Absztrakt: A wordnet olyan elektronikus lexikális szemantikai adatbázis, melyben a nyelvi fogalmak hálózatba szerveződnek. A fogalmakat szinonima-halmazok (synsetek), a közöttük lévő kapcsolatokat szemantikai relációk (hipernima, meronima, antonima stb.) reprezentálják. Cikkünkben bemutatjuk a Magyar WordNetet létrehozó projektet, melyben három magyar intézmény vett részt 3 éven keresztül. A projekt eredményeképpen 2007-re létrejött mintegy magyar synset, melyek nagy meg van feleltetve ekvivalens angol WordNet synsetekkel, így implicit módon más nyelvek wordneteivel is. Bemutatjuk az egy- és többnyelvű wordnetek 1 A jelen írás a magyar WordNet létrehozására irányuló munkálatok összefoglalása, mellyel a szerzők 2001-ben kezdtek el foglalkozni a MorphoLogicnál. A kutatás-fejlesztés februárja és májusa között a GVOP /3.0 pályázat támogatásával folyt. Ebben Csirik János, Kocsor András, Prószéky Gábor és Váradi Tamás irányítása mellett Alexin Zoltán, Almási Attila, Csendes Dóra, Cziczelszki Judit, Gyarmati Ágnes, Hatvani Csaba, Kamper Gergely, Kiss Gábor, Kurdi Benedek, Kuti Judit, Laczkó Tamás, Lejtovicz Katalin, Légrádi Ágnes, Mészáros Ágnes, Miháltz Márton, Nagy Anikó, Nagy Viktor, Oravecz Csaba, Papp Kornélia, Péri Márton, Sass Bálint, Serly Julianna, Szarvas György, Szauter Dóra, Szécsi Anikó, Szécsi Katalin, Tóth Marianna, Tóth Zsófia, Trepák Mónika, Vajda Péter, Varasdi Károly és Vincze Veronika vett részt. 1

2 általános szerkezetét, valamint a Magyar WordNet létrehozása során kidolgozott alapelveket, módszereket és eredményeket, a magyar nyelv sajátosságait figyelembe vevő megoldásokkal. Kulcsszavak: Magyar WordNet, wordnet, ontológia, számítógépes nyelvészet, nyelvtechnológia A magyar nyelvre irányuló számítógépes alkalmazásfejlesztések egyre nagyobb mértékben igénylik nyelvünk szókincsének gépi eljárásokkal is kezelhető adatbázisának kialakítását. Az ontológia szó eredeti értelemben ennél ugyan lényegesen többet takar, ám ez a terminus az elmúlt húsz év alatt az ember gondolkodási képességeinek szimulálását kitűző alkalmazások jelentéstani adatbázisa megnevezéseként jelent meg a nyelvtechnológia területén. A számítógépes nyelvészetben tehát az ontológia a formálisan definiált fogalmak és relációk adatszerkezetét jelenti, méghozzá úgy, hogy segítségével számítógépes szemantikai következtetések is végezhetők (Gómez-Perez et al. 2004). A magyar nyelvű ontológia kialakítását egy már meglevő rendszer, az ún. WordNet (Miller et al. 1990, Fellbaum 1998) magyar nyelvi anyaggal való feltöltésével szándékoztuk elérni. A munka folyamán olyan nyelvspecifikus problémákkal találkoztunk, melyek komoly nyelvészeti meggondolásokat igényeltek, bár a tevékenységet sokan puszta adatbázis-feltöltésnek gondolták. Az ontológiák világában egyébként szokás elkülöníteni az ún. felső szintű ontológiákat, melyek a világ legalapvetőbb fogalmainak általában nyelvektől független leírását adják (Gómez-Perez et al. 2004). Ezek problematikájával a magyar WordNet létrehozása kapcsán nem foglalkoztunk, hiszen a magyar nyelv általános szókincsének gépi reprezentációja volt a főcél. Ezt egészítette ki egy még specifikusabb terület, az üzleti szaknyelv kifejezéseit tartalmazó részontológia létrehozása, mely valójában egy terminológiai adatbázis WordNet-reprezentációjaként is felfogható. 1. A WordNet kialakulása és típusai A WordNet egy a lehetséges ontológiák közül. Amiért a magyar számítógépes jelentéstani adatbázis kidolgozásánál épp erre a rendszerre esett a választás, az elsősorban a rendszer elterjedtsége, többnyelvű alkalmazásokban való felhasználhatósága és egyszerű hozzáférhetősége volt. Még húsz éve sincs, hogy George Miller és munkatársai a Princeton Egyetem Kognitív Tudományi Laboratóriumában olyan lexikális szemantikai hálózatot készítettek, amely az angol nyelv szavai és fogalmai köré szerveződött (Miller et al. 1990, Fellbaum 1998). Ez volt a WordNetnek nevezett szinkron nyelvi tudást reprezentáló speciális szemantikai hálózat. Az efféle rendszereket azóta nyelvi ontológiának és lexikális tudásbázisnak is szokás nevezni. Fontos megemlíteni, hogy a WordNet nem a széles körű számítógépes felhasználhatóság céljára, hanem a pszicholingvisztikai 2

3 kísérletek és elméletek által motivált számítógépes szótárként, azaz a mentális lexikon szerveződésének számítógépes modelljeként született meg. A wordnet szónak ma már sok nyelvben létezik egyfajta köznévi használata, mely az eredeti angol nyelvű WordNet (Princeton WordNet, PWN) felépítését követő nyelvi adatbázisokra utal (v.ö. xeroxozás). Írásunkban a továbbiakban mi is fogjuk használni a szót a fenti köznévi értelemben. A wordnetek építőelemei, a szemantikai hálózat csomópontjai a valamilyen szövegkörnyezetben azonos értelmű szavakból, szinonimákból alkotott halmazok, a synsetek. Például, a {dolog#1, tárgy#1} synsetben a tárgy és dolog szavak első szótárbeli jelentésükkel szerepelnek, vagyis ebben az értelmükben ekvivalensek csak. A szótő a # -jellel egybeírt számmal, azaz a szójelentés sorszámával együtt azonosítja a szójelentést. Ennek a számnak a wordnetekben jelentés-azonosító (sense number/sense id) a neve. A wordnetekben minden synsethez tartozik egy rövid szöveges definíció is. Természetesen ez nem a gép, hanem az emberi felhasználó számára fontos, az adott jelentés könnyebb azonosításához. Pl. az előbbi {dolog#1, tárgy#1} synsetet a következő definícióval írhatjuk le: fizikai (látható vagy tapintható) entitás. A {dolog#2, munka#1} synset a dolog szó második jelentését reprezentálja, melynek a munka szó első jelentése a szinonimája ( felelősség valaminek az elvégzésére ). A wordnetekben a synsetek közötti élek a közöttük fennálló szemantikai relációkat jelentik. Egy ilyen hálózat természetesen az ún. tartalmas szóosztályok (főnevek, igék, melléknevek és határozószók) jelentéseit és az azok között fennálló kapcsolatokat reprezentálja. A különböző szemantikai relációk fennállása az anyanyelvi beszélők számára nyelvi tesztek segítségével ellenőrizhető. Ezek legtöbbje egyszerű behelyettesítéses teszt, melyekben a tesztelő egy adott szerkezetű tesztmondatba behelyettesítve a kérdéses elemeket a mondat szemantikai jólformáltságának (olykor természetesen szubjektív) megítélésével dönthet a reláció fennállásáról. A legfontosabb, a synsetek összetételét meghatározó szemantikai reláció a szinonímia, mely azonban a többi relációval ellentétben nem synsetek között, hanem magukon a synseteken belül, maguk közt a terminusok közt áll fenn. George Miller a szinonimitást (vagy ahogy ő hívja: a szemantikai hasonlóságot ) a következőképpen definiálja a WordNet számára: két kifejezés egymással szinonim egy C nyelvi környezetben, ha a C-ben az egyiket a másikkal felcserélve a mondat igazságértéke nem változik (Miller et al. 1990). A szinonímia szimmetrikus reláció, ugyanis ha X szinonimája Y-nak, akkor Y is szinonimája X-nek. A később bemutatandó EuroWordNet rendszer létrehozása során Vossen (1998) a szemantikai hasonlóság meghatározását kiegészíti azzal, hogy két szemantikailag hasonló szó az entitások ugyanazon tartományát denotálja, függetlenül a regiszterbeli, stílusbeli, dialektusbeli különbségektől, vagy a szavak pragmatikai használatától. Az előbbi homogenitási feltételből következően két szinonim szó között nem állhat fent másféle 3

4 szemantikai reláció. Emiatt például az alábbi literálok egyetlen synsetbe tartoznak: {rendőr, zsaru, yard, fakabát}. Ugyanakkor a rendőrség szó nem lehet a synset tagja, mivel van egy másik reláció (az ún. holonima), ami a rendőr és a rendőrség fogalmak között fennáll, noha a hétköznapi nyelvhasználatban gyakran egymással felcserélhetők. Pl. kijött a rendőr/rendőrség (metonimikus nyelvhasználat). 2. A jelentések közti relációkról A következő részekben elsősorban Miller et al. (1990) és Vossen (1998) gondolataira építve bemutatjuk a különböző szófajú synsetek között lehetséges relációkat és az ellenőrzésükhöz használható nyelvi teszteket. A WordNet a főnévi synsetek között az alább bemutatandó alaprelációkat értelmezi: antonima, hiponima és meronima. A főneveket és a más szófajokat összekapcsoló relációk az attribútum-érték reláció (egy tulajdonság és annak egy lehetséges értéke közötti reláció, pl. hőmérséklet-meleg), mely valójában egy főnév és melléknév közti reláció, valamint a különböző morfológiai relációk morfológiailag rokon (képzett) alakok között (pl. {fekvés}-{fekszik}-{fekvő}). Az antonima reláció ellentétet, szembenállást fejez ki, melyet azonban nehéz pontosan definiálni (Miller 1990, Vossen 1998). Az antoníma szimmetrikus reláció, mely nem a szójelentések, tehát a synsetek, hanem ezek elemei, azaz a szavak között áll fenn. Könnyen belátható, hogy sokszor egy antonima-relációban álló szópár szinonimáira nem állítható egyértelműen, hogy ők is egymás antonímái lennének. Emiatt az antoníma-relációban álló synsetek elemei esetén egyértelműen specifikálni kell, hogy az antonímia a synsetek mely tagjai között áll fenn. Az antonimák általában egy adott dimenzión belül alkotnak szembenálló kategóriákat, azaz egy antonima nem csak eltér egy vagy több jegy értékében a párjától (pl. élő/élettelen), hanem egy közös hipernimán 2 is kell osztozniuk, azaz valamilyen ésszerű denotációs tartományon belül kell egymással versenyezniük. Az utóbbi feltétel kizárja, hogy egymással szembe lehessen állítani olyan irreleváns párokat, mint pl. jég és asztal. Az antoníma-teszt ezért két részből áll: egyfelől a szembenállás kifejezéséből, másfelől a közös dimenzió vagy hipernima biztosításából. A főnévi fogalmak között a legfontosabb reláció a hipernima (ill. inverze: hiponima), mely hierarchikus alá-/fölérendeltséget, specifikus/generikus, faj/nem, IS-A öröklődési viszonyt fejez ki (pl. {toll}-{írószer}, {bokor}-{növény}). Speciális altípusa hipernimia reláció, mely tulajdonnevekhez kapcsolódó, individuumoknak megfelelő és általánosabb, osztályoknak megfelelő fogalmak között állhat fent (pl. {Magyarország}-{európai ország}). 4

5 A hipernimiához hasonló hierarchikus reláció a meronima (inverzének neve: holonima), mely rész-egész viszonyt fejez ki. Három fajtája van: egyén-csoport (pl. {fa}-{erdő}), alkotóanyag-tárgy (pl. {cellulóz}-{papír}) és alkatrész-egész (pl. {kerék}-{bicikli}) viszonyt kifejező. A domén (domain) reláció egy tetszőleges fogalom (domain term) és egy témát, fogalmi osztályt reprezentáló fogalom között áll fenn. Három fajtája van: kategória (szemantikai mező, téma), pl. {teniszütő}-{tenisz}, régió (nyelvhasználók földrajzi helye szerint), pl. {ballup, balls-up}-{united Kingdom, Great Britain} és használat (nyelvréteg szerinti besorolás), pl. {parázik}-{szleng, argó}. Az igei synsetek között is értelmezett egy, a hipernima-relációhoz hasonló hierarchikus reláció, ennek troponima a neve. Speciális, igei synsetek közötti reláció az előfeltételezést kifejező kapcsolat, pl. {horkol}-{alszik}, illetve az okozás, pl. {meggyújt}-{elég}. Doménrelációk, illetve más szófajokhoz kapcsolódó derivációs relációk ezeknél a szófajoknál is vannak. A mellékneveknél a legfontosabb strukturáló reláció az antonima, mely az ellentétpárral rendelkező (ún. relációs) mellékneveket bipoláris klaszter-struktúrákba rendszerezi. Ennek lényege, hogy az ellentétes, illetve velük hasonló értelmű fogalmak (pl. meleg, forró, tüzes, izzó vs. hideg, fagyos, jeges, hűvös stb.) egy központi, kitüntetett antonimapár (ebben a példában: meleg-hideg), mint tengely köré szerveződnek úgy, hogy a többi hasonló kifejezés a tengely két végéhez kapcsolódik (a similar_to relációval). Ezeknek a szatellit-fogalmaknak így antonimájuk csak indirekt úton, a klaszter középpontján keresztül van. A határozószavaknak megfelelő synsetek csak más szófajú fogalmakhoz kapcsolódnak derivációs morfológiai relációkkal. 3. A többnyelvű ontológiák felé A Princeton WordNet elvei alapján megindult más nyelvek lexikális szemantikájának a kidolgozása. Európai kezdeményezésre létrejött egy olyan többnyelvű lexikális adatbázis a EuroWordNet (EWN), melyben a különböző nyelvek közti jelentéskapcsolatok is megjelentek. A projekt első fázisa az Európai Közösség által finanszírozott kutatás keretében valósult meg 1996 márciusa és 1999 júliusa között, és ebben az angolon kívül először a holland, az olasz és a spanyol WordNet-verzió készült el (Vossen 1998). Az EWN-ben az egyes nyelveken belüli synsetek közötti relációkon felül minden synsethez kapcsolódik egy ekvivalencia-reláció is, méghozzá egy új struktúra, a nyelvközi index (Inter-Lingual Index, ILI) egy fogalmához. Az ILI a PWN 1.5 változatának synsetjeire épült, de további hozzáadott jelentéseket is tartalmazott a különböző nyelvek fogalmi leírásai közötti minél teljesebb kapcsolat érdekében. Az ILI ekvivalencia-relációi lehetővé teszik tehát az átmenetet az egyes nyelvi wordnetek 5

6 synsetjei között, hiszen az ugyanahhoz az ILI-rekordhoz kapcsolt nyelvspecifikus synsetek azonos jelentésűek a nyelvek között. A EWN alapja így ILI-fogalmak rendezetlen listája, ahol egy-egy ILIrekord a synsetből, a definícióból, a szófaj-címkéből és az eredetre utaló hivatkozásból áll. Az ILIrekordok között nincsenek kapcsolatok. Annak érdekében, hogy a EWN-ben a különböző nyelvi wordnetek szókészlete egységes legyen, azaz általánosságban ugyanazokkal a doménekkel vagy fogalmi területekkel foglalkozzanak, meghatároztak egy közös alapfogalom-készletet (Common Base Concepts, CBC). Ennek minden eleme egy alapfogalom (Base Concept, BC), azaz a lokális wordnetekben megjelenő legfontosabb, általános jelentés, melyek együtt a többnyelvű adatbázis magját alkotják. A mag-wordnetek kialakítása vagyis: az alapfogalmak, továbbá azok közvetlen szemantikai környezetének, közvetlen hipernímáinak és hiponímáinak reprezentációja az egyes nyelvekben eleinte hosszas kézi munkával történt. Ám a wordnetek továbbépítéséhez a kutatók a rendelkezésre álló erőforrások segítségével, a CBC felülről lefelé történő kiterjesztésével egyre több félautomatikus módszert hoztak létre (Atserias et al. 1997, Farreres et al.1998, Barbu et al. 2005). Az alapfogalmakat a wordnetek felső ontológiája, a felső szintű ontológia (Top Ontology, TO) rendszerezi. Ez nem más, mint nagyon magas szintű, nyelvfüggetlen fogalmak hierarchiája, melynek minden csomópontja egy ún. magas szintű fogalom (Top Concept, TC). Ezeket a fogalmakat olyan meghatározó szemantikaelméletek alapján alakították ki, mint pl. a Qualiák elmélete (Pustejovsky 1995), vagy az Aktionsart igeosztályozás (Comrie 1976). A közös fogalomkészlet kialakításakor az EWN-ben sok szempontot kellett figyelembe venni. A szókincsnek egyrészt tartalmaznia kellett a gyakran használt jelentéseket, de az is fontos, hogy a különböző nyelvű wordnetekben nagyjából azonos területekről kerüljenek ki a lefedett fogalmak., miközben ehhez a rendelkezésre álló erőforrások különbözősége miatt nem lehetett egyetlen egységes, mindenki számára megfelelő építési módszert kialakítani. A EWN CBC előállítása úgy indult, hogy minden résztvevő meghatározta saját nyelvén a szókincs egy fragmentumát, azonos kritériumok alapján, a saját erőforrásai felhasználásával. Ezeket lokális alapfogalmaknak (Local Base Concepts, LBC) nevezték el. Sajnos a legtöbb nyelv esetében nem állt és ma sem áll rendelkezésre megfelelő mennyiségű adat a jelentések gyakoriságáról, így csak szógyakoriságokkal lehetett operálni. Ezt követően a lokálisan kiválasztott tételeket lefordították a PWN 1.5 verziójának synsetjeire, majd megvizsgálták a kiválasztott fordítások közötti átfedéseket, és ezek alapján létrehoztak egy közös halmazt, a közös alapfogalmak (Common Base Concepts 6, CBC) 6 6

7 halmazát. Végül minden résztvevő hozzáadta a közös halmazban szereplő, de az általa eredetileg nem kiválasztott fogalmakat a saját alapkészletéhez. Így az elkészült alaprendszer végül 1059 synsetet tartalmazott (796 főnévi, 263 igei synset). A CBC megállapítása után minden résztvevő a CBC-ben szereplő, de nála hiányzó elemeket leképezte saját nyelvi synsetekre. Az olyan esetekben, amikor egy CBC-fogalomnak nem volt pontos ekvivalense egy adott nyelven, a fogalomhoz legközelebb eső létező fogalmat adták hozzá a lokális halmazhoz. A lokális synsetek és az ILI rekordok közötti ekvivalencia-reláció neve eq_synonym, ha 1-1 megfeleltetés van a két fogalom között, ha pedig nem, akkor az alább komplex relációk egyike: eq_near_synonym: ha egy lokális fogalom több ILI-rekordhoz tartozik, vagy ha több synset kapcsolódik ugyanahhoz az ILI-rekorhoz, vagy valamiért bizonytalan a pontos megfeleltetés. A relációban álló synseteknek nem kell ugyanolyan szófajúaknak lennie. A megfeleltetés általában több-a-többhöz. eq_has_hyperonym: ha egy lokális fogalom specifikusabb a rendelkezésre álló ILI-rekordoknál. A reláció azonos szófajú fogalmak között áll fenn. Általában több-az-egyhez megfeleltetés. eq_has_hyponym: ha egy lokális fogalmat csak specifikusabb ILI-rekordokhoz tudunk kapcsolni. A reláció azonos szófajú fogalmak között áll fenn. A megfeleltetés általában egy-a-többhöz. A fentieken kívül további 15, a nyelveken belüli relációkkal párhuzamos komplex ekvivalenciareláció biztosítja a lokális fogalmak és az ILI-rekordok közötti rugalmas kapcsolatot. A EWN-2 projekt keretében az EuroWordNethez 1998-ban további négy nyelv a francia, a német, a cseh és az észt csatlakozott. A kibővítéssel a CBC anyagát is hozzá kellett igazítani az új nyelvek követelményeihez. Az új CBC-t két fő különböző az összevonásos és a kiterjesztéses módszer segítségével alakították ki. Az összevonásos módszerben (Merge Model) a lokális alapfogalmakat valamilyen saját erőforrásból kiindulva választották ki, belőlük a synseteket és az azok között lévő relációkat önállóan fejlesztették ki, majd az ekvivalencia-relációkkal leképezték őket PWN 1.5 synsetekre. A kiterjesztéses módszer (Expand Model) ezzel szemben úgy működött, hogy a lokális alapfogalmakat a PWN 1.5-ből választották ki és a synsetjeit (kétnyelvű szótárak segítségével) lefordították az ekvivalens saját synsetekre. Ebben a megközelítésben a belső relációkat a PWN-ből örökölték, és a továbbiakban, amennyire lehetett, egynyelvű erőforrások segítségével ellenőrizték őket. A szeptemberétől augusztusáig megvalósított és szintén az Európai Közösség által finanszírozott BalkaNet projekt célja a EuroWordNet kiterjesztése volt további, délkelet-európai nyelvekkel: a bolgárral, a göröggel, a románnal, a szerbbel és a törökkel. A konzorciumhoz az 7

8 EWN-nel való kompatibilitás biztosítása céljából csatlakozott még két korábbi EWN-résztvevő is: a csehek és a franciák. A projekt céljai közt szerepelt nyelvenként mintegy 8000 synset kifejlesztése, melyek valós alkalmazásokban használható szókincset fednek le, de mindezt úgy, hogy az EWN keretében kifejlesztett wordnetekkel kompatibilisek legyenek. Kiinduláskor tehát az EWN infrastruktúráját használták, de kialakítottak egy saját közös platformot is: egy egységes XML formátumot, mely egyben a projekt számára fejlesztett VisDic többnyelvű adatbázis-böngésző és -szerkesztőprogram [Holak-Smrz 2004] adatformátuma is lett. A BalkaNet egyik lényeges eltérése az EWN-től, hogy csak egyfajta ekvivalencia-relációt használtak, mely megfelelt a EWN eq_synonym relációjának. A VisDic program XML-formátumára konvertált ILI-rekordokban az azonosító kulcsok jelzik, hogy melyik PWN verzióból származik a synset, mi volt ott az offset-je és a szófaja (pl. ENG n a PWN 2.0-ból származó főnévi synset). A lokális wordnetekben az ekvivalens synsetek ugyanezeket a kulcsot kapják, ez expliciten jelzi az eq_synonym relációkat. A komplex ekvivalenciák esetében, amikor egy ILI-rekordnak egy nyelven nincs pontos ekvivalense, csak pl. ekvivalens hiponimája (eq_has_hyponym reláció a EWNben) a következő stratégiát alkalmazták: üres synsettel, ún. nem lexikalizált fogalom megjelöléssel felvették a hiányzó fogalmat a lokális wordnetbe. A nem lexikalizált synsetek jelenléte a hierarchiában redundáns, de céljuk a megfelelő ekvivalencia-reláció biztosítása az ILI-rekord és a legközelebbi lokális lexikalizált jelentés között. Ezzel a módszerrel tudták szimulálni a komplex ekvivalencia-relációkat (mivel a VisDic relációs reprezentációjában csak egy-az-egyhez kapcsolatok ábrázolására volt lehetőség). A EWN CBC-jének megfelelő közös kiinduló fogalmi készlet, a BCS (BalkaNet Concept Set) végül 8516 fogalmat tartalmazott (5896 főnévi, 2318 igei és 302 melléknévi synset). A BCS PWN-ből származó fogalmait minden résztvevőnek meg kellett valósítania saját nyelvi synsetekkel. A EuroWordNet ILI-ben az ILI-rekordok fölött nincsen nyelvfüggetlen struktúra definiálva, az ILI a fogalmak rendezetlen halmazából áll. A BN projektben a megfelelő ekvivalencia-relációk meghatározása közben az ILI strukturálatlansága gyakran nehézségekhez vezetett. Sokszor az ILIrekordhoz tartalmazó definíció nem volt elég informatív, amikor az ILI-rekord megfelelő fordítását kellett előállítani, és az ILI fogalom hierarchikus kontextusának ismerete nélkül a feladat túl nehézzé vált. Az ILI strukturálatlansága az egyik tervezett alkalmazás, az információ-visszakeresés számára is problémát okozott. Mindezek miatt a BN projektben a rendezetlen ILI-rekordok halmazát felváltották a PWN struktúrájával (az ILI rekordokat a PWN relációi szerint strukturálták). A lokális wordnetek építésekor a kiterjesztéses módszer követése során a strukturált ILI jobb eredményekhez vezetett. Az 8

9 összevonásos építési módszer alkalmazásakor az ILI rendszerezettsége javította a synsetek nyelvek közötti megfeleltetését. A PWN hierarchiáján kívül a BN ILI kapott még egy magasabb szintű szemantikai struktúrát, melyet a Suggested Upper Merged Ontology (SUMO) ontológiából (Niles-Pease 2001) importáltak. A SUMO általános fogalmakat definiáló felsőszintű ontológia, mely különböző publikus ontológiai tartalmak egyesítésével született. A SUMO választása mellett szólt, hogy a PWN synsetjei és a SUMO kategóriái között már létezett megfeleltetés, valamint hogy a SUMO ötvözte több különböző terület erőforrásait és szabadon hozzáférhető volt. 4. Az ontológiakészítés minőségbiztosítási módszerei A nemzetközi wordnetek minőségének és konzisztenciájának folyamatos ellenőrzése fontos hangsúlyt kapott a többnyelvű projektek során. Az ellenőrzések elsősorban két dolgot érintettek: egyfelől az egyes lokális wordnetek szerkezetének és tartalmának, másfelől az egyes wordnetek közötti (a nyelvek közötti) kapcsolatok minőségének és konzisztenciájának ellenőrzését. A lokális wordnetekben alkalmazott szintaktikai jellegű ellenőrzések a következők voltak (Tufiş et al. 2004, Christodoulakis 2004, Srmz 2004): 1. az XML formátumú adatbázisok jólformáltságának ellenőrzése és validációja a BalkaNet DTDhez képest 2. literálok és jelentés-azonosítók ellenőrzése: minden synsetben minden literálnak kell legyen jelentés-azonosítója; egy synsetben nem lehet két azonos literál (jelentés-azonosítótól függetlenül); egy literál ugyanazzal a jelentés-azonosítóval nem fordulhat elő egynél több synsetben (ugyanabban a szófajban); egy literál jelentés-azonosítóinak számozása folytonos (esetleg újra kell számozni); a literálok helyesírását is ellenőrizni kell. 3. Synset ID ellenőrzés: az azonosítóknak egyedinek kell lennie, 4. Szófaj-ellenőrzés: minden synset csak a következő 4 szófajkód egyikével lehet megjelölve: n, v, a, b 5. Belső (lokális) relációk ellenőrzése: nem lehetnek duplikátumok (ugyanaz a reláció 2 synset között kétszer felvéve); a reláció (neve) a standard BN szemantikai relációk (nevének) egyike; nincsenek irányított körök a relációk szerint; a hiperníma vagy holoníma relációkban álló synsetek azonos szófajúak; a hierarchiák gyökér-csomópontjai a BCS-ben (PWN-ben) definiált gyökér-csomópontok; ha egy synset megfelel egy BCS synsetnek, akkor kapcsolatban kell állnia a BCS által meghatározott kapcsolódó synsetekkel (hiperníma, holoníma); egy synsethez kapcsolódó relációknak kompatibiliseknek kell lennie egymással (pl. egy synset nem lehet 9

10 egyszerre hipernimája és hiponimája ugyanannak a másik synsetnek). 6. A wordnetek összefüggőségének ellenőrzése: nem lehetnek másokkal kapcsolatban nem álló csomópontok; minden synsetnek kell hogy legyen hipernímája, hacsak nem legfelső szintű (gyökér) fogalomnak felel meg; nem létező synsetekkel alkotott relációk javítása/törlése. 7. A synsetekhez tartozó definíciók és használati példák ellenőrzése: a definíció ne legyen üres; a definíció a saját nyelven legyen megfogalmazva; a helyesírás rendben legyen. 8. Minden BCS fogalomnak legyen megfelelője a lokális wordnetekben. 9. Az ILI-rekordok és a velük ekvivalens lokális synsetek közötti kapcsolat egy-az egyhez legyen. A fentieken kívül a wordnetek ellenőrzésekor az egyes résztvevők rendszeresen lefuttatták saját anyagaikon az alábbi lekérdezéseket. Ezek eredményeinek manuális ellenőrzésével ki lehet szűrni az olyan gyanús, nagy valószínűséggel hibát tartalmazó elemeket, mint a nem lexikalizált synsetek, a literálok sok jelentéssel, a többszörös öröklődések (synsetek, melyek egyszerre több, ugyanolyan típusú relációban vesznek részt), az egymással hipernima vagy hiponima relációban álló, azonos literált tartalmazó synsetek, a hasonló definíciók, a definiált literál (hibás) előfordulása a definíció szövegében, a relációk közötti helytelen függések (pl. közeli antonímák, melyeknek eltérő a hipernímája), vagy a strukturális különbségek a PWN-hez képest. Míg az egyes wordnetek helyességének ellenőrzése a közösen kidolgozott metodológia alapján az egyes partnerek felelőssége volt, a nyelvek közötti kapcsolatok helyességének ellenőrzésére a konzorcium egy külön, többnyelvű párhuzamos korpuszon alapuló módszert alkalmazott, melyet a román résztvevő implementált (Ion-Tufiş, 2004). A művelethez felhasznált párhuzamos korpusz George Orwell 1984 c. regénye volt, melyet a Multext-East projekt ( keretében több szóban forgó nyelvre is szinkronizáltak. A morfológiai annotációval ellátott és mondatszinten szinkronizált párhuzamos korpuszt a BN projekt keretében szó-szinten szinkronizálták mind a 7 nyelvre (6 BN nyelv + angol). Az angol szöveg szóanyagából kiválasztottak 211 többértelmű szót, melyek legalább 2 különböző synsetben szerepeltek a BCS-ben. A párhuzamos korpuszon egy speciális, a többnyelvű BalkaNet-erőforrásra támaszkodó jelentés-egyértelműsítő algoritmus próbálta meghatározni a többértelmű szavak egyes előfordulásainak jelentéseit. Ahol az automatikus jelentésegyértelműsítés nem működött, ott a releváns nyelvek közötti megfeleltetés nagy valószínűséggel hibát tartalmazott. 5. Erőforrások a HuWN létrehozásához A projekt számára releváns, felhasználható erőforrások két csoportba oszthatók: nyelvi adatbázisokra és szoftvereszközökre. A rendelkezésre álló erőforrások meghatározzák a kitűzött célokat és az azt 10

11 megvalósító építési módszertant. A felhasználható szoftvereszközök közül kiemelhető a VisDic többnyelvű lexikális adatbázis szerkesztő és böngésző program (Horak-Smrz 2004). Ezt a programot kifejezetten wordnet-felépítésű, többnyelvű szemantikai adatbázisok szerkesztéséhez tervezték, de gyakorlatilag bármilyen XML formában rendelkezésre álló nyelvi adatbázishoz használható. A programmal akár 10 különböző szótári adatbázis anyaga egyszerre böngészhető és szerkeszthető. A szócikkek megjelenítése és a szótárak szerkesztési funkciói teljes mértékben testre szabhatók. Külön beépített funkciók támogatják többnyelvű wordnet-adatbázisok fejlesztését a kiterjesztéses modellben: synset importálása egyik wordnetből a másikba, wordnetek nézetének szinkronizálása az ekvivalencia-relációk alapján, konzisztencia-ellenőrző műveletek stb. További segédeszközként használhattuk a MorphoLogic nyelvi elemző és nyelvhelyességi eszközeit, legfőként a magyar és angol nyelvi HuMor morfológiai elemzőt és a Helyes-e? helyesírás-ellenőrzőt (Prószéky 1995). Érthető módon elsősorban angol nyelvű erőforrások voltak hozzáférhetők projektünk indulásakor. Először is a PWN 2.0 verziója, méghozzá a BalkaNet XML-formátumában, mely a SUMO-hoz való megfeleltetéseket, valamint egy doménontológia kategóriái alá történő besorolást is kapott. Lényeges forrás volt a BalkaNet fogalomhalmaza (a BCS), mely 8516 synsetet (5896 főnévit, 2318 igeit és 302 melléknévit) tartalmazott, méghozzá a PWN 2.0 szemantikai relációival és SUMOmegfeleltetésekkel. Természetesen hozzáférhető volt maga a SUMO ontológia és az EWN Top Ontology, mindkettő a VisDic XML-formátumában. A kétnyelvű erőforrások közt rendelkezésünkre állt a MorphoLogic alap angol-magyar szótára, XML illetve plain text (fordítási párok listája) formátumban, mintegy 20 ezer angol és 32 ezer magyar címszóval, elérhető volt továbbá az Akadémiai Kiadó Országh-Magay-féle Angol-magyar nagyszótára, a MorphoLogic MobiMouse Plus felületével. Ez irányonként kb. 120 ezer címszót, illetve szókapcsolatot tartalmaz, de a szótár anyagát közvetlenül nem volt jogunk felhasználni, ezért elsősorban a kétnyelvű fordításokat támogató referenciaként használtuk. Az egynyelvű erőforrások közül rendelkezésünkre állt a Magyar értelmező kéziszótár (ÉKSz) 1978-as első és a 2003-es második kiadás közötti állapotának leszűkített tartalmú változata (csak definíciók, illetve szemantikai/pragmatikai nyelvhasználati kódok), XML-formátumban. Ebben a mintegy 68 ezer címszóhoz 121 ezer szöveges definíció és nyelvhasználati kód (kb. 43 ezer főnév, 14 ezer ige, 11 ezer melléknév) tartozott. A ÉKSz főnévi definíciós anyagában egy korábbi projektben gépi módszerrel azonosítottunk a címszavakkal valamilyen szemantikai relációban lévő szavakat (Miháltz 2003), méghozzá 64 ezer főnévi definícióból 53 ezerben hipernímát, 10 ezerben szinonimát, és 1400-ban holonimát vagy meronimát. Hozzáférésünk volt az MTA Nyelvtudományi Intézetében 11

12 készült igei vonzatkeret-leíró adatbázishoz is, mely a különböző magyar igei vonzatkeretek szintaktikai és szemantikai leírását tartalmazza mintegy 17 ezer rekordra. Ezen kívül rendelkezésre állt XML-formátumban a MorphoLogic tezaurusza, mely címszóhoz szinonimát tartalmazott. A BalkaNet projekt szabadon hozzáférhető erőforrásai jelentős hatással voltak a magyar WordNet kialakítására, hiszen kiindulópontul nem az EWN CBC-jét, hanem a BalkaNet-fogalomhalmaz (BalkaNet Concept Set, BCS) synsetjeit választottuk olyan megfontolásokból, mint például az alapfogalmak lefedettsége további 5 európai nyelven (összesen tehát 13 nyelv többnyelvű WN-jének felépítésében hasznosnak tartott információk által összeállított kiinduló halmaz). Nem kevésbé lényeges, hogy a BCS a PWN újabb, 2.0-s verziójára alapul, az EWN még csak a PWN 1.5-ösre. A mennyiség is a BalkaNet alkalmazása mellett szólt, hiszen a BCS 8516 synsetet tartalmaz, a CBC 1310-et, így a nagyobb mennyiségű synset teljesebb kiindulási alapot adott a létező wordnetek szókincsének jobb lefedéséhez. Ezen kívül a BCS fölött rendelkezésre álló további két struktúra a PWN, illetve SUMO hierarchiák szintén rendkívül hasznosaknak tűntek az általunk is követett kiterjesztéses modell követéséhez. A fejlesztés során figyelembe vettük az ún fogalmi sűrűség elvét is (Tufis et al. 2004). Ennek értelmében mindannyiszor, amikor egy angol főnévi vagy igei synsetet megvalósítottunk magyarul, ellenőriztük, hogy minden hiponima-reláció szerinti őse szintén szerepel-e az ontológiában. Ennek köszönhetően a hálózat sűrű maradt, vagyis nem maradtak fogalmi űrök a hierarchiákban. 6. A HuWN létrehozásának lépései 6.1 Alapheurisztikák A korábbi hasonló projektek eredményei alapján kifejlesztett, automatikus synset-fordító heurisztikákat alkalmaztuk a BCS-synset magyarra fordításához. Az alábbiakban röviden bemutatjuk őket: Egyjelentésű angol szavak: ha egy magyar szó valamelyik angol fordítása egyértelmű a wordnetben, vagyis csupán egyetlen synsetbe tartozik, akkor létrehoztunk egy kapcsolatot a magyar szó és a synset között Többjelentésű angol szavak egyértelmű fordítással: ha egy angol szónak csak egyetlen, egyértelmű magyar fordítása van (a magyar szónak csak ez az egyetlen angol fordítása), és az angol szó a wordnet-ben több synsethez is tartozik, a magyar fordítást hozzárendeltük ezekhez 12

13 Variánsok: ha egy wordnet synset kettő vagy több olyan angol szót tartalmaz, melyeknek csupán egyetlen magyar fordításuk van, és az ugyanaz a magyar szó, akkor a magyar szót hozzárendeltük a közös synsethez Szinonimák: a magyar szó angol fordításaihoz tartozó synsetek közül azt választottuk ki, amely a legtöbbet tartalmazza a szó szinonimáinak angol fordításai közül (de legalább kettőt) Latin nevek: ha egy magyar szóhoz rendelkezésre áll latin megfelelő (állat- és növényfajok, rendszertani kategóriák stb.), akkor azt az angol synsetet választottuk, ami az angol fordításon kívül a latin nevet is tartalmazza Minimális fogalmi távolság: ha létezik egy adott szóhoz tartozó magyar hipernima, akkor képeztük ezek fordításainak lehetséges synsetjeit, majd belőlük megkerestük azt a párt, ami a wordnet fogalmi hálózatában a legközelebb helyezkedik el egymáshoz, és a magyar címszót a minimális távolságú pár megfelelő tagjához rendeltük Mivel a BCS-synsetek 87%-ában volt legalább egy szinonimának magyar fordítása a kétnyelvű szótárunkban, ez volt az automatikus fordítás által elérhető elméleti maximum. A heurisztikák kombinált eredményei ennek mintegy 59%-át, vagyis a teljes BCS anyagának mintegy a felét voltak képesek lefedni. 6.2 A magyar főnévi wordnet létrehozása A magyar főnévi wordnet megalkotásához meghatároztuk a magyar nyelvben fontosnak ítélt, de a BCS-ben nem szereplő, úgynevezett lokális főnévi alapfogalmakat (Local Base Concepts) reprezentáló synseteket. Ehhez korpuszstatisztikai módszereket alkalmaztunk, valamint a Magyar Nemzeti Szövegtár főnévi gyakorisági listáját, illetve a Magyar értelmező kéziszótár főnévi definícióinak szemantikai elemzéseit. Az leggyakoribb MNSZ-beli, valamint ÉKSz-definícióban genus proximumként 7 szereplő főneveknek heurisztikusan megállapítottuk a leggyakoribb jelentéseit. A BCSHu-ban felvett ÉKSz-azonosítók segítségével meghatároztuk ezek közül azokat a fogalmakat, amelyekhez még nem létezett synset a BCSHu-ban. Ezek alapján vettünk fel új synseteket, illetve ÉKSz-hivatkozásokat létező, megegyező jelentésű synsetekhez. A magyar főnévi BCS ezek után nagy valószínűséggel tartalmazza a BalkaNet/EuroWordnet alapfogalmain túl a magyar nyelvben fontos kiinduló jelentéseket is. A kiinduló halmaz elkészülte után azt több iterációs lépésben bővítettük az angol wordnet alapján, további hiponimák hozzáadásával és fordításával. Az egyes lépésekben elérhető lehetséges hiponimák 13

14 közül többféle heurisztika kombinációjával választottuk ki a HuWN anyagába bekerülő fogalmakat: heurisztikus fordítómódszer elérhető a synsethez; korpuszgyakoriság (Brititish National Corpus, American National Corpus First Release, SemCor); átfedés más nemzeti wordnetekkel; relációk száma (a kezdő lépésekben a több elérhető relációval rendelkező synseteket választottuk annak érdekében, hogy a hálózat összetettebb és tovább bővíthető legyen.) Az ontológia enciklopédikus tudását igyekeztünk néhány fontosnak tartott területen teljessé tenni, ezért bizonyos területeken minden PWN-ben ismert fogalmat lefordítottunk. Ilyen területek voltak a földrajzi nevek, az emberi nyelvek, az embercsoportok, a világ országainak pénzegységei, illetve nélkülözhetetlen szakkifejezések a gazdaság, a vállalkozás és a kereskedelem területéről. Ezen felül számos főnévi synsetet a magyar kultúra szempontjából fontosnak tartott tulajdonnevek (magyar városok, történelmi személyek, események stb.) adnak. Ezek révén összesen 3000 fogalommal bővült a Magyar WordNet. A BCS-en belüli doménrelációk ellenőrzéséhez szükség volt az eddig még fel nem vett doménfogalmak megalkotására is. Ez további 400 synset felvételét jelentette. 6.3 A gazdasági szaknyelv ontológiájának fejlesztése Az üzleti fogalmakat elsősorban a főnévi wordnet kiegészítéséhez alapvetően a portálról gyűjtöttük korpuszalapú módszerekkel, teljes PWN-részfák átvételével és a projekt keretei között fejlesztett információ-kivonatoló rendszer ún. esemény-leíró kereteinek figyelembevételével. Így az ontológiába bekerültek a mindennapi hivatalos ügyek intézéséhez szükséges közigazgatási, jogi és gazdasági terminusok. Az üzleti ontológiát így több mint 2000 eleműre bővítettük. 6.4 A magyar igei wordnet létrehozása Miután az MTA Nyelvtudományi Intézet vonzatkeret-adatbázisának vonzatkereteit azonosítottuk az MNSZ egy 10 millió szavas részkorpuszában, a lemmagyakorisági adatokra támaszkodó módszert felváltottuk az MNSZ-részkorpuszban azonosított leggyakoribb vonzatkeretek synsetté formálásával és az angol ekvivalens jelentéseknek való megfeleltetésével. A vonzatkeretek azonosítási eljárásának finomításával kijelölt fogalmak felvétele, valamint a fogalmi háló sűrítésének érdekében szükségesnek érzett fogalmak felvételével alakult ki a magyar wordnet igei része. Az alkalmazott módszertani lépések a EWN-struktúra kiterjesztését, illetve az azon túlmutató szerkezeti változtatásokat hozta magával. Tovább finomítottuk az igei jelentésekben jelölt aspektuális tulajdonságoknak a skáláját azáltal, hogy bevezettünk egy új, a progresszivizálhatóságot kifejező ún. nukleusz-komponenst. Ennek a megléte arra utal, hogy egy ige nyelvtanilag nem tartalmaz előkészítő folyamatot, de mégis meg kell különböztetni a pontszerű történésektől. Ezután a nukleuszok közötti 14

15 öröklődés pontos hátterét is kidolgoztuk (Kuti et al. 2006). Az igei nukleusz-struktúra wordnetbe való integrációja igen fontos lépésnek bizonyult a magyar WordNet létrehozásában, mivel a magyar igék rendszere nagy mértékben eltér az angol igékétől. 6.5 A magyar melléknévi wordnet létrehozása A melléknévi wordnet bővítése az angol wordnet BCS-beli melléknévi csomópontjaiból kiinduló teljes melléknévi klaszterek magyarításával és a klasztert definiáló near_antonym és similar_to relációk ellenőrzésével történt. A projekt során a BCS-ből kiinduló összes klaszter magyarításával további melléknévi fogalmakat is felvettünk. Ezzel párhuzamosan újabb, a BCS-en kívül eső klaszterek magyarítását is elvégeztük, mely során olyan melléknévi klaszterek felvételét tűztük ki célul, melyek a már elkészült nemzeti wordnetekben minél nagyobb átfedésben megtalálhatók, és amelyeket ezért központi jelentőségűnek ítéltünk. A magyar WordNetben az angol struktúrától eltérően bizonyos esetekben a bipoláris klaszterek mellett háromértékű, körkörös antonima-reláció mentén szerveződő csoportokat is létrehoztunk (Gyarmati et al. 2006). 6.6 A magyar határozószói wordnet létrehozása A projekttervezés során meghatározott szófaji arányok alapján mintegy ezer magyar határozószói synset elkészítését irányoztuk elő. Mivel nem álltak rendelkezésünkre magyar szójelentés-gyakorisági adatok, a felvételre kijelölt határozószói synseteket angol gyakorisági adatok alapján a PWN 2.0-ból választottuk ki. Ez egyébként 3664 határozószói synsetet tartalmaz, amiből leggyakrabban használt ezret választottuk ki. Ezek magyar fordításai alkotják tehát a HuWN határozószói részének kiinduló részét. A PWN jelentés-azonosítóival annotált, angol nyelvű, 360 ezer szavas SemCor (Semantic Concordance) korpusz segítségével minden PWN határozószói synsethez hozzárendeltünk egy gyakorisági értéket. Ezt a gyakorisági listát f >=1-nél elvágtuk, ez 1575 db synsetet hagyott meg. Ezután a POS-taggelt, lemmatizált, tízmillió szavas ANC-ben (American National Corpus) meghatároztuk a határozószavak töveinek gyakoriságait. Ennek segítségével a PWN 2.0 határozószói synsetjeihez gyakorisági értékeket rendeltünk olyan módon, hogy minden synsetre összeadtuk a benne szereplő literálok ANC-beli gyakoriságait. Ezt a listát f >=1 gyakoriságnál elvágva 1927 synsetjelöltet kaptunk. Ezután képeztük a két korpusz alapján kapott listák metszetét, ez összesen 1013 synsetet eredményezett, melyeket a PWN 2.0-ból a szokásos módon lefordítottunk magyarra. Ezek után több lépésben ellenőriztük és javítottuk a lefordított synseteket, hogy megfeleljenek a magyar nyelv morfológiai és szemantikai rendszerének (jelentések különválasztása és teljessé tétele 15

16 idő- és helyhatározói jelentéssel is bíró határozószóknál; helyhatározói csoportok elkülönítése és teljessé tétele az irány alapján stb.) 7. Összefoglalás Bemutattuk a magyar WordNet alapjait jelentő Princeton WordNet, EuroWordNet és BalkaNet rendszereket, és azokat az elveket, melyekre építve elkezdhettük a magyar WordNet kidolgozását. A különböző munkafázisok bemutatásával megpróbáltuk illusztrálni, hogy a munka nem puszta adaptáció volt, hanem egy új rendszer létrehozása. Az elkészült ontológiai rendszer gyakorlati felhasználhatóságát bizonyítja, hogy az elkészült adatbázist mind az információkinyerés területén (Alexin et al. 2006, Miháltz et al. 2008), mind a folyó szövegekben megtalálható távoli hivatkozások (anaforák) feloldására (Miháltz et al. 2007) sikerült alkalmazni. Irodalom Alexin, Z. Csirik, J. Szarvas, Gy. Kocsor, A. Miháltz, M Construction of the Hungarian EuroWordNet Ontology and its Application to Information Extraction. In: Proceedings of the Third International WordNet Conference, Seogwipo, Jeju Island, Korea, January 22-26, 2006, Atserias, J., S. Climent, X. Farreres, G. Rigau, H. Rodríguez, H. (1997). Combining multiple methods for the automatic construction of multilingual WordNets. Proc. of Int. Conf. on Recent Advances in Natural Language Processing, Tzigov Chark. Barbu, E. Barbu V. M Automatic Building of Wordnets. In: Proceedings of Recent Advances in Natural Language Processing, Borovets, Bulgaria. Christodoulakis, D. N. (ed.) Design and Development of a Multilingual Balkan Wordnet. BalkaNet Final Report. deliverables/finalreport_sub.pdf Comrie, B Aspect: An Introduction to the Study of Verbal Aspect and Related Problems. Cambridge: Cambridge University Press. Farreres, X., G. Rigau, H. Rodriguez, H Using WordNet for building Wordnets. Proc. of COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems, Montreal. Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. Gómez-Pérez, A. Fernández-López, M. Corcho, O Ontological Engineering. London: Springer-Verlag. 16

17 Gyarmati Á. Almássi A. Szauter D A melléknevek beillesztése a Magyar WordNetbe. In: IV. Magyar Számítógépes Nyelvészet Konferencia, Szeged Hatvani Cs. Kocsor A. Miháltz M. Szarvas Gy. Szécsi K Főnevek a Magyar WordNetben. IV. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, Hatvani Cs. Kuti J. Miháltz M. Szarvas Gy A Magyar EuroWordNet építése. GVOPzárójelentés. Horak, A. Smrz, P New Features of Wordnet Editor VisDic. Romanian Journal of Information Science and Technology Special Issue volume 7, No. 1-2, pp Ion, R. Tufiş, D Multilingual Word Sense Disambiguation Using Aligned Wordnets. Romanian Journal of Information Science and Technology Special Issue (volume 7, No. 1-2), pp Kuti J. Varasdi K. Cziczelszki J. Gyarmati Á. Nagy A. Tóth M. Vajda P Igei wordnet és igei eseményszerkezet ábrázolása. In: IV. Magyar Számítógépes Nyelvészet Konferencia, Szeged, 2006, Krauth P Számítógépes szövegelemzés. Tanulmány. NHIT Információs Társadalom Technológiai Távlatai (IT3). Miháltz M Magyar fõnévi WordNet létrehozása automatikus módszerekkel. Első Magyar Számítógépes Nyelvészeti Konferencia (MSzNy-2003), Szeged, Miháltz, M. Prószéky, G Results and Evaluation of Hungarian Nominal WordNet v1.0. In Proceedings of the Second International WordNet Conference (GWC 2004), Brno, Czech Republic, Miháltz M Ontológiaépítési tanulmány. Magyar EuroWordNet Projekt projektdokumentum. Miháltz M. Naszódi M. Vajda P. Varasdi K NP-koreferenciák feloldása magyar szövegekben a Magyar WordNet ontológia segítségével. In: V. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, Miháltz, M. Hatvani, Cs. Kuti, J. Szarvas, Gy. Csirik, J. Prószéky, G. Váradi, T Methods and Results of the Hungarian WordNet Project. In: Proceedings of The Fourth Global WordNet Conference, Szeged, Hungary, Miller, G. Beckwith, R. Fellbaum, C. Gross, D. Miller, K Five Papers on WordNet. CSL Report 43. Cognitive Science Laboratory. Princeton University. Niles, I. Pease, A Towards a Standard Upper Ontology. In: Proceedings of the 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001), Chris Welty and Barry Smith, eds, Ogunquit, Maine, October 17-19,

18 Prószéky, G Humor: a Morphological System for Corpus Analysis. In: Rettig, H. Pajzs, J. Kiss, G. (eds.): Language Resources for Language Technology, TELRI, Tihany, Hungary, Pustejovsky, J The Generative Lexicon. Cambridge, MA.: MIT Press. Smrz, P Quality Control and Checking for Wordnets Development: A Case Study of BalkaNet. Romanian Journal of Information Science and Technology Special Issue (volume 7, No. 1-2), pp Tufiş, D. Cristea, D. Stamou, S BalkaNet: Aims, Methods, Results and Perspectives. A General Overview. Romanian Journal of Information Science and Technology Special Issue, vol. 7, no. 1-2, pp Vossen, P. (ed.) EuroWordNet General Document, Version 3. University of Amsterdam 18

Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel

Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel Magyar főnévi WordNet-ontológia létrehozása automatikus módszerekkel Miháltz Márton MorphoLogic Kft. 1118 Budapest, Késmárki utca 8. mihaltz@morphologic.hu Kivonat. A cikk bemutatja a folyamatban lév,

Részletesebben

Főnevek a Magyar WordNetben

Főnevek a Magyar WordNetben Főnevek a Magyar WordNetben Hatvani Csaba 1, Kocsor András 1, Miháltz Márton 2, Szarvas György 1, Szécsi Katalin 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport 6720 Szeged, Árpád tér 2. {hacso,

Részletesebben

A Mazsola KORPUSZLEKÉRDEZŐ

A Mazsola KORPUSZLEKÉRDEZŐ A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1

Részletesebben

YANG ZIJIAN GYŐZŐ 杨子剑

YANG ZIJIAN GYŐZŐ 杨子剑 YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,

Részletesebben

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők

Részletesebben

Intelligens elektronikus szótár és lexikai adatbázis

Intelligens elektronikus szótár és lexikai adatbázis Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002 Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés a jelenlegi helyzet: nincs az informatikai

Részletesebben

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.

Részletesebben

Igekötős szerkezetek a magyarban

Igekötős szerkezetek a magyarban Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek

Részletesebben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény

Részletesebben

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség

Részletesebben

Nem lexikalizált fogalmak a Magyar WordNetben

Nem lexikalizált fogalmak a Magyar WordNetben 90 VIII. Magyar Számítógépes Nyelvészeti Konferencia Nem lexikalizált fogalmak a Magyar WordNetben Vincze Veronika, Almási Attila Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged, Árpád tér

Részletesebben

A HUNGLISH PÁRHUZAMOS KORPUSZ

A HUNGLISH PÁRHUZAMOS KORPUSZ A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április

Részletesebben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.

Részletesebben

Különírás-egybeírás automatikusan

Különírás-egybeírás automatikusan Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia

Részletesebben

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?

Részletesebben

Lexikon és nyelvtechnológia Földesi András /

Lexikon és nyelvtechnológia Földesi András / Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.

Részletesebben

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK

Részletesebben

RDFS. (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék https://www.mit.bme.hu/oktatas/targyak/vimiac04

RDFS. (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék https://www.mit.bme.hu/oktatas/targyak/vimiac04 RDFS (Resource Description Frameworks Schema) Méréstechnika és Információs Rendszerek Tanszék https://www.mit.bme.hu/oktatas/targyak/vimiac04 1 RDF Eredetileg webes metaadat kezelés javasolt megközelítése

Részletesebben

Javaslat a magyar igei WordNet kialakítására

Javaslat a magyar igei WordNet kialakítására Javaslat a magyar igei WordNet kialakítására Kuti Judit, Vajda Péter, Varasdi Károly MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály 068 Budapest, Benczúr u. 33. {kutij, vajda, varasdi}@nytud.hu

Részletesebben

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Lexikális szemantika Jelentés-egyértelműsítés Szójelentés

Részletesebben

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Az igekötők gépi annotálásának problémái Kalivoda Ágnes Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás

Részletesebben

Diszlexiások/diszgráfiások anyanyelvi és idegen nyelvi szókincsszerkezete

Diszlexiások/diszgráfiások anyanyelvi és idegen nyelvi szókincsszerkezete Diszlexiások/diszgráfiások anyanyelvi és idegen nyelvi szókincsszerkezete Kohlmann Ágnes Pázmány Péter Katolikus Egyetem Nyelvtudományi Doktori Iskola kohlmannagi@yahoo.de Előzmények és kutatási kérdés

Részletesebben

Szinonimák a terminológiában 1

Szinonimák a terminológiában 1 Szinonimák a terminológiában 1 Fóris Ágota Kulcsszavak: terminológia, terminus, fogalom, szinonima, szinonímia 1. Bevezetés A terminológiai és a szaknyelvi szakirodalomban számos, a terminusokra vonatkozó

Részletesebben

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r

Elérhető szótárak a magyar nyelv oktatásában és használatában. M. P i n t é r T i b o r Elérhető szótárak a magyar nyelv oktatásában és használatában M. P i n t é r T i b o r CÉL I. Magyar nyelvi segítség (nyelvtanuláshoz) Papíralapon Elektronikusan On-line Kérdés, hogy ezt az elérhető szótárak

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

A magyar létige problémái a számítógépes nyelvi elemzésben

A magyar létige problémái a számítógépes nyelvi elemzésben A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:

Részletesebben

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC IGÉK, FÕNEVEK, MELLÉKNEVEK 1 2 3 SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. IGÉK, FÕNEVEK, MELLÉKNEVEK Elõtanulmányok a mentális szótár szerkezetérõl Szerkesztette KIEFER FERENC TINTA KÖNYVKIADÓ

Részletesebben

Mi is volt ez? és hogy is volt ez?

Mi is volt ez? és hogy is volt ez? Mi is volt ez? és hogy is volt ez? El zmények: 60-as évek kutatási iránya: matematikai logika a programfejlesztésben 70-es évek, francia és angol kutatók: logikai programozás, Prolog nyelv 1975: Szeredi

Részletesebben

Adatbázis rendszerek 6.. 6. 1.1. Definíciók:

Adatbázis rendszerek 6.. 6. 1.1. Definíciók: Adatbázis Rendszerek Budapesti Műszaki és Gazdaságtudományi Egyetem Fotogrammetria és Térinformatika 6.1. Egyed relációs modell lényegi jellemzői 6.2. Egyed relációs ábrázolás 6.3. Az egyedtípus 6.4. A

Részletesebben

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17 Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott

Részletesebben

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9. Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok

Részletesebben

PÁRHUZAMOS IGEI SZERKEZETEK

PÁRHUZAMOS IGEI SZERKEZETEK PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3. 1 EGYNYELVŰ IGEI SZERKEZETEK

Részletesebben

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program

Részletesebben

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *

Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben * Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben * Vincze Veronika 1. Bevezetés A dolgozat a kollokációk egy altípusának, a félig kompozicionális szerkezeteknek más néven funkcióigés

Részletesebben

Többnyelvű tezaurusz építése és szolgáltatása webes környezetben

Többnyelvű tezaurusz építése és szolgáltatása webes környezetben Többnyelvű tezaurusz építése és szolgáltatása webes környezetben Förhécz András, fand_lev@freemail.hu Mészáros Tamás, meszaros@mit.bme.hu BME Méréstechnika és Információs Rendszerek Tanszék Áttekintés

Részletesebben

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában B y G y F v v m y b E y u m y ( m ó ) y v b y v u m y m j 20. A j m : m y v 1 ü - b ü ó, v m y v - v ó y, m y j y v - u m y ü m j m v. A y v u m y y m u m y, ó ü v, m m m u m y. J, m b m ó b. A MTA 56

Részletesebben

KOVÁCS BÉLA, MATEMATIKA I.

KOVÁCS BÉLA, MATEMATIKA I. KOVÁCS BÉLA, MATEmATIkA I. 4 IV. FÜGGVÉNYEk 1. LEkÉPEZÉSEk, függvények Definíció Legyen és két halmaz. Egy függvény -ből -ba egy olyan szabály, amely minden elemhez pontosan egy elemet rendel hozzá. Az

Részletesebben

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA

EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA infokommunikációs technológiák EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA Témavezető: Tarczali Tünde Témavezetői beszámoló 2015. január 7. TÉMAKÖR Felhő technológián

Részletesebben

A Tinta e-book könyvtár/lexikontár címei:

A Tinta e-book könyvtár/lexikontár címei: A Tinta e-book könyvtár/lexikontár címei: Név / cím Részletes leírás az adatbázisoknál, lexikonoknál 1 Alakzatlexikon 196 klasszikus stiliszti fogalom magyarázata, értelmezése irodalmi példákkal szemléltetve

Részletesebben

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban

Részletesebben

Mesterséges Intelligencia Elektronikus Almanach

Mesterséges Intelligencia Elektronikus Almanach Mesterséges Intelligencia Elektronikus Almanach Dobrowiecki Tadeusz, Mészáros Tamás Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MI Almanach a projekt

Részletesebben

22. GRÁFOK ÁBRÁZOLÁSA

22. GRÁFOK ÁBRÁZOLÁSA 22. GRÁFOK ÁBRÁZOLÁSA A megoldandó feladatok, problémák modellezése során sokszor gráfokat alkalmazunk. A gráf fogalmát a matematikából ismertnek vehetjük. A modellezés során a gráfok több változata is

Részletesebben

Átlag (standard hiba)

Átlag (standard hiba) Képességpont A képességpont valószínűségi modellel számított érték, amely a tanuló teszten elért eredményét egy mesterséges, a matematikai eszköztudást, illetve szövegértési képességet jelképező skálára

Részletesebben

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation

ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation PERSONAL E-mail yang.zijian.gyozo@itk.ppke.hu yang.zijian.gyozo@uni-eszterhazy.hu Gender male Place of birth

Részletesebben

Bánki Zsolt István Csáki Zoltán Petőfi Irodalmi Múzeum Könyvtár és Informatika. Networkshop 2014 Pécs

Bánki Zsolt István Csáki Zoltán Petőfi Irodalmi Múzeum Könyvtár és Informatika. Networkshop 2014 Pécs Bánki Zsolt István Csáki Zoltán Petőfi Irodalmi Múzeum Könyvtár és Informatika Networkshop 2014 Pécs A szemantikus web építőelemeinek számító terminológiákat (Linked Open Data ajánlásoknak) megfelelő formátumban

Részletesebben

Ismeretlen kifejezések és a szófaji egyértelm sítés

Ismeretlen kifejezések és a szófaji egyértelm sítés Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,

Részletesebben

Adatbázismodellek. 1. ábra Hierarchikus modell

Adatbázismodellek. 1. ábra Hierarchikus modell Eddig az adatbázisokkal általános szempontból foglalkoztunk: mire valók, milyen elemekből épülnek fel. Ennek során tisztáztuk, hogy létezik az adatbázis fogalmi modellje (adatbázisterv), amely az egyedek,

Részletesebben

Honlap szerkesztés Google Tudós alkalmazásával

Honlap szerkesztés Google Tudós alkalmazásával Dr. Mester Gyula Honlap szerkesztés Google Tudós alkalmazásával Összefoglaló: A közlemény tematikája honlap szerkesztés Google Tudós alkalmazásával. A bevezetés után a tudományos teljesítmény mérésének

Részletesebben

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006.

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006. ÖNELLENŐRZÉS ÉS FUTÁSIDEJŰ VERIFIKÁCIÓ SZÁMÍTÓGÉPES PROGRAMOKBAN OTKA T-046527 A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006. Témavezető: dr. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem

Részletesebben

2

2 1 SZÉKELY GÁBOR EGY SAJÁTOS NYELVI JELENSÉG, A FOKOZÁS 2 3 SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ 66. SZÉKELY GÁBOR EGY SAJÁTOS NYELVI JELENSÉG, A FOKOZÁS TINTA KÖNYVKIADÓ BUDAPEST, 2007 4 KÖNYVEM

Részletesebben

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt

Részletesebben

Nyelv-ész-gép Új technológiák az információs társadalomban

Nyelv-ész-gép Új technológiák az információs társadalomban Nyelv-ész-gép Új technológiák az információs társadalomban CESAR Csatlakozás az európai nyelvtechnológiai infrastruktúra élvonalához Lendvai Piroska piroska@nytud.hu CEntral and *Közép- és South-East EuropeAn

Részletesebben

SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN

SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN FÓRIS ÁGOTA Pragmatika kerekasztal, KRE BTK, 2015. május 29. Vázlat Szemantika és pragmatika a terminológiában Szemantika és pragmatika a terminológiaoktatásban

Részletesebben

Aspektus-orientált nyelvek XML reprezentációja. Kincses Róbert Debreceni Egyetem, Informatikai Intézet

Aspektus-orientált nyelvek XML reprezentációja. Kincses Róbert Debreceni Egyetem, Informatikai Intézet Aspektus-orientált nyelvek XML reprezentációja Kincses Róbert Debreceni Egyetem, Informatikai Intézet kincsesr@inf.unideb.hu Bevezetés OOP: helyesen alkalmazva jó minőségű szoftvert lehet vele előállítani

Részletesebben

Sémi összehasonlító nyelvészet

Sémi összehasonlító nyelvészet Sémi összehasonlító nyelvészet BMA-HEBD-303 Biró Tamás 5. A nyelvtörténeti rekonstrukció alapjai. Jelentéstan. 2016. március 30. Összehasonlító rekonstrukció: alapok A történeti rekonstrukció klasszikus

Részletesebben

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft apinter@corvinno.hu

Steps Towards an Ontology Based Learning Environment. Anita Pintér Corvinno Technologia Transzfer Kft apinter@corvinno.hu Steps Towards an Ontology Based Learning Environment Anita Pintér Corvinno Technologia Transzfer Kft apinter@corvinno.hu Ontológia alapú elektronikus tanulási környezet megteremtése Anita Pintér Corvinno

Részletesebben

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás: szakmai önéletrajz Személyes információk: Név: Bánhalmi András Pozíció: Tudományos segédmunkatárs Munkahely: MTA-SZTE Mesterséges Intelligencia Kutatócsoport Cím: 6720 Szeged, Aradi vértanúk tere 1. Telefon:

Részletesebben

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet {oravecz}@nytud.hu. MANYE vitaülés 2006. február 20.

Az annotáció elvei. Oravecz Csaba MTA Nyelvtudományi Intézet {oravecz}@nytud.hu. MANYE vitaülés 2006. február 20. Oravecz Csaba MTA Nyelvtudományi Intézet {oravecz}@nytud.hu MANYE vitaülés 2006. február 20. Bevezetés Nyelvi erőforrások, szöveges adatbázisok növekvő jelentősége. Bevezetés Nyelvi erőforrások, szöveges

Részletesebben

A CMMI alapú szoftverfejlesztési folyamat

A CMMI alapú szoftverfejlesztési folyamat A CMMI alapú szoftverfejlesztési folyamat Készítette: Szmetankó Gábor G-5S8 Mi a CMMI? Capability Maturity Modell Integration Folyamat fejlesztési referencia modell Bevált gyakorlatok, praktikák halmaza,

Részletesebben

Mezőgazdasági külső információs rendszerek fejlesztése

Mezőgazdasági külső információs rendszerek fejlesztése Mezőgazdasági külső információs rendszerek fejlesztése Pető István Szent István Egyetem, Gödöllő Gazdasági Informatika Tanszék I. Agrárinformatikai Nyári Egyetem, Gödöllő 2004. augusztus 25-27. Az előadás

Részletesebben

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március

Részletesebben

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE

Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE Adatbázisok 2018-ban ADT- ARCANUM DIGITÁLIS TUDOMÁNYTÁR AKADÉMIAI KIADÓ FOLYÓIRATAI AKADÉMIAI KIADÓ MERSZ ADATBÁZIS AKADÉMIAI KIADÓ SZÓTÁRAI CAMBRIDGE JOURNALS EBSCO JSTOR L HARMATTAN KIADÓ MATHSCINET

Részletesebben

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:

Részletesebben

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar Doktori Disszertáció Tézisei Recski Gábor Számítógépes módszerek a szemantikában Nyelvtudományi Doktori Iskola Tolcsvai Nagy Gábor MHAS Elméleti Nyelvészet

Részletesebben

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29. Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban 2014. szeptember 29. Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció

Részletesebben

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA FIATAL ŰSZAKIAK TUDOÁNYOS ÜLÉSSZAKA Kolozsvár, 1999. március 19-20. Zsákolt áruk palettázását végző rendszer szimulációs kapacitásvizsgálata Kádár Tamás Abstract This essay is based on a research work

Részletesebben

VI. Magyar Földrajzi Konferencia 524-529

VI. Magyar Földrajzi Konferencia 524-529 Van Leeuwen Boudewijn Tobak Zalán Szatmári József 1 BELVÍZ OSZTÁLYOZÁS HAGYOMÁNYOS MÓDSZERREL ÉS MESTERSÉGES NEURÁLIS HÁLÓVAL BEVEZETÉS Magyarország, különösen pedig az Alföld váltakozva szenved aszályos

Részletesebben

Publikációs lista. Gódor Győző. 2008. július 14. Cikk szerkesztett könyvben... 2. Külföldön megjelent idegen nyelvű folyóiratcikk...

Publikációs lista. Gódor Győző. 2008. július 14. Cikk szerkesztett könyvben... 2. Külföldön megjelent idegen nyelvű folyóiratcikk... Publikációs lista Gódor Győző 2008. július 14. Cikk szerkesztett könyvben... 2 Külföldön megjelent idegen nyelvű folyóiratcikk... 2 Nemzetközi konferencia-kiadványban megjelent idegen nyelvű előadások...

Részletesebben

Programozási nyelvek Java

Programozási nyelvek Java Programozási nyelvek Java Kozsik Tamás előadása alapján Készítette: Nagy Krisztián 8. előadás Öröklődés - megnyitunk egy osztályt egy másik előtt zárt egységeket szeretünk készíteni (láthatósági kérdés:

Részletesebben

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems Többnyelvű dokumentum nyelvének megállapítása MSZNY 2011 Vajna Miklós Pataki Máté Probléma Természetes nyelvű dokumentum nyelvének a megállapítása Megoldott

Részletesebben

Felhasználói segédlet a Scopus adatbázis használatához

Felhasználói segédlet a Scopus adatbázis használatához Felhasználói segédlet a Scopus adatbázis használatához Az adatbázis elérése, regisztrálás, belépés Az adatbázis címe: http://www.scopus.com Az adatbázis csak regisztrált, jogosultsággal rendelkező intézmények,

Részletesebben

A MAGYAR REKURZÍV BIRTOKOS SZERKEZET ELSAJÁTÍTÁSA A NEMZETKÖZI KUTATÁSOK TÜKRÉBEN

A MAGYAR REKURZÍV BIRTOKOS SZERKEZET ELSAJÁTÍTÁSA A NEMZETKÖZI KUTATÁSOK TÜKRÉBEN A MAGYAR REKURZÍV BIRTOKOS SZERKEZET ELSAJÁTÍTÁSA A NEMZETKÖZI KUTATÁSOK TÜKRÉBEN Tóth Ágnes Pázmány Péter Katolikus Egyetem MTA Nyelvtudományi Intézet KÍSÉRLETI HIPOTÉZIS, MEGVÁLASZOLANDÓ KÉRDÉSEK 1.

Részletesebben

Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ

Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ Egy nyelvészbarát szövegfeldolgozó eszköz: a NooJ Pajzs Júlia Bevezetés A NooJ nyelvészek számára készült, szövegfeldolgozásra alkalmas szoftver, amelynek használatával nyelvtechnológiai háttérrel nem

Részletesebben

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17. NYELVTECHNOLÓGIA Sass Bálint sass@digitus.itk.ppke.hu Pázmány Nap 2007. október 17. 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS BEVEZETŐ Language makes us human. Turing teszt

Részletesebben

Elliptikus listák jogszabályszövegekben

Elliptikus listák jogszabályszövegekben Szeged, 2015. január 15 16. 273 Elliptikus listák jogszabályszövegekben Hamp Gábor 1, Syi 1, Markovich Réka 2,3 1 BME Szociológia és Kommunikáció Tanszék 1111 Budapest, Egry József u. 1. hampg@eik.bme.hu,

Részletesebben

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop 2014 2014. Április 24-25-26, Pécs

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop 2014 2014. Április 24-25-26, Pécs A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben Networkshop 2014 2014. Április 24-25-26, Pécs Fordító- tolmácsképzés Magyarországon Mesterszakok: Elte (angol,

Részletesebben

Nagytömegű adatok (gyors) kartografálása. Rostás Sándor százados. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.

Nagytömegű adatok (gyors) kartografálása. Rostás Sándor százados. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h. Nagytömegű adatok (gyors) kartografálása Rostás Sándor százados. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.) Kialakításának feltételei - Szoftver lincence (ESRI) - Megfelelő mxd

Részletesebben

Rostás Sándor szds. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.)

Rostás Sándor szds. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.) DITAB-50 az új topográfiai adatbázis Rostás Sándor szds. MH GEOSZ Műszaki és információs osztály térképész főtiszt (ov. h.) Az előadás tartalma 1. Bevezetés 2. Célja 3. Kialakítása 4. Jelenlegi állapot

Részletesebben

Agrárinformatikai kutatások helyzetének áttekintése

Agrárinformatikai kutatások helyzetének áttekintése Agrárinformatikai kutatások helyzetének áttekintése Pitlik László (MAGISZ, SZIE) I. Agrárinformatikai Nyári Egyetem 2004. 08. 25-27. Gödöllő Szervezők: MAGISZ, HUNAGI, SZIE Áttekintés Definíciókísérletek

Részletesebben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A

Részletesebben

A szótárról. 1. Mi ez?

A szótárról. 1. Mi ez? A szótárról 1. Mi ez? A szótár, amit az olvasó a kezében tart, a leggyakoribb magyar igei szerkezeteket tartalmazza. Egynyelvű szótár explicit szótári értelmezések nélkül; a szerkezeteket, azok jelentését

Részletesebben

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei

BGF. 4. Mi tartozik az adatmodellek szerkezeti elemei 1. Mi az elsődleges következménye a gyenge logikai redundanciának? inkonzisztencia veszélye felesleges tárfoglalás feltételes függés 2. Az olyan tulajdonság az egyeden belül, amelynek bármely előfordulása

Részletesebben

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával

Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával * Pannon Egyetem, M szaki Informatikai Kar, Számítástudomány

Részletesebben

Szakterületi modell A fogalmak megjelenítése. 9. fejezet Applying UML and Patterns Craig Larman

Szakterületi modell A fogalmak megjelenítése. 9. fejezet Applying UML and Patterns Craig Larman Szakterületi modell A fogalmak megjelenítése 9. fejezet Applying UML and Patterns Craig Larman 1 Néhány megjegyzés a diagramokhoz Ez a tárgy a rendszer elemzésről és modellezésről szól. Noha például egy

Részletesebben

AZ IVÓVÍZMINŐSÉG-JAVÍTÓ PROGRAM SZABOLCS- SZATMÁR-BEREG MEGYEI SAJÁTOSSÁGAI

AZ IVÓVÍZMINŐSÉG-JAVÍTÓ PROGRAM SZABOLCS- SZATMÁR-BEREG MEGYEI SAJÁTOSSÁGAI Miskolci Egyetem,Multidiszciplináris tudományok, 1. kötet (2011) 1. szám, pp. 315-324. AZ IVÓVÍZMINŐSÉG-JAVÍTÓ PROGRAM SZABOLCS- SZATMÁR-BEREG MEGYEI SAJÁTOSSÁGAI Virág Margit okl.geológusmérnök, vízkészletgazdálkodási-

Részletesebben

HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE

HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE HALLGATÓI KÉRDŐÍV ÉS TESZT ÉRTÉKELÉSE EVALUATION OF STUDENT QUESTIONNAIRE AND TEST Daragó László, Dinyáné Szabó Marianna, Sára Zoltán, Jávor András Semmelweis Egyetem, Egészségügyi Informatikai Fejlesztő

Részletesebben

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek TSIMMIS egy lekérdezés centrikus megközelítés TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek 1 Információk heterogén információs forrásokban érhetk el WWW Társalgás Jegyzet papírok

Részletesebben

Adatmodellezés. 1. Fogalmi modell

Adatmodellezés. 1. Fogalmi modell Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)

Részletesebben

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?

Részletesebben

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA Kovács Ernő 1, Füvesi Viktor 2 1 Egyetemi docens, PhD; 2 tudományos segédmunkatárs 1 Eletrotechnikai és Elektronikai Tanszék, Miskolci Egyetem

Részletesebben

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs rendszerek fejlesztését az elosztott információs környezetben.

Részletesebben

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás

Részletesebben

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem, 138-145

Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem, 138-145 Milyen a jó Humor? Novák Attila MorphoLogic Kft., Budapest novak@morphologic.hu Kivonat. Magyar nyelvű szövegek morfológiai elemzésére elterjedten alkalmazzák a MorphoLogic Kft. által kifejlesztett Humor

Részletesebben

Igei wordnet és igei eseményszerkezet ábrázolása

Igei wordnet és igei eseményszerkezet ábrázolása Igei wordnet és igei eseményszerkezet ábrázolása Kuti Judit 1, Varasdi Károly 1, Cziczelszki Judit 1, Gyarmati Ágnes 1, Nagy Anikó 1, Tóth Marianna 1, Vajda Péter 1 1 Magyar Tudományos Akadémia, Nyelvtudományi

Részletesebben

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint sass@digitus.itk.ppke.hu. Bevezetés a nyelvtechnológiába 2. gyakorlat 2007. szeptember 20.

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint sass@digitus.itk.ppke.hu. Bevezetés a nyelvtechnológiába 2. gyakorlat 2007. szeptember 20. XML Sass Bálint sass@digitus.itk.ppke.hu Bevezetés a nyelvtechnológiába 2. gyakorlat 2007. szeptember 20. 1 DOKUMENTUMFORMÁTUMOK 2 JELÖLŐ NYELVEK 3 XML 1 DOKUMENTUMFORMÁTUMOK 2 JELÖLŐ NYELVEK 3 XML DOKUMENTUMFORMÁTUMOK

Részletesebben

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata:

Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: ADATSZERVEZÉS Az adatok a vállalat kulcsfontosságú erőforrásai. Az információs rendszer adatai kezelésének két alapvető változata: fájlrendszerek (a konvencionális módszer) és adatbázis rendszerek (a haladóbb

Részletesebben

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ SZERKEZETEK KINYERÉSE KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet Budapest, 2011. június 16. 1 / 33 1 MAGYAR IGEI SZERKEZETEK Alapmodell és

Részletesebben

Tudományos segédmunkatárs (MTA TK SZI) nők a tudományban, műszaki tudományok, magánélet és munka egyensúlya, gyermekvállalás

Tudományos segédmunkatárs (MTA TK SZI) nők a tudományban, műszaki tudományok, magánélet és munka egyensúlya, gyermekvállalás Paksi Veronika Tudományos segédmunkatárs (MTA TK SZI) Osztály: Társas kapcsolatok és hálózatelemzés osztály E-mail: paksi.veronika@tk.mta.hu Telefonszám: +36 1 2246700 / 268 Kutatási területek nők a tudományban,

Részletesebben

RADPLAN. A Mentum Planet, Mentum Ellipse az InfoVista bejegyzett védjegye, minden jog fenntartva!

RADPLAN. A Mentum Planet, Mentum Ellipse az InfoVista bejegyzett védjegye, minden jog fenntartva! RADPLAN A távközlési hálózatok teljesebb dokumentálása érdekében létrehoztuk a RadPlan rendszert, amely az optikai hálózatok elektronikus dokumentálásán kívül alkalmas még a rádiófrekvenciás hálózatok

Részletesebben

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé.

Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé. HA 1 Mindent olyan egyszerűvé kell tenni, amennyire csak lehet, de nem egyszerűbbé. (Albert Einstein) HA 2 Halmazok HA 3 Megjegyzések A halmaz, az elem és az eleme fogalmakat nem definiáljuk, hanem alapfogalmaknak

Részletesebben