A CLARIN ERIC és a HUNCLARIN bemutatása

Hasonló dokumentumok
Nyelv-ész-gép Új technológiák az információs társadalomban

DANS és Narcis. Burmeister Erzsébet. HUNOR találkozó, Budapest március 13.

EEA, Eionet and Country visits. Bernt Röndell - SES

3. melléklet: Innovációs és eredményességi mutatók Összesített innovációs index, 2017 (teljesítmény a 2010-es EU-átlag arányában)

Magyarország versenyképessége az IKT szektorban A tudás mint befektetés. Ilosvai Péter, IT Services Hungary

Szövetségi (föderatív) jogosultságkezelés

A 2018-as pályázati felhíváshoz kapcsolódó intézményi mobilitási főpályázat elkészítésével kapcsolatos információk

Elgépiesedő világ, vagy humanizált technológia

Az iparfejlesztés jövőbeni tervezett irányai, elemei az akkreditálás jelentősége. Dr. Nagy Ádám főosztályvezető

Mire, mennyit költöttünk? Az államháztartás bevételei és kiadásai ban

MELLÉKLET. a következőhöz: A Bizottság jelentése az Európai Parlamentnek és a Tanácsnak

Közlekedésbiztonsági trendek az Európai Unióban és Magyarországon

Az európai kutatás nyílt hozzáférését biztosító infrastruktúra. Karácsony Gyöngyi Debreceni Egyetem Egyetemi és Nemzeti Könyvtár

ADÓAZONOSÍTÓ SZÁM Az adóazonosító számokkal kapcsolatos egyes témák: Az adóazonosító szám felépítése. 1. AT Ausztria. 2. BE Belgium. 3.

AZ EURÓPAI HALÁSZAT SZÁMOKBAN

SAS szoftverek felhasználási lehetőségei a felsőoktatásban

Észrevételek ( 1 ) Részletes vélemények ( 2 ) EFTA ( 3 ) TR ( 4 ) Belgium Bulgária Cseh Közt.

Az EUREKA és a EUROSTARS program

Európa Albánia Andorra Ausztria Belgium Bulgária Csehszlovákia Dánia Egyesült Királyság Észtország

A JÖVŐ INTERNET KUTATÁSKOORDINÁCIÓS KÖZPONT SZERVEZETI ÉS MŰKÖDÉSI SZABÁLYZATA

PÁLYÁZATI FELHÍVÁS ERASMUS+ HALLGATÓI TANULMÁNYI ÉS SZAKMAI GYAKORLATI CÉLÚ HALLGATÓI MOBILITÁSRA A 2018/2019-ES TANÉVRE

PÁLYÁZATI FELHÍVÁS ERASMUS+ HALLGATÓI TANULMÁNYI ÉS SZAKMAI GYAKORLATI CÉLÚ HALLGATÓI MOBILITÁSRA A 2016/2017-ES TANÉVRE

Ister-Granum EGTC. Istvan FERENCSIK Project manager. The Local Action Plans to improve project partners crossborder

Nyugdíjasok, rokkantsági nyugdíjasok az EU országaiban

Menü. Az Európai Unióról dióhéjban. Továbbtanulás, munkavállalás

USE ONLY EURÓPA ORSZÁGAI ÉS FŐVÁROSAI

Kitöltési útmutató az E-adatlaphoz V1.2

A KÖZÖS AGRÁRPOLITIKA SZÁMOKBAN

Áramlások a térgazdaságban A MAGYAR REGIONÁLIS TUDOMÁNYI TÁRSASÁG XVI. VÁNDORGYŰLÉSE Kecskemét, október

Versenyképesség és innováció a magyar gazdaságban nemzeti és vállalati szempontok

ció Magyarországon gon 2009

Mi is volt ez? és hogy is volt ez?

A romániai pedagógusképzési és -továbbképzési rendszer aktuális változásai (E. szekció: A szak- és felnőttképzés aktuális jogi változásai)

Prof. Dr. Katona Tamás. A gazdaságstatisztika oktatásának néhány kritikus pontja a közgazdászképzésben

Az e-magyar digitális nyelvfeldolgozó rendszer

Környezetvédelmi Főigazgatóság

Információs társadalom Magyarországon

OpenAIRE

Szatucsek Zoltán MúzeumDigit, november 22.

A hozzáadott érték adó kötelezettségekből származó adminisztratív terhek

M2M Net EU díjcsomag szolgáltatói lista

Szélessávú szolgáltatások: Csökken a különbség Európa legjobban és legrosszabbul teljesítő országai között

I. INFORMÁCIÓKÉRÉS szolgáltatásnyújtás céljából munkavállalók transznacionális rendelkezésre bocsátásáról

130,00 ALL (0,94 EUR) 126,00 ALL (0,91 EUR) Ausztria 1,10 EUR (1,10 EUR) 1,27 EUR (1,27 EUR) 1,01 EUR (1,01 EUR)

2018/149 ELNÖKI TÁJÉKOZTATÓ Budapest, Riadó u Pf Tel.:

DERZSY NAPOK JÚNIUS 2. SÁRVÁR

A közgyűjtemények és az e-infrastruktúra szolgáltatók

A közúti közlekedésbiztonság helyzete Magyarországon

Információs társadalom Magyarországon

A magyar gazdaság főbb számai európai összehasonlításban

YANG ZIJIAN GYŐZŐ 杨子剑

Az Otthonteremtési Program hatásai

A Magyar Tudományos Művek Tára

Regionális trendek integrációs kihívások az EU tagállamok kereskedelmi nyilvántartásainak jogi modellje, mint versenyképességi tényező

TÁRSADALMI SZÜKS KSÉGLETEK. MST, Balatonfüred 13.

A EUROSTARS2 program. Csuzdi Szonja főosztályvezető-helyettes. H2020 ICT Információs nap

Innovációtranszfer az egészségügyben, a kórház/klinika és a vállalkozás között

MELLÉKLET. a következőhöz:

Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Smart megoldások. Ela

A közlekedésbiztonság helyzete Magyarországon

MELLÉKLET. a következőhöz: A BIZOTTSÁG JELENTÉSE

A Pécsi Tudományegyetem Egészségtudományi Kara pályázatot ír ki 2015/2016. tanévi Erasmus+ oktatói mobilitási programban való részvételre.

Általános Szerződési Feltételek Conclude Befektetési Zrt. GoldTresor online nemesfém kereskedési rendszer

MTA Könyvtára, MTA K TM Csillagászati Kutatóintézete. Debreceni Egyetem Egyetemi és Nemzeti Könyvtár. KFKI Rendszerintegrációs Zrt

Hálózatba kapcsolt és fenntartható városi mobilitás

Állami vezetők és más munkavállalók külföldi kiküldetéseinek költsége és témája

Igekötős szerkezetek a magyarban

ADÓVERSENY AZ EURÓPAI UNIÓ ORSZÁGAIBAN

HOGYAN TOVÁBB IRÁNYVÁLTÁS A FOGLALKOZTATÁSPOLITIKÁBAN

Szervezeti innovációk és tudás felhasználási minták összehasonlító vizsgálata: szektor- és ország különbségek (Elızetes kutatási eredmények)

Integrációtörténeti áttekintés. Az Európai Unió közjogi alapjai (INITB220)

A magyarországi bérfelzárkózás lehetőségei és korlátai

A kezdeményezés célkitűzése

MELLÉKLETEK. a következőhöz: A BIZOTTSÁG KÖZLEMÉNYE AZ EURÓPAI PARLAMENTNEK ÉS A TANÁCSNAK

A rejtett gazdaság okai és következményei nemzetközi összehasonlításban. Lackó Mária MTA Közgazdaságtudományi Intézet június 1.

FENNTARTHATÓ FEJLİDÉS ÉS VERSENYELİNYÖK. Budapest, május 24.

Fordítás, többnyelvűség, szótárak

Dr. Zentai Zoltán Jogi Igazgató GYSEV CARGO Zrt.

Az Open Data jogi háttere. Dr. Telek Eszter

HALLGATÓI ERASMUS + ÖSZTÖNDÍJ PÁLYÁZAT /2018-as TANÉV

Az Információs és kommunikációs technológiák a HORIZONT 2020-ban

Csatlakozás a BME eduroam hálózatához Setting up the BUTE eduroam network

ERASMUS TÁJÉKOZTATÓ október 03.

Intézményi repozitórium -intézményi tartalomfelhő az Eötvös Loránd Tudományegyetemen

Területi fejlettségi egyenlőtlenségek alakulása Európában. Fábián Zsófia KSH

EURÓPAI VÁLASZTÁSOK Választások előtti közvélemény-kutatás - Első fázis Első eredmények: Az európai átlag és a főbb tendenciák országok szerint

MTA: KUTATÁS A JÖVŐNKÉRT

A gyermekek és az idősek felé áramló látható és láthatatlan transzferek

IPARI PARKOK FEJLESZTÉSI LEHETŐSÉGEI MAGYARORSZÁGON

A megállapodás 3. cikkében hivatkozott lista I. RÉSZ

ERASMUS Roadshow Külföldi ösztöndíjak bemutatása február 23.

ÖNKORMÁNYZATOK ÉS KKV-K SZÁMÁRA RELEVÁNS PÁLYÁZATI LEHETŐSÉGEK ÁTTEKINTÉSE A TRANSZNACIONÁLIS ÉS INTERREGIONÁLIS PROGRAMOKBAN

2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában

Állami vezetők és más munkavállalók külföldi kiküldetéseinek költsége és témája

Megvitatandó napirendi pontok (II.)

Smartpolis projekt Okos város kutatások a Budapesti Műszaki és Gazdaságtudományi Egyetemen V4 projektek

ALAPÍTÁSI ENGEDÉLYT KAPOTT KÖNYVTÁRI KÉPZÉSI PROGRAMOK

A library for the user: new building, new organisation, new services

:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

Átírás:

A CLARIN ERIC és a HUNCLARIN bemutatása Váradi Tamás MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály varadi.tamas@nytud.mta.hu Jelencsik-Mátyus Kinga MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály matyus.kinga@nytud.mta.hu

Vázlat Előzmények A CLARIN ERIC felépítése, szervezete, tevékenysége A HunCLARIN előzményei Tagok, szolgáltatások E-magyar rendszer Tervek, kilátások

A CLARIN története előkészítő szakasz 2006 ESFRI Roadmap 3 nyelvtech projekt egyesül : CLARIN MTA Nyelvtud alapító tag 2008-2011 CLARIN projekt (előkészítő szakasz)

A CLARIN-ERIC építő szakasz Tagok nemzeti konzorciumot alkotnak A nemzeti konzorcium tagjai jellemzően: kutatóintézetek, egyetemek, könyvtárak, archívumok CLARIN = elosztott hálozati infrastruktúra szerte Európában, ahol a tagok nyelvi erőforrásokat (korpuszokat, lexikai és egyéb adatbázisokat) digitális eszközöket szakmai segítséget nyújtanak a nyelvi anyagokkal dolgozó kutatóknak

A CLARIN ERIC felépítése TAGOK: a tagországok vagy kormányközi szervezetek nemzeti hálózatok, intézményekkel (egyetemek, kutatóintézetek) TEVÉKENYSÉG: zöme a tagországokban, az általuk folyósított támogatásból FINANSZÍROZÁS: TAGDÍJ (GDP arányos módon) CLARIN központ, központi tevékenységek NEMZETI FORRÁS helyi tevékenységek,

Tagok Nemzeti konzorcium Ausztria CLARIN Austria Bulgária CLARIN Bulgaria Csehország Dánia Holland Nyelvi Szövetség Észtország Finnország LINDAT/CLARIN CLARIN-DK CLARIN DLU / Flanders CLARIN Estonia FIN-CLARIN Megfigyelő Franciaország Egyesült Királyság Nemzeti Konzorcium CLARIN France CLARIN-UK Németország CLARIN-D Görögország clarin:el Magyarország HunCLARIN Olaszország CLARIN-IT Lettország CLARIN-LV Litvánia CLARIN-LT Hollandia CLARIAH NL Norvégia CLARINO Lengyelország CLARIN PL Portugália CLARIN Portugal Szlovénia CLARIN.Sl Svédország SWE-CLARIN Horvátország HR-CLARIN

CLARIN-ERIC szervezeti felépítése

CLARIN-ERIC központok A CLARIN infrastruktúra gerincét a központok alkotják Központ lehet minden olyan intézmény vagy nemzeti konzorcium, amely megfelel a szigorú elvárásoknak. Cél: Centre B státusz elérése Ma körülbelül 20 Centre B van

CLARIN-ERIC központok Service Providing Centres (Type B) ezek alkotják a CLARIN magját Task: Type B centres offer services that include the access to the resources stored by them and tools deployed at the centre via specified and CLARIN compliant interfaces in a stable and persistent way; Infrastructure Centres (Type A) Task: Type A centres offer services that are relevant for the infrastructure as a whole and that need to be offered at a high level of commitment (stability, availability, persistence); Knowledge Centres (Type K) Task: Type K centres offer expertise and advice about various matters that are relevant for the researchers to easily make use of the CLARIN services and that are not covered by the other centres;

CLARIN-ERIC központok Központ cím elnyerése: szigorú követelmények Assessment committee, assessment procedure Security guidelines for servers Join national identity federation Adatrepozitóriumok tanúsítványa: Data Seal of Approval https://www.datasealofapproval.org/en/ Core Trust Seal https://www.coretrustseal.org/ Component based metadata (CMDI) Harvestable via OAI PMH

CLARIN-PLUS 2015-2017-ig tartó projekt Célja: CLARIN fejlesztése (2013 ESFRI Assessment Expert Group javaslatai alapján) az alábbi területeken: 1. Fő technikai központ The central (technical) hub 2. Központi irodai The central office 3. Együttműködés más infrastruktúrákkal Partnerships with other infrastructures 4. Célközönség segítése Outreach 5. Irányítási szerkezet Governance

Üzemeltetési szakasz 20 tagország, mintegy 20 Centre B (számuk folyamatosan növekszik) Mit nyújt ma a CLARIN? egyszerű és fenntartható hozzáférést a digitális nyelvi adatokhoz (írott, beszélt vagy multimodális) HSS kutatóknak fejlett eszközöket a nyelvi adatok kutatására, elemzésére lehetőséget nyújt a nyelvi korpuszok és eszközök kombinálására, összehasonlítására Technikai háttér: nyelviadat-repozitóriumok, szolgáltató központok és tudásközpontok, egy egyszerű single sign-on eléréssel a részt vevő országok kutatói számára. Adatok és eszközök interoperabilitása megvalósult

Üzemeltetési szakasz A CLARIN ma számos országban tökéletesen működik Az újonnan jelentkező országokban segítik a rendszer kiépítését A meglévő korpuszok és eszközök fejlesztéséhez segítséget nyújtanak A clarin.eu oldalon elérhetőek a szolgáltatások

USER INVOLVEMENT Nagy hangsúly a felhasználók elérésén, munkájuk segítésén: mi a CLARIN, egyáltalán létezik ilyen gyűjtemény a meglévő erőforrásokat hogyan lehet használni előadások workshopok webináriumok konzorciumon belüli és nemzetközi szinten

HunCLARIN- előzmények 2008-2010 NEKIFUT Kutatási infrastruktúra regiszter HUNCLARIN Stratégiai kutatási infrastruktúra cím 2010 után NEKIFUT ejtve

HunCLARIN- előzmények Más keret, más forrás, de hasonló cél: integrálás META-NET (Multilingual Europe Technology Alliance) kutatókat, technológiai szolgáltatókat, nyelvtechnológiai felhasználókat, nyelvészeket, információs társadalom egyéb csoportjait tömörítő szervezet célja: nyelvtechnológia által támogatott többnyelvű Európa, CESAR (Central and South-east EuropeAn Resources) nyelvi korpuszok és számítógépes feldolgozóeszközök összegyűjtése, Közép- és Dél-Kelet-Európa összekapcsolása az északi és nyugati területekkel nyelvtechnológiai szinten

HunCLARIN Tagjai: MTA Nyelvtudományi Intézet BME Média Oktató és Kutató Központ BME Távközlési és Médiainformatikai Tanszék Szegedi Tudományegyetem Pázmány Péter Katolikus Egyetem Debreceni Egyetem Morphologic Kft. MTA Számítástechnikai és Automatizálási Kutatóintézet

HunCLARIN 8 tag Mintegy 40 KI általános és speciális szövegkorpusz: MNSZ, Hunglish multimodális korpusz: HuComTech nyelvi feldolgozó eszközök: HuMor, elemzőláncok: szószablya, magyarlanc, e-magyar Részvétel jelentős hazai és nemzetközi projektekben Uráli adatbázis http://www.nytud.hu/oszt/elmnyelv/urali/adatbazisok.html HungaroMars http://space.cogpsyphy.hu/alap.php?cim=mars500

CLARIN Annual Conference 2017 in Budapest

E-magyar: a HunCLARIN egy jelentős projektje számítógépes nyelvfeldolgozó-eszközök integrált, szabványos keretben szöveg- és beszédfeldolgozás szövegfeldolgozás: Szövegegység tagoló (tokenizáló) emtoken Morfológiai elemző emmorph Szótövező (lemmatizáló) emlem Egyértelműsítő (tagger) emtag Függőségi mondatelemző (dependency parser) emdep Összetevős mondatelemző (constituent parser) emcons Részleges mondatelemző (chunker) emchunk Névkifejezés elemző (named entity recognizer) emner

Együttműködések MTA TTK: Narratív pszichológia ELTE: digitális filológia MTA TK: Politikatudományi kutatások

Kilátások? A CLARIN ERIC támogatás (mobility, workshopok) Nemzeti támogatás: Ambivalens kormányzati hozzáállás Hazai CLARIN infrastruktúra Projekt alapú együttműködés

Köszönöm a figyelmet! clarin.hu varadi.tamas@nytud.mta.hu matyus.kinga@nytud.mta.hu

CLARIN-ERIC külső központok External Centres (Type E) Task: Type E centres offer CLARIN relevant services, but these services are not offered by members of CLARIN; in general these will be common infrastructure services, i.e. external centres will often be type A centres; Metadata Providing Centres (Type C) Task: Offer machine readable metadata in a stable and persistent way allowing service providers to harvest their metadata and making them browsable, searchable and combinable; Recognized Centres (Type R) Task: these centres offer resources and tools via standard web sites (or web services), but do not have funds (yet) to participate in the CLARIN infrastructure and cannot make commitments;

The HUNCLARIN Consortium Research Institute of Linguistics, MTA (Tamás Váradi) Budapest Technical University TMIT & MOKK (András Kornai, Géza Németh, Klára Vicsi) Szeged University (Veronika Vincze, Richárd Farkas) Pázmány Péter University (Gábor Prószéky) Morphologic Plc (Gábor Prószéky, László Tihanyi) Institute for Computer Science and Control, MTA (András Kornai) Institute of Cognitive NeuroScience and Psychology MTA (Tibor, Bea Ehman) Debrecen University (László Hunyadi)

Overview of Resources and Tools State of the art in 2014 in the Nekifut RI register http://corpus.nytud.hu/hunclarin/

EU és hazai helyzet Nincs jelölve még központ Magyarországra Cél: Centre B Közös platform (D-Space) Identity provider Hiányzó források, hosszú távú finanszírozás hiánya

Resources Corpora: Monolingual:Hungarian National Corpus, Hungarian Webcorpus, HunLearner, Sentiment Detection, MWE corpora etc. Parallel: Hunglish, 1984 (Multext East) Treebank: Szeged Treebank Databases: Hungarian EuroWordNet, Inflectional Databases,

Tools HUNxxx toolset (HUNalign, HUNtoken, HUNmorph, HUNtag, HUNner) HUMOR morphological analyser Magyarlánc, a complete toolchain Mazsola, verb structure extraction and browser MetaMorpho, parser

Integration of processing tools: e-magyar Interoperable Open Modular Free Complete

Joining CLARIN ERIC A breakthrough at last? Little interest by NKFIH Seems like we are left to our own resources L

Becoming CLARIN ERIC compliant Hardware infratructure is in place Single sign-on system available Running TLA, hosting Budapest Sociolinguistics Interview, BEA (huge annotated speech corpus) HUCOMTECH multimedia corpus Final repository software not decided on yet Currently most resources and tools available through e-magyar.hu or Metashare Website at clarin.hu under development

Summary Underfunded but not underresourced We are slowly getting there Thank you for your support!

CLARIN-ERIC építő szakasz A CLARIN-ERIC szervezet 2012-ben jött létre (Európai Bizottság döntése) http://eur-lex.europa.eu/legal-content/hu/txt/?uri=celex%3a32012d0136 ERIC: jogi személy Feladata: a CLARIN infrastruktúra felépítése működtetése fenntartása koordinálása nem folytat és nem is finanszíroz kutatásokat A CLARIN-ERIC-et kizárólag a részt vevő országok finanszírozzák (EB csak az alapítást) Tag lehet ország és kormányközi szervezet Magyarország 2016. augusztus 1-jén lett hivatalosan a CLARIN-ERIC tagja Jelenleg 20 tag és 2 megfigyelő státuszú ország