PureToken: egy új tokenizáló eszköz
|
|
- Elvira Pappné
- 6 évvel ezelőtt
- Látták:
Átírás
1 Szeged, január PureToken: egy új tokenizáló eszköz Indig Balázs 1 1 Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar, MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport 1083 Budapest, Práter u. 50/a indba@digitus.itk.ppke.hu Kivonat A szövegek mondatra és tokenekre bontása manapság már nem aktív terület, így a rendelkezésre álló eszközök, amelyek ezt a feladatot végzik, a karbantartás és fejlesztés hiányától szenvednek. A jelenleg rendelkezésre álló, mondatra és tokenre bontó legjobb magyar eszköz, a Huntoken fejlesztése régóta nem aktív, viszont számtalan projektben van szükség egy ilyen eszközre. A Huntoken készítésekor a kornak megfelelő technológiákat alkalmaztak a szerzők, mint például a Latin-2 karakterkódolás és a Flex lexikaielemző-generátor. Ezek a technológiák mára elavultak, és átvette a helyüket más, például a Unicode-karakterkódolás. A jelen tanulmányban bemutatunk egy eszközt, amely a Huntoken alapjaiból kiindulva és a részletes specifikációs teszteket felhasználva, azzal teljesen azonos kimenetet képes generálni, ám Unicode alapon. Bemutatunk egy olyan változatot is, amely egy beépített morfológiai elemzőt (a Humort) felhasználva kisebb méretűvé válik, viszont egy átláthatóbb megoldáson alapul. Ez a rendszer bár nyelvfüggő, de a más nyelvekre való jó minőségű kiterjeszthetőség lehetőségét is magában hordozza. Rövid távú célunk, hogy a létrehozott új eszköz sebességében és a kimenet minőségében is megegyezzen, sőt hogy meghaladja a Huntokent. Az első mérések egy kimondottan erre a célra összeállított korpusszal készülnek. 1. Bevezetés 2003-ban az első Magyar Számítógépes Nyelvészeti Konferencián bemutatták a Huntoken szabályalapú mondatra bontót és tokenizálót [1]. Az akkori mérésekből kiderült, hogy a szabályalapú módszer sokkal hatékonyabb, mint a statisztikai gépi tanuláson alapuló változatok. Akkor a program 99,03%-os hatékonyságot ért el a Szeged-korpuszon [4]. Ezzel a problémakört megoldottnak tekintette mindenki, és a program fejlesztése abbamaradt. Az azóta eltelt majdnem 10 évben az informatika és a természetesnyelv-feldolgozás is változott, a Huntoken mára majdnem minden nyelvtechnológiai alkalmazás előfeldolgozó programjává vált, pusztán a hatékonysága miatt, ezáltal egy nélkülözhetetlen eszközzé nőtte ki magát. Eközben az informatikai fejlődés sok szempontból elavulttá tette és az így jelentkező problémák áthidalása egyre több munkát okozott mindenkinek. Eljött
2 306 IX. Magyar Számítógépes Nyelvészeti Konferencia az idő, hogy aktualizálják a programot, de úgy, hogy az a jelenlegi hatékonyságát is tartsa meg. A program számtalan apró technikai változtatáson esett át és néhány újabb időközben megjelent mintát is kapott. Ezek rövid bemutatásra kerülnek a következő fejezetben. 2. Változások a Huntokenhez képest A Huntoken alapját a GNU Flex lexikaielemző-generátor adta, amely a programozási nyelvek területén egy nagy múltra visszatekintő eszköz. Az elsődleges felhasználási területe a programozási nyelvek, melyek az angol nyelvből merítenek ihletet, így a világban bekövetkező nemzetközi trendekre érzéketlen. Ez az oka, hogy nem támogatja az Unicode karakterkódolást, ami majd 10 év alatt de facto internetes szabvánnyá vált a Latin-karaktertáblák helyett. Erre irányuló fejlesztési törekvések nincsenek is tervben a kicsiny igények miatt. Ez már a Huntoken használatánál is plusz munkát eredményezett 1. A Flex alapot le kellett cserélni egy másik, hasonló programra. A választás a Quex nevű lexikaielemző-generátorra [3] esett, aminek elsődleges célkitűzése az Unicode támogatása a lexikális elemzésben. A program aktív fejlesztésnek örvend, sokan használják a tudása és a gyorsasága miatt, így kiváló új alapot teremt a Huntoken átiratának. A Quex Python-alapú elemzővel C vagy C++ forráskódot képes generálni, a Flexéhez nagyon hasonló felépítésű fájlokból. És ezzel teljesen platformfüggetlen ellentétben a GNU Flex-szel. Az egyes szűrők szükség szerint át lettek csoportosítva a következőképpen: a latin1 és clean szűrők összevonásra kerültek a clean szűrőbe a abbrev és a abbrev en szűrők összevonásra kerültek a sentbreak szűrő törlésre került az abbrev szűrőből kikerültek a nem oda való korrekciós minták a token szűrő szétszedésre került több logikai részre. Az egyes szűrők működésében is felléptek változások. A clean szűrő a lehető legtöbb entitást felismeri és visszaalakítja a Unicode megfelelőjére. Bemutatásra került egy új szűrő, az escape, amely azért felelős, hogy a mezőelválasztó karaktereket levédje olyan módon, hogy lehetőség szerint HTML-entitássá alakítsa 2. Az abbrev szűrő felhasználta az M4 makrógenerátort, illetve egy Bash scriptet a rövidítésfájlok feldolgozására és a rövidítések a Flex fájlba, mintaként történő beillesztésére. Ennek a mechanizmusnak több hibája is volt, amelyek javításra kerültek. Ezeket röviden ismertetem: A rövidítésfájlok duplikációkat tartalmaztak. Ezek kétszer kerültek be a belőlük generált mintába. A rövidítéseket tartalmazó minta végére lezáróelemként a nyug. rövidítést mindenképpen beillesztette. 1 Lásd clean és latin1 szűrők. 2 Alapesetben ez a kacsacsőr jeleket érinti.
3 Szeged, január Bizonyos mennyiségű (kb. 100-nál több) rövidítés esetén a program nem volt hajlandó lefordulni. A forrásfájl tartalmazott beégetett rövidítéseket, mint például a CD, amelyek kivételként kezelendők. (Mert gyakoribb esetben mondatvégek, és nem rövidítések.) Ez a lista nem volt bővíthető. Több különálló rövidítésfájl nem volt alkalmazható egyszerre. Ezt a feladatot az új verzióban egy Python script végzi el, a fentiek figyelembevételével. Az abbrev en szűrő egyedüli angol nyelvű szűrőként állt és csak egy tesztben és a rövidítéslistában különbözött az abbrev szűrőtől, ezért megszüntettem. Az angol nyelvű szövegek tokenizálásáról a következőkben lesz szó. Egységesítésre kerültek a szűrőkben felvett definíciók, különös tekintettel a karakterosztályok neveire. Ennek célja, hogy nyelvfüggetlenebb legyen és többnyelvű 3 környezetben is képes legyen működni néhány definíció átírásával. Az egységesítés lehetővé tette továbbá, hogy az eredeti XML-formátumtól eltérő, szabadon választott mezőelválasztó-jeleket lehessen használni, így mostantól ez a lehetőség is adott. A Unicode karaktertábla nagysága miatti szükséges változtatásként bevezettem, hogy csak egy meghatározott síkkészletet használjon a program, így a generált elemző kisebb és gyorsabb lesz. Ez a joker karakter (. reguláris kifejezés), illetve a karakterlista-negáció ( [ˆABC] kifejezés) esetén fontos, mert ezeknél nagyon megnő a generált automata állapotszáma. Ennek elkerülésére a kiválasztott Unicode-síkok uniójával el vannak metszve ezek a kifejezések, és használjuk őket a későbbiekben. Ez a Quex beépített funkcióival valósult meg. Az informatikai kifejezések között újak jelentek meg, mint például az IPv6 szabvány, vagy az ékezetes és Unicode-karaktereket tartalmazó, tetszőleges TLDre végződő doménnevek. Ezek mind jobban bekerülnek a köztudatba, így az internetcímekkel kapcsolatos mintákat kibővítettem ennek megfelelően. Így már ezeket a tokenosztályokat is felismeri. Az egységesítés során a minták átnézése, javítása, egyszerűsítése is megtörtént. Ez főleg a tokenszűrőt érinti. A változások követéséhez, a Huntokenhez mellékelt Holt lelkek című Gogol-művet is felhasználtam, amit beépítettem állandó tesztnek a rövid specifikációtesztek mellé. A tokenizálás nyelvfüggetlenségének érdekében két független verzió is készült az eredeti, csak minimális, a Quexre történő átültetéshez engedhetetlenül szükséges változtatásokat tartalmazó változat mellett, aminek célja az eredeti Huntoken funkcionalitások minél hűbb megtartása a Unicode karakterkódoláson. A további két verzió egyike tartalmazza a fent említett változásokat, illetve a nyílt tokenosztályok ragozásának elemzésénél térnek el: az egyik változat megtartja az eredeti Huntokenben használt ragozásfelismerő eljárásokat és az MSDkódolást. A másik változat egy beépülő morfológiai modulnak helyet ad, amely a beadott szó alapján meghatározza a lemmát és a címkéket. Ha más nyelven akarnánk használni a mondatra bontót, a megfelelő morfológia beépítésével erre is lenne lehetőségünk, mivel a legtöbb nyelvben már elérhető jó minőségű 3 Itt elsősorban az európai nyelvekre gondolok. Például angol, német stb.: ezek speciális szóalkotó karaktereket tartalmazhatnak.
4 308 IX. Magyar Számítógépes Nyelvészeti Konferencia morfológiai elemző, de ezt az esetet gyakorlatban nem vizsgáltuk. Opcionálisan ez a lépés kihagyható, így a tokenekre bontás elemzés nélkül hajtódik végre, lehetőséget adva az utólag külön menetben történő elemzésre. Maguknak a tokeneknek a morfológiai elemzése elvégezhető lenne a tokenizálással egy menetben, de jogi okok miatt a Humor elemzőt [2] jelenleg még nincs mód beletenni a nyílt forráskódú rendszerbe. A nyelvfüggetlenség mellett a különböző szakterületekre való könnyebb adaptálhatóság is a célok között volt. Például az orvosi szövegekben rengeteg rövidítés található, ellenben kevés az internetes cím. A Quex képességeinek köszönhetően megoldható a különböző szűrők egy programba való lefordítása, illetve a szűrőnként az elemző bemenetének pufferből történő adagolása, ezzel további új távlatokat nyitva a program szélesebb körű felhasználhatósága előtt. 3. Eredmények A cikkben bemutatott program, a PureToken egy olyan platform, nyelv- és címkekonvenció-független, Unicode-alapú mondatra bontó és tokenizáló eszköz, amely az elődjéhez képest számos kibővített funkciót tartalmaz, a kor elvárásainak megfelelően. Gyorsaságában és pontosságban ugyanazt a teljesítményt nyújtja, mint elődje, de néhány új tokenosztályt is felismer, és sokkal jobban testre szabható a működése. Az első tesztek is ezt igazolják. Egyetlen függősége a Quex- és a Python-környezet, valamint a C++ fordító. Célom, hogy széleskörű tesztelés után a visszajelzések alapján az esetleges új, vagy már a Huntokenben is meglevő hibákat javítsam, és szükség szerint karbantartást végezzek a programon, hogy minél több alkalmazási területen megállja a helyét. Köszönetnyilvánítás Köszönöm Németh Lászlónak, hogy megírta és szabadon hozzáférhetővé tette a Huntokent és hogy a fejlesztés során rendkívül hasznosnak bizonyult specifikációteszteket is írt hozzá. Köszönjük a TÁMOP B 11/2/KMR projekt részleges támogatását. Hivatkozások 1. Miháczi A., Németh L., Rácz M.: Magyar szövegek természetes nyelvi feldolgozása. In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szeged (2003) Prószéky, G., Novák, A.: Computational Morphologies for Small Uralic Languages. In: Inquiries into Words, Constraints and Contexts. Stanford, California (2005) Elérés
5 Szeged, január Csendes D., Hatvani Cs., Alexin Z., Csirik J., Gyimóthy T., Prószéky G., Váradi T.: Kézzel annotált magyar nyelvi korpusz: a Szeged Korpusz. Magyar szövegek természetes nyelvi feldolgozása. In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szeged (2003)
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény
Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola
IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők
A kibővített Magyar történeti szövegtár új keresőfelülete
A kibővített Magyar történeti szövegtár új keresőfelülete Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu A nyelvtörténeti kutatások újabb eredményei IX. 2016. április 27., Szeged Nszt
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A
Ismeretlen szavak helyes kezelése kötegelt
310 IX. Magyar Számítógépes Nyelvészeti Konferencia Ismeretlen szavak helyes kezelése kötegelt helyesírás-ellenőrző programmal Indig Balázs 1, Prószéky Gábor 1,2 1 Pázmány Péter Katolikus Egyetem, Információs
PurePos: hatékony morfológiai egyértelműsítő modul
PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink
Operációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED Reguláris kifejezések - alapok, BASH Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor
Az igekötők gépi annotálásának problémái Kalivoda Ágnes
Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás
A fordítóprogramok szerkezete. Kódoptimalizálás. A kódoptimalizálás célja. A szintézis menete valójában. Kódoptimalizálási lépések osztályozása
A fordítóprogramok szerkezete Forrásprogram Forrás-kezelő (source handler) Kódoptimalizálás Fordítóprogramok előadás (A,C,T szakirány) Lexikális elemző (scanner) Szintaktikus elemző (parser) Szemantikus
Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED BASH recap, reguláris kifejezések Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor
Bevezetés a Python programozási nyelvbe
Bevezetés a Python programozási nyelvbe 8. Gyakorlat modulok random számok (utolsó módosítás: 2017. aug. 3.) Szathmáry László Debreceni Egyetem Informatikai Kar 2017-2018, 1. félév Modulok Amint a programunk
Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás
Petőfi Irodalmi Múzeum A Digitális Irodalmi Akadémia megújuló rendszere technológiaváltás II. Partnerek, feladatok Petőfi Irodalmi Múzeum Megrendelő, szakmai vezetés, kontroll Konzorcium MTA SZTAKI Internet
Flex: csak rugalmasan!
Flex: csak rugalmasan! Kiss-Tóth Marcell http://kiss-toth.hu marcell@kiss-toth.hu Magyarországi Web Konferencia 2006 2006. március 18. tartalom bevezető Adobe Flex alternatív technológiák bevezető az Internetnek
kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED
kodolosuli.hu: Interaktív, programozást tanító portál BALLA TAMÁS, DR. KIRÁLY SÁNDOR NETWORKSHOP 2017, SZEGED A közoktatásban folyó informatika oktatásával kapcsolatos elvárások Állami szereplő: Az informatikaoktatás
AWK programozás Bevezetés
09 AWK programozás Bevezetés AWK adatvezérelt szkriptnyelv text processing, adat kiterjesztés, tagolt adatok automatizált soronkénti feldolgozása a forrásállományt soronként beolvassa és feldolgozhatóvá
Különírás-egybeírás automatikusan
Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia
Az URaLUID adatbázis bemutatása
Hatás alatt álló nyelvek Az URaLUID adatbázis bemutatása Simon Eszter MTA Nyelvtudományi Intézet 2017. január 13. 29. Finnugor Szeminárium Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január
Operációs rendszerek gyak.
Operációs rendszerek gyak. AWK programozás Hirling Dominik Szegedi Tudományegyetem AWK AWK: a pattern scanning and processing language mintaelemző-és feldolgozó nyelv bármilyen szövegből minták alapján
A Hunglish Korpusz és szótár
A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu
AWK programozás, minták, vezérlési szerkezetek
10 AWK programozás, minták, vezérlési szerkezetek AWK adatvezérelt szkriptnyelv text processing, adat kiterjesztés, tagolt adatok automatizált soronkénti feldolgozása a forrásállományt soronként beolvassa
A magyar létige problémái a számítógépes nyelvi elemzésben
A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:
Szövegbányászat és dokumentum kezelés
Szövegbányászat és dokumentum kezelés 3. Előfeldolgozás, klaszterezés A dokumentumok reprezentálása A dokumentum a szavak együttese A dokumentum rendszerben különböző szavak eltérő súlyúak a téma azonosításában
Ismeretlen kifejezések és a szófaji egyértelm sítés
Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,
OpenCL alapú eszközök verifikációja és validációja a gyakorlatban
OpenCL alapú eszközök verifikációja és validációja a gyakorlatban Fekete Tamás 2015. December 3. Szoftver verifikáció és validáció tantárgy Áttekintés Miért és mennyire fontos a megfelelő validáció és
INFORMATIKAI RENDSZER FEJLESZTÉSE. TÁMOP 4.1.2.D-12/1/KONV-2012-0013 A Szolnoki Főiskola idegen nyelvi képzési rendszerének fejlesztése
INFORMATIKAI RENDSZER FEJLESZTÉSE TÁMOP 4.1.2.D-12/1/KONV-2012-0013 A Szolnoki Főiskola idegen nyelvi képzési rendszerének fejlesztése IDEGEN NYELVI KÉPZÉSEK INFORMATIKAI TÁMOGATÁSA A TÁMOP-4.1.2.D-12/1/KONV-2012-0013
Mintaillesztő algoritmusok. Ölvedi Tibor OLTQAAI.ELTE
Mintaillesztő algoritmusok Ölvedi Tibor OLTQAAI.ELTE Mintaillesztő algoritmusok Amiről szó lesz: Bruteforce algoritmus Knuth-Morris-Pratt algoritmus Rabin-Karp algoritmus Boyer-Moore algoritmus Boyer-Moore-Horspool
Az Ómagyar Korpusz bemutatása
Az Ómagyar Korpusz bemutatása Simon Eszter 2017. január 13. 29. Finnugor Szeminárium Simon Eszter Az Ómagyar Korpusz bemutatása Az előadás vázlata 1 A projektek 2 A korpusz anyaga 3 A feldolgozás lépései
KnowledgeTree dokumentumkezelő rendszer
KnowledgeTree dokumentumkezelő rendszer Budapest, 2011. január 11. Tartalomjegyzék Tartalomjegyzék... 2 Dokumentum információ... 3 Változások... 3 Bevezetés... 4 Funkciók... 5 Felhasználói felület... 5
Enterprise extended Output Management. exom - Greendoc Systems Kft. 1
Enterprise extended Output Management exom - Greendoc Systems Kft. 1 exom - Greendoc Systems Kft. 2 Sokféle bementi adatformátum kezelése Adatok fogadása különböző csatornákon Előfeldolgozás: típus meghatározás,
Flex tutorial. Dévai Gergely
Flex tutorial Dévai Gergely A Flex (Fast Lexical Analyser) egy lexikáliselemz -generátor: reguláris kifejezések sorozatából egy C/C++ programot generál, ami szövegfájlokat képes lexikai elemek sorozatára
Autóipari vezérlőegységek aktív környezetállósági tesztelésének módszerei
Autóipari vezérlőegységek aktív környezetállósági tesztelésének módszerei Aradi Szilárd PhD témavezető: Dr. Gyenes Károly Közlekedés és járműirányítás workshop BME 2011 ISBN 978-963-420-975-1 Bevezetés
Az alábbi kód egy JSON objektumot definiál, amiből az adtokat JavaScript segítségével a weboldal tartalmába ágyazzuk.
JSON tutorial Készítette: Cyber Zero Web: www.cyberzero.tk E-mail: cyberzero@freemail.hu Msn: cyberzero@mailpont.hu Skype: cyberzero_cz Fb: https://www.facebook.com/cyberzero.cz BEVEZETÉS: A JSON (JavaScript
Az Internet jövője Internet of Things
Az Internet jövője Dr. Bakonyi Péter c. docens 2011.01.24. 2 2011.01.24. 3 2011.01.24. 4 2011.01.24. 5 2011.01.24. 6 1 Az ( IoT ) egy világméretű számítógéphálózaton ( Internet ) szabványos protokollok
Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése
Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése 1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Természetes nyelv feldolgozás 2 Tudásalapú információ-kereső rendszerek
ISO 9001 kockázat értékelés és integrált irányítási rendszerek
BUSINESS ASSURANCE ISO 9001 kockázat értékelés és integrált irányítási rendszerek XXII. Nemzeti Minőségügyi Konferencia jzr SAFER, SMARTER, GREENER DNV GL A jövőre összpontosít A holnap sikeres vállalkozásai
Operációs rendszerek. 11. gyakorlat. AWK - szintaxis, vezérlési szerkezetek UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED AWK - szintaxis, vezérlési szerkezetek Operációs rendszerek 11. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik
EuroOffice a 4. generációs platformokon
EuroOffice a 4. generációs platformokon Koleszár Kázmér, projektvezető K+F az NFÜ támogatásával Proj. azon: GOP-111-11-2011-0006 GOP-131/A-2011-0186 EuroOffice 2. dia EuroOffice a 4. generációs platformokon
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:
YANG ZIJIAN GYŐZŐ 杨子剑
YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,
A Java EE 5 plattform
A Java EE 5 platform Ficsor Lajos Általános Informatikai Tanszék Miskolci Egyetem Utolsó módosítás: 2007. 11. 13. A Java EE 5 platform A Java EE 5 plattform A J2EE 1.4 után következő verzió. Alapvető továbbfejlesztési
Nyílt forráskódú térinformatikai eszközök Dolleschall János
Nyílt forráskódú térinformatikai eszközök Dolleschall János Compet-Terra Bt. Cascadoss Magyarország SZTE Természeti Földrajzi és Geoinformatika Tanszék Cascadoss projekt Mi a Cascadoss: nemzetközi, vízesésszerű
Élő webes alkalmazások rendszerfelügyelete cím- és tartalomteszteléssel
Élő webes alkalmazások rendszerfelügyelete cím- és tartalomteszteléssel Ercsényi Gábor fejlesztőmérnök 1 2004-05-04 Bevezetés Nem megy a bót! 2 Webes szolgáltatások nagy mennyiségű generált oldal igény
Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?
Bevezetés Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések Forráskód Hibajegyzék p2p.wrox.com xiii xiii xiv xiv xvi xvii xviii
A Diagnosztikus mérések fejlesztése c. program átfogó bemutatása
DIAGNOSZTIKUS MÉRÉSEK FEJLESZTÉSE (TÁMOP 3.1.9/08/01) Csapó Benő www.staff.u-szeged.hu/~csapo A Diagnosztikus mérések fejlesztése c. program átfogó bemutatása Oktatáselméleti Kutatócsoport Diagnosztikus
Smart Strategic Planner
Smart Strategic Planner STRATÉGIAI FTTX HÁLÓZAT TERVEZŐ ÉS KÖLTSÉG ELEMZŐ ESZKÖZ távközlési hálózatok informatikai hálózatok kutatás és fejlesztés gazdaságos üzemeltetés Smart Strategic Planner Térinformatikai
Java I. A Java programozási nyelv
Java I. A Java programozási nyelv története,, alapvető jellemzői Miskolci Egyetem Általános Informatikai Tanszék Utolsó módosítás: 2007. 02. 12. Java I.: Történet, jellemzők, JDK JAVA1 / 1 Egy kis történelem
Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS)
Networkshop, 2008 Márc. 17 19., Dunaújváros Holl Erdődi: Fejlett kereső... 1 Fejlett kereső és lekérdező eszközök egy elektronikus szakfolyóirathoz (IBVS) Holl András Erdődi Péter MTA Konkoly Thege Miklós
Java II. I A Java programozási nyelv alapelemei
Java II. I A Java programozási nyelv alapelemei Miskolci Egyetem Általános Informatikai Tanszék Utolsó módosítás: 2008. 02. 19. Java II.: Alapelemek JAVA2 / 1 A Java formalizmusa A C, illetve az annak
Miért érdemes váltani, mikor ezeket más szoftverek is tudják?
Néhány hónapja elhatároztam, hogy elkezdek megismerkedni az Eclipse varázslatos világával. A projektet régóta figyelemmel kísértem, de idő hiányában nem tudtam komolyabban kipróbálni. Plusz a sok előre
Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu
VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK
Nyílt forráskódú technológiák központi és Önkormányzati környezetekben
Nyílt Forráskódú Szoftverek a Közigazgatásban konferencia Nyílt forráskódú technológiák központi és Önkormányzati környezetekben Dr. Szentiványi Gábor ügyvezető ULX Open Source Consulting & Distribution
Beérkező iratok automatizált iktatása és feldolgozása. Offisys Kft
Beérkező iratok automatizált iktatása és feldolgozása Javellák k JánosJ Offisys Kft. 2009.09.30 Dokumentum kezelés, de hogyan? Offisys Kft. Komplex megoldás üzleti célú dokumentumainak elektronikus kezelésére
Bevezetés A harmadik szoftverkrízis korát éljük! Szoftverkrízisek: 1. nincs elég olcsó: hardver, szoftver, programozó 2. nincs elég olcsó: szoftver, p
A MeMOOC online informatikai egyetem és a szoftverkrízis Dr. Kusper Gábor, EKE Dr. Nehéz Károly, ME Dr. Hornyák Olivér, ME Bevezetés A harmadik szoftverkrízis korát éljük! Szoftverkrízisek: 1. nincs elég
GPU Lab. 5. fejezet. A C++ fordítási modellje. Grafikus Processzorok Tudományos Célú Programozása. Berényi Dániel Nagy-Egri Máté Ferenc
5. fejezet A C++ fordítási modellje Grafikus Processzorok Tudományos Célú Programozása Kódtól a végrehajtásig Végrehajtás előtt valamikor létre kell jönnie az adott architektúrára jellemző bináris utasításoknak.
Operációs rendszerek. 10. gyakorlat. AWK - bevezetés UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED AWK - bevezetés Operációs rendszerek 10. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor 1 / 15 Reguláris
ELEMZŐ KAPACITÁS FEJLESZTÉSE, MÓDSZERTANI FEJLESZTÉS MEGVALÓSÍTÁSA
TÁMOP-2.4.8-12/1-2012-0001 A munkahelyi egészség és biztonság fejlesztése, a munkaügyi ellenőrzés fejlesztése ELEMZŐ KAPACITÁS FEJLESZTÉSE, MÓDSZERTANI FEJLESZTÉS MEGVALÓSÍTÁSA Előadó: Szentesi Fekete
Facebook album beillesztése az oldalba
Facebook album beillesztése az oldalba Facebook Album Fetcher modul A modulról A Facebook Album Fetcher modul teszi lehetővé, hogy a megadott facebook felhasználó albumai a drupal alapú oldalon megjelenjenek,
Hatékony iteratív fejlesztési módszertan a gyakorlatban a RUP fejlesztési módszertanra építve
Hatékony iteratív fejlesztési módszertan a gyakorlatban a RUP fejlesztési módszertanra építve Kérdő Attila, ügyvezető, INSERO Kft. EOQ MNB, Informatikai Szakosztály, HTE, ISACA 2012. május 17. Módszertanok
Dr. Sasvári Péter Egyetemi docens
A magyarországi vállalkozások Üzleti Intelligencia használatának vizsgálata Dr. Sasvári Péter Egyetemi docens II. IRI Társadalomtudományi Konferencia, 2014. április 25-26. Nové Zámky (Érsekújvár) Gymnázium
A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK
A RAKTÁRI JEGYZÉKEK SZÁMÍTÓGÉPES FELDOLGOZÁSA: ADATMODELLEZÉS ÉS SZABVÁNYOK Boross István MNL Veszprém Megyei Levéltára Juhász Zoltán Pannon Egyetem Budapest Főváros Levéltára, 2014. május 6. MÓDSZERTANI
SSADM Dokumentáció Adatbázis Alapú Rendszerek
SSADM Dokumentáció Adatbázis Alapú Rendszerek Videó-megosztó oldal Szeged, 2012. 1. Csapattagok Sipos Norbert (SINRABT.SZE) Szűcs Dávid (SZDQACT.SZE) Várkonyi Zoltán (VAZSACT.SZE) 1.1. A projekt bemutatása
A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása
A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása Előadók: Toldi Klára Vincze Andrea 1 Előzmények 1997-2002 A nemzetközi könyvtári trendek hatására a hazai könyvtárügyben is megjelenik az informatika
Alkalmazott térinformatika a területfejlesztésben
Alkalmazott térinformatika a területfejlesztésben elmélet TGMG0410-E-02 2015-2016. tanév M213-as terem 3. óra: A térinformatika nyújtotta új lehetőségek a területfejlesztésben 2016. április 4. 1. A térinformatika
ANNEX MELLÉKLET. a következőhöz: a Bizottság (EU).../... végrehajtási határozata
EURÓPAI BIZOTTSÁG Brüsszel, 2018.10.11. C(2018) 6559 final ANNEX MELLÉKLET a következőhöz: a Bizottság (EU).../... végrehajtási határozata a közszférabeli szervezetek honlapjainak és mobilalkalmazásainak
Bevezetés a számítástechnikába
Bevezetés a számítástechnikába Beadandó feladat, kódrendszerek Fodor Attila Pannon Egyetem Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék foa@almos.vein.hu 2010 október 12.
Kiszolgálók üzemeltetése. Iványi Péter
Kiszolgálók üzemeltetése Iványi Péter Linuxon a C fordító gcc Fordítás GNU Compiler Collection C, C++, Object-C, Java, Fortran, Ada nyelveket tud kezelni 42 féle rendszerre és processzorra tud kódot generálni
1. feladat: A decimális kódokat az ASCII kódtábla alapján kódold vissza karakterekké és megkapod a megoldást! Kitől van az idézet?
Projekt feladatai: 1. feladat: A decimális kódokat az ASCII kódtábla alapján kódold vissza karakterekké és megkapod a megoldást! Kitől van az idézet? 65 109 105 32 105 103 97 122 160 110 32 115 122 160
Akadálymentes weboldalkészítés dióhéjban
Akadálymentes weboldalkészítés dióhéjban Készítette: Mezei Ádám Info-kommunikációs Akadálymentességi Műhelykonferencia 2008. november 20 Mi az oka, hogy NEM akadálymentes honlapokat készítünk? 1) Nem gondolunk
Matematikai geodéziai számítások 6.
Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre
Verifikáció és validáció Általános bevezető
Verifikáció és validáció Általános bevezető Általános Verifikáció és validáció verification and validation - V&V: ellenőrző és elemző folyamatok amelyek biztosítják, hogy a szoftver megfelel a specifikációjának
REGINFO feszültség minőség mérő rendszer az E.ON Hungáriánál Szilágyi Ákos 2008. szeptember 11. A fejlesztés okai: Belső igény mérési eredmények központi tárolása, egységes felületen történő megjelenítése
Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged
Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt
Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban
Üzleti szemlélet és a magyar nyelv támogatása a többnyelvű világban Prószéky Gábor MorphoLogic & PPKE ITK www.morphologic.hu & www.itk.ppke.hu A magyar nyelv helyzete a digitális korban - MTA, 2013. január
Szombathely Város Vezetõi Döntéstámogató Rendszere VDIR-STAT. keringer@szombathely.hu
Szombathely Város Vezetõi Döntéstámogató Rendszere VDIR-STAT Miért? Az információ áramlás rendezetlen! Végrehajtási kontroll körülményes vagy hiányos! KSH adatbázis naprakészsége? Városról naprakész adatok
VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség
sallang avagy Fordítótervezés dióhéjban Sallai Gyula
sallang avagy Fordítótervezés dióhéjban Sallai Gyula Az előadás egy kis példaprogramon keresztül mutatja be fordítók belső lelki világát De mit is jelent, az hogy fordítóprogram? Mit csinál egy fordító?
Nyelv-ész-gép Új technológiák az információs társadalomban
Nyelv-ész-gép Új technológiák az információs társadalomban CESAR Csatlakozás az európai nyelvtechnológiai infrastruktúra élvonalához Lendvai Piroska piroska@nytud.hu CEntral and *Közép- és South-East EuropeAn
Iman 3.0 szoftverdokumentáció
Melléklet: Az iman3 program előzetes leírása. Iman 3.0 szoftverdokumentáció Tartalomjegyzék 1. Az Iman rendszer...2 1.1. Modulok...2 1.2. Modulok részletes leírása...2 1.2.1. Iman.exe...2 1.2.2. Interpreter.dll...3
Bisonc++ tutorial. Dévai Gergely. A szabály bal- és jobboldalát : választja el egymástól. A szabályalternatívák sorozatát ; zárja le.
Bisonc++ tutorial Dévai Gergely A Bisonc++ egy szintaktikuselemz -generátor: egy környezetfüggetlen nyelvtanból egy C++ programot generál, ami egy tokensorozat szintaktikai helyességét képes ellen rizni.
Intervenciós röntgen berendezés teljesítményszabályozójának automatizált tesztelése
Intervenciós röntgen berendezés teljesítményszabályozójának automatizált tesztelése Somogyi Ferenc Attila 2016. December 07. Szoftver verifikáció és validáció kiselőadás Forrás Mathijs Schuts and Jozef
Dr. FEHÉR PÉTER Magyarországi szervezetek digitális transzformációja számokban - Tények és 1trendek
Dr. FEHÉR PÉTER Magyarországi szervezetek digitális transzformációja számokban - Tények és 1trendek 2 Változás sebessége A gazdasági átalakulás nehezen követi a technológiai fejlődést Technológiai változás
Programzás I. - 1. gyakorlat
Programzás I. - 1. gyakorlat Alapok Tar Péter 1 Pannon Egyetem Műszaki Informatikai Kar Számítástudomány Alkalmazása Tanszék Utolsó frissítés: September 15, 2007 1 tar@dcs.vein.hu Tar Péter (PE-MIK-DCS)
Informatika Rendszerek Alapjai
Informatika Rendszerek Alapjai Dr. Kutor László Alapfogalmak Információ-feldolgozó paradigmák Analóg és digitális rendszerek jellemzői Jelek típusai Átalakítás rendszerek között http://uni-obuda.hu/users/kutor/
Tájékoztató. Használható segédeszköz: számológép
A 12/2013. (III. 29.) NFM rendelet szakmai és vizsgakövetelménye alapján. Szakképesítés azonosítószáma és megnevezése 54 523 05 Távközlési technikus Tájékoztató A vizsgázó az első lapra írja fel a nevét!
Digitális technika (VIMIAA02) Laboratórium 1
BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM VILLAMOSMÉRNÖKI ÉS INFORMATIKAI KAR MÉRÉSTECHNIKA ÉS INFORMÁCIÓS RENDSZEREK TANSZÉK Digitális technika (VIMIAA02) Laboratórium 1 Fehér Béla Raikovich Tamás,
Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint
ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS
Intelligens elektronikus szótár és lexikai adatbázis
Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002 Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés a jelenlegi helyzet: nincs az informatikai
Mesterséges Intelligencia Elektronikus Almanach
Mesterséges Intelligencia Elektronikus Almanach Dobrowiecki Tadeusz, Mészáros Tamás Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MI Almanach a projekt
Podoski Péter és Zabb László
Podoski Péter és Zabb László Bevezető Algoritmus-vizualizáció témakörében végeztünk kutatásokat és fejlesztéseket Felmértük a manapság ismert eszközök előnyeit és hiányosságait Kidolgoztunk egy saját megjelenítő
INFORMATIKAI ALAPISMERETEK
ÉRETTSÉGI VIZSGA 2005. május 20. INFORMATIKAI ALAPISMERETEK KÖZÉPSZINTŰ ÉRETTSÉGI VIZSGA Az írásbeli vizsga időtartama: 180 perc JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ OKTATÁSI MINISZTÉRIUM Megoldási útmutató I.
Nyílt forráskódú online térképi szolgáltatások fejlesztése a FÖMI-ben
Nyílt forráskódú online térképi szolgáltatások fejlesztése a FÖMI-ben Kolesár András Olasz Angéla 4. HUNAGI Budapest, 2013. április 4. Földmérési és Távérzékelési Intézet Térinformatikai Igazgatóság Áttekintés
MŰSZAKI TESZTTERVEZÉSI TECHNIKÁK STRUKTÚRA ALAPÚ, VAGY FEHÉRDOBOZ TECHNIKÁK TAPASZTALAT ALAPÚ TECHNIKÁK
MŰSZAKI TESZTTERVEZÉSI TECHNIKÁK STRUKTÚRA ALAPÚ, VAGY FEHÉRDOBOZ TECHNIKÁK TAPASZTALAT ALAPÚ TECHNIKÁK MUNKAERŐ-PIACI IGÉNYEKNEK MEGFELELŐ, GYAKORLATORIENTÁLT KÉPZÉSEK, SZOLGÁLTATÁSOK A DEBRECENI EGYETEMEN
Automatikus tesztgenerálás modell ellenőrző segítségével
Méréstechnika és Információs Rendszerek Tanszék Automatikus tesztgenerálás modell ellenőrző segítségével Micskei Zoltán műszaki informatika, V. Konzulens: Dr. Majzik István Tesztelés Célja: a rendszerben
1. Jelölje meg az összes igaz állítást a következők közül!
1. Jelölje meg az összes igaz állítást a következők közül! a) A while ciklusban a feltétel teljesülése esetén végrehajtódik a ciklusmag. b) A do while ciklusban a ciklusmag után egy kilépési feltétel van.
Digitális technika (VIMIAA02) Laboratórium 1
BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM VILLAMOSMÉRNÖKI ÉS INFORMATIKAI KAR MÉRÉSTECHNIKA ÉS INFORMÁCIÓS RENDSZEREK TANSZÉK Digitális technika (VIMIAA02) Laboratórium 1 Fehér Béla Raikovich Tamás,
Digitális technika (VIMIAA02) Laboratórium 3
BUDAPESTI MŰSZAKI ÉS GAZDASÁGTUDOMÁNYI EGYETEM VILLAMOSMÉRNÖKI ÉS INFORMATIKAI KAR MÉRÉSTECHNIKA ÉS INFORMÁCIÓS RENDSZEREK TANSZÉK Digitális technika (VIMIAA02) Laboratórium 3 Fehér Béla Raikovich Tamás,