ÉRTELMEZŐ ALGORITMUSOK KIDOLGOZÁSA ÉS ALKALMAZÁSUK MAGYAR NYELVŰ KLINIKAI DOKUMENTUMOKRA
|
|
- Marika Kissné
- 8 évvel ezelőtt
- Látták:
Átírás
1 NORMÁTÓL ELTÉRŐ (ZAJOS) SZÖVEGEKET ÉRTELMEZŐ ALGORITMUSOK KIDOLGOZÁSA ÉS ALKALMAZÁSUK MAGYAR NYELVŰ KLINIKAI DOKUMENTUMOKRA Doktori értekezés tézisei Siklósi Borbála Roska Tamás Műszaki és Természettudományi Doktori Iskola Pázmány Péter Katolikus Egyetem, Információs Technológiai és Bionikai Kar Témavezető: Dr. Prószéky Gábor 2015
2
3 Normától eltérő (zajos) szövegeket értelmező algoritmusok kidolgozása és alkalmazásuk magyar nyelvű klinikai dokumentumokra A legtöbb kórházban az orvosi feljegyzések tárolása csupán archiválás, illetve az egyes esetek dokumentálása céljából történik. Az így felhalmozódott adattömegek felhasználása jelenleg csupán az egyes betegek kórtörténetének visszakeresésére korlátozódik. A nyelvtechnológia, a számítógépes ontológiák és a statisztikai szövegfeldolgozó algoritmusok lehetővé teszik a folyó szövegekben rejlő összefüggések, rejtett struktúrák felfedését, a feljegyzésekben található információhalmaz elérését, abból tudás kinyerését. Angol nyelvterületen az ilyen irányú kutatások előrébb járnak, azonban alkalmazhatóságuk a magyar nyelv sajátosságai miatt sokszor nem egyértelmű, továbbá számos olyan nyelvi erőforrás, ami az angol nyelvre hozzáférhető, magyarra nem létezik. Az orvosi dokumentumok feldolgozása során nem csak a magyar nyelv nyelvtani sajátosságait kell figyelembe venni, hanem az orvosi szövegekre különösen jellemző, olykor hiányos szintaktikai szerkezeteket, rövidítéseket, idegen kifejezéseket is kezelni kell. Ezen tapasztalatok alapján fogalmazódott meg az igény, hogy a magyar nyelvű klinikai dokumentumok feldolgozását a más nyelveken már létező alkalmazások adaptálása, továbbfejlesztése és alkalmazhatóvá tétele révén aktívan kutatott területté tegyük, tekintettel a kutatás várható hasznára.
4
5 1 Bevezetés Az orvosi szövegek feldolgozása a nyelvtechnológia egyik egyre népszerűbb feladata. Angol nyelvre több olyan módszer létezik, ami orvosbiológiai dokumentumokból bizonyos információk kinyerésére alkalmazható. Így ezek az információk hozzáférhetővé válnak a kutatók és az orvosok számára. Mivel azonban ezek az információk nem univerzálisak, hanem az orvosi protokollok, szokások és a helyi közösségek sajátosságai miatt országonként vagy akár területenként is eltérőek lehetnek, ezért nem elegendő az angol (vagy más) nyelven kinyert információk átvétele. Ezek kinyeréséhez az adott nyelven létrejött szövegek feldolgozása szükséges. Meystre et al. (2008) rávilágít arra, hogy fontos különbséget tenni a klinikai és az orvosbbiológiai szövegek között. A klinikai dokumentumok kórházakban jönnek létre, a mindennapi esetek dokumentálása céljából. Ezek minősége messze elmarad az orvosbiológiai cikkek minőségétől, melyekkel szintén sok nyelvtechnológiai kutatás foglalkozik. Az elsősorban angol nyelven írt orvosbiológiai cikkek a tudományos folyóiratokban, könyvekben, kötetekben megjelenő tanulmányok. Ezek nyelvezete követi a hivatalos normákat és helyesírási szabályokat (Sager et al., 1994; Meystre et al., 2008). Ezzel szemben a klinikai dokumentumok olyan strukturálatlan szövegek, amelyek gyakran sietve, a helyesírás ellenőrzése nélkül jönnek létre. Így ezek a szövegek, amik eleve a latin, az angol és a helyi nyelv (esetemben a magyar) sajátos keverékét használják, tele vannak elírásokkal és egyedi szóalakokkal (Siklósi et al., 2012, 2013). Jellemző rájuk továbbá a rövidítések igen nagy aránya, amiket sok esetben szintén minden norma figyelmen kívül hagyásával alkalmaznak a dokumentumok lejegyzői. Gyakran előfordul, hogy teljes állítások, akár mondatok, is csupán rövidített szóalakokból állnak (Barrows et al., 2000). Jellemző továbbá, hogy keletkezésük során ezeknek a klinikai dokumentumoknak a címzettje általában az azt leíró orvos maga, tehát az eredeti célját nem befolyásolja a sajátos nyelvezet, egyedi rövidítések, utalások használata. Az egyes betegek kórtörténetének rögzítése mellett, számos egyéb célra is felhasználhatóak az ezekben a kórlapokban implicit tárolt információk. Ezek kinyerésének előfeltétele azonban egy, az állításokat és tényállásokat hatékony tároló reprezentáció létrehozása. A klinikai dokumentumok feldolgozása, azok tartalmi és nyelvi sajátosságai miatt tehát komoly kihívást jelent. Jelen dolgozatban bemutatott kutatói célkitűzésem a magyar nyelvű klinikai dokumentumok előfeldolgozására irányuló módszerek kidolgozása volt, melyek lehetővé teszik egy olyan reprezentáció létrehozását, melyek alapján a szövegek mögött rejlő implicit összefüggések is kinyerhetővé válnak. Minden szövegfeldolgozó algoritmus teljesítménye függ az általa feldolgozott szöveg eredeti minőségétől. Helyes és releváns információ csak akkor nyerhető ki, ha létezik. Célom
6 2 1. Bevezetés az volt, hogy a klinikai kórlapok zajos és torz állapotából egy olyan alak jöjjön létre, ami alkalmas további feldolgozási szintek bemeneteként való felhasználásra és az orvosok által megfogalmazni szándékozott eredeti tartalom visszaállítására. Két fő megközelítés létezik a klinikai dokumentumok kezelésére (Meystre et al., 2008). Az első a szabály alapú algoritmusok alkalmalzása. Ezek általában kicsi, domain-specifikus módszerek, amiknek a létrehozása igencsak idő-, és erőforrásigényes, viszont precíz eredmények várhatók tőlük. A másik lehetőség a statisztikai algoritmusok alkalmazása. Ezek a módszerek egyre elterjedtebbek, azonban hátrányuk, hogy nagy méretű tanítóanyag szükséges ahhoz, hogy kielégítő eredményt nyújtsanak. A klinikai kórlapok esetén ennek létrehozása nem csak mennyiségi, de etikai kérdést is jelent. Továbbá, felügyelt tanulási algoritmusok esetén kézi annotációra is szükség van, ami a kórlapok feldolgozása esetén mind nyelvészeti, mind orvosi kompetenciát igényel. Szükség lehet még a feldolgozás során külső, domain-specifikus lexikai erőforrásokra is (ontológiák, tezauruszok), amik szintén kézi ellenőrzéssel készülnek. Így, bár a statisztikai algoritmusok betanítása egyszerűbb, az olyan nyelvek esetén, mint a magyar, ahol kevés külső erőforrás áll rendelkezésre, illetve az adatmennyiség is kevés, több emberi munkát igényel ez a megközelítés is. A meglévő eszközök adaptálásának támogatására és strukturált erőforrások létrehozásának előkészítése érdekében magyar nyelvű szemészeti kórlapokból álló korpuszt vizsgáltam. Kutatásaim során elsősorban statisztikai módszereket alkalaztam, melyek során a nyers szöveget használtam. A létrehozott modulok együttes, illetve tetszőleges kombinációjú, alkalmazása, illetve a dokumentumokból kinyert félig-strukturált információk lehetővé teszik a korpusz hatékony felhasználását.
7 2 Az új tudományos eredmények összefoglalása A klinikai kórlapok minősége sokkal rosszabb, mint bármilyen általános nyelvezetű szövegé. Jelen kutatás célja ezeknek a zajos szövegeknek egy normalizált reprezentációját létrehozó algoritmusok kidolgozása, melyek a további feldolgozási lépések számára megfelelő inputot állítanak elő az eredeti szövegekből. Az alkalmazott módszerek elsősorban statisztikai algoritmusok, melyek (külső erőforrások hiánya és a dokumentumlétrehozás szabványainak figyelmen kívül hagyása miatt) magában a korpuszban lévő információt használják fel az egyes előfeldolgozási lépések megvalósításához. 2.1 Reprezentációs séma Annotált korpuszok tárolására bevett szokás az XML struktúra használata. A nyers klinikai dokumentumok szerkezetét két szinten definiáltam. Először az egységek meghatározása egy egyszerű szabály alapú mintaillesztő eljárással történt, mely a rekordok szemmel is látható tagolására épül. Így a folyó szövegekben meglévő formázási elemeket transzformáltam a szerkezetet meghatározó jellemzőkké. Az így kapott struktúra jól elkülöníti a dokumentumok egyes részeit, azonban korántsem elegendő ahhoz, hogy a szöveges részek önállóan kezelhetőek legyenek. Ezért a már elkülöníthető, valóban szöveges információt tartalmazó egységek kifinomultabb reprezentációját valósítottam meg. Így minden mondat minden szava külön egység, ahol a szavakhoz, mondatokhoz tatozó további kiegészítő információk tárolására is lehetőség van úgy, hogy ezek száma rugalmasan bővíthető, illetve minden egység egyedileg azonosítható. Kiegészítő információk a kiindulási sémában például az eredeti szóalak mellett a javított szóalak, a szótő, a szófaj, névelem típusa (ha része annak), rövidítés-e, és ha igen, akkor annak feloldása. Ezen a ponton a szöveges tartalom, ami eredetileg több különböző tartalmi szekcióból áll, egy content címke alatt szerepelt. Ezek a részek azonban több alcím alá besorolható részt tartalmaznak, mint pl. fejléc, diagnózisok, beavatkozások, státusz, műtét, anamnézis, stb. Ezek tartalma is jelentősen eltérő, ezért a feldolgozás során is érdemes külön kezelni a különböző szekcióba tartozó állításokat. Ezért megvalósítottam egy olyan módszert, melynek segítségével az egyes állítások külön-külön kategóriákba kerültek besorolásra. Ehhez először a dokumentumok formázása alapján kinyerhető címkéket definiáltam. A második lépésben az ezekkel a címkékkel ellátott sorokat használtam tanítóanyagként a címkézetlen sorok
8 4 2. Az új tudományos eredmények összefoglalása kategorizálását megvalósító tf-idf súlyozott koszinusz hasonlóságmetrikát használó algoritmus során. 1. TÉZIS: Definiáltam egy rugalmas reprezentációs sémát magyar nyelvű klinikai dokumentumok tárolására és megvalósítottam egy algoritmust, ami az eredeti dokumentumokat átalakítja ennek a sémának megfelelően. Kapcsolódó publikációk: 1, 4, 10, 16, Automatikus helyesírás-javítás Mivel ezek a szövegek egyrészt mindenféle kontroll (pl. helyesírás-ellenőrző) alkalmazása nélkül készültek, másrészt az adott szövegtípusban nagyon magas arányban fordulnak elő a köznapi nyelvhasználattól idegen szóalakok: latin szavak, rengeteg rövidítés, gyógyszernevek, amelyeknek a helyesírására vonatkozó normákkal a szövegek íróinak nagy része nyilvánvalóan nincs tisztában, az ilyen szövegeknek a javítása nem könnyű feladat. A megvizsgált klinikai szövegekben jellemzően jelen vannak a hivatalos normától eltérő használatból fakadó, de következetesen elkövetett hibák, a véletlen melléütések, a következetlen szóhasználat, illetve az olyan többértelmű elírások, melyek helyességének megítélése még orvosi szakértelemmel sem egyértelmű (pl. elírt rövidítések). Emellett jellemző még az általános helyesírás-ellenőrzés során is felmerülő további probléma is: önmagukban helyes, de az adott környezetben téves szóalakok is előfordulnak. A fenti hibajelenségek mindegyikére jellemző továbbá, hogy orvosonként, vagy akár a szövegeket lejegyző asszisztensenként is változóak a jellemző hibák. Így elképzelhető olyan helyzet, hogy egy adott szót az egyik dokumentum esetén javítani kell annak hibás volta miatt, egy másik dokumentumban azonban ugyanaz a szóalak egy sajátos rövidítés, melynek értelmezése nem egyezik meg a csupán elírt szó javításával. A feladat másik nehézségét az jelentette, hogy egyáltalán nem állt rendelkezésünkre nagyméretű, helyesen írt klinikai korpusz, ami alapján elő tudtunk volna állítani a javításhoz használható hibamodelleket. Megvalósítottam egy rendszert, ami a helyesírási hibák felismerése és javítása során a szövegkörnyezetet is figyelembe veszi. A rendszer a statisztikai gépi fordítás (SMT) módszereit, és egy szóalapú javaslatgeneráló által javasolt jelöltlistát használ. A rendszer paraméterezhetőségének köszönhetően, az aktuális feladatra könnyen optimalizálható, az eredmény pedig az orvosi szövegeknek egy (feltételezett) normához az eredetinél jóval közelebb álló formája A szóalapú javaslatgeneráló rendszer Először egy szóalapú rendszert implementáltam, ami egyedülálló szavakhoz generál javításjelölteket különböző szólisták, gyakorisági adatok és egy lineáris rangsolorás alapján.
9 2.2. Automatikus helyesírás-javítás 5 A tokenizálás után egy stopword-lista és egy rövidítéslista alapján kiszűrtük azokat a szavakat, amelyekre nem hajtunk végre javítást. A többi szóalak mindegyikéhez létrejön egy javaslathalmaz, mely az egy Levenshtein távolságra lévő szóalakokat, illetve a morfológia (Prószéky and Kis, 1999; Novák, 2003) által generált lehetséges javaslatokat rangsorolva tartalmazza. A rangsorolás alapját a korpuszból és általános, illetve orvosi szótárakból épített modellek és a morfológia által együttesen meghatározott tényező képezi. Mivel minden szóalakhoz létrejönnek javaslatok, nem csak azokra, amiket a morfológia rossznak ítél, ezért azt az információt, hogy az eredeti alakot a morfológia elfogadja-e, a javaslatok rangsorolásánál kell figyelembe venni. A rangsorolás végén a lehetőségek közül az első öt javaslat a lehetséges javítások halmaza. Amennyiben az első és a második helyezett között elég nagy különbség van, akkor az első javaslat automatikusan elfogadható helyes javításnak. A korpusz sajátos jellegének figyelembe vétele miatt - az előzetes feltételezésnek megfelelően - a meglévő korpuszra épülő modellek magasabb súllyal való figyelembe vétele, a morfológiával kiegészítve hozta a legjobb eredményt. A javaslatok sorrendjéről elmondható, hogy amikor nem az első eredmény tartalmazza a helyes alakot (az esetek kb. fele), akkor az első 5 javaslatban az esetek 99,12%-ban fellelhető a helyes szóalak Statisztikai gépi fordítás alkalmazása hibajavításra Fontos azonban, hogy a rendszer képes legyen a generált javaslatok közül a valóban helyeset automatikusan kiválasztani. A legjobb javítás kiválasztásához kevésnek bizonyult a kizárólag morfológiára és különböző szóstatisztikákra épülő rangsorolás. Az automatikus javítás pontosságának növeléséhez szükséges az egyes szavakhoz tartozó szövegkörnyezet figyelembevétele is. E két követelmény alkalmazására a statisztikai gépi fordítás területén széles körben alkalmazott Moses keretrendszert (Koehn et al., 2007) alkalmaztam. A fordítás során forrásnyelvnek az eredeti hibás szöveget tekintem, míg a célnyelv ennek javított formája. Ebben az esetben a rendszer bemenete a hibás mondat: E = e 1, e 2... e k, melynek megfelelő javított mondat a C = c 1, c 2... c k a várt kimenet. A helyesírás-javító rendszer zajos csatornamodellként tehát úgy fogalmazható meg, hogy az eredeti üzenet a helyes mondat, ami helyett a csatornán átért jel a zajos, azaz hibás mondat. Így a javítás az a Ĉ mondat lesz, melyre a P (E C)P (C) Ĉ = argmaxp (C E) = argmax P (E) (2.1) feltételes valószínűség a maximális. Mivel P(H) értéke állandó, ezért a nevező elhagyható, így a számlálóban lévő szorzat a fordítási- és nyelvmodellből számított statisztika alapján számítható. Ezeket a modelleket a hagyományos statisztikai gépifordító-rendszerek esetén a forrás- és célnyelvű párhuzamos korpuszból számolt valószínűségek képezik. Ilyen korpusz azonban
10 6 2. Az új tudományos eredmények összefoglalása az orvosi szövegek esetében nem áll rendelkezésre, ezért a fordítási modellt a korábban létrehozott rendszer rangsorolásához használt számítási értékek valószínűségekké konvertálása képezi. A szövegkörnyezet figyelembevétele érdekében pedig a SRILM eszköz (Stolcke et al., 2011) segítségével létrehozott nyelvmodell módosítja a fordítás során kapott eredményeket. A gépi fordításon alapuló, szövegkörnyezetet is figyelembe vevő rendszer teljesítménye felülmúlja a szóalapú rendszer teljesítményét, így alkalmasabbnak bizonyult a helyesírási hibák automatikus javítására. 2. TÉZIS: Létrehoztam egy módszert, a sok idegen kifejezést és rövidítést tartalmazó, egyedi nyelvhasználattal írt magyar nyelvű klinikai szövegekben nagy gyakorisággal előforduló helyesírási hibák automatikus javítására. Megmutattam, hogy a statisztikai gépi fordítás módszerei, a szövegkörnyezetért felelős nyelvmodellel alkalmazva, jól teljesítenek ebben a feladatban. Kapcsolódó publikációk: 1, 2, 6, 16, Rövidítések felismerése és feloldása A klinikai dokumentumokban előforduló rövidítések önmagukban sokszor többértelműek, nem csak a jelentésük, hanem a dokumentumokban előforduló változatos alakjuk miatt is (például: o.sin./o sin/o.s./os/os, stb.). Többértelműség fakad továbbá az egytagú rövidítések során azok számtalan feloldási lehetőségéből is (például: o./p./f., stb.). A reguláris kifejezések segítségével megfogalmazott szabályok alapján felismert rövidítéseket tehát azok környezetében vizsgáltam. A szabályok megfogalmazása során figyelembe kellett venni a rövidítések gyakori normától eltérő használatát. A végződést jelölő pont általában hiányzik, a kis- és nagybetűk használata változatos, az összetett kifejezések rövidítésére több minta is található. Egyetlen rövidítésnek tekintettem azokat a többtagú láncolatokat, amelyeket nem tör meg egyetlen teljes szóalak sem. Ezekben az egységekben az önmagukban szinte értelmezhetetlen, sokszorosan többértelmű (tipikusan egybetűs) rövidítések feloldási lehetőségeinek köre jelentősen csökken. A feloldás során célom az volt, hogy az így kapott több tagú rövidítéssorozatok optimális felbontását megtalálva, annak minél több tagja illeszthető legyen a felhasznált lexikonokban található kifejezésekre, illetve a továbbfejlesztett algoritmus során magára a korpuszra. A feloldás során három módszert vizsgáltam. Az első esetben csak a korpuszban kerestem az adott rövidítés lehetséges feloldásait, illetve annak az összes lehetséges felosztására illeszthető olyan kifejezéseket, amelyekben a rövidített tagok kifejtett alakja szerepel. Ebben az esetben nem támaszkodtam semmilyen külső erőforrásra. A második esetben kétféle külső lexikont használtam a korpuszban való keresés helyett. A magyar nyelven elérhető orvosi szótárak és a BNO-kódrendszer alapján az általam
11 2.3. Rövidítések felismerése és feloldása 7 vizsgált szemészeti részek kiválasztásával épült szólistákat, illetve egy szakértő bevonásával készített korpuszspecifikus listát használtam. A megtalált rövidítésláncolatok összes lehetséges felbontásából generált reguláris kifejezéseket illesztve ezekre a lexikonokra kerestem meg a lehetséges feloldásokat, melyeket a lefedettség és az egyes fragmentumok hossza alapján számított pontszám alapján rangsoroltam. A legmagasabb pontszámot elért javaslatot fogadtam el feloldásként. A harmadik esetben a két módszert együttesen alkalmaztam: a felismert rövidítésekre először a korpuszban kerestem illeszkedő mintát, ezután alkalmaztam a lexikont, ami a fennmaradó részek feloldására szolgált csupán. A rangsoroláshoz használt pontszámok számítása során a korpusz-gyakoriságot is figyelembe vettem az egyes rövidítéseknél. Így egyrészt nőtt a rendszer pontossága az in-domain feloldások biztosításával. Másrészt pedig a minőség sokkal kisebb romlása mellett csökkenthető volt a kézzel épített lexikon szerepe, ami a más szakterületekre való alkalmazhatóság szempontjából fontos lehet. A kiértékelés során a teljes (több szavas) rövidítések minőségére, illetve a tokenszintű feloldás minőségére nézve mértem az egyes módszerek teljesítményét. Eredményeim azt mutatják, hogy az előre definiált lexikonok és a korpusz kombinált használatán alapuló feloldás csökkentett méretű kézzel készült lexikon használatakor is jól teljesít, míg a korpusz bevonása nélkül a saját lexikon csökkentése radikális teljesítménycsökkenéssel jár. Megmutattam, hogy a rövidítések felismerése és feloldása során a korpusz mint elsődleges forrás önmagában ugyan nem elégséges a feladat megoldására, de a szakterületnek megfelelő feloldások biztosítása miatt jelentősen javítja a rövidítésfeloldó rendszer minőségét. Ez a rövidítések feloldása során 96.5%-os f-mértéket, az egytagú rövidítések feloldása során 80.88%-os, míg a többtagú rövidítéssorozatok esetén 88.05%-os f-mértéket jelent. 3. TÉZIS: Megvalósítottam egy algoritmust magyar nyelvű klinikai szövegekben található rövidítések felismerésére és feloldására, melynek során a kézzel készített lexikon mellett nagyobb hangsúllyal vettem figyelembe magát az orvosi korpuszt. 3.a TÉZIS: Megmutattam, hogy a többértelmű rövidítések rövidítéssorozatok tagjaként könnyebben értelmezhetőek, továbbá egy szűk szövegkörnyezet figyelembe vétele is hozzájárul a feloldás pontosságához. 3.b TÉZIS: Megmutattam, hogy a rövidítések feloldása során egy domain-specifikus lexikon felhasználása szükséges, azonban ez kezelhető méretű és ennek összetétele a korpusz alapján meghatározható. Kapcsolódó publikációk: 1, 7, 12, 13, 14
12 8 2. Az új tudományos eredmények összefoglalása 2.4 A klinikai dokumentomok félig-struktúrált reprezentációja A klinikai dokumentumok nyelvezete egy alnyelvet képez, mind a tartalmát, mind a nyelvhasználatot illetően. Ezeknek a szövegeknek a zajos volta és a magyar nyelvű lexikai erőforrások hiánya megnehezíti a más nyelvekre bevált módszerek alkalmazását a szövegre jellemző releváns kifejezések azonosítására. A használható ontológiák és fogalmi rendszerek létrehozása általában szakértők által, kézzel történik, de automatikus módszerekkel segíthető ez a munka. Megmutattam, hogy a korpuszra épülő statisztikai módszerek jól teljesítenek többszavas kifejezések felismerése és disztribúciós modellek építése során. Ezeket az orvosi korpuszra alkalmazva, egy olyan kezdeti fogalmi rendszert hoztam létre, mely a további emberi elemzést megkönnyíti, illetve a dokumentumok normalizálásában felhasználható Többszavas kifejezések kinyerése A klinikai nyelvben (bármely más szaknyelvhez hasonlóan) gyakoriak az olyan többszavas kifejezések, melyek együtt jelölnek egy fogalmat. Mivel olyan releváns információk jelenhetnek meg ilyen formában, mint a betegségek, kezelések, testrészek neve, ezért fontos ezek azonosítása. Az ilyen kifejezések azonosítására nem elegendő egy általános lexikon, hiszen vannak olyan kifejezések, melyek az általános nyelvben nem feltétlenül tartoznak össze. Például a szem szó, mint testrész, a szemészeti szövegekben önmagában nem sok információt tartalmaz, viszont a bal szem, jobb szem, mindkét szem kifejezések már konkrétan meghatározzák a dokumentumban leírt jelenségek pontos helyét. Éppen emiatt a szemészeti korpuszban a szem szó önmagában nem is gyakran fordul elő. Az ilyen kifejezések felismerésére tehát jól alkalmazható a kölcsönös információ (mutual information) és a kollokációk vizsgálatán alapuló módszerek, melyek éppen a korpuszbeli előfordulások alapján definiálhatóak. Ezeknek a módszereknek a többszavas szakkifejezések felismerésére való alkalmazását Frantzi et al. (2000) foglalja össze, majd az egymásba ágyazott kifejezések problémájára is megoldást nyújtó c-value módszert ismerteti. Ennek a c-value algoritmusnak egy módosított változatát használtam. Először egy nyelvi szűrőt alkalmaztam annak érdekében, hogy a kifejezésjelöltek listáján csak nyelvtani szempontból is helyes kifejezések szerepeljenek. A megengedett kifejezések formája a következő: (F N ADJ IGE OKEP IGE MIB) + F N Ez a minta biztosítja, hogy egyrészt csak főnévi csoportok legyenek a jelöltek között, másrészt kizárja a gyakori kifejezéstöredékeket is. Miután az összes, a fenti mintára illeszkedő n-gramot kigyűjtöttem (1 < n < 10), mindegyikre meghatároztam a hozzá tartozó c-value-t, ami az adott n-gram kifejezés voltára utaló mérőszám. Ez az érték négy komponens alapján határozható meg: a kifejezésjelölt gyakorisága;
13 2.4. Semi-structured representation of clinical documents 9 annak gyakorisága, hogy hányszor fordul elő hosszabb kifejezés részeként; az ilyen, hosszabb kifejezések száma; és a kifejezés hossza. Ezeket a statisztikákat a korpusz alapján lehet meghatározni. A c-value számítását végző algoritmus részletei Frantzi et al. (2000)-ben találhatóak meg. 4. TÉZIS: Megmutattam, hogy az egyszerű nyelvi szűrővel kiegészített korpuszalapú módszerek jól alkalmalzhatóak többszavas kifejezések kinyerésére magyar nyelvű klinikai szövegekben. Kapcsolódó publikációk: 1, 4, 5, A klinikai korpusz disztribúciós viselkedése A releváns kifejezések csoportosításához szükség van egy hasonlósági metrikára is, ami két kifejezés jelentésbeli távolságát határozza meg. Erre szintén olyan nem felügyelt módszert alkalmaztam, amely a hasonlóságokat nem egy külső erőforrás, ontológia alapján határozza meg, hanem a kifejezések korpuszbeli előfordulásai, az adott korpuszban való használatuk alapján. A disztribúciós szemantika lényege, hogy a szemantikailag hasonló szavak hasonló környezetben fordulnak elő. Tehát két szó jelentésének hasonlósága meghatározható a környezetük hasonlósága alapján. A szavak környezetét olyan jellemzőhalmazokkal reprezentáltuk, ahol minden jellemző egy relációból (r) és az adott reláció által meghatározott szóból (w ) áll. Ezek a relációk más alkalmazásokban általában függőségi relációk, azonban a klinikai szövegekre ilyen elemzés a zajos mivoltuk miatt nem végezhető el kellően jó eredménnyel. Carrol et al. Carroll et al. (2012) szintén klinikai szövegekre alkalmazva csupán a vizsgált szó meghatározott méretű környezetében előforduló szavak lexikai alakjának felhasználásával építettek ilyen szemantikai modellt. Minden egyes jellemzőhöz meghatároztuk a korpuszbeli gyakoriságát. Ezekből a gyakoriságokból határozható meg a (w,r,w ) hármas információtartalma (I(w,r,w )) maximum likelihood becsléssel. Ezután a két szó (w 1 és w 2 ) közötti hasonlóságot a következő metrikával számoltam Lin (1998) alapján: SIM(w 1, w 2 ) = (I(w 1, r, w) + I(w 2, r, w)) (r,w) T (w 1 ) T (w 2 ) I(w 1, r, w) + (r,w) T (w 1 ) (r,w) T (w 2 ) I(w 2, r, w) ahol T(w) azoknak az (r,w ) pároknak a halmaza, ahol az I(w,r,w ) pozitív. Ezzel a metrikával bármely két kifejezés hasonlósága meghatározható. A módszer alkalmazhatóságának vizsgálata érdekében azonban egyelőre csak főnevekre és többszavas (nominális) kifejezésekre alkalmaztam.
14 10 2. Az új tudományos eredmények összefoglalása Az eredmények rávilágítanak arra, hogy a kifejezések közötti hasonlósági értékek tükrözik azok valós kapcsolatát. Ezért ezt a hasonlósági metrikát felhasználtam egy fogalmi hierarchia építésére. Ezt agglomeratív klaszterezési algoritmussal valósítottam meg, ahol az egyes kifejezéseket az összes többi kifejezéstől való távolságukból álló vektor reprezentálta. Az eredményül kapott rendszerezés egyrészt felhasználható egy orvosi ontológia kiindulásaként. Másrészt, mivel a klaszterezés során minden csomópont külön egyedi azonosítót kapott, ezért ezeket az eredeti szövegbe behelyettesítve, a dokumentumok egy magasabb szintű, absztrakt reprezentációja jön létre. 5. TÉZIS: Megvalósítottam a magyar nyelvű klinikai korpusz disztribúciós szemantikai modelljét. Az ebből a modellből levezetett hasonlósági metrika alapján létrehoztam a korpuszban szereplő releváns kifejezések hierarchikus rendszerét. 5.a TÉZIS: A megvalósított módszer felhasználásával automatikusan létrehoztam az orvosi (szemészeti) kifejezések egy rendszerét, melynek kifinomultsága a paraméterek változtatásával könnyen állítható. A létrejött fogalmi rendszer egy szakértők által, kézzel létrehozott ontológia alapja lehet. 5.b TÉZIS: Megmutattam, hogy a fogalmi rendszerezés alkalmas az eredeti dokumentumok absztrakt szintre emelésére, valamint releváns minták felfedezésére a fogalmi hierarchia csomópontjaihoz rendelt egyedi azonosítók felhasználásával. Kapcsolódó publikációk: 1, 4, 5, 11, 14
15 3 A szerző publikációi Folyóiratpublikációk 1 Borbála Siklósi, Attila Novák, Gábor Prószéky (2016): Context-aware correction of spelling errors in Hungarian medical documents, Computer Speech & Language, Vol.35, pp , ISSN Borbála Siklósi, Attila Novák, György Orosz, Gábor Prószéky (2014): Processing noisy texts in Hungarian: a showcase from the clinical domain, Jedlik Laboratories Reports, Vol. II, no.3, pp. 5-62, ISSN László János Laki, Attila Novák, Borbála Siklósi, György Orosz (2013): Syntax-based reordering in phrase-based English-Hungarian statistical machine translation. International Journal of Computational Linguistics and Applications, Vol. 4 no. 2. pp , ISSN Könyvfejezetek 4 Borbála Siklósi (2015): Clustering Relevant Terms and Identifying Types of Statements in Clinical Records, In: A. Gelbukh (Ed.), Lecture Notes in Computer Science Volume 9042: Computational Linguistics and Intelligent Text Processing Springer International Publishing, Berlin Heidelberg. Part II pp ISBN Borbála Siklósi, Attila Novák (2014): Identifying and Clustering Relevant Terms in Clinical Records Using Unsupervised Methods. In: Besacier, L.; Dediu, A.-H. and Martín-Vide, C. (Eds.), Lecture Notes in Computer Science Volume 8791: Statistical Language and Speech Processing Springer International Publishing, Berlin Heidelberg. pp ISBN
16 12 3. A szerző publikációi 6 Borbála Siklósi, Attila Novák, Gábor Prószéky (2013): Context-Aware Correction of Spelling Errors in Hungarian Medical Documents. In: Adrian-Horia Dediu, Carlos Martín-Vide, Ruslan Mitkov, Bianca Truthe (Eds.), Lecture Notes in Computer Science Volume 7978: Statistical Language and Speech Processing Springer, Berlin Heidelberg. pp ISBN Borbála Siklósi, Attila Novák (2013): Detection and Expansion of Abbreviations in Hungarian Clinical Notes. In: F. Castro, A. Gelbukh, M.G. Mendoza (Eds.): Lecture Notes in Computer Science, Vol. 8265: Advances in Artificial Intelligence and Its Applications. Springer, Berlin Heidelberg. pp ISBN György Orosz, László János Laki, Attila Novák, Borbála Siklósi (2013): Improved Hungarian Morphological Disambiguation with Tagger Combination. In: Habernal, Ivan; Matousek, Vaclav (Eds.) Lecture Notes in Computer Science, Vol. 8082: Text, Speech, and Dialogue Pilsen, Czech Republic. Springer, Berlin Heidelberg. pp ISBN: Konferenciapublikációk 9 Novák Attila, Siklósi Borbála (2015): Automatic Diacritics Restoration for Hungarian. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal: Association for Computational Linguistics. pp Siklósi Borbála, Novák Attila (2015): Restoring the intended structure of Hungarian ophthalmology documents. BioNLP Workshop at the 53 rd Annual Meeting of the Association for Computational Linguistics, ACL Beijing, China, July 26-31, Siklósi Borbála, Novák Attila (2015): Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban. In: Tanács Attila, Varga Viktor, Vincze Veronika (szerk.) XI. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Informatikai Tanszékcsoport, Szeged. pp Borbála Siklósi, Attila Novák, Gábor Prószéky (2014): Resolving Abbreviations in Clinical Texts Without Pre-existing Structured Resources. In: Proceedings of the Fourth Workshop on Building and Evaluating Resources for Health and Biomedical Text Processing (BioTxtM 2014). Reykjavík 13 Siklósi Borbála, Novák Attila (2014): Rec. et exp. aut. Abbr. mnyelv. KLIN. szöv-ben rövidítések automatikus felismerése és feloldása magyar nyelvű klinikai szövegekben. In: Tanács Attila, Varga Viktor, Vincze Veronika (szerk.) X. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Informatikai Tanszékcsoport, Szeged. pp ISBN
17 13 14 Siklósi Borbála, Novák Attila (2014): A magyar beteg. In: Tanács Attila, Varga Viktor, Vincze Veronika (szerk.) X. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Informatikai Tanszékcsoport, Szeged. pp ISBN Siklósi Borbála, Novák Attila, Prószéky Gábor (2013): Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével. In: Tanács Attila; Vincze Veronika (szerk.) A IX. Magyar Számítógépes Nyelvészeti Konferencia előadásai. SZTE, Szeged. pp ISBN Borbála Siklósi, György Orosz, Attila Novák, Gábor Prószéky (2012): Automatic structuring and correction suggestion system for Hungarian clinical records. In: LREC-2012: SALTMIL-AfLaT Workshop on Language technology for normalisation of less-resourced languages. Istanbul, Turkey, pp Siklósi Borbála, Orosz György, Novák Attila (2011): Magyar nyelvű klinikai dokumentumok előfeldolgozása. In: Tanács Attila, Varga Viktor, Vincze Veronika (szerk.) VIII. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2011). Szegedi Tudományegyetem, pp Laki László, Novák Attila, Siklósi Borbála (2013): Hunglish mondattan átrendezésalapú angol-magyar statisztikai gépifordító-rendszer. In: Tanács Attila; Vincze Veronika (szerk.) A IX. Magyar Számítógépes Nyelvészeti Konferencia előadásai. SZTE, Szeged. pp ISBN György Orosz, László János Laki, Attila Novák, Borbála Siklósi (2013): Combining Language-Independent Part-of-Speech Tagging Tools. In: J. P. Leal, R. Rocha, and A. Simoes (Eds.), 2nd Symposium on Languages, Applications and Technologies. Porto: Schloss Dagstuhl Leibniz-Zentrum für Informatik. pp ISBN László János Laki, Attila Novák, Borbála Siklósi (2013): English-to-Hungarian Morpheme-based Statistical Machine Translation System with Reordering Rules. In: Marta R. Costa-jussa, Reinhard Rapp, Patrik Lambert, Kurt Eberle, Rafael E. Banchs, Bogdan Babych (Eds.) Proceedings of the Second Workshop on Hybrid Approaches to Machine Translation (HyTra). Association for Computational Linguistics. pp
18
19 Hivatkozások Barrows, J. R., Busuioc, M., and Friedman, C. (2000). Limited parsing of notational text visit notes: ad-hoc vs. NLP approaches. Proceedings of the AMIA Annual Symposium, pages Carroll, J., Koeling, R., and Puri, S. (2012). Lexical acquisition for clinical text mining using distributional similarity. In Gelbukh, A., editor, Computational Linguistics and Intelligent Text Processing, volume 7182 of Lecture Notes in Computer Science, pages Springer Berlin Heidelberg, Berlin, Heidelberg. Frantzi, K., Ananiadou, S., and Mima, H. (2000). Automatic recognition of multi-word terms:. the C-value/NC-value method. International Journal on Digital Libraries, 3(2): Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constantin, A., and Herbst, E. (2007). Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the ACL 2007 Demo and Poster Sessions, pages , Prague. Association for Computational Linguistics. Lin, D. (1998). Automatic retrieval and clustering of similar words. In Proceedings of the 17th international conference on Computational linguistics - Volume 2, COLING 98, pages , Stroudsburg, PA, USA. Association for Computational Linguistics. Meystre, S., Savova, G., Kipper-Schuler, K., and Hurdle, J. (2008). Extracting information from textual documents in the electronic health record: a review of recent research. Yearb Med Inform, 35: Novák, A. (2003). Milyen a jó Humor? [What is good Humor like?]. In I. Magyar Számítógépes Nyelvészeti Konferencia, pages , Szeged. SZTE. Prószéky, G. and Kis, B. (1999). A unification-based approach to morpho-syntactic parsing of agglutinative and other (highly) inflectional languages. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, ACL 99, pages , College Park, Maryland. Association for Computational Linguistics. Sager, N., Lyman, M., Bucknall, C., Nhan, N., and Tick, L. J. (1994). Natural Language Processing and the Representation of Clinical Data. Journal of the American Medical Informatics Association, 1(2). Siklósi, B., Novák, A., and Prószéky, G. (2013). Context-Aware Correction of Spelling Errors in Hungarian Medical Documents. In Dediu, A.-H., Martín-Vide, C., Mitkov, R., and Truthe, B., editors, Statistical Language and Speech Processing, volume 7978 of Lecture Notes in Computer Science, pages Springer Berlin Heidelberg. Siklósi, B., Orosz, G., Novák, A., and Prószéky, G. (2012). Automatic structuring and correction suggestion system for Hungarian clinical records. In De Pauw, G., De Schryver, G.-M., Forcada, M., M. Tyers, F., and Waiganjo Wagacha, P., editors, 8th SaLTMiL Workshop on Creation and use of basic lexical resources for less-resourced languages, pages 29 34, Istanbul, Turkey. Stolcke, A., Zheng, J., Wang, W., and Abrash, V. (2011). SRILM at Sixteen: Update and Outlook. In Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Waikoloa, Hawaii.
Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével
Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével Siklósi Borbála 1, Novák Attila 1,2, Prószéky Gábor 1,2, 1 Pázmány Péter Katolikus Egyetem Információs Technológiai
Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban
Szeged, 2015. január 15 16. 237 Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban Siklósi Borbála 1, Novák Attila 1,2 1 MTA-PPKE Magyar
Curriculum Vitae Attila Novák
Curriculum Vitae Attila Novák PERSONAL DATA Date of birth: 19 October 1970 Place of birth: Budapest, Hungary Citizenship: Hungarian Marital status: married, 4 children EDUCATION Pázmány Péter Catholic
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására PhD disszertáció tézisfüzete Orosz György Pázmány Péter Katolikus Egyetem Információs
YANG ZIJIAN GYŐZŐ 杨子剑
YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar Doktori Disszertáció Tézisei Recski Gábor Számítógépes módszerek a szemantikában Nyelvtudományi Doktori Iskola Tolcsvai Nagy Gábor MHAS Elméleti Nyelvészet
Az igekötők gépi annotálásának problémái Kalivoda Ágnes
Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás
Igekötős szerkezetek a magyarban
Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek
KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás
STATISZTIKAI GÉPI FORDÍTÁS
STATISZTIKAI GÉPI FORDÍTÁS MÓDSZERÉNEK ALKALMAZÁSA EGY- ÉS TÖBBNYELVŐ NYELVTECHNOLÓGIAI PROBLÉMÁK HATÉKONY MEGOLDÁSÁRA DOKTORI (PH.D.) DISSZERTÁCIÓ Laki László János Témavezető: Dr. Prószéky Gábor, az
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény
ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation
ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation PERSONAL E-mail yang.zijian.gyozo@itk.ppke.hu yang.zijian.gyozo@uni-eszterhazy.hu Gender male Place of birth
The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:
Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17
Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott
Gépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra
Szegedi Tudományegyetem Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék Dr. Németh Tamás Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra SZTE TTIK, Móra Kollégium,
VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség
Lexikon és nyelvtechnológia Földesi András /
Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.
A HUNGLISH PÁRHUZAMOS KORPUSZ
A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április
A magyar létige problémái a számítógépes nyelvi elemzésben
A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:
SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer
SMT módszereken alapuló szófaji egyértelműsítő és szótövesítő rendszer Laki László János Pázmány Péter Katolikus Egyetem, Információs Technológiai Kar laki.laszlo@itk.ppke.hu Kivonat: Jelen munkában az
Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem, 138-145
Milyen a jó Humor? Novák Attila MorphoLogic Kft., Budapest novak@morphologic.hu Kivonat. Magyar nyelvű szövegek morfológiai elemzésére elterjedten alkalmazzák a MorphoLogic Kft. által kifejlesztett Humor
SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből
2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március
A SZAKIRODALOM HASZNA ÉS SZERKEZETE
SZAKIRODALMAZÁS A SZAKIRODALOM HASZNA ÉS SZERKEZETE Bevezetés Kétféle ismeret van: magunk rendelkezünk a szükséges információval, vagy tudjuk, hogy az hol lelhető fel. (Samuel Johnson) Évente kb. 60 millió
Ismeretlen kifejezések és a szófaji egyértelm sítés
Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,
PurePos: hatékony morfológiai egyértelműsítő modul
PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás
Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások
Pannon Egyetem Informatikai Tudományok Doktori Iskola Tézisfüzet Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások Kovács Levente Képfeldolgozás és Neuroszámítógépek Tanszék Témavezet
Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola
IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők
szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:
szakmai önéletrajz Személyes információk: Név: Bánhalmi András Pozíció: Tudományos segédmunkatárs Munkahely: MTA-SZTE Mesterséges Intelligencia Kutatócsoport Cím: 6720 Szeged, Aradi vértanúk tere 1. Telefon:
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?
Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.
Doktori (Ph.D.) értekezés tézisei A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával Hócza András Témavezet : Gyimóthy Tibor, PhD Szegedi Tudományegyetem
Publikációs lista. Gódor Győző. 2008. július 14. Cikk szerkesztett könyvben... 2. Külföldön megjelent idegen nyelvű folyóiratcikk...
Publikációs lista Gódor Győző 2008. július 14. Cikk szerkesztett könyvben... 2 Külföldön megjelent idegen nyelvű folyóiratcikk... 2 Nemzetközi konferencia-kiadványban megjelent idegen nyelvű előadások...
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
Angol nyelv. A feladatlapon az alábbi figyelmeztetés és tájékoztatás jelenik meg: A szószámra vonatkozó szabályok részletezése
Tájékoztató az Íráskészség feladatok értékeléséről 2017. május-júniusi vizsgaidőszaktól Angol nyelv A feladatlapon az alábbi figyelmeztetés és tájékoztatás jelenik meg: Ügyeljen a megadott szószámra! Amennyiben
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A
Angol nyelvű összetett kifejezések automatikus azonosítása i
Angol nyelvű összetett kifejezések automatikus azonosítása i Nagy T. István SZTE TTIK Informatikai Doktori Iskola nistvan@inf.u-szeged.hu Kivonat: A jelen munkában az angol nyelvű összetett kifejezések
Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *
Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben * Vincze Veronika 1. Bevezetés A dolgozat a kollokációk egy altípusának, a félig kompozicionális szerkezeteknek más néven funkcióigés
1.ábra: A Beszédmester nyitóképe
A Beszédmester beszédjavítás-terápiai és olvasásfejlesztő rendszer és informatikai aspektusai Kocsor András 1, Papp Gabriella 2, Bácsi János 3, Mihalovics Jenő 4 Bevezetés A Beszédmester az OM támogatásával
Intelligens elektronikus szótár és lexikai adatbázis
Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002 Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés a jelenlegi helyzet: nincs az informatikai
A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006.
ÖNELLENŐRZÉS ÉS FUTÁSIDEJŰ VERIFIKÁCIÓ SZÁMÍTÓGÉPES PROGRAMOKBAN OTKA T-046527 A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006. Témavezető: dr. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem
KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató
KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató Hasonló, mégis más Ez se rossz amíg ezt ki nem próbáltad!
Magyar nyelv klinikai dokumentumok el feldolgozása
Magyar nyelv klinikai dokumentumok el feldolgozása Siklósi Borbála 1, Orosz György 1, Novák Attila 2 1 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar, 1083 Budapest Práter utca 50/a e-mail:
KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems KOPI A fordítási plágiumok keresője Pataki Máté Kovács László MTA SZTAKI MTA SZTAKI Elosztott Rendszerek Osztály 1995. óta létezik 12 teljes állású munkatárs,
Tájékoztató az Íráskészség feladatok értékeléséről május-júniusi vizsgaidőszaktól. Angol nyelv
Tájékoztató az Íráskészség feladatok értékeléséről 2017. május-júniusi vizsgaidőszaktól Angol nyelv A feladatlapon az alábbi figyelmeztetés és tájékoztatás jelenik meg: Ügyeljen a megadott szószámra! Amennyiben
Az építészeti öregedéskezelés rendszere és alkalmazása
DR. MÓGA ISTVÁN -DR. GŐSI PÉTER Az építészeti öregedéskezelés rendszere és alkalmazása Magyar Energetika, 2007. 5. sz. A Paksi Atomerőmű üzemidő hosszabbítása előkészítésének fontos feladata annak biztosítása
Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv
Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel Kutatási terv Gábor Kata A kutatásom célja egy strukturált lexikai adatbázis felépítése magyar nyelvre gépi tanulási módszerek alkalmazásával.
Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)
Különírás-egybeírás automatikusan
Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia
Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló
Az ember, a korpusz és a számítógép *
301 Tóth Ágoston Az ember, a korpusz és a számítógép * Magyar nyelvű szóhasonlósági mérések humán és disztribúciós szemantikai kísérletben Abstract The paper reports on the results of two word similarity
Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával
Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával * Pannon Egyetem, M szaki Informatikai Kar, Számítástudomány
VI. Magyar Földrajzi Konferencia 524-529
Van Leeuwen Boudewijn Tobak Zalán Szatmári József 1 BELVÍZ OSZTÁLYOZÁS HAGYOMÁNYOS MÓDSZERREL ÉS MESTERSÉGES NEURÁLIS HÁLÓVAL BEVEZETÉS Magyarország, különösen pedig az Alföld váltakozva szenved aszályos
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák
BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA
BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció
A Hunglish Korpusz és szótár
A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu
Intelligens partner rendszer virtuális kórházi osztály megvalósításához
Intelligens partner rendszer virtuális kórházi osztály megvalósításához 1. Célkitűzések A pályázat célja egy virtuális immunológiai osztály kialakítása, amelynek segítségével a különböző betegségekkel
S atisztika 2. előadás
Statisztika 2. előadás 4. lépés Terepmunka vagy adatgyűjtés Kutatási módszerek osztályozása Kutatási módszer Feltáró kutatás Következtető kutatás Leíró kutatás Ok-okozati kutatás Keresztmetszeti kutatás
DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar
DR. VINCZE VERONIKA ELÉRHETŐSÉG MTA-SZTE Mesterséges Intelligencia Kutatócsoport 6720 Szeged, Tisza Lajos krt. 103. Telefon: +36-62-54-41-40 Mobil: +36-70-22-99-108 Fax: +36-62-54-67-37 E-mail: vinczev@inf.u-szeged.hu
Statisztikai alapú tulajdonnév-felismerő magyar nyelvre
Statisztikai alapú tulajdonnév-felismerő magyar nyelvre Farkas Richárd 1, Szarvas György 1 1 MTA-SZTE, Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Aradi vértanúk tere 1., Hungary, {rfarkas,
Kódverifikáció gépi tanulással
Kódverifikáció gépi tanulással Szoftver verifikáció és validáció kiselőadás Hidasi Balázs 2013. 12. 12. Áttekintés Gépi tanuló módszerek áttekintése Kódverifikáció Motiváció Néhány megközelítés Fault Invariant
Javában taggelünk.
336 VIII. Magyar Számítógépes Nyelvészeti Konferencia Javában taggelünk Novák Attila 1, Orosz György 2, Indig Balázs 2 1 MorphoLogic Kft., 1116 Budapest, Kardhegy utca 5. novak@morphologic.hu 2 Pázmány
A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek
A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek Varjú Zoltán 2018.05.22. HWSW Meetup ML Engineering Rules of Machine Learning #1 Don t be afraid to launch
A nyelvtechnológia alapjai
Prószéky Gábor A nyelvtechnológia alapjai 2015/2016 tanév, 1. félév A tantárgy órái 2015-ben 1. óra: szeptember 9. 2. óra: szeptember 16. (elmarad: szeptember 23.) 3. óra: szeptember 30. 4. óra: október
Publikációs lista. Dr. Molnárka-Miletics Edit Széchenyi István Egyetem Matematika és Számítástudományi Tanszék
Publikációs lista Dr. Molnárka-Miletics Edit Széchenyi István Egyetem Matematika és Számítástudományi Tanszék Folyóirat cikkek: E. Miletics: Energy conservative algorithm for numerical solution of ODEs
A plágiumkeresés dilemmái és megoldásai. Nagy István Monguz Kft. Networkshop 2016
A plágiumkeresés dilemmái és megoldásai Nagy István Monguz Kft. Networkshop 2016 Qulto - Monguz Kft. Monguz Kft. szakterületek közgyűjteményi informatika tudás-menedzsment kulturális turizmus ~50 fő Qulto
A Humor új Fo(r)mája
A Humor új Fo(r)mája Novák Attila MTA PPKE Nyelvtechnológiai Kutatócsoport Pázmány Péter Katolikus Egyetem Információtechnológiai és Bionikai Kar 1083 Budapest, Práter utca 50/a novak.attila@itk.ppke.hu
MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN
Zrínyi Miklós Nemzetvédelmi Egyetem Kossuth Lajos Hadtudományi Kar Hadtudományi Doktori Iskola Tick Andrea MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN
Nyelvi tudásra épülő fordítómemória
Nyelvi tudásra épülő fordítómemória Hodász Gábor 1, Grőbler Tamás 2 1 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Budapest hodasz@morphologic.hu 2 MorphoLogic Kft. Budapest grobler@morphologic.hu
Módszer köztes tárolókat nem tartalmazó szakaszos működésű rendszerek ütemezésére
Módszer köztes tárolókat nem tartalmazó szakaszos működésű rendszerek ütemezésére Doktori (PhD) értekezés tézisei Holczinger Tibor Témavezető: Dr. Friedler Ferenc Veszprémi Egyetem Műszaki Informatikai
Élpont osztályozáson alapuló robusztus tekintetkövetés
KÉPFELDOLGOZÁS Élpont osztályozáson alapuló robusztus tekintetkövetés HELFENBEIN TAMÁS Ipari Kommunikációs Technológiai Intézet, Bay Zoltán Alkalmazott Kutatási Közalapítvány helfenbein@ikti.hu Lektorált
Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai. Kiezer Tamás
Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai Doktori (PhD) értekezés tézise Kiezer Tamás Témavezetı: Dr. Dominich Sándor (1954-2008) Pannon Egyetem Mőszaki Informatikai Kar
Számítógépes alkalmazásai
Természetes nyelvek Tartalom Nyelvtechnológia elmélete Nyelvtechnológiai alkalmazások Morfológiai elemzés Egyértelműsítés Mondatelemzés Szemantika Szöveggenerálás Diskurzus-reprezentáció Számítógépes alkalmazások
Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint
ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS
Önálló labor feladatkiírásaim tavasz
Önálló labor feladatkiírásaim 2016. tavasz (ezekhez kapcsolódó saját témával is megkereshetnek) Mészáros Tamás http://www.mit.bme.hu/~meszaros/ Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika
SZEMLE. Szemle 89. Cambridge University Press, Cambridge, 2012. 297 lap
Szemle 89 SZEMLE Kertész, András Rákosi, Csilla, Data and Evidence in Linguistics (A Plausible Argumentation Model) [Adatok és evidencia a nyelvészetben (Egy plauzibilis argumentációs modell)] Cambridge
AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA
AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA Kovács Ernő 1, Füvesi Viktor 2 1 Egyetemi docens, PhD; 2 tudományos segédmunkatárs 1 Eletrotechnikai és Elektronikai Tanszék, Miskolci Egyetem
EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA
infokommunikációs technológiák EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA Témavezető: Tarczali Tünde Témavezetői beszámoló 2015. január 7. TÉMAKÖR Felhő technológián
Beszámoló a 13. ECDL (European Conference on Digital Libraries) konferenciáról
Beszámoló a 13. ECDL (European Conference on Digital Libraries) konferenciáról Időpont: 2009. szeptember 28-30. Helyszín: Korfu Készítette: Naszádos Edit (Informatikai Osztály) Résztvevők Több mint 200
Teljesen elosztott adatbányászat alprojekt
Teljesen elosztott adatbányászat alprojekt Hegedűs István, Ormándi Róbert, Jelasity Márk Big Data jelenség Big Data jelenség Exponenciális növekedés a(z): okos eszközök használatában, és a szenzor- és
I. A felfedési kockázat mérése és a mikroadatokhoz való hozzáférés jövője II. Paraadatok használata a rugalmas (responsive) mintavétel során
Magyar Statisztikai Társaság Gazdaságstatisztikai és Nemzetközi Statisztikai Szakosztálya Magyar résztvevők az ISI (58.) dublini konferenciájáról I. A felfedési kockázat mérése és a mikroadatokhoz való
Sémi összehasonlító nyelvészet
Sémi összehasonlító nyelvészet BMA-HEBD-303 Biró Tamás 5. A nyelvtörténeti rekonstrukció alapjai. Jelentéstan. 2016. március 30. Összehasonlító rekonstrukció: alapok A történeti rekonstrukció klasszikus
Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint
ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program
Közösség detektálás gráfokban
Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a
Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu
VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK
Az ISO 17100:2015 szabványban szereplő szakkifejezések és meghatározásuk
Az ISO 17100:2015 szabványban szereplő szakkifejezések és meghatározásuk Az ISO 17000:2015 tanúsítvány megszerzése alkalmából az OFFI Zrt. munkatársai örömmel teszik közkinccsé a legújabb iparági szabványban
Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))
Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján Hegedűs István Ajánló rendszerek Napjainkban egyre népszerűbb az ajánló rendszerek alkalmazása A cégeket is hasznos információval
Kétféle ismeret van: magunk rendelkezünk a szükséges információval, vagy tudjuk, hogy az hol lelhető fel. Samuel Johnson
Kétféle ismeret van: magunk rendelkezünk a szükséges információval, vagy tudjuk, hogy az hol lelhető fel. Samuel Johnson Szakmai közösség: eredetiség nem lehet egyedül megalapozni és elkészíteni egy tudományos
Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.
Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?
A projekt idő-, erőforrás és költségterve 1. rész
A projekt idő-, erőforrás és költségterve 1. rész A TERVEZÉS FOLYAMATA a projekttevékenységek meghatározása a tevékenységek közötti logikai függőségi kapcsolatok meghatározása erőforrás-allokáció és a
Függvények növekedési korlátainak jellemzése
17 Függvények növekedési korlátainak jellemzése A jellemzés jól bevált eszközei az Ω, O, Θ, o és ω jelölések. Mivel az igények általában nemnegatívak, ezért az alábbi meghatározásokban mindenütt feltesszük,
Számítógépes döntéstámogatás. Fogalmakat is kezelni tudó számítógépes döntéstámogatás A DoctuS rendszer
SZDT-07 p. 1/20 Számítógépes döntéstámogatás Fogalmakat is kezelni tudó számítógépes döntéstámogatás A DoctuS rendszer Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu
Multimédiás adatbázisok
Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás
P-gráf alapú workflow modellezés fuzzy kiterjesztéssel
P-gráf alapú workflow modellezés fuzzy kiterjesztéssel Doktori (PhD) értekezés Tick József témavezető: Dr. Kovács Zoltán Pannon Egyetem Műszaki Informatikai Kar Informatikai Tudományok Doktori Iskola 2007.
Mesterséges Intelligencia Elektronikus Almanach. Konzorciumi partnerek
Mesterséges Intelligencia Elektronikus Almanach Konzorciumi partnerek 1 Konzorcium Budpesti Mőszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Méréstechnika és Információs Rendszerek
Január 7. hétfő. I. Beszédtechnológia, fonológia
Január 7. hétfő 09:15-10:45 Regisztráció, kávé 10:45-11:00 Megnyitó 11:00-12:00 Plenáris előadás Gósy Mária: Spontán beszéd: szabályok és szabálytalanságok I. Beszédtechnológia, fonológia 12:00-12:20 Grósz