Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban
|
|
- Zalán Orbán
- 8 évvel ezelőtt
- Látták:
Átírás
1 Szeged, január Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban Siklósi Borbála 1, Novák Attila 1,2 1 MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport 2 Pázmány Péter Katolikus Egyetem, Információs Technológiai és Bionikai Kar 1083 Budapest, Práter utca 50/a {siklosi.borbala, novak.attila}@itk.ppke.hu Kivonat A kórházi körülmények között létrejövő klinikai dokumentumok feldolgozása a nyelvtechnológia egyik központi kutatási területévé vált az utóbbi időben. A más jellegű, általános nyelvezetű szövegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve gyengén teljesítenek a speciális orvosi szövegek esetén. Továbbá számos olyan feladat van, amelyek során a szakkifejezések azonosítása és a közöttük lévő kapcsolatok meghatározása nagyon fontos lépés, azonban csak külső lexikai erőforrások, tezauruszok és ontológiák segítségével oldhatók meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok nem állnak rendelkezésre. Ezért a szövegekben lévő információk annotálása és rendszerezése emberi szakértői munkát igényel. Ebben a cikkben bemutatjuk, hogy statisztikai módszerekkel milyen módon alakíthatók át a nyers dokumentumok egy olyan előfeldolgozott, részben strukturált formára, ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz felhasználásával alkalmazott modulok felismerik és feloldják a rövidítéseket, azonosítják a többszavas kifejezéseket és meghatározzák azok hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű reprezentációját, ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klaszterek azonosítóját helyettesítve a szövegek egyszerűsíthetőek, a gyakran ismétlődő mintázatok általános alakja meghatározható. 1. Bevezetés A klinikai rekordok olyan dokumentumok, amelyek kórházi körülmények között jönnek létre a mindennapi esetek, kezelések dokumentálása céljából. Ezeknek a szövegeknek a minősége messze elmarad az orvosbiológiai szövegekétől, amelyek feldolgozásával jóval több tanulmány foglalkozik éppen könnyebb kezelhetőségük miatt. Az orvosbiológiai szövegek általában angol nyelvűek, és tudományos folyóiratokban, könyvekben, kiadványokban jelennek meg, nyelvezetük követi a nyelvi és helyesírási normákat [1,2]. Ezzel szemben, a klinikai beteglapok olyan strukturálatlan szövegek, amelyek minden ellenőrzés nélkül jönnek létre. Ezért gyakran fordulnak elő bennük helyesírási hibák, elírások, és az egyedi szóalakok használata is igen jellemző ezekre a dokumentumokra. Nyelvezetük pedig
2 238 XI. Magyar Számítógépes Nyelvészeti Konferencia gyakran a helyi nyelv (a mi esetünkben a magyar) és a latin sajátos keveréke [3,4]. Jellemző rájuk továbbá a gyakran egyedi módon is használt rövidítések magas aránya, olyannyira, hogy akár teljes állítások, mondatok is csupán rövidített alakokból állnak. A klinikai dokumentumok egy további jellemzője, hogy olvasóik általában maguk a lejegyzést készítő vagy diktáló orvosok, ezért az egyedi nyelvhasználat és rövidítési szokások nem okoznak információveszteséget, amikor az orvos újra elolvassa ezeket. Azonban az egyes betegek kórtörténetének tárolása mellett az ezekből a dokumentumokból kinyerhető információk az orvostudomány más területein is felhasználhatóak lehetnének. Ahhoz, hogy hozzáférjünk ezekhez a rejtett adatokhoz, a szövegekben található tények és állítások hatékony reprezentációjára van szükség. Több kísérlet irányult már általános szövegekre működő eszközök klinikai dokumentumokra való alkalmazására, azonban ilyenkor teljesítményük jóval gyengébb, mint általános, jól formált szövegek esetén (pl. [5]). Azok az eszközök, amik pedig doménspecifikus szövegek feldolgozására alkalmazhatóak, általában valamilyen külső, kézzel készített lexikai erőforrásokat, ontológiákat használnak. Azon nyelvek esetén azonban, amelyekre kevés ilyen erőforrás áll rendelkezésre, ezek a módszerek nem alkalmazhatóak, az erőforrások létrehozása pedig jelentős emberi munkát igényel. Egy további lehetőség a klinikai dokumentumokban használt nyelv alnyelvként való kezelése [6]. Azonban ehhez is szükség van az alnyelv kifejezéseinek doménspecifikus kategorizációjára, ami szintén nem oldható meg teljesen automatikus módszerekkel [7,8,1]. A már meglévő eszközök adaptálhatósága és a strukturált erőforrások építésének támogatása céljából egy magyar szemészeti korpuszt vizsgáltunk meg. Majd különböző, nem felügyelt statisztikai módszerek alkalmazásával tettünk kísérletet többféle információ felfedezésére a nyers korpuszban. Bár az egyes modulok által létrejött eredmény önmagában nem tekinthető a dokumentumok információtartalmát teljesen lefedő reprezentációnak, azonban az ezekből a félig strukturált adatokból létrejövő csoportok felhasználhatóak a későbbi konstrukciók megalkotása során. Mindegyik modul magja a nyers korpuszból kinyert statisztika, csupán néhány ponton volt szükség alapvető nyelvi szabályok, illetve erőforrások bevonására. 2. A korpusz Vizsgálataink során anonimizált, szemészeti osztályon keletkezett magyar nyelvű dokumentumokat használtunk. A rendelkezésünkre álló korpusz mérete token ( mondat). A korpusz a feldolgozás előtt [3]-ban ismertetett struktúrájú magas szintű xml formátumban volt. Ebben jelölve voltak a mondatés tokenhatárok, illetve a szófaji egyértelműsítés eredménye is. A szegmentálás és szófaji egyértelműsítés automatikusan történt [9]-ben és [5]-ben bemutatott módszerekkel. Bár ezt a két előfeldolgozási lépést a legtöbb nyelv esetében általános nyelvű szövegekre megoldották már automatikus módszerekkel, az előbb említett tanulmányok kitérnek arra is, hogy esetünkben a teljesítmény jelentősen
3 Szeged, január elmarad az elvárthoz képest a klinikai szövegeken. Jelen munkánkban azonban, mivel ezek az előfeldolgozási lépések elengedhetetlenek, elfogadottnak tekintettük a korpusz ilyen minőségű kiindulási állapotát. Egy általános nyelvű magyar korpuszhoz hasonlítva, számos jelentős különbség fedezhető fel a két domén között, ami magyarázatot ad arra, hogy az általános szövegeken akár bonyolultabb feladatok esetén is jól teljesítő eszközök miért nem alkalmazhatóak a klinikai dokumentumokra. A különbség a két szövegtípus között nem csak azok tartalmában nyilvánul meg, hanem már a nyelvtani szerkezetek és a szövegekben előforduló szóalakokban is. A két domén részletes összehasonlítása megtalálható [10]-ben és [11]-ben. 3. Az alkalmazott módszerek Ebben a fejezetben négy módszert mutatunk be, amelyeket később egymással kombinálva alkalmaztunk a klinikai szövegekre, ami az egyes dokumentumok félig strukturált kivonatát eredményezte. Az első modul a rövidítések feloldásáért felelős, a második összetett szakkifejezések felismerését végzi, illetve rangsorolja ezeket, a harmadik szó-, illetve jelen esetben kifejezéspárok hasonlóságát határozza meg, a negyedik pedig fogalmi klasztereket hoz létre, illetve helyettesíti be ezeket az eredeti szövegekbe. Mind a négy modul működése során a korpusz statisztikai jellemzői a meghatározók Rövidítések feloldása A rövidítésfeloldás feladatát többen a jelentés-egyértelműsítés (word sense disambiguation, WSD) egy speciális eseteként kezelik ([12]). A jelentés-egyértelműsítés megoldása során legjobb eredményt elérő módszerek felügyelt gépi tanulási algoritmusokat alkalmaznak. A magyar orvosi nyelvhez viszont sem kézzel előre annotált adatok, sem a lehetséges jelentések, azaz feloldási javaslatok adatbázisa nem áll rendelkezésre, ami a felügyelt tanulási módszerek alkalmazhatóságának előfeltétele ([13]). A szintén WSD feladatokra alkalmazott nem felügyelt módszerek két fázisból állnak. Az egyértelműsítés előtt meg kell határozni a lehetséges jelentések halmazát is (word sense induction, WSI). Kontextuális jellemzők alapján ugyan meghatározhatóak a lehetséges jelentések egy adott korpuszból, azonban ehhez nagy méretű korpuszra van szükség, különösen akkor, ha a többértelmű kifejezések (rövidítések) aránya olyan nagy, mint a klinikai szövegekben. Mivel kellően nagy méretű korpusz nem állt rendelkezésünkre, ezért ezt a megközelítést sem követhettük. Így egy olyan korpuszalapú megoldást dolgoztunk ki a rövidítések automatikus feloldására, ami csupán kiegészítésként fordul a néhány, magyar nyelven elérhető, klinikai kifejezéseket is tartalmazó erőforrásokhoz. Mivel a csupán a korpuszra építő módszer nem teljesített kielégítően, ezért szükséges volt egy doménspecifikus lexikon létrehozása is. Az orvosi, klinikai kifejezéseket teljesen lefedő adatbázis helyett [14]-ben megmutattuk, hogy egy kisebb, doménspecifikus lexikon is elégséges, az ebben definiálandó rövidítések pedig a korpuszból
4 240 XI. Magyar Számítógépes Nyelvészeti Konferencia közvetlenül kinyerhetők. Miután ez a lexikon rendelkezésre áll, valamint a rövidítések azonosítása is megtörtént, a feloldást rövidítések sorozatára végeztük. Erre azért volt szükség, mert annak ellenére, hogy az egyes rövidítések önmagukban állva erősen többértelműek, gyakran fordulnak elő rövidítéssorozatok részeként, ahol biztosabban meghatározható az egyértelmű jelentésük. Például, az o. rövidítés bármely o-val kezdődő magyar vagy latin szó rövidítése is lehet. Még az orvosi szaknyelvre szűkítve is igen nagy a lehetőségek száma. Az általunk vizsgált klinikai korpusz szemészeti részében azonban az o. rövidítés csak elvétve fordul elő önmagában, sokkal inkább olyan szerkezetekben, mint például o. s., o. d., vagy o. u., melyek jelentése oculus sinister (bal szem), oculus dexter (jobb szem), illetve oculi utriusque (mindkét szem). Az ilyen összetételekben az o. jelentése már egyértelműen meghatározható. Természetesen az ugyanazzal a jelentéssel bíró rövidített alakoknak is számos variációja előfordulhat, így az o.s. gyakori változatai például az o. sin., os, OS stb. A rövidítések feloldása során tehát olyan rövidítéssorozatokat tekintettünk kiindulási egységnek, melyek a szövegben egymást folytonosan, megszakítás nélkül követő rövidített alakok vagy rövidítések sorozata. Továbbá, az olyan vegyes kifejezések egyben tartása végett, melyeknek nem minden tagja rövidített, a rövidítéssorozatokhoz azok adott méretű környezetét is csatoltuk. A feloldás során ilyen módon elérhető szövegkörnyezet a rövidítések jelentésének egyértelműsítésében is szerepet játszik, hiszen egy konkrét felszíni alakkal rendelkező rövidítés jelentése (feloldása) a környezetétől függően változhat. Az így automatikusan felismert, majd a szövegkörnyezettel kiegészített rövidítéssorozatok feloldására először a korpuszból nyertünk ki lehetséges feloldásjelölteket, majd csupán az ebben a lépésben nem, vagy csak részlegesen feloldott rövidítéssorozatok feloldása során fordultunk a külső lexikonhoz. Az algoritmus részletei és eredményei megtalálhatóak [14]-ben és [15]-ben. Az eredmények alapján kimutatható, hogy bár a korpusz önmagában nem elégséges minden rövidítés feloldásához, ennek használatával pontosabb és helyesebb feloldások nyerhetők ki, mint csupán külső lexikon alkalmazásával. A 1. táblázatban látható néhány automatikusan felismert rövidítés a hozzájuk tartozó feloldásokkal. A feloldásokhoz a magyar és latin változatot is megjelenítjük, ahol ezek a változatok elérhetőek és relevánsak (pl. mindkét szem; oculi utriusque), illetve több latin, vagy több magyar feloldás is szerepelhet (pl. szemfenék; fundus oculi; fundus) Többszavas szakkifejezések azonosítása A klinikai nyelvben (bármely más szaknyelvhez hasonlóan) gyakoriak az olyan többszavas kifejezések, melyek együtt jelölnek egy fogalmat. Mivel olyan releváns információk jelenhetnek meg ilyen formában, mint a betegségek, kezelések, testrészek neve, ezért fontos ezek azonosítása. Az ilyen kifejezések azonosítására nem elegendő egy általános lexikon, hiszen vannak olyan kifejezések, melyek az általános nyelvben nem feltétlenül tartoznak össze. Például a szem szó, mint testrész, a szemészeti szövegekben önmagában nem sok információt tartalmaz, viszont a
5 Szeged, január táblázat. Néhány rövidítés és a hozzá tartozó feloldások Rövidítés Feloldások mydr mydrum mksz mindkét szem; oculi utriusque V visus D dioptria mou méterről olvas ujjat ünj üveg nem javít o. u oculi utriusque; mindkét szem F szemfenék; fundus oculi; fundus j.o. jobb oldal bal szem, jobb szem, mindkét szem kifejezések már konkrétan meghatározzák a dokumentumban leírt jelenségek pontos helyét. Éppen emiatt a szemészeti korpuszban a szem szó önmagában nem is gyakran fordul elő. Az ilyen kifejezések felismerésére tehát jól alkalmazható a kölcsönös információ (mutual information) és a kollokációk vizsgálatán alapuló módszerek, melyek éppen a korpuszbeli előfordulások alapján definiálhatóak. Ezeknek a módszereknek a többszavas szakkifejezések felismerésére való alkalmazását [16] foglalja össze, majd az egymásba ágyazott kifejezések problémájára is megoldást nyújtó c-value módszert ismerteti. Ennek a c-value algoritmusnak egy módosított változatát használtuk. Először egy nyelvi szűrőt alkalmaztunk annak érdekében, hogy a kifejezésjelöltek listáján csak nyelvtani szempontból is helyes kifejezések szerepeljenek. A megengedett kifejezések formája a következő: (FN ADJ IGE_OKEP IGE_MIB) + FN Ez a minta biztosítja, hogy egyrészt csak főnévi csoportok legyenek a jelöltek között, másrészt kizárja a gyakori kifejezéstöredékeket is. Természetesen más jellegű kifejezések, mint például igei csoportok, is relevánsak lehetnek. Azonban, ahogy a 2. fejezetben bemutattuk, az igék gyakorisága alacsony a klinikai szövegekben. Ezért egy viszonylag kis méretű korpuszból nem építhetőek pontos statisztikai modellek az ilyen, ritkábban előforduló kifejezésekre. Miután az összes, a fenti mintára illeszkedő n-gramot kigyűjtöttünk (1 < n < 10), mindegyikre meghatároztuk a hozzá tartozó c-value-t, ami az adott n-gram kifejezés voltára utaló mérőszám. Ez az érték négy komponens alapján határozható meg: a kifejezésjelölt gyakorisága; annak gyakorisága, hogy hányszor fordul elő hosszabb kifejezés részeként; az ilyen, hosszabb kifejezések száma; és a kifejezés hossza.
6 242 XI. Magyar Számítógépes Nyelvészeti Konferencia Ezeket a statisztikákat a korpusz alapján lehet meghatározni. A c-value számítását végző algoritmus részletei [16]-ban találhatóak meg. A 2. táblázatban látható néhány többszavas kifejezés, amit egy dokumentumból nyertünk ki, a hozzájuk tartozó c-value értékkel. 2. táblázat. Egy dokumentumból kinyert többszavas kifejezések a hozzájuk tartozó c-value értékkel Kifejezés c-value bal szem ép papilla tiszta törőközeg békés elülső szegmentum hátsó polus 47.5 tompa sérülés Disztribúciós szemantikai modellek A releváns kifejezések csoportosításához szükség van egy hasonlósági metrikára is, ami két kifejezés jelentésbeli távolságát határozza meg. Erre szintén olyan nem felügyelt módszert alkalmaztunk, amely a hasonlóságokat nem egy külső erőforrás, ontológia alapján határozza meg, hanem a kifejezések korpuszbeli előfordulásai, az adott korpuszban való használatuk alapján. A disztribúciós szemantika lényege, hogy a szemantikailag hasonló szavak hasonló környezetben fordulnak elő. Tehát két szó jelentésének hasonlósága meghatározható a környezetük hasonlósága alapján. A szavak környezetét olyan jellemzőhalmazokkal reprezentáltuk, ahol minden jellemző egy relációból (r) és az adott reláció által meghatározott szóból (w ) áll. Ezek a relációk más alkalmazásokban általában függőségi relációk, azonban a klinikai szövegekre ilyen elemzés a zajos mivoltuk miatt nem végezhető el kellően jó eredménnyel. Carrol et al. [17] szintén klinikai szövegekre alkalmazva csupán a vizsgált szó meghatározott méretű környezetében előforduló szavak lexikai alakjának felhasználásával építettek ilyen szemantikai modellt. Mivel a mi esetünkben a morfológiai elemzés is rendelkezésre állt, ezért a következő jellemzőket vettük figyelembe: prev_1: a szót megelőző szó lemmája prev_w: a szó előtt 2-4 távolságon belül eső szavak lemmái next_1: a rákövetkező szó lemmája next_w: a szó után 2-4 távolságon belül eső szavak lemmái pos: a szó szófaja prev_pos: a szót megelőző szó szófaja next_pos: a szót követő szó szófaja Minden egyes jellemzőhöz meghatároztuk a korpuszbeli gyakoriságát. Ezekből a gyakoriságokból határozható meg a (w,r,w ) hármas információtartalma
7 Szeged, január (I(w,r,w )) maximum likelihood becsléssel. Ezután a két szó (w 1 és w 2 ) közötti hasonlóságot a következő metrikával számoltuk [18] alapján: SIM(w 1,w 2 ) = (r,w) T(w 1) T(w 2) (I(w 1,r,w)+I(w 2,r,w)) (r,w) T(w 1) I(w 1,r,w)+ (r,w) T(w 2) I(w 2,r,w) ahol T(w) azoknak az (r,w ) pároknak a halmaza, ahol az I(w,r,w ) pozitív. 1. ábra. Egy dokumentumhoz tartozó kifejezések páronkénti hasonlóságát megjelenítő hőtérkép Ezzel a metrikával bármely két kifejezés közötti disztribúciós hasonlóság meghatározható. Bár elvileg két bármilyen típusú szóra alkalmazhatjuk, egy ige és egy főnév összehasonlításának gyakorlati szempontból nem sok haszna lenne. Ezért a metrika többszavas kifejezésekre való alkalmazásából fakadó komplexitás elkerülése érdekében a többszavas kifejezéseket összevonva és az [FN][MT] címkével ellátva vettük figyelembe. Mivel minden kifejezésjelölt, az előző alfejezetben leírtaknak megfelelően, főnévi csoport, ezért ez a hasonlóság megfelel a két kifejezés közötti hasonlóságnak. A 1. ábra egy hőtérképen jeleníti meg az egy dokumentumhoz tartozó kifejezések páronkénti hasonlóságát. Minél világosabb egy négyzet, a hozzá tartozó kifejezések annál hasonlóbbak. Látható, hogy a "tiszta törőközeg" és a "békés elülső segmentum" hasonló viselkedést mutatnak, míg például a "neos mksz" az aktuális dokumentumból kinyert kifejezések közül egyikhez sem igazán hasonlít.
8 244 XI. Magyar Számítógépes Nyelvészeti Konferencia 3.4. Fogalmi klaszterek és mintázatok A szavak és kifejezések páronkénti hasonlóságából kiindulva fogalmi hierarchiát határozhatunk meg. Ehhez a leggyakoribb kifejezések és szavak csoportján agglomeratív klaszterezést hajtottunk végre. Bár adná magát, hogy a klaszterezés során szükséges távolságmetrikának a fent definiált disztribúciós hasonlóságot használjuk, ez önmagában nem bizonyult elégségesnek, illetve a klaszterezési algoritmusok rugalmassága is csökkent volna, ha csupán ezt a metrikát használjuk. Ezért az egyes kifejezéseket a többi kifejezéshez való hasonlóságukból álló jellemzővektorokkal ábrázoltuk. Így az egy kifejezéshez tartozó c(w) vektor c i eleme SIM(w,w i ). Az egyes kifejezésekhez így létrehozott jellemzővektorokat klasztereztük, ahol a klaszterek távolságát Ward ([19]) módszere alapján határoztuk meg. Ennek köszönhetően a kapott dendrogram alsó szintjein tömör, egymáshoz közel álló kifejezésekből álló csoportok jöttek létre. Ezeket egy, a dendrogramról szabad szemmel is jól leolvasható küszöbérték alatt összevontuk. Így a 3. táblázatban példaként felsoroltakhoz hasonló csoportok jöttek létre. 3. táblázat. Klaszterezés által létrejött levél csomópontok ID:1403 ID:1636 ID:1549 ID:1551 ID:2045 papilla hely tbl folyamat ép papilla macula kh medrol kivizsgálás halvány papilla cornea kötőhártya üveg érték jó színű papilla lencse szaru szemcsepp idegentest szűk ér jobb oldal conjunctiva gyógyszer gyulladás ép macula bal oldal szemrés retinaleválás fénytelen macula centrum szempilla látásromlás kör fekvő retina kör pilla fekvő retina szél könnypont rb. periféria tiszta törőközeg retina bes szemhéj békés elülső szegmentum elváltozás békés es vérzés terület A létrejött csoportok vagy rokonértelmű kifejezéseket, vagy szemantikai szempontból azonos szerepet betöltő kifejezéseket (pl. hét napjai, gyógyszernevek, stb.) tartalmaznak, akár rövidített alakokkal együtt (pl. "bes", "békés elülső szegmens", "békés elülső szegmentum", "békés es"). Ezek mellett létrejöttek azonban olyan absztrakt csoportok is, amelyek az orvosi eljárás egyes fázisaihoz kapcsolódó kifejezések csoportjai (pl. az "éhgyomor" az időpontokhoz kapcsolódó kifejezésekkel került egy klaszterbe, illetve a "strab" és a "párhuzamos szem" kifejezések is az orvosi jelentőségük miatt kerültek egy csoportba). Ezeket a levél
9 Szeged, január csomópontokat összevonva, a magasabb szintű hierarchia természetesen megmarad, illetve a létrejött fa bármilyen küszöbérték mentén tovább vágható. Ezt kihasználva olyan részfákat vágtunk ki a teljes hierarchiából, amelyek a korábban kinyert kifejezéscsoportok közül az egymáshoz közel állókat fogja össze, megjelenítve azok hierarchiáját is. Egy ilyen részfa látható a 2. ábrán. 2. ábra. A teljes hierarchiából kivágott részfa, a leveleken összevont kifejezéscsoportokkal Az orvosi szövegekben található kifejezések ilyen módon létrejött csoportosítása és rendszerezése önmagában is felhasználható lehet egy, az orvosi gyakorlatban használatos kifejezésekből álló ontológia kiindulásaként. Mivel azonban minden csoportot (illetve a létrejött hierarchia minden csomópontját) egy egyedi azonosítóval láttunk el, ezért ezek az eredeti szövegekbe visszahelyettesíthetők. Így egy tetszőleges szintű, de az eredetinél absztraktabb reprezentációját hoztuk létre az egyes dokumentumoknak. Ebből a reprezentációból könnyen azonosíthatók a dokumentumokban gyakran előforduló mintázatok, függetlenül attól, hogy a konkrét alakja egy-egy állításnak mennyire ritka, vagy gyakori kifejezést tartalmaz. A 4. táblázatban látható néhány mondat ilyen módon behelyettesített változata. A behelyettesítés következtében a mondatok nem csak egyszerűbbé válnak, hanem gyakran ismétlődő mintázatok is kiemelhetőek lesznek. A példában is megjelenő " " minta arról szól, hogy valamilyen állapotában valamelyik szemről milyen adatokat jegyeztek fel. Ennek a mintának a néhány leggyakoribb megjelenési formája a szövegekben: "st. o. u.", "st. o. s.", "st. o. d.", "moct o. d.", rl. o. u.", "rl. o. sin.", "status o. s.", "távozáskor o. d.", "bscan o. d.", stb. Jellemző továbbá erre a mintára, hogy sor elején jelenik meg. A példamondatokban látható az is, hogy hol jelennek meg a 2. ábrán látható os azonosítóval ellátott részfa egyes kifejezései, amik a mondatban leírt állítás helyét jelölik meg.
10 246 XI. Magyar Számítógépes Nyelvészeti Konferencia Bár vannak esetek, amikor az ugyanazzal az azonosítóval ellátott kifejezések nem mind tekinthetőek egy csoportba sorolhatónak, a közöttük fennálló kapcsolat hierarchiáját a részfákból meg lehet határozni, illetve a csoportokat meghatározó küszöbérték megfelelő hangolásával állítható a klaszterezés finomsága. Tapasztalataink szerint nem érdemes nagyon szűk csoportokat definiálni, hiszen sok esetben az egymással lazább kapcsolatban álló kifejezések is jól illeszthetőek az eredményül kapott mintázatokba. Jó példa erre a NUMx (a NUM valamilyen számot jelöl) és a th., illetve ezek változatainak csoportja, ahol az egy gyógyszer adagolására vonatkozó meghatározás tulajdonképpen egy terápia. Ezzel szemben a NUMán sokkal inkább a vizsgálatokhoz, időpontokhoz besorolt kifejezés. Ha a csoportosításnál használt küszöbértéket alacsonyabbra állítjuk, akkor az ilyen tágabb asszociációkat elveszítjük. Az egyensúly megtalálása további kutatás témája, melyhez orvosszakértők bevonására is szükség van. 4. táblázat. Néhány példamondat, ahol a szavakat és kifejezéseket a hozzájuk tartozó klaszterazonosítóval helyettesítettük : 2016 tiszta üti 2007, 2045, szemfenék-szerte 2007, 1956, a macula_kemény_exsudatum, fu. o. u : mko. tiszta üti tér, ép_papilla, szemfenék-szerte ma-k, pontszerű_vérzés, a macula_kemény_exsudatum, oedema : 2016 felett és nasalisan szivárgó, ischaemiás_terület, kis neovasc._burjánzás, 2049 flag o. d. : macula felett és nasalisan szivárgó, ischaemiás_terület, kis neovasc._burjánzás, macula_oedema 2016 sima, csillogó, 2007 és a 1789 tiszta. cornea sima, csillogó, állománya és a hátlapja tiszta tizsta friss 1884 nem látható. lencse tizsta. funduson friss kóros nem látható tiszta, 1789 tiszta, 1789 tiszta, 1789 békés, 1789 jól reagál. stroma tiszta, hátlap tiszta, csarnok tiszta, iris békés, pupilla jól reagál nem vizsgálható erős_fénykerülés miatt. periféria nem vizsgálható erős_fénykerülés miatt : 1998, halvány_conjunctiva, 2016 epithelialis pontszerű_kiemelkedő_szürkésfehér_laesi_(j»b, balon csak NUM-NUM laesio ), a cornea_mély_rész épek,transparens, 1812 mély, tiszta, 1789 békés, 1812 tág, kerek, centrális, 2007 jól reagál. st. o. u : ép_védőszerv, halvány_conjunctiva, corneán epithelialis pontszerű_kiemelkedő_szürkésfehér_laesi_(j»b, balon csak NUM-NUM laesio ), a cornea_mély_rész épek, transparens, csarnok_kp mély, tiszta, iris békés, pupilla_kp tág, kerek, centrális, fényre jól reagál.
11 Szeged, január Konklúzió A klinikai dokumentumok mind a tartalmuk, mind a nyelvhasználatuk miatt egy doménspecifikus alnyelvet reprezentálnak. Ezeknek a szövegeknek a fő tulajdonsága a nagy mennyiségű zaj jelenléte, ami a helyesírási hibákból, a rövidítésekből és a hiányos szintaktikai szerkezetekből adódik. A szövegekben található információk kinyerését tovább nehezíti, hogy az olyan kis nyelvekre, mint a magyar, nincsenek kész lexikai erőforrások, amiket más nyelvek esetén a szövegekben szereplő kifejezések és a közöttük fennálló kapcsolatok azonosítására gyakran használnak. Ezért az ilyen lexikonok előállítása orvosszakértői feladat. A nyers dokumentumok kezdetleges előfeldolgozással történő átalakítása azonban jelentősen megkönnyítheti és hatékonyabbá teheti ezt a munkát. Cikkünkben olyan korpuszalapú módszereket mutattunk be, amik jól teljesítenek rövidítések automatikus feloldására, többszavas kifejezések felismerésére és ezek hasonlóságának meghatározására. A dokumentumoknak egy olyan félig strukturált reprezentációja jött létre ezeknek a moduloknak az alkalmazásával, ami az emberi feldolgozást támogatja, hatékonyabbá teszi. Továbbá a hasonlósági metrikák által definiált szorosabb vagy lazább kapcsolatok egy relációs tezaurusz építése során annak kezdeti állapotát képző információk is lehetnek. Hivatkozások 1. Sager, N., Lyman, M., Bucknall, C., Nhan, N., Tick, L.J.: Natural language processing and the representation of clinical data. Journal of the American Medical Informatics Association 1(2) (1994) 2. Meystre, S., Savova, G., Kipper-Schuler, K., Hurdle, J.: Extracting information from textual documents in the electronic health record: a review of recent research. Yearb Med Inform 35 (2008) Siklósi, B., Orosz, Gy., Novák, A., Prószéky, G.: Automatic structuring and correction suggestion system for Hungarian clinical records. In De Pauw, G., De Schryver, G.M., Forcada, M., M. Tyers, F., Waiganjo Wagacha, P., eds.: 8th SaLTMiL Workshop on Creation and use of basic lexical resources for less-resourced languages. (2012) Siklósi, B., Novák, A., Prószéky, G.: Context-aware correction of spelling errors in Hungarian medical documents. In Dediu, A.H., Martin-Vide, C., Mitkov, R., Truthe, B., eds.: Statistical Language and Speech Processing. Volume LNAI 7978., Springer Verlag (2013) Orosz, Gy., Novák, A., Prószéky, G.: Lessons learned from tagging clinical Hungarian. International Journal of Computational Linguistics and Applications 5 (2014) 6. Harris, Z.S.: The structure of science information. J. of Biomedical Informatics 35(4) (2002) Friedman, C., Kra, P., Rzhetsky, A.: Two biomedical sublanguages: a description based on the theories of Zellig Harris. Journal of Biomedical Informatics 35(4) (2002) Kate, R.J.: Unsupervised grammar induction of clinical report sublanguage. J. Biomedical Semantics 3(S-3) (2012) S4
12 248 XI. Magyar Számítógépes Nyelvészeti Konferencia 9. Orosz, Gy., Novák, A., Prószéky, G. In: Hybrid text segmentation for Hungarian clinical records. Volume 8265 of Lecture Notes in Artificial Intelligence. Springer- Verlag, Heidelberg (2013) 10. Siklósi, B., Novák, A.: A magyar beteg. In: X. Magyar Számítógépes Nyelvészeti Konferencia, Szeged, Szegedi Tudományegyetem, Informatikai Tanszékcsoport (2014) Siklósi, B., Novák, A., Prószéky, G.: Context-aware correction of spelling errors in Hungarian medical documents. Computer Speech and Language (2014) 12. Navigli, R.: A quick tour of word sense disambiguation, induction and related approaches. In: Proceedings of the 38th Conference on Current Trends in Theory and Practice of Computer Science (SOFSEM). (2012) Nasiruddin, M.: A state of the art of word sense induction: A way towards word sense disambiguation for under-resourced languages. CoRR abs/ (2013) 14. Siklósi, B., Novák, A., Prószéky, G.: Resolving abbreviations in clinical texts without pre-existing structured resources. In: Fourth Workshop on Building and Evaluating Resources for Health and Biomedical Text Processing, LREC (2014) 15. Siklósi, B., Novák, A.: Detection and Expansion of Abbreviations in Hungarian Clinical Notes. In: MICAI 2013: 12th Mexican International Conference on Artificial Intelligence. Volume 8265 of Lecture Notes in Artificial Intelligence., Heidelberg, Springer-Verlag (2013) Frantzi, K., Ananiadou, S., Mima, H.: Automatic recognition of multi-word terms:. the C-value/NC-value method. International Journal on Digital Libraries 3(2) (2000) Carroll, J., Koeling, R., Puri, S.: Lexical acquisition for clinical text mining using distributional similarity. In: Proceedings of the 13th international conference on Computational Linguistics and Intelligent Text Processing - Volume Part II. CICLing 12, Berlin, Heidelberg, Springer-Verlag (2012) Lin, D.: Automatic retrieval and clustering of similar words. In: Proceedings of the 17th international conference on Computational linguistics - Volume 2. COLING 98, Stroudsburg, PA, USA, Association for Computational Linguistics (1998) Ward, J.H.: Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association 58(301) (1963)
ÉRTELMEZŐ ALGORITMUSOK KIDOLGOZÁSA ÉS ALKALMAZÁSUK MAGYAR NYELVŰ KLINIKAI DOKUMENTUMOKRA
NORMÁTÓL ELTÉRŐ (ZAJOS) SZÖVEGEKET ÉRTELMEZŐ ALGORITMUSOK KIDOLGOZÁSA ÉS ALKALMAZÁSUK MAGYAR NYELVŰ KLINIKAI DOKUMENTUMOKRA Doktori értekezés tézisei Siklósi Borbála Roska Tamás Műszaki és Természettudományi
YANG ZIJIAN GYŐZŐ 杨子剑
YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrás szegény domainek hatékony feldolgozására PhD disszertáció tézisfüzete Orosz György Pázmány Péter Katolikus Egyetem Információs
Igekötős szerkezetek a magyarban
Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar Doktori Disszertáció Tézisei Recski Gábor Számítógépes módszerek a szemantikában Nyelvtudományi Doktori Iskola Tolcsvai Nagy Gábor MHAS Elméleti Nyelvészet
Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17
Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott
Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével
Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével Siklósi Borbála 1, Novák Attila 1,2, Prószéky Gábor 1,2, 1 Pázmány Péter Katolikus Egyetem Információs Technológiai
ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation
ZIJIAN GYŐZŐ YANG 杨子剑 Language technology expert specialized in machine translation evaluation PERSONAL E-mail yang.zijian.gyozo@itk.ppke.hu yang.zijian.gyozo@uni-eszterhazy.hu Gender male Place of birth
Magyar nyelvű néprajzi keresőrendszer
Szeged, 2013. január 7 8. 361 Magyar nyelvű néprajzi keresőrendszer Zsibrita János 1, Vincze Veronika 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport zsibrita@inf.u-szeged.hu 2 MTA-SZTE Mesterséges
The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
Az igekötők gépi annotálásának problémái Kalivoda Ágnes
Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás
Gépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.
Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok
Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel. Kutatási terv
Strukturált nyelvi adatbázis létrehozása gépi tanulási módszerekkel Kutatási terv Gábor Kata A kutatásom célja egy strukturált lexikai adatbázis felépítése magyar nyelvre gépi tanulási módszerek alkalmazásával.
Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *
Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben * Vincze Veronika 1. Bevezetés A dolgozat a kollokációk egy altípusának, a félig kompozicionális szerkezeteknek más néven funkcióigés
Klaszterezés, 2. rész
Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket
Lexikon és nyelvtechnológia Földesi András /
Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.
Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint
ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.
Adatbányászati technikák (VISZM185) 2015 tavasz
Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27
Curriculum Vitae Attila Novák
Curriculum Vitae Attila Novák PERSONAL DATA Date of birth: 19 October 1970 Place of birth: Budapest, Hungary Citizenship: Hungarian Marital status: married, 4 children EDUCATION Pázmány Péter Catholic
Ismeretlen kifejezések és a szófaji egyértelm sítés
Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,
A magyar létige problémái a számítógépes nyelvi elemzésben
A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:
Intelligens elektronikus szótár és lexikai adatbázis
Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002 Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés a jelenlegi helyzet: nincs az informatikai
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján Hegedűs István Ajánló rendszerek Napjainkban egyre népszerűbb az ajánló rendszerek alkalmazása A cégeket is hasznos információval
VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség
Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások
Pannon Egyetem Informatikai Tudományok Doktori Iskola Tézisfüzet Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások Kovács Levente Képfeldolgozás és Neuroszámítógépek Tanszék Témavezet
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A
Lexikális behelyettesítés magyarul
Lexikális behelyettesítés magyarul Takács Dávid 1, Gábor Kata 2 1 Prezi, e-mail: takdavid@gmail.com 2 INRIA, e-mail: kata.gabor@inria.fr Kivonat Cikkünkben a lexikális behelyettesítési feladat (lexical
Az ember, a korpusz és a számítógép *
301 Tóth Ágoston Az ember, a korpusz és a számítógép * Magyar nyelvű szóhasonlósági mérések humán és disztribúciós szemantikai kísérletben Abstract The paper reports on the results of two word similarity
SZEMLE. Szemle 89. Cambridge University Press, Cambridge, 2012. 297 lap
Szemle 89 SZEMLE Kertész, András Rákosi, Csilla, Data and Evidence in Linguistics (A Plausible Argumentation Model) [Adatok és evidencia a nyelvészetben (Egy plauzibilis argumentációs modell)] Cambridge
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?
Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.
Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?
A HUNGLISH PÁRHUZAMOS KORPUSZ
A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április
Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése
Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése 1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Természetes nyelv feldolgozás 2 Tudásalapú információ-kereső rendszerek
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:
Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával
Sztöchiometriai egyenletrendszerek minimális számú aktív változót tartalmazó megoldásainak meghatározása a P-gráf módszertan alkalmazásával * Pannon Egyetem, M szaki Informatikai Kar, Számítástudomány
Események detektálása természetes nyelvű szövegekben
Események detektálása természetes nyelvű szövegekben Subecz Zoltán, Nagyné Csák Éva Összefoglalás Az események detektálásának a feladata az esemény-előfordulások azonosítása a szövegekben. Esemény előfordulásnak
KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás
A nyelvtechnológia alapjai
Prószéky Gábor A nyelvtechnológia alapjai 2015/2016 tanév, 1. félév A tantárgy órái 2015-ben 1. óra: szeptember 9. 2. óra: szeptember 16. (elmarad: szeptember 23.) 3. óra: szeptember 30. 4. óra: október
Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra
Szegedi Tudományegyetem Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék Dr. Németh Tamás Előrenéző és paraméter tanuló algoritmusok on-line klaszterezési problémákra SZTE TTIK, Móra Kollégium,
Az építészeti öregedéskezelés rendszere és alkalmazása
DR. MÓGA ISTVÁN -DR. GŐSI PÉTER Az építészeti öregedéskezelés rendszere és alkalmazása Magyar Energetika, 2007. 5. sz. A Paksi Atomerőmű üzemidő hosszabbítása előkészítésének fontos feladata annak biztosítása
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők
OSZTATLAN ANGOL NYELV ÉS KULTÚRA TANÁRA KÉPZÉS TANTERVE (5+1) ÉS (4+1)
OSZTATLAN ANGOL NYELV ÉS KULTÚRA TANÁRA KÉPZÉS TANTERVE (5+1) ÉS (4+1) A képzési és kimeneti követelményeknek való megfelelés bemutatása KÖZÉP- ÉS ÁLTALÁNOS ISKOLAI ANGOL NYELV ÉS KULTÚRA TANÁRKÉPZÉS:
Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint
MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori
A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006.
ÖNELLENŐRZÉS ÉS FUTÁSIDEJŰ VERIFIKÁCIÓ SZÁMÍTÓGÉPES PROGRAMOKBAN OTKA T-046527 A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS 2004-2006. Témavezető: dr. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem
A Mazsola KORPUSZLEKÉRDEZŐ
A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1
Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola
IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.
AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA
AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA Kovács Ernő 1, Füvesi Viktor 2 1 Egyetemi docens, PhD; 2 tudományos segédmunkatárs 1 Eletrotechnikai és Elektronikai Tanszék, Miskolci Egyetem
BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA
BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció
Osztatlan angol nyelv és kultúra tanára képzés tanterve (5+1) és (4+1) A képzési és kimeneti követelményeknek való megfelelés bemutatása
Osztatlan angol nyelv és kultúra tanára képzés tanterve (5+1) és (4+1) A képzési és kimeneti követelményeknek való megfelelés bemutatása KÖZÉP- ÉS ÁLTALÁNOS ISKOLAI ANGOL NYELV ÉS KULTÚRA TANÁR KÉPZÉS:
Intelligens partner rendszer virtuális kórházi osztály megvalósításához
Intelligens partner rendszer virtuális kórházi osztály megvalósításához 1. Célkitűzések A pályázat célja egy virtuális immunológiai osztály kialakítása, amelynek segítségével a különböző betegségekkel
Nyelvi hálózatok és a mentális lexikon
Pannon Egyetem Nyelvtudományi Doktori Iskola Doktori értekezés tézisei Kovács László Nyelvi hálózatok és a mentális lexikon A mentális lexikon (gazdasági) szaknyelvi és (általános) hálózatos szerveződésének
SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből
2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március
Hitelintézeti Szemle Lektori útmutató
Hitelintézeti Szemle Lektori útmutató Tisztelt Lektor Úr/Asszony! Egy tudományos dolgozat bírálatára szóló felkérés a lektor tudományos munkásságának elismerése. Egy folyóirat szakmai reputációja jelentős
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
Magyar és angol szóasszociációs hálózatok vizsgálata. Orosz Katalin Kovács László Pollner Péter
Magyar és angol szóasszociációs hálózatok vizsgálata Orosz Katalin Kovács László Pollner Péter 0. Bevezetés Jelenlegi elképzeléseink szerint a beszédértés és beszédprodukció során előhívott szavakat (és
Milyen a még jobb Humor?
Milyen a még jobb Humor? Novák Attila 1 és M. Pintér Tibor 2 1 MorphoLogic Kft., 1126 Budapest, Orbánhegyi út 5., novak@morphologic.hu 2 MTA Nyelvtudományi Intézete, 1068 Budapest, Benczúr u 33., tpinter@nytud.hu
DR. VINCZE VERONIKA. SZEMÉLYES ADATOK Születési idő: július 1. Állampolgárság: magyar
DR. VINCZE VERONIKA ELÉRHETŐSÉG MTA-SZTE Mesterséges Intelligencia Kutatócsoport 6720 Szeged, Tisza Lajos krt. 103. Telefon: +36-62-54-41-40 Mobil: +36-70-22-99-108 Fax: +36-62-54-67-37 E-mail: vinczev@inf.u-szeged.hu
Novák Attila (2003): Milyen a jó Humor? In: Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2003). Szegedi Tudományegyetem, 138-145
Milyen a jó Humor? Novák Attila MorphoLogic Kft., Budapest novak@morphologic.hu Kivonat. Magyar nyelvű szövegek morfológiai elemzésére elterjedten alkalmazzák a MorphoLogic Kft. által kifejlesztett Humor
Könyvtári szabványok és szabályzatok jegyzéke
Könyvtári szabványok és szabályzatok jegyzéke SZABVÁNY/SZABÁLYZAT LEVÁLTÓ NEMZETKÖZI SZABVÁNY KORÁBBAN (A visszavont szabványok piros színnel kiemelve.) MSZ ISO 4:2000 Információ és dokumentáció. A kiadványok
1.ábra: A Beszédmester nyitóképe
A Beszédmester beszédjavítás-terápiai és olvasásfejlesztő rendszer és informatikai aspektusai Kocsor András 1, Papp Gabriella 2, Bácsi János 3, Mihalovics Jenő 4 Bevezetés A Beszédmester az OM támogatásával
Élpont osztályozáson alapuló robusztus tekintetkövetés
KÉPFELDOLGOZÁS Élpont osztályozáson alapuló robusztus tekintetkövetés HELFENBEIN TAMÁS Ipari Kommunikációs Technológiai Intézet, Bay Zoltán Alkalmazott Kutatási Közalapítvány helfenbein@ikti.hu Lektorált
Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)
Különírás-egybeírás automatikusan
Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia
VI. Magyar Földrajzi Konferencia 524-529
Van Leeuwen Boudewijn Tobak Zalán Szatmári József 1 BELVÍZ OSZTÁLYOZÁS HAGYOMÁNYOS MÓDSZERREL ÉS MESTERSÉGES NEURÁLIS HÁLÓVAL BEVEZETÉS Magyarország, különösen pedig az Alföld váltakozva szenved aszályos
Sémi összehasonlító nyelvészet
Sémi összehasonlító nyelvészet BMA-HEBD-303 Biró Tamás 5. A nyelvtörténeti rekonstrukció alapjai. Jelentéstan. 2016. március 30. Összehasonlító rekonstrukció: alapok A történeti rekonstrukció klasszikus
Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben
Mérnök informatikus mesterszak mintatanterve (GE-MI) nappali tagozat/ MSc in, full time Érvényes: 2011/2012. tanév 1. félévétől, felmenő rendszerben Tantárgy Tárgykód I. félév ősz II. félév tavasz Algoritmusok
Online információkeresés. Dr. Nyéki Lajos 2016
Online információkeresés Dr. Nyéki Lajos 2016 Dokumentum és információ A dokumentum az ismeretek lelőhelye, hordozója. Az információkeresés viszont nem dokumentumokra irányul. A dokumentumgyűjtemények
Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.
Doktori (Ph.D.) értekezés tézisei A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával Hócza András Témavezet : Gyimóthy Tibor, PhD Szegedi Tudományegyetem
A szegénység fogalmának megjelenése a magyar online médiában
A szegénység fogalmának megjelenése a magyar online médiában Tartalomelemzés 2000 január és 2015 március között megjelent cikkek alapján Bevezetés Elemzésünk célja, hogy áttekintő képet adjunk a szegénység
Függvények növekedési korlátainak jellemzése
17 Függvények növekedési korlátainak jellemzése A jellemzés jól bevált eszközei az Ω, O, Θ, o és ω jelölések. Mivel az igények általában nemnegatívak, ezért az alábbi meghatározásokban mindenütt feltesszük,
Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló
Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time)
Mérnök informatikus (BSc) alapszak levelező tagozat (BIL) / BSc in Engineering Information Technology (Part Time) (specializáció választás a 4. félévben, specializációra lépés feltétele: az egyik szigorlat
Minőségtanúsítás a gyártási folyamatban
Minőségtanúsítás a gyártási folyamatban Minőség fogalma (ISO 9000:2000 szabvány szerint): A minőség annak mértéke, hogy mennyire teljesíti a saját jellemzők egy csoportja a követelményeket". 1. Fogalom
Elliptikus listák jogszabályszövegekben
Szeged, 2015. január 15 16. 273 Elliptikus listák jogszabályszövegekben Hamp Gábor 1, Syi 1, Markovich Réka 2,3 1 BME Szociológia és Kommunikáció Tanszék 1111 Budapest, Egry József u. 1. hampg@eik.bme.hu,
Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján
Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján Schrádi Tamás schraditamas@aut.bme.hu Automatizálási és Alkalmazott Informatikai Tanszék BME A feladat A webszerverek naplóállományainak
PurePos: hatékony morfológiai egyértelműsítő modul
PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás
KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató
KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / 2014.10.16. Mezei Ferenc üzletág-igazgató Hasonló, mégis más Ez se rossz amíg ezt ki nem próbáltad!
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz
Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz Szekér Szabolcs 1, Dr. Fogarassyné dr. Vathy Ágnes 2 1 Pannon Egyetem Rendszer- és Számítástudományi Tanszék, szekersz@gmail.com
Angol nyelvű összetett kifejezések automatikus azonosítása i
Angol nyelvű összetett kifejezések automatikus azonosítása i Nagy T. István SZTE TTIK Informatikai Doktori Iskola nistvan@inf.u-szeged.hu Kivonat: A jelen munkában az angol nyelvű összetett kifejezések
Adatmodellezés. 1. Fogalmi modell
Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)
Optikai karakterfelismerés
Optikai karakterfelismerés Az optikai karakterfelismerés feladata A különböző formátumú dokumentumok kezelésének egyik speciális esete, amikor a kezelendő dokumentumok még nem állnak rendelkezésre elektronikus
Önálló labor feladatkiírásaim tavasz
Önálló labor feladatkiírásaim 2016. tavasz (ezekhez kapcsolódó saját témával is megkereshetnek) Mészáros Tamás http://www.mit.bme.hu/~meszaros/ Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika
Adatbázis rendszerek 6.. 6. 1.1. Definíciók:
Adatbázis Rendszerek Budapesti Műszaki és Gazdaságtudományi Egyetem Fotogrammetria és Térinformatika 6.1. Egyed relációs modell lényegi jellemzői 6.2. Egyed relációs ábrázolás 6.3. Az egyedtípus 6.4. A
Vezetői információs rendszerek
Vezetői információs rendszerek Kiadott anyag: Vállalat és információk Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/vezetoi_inf_rd 1 A vállalat, mint információs rendszer
Beszédfelismerés, beszédmegértés
Beszédfelismerés, beszédmegértés Werner Ágnes Beszéd, ember-gép kapcsolat A beszéd az emberek közötti legtermészetesebb információátviteli forma. Az ember és a gép kapcsolatában is ez lehetne talán a legcélravezetőbb,
Miskolci Egyetem Általános Informatikai Tanszék
Software tesztelés Miskolci Egyetem Általános Informatikai Tanszék Software tesztelés SWTESZT / 1 A tesztelés feladata Két alapvető cél rendszerben található hibák felderítése annak ellenőrzése, hogy a
A tesztelés feladata. Verifikáció
Software tesztelés Miskolci Egyetem Általános Informatikai Tanszék Software tesztelés SWTESZT / 1 A tesztelés feladata Két alapvető cél rendszerben található hibák felderítése annak ellenőrzése, hogy a
A SZAKIRODALOM HASZNA ÉS SZERKEZETE
SZAKIRODALMAZÁS A SZAKIRODALOM HASZNA ÉS SZERKEZETE Bevezetés Kétféle ismeret van: magunk rendelkezünk a szükséges információval, vagy tudjuk, hogy az hol lelhető fel. (Samuel Johnson) Évente kb. 60 millió
Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged
Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt
Rendszer szekvencia diagram
Rendszer szekvencia diagram Célkitűzések A rendszer események azonosítása. Rendszer szekvencia diagram készítése az eseményekre. 2 1.Iteráció Az első igazi fejlesztési iteráció. A projekt kezdeti szakaszában
Közösség detektálás gráfokban
Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával
Probabilisztikus modellek V: Struktúra tanulás. Nagy Dávid
Probabilisztikus modellek V: Struktúra tanulás Nagy Dávid Statisztikai tanulás az idegrendszerben, 2015 volt szó a normatív megközelítésről ezen belül a probabilisztikus modellekről láttatok példákat az
Modellkiválasztás és struktúrák tanulása
Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális
EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA
infokommunikációs technológiák EGYÜTTMŰKÖDŐ ÉS VERSENGŐ ERŐFORRÁSOK SZERVEZÉSÉT TÁMOGATÓ ÁGENS RENDSZER KIDOLGOZÁSA Témavezető: Tarczali Tünde Témavezetői beszámoló 2015. január 7. TÉMAKÖR Felhő technológián