Az enyhe kognitív zavar automatikus azonosítása beszédátiratok alapján



Hasonló dokumentumok
KOREFERENCIAVISZONYOK AZ ENYHE KOGNITÍV ZAVARBAN SZENVEDŐK BESZÉDÁTIRATAIBAN. Kovács Viktória SZTE Nyelvtudományi Doktori Iskola

Az enyhe kognitív zavar automatikus azonosítása beszédfelismerési technikák használatával

Ismeretlen kifejezések és a szófaji egyértelm sítés

Koreferenciaviszonyok vizsgálata enyhe kognitív zavarban szenvedők beszédátirataiban i

Beszédadatbázis irodai számítógép-felhasználói környezetben

A évi integritásfelmérések céljai, módszertana és eredményei

Statikus és dinamikus elektroenkefalográfiás vizsgálatok Alzheimer kórban

Neményi Mária Takács Judit Az apák családi szerepvállalása védőnői tapasztalatok tükrében. Kutatási összefoglaló

A korai kéttannyelvű oktatás hatása a kisiskolások anyanyelvi szövegértési és helyesírási kompetenciájára

K u t a t á s. Demensek a szociális ellátórendszerben. Gyarmati Andrea

VI. Magyar Földrajzi Konferencia


Életvégi döntések az intenzív terápiában az újraélesztés etikai és jogi vonatkozásai

A paradicsom dinamikus terheléssel szembeni érzékenységének mérése

A PÁLYÁZAT LEFOLYÁSA, SZEMÉLYI, TARTALMI VÁLTOZÁSAI

Demens betegek ellátásának

Pszichológia témájú tájékoztató vélemény. Általános tájékoztató

TARTALOM. Bekezdések Bevezetés A jelen Nemzetközi Könyvvizsgálati Standard hatóköre 1 Hatálybalépés időpontja 2 Cél 3 Fogalmak 4 Követelmények

Fogyatékossággal élő emberek életminősége és ellátási költségei különböző lakhatási formákban

Vállalkozás alapítás és vállalkozóvá válás kutatás zárójelentés

gyógypedagógus, SZT Bárczi Gusztáv Egységes Gyógypedagógiai Módszertani Intézmény 2

Reumás láz és sztreptokokkusz-fertőzés utáni reaktív artritisz

T Zárójelentés

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

Állami Számvevőszék ELEMZÉS a évi integritás felmérés óvodák, bölcsődék intézménycsoportban mért eredményeiről május

Az életpálya-tanácsadási on-line és off-line szolgáltatások hatékonyság-mérési módszertana a Nemzeti Pályaorientációs Portálon keresztül

és függetlenített apparátusának összetétele a számok tükrében

VÉKONYLEMEZEK ELLENÁLLÁS-PONTKÖTÉSEINEK MINŐSÉGCENTRIKUS OPTIMALIZÁLÁSA

A stresszteli életesemények és a gyermekkori depresszió kapcsolatának vizsgálata populációs és klinikai mintán

A nyelvtechnológia alapjai

A közlésfolyamat fonológiai szerveződése: szerkezetismétlő műveletek afáziások beszédében

KIFEJEZÉSE: A GAMMA KOEFFICIENS. Csapó Benő Szegedi Tudományegyetem, Neveléstudományi Tanszék MTA-SZTE Képességkutató Csoport

Az OECD nemzetközi gazdasági szervezet (Organisation for Economic Co-operation

ˇ Ez a gyógyszer orvosi rendelvény nélkül kapható. Mindemellett az optimális hatás érdekében elengedhetetlen e gyógyszer körültekintő alkalmazása.

Növelhető-e a csőd-előrejelző modellek előre jelző képessége az új klasszifikációs módszerek nélkül?

Számítógépes nyelvészet

TIMSS & PIRLS Tanári kérdőív. online. 4. évfolyam. Azonosító címke

A Margit híd pillérszobrának 3D-s digitális alakzatrekonstrukciója Nagy Zoltán 1 Túri Zoltán 2

Tartalom MMSZ. Az élővel tégy jót! Euripidész. III. évfolyam / 2. szám Hírlevél június. 1/2000. (I.7.) SZCSM rendelet módosításáról

A kutatási projekt keretében a következő feladatokat tűztük ki:

A PÉNZÜGYI SZERVEZETEK ÁLLAMI FELÜGYELETÉNEK KONZULTÁCIÓS ANYAGA

Érzelmi megterhelődés, lelki kiégés az egészségügyi dolgozók körében

Akilencvenes évek elejétõl a magyar gazdaság és társadalom gyors átrendezõdésen. tanulmány

mtatk A kistérségi gyerekesély program és az általános iskolai oktatás teljesítményének összefüggése MTA TK Gyerekesély Műhelytanulmányok 2015/3

AZ ÚJSÁGÍRÓK SAJTÓSZABADSÁG- KÉPE -BEN MAGYARORSZÁGON

magyar nyelvű szövegekben

Mobiltelefon alapú játékok elmléleti és gyakorlati megközelítése

A pszichológusok és a lelkészek halálképének vizsgálata

A MAGYAR HONVÉDSÉG CENTRALIZÁLT BESZERZÉSÉNEK TÖRTÉNETE

A döntésorientált hibamód és hatáselemzés módszertanának tapasztalatai az AUDI Motor Hungária Kft.-nél

T.A.B.B.Y., AVAGY ISKOLAI BÁNTALMAZÁS AZ INTERNETEN A MAGYARORSZÁGI KUTATÁS EREDMÉNYEI

MultiMédia az oktatásban

Középiskolások felolvasásának időviszonyai a vizuális információ függvényében

A pályakezdő szakmunkások munkaerő-piaci helyzete 2016

A zsírszövet mellett az agyvelő lipidekben leggazdagabb szervünk. Pontosabban az agy igen gazdag hosszú szénláncú politelítetlen zsírsavakban

Ph.D. ÉRTEKEZÉS TÉZISEI

4. Hazai kísérletek a lokális térségek versenyképességének elemzésére

Összehasonlító értékkutatás diplomás ápolóhallgatók és pedagógushallgatók körében

MULTIMÉDIA ALAPÚ OKTATÁSI TECHNOLÓGIÁK GYAKORLATI ALKALMAZÁSÁNAK VIZSGÁLATA A KATONAI SZAKNYELVOKTATÁSBAN

A tanári és a tanulói beszéd vizsgálata

Szakmai zárójelentés

Központi Statisztikai Hivatal. A gazdaság szerkezete az ágazati kapcsolati. mérlegek alapján

ÁPOLÓI KOMPETENCIÁK MÉRÉSE KÜLÖNÖS TEKINTETTEL A TERÜLETI GYAKORLATOKRA Doktori tézisek Tulkán Ibolya

es TANÉV OKTATÁSI BESZÁMOLÓJA

1.ábra: A Beszédmester nyitóképe




A 2-es típusú diabetes szövődményeinek megelőzési lehetőségei az alapellátásban

Vásárosnaményi kistérség

BARANYA MEGYEI TANULÓK TUDÁSSTRUKTÚRÁI. Takács Viola

A KÖRNYEZETI INNOVÁCIÓK MOZGATÓRUGÓI A HAZAI FELDOLGOZÓIPARBAN EGY VÁLLALATI FELMÉRÉS TANULSÁGAI

TIMSS & PIRLS Iskolai kérdőív. online. 4. évfolyam. Azonosító címke

AKTUÁTOR MODELLEK KIVÁLASZTÁSA ÉS OBJEKTÍV ÖSSZEHASONLÍTÁSA

Ha egyetlen mondatban kellene összefoglalnunk A tekintélyelvű

TÁVOKTATÁSI TANANYAGOK FEJLESZTÉSÉNEK MÓDSZERTANI KÉRDÉSEI

A BESZÉDPRODUKCIÓ ÉS BESZÉDPERCEPCIÓ ÖSSZEFÜGGÉSEI: AZ ELHANGZÓ HÍREK FELDOLGOZÁSA

Tudományos következtetések

Miért tanulod a nyelvtant? Nyelvtani kiskalauz

Herpainé Márkus Ágnes - Kaló Róbert -Sarlósi Tibor

A KUTATÁS EREDMÉNYEI ZÁRÓJELENTÉS

Regionális és megyei szakiskolai tanulói létszámok meghatározása

AZ EGÉSZSÉGGEL KAPCSOLATOS ÉLETSTÍLUS: BETEGVISELKEDÉS ÉS EGÉSZSÉGVISELKEDÉS. Dr. Szántó Zsuzsanna Magatartástudományi Intézet TÉZISEK

Idősvonal kommunikáció, tudatos tervezés, életút

A FOREST LABORATORIES, INC. ÉS A RICHTER GEDEON NYRT

A VIDÉK JÖVÕJE AZ AGRÁRPOLITIKÁTÓL A VIDÉKPOLITIKÁIG

Hazánkban jelentõs múlttal rendelkeznek a klasszikus tesztelméleti módszerekkel

Kihívások és lehetőségek a tudományterületek határán

Hallássérült középiskolások mentális lexikona a szóasszociációk tükrében

A REJTETT GAZDASÁG KITERJEDÉSE 1997-BEN*

III. melléklet Az Alkalmazási előírás és a Betegtájékoztató egyes fejezeteinek módosításai

Az alapvető jogok biztosának Jelentése az AJB-5213/2014. számú ügyben

BUDAPEST XXI. KERÜLET CSEPEL ÖNKORMÁNYZATA 2007.

MAGYAR DOKTORANDUSZOK A SZOMSZÉDOS ORSZÁGOKBAN

A SZAKÉRTŐI ÉRTÉKELÉS JELENTŐSÉGÉRŐL 1

Az egészségügyi ellátás minőségének SERVQUAL szempontú mérése

A BIZOTTSÁG JELENTÉSE A TANÁCSNAK ÉS AZ EURÓPAI PARLAMENTNEK. A tagállamoknak a Számvevőszék 2012-es évről szóló éves jelentésére adott válaszai

A Nemzeti Adó- és Vámhivatal által kiadott 3013/2014. útmutató a passzív feldolgozásról. 1. Általános rendelkezések. 2. Hatókör


Az enyhe értelmi fogyatékos fővárosi tanulók 2009/2010. tanévi kompetenciaalapú matematika- és szövegértés-mérés eredményeinek elemzése

Átírás:

Szeged, 2014. január 15 16. 249 Az enyhe kognitív zavar automatikus azonosítása beszédátiratok alapján Vincze Veronika 1,2, Hoffmann Ildikó 3,4, Szatlóczki Gréta 4, Bíró Edit 5, Gosztolya Gábor 2, Tóth László 2, Pákáski Magdolna 5, Kálmán János 5 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport, Szeged, Árpád tér 2., e-mail: vinczev@inf.u-szeged.hu 2 MTA-SZTE Mesterséges Intelligencia Kutatócsoport, Szeged, Tisza Lajos körút 103., e-mail: {ggabor,tothl}@inf.u-szeged.hu 3 Szegedi Tudományegyetem, Magyar Nyelvészeti Tanszék, Szeged, Egyetem u. 2., e-mail: {hoffmannildi,szatloczkigreti}@gmail.com 4 MTA Nyelvtudományi Intézet Budapest, Benczúr u. 33. 5 Szegedi Tudományegyetem, Pszichiátriai Klinika, Szeged, Kálvária sugárút 57. e-mail: edit17@gmail.com, magdolna.pakaski@gmail.com, kalman.janos@med.u-szeged.hu Kivonat Ebben a munkában az enyhe kognitív zavarban szenvedő páciensek automatikus azonosítására törekszünk beszédátirataik alapján. A rendszer elsődlegesen beszélt nyelvi sajátosságokra, illetve a beszédátiratok automatikus morfológiai és szintaktikai elemzésén alapuló jellemzőkre épül. Cikkünkben elemezzük az egyes jellemzők megkülönböztető szerepét mind statisztikai, mind gépi tanulási szempontból. Eredményeink alapján elsődlegesen a morfológiai jellemzők és a beszédjellemzők bírnak fontos szereppel a páciensek státuszának automatikus megállapításában. Kulcsszavak: enyhe kognitív zavar, demencia, gépi tanulás, beszédátirat 1. Bevezetés Az enyhe kognitív zavar olyan tünetegyüttes, melynek fontos szerepe van az Alzheimer-kór korai felismerésében [1]. Tünetei már akár kilenc évvel a tényleges diagnózis előtt jelentkezhetnek, például nyelvi zavarok formájában [2]. Így tehát sok esetben a páciensek nyelvhasználata alapján már a demencia tényleges klinikai megjelenése előtti fázisban is megállapíthatók az enyhe kognitív zavar jelei. Nagyon sok beteg esetében az enyhe kognitív zavart egyáltalán nem diagnosztizálják, mivel a kognitív képességek károsodásának felismerése a betegség korai szakaszában még a szakértők számára sem triviális, egyes becslések szerint [3] a demenciában szenvedő betegek akár 50%-a sem részesül a megfelelő diagnózisban. Ugyan léteznek a Mini Mental Teszthez hasonló, széles körben használt szűrővizsgálatok, ezek azonban többnyire nem elég érzékenyek ahhoz, hogy megbízhatóan kimutassák az enyhe kognitív zavart annak korai szakaszában. A nyelvi

250 XI. Magyar Számítógépes Nyelvészeti Konferencia memória tesztelésére irányuló szűrővizsgálatok hatékonyabbak az enyhe kognitív zavar felismerésében, azonban sok esetben tévesen betegnek diagnosztizálják az egyébként egészséges pácienst [4]. Mind a mai napig kutatás tárgyát képezi, hogy milyen tesztek és vizsgálatok képesek a legérzékenyebben kimutatni a korai Alzheimer-kórban és egyéb demenciákban megjelenő kognitív és nyelvi változásokat [5]. Noha a nyelvi képességek károsodása már a betegség igen korai szakaszában is jelentkezik, a nyelvi képességek értékelésére mégsem fordítottak kellő figyelmet az Alzheimer-kór diagnosztizálása során [6]. A demencia korai felismerésének és pontos diagnosztizálásának igen fontos szerepe van abban, hogy a szakszerű kezelés megindításával a betegség előrehaladása lelassuljon, illetve az új tünetek megjelenése minél később következzen be [7]. Ebben a munkában az enyhe kognitív zavarban szenvedő páciensek automatikus azonosítására törekszünk beszédátirataik alapján. A rendszer elsődlegesen beszélt nyelvi sajátosságokra, illetve a beszédátiratok automatikus morfológiai és szintaktikai elemzésén alapuló jellemzőkre épül. Távlati célunk egy olyan automatikus rendszer kifejlesztése, amely képes az enyhe kognitív zavarra jellemző nyelvi tünetek időben történő detektálására, így a személy még időben megfelelő kezelésben tud részesülni. Fontosnak tartjuk azonban elmondani, hogy semmi esetre sem kívánjuk a pácienseket automatikusan diagnosztizálni, hiszen ez orvosi szakértelmet és gyakorlatot kívánó feladat. A mesterséges intelligencia eszközeivel azonban egyfajta szűrővizsgálatot tudunk létrehozni, melynek során kiszűrjük a rizikócsoportba sorolt pácienseket, akiket a későbbiek folyamán szakorvosok vizsgálnak meg, felállítva a tényleges diagnózist. 2. Anyagok Vizsgálatainkban 69 személy beszédátiratait használtuk fel. A vizsgáltak mindegyike azonos feladatot kapott: spontán beszéd keretében fel kellett idézniük két rövid történetet, illetve a tegnapi napjukat. A vizsgálati személyek teljes nyelvi produkciójáról hangfelvétel készült. Az adatfelvételre minden esetben a szegedi memóriaambulancián került sor. A fentebb ismertetett felvételek hanganyagához nyelvész szakértők kézzel készítettek beszédátiratokat. Jelenlegi kutatásainkban e kézi leiratok képezték nyelvtechnológiai vizsgálataink alapját, vagyis csakis írásbeli jellemzőkkel dolgoztunk, azonban a hanganyagok beszédtechnológiai vizsgálata is zajlik kutatásainkkal egyidejűleg. Minden vizsgált személy esetében rendelkezésünkre állt a pontos orvosi diagnózis, azaz ismert volt, hogy az illető szenved-e enyhe kognitív zavarban vagy más demenciában. Ezen információk alapján két csoportba soroltuk a vizsgált személyeket: enyhe kognitív zavarban szenvedők (39 személy tartozott ide) és kontrollcsoport (30 személlyel). A nemek, illetve diagnózis szerinti megoszlást az 1. táblázat mutatja. Vizsgálataink során a betegek személyes adatait teljes mértékben bizalmasan és az adatvédelmi előírásoknak megfelelően kezeltük.

Szeged, 2014. január 15 16. 251 1. táblázat. A betegek adatai. Enyhe kognitív zavar Kontroll Összesen Férfi 14 11 25 Nő 25 19 44 Összesen 39 30 69 3. Nyelvi sajátosságok a beszédátiratokban A beszédátiratokra jellemző nyelvi sajátságokat az alábbi példa segítségével mutatjuk be. Tegnap ö.. hát általába én nyolc órakor kelek... fél kilenc körül szedem be a gyóccereimet tehát közbe eszek ö a gyóccerekre tehát mire az utolsó cukorgyógyszer is bekerül... öhhöhh mm kávét iszok ö... utánna.. feltkáva ha van főzve akkor ö megiszom a gyerekektöl maratt megiszom ha nem akkor teszek föl... De tegnap ö volt és utánna megittam és tettem föl... utánna vo elötte már bekapcsoltam a számítógépet mivel öüöü hát nem könyvelés hanem tehát adatrögzitést csinálok... és akkor ö tehát az küldöm be a cégnek... és ö... eszt ö mekcsináltam.. Közben az internet elment nálam és ö akkor mégegyszer megcsináltam a műveletet... és akkor kérdesztem a titkárnőt hogy ö.. ement az első üzenet, tehát aa fájlátvitel... éss ily ez eszt már délután kérdesztem mer egész nap ott volt... höhö... nem egész nap hanem olyan jó délig ott volt mondom bisztos nem ér rá mer láttam hogy ott van a szkájtnál... és akkor öö ö... A fenti beszédátirat jól tükrözi az élőbeszéd sajátosságait. Egyrészt számtalan, hezitációt, illetve néma szünetet jelölő formát tartalmaz (ö, höhö,...), másrészt mivel a beszédátiratok a kiejtést híven követik, találhatunk bennük fonológiai törléseket (mer, ement) és nyújtásokat is (utánna). Kettős szóindítások is előfordulnak (ez ezt) különféle szótévesztések mellett (hát nem könyvelés hanem tehát adatrögzítést), ezeken felül pedig a vizsgálati személyek által újonnan alkotott, és ily módon a nyelvhasználatban nem elterjedt egységeket is találhatunk (feltkáva). A beszédátiratok vizsgálata arra is rámutatott, hogy érdemes figyelmet fordítani a töltelékszavakra is. Többek között a következő szavakat és kifejezéseket soroltuk ebbe a kategóriába: ilyen, olyan, izé, és aztán, és akkor, illetve a határozatlan névmásokat, úgymint valamilyen, valahogy, valamerre 1. Úgy tűnik, hogy élőbeszédben az enyhe kognitív zavarban szenvedők gyakran helyettesítenek szavakat határozatlan névmásokkal vagy valamilyen töltelékszóval. Melléknevek helyett pedig előszeretettel használnak parafrázisokat. Ennek megfelelően nem ritkák az egy ilyen bagolyszerűség vagy az olyan délelőtt volt körülíró, bizonytalanságra utaló kifejezések. 1 E szavak hasonlítanak a bizonytalanságot jelző ún. weasel és hedge szavakra [8].

252 XI. Magyar Számítógépes Nyelvészeti Konferencia 4. Módszerek A vizsgálati személyek státuszának automatikus megállapítására gépi tanulási kísérleteket végeztünk. A feladatra bináris osztályozásként tekintettünk: a vizsgálati személyt az enyhe kognitív zavarban szenvedő, illetve az egészséges csoportok valamelyikébe soroltuk be a rendelkezésre álló beszédátirataik alapján. Első lépésben a beszédátiratokat automatikus nyelvi előelemzésnek vetettük alá a magyarlanc elemző [9] segítségével. Az elemzés eredményeképpen a szövegeket mondatra, illetve szavakra bontottuk, a szavakhoz morfológiai elemzést rendeltünk, illetve a mondatokhoz szintaktikai (függőségi) elemzést is társítottunk. Az osztályozáshoz többek között felhasználtuk a beszédátiratok automatikus elemzéséből gyűjtött morfológiai, szintaktikai és szemantikai jellemzőket is. Minden egyes vizsgált személy három felidézési feladatot kapott. Mivel úgy gondoljuk, hogy memóriazavarról lévén szó maguknak a feladatoknak a sorrendje is hasznos információt hordozhat a személy státuszának megállapításában, az egyes feladatokhoz tartozó beszédátiratokat külön-külön dolgoztuk fel, azaz egyegy beteg esetében három szöveggel dolgoztunk, és ezekben külön-külön vizsgáltuk az alább részletezendő nyelvi jellemzőket. 4.1. Felhasznált jellemzők Vizsgálataink során számos, a beszédátiratokból, illetve azok automatikus nyelvi elemzéséből származó jellemzőt használtunk fel, melyek között találhatunk beszélt nyelvi, morfológiai és szemantikai jellemzőket is. Az alkalmazott jellemzőtér a következő volt: Beszédjellemzők: kitöltött szünetek száma; néma szünetek száma; hezitációk száma; hezitációk aránya; névelőt követő szünetek száma; nyújtások száma. Morfológiai jellemzők: szavak száma; írásjelek száma; főnevek száma; igék száma; ismeretlen szavak száma; ismeretlen szavak aránya. Szemantikai jellemzők: bizonytalan szavak száma; bizonytalan szavak aránya; emlékezetre utaló kifejezések száma; emlékezetre utaló kifejezések aránya. Demográfiai jellemzők: nem; születési év.

Szeged, 2014. január 15 16. 253 4.2. A jellemzők statisztikai elemzése Statisztikai vizsgálatokat is végeztünk annak érdekében, hogy kiderítsük, mely jellemzők bírnak a legnagyobb megkülönböztető erővel. Ennek érdekében minden egyes jellemzőre és szövegre lebontva kétmintás t-próbát végeztünk az adott jellemző szerepét vizsgálva az enyhe kognitív zavarban szenvedők és a kontrollcsoport tagjainak elkülönítésében. Azt találtuk, hogy a jellemzők nagy része statisztikailag szignifikáns különbségeket mutat a két csoport között, az ezekhez tartozó szignifikanciaszinteket (p-értékeket) részletesen a 2. táblázat ismerteti. 2. táblázat. Statisztikailag szignifikáns jellemzők. Jellemző 1. szöveg 2. szöveg 3. szöveg szavak száma 0,0028 hezitációk száma 0,0083 0,0019 0,0012 bizonytalan szavak száma 0,0188 0,0006 ismeretlen szavak száma 0,0354 hezitációk aránya 0,0033 0,0012 bizonytalan szavak aránya 0,0216 0,0007 mondatbeli szavak száma 0,0133 0,0435 0,0404 néma szünetek száma 0,0073 0,0011 0,0024 nyújtások száma 0,0031 főnevek száma 0,0331 írásjelek száma 0,0187 A táblázatból kitűnik, hogy a hezitációk száma, mondatbeli szavak száma és a néma szünetek száma mindhárom szövegtípus esetében szignifikáns eltéréseket mutat a két csoport között. A bizonytalan szavak szintén fontos indikátornak tűnnek. Ezek alapján arra következtethetünk, hogy minél több hezitáció, illetve szünet található a beszédátiratban, illetve minél rövidebbek a mondatok és minél több a bizonytalan szó, annál nagyobb a valószínűsége, hogy a beteg enyhe kognitív zavarban szenved. A születési év, pontosabban az életkor is szignifikáns különbséget mutat: az 1943 előtt született személyek (vagyis akik a vizsgálat idején legalább 71 évesek voltak) nagyobb valószínűséggel szenvednek enyhe kognitív zavarban, mint az ennél fiatalabbak (p < 0,0309). 4.3. Gépi tanulási kísérletek Az enyhe kognitív zavarban szenvedő személyek automatikus azonosítására gépi tanulási kísérleteket is végeztünk a beszédátiratokon. A Weka szoftver [10] segítségével több gépi tanuló algoritmust is kipróbáltunk, és az előzetes mérések alapján a legeredményesebbnek a döntési fa (C4.5) algoritmus [11] tűnt, valamivel meghaladva az SVM-mel [12] elért eredményeket, így a továbbiakban döntési fákat alkalmaztunk. Méréseikben a fenti jellemzőket vettük alapul. 69 személy adataival dolgoztunk leave-one-out módszerrel, azaz 68 személy adatain tanítottuk a rendszert,

254 XI. Magyar Számítógépes Nyelvészeti Konferencia majd az így felépített modell alapján jósoltuk meg a hiányzó 1 státuszát. Ezt a folyamatot 69-szer ismételtük meg, amíg minden egyes személy státuszára kaptunk egy predikciót. A kiértékeléshez a pontosság (accuracy) metrikát alkalmaztuk, emellett a pontosság, fedés, F-mérték metrikákat is használtuk, osztályokra is kivetítve. Az eredmények a 3. táblázatban láthatók. 3. táblázat. Eredmények. EKZ: enyhe kognitív zavar, SVM: Support Vector Machine, C4.5: döntési fák, P: pontosság (precision), R: fedés, F: F-mérték, %: pontosság (accuracy). EKZ Kontroll Teljes Módszer P R F P R F P R F % SVM 0,721 0,795 0,756 0,692 0,600 0,643 0,708 0,710 0,707 71,01 C4.5 0,794 0,692 0,740 0,657 0,767 0,708 0,735 0,725 0,726 72,46 Az egyes jellemzőcsoportok hozzáadott értékét is szerettük volna megvizsgálni. Ennek érdekében porlasztásos méréseket is végeztünk, melyek során egy adott jellemzőcsoportot kivettünk a gépi tanuló által használt adatok közül. Eredményeinket a 4. táblázat szemlélteti. 4. táblázat. Porlasztásos eredmények. EKZ: enyhe kognitív zavar, SVM: Support Vector Machine, C4.5: döntési fák, P: pontosság (precision), R: fedés, F: F- mérték, %: pontosság (accuracy). Hiányzó EKZ Kontroll Teljes jellemzők P R F P R F P R F % kül. beszéd 0,629 0,564 0,595 0,500 0,567 0,531 0,573 0,565 0,567 56,52-15,94 morfológia 0,550 0,564 0,557 0,414 0,400 0,407 0,491 0,493 0,492 49,28-23,18 szemantika 0,703 0,667 0,684 0,594 0,633 0,613 0,655 0,652 0,653 65,22-7,24 demográfia 0,765 0,667 0,712 0,629 0,733 0,677 0,706 0,696 0,697 69,57-2,89 5. Eredmények A teljes jellemzőkészlet használatával 72,46%-os pontosságot értünk el a C4.5 algoritmussal, azaz a 69 esetből 50-szer állapított meg a rendszer pontos diagnózist. Az eredmények alapján van néhány olyan jellemző, amely igen fontosnak bizonyul a páciensek státuszának automatikus megállapításában. A legfontosabb jellemzőknek a következők bizonyultak: bizonytalanságot jelző szavak száma; hezitációk száma; szünetek száma; ismeretlen szavak aránya; főnevek száma. Amennyiben összevetjük a két gépi tanuló által használt eredményeket, érdekes különbségeket láthatunk a két osztályt nézve. Az enyhe kognitív zavarban szenvedő páciensek megtalálásában jobban teljesít az SVM, mint a C4.5

Szeged, 2014. január 15 16. 255 algoritmus (0,795 fedési értékkel, szemben a 0,692-vel), a pontosság viszont alacsonyabb; a kontrollcsoport esetében viszont fordított a helyzet. Ha tehát az a célunk, hogy a lehetséges betegeknek minél nagyobb arányát fedjük le az automatikus szűrővizsgálattal (akiket aztán tovább lehet irányítani orvosi konzultációra), akkor talán célravezetőbb az SVM használata, ez a feltevés azonban további vizsgálatokat igényel. Az egyes jellemzőcsoportok hozzáadott értékét megvizsgálandó porlasztásos méréseket is végeztünk a C4.5 algoritmussal. Ezek alapján a legtöbb hozzáadott értéke a morfológiai, illetve a beszédjellemzőknek van, ugyanakkor mindegyik jellemzőcsoport hozzájárult a rendszer pontosságának növeléséhez. 6. Összegzés Ebben a munkában bemutattuk az enyhe kognitív zavarban szenvedő személyek automatikus azonosítását beszédátirataik alapján megcélző rendszerünket. A rendszer elsődlegesen beszélt nyelvi sajátosságokra, illetve a beszédátiratok automatikus morfológiai és szintaktikai elemzésén alapuló jellemzőkre épül. Megvizsgáltuk az egyes jellemzők megkülönböztető szerepét mind statisztikai, mind gépi tanulási szempontból. Az eredmények azt igazolják, hogy elsődlegesen a morfológiai jellemzők és a beszédjellemzők bírnak fontos szereppel a vizsgálati személyek státuszának automatikus megállapításában. A későbbiekben szeretnénk adatbázisunkat újabb személyek beszédátirataival bővíteni, illetve gépi tanuló rendszerünket is továbbfejleszteni a minél nagyobb pontosság elérése érdekében. További terveink közé tartozik, hogy a hanganyagok beszédtechnológiai vizsgálatával és részletes elemzésével szerzett jellemzőkkel is kiterjesszük rendszerünket, ezáltal beszéd- és nyelvtechnológiai eszközök egyaránt hasznosulhatnak az enyhe kognitív zavar automatikus felismerésében. Köszönetnyilvánítás Jelen kutatást a Telemedicina fókuszú kutatások orvosi, matematikai és informatikai tudományterületeken című, TÁMOP-4.2.2.A-11/1/KONV-2012-0073 számú projekt támogatta, valamint a Bolyai János Kutatói Ösztöndíj. A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg. Hivatkozások 1. Negash, S., Petersen, L.E., Geda, Y.E., Knopman, D.S., Boeve, B.F., Smith, G.E., Ivnik, R.J., Howard, D.V., Howard Jr, J.H., Petersen, R.C.: Effects of ApoE genotype and Mild Cognitive Impairment on implicit learning. Neurobiology of Aging 28(6) (2007) 885 893 2. APA: DSM-IV-TR. American Psychiatric Association (2000)

256 XI. Magyar Számítógépes Nyelvészeti Konferencia 3. Boise, L., Neal, M.B., Kaye, J.: Dementia assessment in primary care: Results from a study in three managed care systems. The Journals of Gerontology Series A: Biological Sciences and Medical Sciences 59(6) (2004) M621 M626 4. Roark, B., Mitchell, M., Hosom, J.P., Hollingshead, K., Kaye, J.: Spoken language derived measures for detecting mild cognitive impairment. Audio, Speech, and Language Processing, IEEE Transactions on 19(7) (2011) 2081 2090 5. Chapman, S.B., Zientz, J., Weiner, M., Rosenberg, R., Frawley, W., Burns, M.H.: Discourse changes in early Alzheimer disease, mild cognitive impairment, and normal aging. Alzheimer Disease & Associated Disorders 16(3) (2002) 177 186 6. Bayles, K.A.: Language function in senile dementia. Brain and Language 16(2) (1982) 265 280 7. Kálmán, J., Pákáski, M., Hoffmann, I., Drótos, G., Darvas, G., Boda, K., Bencsik, T., Gyimesi, A., Gulyás, Z., Bálint, M., et al.: Early mental test developing a screening test for mild cognitive impairment. Ideggyógyászati szemle 66(1-2) (2013) 43 52 8. Vincze, V.: Weasels, Hedges and Peacocks: Discourse-level Uncertainty in Wikipedia Articles. In: Proceedings of the Sixth International Joint Conference on Natural Language Processing, Nagoya, Japan, Asian Federation of Natural Language Processing (2013) 383 391 9. Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A toolkit for morphological and dependency parsing of Hungarian. In: Proceedings of RANLP. (2013) 763 771 10. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I.H.: The WEKA data mining software: an update. SIGKDD Explorations 11(1) (2009) 10 18 11. Quinlan, R.: C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo, CA (1993) 12. Cortes, C., Vapnik, V.: Support-vector networks. Volume 20. Kluwer Academic Publishers (1995)