Kulcsszó-el fordulások relevanciájának vizsgálata magyar nyelv hangzó híranyagokban 1

Hasonló dokumentumok
Kulcsszókeresési kísérletek hangzó híranyagokon beszédhang alapú felismerési technikákkal

Mély neuronhálók alkalmazása és optimalizálása

Miért olyan fontos a minıségi pont?

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Online kérd íves felmérés a Gazdálkodás olvasóinak és szerz inek körében

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Matematikai és matematikai statisztikai alapismeretek

KÖZPONTI STATISZTIKAI HIVATAL NÉPESSÉGTUDOMÁNYI KUTATÓ INTÉZET KUTATÁSI JELENTÉSEI 51.

Függvények határértéke, folytonossága

Beszédfelismerés alapú megoldások. AITIA International Zrt. Fegyó Tibor

L'Hospital-szabály március 15. ln(x 2) x 2. ln(x 2) = ln(3 2) = ln 1 = 0. A nevez határértéke: lim. (x 2 9) = = 0.

Vezetéses Totó kulcsok Enciklopédiája I.

Az elővásárlási jogra vonatkozó szabályok és a jogalkalmazási gyakorlat a kodifikáció tükrében

Taylor-polinomok. 1. Alapfeladatok április Feladat: Írjuk fel az f(x) = e 2x függvény másodfokú Maclaurinpolinomját!

Dr. Saxné Dr. Andor Ágnes Márta. Immateriális javak a számviteli gyakorlatban

A Markowitz modell: kvadratikus programozás

32. A Knuth-Morris-Pratt algoritmus

A munkaügyi ellenőrzés tapasztalatai (2015. I. félév)

Az alapvető jogok biztosának és a jövő nemzedékek érdekeinek védelmét ellátó helyettesének Közös jelentése az AJB-695/2016.

SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből

Számlakészítés a SPRINT programmal

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

BMEEOUVAI01 segédlet a BME Építőmérnöki Kar hallgatói részére. Az építész- és az építőmérnök képzés szerkezeti és tartalmi fejlesztése

Szakmai beszámoló és elemzés a békéltető testületek évi tevékenységéről

1. számú ábra. Kísérleti kályha járattal

Hivatali Tájékoztató. Tartalom V. ÉVFOLYAM ÉVI 1. SZÁM

Egy helytelen törvényi tényállás az új Büntető törvénykönyv rendszerében

Bevezetés. Párhuzamos vetítés és tulajdonságai

PÉNZÜGYI KULTÚRA FEJLESZTÉSI PROGRAMOK FELMÉRÉSE

Az alapvető jogok biztosának Jelentése az AJB-1739/2013. számú ügyben Az eljárás megindítása Alkalmazott jogszabályok

Pszichometria Szemináriumi dolgozat

Javában taggelünk.

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

A történelem érettségi a K-T-tengelyen Válasz Dupcsik Csaba és Repárszky Ildikó kritikájára. Kritika és válasz

Gépi tanulás és Mintafelismerés

21. szám 124. évfolyam július 3. TARTALOM. Utasítások 48/2009. (VII. 3. MÁV Ért. 21.) VIG számú

Regressziószámítás alkalmazása kistérségi adatokon

Adatbázisok. 8. gyakorlat. SQL: CREATE TABLE, aktualizálás (INSERT, UPDATE, DELETE), SELECT október október 26. Adatbázisok 1 / 17

Miskolci Egyetem Általános Informatikai Tanszék

A tesztelés feladata. Verifikáció

SZERKEZETEK REHABILITÁCIÓJÁT MEGELŐZŐ DIAGNOSZTIKAI VIZSGÁLATOK

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Bírálat Petrik Péter "Spektroellipszometria a mikroelektronikai rétegminősítésben" című MTA doktori értekezéséről.

A szegénység fogalmának megjelenése a magyar online médiában

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

jellemezhető csoportot; továbbá azt, hogy az értékorientációk összefüggnek az egészségmagatartás mutatóival.

Páros összehasonlítás mátrixok empirikus vizsgálata. Bozóki Sándor

Felvételi vizsga mintatételsor Informatika írásbeli vizsga

A NEMZETI MÉDIA - ÉS HÍRKÖZLÉSI HATÓSÁG MÉDIATANÁCSÁNAK. 79/2011. (I.12.) sz. HATÁROZATA

Lexikon és nyelvtechnológia Földesi András /

Társadalmi szükségletek szociális védelmi rendszerek

Atradius Fizetési Szokások Barométer. Felmérés a vállalkozások fizetési magatartásáról Kelet- és Közép-Európában nyár

14.) Napirend: A Családsegít és Gyermekjóléti Szolgálat m ködtetésére kiírt közbeszerzési pályázat eredményhirdetése

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

KÖNYVTÁRI KATALÓGUS HASZNÁLATI ÚTMUTATÓ

AZ ÉPÍTÉSI MUNKÁK IDŐTERVEZÉSE

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

INFORMATIKA Emelt szint

KÖZGAZDASÁGTAN I. Készítette: Bíró Anikó, K hegyi Gergely, Major Klára. Szakmai felel s: K hegyi Gergely június

6. évfolyam MATEMATIKA

Adatkeresés az interneten. Cicer Norbert 12/K.

Mentori kompetenciák, szerepek, tevékenységek egy vizsgálat tükrében

Gibbs-jelenség viselkedésének vizsgálata egyszer négyszögjel esetén

Bázistranszformáció és alkalmazásai 2.

Struktúra nélküli adatszerkezetek

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

ismertetem, hogy milyen probléma vizsgálatában jelent meg ez az eredmény. A kérdés a következő: Mikor mondhatjuk azt, hogy bizonyos események közül

OKTATÁSI ÉS KULTURÁLIS MINISZTER /2006.

Programozási segédlet

ÉLETÜNK FORDULÓPONTJAI. Az NKI Társadalmi és Demográfiai Panelfelvételének (TDPA) kutatási koncepciója és kérdőívének vázlatos ismertetése

Innováció és együttm ködési hálózatok Magyarországon

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

Történeti áttekintés

Békéscsaba és Térsége Többcélú Önkormányzati Kistérségi Társulás ÖNKÖLTSÉGSZÁMÍTÁSI SZABÁLYZAT

Területi elemzések. Budapest, április

ASPEKTUS ÉS ESEMÉNYSZERKEZET A MAGYARBAN

Pedagógus továbbképzések. a Bakonyi Szakképzés szervezési Társulás. intézményeiben

SZÁMÍTÁSOK A TÁBLÁZATBAN

Legkiemelkedőbb Üzleti Adományozó Kutatási jelentés a Magyar Adományozói Fórum részére október 10.

3 Hogyan határozzuk meg az innováció szükségszerűségét egy üzleti probléma esetén

Az alapvető jogok biztosának Jelentése Az AJB-574/2016. számú ügyben (Előzményi ügy: AJB-4424/2015. )

Függvények július 13. f(x) = 1 x+x 2 f() = 1 ()+() 2 f(f(x)) = 1 (1 x+x 2 )+(1 x+x 2 ) 2 Rendezés után kapjuk, hogy:

A kutatás vezetője: Dr. Vissy Beatrix. A kutatás résztvevői: Dr. Navratil Szonja Dr. Simon Éva Dr. Szabó Máté Dániel Dr.

Bevezetés (Az ember élete)

Bevezetés a valószínűségszámításba és alkalmazásaiba: példákkal, szimulációkkal

A zajszennyezéssel kapcsolatos fizetési hajlandóság meghatározása kérdőíves felmérés segítségével

Az egyetemi publikációs adatbázis

A verbális szövegek analitikus megközelítése szemiotikai szövegtani keretben I. rész

A jövő tudósai A NEMZETI TEHETSÉG PROGRAM EDDIGI EREDMÉNYEI ÉS TOVÁBBI TERVEI. A jövő tudósai. Magyar Tudomány 2013/5

ÁLTALÁNOS ISKOLA ÉS NAPKÖZIOTTHONOS ÓVODA KAPOSFŐ INTÉZMÉNYI MINŐSÉGIRÁNYÍTÁSI PROGRAMJA

Kisvállalkozások könyvelése. Infotéka Kft. programjaival

Ismerje meg alaposabban az ECVET-et! Kérdések és válaszok. Európai Szakoktatási és Szakképzési Kreditrendszer (ECVET)

Az alapvető jogok biztosának Jelentése az AJB-8515/2012. számú ügyben

Dr. Ábrahám István * A BOLOGNAI FOLYAMAT ÉS A TANKÖNYVEK

1 Kezd lépések. 1.1 Felhasználók azonosítása. 1.2 Menüpontok. 1.3 Bejelentkezés. icard

Érettségi vizsgatárgyak elemzése tavaszi vizsgaidőszakok FÖLDRAJZ

Predikátumkalkulus. 1. Bevezet. 2. Predikátumkalkulus, formalizálás. Predikátumkalkulus alapfogalmai, formalizálás, tagadás, logikailag igaz formulák.

A BEFOGADÓ NEMZETI TÁMOGATÁS ÉS A HADSZÍNTÉR-ELŐKÉSZÍTÉS KAPCSOLATA A TERVEZÉSHEZ SZÜKSÉGES INFORMÁCIÓKKAL TÖRTÉNŐ GAZDÁLKODÁS TÜKRÉBEN

ELEMZÉSEK AZ INFLÁCIÓRÓL

Dr. Nagy Marianna * Szabó Dániel ** KOMMUNIKÁCIÓS AKADÁLYMENTESÍTÉS A HELYI KÖZIGAZGATÁSBAN

Átírás:

286 X. Magyar Számítógépes Nyelvészeti Konferencia Kulcsszó-el fordulások relevanciájának vizsgálata magyar nyelv hangzó híranyagokban 1 Gosztolya Gábor MTA-SZTE Mesterséges Intelligencia Tanszéki Kutatócsoport, 6720 Szeged, Tisza Lajos krt. 103. ggabor@inf.u-szeged.hu Kivonat: Kulcsszókeresés során a feladat felhasználók által beírt kulcsszavak el fordulásainak megtalálása nagyméret hangadatbázisokban. Egy adott kulcsszókeresési rendszer pontosságának meghatározásához ismernünk kell a kulcsszavak valós el fordulásait, mely feladatra léteznek automatikus módszerek, azonban az, hogy ezek eredményei mennyire esnek egybe az emberi elvárásokkal, nem egyértelm. Ennek vizsgálatához néhány tesztalanyt kértünk meg, hogy azonosítsák a számukra releváns kulcsszó-el fordulásokat. Válaszaikat több szemszögb l elemeztük: megvizsgáltuk, használatukkal mennyire változik meg kulcsszókeres rendszerünk pontossága; elemeztük, mennyire esnek egybe a válaszok egymással; valamint azt is megnéztük, hogy az egyes alanyok jellemz en milyen jelleg el fordulásokat tartottak relevánsnak. 1 Bevezetés A kulcsszókeresési probléma (Spoken Term Detection, STD [6]) egy viszonylag új beszédtechnológiai terület, melyben a feladat különböz, felhasználó által bevitt kulcsszavak el fordulásainak megtalálása egy nagyméret hangadatbázisban. Bár hasonló alapokra építkezik, mint a beszédfelismerés, alapvet céljukban eltérnek: míg a beszédfelismerésé változó bemondásokhoz meghatározni a pontos szöveges átiratot, jellemz en változatlan nyelvi és akusztikus modell mellett, kulcsszókeresésben a bemondások halmaza rögzített, míg a kulcsszavak változnak a felhasználás során. Mint a mesterséges intelligenciabeli alkalmazások általában, egy kulcsszófelismer rendszer is hangolható annak érdekében, hogy minél inkább az elvárásoknak megfelel en m ködjön. Ennek során egy rögzített felvételhalmazon és rögzített kulcsszókészletet használva értékeljük ki egy konfiguráció teljesítményét valamilyen pontosságmértékkel, és ehhez hangoljuk az eljárás paramétereit. A kiértékeléshez azonban annotált hangfelvételekre van szükség: olyanokra, melyeknél el re meghatároztuk a kulcsszavak el fordulásainak pontos helyeit. Ez a feladat egyszer nek t nhet, amenynyiben rendelkezésünkre áll a hanganyagok id zített szöveges átirata: ekkor azt te- 1 Jelen kutatási eredmények megjelenését a Telemedicina-fókuszú kutatások orvosi, matematikai és informatikai tudományterületeken cím, TÁMOP-4.2.2.A-11/1/KONV-2012-0073 számú projekt támogatja. A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.

Szeged, 2014. január 16 17. 287 kintjük egy kulcsszó tényleges el fordulásának, ahol a keresett szó teljes egészében, önállóan megtalálható. Ez azonban sokszor leegyszer sítés, teljes mértékben figyelmen kívül hagyja például az összetett szavakat. Különösen így van ez ragozó nyelvek (mint amilyen a magyar is) esetében, ekkor ugyanis a kulcsszó toldalékolt alakjait is valós el fordulásnak kell tekintenünk, melyek automatikus meghatározása nem triviális. A felvetett problémára a legjobb megoldás az lenne, ha valamilyen emberi címkézést használnánk, azonban ennek nyilvánvaló hátránya a nagy munkaigény, emiatt nagyobb adatbázisok felcímkézése elég drága. Az is várható, hogy egyes felhasználók véleménye egy-egy konkrét esetben eltér, ugyanakkor valamiféle objektív listára lenne szükségünk. Kérdéses, hogy az egyes felhasználók visszajelzéseit összegezve kaphatunk-e egy széles támogatottságú listát. Jelen cikkben a kulcsszó-relevancia problémát vizsgáltuk, els sorban a fenti szempontokra koncentrálva. Összeállítottunk egy kérd ívet egy magyar nyelv hangadatbázis [1] kétséges kulcszó-el fordulásairól, és felkértünk öt tesztalanyt, hogy ezek közül válasszák ki a szerintük relevánsnak tartott el fordulásokat; válaszaikat ezután több szempontból is elemeztük. A cikk második fejezetében felvázoljuk a kulcsszókeresési feladatot és ismertetjük az abban széleskör en alkalmazott pontossági metrikákat. A harmadik fejezetben részletesen leírjuk az alkalmazott automatikus kulcsszóel fordulás-detektáló módszereket és a kérd ív összeállításának menetét. A negyedik fejezetben a felhasznált adatbázist és a kulcsszókeres rendszert ismertetjük; végül az ötödik fejezetben bemutatjuk az eredményül kapott pontossági értékeket, és részletesen elemezzük a különböz felhasználók válaszait. 2 A kulcsszókeresési feladat A kulcsszókeresési feladatban felhasználók által beírt kulcsszavak el fordulásait keressük korábban rögzített (hang)felvételek egy halmazában. A kulcsszókeres rendszer el fordulás-hipotézisek listáját szolgáltatja, melyek mindegyike tartalmazza az el fordulás helyét (felvétel, kezd és befejez id pontok), a kulcsszót és a hipotézis valószín ségét, mely szerint azok sorba rendezhet k. Más hasonló területekkel ellentétben a hipotézisek sorrendje nem lényeges, a valószín ség a hipotézisek sz résére szolgál. A hangfelvételek feldolgozása általában elég er forrás-igényes, a felhasználó viszont joggal vár gyors választ, így tipikus a felvételek valamilyen mérték el feldolgozása; ez egy köztes reprezentációt eredményez, amelyben aztán a keresést végezzük. A több ismert reprezentáció közül jelen cikkünkben a legvalószín bbnek talált fonémasorozatot használjuk, mely elég gyors keresést tesz lehet vé. Cikkünk szempontjából persze a konkrét kulcsszókeresési algoritmus csak annyiban érdekes, hogy az általa visszaadott el fordulás-hipotézisek (melyek az egész cikkben változatlanok) hogyan illeszkednek a különféle módszerekkel meghatározott releváns el fordulásokhoz, és az utóbbiak hogyan befolyásolják a kulcsszókeres rendszer pontosságát. Ehhez azonban el ször definiálnunk kell a használt pontosságmetrikákat.

288 X. Magyar Számítógépes Nyelvészeti Konferencia 2.1 Az alkalmazott pontosságmértékek A kulcsszókeresési probléma egy információ-visszakeresési feladat, emiatt hagyományos IR metrikákkal: pontossággal (precision) és fedéssel (recall) is mérhet egy adott algoritmuskonfiguráció teljesítménye [6]. A legtöbb információ-visszakeresési területen a két metrikát azok (parametrikus) harmonikus közepével, az F-mértékkel (F-measure) szokás egyetlen értékké aggregálni, azonban a kulcsszókeresés területén más metrikák terjedtek el. Leggyakrabban a Figure-of-Merit (FOM) mér számot használják, mely az óránként és kulcsszavanként 1, 2, 10 hibás találat megengedése esetén elért fedési értékek számtani közepe. A másik elterjedt mér számot az amerikai National Institute of Standards and Technology (NIST) vezette be 2006-os kulcsszókeresési versenyén: ez az aktuális kulcsszó-súlyozott érték (Actual Term- Weighted Value, ATWV), mely a következ képpen definiált: 1 T ATWV = 1 - P ( t) P ( t, Miss FA ) T i 1 ahol P Miss (t) az adott kulcsszó eltévesztésének, P FA (t) pedig hibás találatának valószín sége; azaz P Miss (t) = 1 - N N corr true ( t) ( t) és P FA (t) = 1 - T speech N FA( t) N true, ( t) ahol N corr (t) az adott kulcsszó helyes találatainak, N true (t) a tényleges el fordulásainak, N FA (t) a hamis találatainak száma, T speech pedig az átfésülend felvételek összhossza másodpercben mérve [3]. értéke általában 1000. Egy, a használt annotációval tökéletes összhangban m köd rendszer ATWV pontszáma 1,0, egy olyané, amely egyáltalán nem ad vissza találatokat, 0,0. Feltételezve, hogy T speech lényegesen nagyobb, mint N true (t), egy olyan rendszer, amely az összes elvárt el fordulást megtalálja, de minden kifejezésre óránként 3,6 hamis találatot produkál, szintén 0,0 értéket fog kapni, így ez a metrika jóval szigorúbb, mint a FOM. További különbség, hogy az ATWV az összes visszaadott találatot figyelembe veszi, míg FOM esetén csak a valószín bbeket. Kísérleteink során mindkét metrikát alkalmaztuk. (1) (2) 3 A releváns el fordulások meghatározásának módjai A következ kben azt ismertetjük, milyen stratégiákat alkalmaztunk, hogy meghatározzuk a kulcsszavak el fordulásainak helyeit a hangfelvételek szöveges átirata alapján.

Szeged, 2014. január 16 17. 289 3.1 Automatikus módszer A legkézenfekv bb megoldás (elvárjuk a kulcsszó el fordulását önálló szóként, ill. szósorozatként) a bevezet ben már említett okok (toldalékolás, összetett szavak) miatt nem alkalmazható, azonban annak egy módosított változata már igen: ekkor azt várjuk el, hogy a kulcsszó az átiratban teljes egészében bukkanjon fel egy szóban. Ezzel a ragozott szóalakokat is elfogadjuk. A magyar nyelv ragozási szabályait figyelembe véve a magánhangzóra végz d kulcsszavak esetében a hosszúra váltó magánhangzós változatot is elfogadtuk (pl. Amerika Amerikában). Persze ez a megoldás sem tökéletes, különösen rövid kulcsszavakra jellemz, hogy sokszor fordulnak el más szó belsejében, így sok téves riasztáshoz vezetve. 1. táblázat: Relevánsnak min sített el fordulások száma a különböz alkalmazott módszerekkel a validációs és teszt adatbázisrészeken Módszer Validációs Teszt Automatikus 381 709 1. alany 365 690 2. alany 368 689 3. alany 396 732 4. alany 366 699 5. alany 367 697 Alanyok (többségi szavazás) 367 697 Egyértelm 334 651 3.2 Emberi annotálás A másik lehet ség, hogy akkor tekintünk egy el fordulást relevánsnak, amennyiben egy ember annak tekinti. Bár nyilván ez a legpontosabb módszer, hiszen pontosan akkor lesz relevánsnak min sítve egy el fordulás, amennyiben egy ember úgy gondolja, hogy az valóban releváns; nagyobb archívumok emberi annotálása azonban elég drága. Jelen cikkünkben viszont éppen arra voltunk kíváncsiak, hogy milyen változásokat okoz az emberi vélemények figyelembe vétele, és a felvétel-adatbázis sem volt túl nagynak mondható, így kísérleteinkben alkalmazhattuk ezt a megközelítést. El szerettük volna kerülni, hogy az alanyok a többórányi hangfelvétel teljes leiratát annotálják az összes, a tesztjeinkben szerepl kulcsszóra, így automatikus módszerekkel lesz kítettük a lehetséges releváns el fordulások halmazát, és egy kérd ívre gy jtöttük ket. Bet alapú illesztési távolságot használva megkerestük azokat a helyeket, ahol a kulcsszavakhoz hasonló bet sorozatok fordultak el ; legfeljebb az adott kulcsszó hosszának 30%-át kitev bet beszúrást, -törlést és -cserét engedtünk meg (tehát egy 10 bet vel leírható kulcsszó esetén legfeljebb három m velettel el kellett tudni állítani azt). Mivel a lista még így is túl hosszú volt, azokat a potenciális el for-

290 X. Magyar Számítógépes Nyelvészeti Konferencia dulásokat automatikusan relevánsnak tekintettük, melyeknél szó elején és teljes egészében fordult el az adott kulcsszó. (Ezekre az 5. fejezetben egyértelm releváns el fordulásként fogunk hivatkozni.) Mindezt abból a megfontolásból tettük, hogy ezek nagy eséllyel a kulcsszó ragozott alakjai, és habár ez nem minden esetben teljesült (pl. bizonyos összetett szavaknál), összességében elég jó közelítésnek találtuk, és hatékonyan csökkentette a kérd ív hosszát. Végül ezt a kérd ívet tölttettük ki öt tesztalannyal; az általuk megjelölt el fordulások és az egyértelm el fordulások halmazának unióját tekintettük szerintük releváns el fordulásoknak. Az 1. táblázat mutatja a különböz automatikus módszerek és az egyes alanyok által relevánsnak min sített el fordulások számát. A kérd ív 111, illetve 242 potenciális el fordulást tartalmazott (a fejlesztési és a tesztelési halmazokra vonatkoztatva), melyek közül az alanyok 31-62-t, illetve 38-81-et választottak ki. A számok azt is tükrözik, hogy az alanyok (a 3. alany kivételével) alapvet en hasonlóan ítélték meg a potenciális releváns el fordulásokat (bár ehhez a kulcsszókeresési rendszer pontosságértékeit is érdemes megvizsgálni), és gyökeresen különböz módon, mint a két alkalmazott automatikus módszer. Mivel arra is kíváncsiak voltunk, hogy elérhet -e valamiféle konszenzus az alanyok között, a táblázatokban feltüntettük az egyszer többségi szavazáshoz tartozó értékeket is. 4 Technikai megoldások Miel tt bemutatnánk és elemeznénk a teszteredményeket, még be kell mutatnunk, hogyan párosítjuk össze az el fordulás-hipotéziseket a releváns el fordulásokkal, valamint ismertetnünk az alkalmazott kulcsszókeresési rendszert és az adatbázist. 4.1 Az el fordulás-hipotézisek és a releváns el fordulások összepárosítása Az irodalomban több megoldást is találunk a kulcsszóhipotézisek és -el fordulások összepárosítására. Természetesen a hipotézisnek és a tényleges el fordulásnak ugyanabban a felvételben kell lennie, és ugyanahhoz a kulcsszóhoz kell tartoznia. Mindezeken túl azt is elvárjuk, hogy a hipotézis ugyanabban az id pontban hangozzon el, mint a tényleges el fordulás, azonban ezen nyilvánvalóan nem érthetjük azt, hogy a kezd - és végpontok is tökéletesen egybeessenek. Elvárhatjuk például, hogy ezek valamilyen határon belül legyenek; [3] esetében a tényleges el fordulás közepét l legfeljebb fél másodpercre kell esnie a hipotézisnek, míg [7] akkor párosítja össze a hipotézist egy tényleges el fordulással, amennyiben a hozzájuk tartozó id intervallumok metszik egymást. Mi az utolsó megoldást alkalmaztuk, részben tekintettel a magyar nyelv ragozó voltára, mely eléggé megnehezíti a szigorúan vett kulcsszó pontos kezd és befejez id pontjainak meghatározását.

Szeged, 2014. január 16 17. 291 4.2 A kulcsszókeresési rendszer Kísérleteinkben saját kulcsszókeresési keretrendszerünket használtuk (részletesen lásd [2]). Ebben a hangfelvételeken el ször beszédfelismerési lépéseket végzünk, jelen esetben egy nagypontosságú, kétmenetes neuronhálós fonémaosztályozási módszert alkalmazva [5]. Az eredményül kapott fonémasorozatot letároljuk, és erre illesztjük a beírt kulcsszó fonetikus átiratát. Az illeszkedés mértékét illesztési távolság (edit distance) metrikával mérjük, fonémánként eltér m veleti költségeket használva, melyeket a fonémaosztályozó tévesztési mátrixából számítunk [4]. 2. táblázat: Kulcsszófelismerési pontosságok alakulása a különböz alkalmazott módszerek függvényében Módszer FOM ATWV Automatikus 88,72% 56,84% 1. alany 88,35% 52,32% 2. alany 87,39% 48,00% 3. alany 88,85% 60,23% 4. alany 88,15% 52,90% 5. alany 88,22% 53,05% Alanyok (átlag) 88,19% 53,30% Alanyok (medián) 88,22% 52,90% Alanyok (többségi szavazás) 88,22% 53,07% Egyértelm 87,94% 44,77% 4.3 A felhasznált adatbázis A kísérletekhez 70 híradót rögzítettünk nyolc tévécsatornáról (ATV, Hálózat TV, Hír TV, M1, M2, Rtl, Tv2) [1]. A felvételeket néhány mondatos blokkokra vágtuk; közülük jelen cikkben csak azokat használtuk, melyekben szépen artikulált beszéd hallható és a háttérzaj minimális. A 70 híradót 44-9-17 arányban osztottuk fel tanítási, fejlesztési és tesztel blokkokra (id tartamot tekintve ez kb. 5 és fél óra 1 óra 2 óra), ügyelve arra, hogy a tévécsatornák mindegyikéb l kerüljön mindegyik részhalmazba. A felvételek mindegyikét legépeltük, az ortografikus átiratot utólag is ellen riztük. Az alkalmazott 50 kulcsszót a felvételekben gyakran el forduló f nevek közül választottuk ki; illeszkedve a felhasználói igényekhez, jelent s részük (18 darab) tulajdonnév volt. Hosszuk 6-16 fonéma, 2-6 szótag között alakult.

292 X. Magyar Számítógépes Nyelvészeti Konferencia 5 Eredmények 5.1 Kulcsszófelismerési pontosságok A 2. táblázat tartalmazza az elért pontosságokat a különböz, a releváns kulcsszóel fordulásokat detektáló módszerek esetén. Látható, hogy a FOM értékek gyakorlatilag változatlanok, míg az ATWV pontosságok elég nagy skálán (48,00%-tól 60,23%- ig) mozognak. A tesztalanyokhoz tartozó pontosságok nagyban eltérnek a két (automatikus, illetve egyértelm ) automatikus módszerhez tartozóktól is: ez alapján a felhasználói elvárásokhoz képest az egyik automatikus módszer jellemz en túl megenged, a másik pedig túl szigorú. A többségi szavazással elért pontosságérték (53,07%) nagyon közel áll három tesztalanyéhoz (1., 4. és 5.), valamint az átlagos és a medián pontosságértékhez is. Ez azt jelzi, hogy egyszer többségi szavazással valószín leg elérhet egy, a gyakorlatban jól teljesít konszenzusos el fordulás-lista. 5.2 A felhasználói válaszok elemzése A pontosságértékek változásainál is érdekesebb kérdés, hogy az egyes el fordulásokat hogyan értékelték az egyes alanyok, és a vélemények mennyire hozhatók közös nevez re. A következ kben ezeket a konkrét eseteket fogjuk körüljárni. A csak korlátozott nyelvi információt hasznosító kulcsszókeres megközelítések ismert hátránya, hogy hajlamosak az (általában rövid) kulcsszavakat más szavak belsejében is megtalálni, és így sok hamis riasztást generálni. Esetünkben ez a kormány kulcsszóval fordult el jelent sebb számban, mely valóban megtalálható az önkormányzat szó belsejében, így ezeket az el fordulásokat az automatikus keres módszer is relevánsnak min sítette; ugyanakkor az öt alanyból négy vélte úgy, hogy ezek hamis riasztások. Kulcsszókeres rendszerünk, mely csak az akusztikus információra támaszkodhatott, természetesen szintén megtalálta ezeket az el fordulásokat. Az automatikus módszerben megengedtük, hogy a kulcsszó szóvégi magánhangzója hosszúra váltson (a többi magánhangzó viszont nem). A vasút kulcsszó esetében hasonló dolog történt, csak ellenkez el jellel: mindegyik alanyunk úgy vélte, hogy a vasutas szó is a vasút kulcsszó releváns el fordulása. Ugyanakkor, habár hangtanilag tökéletesen ugyanez az eset a miniszter kulcsszó és a minisztérium szó, a megkérdezett alanyok közül mégis mindössze egy sorolta ezt a releváns el fordulások közé. További nagy csoport volt a kulcsszavak között bizonyos személyneveké: Angela Merkel (német kancellár), Bajnai Gordon vagy Orbán Viktor (magyar miniszterelnökök). Kulcsszóként a teljes név volt megadva, id nként azonban a felvételekben csak vezetékneveikkel hivatkoztak rájuk. Az összes alany egyetértett azzal, hogy ezek is releváns el fordulások, bár csak a keresett kulcsszavak fele fordult el. Megjegyzend, hogy mivel illesztési távolságot használva állítottuk össze a kérd ívet, azon csupán azok az el fordulások szerepelhettek, ahol a szövegkörnyezet a hiányzó keresztnévhez igen hasonló volt (pl. amely Merkel, Bajnai-kormány, Orbánkormány ).

Szeged, 2014. január 16 17. 293 Ehhez igen hasonló eset volt a rend rség kulcsszóé: többször is szerepelt a kérd íven a rend r szó, melyet az ötb l három alany tartott releváns el fordulásnak annak ellenére, hogy itt a kulcsszó tartalmazta a ténylegesen el forduló szót. Ez feltehet leg azt tükrözi, hogy ezen alanyok számára a két fogalom szorosan összekapcsolódik. Hasonló viszonyt jelez a gázár kulcsszó esete is: a többször is szerepl gáz ára szókapcsolatot ugyanis az összes alany a kulcsszó releváns el fordulásának tekintette. A fenti példák esetében az alanyok általában egyetértettek egymással, a válaszokat azonban nemigen lehetne automatikusan megjósolni. Ha egy elhangzott szó teljes egészében tartalmazza a keresett kulcsszót, az általában releváns el fordulás; bizonyos esetekben (kormány) ugyanakkor nem az, máskor pedig a kulcsszó tartalmazza a ténylegesen elhangzott szót (rend rség). A kulcsszó szóvégi magánhangzója hosszúra válthat, és ez id nként más magánhangzókkal is el fordulhat (vasút), más esetekben viszont nem (miniszter). A gázár kulcsszó esete valószín leg egyáltalán nem kezelhet automatikusan: amennyiben kulcsszavakon belül akárhol engedélyezünk szóhatárokat, az rengeteg hamis riasztáshoz vezethet. Viszont ha ismertebb személyeket keresünk, célszer a kulcsszót csak a vezetéknévnek választani (Merkel, Bajnai, Orbán). Amikor a megkérdezett alanyok egy-egy hipotézis besorolásakor nem értettek egyet, szinte mindig négy az egyhez aránylottak a szavazatok; összesen négy helyen alakult ez három a kett höz. Ez azt sugallja, hogy szinte minden esetben elérhet egy elfogadott konszenzus, azaz létrehozható olyan címkézés, mely szinte teljesen egybeesik az emberek által elvárt viselkedéssel. (Ezt természetesen érdemes lenne ötnél lényegesen több alanyra is megvizsgálni.) Ezt kulcsszókeresési rendszerünk pontosságmértékei is alátámasztották: amennyiben szavazásnál azt vártuk el, hogy legalább négy alany értsen egyet az adott el fordulás megítélésében, a pontosságértékek alig változtak, egyhangú eredmény elvárása esetén viszont számottev en csökkentek. Az emberi annotálással elért pontszámokat az automatikus módszerekéihez hasonlítva egyértelm, hogy alapvet en különböznek: mikor csak a tiszta el fordulásokat tekintettük relevánsnak, az ATWV értéke 44,77% lett, mely a többi el forduló pontosságértékhez mérten alacsony (valószín leg a sok hamis riasztás miatt); mikor viszont a standard automatikus módszert alkalmaztuk, az túl megenged nek bizonyult, amely az el álló, irreálisan magas 56,84%-os ATWV értékben is tükröz dik. 6 Konklúzió Jelen cikkünkben szokatlan néz pontból vizsgáltuk meg a kulcszókeresési problémát: azt elemeztük, hogy az automatikusan el állított kulcsszó-el fordulások mennyire egyeznek a felhasználói igényekkel. Ehhez tesztalanyokat kértünk meg, hogy jelöljék meg, mely potenciális el fordulásokat tekintik valóban relevánsnak. A válaszokat elemezve azt találtuk, hogy, habár nem volt két pontosan ugyanúgy válaszoló alany, összességében a válaszok egymáshoz nagyon hasonlónak bizonyultak, és egyszer többségi szavazással egyértelm konszenzus volt elérhet. A kipróbált automatikus eljárások azonban vagy túl optimisták, vagy túl pesszimisták voltak, és a tesztalanyok válaszait részletesen megvizsgálva azt sem tartjuk valószín nek, hogy automatikus (szintaktikai) eljárásokkal azok reprodukálhatóak lennének.

294 X. Magyar Számítógépes Nyelvészeti Konferencia Hivatkozások 1. Gosztolya, G., Tóth, L.: Kulcsszókeresési kísérletek hangzó híranyagokon beszédhang alapú felismerési technikákkal, Proc. MSZNY (2010) 224 235 2. Gosztolya, G., Tóth, L.: Spoken Term Detection Based ont he Most Probable Phoneme Sequence, Proc. SAMI (2011) 101 106 3. NIST: The Spoken Term Detection (STD) Evaluation Plan, National Institute of Standards and Technology (NIST), Gaithersburg, USA, http://www.nist.org/speech/tests/std (2006) 4. Szöke, I., Schwarz, P., Matejka, P., Karafiát, M.: Comparison of Keyword Spotting Approaches for Informal Continuous Speech, Proc. Interspeech (2005) 5. Tóth, L.: A Hierarchical, Context-Dependent Neural Network Architecture for Improved Phone Recognition, Proc. ICASSP (2011) 5040 5043 6. Wang, D.: Out-of-Vocabulary Spoken Term Detection, PhD thesis, Univ. Edinburgh (2010) 7. Young, S.J. et al: The HMM Toolkit (HTK) (software and manual), http://htk.eng.cam.ac.uk/ (1995)