BSZÉDTCHNOLÓGIAI ALAPISMRTK AZ OKTATÁSBAN FOUNDATIONS OF SPCH TCHNOLOGY IN DUCATION Abari Kálmán (1), Papp Zoltán (2) (1) D, Pszichológiai Intézet, Szociál- és Munkapszichológiai Tanszék (2) D, Informatikai Kar, Számítógéptudományi Tanszék Összefoglaló A beszédkutatás elmúlt évtizedekben tapasztalt dinamikus fejlődésének köszönhetően a beszédtudomány tárgyköre jelentősen kiszélesedett. z az eredetileg is interdiszciplináris terület, amely hagyományosan a nyelvtudomány, a fiziológia, a fizikai akusztika és a pszichológia területeiről kölcsönöz ismereteket, mára már egyre szorosabb kapcsolatot ápol az informatika és a matematika egyes ágaival is. gy bevezető, Beszédtechnológiai alapismeretek c. kurzus tananyagában ezeket a sokrétű az iparban és szolgáltatásban egyre inkább tért hódító beszédtechnológiai alkalmazások kifejlesztéséhez nélkülözhetetlen ismereteket foglaltuk össze. A kurzus minden témakörét több szempont alapján megjelöltük (pl. matematikai ismeretek feltétele, tárgyalás mélysége, ajánlás foka), amelyek az adott képzési struktúrába legjobban illeszkedő kurzusváltozat kiválasztását segítik. A dolgozat célja a kurzus tematikájának bemutatása és a tanításban felhasználható legfontosabb oktatási segédletek megadása. Kulcsszavak beszédtechnológia, beszédkutatás, fonetika, tanterv Abstract Over the past several decades the field of speech science has grown to be important both theoretically and technologically. Speech science has been an interdisciplinary field from the beginning: to succeed, researchers in the field need to incorporate research from such distinct fields as linguistics, acoustics, physiology and psychology, and nowadays it exploits knowledge from computer science and mathematics as well. This paper aims to give a curriculum for Foundations in Speech Technology, with specifying the most important tools of study. ach topics of the course was denoted by small icons, indicating scale of mathematics, depth of the subject and classification of the elements. We hope defining a broad course for speech technology will help the instructors to shape their own course depending on the educational context. Keywords Speech Technology, Spoken Language Technology, Phonetics, Curriculum 1
1. Bevezetés A beszédtechnológia fő feladata, hogy az ember gép kommunikációban a beszéd alkalmazását lehetővé tegye. Ide tartozik többek között az emberi beszéd gépi megértése (beszédfelismerés), az érthető, természetesnek tűnő beszéd mesterséges előállítása (beszédszintézis), és a beszélő személy azonosítása a hangja alapján (beszélőfelismerés). A beszédtechnológia természetét alapvetőn meghatározza, hogy eltérően más technológiai területektől, szorosan kapcsolódik bizonyos alapvető emberi képességek megértéséhez. Az emberi beszédkommunikáció egyes elemeinek ismerete nélkül a beszédtechnológiában nehezen érhetünk el sikereket. Ilyenek például a nyelv és a beszéd kapcsolata, a beszédképzés és a beszédészlelés folyamatainak működési mechanizmusa. A beszédtechnológiának tehát kettős célja van: (1) a mérnöki cél, a beszéd alapú rendszerek fejlesztése és létrehozása, (2) a tudományos cél, az emberi beszédhez kapcsolódó folyamatok minél teljesebb megértése. A két törekvés összefonódik, egyik célt sem lehet a másik nélkül maradéktalanul megvalósítani. A fenti kettősségnek megfelelően a beszédtechnológiát legalább két részre bonthatjuk. Az egyik rész a szűk értelemben vett beszédtechnológia, amely gyakorlati problémákra ad hardver-szoftver megoldásokat a gépi beszédfeldolgozás segítségével, a másik rész pedig a beszédtudomány, amely a beszédjellel, az artikulációval és a percepcióval kapcsolatos tudás bővítéséhez járul hozzá. A beszédtechnológia mára már ipar és szolgáltatás is, így harmadik részterületként a kutatás területéről kilépő beszédalapú rendszerek alkalmazását is figyelembe kell venni. A beszédtechnológiai alkalmazások fejlesztése sokoldalú tudást igényel. Ma főképp olyan mérnöki alapképzettséggel rendelkező kutatók és szakemberek (villamosmérnökök, informatikusok) dolgoznak a területen, akik elsősorban fonetikai és egyéb nyelvészeti ismeretekkel bővítették tudásukat. A színvonalas beszédtechnológiai alkalmazások létrehozása, összetettségüknek köszönhetően, szinte mindig csapatmunka eredménye, amely a fonetikus/nyelvész segítségét sem nélkülözheti. A hatékony kooperáció érdekében a fonetikusnak alapvető ismeretekkel kell rendelkeznie pl. az informatika, a statisztika és a jelfeldolgozás területéről, a mérnöknek pedig el kell sajátítani a nyelvészeti gondolkodás fő jellemzőit. Sokszor a létrehozott termék sikere múlhat az alapvetően két különböző területről (reál és humán) származó kutatók/szakemberek gördülékeny együttműködésén. A hazai és külföldi felsőoktatási intézményekben folyó beszédtechnológia oktatás sokat tesz a diszciplínák közötti párbeszéd bemutatásában és a terület mint egységes tudományág megjelenítésében. Ugyanakkor a beszédtechnológia oktatása továbbra is rendkívüli kihívásokat jelent az oktatók és tanulók számára egyaránt. A több területet érintő szaktudás és az oktatásban használt eszközök általában nem találhatók meg egyetlen tanszéken vagy intézményben, a beszédtechnológia oktatásához a tudományos műhelyek összefogására van szükség. Másrészt az oktatóknak szembesülni kell azzal, hogy a hallgatók eltérő alapismeretekkel és célokkal rendelkeznek, így a tematikát a hallgatók összetétele is alakíthatja. A dolgozatban egy bevezető jellegű, Beszédtechnológiai alapismeretek c. kurzus témaköreit adjuk meg, amellyel a következő célokat szeretnénk elérni: (1) az egységes tematika megteremtése érdekében álljon rendelkezésre a témakörök azon (szűk) csoportja, amelyek a beszédtechnológia oktatásában elengedhetetlenül szükségesek; (2) az eltérő alapismeretekkel rendelkező hallgatók számára biztosítsuk tanulmányaik megalapozását; (3) az oktatásban felhasználható, könnyen elérhető, internetes eszközök és erőforrások 2
(nyelvészeti források, oktatóanyagok, adatbázisok és kutatási eszközök) kerüljenek bemutatásra. A 2. fejezetben röviden bemutatjuk a beszédtechnológia interdiszciplináris jellegét, majd a 3. fejezet a tárgy oktatási kihívásait tárgyalja az általunk megadott kurzustematika szempontjából. A 4. fejezet magát a kurzus részletes tananyagát tartalmazza, amelyhez az 5. fejezetben megadjuk az interneten elérhető oktatási segédleteket. 2. A beszédtudományok A beszédkutatás a kezdetektől interdiszciplináris területnek számít, amely hagyományosan a nyelvtudomány, a fiziológia, a fizikai akusztika és a pszichológia területeiről kölcsönözött ismereteket. A beszéd legalapvetőbb tudománya a fonetika, melynek kutatói annak a folyamatnak a megismerését és leírását tűzték ki célul, amely a beszéd képzésétől, a levegőben továbbított fizikai rezgéseken át, a beszéd észleléséig tart. A fonetikusok, szoros kapcsolatban állva más tudományterületek művelőivel, azt tanulmányozzák, hogy (1) miként hozzuk létre gondolatainkból a beszédet az artikulációs szerveinkkel, (2) a levegő rezgései milyen formában tartalmazzák az eredeti gondolatot, illetőleg az annak megfelelő nyelvi jeleket, (3) az akusztikus jelekből hogyan állítjuk vissza az eredeti nyelvi tartalmat, illetőleg a beszélő eredeti gondolatát. A beszélő és a hallgató(k) között zajló, fent vázolt folyamat a beszéd körfolyamata (vagy a természetes beszédlánc). A fonetika alapvetően kísérleti tudomány, így a múlt század közepén megjelenő számítógép forradalmi változásokat indított el a beszédkutatás több évszázados történetében. Alapjában alakította át az addig használt mérési eljárásokat és kutatási módszereket, lehetővé tette a beszédjel minden eddiginél kényelmesebb vizualizálását és sokrétű feldolgozását. Fokozatosan kialakult a (digitális) beszédfeldolgozásnak nevezett új diszciplína is, amely a digitális jelfeldolgozás eredményeire is támaszkodva a természetes beszédlánc komponenseinek gépi vizsgálatát és modellezését tűzte ki célul. Azonban a számítógépek teljesítményük dinamikus fejlődésének köszönhetően nemcsak az alapkutatásban játszanak fontos szerepet, hanem a beszéd alapú, gyakorlati alkalmazások kifejlesztésében is. Mára, a természetes beszédlánc egyes elemeinek számítógépes vizsgálatán túl, azok gépi megvalósítására is van némi lehetőségünk. A beszéd körfolyamatának egyes elemeit gépesítő megoldások már egy fiatal tudományterület, a beszédtechnológia termékei. Az emberi artikulációt és hangképzést helyettesíti a beszédszintézis, az akusztikus jel közegét a beszédkódolás, a beszéd percepcióját pedig az automatikus beszédfelismerés. zek a beszédtechnológia alapterületei, melyek kiegészülnek például a beszélő személyének felismerésével, beszédtisztítással és a beszélt nyelv felismerésével. Ma e technológiákból egyet vagy többet is felhasználó beszéd alapú alkalmazások sokasága vesz körül bennünket, a beszédtechnológia ott van a mindennapjainkban. Népszerűségüket és elterjedtségüket többek közt annak köszönhetik, hogy (1) a beszéd az emberi kommunikáció legtermészetesebb formája, (2) a beszédet akkor is használhatjuk, ha a kezünk és a szemünk mással van elfoglalva, és (3) a meglévő telefonos infrastruktúrán hatékonyan megvalósíthatók a nyomógombos bevitelt beszédfelismeréssel kombináló beszéd alapú dialógust is megvalósító telefonos alkalmazások. A beszédtechnológia miközben felhasználja a beszédkutatás elméleti és alkalmazott eredményeit, elsősorban nem a beszédfolyamat leírására, hanem a sikeres beszéd alapú alkalmazások fejlesztéséhez szükséges modellek és algoritmusok kidolgozására fókuszál. A néhány évtizedes múltra visszatekintő beszédtechnológia így jelentősen kiszélesítette a beszédtudomány határait: a digitális jelfeldolgozás, a matematikai statisztika, az 3
alakfelismerés és az informatika diszciplínáival tovább gazdagítja a vele összefüggésben levő tudományágak körét. Hangsúlyozni kell azonban, hogy a beszédtechnológia a legtöbb esetben nem utánozza az emberi, biológiai működésmechanizmust, mivel annak sok eleméről még ma sem tudunk eleget. Más, matematikai, jelfeldolgozási módszerek segítségével képes az emberi hanghoz hasonló akusztikai jelet létrehozni (beszédszintézis), illetve az akusztikai jelet feldolgozva, annak nyelvi tartalmát kinyerni (beszédfelismerés). Azt is fontos hangsúlyozni, hogy nincsenek általános beszédtechnológiai megoldások. Nincs mindent jól felolvasó gépi szintetizátor, nincs általános beszédfelismerő. Az igényes beszéd alapú rendszerek fejlesztésénél ma még minden esetben hozzá kell illeszteni a beszédtechnológiai építőkockákat a kívánt célhoz (célzottan kell fejleszteni). Tehát a mai korra a célzott beszédtechnológiai megoldások, és azok kombinációja a jellemző. 3. A beszédtechnológia oktatása A hazai felsőoktatásban a beszédfeldolgozás, illetve beszédtechnológia tanítása egyre inkább kibontakozóban van. Tanulmányaik során általában a leendő villamosmérnökök, a mesterséges intelligenciával foglalkozó informatikusok és a fonetikai képzésben résztvevő hallgatók kerülnek legközelebb a beszédfolyamatok gépi tanulmányozásához és esetleges technológiai alkalmazásukhoz. Ők a Beszédtechnológia (esetleg Digitális beszédfeldolgozás, Beszédinformációs rendszerek vagy Beszédfelismerés és beszédszintézis stb.) című kurzusok potenciális hallgatói, amelyeket többnyire egyféléves, bevezető tárgy formájában kínálnak számukra. A kurzusok természetesen tükrözik az intézmény oktatói/kutatói profilját, a kurzus képzési struktúrában elfoglalt helyét és nem utolsósorban a hallgatók háttértudását és az oktatók szakmai tapasztalatát. A változatos kép ellenére minden bevezető kurzusnak szilárd alapot kell biztosítani a beszédtechnológia főbb területeinek megismeréséhez, illetve át kell adni azt az alaptudást, amely a terület érdemi részét jelenti. A fenti szempontok figyelembevételével, egy Beszédtechnológiai alapismeretek c. kurzus tananyagának megadásával mi is kísérletet teszünk a szerteágazó ismereteket felölelő beszédtechnológia mint egységes tudományág bemutatásra (1. táblázat). Megjelöljük azokat a témaköröket, amelyeket a bevezető beszédtechnológia kurzusok kötelező elemének tekintünk. Az egyik kihívás, amellyel a tárgy oktatóinak szembe kell nézni, hogy az elméleti és a gyakorlati tudás átadása hogyan lehetséges egyetlen szemeszterben. Csak elméletet tanítani a gyakorlat kizárásával, vagy a gyakorlati ismereteket helyezzük előtérbe? Az előbbi megfosztja a hallgatókat a kísérletezés, a kreatív problémamegoldás izgalmától, azoktól a tapasztalatoktól, amelyek nélkül beszédfeldolgozó alkalmazások nem készíthetők. A másik esetében pedig a témakörhöz tartozó elméletek és algoritmusok áttekintése maradhat el. Azt mondhatjuk, hogy az előadások formájában megvalósuló elméleti tudás átadása mellett feltétlenül szükség van laboratóriumi gyakorlatokra, vagy önállóan feldolgozott mérések, kísérletek végrehajtására. Az általunk megadott kurzustematikában a szoftveres eszközöket igénylő témakörök mindegyikéhez társulhat laborgyakorlat vagy önálló kísérlet. A másik kihívás az oktatók számára a különböző háttérismeretekkel rendelkező hallgatók megszólítása lehet. A kurzus hallgatói alapvetően két területről érkeznek. A reál terület hallgatói, akik kellő mértékű matematikai, informatikai esetleg jelfeldolgozási ismerettel rendelkeznek, és a humán terület hallgatói, akik nyelvészeti és főképp fonetikai tudással bírnak. A fenti szempontok alapján 3 lényeges hallgatói csoportot különböztetünk meg: (1) azok a diákok, akik az egyik vagy másik területen jól előkészített tudással rendelkeznek, (2) 4
azok, akik mindkettőben jártasak és végül (3) akik, egyik területen sem végeztek előtanulmányokat. A kurzus hallgatóinak legnépesebb tábora nyilvánvalóan az első csoportból kerül ki, a harmadik csoport hallgatói számára pedig egyéb bevezető kurzusok elvégzését ajánljuk. Az oktató számára a legnagyobb kihívást a kevert (reál és humán) háttértudással rendelkező csoportok irányítása jelent, noha véleményünk szerint a terület egységes megjelenítését, a két eltérő indíttatású terület közötti párbeszéd kialakítását és a későbbi hatékony kutatást/munkavégzést ez a képzési forma biztosítja a legjobban. Az általunk kidolgozott egységes tematikában az egyes témakörök tárgyalási mélységének megadásával fejezzük ki azt a figyelmet, amelyet a reál és a humán érdeklődésű diákok eltérő háttértudásán alapuló oktatása igényel. Az eltérő háttérismeretek mellett az oktatóknak a kurzusra érkező hallgatók céljait is figyelembe kell venniük. gy részük a beszédalapú alkalmazások fejlesztéséhez szükséges nyelvészeti tudást és azok implementációs lehetőségeit szeretné megismerni (mérnöki cél), míg mások a beszédelemzéshez, beszédkutatáshoz keresnek számítógépes technikákat (tudományos cél). A hallgatók háttértudását és a kurzussal elérendő céljait a 2. táblázat foglalja össze, (Bird, 2008) alapján. 2. táblázat A hallgatók háttértudásának és elérendő céljainak összefoglalása Reál háttér Tudományos cél A beszédanalízisben és a beszédkódolásban használt algoritmusok hatékonyságának növelése, matematikai modellek kidolgozása Mérnöki cél Beszédalapú alkalmazások tervezése és fejlesztése Humán háttér Akusztikus és nyelvi modellek létrehozása, számítógépes kísérletek kidolgozása Beszédadatbázisok kialakítása, nyelvészeti algoritmusok kidolgozása 4. A Beszédtechnológiai alapismeretek c. kurzus bben a fejezetben megadjuk az általunk kidolgozott Beszédtechnológiai alapismeretek c. kurzus tananyagát (1. táblázat), amely szándékaink szerint átfogó áttekintést ad a beszédtechnológia egyes területeiről, de természetesen a beszédkommunikáció minden részletére nem tér ki. A tematika két szintű struktúrát tartalmaz: a beszédtechnológia részterületeit sorszámmal láttuk el (1-11), azon belül pedig a témaköröket soroljuk fel. Az egyes témakörök nem feltétlenül összemérhetőek, sem a tartalmazott ismeretanyag mennyiségében, sem az oktatásával töltött időben. A témakörök megjelölésében figyelembe vettük a jelenleg folyó kutatások fő irányait, a hazai és külföldi hasonló kurzusok tematikáját és a legutóbbi nemzetközi felmérés eredményeit (Bloothooft et al.,1998), valamint saját tapasztalatainkat is. A témakörök nevét úgy próbáltuk megválasztani, hogy a témakör által lefedett ismeretanyagot a lehető legjobban kifejezze (és a rövidségre is törekedtünk). Hangsúlyozni szeretnénk, hogy nem akarjuk megreformálni a meglévő kurzusok tematikáját, és az egyes témakörök megnevezésével sem szeretnénk új terminológiát kezdeményezni, célunk egy bevezető kurzus több szinten megjelölt, praktikusan elrendezett, sokféleképpen feldolgozható anyagának az ismertetése. 4.1. Jelölések a kurzustematikában 5
A kurzus minden témakörét több szinten jelöléssel láttuk el. gyrészt a témakör nevének félkövér szedésével jeleztük, hogy mi tartozik az alaptudáshoz. Másrészt kis ikonok mutatják meg a témakör tanulmányozásához szükséges matematikai ismeretek mértékét, illetve a reál és humán érdeklődésű hallgatók számára külön-külön a témakör tanulmányozásának ajánlott mélységét. Végül az adott témakör oktatását segítő eszközöket is felsoroltuk. Fontos tisztázni, hogy a beszédtechnológia mely témakörei adják azt az alaptudást, amely egyetlen bevezető kurzus tematikájából sem hiányozhat. bből a szempontból 2 kategóriát különítettünk el: Alaptudás a megadott kurzustematikában félkövéren szedve jelenítettük meg azokat a témaköröket, amelyeket az alaptudáshoz sorolunk, a beszédtechnológia oktatásához elengedhetetlenül szükségesnek tartunk. Szabadon választható témakörök a kurzustematikában normál betűtípussal szereplő témakörök, amelyeket fontosnak tartunk, de oktatása már a helyi viszonyok függvénye lehet. A témakör tanulmányozásához szükséges matematikai előismeretek mértékét és magának a témakörnek a matematikai bonyolultságát a témakör neve előtti szimbólummal jelöltük meg. Három kategóriát különböztetünk meg: Matematikára legfeljebb a formalizmus miatt van szükség, esetleg a modellek leírására használjuk. A témakörben olyan matematikai modellekkel kapcsolatos következtetések és algoritmusok szerepelnek, amelyek mélyebb matematikai ismereteket nem igényelnek. A témakör feldolgozása a matematikai analízis vagy mátrixalgebra részletes ismeretét igényli A reál és humán érdeklődésű hallgatók számára megadunk egy-egy hipotetikus kurzusváltozatot. A reál érdeklődésű hallgatók az első, R feliratú oszlopban, a humán érdeklődésű hallgatók a második, H feliratú oszlopban találják azokat a jelzéseket, amelyek a rájuk vonatkozó témakörök ajánlott tárgyalási mélységét jelentik. Itt is három kategóriát különböztetünk meg: A témakör áttekintő tanulmányozása vagy kihagyása ajánlott. A témakör fontos fogalmainak, a használt modelleknek és az algoritmusoknak a megadása ajánlott. A témakör teljes bemutatása ajánlott. Az egyes témakörök oktatását segítő, az 5. fejezetben felsorolt és ott eljelölt eszközöket a kurzustematikában az szk. (szközök) oszlopban találjuk meg. 4.2. A kurzus tartalma A kurzus tematikája 3 részből áll. gyrészt tartalmazza a felzárkózást segítő témaköröket, amelyek az alaptudás eléréséhez szükségesek, ezek a 2. és a 3. részterületek az 1. táblázatban. Másrészt tartalmazza magát az alaptudást, amelyeket a félkövéren szedett témakörök jelölnek. A normál betűstílusú témakörök a szabadon választható témakörök, amelyek lehetővé teszik a képzési struktúrához, helyi viszonyokhoz legjobban illeszkedő kurzusváltozat kiválasztását. 6
1. táblázat A kurzus tematikája 1. Bevezetés beszédtechnológia története beszédtechnológia jelene és jövője 2. Matematikai alapok lineáris algebra elemei matematikai analízis elemei harmonikus analízis elemei valószínűségelmélet és matematikai statisztika elemei jelek és lineáris rendszerek digitális jelfeldolgozás alakfelismerés 3. Fonetikai alapok beszéd körfolyamata beszédképző szervek és működésük hallás szervei és a hallás folyamata magyar beszédhangok képzése és osztályozása beszédakusztikai alapok, koartikuláció magyar beszédhangok és hangkapcsolódások akusztikai szerkezete prozódiai szerkezetek, modellek fonetikus átírás rendszerei beszédelemzés számítógéppel kapcsolat a nyelvészet más területeivel R H,S2,A1,A2,S2,A2, adaptív zaj- és visszhangszűrés 7. Beszédszintézis szintetizálók célja, típusai kötött szótáras rendszerek szövegfelolvasó rendszerek nyelvészeti előfeldolgozás prozódia megvalósítása szabály alapú szintézis korpusz alapú szintézis szövegfelolvasók minősítése hangátalakítás kifejező/érzelmi beszédszintézis 8. Beszédfelismerés beszédfelismerők osztályozása lényegkiemelés templétbázisú mintaillesztés rejtett Markov modell kereső algoritmusok felismerés neurális hálózattal utófeldolgozás akusztikai és nyelvi modellek robusztus felismerés 9. Beszélőfelismerés felismerési módszerek egyéni hangjellemzők szövegfüggő felismerés szövegfüggetlen felismerés nyelvdetektálás,s2,,, 4. A beszédjel analízise rövid idejű beszédanalízis analízis időtartományban analízis frekvenciatartományban kepsztrum analízis LPC analízis gerjesztés modellje, F0 akusztikus csőmodell egyéb módszerek, pl. wavelet többcsatornás beszédfeldolgozás 5. Beszédkódolás kódolási módszerek osztályozása kódolás időtartományban kódolás frekvenciatrományban vektorkvantálás vegyes kódolások érzeti kódolás 6. Beszédtisztítás hullámok találkozásának vizsgálata beszédtisztítási módszerek spektrális kivonás 10. Beszédadatbázisok beszédadatbázisok osztályozása, szerepük a beszédtechnológiában adatbázis tervezésének kérdései beszéd leírásának módszerei annotálási módszerek eszközök szegmentálásra magyar és nemzetközi adatbázisok 11. Beszédalapú alkalmazások fejlesztése alkalmazások típusai tervezési kérdések dialógus rendszerek felépítése, osztályozása telefonos alkalmazások multimodális alkalmazások hagyományos fejlesztőeszközök hangos jelölőnyelvek konkrét alkalmazások az oktatásban és kutatásban, iparban és szolgáltatásban, esettanulmányok A kurzus sikeres teljesítéséhez szükséges előismeretek kurzusba implementálása azzal a haszonnal jár, hogy a reál területről érkező mérnök/informatikus és a humán terület érkező nyelvész/filológus hallgatók számára is elérhetővé válik a beszédtechnológia. gy másik 7
megközelítés lehet, hogy előírhatjuk előzetes tanulmányok végzését azok számára, akik nem rendelkeznek kellő alapokkal a bevezető kurzus elkezdéséhez. zek lehetnek egyéni felkészülések vagy teljes féléves kurzusok is. A témakörök alaptudáshoz sorolása csak ajánlásként fogható fel, semmiképp nem jelentik az adott részterület fontosságát, elfogadottságát a többihez képest. Főképp a mai helyzetet, divatot tükrözik, változásuk várható. A kurzus egyes témaköreinél jelölt tárgyalási mélységben a reál és humán oldal viszonyát fejezzük ki az átadott ismeretek mennyiségét és az oktatási időt illetően. Az egymás mellett szereplő jelek viszonyára is gondot fordítottunk. A három tárgyalási mélység valamelyikének megadása során figyelembe vettük a háttértudást és a hallgatók lehetséges céljait is gy konkrét bevezető kurzus tanterve a fentiek alapján tehát az alaptudásból épül fel, melyhez hozzáadjuk a felzárkózást segítő és a szabadon választható elemeket, valamint minden esetben eldöntjük a tárgyalás mélységét. Az eredmény egy lehetséges beszédtechnológia kurzusváltozat, amelyet a hallgatók háttértudása és a céljai határoznak meg. 5. szközök A beszédtechnológia szakirodalma rendkívül gazdag, számos könyv, folyóirat, konferencia-kiadvány válhat a kurzus fontos forrásává. A szakirodalom ilyen jellegű áttekintése és a témakörökhöz illesztése, főképp terjedelmi okok miatt, kívül esik e dolgozat keretein. A magyar nyelven megjelentek közül a (Gordos-Takács, 1983, Olaszy 1985, 1989, Gósy, 2004, Olaszy 2006, 2007) könyveket említjük, illetve a konferenciák közül az évenként megjelenő Beszédkutatás tanulmánykötetet (MTA Nyelvtudományi Intézet), a kétévente megrendezett Beszédkutatás, és az éves gyakorisággal megtartott Magyar Számítógépes Nyelvészeti konferenciákat emeljük ki. Jelen fejezetben azokat az elsősorban magyar nyelvű eszközöket tárgyaljuk részletesebben, amelyek az interneten szabadon hozzáférhetőek. A kurzustematikában (1. táblázat) a felhasználás helyét az szk. (szközök) oszlopban tüntetjük fel a lentebb, szögletes zárójelben megadott hivatkozás segítségével. 5.1. Online segédanyagok [] A Magyar nyelvi beszédtechnológiai alapismeretek című multimédiás, interdiszciplináris oktatóanyag a beszédtechnológia alapjainak elsajátításához nyújt segítséget (Kovács et al., 2002) z a több mint 600 oldalas szakkönyv felöleli a beszédet létrehozó mechanizmusokkal és akusztikai szerkezetekkel kapcsolatos ismereteket csakúgy, mint a sikeres beszédtechnológiai rendszerek működéséhez és tervezéséhez szükséges részleteket. (http://alpha.tmit.bme.hu/pub/beszinf/start.html) [S2] Az "In memoriam Kempelen Farkas" multimédiás alkalmazás Kempelen Farkas beszélőgépének rekonstruált, működő változatát mutatja be. Megismerhetjük a barokk kor egyik legértékesebb találmányának működését, és kipróbálhatjuk azokat a hangelőállítási formákat, amelyeket a polihisztor az 1791-ben Bécsben megjelent könyvében leírt (Nikléczy- Olaszy 2002). (http://fonetika.nytud.hu/kempelen) 5.2. Online beszédadatbázisok 8
[A1] Az Adatbázis a magyar szavak hangidőtartam-képeinek bemutatására című online adatbázis 1,5 millió szóalak időszerkezetét tartalmazza. A kényelmes keresőfelülettel rendelkező adatbázis átfogóan mutatja be a hangidőtartamokat a szó szintjén a magyar nyelvre. (Olaszy-Abari 2005) (http://fonetika.nytud.hu/hitint). [A2] A Beszédadatbázis a magyar beszédhang-kapcsolódások szerkezeti bemutatására című online interaktív hangtani beszédadatbázis, amelyben bárki tanulmányozhatja a magyar beszéd szegmentális szerkezetének összes alapelemét, vagyis a beszédhangok, a hangkapcsolódások rezgésképét, a hangok időviszonyait, a hangzóssági adatokat és a koartikulációs hatások akusztikai vetületeit a spektrális kép segítségével. (Abari-Olaszy, 2007) (http://fonetika.nytud.hu/cvvc). 5.3. Beszédelemző szoftverek [] Az interneten számos nagy tudású, komplex beszédelemző érhető el, amelyeket a beszéd digitalizálására, akusztikai elemzésre a kutatásban és az oktatásban egyaránt jól felhasználhatunk (egyedül a MATLAB nem ingyenes, de népszerűsége miatt megemlítjük): Praat: doing phonetics by computer (http://www.fon.hum.uva.nl/praat/). WaveSurfer (http://www.speech.kth.se/wavesurfer/) Speech Analyzer (http://www.sil.org/computing/sa/index.htm) WASP (http://www.phon.ucl.ac.uk/resource/sfs/wasp.htm) Speech Filing System (http://www.phon.ucl.ac.uk/resource/sfs) R programcsomag a seewave csomaggal. (http://www.r-project.org) MATLAB (http://www.mathworks.com/) 5.4. További intézményi/vállalati források BM Távközlési és Médiainformatikai Tanszék Beszédtechnológiai laboratórium Speechlab (http://speechlab.tmit.bme.hu) MTA Nyelvtudományi Intézet Kempelen Farkas Beszédkutató Laboratórium (http://fonetika.nytud.hu) MTA Nyelvtudományi Intézet (http://www.nytud.hu) Speech and Hearing Net (http://www.speechandhearing.net) AITIA International Zrt. (http://www.aitia.hu/) Alkalmazott Logikai Laboratórium Kutató-fejlesztő Szövetkezet (http://www.all.hu/) Morphologic Kft. (http://www.morphologic.hu/) 5.5. Néhány magyar kurzus elérhetősége Beszédfelismerés és beszédszintézis Pázmány Péter Katolikus gyetem (http://digitus.itk.ppke.hu/~takacsgy/) Beszédinformációs rendszerek Budapesti Műszaki és Gazdaságtudományi gyetem (http://speechlab.tmit.bme.hu) Beszédtechnológia ötvös Loránd Tudományegyetem (http://www.btk.elte.hu/fonetika/fonhun.html) Digitális beszédfeldolgozás Debreceni gyetem (http://www.inf.unideb.hu/~pappzol/hallginf/index.html) Természetes nyelvi feldolgozás, beszédfelismerés Szegedi Tudományegyetem (http://www.inf.u-szeged.hu/oktatas/kurzusleirasok/i032.xml) 9
6. Összefoglalás A beszédtechnológia mint fentebb láthattuk követi a mai technikai változások dinamizmusát és gyors ütemben fejlődik. Mindemellett azonban tudnunk kell, hogy az ember beszédkommunikációs képességét géppel ma még csak megközelíteni sem tudjuk. A legfontosabb ok ma már nem a számítógépek teljesítményében keresendő, hanem a nyelvi háttér komplexitásában, a beszédjel rendkívüli összetettségében és az ismereteink hiányában. Így a területet átfogó, egységes ismereteket tartalmazó kurzus a hallgatók számára biztosíthatja azt a hátteret, amellyel a szakirodalom megértésén túl a kutatás új területei nyílhatnak meg. A dolgozatban egy bevezető, Beszédtechnológiai alapismeretek c. kurzus részletes tematikáját ismertettük, amely a terület szerteágazó ismereteit foglalta össze, megadta a felzárkózást segítő ismereteket, az alaptudást és a szabadon választható témaköröket is. Az adott képzési struktúrába legjobban illeszkedő kurzusváltozat kiválasztását a témakörök mellett szereplő jelölések segítik, amely a matematikai ismeretek mértékét, a témakör tárgyalásának mélységét és az oktatásban felhasználható segédeszközök hivatkozásait jelentik. Reményeink szerint az összeállított kurzustematika segítséget jelent a kollégák számára a különböző háttérismeretekkel és célokkal érkező hallgatók beszédtechnológia oktatásában. Irodalomjegyzék [1] Abari Kálmán, Olaszy Gábor (2007) A magyar beszéd hangkapcsolódásainak bemutatása az interneten. Beszédkutatás. MTA Nyelvtudományi Intézet, 2007. 178-186. [2] Bird, Steven (2008) Defining a Core Body of Knowledge for the Introductory Computational Linguistics Curriculum (Megjelenés alatt.) [3] Bloothooft, Gerrit et al. (1998) The Landscape of Future ducation in Speech Communication Sciences. 2. Proposals. Led. Utrecht. [4] Gordos Géza, Takács György (1983) Digitális beszédfeldolgozás. Műszaki Kiadó. Budapest. [5] Gósy Mária (2004) Fonetika, a beszéd tudománya. Osiris. Budapest. [6] Kovács Magdolna Olaszy Gábor Nikléczy Péter Gósy Mária (2002) Magyar nyelvi beszédtechnológiai alapismeretek CD-ROM. Nikol Kiadó. Budapest. [7] Nikléczy Péter Olaszy Gábor (2002): Kempelen beszélőgépének rekonstruálása. In: Beszédkutatás 2002 Szerk.: Gósy Mária, MTA Nyelvtudományi Intézet, Budapest. 5-17. [8] Olaszy Gábor (1985) A magyar beszéd leggyakoribb hangsorépítő elemeinek szerkezete és szintézise. A számítógépes beszédelőállítás néhány kérdése. Nyelvtudományi Értekezések 121. Budapest. [9] Olaszy Gábor (1989) lektronikus beszédelőállítás. A magyar beszéd akusztikája és formánsszintézise. Műszaki Kiadó. Budapest. [10] Olaszy Gábor Abari Kálmán (2005) Adatbázisok és számítógépprogramok a magyar beszéd időszerkezeti vizsgálatához. Alkalmazott Nyelvtudomány V/1-2, 2005. 41-62. 10
[11] Olaszy Gábor (2006) Hangidőtartamok és időszerkezeti elemek a magyar beszédben. Nyelvtudományi Értekezések 155. Akadémiai Kiadó. [12] Olaszy Gábor (2007) Mássalhangzó-kapcsolódások a magyar beszédben. Tinta Kiadó, Budapest. 11