Abstract Item-válasz-elmélet alapú adaptív tesztelés Item Response Theory based adaptve testng ANTAL Margt 1, ERŐS Levente 2 Sapenta EMTE, Műszak és humántudományok kar, Marosvásárhely 1 adjunktus, many@ms.sapenta.ro 2 nformatka szakos hallgató III. év, deges@gmal.com One of the fastest evolvng feld among teachng and learnng research s students' performance evaluaton. Computer based testng systems are ncreasngly adopted by unverstes. However, the mplementaton and mantenance of such a system and ts underlyng tem bank s a challenge for an nexperenced tutor. Therefore, ths paper dscusses the advantages and dsadvantages of Computer Adaptve Test (CAT) systems compared to Computer Based Test systems. Furthermore, a few tem selecton strateges are compared n order to overcome the tem exposure drawback of such systems. The paper also presents our CAT system along ts development steps. Összefoglaló A dákok teljesítményének mérése a tanítás és tanulás kutatásának egyk legerőteljesebben fejlődő területe. A számítógépes tesztelést, lletve ennek adaptív változatát egyre szélesebb körben alkalmazzák a tudás felmérésére. Ennek ellenére egy adaptív tesztrendszer megvalósítása és karbantartása khívást jelent a tapasztalatlan oktatók számára. Dolgozatunkban összehasonlítjuk a hagyományos és az adaptív tesztrendszereket, kemelt fgyelmet szentelve a teszttemek ktettségvzsgálatának, amely az adaptív rendszerek egyk hátrányos tulajdonságának teknthető. Végül pedg bemutatjuk a saját adaptív tesztrendszerünket s. Kulcsszavak: Item-válasz-elmélet, web alapú tesztelés, adaptív tesztelés. 1. Bevezetés A dákok teljesítményének mérése a tanítás és tanulás kutatásának egyk legerőteljesebben fejlődő területe. A web alapú oktatás rendszerekbe ntegrált tesztrendszerek széles körben terjednek, és egyre több egyetemen fejlesztenek hasonló rendszereket [2], [3], [8]. A számítógépes tesztelés számos előnnyel rendelkezk a hagyományos, papír és ceruza alapú tesztekkel szemben, mnt például: a tesztkérdésekhez különböző multméda csatolható, a teszt kértékelése azonnal, vagy például a gyakorló rendszerekben útmutatásokat, ksegítő utalásokat nyújthatunk a rendszer használónak. Ebben a dolgozatban áttekntjük az Item-válasz-elmélet alapú adaptív tesztelést, ktérve az előnyök és hátrányok tárgyalására s. A dolgozat másodk felében a saját rendszerünket mutatjuk be, lletve az temek ktettségét vzsgáló szmulácókat smertetjük. A dolgozatot a következtetések levonásával zárjuk. 2. Item-válasz-elmélet Az Item-válasz-elmélet egy valószínűség tesztelmélet, amelynek fő célja a teszttemek gazítása a vzsgázó képesség szntjéhez. A vzsgázó képesség szntjének becslése folyamatosan, a tesztelés során történk. Az adaptív tesztelés a következő lépésekből áll: () egy kezdet képességsznt beállítása () az adott képességsznthez a legmegfelelőbb kérdés kválasztása () a képességsznt újrabecslése a kérdésre adott válasz alapján. A másodk és a harmadk lépést addg smételjük amíg a befejezés feltételek nem teljesülnek. Az adaptív tesztelés elméletének megalapozója Lord volt, ak 1952-ben arra a következtetésre jutott, hogy amíg egy személy képesség szntje teszt-független, addg a teszteredmények mndg teszt-függők [5]. A valószínűség tesztelmélet fejlődésének következő
mérföldköve a Georg Rasch által 1960-ban smertetett egyparaméteres logsztka modell volt [10], amely a későbbekben Rasch modellként vált smertté. A következő évtzedeket a Item-válasz-elmélet alapú alkalmazások megjelenése jellemezte. A következőkben a háromparaméteres logsztka modellt mutatjuk be. Ebben a modellben mnden egyes temhez egy tem-karaktersztkus görbét rendelünk, amely megmutatja, hogy adott Θ képességszntű dák mlyen valószínűséggel válaszol helyesen az adott temre. Az temkaraktersztkus görbe egyenlete a következő: P( Θ ) = (1 c + 1 + e c) Da( Θ b) ahol a az tem dszkrmnácója, b a nehézsége és c pedg a válasz ktalálásának valószínűsége. Az tem nehézsége azonos skálán mozog a vzsgázó képességszntjével. Elméletleg ez a skála - és + között mozog, a gyakorlatban azonban elegendő -3 és +3 között ntervallum [1]. A dszkrmnácó azt mutatja meg, hogy az tem mennyre jól választja szét a vzsgázókat az adott nehézség sznten. Ez a paraméter a görbe meredekségét határozza meg annak középső szakaszában. Mnél meredekebb a görbe ezen szakasza, annál nagyobb az tem dszkrmnácója az tem nehézség szntjén. A ktalálás faktor egy valószínűség érték, például egy gen/nem választ váró kérés esetében értéke 0.5, a D pedg egy skálázás faktor, amelynek 1.7 értéket szokás használn. Az 1. ábra egy temkaraktersztkus görbét szemléltet. (1) 1. ábra Item-karaktersztkus görbe A logsztka modell másk fontos eleme az tem-nformácó függvény, amely mér, hogy az tem segítségével mennyre lehet pontosan becsüln a képességszntet. Ha az tem-nformácó nagy, nagyobb pontossággal lehet meghatározn egy tem után a képességszntet, így a nagyobb nformácós mutatóval rendelkező kérdés kerül a vzsgázó elé, nem pedg az, amelyre nagyobb valószínűséggel tud válaszoln. Az tem-nformácó számítására a következő képletet használtuk: I = ' 2 P ( Θ ) P( Θ )(1 P( Θ )) A P ' (θ), a valószínűség elsőrendű derváltja. Az adaptív tesztelés harmadk lépése az új képességsznt becslése az előzetesen megválaszolt temek alapján. A szakrodalom erre több képletet s ajánl, amelyeket rendre kpróbálva, a Rudner [11] által ajánlott bzonyult a legmegfelelőbbnek: (2)
Θˆ s+ 1 = Θˆ s + N = 1 N = 1 S ( Θˆ ) s I ( Θˆ ) s (3) ahol ' P S ( Θ ) = ( u P ) P (1 P ) (4) valamnt u az. kérdésre adott válasz alapján 1, amennyben a válasz helyes, lletve 0 ellenkező esetben. Az Item-válasz-elmélet két esetben mond csődöt, amkor mnden kérdésre helyes, vagy mnden kérdésre helytelen választ ad a vzsgázó. Ezeket a szélsőséges eseteket fgyeln kell, és egy adott kérdésszám után le kell állítan a tesztelést. Bármlyen más eset esetében a megállás feltételt a standard hbához kötjük. A standard hba a képességsznt becslésének pontosságát jellemz, ezért ha ez az érték egy küszöbérték alá csökken, leállíthatjuk a tesztelést [9]. A standard hba kszámításához felhasználjuk a teszt-nformácó függvényt, amelyet a következő képlettel számítunk: TI( Θ ) = N I = 1 ( Θ ) Ezután a standard hbát pedg így számíthatjuk: (5) SE( Θ ) = 1 TI( Θ ) A megállás feltételt a m rendszerünkben a standard hbához, egy mnmáls, lletve egy maxmáls temszámhoz kötöttük. A standard hbának 0.33, lletve ez alatt értéket szokás használn [11]. 2.1. Előnyök és hátrányok Az adaptív tesztelés legnagyobb előnye a megbízhatóság, lletve az a jellemzője, hogy képes gazodn a vzsgázó képességehez, ennek következtében a nagyon jó képességű vzsgázókat nem untatja nagyon egyszerű kérdésekkel, a gyenge képességűeknek pedg nem tesz fel túl nehéz kérdéseket, amelyek semmlyen nformácót nem nyújtanának a vzsgázó képességét lletően. Ezen tulajdonság egyenes következménye, hogy a vzsgázó képességszntjét rövdebb dő alatt, kevesebb tem segítségével képes megállapítan. Az adaptív tesztelés előnye mellett számos hátránnyal s kell számoln. Az első hátránynak az teknthető, hogy a módszer nem alkalmazható abban az esetben ha mnden kérdésre csak helyes, lletve csak helytelen választ ad a vzsgázó. Ezt a két esetet külön kell vzsgáln, és egy adott mnmáls kérdésszám után le kell állítan a tesztelést maxmáls, lletve mnmáls képességsznttel. Egy másk hátránya ennek a tesztelés módszernek, hogy nem vesz fgyelembe, hogy az temek mlyen témakörökhöz tartoznak. Bzonyos felmérések esetében vszont rendkívül fontos, hogy bzonyos témakörökből egységesen mérjen a teszt. Ennek a problémának a megoldására Huang [6] egy sajátos adaptív algortmust javasolt. Egy másk megoldást Waner és Kley [14] javasolt, amelynek lényege temcsoportok kalakítása fejezetenként. Ezen temcsoportok egységként kezelendők, vagys kválasztás esetén a csoporthoz tartozó mnden tem felhasználódk a tesztelés során. Az Item-válasz-elmélet egyk legkényesebb problémája az temek kalbrácója, am az temek előzetes megfelelő mntacsoporton való kpróbálását jelent. Ezután nylván kderülhet az temről, hogy az nem megfelelő, nem dfferencál kellőképpen. Mután kszűrtük a nem megfelelő temeket, következk az tembank ellenőrzése. Egy jó tembanknak témakörönként nehézség és dszkrmnácó (6)
szempontjából s megfelelő eloszlású temeket kell tartalmazna. Ha már van egy megfelelő tembankunk, még mndg adódhatnak problémák a tesztelések során. Bzonyos temek ktettsége túl magas lehet, lletve más temek pedg mellőzve lehetnek a kválasztások során. Ez annak tudható be, hogy egy adott képességsznt esetében a következő tem kválasztása az tem-nformácó függvény segítségével történk. Az tem-nformácó függvényt kszámítjuk az összes olyan temre, amely még nem volt kválasztva az adott tesztelés során. Ezen temek közül pedg a legnagyobb tem-nformácóval bírót választjuk k. Mvel különböző temparaméter kombnácók azonos tem-nformácó értékhez vezethetnek, feltevődk a kérdés, hogy ezek közül melyket a legmegfelelőbb választatn. A [4], [12] dolgozatok tem ktettséget szabályozó módszereket smertetnek. 3. Adaptív tesztrendszer mplementácó A következőkben a saját adaptív tesztrendszerünk fejlesztésének lépéset smertetjük. 3.1. Az tem bank Az tembankot 171 kérdés alkotja, amelyből 165 temet saját fejlesztésű gyakorló tesztrendszerből vettünk át. Ebben a rendszerben az temekhez öt féle nehézség sznt van rendelve, ezt skáláztuk a [-3,3] ntervallumra. A ktalálás paramétert a helyes válaszok számának függvényében állítottuk be, például egy olyan kérdés esetében, ahol egy helyes választ öt lehetséges közül kell kválasztan, a ktalálás paraméter értéke 0.2. A dszkrmnácót nagyon nehéz becsüln, ezért ezt mnden temre egyforma 1-es értékre állítottuk. Ezt a paramétert csak megfelelő számú mnta után lehet helyesen hangoln. 3.2. Itemek ktettségének szabályozása Az mplementácót megelőzően szmulácókat végeztünk, amelynek célja az temek ktettségének szabályozása. A szmulácóban 100 vzsgázót szmuláltunk, amely az előző fejezetben bemutatott tem-nformácó függvény segítségével választotta k a legmegfelelőbb kérdést az tembankból. A szmulácóban három módszert vzsgáltunk: () a tesztelés során mndg a legnagyobb tem-nformácót hordozó temet választjuk () a 10 legmagasabb tem-nformácót hordozó temből véletlenszerűen választjuk a következő temet () a hasonló tem-nformácóval rendelkező temekből csoportokat alkottunk, majd ezen csoportokból véletlenszerűen választjuk k a 10 legjobbat. 2. ábra Item-nformácók klaszterek mérete A 2. ábra a Θ=0.5 értékre keletkező csoportokat szemléltet. Ebben az esetben a 10 legmegfelelőbbet úgy választjuk k, hogy vesszük az első két csoportot (mndkettő egy-egy temet tartalmaz), majd a harmadk csoportból, amelyet 13 tem alkot kválasztunk véletlenszerűen még 8 temet. Az így kválasztott 10 temből smét véletlenszerűen választunk egyet. A három módszerrel kapott tem ktettségeket szemléltet a 3. ábra, amelynek alapján a () módszer szabályozza a legmegfelelőbben az temek ktettségének mértékét.
3. ábra Item-ktettség vzsgálata különböző szabályozó módszerekkel 3.3. A rendszer archtektúrája Az adaptív tesztrendszerünket egy osztott rendszerként valósítottuk meg, amelyben szerveroldalon Java technológákat használtunk, lletve Adobe Flex technológát klensoldalon. Az adatok tárolására MySql adatbázs-kezelőrendszert használtunk, amelyet a Hbernate perzsztenca keretrendszer állított elő az objektumorentált doman-modellből. A rendszerünk archtektúráját a 4. ábra szemléltet. 4. ábra Adaptív tesztrendszer archtektúra A teszt klensalkalmazás a tesztek adaptív lebonyolításáért felelős, míg az admnsztrácós rész feladata az tembank karbantartása, a tesztek ütemezése, a teszt befejezés feltételenek beállítása, lletve az elvégzett tesztekre vonatkozó statsztka készítése. Az egyk leglényegesebb különbség a hagyományos és az adaptív tesztelés között az, hogy míg a hagyományos tesztelés esetében megengedhetjük a vzsgázónak, hogy vsszalépjen az előzőleg
megválaszolt kérdésekhez, és módosítsa az előző válaszát, addg az adaptív változatban nncs vsszalépés, hszen mnden kérdést az addg megválaszolt kérdések alapján megbecsült tudásszntnek megfelelően választottunk k. Ha megengednénk a vsszalépést, nagyon könnyen kjátszható lenne egy lyen rendszer. 4. Következtetések Dolgozatunkban bemutattuk az Item-válasz-elmélet alapú adaptív tesztrendszereket, majd részletesen tárgyaltuk a rendszer fejlesztése során felmerülő problémákat. Az temek ktettségére először szmulácót végeztünk, majd a legmegfelelőbb módszert beépítettük egy osztott adaptív tesztrendszerbe. Annak ellenére, hogy jelen pllanatban még nncsenek mérésenk a rendszer valós használatáról, a dolgozatban bemutatott elmélet rész és szmulácós eredmények jól hasznosíthatók egy lyen típusú tesztrendszer mplementálása során. Tervenk között szerepel egy tem-kalbrácós modul elkészítése, amelyben a [7], lletve a [13] dolgozatokban bemutatott eredményeket szeretnénk megvalósítan. Hvatkozások [1] Baker, F. B. (2001). The Bascs of Item Response Theory. ERIC Clearnghouse on Assessment and Evaluaton. College Park, MD: Unversty of Maryland. [2] Barla, M., Belkova, M., Ezzeddnne, A. B., Kramar, T., Smko, M., Vozar, O. (2010). On the Impact of Adaptve Test Queston Selecton for Learnng Effcency. Computers & Educatons 55, 846-857. [3] Baylar, A., Montazer, G. A. (2009). Desgn a personalzed e-learnng system based on tem response theory and artfcal neural network approach. Expert Systems wth Applcatons 36(4), 8013-8021. [4] Georgadou, E., Trantafllou, E., Economdes, A. (2007). A revew of tem exposure control strateges for computerzed adaptve testng developed from 1983 to 2005. Journal of Technology, Learnng, and Assessment 5(8). [5] Hambleton, R. K., Jones, R. W., Comparson of Classcal Test Theory and Item Response Theory and Ther Applcatons to Test Development, ITEMS - Instructonal Topcs n Educatonal Measurement. [6] Huang, S. (1996). A Content-Balanced Adaptve Testng Algorthm for Computer-Based Tranng Systems. In Frasson, C., Gauther, G., Lesgold, A. Intellgent Tutorng Systems (pp. 306-314). Thrd Internatonal Conference, ITS'96, Sprnger. [7] Lnden, W. J., Glas, C. A. W. (2006). Captalzaton on Item Calbraton Error n Computer Adaptve Testng, LSAC Research Report, 98-04. [8] Llley, M., Barker, T., & Brtton, C. (2004). The development and evaluaton of a software prototype for computer-adaptve testng. Computers & Educaton 43, 109-123. [9] Lord, F. M. (1980). Applcaton of Item Response Theory to Practcal Testng Problems. New Jersey: Lawrence Erlbaum. [10] Rasch, G. (1960). Probablstc models for some ntellgence and attanment tests. Copenhagen: Dansh Insttute for Educatonal Research. [11] Rudner, L. M. (1998). An onlne, nteractve, computer adaptve testng tutoral. http://echo.edres.org:8080/scrpts/cat/catdemo.htm [12] Stockng, M.L. (1993). Controllng tem exposure rates n a realstc adaptve testng paradgm. Techncal Report RR 3-2. Prnceton, New Jersey: Educatonal Testng Servce. [13] Stockng, M.L. (1990). Specfyng optmum examnees for tem parameter estmaton n Item Response Theory. Psychometrka 55(3), 461-475. [14] Waner, H., Kely, G. L. (1987). Item clusters and computerzed adaptve testng: A case for testlets. Journal of Educatonal Measurement 24, 189-205.