TESZTELMÉLET 1 ÖSSZEFOGLALÓ 1. BEVEZETÉS

Hasonló dokumentumok
Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Regresszió. Fő cél: jóslás Történhet:

Lineáris regresszió. Statisztika I., 4. alkalom

4 2 lapultsági együttható =

A sokaság/minta eloszlásának jellemzése

d(f(x), f(y)) q d(x, y), ahol 0 q < 1.

Az entrópia statisztikus értelmezése

METROLÓGIA ÉS HIBASZÁMíTÁS

Minősítéses mérőrendszerek képességvizsgálata

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

VARIANCIAANALÍZIS (szóráselemzés, ANOVA)

Békefi Zoltán. Közlekedési létesítmények élettartamra vonatkozó hatékonyság vizsgálati módszereinek fejlesztése. PhD Disszertáció

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Item-válasz-elmélet alapú adaptív tesztelés. Item Response Theory based adaptive testing

KOMBINATORIKA ELŐADÁS osztatlan matematika tanár hallgatók számára. Szita formula

Philosophiae Doctores. A sorozatban megjelent kötetek listája a kötet végén található

Tanult nem paraméteres próbák, és hogy milyen probléma megoldására szolgálnak.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

MATEMATIKAI STATISZTIKA KISFELADAT. Feladatlap

Dr. Ratkó István. Matematikai módszerek orvosi alkalmazásai Magyar Tudomány Napja. Gábor Dénes Főiskola

IDA ELŐADÁS I. Bolgár Bence október 17.

Fuzzy rendszerek. A fuzzy halmaz és a fuzzy logika

Egy negyedrendű rekurzív sorozatcsaládról

Az elektromos kölcsönhatás

NKFP6-BKOMSZ05. Célzott mérőhálózat létrehozása a globális klímaváltozás magyarországi hatásainak nagypontosságú nyomon követésére. II.

Matematikai alapok és valószínőségszámítás. Normál eloszlás

A multikritériumos elemzés célja, alkalmazási területe, adat-transzformációs eljárások, az osztályozási eljárások lényege

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Korreláció-számítás. 1. előadás. Döntéselőkészítés módszertana. Dr.

Jövedelem és szubjektív jóllét: az elemzési módszer megválasztásának hatása a levonható következtetésekre

Adatelemzés és adatbányászat MSc

Méréselmélet: 5. előadás,

Support Vector Machines

Bevezetés a kémiai termodinamikába

TÉRBELI STATISZTIKAI VIZSGÁLATOK, ÁTLAGOS JELLEMZŐK ÉS TENDENCIÁK MAGYARORSZÁGON. Bihari Zita, OMSZ Éghajlati Elemző Osztály OMSZ

Szárítás során kialakuló hővezetés számítása Excel VBA makróval

Műszaki folyamatok közgazdasági elemzése. Kevert stratégiák és evolúciós játékok

Statisztika I. 3. előadás. Előadó: Dr. Ertsey Imre

,...,q 3N és 3N impulzuskoordinátával: p 1,

8. Programozási tételek felsoroló típusokra

Adatsorok jellegadó értékei

Darupályák ellenőrző mérése

(eseményalgebra) (halmazalgebra) (kijelentéskalkulus)

10. Alakzatok és minták detektálása

ADATREDUKCIÓ I. Középértékek

Periodikus figyelésű készletezési modell megoldása általános feltételek mellett

A bankközi jutalék (MIF) elő- és utóélete a bankkártyapiacon. A bankközi jutalék létező és nem létező versenyhatásai a Visa és a Mastercard ügyek

Elosztott rendszerek játékelméleti elemzése: tervezés és öszönzés. Toka László

Táblázatok 4/5. C: t-próbát alkalmazunk és mivel a t-statisztika értéke 3, ezért mind a 10%-os, mind. elutasítjuk a nullhipotézist.

ADATREDUKCIÓ I. Középértékek

Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

A DÖNTÉSELMÉLET ALAPJAI

Pszichometria Szemináriumi dolgozat

Nemlineáris függvények illesztésének néhány kérdése

I. A közlekedési hálózatok jellemzői II. A közlekedési szükségletek jellemzői III. Analitikus forgalom-előrebecslési modell

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

/11 Változtatások joga fenntartva. Kezelési útmutató. UltraGas kondenzációs gázkazán. Az energia megőrzése környezetünk védelme

Összegzés a 92/2011.(XII.30.) NFM rendelet 9. melléklete alapján

1.Tartalomjegyzék 1. 1.Tartalomjegyzék

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Ötvözetek mágneses tulajdonságú fázisainak vizsgálata a hiperbolikus modell alkalmazásával

Kidolgozott feladatok a nemparaméteres statisztika témaköréből

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Mérési hibák

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Balogh Edina Árapasztó tározók működésének kockázatalapú elemzése PhD értekezés Témavezető: Dr. Koncsos László egyetemi tanár

A leíró statisztikák

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Extrém-érték elemzés. Extrém-érték eloszlások. Megjegyzések. A normálhatóság feltétele. Extrém-érték modellezés

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

A maximum likelihood becslésről

Általános esetben az atomok (vagy molekulák) nem függetlenek, közöttük erős

1. Holtids folyamatok szabályozása

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hely és elmozdulás - meghatározás távolságméréssel

A gabonavertikum komplex beruházás-elemzés módszertani fejlesztése OTKA: Részletes zárójelentés Témavezető: Dr. Ertsey Imre

7. Mágneses szuszceptibilitás mérése

Biostatisztika e-book Dr. Dinya Elek

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Adatok statisztikai értékelésének főbb lehetőségei

HAVRAN DÁNIEL. Pénzgazdálkodási szokások hatása a működőtőkére. A Magyar Posta példája

Intelligens elosztott rendszerek

Optikai elmozdulás érzékelő illesztése STMF4 mikrovezérlőhöz és robot helyzetérzékelése. Szakdolgozat

Algoritmusok és adatszerkezetek gyakorlat 09 Rendezések

Kiegészítés a felületi hullámossághoz és a forgácsképződéshez. 1. ábra. ( 2 ) A szögváltozó kifejezése:

Példa: Egy üzletlánc boltjainak forgalmára vonatkozó adatok október hó: (adott a vastagon szedett!) S i g i z i g i z i

Az értékelés során következtetést fogalmazhatunk meg a

The original laser distance meter. The original laser distance meter

PhD értekezés. Gyarmati József

ALAKOS KÖRKÉS PONTOSSÁGI VIZSGÁLATA EXCEL ALAPÚ SZOFTVERREL OKTATÁSI SEGÉDLET. Összeállította: Dr. Szabó Sándor

Gyakorló feladatok a Kísérletek tervezése és értékelése c. tárgyból Lineáris regresszió, ismétlés nélküli mérések

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Foglalkoztatáspolitika. Modellek, mérés.

Egyenáramú szervomotor modellezése

Átírás:

65 TESZTELMÉLET 1 HIDEGKUTI István BALÁZS Kataln Debrecen Egyetem, Pszchológa Intézet, Szocál- és Munkapszchológa Tanszék E-mal: hdegkut.stvan@arts.undeb.hu ÖSSZEFOGLALÓ A pszchológa és pedagóga gyakorlatban kemelkedő szerepe van a pszchológa konstruktumok mérésének, ezért nagyon fontos, hogy a pszchológusok (és a pedagógusok) tsztában legyenek a pszchológa mérés alapvető fogalmaval és elvevel. A tanulmány bemutatja a mérések alapjául szolgáló tesztelmélet két fontos rányzatát, a klasszkus tesztelméletet, lletve az tem-válasz elméletet és ezek legfontosabb mutatót, jellemzőt. Az elmélet áttekntés mellett az tem-válasz elmélethez kapcsolódó modellek llesztésének rövd gyakorlat leírása s megtalálható a tanulmányban. Kulcsszavak: klasszkus tesztelmélet, modern tesztelmélet, IRT, megbízhatóság, érvényesség, tesztpontszámok megfeleltetése 1. BEVEZETÉS A pszchológában használt tesztek kalakításának, használatának és az eredmények felhasználásának gyakorlata hátterében a tesztelmélet smerete állnak, melyek a tesztek használatának elmélet alapját képezk. Előfordul, hogy a pszchológusok hárítják a pszchometra témájú smereteket, így például a tesztelmélet alapelvet sem gondolják fontosnak, mondván, hogy használnak teszteket a megadott nstrukcók szernt, ez nekk bőven elég. Kcst olyan ez, mnt a motorkerékpározás. Valóban nem kell smernünk a motorkerékpár működését ahhoz, hogy haladn tudjunk vele. Vszont, ha optmáls teljesítményt szeretnénk elérn; vagy esetleg meghbásodk, szükségünk lehet alapvető smeretekre ahhoz, hogy boldoguljunk vele. Sőt, akár kedvünk támadhat arra, hogy magunk építsünk meg egy járgányt, ekkor ezek az smeretek esszencálsak. Jelen tanulmány célja, ennek jegyében, a klasszkus és modern tesztelméletre vonatozó legalapvetőbb smeretek összefoglalása. A tesztelmélet a statsztka elméletet használja fel a mérés eljárás megtervezéséhez, a mérés eredmény meghatározásához és a teszt eredményének modellezéséhez (pl. de Grujter és van der Kamp, 2008). A tesztelmélet kfejezetten az oktatásban és társadalomtudományok területén végzett mérések problémának kküszöbölésére és csökkentésére létrejött gondolkodás keretrendszer (Crocker és Algna, 2008). Megkülönböztetünk klasszkus és modern tesztelméletet, melyekről az alábbakban bővebben lesz szó. 1 A tanulmánykötet a TÁMOP-4.2.2B-15/1/KONV-2015-0001 támogatásával készült. Hvatkozás a tanulmánykötetre: Balázs K., Kovács J., Münnch Á. (Szerk.)(2015). Pszchológa módszertan tanulmányok. Debrecen Egyetem Kadó.

66 HIDEGKUTI István- BALÁZS Kataln A tesztelmélet kalakulásának történetét és történelm alakjat, nagyon tömören, Crocker és Algna (2008, pp. 8-11) munkája alapján foglaljuk össze. Az 1800-as évek közepén a német Wundt, Weber és Fechner munkásságában került kfejezésre először a kontrollált körülmények között történő pszchológa mérés jelentősége. Anglában, az egyén különbségek vzsgálata által lenyűgözött Galton (1869) demonstrálta, pl. Cambrdge- a dákok matematka teljesítményén, hogy a mentáls képességek nagyjából normál eloszlást követnek. Ő vetette fel a tulajdonságok kovarancájának mérését, amt Pearson később megvalósított. Szntén Anglából ered a Spearman (1935) nevéhez kapcsolódó faktor analízs. Nem khagyhatók a sorból a franca Bnet és Smon (1905-1908), akk az első ntellgenca mérést megvalósították. 1905-ben Bnet volt az első, ak számos próbát számításba véve választotta k szsztematkus elemzés és valdálás eredményeképpen teszttemet és alakította k tesztjét. Bnet hozott létre először, jól dokumentált formában normákat s. Az Egyesült Államokban Cattell (1890) vezette be a mentáls teszt kfejezést. Majd Thorndke írt először a tesztelméletről összefoglaló könyvet (1904) An ntroducton to the theory of mental and socal measurements címmel. Később Thurstone and Cave (1929) új atttűdmérés eljárásokat hoztak létre. Mndezen előzmények után 1930-ban létrejött a Pszchometra Társaság s, am tovább ösztönözte a tesztelmélet fejlődését és alkalmazásának terjedését. Campbell (1920) kjelentette, hogy a mérés számszerű reprezentácó a számbel arányok feltárása helyett. Campbell munkája teknthető a modern tesztelmélet kezdetének (Mchell, 1994). 1.1. Teszt Tesztekkel a pszchológában számos jellemzőt mérhetünk, így például ntellgencát, teljesítményt, atttűdöt, vselkedést, személységvonást (pl. de Grujter és van der Kamp, 2008). A teszt a tudományos vzsgálódás alapja lehet, és számos gyakorlat területen alkalmazható. Így például a klnka döntés folyamatban a dagnózs megalkotásakor, a beavatkozás megtervezésekor és programértékeléskor. Hasonlóképpen például a kválasztás eljárások fontos eszköze skola és munkahely környezetben s. Tesztnek nevezzük azokat a sztenderdzált eljárásokat, melyek segítenek egy adott vselkedés leírásában vagy mérésében, hogy eredményeképpen a személyekhez vagy eseményekhez előre meghatározott módon kategórákat, vagy pontszámokat rendeljünk (pl. de Grujter és van der Kamp, 2008). A tesztek fontos jellemzője, hogy egy jól körülhatárolt vselkedés mntázatra koncentrálnak; a mérés folyamat beszabályozott, egységesített; és a teszt eredménye egy normával vagy sztenderddel összevethető (pl. de Grujter és van der Kamp, 2008). 1.2. Mérés, skálázás Stevens (1946) úgy defnálta a mérést, mnt meghatározott szabályok szernt hozzárendelése számoknak egy objektumhoz. Ezt pontosította Lord and Novck (1968) úgy, hogy nem egy objektumhoz, hanem annak jellemzőhez történő hozzárendelés a mérés eredménye. A különbségtételre példa, hogy nem a személy 24 adott teszt alapján, hanem a személy empátája 24 adott teszt alapján. Ez az eljárás fzka mérések esetén sem teljesen egyszerű, hszen számos tényező befolyásolhatja a mérés eredményét, amt fgyelembe kell vennünk. Ilyen lehet testsúlynál a nap ngadozás, az egyeletlen felület, melyre a mérleget helyeztük, a mérn kívánt személy testtartása.

TESZTELMÉLET 67 Pszchológa mérések esetén azonban, amkor a konstruktum fzkalag sem megragadható, hanem látens jellemzőket mérünk, ennél s bonyolultabb a helyzet. Pszchológa mérések, mnt például egy teljesítménymérés esetén, szerepe lehet a mérés eredményében annak, hogy a vzsgálat személy smer a mérőeszközt; a vzsgálat személy fáradtságának; a vzsgálatvezető szuggesztív hatásának; az aktuáls környezet ngereknek, mnt hőség, zaj, hangulat a teremben stb. A pszchológa mérések nehézségét szemléltet, hogy Cronbach (1969, déz Crocker és Algna, 2008, p. 5) szernt egy skola osztályban zajló aktvtást legalább olyan nehéz mérn, mnt egy hurrkánt. A pszchológa mérések nehézségét adó fő jellemzők (Crocker és Algna, 2008): ugyanannak a konstruktumnak számos aspektusa kválasztható mérésre [operaconalzácó] a mérés a releváns vselkedés egy lmtált körét érnt a mérés mndg hbával terhelt a mérés skála egysége rtkán evdensek [Mennyvel kevesebb tudást mutat 5 helyes válasz, mnt 10 helyes válasz a látens skálát tekntve? Csak akkor öttel, ha az temek nehézsége azonos.] a pszchológa konstruktum nem csak az operaconalzált defnícó mentén, hanem más konstrumokkal, vselkedésekkel összefüggésben s értelmezendő (Lord és Novck, 1968) Maga a mérőeszköz, a teszt, rendkívül sokféle lehet: így egy vselkedés megfgyeléslsta; egy többválasztásos teljesítményteszt teme; atttűdöt kfejező állítások Lkert skálán történő megítélése; számítógépes reakcódő-mérés; vagy akár agy aktvtás montorozására alkalmas eszköz s lehet. A kndulás, mért adatból pedg mnden esetben az egyént jellemző skálapontszámot kell képeznünk. A mérés eredménye a skálapontszám. Megkülönböztetünk statsztka értelemben alapvető skálatípusokat: nomnáls (a számok egyetlen tulajdonságával sem rendelkeznek a skálaértékek), ordnáls (sorba rendezhető skálaértékek), ntervallum (összegek s értelmezhetők) és arányskálát (arányok s értelmezhetők) (lásd pl. Varga, 2000). Attól függően, hogy a mérés végeredménye mely mérés skála, más-más mutatókat számíthatunk belőlük és más módon kell ezeket az eredményeket statsztka értelemben kezelnünk, összevetnünk egyéb eredményekkel. Egyes elképzelések szernt a tesztelmét csak folytonos változók esetén, az a legnkább ntervallum és arány skála esetén alkalmazható. Más elképzelések ennél megengedőbbek. (pl. de Grujter és van der Kamp, 2008) Kemelkedő jelentőségű probléma a megragadn kívánt konstruktum dmenzonaltása s (pl. de Grujter és van der Kamp, 2008). Az előre meghatározott konstruktum több dmenzót érnthet, például a matematka készség része lehet a tér geometra; a szövegből a matematkalag értékes nformácó kemelése; az egyenletek smerete stb. Addg nem jelent problémát egy konstruktumon belül különböző dmenzók megengedése, amíg a teszt a személyek teljesítménybel rangsorolásához vagy fejlődésük dokumentálásához szükséges. Azonban akkor, ha specfkusabb nformácóra vagyunk kíváncsak és tudn szeretnénk, hogy mk a fejlesztendő területek adott konstruktumon belül, vagy mely területen ment végbe a fejlődés, akkor lényeges a mérőeszköz dmenzonaltásával s foglalkozn. Ha a skálapontszámunk más tesztek pontszámával szorosan együtt mozog, az bzonyítéka annak, hogy egydmenzós a konstruktum, lehet, hogy mndkét mérés ugyanazon dmenzókat célozza. A dmenzonaltás vzsgálata a legtöbb esetben célszerű.

68 HIDEGKUTI István- BALÁZS Kataln 2. KLASSZIKUS TESZTELMÉLET MEGKÖZELÍTÉSE Ebben a fejezetben a tesztek megbízhatóságára és érvényességére vonatkozó smereteket foglaljuk össze a klasszkus tesztelmélet keretén belül mozogva (lásd bővebben magyarul pl. Fedor, Hdegkut és Münnch, 2001; Horváth, 1991, 1997; Münnch, 1999, 2000; Münnch, Balázs, Fedor és Hdegkut, 2002; Perczel, 1974). 2.1. Mérés hba A klasszkus tesztelmélet alapfeltevése, hogy a konstruktum mérhető és van egy valód értéke. Az egyes mérések során ezt a valód értéket becsüljük, de mérésünk mndg ném hbával terhelt. Célunk olyan mérés körülmények létrehozása, melyek esetén a hba nem szsztematkus, hanem csak véletlen hba áll fenn. (pl. Gulford, 1936; Lord és Novck, 1968; Spearman, 1907) Szsztematkus lenne a hba például, ha egy papíralapon felvett teljesítményteszt esetében egy adott oldal elmosódott lenne, am véletlenszerűvé tenné az adott kérdések megoldását. Ebben az esetben alábecsülnénk a vzsgálat személyek képességét. Vagy éppen ellenkezőleg, az oldalon a feladat mellett szerepelnének a megoldások, ekkor a résztvevők teljesítményét szsztematkusan felül mérné a teszt. Az optmáls eljárás esetén a mérés hba vszonylag kcs és a hba véletlen eredménye. A klasszkus tesztelmélet alapegyenlete (Spearman, 1907): X = t + Azaz a tapasztalat úton mért érték (X) egyenlő a valód érték (t = true score) és a hba ( = error) összegével. A hba nagyságának becslése smételt méréssel történk. Ha az smételt mérés a feladat jellege matt nem kvtelezhető, akkor az smételt tesztfelvétel párhuzamos tesztekkel történk. Ezek párhuzamosak abban az értelemben, hogy ugyanazt a konstruktumot, ugyanolyan hbával terhelten mérk. A klasszkus tesztelmélet három alapvető feltételre épül (pl. Lord és Novck, 1968, pp. 37-38): A klasszkus tesztelmélet tehát elvárja, hogy a hba elvárt értéke nulla legyen (1), és a hba ne korreláljon a valód értékkel (2). Ez utóbb azt jelentené, hogy szsztematkus hbáról van szó. Tovább feltétel, hogy a párhuzamos tesztek hbá se korreláljanak egymással (3), ezek korrelácója arra utalna, hogy a tesztek a konstruktum valód értékén kívül valam mást s mérnek. 2.2. Tesztek megbízhatósága A megbízhatóság, vagy relabltás a tesztek esetén azt jelent, hogy a teszt smételt mérés esetén ugyanazt a valód értéket közelít. Mnél ksebb a mért értékek ngadozása a valód értéke körül, annál nkább egybehangzóak a mérések smételt mérés esetén. (bővebben pl. Crocker és Algna, 2008; de Grujter és van der Kamp, 2008; Fedor, Hdegkut és Münnch, 2001; Münnch, Balázs, Fedor és Hdegkut, 2002) A megbízhatóságot (rel-el jelöljük) úgy értelmezzük, hogy az megegyezk a valód érték és a megfgyelt érték varancának hányadosával, azaz:

TESZTELMÉLET 69 rel (X) = var( t) var( t). var( X ) var( t) var( ) A megbízhatóság elfogadható szntje egy teszt esetében függ attól, hogy dőben mennyre stabl konstruktumot mérünk, lletve attól s, hogy mennyre eltérő jellegzetességek sorolhatók a konstruktum körébe. Míg utóbb esetben a tesztet alskálákra bonthatjuk, az dőben változó pl. atttűdök esetén kevésbé kell szgorúnak lennünk. elvárt értékük mnmuma 0,5 és 0,8 között lehet (Horváth, 1997), maxmuma pedg 0,9 körül van. (Nagybánya-Nagy, 2006a). Az előző képletből következően, ha a teszt megbízható, akkor a teszt megsmétlése esetén a mért értékek nagyon hasonlóak lesznek, azaz a közöttük lévő korrelácós érték magas lesz. Mvel a valód érték varancája nem smert, ezért a megbízhatóságot az smételt mérés (pl. teszt megsmétlése; párhuzamos teszttel történő smétlés; vagy tesztfelezéssel számított mérés) segítségével becsüljük. A teszt megsmétlésével számított megbízhatóságot teszt-reteszt relabltásnak, vagy stabltás együtthatónak nevezzük (pl. Cronbach, 1951; Nagybánya- Nagy, 2006a); míg a tesztfelezéssel számított megbízhatóságot belső konzsztenca mutatónak (pl. Cronbach, 1951; Nagybánya-Nagy, 2006a). A megbízhatóságra hatással van a mérések száma és a vzsgált csoport heterogentása s. Mnél többször mérünk, annál megbízhatóbb a becslés, ha ugyanazt, vagy közel ugyanazt mérjük. Például a testmagasságot tízszer megmérve, a mérés eredmények átlagát véve megbízhatóbb testmagasság mérést kapunk, mntha egyszer mérnénk. Hasonlóképpen a teszttemek száma s növelhet a megbízhatóságot, ha a teszttemek ugyanazt a konstruktumot mérk. A többször mérés ntegrálása a mérés eljárásba csökkent a mért értékeke varancáját. Ugyanakkor a megbízhatóság egyenletéből következk, hogy nagyobb a valód érték nagyobb varancája esetén a megbízhatóság magasabb lesz (pl. de Grujter és van der Kamp, 2008). Ezért érdemes a tesztek megbízhatóságát a populácó heterogentását jól reprezentáló mntán vzsgáln (pl. de Grujter és van der Kamp, 2008).Ezt a jellegzetességet megértve kjelenthetjük az s, hogy a teszt megbízhatósága populácónként eltérő lehet és mnden populácó esetén annak újraszámítása szükséges (pl. Nagybánya-Nagy, 2006a). A válaszlehetőségek száma s befolyással lehet a megbízhatóságra (Nagybánya-Nagy, 2006a). Mnél több lehetséges érték van, annál pontosabban meghatározható a tételek együttjárásának mértéke. Sokkal pontosabb ennek a mérése, ha tzenegyfokú skálán mérünk, mntha mndössze két választható érték van temenként. Spearman (1910) fgyelt fel arra, hogy amkor smételt méréssel becsüljük a tesztek megbízhatóságát, akkor a megbízhatóságot általában alábecsüljük. ezt nevezte el ő zsugorodásnak. A zsugorogás abból származk, hogy a véletlen hbák a korrelácó értékét csökkentk. Spearman (1910) és Brown (1910) egymástól függetlenül kalakítottak egy számítást a kétszeres hosszúságúra növelt teszt megbízhatóságának becslésére. rel ( X 2 szeres 2 rel( X ) ) 1 rel( X ) rel(x2-szeres) a kétszeres hosszúságúra növelt teszt megbízhatósága, mely az eredet teszt megbízhatóságából (rel(x)) számítható. A Spearman-Brown formula lehetővé tesz egy adott teszt felezésével a teszt megbízhatóságának számítását. Az eljárás feltételez, hogy a két teszt ugyanazt a konstruktumot, ugyanolyan jól mér, azaz equvalens tesztfeleket kell létrehoznunk.

70 HIDEGKUTI István- BALÁZS Kataln Cronbach 1951-ben javasolt egy másk mutatót, az alfa-t, am egyenlő az összes lehetséges tesztfelezéskor kapott együtthatók átlagával. n var( X ) n 1 1. n 1 var( X ) Ahol n a skála temjenek a számát, X a skála temjet, X a tesztpontszámot jelöl. Ha az temek száma kevés, vagy az átlagos korrelácó alacsony, akkor alacsony lesz a Cronbach féle alfa értéke s. A magas Cronbach féle alfa sem jelent azt, hogy a teszt temje egy dmenzót mérnek. Ahhoz, hogy a teszt dmenzonaltásáról képünk legyen, más eljárásokat érdemes használn. Klasszkus megközelítés a főkomponens analízs használata. A főkomponens analízs nagyszámú korreláló temből korrelálatlan főkomponenseket hoz létre. Így lehetővé tesz tesztszerkesztéskor, hogy egy dmenzóra lleszkedő temeket válogassunk össze. Az első főkomponens magyarázza a megfgyelt változók összvarancájának a legnagyobb részét. A több főkomponens egyre ksebb varancát fed le. (pl. Münnch, Balázs, Fedor és Hdegkut, 2002; Münnch, Nagy és Abar, 2006). A megfgyelt változónkat X1, X2,, Xn nel jelölve, az első főkomponens a következő: Z1 = a11x1+a12x2+ +a1nxn, ahol az a1j főkomponens-együtthatók megadják, hogyan súlyozzuk a megfgyelt változónkat az első főkomponens kszámításához. Az első főkomponensből számolható megbízhatóság mutató a Theta ( ): n n 1 (1 ) var( Z ) 1 1 ahol n az temek száma, és var(z1) az első főkomponens varancája. A PCA az temeket súlyozva vesz fgyelembe a tesztérték megállapításakor, ez az előnye Chronbach-alfához képest. A skálák megbízhatóságának vzsgálatáról bővebben magyarul Münnch, Nagy és Abar (2006) onlne könyv 2. fejezete szolgáltat, előnye az ngyenesen génybe vehető R program (R Development Core Team, 2011) segítségével történő számítások bemutatása. 2.3. Tesztek érvényessége Egyszerűen megfogalmazva, a tesztek érvényessége vagy valdtása azt jelent, hogy a teszt valóban azt a konstruktumot mér, amelynek mérését célozza (pl. Münnch, Balázs, Fedor, Hdegkut, 2002). A pszchometrában a tesztek érvényessége annak mértékét jelent, amennyre elméletleg és bzonyítottan a tesztérték értelmezése ndokolt (Amercan Educatonal Research Assocaton, 1999). Bárm s a krtérumunk az érvényesség meghatározásához, a krtérum változóval (Krt) való korrelácója a tesztértéknek mndg ksebb vagy egyenlő a tesztértéknek a valód értékkel vett korrelácójánál, azaz: korr (X, Krt) korr (X, t)

TESZTELMÉLET 71 Ha a teszt megbízhatósága alacsony, akkor az érvényessége s vszonylag alacsony lesz, hszen nem jól mér a valód értéket. Ha a teszt megbízhatósága magas, akkor nem feltétlen lesz magas a valdtása s, lehet, hogy a teszt ks ngadozással, de nem a célzott konstruktumot mér (pl. Nagybánya-Nagy, 2006b). Mérhetjük például az ntellgencát a fejkörfogattal, és ha elég ügyesen mérünk szabócentvel, akkor a megbízhatóság magas lesz (smételve a mérést hasonló értékeket kapunk). Az eljárásunk érvényesség azonban alacsony lesz, hszen a számértékeknek a személyek ntellgencájához kevés közük lesz. A tesztnek valdtása legfeljebb olyan nagy lehet, mnt a megbízhatóságának négyzetgyöke. Ha a megbízhatóság értéke kcs, akkor a valdtása sem lesz lényegesen nagyobb (pl. Münnch, Balázs, Fedor és Hdegkut, 2002). Az érvényességet s csak becsüln tudjuk. Cronbach és Meehl (1955) négy fő érvényesség típust különít el, ezek: a predktív valdtás, a konkurens valdtás, a tartalm valdtás és a konstruktum valdtás. A predktív - és a konkurens valdtást krtérum valdtásnak s nevezhetjük. Közös bennük, hogy van egy krtérum, amhez vszonyítunk, a tesztérték és a krtérumérték korrelácóját számítjuk, egybehangzóságát becsüljük. Predktív valdtás esetében a krtérum változó mérése később történk meg, mnt a tesztfelvétel [Például a felvételkor beszámított emelt szntű érettségt teknthetjük a tesztnek és első éves átlagot a beválás mutatónak. Ekkor a kettő korrelácója adja a predktív valdtást]. Konkurens valdtásról beszélünk akkor, ha a teszt és a krtérum felvétele egy dőben történk [Például egy új depresszót vzsgáló teszt és egy sztenderd depresszót mérő teszt együttes felvétele esetén a korrelácó a konkurens valdtást adja]. Tartalm valdtásnak nevezzük annak a bzonyítását, hogy a teszt teme a konstruktum körébe tartozó lehetséges temek unverzumából vett reprezentatív mntát képeznek [Például elmélet alapon létrehozott nagyszámú tem redukálásával létrejött kérdőív esetén nagy a tartalm valdtás]. A konstruktum valdtás arra vonatkozk, hogy mből fakad a tesztérték varancája, akkor használják, ha nncs megfelelő mérés krtérum. Tulajdonképpen annak vzsgálata, hogy m mnden tartozk a konstruktumhoz. (Cronbach és Meehl, 1955) A Cronbach és Meehl (1955) által elkülönített érvényesség mutatókat kegészíthetjük más smert érvényesség típusokkal. Előfordulhat, hogy egy olyan mérőeszköz eredményével vetjük össze a tesztet, mely nem teljesen ugyanazt a konstruktumot mér, mnt saját tesztünk, lyen esetben ksebb fokú együttjárást várunk el és konvergens valdtást vzsgálunk. Ha a teszt, melynek eredményével összevetjük a tesztünk eredményét alapvetően mást mér, akkor az elvárásunk az, hogy ne legyen jelentős összefüggés a mért teszteredmények között, ekkor dszkrmnácós valdtásról van szó. Továbbá gyakran emlegetjük a felszín-, vagy látszatérvényességet (face valdtást), am egyfajta benyomás arról, hogy a teszt mt s mér valójában. A látszatérvényesség magában foglalja az átláthatóságot s, azaz a vzsgálat személy benyomását arról, hogy mt mér a teszt. A ksfokú látszatérvényesség ellenállást válthat k a vzsgálat személyekből, a nagyfokú látszatérvényesség pedg lehetővé tehet a tesztérték manpulácóját. (pl. Nagybánya-Nagy, 2006b) 3. MODERN TESZTELMÉLET A modern tesztelmélet, vagy más néven látens vonás elmélet (pl. Borsboom, 2008), vagy temválasz elmélet (Item Response Theory; IRT) fókuszában elsősorban az egyes temek állnak, nem pedg az temekből összeállított tesztek. Az elmélet alapja, hogy van egy mérn kívánt, közvetlenül nem megfgyelhető (látens) tulajdonság, képesség, amt közvetlenül megfgyelhető (manfeszt) változók, temek segítségével próbálunk mérn. Az IRT a manfeszt temekre adott válasz valószínűségét modellez, azaz azt, hogy hogyan alakul a helyes válasz valószínűsége a

72 HIDEGKUTI István- BALÁZS Kataln látens Képesség függvényében. A helyes válasz valószínűségét leggyakrabban a standard normál eloszlás kumulatív eloszlásfüggvényével, lletve a logsztkus függvénnyel szokás modellezn. A tesztelések többségében használt tesztek általában teljesítménytesztek, amelyek esetén az egyes temekre adott válasz lehet helyes (korrekt), lletve helytelen (nkorrekt). Az lyen temeket, változókat dchotóm (kétértékű) változóknak nevezzük. Fgyelembe véve a teljesítménytesztek elterjedtségét és azokban a dchotóm temek népszerűségét nem meglepő, hogy a leggyakrabban alkalmazott IRT modellek a dchotóm változókra adott válaszokat modellezk. 3.1. Az egyparaméteres logsztkus modell A dchotóm (kétértékű: helyes/helytelen) változók esetén alkalmazott legegyszerűbb modell az ún. egyparaméteres logsztkus modell (1PL), amely szernt a helyes válasz valószínűsége az temet megoldó személy képességének (θ), valamnt az adott tem nehézségének (β) a függvénye: P( X e 1 p, ) 1 e ( ) p ( ) A helyes válasz valószínűségének ábrázolása a képesség függvényében a modern tesztelmélet egyk központ elemét, az tem jelleggörbét (tem characterstc curve; ICC) eredményez. Az 1. ábrán egy tem jellegörbéje látható egy paraméteres logsztkus modell llesztése esetén. p 1. ábra: Itemjelleggörbe egy paraméteres logsztkus modell esetén, a nehézségparaméter értelmezését segítő szaggatott vonalakkal A képesség - és között értéket vehet fel, de az ábrázolást a -4, 4 képességtartományra korlátoztuk, mvel gyakorlat szempontból ez a tartomány teknthető relevánsnak. A korrekt válasz valószínűsége a képesség növekedésével folyamatosan növekszk (szgorúan monoton növekvő függvény).

TESZTELMÉLET 73 Egy tem nehézsége a ktöltők képességének segítségével határozható meg, mégpedg azzal a képesség értékkel egyenlő, amely képességgel rendelkező személy 0,5 valószínűséggel ad korrekt választ az adott tem esetén. Az temnehézség egy másk meghatározása szntén a képességen alapul. Ebben az esetben a nehézségparaméter úgy határozható meg, mnt az a képesség érték, amely képességgel rendelkező homogén szubpopulácó 50%-a oldja meg helyesen az temet. Az 1. ábrán egy 0 nehézségparaméterű tem temjelleggörbéje látható egyparaméteres logsztkus modell llesztése esetén, a szaggatott vonalak a nehézségparaméter értelmezését segítk. Az egy paraméteres logsztkus modell esetén az egyes temek temjelleggörbéje teljesen azonos, csak a görbe pozícója változk az tem nehézségének megfelelően. A 2. ábrán három tem jelleggörbéje látható (egyparaméteres logsztkus modell llesztése esetén). Az temek nehézsége rendre -1, 0, és 1, a sárga, kék és zöld színnel jelzett temek esetén. 2. ábra: Három tem temjelleggörbéje egyparaméteres logsztkus modell esetén. A sárga, kék és zöld vonalakkal jelzett temek nehézsége rendre -1, 0 és 1, amnt az a szagatott segédvonalak segítségével jól leolvasható Az egy paraméteres logsztkus modellben az tem és a személyparaméterek becslése paralell módon történk, vagys egydejűleg becsl az algortmus az temek nehézségét és a személyek képességét. A becslés az ún. lkelhood függvény maxmalzálásán alapul, vagys az algortmus azokat a paraméterértékeket keres meg, amelyek esetén a lkelhood függvény elér a maxmumát. A lkelhood függvény egyparaméteres logsztkus modell esetén: L( x 1-x p ) = P( p, ) Q( p, ) Ahol P(θp, β) a korrekt válasz valószínűsége, Q(θp, β) pedg az nkorrekt válasz valószínűségét jelöl, míg x az adott temre adott válasz, melynek értéke 0 (helytelen válasz esetén) vagy 1 (helyes válasz esetén). A lkelhood függvény maxmalzálására többféle módszer létezk, melyek közül leggyakrabban az ún. condtonal maxmum lkelhood és a margnal maxmum

74 HIDEGKUTI István- BALÁZS Kataln lkelhood módszert alkalmazzák. (A különféle módszerek smertetése meghaladja jelen közlemény keretet.) 3.2. R alkalmazás Mvel az R (R Core Team, 2015) egy ngyenesen letölthető és szabadon használható statsztka szoftver, am napjankban egyre nkább standarddá válk a statsztka kutatásban (Kolaczyk és Csárd, 2014), ezért rövden ezen keresztül mutatjuk be az alap modellek llesztését, az ltm csomag segítségével. Az R alkalmazásokat és a hozzájuk fűzött magyarázatokat Keretbe foglalva jelezzük. Az R parancsok és outputok vlágosszürke háttéren jelennek meg, az outputhoz tartozó sorok jelöléssel kezdődnek A csomagban foglalt függvények és adatbázsok alkalmazásához elsőként be kell töltenünk a csomagot: lbrary(ltm) Loadng requred package: MASS Loadng requred package: msm Loadng requred package: polycor Loadng requred package: mvtnorm Loadng requred package: sfsmsc A dchotóm adatok llesztése az ltm csomag LSAT adatatan keresztül kerül bemutatásra. Az LSAT adattáblának 1000 sora és öt oszlopa van, vagys 1000 személy 5 temre adott válaszat tartalmazza. dm(lsat) [1] 1000 5 Első hat sora példaként: head(lsat) Item 1 Item 2 Item 3 Item 4 Item 5 1 0 0 0 0 0 2 0 0 0 0 0 3 0 0 0 0 0 4 0 0 0 0 1 5 0 0 0 0 1 6 0 0 0 0 1 Az egy paraméteres logsztkus modell llesztésére a rasch függvény szolgál. A függvény leglényegesebb argumentuma az adattábla, lletve az adattábla azon oszlopa (azok az temek), amelyekre lleszten kívánjuk a modellt. Emellett a constrant argumentumot s használjuk, amnek segítségével az temek közös dszkrmnácós paraméterét 1-re fxáljuk. ft.rasch <- rasch(lsat, constrant = cbnd(dm(lsat)[2]+1, 1)) Az elemzés eredményét pedg a summary függvénnyel kérhetjük. summary(ft.rasch) Call: rasch(data = LSAT, constrant = cbnd(dm(lsat)[2] + 1, 1))

TESZTELMÉLET 75 Model Summary: log.lk AIC BIC -2473.054 4956.108 4980.646 Coeffcents: value std.err z.vals Dffclt.Item 1-2.8720 0.1287-22.3066 Dffclt.Item 2-1.0630 0.0821-12.9458 Dffclt.Item 3-0.2576 0.0766-3.3635 Dffclt.Item 4-1.3881 0.0865-16.0478 Dffclt.Item 5-2.2188 0.1048-21.1660 Dscrmn 1.0000 NA NA Integraton: method: Gauss-Hermte quadrature ponts: 21 Optmzaton: Convergence: 0 max( grad ): 6.3e-05 quas-newton: BFGS Az output számunkra leglényegesebb része az temek nehézségparaméternek ("Dffclt") becslése, am a value oszlopban található. Példánkban mnd az öt tem nehézségparamétere negatív, vagys vszonylag könnyű temekről van szó. A közös dszkrmnácós paraméter (Dscrmn) értéke 1, amnek standard hbája nulla, mvel ennek értékét fxáltuk. Az rasch függvény segítségével módunk van egy nem rögzített közös dszkrmnácós paraméter llesztésére s, amt a rasch függvény constrant argumentumának khagyásával érhetünk el. Az temjelleggörbék llesztésére a plot függvényt használhatjuk: plot(ft.rasch)

76 HIDEGKUTI István- BALÁZS Kataln 1. R-ábra: Az LSAT adattábla öt temének temjelleggörbé egyparaméteres logsztkus modell llesztése esetén Természetesen egyes temek jelleggörbéjét s kérhetjük az tems argumentum megadásával: plot(ft.rasch, tems = 3) 2. R-ábra: Az LSAT adattábla öt temének temjelleggörbé egyparaméteres logsztkus modell llesztése esetén Informácó függvény Az temjellegörbe és a paraméterbecslések alapjául szolgáló lkelhood függvény mellett az tem nformácó függvény, és az tem nformácó függvények összegeként defnált teszt nformácó függvénynek van meghatározó jelentősége. Az tem nformácó függvény a helyes és helytelen válaszok valószínűségének szorzataként határozható meg egy paraméteres logsztkus modell esetén, vagys: I, ) P(, ) Q(, ) ( Nem nehéz belátn, hogy az egy paraméteres logsztkus modell esetén bármely tem nformácófüggvényének maxmuma 0,25, és ezt az értéket az tem nehézségének megfelelő képességértéknél vesz fel a függvény. A 3. ábrán egy 0 nehézségparaméterű temre adott helytelen válasz valószínűsége (szaggatott kék vonal), helyes válasz valószínűsége (folytonos kék vonal), lletve a két valószínűség szorzataként kapott temnformácós függvény (zöld vonal) látható.

TESZTELMÉLET 77 3. ábra: Nulla nehézségparaméterű temre adott helytelen válasz valószínűsége (szaggatott kék vonal), helyes válasz valószínűsége (folytonos kék vonal) valamnt az tem nformácófüggvénye (zöld vonal) egyparaméteres logsztkus modell esetén Az temek nformácófüggvényét az temjelleggörbéhez hasonlóan szntén a plot függvény segítségével kérhetjük, ebben az esetben azonban a type argumentumot meg kell változtatnunk az alapként beállított "ICC" érték helyett "IIC"-re. plot(ft.rasch, type = "IIC", ylm = c(0,1)) 3. R-ábra: Az LSAT adattábla öt temének nformácófüggvénye egyparaméteres logsztkus modell esetén

78 HIDEGKUTI István- BALÁZS Kataln Az nformácófüggvény értéke nem csak egyes temek, hanem az temek által alkotott teszt esetén s meghatározható. A teszt nformácófüggvénye a tesztet alkotó temek nformácófüggvényenek összege: I ) I(, ) ( Az nformácófüggvény gyakorlat jelentősége, hogy ennek recprokával arányos a mérés standard hbája: SE 1 I( ) vagys mnél nagyobb az nformácótartalom, annál ksebb a mérés hba, azaz annál pontosabb a mérés. Az tem és tesztnformácó, valamnt a mérés hba összefüggését mutatja be a 4. ábra. Az ábrán sárga, kék és zöld színnel ábrázolva a 2. ábrán szereplő három (rendre -1, 0 és 1 nehézségparaméterű) tem nformácófüggvénye látható., valamnt feketével a három tem által alkotott teszt nformácófüggvénye, és ezen teszt esetén a mérés standard hbája (lásd lent) látható. 4. ábra: Három, -1, 0, és 1 (rendre sárga, kék és zöld vonallal) nehézségparaméterű tem nformácófüggvénye, valamnt a három tem alkotta teszt nformácófüggvénye (fekete vonal) és standard hbája (pros vonal) egy paraméteres logsztkus modell esetén

TESZTELMÉLET 79 A teszt nformácófüggvénye pedg a plot függvény tems argumentumának nullára állításával kérhető. plot(ft.rasch, type = "IIC", tems = 0) 4. R-ábra: Az LSAT adattábla öt teméből álló teszt nformácófüggvénye A mérés standard hbája sajnos nem ábrázolható lyen egyszerűen, de a teszt nformácófüggvénye és a mérés standard hbája között fenálló kapcsolat (és az R) smeretében ez s krajzoltatható. tesztnfo <- plot(ft.rasch, type = "IIC", tems = 0, plot = FALSE) plot(tesztnfo[,"z"], 1/sqrt(tesztnfo[,"nfo"]), type = "l", lwd = 3, xlab = "képesség", ylab = "tesztnformácó", man = "A mérés standard hbája", ylm = c(0, 5)) 5. R-ábra: Az LSAT adattábla öt teméből álló teszt standard hbája a képesség függvényében

80 HIDEGKUTI István- BALÁZS Kataln A fent összefüggések smeretében látható, hogy az IRT-ben a teszt megbízhatósága nem a teszt állandónak tekntett tulajdonsága, am független a tesztktöltő képességétől (klasszkus tesztelméletben a valód pontértékétől), hanem sokkal realsztkusabban, a képesség és a teszt (az temek) függvényében változk a mérés hba. Azaz az IRT-ben nem feltétlenül lesz gaz a klasszkus tesztelmélet azon tétele, mszernt a teszt hosszának (az temek számának) a növelésével nő a teszt megbízhatósága, vagys csökken a mérés hba (Embretson és Rese, 2000). Az IRT esetén könnyen előfordulhat, hogy a rövdebb teszt megbízhatóbb, mnt egy lényegesen hosszabb tesztváltozat. Az temek számának növelése csak abban az esetben növel a mérés pontosságát, ha a hozzáadott temek által hordozott nformácó növel a tesztnformácó értékét egy adott képesség esetén. Ha hasonló nehézségparaméterű temeket adunk a teszthez, az a standard hba csökkenéséhez, azaz pontosabb méréshez vezet az temek nehézségparamétere körül képességtartományban. Ha vszont olyan temeket adunk a már meglévő temenkhez, amelyek nehézségparamétere távol van a már meglévőkétől, akkor a tesztnformácó összértéke nő ugyan, de a standard hba mnmáls értéke nem csökken számottevően, vszont szélesebb képességtartományban mér pontosabban. A teszt összeállításakor tehát fgyelembe kell venn azt, hogy mlyen képességtartományba esk a vzsgáln kívánt populácó. Amennyben ez a képességtartomány smert, lehetőség van olyan temek kválasztására (tembankból), amelyek nehézségparamétere lefed a vzsgáln kívánt képességtartományt, így ebben a tartományban a mérés standard hbája alacsony lesz, mvel az temek aáltal hordozott nformácó, lletve az ezek összegzéseként kapott tesztnformácó értéke ebben a tartományban magas lesz. A fent elvet két példával llusztráljuk. Az első esetben (5. ábra) a korább három temes tesztünkhöz két olyan temet adunk, melyek nehézségparamétere az eredet három tem nehézségparaméteréhez hasonló (-0,5 és 0,5, míg az eredet temeké -1, 0 és 1). A másodk esetben (6. ábra) pedg két olyan temet adunk a tesztünkhöz, melyek nehézségparamétere vszonylag távol van az eredet három tem nehézségparaméterétől (-2,5, lletve 2,5). Ahogy az 5. ábrán látható, ha az temek számát agy szűk képességtartományban növeljük, akkor a mérés standard hbája jelentősen csökken. Az ábrán a szaggatott pros vonal az eredet, három temből álló teszt standard hbája, míg a folytonos pros vonal a két temmel kbővített teszt standard hbája. Fentek mellett az ábrán megjelenk a kbővített teszt nformácófüggvénye (folytonos fekete vonal) lletve az öt tem nformácófüggvénye (pontozott fekete vonalak). A 6. ábrán ezzel szemben azt láthatjuk, hogy ha a hozzáadott temek nehézségparamétere távolabb van a már felhasznált temek nehézségpaméterétől, akkor a standard hba mnmuma sokkal kevésbé csökken. Emellett azonban fontos megfgyeln, hogy ebben az esetben az eredet teszt által kevésbé pontosan mért képességtartományokban az új (öt temes) teszt standard hbája nagyobb mértékben csökken, mnt az 5. ábrán llusztrált esetben.

TESZTELMÉLET 81 5. ábra: Három, -1, 0, és 1 (rendre sárga, kék és zöld vonallal) nehézségparaméterű tem nformácófüggvénye, valamnt a három tem alkotta teszt nformácófüggvénye (fekete vonal) és standard hbája (pros vonal) egy paraméteres logsztkus modell esetén 6. ábra: Három, -1, 0, és 1 (rendre sárga, kék és zöld vonallal) nehézségparaméterű tem nformácófüggvénye, valamnt a három tem alkotta teszt nformácófüggvénye (fekete vonal) és standard hbája (pros vonal) egy paraméteres logsztkus modell esetén Az IRT legjelentősebb gyakorlat előnye a klasszkus tesztelmélettel szemben, hogy (különösen az nformatka lehetőségek ma szntjén) vszonylag könnyen lehet az temeket elemezn, paramétereket meghatározn, am lehetőséget ad arra, hogy sok temből álló tem bankokat (tem pool) hozzunk létra, amelyek smert paraméterekkel, mutatókkal rendelkező temeket

82 HIDEGKUTI István- BALÁZS Kataln tartalmaznak. Az lyen tembankok kalakítása lehetőséget ad arra, hogy az elkészítendő tesztet a lehető legnkább személyre szabjuk, vagys az aktuáls tesztelés feltételeknek megfelelően alakítsuk k. Ha például van egy olyan populácó, amely jellemzően magas képesség értékű személyekből áll, akkor a kalakítandó tesztünket ennek az nformácónak az smeretében állíthatjuk össze. Azaz a tesztalanyok képességének megfelelő nehézségű temeket kválogatva elérhetjük, hogy a tesztünk által adott nformácó a magas képességtartományban magas, és így a mérés hba ebben a tartományban alacsony legyen. (Ezt llusztrálja az 5. ábrán bemutatott elv.) Ez az eljárás lehetővé tesz, hogy nagy pontossággal mérjünk, anélkül, hogy nagyon hosszú teszteket kellene alkalmaznunk. Ezt az elvet használják fel a (számítógépes) adaptív tesztelésben s. Ennek során a tesztalany temeket kap megválaszolásra, és ebből folyamatosan megbecsül az algortmus az llető képességértékét. A teszt adaptív jellege abból adódk, hogy a tesztalany a soron következő temet annak függvényében kapja, hogy mlyen a korább válasza alapján becsült képesség. Tehát az teszt kezdet részében egy durva becslése történk meg a képességértéknek, majd ennek pontosítása következk a becsült képességértéknek megfelelő nehézségű temek segítségével. Így a tesztalanynak nem kell nagyon sok temet megválaszolna, a képességparaméter becslése mégs nagy pontosságú lehet a célzott temeknek köszönhetően. Az temek és a teszt jellemzése mellett természetesen a személyek képességparamétere s becsülhető az ltm csomag függvénye segítségével. Ha llesztettük a megfelelő modellt (mnt ebben az esetben az egyparaméteres logsztkus modellt), akkor az elemzés eredményére a factor.scores függvényt llesztve megkapjuk az egyes válaszmntázatokhoz tartozó képességbecsléseket. fs <- factor.scores(ft.rasch) fs Call: rasch(data = LSAT, constrant = cbnd(dm(lsat)[2] + 1, 1)) Scorng Method: Emprcal Bayes Factor-Scores for observed response patterns: Item 1 Item 2 Item 3 Item 4 Item 5 Obs Exp z1 se.z1 1 0 0 0 0 0 3 5.017-2.021 0.705 2 0 0 0 0 1 6 7.763-1.529 0.700 3 0 0 0 1 0 2 3.383-1.529 0.700 4 0 0 0 1 1 11 8.701-1.036 0.706 5 0 0 1 0 0 1 1.092-1.529 0.700 6 0 0 1 0 1 1 2.810-1.036 0.706 7 0 0 1 1 0 3 1.224-1.036 0.706 8 0 0 1 1 1 4 5.286-0.526 0.726 9 0 1 0 0 0 1 2.444-1.529 0.700 10 0 1 0 0 1 8 6.287-1.036 0.706 11 0 1 0 1 1 16 11.829-0.526 0.726 12 0 1 1 0 1 3 3.819-0.526 0.726 13 0 1 1 1 0 2 1.664-0.526 0.726 14 0 1 1 1 1 15 12.416 0.025 0.761 15 1 0 0 0 0 10 14.918-1.529 0.700 16 1 0 0 0 1 29 38.375-1.036 0.706 17 1 0 0 1 0 14 16.721-1.036 0.706 18 1 0 0 1 1 81 72.205-0.526 0.726 19 1 0 1 0 0 3 5.399-1.036 0.706

TESZTELMÉLET 83 20 1 0 1 0 1 28 23.314-0.526 0.726 21 1 0 1 1 0 15 10.159-0.526 0.726 22 1 0 1 1 1 80 75.788 0.025 0.761 23 1 1 0 0 0 16 12.081-1.036 0.706 24 1 1 0 0 1 56 52.168-0.526 0.726 25 1 1 0 1 0 21 22.732-0.526 0.726 26 1 1 0 1 1 173 169.586 0.025 0.761 27 1 1 1 0 0 11 7.340-0.526 0.726 28 1 1 1 0 1 61 54.757 0.025 0.761 29 1 1 1 1 0 28 23.860 0.025 0.761 30 1 1 1 1 1 298 323.237 0.642 0.812 Az outputban látható, hogy 30 különöző válaszmntázatot produkált a mntában található 1000 személy, az egyes válaszmntázatokhoz tartozó válaszmntázatok az output z1 oszlopában láthatók. Ha mnden személyre szeretnénk megkapn a képességparaméter becslését, akkor a factor.scores függvényt k kell egészítenünk a resp.patterns argumentummal, amelyben megadhatjuk azokat a mntázatokat, amelyekre kérjük a képességparaméter becslését. Ha az argumentum értékének az eredet adattáblát adjuk meg, akkor az abban szereplő személyek képességbecslését kapjuk meg. fsp <- factor.scores(ft.rasch, resp.patterns = LSAT) round(fsp$score.dat[1:40,], 2) Item 1 Item 2 Item 3 Item 4 Item 5 Obs Exp z1 se.z1 1 0 0 0 0 0 3 5.02-2.02 0.71 2 0 0 0 0 0 3 5.02-2.02 0.71 3 0 0 0 0 0 3 5.02-2.02 0.71 4 0 0 0 0 1 6 7.76-1.53 0.70 5 0 0 0 0 1 6 7.76-1.53 0.70 6 0 0 0 0 1 6 7.76-1.53 0.70 7 0 0 0 0 1 6 7.76-1.53 0.70 8 0 0 0 0 1 6 7.76-1.53 0.70 9 0 0 0 0 1 6 7.76-1.53 0.70 10 0 0 0 1 0 2 3.38-1.53 0.70 11 0 0 0 1 0 2 3.38-1.53 0.70 12 0 0 0 1 1 11 8.70-1.04 0.71 13 0 0 0 1 1 11 8.70-1.04 0.71 14 0 0 0 1 1 11 8.70-1.04 0.71 15 0 0 0 1 1 11 8.70-1.04 0.71 16 0 0 0 1 1 11 8.70-1.04 0.71 17 0 0 0 1 1 11 8.70-1.04 0.71 18 0 0 0 1 1 11 8.70-1.04 0.71 19 0 0 0 1 1 11 8.70-1.04 0.71 20 0 0 0 1 1 11 8.70-1.04 0.71 21 0 0 0 1 1 11 8.70-1.04 0.71 22 0 0 0 1 1 11 8.70-1.04 0.71 23 0 0 1 0 0 1 1.09-1.53 0.70 24 0 0 1 0 1 1 2.81-1.04 0.71 25 0 0 1 1 0 3 1.22-1.04 0.71 26 0 0 1 1 0 3 1.22-1.04 0.71 27 0 0 1 1 0 3 1.22-1.04 0.71 28 0 0 1 1 1 4 5.29-0.53 0.73 29 0 0 1 1 1 4 5.29-0.53 0.73 30 0 0 1 1 1 4 5.29-0.53 0.73 31 0 0 1 1 1 4 5.29-0.53 0.73

84 HIDEGKUTI István- BALÁZS Kataln 32 0 1 0 0 0 1 2.44-1.53 0.70 33 0 1 0 0 1 8 6.29-1.04 0.71 34 0 1 0 0 1 8 6.29-1.04 0.71 35 0 1 0 0 1 8 6.29-1.04 0.71 36 0 1 0 0 1 8 6.29-1.04 0.71 37 0 1 0 0 1 8 6.29-1.04 0.71 38 0 1 0 0 1 8 6.29-1.04 0.71 39 0 1 0 0 1 8 6.29-1.04 0.71 40 0 1 0 0 1 8 6.29-1.04 0.71 Az output méretének korlátozása érdekében tt nem mnd az 1000 tesztktöltő képességbecslése, hanem csak a mnta első 40 személyének értéke kerültek megjelenítésre két tzedesjegyg kerekítve. 3.3. A kétparaméteres logsztkus modell Bár a legelterjedtebb, kétértékű változók esetén alkalmazható IRT modell az egyparaméteres logsztkus modell, több egyéb lehetőségünk s van, ha dchotóm kmenetű temeket kívánunk elemezn. Az egy paraméteres logsztkus modell esetén láttuk, hogy az temek jelleggörbéje azonos lefutású, különbség köztük csak az elhelyezkedésükben, vagys az temnehézségben van. Ez más megközelítésben azt jelent, hogy az temek elkülönítőképessége azonos, vagys ugyanolyan mértékben tudják dfferencáln az tem nehézségértékénél kcst magasabb, lletve kcst alacsonyabb képességű tesztalanyokat. Ez a megkötés azonban nem feltétlenül jogos, hszen ntutíven s belátható, hogy lehetnek temek, melyek nagyon élesen elkülönítk a tesztalanyokat, míg mások kevésbé élesen dszkrmnálnak közöttük, nagy képességkülönbségek esetén s vszonylag csekély különbség mutatkozk az tem helyes megválaszolásának valószínűségében. Ha ezt a tulajdonságát s fgyelembe vesszük az temeknek, akkor a helyes válasz valószínűségének modellezésére a kétparaméteres logsztkus modellt (Brnbaum, 1968) használhatjuk: ( ) p e P( X 1 p,, ) ( p ) 1 e ahol α az -edk tem dszkrmnácós paramétere, a tovább jelölések pedg megegyeznek az egyparaméteres logsztkus modell esetén alkalmazott jelölésekkel. A kétparaméteres logsztkus modell esetén az temek jelleggörbé már nem feltétlenül azonos lefutásúak, hanem eltérő meredekségűek lehetnek, attól függően, hogy mlyen a dszkrmnácós értékük. Így ha két tem dszkrmnácós paramétere eltérő, akkor a képesség függvényében más tem lesz nehezebb. Ugyancsak a dszkrmnncához kapcsolódó paradox jelenség, hogy a magas dszkrmnancájú temek ugyan nagyon élesen megkülönböztetk, dszkrmnálják a nehézségparaméterük körül képességtartományban a személyeket, vszont kcst távolodva a nehézségparaméter körül képességtartománytól a magas dszkrmnácós paraméterű temek elkülönítő képessége drasztkusan csökken, gyakorlatlag alkalmatlan az tem arra, hogy ezen képességtartományokban különbséget tegyen a különböző képességű személyek között (Lord és Novck, 1968). Az, hogy mlyen széles képességtartományban működk az tem, azaz mlyen tartományban tud érdem különbséget tenn a tesztktöltők között az temjelleggörbe meredekségétől, vagys a dszkrmnácós paraméter értékétől függ.

TESZTELMÉLET 85 7. ábra: 0,5, 1 és 2 dszkrmnácós paraméterű temek temjellegörbé kétparaméteres logsztkus modell llesztése esetén (rendre sárga, kék és zöld vonallal). Mndhárom tem nehézségparamétere 0 A 7. ábrán 3 tem temjellegörbéje látható kétparaméteres logsztkus modell llesztése esetén. Az ábrán szereplő temek nehézségparamétere mndhárom tem esetén 0, a dszkrmnácós paraméter értéke pedg a sárga, kék és zöld vonallal jelölt temek esetén rendre 0,5, 1 és 2. A kétparaméteres logsztkus modell llesztése az ltm függvény segítségével lehetséges az ltm csomag használatakor. Az ltm függvény szükséges (és alapesetben elégséges) argumentuma a formula, mely megadja, hogy mely temekre kívánjuk lleszten a kétparaméteres logsztkus modellt. A formula jobb oldalán szereplő z1 azt fejez k, hogy egy dmenzót feltételezünk a mért jelenség hátterében. (A teszt egydmenzós voltát például főkomponens analízs segítségével vzsgálhajuk (lásd fent).) ft.ltm <- ltm(lsat ~ z1) summary(ft.ltm) Call: ltm(formula = LSAT ~ z1) Model Summary: log.lk AIC BIC -2466.653 4953.307 5002.384 Coeffcents: value std.err z.vals Dffclt.Item 1-3.3597 0.8669-3.8754 Dffclt.Item 2-1.3696 0.3073-4.4565 Dffclt.Item 3-0.2799 0.0997-2.8083 Dffclt.Item 4-1.8659 0.4341-4.2982 Dffclt.Item 5-3.1236 0.8700-3.5904 Dscrmn.Item 1 0.8254 0.2581 3.1983

86 HIDEGKUTI István- BALÁZS Kataln Dscrmn.Item 2 0.7229 0.1867 3.8721 Dscrmn.Item 3 0.8905 0.2326 3.8281 Dscrmn.Item 4 0.6886 0.1852 3.7186 Dscrmn.Item 5 0.6575 0.2100 3.1306 Integraton: method: Gauss-Hermte quadrature ponts: 21 Optmzaton: Convergence: 0 max( grad ): 0.024 quas-newton: BFGS A kétparaméteres logsztkus modell esetén s használhatjuk az egyparaméteres logsztkus modell llesztésekor bemutatott függvényeket. plot(ft.ltm) 6. R-ábra: Az LSAT adattábla öt temének temjelleggörbé kétparaméteres logsztkus modell esetén A 6. R-ábrán látható, hogy a kétparaméteres logsztkus modell llesztése esetén az temjellegörbéknek nem csak a helye különbözk, hanem a jellegörbék alakja s. Bár az s látható, hogy a görbék lefutása nagyon hasonló, am nem meglepő, ha megnézzük a dszkrmnácós paraméterek becsléset, amk nem különböznek egymástól jelentősen. A kétparaméteres logsztkus modell esetén, az temjellegörbékhez hasonlóan az tem nformácós függvények alakja sem feltétlenül egyezk meg, mvel ebben az esetben az tem nformácó számításánál s fgyelembe kell venn a dszkrmnácós paraméter értékét, am ráadásul négyzetes tagként szerepel: 2 I,, ) P(,, ) Q(,, ) (

TESZTELMÉLET 87 A kétparaméteres logsztkus modell tem nformácó függvénynek ezt a sajátosságát a tesztek összeállításánál s k lehet használn. Ha például tíz temet használunk egy széles képességtartomány feltérképezéséhez, vagys a potencáls tesztalanyok képessége nagy szórást mutat, akkor úgy válogathatjuk össze az temenket a korábban tárgyalt tembankból, hogy az temek nehézségparamétere lefedje a mérn kívánt tartományt, a dszkrmnácós paraméterük pedg ne legyen túl magas, ellenkező esetben ugyans a Lord és Novck (1968) által leírt paradoxon matt lehetnek olyan képességtartományok, melyekben nem tudunk gazán dszkrmnáln a tesztktöltők között. Ha vszont egy szntén tíz temből álló tesztet egy specfkus populácó tesztelésére szeretnénk használn, amelynek tagja vszonylag hasonlóak mérn kívánt képességüket tekntve (azaz csak egy szűk képességntervallumban kell mérnünk, de ott pontosan), akkor a tíz temet úgy válogathatjuk össze, hogy egyrészt lefedjék a mérn kívánt ntervallumot, de ebben az esetben lehetnek nagy dszkrmnácós paraméterrel rendelkezők, am a vzsgált személyek pontosabb dfferencálását tesz lehetővé. A 0,5, 1 és 2 dszkrmnácós paraméterű és 0 nehézségparaméterű temek temnformácós görbé, a három temből álló teszt tesztnformácó függvénye, valamnt a teszt standard hbája a 8. ábrán látható. 8. ábra: 0,5, 1 és 2 dszkrmnácós paraméterű, 0 nehézségparaméterű temek nformácófügvénye (rendre sárga, kék és zöld vonallal), valamnt a három tem által alkotott teszt nformácófüggvénye (fekete vonallal), és standard hbája (pros vonallal) kétparaméteres logsztkus modell llesztése esetén A kétparaméteres logsztkus model llesztése esetén az temjellegörbéknél megfgyelt különbségek megfgyelhetők az temek nformácós függvényenek ábrázolásakor s, az temek nformácófüggvény s eltérő lefutásúak. plot(ft.ltm, type = "IIC")

88 HIDEGKUTI István- BALÁZS Kataln 7. R-ábra: Az LSAT adattábla öt temének nformácófüggvénye kétparaméteres logsztkus modell esetén A tesztnformácó és a mérés standard hbájának ábrázolása s az egyparaméteres logsztkus modellnél megmert módon történhet. plot(ft.ltm, type = "IIC", tems = 0) 8. R-ábra: Az LSAT adattábla öt teméből álló teszt nformácófüggvénye kétparaméteres logsztkus modell esetén.

TESZTELMÉLET 89 tesztnfo <- plot(ft.ltm, type = "IIC", tems = 0, plot = FALSE) plot(tesztnfo[,"z"], 1/sqrt(tesztnfo[,"nfo"]), type = "l", lwd = 3, xlab = "képesség", ylab = "tesztnformácó", man = "A mérés standard hbája", ylm = c(0, 5)) 9. R-ábra: Az LSAT adattábla öt teméből álló teszt standard hbája a képesség függvényében kétparaméteres logsztkus modell esetén 3.4. A három paraméteres logsztkus modell Bár mnd az egy-, mnd a kétparaméteres logsztkus modell népszerű és gyakran használt modellek, bzonyos esetekben, például teljesítménytesztek esetében nem mndg realsztkusak. Ennek oka, hogy az egy és kétparaméteres logsztkus modell esetében azzal az előfeltevéssel élünk, hogy nagyon alacsony képességek esetén a helyes válasz valószínűsége nullához tart, azaz aknek nagyon csekély a képessége, az sznte bztosan nem tud helyes megoldást produkáln. A valóságban azonban sok esetben ez az előfeltevés nem helytálló. A teljesítménytesztek egy jelentős része feleletválasztós teszt, amkor s egy kérdésre több (tpkusan négy) válaszalternatíva van felkínálva, amelyek közül a tesztalanynak k kell választan a helyes megoldást. Azonban az lyen típusú feladatok, temek esetében még a képesség teljes hánya esetén s nullától szgnfkánsan különbözn fog a helyes válasz valószínűsége, hszen a helyes választ úgy s el lehet találn, ha akár a kérdést (és a válaszalternatívákat) el sem olvassuk. Ezért a két paraméteres modell kbővíthető egy olyan modellé, amely már fgyelembe vesz, hogy a találgatás matt nem feltétlenül nulla (közel) a helyes válasz valószínűsége még a képesség végtelenül alacsony értéke esetén sem. Az így kapott modell a háromparaméteres logsztkus modell (Brnbaum, 1968): e P( X 1 p,,, ) (1 ) 1 e ( ) ( ) p p

90 HIDEGKUTI István- BALÁZS Kataln ahol γ a találgatás, vagy guessng paraméter, a tovább jelölések pedg megegyeznek az egy lletve kétparaméteres modelleknél alkalmazott jelölésekkel. Egy 0 nehézségparaméterű, 1 dszkrmnácós paraméterű és.25 találgatás paraméterű tem jeleggörbéje a 9. ábrán látható. 9. ábra: 0 nehézségparaméterű, 1 dszkrmnácós paraméterű, és 0,25 találgatás paraméterű tem temjelleggörbéje háromparaméteres logsztkus modell llesztése esetén. A szaggatott vízszntes vonal a találgatás paraméter értékét jelz, am a helyes válasz mnmáls valószínűsége. Bár a három paraméteres logsztkus modell elméletleg sok esetben a legkorrektebbnek teknthető modell a fent tárgyalt három modell közül, a gyakorlatban mégs ez a legkevésbé használt megközelítés, mvel a modellparaméterek becslése ebben a modellben a legkevésbé stabl. A háromparaméteres logsztkus modell llesztése az ltm csomag tpm függvénye segítségével történk. ft.tpm <- tpm(lsat) summary(ft.tpm) Call: tpm(data = LSAT) Model Summary: log.lk AIC BIC -2466.66 4963.319 5036.935 Coeffcents: value std.err z.vals Gussng.Item 1 0.0374 0.8650 0.0432 Gussng.Item 2 0.0777 2.5282 0.0307 Gussng.Item 3 0.0118 0.2815 0.0419 Gussng.Item 4 0.0353 0.5769 0.0612