一、基于测试设计视角的RCAT

针对RCAT的两个缺陷:一是被试使用“作弊”策略,二是测验效率的下降,有研究者从测验设计的角度入手针对性地提出了一些解决方案。为了防止被试使用“作弊”策略,研究者提出通过控制被试修改作答的方式来控制。另外,Waddell和Blankenship(1994)研究发现在一次测验中被试修改的题目数只占总题量的很少部分(平均只有5.1%)。因此,如果只允许被试修改一定数量的题目,一定程度上可以提高RCAT测验的效率。目前有关RCAT的测验设计主要包括:Stocking的限制被试修改机会的设计;优化的Stocking设计;题目口袋设计;区块题目袋方法;重新安排题目顺序的设计。接下来分别从测验设计的基本思想、优缺点以及它们之间的关系进行阐述。

(一)Stocking的限制被试修改机会的设计

1.限制被试修改机会的三种设计方案

Stocking(1997)提出了三种RCAT设计。

设计一:允许被试修改固定数量的题目。在作答前主试会告知被试作答完所有题目后,可以返回检查并修改固定数量的题目。

设计二:允许被试修改单独限时题目单元内的答案。在测验过程中将题目按照先后顺序划分为固定长度的题目单元。题目单元长度根据实际需要而规定。并以题目单元的形式呈现给被试作答,被试可以在单元内对题目进行检查并修改,计算机根据被试当前单元的作答来选择下一个单元,提交答案后的单元不允许再次返回修改。

设计三:只允许被试修改单独限时属于共同刺激物(表格、图画、阅读材料等)组成的题目单元,题目单元的长度随着测验内容的变化而变化,因此每个被试作答的题目单元的内容和长度是因人而异的。

2.三种设计方案的比较与评价

为了验证这三种设计在对抗Wainer策略中是否有效,Stocking(1997)通过模拟和真实的数据研究,发现在设计一中当只允许修改2个题目时(定长28题),能力估计精度和传统CAT很接近。但是随着可修改题目数的增加,由Wainer策略导致的误差也会随之增加,换句话说设计一并不能有效对抗Wainer策略。

当把设计二中的测验题目分隔为4个或4个以上的单元时,能力估计精度接近于传统CAT。因此,在对抗Wainer策略方面设计二比设计一更有效。同时结果也表明设计三与设计二在抵抗Wainer策略方面具有类似的效果。

与设计一相比,被试在设计二中对测验有更多的掌控,不管测验被分割为多少个小单元,设计二中被试还可以修改所有的题目,但设计一中只能修改固定数量的题目。另外,设计二中被试修改单元内答案会影响下一个单元的选择,即计算机会根据被试修改后的能力估计值选择下一个单元。而设计一中修改题目之后的能力估计值并没有体现在自适应选题上。从这点来看设计二比设计一更符合CAT的规则。

与设计二相比设计三既保留了设计二的优点,但也具有自身独有的优点。设计三的单元由具有共同刺激物的题目组成。而设计二中的单元只是按照题目顺序随意组合而成,单元内容可能毫不相关。对于一些习惯将所有相关联的题目综合考虑之后,再进行作答的被试,设计三更符合他们的认知过程。

另外,在设计一中,在测验开始前需告知被试只能修改很少量的题目,这可能给被试造成额外的考试压力。设计二和设计三都没有考虑到增加修改选项后会引起测验效率的下降。而且两种设计中被试还不能返回修改前一个单元,被试并不能按照自己的考试习惯来修改答案,这也给被试带来了极大的不便。设计三在应用中还存在一些局限性。例如,在只考查阅读水平的测验中,所有的题目都拥有共同的刺激背景,如何来划分题目单元将会很困难;相反如果一个测验的绝大部分题目都没有共同刺激背景,那么设计三与传统CAT几乎没有差异。

(二)优化的Stocking设计

针对Stocking设计造成的RCAT效率的下降,Vispoel等人(2000)将Stocking设计加以改进提出了优化的Stocking法。该方法的思路是允许被试在作答题目单元时,暂时将不确定答案的题目标记起来,待当前单元内的其余题目全部作答完以后,计算机会再次呈现该单元内的所有题目供被试修改,通过标记待修改题目节约了测验的时间。另外,计算机屏幕下方会显示测验所剩余的时间,以此提醒被试合理安排时间,如果被试不想受到时钟的干扰也可以选择将其隐藏。

Vispoel等人(2000)将优化的Stocking法应用到真实的CAT中,测验包括40道考查词汇记忆的题目。实验结果表明这种方法是非常有效的,因为在修改阶段被试花费55%的时间用于修改标记过的题目(标记的题目只占总题目数的6.93%)。优化后的Stocking法的平均测验时间只比传统CAT多了12%,而且差异不显著。在将测验分为8个题目单元时,其测验时间只比传统CAT多了6%。这都说明优化的Stocking法对提高RCAT的效率是有效的。

从实验结果来看,Stocking设计(尤其是设计二)和优化Stocking设计都将RCAT的效率和精度保持在一定的范围内。但是这些设计都将被试的修改行为限制在一个题目单元内,被试必须修改完当前题目单元并提交答案之后再作答下一个单元(除非被试放弃修改当前题目单元),在这种测验环境中,被试的作答习惯会受到极大的限制。并且要成功应用以上设计还需要对每个题目单元单独限时,在应用于RCAT中如何规定每个单元的测验时间也是个很复杂的问题。如果每个单元的作答时间是没有限时的,那么被试在作答完一个单元之后就会纠结要不要花时间来修改,修改过程中又要担心花费时间过长影响后面的答题。这种情形导致被试在整个测验过程中经常处于一种焦虑的状态,而由此带来的考试焦虑有可能更高。另外,按照以往的纸笔考试习惯,遇到一些难题或是暂时想不起答案的题目,考生经常会跳过这些题目继续作答。然而在Stocking设计和优化Stocking设计中并不允许被试跳过题目来作答,甚至在一个单元内也不能跳过。也许有考生认为在遇到较难的题目时先随意选择一个答案,等到一个单元作答完毕之后再修改答案,但这样做又会违背CAT的选题策略,反而会引起更大的误差。

(三)题目口袋(Item Pocket)设计

Stocking(1997)的设计将题目划分为单独的小单元,被试只允许修改单元内的题目。所以被试每作答一个单元就要做出一个决定:是否要花费时间去修改当前单元,还是抓紧时间作答剩余单元。另外,修改答案后会造成“人题”不匹配,Stocking和优化Stocking法的设计中都没有消除“人题”不匹配造成的测量误差。针对以上两种设计的缺陷,Han(2013)提出了一种题目口袋(Item Pocket,IP)法。

1.题目口袋法的设计方案

IP的设计思路是指在测验的过程中,计算机为被试提供了一种题目口袋选择,即允许被试在作答过程中,随时可以把待修改的题目或者暂时想跳过的题目放入IP中,然后接着作答下一个题目,放入IP内的题目不参与当前能力估计。当IP容量已满后,被试需要替换一题才能再次放入。在规定的测验时间内被试随时可以修改IP内的题目,修改后的题目自动从IP内释放。测验时间结束后IP内还未被释放的题目视作错误作答。从IP内释放的题目与IP外的题目一样也参与被试的能力估计,IP容量可以根据测验的长度、时间等设定。

2.题目口袋设计的评价

IP方法允许被试随时将不确定答案的题目放入其中,一来可以帮助被试有效安排时间,防止被试在一个不确定答案的题目上花费过长时间,影响剩余题目的作答。二来 IP方法允许被试跳过题目来作答,并且在IP内作答不影响IP外的选题,从而有效地降低了由于“人题”不匹配引起的误差。另外,与Stocking和优化Stocking法相比,在IP设计中被试对测验的控制感更足,更符合被试考试习惯,能有效降低被试的紧张及焦虑度。

但Han并没有指出IP容量大小该如何选择,IP容量过大或过小都会产生不利的影响。IP容量过小,被试对测验控制感不足;IP容量过大,由于在IP内的作答不影响IP外的选题,同样地也会降低CAT因人施测的有效性。另外,IP方法的有效性也取决于测验时间,在时间有限的CAT中被试可能不会使用IP方法,因为被试知道没有足够的时间来修改答案。

(四)区块题目袋方法

在Stocking设计中,被试在题目区块内(区块也就是文章中的题目单元)作答时不允许跳过题目,而且为了保证估计的精度,需要划分较多的区块使得被试受到更大的限制。然而,IP法的缺陷是它的容量不易设置,但是IP法在一定程度上可以弥补Stocking设计的不足。基于此,林喆、陈平、辛涛(2015)提出了区块题目袋方法,该方法将Stocking设计和IP法有效结合在一起,实现了方法之间的“双赢”。区块题目袋的主要思路是将测验分成几个大区块,为每个区块分配一个一定容量的IP,通过区块的设置来合理安排题目袋的容量。在进入下一个区块前,被试需要作答完该区块IP内的题目,而进入下个区块后不允许修改前面的区块。

通过模拟研究表明:与IP法相比,区块题目袋方法可以提高能力估计的精度,尤其对低水平的被试,区块题目袋能够更精确地估计其能力值,并且随着区块数的增加估计精度有略微提升。在对抗类似Wainer策略时(测验开始前将题目尽可能放入IP内来推迟作答,再返回全力作答),区块题目袋方法也要优于IP法。

区块题目袋将Stocking设计和IP法结合起来,一来允许被试跳过题目作答,而且只需要设置较少的区块,二来巧妙地解决了IP容量不易设置的问题。

然而,区块题目袋将被试的修改行为限制在区块内,被试在作答下个区块前需要完成当前IP内的题目,这很可能不符合一部分被试的修改习惯。在纸笔测验中,被试经常使用的一种修改习惯就是:先跳过较难的题目,等完成全部有把握的题目之后,再返回检查并修改答案,这种修改习惯类似于IP法的思路。因此,虽然区块题目袋合理解决了IP容量不易设置的问题,却可能给被试的测验习惯带来一定的限制。此外,相对IP法,区块题目袋在应用中更复杂,需要更多的技术支持。

(五)重新安排题目顺序的设计

与传统纸笔测验相比,CAT一个显著的优势就是计算机“因人而异”地选择与被试能力最匹配的题目施测,从而快速有效地估计被试的能力水平。然而,被试修改答案后会造成题目难度与被试真实能力水平不匹配,这成为RCAT的一个主要误差来源。为此,Papanastasiou(2002)提出了在被试修改答案后重新安排题目顺序的设计方法。即被试在修改某个题目之后,在能力估计阶段忽略该题之后可能与能力不匹配的题目。被试在修改阶段可能有四种修改模式,分别对应四种重新安排题目顺序模式。

1.重新安排题目顺序设计的四种模式

模式一:被试将原来错误答案修改为另一个错误答案,例如,正确答案是A,被试把答案由B改为C。这种修改方式并不会影响能力水平的估计,所以不需要重新安排题目顺序。

模式三:被试将第i题答案由正确改为错误,计算机自动选择第i+k题(1<k<4)作为下一题(第i+k题为第i题之后第一个答对的题目)。如果被试在[i+1,i+k]区间内的题目都答错了,则将第i+4题作为最后参与能力估计的题目。

2.四种重新安排题目顺序设计的评价

Papanastasiou(2002)研究发现与正常修改相比重新安排题目顺序之后平均偏差下降了15.6%,效果显著,并且重新安排题目顺序之后的信度接近0.81。虽然重新安排题目方法在能力估计偏差和信度上表现优异,但是这种结果只是模拟得到的,具体应用到实际中效果如何还需进一步研究。另外,部分作答题目不参与最后的能力估计,不仅降低了题目的利用率,而且对于被试而言可能难以理解这种方法。

为了避免最后参与被试能力估计的题目数过少,Papanastasiou提出如果已有3个以上的题目被忽略,将不再执行重新安排题目顺序的方法。因此对于部分考生而言,该方法可能只执行两次(第一次修改忽略了3个题目),还是不能有效地解决“人题”不匹配的误差。另外,遇到一些极端的情况该方法可能会导致更大的误差。例如,被试只修改了2个题目,每次修改都保留了第i+4(假设修改了第i题),这样两次修改之后就会忽略6个题目,在定长CAT中能力估计的题目数过少将会产生更大的随机误差。当然有学者认为可以在重新安排题目顺序后,再适当给被试增加测验题目,但是这样做在增加测验成本的同时,也可能给被试带来更大的压力。除此之外,该方法必须限定可修改答案的题目数,即被试并不能任意地修改题目。这也会减弱被试对测验的控制感,易引起测验焦虑。

二、基于选题策略视角的RCAT

除了从测验设计的角度来改善RCAT,也有学者从选题策略角度改善RCAT。不管是传统的CAT还是RCAT选题策略都是一个非常重要的环节,选题策略的好坏直接影响到测验的精度、信效度和测验的效率。

在已有关于RCAT的研究方面,多数研究者选择 MFI作为选题的标准,即从剩余题库中选择在当前能力估计值处具有最大信息量的题目。第i题的信息量计算公式如下:

Pi(θ)是当前能力估计值θ处第i题的项目反应函数,Qi(θ)=1-Pi(θ),每次选题计算机都会按照上式计算题库中剩余题目的信息量,然后,从其中挑选出信息量最大的题目(罗芬,丁树良,王晓庆,2012)。MFI只用较少的题目就能准确地测量被试的真实能力水平,这使得MFI在传统的CAT得到了广泛的应用(毛秀珍,辛涛,2011)。然而,在传统的CAT中无须担心被试利用MFI的选题特征来使用“作弊”策略。但是在RCAT中MFI的选题优势同时也会成为其劣势,因为被试更容易通过故意答错题目来获得低于真实水平的简单题目,从而成功应用Wainer策略。

(一)SIIS选题策略

针对在RCAT中被试易通过MFI选题来作弊的情况,Davey和Fan(2000)提出特定(Specific Information Item Selection,SIIS)信息选题策略,SIIS的选题步骤介绍如下:

首先,从剩余题目中选出一批题目作为下一题的备选题,这批题目的难度与被试当前能力估计值差异在一定范围之内。其次,将备选题所有题目的信息量与当前能力后验分布相结合,产生期望信息量Oi(i代表题目)。再次,将总目标信息量减去已施测题目的总信息量作为下一题的目标信息量,记为T。最后,把备选题中所有题目Oi与T比较,选择最小的(T-Oi)2作为下一题,如果选择的题目受到曝光率的限制,则选择次小的(T-Oi)2,被试每作答完一题,能力后验分布就要更新一次。

(二)SIIS选题策略的评价

首先,Bowles和Pommerich(2001)通过模拟研究发现SIIS和MFI在对抗“作弊”策略中的差异不明显。然而,可以预见的是在对抗Wainer策略方面SIIS选题策略要好于MFI,因为在MFI中被试在自适应作答阶段更容易通过故意答错来获得极简单的题目。但是在SIIS中,即使被试故意答错所有题目也不可能完全获得低于真实水平的简单题目。同样地,与MFI相比在SIIS选题策略下被试更难通过判断前后作答题目的难度来实施K策略。

其次,MFI倾向于选择区分度高的题目,这会导致题目曝光率不均匀,另外最大信息量选题方法依赖于当前能力估计值的精确性,因此在测验开始阶段MFI方法可能存在较大的偏差(毛秀珍,辛涛,2011)。SIIS选题降低了高区分度的题目过度曝光率,使题目的曝光率更均匀。

最后,MFI选题每次都要计算题库中剩余题目的信息量,从中选择具有最大信息量的题目,如果题库容量过大,每次选题都要花费一定时间,这可能会降低测验的效率。而SIIS选题只从备选题目中选择合适的题目,在一定程度上提高了测验效率。但是SIIS兼顾曝光率后所选题目与被试真实能力并不是最匹配的,因此SIIS的测量精度会略低于MFI。

三、基于模型视角的RCAT

以上研究从测验设计和选题策略两方面来实施及改善RCAT,这些研究更多的是通过外部的技术手段来达到RCAT的目的。已有研究者试着通过模型的变化来实现RCAT,目前有关RCAT的模型有逻辑斯蒂克4参数模型、条件概率模型和综合评分模型。

(一)逻辑斯蒂克4参数模型

为了降低测验初始阶段由于高能力被试不小心答错简单题目而引起的误差,Barton和Lord(1981)提出了逻辑斯蒂克4参数模型(4PLM)。4PLM是在逻辑斯蒂克3参数模型(3PLM)的基础上加以改进而来。3PLM公式如下:

其中d=1.702,θ代表被试能力值,a是题目区分度,b是题目难度,c为题目猜测系数。3PLM的一个潜在假设是:低能力被试答对高难度题目的概率为猜测系数c,高能力被试答对简单题目的概率接近1。然而这个假设并不一定成立。例如,对于一个高难度题目所考查的全部知识,一个低能力被试可能已掌握了部分。那么低能力被试答对该题目的概率就高于猜测系数c。同样地,一个高能力的被试由于紧张、误解题意、粗心等一些因素也可能答错简单题目,所以高能力被试答对简单题目的概率不总是等于1。基于此,Barton和Lord(1981)提出了4PLM。4PLM增加了上限参数Δ,其公式如下:

Yen,Ho,Liao和Chen(2012)将4PLM应用到RCAT中(简称R4PLM),并将4PLM与重新安排题目顺序方法结合起来应用于RCAT(简称RR4PLM),研究结果表明R4PLM精度高于R3PLM,而RR4PLM精度又高于R4PLM。测验效率按照达到一定精度所需要的题目数来评价,R4PLM效率高于R3PLM,在中高能力(θ≥0)水平处R4PLM效率高于RR3PLM,其中RR4PLM的效率高于其他三种方法。

高能力被试答错了本该答对的简单题目后,计算机会估计出一个低的能力值,并由此选择一个与真实能力极不匹配的题目。与3PLM相比,4PLM增加了上限参数Δ,意味着高能力被试答对简单题目概率并不是1,而是Δ,Δ依据具体测验而定,如可取0.99、0.98等。因此即使高能力被试由于疏忽答错了一个简单题目,在4PLM下估计的能力值要比3PLM更接近真实能力值。然而该实验的结果表明,R4PLM和R3PLM的能力估计精度差异并不大,甚至在高能力值处R4PLM的估计偏差要更大,也就是说4PLM对能力估计偏差的修正程度是有限的。由此可看出,若将4PLM单独应用于RCAT时,并不能有效地降低“人题”不匹配的误差。虽然Yen,Ho,Liao和Chen(2012)通过模拟实验发现4PLM和重新安排题目顺序结合在一起,可以将能力估计精度和测验效率保持在一个可接受的范围内,但是重新安排题目顺序的方法有很大的缺陷,在应用中可能会出现“得不偿失”的后果。因此4PLM的真实有效性还需要经受更多真实数据的检验。另外,4PLM能否有效对抗“作弊”策略的影响也需要进一步的研究。

(二)条件概率模型

van der Linden和Jeon(2012)认为修改的概率是建立在第一次作答基础上的条件概率,基于此在3PLM基础上提出了条件概率模型,该模型建立在三个前提假设基础之上:①修改阶段的猜测参数c=0,即逻辑斯蒂克2参数模型(2PLM)。②两个条件模型参数ai,bi相互独立,分别独立受到第一次作答的影响,a0i,b0i分别表示第一次错误作答后题目区分度和难度参数的估计值。③假设在两次作答中被试能力保持不变,即θ(2)n=θ(1)n。条件概率模型的公式如下:

其中n=1,2,…,n代表被试,i=1,2,…,i表示题目,θ(1)n是被试n第一次作答的能力估计值,用Pr {U(2)ni=1|U(1)ni=0}表示被试n第一次答错了第i题,修改阶段改为正确的条件概率。En表示被试n将错误答案改为正确答案的题量,服从伯努利分布,其概率计算公式如下:

n表示被试,in=1表示被试n将第i题的错误答案改为正确,Pnin=Pr{U(2)ni=1|U(1)ni=0},Qnin=1-Pnin,z是哑变量。通过假设检验来诊断被试是否在测验中使用“作弊”策略,公式如下:

a为显著性水平,e*n为a水平下的临界值。如果式(7.2.6)成立意味着被试可能使用了“作弊”策略。

van der Linden和Jeon(2012)通过真实的实验数据研究发现,修改阶段的区分度参数和难度参数都高于第一阶段,其中难度参数的差异程度要大于区分度参数。这是因为模型假设修改阶段的猜测参数c=0,相应地项目曲线就会陡峭一点。同时难度参数变大意味着与第一次答对一个题目相比,要把错误答案改为正确的难度更大。另外,条件概率模型在模型资料拟合度检验中表现良好。

该模型考虑了第一次作答对修改阶段参数的影响,并通过精确的数学公式来诊断被试是否作弊,与前面所提到的方法相比是一个创新。然而条件概率模型中的每个题目都有两种参数:一是正确作答的参数,二是错误作答的参数。该模型能否有效应用取决于这两种参数的获得,从建立题库的角度来看要估计这两类参数还是一个很大的挑战。首先在建立题库的参数估计阶段就要投入更大的成本,每个题目都要收集足够多的正确和错误作答的实测数据,也就是说要有比传统CAT更多的实测样本来估计参数。而且对于少数题目来说可能绝大部分人都答对了或者答错了,那么这些少数题目就要再找一批被试来估计,直到收集到足够的答对和答错的样本数据为止。在得到题目参数以后如何进行等值分析也是需要解决的一个问题,另外在题库的动态维护方面该模型也需要投入更多的成本来实现。

除了题库的建设方面面临较大的问题之外,该模型的建立还要满足严格的假设条件,在真实的RCAT中能否满足也有待进一步的研究。

从应用的角度来看,该模型只具有诊断被试是否作弊的功能,诊断出之后要想消除作弊带来的不良影响还要投入更多的成本,也就是说该模型并不能在过程中达到限制被试作弊的效果。当然在测验过程中也不能弥补由于修改题目引起的“人题”不匹配的误差。

(三)综合评分模型

纵观以上RCAT的研究发现,研究者在估计被试能力时仅考虑了修改后的答案,并没有考虑修改前的答案。陈平和丁树良(2008)认为RCAT中应该把被试修改前后的作答信息综合起来考虑,然后再来估计被试的真实能力。据此,陈平等基于3PLM提出了一种新的综合评分模型,公式如下:

被试第一次正确作答给Beta(0≤Beta≤1)分,第二次正确作答给(1-Beta)分。Uaj表示被试a在第j个题目的第一次作答反应,Ua,j+m表示被试a在第j题目上修改后的作答反应(Uaj∈{0,1},Ua,j+m∈{0,1},j=1,2,…,m),Vaj表示两次作答的综合得分。通过模拟研究发现:当Beta=0时,即只考虑被试修改后的结果,实验误差达到了最大。当Beta=1时,即只考虑被试第一次作答结果,实验误差达到了次大值。只有当Beta=0.5时,也即综合考虑两次作答结果,并分别赋予0.5的权重时实验误差为最小。

另外,将新的评分模型运用到对抗Wainer策略中,结果发现能力估计值与真值存在很大的误差,并且随着能力的增加误差也在增大。如果综合考虑EAP和MLE能力估计值,并分别赋予0.4和0.6的权重后求和得到的能力估计值,在一定程度上对抗了Wainer策略的影响。

已有的关于RCAT的研究者只关注了修改后的结果,并没有考虑第一次作答结果。该模型记录了两次作答结果,并在能力估计阶段利用了两次作答的信息,一来反映被试的认知转变过程,并为主试提供更多的信息,二来一定范围内降低了能力估计的误差。

然而模型的模拟阶段采用了传统二级评分方法(答对得1分,答错得0分),意味着所有被试在修改阶段改对一个题目后只能得到0.5分,改错不得分。在实际应用中可能会造成测验的不公平,假设某个被试完全有能力答对某一题,但由于紧张、误读等意外因素而答错了,最后改为正确之后该题只得到0.5分,而实际上被试的真实水平是得满分。反之,如果一个被试完全不知道答案的情况下却在修改阶段猜对了,也会得到0.5分。换句话说,不管被试有多大把握答对某一题(自适应阶段答错了,修改阶段改为正确),最终该题的得分都是0.5分。在实际应用中被试也可能无法理解改对了却只能得一半分数这样的做法。

因此,综合评分模型通过模拟实验得到的0.5的权重是不是最优的?在确定最优权重方面是不是可以考虑因人而异的设置?例如,将每个被试答对的真实概率作为权重,修改之后的综合得分用真实概率乘题目满分来计算最后得分。最优权重的确定这一问题有待未来做进一步的研究。

另外,综合评分模型并没有对“人题”不匹配引起的误差进行有效的弥补,模拟实验结果也发现在对抗Wainer策略方面的效果不理想。

四、总结与展望

(一)总结

CAT以其高效准确测量被试能力水平而逐渐得到广泛的应用,然而,不允许修改答案的CAT对于已经习惯传统纸笔测验的大众而言是一个难以接受的选择。研究发现允许被试修改答案的CAT提高了能力估计的准确性,并降低了被试测试的紧张及焦虑程度。同时可修改答案也会给CAT带来很大的影响,涉及CAT的各个方面,甚至对于不同的测验内容、测验长度,RCAT造成的影响也可能不同。因此,无论是实验室的模拟研究还是实际中的应用,必须要全面考虑到RCAT的一系列不利因素,权衡各方面因素的影响来找到最优解决方案。

国内外学者已经在这方面做出了初步的探索和研究,这些研究对RCAT的应用与推广具有重要的意义。纵观这些已有的RCAT的控制方法各有优缺点,仍有进一步改善的空间。表7-2-1、表7-2-2和表7-2-3更为直观、全面地简述了目前国内外研究中RCAT的各种控制方法的特点及其优劣,供读者参考。

表7-2-1 RCAT测验设计方法及其优缺点

表7-2-2 RCAT选题策略及其优缺点

表7-2-3 RCAT模型及其优缺点

(二)展望

目前有关RCAT这方面的研究并不多,本文在已有研究的基础上对未来的研究提出几点展望。

第一,未来研究需采用Monte Carlo模拟研究及实证研究综合比较以上RCAT设计、选题策略、计量模型的效果及特点,为实际应用者在RCAT的设计方案、选题策略及模型选用上提供参考及支持。

第二,van der Linden和Jeon(2012)提出被试两次作答的题目参数应该不同,基于此提出了条件概率模型。研究结果发现修改阶段的题目难度和区分度参数都高于第一阶段,其中难度参数的差异程度要大于区分度参数。但是其余模型和方法都假设:在修改阶段题目参数并未改变。然而修改情境可能会使题目参数发生改变。那么假设两次作答题目参数在可能改变的情况下,如何在未来的研究中兼顾这点值得关注。

第三,CAT大致可分为定长CAT和变长CAT,前者固定的测验长度不利于使所有被试水平都得到恰当的估计,或者一些被试得到恰当估计能力水平后还需额外作答题目,所以在部分测验的实际应用中并不理想。变长CAT可以克服以上缺点,本文所述的RCAT的控制方法都是在定长CAT中所进行的研究,这些方法在变长CAT中的效果能否产生同样的效果?如果不能应该做出怎么样的调整?例如,重新安排题目顺序方法的一个较大的缺陷:最后参与能力估计的题目过少导致额外的估计误差。那么在变长CAT中这种缺陷导致的误差可能就会降低。

第四,现有的有关RCAT的方法都有各自的优点和缺陷,如何在应用中将这些方法有机结合起来,取长补短?例如,逻辑斯蒂克4参数模型和IP方法结合起来使用,前者的失误参数对能力估计精度的偏差进行一定的修正,后者能够降低“人题”不匹配的误差。逻辑斯蒂克4参数模型和SIIS选题策略结合使用,这两种方法分别从模型和选题角度对能力估计产生的误差进行了修正。

再如,也可以试着将条件概率模型和综合评分模型结合在一起,通过条件概率模型计算被试修改答对的概率,然后把答对概率作为综合评分模型中的第二次作答的权重,这样就可以计算得到被试最终在修改题目的期望得分。综合评分模型在对抗“Wainer”策略的效果不理想,但是RCAT测验设计中的方法可以有效对抗“Wainer”策略。因而,未来的研究者可以考虑这些方法的两两结合甚至两个以上结合。事实上前文所述的有关RCAT的控制方法,很多都可以视具体的研究内容相互融合使用。未来的研究者可以朝着这个方向开展研究。

第五,CD-CAT在CAT的基础上发展而来,同时赋予传统CAT新的功效——认知诊断(涂冬波,蔡艳,戴海琦,漆树青,2008)。同样地,CD-CAT测验因不允许被试修改答案,也面临着和传统CAT同样的困境。CAT注重测验的结果,对测验分数背后隐藏的内部心理加工过程、加工技能、认知结构等无法提供进一步的信息。CD-CAT主要在于对被试的知识掌握状态进行诊断,帮助被试有针对性地做出补救,所以被试在作答过程中并没有必要使用CAT中的“作弊”策略,并且被试要想通过“作弊”策略来获得高分或正偏能力估计值的机会不大(Vispoel,Rocklin,Wang & Bleiler,1999;Davey & Fan,2000;Olea Revuelta,Ximénez & Abad,2000)。因此,未来的研究者对可修改答案CD-CAT进行研究的时候,借鉴RCAT的方法的同时可以适当减少对于“作弊”策略的考虑。

思考题:

1.与CAT相比,RCAT有什么优势与不足?

2.目前RCAT常用的测验/测试设计方法有哪些?

3.RCAT选题策略有哪些及其特点如何?

4.基于模型视角的RCAT中有哪些模型?