计算机化多阶段自适应测验(MST)并不是一个全新的概念。早在CAT出现之前,就已经有了非计算机形式的MST(Mead,2006)。但是这种MST却因CAT的出现而暗淡失色。如今在使用CAT的过程中,暴露出越来越多的问题。比如,在CAT中测验组卷有时无法达到最佳状态,因此必须放弃一些复杂的内容要求。软件设计的漏洞和缺陷也会导致不理想的组卷结果。此外,还有一些考试内容要求难以量化。而MST组卷的特殊性,能够有效解决这些问题,因此又出现在人们的视野里。

一、什么是MST

什么是MST?MST是预先构建好题目集合,以集合作为单元进行管理和评分,这些集合被称为模块(Module)或题组(Testlet)(Luecht & Nungester,1998;Wainer & Kiely,1987)。这些模块是较短的线性测验,并提供一定比例的测验信息量,以此减小测量误差。模块中的题目可围绕一个或几个共同题干(如文章和图表),也可彼此互不关联。

MST的自适应点出现在题目集合水平上,是基于被试的累积表现选择下一个模块的。这使它的自适应点少于CAT,但又多于传统纸笔测验。MST结合了纸笔测验的元素和CAT的自适应特性,综合了两者的优点,克服了许多缺点,是两者的妥协者。MST测验形式已经被运用到大型评价考试中,如美国的注册会计师统一考试和研究生入学考试。

下面用一个简单的三阶段MST来示例多阶段测验过程(图4-1-1)。MST通常从一个较短的阶段一测验或路由测验(Routing Test)开始,该测验用来估计被试的能力初值,为之后的能力估计和题目选择做准备。此阶段的题目难度应该足够广,才能适合各种能力的被试。当被试做完阶段一的题目后,初步估计出被试的当前能力,然后为其选择随后阶段中与之能力匹配的模块。当被试的能力被估计为较低时,给其分配模块1(容易)的题目;当被试能力被估计为中等时,给其分配模块2(中等)的题目;以此类推给其分配模块3(困难)的题目(Hendrickson,2007)。阶段二测验中每个模块的难度划分更为精细,可对被试进行更精确的区分。阶段二测验结束后,估计出较精确的能力值,再根据这个能力值为被试选择阶段三的模块。

当三个阶段的测验都完成时,整个测验就完成了,此时可根据最终的能力值来判断被试的能力。整个测验仅有两个自适应点,分别是阶段一进入阶段二和阶段二进入阶段三时的自适应点。第二个自适应点要注意一个问题,若被试接受阶段二的模块1(容易),进入阶段三时不能直接跳转到模块6(困难),或被试接受阶段二的模块3(困难),进入阶段三时不能直接跳转到模块4(容易)。因为这样的极端跳转会引起较大的测量误差,并且这种情况在正常测验中也不会出现。图4-1-1中的一个完整流程被称为一个面板(Panel)。在一次测验中应有多个平行面板可供选择,以此来减小题目的曝光率。

图4-1-1 三阶段MST测验

计算机化多阶段自适应测验有许多不同形式,并且这些形式的名称也有所区别。这些不同形式主要有:掌握水平测验(Computerized Mastery Testing,CMT),计算机自适应序列测验(Computer-Adaptive Sequential Testing,CAST),多种形式结构(Multiple Form Structures,MFS),捆绑式多阶段自适应测验(Bundled Multistage Adaptive Testing,BMAT)(Armstrong,Jones,Koppel & Pashiey,2004;Lewis & Sheehan,1990;Luecht,2003;Luecht & Nungester,1998)。

二、MST与题目级别CAT的比较

在CAT的应用过程中,人们已经体会到它的很多优点,如“因人而异”、测验时间较短等。但其依然有很多问题,如违反单维性及局部独立性假设的情况、题目曝光率等。MST中,由于每个模块中的题目在测试开始前都设计和组装好,并作为一个整体进行管理,因此测验开发者便可更好控制整个测验的结构和内容。通过这样的控制管理,即可消除CAT中存在的许多问题。

(一)题目顺序和情境效应

在CAT中,有时会由于题目顺序或情境效应,对作答结果产生影响。运用MST虽不能完全消除影响,却能大大减小其发生的可能性。在MST中,题目均以集合的形式存在。当有许多内容单元或跨分类内容的题目时,集合便凸显出其优势。因为这些集合是预先构建好的,测验开发者能检查题目的具体内容,防止题目间有提示,以确保题目适用性。例如,几何考试中,用统计算法无法精确检测出题目的内容,这时就需要人工检查,是否有过多考查三角形的题目,而缺少考查圆的题目。

(二)单维性和局部独立性

CAT要求所有题目必须满足单维性和局部独立性假设,否则会对参数估计带来较大影响。MST每一阶段的模块都包含很多题目,这些题目间或许没有关联,或许建立在一个共同刺激以及同一内容情境下(如图表、阅读理解),需要把这些题目作为一个整体,作为一个多级项目来进行处理。这时每个模块中题目间的独立性就不再需要强调了。尽管模块中题目的局部依赖性不是必须消除的,但是若使用多级计分模型将会使测量结果更加精确(Yen,1993)。由此可见,解决了单维性和局部独立性的问题,MST的估计结果将更加准确,并且信度也更高。

(三)非统计特性

在MST中,测验开发者可以提前检查题目内容及其统计特性,同时也能检查非统计特性的分布,如认知水平、题目形式、字数及答案位置等。这些问题在CAT最初的观念中均被忽略。通过对这些非统计特性的限制,可进一步减小被试猜测率,提高能力结果估计精度。

(四)题目曝光率

传统CAT对于同等能力的被试,根据项目信息函数和测验信息函数选择题目。由于高区分度的题目具有较大信息量,为达到指定测验信息量,选中这些题目的概率就很大,因此增大了部分题目曝光率,造成试题泄露(Kim,Chung,Dodd & Park,2012)。然而MST却能很好控制题目的曝光率。因为测试前,测验开发者可以设计限制模块中题目的使用率。例如,对于同样路径的被试,在同一阶段内同样难度的模块,可选择平行模块,防止过度使用高区分度题目,进而有效控制题目曝光率(Edwards & Thissen,2007)。

MST中有一种一致题目曝光率的MST(Uniform Item Exposure Multi-form Structure,uMFS)(Armstrong,Jones,Koppel & Pashley,2004)。控制题目曝光率后,原始MST会发生两个变化:第一,阶段一中的模块数和接下来阶段中的水平数一样多,并且被试被随机分配到阶段一的模块里,因此每个阶段甚至每个题目都将被暴露于1/L的被试(L表示每个阶段中的模块数,每个阶段中模块数都相同)。第二,正确归置每个模块中的题目,选择划界分数,决定模块分支,进而正确区分被试,从而达到一致性目标(Michael,David & David,2012)。一个三阶段三水平的uMFS如图4-1-2所示。

图4-1-2 三阶段三水平uMFS

(五)被试可检查题目

CAT不允许被试浏览或者检查题目,因为这会给能力估计带来问题。被试完成的题目都是根据其能力即时生成的,若被试未完成前一道题目,则无法生成下一道题目。若被试想修改之前题目的答案,一旦修改就会改变能力值的估计,进而接下来的题目都会随之改变,这样不但对题目生成和能力估计带来问题,也会增长测验时间。所以CAT中,不允许被试浏览和检查题目。

然而MST却很好地解决了这个问题。由于MST的自适应点只出现在不同阶段之间,因此阶段内允许被试浏览或检查题目,并修改错误答案。这样可使被试在每一阶段尽可能得到高分,减轻焦虑,保持最佳作答状态。

(六)数据处理

在MST中,更少的自适应点可以更快得到结果,并且减少了路径选择的需求。与CAT相比,这种方法更加高效(Wainer & Mislevy,1990)。在CAT中,被试作答结果矩阵通常为稀疏矩阵,这会给结果估计带来很大困难,许多传统技术都无法解决这个问题。然而MST中将这些稀疏矩阵看作块矩阵,统计分析时将更易于处理。

(七)等值

使用CAT时,首先需要建立一个大型题库,并且必须保证所有题目都在同一量尺上,这样题目参数才具有可比性,因此需要对题目进行等值。在CAT中,不同被试很少会作答完全相同的一套试题,因此形成了稀疏作答矩阵,对新题参数(题库扩充)的估计和等值不太精确和便利。在MST中,大量被试会完成相同模块的题目,此时可根据被试作答直接对题目进行等值,提升了等值精确性和便利性(Armstrong,Kung & Roussos,2010)。