MST设计涉及以下几个技术环节:阶段数的确定、每个阶段中模块数的确定、每个模块的项目长度、统计目标与定性规范约束、计分方法(能力估计)、自适应策略与过程、组卷等。现对以上技术环节一一展开。
一、阶段数的确定
构建MST时,首先考虑需要构建多少个阶段。大多数研究和应用中,通常使用3~4个阶段。更多的阶段或每一阶段内更多样化的模块难度会使测验的自适应性和灵活性更佳。但是增加阶段数会提升组卷的复杂性,却对测验最终的精度没有很大提升(Luecht & Nungester,1998)。当测验所含阶段数较少时也会出现问题。例如,两阶段测验,仅有一个阶段一和一个阶段二。由于只有一个自适应点,当被试得分处于划界分数附近时,就有更大的可能出现路径错误。两阶段测验应考虑建立一个“恢复路径(Recovery Routine)”,即被试从前一阶段到下一阶段出错时,应及时改正错误,减少下一阶段模块选择的错误。使用更多的阶段可以减少出现这种错误的可能性。Patsula和Hambleton(1999)比较了多种不同的MST设计,他们发现这些设计之间仅有很小的差别。但是这些测验设计在测量精度和效能方面表现出较大的差别。测验的阶段数越多就越接近于CAT。
因此构建测验时,测验开发者应选择合适的阶段数。阶段数过少无法精确测量出被试能力。阶段数过多不但无法提升测量精度还会加大组卷难度和题目浪费,并面临和CAT同样的问题,如路由出错、多自适应点增长测验时间等。
二、每个阶段中模块数的确定
大多数研究和应用是阶段一使用一个模块,在随后的阶段中增加模块数量。通常情况,每一阶段的模块数不超过8个,平均值为5个。随着阶段数的提升,增加更多难度的模块数,可使测验更具有自适应性和灵活性。同样,增加模块数也增大了组卷复杂性,并对测验最终精度没有很大提升(Luecht & Nungester,1998)。一般情况下,每一阶段最多4个模块,并且每个模块3个平行水平,这样的组合比较合适(Armstrong,Jones,Koppel & Pashley,2004)。
因此在构建测验时,测验开发者要合理制定每一阶段内的模块数。有两种可选择的模块数:一种是随着阶段增加,阶段内的模块数也增加,以此提升能力估计精度;另一种是每一阶段的模块数都相同,这种情况主要用于一致题目曝光率MST的情况(图4-1-2)。测验开发者可根据自己的需求进行选取。
三、每个模块的项目长度
已有的研究和应用中,模块的题目数为1~90个不等,大多为5个。不同阶段中模块的长度可根据实际情况而定。一些测验在阶段一中有较多题目,而随后阶段中题目数量较少。增加阶段一中模块的长度对减小估计误差有显著效果(Kim & Plake,1993)。模块长度较短但自适应点较多时,也可达到较高的测量精度。开发测验时,可以根据实际需要适当增加阶段一的模块长度或自适应点数量,以提升测验的测量精度。
四、统计目标与定性规范约束
测验开发者可以在阶段水平或整个测验水平上对题目选择进行约束。无论哪种情况,都要考虑内容和统计约束,以及这些目标特征之间的平衡。统计目标的选择是关键性问题。测验开发者要决定题目的难度和范围,若使用IRT模型,还要考虑目标信息量和目标特征曲线。这时的目标是使测验信息量达到最大。阶段一中模块的统计特征对整个测验精度都有很大影响(Kim & Plake,1993)。若阶段一中题目难度设置合理,将为最终的能力估计提供有力保障,使后续阶段的能力估计结果更加准确。
在题目设置上,测验开发者还要考虑内容平衡、题目间的独立性与依赖性等多种因素。由于MST中题目的构建和组合可通过专家预先进行检查和调整,因此综合考虑以上这些因素即可排除测验中的诸多潜在问题。
五、计分方法(能力估计)
MST如何根据上一阶段的结果得到下一阶段的相应模块,这就涉及计分问题。通常可以使用正确次数得分(Number Correct,NC)或IRT潜在特质估计的方式计分。若使用IRT理论,还要选择合适的模型进行参数估计。通常使用的模型有逻辑斯蒂克模型、正态肩形曲线模型和等级反应模型(Birnbaum,1969;Bock,1972;Samejima,1968)。对于共用题干的题目(如阅读理解),则可以使用多级IRT 模型计分。由于MST每个模块中的题目可作为题组来处理,因此也可使用题组反应模型计分。由Wainer,Bradlow和Du(2000)开发的题组反应理论(Testlet Response Theory)可进一步解决这个问题。
六、自适应策略与过程
自适应发生在测验的不同阶段之间。根据前一阶段被试的作答结果,估算出临时的能力值,然后根据这个值为其选择下一阶段合适难度的模块,以此类推直到完成全部测验,并估计出最终的能力值。
测验过程中若是自适应点过少,则无法准确估计出被试能力。若增加自适应点,将使MST面临和CAT一样的问题。因此要配置适量的自适应点,使测验简洁又精确。
七、组卷
MST的题目需通过组卷后才可以应用。组卷过程中应满足统计目标和定性规范,组卷完成后还需要由专家对其进行审定。虽然对这些模块可采取手工组卷,但是由于组卷复杂性且试题量较大,大多数测验都选择自动化组卷技术(Automated Test Assembly,ATA)(Breithaupt & Hare,2007)。这种ATA进程可以通过一些算法过程或者商业软件来实现。
MST中ATA的设计存在一些潜在难题,如题库大小、算法满足目标函数的潜力等。这些目标在测验开始前均已实现。因此,这种系统化的组卷方式使测验更加标准化,也可更好地达到统计目标。实现ATA的方法有标准化加权绝对离差算法(Normalized Weighted Absolute Deviations Heuristic,NWADH),0-1线性规划(Linear Programming,LP)等(Linden & Adema,1998;Luecht,1998;Luecht & Nungester,1998)。