计算机化自适应测验是利用现代化的信息技术手段实现自适应技术的测验形式。第二节已经指出,它是第二代计算机化测验,也是发展最为成熟的自适应测验形式,第三代与第四代可以视为第二代计算机化考试在心理测量理论与考试结果应用方面的拓展。本节将详细介绍计算机化自适应测验的概念、优势、研究现状与未来研究方向等方面。

一、概念

计算机化自适应测验根据考生前面的作答选择能够最大化地提高测量精度的项目。从考生的角度来看,考试的难度与其能力是匹配的。如果考生能答对中等难度的项目,后面的项目可能就会更难一些。如果他们的作答不好,就有可能做更简单一些的项目。因此计算机化自适应测验的突出优点就是提高了考试的效率,只需要更少的题就能达到传统纸笔测试的测量精度。一个计算机化自适应测验本质上就是下面这样一个迭代算法。

第一步,根据对考生能力的现有估计,在所有可能的项目中寻找最佳项目;

第二步,把选定的项目呈现给考生,考生给出作答;

第三步,根据考生的作答,更新考生的能力估计值;

第四步,检查是否符合终止规则。如果符合,考试结束;反之,重复以上三个步骤。

为了实现这个迭代算法,一个计算机化自适应测验系统应当包括以下五个缺一不可的基本元素:事先标定的题库、初始题选择、选题法、能力估计方法与终止规则。

(一)事先标定的题库

CAT需要从一个题库中选择项目呈现给考生。这个题库中的项目都需要用心理测量学模型标定,把它们放在一个共同的标尺上。最常用的心理测量学模型是项目反应理论(Item Response Theory,IRT)。在20世纪70年代,大部分CAT研究都是采用了经典测量理论(Classic Test Theory,CTT)。此后由于IRT研究的大发展,IRT取代了CTT。目前,两种新的测量理论也渐渐流行起来:多维项目反应理论(Multi-dimensional IRT,MIRT)与认知诊断理论(Cognitive Diagnosis,CD),因此也产生了基于这两种新理论的CAT,称为多维IRT的计算机化自适应测验(MIRT-CAT)与认知诊断的计算机化自适应测验(CD-CAT)。

(二)初始题选择

CAT选题的基本依据是考试不同进程中当前的能力估计值。但是在施测之前,一般很难得到考生能力的估计,因此需要一些特殊的方法来处理此时的能力粗略估计问题。一般来说有两大类方法:第一类是通过其他渠道获得的考生已有信息,如性别、年级等背景变量(九年级的考生一般来说比七年级的考生能力更高,九年级考生应该选择较难的项目而七年级考生选择相对容易的项目)。第二类就是假定考生具有中等能力水平,选择中等难度的项目。

(三)选题法

选题法的主要任务是要构造一个指标,选出一个对能力估计值最有测量效率的项目。目前最常用的选题指标叫作信息函数。顾名思义,这个函数值最大(或者最小)的项目能够提供最多的信息。选题法中涉及很多信息函数,但是可以大致分为两大类:一类是来自于统计学的Fisher信息函数;另一类是来自于计算机科学的信息函数,包括Shannon信息函数、Kubek-Leibler信息函数以及互信息函数(Mutual Information)等。同时,选题法也不仅仅涉及测量效率的问题,也涉及心理与教育测量中各种实际的限制,如与考试安全相关的项目曝光率问题、内容平衡问题、正确作答的排序问题等。选题法是最能展现自适应测验智能化特点的元素,因此它一直是CAT研究的核心问题与热点。

(四)能力估计方法

考生做完一道题之后,CAT需要对考生的能力进行更新。这需要一种统计方法来完成这个目标。能力估计的主要方法包括极大似然估计与贝叶斯估计,而贝叶斯估计又包含两种具体的估计方法:EAP(Expectation A Posteriori)与MAP(Maximum A Posteriori)。极大似然估计与贝叶斯估计之间存在一定的联系。如果采用均匀分布的先验,那么MAP与极大似然估计是等价的。两者的重要区别在于,极大似然估计是一种无偏估计,但是在作答都是正确或者错误时,这种估计方法就会失效,需要依赖贝叶斯估计。讨论CAT能力估计方法的最重要的文献是Test Scoring(Thissen & Wainer,2001)。

(五)终止规则

CAT里的选题法会一直选出项目给考生,更新考生的能力,直到题库里的项目枯竭,因此需要制定一定的终止规则。终止规则一般都建立在考生能力的测量精度是否达到了某种水平。在CAT中一般用测量的标准误(Standard Error of Measurement)来衡量能力测量的精度。在测量精度达到某个预设值时,CAT就会停止测试,因此,CAT的一个优势是可以使每个考生的测量精度相同。

二、CAT的优势

计算机信息技术的发展给教育测量带来了巨大的变化。计算机化测评具有一些传统纸笔测评无法比拟的优势。

(一)项目的呈现更加标准化

计算机可以精确地控制考生可以看到听到的具体内容,也可以非常精准地控制项目呈现的时间。计算机可以控制施测条件、指导语、程序的完全标准化,但是人工施测很难达到这样的标准化。再以指导语为例,计算机的指导语可以做到跨越时间、地点的完全一致。计算机施测可以避免人工施测中的某些问题,如某些考生不听指令提前看题等问题。

(二)提高考试安全

计算机化测验没有纸笔的考题或者答案,因此可以避免纸版考试中考题或者答案被泄露的问题。在计算机系统中,可以通过多重加密防止考试材料泄露。这些考试材料也可以通过加密的形式存储,使没有密码指令的人无法看到或者打印考试材料。考题的答案也可以通过随机排列等方式防止现场作弊的发生。

(三)丰富的呈现功能

纸笔测验的呈现方式的优缺点都非常明显。它们可以很好地呈现文字与简单的图片。纸笔测验也能呈现照片等复杂的图片,但是成本非常高昂。纸笔测验不能记录考生的作答时间,不能以动态的形式呈现图像、动画与一系列动作。纸笔测验中声音材料的呈现也非常困难,施测人员必须接受专门的训练;现场的操作与实施非常复杂。在计算机化测验中,计算机显示器是统一的项目呈现设备。虽然它受到显示设备像素、显卡、内存大小等因素的影响,但是它能够呈现文字、图像、声音、视频等多种形式的刺激材料,实施成本低廉,呈现的效果也远远好于纸版的呈现方式。

(四)新形式项目的出现

显示功能的强大不仅仅是改变了呈现质量,也对测量项目本身产生了深远的影响。纸笔测验中的项目形式相对单一,但是计算机显示功能大大拓展了测验的内容与形式。例如,在格式塔能力测验中,计算机可以逐步增加测验刺激材料的细节,直到考生识别图案。在视觉概念与记忆测验中,可以通过计算机同漫画的形式展示图片序列。在知觉速度测验中,控制图片显示的时间与速度。在听觉能力中,计算机可以向考生呈现通过数字合成技术生成各种声音刺激材料。这些测试内容与形式在纸笔测验中很难实施,甚至无法实施。

(五)减少考试时间

有大量的研究已经表明,即使只是简单地把纸笔测验转化为计算化测验(第一代计算机化测评)也能大幅地降低测验施测的时间。Olsen曾研究发现在进行加州考试项目(California Assessment Program)时,计算机化组与纸笔组的各种统计学指标(平均数、标准差、信度与测量误差等)基本相当,但是计算机化组的考试时间大大低于纸笔组。在答题纸上作答需要找到并且涂画相应的选项,比直接用键盘输入答案要花费更多的时间。

(六)作答收集与编码更加便捷

计算机化测验在作答的收集与编码方面存在很明显的优势。对于选择题,一般的答题纸都需要考生在相应的项目中找到相应的选项,然后填图对应的字母或者圆圈。考生在这个过程不仅仅耗时费力,而且增加了犯错的概率。但是在计算机化测验中考题是一个一个呈现的,考生不必查找对应的题号与选项。对于问答题或者写作,计算机化测验可以避免不同书写风格带来的偏差。作答也可以直接用于后续的避免处理,例如,可以直接使用自然语言处理技术提取关键信息。但是纸笔作答需要统一收集运输扫描等流程。

在有些开放式问题中,计算机可以提供更加符合考生作答习惯的作答方式。例如,有些问题会要求考生指出或者画出文本中的某些文字、图片中的某个部分。特别是在触屏技术飞速发展之后,计算机提供了互动性更强、更加友好的方式进行。在纸版测评中实施这些任务会给作答的编码带来很大的困难。另外,由于语音识别技术的发展,考生可以用语音输入的方式进行作答,这就大大拓展了需要口头表达的考试内容。例如,语言考试中的口语水平测试、音乐中的声乐水平测试。口头作答的方式也为测试某些特殊人群打开了方便之门,如视觉困难人群、不具备书写能力的文盲群体等。

(七)减小测量误差

计算机化测验大大减小了各种测量误差。仅仅就取消答题纸而言,考生不仅仅可以提高作答速度,也可以减少填错答案、漏答、更改答案时没有完全消除错误答案的标记等问题。计算机化测验是一个一个呈现项目的,因此,考生集中注意力解决眼前的问题,而不被其他的项目分散注意力或者因部分难题造成畏难心理,因此计算机化考试可以提高低能力、注意力持续时间短的考生的表现。

计算机化考试也可以减少与考试过程有关的误差。计算机化测验作答是通过键盘、鼠标或者触屏的方式输入的,已经是电子化的数据。而纸笔测验的作答需要扫描的程序,这个过程会引入一些转化的误差,因为扫描本身就是一项专业性非常强的技术。另外,在计算机化测验中,答案更改、常模更新、评分规则的变化都非常简单,但是纸笔测验中必须要更改相应的纸版内容。再者,计算机化测验可以避免试卷、作答丢失,学生作答的答案画得模糊,扫描设备各种机械故障(扫描像素的设定等问题),答案错误带来重复劳动等。在纸笔测验中,这些实施的问题都是经常遇到的,需要大量的人力物力来处理。

(八)记录作答反应时,提供更加丰富的作答信息

计算机可以非常准确记录考生作答的每一个项目、分测验与测验的时间。但是这个任务在纸笔测验中几乎无法实现。充分挖掘反应时提供的信息可以大大丰富我们对考生的评价。目前反应时已经成测评中的一个研究热点之一,重要的问题包括如何对反应时进行建模,如何利用反应时来提高能力估计的精度,如何提高计算机化自适应测验的选题效率,如何探测考生的各种不良作答策略(作弊、泄题、动机弱等)。

(九)实时的准确评分、结果报告与解读

正如上文论述的计算机减少考试误差的好处。计算机可以快速地评分,计算分测验分数与总分。因此,考生可以在测验结束几分钟之后拿到一份成绩报告单与结果解读。但是纸笔测验一般至少需要一周到一个月不等的时间来完成评分撰写报告结果的任务。很多标准化考试被认为没有任何教学指导意义,因为考试与成绩反馈之间的时间过长。

(十)电子化存储

由于作答信息收集方式的改变,计算机能够直接产生数字化的存储,避免了大量题本的物理运输、处理与存储。电子化的存储方式大大降低了传输过程中发生错误的概率。为了满足考试分析、二次教育研究以及存档的需求,这些数据可以快速便捷地传送。

三、CAT研究现状与未来研究方向

自CAT研究诞生40年以来,心理教育测量研究者的研究已经成绩斐然,CAT也成为心理教育测量领域一个成熟的分支,成为专业学术杂志与会议的重要议题,甚至有了专门的国际性研究协会。这个部分我们将对CAT研究的过去与现状从测量模型、考试实施、考试分析三个方面来进行梳理总结,并对未来的重要研究问题进行一些预测。

(一)测量模型

CAT研究初期(20世纪70年代),CAT是一种与传统纸笔测验完全不同的形式,具有开创性。因此有关的研究处在萌芽阶段,在主题内容技术等方面非常有限。第一,最重要的研究重点是能力估计的统计信度;第二,只研究CAT形式,而忽略了其他的形式;第三,只研究二分的项目,而忽略了多级计分模型;第四,只研究单维模型。CAT研究还没有开始研发新的项目类型与评分规则(如纸笔测验无法呈现与评分的项目类型)。这些新题型与评分规则都可以增加考试的效度与可考查的内容。

20世纪90年代廉价而强大的电脑开始出现,极大地促进了第一批大型CBT项目的产生,如ASVAB、GRE中的部分考试,以及TOEFL。这些大型项目在实践中遇到大量的技术难题,其中大部分都是非常有趣兼具挑战性的研究性课题。同时,计算机与多媒体技术的结合大大开阔了测试研究者与开发者的思路,激励他们尝试新的测验形式与作答形式。例如,使用视频来呈现项目,收集考生的语音作答等。

CBT的兴趣已经不再仅仅局限于统计层面,不仅关注信度,也开始关注效度,如考题内容的平衡等。计算机不仅仅可以实现自适应,还可以呈现更复杂的项目,如复杂的视听材料(过程模拟、场景的演变等)。计算机也可以实现考生与测验之间更高级的互动。例如,考题可以是一个模拟的病人,考生需要对其进行诊断、询问、开药等活动。开放题的计算机化评分也变得更加可能,如ETS研发的自动评分系统。但是同时,题库的开发与维护变得更加复杂,也比最初设想的昂贵。考试安全已经日益成为一个重要的问题。测试工业界一方面希望通过立法来设立更严格的项目管理制度,另一方面也希望开发出小样本与缺失数据下的各种考试质量控制技术(参数估计方法、项目功能差异、被试拟合等)。

1.研究主题

(1)CAT题库。最优题库的内容与项目参数是什么分布?能否帮助测试编制者开发出具有理想统计学性质的项目?

(2)在线标定。在线标定收集到的数据一般来说是确实数据。什么是最优的取样设计?项目内容与形式能否提供一些项目参数(特别是难度参数)的先验信息,这样可以减少样本容量的要求?

(3)曝光控制。怎样的曝光控制方式才是有效的?怎样减少由曝光控制带来的测量精度的损失?

(4)作答速度。CAT中考生作答的考题不一样,那么如何避免由此带来的作答速度效应?

(5)质量控制。CAT中获取的作答信息较少,给项目功能差异、参数漂移、作答异常的探查带来了困难。现有的技术在CAT中还可以使用吗?还有什么新的质量控制技术?

2.突破性研究

以下研究主题是更加长久的研究主题,能够促进下一代CAT的形式。

(1)CBT与认知诊断模型的结合。

(2)复杂项目或者作答的测量模型建模(如基于电脑模拟的测试)。

(3)提高考试公平的各种方法(按照文化背景来选题)。

(4)多维测量模型。

(5)信息选题法与能力估计误差之间的交互作用。

(6)项目自动生成。

(二)考试实施

20世纪七八十年代的研究集中在IRT模型、选题法、终止规则,项目与能力参数的估计方法。现在CAT要面对更新的技术难题,包括:项目的研发、更新,用一个更宽泛的名词,叫作“题库维护”;项目前测(获得各种项目参数);项目与考试安全。这些新问题都是在一些考试机构实施CAT后发现项目提前曝光影响了分数的效度(Validity)。

这三个技术难题高度相关:大题库可以提高考试安全,但是大题库的开发十分昂贵,因此对项目开发与质量控制的成本与收益需要进行监控。同时,为项目参数估计与质量控制收集数据的过程也是项目曝光的过程,可能会引发安全问题。因此,需要大量的研究来降低项目开发成本,降低项目曝光率。

1.研究主题

如果以下八个问题能够回答,那么CAT与CAT的实施效率将大幅提高:项目研发、项目统计指标、有效题库的维护、项目曝光、成本/收益分析、公平、在不同施测条件下的考生行为与考试平台选择。

(1)项目研发。能够提升项目编制者的培训?项目可以克隆吗?这些克隆项目有类似的项目统计指标吗?可以开发出项目生成的程序吗?自动评分可以促进开放题在CBT中的推广吗?在CBT中选择题仍然占据主流地位,从选择题转向使用开放题的实际困难是什么?克隆题会不会加剧考试培训对考试的信效度带来的威胁?

(2)项目统计指标。获得足够小估计误差的项目各项统计指标需要多大的样本?这些估计误差对能力估计的影响有多大?项目编写者能否参与获得这些统计指标?如果可以,最有效的获取方式是什么?通过纸笔测验获得的项目统计指标是否适用于CBT?在纸笔测验中获得的统计指标中,哪一个对CBT最没有参考价值?有没有方法使考生在实际考试中发挥出自己的最好水平?

(3)有效题库的维护。什么结构与组织形式才是最优题库?题库使用的时间是多长?一个题库的分数需要与一个参照题库进行等值吗?一个安全题库的最大项目曝光度是多少?题库中的项目应该如何进行轮休才能既保证题库安全又能获得最大的使用周期?如何探查被泄露的题?在考试过程中探查到了被泄露的题,有什么方法进行补救?另一个与题库项目使用率最大化有关的问题是如何可以开发出高效的算法,它可以使用题库中所有项目但是对能力估计不会产生重大的负面影响。

(4)项目曝光。一个考生知道一个题库中部分项目会产生多大的影响?应该如何度量项目曝光,什么是高曝光率或者低曝光率?曝光可以或者应该定义为什么时间看到项目,而不是被看到的频率?在考虑项目曝光的情况下,选题法选出的项目仍然能够保证内容平衡的要求吗?

(5)成本/收益分析。将考试效度与CBT其他的优势相比,实施CBT需要的成本是否值得?CBT的成本会对某些特殊群体造成重大影响吗?有没有降低CBT成本的新办法?相对于纸笔测验,CBT的增值是什么?

(6)公平。CAT中考生的考题不同,数量与难度也不同,这些会带来公平问题吗?如果内容平衡要求发生变化,那么不同时间点的分数具有多大的可比性?在CAT中如何探查项目功能差异?CAT考试中考生如何作弊?如何防止作弊?

(7)在不同施测条件下的考生行为。CBT中不能进行多次猜测、改答案,或者暂时放弃难题。因此,在CBT中,考生的作答策略有什么不同?这些CBT中受欢迎的作答策略在不同人群或者不同心理发展阶段的人群中也受欢迎吗?不同的作答策略会导致不同的考试长度吗?

(8)考试平台选择。初期独立的台式计算机或者计算机的局域网是CBT的主要考试平台。目前通过互联网进行考试的“基于网络的测评”出现,并且产生了一些新的技术挑战。考试安全还可以保证吗?如何认证考生的身份?如何确保不同考试平台之间的质量与可比性?

2.突破性研究

考试实施有可能在以下五个方面产生突破。

(1)高质量项目的低成本快捷开发方法。衡量项目质量的关键指标是效度,但是目前考试工业界的现状是开发效度高的项目耗时费力、成本高昂。由于“机经”等集体作弊形式,考试公司解决考试安全的基本解决方法就是降低项目的使用次数,但是由此造成了研发成本居高不下。对于某些涉及记忆的考试,简单改变项目的外在特征就很有效果。另一种可能就是开发能够自动生成项目的算法。对于考察知识技能明确的学科,自动生成算法的研发比较简单明确。例如,算术问题或者其他略微复杂一点的数学问题。但是涉及高级认知功能与内容领域(如历史、文学等)的算法开发就变得非常复杂。根据良好项目进行模仿克隆(Cloning)也许是一个颇有前途的方向,但是仍然需要研究人员进行有关的研究。

(2)项目统计指标准确性(大被试样本)与减小项目曝光之间的平衡。解决这个问题有多种可能性。例如,利用题库中已有的项目,来推断同一内容领域、同种技能的新项目的统计属性。或者,把专家意见与数据相结合,这样可以降低对数据量的需求。这就要求找出与项目统计属性相关的影响因素,然后对项目编写人员进行专门的培训。第三种可能性就是优化被试取样方法。这个方面仍然需要大量的探索。

(3)CBT的设计。CBT中有很多考试形式,从完全自适应考试到完全不进行智能化调整的线性CBT考试,中间的形式包括多阶段自适应考试,随机平衡测验等形式。

(4)新题型与新测试内容的开发。CBT不仅可以减少考试时间、提高考试安全性、实时的分数报告等,而且可以测试纸笔测验不能测试的新技能,或者更好的测试。所以一个突破点就是开发开放题,用视听觉来呈现考题等。目前只是刚刚开始这些可以提高考试效度的新技术。但是这些新形式也要求开放题的自动评分、题组模型等,可能会影响CBT的设计。

(5)CBT系统设计与实施的指导性原则。许多小的考试机构没有能力或者资源进行复杂的CBT研究,但是他们也想知道如何实施CBT。因此有关的设计与实施指导原则具有很高的实际价值。

(三)考试分析

考试分析、评分、分数报告及考生表现的相关因素的研究是CBT的基础性工作。目前有关的研究包括复杂项目的自动评分与作答反应时。

1.复杂项目的自动评分

目前,用于表现型测试的开放题日益流行起来。开放题一般都是人工阅卷,所以与选择题相比,开放题的评分成本较高,也非常耗时。很多成本与时间来自评分活动的各个环节,包括评分者到阅卷地点、评分标准的制定(整体评分或者采点评分规则)、评分者的训练与质量控制、阅卷活动、标准设定、分数报告等。实施表现型测试题的CBT也更加复杂。计算机最显著的优势是实时评分、提高测量效率,但是表现型测试项目似乎与此背道而驰,因为它无法实现实时评分。复杂项目的自动评分是解决这个难题的重点。一旦实现重大突破,那么CBT就可以施测满足教育者需要的开放式项目,使项目更加贴近现实情境。自动评分也可以促进新题型的开发,提供更多的测试信息。具体的研究问题包括:

(1)高效自动评分算法是什么样的?开发这样的算法需要多少人力资源?如何降低学习素材(专家人工打分的材料供机器学习评分规则的)的需求量?分数量尺对自动评分是否存在影响?这些因素会受到项目类型与测量技能的影响吗?

(2)衡量自动评分的标准是什么?机器评分与人工评分的一致性是最重要的标准吗?机器评分比人工评分具有更高的信度吗?分类树(Classification Tree)等方法能否准确地对考生进行分类?在作文写作中,分类树能否很好地区分具有某些特征的作答,提高作文自动评分的准确性?

(3)自动评分与人工评分的混合使用能否产生更高的信度与效度?例如,人机组合是否会比两个人工或者两台机器阅卷更加准确?哪种方式更加节约成本?公众更容易接受哪种方式?如果人机组合,那么人工介入的基本规则是什么?

(4)回归类、复杂规则类的算法是复杂表现型项目自动评分的最好方法吗?其他方法(如回归类与复杂规则类的混合算法)可以提高自动评分的精确性吗?不同复杂项目、领域与考试类型(高利害还是诊断)需要多大的准确性?评分回归模型中最优特征的类型是什么?需要多少个特征?最优特征与数量在统一测试领域内的可推广度有多大?

(5)目前各类项目中,最适用于自动评分的项目类型是什么?自动评分算法的可推广度有多高?自动评分还有什么其他的外部效度问题?

(6)诊断功能能否有效地与自动评分结合?在写作自动评分中,能否实现对写作的程序性技能与语法技能进行评价,这样可以实现写作评分的效度研究?能否开展多维的自动评分,提供诊断信息?

2.作答反应时

我们需要进一步探讨如何对测验中收集的信息进行更好地挖掘。作答的反应时间是我们可以利用的附加信息。这个领域的重要研究主题包括:

(1)研究反应时间在能力估计中的附加值以及阅读与作答中的不同反应时间可能反映出来的加工技巧。在计算心理测量学指标时,反应时能否对数据降噪起到任何作用?不同考生群体之间(高低、性别、种族)存在反应时差异吗?

(2)反应时建模。将反应时信息用来推断考生在数学推理、写作与具体领域(生物、历史等)使用的认知技能。反应时模型会加深我们对这些技能的认识吗?是否存在反应时与技能之间的调节变量?反应时模型与能力模型能否探查不同人群或者技能之间的差异?

(3)利用反应时监控考生作答速度模式来提高考试的效度。通过作答反应时的模型,我们可以探测快速猜测等行为,从而减少考试焦虑、考试技巧等无关因素的影响。是否存在与最优作答相关的反应时模式,不同领域的最优反应时模型是否存在一致性?不同人群之间的反应时差异能够部分地解释人群能力表现的差异吗?

本章概括性地介绍了自适应测验的计算机化测验的基本概念、主要特征、历史变革与现状;同时,详细地总结了计算机化自适应测验的历史、现状与重要研究问题。不难看出,计算机化测验涉及教育、心理测量与信息技术的变革以及几者之间的互动,虽然历史不算很长,但是内容丰富多变。本章提及的一些重点与热点会在后面的章节中进行进一步更加详尽地总结与评述。

思考题:

1.自适应测验有什么特征?

2.计算机化测验有哪些分类及各类有什么特征?

3.计算机化自适应测验包括哪些基本元素(或算法)?

4.计算机化自适应测验有什么优势?

5.你觉得计算机化自适应测验未来的发展方向有哪些?