一、认知诊断测验

(一)认知诊断测验的由来

随着心理测量学和认知心理学的进一步发展,人们越来越不满足于只关注个体宏观层次的能力水平评估,还希望深入了解个体内部微观心理加工过程,进而揭示传统标准测验理论“统计结构”所蕴含的心理学意义。Mislevy(1993)将心理测量学的这种研究视野称为“认知水平研究范式”(Cognition Level Paradigm)。Frederiksen,Mislevy和Bejar(1993)的专著Test Theory For A New Generation Of Tests的出版,标志着新一代测验理论的诞生。新一代测验理论强调测验应同时在“能力水平”和“认知水平”两种水平的研究范式下进行,强调用心理学理论(尤其是认知心理学理论)来指导测验编制,从而使测验所测量的特质及对测量结果的解释具有心理学理论支持(涂冬波,蔡艳,丁树良,2012)。

在新一代测验理论中,认知诊断理论被视为其核心。认知诊断测验(Cognitive Diagnosis Testing,CDT)是认知心理学与现代测量学相结合的产物。它对个体的评价不再只是对被试的能力层面的评估,而是要对个体内部微观的认知状态(Knowledge State,KS;又名属性掌握模式,Attribute Mastery Pattern,AMP)(Tatsuoka,1991)进行诊断,进一步揭示个体内部心理加工过程和各种认知特征。这与医生通过各种检查而最终确认病人的疾病类型是相似的(余嘉元,2006)。Nichols(1994)将这种新的诊断评估方法,称为认知诊断评估(Cognitively Diagnostic Assessment,CDA)。在诊断出了学生个体的认知状态之后,教师就可以对个体进行针对性的教学补救。因此,认知诊断对于素质教育和因材施教有重要意义。2001年,美国政府的《一个都不能少法案2001》(No Child Left behind Act of2001),规定美国所有实施的测验应该给家长、教师及学生提供诊断信息(U.S.House of Representatives,2001),可见认知诊断是测验的发展趋势(张敏强,简小珠,陈秋梅,2011)。

(二)认知诊断测验的基本概念

在心理测量中,要测的目标是潜在特质,这个潜在特质可以是连续的,也可以是离散的。在项目反应理论和用项目反应理论开发的IRT测验中,测量目标是一个连续变量,即宏观能力,用θ表示。而在认知诊断理论中,测量目标是一个离散向量,即认知状态KS,用α表示。这就是项目反应理论和认知诊断理论的区别所在。

做认知诊断研究需要有两个模型:第一个是认知模型;第二个是纳入了认知模型中认知变量的测量模型,也就是通常所说的认知诊断模型。

认知诊断所使用的认知模型是由完成测量任务所需的若干认知属性按一定层级关系构成的。认知模型的表达形式可以是图形(参见图6-1-1),也可以是矩阵。认知诊断中表达认知模型的矩阵称作邻接矩阵(Adjacency Matrix),它是一个k行k列的矩阵(k为属性数量),反映了属性之间的直接关系(不含自身关系和间接关系)。图6-1-1所对应的邻接矩阵将在后文中介绍。

属性(Attribute)是认知诊断理论里的重要概念。属性通常表示测验项目的特征,被定义为正确作答特定项目所需要的认知加工和技能(丁树良,汪文义,罗芬,2012)。构建认知模型时,要确定完成测量任务所需的所有属性及属性间的层级关系。当属性之间存在从属关系(掌握某个属性需以另一个属性掌握为前提)时,可能的属性组合就更少。据分析,主要存在五种基本的属性层级关系结构,如图6-1-1所示(Guo,Bao,Wang & Bian,2014;Leighton,Gierl & Hunka,2004)。这些基本类型可组合成更为复杂的网络层级关系(Complex Networks of Hierarchies)。

图6-1-1 属性层级关系结构的五种类型(转自郭磊,2014)

在图6-1-1中,A是线型结构,属性1是属性2的先决条件,属性2是属性3的先决条件……属性k是属性k+1的先决条件……属性5是属性6的先决条件。也就是说,被试只有掌握了属性1才有可能掌握属性2,只有掌握了属性2才有可能掌握属性3……只有掌握了属性5才有可能掌握属性6。B是发散型结构,又叫分支型结构,属性1是其他所有属性的先决条件,属性2是属性3的先决条件,属性4是属性5和属性6的先决条件;但属性2和属性4之间没有次序关系,属性5和属性6之间没有次序关系。C是无结构型,属性1是其他所有属性的先决条件,但其他所有属性之间没有次序关系。D是收敛型结构,从属性1到属性6有两条不同的路径,属性2是属性3和属性4的先决条件,但属性3和属性4只要掌握了一个就有可能掌握属性5,也就是出现了“收敛”。

如果两个属性之间有直接关系,则在邻接矩阵中相应的元素用1表示,否则用0表示。图6-1-1中,A结构所对应的邻接矩阵如下:

其他各种属性层级关系结构所对应的邻接矩阵,也可以用相同的方法表示出来。

认知诊断中还有一个矩阵叫可达矩阵(Reachability Matrix),简称可达阵或R阵。它是一个k行k列的矩阵(k为属性数量),反映了属性之间的直接关系、间接关系和自身关系。如果属性之间存在以上三种关系中的任何一种,则在可达阵中相应的元素用1表示,否则用0表示。

被试对一项测试任务的所有属性的掌握情况被称为被试的认知状态(KS)。被试j的KS可以用向量表示为:αj={αj1,…,αjk,…,αjk}。每个KS向量决定了一个独一无二的潜在类别(Latent Class)。因此,当属性相互独立时,k个属性就决定了L=2K个潜在类别。例如,当k=6时,潜在类别的总数就是L=2K=64。我们可以把以下KS向量与以下潜在类别联系起来:

α1={0,0,0,0,0,0}→潜在类别1;

α2={1,0,0,0,0,0}→潜在类别2;

……

αl={α1,α2,α3,α4,α5,α6}→潜在类别L;

……

α64={1,1,1,1,1,1}→潜在类别64。

独立结构是可能的KS向量数量最多的情况,因此它是最复杂、最难估计的。而当属性之间不是独立结构时,可能的KS向量数量(也就是潜在类别的种类数量)就少于2K个。最简单的是线型结构,它的可能的KS向量数量只有k+1个。仍然以k=6为例说明:

α1={0,0,0,0,0,0}→潜在类别1;

α2={1,0,0,0,0,0}→潜在类别2;

α3={1,1,0,0,0,0}→潜在类别3;

α4={1,1,1,0,0,0}→潜在类别4;

α5={1,1,1,1,0,0}→潜在类别5;

α6={1,1,1,1,1,0}→潜在类别6;

α7={1,1,1,1,1,1}→潜在类别7。

认知诊断的目的,是根据被试的作答结果,对被试的KS向量进行推断。从以上例子可以看出,在不同的属性层级结构之下,可能的KS向量数量相差很大,由此把被试分成的潜在类别数量也相差很大。如果能事先确定测验的属性层级结构,那么在对被试KS进行估计的时候就会准确得多,也会方便得多。

认知模型确定之后,要根据属性及其层级关系找出所有可能的属性组合,然后为每一种可能的属性组合编写至少一道测验试题并标定所有试题所测认知属性。由此而形成一个元素全是1或0的i×k的矩阵,这个矩阵被称作为Q矩阵(Tatsuoka,1995),其中i是题目数量,k是认知属性(简称属性)数量。Q矩阵的第i行第k列的元素用qik表示。从题目与属性的关系看,qik=1意味着测验的第i题考查了属性k,而qik=0意味着第i题没有考查属性k。从题目与被试的关系看,qik=1意味着在没有猜测的情况下,被试要答对第i题就必须掌握属性k。Q矩阵的每一行实际上都是对应试题的认知属性变量,有学者把这个称为q向量。认知诊断所用认知模型以及Q矩阵通常需要由认知心理学专家、学科专家和心理测量专家共同精心构建和标定。

与做IRT研究一样,做认知诊断研究也要求输入一个j×i的作答矩阵(Response Matrix,又译为反应矩阵),其中j是被试数量。当所有题目均为0-1计分时,作答矩阵的所有元素均为0或1。

认知诊断所用测量模型是一个将试题认知属性变量、被试认知状态变量和被试的作答矩阵融入一体的统计模型。测量模型的作用就是在试题认知属性变量确定、被试作答反应变量确定的前提下,应用某些统计方法,估计和确认被试的认知状态KS。

认知诊断里还有一个概念叫理想反应模式(Ideal Response Pattern),它指的是在不存在任何失误和猜测等误差条件下被试对题目的作答反应情况。即若被试掌握了题目考核的所有属性则被试答对该题,若被试至少有一个题目考核属性未掌握,则被试答错该题目。根据测验的全部i道题所分别考查的属性和全体j个被试的KS,就可以计算出所有被试在所有题上的理想反应模式,构成一个J×I的理想反应模式矩阵。有些认知诊断模型在做参数估计的时候需要用到理想反应模式矩阵。

认知诊断的精度,常以模式判准率(Pattern Correct Classification Rate,PCCR,又名Pattern Match Rate,PMR)为指标来评判。PCCR的计算公式为

其中,如果一个被试的所有属性掌握情况都被判对,则称该被试的KS判对。PCCR越大,则被判对KS的被试在所有被试中所占的比例越高。

二、CD-CAT

现代教学实践既需要被试宏观能力层面的测量结果,又需要被试微观认知层面的测量结果。将CAT与认知诊断测验这两种现代测量形式结合起来,是最理想的设计。于是,兼具二者优势的CD-CAT就诞生了,它是CAT的“自适应”思想与在认知诊断测验实施过程中对“高效快速”的追求相结合的产物,是认知诊断与CAT两种测验在原理与目标上的嫁接,它将传统CAT自适应化的原理嫁接到了被试认知状态估计目标上。比起传统的认知诊断测验形式,CD-CAT可以更精确、更迅速、更灵活地测量出被试的潜在知识结构,从而获得被试在知识点上的掌握情况,为教育教学工作提供有针对性的指导,促进学生的个性化发展(郭磊,2014)。

从CTT纸笔测验到CD-CAT,心理测验的理论与实践经过了长期的发展,CD-CAT的发展历程可以用图6-1-2来概括。

图6-1-2 CD-CAT的理论与实践发展历程(转自戴步云,2015)

最近几年来,在社会科学引文索引(Social Science Citation Index,SSCI)中,关于CD-CAT的论文越来越多,可见它越来越受学者的关注。Jang(2008)设想了这样一幅课堂教学的场景:当教学完成一个小单元之后,教师用CD-CAT来诊断学生们对已经教过的技能的掌握情况;学生们在教室的计算机上完成测验,而详细指出每个学生的优势和劣势的诊断结果将会立刻生成。Huebner(2010)认为Jang(2008)的这个设想阐述了CD-CAT成为一种强大且实用的测量工具的潜力。而在中国进行的一项大型研究表明,CD-CAT能有效地帮助教师进行课堂教学,并能促进学生的批判性思维,提高学生独立进行问题解决的能力,还能让学习更有乐趣(Liu,You,Wang,Ding & Chang,2013)。可以肯定,根据教育测评的发展趋势,CD-CAT有很好的发展前景,并将在未来的教育实践中发挥重要的作用(辛涛,乐美玲,张佳慧,2012)。

CD-CAT发展到今天,已经呈现出多样化。用不同的分类方法,可以将CD-CAT分为各种不同的类型。例如,根据不同的测验目的,可以将CD-CAT分为两大类:一类是只测量被试的认知状态,这是单目标的CD-CAT(如Xu & Douglas,2003;Cheng,2009);另一类是同时测量被试的认知状态和能力,这是双目标的CD-CAT(如Cheng,2007;McGlohen & Chang,2008;Wang,Chang & Douglas,2012)。后一类测验在选题时要同时兼顾诊断被试认知状态和估计被试宏观能力,创新层次更高,引发的研究难度和复杂程度也更高。