|
基于经典测量理论和项目反应理论的等值与连接
一、等值与连接中的效度概念、测试目的与测试规范
(一)效度的概念
在所有的测评项目中,效度都是人们最关心的问题。在构建测评过程中的每一个阶段,人们都必须对效度证明作出正式的记录。《教育与心理测试标准》中给效度的定义是:“在测试目标要求之下,证据和理论能够支持对测试成绩进行解释的程度。”(AERA,APA,NCME, 1999,第9页)该标准还指出,“逻辑上说,效度测量开始于对测试成绩的解释给出明确的说明”,而且,这样的解释“需要能够体现测试意图考察的构想或者概念”(AERA等,第9页)。
在许多测评项目中,针对效度的此种观点可以这样理解:即要求考试开发者对学生需要在考试中掌握的知识和技能作出清晰、明确的解释,从而确保测试的可靠性。假如没有一个清晰、明确的对学生的要求,一项测试想要有效地衡量学生的学习水平虽然不是完全不可能,却也是相当困难的。
Linn(2008)阐述了效度的含义,指出虽然人们常常随意地讨论测试的效度问题,一项测试中真正有效的其实并不是测试结果本身,而是这一结果的应用、解读和要求:
也许一些证据可以说明,对测试结果特定的应用会得到较高的效度;然而,同样的一个测试结果如果用于其他的目的,就可能毫无效度可言。例如,某一项测试或许能够显示出学生在某一个特定领域内所具备的知识和技能,从而对制定教学计划有所帮助;但是如果把这项测试成绩用于颁发高中毕业证书这样的高风险决定时,它的效度就不够充足了。
Sireci(2009)针对效度这个概念的历史作过一个颇为有趣而发人深省的叙述,他对效度作了三个和Linn颇为相似的评论:
(1)效度并不是一项测试的内在属性;
(2)效度与对测试成绩作出的解读和应用息息相关;
(3)衡量效度必须要考虑到测试的目的和应用。
以上是笔者对目前有关效度的观点做的一个简要的综述,我们从中能够看出,目前主张把效度看作测试结果解读和应用中的一个属性。这和传统观点中把效度看作一项测试的特征大不相同,而且这对“等值”这个概念的理解和评估有非常重要的意义。
(二)测试目的
教育测评项目中的测试成绩通常含有多方面的目的,其中包括但不局限于以下方面:利用测试成绩增强教师教学、学生学习的效果;衡量学生取得的进步;评估不同课程体系和教学方法的效率。此外,将测试成绩与其他一些信息相结合,可以对学生未来的学术和其他成就作出预测。因此,要对两个不同的测试版本进行等值,实际上就是要求这两个测试版本能够同样有效、完满地实现该项测评的目的。
对于大规模的测试项目来说,等值是非常重要的。因为同一考试机构会使用大量不同的试卷,而且这些试卷每年(甚至更频繁)还都会有所变化。这样的测试项目面临的主要挑战在于,由于不同的测试版本所考查的内容和目的是一致的,它们之间的评分标准和意义需要保持一致。这就是对测试的效度提出的考验,因此在构建不同版本的测试时,保证测试成绩具有一致的解释并能一样完美地服务于相同测试目的是非常关键的。
(三)测试规范(test specifications)
在这一系列论文中,笔者所关注的焦点是测试等值与连接中技术上、心理测量上的概念和程序。然而,要想取得测试等值的成功,最有价值的步骤却不在统计或者心理测量的范围之内。事实上,测试等值中最关键的环节一是在于为不同的测试版本准备相似的题目;二是在不同的试卷版本中有同等的涵盖考查内容相同、认知水平相同、试题模式相同的题目。
编制试题和测试规范的活动本身就是一项制定规范的过程,而且这项活动所需要的东西往往会超出心理测量专家的经验和专业知识。在目前对于学生应该掌握的知识和技能所进行的系统性描述中,存在很多不同的框架。Bloom(1956)所著的《教育目标分类》也许是其中最知名的经典原型,在该书所提出的框架中,对学习的定义是从知识的认知过程角度进行的,包括:识记、理解、应用、分析、综合、评估。想要构建等值的测试版本,各个版本中就需要等量地涵盖考查以上几个认知层次的题目,而且所考查的内容也要相同。Anderson& Krathwohl(2001)在他们的大作《学习、教学、评估分类: Bloom的教育目标分类的修改》中,针对Bloom的观点提出了很有意义的补充。另外还有一些有影响力的机构和学者也提出了他们自己对学习分类的框架,包括美国教育进展评估(National Assessment of Educational Progress, NAEP)、Robert Marzano与John Kendall(2007)和Norman Webb(1997)等,这些框架都提出了一组与认知过程或知识内容有关的学习维度。
最关键的问题并不是该采用哪一种框架,而是人们必须编制出一套清晰、明确、通俗易懂的方法来说明试题和测试所考查的具体是什么,而且要将这一套说明方法当作编制试题和试卷的蓝本。假如不能对测试的考核内容作出清晰的定义,我们无法想象这个测试的效度将如何评价。
测试规范中除了内容和认知过程以外,还包括试题的形式和呈现方式。试题的呈现方式包括纸笔测试、计算机化测试(computer based administration of fixed test)和计算机适应性测试三种(Mills等, 2002)。试题形式则包括选择答案题型(如选择题、判断题、连线题等)、自拟答案题型(如简答题、延伸题等)和完成任务题型(如编制图表、完成实验等)。测试规范中有必要包括对试题形式和呈现方式的说明,这样一来,测试规范就包括学习内容、认知过程、试题形式和呈现模式四个部分。
对试题和测试规范的讨论并不总是出现在对等值与连接的论述中。然而,在试题命制的过程中尽可能地保持试题和试卷的相似性是实现等值的重要环节。如果不同的测试版本在内容、认知过程、试题形式、呈现方式上都很匹配,那么对成绩进行的等值实际上就是在试题命制阶段的“等值”的基础上进行的细微改良。反之,如果测试在以上几个重要方面都不相匹配,学生的测试成绩就会受到影响,等值操作仍然能够得出一个数字上的结果,但是这个结果却无法使试卷实现“等值”。
二、等值与连接:意义和困惑
(一)等值与连接的基本概念
“等值”(equating)是一个测量术语,指的是为了在两个及以上的测试版本的成绩之间建立成对关联,使之具有同样的意义而设计的一系列程序。在将两个不同测试版本的成绩进行等值时,包含两重意义:第一层就是简简单单地让不同测试版本的原始成绩或者衍生成绩之间可以转化、对应或者相提并论,从而能够替换使用;第二层意义则远不止对应成绩那么简单,它让不同的成绩通过等值后能够体现对考生知识、能力相同的解读和推断,而且在此基础上能够进一步采取相同的适当的行动。
等值是一个能够在同一项测试的不同版本之间构建具有相同意义的并可比较成绩的技术程序,有了它,不同的考卷就可以替换使用。只要进行过确实的等值操作,某个学生或者某组考生用哪一套试卷进行测试就变得无关紧要了。在许多大规模的测试项目中,等值都有非常关键的作用,因为这一类测试都需要使用不止一套试卷。在各种现实原因的影响下,同一个测试机构可能会使用大量不同的试卷。此外,试卷的形式也会逐年发生变化,甚至频率要更高。
人们对连接(linking)和等值(equating)两个术语经常混淆,有时还替换使用。连接是更广泛的术语,对两个测试版本建立相配或者成对的关系,并没有要求该成对的成绩具有相同的实质含义。连接和等值是不同概念,连接对成绩的解释能力弱于等值。人们的困惑有些可能源于它们两个都采用相同的技术步骤。同时,某些步骤如“等百分位等值”(equipercentile equating)已经成为测量和心理测量学常用的词组。连接测试即使采用“等百分位等值”也不一定导致形成等值的测试版本。
在连接与等值中,一份试卷得出的成绩要和另一份试卷的成绩建立相配或者成对的关系。换句话说,一份试卷的成绩需要转化到与另一份成绩相同的量表或者一份通用量表上去。例如,在标准型测试(standards-based assessment,t简称SBA,即以检验固定的标准内容为目的的测试)中得出的成绩,将能够连接或者对应到标准的常模参照测试(norm-referenced test,简称NRT)成绩上去。通过这样的连接,我们可以得到一个两列的表格,其中的每一行都将一个标准型测试(SBA)成绩与一个常模参照测试(NRT)成绩联系起来(反之亦然),这样就将两个测试成绩连接起来了,如表1。
这样的连接可以用如下的短语进行恰当地描述:
“在标准型测试中得分为325的学生将极有可能在常模参照测试中得到422分。”“在常模参照测试中得到437分的学生很可能在标准型测试中得到341分。”
相比于仅仅将两个测试的成绩连接在一起,对两个测试所做的等值具有更强的意义。例如,如果我们成功地将一项于2009年进行的五年级数学考试与2010年进行的相同的考试等值起来,我们可以说:“就所考查内容的范围来说,在两次测试中取得相同成绩的学生所掌握的知识与技能的水平也是相同的。”
当我们说这两份试卷是“等值的”时,我们所表达的意思就是:它们考查的是相同的内容和认知程度,对学生掌握的知识、技能作出了相同的解读和推断。有了这些强有力的断言,我们就能够在包括一些对学生和其他人意义重大的测试中替换使用等值的试题版本。
但是,如果我们说两份试卷是“连接的”,那意义就大不一样了。连接能够说明不同测试的成绩之间是相互关联的,但是却无法说明这些测试具有相同的解读、推断以及成绩的互相使用是有效的。和连接一样,等值也可以说明两个测试之间的关联,但是它还具有更深一层的含义,那就是这一对成绩含有相同的实质意义。
要想区别连接与等值,我们可以把等值看做“连接”这个连续统一体上的一个极端,如图1所示。
图1 连接的连续统一体
这个连续统一体的右侧所表现出的,就是在有意构建的等值测试中所表现出的测量状况。此时,两个(甚至多个)不同的测试就可以正式沿着一定的程序进行等值(具体操作在本系列论文的另外篇章中将作交代)。针对同一内容、属于同一年级的测试将会被设计成尽可能的相似,这样一来所得出的运算数据就可以直接用于等值之中。图1的左侧所表示的则是另外的情况——两个不同的测试成绩的连接,此时,我们不能说某一个测试的成绩与另一个测试成绩具有相同的意义。
分布在这个连续统一体两端之间的,则是一些严格意义上说近似于等值的测量状况,但是这些状况仍不能完全满足等值的要求。Mislevy(1992)对这一分布作出了说明,他将测试之间的连接分成了四类:调整(moderation )、推算(projection)、校准(calibration)和等值(equating) (Mislevy,1992,第21~26页)。在他的模型中,调整是最弱的一类连接,而等值则是最强的,可以让不同的测试成绩最大程度地替换使用(这四个术语将在后面的文章中详细说明)。
如图2所示,右侧的等值是最强的一种连接,其他较弱的连接则都在图的左侧。在这个图中,达到等值一侧的连接需要更严格的要求,以使两个或者多个测试版本能够替换使用,那些无法达到这些严格标准的连接可以说是“像右侧运动”,但是仍旧不算是等值。
图2 连接的连续统一体:不同的方法
(二)等值与连接中的基本术语
这一部分中,笔者将对等值与连接中一些重要术语作简要的定义,以期能够用大众的、简单的语言来理解等值与连接中更多的细节。以下所有术语和程序都会在系列中的另一篇文章里作详细的论述。这里所收录的术语并没有网罗全部,主要集中于等值中所有最基础、最重要的术语和概念。
1.锚题、共同题、连接题(anchor items/common items/linking items)。这三个术语经常替换使用,在本系列论文中将通称锚题。所谓锚题,是指在两份或两份以上的试卷中出现的一组相同的题目。这些题目会像“锚”一样,起到稳定等值所需的测量量表的作用。这些在两份及以上的试卷中通用的题目还能够把不同的试卷“连接”到同一个量表上。
锚题的特征。锚题需要在内容和形式上与整个测试保持相近,还需要在题目顺序上与待等值的考卷相似。
增补锚题与嵌入锚题(appended and embedded anchor items)。出现在试卷末端的锚题是增补锚题,出现在试卷中不同位置的锚题是嵌入锚题。在等值中,嵌入锚题会比增补锚题发挥更大的作用。
锚题等值法。当使用锚题等值法时,等值方法包括等值常数法(the application of an equating constant)、固定校准法( the fixed calibration method)、同步校准法(the concurrent calibration method)、测试特征曲线法(the test characteristic curve method)等。
2.随机等值群(random equivalent groups)。这种随机选择学生参加不同考试的方法是一种很有价值的抽样方法。把从中得到的数据当做是同一个学生参加不同测试的情况,因而可以支持多种等值方法。
3.螺旋测试形式(spiraling test forms)。所谓螺旋,是指在一个学生群体(一个班或一所学校)内发放多种试卷形式。当不同的试卷(例如,试卷A、B、C、D)在同一个被测群体中随机发放时,往往就会出现螺旋。通常的做法是把不同的试卷按照比如ABCDABCDABCD这样的顺序放好,然后按顺序分发,拿到不同试卷的组群可以看做是随机等值组。
4.矩阵抽样(matrix sampling)。将题库中的题目分成不同的题组,再将它们分发给学生作答。不同的题组由不同的学生完成,这样每个人都不需要做完所有的题目,同时所有的题目都由足够多的学生做过了。这样的结果能够支持经典测量理论和项目反应理论的分析,也能够用于等值之中。
5.题库(item bank)。通常来说,题库指的是一组仔细归纳起来的试题,其中包括题目文字表述、阅读文段、图表、特别的题目属性、答案,以及从题目的预测和正式施测中得到的统计信息。在一个安全的题库中,只有命题人在命题时才能接触到其中的题目。也可以将一组题目或题库应用于平时测试、基准测验或者形成性评价。在等值的语境下,题库中的题目会以某种等值或连接的形式放置到一个通用的量表上。
6.预测(field testing)。预测是指用对学生进行不计分测试的方式检查试题的整体质量,并获得IRT题目参数的估计值。预测常用来开发原始题库和试用版的试卷。IRT值是否有用、建立在预测基础上的等值是否有效,这些都取决于预测和正式考试之间的相似度有多少。
7.多试卷版本、通用锚题(multiple forms, common anchors)。多试卷版本通常和一套通用的锚题一起使用。例如,如果需要等值的是试卷A、B、C和D,那么这四套题需要采用同一套锚题。
8.试卷间等值(form-to-form equating)。这种等值的方法就是将一系列试卷以两两结对的方式等值起来。例如,试卷A和试卷B可以由一套共用的锚题等值起来;试卷B和试卷C又可以由另一套共用的锚题等值起来;试卷C和试卷D也同理进行下去。理论上说,通过这种方法可以将所有的试卷都统一到一个测量量表上来。有时候它也被称做将所有的试卷“串联”起来。
9.横向等值(horizontal equating)。在大规模测试项目中最普遍的需求,就是在较长的时间里保持每个年级量表和行为评定标准的稳定。在同一年级或年龄阶段内的测试间进行的等值就是横向等值,横向等值是一种试卷间等值。
10.纵向量表化(vertical scaling)。纵向量表化是一个建立题库或者一系列试卷,使用等值程序建立跨年级或年龄的测试量表的过程。虽然它有时也称为纵向等值,但是在严格的等值定义下(例如应用环境和测试构念等值),它还达不到这样的要求。然而,如果把它看做不同年级测试之间的连接,则比较合适(Patz, 2007,第6页)。
11.预先等值(pre-equating)。预先等值是指利用提前确定的题目参数值,从题库中的题目里组建(construct)新的试卷的过程。新的试卷需要在IRT难度、内容、形式等方面符合测试规范的要求。在使用新试卷前,需要建立一张成绩对照表格,这张表格是基于现有的IRT题库值,显示量表的成绩和新试卷原始成绩的对应关系。
12.事后等值(post-equating)。事后等值顾名思义就是在学生参加测试之后对得到的成绩进行等值。事后等值最好取参加测试的全体考生的成绩进行,不过如果出成绩的时间要求比较紧,也可以选择一个“早期回收”(early return)的样本,但应选择一些有代表性的考生成绩进行。在时间和资源允许的情况下,我们强烈推荐使用事后等值而非预先等值。
13.试题参数偏离(item parameter drift)。当新试卷用到题库里或者别的试卷的试题时,通常会使用题目难度、区分度和猜测参数(后面将作介绍)的IRT参数估值,前提是这些参数保持稳定不变。然而在某些情况下,IRT参数值会发生变化或者偏离其题库值,而使用IRT方法时任何大的试题参数发生偏离都可能损害等值。试题参数偏离通常是在这种情况下发生的:题目已经使用了多次因而对目标考生群已经不陌生。
14.等值误差(equating error)。等值操作中的每一个步骤都会有来源不同的误差变量。除了试题参数偏离之外,还有试题本身的测量误差、样本误差、参数估算误差以及应用等值过程中产生的误差变量等。造成等值误差的变量来源很难确定,而且它们之间的关系是相互叠加而非相互消除的。以上是对笔者选出的若干重点术语、概念所作的简要介绍,在随后的文章中我们还会再次重点讨论。笔者将会通过更多的细节解释以上提到的术语、概念,也会继续介绍一些、解释一些新的术语和概念。有关连接与等值的细节问题的讨论可以参看Kolen与Brennan(2004),Holland与Dorans(2006),以及Dorans,Pommerich与Holland(2007)等相关文献。
三、经典测量理论和项目反应理论的基本概念
从技术角度看,适当的等值和连接程序都是建立在经典测量理论(CTT)和项目反应理论(IRT)基础上的。鉴于它们是所有等值程序的基础,笔者将在接下来的行文中简要介绍这两种测量学经典。在所有大规模测试项目中CTT都具有非常重要的地位,即使大部分的测试主要是在IRT方法的基础上建立的。本文会在非常基础的层面上介绍CTT和IRT中最主要的元素,因此感兴趣的读者可以参考Crocker与Algina ( 1986 )、Hambleton, Swaminathan与Rogers(1991),以及Yen与Fitzpatrick(2006)的论著以了解更深层的讨论。受过教育测量方面训练、特别是技术方面训练的读者,应该会对这些概念感到很熟悉,因此您可以选择略过以下的章节。
(一)经典测量理论的基础概念
CTT指的是一系列植根于20世纪早期的统计测量方法中的知识。与IRT形成鲜明对比的是,早期的CTT方法的重心在于观测分数。CTT的基础模型认为,观测分数是由两部分组成的:真分数(即在完美的测量条件下个体应得到的成绩)和误差(即题目或者测试中可能出现的不足、具体试题中的特质、学生水平发挥的差别或者其他真实成绩模型没有考虑到的因素)。
基础的CTT模型是这样的:学生在测试中的观测分数是由假设的无错误真分数加上若干随机误差组成的(Crocker& Algina,第107页)。这个基础模型可以用下面这个等式表达:
O=T+E
(Observed score= True score + Error)
其中,O代表观测分数,T代表真分数,E代表随机误差。关于这个模型中“误差”这一部分,学者提出了一些假设,即误差是随机的,与真分数没有关系,相互之间也不关联。
真分数模型及其假设直接导致信度的计算。信度是真分数方差与误差方差的比值。信度是衡量测量质量的一个重要指标。信度是成绩一致性的一个指标。经典方法把信度分成了三类:跨时间一致性(consistency over time,也叫测试——再测试test-retest),跨试题信度(consistency over test forms,也叫交替测试信度alternate form reliability)和试题内信度(consistency within form,也叫内在一致信度internal consistency reliability)。除了信度之外,CTT还非常强调效度的概念。CTT的效度概念运用于测试本身,也分成三类:内容效度、效标关联效度(criterion related)和构念效度。
在对测试题目进行分析时, CTT关注三个统计属性或者说题目特征:(1)难度,即正确回答一道题目的考生比例;(2)区分度,即题目难度在高水平样本和低水平样本之间的区别;(3)错误选项分析(item distractor analysis),即分析在选择题中选择单个错误答案的考生比例。在选择题目组成需要等值的平行试卷时,这三个属性是非常关键的。
经典测量理论和经典试题统计有许多优点,其中之一就是其计算程序非常简单易懂。此外,CTT方法已经在教育测量领域使用了数十年了,富有经验的测量专家和心理测量专家都对CTT很熟悉,也很了解其本质。CTT曾一度是测试和考生分析的标准测量范例,而且至今在试题命制、题目分析,甚至在以IRT为主的环境下仍得到非常广泛地应用。经典测量理论是为了支持对测试进行常模参照解读而建立的。当时,几乎所有的测试都以对学生进行分层、按成绩反映他们相对的成就等级为目的。在这一目标下,CTT对于支持和引导试题的命制和使用发挥了非常重要的作用。
CTT天生就带有一个重大的不足:它会在试题特征和考生特征之间建立起一种不可分离的相互依赖关系,而二者都建立在具体的测试题目和考生样本的基础上。经典统计或许能够体现一名学生的整体成绩,但也仅仅是就那一项测试的成绩而言。同样,有关试题的统计也只在特定的一群考生中才有效。举个例子,假如有一名学生在50道题中答对了48道,就此信息(这名学生的正确率达到了96% )判断,我们可以说该测试对于这名学生来说很简单,或者说该生将这项测试的内容学得很好。Hambleton等人(1991)这样说明了CTT的不足:
考生的能力是由某项具体测试来定义的。当测试很“难”时,他就会显得能力较低;当测试较“容易”时,他又会显得能力较高。那么我们说的“难”与“易”又是什么意思呢?一道题目的难度的定义是“同类考生中答题正确的比例”。试题的难易取决于受试学生的水平,而考生的水平高低则反过来又由试题的难易决定。(Hambleton,Swaminathan,&Rogers, 1991,第2~3页)
与CTT相关的群体水平依赖性(group-level dependencies)也会对命题人产生很重要的影响,因为如果未来要参加测试的学生和目前的考生很不相同,命制试题对他们来说就很具有挑战性:
很难把参加不同测试的考生放到一起对比,也很难对考生群体不同的测试进行对比。(并不是说这种对比是不可能的,测量专家已经在实践中设计出了处理这种问题的程序,但是概念性的问题依然存在)。(Hambleton等,第3页)
(二)项目反应理论的基本概念
项目反应理论(IRT)是指一系列基于考生的题目反应来分析测试题目并为考生制定量表的技术程序。IRT考虑的是考生所做的题目的特点以及他们对此作出的反应,并由其评价学生的能力。IRT能力测评要考虑学生的原始成绩,但是也会体现学生作答的题目的特点。例如,在使用IRT方法时,一名在20道较难的测试中做对了8道的考生,他所获得的能力评价就有可能比另一名在较简单的测试中答对了12道的考生高。
把IRT与CTT做比较有助于我们理解IRT的基础假设。在之前的论述中,笔者强调了CTT样本依赖(sample-dependent)的本质是其一个严重的不足。相比之下,IRT是建立在题目层面的统计与测量理论,并不依赖于一个特定的群体。更为重要的是,在IRT分析中,人和试题可以放在同一个量表上进行衡量,而且他们彼此之间相互独立。有时候人们也把IRT称为“现代测量理论”以区别于经典测量理论。
1.基础IRT模型
所有IRT模型都描述了考生做对一道题目的概率(此概率是由其与测试目的相关的个人能力决定的)。根据不同的IRT模型,一道题目最多体现出三种特征或者说参数。所有的IRT模型都假设认为,对于考生和试题的衡量都建立在其单维度的特质上,而且测试题目都是相互独立的。每个常见的IRT模型都会对等值的过程和主要等值决策带来不同的影响。目前最常用的三种IRT模型是:
·单参数Logistic模型(有时简称“1PL”或者“Rasch模型”)
·双参数Logistic模型(有时简称“2PL”)
·三参数Logistic模型(有时简称“3PL”)
由于单参数模型简单易见地体现了IRT方法共通的一些特性,笔者将以其为例简要介绍IRT模型主要的基本特征。Georg Rasch(1980)最先提出了这一基础模型,因此单参数模型经常也被称做Rasch模型。
单参数模型的得名是因为它仅从“难度”这一个方面厘定测试题目的特点。当使用这一模型时,衡量相关能力的原始分数可能从0到100(全对)都有分布。得到相同分数的学生就说明他们的能力相同,此时并不考虑他们答对的是哪几道题。图3所示的就是一个理想的单参数测量情境。笔者稍后还会用这类图形来说明一种常见的等值方法。在这个图表中,试题1代表简单试题,试题2代表中等难度的试题,试题3则代表较难的试题。
图3 IRT量表上的学生和试题
学生1的能力较差,学生2能力在中等水平,学生3和学生4的能力分别为较强和极强。在单维性的假设条件下,像学生4这样(能力最强)的学生答对试题3的概率就要大于学生2,学生2有可能答不对试题3。同样,虽然学生1、2、3都可能答不对试题3,但是其中学生1出错的可能性最大。最后,我们无法推论学生2能否正确回答试题2,因为试题2和学生2在量表上处于同一个位置;也就是说,学生2答对题目的概率是0.5,即答对答错的可能性各占一半。
图3说明的是单参数模型的情况,也就是仅仅考虑试题难度这一个特征时的情况。与之不同的是,双参数模型会考虑难度和区分度,三参数模型则会考虑难度、区分度和猜测。笔者稍后还会继续讨论这些模型。
①IRT模型中的题目特征曲线
IRT分析中非常重要的一个图表就是所谓题目特征曲线(item characteristic curve,简称ICC)。在图4中所展示的即是在单参数模型条件下假想的两条题目特征曲线。
在图4中,纵轴表示的是学生答题正确的概率,从0到1;横轴体现的是考生的能力水平,按照logit测量轴划定,原点为0。这两条曲线体现的是随着考生能力的提高,他们答题的正确率也随之上升。
在图4中确定一道题目的难度的方法就是在ICC曲线上找到对应纵轴(即正确答题的概率)为0. 5的点,然后再将这个点垂直投射到横轴上找到相应的位置。例如图4中曲线1所代表的试题1(curve1,曲线1)的难度为0,试题2(curve2,曲线2)的难度为1。说明试题2比试题1要难。也就是说,要想在做试题2时达到0. 5的正确率,考生的能力需要达到横轴上1的位置。
图4 两条单参数模型题目特征曲线(ICC)
图4中的曲线和由之产生的概率结论体现了单参数IRT模型的关键。在这个模型中,只有题目难度这一个试题特征(或者叫参数)影响学生正确作答的概率。然而,在某些情况下,测试成绩并不遵从单参数模型。在这种情况下,很多心理测量专家就会建议使用双参数或者三参数模型来解释这些成绩。
双参数模型使用了试题的两个参量:难度和区分度。这时试题的区分度就是ICC上正确率为0.5时曲线的斜率。当考生能力(即图4和图5中的X轴)的提高程度不变,而题目的区分度越高时,考生正确作答的概率(体现在图4和图5中的Y轴上)也会提高的更快。在大多数的实际情况中,有数据显示有一些试题在区分较高能力和较低能力的考生时的效果更加明显。如图4中两条ICC曲线说明两道题目的区分度是一样的,而在图5中的三条曲线则分别表示了三道区分度不同的题目。试题1的区分度最低,试题3区分度最高,而试题2的区分度则介乎于两者之间。
在图4中ICC的例子中,随着学生能力的不断降低,正确作答的概率越来越接近于0。然而,在真实情境下能力水平较低的学生也许会碰巧或者通过利用部分信息猜出正确的答案。三参数模型就在双参数模型的难度和区分度之外又加入了一个调整ICC曲线低端的第三参量——可能的猜测(guessing)。图5中显示试题3的ICC曲线对低端进行调整就考虑了学生答题中的“瞎蒙”这一行为。
图5 三条题目特征曲线
②测试特征曲线
测试特征曲线(Test Characteristic Curve,简称TCC)是IRT中使用的一种非常重要的视觉表达手段,对最有用的等值方法之一意义重大。对所有的IRT模型来说,TCC就是测试中所有ICC的总和。TCC反映的是一项测试的期望原始成绩(纵轴所示)和以logit测量轴形式表现的IRT能力(横轴所示)之间的关系。图6展示了两条TCC曲线,它们表示了期望原始分数会随着IRT能力水平的提高而单调递增。在图6中,当IRT能力值为1时,试卷B的期望分数比试卷A的分数要高,这说明试卷B比试卷A要简单。换而言之,当横轴(IRT能力水平)上同一个值在试卷B的曲线上所对应的纵轴(原始成绩)值大于试卷A时,就可以说试卷B比试卷A简单。
图6 假想试卷A和B的测试特征曲线
=================================================
2. IRT模型中的参数不变性和量表不定性
IRT程序的一个重要特点就是所谓“参数不变性”(parameter invariance)。IRT的参数不变性假设认为,学生的能力和试题的特征(难度、区分度、猜测)都是稳定的、一致的,即使在同一个人群里选择不同的样本也不会发生变化。
参数不变性(parameter invariance)是IRT的一个理论属性,其在现实中或多或少也是真实的。当然,试题的参数值仍然会出现变化,这可能由多种原因引起。例如,试题的参数值可能由于题目措辞或形式的细微变化而发生改变。此外,题目的位置变化、该题之前的题目顺序的改变、更多的集中提示等等,这些因素(还有很多可能不好发现)都可能造成参数值的一些变化。通过对模型拟合的检验,可以判定一组特定数据是否符合参数不变性的要求。
对于所有利用IRT模型进行等值的测试来说,其参数不变性的特征非常关键。它使得量表可以经由某个固定的原点以及稳定的考生和试题参数值建立。在这些值已知的前提下,后续的测试可以借由量表上的试题进行连接或等值。当对考生进行测量时,也就意味着只要量表确定了,无论采取哪一组试题,学生能力参数都不再变化。
量表不定性(scale indeterminacy)是指IRT分析要求赋予参数一个固定的初始值(Hambleton, Swaminathan, Rogers, 1991)。这个IRT量表固定的初始值可以是在量表上的任何一个有用的位置。实际操作中如果用单参数模型,通常把中等难度的题目放在量表正中间;如果用三参数模型,通常把平均能力的学生放在量表正中间。量表也可以固定在某一方便的位置,比如代表“熟练”水平的一点上。固定量表位置既解决了量表不定性同时又定义了可以推算稳定或者不变估算的量表。从任何量表转化到另一个量表是相对比较简单的,通常的方法是乘以或加上一些常数以改变方差和平均值(或者原点)。在IRT分析中,固定一些数值以解决量表不定性是非常关键的,特别是对一些以IRT为主的等值步骤。
3.数值、量表、量表化
在经典测量理论和项目反应理论中,一个重要问题就是采用什么数值或者量表来报告考试结果。最直接的量表也是大家都很熟悉的,即原始分数量表,简单讲就是测试中的成绩。同样大家也很熟悉的另一种,就是把原始分数重新量化成百分比,即百分比量表。
原始分数量表和百分比量表都有很多局限,其中最主要的问题就是它们都依赖试卷中某个特定系列的题目,并且容易引起不合适或者不准确的比较。用原始分数或者简单重新量表化的原始分数来判断学生的知识和能力可能导致错误的结论。
像前面文章里所述的IRT分析和IRT量表在推断学生们的知识能力,以及哪些题目较难或者较容易是非常有用的。例如, IRT软件在数学量表上使用“logit”这个单位进行计算,“logit”量表在数学运算上很方便,但也有一些缺点。首先,目前很少有人在使用;此外,没有IRT参数的固定自然原点(或者0点)。因此,只有固定初始参数值才能改正这种不确定性。
一旦用固定量表数值来解决IRT的不确定性,就可以预测题目参数和考生的logit值。但是这些结果仍然在logistic量表上,而这种量表大多数教育工作者并不熟悉。最后一步,量表可以很方便地转化为任何想要的报告量表,可以根据需要选择报告量表的平均值、标准差和(或)范围(参阅Crocker和Algina,1986,“转化成绩的步骤一览”)。
4.常见的IRT应用
在为新的试卷挑选题目时,基于IRT的计算能够提供很多详细的、题目相关的信息,这些都是非常有用的。如前文所述, IRT能够让命题人分析、解读学生和试题的特征,且不依赖于试题或群组的选择。与经典测量理论相比,其可以让命题人对考生可能的反应作出更好的预测。
IRT常被用来:
①提供可同时确定考生和试题在量表上位置的测量量表;
②可以将参加不同测试的考生定位在同一张量表上;
③有助于对试题质量、学生反应效度做出细致的检查。
最常见的IRT应用有:
①评价、审查试题和试卷;
②建立题库;
③对试卷进行连接或等值;
④根据题库建立等值试卷;
⑤制定内容参照型学生水平标准;
⑥提供内容参照型成绩解读;
⑦对试题的项目功能差异(意即对于不同组群的学生体现出来的成绩偏差)进行调查;
⑧支持计算机适应性测试。
IRT在以下领域具有较大的灵活性:
①设计不同的平行试卷;
②实施很适合学生水平的测试,使得能力较低的学生不会负荷过重,而能力较高的学生不会感觉太枯燥无聊;
③建立能力等级跨度范围更大的相关测试(可能跨两个或者更多年级);
④在试卷里插入或嵌入用于预测的新题,因而新题可以获得具有可比性的题目参数(最终用来组成新试卷)。
需要特别注意的是,上述说明和解释都非常概念化,对于CTT和IRT的简介也只包括其中最基本的概念,还有许多其他问题尚未涉及,建议想更深理解经典和现代测量理论的基础和技术的读者参阅文中提供的参考文献。
=================================================================================
一、等值设计:基本概念和术语
要运用等值程序对学生的测试成绩进行等值,首先应采用特定的方法采集学生的测试成绩。实施连接和等值运算所使用的成绩数据是依据既定的准则采集的,这个准则即称为数据采集设计或者等值设计。选择使用哪些成绩数据必须具有很强的目的性,并要非常慎重。此外,数据采集必须符合一定的要求并在技术上可行。本文着重讨论下列等值设计及相关主题:
l 随机组群(等值组群)设计(Random Groups(Equivalent Groups)Design);
l 单组设计(Single Group Design);
l 平衡单组设计(Single Group Design with Counterbalancing);
l 锚题测试设计(Anchor Test Design);
l 创建题库(Item Bank Development);
l 矩阵型取样测试(Matrix Sampling of Items)。
1.随机组群(等值组群)设计(Random Groups(Equivalent Groups)Design)
等值组群设计,也叫随机组群设计,其建立在随机取样的原理上。如果在测试人群中能获得两个足够大的随机样本,那么就可以说这两个样本在学生成就上是“等值”的。也正如《教育测量》(第四版)所述的“达到了同一人群中两个随机样本所能达到的等值”(Brennan,2006)。
在此种设计中,两个随机取样的小组使用了不同试卷。使用试卷A和试卷B的小组称为随机等值组。这种设计的取样可以采用分层按比例随机取样法(a stratifiedproportional random sampling),使用的分层变量和学生的相关特征相匹配。相对于简单随机取样法(simple random sampling)而言,这种设计的取样方法更具有可比性(等值性)。
随机组群设计通常采用螺旋测试(spiraled test)以获得随机取样等值组。在图1所示的例子中,试卷A和试卷B是以这样的顺序打包的:A/B/A/B……,指示考官按照试卷A和试卷B交替发放给学生。这种随机发放试卷的方式在每个班级建立了两个随机取样组。如果采用的是多套试卷,那么打包顺序不一定都是以试卷A开头。试卷叠放顺序的数量与试卷的数量相等,包裹(packet)1以试卷A开头,包裹2以试卷B开头,以此类推。随机发放试卷的方式在每个班级建立了多个随机取样组。在网络机考(the computer-based online test)管理中,使用经过仔细测试的随机数字生成算法(random number generating algorithm)来随机发放试卷是非常重要的。
图1 等值组群(随机组群)设计
随机组群设计的优点之一是其对单个考生的影响相对较小,并不要求每个考生都做试卷A和试卷B,因此避免了像其他设计那样有时会受顺序问题的影响。顺序影响指的是学生因做试卷的顺序不同而表现出成绩差异,即如果学生需要做两份试卷,做完了第一套试卷可能会影响做第二套试卷的表现。
如果“随机”是通过在班级和学校里螺旋发放所有试卷的方式实现,那么这种设计就存在一个缺点。在这种情况下,所有试卷中的全部题目在同一环境中都曝光了,因此,整套题目和试卷的泄密风险升高。这种设计的另一个潜在缺点是需要获得相对较大的样本以显示试卷A和试卷B的题目是稳定可靠的。在某些情况下,对大样本的要求可能使这种设计变得困难或者不可行。这种数据采集设计支持线性等值、等百分位等值以及多种不同的IRT等值法(将在后面介绍)。
2.单组设计(Single Group Design)
单组设计法是理解大多数等值设计非常有用的出发点,并且是后面提及的平衡单组设计法(Single Group with Counterbalancing Design)的基础。单组设计法要求同一考生既做试卷A,也做试卷B。如果全部考生都做待等值的两份试卷,可以采用这种设计,但实际操作中更方便可行的是从整个考生群中选择一个随机小组。这种设计方法如图2所示。
图2 单组设计
在这个设计中,采用一个随机取样组,并让该组考生做试卷A和试卷B。相对于试卷B时,学生做试卷A得到的成绩可能受到某些因素的影响,这些因素包括如做过一些仅仅针对试卷B的练习题,或者通过参加试卷A来着手准备试卷B的部分具体内容等。单组设计法假设这些因素的影响是可以忽略的。
单组设计的优点之一是做两份不同试卷的学生的能力是相似的,实际上应该说不只是相似,因为他们就是同一群学生。在技术术语上,这叫做“考生熟练差异控制”(controlling for differential examinee proficiency)。
单组设计并非仅用来进行典型的试卷间连接或等值。在一组考生完成某一份完整版的试卷后,可以将整份试卷分为几个部分,建立一些压缩版的试卷,然后让这些试卷两两等值。同样,在对完整版试卷量表化后,可以删除一些题目,得到一份较短的试卷,然后与完整版试卷等值起来。
单组设计法有个明显且严重的缺点,就是对同组考生实施两个不同的测试不太现实。很少有测试项目能安排考生做两套完整的试卷。同时,把两套试卷的题目都暴露给每个考生,这对测试安全也是很不利的。另外,考生在做完第一套试卷后会产生疲劳,再做第二套试卷,也会影响测试的效度。
与一般的标准程序相比,单组设计法通常要求采用一种特别的施测程序,这样也可能产生暗示作用,让考生觉得不必要对其中的一份试卷或者两份试卷太认真。试卷顺序不同也通常会影响学生成绩,故大型测试项目中一般不采用这种设计。因此,等值设计应尽量避免采用这种数据采集法。如果一定要用,应该同时采用平衡设计(counterbalance design)。
3.平衡单组设计(Single Group Desigwith Counterbalancing)
在使用单组设计法对两份试卷的成绩进行等值或者连接时,对考试顺序采用平衡法非常重要,即随机选择一半的考生先考试卷A,而另一半先考试卷B。与单组设计不同的是,平衡法采用了两个而不是一个随机取样组。如果把这种设计看做是“两个单组”,每组都做两份试卷,但要求不同组做试卷的顺序不同,这样可能会更好理解。这种设计如图3所示。
既然同样的考生都做了两份试卷,考试成绩的差异应该归于命制平行或等值试卷产生的试卷难度的差异。
平衡单组设计的优点在于它消除了考试顺序的影响,即考生考完试卷A后对再考试卷B的成绩会产生影响。这是平衡法一个重要和有价值的特点,但它仍然没有解决对同组考生实施两个不同测试不现实的问题。
4.锚题测试设计(Anchor Test Design)
锚题测试设计也叫“共同题非等组设计”(the Common-Item Nonequivalent Groups Design,Kolen&Brennan,2004),或“非等组锚题设计”(the Nonequivalent Groups with Anchor Test,von Davier,2004)。这种设计在每份待等值的试卷中采用了同组题目(锚题),如图4所示。为方便说明,图4所示的锚题位于试卷的末端,但我们并不提倡把锚题放在试卷的末端。
锚题测试设计中每个样本考生只做一份试卷,但所有的试卷都包含两类试题,即每份试卷都有独立的题目,同时也有其他试卷都有的共同题。所有试卷都共有的题目称为“锚题”、“共同题”或者“连接题”,这三个术语通常可以替换使用。当使用锚题测试设计来对试卷进行等值时,心理测量专家的工作就是要辨别总体成绩的差异是由学生差异、题目差异,还是二者共同引起的。Kolen和Brennan(2004)把这项任务称为区分组群差异和试卷差异。锚题是理解这些差异的基础,如果试卷出现很大的差异,则要求对试题层面的各种影响因素进行深入研究(例如,评分差异、组卷问题或者失误、不同次测试实施中的巨大差别等),因为这些因素会使等值过程和成绩的可比性变得更复杂。如果组群出现很大的差异,则需要仔细检查取样方法,或者调查影响整个组的暗藏的因素,如施测或者考试时出现作弊行为。
(1)锚题测试概述
从试题中选出锚题的步骤是极其重要的,不同考查内容的试题在锚题中的比例与在整个试卷中的比例应该相似,也就是说可以把整个锚题组看做整份试卷的一个“微型版本”(Kolen和Brennan,2004,第19页)虽然IRT的某些方法并没严格按照这个步骤和策略也能获得不错的效果,但在实践中,锚题应该尽可能与整份试卷在考查内容、认知要求、题目格式等方面相似。图5显示的即是一个“微型版本考试”的例子。
图5 “微型版本考试”锚题组
图5阐述了一个精心选择的锚题组。应该注意到,在比较整份试卷和锚题组时,每个内容标准里的题目比例是一样的。锚题的选择通常比图5所示的例子要复杂得多。例如,通常会有其他的因素要考虑,如题目难度、内容标准下的目标范围、使用同一组材料的题组等等。Kolen和Brennan建议在相对较长的试卷中有20%的锚题,测量心理学家则建议在更长的试卷中应该至少有15~20道锚题。
(2)锚题作用和位置
锚题可以计入考生的成绩,有时也可以不计入。其位置可以是嵌入整份试卷中,或者增补在试卷末端。用来计算学生成绩的锚题称为“内部锚题(internal anchor items)”,只用作等值目的而不计入学生成绩的锚题称为“外部锚题(external anchor items)”。对于锚题在试卷中的位置,一般的测量经验和技术是将锚题嵌入或散布在整份试卷中。在多份试卷中,锚题应该放置在尽量相同的位置(即题目顺序)上。某些情况下,“外部锚题”会增补在试卷的末端,因而考生可以不用在做完前面计入成绩的题目之前去花时间和精力做不计入成绩的锚题。但是放在试卷末端的题目的成绩效度通常会因此有所损害,因为如果考生没有时间完成所有试题或者作答疲劳,都会影响考试发挥。
图6显示的是两份试卷中有5道嵌入锚题(当然一个锚题组只有5道题目是不够的)。每道锚题在两份试卷中的位置正好相同。这个例子是个理想的情景,而实际中由于不同题目涉及的材料和内容不同,要把锚题放在不同试卷同样的位置也是不太现实的。
图6 嵌入锚题设计图例
图7显示的是两份试卷里有5道增补锚题。锚题组是试卷的一部分,同一道锚题在两份试卷的位置是一样的,都在试卷末端它们有可能会,也有可能不会计入考生的成绩。这种锚题设计在试卷的准备和生成中有实践上的优点,但其缺点是由于考生作答疲劳或动力下降会影响其在做锚题时的表现,因而尽量不要选择这种设计。
图7 增补锚题设计图例
有时,通过一组题目把试卷连接起来是必要的,这组题目通常在另外的一份文件中或者在“外部试卷”里。如果没有“内部锚题”的话,通常会使用这种连接方法。有时这种方法也是必要的,因为往往是在试卷命制完成后才决定要把它们连接起来。但笔者建议,实际操作中应尽量避免使用这种方法,因为考生会觉得另外文件中的题目不如“正常”试卷中的题目重要,这种感觉会使考生在做外部连接题目时动机明显不足。
综上所述,锚题组应该是能代表整份试卷的一个“微型版本”,锚题在试卷A和试卷B的位置(题号)应大致相同,试卷A和试卷B的锚题应该完全一样,不能修改文字、答案选项顺序、题目材料,也不能出现不同的提示语,或者其他任何可能影响考生在不同试卷中表现的材料。同时,如果条件允许的话,在使用选择题、简答题、延伸题等题型时,锚题组应该与整份试卷具有大致相同的比例。
(3)锚题测试设计的优缺点
锚题测试设计的一个主要优点是在连接和等值试卷时,考生可以不必是绝对“等值”的。例如,在图6中,试卷A可以用于今年的考生,而试卷B可以用于明年的考生。同一学校、同一年级中不同年份的学生一般比较相似,但不如同一年份随机选择的等值组或随机发放试卷“等值”。
锚题测试设计的第二个优点是每年只要进行一次测试,这样可以在通常使用的考试日程下实施。不像单组设计或平衡单组设计那样,要求每个考生做不止一套试卷。
在评价项目中,计入考生成绩的嵌入锚题(内部锚题)内容应该和整份试卷的内容相匹配,这样可以增加测试结果的信度和效度。同时,因为锚题通常嵌入整份试卷中,考生无从辨别,就不会故意漏掉(Brennan,2006)。
锚题测试设计的缺点主要表现在这种设计下统计分析受潜在的情境因素影响大,即先做其他题目会影响考生再做锚题时的表现。虽然锚题在两份试卷中是一样的,但其他的题目却不相同。例如,试卷A的非锚题可能轻微影响学生在锚题中的表现,而导致学生做试卷A和B的锚题时出现不同的结果。为控制潜在的情境因素的影响,锚题测试设计必须谨慎实施,命制试卷和放置锚题时应指明并应用明确的规则。
嵌入锚题最大的缺点在于其潜在的情境因素影响考试安全。含有“内部锚题”的试卷,其安全隐患将可能危及测试成绩的效度,而这种隐患几乎难以避免,因为整个锚题组都出现在待等值的试卷中。由于具体的测试试卷的安全在那些设计、发行和实施考试的人员控制范围之外,安全问题非常难以控制。有时可以用含有极少或几乎没有与正式卷相同的题目的试卷作为代替版本,以减轻安全隐患(这种试卷称为“疏漏试卷(breach forms)”)。
含有外部锚题组(不计入考生成绩的锚题)的试卷,其问题之一就是在试卷长短一定时,这些题占了实测试题(operational items)或预测试题(field test items)的篇幅。额外的实测试题可以扩大考查内容的覆盖范围,增强测试的信度,而预测试题可以为将来实施的试卷提供更多的有用题目。
5.创建题库(Item Bank Development)
到现在为止对连接和等值的介绍主要以两份待等值的试卷或它们的成绩连接为例,这样等值的试卷将可以替换使用。然而在很多大型评价项目中,等值设计通常要用来处理多份试卷的等值,从而建立题库。题库是指一定数量经过校准和量表化,并反映内容标准的范围、深度和细节的试题。创建题库通常要对大量试题进行预测,这些试题包括一组或者多组锚题。题库的主要作用是为命制待等值的试卷提供大量的试题。本文中提到的每个等值设计和方法都可以用来建立一个初始题库。建立一个适用的题库,最基本的策略是使用多份试卷进行预测。如图8所示。
图8 含有共同题和非共同题的10份试卷的预测设计
图8所示的预测设计有10份试卷。每份试卷均含有30道锚题。必须说明的是,为方便表达,它们作为一组都放在试卷的前面,而实际上它们都会嵌入每份试卷里。每份试卷同时含有30道非共同题。对参加预测的所有考生,这个设计提供了300道(30道×10套试卷)预测试题和30道共同题的信息。使用本文(或该系列文章的第三篇)介绍的一些步骤可以把每份试卷里的题目放在一个共同的量表上。因此,预测将可能提供330道题目用于组卷,并预先实现多份试卷的等值。
在为预测和建立题库收集数据时,考虑考生样本的特性是非常关键的。许多IRT程序在分析样本特性方面有很强的功能,但使用与目标人群尽可能相似的样本对建立题库至关重要。实施预测以及利用所有可能的考生样本(根据人口统计数据)来建立题库是最理想的,但由于资源的限制和其他因素,这一设想不是总能实现。如果不能获取所有考生的数据,那么仔细选择样本则非常关键。理想的情况下,用来建立题库的试卷应该随机地在最小的样本单位内实行(如学生或者班级),这样可以使样本尽可能随机等值。然而,这种方法有可能把所有试题暴露给一个学校或者学区,测量心理学家和教育政策制定者必须考虑并预测其风险。
(1)使用螺旋法对学生取样
使用螺旋法来发放试卷,建立“随机等值组群”,即使各组包含不同学生,这些样本也可以被视做相同(等值)的组群。使用螺旋测试,随机发放不同试卷给一个班级里的考生,其结是每个考生与下一个考生的试卷都不相同。
图9阐述了一个共同题等值设计,使用螺旋法发放试卷给一个小班级的12个考生,每个考生做40道题。虽然图中没说明,但每份试卷包含15道共同题和25道非共同题。
Kolen和Brennan(2004)认为,螺旋发放法通常可以让可比较的、随机等值的组群完成试卷A、B、C、D。在大多数情况下,理想的方法是在班级里学生间使用螺旋发放试卷,因为同一班级的学生比不同班级、学校或学区间更相似(等值)。如果不可行的话,就退而求其次,在一个学校的各个班级间或者在一个学区的各个学校间使用螺旋法。
(2)利用螺旋法发放试卷的优缺点
使用螺旋法发放试卷的一个主要优点是,它可以尽量保证形成随机等值组群,而且这种取样法可以为大量等值法的使用提供有力支持。同时,它还能在预测测试中比其他方法获得更多有效的题目。
采用螺旋法对班级里的学生发放试卷,其问题在于所有的试题都暴露给每个班级。如果出现不适当的行为,每道可能成为将来正式试卷的题目都会受到影响,使用这些题目也将受到质疑。同时,使用螺旋法发放试卷也会使考试的组织实施面临挑战,使用多份试卷意味着主考必须应付在考试中多份不同试卷可能出现的问题。此外,在评分以及匹配矩阵型取样试卷的答案时也必须非常仔细。
6.矩阵型取样测试(Matrix Sampling of Items)
到目前为止,前面的讨论都集中在根据测试框架和蓝本规定的内容实施的考试以及为每个考生提供分数。然而在某些测试中,测试的内容(范围)非常广,需要更大量的题目,但是不同的考生只考其中的一小块或少部分题目。这种评价方法的目的是从广泛的内容测试中来推断一组考生(不是单个考生)的表现。使用矩阵取样可以达到这个目的,这里取样指的是从试题中取样而非从学生中取样。矩阵取样就是根据不同的测试内容从大量的题目里组配几小套(组)题目,并随机把各组题目发放给不同的学生。这种矩阵取样法减轻了单个考生的负担,而且可以让大量覆盖所有内容的试题在整组考生中施测。
图10是一个矩阵取样的简例。图中矩阵取样模型共有80道题,每个考生要完成的试题不超过40道。理论上,试卷A在一个学校中发放,试卷B在另一个学校中发放,或是在学生、班级、学校层次中螺旋发放。考卷的数目受限于题目的数目和考生的数目。实际操作中,矩阵取样通常和螺旋法一同使用。
全美教育进展评估(NAEP)使用的就是矩阵设计,即把全部考题分成不重复的几块,然后合成考卷,每块都和其他的相匹配。这是个很有效的测试和等值设计,因为它可以减轻每个考生的负担,而且仍能够在广泛的测试内容下预测整体学生的表现。
虽然这种方法可以提供一个广阔、综合的视角来了解作为一个整体的考生的表现,但并没有得出单个考生的成绩。这对一些学生、家长以及教育管理者而言比较麻烦,因为考试占用了教学的时间,但却没有提供单个考生的成绩。同时,在使用矩阵取样设计时,命题、实测和管理考卷及考生的答题数据也是非常复杂的。
二、等值机制
经典测量理论(CTT)与项目反应理论(IRT)都有相应的等值程序与方法。本文后半部分将介绍CTT语境下的三种等值程序。本系列论文的第三篇将介绍IRT的等值程序。本文和第三篇文章提供的信息,目的在于使读者熟悉等值程序的基本原理,而这些都是测量学家在大型测试项目中经常使用的。
1. 平均值等值(Mean Equating)
周密的考试开发、设计和试卷命制要考虑采用一种叫“平均值等值”的程序。使用这种设计,可计算两份试卷的平均值之差。这两份试卷是由随机等值组或平衡单组设计取样的考生完成的。使用平均值之差作为调整,如在一份试卷的成绩加上(或者减去)平均值之差,可以把两份试卷的成绩放到同一量表上。两份试卷都可以作为基础试卷,然后再调整另一份试卷的量表。
要判断得到的平均值之差是由于取样的不同,还是由于试卷的不同产生的,通常是比较困难的。因此,命题与组卷过程要非常谨慎,以控制试卷的差异。这种方法是以此为假设条件的,即由平均值之差预测的试卷量表之差与试卷各个点的成绩分布之差是相同的。这个假设在成绩分布的中心部分是比较合理的,但在高分数段和低分数段范围内,并不总是符合条件。
2.线性等值(Linear Equating)
线性等值是经典测量理论中常用的一种方法,用来决定两份平行试卷的等值分数。线性等值是基于这样的假设,两份待等值的试卷除了它们的平均值和标准差不同外有相似的成绩分布(Crocker&Algina,1986)。
如果两份试卷的成绩和它们各自的平均值距离相等,就可以进行线性等值的成绩匹配,成绩到平均值的距离为标准差(standard deviation)单位。如果两份试卷的原始成绩转化并表示在标准正态Z分数量表上(平均值=0,标准差SD=1),那么线性法就把两个具有相同Z分数的原始分数等值起来。这个步骤比较简单直观,带有很强的假设条件,也比平均值等值更灵活,并且应用了更多的统计信息。
如果转化在标准正态Z分数量表上的成绩一样,那么线性等值法就把试卷A里的成绩“a”和试卷B里的成绩“b”等值起来,即Z(a)=Z(b)。两个分数间的标准线性关系如下:
分数(a)=斜率*[分数(b)]+截距
这里斜率是标准差的比率,截距是试卷A的成绩平均值减去斜率乘试卷B的成绩平均值。线性等值顾名思义就是试卷A的成绩和试卷B的成绩的关系可以用标准线性公式来表示,因此可以在图中用一条直线表达出来。这条直线代表所有成绩之间的等值关系。如图11所示,由平均成绩可以看出,试卷B(新的10道题的试卷)比试卷A(旧的10道题的试卷)显得要难。该例中的平均值之差为2(试卷A平均值=7,试卷B平均值=5)。
图11 线性等值图例
线性等值法假设两份试卷之间仅是平均值和方差的差别。在图11中,各自试卷的成绩如果与平均值(mean)之间的距离(以标准差为单位)相同,就可以视为等值的成绩。线性等值有四个特征会影响对程序的评估以及对结果适当的解释。
第一,试卷A的成绩放在试卷B的量表上(或者反之)的线性转化得到的两份试卷各自成绩之间的等值是一样的,这也称为等值函数具有对称性。因此,必须注意虽然线性等值的方程和回归方程相似,但线性等值并没有像回归方程一样涉及两变量间的相关,而且是对称的。相反,用回归方程法由试卷B的成绩预测试卷A的成绩时,会得到与从试卷A预测试卷B的成绩不同的数值。除非是在两份试卷的分数相关为1时,才是一样的。
第二,在线性等值中各自试卷的成绩为整数,但是等值的成绩很少是整数,而是含有小数位。为处理等值成绩非整数问题,测量心理学家使用了各种方法,把等值成绩取整,以使它们可以报告离散成绩。但是取整也会产生自身的等值误差。
第三,如图11所示,试卷B有个非常高的分数,与之对应的试卷A的分数却在试卷A可能得到的分数的范围之外。图中显示试卷B的10分将与试卷A的11分或者更高分数等值,但这在实际中是不可能的。同样的问题也会出现在成绩量表的低分数端。虽然这些分数没有非常确切合适的等值数值,但是对那些得到满分(或将近满分)或得0分(或将近0分)的考生作出决定是不难的。不管怎样,这都是一个问题,特别是专业人员在解释结果,或者利用整体的统计数据来评估学生进步以及项目的有效性时都需要面对和解决。
第四,线性等值的恰当性(appropriateness)是基于这样的假设,即两份试卷的成绩分布只是在各自的平均值和标准差上不同。但是这个假设条件有时是不成立的,因为成绩分布可以在它们的偏度和峰度发生变化。线性等值精确度在平均值附近相对要稳定,但在高端和低端的成绩量表上会产生变化。
3.等百分位等值(Equipercentile Equating)
等百分位等值的基础是,如果每个成绩在各自测试中的百分等级相同,就可以对两份试卷的成绩进行匹配。等百分位等值法可以在整个成绩量表上提供相同精确度的等值结果,而且如果试卷在整体难度上不一样,它可以得到比线性等值更精确的结果(Kolen&Brennan)。
利用等百分位等值法是否能得到等值的成绩很大程度上取决于命制试卷时实现等值的程度。“等百分位等值”一词通常用来泛指“匹配成绩”或“两两对应成绩”(matching or pairing score)时采用的方法。但是这个术语应谨慎使用,使用的前提是题目和试卷命制过程满足了等值要求。
等百分位等值的第一步是确定两份待等值试卷的成绩的百分等级(Crocker &Algina),并将在各自试卷上百分等级相同的成绩两两配对等值。表1提供了一个简例,两份10道题的试卷(试卷A和试卷B)采用这种方法实现等值。试卷原始成绩范围为1到10。表中同时显示试卷A和试卷B原始成绩的百分等级。其假设在平衡单组设计条件下,同样的学生做了两份试卷,或者由随机等值组做了两份试卷。
表1的数据表明,如果考生能在试卷A中10题答对7题,那么他的成绩的百分等级是80;而要在试卷B中达到80的百分等级,考生必须答对10题中的8题。这些数据表明,试卷B比试卷A要容易,因为要达到相同的百分位,试卷B要求更高的原始分。同样,考生在试卷A中达到25的百分等级需要答对4题,而在试卷B中则需要答对5题。因此,试卷A的4分等值于试卷B的5分,因为这两个成绩代表各自考试相同的百分等级(等百分位由此得名)。
等百分位等值法是基于表1所示的数据类型,由百分等级来推断两份试卷的等值分。实际操作中常用计算机软件的算法来匹配分数,而考试往往会远超过10道题,同时样本量也通常较大。
等百分位等值的基本原理如图12所示。图12显示试卷A和试卷B分数各自的百分等级。试卷B的6分的百分等级刚达到40,而试卷A的4.75分则可以达到相同的百分位(40)。
图12 等百分位等值图例
为清楚说明涉及的主要概念,上面的论述简化了等百分位等值法。但同时,必须认清一些复杂的问题。
第一,尽管按照答对题数目得到的学生的成绩是离散的,但这些成绩的分布不是连续的。例如,图12中试卷A的6分等值于试卷B的4.75分,但4.75分这个成绩实际上是不存在的。因此,要解决这样的问题,关键是要取一个整数原始成绩。如原始分4分可以看做一个班级区间在从3.5到4.5之间的中点。4分的百分等级,准确讲就是4分以下的考生比率加上得4分的考生比率的一半(0.5)。用0.5这个系数是因为4分是这个区间的中点,同时假设在这个区间分数分布是均匀的。同样,在其他的整数之间的分数虽然实际上也不存在,但也可以准确地处理。这些步骤涉及到去掉小数位,或取整,都不可避免地会产生一定的误差。
第二,在等百分位等值中偶尔会发生这样的情况,任何考生都没有拿到某个特定的分数,相邻的(0频率和刚好在它之上或之下的)分数具有相同的百分等级。结果,这两个不同的原始分数将在每个测试中等值成同一分数。解决这一问题的普遍做法就是把它们共同(共享)的百分等级放在两个原始分的中点,即原始分的平均值上。Kolen和Brennan提供了0频率问题的另一个解决方案,即在各个成绩上加上一个很小的相对频率,然后调整相对频率,使之总和为1。
第三,在使用等百分位等值法时有一个或两个考试的成绩分布是不规则的。与假设的平滑分布不同,实际分数分布通常显得“崎岖不平”或呈“锯齿状”。这种情况下,随着等值的精度提高,应该使用一些使分数分布平滑的技术。在分数分布中使用平滑技术称为“预先平滑”,而在等值成绩中使用平滑技术称为“事后平滑”。这些步骤在Kolen和Brennan的著作中有详细介绍。
(1)线性等值和等百分位等值的优缺点比较
等百分位等值把两个考试中的所有可能成绩范围等值起来,这解决了线性等值的最大问题(Kolen&Brennan)。另外,在解释试卷A和试卷B的成绩分布的差异上,等百分位等值比线性等值的假设条件更少。但同时,等百分位等值的误差通常比线性等值大(Crocker&Algina)。
使用线性等值或等百分位等值都可以得到等值分数,如果试卷A和试卷B“以相同的信度测量相同的特征,并且与原始分数对应的百分等级相同”(Crocker&Algina),那么试卷A的成绩可以认为是与试卷B的成绩等值的。由于这两种方法具有很多相似性,一些专家认为线性法近似于等百分位法(Hambleton,1991)。
使用二者之中的哪一种取决于很多因素,其中一个主要的考虑是线性等值的假设是否可靠。也就是说,两个待等值的考试之间是否仅是平均值和标准差的差别。较线性等值而言,等百分位等值假设条件更少。所以,如果线性等值的假设不可靠,等百分位等值就可能更精确一些。但是,如果成绩分布相近,线性等值则比等百分位等值更准确(Crocker&Algina)。虽然成绩分布只是平均值和方差的不同,它们也会出现相似的结果。
(2)等值误差:统计和测量心理学程序中的误差方差
连接和等值程序在应用教育测量领域中被广泛使用,但实际上在拟定题目、命制试卷、实施考试、数据分析、使用等值程序等过程中,每一步都使数据发生了变异,产生了众所周知的“误差方差”(error variance)。误差方差的来源至少包括以下方面:题干及问题的表述、测量误差、违反IRT和统计假设的条件、取样误差、等值方差等。
Kolen与Brennan(2004)把在等值中的误差分为“系统误差”和“随机误差”。系统误差指方差来源为试题或试卷命制的差异、违反统计或测量心理学假设的条件以及在考试实施中出现的异常。随机误差指实施等值时采用的考生取样法引起的误差。等值误差通常指取样引起的随机变量误差。
实践中,等值程序通常使用于一个更大的群体。谨慎设计的取样法,如分层按比例随机取样法可以减少取样方差。但是,除非是在所有的考生中使用等值,取样变量误差是难以避免的。预测这个等值误差有两种方法:经验法和分析法。Kolen和Brennan(2004)提出了Bootstrap经验法。在这个方法中,等值步骤在重复的(有所替换)取样中不停复制,所得出的等值成绩的变异可以作为等值误差的估计。这种方法需要大量的计算,而且精确度取决于考生群体大小、样本大小、等值设计和步骤及其他因素。
预测等值误差的分析法也称为Delta法。Delta法为不同的等值设计提供了等值误差的预测公式,其等值程序以统计为基础,如平均值、标准差和累计分布等,并且带有一定的预测误差。Delta法推导出的公式为等值法中涉及的统计标准误差的函数。Kolen和Brennan描述了估计各种等值设计和等值方法的误差的分析步骤。
|
|