概化理论研究及应用前景

教师之友网 · 发表于 2013-12-9 21:29:03

概化理论研究及应用前景

刘桔

(浙江大学心理与行为科学系，杭州，310028)

摘要 1972年，Cronbach和他的同事们提出概化理论之后，概化理论在行为与心理测量领域得到了广泛的应用，较之经典测量理论，它的优势逐渐地显霹：(1)测量的多种误差来源可以在同一个分析中分别估计；(2)可以指导决策者选择最优测量方案；(3)提供可靠性系数：概化系数(G系数)和依存性指标(甲系数)用于不同的决策任务；(4)排除了严格平行测验的假设。概化理论以它的精确性和可靠性受到了信度测量领域研究者们的青睐，本文旨在对概化理论的基本框架、产生、发展及应用前景进行详细论述。

关键字：单变量概化理论多元概化理论类内相关系数

引言

概化理论(generalizability theory，GT)为检查行为测量提供了灵活的、可行的理论框架。概化理论在测量多个误差来源维度上对经典测量理论(classical test theory，CTT)进行了扩展，为准则参照决策(criterion—referenced decision)和常模参照决策(domain—referenced decision)提供了模型，在最大化信度(概化)系数和最小化误差的基础上，提出测量的最优化方案[1-3]。在1972年，Cronbach和他的同事们提出单变量慨化理论的基本框架之后[4]，单变量概化理论在行为测量领域的应用得到了广泛的认可，而随着研究的深入，单变量概化理论在误差分量估计上的局限性也越发突出，而多元概化理论越来越多地体现了它的理论意义和实际应用价值。本文将围绕着概化理论的优点及其应用价值展开讨论和评价。

2 概化理论的产生背景

传统的经典测量理论又称为真分数理论，真分数指在测量中不存在测量误差时的真值或观察值”[5]，实际的观察值等于真分数加上误差，即：X=T+E，其中X为观察分数，T为真分数，E为误差。真分数理论的三个基本假设：(1)误差分数的平均数是零；(2)误差分数和真分数相互独立，真分数反映的是不同被试在测量对象上的水平，而误差是和测量目标无关的变量所引起的测量的不一致效应；(3)两次测量的误差分数之间的相关为零。误差是随机出现的，每次测量所产生的误差是独立的，两次测量之间没有必然的联系[5]。

信度是测量可信程度或一致性的表示。在经典测量理论中信度是一组测验分数中真分数方差与观察分数方差的比率[5]，由于误差本身无法直接测量经典测量理论在实际运用中是依据信度操作定义和相关的方法来求解信度系数的，这种方法求解的信度系数往往随测量设计的不同而不同，误差难于控制，也不能有效地分离误差的来源。而事实上，误差变异并非单一的结构，经典测量理论对误差来源的笼统划分与控制成为它在实际应用中最为突出的缺陷。

经典测量理论的另一个突出的局限在于“严格平行测验”(strict parallel test)的理论假设，即要求子测验在内容、均数、变差、信效度方面完全相同。这在实际的测验情景中很难满足。

3 概化理论的基本框架

针对经典测量理论的上述两个缺点，Cronbach，Gleser，Nanda，Rajaratnarn(1972)率先提出了概化理论的基本框架，运用ANOVA(analysis of variance)或MANOVA(multipleanalysisOfvariance)对方差或协方差分量(variance and covariance

component)分解的方法，将测验情景中的各类误差进行分解和控制，实现了对经典测量理论的扩展。

3．1 测量情景关系的构成

测量情景关系是“测什么”和“怎么测”的总和[61。在概化理论中，测量情景关系是由测量目标(Object Of measurement)和测量侧面(facet Ofmeasurement)构成的。“测什么”是指测量目标，即研究者希望描述的实体属性(如：学生的成绩、广告的优劣、大学的教学质量等等)。而“怎么测”是指影响测量目标观察值的各种因素，包括测量工具、测量环境、测量过程、评分专家，以及观察的场合、情景、时间等等，在概化理论中，称为测量侧面。各个测量侧面又可分为不同的水平(condition)，比如用5种精度不同的工具测量人的身高，测量工具侧面就可以分为5个水平。

某一侧面的所有可能水平的全体称为可接受的观察全域。一次测量便是可接受的观察全域(universe of admissible observadons)中的一个样例。可接受的观察全域包括决策者认为对某一决策来说是可以替换的各种观察。这里所说的决策可以是实际生活中的(比如：选择成绩最好的学生参加提高课程)，也可以是用于形成某种科学结论的(比如：研究生教育对科学成就的影响)[4]。测量对象在观察全域上的观察均分称为全域分(universe score)，概化理论中的全域分类似于经典测量理论中的真分数。

3．2 可靠性和“随机平行测验”假设

在经典测量理论中信度是一致性的指标，它注重的是两次测量、测验的两个部分或评分者间的一致性。而在概化理论中用可靠性(dependability)的概念代替了传统信度的概念，指的是从一个测验或是测量(如：行为观察、意见调查)的被测者得分到施测者同等程度接受的所有可能条件下被测者均分的概化的精确性，即从测量对象在样例测量上的得分到全域分的概化精确性，或者说是样例到可接受的观察全域的概化程度。概化越精确，越能从一个测量或测验的情况来推断观察全域的情况。概化理论可靠性的概念包含了“随机平行测验”的理论假设，即：所进行的测量是观察全域中的一个样例，也就是从观察全域中随机抽取出来的，观察全域的所有测量即使有差异，可通过随机抽样的原则来排除。这种“随机平行测验”假设比要求每次测量都完全等同的“完全平行测验”假设更容易实现。

但是这种可靠性的概念也是有理论前提的：它要求被测者的知识、态度、技能和其他测量特质都处在稳定的状态中，即由于被测者处于不同场合下所带来的任何分数间的区别是由一种或多种测量随机误差所引起的，而不是来自于随时间的延长被测者内部的成熟或是联系效应等系统误差，这等同于真分数理论的两次测量误差分数之间零相关的假设。而在实际的情况中，这种假设往往是不成立的，这就会引起相关误差效应(The Effects Of CorrelatedErrors)。

3．3 误差来源的分解

针对经典测量理论无法对误差进行分解的缺陷，概化理论将方差分析的思想引进了测量领域，对被试在项目上的得分为测量对象，项目为测量侧面的话，这一组测量有四种误差来源：(1)被试的爱好、兴趣、思维等各方面的特质及能力的系统误差，称为被试效应(subject effect)或是测量对象效应(the effect of objeot Of measurement)；(2)项目的难度差异，称为项目效应(itemeffect)；(3)项目对被试的相对难度，如对某个被试来说相当简单的项目可能对另一个就显得十分地深奥，由此带来的误差被称为项目和被试的交互作用(the interaction between subjeot and item)；(4)随机误差(如被试在被观察时注意力的暂时转移等)和其它的一些没有定义和未知的误差来源。在概化理论中第三种和第四种误差来源往往是很难区分的，这种现象叫做混杂(confound)”。可见，概化理论对误差来源进行了合理的分解，有效弥补了经典测量理论对误差笼统定义的缺点。

3．4 测量设计

用概化理论进行信度计算，可以根据具体情况进行不同的测量设计。目前主要从侧面的个数、侧面间的关系、侧面和观察全域的关系三个维度上对测量设计进行分类。

依据侧面的个数，可以将测量设计分为单侧面设计、双侧面设计和多侧面设计。单侧面设计(one facetdesign)指的是测量对象的观察值除了受测量对象本身的系统变异的影响。而由于实际情况中测量情景关系的复杂性，在测量对象本身的系统变异影响之外，测量对象的观察值会受一个以上因素(测量侧面)的影响，这就需要双侧面设计(two facet design)，甚至多侧面设计(multiplefacetdesign)的介入。测量设计根据侧面间的关系可以分为交叉设计(crosseddesign)、嵌套设计(nesteddesvgn)和混合设计如图1。

在交叉设计中，某一侧面的所有水平必须在另一个侧面的所有水平下被观察，在图1(a)中评分者行评分，而在嵌套设计中，某一侧面的不同水平可以在另一侧面的不同水平下被观察，在图1中(b)中，评分者1、2只对项目1进行评分，而评分者3、4只对项目2进行评分，评分者侧面嵌套于项目侧面。混合设计(mixed design)则是交叉设计和嵌套设计的结合体，就是设计中既有交叉的部分，也有嵌套的部分。

测量设计根据侧面和观察全域的关系可以分为固定侧面(fixed facet)设计和随机侧面(randomfacet)设计。所谓固定测面是指观察样本等于观察全域。如高考有数学、语文、英语、综合等几个子测验，这几个子测验构成了可获得的观察全域，所以高考的子测验侧面就是固定侧面。随机侧面是指满足以下两种条件的侧面：(1)观察样本容量(侧面水平数)远小于观察全域的容量；(2)每个观察样本(侧面水平或条件)是随机地从观察全域中挑选出来的，即观察全域中未被挑选为观察样本的观察可以同等程度地替换观察样本[4]。正因为有随机侧面的存在，概化理论的数学模型属于一种随机效应模型(random effect model)，它所要求的“随机平行测验”的假设也比经典测量理论中的“严格平行测验”更易满足。

3．5 概化研究(G研究)和决策研究(D研究)

概化理论的框架包括G研究(generalizability study)和D研究(deeisionstudy)。G研究确定测验情景关系，收集原始数据，并借助ANOVA或MANOVA方差或协方差分量分解的方法对测量情景中的误差进行分解；D研究则是在G研究的基础上，计算概化系数和依存性指标，在最大化概化系数和最小化误差基础上，选择最优测量方案。在D研究中，常常通过改变被试、项目和评分者的数量或将随机侧面变为固定侧面等方法来获得最大的概化系数，即将观察分数概化到全域上，这时的全。对于固定侧面，可在其每个水平上分别进行概化，也可对各个水平的均值进行概化[7]。

测量往往由于其目的不同而被分为两种：常模参照测验(domain referenced test)和准则参照测验(criterion referenced test)，前者反映的是某一被试在整个人群中的排名，而后者反映的是个体知识、技能、态度、能力的绝对水平。基于这两种测量，概化理论的决策研究分为：就常模参照测验而言的相对决策(relativedecision)和就准则参照测验而言的绝对决策(absolutedecision)。

4 概化理论的发展及应用前景

自1972年Cronbach，Gleser，Nanda，Rajaratnarn率先提出概化理论之后，经Brennan等人的进一步完善(Brennan，Feldre，1981；Shavelson，Webb，1991；Brennan，2000)，概化理论作为现代测量理论之一，被许多教育和心理测量工作者所采用。

4．1 单变量概化理论(univariate generalizability theory，UGT)

单变量概化理论是在ANOVA的基础上发展起来的，具有简洁、灵活的特点。

4．1．1 单变量概化理论的发展和运用

单变量概化理论从诞生到现在，-内涵不断丰富，其中包括：对方差分量的估计方法的改进(Cronbaeh， 1972； Brennan， 1983； Shavelson，Webb，1981，1987)；混合模型的出现，即用一部分固定侧面代替以前的随机侧面(Cronbaeh，1972；Shavelson，Erlich，1976)；测量对称性原则的提出，即摒弃了以区分个体行为作为测量目的的传统思想(Cardinet，Tourneur，1985；Cardinet，Tourneur，Allal，1976，1981)；最大化概化系数的获得，对于原始分数的条件标准误(conditional standard errors)的研究发现，在单变量概化理论中条件标准误随原始分的变化是一条向下的抛物线，拐点处可得到最大概化系数(Brennan，1998)[8]；在资源限制多重侧面的情况下如何计算最大信度系数(Goldsein，Marcoulides，1991)[9]等等。

随着单变量概化理论内涵的丰富，它的使用范围也在不断地扩展，不仅对于区分各误差分量(Shea等人区分工作评定的误差来源，1981)[10]，而且对于测验和组合测验(testlets)分数信度的探讨(Lee，Frisbie，1999)[11]、标准参照测验界定分数(cut off score)的误差研究[6l以及绩效评价(performance assessment)中任务数量的确定(Gao，Shavelson，Baxter，1994；Lane，Liu，Ankenmann，Stone，1996)[12，13]都具有意义。尤其是在评分者一致性方面的研究则是近来的热点，对单变量概化理论中的概化系数和传统的Kendall和谐系数(W系数)的优劣产生了争论。

4．1．2 单变量概化理论的特例——类内相关系数

类内相关系数(intraclass correlation coefficient，ICC)是单变量概化理论的特例。早在20世纪60年代就有人将方差分析的思想运用到信度系数研究中(Bartko，1966；Rajaratnam，1960)，70年代在Cronbach提出概化理论之后，这种信度系数的计算方法再一次受到了人们的关注，Shrout和Fleiss(1979)在总结前人研究结果基础上提出了ICC的概念，并详细分析了ICC的不同类型：[14]。

ICC与单变量概化理论在很多方面都是相通的，如：(1)同样分离误差变量；(2)同样支持随机平行测验的假设；（3）ICC中的双因素模型就是概化理论中所指的单侧面设计；(4)固定和随机模型也就是指固定侧面和随机侧面；(5)绝对一致性ICC和相对一致性ICC就是针对绝对决策和相对决策的，等等。但是ICC也有自身一些特点：(1)ICC中单因素模型不属于概化理论，因为它的误差来源比较单一，它的线性模型中只有测量对象效应和残差项；(2)ICC可以用F分布进行检验，而概化系数不可以；(3)ICC最多只有双因素模型(单侧面设计)，而单变量概化理论适用于更加复杂的测验情景等等。

由于ICC继承了单变量概化理论分解多种方差来源的优点，所以作为评分者间信度和评分者内信度的衡量指标之一，它比诸如Pearson的r系数等其他的一些信度系数更为精确，所以迄今为止ICC被广泛地用于行为测量、心理测量和行为遗传学[16]。

4．2 多元概化理论(multivariate generralizability theory，MGT)

Cronbach(1972)详尽地阐述了基于MANOVA(multiple analysis of variance)的多元概化理论对于方差和协方差分量的估计[1]。Webb，Shavelson(1981)也认为多元概化理论对相关测验信度的评价具有价值[]1。在多元概化理论诞生初期，由于计算的复杂性和难理解性，没有得到推广，但是由于单变量概化理论在误差分量的估计上存在相关误差效应，越来越多的研究者开始尝试使用多元概化理论。多元概化理论和单变量概化理论的不同之处是根据方差和协方差矩阵来求多元概化系数。同样，多元概化系数(multivariate generralizability coefficient)也有相对决策和绝对决策之分，即也有和两种。多元概化理论是在单变量概化理论的基础上发展起来的，与单变量概化理论相比，它存在如下优势：

(1)在方差信息之外还包含了协方差的信息；(2)可以从求特征根的方法得出最优概化系数及相应的特征矢量(各测评维度的权重)；(3)当测评维度侧面的各水平之间的相关比较差时，也可以用权重削弱不太有用的评分因素对信度的影响；(4)在使用单变量概化理论时，一般不将评分因素变为一个单独的侧面，而是对每个评分因素分别计算G系数，因为很难说每个评分因素都是从同一个全域中随机挑选出来的，它们之间可能并不属于一个全域，虽然概化理论弱化了经典测量理论严格随机测验的理论假设，但是它依然要求一定的随机性。而用多元概化理论可以一定程度地避免上述问题，即使评分因素间的差距比较大时，因为它考虑到了协方差的信息，可以削弱这种差距对信度的影响；(5)单变量概化理论存在相关误差效应，模型的假设之一就是被试状态的稳定性，即误差分量的互不相关，实际情况很难满足这一假设。而多元概化理论误差分布的独立性假设，不存在相关误差效应；(6)测评维度对信度的影响问题。在单变量概化理论双侧面完全交叉设计的概化系数的计算公式中，我们可以发现测评维度和被试的交互作用的方差分量，而在多元概化理论单侧面完全交叉设计的概化系数的计算公式中，却看不到测评维度的影响，表面上多元概化理论在这一点上看似是具有缺陷的，而实际情况并非如此。在多元概化理论单侧面完全交叉设计的全域合成分数的概化系数计算公式中具有被试(p)、专家(r)、交互作用(p*r)的各个方差协方差矩阵，这个方差协方差矩阵包含了测评维度对信度的影响，如：测评维度1与测评维度2被试效应的协方差就反映了测评维度l的被试效应和测评维度2的被试效应的相关，也即被试和测评维度的交互作用。以上分析说明，多元概化理论是在单变量概化理论的基础上发展起来的，它继承了单变量概化理论的基本思想，在信度计算上也包含了单变量概化理论所能提供的信息。

鉴于此，可知在实际工作中用多元概化理论要比用单变量概化理论能提供更多的信息。但是当我们特别关注上述例子中测评维度对信度的影响时，可以用双侧面固定专家侧面混合设计，在D研究中变化评分因素的个数，看G系数(相对一致性指标)和中系数(绝对一致性指标)的变化。由于系数的计算中多了测评维度方差分量这一项，运用甲系数更能看出测评维度的影响。

5 小结

综上所述，针对经典测量理论存在的误差划分笼统和“严格平行测验”假设难以实施的局限，Cronbach(1972)提出了概化理论的基本框架和统计学原理——测量情景关系、线性模型和方差分量估计值、概化系数、依存性指标的计算。此后，单变量概化理论在实践中得以广泛应用，尤其是它的特例——类内相关系数概念的提出，随着单变量概化理论内涵的不断丰富和研究的不断深入，它的问题也逐渐显露，其中，最为突出的是方差分量估汁时的偏差和相关误差问题。正因为单变量概化理论所面临的一系列问题，越来越多的研究者尝试使用基于MANOVA的多元概化理论。由于多元概化理论还未得到大面积的推广，所以用方差协方差矩阵代人线性模型求解特征根和权重的方法的理论意义还有待于进一步验证。

		自动登录	找回密码
密码			注册

概化理论研究及应用前景

相关帖子