中国高等教育学会语文教育专业委小学语文教学法研究中心副秘书长管季超创办的公益服务教育专业网站 TEl:13971958105

教师之友网

 找回密码
 注册
搜索
查看: 259|回复: 0
打印 上一主题 下一主题

项目反应理论简介

[复制链接]
跳转到指定楼层
1#
发表于 2013-12-9 21:24:40 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
项目反应理论简介
一、项目反应理论的概念

项目反应理论(Item Response Theory, IRT)是一系列心理统计学模型的总称,是针对经典测量理论(Classical Test Theory,简称CTT) 的局限性提出来的。IRT是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定的潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。

目前广泛应用在心理和教育测量领域,基于IRT理论的计算机自适应测试(CAT)是CAA常用的测试方法。潜在特质模型(latent trait model)认为,在被试样本可观察到的测试成绩和基于该成绩不可观察的特质或能力之间存在着联系。

二、IRT的理论体系(三条基本假设)

假设一:能力单维性假设——指组成某个测验的所有项目都是测量同一潜在特质;

假设二:局部独立性假设——指对某个被试而言,项目间无相关存在;

假设三:项目特征曲线假设——指对被试某项目的正确反映概率与其能力之间的函数关系所作的模型。

IRT最大的优点是题目参数的不变性,即题目参数的估计独立于被试组。它假定,被试在某一试题上的成绩不受他在测验中其他试题上的成绩影响;同时,在试题上各个被试的作答也是彼此独立的,仅由各被试的潜在特质水平所决定,一个被试的成绩不影响另一被试的成绩,这就叫做局部独立性假设。IRT理论所做出的一切推论都必须以局部独立性假设为前提。

三、IRT常用的模型

IRT根据受测者回答问题的情况,通过对题目特征函数的运算,来推测受测者的能力。IRT的题目参数有:难度(difficulty index)、区分度(discriminative powder index)和猜测系数(guessing index)。根据参数的不同,特征函数可分为单参数模型(难度)、双参数模型(难度、区分度)和三参数模型(难度、区分度、猜测参数)等。

IRT 的模型有Logistic模型,Rasch模型,Lord的正态卵形曲线模型等二十余种。下面以Logistic模型为例进行简要介绍:

⑴ Logistic单参数模型(难度)公式如下:

⑵ Logistic双参数模型(难度、区分度)公式如下:

⑶ Logistic三参数模型(难度、区分度、猜测参数)公式如下:

其中:
D=1.702;
θ:受测者能力估计值;

a:题目的区分度,它的值越大说明题目对受测者的区分程度越高;

b:题目的难度;

c:题目的猜测系数,它的值越大,说明不论受测者能力高低,都容易猜对;

P(θ):能力为θ的人答对此题目的概率。

如何选择恰当的模型进行参数估计是题库选题的关键。不同的模型具有不同的特点,适合于不同条件下的使用。就上面所列的三种模型而言:

单参数模型比较简单,使用较为方便,但它对项目参数性质的要求较为苛刻;
双参数模型要求项目的猜测系数较小;

三参数模型虽然具有涵盖较多项目信息的优点,但亦给参数估计带来更为复杂的工作。

因此,虽然关于模型选择标准现在尚无定论,不过,可以从命题方式、记分方式、参数性质、样本人数、模型的强健性、假设的满足与否等方面得到一些选题的依据。

四、参数估计

参数估计是应用IRT的前提。常用极大似然法、贝叶斯等方法进行参数估计,使得所估计出的试题参数不受考生能力分布的影响,即具有参数不变性的优点。

在项目反应理论中,难度被定义为试题本身固有的特性,不随考生样本的变化而变化。该理论认为,如果考生足够多的话,每道题都会有部分人不能答对,部分人容易答对,部分人费些力气刚好能够回答对。试题的难易程度,决定于刚好能够答对的那部分人的水平高低,水平高的刚好能够答对该题就难,水平低的也能答上来题就易。这种难度与考生的能力建立在同一个量表上。

在教育与心理测量中应用项目反应理论时,必须进行项目参数与被试能力的估计。有时是已知项目参数,估计能力参数;有时是已知能力参数,估计项目参数;更多的是能力和项目参数都未知,需要同时估计项目参数和能力参数。

五、项目特征曲线(Item Characteristic Curve,简称ICC)

项目特征函数亦称项目特征曲线( ICC),是一种根据测试所获得的考生能力参数和项目特征参数来表示考生可能答对率(成功率) 的IRT 模式的数学表示方法,同一条ICC所对应的项目参数是唯一的。

IRT研究的一项重要工作,就是确定题目特征曲线的形态,项目反应模型除了要拟合所选定的题目特征曲线形态,还应该包括其他一些重要的特征,否则就不是一个好的模型。

根据特征函数可画出项目特征曲线,下面以典型的Logistic三参数模型的项目特征曲线为例:

从上图可以看出:

⑴特征曲线拐点处的斜率,即斜率的最大值。表示题目的区分度,它的值越大说明题目对受测者的区分程度越高。

⑵特征曲线上最陡的那一点所对应的θ值,表示题目的难度。

⑶特征曲线的截距,表示题目的猜测参数,它的值越大,说明不论受测者能力高低,都容易猜对本道题目。

教育测量学研究表明,未经筛选的大被试群体的基本心理素质如智力、能力、人格特点等的分布,服从正态分布。所以,理论上被试能力取值范围为(-∞,+∞),但在实际应用中,取值范围多取[-3.00,3.00]。

IRT的项目特征曲线就明确表示出被试能力θ与项目的关系,横轴θ,纵轴P(θ),它表示具有某种能力θ的被试答对某项目的概率P(θ)。因此,只要已知被试的能力值,就可预测出他们可能答对某个项目的概率。

六、信息函数
信息函数是项目反应理论中用以刻画一个测试或一道试题有效性的工具,它是直接反映测验分数对学生能力估计精度的指标。信息函数值越大,这种估计就越精确。

=============================================================


项目反应理论是测量理论中最重要的三种理论之一。一般将测量理论分为经典测量理论(CTT)、概化理论(GT)和项目反应理论(IRT)三大类,或称三种理论模型。三种测量理论构成了现代人才测评的理论基石。三种理论各有长短,经典理论容易理解、操作简单,体系完整,在现实中更易于被接受,因为适应面很广。概化理论主要解决测量误差的问题,对于分析测量的信度有一定优势。项目反应理论数理逻辑严密,测量精度高,但对使用者的素质和客观条件都有很高的要求,故应用的范围受到限制。在人才测评实践中,要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。


项目反应理论(1RT)经过30至40年的孕育,于1950年代初得以正式创立,于1960年代后期伴随着计算机的发展而得到快速发展。项目反应理论以其科学的理论框架和强且全面的应用功能受到测量学界的青睐。随着我国对外学术交流的发展,具有全新面貌的项日反应理论也引起了我国测量学界的极大关注。


任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。


  无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面:


  (1)测量结果的应用范围有限。一般来说,对测量误差的控制有三种方法:配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异,随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上,将误差变量的影响参数化,从而在测量中调整参数估计值,减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而,使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立,却不能将其拓展到非标准化的环境之中去,使得测量的应用受到很大的限制。


  (2)测量分数赖性于具体的测验(内容)。经典测量理论控制误差应用标准化技术,但其标准化的对象是测验的各种外部变量,对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性,迫使经典测验理论要么使用统一的试卷,要么使用实际上并不平行的所谓“平行试卷”。这种处理方法,即给实际操作带来困难,也给结果的解释带来较大的误差。


  (3)测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样,随机抽样总是偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。


  (4)信度估计的精确性不高。测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义为真分数的变异在总变异(观测分数)中所占的比率。然而,真分数的方差是无法求取的,误差的方差也无法计算。为了估计信度,CTT就提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。


  项目反应理论研究是以潜在特质为假设并从项目特征曲线开始。所谓项目特质曲线就是用能稳定反映被试水平的特质量表分代替被试卷面总分作为回归曲线的自变量,并把求得的被试在试题上正确作答概率对特质分数的回归曲线称为项目特质曲线(Item Characteristic Curve,简称ICC)。项目反应理论研究中的一项重要工作就是要确定项目特征曲线的形态,然后写出这条特征曲线的解析式,即项目反应函数,也称为项目特征函数(Item Characteristic Function,简称ICF)。


  第一个项目反应理论模型是由洛德于1952年提出的双参数正态肩形曲线模型。其中以θ表示被试特质水平的参数;Pi(θ)表示特质水平为θ的被试在项目I上正确回称的概率。从理论上讲,θ的取值在-∞和+∞之间,当θ=-∞时Pi(θ)为0,当θ=+∞时Pi(θ)为1;bi为项目难度参数,它与特质θ定义在同一个量表上。取θ=bi代入上式,得Pi(θ)=0.5,可见b点是肩形曲线的对称中心,也是曲线的拐点;ai称为项目的区分度参数。ai是曲线在拐点bi处的切线斜率的函数。


  自洛德提出第一个IRT模型后,许多学者投入到此领域的研究中,提出了很多种模型,目前应用最多是伯恩鲍姆(Brinbaum)提出的逻辑斯蒂克模型(Logistic
Model)和拉希模型(Rasch Model)。逻辑斯蒂克模型是三参数模型,除了试题的难度参数bi和区分度ai以外,他还增加了一个猜测参数ci, ci通常定义为被试中能力水平远低于项目难度2/ai个单位的人在该项目实际猜测作答获得成功的概率。当令ci=0,则上述天参数模型就变成了双参数模型,如ci=0且ai=1,则变成了单参数模型,逻辑斯蒂克的单数模型与丹麦学者拉希(Rasch)提出的单参数模型是相同的。拉希模型是在实践中最常用的模型之一。


  与CTT理论和GT理论相比,IRT具有以下优点:


  第一,项目反应理论深入测验的微观领域,将被试特质水平与被试在项目上的行为关联起来并且将其参数化,模型化,是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知,则模型在测验中为项目性质调整数据,可生成独立于测验项目性质的特质水平测量,这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。


  第二,IRT模型项目参数的估计独立于被试样本。项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说,已知特质水平面为θ0的被试在项目i上正确作答的概率仅仅依赖于其值θ0,并不依赖于具有θ0水平的人数有多少,也不依赖于其它θ取值上的人次数。所以,在求取项目特征曲线的各种参数时,由于回归线的形状、位置都不依赖于被试的分布,所以它的参数,包括难度、区分度和猜测参数也都是不变的。


  IRT的第三个优点是能力参数与项目难度参数的配套性,亦即项目难度参数与能力参数是定义在同一个量表上的。这样,对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力,我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能力估计更为精确。这一特点为自适应测评奠定了基础。


  第四个优良性质是通过模型测得的被试能力水平,可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出在项目反应模型下,能力参数未定的被试在n个测验项目上的信息测度可由下式给出。其中Ii(θ)是项目i上的信息,Pi’(θ)是Pi(θ)的导数。


  利用IRT这些优良性质,可以开发优质题库,可以按测量精度目标编制各种测验试卷,可能实施测验等值,可以侦察测验项目功能偏差,可以实现计算机化的自适应测验(CAT)。


  项目反应理论的发展除了自身的基本理论系统,模型种类,数据模型拟合检验方法和参数估计方法的发展之外,在实际应用方面也有很大成就,主要表现在三个方面:一是指导测验编制。伯恩鲍姆和费啸的测验信息结构的测度引入测验,导致通过建立测验信息目标函数来影响测验的结果,从根本上改善了测验编制的指导思想。在此基础上发展起了多种测验编制指导方法,特别是对目标参照性测验编制的指导,一改经典测验理论软弱无力的指导状况。二是计算化自适应测验的兴起,其三是项目反应理论认知测量模型的出现,将测量导向与认知心理学相结合的方向,应用测量模型直接探索人的认知结构。


==================================================================
项目反应理论(Item Response Theory)简介




虽然项目反应理论的某些基本思想可以追溯到本世纪三四十年代,乃至比纳和西蒙的时代,但是人们普遍认为项目反应理论的兴起和发展首先应归功于F。M。洛德。1952年洛德在其博士论文《关于测验分数的一个理论》中,第一次对项目反应理论作了系统的阐述(当时他称其为项目特征曲线理论,后改名为项目反应理论)。通常将此看作是项目反应理论诞生的标志。由于洛德理论的数学复杂性,以及人们对理论本身的怀疑,因而这一新型的测量理论在当时并没有引起人们的关注。洛德本人在此后10多年中也未能在项目反应理论上取得多大进展。直到1965年洛德通过大规模的调查研究,证实了他所提出的项目反应理论的假设与现实生活中的测验问题相符,由此而引发项目反应理论的研究和应用。值得一提的是,正当洛德苦于验证其假设的同时,丹麦数学家G。拉彻于1960年独立地提出了含有一个参数的“样本无关”的心理测验模型,这就是以后项目反应理论中重要的单参数模型。


此后,项目反应理论获得了迅速发展。1968年洛德和诺维克在伯恩波姆的名著《心理测验分数的统计理论》中以四章的篇幅详细地阐述了项目反应理论中具有二、三参数的常态卵形模型和逻辑斯蒂模型的数学问题,至此,构成了项目反应理论的基本体系。在70~80年代,项目反应理论吸引了众多的教育和心理测验学者,从而使得项目反应理论取得了突破性进展。这一方面表现在一系列项目反应理论问题的专辑的发表,例如,洛德《项目反应理论在实际测验问题中的应用》(1980年版),C。L。赫林、F。德雷斯哥和C。K。帕森斯《项目反应理——在心理测量中的应用》(1983年版),R。汉布尔顿和H。斯沃米纳塞《项目反应理论:原理和应用》(1985年版);美国《教育测杂志》(JEM)于1977年秋夏季号刊登了“潜在特质理论应用”专辑,共有六篇研究报告,美国《应用心理测量》杂志于1982年秋季号发表了“项目反应理论和应用中的进展”专辑,另一方面,表现为项目反应理论在技术上和应用上的进展。早先困扰项目反应理论的数学模型复杂性,在近20多年的计算机技术协助下,得到了较好的解决,先后产生了计算机程序BISCA和LOGIST,它们都较成功地实现了项目反应模型的参数估计,为项目反应理论在实践中的应用扫清的障碍。目前,美国大多数教育行政机构、考试服务机构都进行项目反应理论的研究或应用,甚至美国国家行政事务委员会还将采用项目反应理论的应用成果定为一项官方政策。


除了美国之外,在加拿大、新西兰、瑞典和奥地利等国也对项目反应理论进行了广泛的研究和应用。近年来,在中国,项目反应理论也引起了人们的重视,有些学者在进行理论研究的同时,也尝试性地进行了应用。可以预见,随着项目反应理论研究队伍的不断壮大,项目反应理论将会越来越完善,越来越得到更广泛的应用。


一、基本理论假设。


目前,大多数的项目反应理论模型都假设在某一项目反应上只有一个单一人潜在特质起作用,并且可以采用数学模型来描述这一潜在特质水平与项目反应之间的函数关系。有鉴于此,可以归纳出项目反应理论的三条基本假设:


第一,一维性假设。指测验只测量被试的某一种能力(如计算能力),而可以忽略其他能力对测验结果的影响(如阅读能力)。也就是说,被试对测验结果的反应只受一种能力水平支配,而不受其他能力水平的束缚。极大多数的项目反应模型是基于这一假设之上的。也正是由于这一假设,项目反应理论受到了反对者的攻击,因为显而易见的是,在测验实践中完全满足一维性假设是较困难的。


第二,局部独立性。事实上,这是与一维性假设相等同的,它是指被试对测验中不同题目的反应在统计上是互相独立的。也就是说被试在测验中对某题目上的正确反应概率不依赖于他在其他题目上的正确反应概率。


第三,项目特征曲线形成的假设。这主要是指被试对项目所作反应的概率遵循一定的函数关系,这种函数关系可以用项目特征曲线形式表示出来。


二、项目反应模型。项目反应模型众多,对于两级评分系统而言,较常用的项目反应模型有以下几种:


第一,常态卵形模型。使用常态卵形模型来表示项目特征主要有以下几种:单参数常态卵形模型、双参数常态卵形模型、三参数常态卵形模型。


第二,逻辑斯蒂模型。与常态卵形模型相类似,逻辑斯蒂模型也主要有以下三种:单参数模型(又称拉希模型)、双参数模型、三参数模型。


三、信息函数。针对经典测验理论通常只能提供一种对所有被试而言而不管其能力水平变化的唯一的测量有效性指标,1986年伯恩鲍姆提出了使用信息函数来描述在每一种被测量的能力水平上一个测验或测题的测量有效性。因而在项目反应理论中信息函数有项目信息函数和测验信息函数两种。


四、应用


项目反应理论用来解决实际问题的首先一步是选择一种项目反应函数模型,并且获得对项目参数和能力水平θ的估计,这种估计可以利用计算机程序而完成。项目反应理论在实践中有较多的应用,下面简洁地描述一些。


1、测验构建。运用项目反应理论对测题库中的题目进行校正,尔后就可以从这些题目库中选择项目以构建成预先详细阐述了其测量属性的测验。


2.等值。等值对于那些编制了许多不同形式的测验而又希望在同一量表水平汇报测验分数的测验编制者而言,是一个值得研究的测量课题。


3.项目偏差。具有一维性的测验题目,对于该测验所实施的总体中的所有子体而言,也必须是测量了该同一特质,否则,可以认为该题目对某个具体子体有偏差。由于在项目反应理论中项目反应函数并没有依赖被试组而对项目进行校准,因而项目反应理论提供了一种寻找题目偏差的方法。


五、争议和趋势


项目反应理论是建立在一种数学模型基础上的,那么如何确定充分模拟被试与测验题目交互反应所需的必要成分的数目,则是测量学家们争论的问题。


提倡单参数项目反应模型的人认为,只需要一个人的参数(即能力水平θ)和项目的一个参数(即项目难度b)即能设计项目反应模型。而反对者认为,除了在模型中包含难度参数外,还需考虑项目的区分度参数和被试对项目猜测的参数,也即认为项目反应模型应是三参数的。这种争论表面上只是涉及各自对项目反应模型的假设,即前者认为,具有相同能力的被试对同样难度的测题有着同等成功的可能性,而后者认为结果并非如此。这似乎是项目反应理论的内部争论。实质上,这种争论涉及两者在测量基本原理上存在的分歧,这也可以进一步说是在测验编制和评定中使用项目反应理论方法的提倡者和反对者之间的差异。这里的中心问题是测量方法与测量内容的关系问题。


项目反应理论的支持者认为:科学通过寻求能促使经验产生的最简单方法之中实现了进步。当一个人回答测题时,这情形具有潜在的复杂性,许多方面因素影响了个体对该测题所作出反应的结果,因而不能不以一种可起作用的人的反应理论加以说明。为了达到一种可操作的状况,则必须发明一个简单思想,并尽力编好测题和测试个体,以便它们之间的相互反应受制于这一思想,最后将其统计结果输入到数据库中来看这种发明是否有用。


相反,项目反应理论的怀疑者认为:一个良好的教育成绩测验必须自身界定了被测量的目标。这意味着,不应允许评定的方法来决定测验的内容或更改测验中所暗示的目标的定义。从测验编制者的立场出发,目标的定义是不可侵犯的,他不能在定义上作手脚。通过那些对教育目标作出决定且负责的社会机构,将目标传递给测验编制者;并且测验编制者必须做的是,努力在他们组成的测验中尽可能清楚地、精确地体现目标的定义。


尽管存在着争议,但项目反应理论还是对教育和心理测量领域产生了极大的影响,并且朝着完善和成熟而不断前进着。由于目前还不可能彻底查明使用数据满足假设的精确度,因为对于表面上满足了假设的数据而言,只有当从项目反应理论中所作出的预言能独立地加以证实后,这才令人心安。同时,项目反应理论的应用通常比经典测验理论的相似应用在代价上更昂贵,并且许多情况下要借助于计算机工具。因而,如何较好地解决这两个问题,是项目反应理论自身发展的趋势之一。此外,项目反应理论发展的另一趋势就是如何在多级评分体制下构造项目反应模型。


=============================================================
  项目反应理论(item response theory)也称潜在特质理论或潜在特质模型,是一种现代心理测量理论,其意义在于可以指导项目筛选和测验编制。项目反应理论假设被试有一种“潜在特质”,潜在特质是在观察分析测验反应基础上提出的一种统计构想,在测验中,潜在特质一般是指潜在的能力,并经常用测验总分作为这种潜力的估算。项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的项目参数具有恒久性的特点,意味着不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料,使我们综合直观地看出项目难度、鉴别度等项目分析的特征,从而起到指导项目筛选和编制测验比较分数等作用。



  一、项目反应理论的概念项目反应理论(Item Response Theory, IRT)是一系列心理统计学模型的总称,是针对经典测量理论(Classical Test Theory,简称CTT) 的局限性提出来的。IRT是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定的潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。



  目前广泛应用在心理和教育测量领域,基于IRT理论的计算机自适应测试(CAT)是CAA常用的测试方法。潜在特质模型(latent trait model)认为,在被试样本可观察到的测试成绩和基于该成绩不可观察的特质或能力之间存在着联系。



  二、IRT的理论体系(三条基本假设)



  – 假设一:能力单维性假设——指组成某个测验的所有项目都是测量同一潜在特质;



  – 假设二:局部独立性假设——指对某个被试而言,项目间无相关存在;



  – 假设三:项目特征曲线假设——指对被试某项目的正确反映概率与其能力之间的函数关系所作的模型。



  IRT最大的优点是题目参数的不变性,即题目参数的估计独立于被试组。它假定,被试在某一试题上的成绩不受他在测验中其他试题上的成绩影响;同时,在试题上各个被试的作答也是彼此独立的,仅由各被试的潜在特质水平所决定,一个被试的成绩不影响另一被试的成绩,这就叫做局部独立性假设。IRT理论所做出的一切推论都必须以局部独立性假设为前提。



  三、IRT常用的模型IRT根据受测者回答问题的情况,通过对题目特征函数的运算,来推测受测者的能力。IRT的题目参数有:难度(difficulty index)、区分度(discriminative powder index)和猜测系数(guessing index)。根据参数的不同,特征函数可分为单参数模型(难度)、双参数模型(难度、区分度)和三参数模型(难度、区分度、猜测参数)等。



  IRT 的模型有Logistic模型,Rasch模型,Lord的正态卵形曲线模型等二十余种。下面以Logistic模型为例进行简要介绍:



  ⑴ Logistic单参数模型(难度)公式(参照 戴海琦编写的《心理与教育测量》,下同):



  ⑵ Logistic双参数模型(难度、区分度)公式如下:



  ⑶ Logistic三参数模型(难度、区分度、猜测参数)公式如下:



  其中:



  D=1.702;



  θ:受测者能力估计值;



  a:题目的区分度,它的值越大说明题目对受测者的区分程度越高;



  b:题目的难度;



  c:题目的猜测系数,它的值越大,说明不论受测者能力高低,都容易猜对;



  P(θ):能力为θ的人答对此题目的概率。



  如何选择恰当的模型进行参数估计是题库选题的关键。不同的模型具有不同的特点,适合于不同条件下的使用。就上面所列的三种模型而言:



  单参数模型比较简单,使用较为方便,但它对项目参数性质的要求较为苛刻;



  双参数模型要求项目的猜测系数较小;



  三参数模型虽然具有涵盖较多项目信息的优点,但亦给参数估计带来更为复杂的工作。



  因此,虽然关于模型选择标准现在尚无定论,不过,可以从命题方式、记分方式、参数性质、样本人数、模型的强健性、假设的满足与否等方面得到一些选题的依据。



  四、参数估计参数估计是应用IRT的前提。常用极大似然法、贝叶斯等方法进行参数估计,使得所估计出的试题参数不受考生能力分布的影响,即具有参数不变性的优点。



  在项目反应理论中,难度被定义为试题本身固有的特性,不随考生样本的变化而变化。该理论认为,如果考生足够多的话,每道题都会有部分人不能答对,部分人容易答对,部分人费些力气刚好能够回答对。试题的难易程度,决定于刚好能够答对的那部分人的水平高低,水平高的刚好能够答对该题就难,水平低的也能答上来题就易。这种难度与考生的能力建立在同一个量表上。



  在教育与心理测量中应用项目反应理论时,必须进行项目参数与被试能力的估计。有时是已知项目参数,估计能力参数;有时是已知能力参数,估计项目参数;更多的是能力和项目参数都未知,需要同时估计项目参数和能力参数。



  五、项目特征曲线(Item Characteristic Curve,简称ICC)项目特征函数亦称项目特征曲线( ICC),是一种根据测试所获得的考生能力参数和项目特征参数来表示考生可能答对率(成功率) 的IRT 模式的数学表示方法,同一条ICC所对应的项目参数是唯一的。



  IRT研究的一项重要工作,就是确定题目特征曲线的形态,项目反应模型除了要拟合所选定的题目特征曲线形态,还应该包括其他一些重要的特征,否则就不是一个好的模型。



  根据特征函数可画出项目特征曲线,下面以典型的Logistic三参数模型的项目特征曲线为例:



  从上图可以看出:



  ⑴特征曲线拐点处的斜率,即斜率的最大值。表示题目的区分度,它的值越大说明题目对受测者的区分程度越高。



  ⑵特征曲线上最陡的那一点所对应的θ值,表示题目的难度。



  ⑶特征曲线的截距,表示题目的猜测参数,它的值越大,说明不论受测者能力高低,都容易猜对本道题目。



  教育测量学研究表明,未经筛选的大被试群体的基本心理素质如智力、能力、人格特点等的分布,服从正态分布。所以,理论上被试能力取值范围为(-∞,+∞),但在实际应用中,取值范围多取[-3.00,3.00]。



  IRT的项目特征曲线就明确表示出被试能力θ与项目的关系,横轴θ,纵轴P(θ),它表示具有某种能力θ的被试答对某项目的概率P(θ)。因此,只要已知被试的能力值,就可预测出他们可能答对某个项目的概率。



  六、项目信息函数与测验信息函数



  信息函数是项目反应理论中用以刻画一个测试或一道试题有效性的工具,它是直接反映测验分数对学生能力估计精度的指标。项目信息函数(item information function)是IRT 的核心概念,这个基础性的概念对测验的应用领域起了诸多影响。信息函数值越大,这种估计就越精确。项目信息函数反映了不同特性(参数)的项目在评价不同被试特质水平是的信息贡献关系。



  测验信息函数则是项目信息函数的累加和,测验信息函数反映了整个测验在评价不同被试特质水平时的信息贡献关系,测验提供的信息量越大,则该测验在评价该被试特质水平时越精确。



  测验和项目信息函数有如下重要性质:(1)每个项目所提供的信息量是它所测被试特质水平的函数,因而项目及测验信息函数值均是针对某一被试特质水平来说的,随被试特质水平取值的不同而变化;(2)每个项目在某一特质水平处所能提供的信息量还受项目自身特质的影响;区分度越大、猜测可能越小,所能提供的信息量越多;(3)每个项目所提供的信息不受其他项目的影响,测验中各项目均独立地对测验总信息做贡献,项目信息函数具有可加性,测验信息函数等于所含全部项目的信息函数的和;(4)测验信息函数在某一特质水平上的值得平方根的倒数,就是该点特质水平估计值的估计标准误。

  
您需要登录后才可以回帖 登录 | 注册

本版积分规则


QQ|联系我们|手机版|Archiver|教师之友网 ( [沪ICP备13022119号]

GMT+8, 2024-11-26 06:12 , Processed in 0.089986 second(s), 26 queries .

Powered by Discuz! X3.1 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表