美国斯坦福中小学成就、诊断及英语水平考试的发展和应用
作者:王蜀东 焦红 发布时间:2011-03-23 来源《考试研究》
【作者简介】 王蜀东、焦红,博士,心理测量研究员,美国Harcourt测评公司。
【摘要】 本文介绍了斯坦福(Stanford)考试系列在美国中小学教育中的发展和应用。着重阐述了三个考试即斯坦福成就考试、斯坦福阅读和数学诊断考试及斯坦福英语水平考试的各自内容,相关的技术和设计原理。
【关键词】 斯坦福成就考试 斯坦福阅读和数学诊断考试 斯坦福英语水平考试
前言
斯坦福(Stanford)考试系列是美国最早设计的中小学考试及目前应用最广泛的考试之一。第一个斯坦福标准化成套成就考试的出版可追溯到20世纪初(1923年)。目前为止,斯坦福成就考试已经发行到第十版。每一个版本的发展都遵循四个原则。1.更新的内容符合当时教育和课程的发展趋势;2.更新的常模增强考试分数的解释效度;3.增加和改进考试信息的种类;4.修改考试的版面以适应学生的需要。像所有的标准化成套成就考试一样,斯坦福标准化成套成就考试的主要目的是提供有关学生在某一时间所掌握的各个领域的知识。标准化成套成就考试和诊断考试的目的不同。前者的主要目的是测量学生的整体能力;后者着重于测量学生对特定技能的掌握,主要针对低水平的学生。虽然这两种考试的目的不同,但他们却是互补而不是相互排除的。从1966年至今,斯坦福阅读和数学诊断考试已经发展到第四版。这两种诊断考试的主要目的是诊断学生阅读和数学某个方面的优势和不足,从而帮助老师的教学和学生的进步。随着经济和社会结构的变化,英语作为第二外语的在校学生人数与日俱增。为了使这些学生和其他处于经济,社会和生理劣势的学生得到与其他正常学生相同的教育,美国政府于2001年颁布了《一个孩子也不掉队》的法令(NCLB)。斯坦福英语水平考试是目前美国惟一的达到了《一个孩子也不掉队》法令中对英语水平考试要求的考试。此考试的主要目的是测量以英语作为非母语学生的英语水平,从而帮助这些学生学好英语,早日进入英语课堂教学的主流里学习。本篇文章主要介绍斯坦福考试系列中的三个考试(详见:http://harcourtassessment.com)。
一、斯坦福标准化成套成就考试(Stanford Achievement Test Series)
斯坦福标准化成套成就考试是针对幼儿园到高中12年级的学生而设计的常模参照考试。它像其他标准化考试一样,采用统一标准化的考试流程,以确保考试结果不因为时间、地点、考生的不同而不同。考试的质量都以科学数据为依据。本考试有以下五种特征:
(一)考试的发展
对每一年级每一科目的考试、考试手册和其他材料都提供了详尽的考试发展的信息。这些信息包括考试内容和目的、考试常模的建立和发展、信度和效度的特征以及保证考试公正性技术的使用和说明。
(二)考试的施测
保证对每一年级每一科目的考试都有两个以上的等值复本。整个考试的时间需要两到三小时,一般是进行分段考试。每门考试可提供练习试卷。对高年级考生,试卷和答卷是分开的。低年级考生可把答案直接写在试卷上。学生可参加本年级或其他年级的考试。
(三)考试常模的特征
考试常模是依据全美国的样本建立的。本考试提供春秋两季考试常模。常模的样本是分层样本,分层变量包括地区(东北、南方、中部和西部)、社经状况(高、中、低)、城区分布(市、郊、边远地区)、学校种类(公立和私立)和族群(黑、西班牙、白、亚裔和其他)。除此之外,特殊学生也包括在样本抽样中。这些学生包括孤独症、视障、听障、聋哑、发育迟缓、肢体残疾、多种残障、智障、情障、语言障碍、学习障碍、脑创伤及其他健康障碍。常模标准化加权的过程包括三个步骤:一是选择学校的人口统计数据;二是对第一步的数据和问卷调查获得的数据进行统计描述;三是改进样本并对考试分数加权以取得更接近总体特征的样本。加权过程本身主要涉及随机选取学生记录直至获得所需的样本特征。
(四)考试分数
考试可以对每一年级每一科目个人和集体(学校、学区、城市以及各州)提供原始分数(Raw Scores)、量表分数(Scale Scores)和以下几种常模参考分数:百分比(Percentile Ranks)、正态曲线等值分(Normal Curve Equivalents),标准九(Stanines)、年级当量分数(Grade Equivalents)。考试也可提供成就和能力的比较分,例如,和奥提斯-勒农学习能力测验(Otis-Lennon)的比较。考试也提供内容群集(Content Cluster)和过程群集(Process Cluster)分数以帮助确定学生在某个科目或科目组以及在学习过程中的强势和不足。除此之外,斯坦福也提供与Lexile阅读理解测量的相关数据。
(五)考试分数报告和解释
考试对老师、学校的管理人员及咨询人员提供分数解释手册,并提供分数报告,其中包括班级及学校的分数报告及针对各个学生的总结分析。
斯坦福标准化成套成就考试发展主要包括11个组成部分:初始研究,考试的设计,试题,试卷的设计,质量控制,生产需求,生产的范围,生产周期,终审,研究与发展,数据采集审核及使用。本文只着重讲述初始研究及考试的设计。
1.初始研究
这一步骤主要着重于考试范围及人力物力资源的需求、教育趋势的研究、国家及各州的教学大纲的研究以及国家及各州的教学立法研究。由此开发出有待批准的研究原型。
2.考试的设计
这一步骤主要包括发展蓝图、编写新考试及其审核、完成考试的结构和设计以及设计及生产小组成员的确认(包括生产经理、科目专家、编辑、心理测量专家、技术支持人员、生产协调人员及操作经理)。
除了建模技术以外,斯坦福标准化成套成就考试另外一个最主要的心理测量技术是等值。等值包括横向等值(Form Equating)和纵向量表(Vertical Scaling)。横向等值是对同一科目同一年级不同试卷的等值,以确保两套试卷可以交换使用。纵向量表则是对同一科目不同年级不同试卷的量表化,使同一科目不同年级的考试可以比较。斯坦福标准化成套成就考试的等值技术的设计都是使用相同的学生(Common Person)连接不同的试卷。
斯坦福标准化成套成就考试不单本身满足一般教育市场的需求,还和各州的教育部门合作,发展某州的斯坦福考试或叫做客户化的斯坦福考试。目前测试领域最常用的四种考试设计模型是(Linn,1993)(A)常模参照考试模型(NRT Only)、(B)以常模参照考试为主的模型(NRT
Based: Customized NRT or Augmented NRT)、(C)标准参照考试模型(CRT Only)、(D)以标准参照考试为主的模型(CRT Based)。这四种考试的优缺点如下。
(A)种模型不需附加测试和费用,并且无损常模参照考试的特性。不足之处是标准参照考试的信息受到限制,知识(knowledge)、技能(Skill)及能力(Ability)(总称KSA)的某些方面也许未能测到。
(B)种模型的效度与模型A等值,此模型能提供常模参照考试和标准参照考试的信息。此外还能提供纵向等值信息,使学生学习成绩可以与跨地区跨科目的学习大纲进行比较。与模型A相比,模型B成本较高且费时。常模参照考试的内容有些部分和地方需求无关,在此模型中,标准参照类型部分的试题对常模参照类型试题的影响通常是未知的。
(C)种模型提供充分的本地(学校、学区及省市)信息,测试的施测较简便,对更改教学以适应考试的内容的需求较小。不足之处是常模参照考试特性的效度较低。
(D)种模型与本地需求相吻合,提供有效的常模参照考试分数也是可能的。但是常模参照考试的效度降低了,预测常模参照考试分数的偏性增加了,考试的等值较难完成,并且考试的成本可能增加很多。
鉴于以上考量,客户化的斯坦福标准化成套成就考试通常采用模型B。应用此模型的基本原理是项目反应理论。实施步骤是1)开发出斯坦福常模参照考试的简化版。此版的内容和结构效度与原版的相吻合;(2)把斯坦福的简化版本和某州的标准参照考试结合起来成为一个试卷。由此而得的分数使每一学生的成绩不单能和学生所在州的教学大纲要求相比较,而且还可以提供这个学生和全国常模的比较结果。
二、斯坦福阅读和数学诊断考试(Stanford Diagnostic Reading Test and Stanford Diagnostic Mathematics Test)
虽然成就考试有可能用于某些诊断的目的,但成就考试提供的诊断信息是很有限的。相对于成就考试内容的范围而言,诊断考试提供更详细的考试内容;而且诊断考试主要针对的是低水平的学生。诊断考试的目的一般有两个(Nitko,2004)。第一是确认哪些学习目标学生还没有掌握;第二是对学生未能掌握学习目标的原因和理由进行分析和解释。如果教师了解学生对哪些学习目标未能掌握,教师可以对症下药地改进他们的教学;反之,教师将不能有针对性地对学生的学习进行纠正和补习。
斯坦福阅读和数学诊断考试就是为了这些目的而产生的。斯坦福阅读和数学诊断考试起始于1978年,到目前为止已发行了四版。斯坦福诊断考试的主要目的是为教育工作者提供一个有效的工具,以诊断学生的阅读和数学的学习状况,给教师提供对教学进行改进和对学生进行分班的信息。
(一)斯坦福阅读诊断考试
阅读困难是最常见的教育心理评估的对象。阅读是一个复杂的行为,包括许多技巧。相应的,阅读诊断考试一般测量阅读的速度、理解、词汇、视听识别、字义技能及运动技能。阅读诊断考试种类繁多,但每种阅读诊断考试测试的内容并不相同。阅读诊断考试的质量主要取决于试题的选择和准备、心理测量技术的质量以及合适的常模样本。
斯坦福阅读诊断考试的主要目的是诊断学生阅读过程的优势和不足。考试包括六个水平,分别由六种颜色代表(红、橘、绿、紫、棕、蓝色),横跨十一个年级(2到12年级)。它主要针对这些年级学生的阅读能力进行诊断。考试时间为2小时左右,随年级而变。每一年级考试都由两个部分组成:有时间限制和没有时间限制。各年级考试包括不同内容。比如,二年级考以下内容:语音分析(单辅音、复合辅音、浊辅音、总辅音、短元音、长元音、混合元音等)、词汇(词汇阅读、名、动、副、介词、形容词等)、阅读理解(句子、谜语、填空)、短文及提问等;而高中则包括词汇(阅读词汇、同义词、分类词汇、词汇构成、专业词汇等等)、阅读理解、短文及提问、兴趣阅读、原著阅读、功能阅读、初始理解、解释、批判性分析、阅读策略及泛读等。
斯坦福阅读诊断考试提供常模和标准参照考试的两种阅读信息。本考试常模的建立方法与斯坦福成就考试常模的建立方法是相似的。常模参照考试的分数报告也和斯坦福成就考试相似(如Raw Score, Scale Score, PR, NCE, Stanine, Grade Equivalent Score等)。此考试所使用的等值技术(包括横向等值和纵向量表技术)都与斯坦福成就考试的技术相同,在此毋庸赘述。斯坦福阅读诊断考试的校标关联效度是通过此考试与斯坦福成就考试的阅读部分的相关研究而确定的。信度指数由克伦巴赫系数确定,每个年级的考试信度系数都在0.95左右(Wang, Young, & Brooks, 2003a)。
现在考生可自由选择在线考试或笔纸考试。在线考试和笔纸考试是相同的考试,但考试采用不同的媒介。研究表明,此在线考试的信度、内容效度、结构效度(Wang, Jiao, Brooks, Young, 2004)和校标关联效度(Wang, Young, Brooks, 2003b)均达到和超过美国最新的《教育和心理考试的标准》。
(二)斯坦福数学诊断考试
除阅读困难外,数学困难是另一个最常见的教育心理评估的对象。数学是最常用的技能,它包括多种技巧。斯坦福数学诊断考试的主要目的是测量解决数学应用问题之前所具备的基本技巧和概念的能力。像阅读诊断考试一样,此考试有六个水平,分别由六种颜色代表(红、橘、绿、紫、棕、蓝色),横跨十一个年级(2到12年级)。它主要针对这些年级学生的数学能力进行诊断。考试时间2小时左右,随年级而变。试题有两种形式:多项选择和问答题。二年级的考试科目包括:概念和应用(数字系统、类型和公式、图表、问题解决、几何和测量等)及计算(整数的加减等)。高中的考试内容包括概念和应用(数字系统、类型和公式、统计和概率、图表、问题解决、几何和测量等)、计算(整数和分数的加减乘除、有理数及百分比的运算、数学公式)。总之,数学考试主要强调解决问题的能力。
像阅读诊断考试一样,斯坦福数学诊断考试提供常模和标准参照考试的两种信息。本考试常模建立的方法与斯坦福成就考试常模的建立的方法是相似的。常模参照考试的分数报告也和斯坦福成就考试相似(如Raw Score, Scale Score, PR, NCE, Stanine, Grade Equivalent Score等)。斯坦福数学诊断考试的校标关联效度是通过此考试与斯坦福成就考试的阅读部分的相关研究而确定的。信度指数由克伦巴赫系数确定,每个年级的考试信度系数都在0.90左右(Wang, Young, & Brooks, 2003a)。此考试对每一个科目及子科目提供进度指数。
现在考生可自由选择在线考试或笔纸考试。在线考试和笔纸考试是相同的考试,但考试采用不同的媒介。研究表明,此在线考试的信度、内容效度、结构效度(Wang, Jiao, Brooks, Young, 2004)和校标关联效度(Wang, Young, Brooks, 2003b)均达到和超过美国最新的《教育和心理考试的标准》(1999)。
三、斯坦福英语水平考试(Stanford English Language Proficiency Test)
斯坦福英语水平考试是依据美国当今社会结构的变化和需求孕育而生的。比如,日益增加的移民进入美国社会。根据美国人口调查局的报告,美国从1995到2000年,人口增长12.5%。语言的多样化日益明显。由此而来的后果之一是以英语为非母语的学生主要涌入美国的各个公立中小学。据不完全统计,15%到20%的在校生课外使用外语交流,并不以英语作为他们的第一语言。这些因素都给教育考试带来新的问题。《一个孩子也不掉队》的法令所针对的问题之一就是如何评测这些以英语为非母语的学生在公立学校的学习。改进这些学生的英语水平是很复杂的工作。通常这些学生需要一到两年的时间才能达到用英语流利交流的水平。如果要达到本年级学习的英语水平则需要五年或五年以上的时间。
一般而言,专家确认语言现象是由基本人际通讯技巧和认知学术语言水平两部分所组成的。对这些以英语作为非母语的学生而言,他们的语言可分为两类,一种是社会用语,另一种是学术用语。联邦政府的法令禁止公立学校免除这些学生参加正常的学习考试,并且要求学校提供相应的考试辅助和采用不同的考试形式。对于400万在校的中小学英语学习生而言,联邦政府的希望是在三年之内,他们能像其他学生一样在正常的课堂学习。因此,英语水平考试必须测量与课堂需求紧密相联的有实际意义的英语能力。对于这种特殊考试目的,能否使用合适的考试是一个非常重要的信度和公平度的问题。因此,为确保每个考试的信度,收集考试的信度证据是很重要的。收集证据的方法之一就是对以英语为非母语的学生和以英语作为母语的学生进行英语水平考试,并把他们的分数进行比较,以增加所测量的英语水平的信度。
斯坦福英语水平考试的主要目的是保证英语学习生的英语水平达到理解和流利的语言标准。具体来说,第一,考试应能决定英语学习生是否需要特殊教学指导,并且决定这些学生是否能进入正常课堂里学习;第二,监测这些学生的学习进度;第三是对教学的有效性进行评估;最后就是指导教学。
斯坦福英语水平考试分成四个等级。初级包括幼儿园到二年级,基本级包括三到五年级,中级包括六到八年级,高级包括九到十二年级。听、读和写作常规考试的题目是客观性题目,写和说是主观性题目。从初级到高级考试,考试时间从1小时25分钟到1小时40分钟不等;考试题量从81题到100题不等。考试内容包括听、说、读、写和写作常规。听力考试包括听和问答两部分。听的部分主要包括听句子、段落及文章。对低年级来说,学生选择图画回答所听的内容;高年级学生在听过较长的段落以后再回答问题。说的单项考试是对学生进行个别考试。学生可以阅读或是听录音获取考试指令。考试问题也印在试卷上,学生可以边听边看。两种考题的呈现形式:听和阅读,都是为了减少学生理解的负担。老师对学生答案的评判被录下,学生的回答不录下。阅读考试的目的是看学生是否能从所阅读的材料中得出合理的答案。所阅读文章都是由测量英语学习者英语水平的专家所写。低年级考试采用六篇短文,高年级考试采用四篇长文。所测的理解能力着重于三个方面。其一是学生理解所阅读的详细内容以及内容之间的关系;其二是所阅读内容的意义及其引申的关系;其三是学生依据上下文预测文章中生词和词组的意义。客观题型的写作常规考试的主要目的是测量学生能识别有效写作中所使用的原理,这些包括英语语法结构、识别正确的单词拼法及标点和大小写。主观题型的写作主要测量句子以上的教学标准。这些标准包括词语的选择、句子和段落结构、写作的流利程度等。
此考试有以下几个特征。1.依据研究结果,采纳和年龄相适应的考试内容;2.此考试不光测量学生学习用语的能力而且还测量学生日常生活用语的能力;3.此考试和英语作为第二外语的教学标准(TESOL)和各州的标准相吻和;4.此考试可为学生分班和分级提供测量依据并能用于测量学生学习英语的进度;5.此考试的主要对象是中小学学生;6.此考试的试卷是彩色的;7.考试具有常模并且提供纵向量表。
在此考试之前,学生可选择预考。5分钟的快速预考主要是决定学生是否有参加正式考试的英语水平。预考主要测量听、读和写作。教师使用预先确定好的评分标准改卷。
考试的分数报告分成两大类。第一类包括接收性技能(听和读)和创造性技能(说和写);第二类包括社会性技能(听和说)和学习性技能(读、写和写作常规)。这些分数报告显示学生是否已掌握基本的口语交流和学习所必须的英语技能,以加入到正规的英语教学课堂里学习。
此考试设计依据于二外学习和学习课程与目的的最新研究。考试蓝图包括考试的话题、教学的标准及每个话题下考试内容的比例。考试的标准依据于全国和州立的标准,与这些标准的拟合度超过了85%。参与标准拟合的州如下: Arizona, California, Delaware, Florida, Georgia, Hawaii, Indiana, Mississippi, Missouri, South Dakota, and Texas.
目前针对这一考试进行的研究包括2002年春秋季的试考及2003年春季试考。大约有26个州的70个学区参加了试考。考生的母语包括目前世界上广泛应运的15种语言(Arabic, Armenian, Farsi, Filipino, Haitian, Hindi, Japanese, Khmer, Korean, Mandarin, Polish, Portuguese, Russian, Spanish, and Vietnamese)。
此考试把每个等级学生的英语水平分成五个水平:准预备级,预备级,初级、中级和流利水平。分数线是通过调整的安高夫方法(Modified Angoff method)而决定的。
为确保考试的质量,专门成立了一个考试顾问委员会。此委员会由各种专家组成。其中包括把英语作为二外的测试专家、教育家和研究者、考试标准线设定的全国知名专家、中小学英语学习者的测试专家、著名的语言学家、作者和口语语篇的研究者。这些专家主要对以下方面进行指导和监督,偏性/敏感性的审查、心理测量技术的指导、考试效度的研究、写和说分项考试的框架构成、试题的编写、分数等级和标准的设定。总而言之,斯坦福英语水平考试满足了《一个孩子也不掉队》法令中对把英语作为二外的学生的测试要求,同时达到了对英语学习者进行平等教育的目标。
总结
综上所述,斯坦福考试系列既保持了考试理论发展的传统精华,又融人了考试发展的前沿理论,是测试理论在中小学考试中的具体运用的实例。这些考试对美国从前、现在及将来的中小学教育和考试起着举足轻重的作用。我们相信中国的中小学测试事业也可从中获益。
参考文献:
[1]American Educational Research Association, American Psychological Association & National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
[2]Linn, R.L.(1993).Linking results of distinct assessments. Applied Measurement in Education, 6, 83-102.
[3]Wang, S, Jiso, H., Brooks, T., & Young, M.J.(August,2004). Construct equivalence between Customized and original Stanford Achievement Reading Comprehension Tests(Tenth Edition)(Research Report).San Antonio, TX: Harcourt Assessment.
[4]Wang, S., Young, M.J., & Brooks, T.(2003a).The Effects of administration mode on students’s performance on the Stanford Diagnostic Reading and Mathematics Tests(Research Report).San Antonio, TX: Harcourt Assessment.
[5]Wang, S., Young, M.J., & Brooks, T. (2003b).Examining the relationship between the reading and mathematics scores of Stanford Achievement Test(Tenth Edition) and Stanford Diagnostics Reading and Stanford Diagnostics Mathematics Tests(Fourth Edition)(Research Report). San Antonio, TX: Harcourt |