标准化考试

教师之友网 · 发表于 2013-1-24 14:41:28

根据我国一些学者对国外标准化考试资料的研究分析,可以认为,标准化考试是一种大规棋的、具有统一标准的、按照系统的科学程序组织,并对误差作了严格控制的考试。标准化考试一般由专门的考试机构编制试卷并组织实施。为了保证考试的独立性和专业性,世界上许多国家和地区都有这种机构,如美国的教育测验中心、英国的伦教职业考试中心、日本的大学入学考试国家中心及香港考试局等。
　　国际上提倡标准化考试已有几十年的历史，但对什么是标准化考试却至今没有一个严格的科学定义。目前在国内对标准化考试有种种误解，有人认为标准化考试就是由专门的测验机构编制并组织实施的考试（区别于教师自编的测验）；有人认为标准化考试就是采用选择题等能客观评分的题目进行的考试（区别于不能客观评分的问答题、论述题考试）；也有人认为标准化考试就是采用统计学上的标准分来记分、合分的考试；还有人认为标准化考试就是用标准参照号（常模）来解释分数的考试等等。上述看法均不全面，有的甚至不是必要条件。对于标准化考试的含义是否可以这样认为，即标准化考试是按照系统的科学程序组织、具有统一的标准，并对误差作了严格控制的考试。就是说，制定出客观而规范的标准，从命题到考试、阅卷、评分等各个环节，努力减少或避免各种误差，从而测出考生比较真实的成绩，使测验、考试客观可信，准确有效。标准化考试一般由专门的考试机构编制试卷并组织实施。为了保证考试的独立性和专业性，世界上许多国家和地区都有这种机构，如美国的教育测验中心、英国的伦敦职业考试中心、日本的大学入学考试国家中心，以及香港考试局等。其中美国教育测验中心是世界上最大的考试机构，成立于1948年，共有2200多名工作人员，其中有人数众多的心理学、教育学、心理与教育测量学、统计学、计算机科学以及各个学科的专家。目前在世界170多个国家和地区设有一万多个考点，每年对国内外近千万名考生提供上百种不同的考试，著名的托福考试就是该中心举办的。该中心提供的考试成绩享有很高的权威，因试题学术上科学可靠，评分客观一致，试题保密，分数有可比性。它所提供的分数既可与相关的历年的考试比较，又可知考生个人在总体中的地位，如有几门学科成绩，考生还可比较自己各门课成绩的高低。因它能做到历年考题难度类似，而且均用标准分记分，因而可科学地解释并评价考生的成绩。参考资料：http://202.198.141.13:8080/RESOURCE/CZ/CZSW/SWTS/JCJF/SWJXF/836_SR.HTM

教师之友网 · 发表于 2013-1-24 14:43:34

资料：关于引进“标准化考试”的探索与原型

关键词：标准化
１９８５年，国家教育部开始探索我国高考(高考新闻,高考说吧)标准化的道路。１９８９年底通过专家评估，并逐步向全国推广。

如今，考试出题、考生答题、高考评卷包括考试分数等均实行了“标准化”。
　　从恢复高考到引进标准化考试
　　自从恢复高考(高考新闻,高考说吧)，我国教育就在探索改革，包括高考怎么考，考什么。比如1977年恢复的高考没考外语，随后的考试每年都有变化。究竟应该怎样选拔学生，怎样考才更好呢？
　　这里我援引北京《中关村》2003年6月号刊登的《中国高考25年》（作者陈清宇）一文中的叙述：“1982年，教育部学生司派高级代表团访问ETS，并就在中国举办托福考试与ETS签订协议。从此，一种过去闻所未闻的考试以及与它伴随的理论、技术、方法传进了中国。其中最为重要的观念就是‘标准化考试’”。
　　标准化考试是工业化时代教育评价方式的特征。我国引进此种考试的时间是1982年，这正是美国工业化教育发展到顶峰程度的时日。然而到了第二年，即1983年，美国根据本国工业化教育存在的大量问题，发表了《国家在危险中：迫切需要教育改革》，紧接着1984年发表了《赫拉斯折衷方案：美国中学的困境》，1985年就启动了《美国2061计划》。不久，又有万名各领域的学者参与研究《美国国家科学教育标准》。美国由此开始了波及全国的教育转型，考试也逐渐抛弃了标准化，变为对学生的综合评价。
　　而我国在美国逐渐抛弃标准化考试的前夕，于1982年从美国取来标准化考试之“经”，于1985年在广东率先开始标准化考试实验。第二年，山东、广西、辽宁参加进来，实验科目也由数学、英语，扩展到物理、化学。此后参加实验的省市迅速增多，科目也迅速扩大。1989年，国家教委发出《普通高等学校招生全国统一考试标准化实施规划》，标志着标准化考试正式进入实施阶段。
　　至此，高考这根指挥棒产生了空前的指挥效应，标准化考试促使全国的基础教育都不得不跟着应试教育走。
弊端所在
　　标准化考试派生了标准化答案，接着就用上了判卷机器。机器判卷被认为比人来判卷更“铁面无私”，更“科学”。外国厂商也开始到中国推销他们在西方改变评价方式后日益失去市场的判卷机器。中国学生人数甚巨，如果都要使用进口的判卷机器，势必花费大量外汇。为节省费用，国家教委考试中心组织大学进行研制，其成果于1992年通过专家鉴定，清华大学、山东大学的产品开始被广泛使用。当然，今天这些产品并不是没有用场，比如用于选举，用于国民经济的多种统计之中，仍是适用的科技产品。但今天，我们权衡工业化教育的评价方式和新教育所需要的评价方式已能鉴别，把评价学生们富有特点的、千差万别的、生动活泼的答题表述交给机器，已经多么不合适！讲得严重一些，这机器无异于扼杀学生个性的杀手！
　　更大的弊端是这种机械的评价方式使应试教育走到了极端的程度。1998年1月21日《中国青年报》发表了一位家长的文章，题目是《10除以5，得多少？》，摘录如下：
　　小儿7岁，在北京一所不错的学校读二年级。一次数学测验，有一道题是这样的：“10除以5，得多少？”小儿答：10除以5得2。不料被扣了0.5分。请教老师（试卷不由学校出，由学区统一出标准答案），老师说：原因是没有按规定答题，正确答案应是“得2”。好心的老师惋惜地告诉小儿，你这么写是不应该算错的，但是上边对试卷答案有严格要求，以后做除法答题要从倒数第一个“逗号”开始，问什么，答什么，不要多写。
　　小儿记住了，但因此又带来一次“错误”。这次的试题是：“26除以4商几，余几？”小儿答：商6余2。这次又被扣去0.5分。
　　我问孩子，为什么不按老师说的“从倒数第一个逗号开始答”？他很困惑地说：“总不能不答商，只答余数呀！要不，你说怎么答？”
　　我明知孩子说得有理，但也猜不透出题者的要求，只好说：“别管这些，按老师说的办法答，就写‘余2’，看看老师怎么改。”
　　第二天，我们改的题又被判为错。向老师请教，老师也无可奈何地说，这次是试题出得不好，逗号不应放在“余几”处。小儿说：“我不会答题了。”
　　更让我没想到的是语文考试也如此。期末考试前，小儿在一次语文测试中又丢了5分。
　　试题是这样的：把每组词连成句子，写下来，再加标点。给的词是：发明蒸汽机瓦特是的
　　小儿答：“是瓦特发明的蒸汽机。”尽管语句通顺，也符合要求，而且是个正确的强调句式，但小儿没得1分，理由是和标准答案不符。原来上面给的标准答案是：“蒸汽机是瓦特发明的”或“瓦特是发明蒸汽机的”。
　　数次经历让我明白，诅咒与埋怨是没有用的，重要的是不能让孩子被这种僵化的教育毁了。我告诉孩子，你没有写错。小儿马上问我：“那‘发明蒸汽机的是瓦特’，这对吗？”
　　我说：“很好！”
　　1999年1月25日的《中国教育报》也报道，时任教育部部长的陈至立尖锐地指出：连语文的答案也搞标准化，“齐心协力”就对，“同心协力”就错，这样的教育是一种八股教育，不利于学生创新意识的培养。
　　高考的标准化考试是“师傅”，中考乃至小学的标准化考试都是从“师傅”那里学来的。许多家长对这种考试都曾经不理解，哭笑不得。但老师如果不对小学生、初中生如此这般严格训练，将来学生中考、高考都会丢分，考不上高中、考不上大学咋办？……进入大学的学生都经过如此训练，“升学至上”的压力亦将他们的创造性严重耗损。始于高考的标准化考试，一头深深地影响了基础教育，另一头影响着大学教育。
引自：王宏甲，中国新教育风暴（解放日报连载，第四十）
来源：综合编辑

教师之友网 · 发表于 2013-1-24 14:45:38

自从上世纪末，高尔顿（Galton,F.）、卡特尔（Cattel）、比内（Binet,A.）等人开创智力测验以来，一直在考虑要把由于智能不同而产生的测验分数的不同从由于测验条件不同而产生的得分差异中分离出来。最早的智力测验是以个人为单位来实施的。显而易见，每个人的得分受对此人的测验方法的影响。斯皮尔曼1904年发表了一篇《“一般智力”客观地确定和测量》的文章，正式提出了观测的可能误差问题，并建立了信度系数的概念。这就使人们进一步认识到，测验实施的不同方法会对不同受试人的得分可比性产生影响，因此有必要使测验方法标准化。

标准化考试（Standardized tests）是现代教育测量领域中的一个概念，但是对于这个概念，国际上一直没有一个统一的、简要概述的定义。各个使用测验的机构、研究测验的专家，在解释标准化测验时往往都是从各个不同的侧面对标准化考试加以描述。描述大都涉及命题、施测、评分、分数转换与解释、测验的种类等方面（见由国家教育委员会考试管理中心主编的《标准化考试》）。如R.M.莫伊（moy）认为测验的标准化是一种把原始分数量表转换为稳定的、可检验的、有意义的测量单位的过程。原始测验分数本身并没有固定的意义。它们仅仅是那些无法观测的心理能力的间接指标。测验的使用者要将分数与成绩的外在标准联系起来，才能对分数作出解释和决策。依靠原始分数作决策似乎有些武断而且效果不佳。说某人得了75分，还不如说他的分数居于大学一年级学生的前30%，或说分数代表他掌握整个试题领域的60%更有意义。当提到考试的标准化时，常常要涉及试题的编制、考试的实施、阅卷、评分、分数转换与解释几个方面。前面提到了标准化考试到目前为止还没有一个统一的和公认的概念。国内研究考试的专家和从事考试的实际工作者在吸取国外考试经验的基础上，给标准化考试下了这样的定义。标准化考试是“一种按系统的科学程序组织，具有统一的标准，并对误差作了严格控制的考试”。考试标准化包括试题编制、考试实施、阅卷评分以及分数转换与解释等四个环节。

教师之友网 · 发表于 2013-1-24 14:51:46

标准化测验的定义及其新走向[zt]一、标准化测验的定义

许多教师同时也被要求实施标准化测验，至少一年一次，评价它们的结果，向好奇和偶尔表示关心的父母解释其测验结果。

标准化测验是由测验设计专家所开发的，常常是在课程专家、教师以及学校行政人员的帮助下，评估一个学生的作业水平相对于学龄相仿、年级相同的其他人的水平。因为这些测验的进行和评分依据特殊的和格式化（标准）程序，所以称之为标准化测验。

当一个学校使用标准化测验时，行政方面能更为容易和更有信心地将测验结果与不同的学生、班级、学校、学区进行对比，这不同于教师自制试卷的情形，所以，绝大多数情况下，学校为进行对比而采用标准化测验。这与教师自制试题的测验旨趣迥异，后者是为了判断学生的掌握水平或技能水平，评定等级，向学生及其家长提供详细具体的反馈。

标准化测验的结果以百分位数等级的形式报告结果，百分位数等级使你能够判断一位学生同其他同年龄或同年级的学生相比的成绩。当解释百分位数等级时牢记两点：

1．百分位数等级常常同百分正确率相混淆。当使用百分位数等级时，确保你所表达的是一种百分位数等级。例如，62意味着该考生的得分超出62%的所有参考考生（称为常模标准），易言之，可以认为62%的参考人得分比该考生低。（常常出现这样的情形，第62位百分位数的分数被误解为意指仅正确解答62%的题目的学生，请认识到第62位的百分位数的考分可能意味着B等或C等，而6 2%的正确答题可能是F等。）

2．百分位数顺序间相同的差异并不必然意味着相同的成绩差异。在100名小学生的判分中，百分位数第2位和第5位的成绩差异悬殊，而百分位数第47位和第50位的差异则无足轻重。百分位数排序的诠释，必须考虑到极端或极限值的百分位数倾向于扩散分布，而接近中间值的百分位数倾向于聚集（就像橡皮筋的拉伸和回缩一样）。
二、标准化测验的新走向

近来，标准化测验已经经受了批评。批评主要集中在标准化测验的相关性方面的三个问题：

1．课堂学习建立在标准化测验所测量的技能之上吗？

2．这些测验对来自多元文化和少数民族背景的学生公平吗？

3．这样的测验提供的信息能对课堂教学决策的制定有用吗？

对这些问题的考虑导致了设计标准化测验的调整和更替方法。在这些更替方法和调整中，蕴涵的四种假设很可能会在将来的标准化测验的开发中起指导作用。让我们简要地看一下。

（一）学习是一个过程

传统上，标准化测验通过致力于制定与达到学习结果相关的过程的假说，来测量学习结果（事实，原理，原则，普遍化理论等等），但实际上它并不测量这些过程。例如，标准化方法假设，可以通过系统地记录学习的效果来测量习得，那反复地对效果的测量将克服本身的任何不精确，所获得的学习的数值可以通过相对的而不是绝对的测量所掌握。

（二）学习能力可以被提高

标准化测验方法源于我们历史上的一个时期，当时我们认为，学习能力是天生的、固定的，并且在很大程度上是不可改变的，这些信条给标准化测验的设计和诠释施加了强烈的影响。现今我们知道可以加强一些类型的学习能力，许多技能可以作为工具性的运用。标准化测验的新方法倾向于建立在学习能力的调整优化上，并且建立在识别那些可以通过教学而改变的具体的学习能力上。
（三）学习发生在复杂的社会情境中

从标准化方法分离出来的许多测验题视学习主要为一种个人的活动。这样的测验结果已被用来将学习者放在一个强调同质小组的计划里，或放在那种突出自主学习、或者掌握学习的教学计划里。但是课堂的本质是社会性场景，绝大多数学习发生在一个社会情境中。既然学习本质上是社会性行为，标准化测验的新方法倾向于把老师和同辈群体相互作用影响学习的过程也考虑在内。将来标准化测验的一个目标也许会把学童在小组合作学习中的学习和课堂教学自然发生的对话包括进来。

（四）学习评估应该具有教学效用

课堂教学中使用标准化测验的基本毛病之一，在于它们未界定出能帮助学生摆脱学习上的不足的那些教学的作用，这就是所谓的“测验的教学效用”。学习的评估不仅应该可信地指明学习上的不足，而且应该指出补正的道路。为满足这种测验效度的标准，未来的标准化考试可能不得不超越仅仅展现内容、一致性以及预测效度。它们将不得不展示出证据，证明以学校为本的项目能够匡正它们所暴露出的学习上的不足。

		自动登录	找回密码
密码			注册

标准化考试

相关帖子