中小学英语教学中的测试与评价

教师之友网 · 发表于 2013-3-17 09:06:07

中小学英语教学中的测试与评价

北京师范大学外文学院田贵森
摘要：本文首先介绍了英语测试与评价的发展趋势、基本理念、以及《英语课程标准》（实验稿）对中小学英语教学及测试与评价的要求；然后从一线教师的角度讨论了中小学英语教师在教学中实行形成性评价的意义、原则和做法。

关键词：英语测试；中小学英语教学；评价；形成性评价

一、引言

英语教学和英语测试（testing）与评价（assessment）是教学过程中密不可分的两个部分。有教学的地方就会有测试和评价。测试和评价的原则和方法总是对教学有着非常强的反拨作用（backwash），也就是影响。这种反拨作用既可能是正面的，可以促进教学；也可能是负面的，会冲击教学。因此，了解并掌握英语测试与评价的基本理念和方法有助于中小学老师的英语教学工作。本文重点介绍英语测试和评价的发展趋势、基本理念和中小学英语测试与评价的基本要求；并介绍形成性评价在中小学英语教学中的原则和做法。

二、英语测试与评价的发展趋势

近年来，我国的外语教育发展很快，外语测试和评价工作也有了突出的发展和改进。综观英语测试和评价的发展，有四个方面的进展和趋势。

（1）外语测试成为一门独立的学科

我们平常觉得很普通的英语测试和评价工作，实际上涉及到多方面的理论和知识。到了二十世纪六十年代，外语测试已经发展成为一门多学科交叉的跨领域学科，其理论和应用涉及普通语言学、应用语言学、社会语言学、心理语言学、外语教学法、心理统计、教育测量和计算机科学等。外语测试主要通过研究各种外语测试的指导思想、测试目的、考试内容、方法、命题技巧、评分以及通过数据分析、评价测试和学生成绩，探讨外语测试的规律。

（2）标准化外语测试普遍使用

70年代以来，我国外语考试的改革走在了其他学科的前面。英语界最早引进多项选择题和完形填空测试方法，为题型的改革作了有益的尝试。1981年我国研制开发了第一个英语标准化考试（EPT），在此基础上，又发展了CET、MET、PETS等有影响的英语标准化考试，并先后引进了光电阅读器阅卷和计算机英语考试（高兰生等，1996）。大规模测试试卷的设计、制作、实施和使用的标准化程度得到提高。

（3）交际语言测试受到重视

近二十年来，随着交际教学法的发展，以考核学生语言交际能力为主要目的的交际语言测试（communicative language testing）受到了越来越多的重视，有条件的考试都增加了英语口语和听力考试。

（4）提倡形成性评价外语测试

近年来，语言学习理论关于语言发展过程的研究和学习者个体差异的研究给外语教师带来了观念上的变化。以学生为中心的外语教学，激励学生讲英语，鼓励学生多投入，多练习，通过学生的体验、参与、实践和合作，形成积极的学习态度，促进语言实际运用能力的教学理念受到关注。形成性评价和终结性相结合的多元评价体系成为新课程评价改革的主要目标。

三、英语测试与评价的主要作用

英语测试和评价在英语教学中的作用和功能，主要有以下六个方面，分别是：

（1）诊断语言程度

主要是了解学生现有语言水平，发现和诊断语言学习中的问题，英语中称为“diagnostic test”，如：新生入学后的“摸底考试”。教师可根据测试的成绩和信息，修订或调整教学计划，或根据学生的水平进行分班。

（2）检查学习进度

主要是检查和评价学生在某一阶段或某一课程学习中对所学内容的掌握情况，英语中称为“achievement test”，如：期中考试、期末考试。考试内容应是学什么，考什么。教师可根据学生的成绩，发现问题，制定相应的补救措施，改进教学。

（3）衡量英语水平

主要是测量学生英语语言知识和综合运用英语的总体水平，英语中称为“proficiency test”，如：美国的托福考试（TOEFL）。考试内容不针对任何教材和课程。主要用来筛选和选拔人才，试题难易有跨度，以利于区分考生的优劣程度。

（4）预测外语学习

主要是预测学生是否具有学习外语的天赋或潜在能力，英语中称为“aptitude test”。考试不太关注学生已掌握了多少东西，主要关注考生识别、理解、模仿、记忆、归纳和学习一门新的语言的能力。这种考试主要用来帮助选拔人才或选择专业。

（5）激励学生学习

前四项作用和功能是四种主要的测试类型。从教师的角度来看测试。还可以再列出一种功能，就是激励学生学习。如果期望学生在英语学习的某一方面有所进展，老师可以“just test it”。因为要考试，学生会努力学习，这种考试要做到考试形式容易有趣，语言素材真实实用。

（6）评价教学科研

作为教师，除了教学工作外，还会经常做一些教学研究。如：探讨教学方法或教材；研究学生学习的个体差异。要客观地回答我们的研究课题，或验证我们的假设，需要根据考试的结果进行分析和判断。

以上的讨论是从语言测试和评价整个学科的角度归纳的。具体到中小学英语教学，特别是小学阶段的教学，测试和评价工作要重视发挥测试的激励和改进功能，淡化和弱化测试的筛选和选拔功能。

四、英语测试与评价的主要标准

英语测试与评价是检测学生综合语言运用能力发展程度的重要途径。好的语言测试一般应具有五个特征：即，有效性（validity）、可靠性（reliability）、区分性（discrimination）、实用性（feasibility）和教育性，即良好的反拨作用（backwash effect）。

（1）有效性，（效度）指语言测试能测出预定要测量的事物的程度，或能够引起预报作用的程度。如：用作文考查写作能力就比用多项选择题有效。用听写考查听力，评分不当，考试有效性就会降低。有效性反映在测试的不同方面，验证有效性要通过多种途径收集数据。如：内容有效（考试内容的代表性，选择内容应广泛）、结构有效（试卷结构的合理性，兼顾语言内容和技能的各个方面）、共时有效（现行考试与以往成绩的关系，与教师掌握的情况相比较）、预测有效（考试成绩与学生以后发展的关系）、答题有效（学生答题情况：是否认真，是否作弊）等。

（2）可靠性，（信度）指语言测试的测量结果一致性的程度。包括考试的可靠性（稳定一致的程度）和评分的可靠性（稳定一致的程度）。

（3）区分性，（区分度）指某次语言测试能够区分参加考试学生优劣的程度。检验试题的区分度，主要是测算难易度和区分度。如：我们出了50道题，100个人来做。有的题，100人全都做错了，或100人全都做对了，这样的题就是太难了或太容易了。好的试题的难易度在30－70之间。有的题，如果水平好的同学做对了，水平差的同学做错了，这样的题就有一定的区分度。测算的时候，要把学生分为三组，比较高分组和低分组答题的情况。有的题，如果水平好的同学和水平差的同学做对的一样多，就是没有区分度。如果水平好的同学做错了，水平差的同学猜对了，这样的题就是废题，一定要淘汰。

（4）实用性，指实施语言测试的难易程度，投入的人力和财力；评卷的难易程度和解释分数的难易程度。如：大规模考试要考虑便于操作和试卷保密、主观题评分的可靠性等方面。
（5）教育性，即良好的反拨作用，指语言测试对语言教学和学生学习的反拨作用和影响。好的外语测试应对受测者和教育者起正确引导和教育作用。如：国家教育部希望提高学生外语的听说能力和语言运用能力，希望学校方面多花些时间在听力技能教学上，决定在高考中引进听力测试，由此产生的反拨作用是老师和学生在听力技能方面的重视和投入以及提高。可以看出，这种测试对全面提高学生的语言能力有促进作用，具有教育性。但是，也有一些测试或试题设计的不错，区分度很高，也便于实施，但是，使用不当，对教学会产生副作用，如：外语测试中的多项选择题。由于使用过多，加之部分教师误导，不少同学产生误解，认为学外语就是做多项选择题，多做多项选择题就能学好外语。或夸大测试的功能，把测试成绩绝对化。用模拟考试、做试题冲击教学，替代讲课和练习，把生动活泼的外语教学变成枯燥的应试技巧训练，都是测试负面的或有害的反拨作用。

五、新时期中小学英语测试与评价的基本要求

《英语课程标准》（实验稿）指出，测试与评价的三个主要目的是：“使学生在英语课程的学习过程中不断体验进步与成功，认识自我，建立自信，促进学生综合语言运用能力的全面发展；使教师获取英语教学的反馈信息，对自己的教学行为进行反思和适当的调整，促进教师不断提高教育教学水平；使学校及时了解课程标准的执行情况，改进教学管理，促进英语课程的不断发展和完善。”《英语课程标准》（实验稿）主张建立能激励学生学习兴趣和自主学习能力发展的评价体系，评价体系应由形成性评价（formative assessment）和终结性评价（summative assessment）构成。

《英语课程标准》（实验稿）建议终结性评价（如期末考试、结业考试等）要注重检测学生综合运用语言技能和语言应用能力。终结性评价是反映教学效果、学校办学质量的重要指标之一，要客观、科学、全面考查学生在经过一段时间学习后所具有的英语水平。测试应包括口试、听力考试和笔试等形式。《英语课程标准》（实验稿）同时指出形成性评价是教学的重要组成部分和推动因素。在英语教学过程中，应以形成性评价为主，注重培养和激发学生学习的积极性和自信心。一线英语教师应善于将形成性评价有机地融入教学过程，营造开放宽松的评价氛围，形成生动、活泼、开放的学习气氛。同时应了解和熟悉终结性评价的要求和形式，观察两种不同形式的评价结果，分析和研究两种评价的相关程度，以全面评价学生学习效果并反思教师教学工作。

六、形成性评价的主要原则和方法

形成性评价注重对学生发展和学习的作用。形成性评价的主要目的是激励学生学习，帮助学生有效调控自己的学习过程，使学生获得成就感，增强自信心。教学课程中进行的向学生和教师说明学生学习进展的测试，只包括被教的内容，说明学生是否需要增加学习量或注意力。形成性测试通常以及格或不及格表示，如果不及格，学生就得加强学习并重新参加考试。

形成性评价的主要主张和特点为：

1．重视语言学习的过程，而不是语言学习的结果；

2．重视动态的进步，而不是静态的位置；

3．认为学习和测试是有机的整体，而不是分阶段的、分离的任务；

4．语言学习本身是一个不断学习的终身教育，而不是考试前的阶段性任务；

5．鼓励合作性学习，而不是学生间的竞争或攀比；

6．重视学生是否达到课程的标准，而不是学生的成绩在班里的位次；

7．关注学生的进步和能力，而不是学生的弱点和失败；

8．重视学生参与和进步（建立学生档案），而不是一次的考试成绩（保存试卷）；

9．注重试题或评价的多种可能性答案，而不是答案的唯一性；

10．鼓励教师开发有意义的课程内容，而不是为考试、为名次教学。

形成性评价的实践还是一个新的课题，方法是多样的。这里我们列出几种主要的形式（Genesee，2001），供老师们参考。

1．课堂观察（classroom observation），教师通过对学生在课堂上听课、交谈、使用教材或运用语言的观察，评价学生的学习情况。观察记录可以是表格统计的形式或日记形式。

2．学生成绩档案（portfolios），教师可以为学生建立一个档案袋，记录学生在学习过程中所做的努力和取得的成绩，增强学生的参与意识和学习热情，并作为自我评价的依据。

3．学习周记（journals），安排学生每周写周记总结和归纳本周的学习内容，分享喜悦，反思不足，总结经验，探讨技巧，是学生和老师交流的有效途径。也可以安排学生写读书笔记（reading journals），通过写读后感思考问题，表达自己。

4．问卷调查（questionnaire），给学生发放问卷，通过问卷，引导学生有效地、正确地评价自己的学习。问卷可以是自我评价，也可以是相互评价。

5．面谈（interview），教师可定期安排与学生面谈，通过面谈了解学生对自己学习情况的的感受和看法，以评价学生的进展和问题。

6．讨论（students conference），安排学生座谈，给学生提供相互交流的机会，这种互动讨论为教师提供了具体的评价机会。

进行形成性评价时，要有计划地根据教学内容灵活设计，做到持之以恒。评价要有利于学生的情感投入，有利于学生的自主学习，有利于培养学生的学习策略，有利于学生生动活泼地学习。

七、结语

学习和了解语言测试的基本理论，认识英语教学和英语测试与评价的相互依存关系，规范和改进英语教学中的测试和评价工作，学习《英语课程标准》（实验稿）关于测试与评估的理念与建议，已经成为新世纪英语教师提高自身业务水平的必修内容。只要我们创造性地运用形成性评价和终结性评价测试手段，将形成性评价有效地引入自己的课堂教学，利用语言测试对教学的反拨作用，激励和引导学生生动活泼地学习，我们就一定能够提高英语教学效率，提高英语教学研究的水平。

参考文献

［1］Genesee，Fred ＆Johna A．Upshur．Classroom-based Evaluation in Second Language Education［M］．Beijing：Foreign Language Teaching and Research Press，2001．

［2］Heaton，J．B．Writing English Language Tests［M］．Beijing：Foreign Language Teaching and Research Press，2000．

［3］Hughes，Arthur．Testing for Language Teachers［M］．Cambridge：Cambridge University Press，1991．

［4］陈琳，王蔷，程晓堂．英语课程标准解读［M］．北京：北京师范大学出版社，2002．

［5］高兰生，陈辉岳．英语测试论［M］．南宁：广西教育出版社，1996．

［6］刘润清，韩宝成．语言测试和它的方法［M］．北京：外语教学与研究出版社，2000．

［7］武尊民．英语测试的理论与实践［M］．北京：外语教学与研究出版社，2002．

［8］中华人民共和国教育部．英语课程标准（实验稿）［Z］．北京：北京师范大学出版社，2001．

（注：本文是作者2003年4月13日在杭州“全国小学、初中英语外语教学（TEFL）专家学术报告和优秀课例观摩会”上的发言，在本刊发表时做了适当修改。）

教师之友网 · 发表于 2013-3-17 09:09:34

关于英语测试
作者：佚名文章来源：本站原创

第一节  英语测试的意义
英语测试是英语教学的重要组成部分，是为及时改进教学方法而获取教学的反馈信息的重要手段。
通过测试，教师可以了解学生的学习情况，如语言知识和言语技能的水平、学习态度和方法等，从而检查自己的教学质量，总结自己在教学内容、教学方法以及教学进度等方面的经验和教训，发现问题，及时加以改进。
通过测试，学生可以了解自己的学习情况，总结自己在学习态度和学习方法方面的经验教训，发扬成绩，纠正错误，端正学习态度，改进学习方法，争取更好的学习成绩。学生参加测试的全过程，从复习、答卷到总结讲评，是学生再学习的过程。应该通过测试使所有学生在原有的基础上都有显著的提高。
同其他学科的测试一样，英语测试对学生进行思想品德的教育也有着相当的作用。因为严格要求、科学安排的测试将有助于激发学生刻苦好学的进取精神，培养学生实事求是、遵守纪律的良好品德以及谦虚谨慎、一丝不苟的优良作风。
第二节  英语测试的类型

要有效地实现某种英语测试的目的，必须对各种类型的英语测试的性质和作用有明确的认识。从不同的角度看，英语测试可分为以下几种：
一、根据测试目的区分
1．成绩测试（Achievement Tests）  成绩测试的目的是检查学生掌握所学教材的情况是否达到教学大纲和教材的要求。试题不能脱离教学大纲的要求、超越教学内容的范围。学校里一般进行的测试，如期中考试、学期考试、毕业考试，都属于这类测试。
2．水平（即熟练水平）测试（Proficiency Tests）  水平测试的目的在于检查应试者的英语熟练程度是否达到进行某种活动应有的要求，如出国留学、专业培训以及从事某项专业工作所应有的英语水平，等。测试命题不一定遵循教学大纲，也不受某一特定教材所限制，可根据测试的要求制定考试大纲作为命题的依据，也可作为应试者复习备考的指南。美国的TOEFL（Test of English as a Foreign Language，英语作为外语的测试）、我国的EPT（English Proficiency Test，英语（熟练）水平考试）以及专业技术人员评定职称时的外语考试，都属于这一类型。
3．能力倾向测试（Aptitude Tests）  能力倾向测试的目的不是检查应试者的现有英语水平，而在于判断应试者学习语言的秉赋或潜在能力，因而又称为“语言秉赋测试”。测试的内容不应是应试者所学的知识，而应是应试者的智能，例如学习英语所需的敏感性、模仿力、记忆力、观察力以及逻辑推理、分析比较、综合归纳等思维能力。我国1985—1987年的MET（Matriculation English Test）就包含有这方面的内容。
4．诊断性测试（Diagnostic Tests）  诊断性测试的目的在于了解学生在某一方面的学习困难和教学上的薄弱环节，以便针对问题，采取相应措施，改进教学。这类测试题量随需要而定；可以不记分，但应作必要的记录和统计。教师接受一个新教学班时的摸底考试也属于这一性质。
5．分班测试（Placement Tests）  分班测试的目的在于了解学生英语水平的差异程度，以便妥善地按学生程度分班、组织教学。试题的区分度要高，这样才便于鉴别学生英语水平的差异。
以上五种类型的测试并非总是彼此孤立、互相排斥的。有时一次测试可兼具两种性质。例如新生入学后的摸底考试既可作为了解学生学习困难所在的诊断性测试，也可作为分班依据的分班测试。有时在一种测试中，可以包含另一种测试的内容。例如，在高校招生考试的水平测试中，可增加一定量的能力倾向测试内容。
二、根据语言学理论区分
1．分列式测试（Dicrete-point Tests）  分列式测试是按照语音、词汇、语法等语言知识和听、说、读、写等言语技能分类编制试题，进行单项测试，如单词释义、动词填空、句型变换等，以便了解学生对某一语言项目的掌握情况。
2．综合性测试（Integrative Tests）  综合性测试的目的在于测定应试者综合运用语言知识和技能的水平，如听写、完形填空、翻译、作文等。
在一次英语测验中，往往兼有分列式测试和综合性测试两方面的内容。初中阶段多以分列式测试为主，但也应有一定数量的综合性试题。
三、根据评分方法区分
1．客观性测试（Objective Tests）  每一试题只有一个正确答案，评分不受评分人主观因素的影响。例如，多项选择、填空和词义匹配等。
2．主观性测试（Subjective Tests）  一个试题可以有几个不同的正确答案，其正确程度和评分标准取决于评卷人的主观判断。例如，问答、朗读、翻译和写作等。
四、根据评估学生成绩所参照的对象区分
1．常模参照测试（Norm-referenced Tests）  “常模”是指同一批被测者在该次测试中成绩的一般情况或平均水平。这类考试的目的在于测定应试者之间英语水平的差异。因此，单看某一应试者的成绩，是无法确定其意义的。只有将每个考生的成绩与全体考生成绩的平均水平（也就是“常模”）进行比较，才能确定其优劣。入学招生考试就是一种常模参照考试。
2．标准参照测试（Criterion-referenced Tests）  标准参照测试是以一定的标准（例如教学大纲）为依据，检查学生是否达到既定的标准，从而判定优秀、良好、及格、不及格等级别，而不需与其他考生成绩作比较。学期考试、毕业考试就属于这一类型。如某一考生的成绩为百分制的60分，就达到了及格的标准，不需考虑其他考生的成绩如何。而在常模参照测试中，60分的成绩如不与其他考生成绩作比较，孤立地看就无法判定其优劣。如果该次测试，常模平均分为40分，标准差为10，60分的成绩则在优秀之列；反之，如果常模平均分为80分，标准差为9，60分的成绩则属于劣等。
五、根据测试方式区分
1．口试（Oral Tests）  口试主要检查考生听、说、朗读的技能和口语交际能力。
2．笔试（Written Tests）  笔试主要检查考生的语言基础知识和书面运用英语的能力。
六、根据测试要求区分
1．能力测试（Power Tests）  能力测试的目的在于了解应试者掌握英语知识和技能的情况，只了解是否懂或者会，而不要求其熟练程度。考试时间较充分。诊断性测试多属于这一性质。
2．速度测试（Speed Tests）  速度测试的目的不仅要了解应试者是否掌握某项语言知识或技能，而且要了解其掌握的熟练程度。因此题量较大，考试时间要有严格的控制。
七、根据测试规模区分
1．大规模测试（Large－scale Tests）  这种测试由专门机构和专职人员负责组织实施，规模大，正规化程度高。目的在于供有关方面选拔人材或评定被测人员的水平。美国的TOEFL、我国的EPT和MET以及各级教育行政部门组织的“统考”均属于这类考试。
2．课堂测试（Classroom Tests）  这种测试规模小，由教师自己命题组织实施，如期中、期末考试等。
以上分类是从不同角度出发所产生的不同测试名称，因此同一测试可以具有不同的名称。例如MET，从测试目的看是熟练水平测试；从语言学理论看是分列式与综合性相结合的测试；从评分方法看是客观性测试为主兼少量的主观性测试；从评估成绩的参照对象着是常模参照测试；从测试方法看，目前对非英语专业的考生是笔试，对英语专业的考生是笔试与口试两种形式兼用；从测试要求看是速度测试；从测试规模看，是大规模测试。如果进行一次以了解学生对被动语态掌握情况为目的的小测试，则应分别属于诊断性测试、分列式测试、客观性测试（各题的答案均限于一个）、标准参照测试、笔试、能力测试、课堂测试等不同的范畴。
第三节  课堂测试的工作要点

测试是一项复杂的工作。大规模的标准化测试是由专门机构和专职人员负责组织实施。考试的全过程（从确定测试目的、制定考试大纲、编拟试题、评阅试卷、计算成绩到分析测试结果）是一项系统工程。考试全过程的科学化和现代化保证了测试有较高的信度（测试的可靠性）和效度（测试的有效性）。
学校中的课堂测试由教师组织实施，规模小，受到各方面条件的限制，不可能像大规模的标准化测试那样每个环节都按照严格的科学程式进行，但也必须遵循测试的基本原则，逐步实行标准化，努力提高测试的信度和效度，才能取得良好的效果，实现测试的目的。为此应注意以下工作要点。
一、要明确测试的目的和意义，不能将测试作为迫使学生学习和奖惩学生的手段。测试次数不能过于频繁，以免加重学生的身心负担。为了及时获得教学的反馈信息，准确地评定学生的成绩，可灵活采用不同形式的检测方式。每学期除安排期中、期末考试各一次外，可根据教学进度举行一至二次阶段考试，以一节课的时间为限。还可与平时课堂检查相结合，进行10—15分钟的小测验。这样既可使教师能随时了解教学的发展情况，也能得到较多的学生成绩的数据，为评定学期成绩提供较为客观和可靠的依据。
二、要根据教学大纲的要求，全面考察学生的语言基础知识和综合运用语言的能力。不仅要进行书面检查，而且要测试听力和口语能力。在班大人多的情况下，进行听说能力检查的口试确有不少困难，但只要善于组织安排，这些困难也可逐步创造条件解决。可以将听力检查用笔试的方式进行，如听写、听力理解等。可在平时口头检查（如朗读、复述课文或口头答题等）记分的基础上每学期安排一次口试。口试时每个学生以不超过三分钟为宜。如以每班50人计算，三小时左右即可完成一次口试。学生的口试情况可用录音机录下，试后评分。这不仅可以加速口试进程，而且有充分的时间评定成绩，防止仓促定分之弊。
命题覆盖面要广，难易适度，针对性要强。试题量要足够，以便充分检查学生掌握语言知识和言语技能的情况以及运用语言的熟练程度。测试内容要尽可能涉及所学项目，又要体现这一阶段的教学重点。要采用分列式与综合性测试相结合，客观性测试与主观性测试相结合的方式编制试题，以保证测试必要的信度和效度。
三、要提高命题工作的计划性和科学性，实现命题程式化。命题程序一般应包括：
1．决定考拭内容和认知层次的比重，制定双向细目表。下面是一份虚拟的初中课本（通用）第三册课堂成绩考试命题双向细目表。（表一引自“英语课堂考试的命题方法”，《中小学英语教学》1988年第5期第8页，略有改动）

2．决定考试方法，编制试题题型表。表二是根据上面的双向细目表所编制的试题题型表。（出处同上）
3．拟定试题。注意分配试题的难度比重。课堂成绩测试全卷平均难度以0.7—0.75为宜；中等难度的试题，应占60％左右，难度最大和最小的题各不宜超过10％。
4．检查修订试题，制定评分标准。在不能进行预测的情况下，可请同科教师试答全卷，从而发现问题，修改试卷用语、试题内容、答案和评分标准等方面的错误和不当之处。
四、注意试卷的设计和安排，提高试卷的卷面效度。
卷面效度是指试卷的卷面情况对测试结果所造成的影响。虽不涉及卷面内容，但关系到考生是否能发挥其正常水平，从而影响

测试的有效性和可靠性。关于卷面，应注意以下几点：
1．试卷用语要准确，不致产生歧义。特别强调的词语应使用黑体字或大写字母表示。要注明各题的计分办法。
2．题型不宜过多，特别要慎用新题型。出现新题型时，应有说明或示例。
3．试题安排一般应由易到难。
4．题目中不应含有暗示本题或其他题答案的线索，特别是两个以上教师合出的试题，在拼题时更应注意检查是否存在这种因素。
5．多项选择题的题干不宜太长，题支（选择项）应排列整齐。题干和题支，应尽可能排列在同一页上。
6．试卷印刷要清楚，不能出现文字、标点、格式等方面的任何错误。试卷付印前，要仔细检查校对。要把卷面错误绝对消灭在印刷之前，为防万一，印好后还宜核查一次，绝不能在测试时再改正差错。
6．严格检查份数，密封专人保管，严防失窃和泄密。
五、在测试实施过程中，要排除干扰学生答题的种种因素。除回答试卷中某些印刷不清的问题外，监考人不得对全体或个别考生对试卷作任何解释或暗示。监考教师的态度既要严肃认真，又要和蔼亲切，防止加重学生的思想压力和心理负担。监考人衣着应朴素大方，不要在试场内频繁走动。要严格执行考场纪律，杜绝一切作弊的现象发生。为防止窃视、传递等作弊现象，可采用A、B卷（试卷内容、题量完全相同，仅小题或选择项排列次序不同）间隔分发的“梅花形”排卷法。如下图：
A          B          A       B       A       B
B          A          B       A       B       A
A          B          A       B       A       B
B          A          B       A       B       A
六、评卷计分要客观准确，做到给分有据，扣分有理。主观性试题要有明确具体的评分标准，包括计分原则、不同类型错误的扣分办法、可接受答案等。作文之类的大型主观性试题，可采用“九堆法”评分。先将全部抽样试卷分为好、中、差三类，然后将每类试卷再分为上、中、下三等，先试评一部分试卷，初步确定各档次的得分；再评一部分试卷后，调整并确定各档次试卷的计分办法。评卷计分要始终如一，防止因阅卷人的心理状态、卷面的整洁情况、客观环境的影响等出现忽高忽低、时宽时严的现象。

第四节  测试的方式方法

课堂测试常用的方式方法，有以下几种：
一、多项选择
这种题型适用性强，既可测试语言知识，也可测试运用语言的能力。形式灵活：有判断式，如单词辨音、判断重音、语调等；有问答式，如阅读（听力）理解测试中，在读（听）一段材料后，提出一个问题并配上几个供选择的答案让考生从中选定一个正确的答案；有填充式，如在语法、词汇测试中，让考生选择正确的词语填在题于中相应的空白处。
选择项可以是二至四、五个不等。目前多采用“四选一”的形式。选择项越少，猜对的可能性越大；选择项越多，命题的困难程度越大。多项选择题的难度主要取决于干扰项诱答性的强弱。干扰项应该“似是而非”，才能起到诱答、干扰的作用。但要注意选择项中不能出现模棱两可的情况，特别测试语言知识的试题，选择项中应只含有一个唯一正确的答案，不应出现可接受的其他答案。例如：
It was yesterday____ he arrived here．
A．that B．when C．where D．there
命题人的意图是选择A为正确答案。但在这个强调结构中，被强调部分是副词（不是介词短语），也可用when。因此选择项A、B均为正确答案。选择项C、D干扰性不强，稍有英语常识的学生都知道where和there与地点有联系而与时间无联系，很少会有考生选择这个答案。这样的多项选择题必须淘汰。测试阅读理解能力的试题，为检查学生的分析、综合、推断的能力，可以提出选择最佳答案的要求，但必须慎重使用。
二、判断是非
这种题型可用于测试语言知识，如判断一个句子的用词或语法形式是否正确；也可用于测试言语技能，如在阅读（听力）理解中就所读（听）材料判断某些陈述的内容 True／False．
判断是非，也可与多项选择和改错相结合。例如，指出句中划线部分中哪一部分是错误的并改正其错误：
She looks not so old than my younger sister．
A          B       C          D
答案C（as）
三、匹配
这类题多用于测试语音、词汇和语法知识。例如：
1．根据词中元音字母或字母组合的读音，将下列单词分别填在相应的国际音标后面：
have，cut，put，up，make，live，life，five，my，bag，book great，read， food
/$/：have，bag，____．
/u/：put，book，____．
/)/：cut，up，___．
/i/： live，____，____．
/ai/： five， life， my．
/ei/： make， great，____．
2．从下面B栏中选出与A栏单词相应的反义词，并将其序号填入A栏相应单词后边的括号内：
A                                              B
1．above（11）                                  1．take
2．up（9）                                           2．sell
3．like（v．）（10）                               3．borrow
4．cheap（4）                                     4．expensive
5．less（6）                                        5．great
6．few（8）                                        6．more
7．buy（2）                                        7．little
8．lend（3）                                        8．many
                                                   9．down
                                                   10．dislike
                                                   11．below
                                                   12．unlike
3．从下面B栏和C栏中分别选出适当的部分与A栏组成5个句子（每项只能用一次）：
A                               B                               C
We                                  has seen the film             last week．
Mary                               have studied English       twice．
His                                  parents told them             for two years．
I                                     gets up early                   an interesting story．
His sister                         brought us                      every morning．
They                               met him                         every day．
* * * * *
1．We told them an interesting story．2．Mary has seen the film twice．
3．They have studied English for two years．4．His sister gets up early every morning．5．I met him last week．　
四、填充
填充题的形式多样，可以是单句填空，也可以是短文填空；可以是单列式填空，也可以是综合性填空。中学课堂测试中最常见的是用适当的动词形式填空和完形填空。
用适当的动词形式填空可以填在单句内，也可以填在短文内；可将动词原形置于所填空白处，也可将动词原形集中于题首，并适当增加几个动词，让考生根据文义选用。如某些空格处需加用助动词、情态动词时，应在题首指导语中说明。
“完形填空”是检测考生阅读理解能力和综合运用语言知识能力的综合性试题，应该把它与单纯考查词汇、语法知识的单列式填空区别开来。完形填空可采用多项选择的形式，也可以不提供选择项，由考生自选恰当的单词填空，或者在所填空白处给出应填单词的第一个字母，作为选词的线索。
设计完形填空试题，应注意空格之间的间隔和密度。一般地说，首句和末句不应省词留空，可以每个简单句或分句留一个空，空与空之间的间隔不宜少于五个单词。有一种完形填空试题是按规定词数留空，也不提供选词范围，难度较大，目前在中学特别是初中不宜使用。根据我国目前英语教学情况，最好在预定测试目的要求的前提下，采用多项选择填空的形式，以便有针对性地测试考生阅读理解和综合运用知识的能力。
五、转换
转换题多用于各种句型、句式的转换，如肯定句与否定句、陈述句与疑问句、主动语态与被动语态、直接引语与间接引语之间的相互转换，等等，也可用于词类的转换。例如：用句子后面所给单词的适当形式填空，使句子意思完整。
1．He's much（interested）in science books．（interest）
2．Polluted air is（poisonous）．（poison）
3．He made a good opening （speech）at the meeting．（speak）
六、听写
听写是一种综合性测试，不仅检查学生的听力，而且检查学生在词汇、语法等基础知识方面掌握的情况和反应的敏捷性，应作为课堂测验的一个必试项目。听写测试一般有下列步骤：
1．教师用一般语速朗读全文，学生只听不写，了解全文大意。
2．教师以较慢的语速逐句朗读，每句朗读两遍。学生边听边写，教师朗读必须保持正常的节奏和语调，可适当延长句子（分句）之间的停顿时间，但不能一个单词一个单词地读。
3．教师再用一般语速朗读全文一遍，让学生检查订正。
有条件的学校应采用放录音听写的方法，以保持平行班测试材料的一致性，同时也可培养学生听录音的习惯。
七、翻译
翻译是一种检查双语能力的综合性测试，答案无法统一，评分标准较难掌握。为了便于控制答案，有针对性地检查某些语言项目，可以不必翻译全句，只要求译出句中某一部分。例如：
1．Your mother asked me to tell you that____（你不必为她的健康担心）．
2．____（他花了三个多钟头）to translate the article from English into Chinese．
八、写作
根据教学大纲的要求，中学生仅需具有初步的书面表达能力，因此不能采用自由作文的形式，只能在提供情景和具体要求的前提下检查学生连贯叙述的能力。可采用下列一些形式：
1．看图说话  图画内容要明确，便于叙述。教师可给出首尾两句，让学生补充中间的内容。例如，提供一幅少先队员在公园中过队日的图画和如下的首尾句，要求学生在中间写上四句或五句话：
This is a park．（It's Sunday）．…They are having  a good time．
2．写信  试卷上要明确规定收信人的身份、姓名、住址以及信的主要内容，要求学生按照英语信函的格式写出。对初中学生可采用读一封内容简单的英语信后再用英语写回信的形式。这样难度稍低。
3．叙述故事  卷面上用汉语写出故事梗概，要求学生用英语写出故事大意，而不是逐句翻译。
4．补全对话  卷面上设置一个情景，并写出其中一人的谈话，要求学生写出另一人的说话。例如，1988年全国普通高校招生统一考试就有这样的题型。

第五节  试卷结果的分析与讲评

试卷的分析与讲评是测试工作的一个重要组成部分。只有对测试结果进行科学的分析，才能收到获取教学反馈信息、及时改进教学之效。
试卷分析包括学生成绩分析和试题质量分析两个方面。
一、学生成绩分析
要在了解每个学生成绩的基础上瞭全班学生成绩的分布情况。全班成绩的分布情况可通过以下数据反映出来：
1．平均数  全班分数的总和被总人数相除后所得的分数。
2．中位数  将所有分数依次排列，处于最中间位置的分数。总人数为偶数时，中位数则为最中间两个分数之和被2除。
3．众数  出现次数最多的分数。
4．全距  最高分和最低分之间的距离。
5．标准差  每个考生分数与平均分数之差的平均数。计算公式为。

6．各分数段人数及百分比为计算简便，下面以三个小班在一次测试中的成绩（见下表）为例说明以上数据的计算方法及其在成绩分析中的作用。

根据以上数据，可作出以下几点分析：
1．平均数和中位数是描述测验分数集中趋势的有效量数。测验结果的平均数和中位数均表明，这三个班的成绩依次为：Ⅲ班、Ⅰ班、Ⅱ班。
2．众数是描述测验分数集中趋势的粗略的量数。 Ⅰ班的众数与中位数相同，接近平均数，表明该班的成绩属于正态分布。Ⅱ班出现三个众数，前两个众数大大超过平均数和中位数。这反映出二班成绩的分布情况比较复杂。平均数和中位数大大低于某个（些）众数，必然是受超低分的影响所致。Ⅲ班出现两个众数，后一众数与中位数相同，接近平均数；前一众数略高于平均数。这表明该班成绩差距不大，无超高分和超低分的影响。
3．全距和标准差是描述测验分数的展形或离散情况的变异量数。全距是变异量数的粗略值，因为它只反映两极分数之间的距离，不涉及其他的分数。标准差是测验分数与平均数相离散的量数。由于它对每个数据偏高平均数的变异情况均给予考虑，因而是最可靠的变异量数。从这三个班这次测验结果的标准差和全距看，数值最小的是Ⅲ班，数值最大的是Ⅱ班。这表明Ⅲ班学生的程度比较整齐，而Ⅱ班则相差悬殊，存在着严重的两极分化现象。
4．各分数段人数及百分比具体显示了全班成绩的展形，反映出各种层次学生的人数及所占比重。Ⅱ班严重的两极分化现象，从此表中暴露无遗。
从教学法角度考虑，Ⅱ班的教学很可能是“就高不就低”，优秀生能吃饱，而多数学生特别是程度差的学生难以接受，掉队现象严重。尽管尖子学生不少，成绩突出，但全班平均成绩却居下游。如不迅速采取适当措施，掉队学生的比重将继续加大。从Ⅲ班的教学看，显然在照顾大多数、消灭落后面方面作了巨大的努力并取得可喜的成绩。但值得考虑的是在教学内容和教学方法上是否过分重视照顾多数，而限制、影响了优秀学生才能的发展，致使班上没有“尖子”学生。应考虑在现有成绩的基础上进一步贯彻因材施教的原则，在全面提高教学质量的同时，努力发挥优秀生的学习积极性和创造性。Ⅰ班的情况看来似乎发展“正常”，无突出的问题出现，但潜伏着一定的危机。如不注意，占1/4的70分以下的学生随时有掉队的可能。另一方面，这个班可能还蕴藏着不小的潜力，如采取有力措施改进教学方法，教学质量的进一步提高将指日可待。
以上数据仅能反映教学质量的一般情况，还需进一步了解学生在知识、能力诸方面的水平，以便总结经验教训，克服教学薄弱环节，提高教学质量。这就需要根据测试目标对各题的得分情况进行统计。下面是一份模拟的各题得分情况统计表：

从上表可以看出：得分率最高的题是语法题，最低的题是阅读和翻译两题。从而表明，学生掌握语法知识较好，但运用语言的能力较差。在语音、词汇的基础知识方面，发展也不平衡，词义题得分最高，拼写和辨音题得分最低。这说明在词汇教学中忽视了形音义三者的统一，存在着重义轻音、形的偏向。从标准差看，语言基础知识方面的题差值不大，语言运用方面的题差值较大。这说明学生成绩的差异主要表现在运用语言的能力方面，从而有力地指出在今后教学中加强能力培养的重要性和紧迫性。
二、试题质量分析
分析试题质量主要是对测试的信度、效度以及各个试题的难度和区分度进行定量或定性的分析。
测定信度有以下几种较为简便的方法：
1．重测法  用同一份试卷对参加测试的学生进行重复测试，根据两次测试的结果来验证测试的可靠性（信度）。如果两次测试结果，学生成绩的名次基本不变，那就说明这份试卷有较高的信度。如果第二次测试的结果，全体参加者的成绩普遍有所上升，这是自然的现象，不影响测试的信度。但如果某些考生的成绩有突出的变化，以致两次测试结果的名次出现了较大的差异，那就说明试卷的信度不高。用这种方法所测定的信度称为稳定性信度。稳定性信度常易受到学生的记忆能力（是否记住上次所做的答案）和练习效应（是否在第一次测试后自行重做或查对答案）的干扰。因此必须注意两次测验时间的距离，既不能太短，也不能太长。
2．等卷法  出两份等值（难度和长度相当，题量、题型和排列顺序相同）的A、B卷。用A卷测试后再用B卷测试一次。如果两次测验的结果相同或相近，说明试卷的信度较高。
3．对半法  这种方法主要用于分列式测试。根据测试目标，试卷由测试项目与难度相当的两组试题组成，分别排列为奇数和偶数的题号。检查试卷信度时，可将奇数题与偶数题分别记分，然后分析这两组成绩的相关情况。两组成绩越接近，试卷的信度就越高。
4．根据公式求试卷的信度系数系数值在0—1之间，一般应在0.5以上。系数值越大，信度越高。

rt—信度系数；n—测试项目总数；M—全体考生的平均答对率；Sd—标准差。
现以一次测试为例，测试项目总数（n）为100，平均分（M）为70，标准差（Sd）为9，其信度系数则为：

该次测试的信度系数为0.75，说明这次测试的信度是可取的。TOEFL的信度系数为0.95，因为它是经过严格的科学程序所组织的大规模的常模参照测试。一般小规模的课堂测试，不可能经过预测、修改、再测等程序，其可靠系数很难达到0.9以上。如达到0.7以上也就可取了，在0.8以上则更为理想。
测定测试效度一般可采用以下几种方法：
1．对测试内容进行定性分析。测试的内容有效性表现为试题是否真正考查了应该考查的知识、技巧和能力。中学课堂测试的内容有效性的依据则是教学大纲和教材。也就是说，应分析试题内容是否符合教学大纲所规定的目的任务、相应年级的教学具体要求，是否超出所学材料的范围。
2．用具有权威性的试题进行对照性的测试，由专门机构统一组织的测试（如高等学校和高中入学考试、教育行政部门组织的较大规模的统考等），其试题的信度、效度都较高。可用与学生水平相应的这类试题进行测试，然后对照比较两次测试结果的一致性。如果两次测试结果的一致性很高，则表明该次测试的效度是很理想的。
区分度和难度是分析个别试题质量的两个指标，与测试的信度直接有关。
区分度是表示试题对学生语言水平鉴别能力的指标。求区分度的步骤是：
1．将全体考生成绩由高分到低分按顺序排列。
2．将全体考生人数乘以0.27，定为分组的人数（n）。据此将全体考生分为高分组（成绩最高的n个考生）和低分组（成绩最低的n个考生）。
3．统计该题在高分组学生中的答对人数（H）和低分组学生中的答对人数（L）。
4．代入下列公式，即可求出该试题的区分度（D）：

区分系数的值在-1至+1之间。D≥0.4时，说明该题目能起到很好的区分作用；D≤0.2时，说明该题目区分性很差。D值为负数时（高分组答对人数小于低分组答对人数）说明试题或答案有问题，需认真审查。这里有两种可能：一是测试内容超出学生所学范围，两组考生都是猜测答题，低分组的学生有幸猜对的人数多；二是错定了答案，将正确答案作为错误答案处理，或是干扰项中某一答案有一定道理，应作为可接受性答案，却被定为错误答案。
难度是鉴别试题难易程度的指标。试题过难或过易都会影响试题的信度和区分度。求试题难度（P）的公式为：

（N—考生总人数；R—答对该题的人数。）
难度值在0至1之间。P＞0.8时，试题太易；P＜0.2时，试题太难；P＝0.5-0.7时，难度适当。一份试卷应该由不同难度的试题按一定比例组成。一般地说，P＜0.2，＞0.8的试题，各占10％；P＝0.2-0.4，和0.6-0.8的试题各占20％；P值在0.4以上、0.6以下的中等难度试题应占40％。
下面以三个试题为例，说明难度、区分度的计算方法及其相互关系。
全体考生人数（N）为52。高（低）分组人数（n）=52×0.27= 14.04（取近似整数14）。
各题成绩如下表：

代入公式：

以上数据表明：第一题难度适中，区分性很显著；第二题较难，区分性不显著；第三题过易，区分性差。
试卷分析是教师根据测试所获取的反馈信息进行加工整理，藉以判断学生学习情况，总结教学经验，改进教学的重要环节。要发挥测试对学生学习的指导作用，还必须进行试卷讲评。
试卷讲评的目的是帮助学生正确评价自己的学习成绩，总结经验，克服缺点，进一步提高学习成绩，因此试卷讲评应注意以下几点：
1．要实事求是地辩证地分析该次测试的成绩。无论是经验或教训，都应从教和学两方面去寻找原因，不能把一切问题都归咎于学生不努力。要从发展的观点、学生基础的差异去评价每个学生的成绩，不能“一刀切”。要珍惜和肯定后进学生的点滴进步，防止先进学生自满情绪的滋长。
2．要讲求实效，有针对性。不能只是一般地总结情况，宣布试卷答案。要选择有代表性的问题进行分析，针对学生错误的性质采取补救性的措施。不但要弥补知识上的缺陷，澄清某些模糊的概念，还要在学习方法上予以指导，使讲评起到纠错迎新的作用。
3．要坚持反馈、矫正的原则，培养学生通过测试发现问题、总结自己学习经验的能力和习惯。要求每个学生再次答卷，将上次测试中的错误全部纠正过来。对于某些有代表性的错误，可编拟类似的试题进行再测。必须努力克服学生测试后万事大吉，以及格为满足的不良学风，树立胜不骄、败不馁的良好风尚和奋发进取的精神。
复习思考题：
1．英语测试的意义是什么？
2．从不同角度区分测试的类型有什么意义？
3．课堂测试应注意哪些问题？常用的测试方法有哪些？
4．评价测试质量的标准是什么？
5．怎样对测试成绩进行统计分析？
6．怎样对试卷质量进行分析？
7．如何做好测试后的讲评工作？

		自动登录	找回密码
密码			注册

中小学英语教学中的测试与评价

相关帖子