中国高等教育学会语文教育专业委小学语文教学法研究中心副秘书长管季超创办的公益服务教育专业网站 TEl:13971958105

教师之友网

 找回密码
 注册
搜索
查看: 109|回复: 0
打印 上一主题 下一主题

专家学者诠释:教育改革时代下的学业测量评价

[复制链接]
跳转到指定楼层
1#
发表于 2013-12-9 21:53:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
专家学者诠释:教育改革时代下的学业测量评价


考试是我们最不陌生的事,但却是让人又爱又恨的事。以考试成绩论成败,考试结果用于排名、甄别与选拔,加剧了学生的课业负担,导致了整个教育的应试倾向。我们常说,素质教育不是不要考试,素质教育与考试并不是矛盾的事情。那么,素质教育下的考试与传统的以分数作为唯一成败标准的考试应该是有所不同的。
前不久,在教育部人文社科重点研究基地华东师范大学课程与教学研究所召开的“教育改革时代下的学业测量与评价”国际研讨会上,来自国内外的专家、学者及实践者,从不同的视角给考试这个古老的话题带来了前沿的现代诠释。目前,学业测评对许多教育工作者来说,认识上仍然相对传统与陈旧。
为此,本刊策划了学业测评的系列主题,希望这些主题能让读者对学业测评的新视角有所了解,也希望通过这些主题,让所有教育工作者以新的视角思考和理解教育。
——编者
【专家】
学业测评还需深入思考
为什么一张小小试卷牵动着那么多人的心弦?从中、高考背后亿万家庭辛劳的付出,到异地高考引发的激烈辩论;从屡禁不止的课业负担,到愈演愈烈的奥数热、校外辅导热,我们的学业测评承载了多少公众对教育改革的殷切期望?我们究竟需要怎样的学业测评?与理想相比,当前的学业测评究竟存在哪些问题?只有越来越多的教育工作者、专家学者和社会公众深入思考和正确认识这些问题,积极关注和参与到当前的教育改革浪潮中来,提升教育质量、办人民满意的教育才真正有希望实现。
学业测评的内涵
简单地讲,学业测评也就是通常理解的考试。考试形式可以多种多样,不一定局限于常见的纸笔考试。不管什么形式,所有的学业测评都必须回答三个基本问题:考什么、怎么考以及如何合理使用考试结果。不过,这看似简单的三个问题其实异常复杂,每个问题背后都涉及到一系列的理论、技术或现实问题。
学业测评究竟应该评些什么?是考查背诵课文,还是考查阅读理解?是检验能否回忆各种概念或原理,还是检验会不会积极思考,灵活运用所学知识解决现实问题?是只关注学科学习成绩,还是更关注通过学科学习,有没有形成勇于尝试、善于创新、坚韧负责、易于合作的素质?考什么的背后实际是培养什么样人的问题,是我们秉承怎样的教育观和学习观的问题。在地球越来越“平”、信息潮涌而至、技术瞬息万变的时代,我们的孩子需要学点什么才不会被未来社会淘汰?国家和民族才能屹立于世界民族之林?显然,拥有更多的“鱼”不是最好的答案,成为优秀的“渔者”似乎更为重要。当我们激烈辩论高考应该全国统一还是地方自主、是一年一考还是一年多考的同时,似乎更应该讨论高考应该考些什么。当孩子们年复一年、日复一日,为了完成大量作业、练习、月考、统考而过早近视的时候,我们似乎更应该反思我们这样做究竟值不值得。
科学合理的学业测评能够帮助我们了解我们的孩子究竟学到些什么,学得怎么样。就像我们需要各种精准的测量仪器一样,我们也需要科学公正的学业测评工具。严格的保密制度、规范的考试流程、周密的批阅方式固然重要,但学业测评工具本身的质量如何,似乎更为关键。我们是否真正理解什么是数学思维?什么是科学创新?怎样的测试题目或考试方式才能准确公正地测出学生在这些有价值素养上的水平?即便是纸笔考试可以合理测评的东西,如何科学地命题和组卷也需要深入研究。举个简单的例子,如果高考作文命题涉及到了网络上当前流行的话题,对于偏远山区的学生而言就是不公平的。这样的作文考查的就不是单纯的作文水平,还有能否接触到网络的机会。因此,怎么考的背后是学业测评领域科研水平的问题。当我们感慨国际上学业测评工具质量如何高的同时,也应该看到这些工具背后长期深入、系统严谨的科研支撑。
考试结果究竟如何使用?这既有学术性问题,也有社会性问题。任何测量都有误差,学业测评也是如此。在基于考试结果对学生进行推断和决策时,必须要做到证据充分、科学合理。此外,我们为什么需要考试?它是国家权力的象征,还是教育行政或管理部门管理的杀手锏?我们用考试结果来选拔排序、问责奖惩,还是用它来诊断补救、促进公平?当发现外来务工人员子女学业成绩明显低于其他学生的时候,是帮助他们,还是将他们排除在门外?是用考试结果作为布置更多机械重复作业的理由,还是从中获取学生学习问题或不足的信息,从而提供有针对性的指导?这些问题,既受特定考试类型和设计理念的影响,也受国家政治制度和文化传统的制约,还取决于使用者的社会价值观和学业测评素养。
我国学业测评存在的问题
过去十年,我国基础教育的改革和发展成绩斐然。无论是教育理念、课程设置,还是学校文化和课堂实践,都发生了翻天覆地的变化。在考试评价领域,国家积极探索建立高考、学业水平考试和综合素质评价相结合的学业测评体系。但是,我国的学业测评仍然存在许多问题。
第一,现有学业测评滞后于基础教育改革所提倡的基本理念。基础教育改革提倡促进学生个性发展,强调自主、合作、探究,鼓励学生运用所学创造性地解决现实问题。然而,这些理念尚未真正落实到现实的考试中。综合素质评价虽然是一种有益的尝试,但存在一系列的理论和技术问题。现有学业测评仍然拘泥于学科知识的习得,强调零散知识点和孤立技能的掌握。
第二,受文化传统、社会、经济等因素的影响,我国现有学业测评仍然以选拔、排序和管理为主要功能,服务于学生学习和教学改进的功能远没有得到充分发展。我国现有学业测评体系中,利剑高悬的中、高考和服务于各级教育管理部门的周考、月考、期中考、期末考占据了绝对主导地位。学生、教师和学校在这种选拔和问责的测评制度中疲于应付,鲜有自由可言。受这种测评制度影响,教师热衷于分析讲解各种考试试题,让学生进行大量机械重复的操练。为了能够在考试中胜出,教学进度一赶再赶,教学内容不断加深,课业负担难减轻。即便教师不想如此,望子成龙的家长们也会将孩子送到各种各样的补习班、辅导班。广大一线教师慑于现实压力,不敢全身心投入到教育改革的时代浪潮之中。
第三,现有学业测评在科学化和专业化程度上有待进一步提高。对我国许多教育行政和管理部门而言,考试科目、内容、方式和时间,考试结果如何处理,仍然是行政管理的议题。即便是考查学科知识的习得,当前学业测评在评价框架的制定、命题质量、测验编制、结果分析和运用等方面都存在缺乏研究或研究不够深入的问题,学业测评的经验色彩依然很浓。测评质量不稳定、对考试分数错误理解和运用,仍然是我国当前学业测评领域存在的突出问题。
我们需要怎样的学业测评
在芬兰,学生从小学到进入大学之前,很少参与选拔性或用于问责的考试,绝大多数的学业测评都是教师自己完成的。这并没有妨碍芬兰在参与国际学生测评项目(PISA)的几十个国家中一直处于领先位置。在新西兰,学业测评的专业团队和一线教师一起开发与课程紧密结合的网络测评平台,帮助教师在教学过程中随时诊断学生学习状况,为改进教学质量提供细致灵活的专业服务。在美国或加拿大,从大规模考试到教师的课堂评价,都有专业的测评机构提供全方位的服务。因实施美国国家教育进步评估(NAEP)而闻名世界的教育测验服务社(Educational Testing Service;ETS)专门成立了一个机构,对所谓的“二十一世纪技能(The 21 century skills)”的测评开展研究。而这些技能和前文提及的自主、合作、创新一脉相承。
我们究竟需要怎样的学业测评?我们不希望我们的孩子丧失他们应有的玩耍时间,而将大量精力消耗在机械重复的背诵和操练上;我们不希望看到他们在沉重的学业压力和枯燥乏味的作业练习中,逐渐丧失对生活乃至生命的兴趣;我们不希望看到他们在辛苦付出之后,仍然无法适应未来社会的要求。因此,需要反思我们的教育观和学习观,研究如何使我国的学业测评真正测量学生能力中那些有价值的东西。需要改革我国现有的考试制度,给学生或教师多一些自由的空间。需要改变测评的功能,让学业测评成为教师或学生可以支配的工具,成为服务于学生学习和教学改进的有力支撑。要实现这个目标,我们还有很长的路要走。
(作者系华东师范大学课程与教学研究所博士、副教授)
【一线教师】
落实多元评价有许多困难
为落实课改精神,我县把原来单一的以分数作为学业测评结果的方式,改变为评等级、写评语、填写成长记录袋三种方式。前两项统一涵盖在《中小学生综合素质评价手册》里,包括道德品质、公民素养、学习能力、交流合作、运动发展、审美与表现、学业成绩表等多方面的内容。成长记录袋收集学生在校的作品,全面显示学生成长足迹。
这种等级+评语+成长记录袋的方法,摒弃了过去由教师独自评价学生学习情况的现象,对学生的学习情况的评价更客观、更丰富,使教师、学生、家长三方面都能更全面地了解学生的学习历程。但鉴于我县学校大部分为农村学校等原因,真正将多元评价落实下去有一定难度。比如农村学校留守儿童多,父母不在家,让年龄较大、知识水平偏低的爷爷奶奶参与多元评价确实有难度。更重要的是他们对多元评价缺乏了解,认为学校是在推卸应尽的教育责任。所以,大部分教师坦言,家长评价部分仍旧是学生自己填的。
学校也没有将多元评价完全落实,仍然单一地运用考试这种书面测评的方式,用分数决定学生学业等级的格局还没有根本性转变。出现这种现象原因很多,一方面家长仍然看重分数,认为其他评价可有可无。随着时间的推移,学生自评和教师评价的热情都慢慢冷却了。另一方面,学校仍把考试成绩作为考核量化教师工作的依据,考试仍旧是悬在教师和学生头上的“斯摩达克斯之剑”,一统天下的还是侧重于知识与技能的书面考试。
(作者单位:河南省舞阳县教研室)
【教研员】
让“考试”走向“测量与评价”
在我国,对学业质量的监测,一般由教研部门承担,尤其是学期末的区域统一考试,地市级、县区级教研室要组织开展命题、施测、阅卷和分析。从目前的情况看,由于没有规范化、专业化的要求,各地在学业测量与评价实施方面虽不尽相同,但许多问题都普遍存在,需要认真梳理和反思。
学业测评的现状及问题分析
对学业测评进行反思,应该把对“为什么考”、“考什么”、“怎么考”、“考后怎么办”四个问题作为思考的原点。
为什么考?分析许多地方在学业测评中的做法,考试的目的仿佛只是为了在一段时间的教学结束后,得出一个结论,给各方提供一个判断依据。这个判断依据就是考试科目的分数数值,教育行政部门、学校校长、教师、家长、学生以分值的排序来判断教和学的效果。
怎么考?对于大规模测试而言,纸笔考试显然是成本最低、组织最方便的测试手段。由于对考试目的片面认识,“怎么考”这个问题已不再重要,仅需要关注过程的公平性,让考试结果成为令各方信服的证据就行。
考什么?试题命制多依据命题人的个人经验,最普遍的做法是把高考、中考的测试内容、考查要求、呈现方式作为命题依据。
考后怎么办?数据简单处理,分数简单相加,以总分、单科分、平均分等统计量排队,排名靠前一定好,排名靠后肯定差。
由于在上述四个方面的认识不到位、做法不科学,结果就是偏离了教育的本义。
在评价方式上过分依赖纸笔测验,较少采用问卷、观察、作品展示等手段,不能够全面描述学生的发展状况,从而造成无论是教师还是学生,都只关注知识与技能的学习,窄化了教育的目的。
依据个人经验的命题无视国家课程标准对学业质量的规定,且由于缺乏专业的测量学知识,试题在内容领域和认知层次上超越标准要求的现象较为普遍,导致教师随意拓宽教学内容、拔高要求,客观上增加了学生的学习负担,降低了学习兴趣。以考查记忆、再现能力为主的试题,导致教学中机械记忆、重复训练的简单做法大行其道。考试结果的滥用,加剧了竞争,对应试教育起到了推波助澜的作用,恶化了育人环境。
改进学业测评的思考和实践
评价是导向。在推进课程改革的过程中,郑州市以学业评价改革为突破口,进行了一些探索。
树立全面的学业质量观。学业质量是指学生经历课程学习后在认知、技能、情感等方面所表现出来的变化程度和发展状态,也就是说,学业质量指向的是学生通过课程或学科的学习所发生的行为变化。质量观决定评价观,学业测评既要关注结果又要关注过程,既要关注知识与技能的获得,又要关注情感、态度、价值观的形成、心智的成长,既要关注学业成绩,又要关注成绩背后的成本。
实施基于标准的评价。我们一直坚持以“基于标准的教学”为课程实施取向,教研员引领教师深入解读课程标准,细化分解内容标准,使之具体化、可观察、可测量。坚持学业测评以课程标准为命题依据,命题团队在制定命题框架、双向细目表时要对课程标准要求的主干知识和核心能力进行准确表征,力避偏题怪题,强调结合生活、联系实际,在新情境中考查学生知识运用能力。
坚持学业测评的专业性。一方面将评价能力作为教研员的核心能力,聘请命题专家、测量学专家开展系统培训,提升命题团队的专业素养,另一方面,借助专业力量实施学业测评。郑州市在教育部课程教材发展中心的指导下,连续两年以“建立中小学学业质量分析、指导、反馈项目”为依托,开展了义务教育学业质量绿色评价实验。此外,我们还在高中探索实施增值性学业评价,从起点看发展,激励不同层次的学校、不同学力基础的学生都能看到进步。
强化学业测评的诊断与改进功能。除纸笔测验外,我们以问卷、课堂观察等手段搜集了更为全面的评价信息;普及了信息化阅卷系统,通过计算机局域网阅卷,不仅提高了测评信度,还获取了更加丰富的数据,为诊断和改进教学提供了依据;建立了信息化学业质量分析平台,通过学生试题表现与问卷统计的关联分析以及学生在各知识点、不同题型、不同认知维度的表现分析,为学校改进课程管理、教师改善教学、学生查找问题提供可视化分析报告。
此外,我们强调教研员在学业测评中要渗透研究意识,试题命制要结合学科教学中的共性问题进行系统思考,通过大规模测试获取数据,深入挖掘数据蕴含的研究价值,发现、提炼、推广教学层面的有效经验,聚焦、生成需要进一步研究和解决的问题。
学业测评应进一步关注的问题
开发学业质量标准。由于课程标准只有内容标准没有表现标准,且许多学科关于内容标准的描述较为笼统和概括,这就使得实施“基于标准的教学与评价”十分困难,构建学业质量表现标准,必须走在前面。学业质量标准对学生学习行为和结果的描述更具体、更明确,也更具可操作性和可评价性,这样教师把握教学尺度就有了规范的指引,学生的学习也就更具方向感。另外,学业质量标准不仅关注学生学习的结果质量,同时将学习中的过程质量纳入评价指标体系,这将有效弥补课程标准在学生学习过程管理方面的不足。
加强对学业测评的评价。学业测评存在的不专业、不规范、不正确等问题,制约了教育的健康发展,尤其是高利害学业水平测试体现的评价导向是否正确,应该给予足够警觉。应该建立机制,对学业测评试题进行评价,及时发现、纠正考查内容和要求方面存在的问题,防止错误导向使教学背离正确的方向。
(作者系河南省郑州市教育局教学研究室主任)


====================================================
试题与试卷 背后不简单

【专家】
一份好试卷应有怎样的标准
纸笔测验作为日常教育测量最常用的手段,其试题命制水平的高低直接影响考试评价的效果,也成为衡量教师专业素养高低的重要指标之一。一份好试题的标准是什么?本文简单归纳出十点,供参考。
基于课程标准。自2001年教育部颁布《基础教育课程改革纲要(试行)》以来,课程标准成为教材编写、课堂教学、考试评价的重要依据。其中,基于课程标准的考试评价是极其重要的一环,既反映了新课程改革的必然要求,也成为有效推动教育改革的工具。测试题目的开发,必须保持与课程标准的高度一致,即试题所测量的知识、技能和其他心理结构应与标准的相应规定相契合。一份依据课程标准、反映国家对学生期望的试卷,才能算是一份好试卷。
学科知识准确无误。一份以测验学生为目的的试卷本身应该确保科学无误,才能对测量产生最基本的公信力和积极影响,这是命题的最基本要求。命题的科学性指的是试题内容要呈现基础的学科知识,确保表述的准确无误以及在观念上体现时代特征,力求避免学科知识的“繁、难、偏、旧”,同时还要兼顾新课程多种版本教材的融合。
有正确的价值取向。一份好的试卷应该有自己鲜明、正确的价值取向,应该立足于帮助所有学生改善学习而不是惩罚学生。只有传递“为学习而考试”的建设性理念和一视同仁的公平价值观,才能真正体现现代教育促进学生发展的核心宗旨。具体就一份试卷的价值取向来说,应当与本学科课程标准所追求的价值观保持一致,一份好的试卷必须蕴含高远立意,彰显核心价值,体现育人功能。
有明确的考核目标。考试是目的性很强的活动,因此判断一份试卷优劣的重要标准之一就是看它是否最终实现了考核目标。为了保证目标的落实,关键是严格制订双向细目表来规范命题,避免主观随意性和经验化处理。其中,知识内容维度要有代表性, 既覆盖本学科较宽的知识面或主题,又突出重要的知识点,做到点面结合,且各部分权重宜与教学时数的比重相适应;认知水平维度可参照学科的能力水平目标,每一水平与各个知识内容维度对应匹配;赋予各部分的题量和分数必须合理,并选择合适的题型呈现出来,主客观题由于考查的侧重点不同,在搭配上也要讲究。
命题素材来源广泛。新课程强调情境化和体验性,而来源广泛、丰富多元的命题素材恰恰为一份试题营造多元化情境提供支撑。任何一个学科都拥有自己学科特色的素材资源库,命题者要善于发现这些资源,并将其转化融入到试卷当中,在测验的同时拓展学生的视野。
呈现形式丰富多彩。丰富的形式有助于更好地达成目的。无论题型还是试题材料的呈现形式,都可采取多样的形式。从题型方面看,一份试题呈现的题型越多样,所发挥的测验功能就越全面。从试卷的呈现材料看,试题形式丰富多彩,能减少学生阅读的疲劳感和乏味感,提升试卷的亲和度。可视性、可读性强的卷子传递了师者以生为本的教育理念,是受学生欢迎的好试卷。
命题思路灵活多样。命题思路主要是指命题者对学科知识的组织方式和提问方法。知识有不同的分类,不同的教育工作者,又往往会持有不同的知识取向,这些学科知识观的差异势必影响到命题思路的多样性。此外,提问的方法往往取决于命题者对知识理解的切入角度,角度越新奇、独特、多样,就越能开拓考生的思维,激发考生的创造力。一份好的试卷,应该有灵活多变的思路,这意味着对学科知识有多种多样的组织、理解和应用。当然,任何学科知识都源自人类的社会生活实践,好的命题思路也源自命题者对学科知识深入透彻的理解,否则就容易产生偏题、怪题。
有较好的效度、信度、难度和区分度。效度是指一个测量对其所要测量的特质准确测量的程度,高效度的测量才有价值。信度即测量结果的一致性、稳定性或可靠性的程度。难度即试题的难易程度,不同性质的考试所需的试题平均难度有所不同,选拔性的高考难度一般介于0.5至0.6,通过性的学业水平考试难度一般介于0.7至0.8,日常的检查性考试难度可以更高一些。还有一个指标是与难度密切相关的区分度,它是指对不同水平学生的鉴别程度,一般中等难度的试卷区分度最高。区分度的高低同样得依据考试的目的和性质而定。一份试卷要称得上质量良好,上述四个指标必须都达标才行。
评分标准鼓励创新,便于操作。一份合格的试卷必须配备一份规范的评分标准。所谓规范,至少要明确具体、可操作性强,以便为阅卷老师提供统一的指导,尽最大可能减少评分误差。同时,一份好试卷的评分标准还必须追求创新。近几年引进的SOLO分层评价法则是一种较为先进的评分方法,另外还有PTA量表法、PISA评估法和国际上其他先进的评分技术也是值得我们借鉴和探究的。
编辑规范、编排合理、印刷清晰。试卷文字的表述严谨,简明扼要,使用的语法和标点符号符合规范,呈现的图表要与问题材料形成统一的整体,符合学生的阅读习惯。试卷编排一般按照客观性程度的高低排列各种题目类型,客观性程度较高的选择题、是非题、填空题在前,客观性程度较低的简答题、应用题、论述题在后;同类试题由易到难排列,设问也要层层递进,避免学生在交错的试题类型和过难的试题中浪费时间。使用图表、照片或清晰度要求较高的资料时,应该特别注意印刷清晰,便于阅读。
广大教师要树立正确的评价理念,掌握好扎实的知识和命题中的各种技术,命制出科学、规范的试卷,将考试测验转化为提高课堂教学质量、促进学生发展的途径。
(黄牧航 华南师范大学基础教育培训与研究院教授、副院长,张泽惠 华南师范大学历史文化学院课程与教学论研究生)
【教研员】
没有好题就没有好卷
■戴建仁
作为评价教学质量高低的基本工具,试卷测量的准确程度将直接影响评价结果的可信度与有效性。以初中数学为例,命制一份高质量的好试卷,是进行区域性学业质量监测与评价的前提条件,也是学科课任教师的基本业务技能之一。好题是构成好卷的重要组成部分。没有好题,就没有好卷。那么,怎样的试题才是好题呢?
符合明确、适度原则。试题考查目标包括知识技能、能力意识、思想方法等方面,目标明确、具体、自洽,考试难度符合课标或考纲的相应要求,符合考生的实际;考后实测的统计指标落在预定区域范围,预设考查目标达成度高,考生的实际得分与其学业水平相一致。一个好的初中数学试题考查的知识内容是课程内容的核心或重点,考试目的指向明确,选取的考点具有本源性、本质性和拓展性;考查的数学思想方法是中学数学的基本数学思想和方法及两者之间的融会自然;考查的能力意识是中学数学的基本能力意识且立意适度;试题的难度系数在0.2到0.6之间,试题区分度大于或等于0.5,且主要指向尖子生和中等生的区分。
具备公平性、思想性、新颖性特点。试题的选材及情境创设具备公平性、思想性和新颖性,体现能力立意,具有良好的时代感和导向性。公平性是好题的先决条件之一,特别是高利害考试中的高区分度试题,必须保证素材、背景、问题情境、表述方式等对不同地域、不同性别、不同生活经验的学生均公平合理。试题情境与设问新颖别致,具备开放性、探究性、应用性、可选择性等特点,同时具备突出的时代感或地域特征。好题的编制要发挥评价的导向功能和时代特征,引导学生学习方式的转变与教师教学方式的转变。
符合科学、规范要求。试题的表述科学、准确、清晰、规范,没有歧义,图文匹配,字符图表符合出版物排版基本规范,对考生容易疏忽的地方,有提示语,评分标准合理,评分标准预见性好。一个好的中学数学试题,其题干的表述必须符合学科规范、考生的认识习惯和排版的基本规范,做到科学、准确、清晰、简洁,同时格调明朗清爽,给人以朴实流畅的美感,另外还应恰当选择和合理运用文字、符号、图表三种语言,使得表述简洁,图文匹配、相得益彰。此外,试题中特定字符的字体、特殊图形等的表示和排版也要符合规范。
具有适当的厚重度、良好的自洽性和可推广性。适当的厚重度是指试题涉及的考点应适当。小题(选择题与填空题)以2~3个考点综合即可,大题以6~10个考点为宜,涉及的数学思想方法以2~4个为宜,涉及的能力意识以2~3个为宜,试题的题干字符数、图表数、运算量、思维量及解答总工作量等均应恰当。自洽性是指试题内在结构和谐一致,能形成具有同质性的考试结果的程度,如试题考查的内容、难度、区分度等与其所处的位置、题型是否匹配,不同考点之间融合交汇是否自然,不同考查目标之间能否功能互补,考题能否自我校正题目误差,使试题功能最优化。可推广性是指严格按照课标要求来设计考题,注意所考查的数学知识之间的内在联系和题目设计所抽象到的它的上位知识,强化对数学思想方法和能力意识的考查,确保考试的结果能成为判断考生当前达到课标所规定数学学习水平的依据。
那么如何评价一道中学数学试题的优劣呢?任何一道数学试题核心构成要素包括知识技能、能力意识、思想方法和情境立意四个维度,调整试题四个要素中任何一个的个数、综合程度及其联结结构,都会改变试题的信度、效度、难度、区分度、厚重度及其内在的自洽性。故欲对一道试题进行质量分析,应对其核心构成四要素进行全面深入地内在剖析。按照相关理论,好题在各个考查目标中所涉及到的考查内容间的结构更多的是关联结构或抽象拓展结构,即考生能找到了多个解决问题的思路,并且能够把这些思路结合起来思考;能把任务的各部分内容整合为一个有机的整体,对问题有一个整体意识;能对问题进行抽象概括,从理论的高度来分析问题,而且能够深化问题,使问题本身的意义得到拓展;能将关联的结构整体概括到一个更高的抽象水平,并使这种概括拓展到一个新的主题或领域,并表现出很强的创新意识。
(作者单位:福建省莆田市教师进修学院)
【一线声音】
从一份试卷说起
■许雪梅
“咦,这次怎么都是计算题?”“就是啊,真没想到,就连最后一题实际上也是考查计算的。”“哎,还有递等式计算,这完完全全是四年级上学期的内容啊!学生肯定不懂题目要求。”……提到学业测评,我不由得想起上学期临近期末的三年级数学调研。
在进行了紧张的复习后,竟然发现试题都是计算题,最重要的是有一道30分的大题考查的还是四年级的内容,这道题学生全部没有得分。老师们责怪着出题的人。一份试卷,尤其是调研试卷,在我们一线教师眼里是那么重要,然而看到这样一份试卷时,我们心里都有些不快与不解。那么作为一线教师,对试卷有哪些期待呢?
应有科学性。试卷不要有科学性错误,至少让学生看得懂题目。试卷应该起到引领作用,要让教师看到学科的思想性,指导教师平时的教育教学。命题者应对教材了如指掌,如果连某些知识点学生有没有学过都不知,还出什么试卷呢?
应注重分析。现在的调研,阅卷以后,一般都是计算及格率、优秀率、平均分以及各学校名次。我想调研不应该是为了分数和名次,而应通过调研发现学生学业哪些方面是优势,哪些方面是弱势,整个教育教学存在哪些不足。调研的背后有许多东西值得我们去研究,分数的背后更值得关注。
要体现多元化。现在许多试卷或习题,结论性的知识点比较多,忽视了学习知识的过程,忽略了知识网络,省去了学生发现问题、提出问题的过程,就是一味做题。学生会利用公式解决问题,然而对这个公式的由来却一无所知。如何让学生知其然又知其所以然,如何让学生去关注知识的来龙去脉,最后形成知识网络,是必须重视的,否则学生将只是考试机器,答对了题,却答错了人生。
要关注学生学习情感。一份试卷并不是只考查学生学习质量情况,也要关注学生最近的学习状态,学习兴趣等。如可以问一问学生本单元哪些知识点比较有趣?哪里学起来觉得最有困难?及时了解学生的学习动向,更利于学生的发展。
试卷不仅只是订正。在平时的教育教学中,考完试,教师往往只是让学生订正做错的题目,最多再分析一下为什么当时错了。笔者认为试卷不仅只是订正与分析错误,更重要的是让学生总结与反思整张试卷的答题情况,哪些题目做得比较好,哪些题目失分较多,以后学习要注意什么,要继续保持什么,学生如果总是这样去思考,就会在经验或教训中不断成长。
总之,要强化试卷评价的激励功能,坚决杜绝以分数论成败,使学业评价真正挖掘学生潜能,让学生更积极、更主动、更喜欢、更有发展。
(作者单位:江苏省丹阳市实验小学)
将课改精神融入到试题中
■汪志华
我校上一学期期末教学质量检测时,四年级数学试卷中有两道题目引起所有数学老师的争论。题目如下:
1.填空:丹顶鹤是我国国家一级保护动物,丹顶鹤在迁徙的过程中,经常会排成“人”字形队伍,“人”字形的夹角大约是( )度。
2.选择正确的答案:不用测量,下列三个角( )。(图略)
 ①三个角一样大 ②第三个角最大 ③没法比较。
根据课改精神,面向小学生的评价方式应充分发挥考试的正面功能,促进教与学双边活动的不断发展,充分发挥考试的检测、激励和导向功能。而考试的导向功能取决于试题的形式、难度、考查重点等,试题难度过深、过浅、过于重视考查学生“硬性记忆”类知识等问题,都是当前教学质量检测活动所力求避免的。
上述两个题目就存在明显问题。试题1仍旧考查学生死记硬背的“人”字形的夹角度数,试题偏于呆板。试题2并不能反映出3个角叉开大小是一样的这一特点,因而让人对试题的理解产生歧义,让试题缺乏正面导向功能。
对于上述两道试题,不妨修改为如下的选择题:
1.丹顶鹤是我国国家一级保护动物,丹顶鹤在迁徙的过程中,经常会排成“人”字形队伍,“人”字形的夹角大约是110度,这样做是为了( )。
 ①美观 ②省力 ③好玩。
2.不用测量,下列三个角的度数( )。(图略)
 ①三个角一样大 ②外层的角最大 ③没法比较。
“课改喊千遍,不如考试一张卷。”因此,应优化命题的指导思想,将课改理念、课标精神融入到每一道试题中,合理命题编排。
(作者单位:江苏省滨海县实验小学)
考试难度降下来学生负担才能减
■伍学明
中考接近尾声,老师们开始谈论考题。
物理老师们同步参加了中考,感叹题目真会拐弯,给学生设置的陷阱真是体现了命题者的高明,老师也难保不出错。数学几乎没有学生把题目做完,数学老师感叹,后面的大题真较劲,即使最好的学生要答完都很困难。
毕竟是选拔考试,没有一定的难度肯定不行。可是,在大喊减负的背景下,考试题目却越考越难。英语老师说,书本上的知识基本掌握,学生考试只能得到20%的分。数学老师说,只学书本内容,学生最多只能考及格。学生负担重,怪得着学校和老师吗?
很大一部分学生就是在一次次考试失败中丧失了学习兴趣,那些拐弯抹角的死知识考了又有何用呢?能够用一般题目考查的能力何必非用过难的题目考呢?命题者难道未能领会课标要义?考试题目难度降不下来,学生的负担就减不下来,真正的素质教育就无法实施。而降低考试难度,不仅需要专家们更专业的研究能力,更需要斩断考试背后的利益链。
学业水平考试应更符合实际
■海客
作为一线教师,又恰恰负责现在高二年级的学业水平考试复习工作,我认为,现在的学业水平考试无论是在考试方式还是具体实施上,都有一些值得商榷之处。
学业水平考试的目的。高中学生必须参加学业水平考试,初衷应是让学生的学习真正达到高中生应有的学力。由于现在的高中基本上是在高一下学期开始文理分科,一些学科就得不到重视。高二时,学生以突击的方式来应对学业水平测试,这与当初设计考试的初衷可以说是相差甚远。
学业水平考试的方式。到高二,任课教师都投入到紧张的学业水平备考工作之中,但学生却没有什么动力。十几天的时间要完成十个学科的备考,其难度可想而知。在减负的大背景下,学业水平考试是否可以减负呢?比如说文科考生只考理科内容,理科考生只考文科内容,其他学科完全可以在高考之中进行检验。
学业水平考试的实施方面。据了解,去年我省实施学业水平考试通过率是60%多,而我校学生未通过的学科是200人次左右,最多的一个学生有7科没有通过,据说这与考试难度有关系,所以学业考试的难度要控制。如果使学业水平考试更加符合学生的实际,就可以达到分散学生学业压力,改变高考一考定终身的不合理现状。
(作者单位:辽宁省大连市长海县高中)


====================================================
以自适应的计算机考试改进学业测评
 单一纸笔测试、过于注重分数和以分数作为排名、甄别和选拔手段的学业测评越来越受到质疑,目前,关于学业测评出现了许多新理念和新视角。除了传统的评价观,我们又该如何去面对学业测评呢?——编者
    以自适应的计算机考试改进学业测评
  ■本报记者赵小雅
  张华华,美国伊利诺伊大学香槟分校教育心理系兼心理系和统计系终身教授。曾担任美国教育考试服务中心(ETS)研究员、美国国家医学考试中心(NBME)高级心理测验专家和计算机化考试技术研究所主任。目前主要研究方向是项目反应理论(IRT)的发展和应用,包括计算机自适应测验、项目功能差异、认知诊断等方向。同时,他还担任世界心理测量学会(Psychometric Society)主席。针对学业测评的相关问题,他接受了记者专访。
  记者:学业测评对国内许多一线教育工作者来说可能还有些陌生,该如何理解和认识学业测评?
  张华华:学业测评应该分两个概念来理解,即测量和评价。测量是把数据测出来,就像量身高、体重等,有了数据以后,要对数据进行分析与评价,这就是评价。学业评价是建立在学业测量数据基础上的分析和评价,是价值判断。
  学业测评有两种类型。一种是评估政府的教育政绩、评价教育的进程,这样的测评一定是抽样的。在美国,有“国家成绩报告单”(NAEP),实际就是国家教育进步评估报告,这个报告是一个全国抽样的调查报告,反映的是整个美国按人口统计的整体状况,其中涉及项目很多,也很细,各个调查项目可以动态组合。如了解每天看4小时电视的儿童的成绩怎么样,每天领取免费午餐的中学生的成绩怎么样,在国外驻军人员子女的成绩怎么样,私立学校学生怎么样,天主教徒家庭学生怎么样,等等。每年这个国家成绩报告单公布的时候,国家电视网络会在黄金时段加以评论。
  另一种类型是对学生个人的测评,比如每个学生都要参加的统考。
  目前,国内的学业测评基本上还是纸笔考试,并且结果以分数的方式表达。但从测量的角度讲,我认为这种方式将会被基于电脑网络的考试所取代。纸笔考试的最大弊端是很多生动的材料无法反映出来,比如医生资格考试中需要听到心脏跳动的声音,这在纸笔考试中就无法实现,而用电脑就可实现。纸笔考试虽然也能进行学业测量,但是太落后了,一方面是手段上落后,无法呈现形象、环境等真实情境下的内容,另外,考试安全也是一个很大问题。中国每年都在考试安全上花很大力气,如有的考试保密室设三道铁门,可还是会出问题。如果进行电脑化考试,建设大容量题库,考试时试卷自动生成,安全问题就会解决,因为背一套试卷没用,要偷整个试题库并记住也不太可能。
  此外,纸笔考试用一张试卷去测试所有学生,这可能对一些学生显得太简单,而对另外一些学生又太难,这样就测不出学生真实水平,不知道真实水平就不能为学生提供帮助,尤其是差生。如果是零分试卷的话,就表明你将对这个学生一无所知。如果用网络自适应考试,根据学生答对答错情况不断调整试题,遇到学生不会的题目,系统自动降低标准,一直降到会的程度,这样才会测出学生真实水平。应该说,目前计算机介入考试和测评已经完全可以实现了,如现在的托福、GRE等都是这样的模式。计算机介入学业测评将是一个趋势。
  记者:如何认识学业测评的意义与价值?
  张华华:现在内地的许多学业测评只是满足于把分数测出来并对学生进行排队,这实际是做到一半就停住了。应该对这个成绩进行分析,然后用于诊断与改进。我建议采用自适应的计算机考试,建立诊断性模型。考试前教师和专家要定义这些题目要考查学生的什么能力。比如,测试学生的计算能力,一个学生考了70分,通过专家分析得出该学生加法和乘法还可以,减法稍差,除法一点都不行,学生的老师一看马上就知道需要在哪些方面帮助这个学生。
  中国是一个考试大国,但实际上对考试的研究还非常少。在美国,一个考试公司可能光员工就几百人甚至几千人。在美国,考试是市场行为,受公民监督,考试公司为了吸引客户,就必须进行科研,如果你的考试做得不好,大家就都不来参加你组织的考试了。而在中国,考试是政府行为,你想不想考都必须参加。
  中国的学业测量,我认为存在两个问题,一是投入力量比较少,二是理念和手段比较落后。据我了解,在国家层面虽然设有一个监测中心,但人员较少,科研力量和经费也非常有限,人员大量的时间在出差、监考、分析等,并没有太多时间进行科研。在学校层面,日常测试、测验等大多是题海战术,只是为了应试,这是因为没有一个正确的测量观。
  中国教师缺少测量素养,也没有这方面的培训。在美国,在大学毕业生进入中小学教师行列的培训中,测量课是必修内容,因为教师将来必须测量学生,如果不懂测量学,只搞题海战术是不行的。美国各个培养教师的高校都有测量学的教学人员,而在中国只有少数几个高校有,力量也相对薄弱。
  学业测评涉及教育公平问题。各项报告不能只报喜、不报忧,以美国为例,国会专门成立了监督机构对国家成绩报告单项目(NAEP)的各个环节进行监控。学业测评还应涉及考试公平问题,要避免偏题、怪题。例如,数学应用题的文字描述要选择考生熟悉的内容。一个大型考试的试卷通常要经过这些环节:第一要预测,预测好了之后才知道一个题目可用不可用,我们的问题是高考一年就一次,风险过分集中,就无法预测,而美国的高考一年可以很多次,考生也可以多次参加高考。在中国,全国集中力量去搞一张考卷几十题,太集中了,而且缺少测量学方面的研究。第二是题库的使用和管理。考题的好坏,从统计学的角度讲,有难度系数和区分度系数,太难和太容易都不行。许多美国考试公司可以随时组装几十套试卷,每次考试随机抽取一套,难度都是一致的。第三是考后要有数据分析和诊断,使考分具有跨时间、区域的可比性,这都需要开发各类应用软件。国内近年来开发了不少题库,但由于缺乏应用软件,这些题库仅仅成为“题堆”,而非具有应用价值的题库。
  国内对测量工具的研究不太重视。学业测评的测量工具和测量模型很重要,这是需要投入资金和人力进行科研的。一个好的测量工具,应有自适应、有诊断、有效度验证,这就是一个基于网络的具有自适应能力的试卷。
  记者:对于国内的学业测评工作,您有什么建议?
  张华华:一是要对中小学教师进行学业测量的培训。因为教师是要出卷子的,教师不懂测量就会陷入题海。二是建立国家监控项目,提交国家成绩报告单。虽然现在有人在做这个事情,但是很有限。美国大约有1000人在做国家成绩报告单,而中国的情况更复杂,而且专业人员更少,所以政府应该更加重视这个问题。中国有很多考试院,但都是行政性的,更多的侧重事务性的工作,并不进行科研。专家团队也只是临时组织,缺少专业态度,试卷一旦出问题,没有人负责。三是要重视计算机在学业测评中的作用。学业测评的最新趋势就是电脑化、自适应化、网络化、多元化。从这个意义上说,政府要加大学业质量测评方面的投入,除了要提高教师的测量意识之外,还要着力做好学业质量分析的工作。
     ——访美国伊利诺伊大学香槟分校张华华教授  

==============================================
PISA给我们提供什么借鉴
大规模测评越来越受到重视,教育中的很多重要问题,尤其是一些宏观问题,如国家的整体教育质量,都需要大规模测评结果来回答。那么,当前我国的大规模测评进展如何?还存在哪些问题?我们又能向世界上成熟的大规模测评借鉴什么?——编者
PISA的特点
提倡“为生活而学习”。PISA所评价的“素养”是学生在多大程度上能将学到的东西推及其他,以及用学到的知识和技能解决各种背景中的实际问题,这一取向反映了学校教育目标和课程目标越来越多地关注学生能运用他们在学校里学到的内容做什么,而不单单看他们是否掌握了特定的课程内容。
是一项前瞻性的测试。PISA关注终身学习能力,包括具备知识技能基础、学习的内在动力以及自主学习的能力,所以它评价的是学生对关键概念的整体理解和如何用已经掌握的知识和技能解决新情境中的问题,同时它还研究学生的学习策略、跨学科的问题解决能力,以及对不同议题的兴趣。
侧重基础知识的运用能力。PISA评价教育系统是否能够培养合格的公民,而不是培养科学家、数学家、文学家,所以它涉及的学科知识要求是基础的,提问的视角是结合生活情境的。要正确回答PISA试题,学生只需理解基本概念,灵活运用他们已经掌握的知识和能力,无需特别准备。
所测评的素养随社会经济的发展而变化。PISA测评的素养是随着社会需要的发展而不断发展的,一是体现为认知测评领域的扩展,在阅读、数学、科学等核心领域的基础上,增加了问题解决、计算机辅助阅读和数学测试;二是对态度和参与度的测评也在不断发展,例如对阅读参与度和学习策略的测评中,2000年评价了个人阅读参与度和学习策略的运用,2009又增加了学校阅读参与度和认知策略。
PISA的功能
PISA的主要目的是改进教育政策,而不是筛选学生,由于实施过程严格,结论基于证据,所以已经成为一项权威研究,对各国教育政策产生了很大的影响。
倡导多维教育质量观。PISA不是简单地报告学生的成绩(常模参照),它还分析主要测评领域的能力结构,将学生的阅读、数学、科学素养区分为若干精熟度水平,描述达到每个水平的学生能够做什么(标准参照),提供更加全面具体的质量信息。从整个教育系统来看,好的教育系统不仅质量要高,而且应该是公平的,因此,PISA研究不同社会经济背景的学生能否获得同样的学习机会和教育资源、能否达到同样的能力水平。此外,PISA还研究教育投入和资源分配与PISA成绩的关系,分析教育的成本效益。
树立新的质量标杆。PISA给出了各国平均成绩的排名,使各国教育决策者从别国的成绩中反思自己的政策,寻找更有效能的教育政策。他们把PISA结果用于以下这些方面:比较本国与其他国家学生的知识和技能,发现本国教育的问题和差距;衡量教育的进步程度,让政策制定者了解本国取得的成绩与其他国家相比较如何;用其他国家取得的成绩作为标杆,来设置教育改进的基准;学习和研究其他国家好的做法,寻找改进教育的政策措施和路径。
提供政策借鉴。PISA不仅要向政策制定者描述结果,而且还要提供改进的方法和过程性的信息。所以,PISA不只是对成绩的统计分析,还要收集其他数据,包括教育系统、家庭、学生个人特征等方面对成绩的影响,使政策制定者能够对影响学业结果的因素和模式作出推断,知道为什么会产生这样的成绩,怎样改进。
PISA的借鉴
制定精细的技术标准和实施手册。为了保证PISA结果的真实性,OECD制定了19个方面57条PISA技术标准,对组织机构、工作人员、项目工作会议和培训、抽样、测试语言、测试参与率、翻译、考场、保密工作、材料的印刷、评卷、数据提交、数据管理、材料保管等工作做了严格细致的规定。PISA国际专业协作组织开发了系列实施手册和工作表格,各参与国(地区)与OECD及PISA国际专业协作组织之间要签订多种严格的协议或计划。这些标准、手册、表格、协议和计划是保证PISA实施质量和数据可靠性的关键。
采用抽样方法减轻学生和学校的负担。由于PISA的研究目的主要是改进教育政策,是对教育系统的整体评价,无需对个体的学校和学生作出评价,因此参加测试的学生和学校都采用抽样的方法选取,只需很小的样本就能够充分反映总体的情况,大大减轻了学校和学生的负担。区域和国家层面的教育质量监测工作最主要的目的是了解整体的教育质量,因此在参加的对象和测试的题目上也可以采取抽样的方法。
从命题程序和技术上保证命题的科学性和公平性。PISA试题都必须符合命题框架和试题提交指南的要求,使得试题评价背景、知识内容、能力和难度上都有广泛的覆盖面,并且考虑各方面内容的平衡。这样设计出来的题目风格、质量、难度要求都是一致的。尽可能用严格的管理程序和测量技术保证试题的规范性、科学性、公平性和可比性,减少命题专家个人因素的影响。
对学生的能力作出最佳估计。PISA的评分标准是根据学生的回答发展出来的,而不是教师拟定的标准答案,体现了学生的视角和思维水平。PISA评分的基本原则是对学生能力作出最佳估计,根据学生在多大程度上能够证明自己回答该问题的能力,把学生分为“满分”、“部分分数”和“零分”三个等级,评分建立在一个学生如何证明自己对该文章或问题的理解和回答的基础上。
(作者系上海市教育科学研究院普教所副所长、PISA中国上海项目组秘书长)  








您需要登录后才可以回帖 登录 | 注册

本版积分规则


QQ|联系我们|手机版|Archiver|教师之友网 ( [沪ICP备13022119号]

GMT+8, 2024-5-5 20:25 , Processed in 0.135042 second(s), 25 queries .

Powered by Discuz! X3.1 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表