阅卷是一门学问(代序) 北京大学 孔庆东 本人曾撰文,并在多次讲座中郑重提出,要建立“中国考试学”,把考试当做一门单独的学问来进行系统的、认真的研究,从而提高中国各项考试的学术水平和可信度。这一呼吁得到了教育界、考试界许多有识之士的赞赏和支持,当然这一提法也还需要不断完善和深化。现在看来,不仅考试要作为一门学问,与考试紧密相关的,或者说本就应该纳入考试体系的“阅卷”,也应该当做一门学问,进行科学研究、科学管理和科学调控。 目前中国各项考试的阅卷工作,基本上处于随机组织、分散管理、临时定法、各自为政的无序状态。尽管投入了很多人力物力,阅卷参加者都付出了辛苦劳动,但存在的问题也日益凸显和加剧。其主要弊病是阅卷人员的水平参差不齐,评分标准疏密无度,阅卷过程无法科学掌控,阅卷结果不能完全体现考生的实际素质,也不能完成命题意图,更谈不上正确指导教学实践。而随着全国和全球经济形势的发展,以及文化格局错综复杂的演变,各种选拔人才的考试必将越来越多,而且越来越五花八门。据有关报道,韩国高校的招生考试已达3千多种,中国也正向此方向发展。这就需要在加强命题的学术性和应试辅导方面的科学性之外,尽早把阅卷工作列入科研范围。 阅卷工作首先需要组织一支业务水平高、社会责任感和组织纪律性强、人员素质相对均衡的阅卷队伍,相当于一支突击队性质的“特种兵”。组织这支队伍的难度,要远远超过组织命题队伍。命题队伍人员少、自由度高,而且因为需要“集思广益”,所以并不强调素质均衡,只要具备专家素质、有一技之长、保证不泄密就基本可以了。而十个人命题,往往要考十万人,需要的阅卷者数以百计。让平素互不相识的、拥有各自文化倾向性和“小集体利益”的数百名“文化人”,在短短几天内达成共识、步调一致地去从事一项高智商工作,所需动用的组织资源和组织智慧,是不亚于一场小型战役的。以笔者本人历年参与的阅卷组织工作来看,所付出的心血和思虑,毫不夸张地说,打一场平型关战役都足够了。 其次,阅卷工作需要比命题工作更高的智商和情商。命题者往往不考虑阅卷的实际困难,或者一厢情愿地盲目乐观,考虑不到那么多的操作障碍,甚至把命题本身的疏漏和谜团,丢给阅卷环节去处理。本人多年参与高考命题和其他命题,对此深有体会和警惕,不断提出预防和改进办法,但受“命题机制”所限,实际收效并不大。而阅卷者,却需要全面把握命题者的意图和思路,吃透每一道试题的内涵外延,站在比命题更高的视角去整体看待。试题的区分度要实现,命题的疏漏要遮掩,分数的给定要细化,还要顾虑到考生实际作答中出现的种种事先难以预估的情况。所以,正如戏曲舞台上讲究的“千斤念白四两唱”,本人提出“三分命题七分阅”,对于阅卷工作来讲,是完全合乎实情的。在古代科举考试中,命题者和阅卷者是一套人马,都由硕儒高官直接执行。而现代考试,命题环节就未得到应有的重视,阅卷则更被忽视了。所以现代考试貌似“科学”,数据、图表和各种曲线一堆一堆的,但实际上经常是自欺欺人,科学性是大可质疑的。 再次,阅卷是一个时时存在外界干预和心理变化的动态流程。特别是大规模考试的阅卷,往往要历经数天甚至一周以上才能结束。在此过程中,会发生阅卷者之间的意见分歧、感情对立,虽经“统一规定”加以约束,但其个人主观倾向,仍会在实际阅卷中顽强地表现出来。本已严肃认真制定好的评分标准,会因试卷的实际情况而临时统一调整,阅卷者领会“新的精神”,程度肯定也有差别。阅卷人员不可能与外界完全隔绝,媒体、同事、学生、亲友的意见,每天都在干扰着阅卷者的心情。不同的时段,阅卷者的心理反应也不一致。开始掌握标准严格的,到后来可能会松;上午喜欢给3分的,下午可能喜欢给4分。发现自己与其他阅卷者的速度、平均分、标准差有明显不同时,也会强行调整自己去“适应整体”。另外天气、饮食、阅卷场地的环境是否宜人、领导的态度是否合适,特别是阅卷工作的报酬,也都对阅卷者的心理有着直接的影响。以北京市高考语文阅卷为例,阅卷者多为各中学语文教学骨干,做一场高考辅导报告的酬金也要以千元计算。但他们阅卷时,每天紧张劳动七八个小时,辛苦将近一周的全部阅卷报酬,只有一千元左右,已经低于家政临时工的薪酬。北京市政府创造并常年坚持的这一带有丑闻性质的做法,严重影响了阅卷质量,也影响了政府的形象,正所谓“珠玉买歌笑,糟糠养园丁”。所以每年几乎都有阅卷人员向媒体散布乃至出卖阅卷内部信息,造成了一些混乱的社会影响。本人负责任地说一句,北京市不解决这一举手之劳的问题,每年的阅卷结果,以及这个结果与命题和教学的一系列“相关系数”,都是“不可靠”的。可见,阅卷工作并不是机械固态的,更不是依靠简单的行政命令就能达到目的的。了解这个动态的流程,科学地加以调控,是“阅卷学”中的一个重要课题。 最后,阅卷工作还是一项严肃的政治任务。考试是为了选拔人才,而阅卷关系着选拔的结果。选拔结果是否合情合理、是否公平无私,会引起每个社会成员的关注。这本来是正常的,客观上也有利于监督阅卷工作,使之更加完善。所以在考试和阅卷工作中“讲政治”并没有错。但各地政府,往往不懂考试、也不懂命题,却格外“关心”阅卷结果。少数领导存在着这样的误解:本地考生的分数越高,就证明自己的政绩越高。所以有时会出现“长官意志”强行规定分数线的情况。而某一年的分数过高后,又会造成下一年分数忽然降低。这样的分数起伏,掩盖了考生真正的群体素质,有时也掩盖了命题者的苦心孤诣。例如某一年的考生整体状况很糟——可能5岁那年集体服用了“脑白痴”,但政府领导事先要求平均分不能低,于是阅卷标准整体放宽,造成这一年“形势大好”的假象,媒体也不懂装懂地推波助澜,掩盖了教育过程中存在的问题。社会各界一般都很重视“假冒伪劣”,却不知道在程序、法规各个环节上都“没有问题”的所谓“真实结果”,往往危害更大。正像一个假医生骗不了多少人,而一个真医生如果要骗人,后果不可想象。 以上所述,仅是阅卷工作中的几个比较重要的方面,尚不能涵盖阅卷工作的全部。如果确实将阅卷当成一门学问来严肃对待时,其下还需要阅卷心理学、阅卷组织学、阅卷统计学、阅卷管理学等分支。如果将考试比喻为司法体系的话,命题好比是法院,阅卷则好比是检察院,两相配合好了,中国考试学的大厦才会真正构建起来。 本期博客思考题: 1.由命题者直接阅卷,好不好? 2.作文题多人评阅,取平均分,有何利弊? 3.政府跟考试,应该保持什么关系?
|