三种国际阅读评价体系给我们的启示

教师之友网 · 发表于 2011-8-2 06:56:14

三种国际阅读评价体系给我们的启示

作者：孔方

阅读能力不仅是学生语文素养的重要组成部分，更是学生在这个信息社会中参与社会生活的必备能力之一。学生阅读能力的培养是学校语文教育的一项重要内容，学生的阅读能力发展水平也是学业评价的重头戏。对阅读能力的评价一直是语文评价中的难点。在我国目前的中小学语文考试中，阅读测试内容的确定、测试材料的选择、评分标准的制定等方面都是经验性的，没有建立起清晰的阅读能力评价的指标体系。这就使阅读能力的评价具有比较大的主观性和随意性，影响了阅读能力评价的科学性和客观性，因而也难以保证评价结果的信度与效度。如何公平、客观、高效地对学生的阅读能力进行评价，成为语文教育工作者一直在探索的难题之一。
国际学生评价项目PISA①、国际阅读能力进展研究PIRLS②、美国国家教育进展评价NAEP③都是在国际上有很大影响的学业能力评价体系。在这些评价体系中，阅读能力评价都有非常系统、明确的评价框架设计和具体的操作规划，对于国内学生阅读能力评价有很多可资借鉴之处。

一、阅读测试内容的确定
关于阅读能力的构成要素，我国的教育学工作者、心理学工作者们或者基于经验分析，或者基于实证调查，进行了大量的研究和探讨，观点不下几十种。至今尚未形成较为统一的认识。然而，反观这三种国际上比较有影响的阅读评价体系，虽然对阅读能力测试内容的具体指称不一，测试内容本身却大体趋于一致。
PISA中的“获取信息”基本上涵盖了PIRLS中的“关注并提取出明确陈述的信息”和“进行直接推论”。PISA中的“获取信息”要求读者关注文章的细节，把所提问题与文本中的具体信息建立联系。学生一方面要能够找到文本中直接陈述的时间、地点、人物等具体信息；另一方面，还要能够对这些字面信息加以比较和区分，得到一些隐含在文中的、文章没有直接说明的信息。PIRLS中的“关注并提取出明确陈述的信息”要求学生找到文章中明确陈述出来的信息，这些信息就在文章的句子或词语中出现，学生可以直接获取。这项考查内容和PISA中“获取信息”的第一方面内容是一致的；而PIRLS中的“进行直接推论”，则要求学生联系两个或更多的观点或信息片段，对没有明确陈述的信息或观点进行推论。这项考查内容和PISA中“获取信息”的第二方面内容是基本一致的。
PISA中的“形成总体上的理解”和NAEP中的“整体感知”大体上是等同的，都要求学生把文章看成一个整体来全盘考虑。例如：要求学生给文章加个题目，明确文章的写作目的，思考文章的主题，以及解释地图或表格的主要涉及范围和作用等等。
PISA中的“形成解释”和PIRLS中的“解释并整合观点和信息”以及NAEP中的“形成解释”和“联系自身”大体上是等同的。PISA中的“形成解释”要求学生扩展他们对文章的初步理解，从而形成对文章更为具体和完整的理解。学生应该能够在全面阅读文本的基础上，联系各个部分的相关信息，对文本进行逻辑上的理解。PIRLS中的“解释并整合观点和信息”要求学生超越句子和词语的层面来加工文本，将文本的各部分信息综合起来建立联系，或是更为深入、广泛地思考文本的内涵。NAEP中的“形成解释”要求学生扩展最早对文章形成的初步印象，对所读内容形成一个完整的理解。这要求学生把文章的各个部分联系起来思考。PISA中的“形成解释”与NAEP中“形成解释”的考查内容基本是相同的：而PIRLS中的“解释并整合观点和信息”则在此基础之上。更强调学生在“形成解释”的过程中结合自己的既有知识经验来建构意义。这一点。NAEP通过“联系自身”进行了补充。NAEP中的“联系自身”要求学生超越文本去思考，将文本与自身建立联系，与现实生活建立联系。PISA的“形成解释”中虽然没有明确强调这一点，但是在任何阅读活动中，读者都是带着自己的既有知识经验来进行阅读的，在对文章“形成解释”的过程中，是不可能抛开这一切的。因此，可以认为PISA中的“形成解释”也并不排斥“联系自身”这一层涵义。
PISA中的“反思和评价文本的内容”“反思和评价文本的形式”和PIRLS中的“检验并评价内容、语言和文本成分”以及NAEP中的“做出评价”大体上是等同的。PISA中的“反思和评价文本的内容”，要求学生能够把文本中的信息和从其他渠道获得的知识建立联系，利用自己的已有经验对文本中表达的观点进行评价。这就要求读者首先应该能够全面理解文章中所表达的观点，然后和自己所支持的或根据已有知识经验所形成的观点作比较，证明、维护自己的观点。“反思和评价文本的形式”要求学生不受文本影响，客观地思考文本，评价它的性质和适用性。PIRLS中的“检验并评价内容、语言和文本成分”要求学生展开对文本的批判性思考。这种对文本的批判性思考包括两个方面，一方面是对文章内容的评价，另一方面是对文章的结构和语言特征等方面的评价。NAEP中的“做出评价”，要求学生跳出文本，客观地看待文本，对它进行批判性的衡量、比较。综观PISA、PIRLS、NAEP三大评价体系的这一方面考查内容，都是对文章的内容和形式的反思和评价。
综上，阅读能力考查的内容大致可包括以下几个方面：获取信息，整体感知，形成解释，反思与评价。但是，PISA在对几十个国家的学生大样本取样，进行阅读能力的实际测试过程中，发现“整体感知”作为一项独立的阅读能力要素进行测试并不合适。“整体感知”和“形成解释”具有较大的相关性，它们同属于对文本的“解释”能力范畴。因此，在实际的测试中，PISA将二者合为“解释文本”一项。同时，由于“反思和评价文本的内容”“反思和评价文本的形式”两项同属于“反思与评价”能力范畴，为了最终的统计数据更为科学合理，更具说服力，这两项也被合为“反思与评价”一项，这与PIRLS和NAEP达成了一致。如果吸取PISA阅读能力评价的经验，那么所评价的阅读能力要素就将调整为：获取信息(包括字面信息和隐含信息)、解释文本、反思与评价(包括形式和内容)三项。

二、阅读测试材料的选择
PISA、PIRLS和NAEP阅读评价体系都对测试材料进行了分类，与国内不同的是，这种分类的标准不是文体，而是“阅读情境”。需要说明的是，这里的“阅读情境”不能简单地被理解为阅读活动发生的环境，它所强调的是不同的阅读目的。根据阅读情境或者阅读目的的不同，阅读材料被划分为不同的种类。
PISA认为人总是在某一特定情境下进行阅读活动的，所以将阅读能力的测评放置在各种阅读情境中。PISA将阅读情境分为以下四类：为了个人应用而阅读，为了公共应用而阅读，为了教育而阅读，为了工作而阅读。相应地，阅读测试材料也分为四类：学生“为了个人应用而阅读”，是为了保持或发展与他人的联系，或满足个人的兴趣需要而读书。阅读的材料一般包括个人信件、小说、传记以及为满足好奇心而阅读的信息性材料，这种阅读是作为休闲、娱乐活动的一部分。学生“为了公共应用而阅读”，是为了参与更大范围社会活动的需要。阅读的材料一般包括官方的文件和关于公共事务的信息等，如通知、布告、规章、计划方案等等。学生“为了教育而阅读”，通常是为了获取知识，是更大的学习任务的一部分。这里的阅读材料通常不是由阅读者自己选择的，而是由教师指定的，阅读的内容是为了教学的需要而具体设计的，包括课本、地图、纲要等，是“为了学习而阅读”。此外，据PISA调查，在大多数国家，十五岁的学生中很多在一到两年之内都会跨入劳动大军之列，所以测评他们的阅读能力是否能满足工作的需要是十分必要的。因此，PISA还提出了“为了工作而阅读”的情境。在这种情境下，阅读的材料一般包括说明书、手册、计划表、报告、备忘录、项目表等，是“为了做事而阅读”。
PIRLS认为，学生以不同的方式和文本互动来构建意义，他们构建意义的方式因阅读目的和文本类型的不同而不同，某种阅读目的对应某种类型文本。PIRLS区分出了两种不同的阅读目的：为文学体验或娱乐而阅读，为获取和使用信息而阅读。学生“为文学体验或娱乐而阅读”，主要目的是理解和欣赏文学性作品，阅读的材料属于文学型文本。学生“为获取和使用信息而阅读”，主要目的是了解周围的世界，阅读的材料属于信息型文本。
NAEP认为，学生在进行阅读时，不同的阅读情境会导致有差别的阅读活动。NAEP将这种阅读情境分为三类：为获取文学体验而阅读，为获取信息而阅读，为完成任务而阅读。后两者的区别就在于，“为完成任务而阅读”不只是获取和理解信息，还要运用信息。阅读的材料一般包括汽车或火车时刻表、课程表、说明书、地图等等。
从以上分析可以看出，PIRLS和NAEP对阅读材料的划分较为一致。PIRLS将阅读材料分为“为文学体验或娱乐而阅读”的文学型文本，和“为获取和使用信息而阅读”的信息型文本；NAEP将阅读材料分为“为获取文学体验而阅读”的文学型文本，“为获取信息而阅读”的信息型文本，以及“为完成任务而阅读”的信息型文本。PIRLS的“为获取和使用信息而阅读”实际上涵盖了NAEP的“为获取信息而阅读”和“为完成任务而阅读”，将“获取”和“使用”信息合为一种阅读目的。这样的做法更为合理。因为使用信息毕竟是以获取信息为前提的，不可能将获取信息的因素剔除出去而只谈使用信息；而且，在实际的阅读过程中，这两种阅读目的有时是很难清晰地区分开来的。所以说，NAEP的“为获取信息而阅读”和“为完成任务而阅读”二者之间有交叉。在实际的阅读测试中命题者难免会因此而出现认识上的分歧，容易给测试带来主观性和随意性：而PIRLS的做法则较为可取。PISA从另一个角度对阅读材料作了四类划分，虽然具体的类别和HRLS、NAEP的不尽一致，但划分出来的阅读材料却是大体相同的，可以打散后相应地划归人文学型文本和信息型文本两大类中。

三、评分标准的制定
无论是HSA、HRLS还是NAEP，其阅读测试中的开放题都给出了十分详细的评分标准。在命制阅读测试题目的时候，每道题的评分标准也就初步拟定好了。这时的评分标准一般是命题者基于对题目本身的认识和对学生作答该题的预期而制定的，因此此时的评分标准只是命题人员主观的“理想构架”，还不能直接运用到具体的评分过程中。这种“理想构架”需要根据学生在试测中的实际作答情况做出进一步的修整和完善。例如，在对能够代表所有被试的小样本群体做试测时，可能会出现这样的情况：所有学生的回答都没有达到命题者预期的最高水平的答案。这时就需要对评分标准的满分要求做出相应的调整——命题者预先设定的最高水平的答案是成人对文本解读的结果，而并不是特定年龄阶段的学生所能达到的，评分标准中的满分答案应该根据学生所能达到的最高水平做出修订。此外，还要对试测中学生丰富多彩的回答情况做出归类，确定哪些是可接受的，哪些是不可接受的，可接受的又可分为几种水平……这样，根据试测所反映出来的学生的具体答题情况对预设的评分标准进行修改、丰富、完善，把题目的每一种赋分情况都配以若干学生的回答样例，这样的评分标准就非常明确而具体，评分者在给分的时候就会有据可依，评分的主观性就大大降低了。

四、三种国际阅读评价体系给我们的启示
(一)理性构建阅读测试的框架体系
上述三大国际阅读评价体系都有非常系统、明确的评价框架设计，在测试内容的确定、测试材料的选择、评分标准的制定方面的有益经验值得我们借鉴。
首先，在阅读能力测试之前明确所要考查的内容，即主要的阅读能力要素，这样就使得命题的指向性很明确，避免了命题的盲目性与随意性；也便于根据命题意图和考查目标对学生的作答情况进行有针对性的分析，并提出相应的教和学的改进策略，这是我国的阅读能力测试首先值得借鉴的。在我国的语文考试中，阅读测试题目往往是依赖命题者的经验和个人对测试材料的理解和把握而命制的，对所要考查的目标阅读能力要素没有事先做出全盘性的把握和设计，例如，未预先对目标阅读能力要素进行清晰的认定，未设计各能力要素的考查权重和题目比例，等等。这样命制出的测试题目受命题者的主观经验和测试材料本身特点的影响很大。题目可能从表述上、形式上看来是不同的，但题目背后所考查的阅读能力要素却是雷同的，即所需学生完成的智力动作是相同的，或者也可能题目本身就偏离了考查的主旨，没有围绕着所要考查的核心阅读能力要素命制试题。这样的阅读能力测试就可能会造成有些能力要素重复考查，有些能力要素却被忽略或遗漏，考查结果很难代表学生的真实阅读水平。例如，2005年某课改实验区的语文中考试卷中，有这样一组阅读题目：

阅读下文，完成16-22题。(共21分，其中2分为附加分)

华语情结(文略)

16，结合具体语境，解释文中的加点词语。(三选一，多答不加分)(2分)
(1)风干、干缩　(2)跌跌撞撞　(3)嗫嚅

17，文中为什么说华语是一座高山?请用原文句子或自己的话来回答。(2分)

18，作者在文中叙述了华语从古至今的发展状况，请用恰当的词语(自己概括也可)完成下列表格。(2分)

19，文中流露出作者怎样的“华语情结”?(2分)

20，我们每天都在学习自己的母语，你喜欢上语文课吗?说出你的理由。(2分)

21，生活中处处有语文。举一个具体事例，说说你在课外学习语文的收获。(3分)

22，综合探究(6分，见解独到、语言精彩另加2分)
请你任意组合至少两则材料(上文也可算一则)，提取材料中的关键信息，从一个或多个角度思考，谈谈你对母语现状的认识。(60字以上)

从这组题目整体来看，没有充分体现出命题者对所要考查的阅读核心能力要素全盘性的把握和设计。16小题考查的是理解词语在文中的具体意思，17．18．19小题主要考查学生从文本中获取信息和初步概括的能力。这4道题共8分，仅占整组题目分值的38％；而20．21．22三道试题则相对独立于阅读材料《华语情结》之外，题干内容均与阅读选文的关系不大(只有第22题题干有“上文也可算一则”之语)，脱离了阅读材料。从题目的参考答案及评分标准中，很难看到阅读文本的影子和作者在文中所抒发的华语情结，而且题目的考查目标也偏离了阅读的核心能力要素；但从分值比例上看，20．21．22三道小题赋分共13分，占这组阅读测试题目总分值的62％。这样的试题命制得显然不够合理。
如果命题者没有对所要考查的目标阅读能力要素做出清晰的认定与整体上的把握和设计，那么所命制的题目势必难以反映出学生的真实阅读水平。诚然，阅读理解过程是一个复杂的心智活动过程，从完整而连贯的阅读理解过程中准确离析出每一种阅读能力要素是很困难的，前文也提到过，我国学者对阅读能力要素的划分不下几十种，难以达成一致。例如。章熊认为阅读能力包括认知和筛选的能力、阐释的能力、组合和调整能力、扩展能力。④祝新华认为阅读能力包括认读能力、理解能力、吸收能力、速读能力、语感鉴赏能力。⑤各家有各家的道理。然而我们所关心的是，怎样的划分使得基于纸笔测验的阅读能力测试更具可操作性?显然，我们国内的划分很难作为有效的测评框架应用到实际的阅读能力测试中。因为在设计阅读测试题目时，很容易出现题目考查的能力要素不能清晰认定，有的题目考查到了几种能力要素，有的能力要素却难以通过纸笔测验来考查的状况。相比国内，上述国际上的三大评价体系对阅读能力要素趋于一致的认识则更为可取。它们在阅读能力测试之前都将其测试对象具体化、行为化，便于认定和把握，使得命题过程可操作性很强。获取信息、解释文本、反思与评价是完整的阅读心智活动中三种主要的智力动作，三者之间不可避免地有一定的相关性和依赖性，但各自也能保持相对的独立性。在命制阅读测试题目的时候，三者能够较为清晰地区分开，使得每道题目的考查点比较明确，便于测试之后的解释和反馈。
其次，相比国内主要按照文章体裁来选择阅读测试材料，根据阅读情境或阅读目的来选择测试材料更为合理。这样做主要有两方面的优点：一方面，按照这种标准划分的阅读材料覆盖面更广，不局限于课堂教学中的记叙文、说明文、议论文等，它基本上可以涵盖学生在学校内外的阅读活动中所接触到的所有阅读材料的种类，更贴近学生丰富多彩的阅读生活，更能真实地反映学生的实际阅读水平：另一方面，人们在真实的阅读活动中，很少是按照文章体裁来阅读的，更多的是根据自身的兴趣、爱好或需要来阅读。文章的体裁本来就是人为划分的，近些年来，义务教育中逐渐提出了“淡化文体”的要求，目的就是要解放学生的思想，避免其在阅读、写作中被强烈的文体意识束缚住了思维。而这种按照阅读目的对阅读材料的划分则更符合人们真实的阅读生活，也更为合理。
除了在宏观上对阅读材料进行了分类。用以指导阅读测试材料的选择之外，上述三大评价体系还都提出了选材的具体要求。例如，PISA特别强调了表格、图表、地图等类型的阅读材料应作为阅读测试材料的一部分。在我们国内以往的阅读测试中，这种类型的阅读材料往往是被忽视的，很少出现在试卷中。然而，在我们日常生活真实的阅读活动中，这些阅读材料又是很常见的，在读者的阅读活动中占有很大的比重，读者需要具备阅读这种类型文本的能力。PISA将它们作为阅读评价的一类材料提出来，是值得借鉴的。
第三，三大国际阅读评价体系在制定主观性试题评分标准方面为我们保证主观题评分信度提供了良好的思路。在我国，长期以来，由于对标准化考试的追求，人们更多地关注采用客观题，例如选择题的形式来进行测试。但是阅读能力测试本身的特点决定了单纯使用客观性试题难以很好地反映出学生的阅读水平，一定量的主观性试题是必不可少的。主观性试题对于考查学生的思维过程和某些复杂的智力动作有其独特的优势和适用性，那么如何保证主观性试题的评分信度就成了首要问题。在我们国内的语文考试中，阅读部分本来就很简单的评分标准中不难见到类似“意思对即可”“酌情给分”的语句，这无疑是将给分大权完全交给了评分者个人，在评分标准含糊不清的情况下，评分者每人拿着自己的一把“尺子”去衡量学生的作答情况，结果可想而知。教育部初中毕业考试评价组在2006年语文中考命题指导中就强调：“有些(课程改革)实验区的开放性强的主观性试题，参考答案及评分标准不明晰、模糊性强，缺乏可操作性，评卷教师很难准确把握评价的尺度。例如，有的试卷只要求言之成理即可，有的试卷只给出示例。为了避免具体评卷过程中存在的模糊性和不确定性。应当注重制定科学性、弹性和可操作性相结合的参考答案和评分标准。”⑥在合理制定阅读开放性试题评分标准、保证评分信度方面，三大国际上的阅读评价体系给了我们有益的启示。当然，我国也有我国的特殊国情。在我国，国家或者是省、市级的大规模教育考试一般都是高利害性的考试，比如高考、中考，一般不具备在正式考试前进行一定规模试测的客观环境。我们虽然不能完全仿效国外通过试测来修订评分标准的做法，但依然可以从他们的这种思路中获益。例如，我们可以在正式阅卷前抽取一定量的样本进行试评，将试评做细做精，根据试评中的学生答题样例来修订和充实评分标准，这也不失为一种好的方法。
(二)深入反思语文教学的最终指归
在我国的各级各类考试中，阅读测试一直是稳定而重要的考试内容之一。但国内现在的阅读测试多是停留在凭经验操作的层面上，往往不够清晰明确，缺乏系统化、理性化的思考与设计。上述国际三大阅读评价体系在明晰确定测试内容、理性选择测试材料、合理设计评分标准方面，确实有很多值得我们思考和借鉴的地方。虽然我国是个考试大国，自隋唐兴科举以来已有千余年的考试历史，但毋庸置疑，我们国内在测试方法和技术层面还须向国外学习借鉴。
然而，抛开具体操作层面上的方法和技术，测试的内容确定、材料选择等呈现形态直接投射出了其所承载的理念——阅读教学，甚至是语文教学，它的最终指归在哪里?杜威在批评“传统教育”时曾经说过，传统教育“最大的浪费是由于儿童在学校中不能完全、自由地运用他在校外所获得的经验：同时，另一方面，他又不能把学校所学的东西应用于日常生活。”⑦这种学校学习和社会生活互不相干、“两层皮”的现象是我们所不愿看到的。教育教学的最终目标应该是让学生掌握必要的参与社会生活的能力，应该是“为生活”的，而语文的学习更是学生将来参与生活、融入生活的基础。以此为立足点来审视国内外的母语测试或是其中的阅读能力测试，我们不难发现之间的差异。上述三大国际阅读评价体系无一例外都将阅读测试置于各种真实的生活情境中，考查学生的阅读能力是否已经满足了实际生活的需要。如PISA考查学生在生活中四种主要阅读目的下的阅读能力发展状况：为了个人应用而阅读，为了公共应用而阅读，为了教育而阅读，为了工作而阅读。这样的测试植根于生活，其取向是“为生活”的，其背后的教育教学思想也是为了学生的现实生活和未来发展的。然而反观我们国内的语文考试及语文教学，则过多地关注于僵死的字、词、句、篇、语、修、逻、文，而往往脱离了现实生活的需要。例如，在我们的语文教材中，文学型文本和信息型文本的选文比重一直以来都有所失调——这一点在阅读测试中也可反映出来：文学型文本的比重过大，小说、散文、诗歌、戏剧等等似乎永远都是语文课本的主角，语文老师总会掰开揉碎地给学生分析讲解文章的主题、立意、中心、人物、风格、背景等，而信息型文本却被忽视。然而在真实的社会生活中，信息型文本，主要包括一定的科学性文本和实用性文本等，正是我们需要经常阅读、理解和使用的，和我们的日常生活密不可分，也是我们在知识激增、信息爆炸的现代社会中不断学习、自我发展与完善所需要的：而文学知识或文学分析能力相对而言反倒不是最重要的了。这反映出我国目前语文教学在实践层面上的一个问题，即过于注重理性的解读和分析，强调所谓基本知识的掌握，而忽视了语文教学的核心和本质是对语言文字本身的理解和应用。
从这个角度来讲，上述三大国际阅读评价体系给我们最大的启示反倒不是其系统、理性的测试框架设计，而是测试背后的教育思想理念。阅读测试本身不是目的，其目的是要检查、反馈和改进阅读教学，而阅读教学的最终目标是要实现促进学生的阅读能力发展。学生阅读能力最基本的现实表现就是能够理解文本，获取所需信息，满足现实生活或未来发展的需要。我们的语文教学不能成为脱离生活实际的空中楼阁，而应该实实在在可以为生活所用，为学生在踏出学校大门后实现终身发展所用。语文教学只有找准了它的实质指归，才能为学生所喜爱，才能真正促进学生的发展。

		自动登录	找回密码
密码			注册

三种国际阅读评价体系给我们的启示

相关帖子