科学教育的评价


    张璐

    自从“2061计划”确立以来,美国的科学教育改革已走过了整整十四个年头,并逐渐实现了科学教育的规范化、系列化、标准化。根据美国国家教育部制定的《全美科学教育标准》,科学教育的评价得到了充分的重视,这一方面是由于评价与学习本身就是事物的两个方面,评价实践与评价政策能对科学教育的重点提供操作性的定义;另一方面,评价作为首要的反馈机制,引起了科学教育系统的变化,是提高科学教育质量的动力所在。本文想通过介绍美国的科学教育评价标准,为我国呼声日高的科学教育提供理论与实践上的参考与借鉴。

  一、评价过程的成份

    为了更好地理解科学教育评价标准,我们首先要了解一般的评价过程。可参见下图:

    评价是个有系统、有多重步骤的过程,它包括收集与解释数据。以上四种成份可以以多种方式加以组合,例如教师可利用学生成绩数据去计划、修正其教学实践;教育行政官员可同时参考教师所作的准备工作与活动特点,了解其教学的有效程度。不同的用途,不同的使用者及其不同的方法与数据增加了评价过程的复杂性与重要性。

  二、科学教育评价标准

    该评价标准与传统评价相比,更强调对学习过程的测定,根据学生的活动质量来解释其成绩。它是一种“真正意义上的评价”,测试练习尽可能与科学教育目标相近,并模拟学生将来可能遇到的种种情形,要求学生学习科学家的探究方法,灵活地运用所学的科学知识进行合理的推断。

    评价标准A:评价必须与教学内容相一致

    ·评价需经过精心设计;

    ·评价有明确的、可陈的目标;

    ·教育决策与评价数据、资料间有清楚的因果关系;

    ·评价过程是内部一致的。

    一个精心设计的评价所具备的基本特点是:收集与解释评价数据的过程与评价目的相一致。

    ·评价需经过精心设计

    教育数据对学生有重要影响,是科学教育必不可少的一环,人们必须利用评价结果去作出决策,采取行动。因此,应确保评价是精心策划的,包括:

    /描述评价目标

    /描述数据收集的理由及技术手段

    /详细规定数据收集的对象(学生)人数、学校的形式

    /说明数据收集的方法

    /说明数据解释方法

    /描述所作出的决策,包括谁做决策,采取何种过程

    ·评价有明确的、可陈的目标

    评价其实是一种资源集中化活动,在课堂内实施规范定期的评价能更合理地安排学习时间,充分利用师生的智力资源。大范围的评价,如那些由学区、州或联邦政府实施的评价,需要有众多的人力,也要花费很多资金。因此,此类评价一般都应确保其后所作的决策与行动可以增加学生的科学素养。换句话说,明确评价的目标是首要的。

    ·教育决策与评价数据、资料间有清楚的因果关系

    评价测试假设了教育变量间的联系。如果评价的目的在于确定学区的管理系统是否需要延续下去,那么应收集有关学生成绩方面的数据。对该评价方式的选择基于如下变量关系的假设:管理系统让教师承担选择科学活动的责任,教师得到鼓励,有效地实施所选的活动,由此提高了科学活动的成绩。总之,所作的决策与所收集的数据资料间应当有必然的联系。

    ·评价过程是内部一致的

    评价内部的各个成份应是一致的,如以上学区管理的例子,如果只测了学生成绩这个变量,管理系统与学生成绩间的联系仍不充分,还需测定与学生成绩有关的教师责任感与科学活动的变化这两个变量。

    评价标准B:必须测定科学学习的成绩与机会

    ·所收集的有关学生成绩的数据应该是学生所学的科学内容中的重点部分;

    ·所收集的有关学生学习条件的数据应该注重最利于学生的学习;

    ·对学习条件的评价与对学生成绩的评价应该并重;

    ·所收集的有关学生成绩的数据应该是学生所学的科学内容中的重点部分。

    内容标准界定了所有学生需要理解的科学,也反映了科学教育成果的丰富性与多样性,它围绕:

    /探究的能力

    /对科学事实、概念、原理、法则与理论的理解

    /科学推理的能力

    /运用科学作出个人决策,对科学问题形成自己看法的能力

    /有关科学问题交流、探讨的能力

    该评价标准强调内容标准的复杂性,确认了收集学生各方面科学成绩数据的重要性。教育测量的理论与实践已较好地检测了学生有关学科方面的知识,许多教育者与政策分析家对测量学生知识性的东西要远比测量学生对科学的理解与探究能力有把握得多。当前,科学测试仍有很多测量的是“死”的,而不是“活”的知识(既丰富、生动,又具有良好的内在结构),而科学教育评价标准则一改以上的弊端,注重检测学生的理解、推理与知识的应用。

    ·所收集的有关学生学习条件的数据应该注重最利于学生的学习

    系统标准、活动标准、教学标准与专业发展标准反映的是人人参与的科学教育的必要条件。

    在课堂水平上,最有利的学习条件包括教师有精深的专业知识(包涵学科知识、教育学知识与对学生的了解);有对学科内容、教学与专业发展相协调、相匹配的评价;教师有充分的时间的教,学生有充分的时间的学;有丰富的资源、高质量的教材。在教学与活动标准中对此有更详尽的描述。

    有些学习条件有联邦、州与地区上的渊源,这在系统标准中阐述得比较透彻。此外,学习条件还包括总教育经费、州对毕业生的科学要求及联邦对州教育经费的分配。对一些强制性的学习条件要不断确认。有关这方面数据的收集方法更需精心策划,因为这类检测要面临某些技术、理论、经济与社会方面的挑战,但挑战并不妨碍学习与评价。

    ·对学习条件的评价与对学生成绩的评价应该并重

    除非给学生创造充分的学习机会、良好的学习条件,不然,学生对其学习成绩不应负全责。因此,学习条件与学习成绩两者应该并重,偏重任何一方都是不切实际的。

    评价标准C:所采取的决策与行动都以所收集的数据为基础

    ·保证实测的方面也是我们想测的方面;

    ·评价是真实可信的;

    ·学生的个体行为与要测的学生成绩至少有两次以上的重合;

    ·学生有机会充分表现他们的学习成果;

    ·评价本身与数据呈现的方式应是相当可信的,若在不同的时间评测,仍能得到相同的结果。

    标准C规定了决策与行为赖以成立的数据收集所要达到的要求。决策的质量与行为的合宜与否都取决于数据质量。对教师与学生的影响越严重,对数据收集的技术质量要求也越高。

    ·保证实测的方面也是我们想测的方面

    评价任务的内容与形式与我们设想的应一致,这是“效度”。比如,有个评价要测学生确立科学探究问题、设计探究步骤的能力,那么简答这种评价方式就不适合,而应该要求学生提出问题,设计具体的探究过程。如果评价目的只是测学生区别不同矿物质的特征,那么用多项选择即可。

    ·评价是真实可信的

    当评价贴近学生的生活实际,那么所收集的评价数据可信性就比较大,这类评价就是真实可信的。

    课堂评价有多种形式,包括在教学活动中观察学生的行为表现、采访、正式的行为任务、项目调查、撰写报告、多项选择、简答、小论文等。其中一些评价方式间的联系对科学目标而言并不明显,比如,学生获取、评价科学知识的能力可用简答加以检测,但更好的更真实的方法则是让学生对这些知识作出注解,列出参考文献,并由此对这些科学知识作出评价。

    ·学生的个体行为与要测的学生成绩至少两次以上的重合

    这是评价可信性的一个方面。假如评价目标是检测学生提问题的能力,如要求学生在一个物理学情境中提问。但换了生命科学的问题情境,学生的行为表现也应是一致的。当然,那是假定该生有均等机会学习物理与生命科学。

    ·学生有机会充分表现他们的学习成果

    为了让决策制定者对评价数据有信心,评价者应确保学生有机会充分表现他们的理解与能力。相宜的评价任务应该是设定学生熟悉的背景,没有超出学生年级水平的阅读技能或词汇,并且尽可能地摒弃偏见。

    ·评价本身与数据呈现的方式应是相当可信的,若在不同的时间评测,仍能得到相同的结果

    这是评价可信性的另一方面,对大范围的评价尤其重要。不同的评价任务,学生群体行为会有所变化,只有稳定的测试才能有效地表现出群体行为的变化。

    虽然以上讨论主要关注的是学生的成绩数据。但学习条件、机会也需要进一步分析,比如,教师素质是学习条件的一个指数,让训练有素的观察者对教师教学行为作系统观察,但观察不能一次、两次,而要反复多次,以便让教师有充分的机会表现他们的知识与技能,由此得来的资料才是真实可信的。

    数据收集方法有很多,每种方法都各有利弊。方法的选择不仅受其本身特点的制约,也受所需信息量、时间、资源的制约。然而,为了达到既定目的,评价方式的选择应该与想测的内容一致,其中相当关键的一点是数据资料及其收集方法应与其后的数据具有内在一致性。公众对教育数据及其应用的信任与否与数据收集所采用的技术质量直接相关,这就要视教育者与政策制定者所应用的方法与技巧的高下以及他们能否与公众有效交流了。

    评价标准D:评价必须公正

    ·运用传统的评价时应慎重,力求能体现不同团体的观点与经验,不使用对某些团体有攻击性、歧视性的语言,并考虑到其他学生对预设任务有可能分心的事件;

    ·大范围的评价要运用统计学原理,确认在子群体间存在的潜在偏差;

    ·为适合某些特殊学生(如残障学生、学习无能者或英语国家学习者)的需要,对评价任务要做出适当的修改;

    ·评价必须置于多种背景下,以迎合学生不同兴趣与经验,不应有性别、种族、民族上的先入之见。

    我们所设想的国家科学教育标准应该让所有的学生都受到高质量的科学教育,获得如国家标准中所界定的科学素养。因而对所有学生科学成绩的评价也应该公正不二,这不仅是道德上的要求,也是测量上的要求。如果评价结果有显著的性别、种族偏见,超过所要评定的科学理解与能力,那么该评价过程的效度是很可质疑的。

    ·运用传统的评价时应慎重,力求能体现不同团体的观点与经验,不使用对某些团体有攻击性、歧视性的语言,并考虑到其他学生对预设任务有可能分心的事件

    那些设计、实施科学评价的人应该高度重视评价的公正性。这在评价的过程步骤、评价任务的内容、所用的评语以及对评价结果的分析中都能得以体现。

    ·大范围的评价要运用统计学原理,确认在子群体间存在的潜在偏差

    统计学要求大范围的评价必须包括不同性别、种族、民族。通过统计处理及专家判定,那些先入为主的偏见必然能得到一定程度的削减。比如有个评价练习要求通过整速轮的运用来评价男女生之间对物体惯性在理解上的差异,这就是一个有偏见的练习,因为它的预设是男女生在整速轮运用上有不同的经验。

    ·为适合某些特殊学生(如残障学生、学习无能者或英语国家学习者)的需要,对评价任务要做出适当的修改

    评价范围不论大小,也不管是否教师实施,公正原理都要求数据收集对象应囊括那些残障学生、学习失能者或非母语的学生。

    ·评价必须置于多种背景下,以迎合学生不同兴趣与经验,不应有性别、种族、民族上的先入之见

    评价练习要求真实,但在某种背景下,评价任务对某些学生而言总带有一定程度的偏见。如有些内容对男生比较适合,有些则对女生更适合,然而,如果增加任务评价的多样性,那么对所有学生而言其“不平等”机遇是相当的,这是避免评价结果失真的一个有效途径。

    评价标准E:当根据评价数据对学生成绩及学习机会(条件)作出推断时,应详细阐明假设所赖以成立的依据

    即便所实施的评价曾经过精心设计,其结果数据也是高质量的,但对资料的不同解释仍能导致不同的结论。对经验数据的推断融合了一定的理论、一个人的信仰与经验,要作出客观的评价是相当困难的。因为个体有时并不会意识到自己某些先入为主的偏见,所以,为了增加推论的信度,需要对假设所赖以成立的依据作出充分的解释。

    比如说,在一个大范围科学评估中,某一类人口的学生样本成绩较高,这就存在几种可能的解释:来自该人口的学生也许是高动机的;或者教学出色,使这些学生有更多的科学学习机会;或是评测本身并不公正,在某种程度上对此类学生有利。如果我们对以上假设不作出清楚的陈述,也没有从事实到结论的逻辑严密的线性推理,那么所下的任何结论很难令人信服。只有当那些评价实施者接受了良好的教育评价数据的推理训练,其结论的可信度才能不断提高。目前,即使是一般公众,也应如专业人士一样,对所作的任何推断作出开放的、可理解的解释与描述。