1、美国“实施课程调查“项目进展及运作机制SEC 项目主任约翰史密森博士专访 郑蕾 雷浩 美国威斯康辛大学麦迪逊分校课程与教学系 华东师范大学课程与教学研究所 摘 要: 实施课程调查 (SEC) 是美国全国性课程实施检测项目, 至今已持续 28 年。SEC旨在从改善教师教学入手来实现学生学习的改善和学业成就的提升。该项目根据国家教育进步评估 (The National Assessment of Educational Progress, 简称 NAEP) 题项开发了评估教学与评价的体系, 包括主题覆盖、认知需求、内容深度三个维度, 并通过教师自陈问卷来实现;SEC 创建了教学与评价的一致性变量,
2、 并验证了其对学生学业的预测力, 从而为提高教师教学效率以及为评测大规模教育系统提供了可能;帮助教师通过学习分析数据来进行教学反思, 进而改善教学, 同时保证数据收集的有效性;为了既能够实现教学、评价与标准的一致性又能够满足学生的需求, SEC 设定一致性系数的最优值为 0.5;为了能够保障 SEC 的持续开展, 该项目除了为教师提供服务外, 还为校长、学区领导人或者政府领导人乃至高校研究提供有价值的服务;最后, 现任主任史密森博士指出中国可以借鉴 SEC 项目的数据分类思路, 建构符合中国国情的框架来开展课程实施监测。关键词: SEC; 课程实施监测; 实施课程; 课程调查; 作者简介:郑蕾
3、, 美国威斯康辛大学麦迪逊分校课程与教学系博士生 (麦迪逊53706) 作者简介:雷浩, 华东师范大学课程与教学研究所专任副研究员 (上海 200062) 基金:教育部哲学社会科学重大课题攻关项目“中小学课程实施过程质量监测”(首席专家崔允漷教授, 项目批准号:16JZD047) 成果之一。约翰史密森博士是此项目的顾问Development and the Operational Mechanism of the“Survey of Enacted Curriculum“ in the USA:An Interview with Dr.John SmithsonZHENG Lei LEI Ha
4、o Department of curriculum and instruction, University of Wisconsin-Madison; Institute of Curriculum and Instruction, East China Normal University; Abstract: The “Survey of Enacted curriculum (SEC) ” developed by Wisconsin Center for Education Research and currently directed by Dr. John Smithson is
5、a project evaluating the statewide and nation-wide curriculum implementation in the U.S. for 28 years. SEC aims to improve students learning and academic achievement by changing teachers teaching. Drawing upon the National Assessment of Educational Progress, it develops a teachers self-report survey
6、 as the major tool to investigate instruction and assessment from three dimensions: topics, level of cognitive demand, and the relative emphasis. The research team has constructed the alignment variable between teaching and assessment and confirms that alignment variable has the predictive capacity
7、of student performance, which provides the paths to improving teachers teaching and evaluating large education system. The team also helps teachers learn how to analyze data so as to reflect and improve their teaching. At the same time it could help ensure the validity of the data collection.SEC use
8、s 0.5 as the optimal consistency coefficient to indicate that both the alignment of teaching, learning and assessment and students demands are realized. To sustain SEC project, the team also provide valuable services for principals, school district leaders, government leaders and even university res
9、earch in addition to services for teachers. Finally, Dr. Smithson suggests that Chinese team could build up their own evaluative framework of curriculum implementation, with reference to the experience of data classification in SEC.Keyword: SEC; Evaluation of Curriculum Implementation; Curriculum Su
10、rvey; 一、背景实施课程调查 (Surveys of Enacted Curriculum, 以下简称 SEC) 是美国课程实施监测评价的权威工具。该项目是由美国州教育首席官员委员会 (Council of Chief State School Officers, 简称 CCSSO) 和威斯康辛教育研究中心 (Wisconsin Center for Education Research, 简称 WCER) 联合各州政府合作开发, 其所调查的对象是“实施的课程”, 指由教师报告的课堂上教师教的、学生经历的学科内容和教学实践。该项目的发展经历了三个阶段。最早可追溯到 20 世纪 80 年代安
11、迪波特 (Andy Porter) 博士等关于教师选择教学内容的影响因素研究。1989 年, 受美国国家科学基金会 (NSF) 资助, 该项目收集了美国六个州高中课堂样本来研究高中课堂里的教学情况。为了能在大规模样本的前提下仍准确地描述出高中课堂的实际情况, 波特博士开发了一种用于描述教学内容的语言, 其具体包含三个维度:主题覆盖、认知需求、内容深度。基于上述语言, 他们开发了调查工具来描述和反映教学内容, 以及开展相关的政策研究。这就是实施课程调查项目的第二阶段, SEC 工具便诞生于这一阶段。为了保证第一次大规模调查的可靠性, 他们除了收集 300 位教师的调查问卷以外, 还详细收集了与课
12、堂教学相关的教师一年的工作日志、在课堂上使用的教科书和年终的工作反思等, 同时还对教师进行访谈以及对他们的课堂展开观察。项目组将一年的数据进行汇总并对不同的信息进行比较最终发现了非常强的相关性, 由此确定了 SEC 调查问卷的信度。随着调查规模的扩大和持续进行, 研究进入了第三阶段。项目组开始重视数据结果的报告和使用, 并训练教师学会分析数据以便改善自身的教学和学生的学习。目前, SEC 项目又进入了一个新的发展阶段, 致力于帮助与州共同核心标准相关的课程分析和开发, 以便为评估和改进标准的落实情况提供相应的依据。约翰史密森 (John Smithson) 博士是美国威斯康辛大学麦迪逊分校 W
13、CER 高级研究员, 也是 SEC 项目的一名元老, 现任该项目主任。为了更深入地了解SEC 调查工具的开发和管理过程以及它对学生学习、教师专业发展所起到的实际帮助, 进而为我国的中小学课程实施监测研究提供借鉴, 我们就如下六个核心问题对史密森博士进行了专访。二、如何开发和使用实施课程调查的工具记者:史密森博士, 您好!很荣幸您能接受我们的专访。我们首先关注的问题是, SEC 是如何开发评价课程实施的工具的?史密森博士:该工具开发的一个背景和当时我们承担的一个有关中学数学教学如何为大学课程做准备的政策研究有关。在开展该项研究的过程中, 我们采用了与描述课堂实践相同的分类法来描述评估。这个评估是
14、一个测试, 该测试题目是根据国家教育进步评估 (National Academic Education Progress, 简称NAEP) 中所公布的题目而定的, 也就是说我们是根据一个评估系统来创建一个新的评估体系。这个新体系要能覆盖到不同的高中数学课程都共同拥有的内容, 从最基本的数学到高级代数。那么, 怎样才能构建一个很好的评估体系, 而不仅仅是充斥着繁多选择题目的问卷呢?我们基于描述课堂情况的语言开发出一种分析评估的方法, 并且这个方法相对比较简单, 主要聚焦于三个维度:测试主题是什么?测试问题针对的是什么级别的认知需求?以及测试相对考察重点是什么?为了能够分析考察的重点, 我们采用权
15、重。我们估计了每个测试问题的相对考察重点, 并开发了一个评价内容图。记者:如果用这个评价图来描述课堂, 那么各种不同的课堂教学就可以进行比较?史密森博士:正是这样。不仅可以比较, 在教学与评价两种定量的描述之后, 我们可以针对两者之间相互关系的问题展开非常详细的分析。所以我们找到了一种方法, 并且提出了一种新的算法来创建一致性变量, 然后检测该一致性变量是否有助于通过教学描述来预测学生在评价中的表现。结果我们发现, 这种方式能够很好地预测学生的学业表现。同时, 因为我们收集的信息很规范, 所以在分析的时候可以控制很多其它的潜在影响因素, 如家庭社会经济状况、学生过去的表现、学生的英语水平、所接
16、受的特殊教育等。因此, 在我们建立的模型中不但包括了那些预测学生成绩表现的常规因素, 而且还包括了刚才提到的一致性变量。正如所希望的那样, 我们发现在控制其它因素的情况下一致性变量是有预测力 (predictive capacity) 的。记者:这种预测力对教师教学来说会起到怎样的作用?史密森博士:我们的假设是, 如果学生能够有机会学习与评价相关的内容, 那么他们在评价中的表现也会更好些。同样地, 在我们的研究中那些一致性属性较高的教师, 他们的学生通常有更多的机会学习要评价的内容。鉴于所观测到的一致性与学生学业表现之间的关系, 我们认为这也能够成为帮助教师提高教学效率的一个利器。需要说明的是
17、, 我们是从政策研究的角度出发的, 我们既不参与学校的管理, 也不施加任何干预措施。换言之, 我们想在不做任何改变的前提下去了解教学的真实情况。但是当我们发现这种预测力时, 我们意识到这可能是帮助教师提高教学效率的一个有用工具。事实上这具有双重优势:一方面, 如果我们留意一下那些预测学生学业成绩的因素, 就会发现绝大多数的因素都超越了课堂自身的范畴, 至少在美国是这样的, 如学生的家庭社会经济地位和先前的表现等均为教师所无法控制的因素。我们的一致性检测是唯一考虑到通过改进教学实践来提高学业成绩的一种方法。该方法已在许多不同的研究和领域中得到应用, 并且能够比较稳定地预测学生学业表现和能力。另一
18、方面, 对教师而言, 学习掌握一致性检测能使他们在教学的过程中对教学计划和内容等做出及时和合理的调整。三、SEC 如何改善自身的工具和服务以促进教与学记者:你的意思是, SEC 的工具不仅可以测量教学、评价与标准的一致性, 还可以帮助教师的专业发展?史密森博士:确实, 我们研究中的第二个问题就是如何使它成为一个促进教师专业发展的工具, 以帮助教师提高教学、评价与标准的一致性并最终改善学生的学业成绩。我们认为这些工具拥有改变教师教学效率的潜力。但是, 为了促进这一潜力的发挥, 首先, 必须为教师创造适宜的环境, 使用者必须有领导力才能推动此工具的应用和充分发挥其优点。同时, 来自政府的支持也至关
19、重要。其次, 教师必须有时间坐下来处理这些数据。当然, 教师需要进行专门的培训以更好地分析数据。此外, 还需要专门的时间让使用者与被调查教师展开交流, 因为这个调查不给教师提供标准答案, 只给教师提供数据, 以帮助教师思考教学实践问题, 尤其是通过调查数据来解决教师正在思考的问题。记者:对教师使用数据的能力进行培训, 除了上述功能之外, 还有其它作用吗?史密森博士:对教师使用数据的能力进行培训的另一个优点在于, 当教师学会使用数据之后, 他们所提供报告的可靠性和有效性会明显提高。教师在这方面接受的训练越多, 他们会越有动力, 越愿意积极主动地使用这些数据。所以, 我倾向于认为, 教师是主要的数
20、据源, 也是主要的用户, 而整个教育系统链中的其他人都是被动的观察者。但是, 在这样的情况下, 教师能够迅速察觉到整个系统中的整体情况, 并且在大规模的调查中开展自我的分析工作。因此, 对于教师而言, 探讨可靠性和有效性之间关系的问题是有意义的。当教师看着自己的教学结果时, 他们可以扪心自问:“我相信我所看到的吗?这是我做的吗?”我们当然听不到这些问题, 但是当很多教师第一次参与到我们的项目或者说第一次使用我们开发的工具时, 他们往往情不自禁地脱口而出:“如果早知道这样, 在回答这个问题时我就会换一种说法。”就是这些来自教师的问题、意见和建议使得我们的研究偏向于为教师服务, 当然这也取决于我们
21、的项目类型。我们的研究会为教师教学改进提供一定的方向指引。比如, 我们有在线指引, 我们还提供一些课程材料供那些想要参加培训的教师使用。结果是既让教师受到了专业训练, 也能够保证了我们数据收集的可靠性, 因此即使在最糟糕的情况下, 我们也能看到 SEC 工具预测的有效性。这种预测力使我们相信它具有被应用到大规模系统或某一特定的评价体系中去的潜力。记者:当教师们完成自我报告后, 系统会自动生成一个报告, 你们是如何培训教师以便于他们理解报告结果的?史密森博士:一旦教师完成调查以后, 他们可以进去查看结果。当然, 此时的结果并不是报告形式, 而是一些图表。他们可以看到结果, 也可以与其同事或者与别
22、的学校或学区的教师进行比较。当然, 教师在数据的解释方面是需要帮助的, 并且他们也需要一定的训练。我们对教师进行这方面的培训, 一方面可以帮助他们填写调查问卷;另一方面, 帮助他们解释和理解结果。当然, 这是一个重复反馈的迭代过程。记者:在你把报告公开发布以后如何能保证教师的教学方式得到改善?我认为教师关心的是如何追踪后续进展。比如说你是否有一个反映同一组教师十年变化信息的数据库, 或者说追踪那些提供报告和使用报告的同一组教师的工作情况?此外, 通常您的团队与这些学校或者教师合作多久?3 年还是更久些?史密森博士:对这个问题没有一个统一答案。一般来说, 我们和学校合作研究, 较长的有 3 年,
23、 许多情况下, 只是 1 年, 但他们可能还会继续使用这些数据。现在教师也理解了这种方式, 他们重视、采用并且会持续采用这种方式。所以这就方便了整个系统各方之间的友好交流。这也是为什么我们把这种工具呈现给教师的原因。他们知道其他人会查看汇总后的数据, 但是他们的个人数据是保密的。他们也知道为这些数据所投入的时间和精力是值得的, 因为这些数据会帮助他们改进教学。记者:我们知道 SEC 所收集的数据主要用户是教师, 那么这些数据是否还针对一些其他用户呢?史密森博士:是的, 除了教师之外, 我们相信这些数据可以服务于不同层次的人群。虽然我们是专门针对教师专业发展而设计的, 但是当我们把同样的数据进行
24、汇总时, 我们还可以与校长或学区领导在数据的分析与解释等方面展开讨论。不过在美国很多州都有地区性服务机构。各个州委托我们与这些地区教育服务中心进行合作, 并要求我们及时向各个州报告研究结果。因此, 我们只需要负责培训地区教育服务中心的人员, 以便于他们再与所属学校的教师进行合作。这就是该模式的工作运转方式, 即重点培训培训者 (地区教育服务中心专家) 。虽然这不是我最喜欢的工作模式, 但它的效率确实很高。还是那句话, 我们的工作目标是帮助学校改善教育质量, 而刚才提到的只是一种方法。记者:SEC 是否还要为州级或联邦级别的决策者服务呢?史密森博士:这是一个有趣的问题。大约十年前, 我们与美国州
25、教育首席官员委员会 (CCSSO) 合作, 这个组织代表着每个州的教育权威人士。与他们合作难免会有些磕磕碰碰, 因为我们关注的是突出存在的问题并重视学术自由的价值, 而政府教育机构更关注的是他们所制定的政策的执行情况“我们希望教师去做 x、y 和 z, 而且现在我们就想知道他们正在做 x、y 和 z”。我们的回复是这样的:“我们可以告诉你们教师们现在正在做什么, 但我们不会告诉你具体某位教师在做什么。”尽管如此, 政府教育机构还是可以从整体上了解到 x、y和 z 那些事情是否正在处理中。但问题在于每个州都有自己的标准和感兴趣的内容。所以当我们在设计调查问卷和寻求州教育机构的帮助以便确定该包括什
26、么样的问题的时候, 各个州都要求把自己感兴趣的内容放到测试里面, 而且还要求教师明白他们的意图。但我们是科学家, 我们试图描述的是在这种环境下会发生什么, 而不是用我们的工具来确保政府工作正在进行。我们的态度是中立而客观的。如果政府制定的政策得到贯彻, 它就会反映在我们的工具中。虽然这不是一个直接的过程, 也不会表现得那么明显, 但也具有一定的研究价值。正如我一直所强调的, 在以实证为基础的前提下, 我们想要客观而详实地描述教学情况教师是否在做他们理应做的事情对此我们需要一个很好的描述。当把数据汇总到系统中时, 管理人员可以看到事情是否正在走上正轨。所以我觉得这里关键的不在于是否充当政府的代理
27、人, 而在于是否真的在为政府服务。四、如何保证教师自陈报告数据的可靠性记者:现在我们来谈一谈有关 SEC 项目测试数据的可靠性问题。前面您也提到过, 您比较了相关的质性数据和调查所得的量化数据, 结果发现了较高的相似度。也就是说, 把这些相关数据和量化数据合并在一起能够确保可靠性。我的理解对吗?史密森博士:你可以这么理解。这里我想补充一下。当教师接触他们自己的数据时, 大体上他们都能接受并且理解这些数据。当然, 如果他们不同意的话, 他们会说出来。我们也会听一些教师说:“我不明白这个问题”。这就是为什么我们要开展培训的原因。社会科学研究经常会遇到的一个问题, 即某人在提出和回答某个问题的时候可
28、能会被认为他正在做某些事情, 但事实并非如此。当一位教师宣称:“我和我的学生已经做了很多较高层次的认知需求工作”的时候, 通常就假定他真的是这样做的。但是, 如果我们安排一位专家在课堂里观摩, 这位专家可能会直言不讳地指出:“你们做的没有宣称的那么好。也许你们需要一些专业建议。”因此, 对于自我报告而言, 一个关键问题在于教师对自己的教学实践情况有多了解。对我们来说, 这方面一直在不断发展, 这也是我们开发专业发展模式的一部分内容。因此, 当我们在学校改进情景中使用调查问卷时, 首次调查的目的其实是先让教师熟悉我们的调查问题, 然后再对他们进行培训和查看所收集的数据。当教师重新接触这些数据时,
29、 他们开始审视自己在工作中是否真正在做专家认为应该做的那些事情。因此, 下一年的调查报告结果显示, 他们对一些内容的自评分数开始下降, 这是因为他们真正意识到:“我在过去的自我报告中宣称在这方面已经做了很多, 但是现在我懂了很多, 意识到我在这方面做的其实还不够好。”当我们在课堂里开展这些纵向研究时, 当我们正在和教师们并肩工作时, 我们会接触到了这些数据。所以, 我们相信随着时间的推移, 教师分析数据的能力会不断提高。当教师们意识到这些数据可作为一种评价教学效果并且可用于自我反思和与其他人进行交流的时候, 他们会自觉提高数据报告的质量, 这样自然也就提高了数据的可靠性。五、SEC 在处理标准
30、、教学和评价的一致性上取得了哪些经验记者:现在让我们来谈谈 SEC 是如何处理标准、教学与评价的一致性问题的。史密森博士:美国联邦政府明文要求各州所开展的评价必须符合已制定的标准, 并制定相应的问责制。其假设是, 如果教师的教学、评价符合标准, 那么学生的学业成绩就能够得到保证。这样, 我们可以采用工具来检验这个假设。我们仍然用与测试表现相关的数据库, 但是现在我们的问题不再是探讨“教学工作是否符合考试”, 而是“教学工作是否符合标准”。在这种情况下, 如果教学与标准之间的一致性确实能够预测学生的学业表现, 我们会认为这个系统是成功的。当然, 结果可能很好, 也有可能很糟, 因为这与学生的表现
31、紧密相关。记者:每个州负责制定标准和开展评价的是同一群人吗?因为在中国他们往往不是。史密森博士:的确不是!记者:这样的话我觉得在实际工作中很难保证一致性。史密森博士:确实很难。一般来说, 评价供应商在销售产品时都会说“我们的产品绝对符合标准, 同时也非常符合教科书标准。看看封面, 你就知道我们的产品是多么符合新的共同核心标准。”因此, 我们对教科书进行了一些分析, 以便检测这些教科书自身是否符合共同核心标准。你知道我们发现的结果是什么吗?这些教科书自身并没有那么符合共同核心标准, 这大大出乎我们的意料。我们对评价工作也进行了类似的分析, 并且我们定期地为各州做这项分析工作, 因为各州需要向联邦
32、政府提交评价结果, 显示他们的评价方法与标准是一致的。为了达到这个目的, 各州必须找到一些证据支撑。目前大约有 3 种不同的方法被各州广泛使用, 以便向联邦政府提供相关证据, 而我们的方法是其中的一种。因此, 我们选取了一些州来开展相关工作。我们分析了这些州的评价结果, 以及州级标准或国家标准 (在过去往往只有州级标准) 。同时, 我们做了一个评价结果是否符合标准的报告以反映各州的落实情况, 并且各州必须把这个报告提交给联邦政府。我们还做了进一步的工作。比如我们告诉各州“目前你们收集了一些非常有用的数据, 建议你们去好好分析一下这些数据, 了解一下你们的评价与标准的一致程度。同时, 再认真思考
33、一下你们的评价工作还应该考虑哪些内容, 从而确保明年的评价工作可以涵盖更全面的内容。”这是因为仅仅依靠 50 个评价指标是难以涵盖一个学期所有的教学内容的。总之, 我们做这项工作既满足了联邦政府的要求, 也提供给各州可用作进一步分析的详细信息。同时, 我们也帮助教育行政部门理解和开展一致性分析, 这是因为一致性分析所得到的结果不仅仅只是一个数字, 而是包含了很多技术细节。记者:关于设立共同核心标准的背景我略知一二。如同你所说的那样, 你的研究正在从关注教学方式对学业成就的预测力转向教学和标准之间的关系。我想知道为什么会发生这样的转变?史密森博士:评价的内容往往很狭窄。如果你只是告诉教师, “这
34、是我们要测试的, 那是教师教学中应该重点关注的内容”, 我想这样会忽视很多其它的重要内容。鉴于此, 我们更多从关注标准作为出发点, 这是一个更为广阔的视野, 能够涵盖更全面的内容, 所以我们告诉教师应该有这个广阔的视野, 他们在教学中应该尽可能地涵盖更多的内容, 虽然评价只关注其中的很少一部分内容。当然, 我们不会告诉教师们具体是哪一部分内容会被评价, 所以他们在教学的过程中就会关注更多的东西, 工作也会更加认真。记者:在中国也会有类似的情况, 因为无论在过去还是现在, 中国都是以考试多而出名。但是这种应试教育正在受到批评, 这也是当前课程改革的背景。我们现在要求教师们在授课时应涵盖更多的内容
35、, 不能仅仅“为考试而教”。此外, 我们还存在另一个问题, 即不仅仅是考试范围过于狭隘, 而且考试的要求也普遍过高, 这就使得学生之间的竞争十分激烈。总的来说, 这种高强度竞争可能并不是一件好事。史密森博士:听起来很有同感。教育评价在美国很有市场。商家竞争激烈, 什么产品都有, 并且每个商家都在宣称“使用我的产品, 让你的学生创造奇迹”。但是每个商家的关注点不同。有些人关注的是全国性/全州性的评价系统, 有一些公司更关注学校和学区, 有的小公司则提供更廉价的服务。当然, 来自各州的大型课程评价仍然发挥着主导作用, 并且各州都很认真, 试图确保所有的测试均具有一致的标准, 但是人们总是有点担心:
36、测试是否真的有效?我的意思是, 如果评价内容太窄, 而教师的教学目标比较宽泛, 评价内容被完全包含在目标之内, 学生就有可能无法获得他们需要的学习机会。这样的评价是我们需要重点注意的。如果目标和评价之间的一致性程度较低, 那么教师就要思考教学法方面是否出了什么问题。同时, 这种不一致还能够指导研究人员朝着目标需要的方向改进, 并且认真思考为什么我们没有看到所期待的结果。而对于那些公式适用或预测有效性成立的学区或者学校, 则需要考虑如何才能做得更好?比如说提高方法的一致性是否会改善学生的学业成就?但是我们必须先回答一个基本问题, 即我们是否在追寻完全的一致性?答案是否定的。记者:完全一致性并不是
37、 SEC 的主要目标, 这是否因为评估必须首先保护教师的专业自主权呢?史密森博士:SEC 的主要目标的确不是完全的一致性, 而是学生的学习和学业成就。现在我们有三套数据课堂授课的数据, 测试内容的数据以及学生在测试中的表现数据。除此之外, 我想还需有另外一套数据, 即国家标准。所以接下来的分析工作应该兼顾这些方面, 并且这是一种新的尝试。现在我们把 0.5 作为反映一致性的最优值, 且该值介于完全一致性和缺乏一致性两个极值的中间位置。选择 0.5 的原因在于, 我们相信任何一位教师在教学中都面临着两方面的要求, 一是标准和目标方面的要求, 二是学生方面的要求。因此, 教师需要根据自己的专业判断
38、, 来思考如何让学生的学业成绩获得进步。当然, 这个过程中涉及到很多变量, 如学生的学习风格是怎样的?他们是否了解一些先备知识或信息?他们是否需要接受一定的培训?正因为有这么多的因素需要考虑, 我们认为出现完全一致性的情况时, 即所有工作完全符合标准的情况下, 教师势必把所有的注意力都放在如何与标准相一致上, 而忽视学生的需求。这不是一件好事。另一方面, 如果评价值很低 (即缺乏一致性) , 我们会担心教师可能过于关注学生的需求却忘记了标准或目标, 而在这种情况下, 教师们是需要一定的引导与帮助的。所以, 在收集个人一致性报告时 (当教师们刚完成调查的时候) , 教师可以进去查看图表。但现在我
39、们有了一个新的任务, 即个人一致性报告, 其目的是通过数据分析提供给教师更多的指导。在这个过程中, 我们不断地告诉教师, 他们在某个特定的内容领域花了过多或太少的时间, 而依据标准, 他们应该在这方面缩减或者增加一定的时间。同样地, 该报告可以反映出教师在教学方式上的异同, 以及造成这些差异的原因。随后我们会对教师提出建议:如果学生在与授课内容相关的测试中表现较好, 教师在教学方式上可能不需要做出任何改变。但是, 如果学生与授课内容相关的测试中表现较差, 教师就需要去思考问题究竟出在哪里?是不是学生缺乏一些先备知识?他们是否需要补课?这时候, 教师就不会仅仅停留在关注教学是否与标准一致上, 而
40、是认真地回顾自己之前的授课情况。这一过程不但会促进教师教学与标准的一致性, 也会帮助改善学生的学业成绩和表现。所以, 在一致性分析中, 我们试图对课堂授课情况进行更细致的分析, 从而给予教师更详细准确的指导。标准并不是具体告诉教师要教给学生什么内容, 而是告诉教师教育的目标和走向。而教师作为一名专业人士会根据调查结果对自己的教学形式、教学内容、认知要求及相关问题进行反思并作出新的判断。除此之外, 我们还希望教师与其他教师进行积极交流, 进而从其他教师那里获得反馈, 如别的教师如何面对问题并提出解决方案的, 这样就能很好发挥其作为自我提升工具的作用。总之, 数据是为了激发问题, 促使教师的思考向
41、着一个良性的方向推进, 而且有利于提高我们对系统改革的预测力。这些的前提是我们的数据是有用的。那如果这些数据不起作用, 我们就要找找问题在哪, 是调查工具有问题?还是教师使用工具不对?还是评价并没有在检测我们想要检测的认知难度?这是一种可以通过使用各种措施来进行评价和诊断的分析方法, 并且通常具有自我验证的功能。收集的所有不同来源的数据信息可能相互兼容也可能相互排斥。如果兼容, 它们在某种程度上就会相互验证。教学与评价的一致性可以用来预测学生的学业表现, 进而用来验证教师的报告和评价。同样地, 如果教学与标准的一致性也能预测学生的表现, 那么通常意味着 (教育) 系统是成功的评价包含了足够的标
42、准内容, 而标准也包含了充足的学生学习, 学生的学习和考试表现成正相关。当然, 这些也有可能会失败。如果失败了, 我们一时很难判断问题是否出在有效性或可靠性方面, 还是学业表现或教学实践方面。这是一个真实问题, 但不是在测量本身的问题。记者:这种一致性评估是否在某种程度上会改变标准?比如说, 教师对自己的学生给予了很好的关注, 同时也兼顾了与标准的一致, 其学生的学业表现也很好。而该教师的教学方式与标准之间的一致性程度只达到 0.5 (如果完全一致性是1 的话) 。在这种情况下, 那位教师是否被认为是最佳实践教师?另外, 这样的报告结果是否会让标准制定者去反思是否应该调整标准?史密森博士:这是
43、可能的, 但在实际中我们通常不会这样做。因为制定标准本身是一个政治过程。一旦某个标准形成了, 制定者就不愿意再去对它进行改动。然而, 它的确提供了一些选择, 比如, 我们现在正在埃及开展一些工作, 而埃及正在建立一个和现在的教育系统相并行的新系统。他们也有应试的问题并且这对人民的未来产生了巨大的影响, 因此他们在努力建一个新系统。在这个过程中, 他们特意用我们的工具来开发所有的环节, 包括标准和与标准匹配的评价。但他们实际上现在不看教学。我的意思是, 他们在用我们的工具从事开发方面的工作而不只是在评价的末端给出改变意见, 而这也是波特博士从这个项目建立之初开始所要推动的工作。在理论上, 标准也是可以改变的, 但前提是你有一个对此开放的系统。如果他们 (教育决策者) 愿意这样看待这个问题的话, 那我绝对是可以改变的。