1、基于大数据的教育技术研究新范式 祝智庭 沈德梅 华东师范大学 上海数字化教育装备工程技术研究中心 摘 要: 教育技术的发展包含了一系列不同的范式。随着大数据的崛起和数据密集科学的发展, 学习分析学 (LA, Learning Analytics) 和教育数据挖掘 (EDM, Educational Data Mining) 成为大数据在教育领域的具体应用, 基于数据的教学干预应用程式已出现并在实际教学中使用 (如 Signals, Moodog 等) 。文章探讨了科学范式, 大数据在教育技术领域的应用, 以及不同的教育技术范式, 提出由于能够更好地贯彻“以学习者为中心”的教育理念, 个性化自适
2、应学习系统将成为以大数据为基础的新的教育技术范式。关键词: 科学范式; 大数据; 智慧教育; 教育技术范式; 个性化自适应学习; 作者简介:祝智庭 (1949) , 男, 浙江衢州人。教授、博士生导师, 主要从事教育信息化理论、系统架构与技术标准、网络远程教育、教学与系统设计以及面向信息化的教师专业发展等研究。E-mail:。一、科学范式 (Scientific Paradigms) 美国著名科学哲学家托马斯库恩 (Thomas Kuhn) 在科学革命的结构 (The Structure of Scientific Revolutions) 一书中系统阐述了关于范式的概念和理论。所谓科学范式是
3、指“在一定时间范围内, 能为研究者群体提供样板问题极其解决方案的普遍公认的科学成就” (UniversallyRecognizedScientific Achievements That, for a Time, Provide Model Problems and Solutions for a Community of Researchers) 。1科学范式的概念是库恩范式理论的核心。库恩认为, 科学范式具备两个方面, 首先, 在科学范围内, 该术语指的是可以被复制或模拟的一组示例性的实验;其次, 这组范例的基础是共享的先入之见 (Preconceptions) , 这些先入之见形成于证据
4、收集之前, 并且影响证据的收集。先入之见体现于两方面, 一是其隐含的假定, 一是相关的形而上学的元素;个体科学家对该范式的诠释可能会有所不同。2因此范式界定了某一研究领域的研究方法, 即研究什么, 研究问题的提出, 如何针对研究问题进行研究活动, 以及如何对研究结果进行诠释等。同时, 范式具有哲学意义, 它暗示了某研究群体的研究遵循的基本理论和研究群体共享的信念和世界观等。库恩同时认为, 范式不是一成不变的, 它在科学研究的进程中完善、发展, 最终可能退出。随着科学的发展, 新的科学范式会出现, 补充或者取代旧的范式, 这也就成为科学发展进程中的科学革命。在库恩看来, “科学革命”的实质就是“
5、范式转换”;在广泛接受的科学范式里, 发现现有理论或者范式无法解决的“例外”, 因此尝试用其他理论取而代之, 该理论得以发展最终成为新的范式。在自然科学领域, 范式的转换比较明显, 如伽利略的动力学相当于近代科学的初级阶段的范例, 爱因斯坦的相对论则为当代科学的研究发展提供了模式。库恩本人认为范式这一概念不适合社会科学范畴。原因是当他在社会学者聚集的帕洛阿尔托学者中心写科学革命的结构一书时, 观察到社会科学学者们在诸多理论方面存在分歧。因此他在书的前言中特意指出, 他之所以提出范式的概念正是为了将社会科学从自然科学中区分开来, 他认为在社会科学中不可能存在任何范式。然而尽管社会科学不可能像自然
6、科学那样在某一特定时期存在一个范式, 在相对较小范围的研究领域, 如社会学、人类学、教育学等或其下属领域内, 可能存在支持这些领域的研究范式、研究传统、研究计划等。这些较小领域的研究特征能够激发不同领域的研究, 界定什么是或不是研究证据, 以及为控制与其他相似研究领域的学术争论。例如, 斯金纳行为主义和个人建构理论同属于心理学和教育学研究范畴, 这两个心理学子学科的一个最显著区别是对意义和意向的关注 (Meanings and Intentions) 。在个人建构理论中, 这两个概念属于核心问题, 但在行为主义中, 它们不能作为科学证据, 因为他们无法被直接观察到。3另外, 学者们认为, 4虽
7、然社会科学内也存在明显的概念方面的改变, 如从行为主义到认知方法, 但是它们与自然科学范围内的科学革命不同, 原有的理论一般不会被完全摒弃, 而是仍旧在新的范式占据统治地位的情况下拥有一席之地。Thagard 提出并阐述了理论 (Theories) 与方略 (Approaches) 的区别。理论是指“相关假定的集合, 对大范围的实证研究结果和事实进行解释和归纳概括的基础”, 方略是“实验研究方法和诠释风格的集合”。5Thagard 认为, 由于整个社会科学领域并不存在一个统一广泛的支持各个学科的理论基础, 社会科学的变革更多的是由于研究方略的改变, 而不是源自对理论统一性的评估。也就是说, 社
8、会科学范式, 更多的偏重是指研究方略方面。本文之所以提出这点, 是因为本文目的之一是评估新的研究方法, 即大数据 (Big Data) 催生的数据密集科学 (DataIntensive Science) 对教育技术研究范式, 即教育技术研究方法的影响。二、悄然兴起的大数据分析与应用大数据一词出现于 1997 年, NASA 研究人员 Michael Cox 和 David Ellsworth第一次用该词描述上个世纪 90 年代出现的数据方面的挑战, 即超级计算机生成的巨大的信息数据量。当时, Cox 和 Ellsworth 对实验中产生于飞机周围的模拟气流数据无法进行处理或者将其可视化。“数据
9、集相当大, 对主内存、本地磁盘, 甚至远程磁盘都造成挑战, ”他们写道, “我们称此问题为大数据。”6大数据的产生与信息技术、互联网等密不可分并且以越来越多的方式产生, 7如多媒体内容、社会网络以及各类传感器, 不论是传统的数据密集型行业如基因研究、药学, 还是互联网新贵, 都面临着储存分析大数据的问题。例如Facebook 拥有超过 9 亿的用户, 并且用户数量仍在增长;Google 每天有 30 亿的搜索查询, Twitter 每天处理 4 亿次的短信, 相当于大约 12TB 的数据量。时至今日, 大数据尚没有系统统一的定义和理论, 学者们一般只是用该术语描述难以用传统软件和方法分析的超大
10、量的复杂的数据。8Laney9首先提出用“3Vs” (Volume, Velocity, Variety) 的概念, 在此基础之上, IBM10用“4Vs”描述大数据, 即大数据应该具备四个维度, 大体量 (Volume) 、高速度 (Velocity) 、多样化 (Variety) 和真实性 (Veracity) 。大体量是指各种类型的不断增长的数据很容易积累到百万兆字节甚至千兆兆字节 (TerabytesEven Petabytes) 的信息。高速度是指及时处理大数据的必要性, 例如分析大量的当日呼叫详细记录可以实时预测客户流失的程度等。多样化是指数据形式的多样性, 如可以分析多种数据的变
11、化包括文本、图像、音频等来提高客户满意度等。真实性则意味着大数据提供信息的可信度, 以及据此决策的可靠程度。还有些学者11 (Quinn, 2012) 认为应该加入另外两个 V:Value (价值) 和Visualization (可视化) 。关于类型, 学者们认为数据, 不论是否是大数据都分属三种类型:非结构化数据、半结构化数据、结构化数据。121314非结构化数据指没有格式的数据, 如 PDF、E-mail 和文档。结构化数据具备一定格式, 便于存储、使用和从中提取信息, 例如传统的事务型数据库。半结构化数据是指类似 XML 和 HTML 的有一定加工处理的数据。大数据的应用和影响体现在各
12、个领域。大数据不只意味着体量的大小, 它同时意味着研究方法更倾向于利用新的多种类型的数据获取信息, 以数据为基础进行研究, 并作出决策。在天文研究方面, 美国的 The Sloan Digital Sky Survey15 (SDSS2008) 成为天文学家的主要信息来源, 同时, 天文学家的主要工作也从包括拍摄星空图片等变为主要应用数据库查询和发现天象的变化。对企业来说大数据的应用则意味着更好的商业决策, 有些公司如Google、Amazon, Yahoo 等, 分析利用此类数据, 并将其结果作为扩张市场的依据或者提供个性化服务的方向, 因此公司得以快速成长。大数据的出现和潜在的价值也引起了
13、各国政府的注意。例如, 奥巴马政府 2012 年宣布, 每年将花费超过 2 亿美元在大数据研究应用方面, 以致力于科学探索、环境、生物医学、教育和国家安全方面的研究。16在教育领域, 随着远程教育的发展和 LMS (如 Blackboard 和 Moodle 等) 的应用, 大数据的潜在应用也越来越广。这些系统每天都记录大量的学生交互信息、个人数据、系统数据等。17这些也促进了教育界学习分析学 (LA, Learning Analytics) 和教育数据挖掘 (EDM, Educational Data Mining) 的发展应用, 以及教育技术领域的研究范式的变化。三、“数据密集科学”作为科
14、学研究第四范式所带来的机遇与挑战大数据作为一个通用术语, 实际描述着正在发生的影响到自然科学、工程学、医学、金融、商业、直至整个社会的科学革命。正是基于大数据的出现以及影响, Jim Gray18在 2007 年提出了数据密集型科学 (Data-Intensive Science) 的概念。Gray 认为, 从进行科学研究的方法的角度来看, 从古至今存在的科学研究方法范式包括:1.实证式 (实验科学) (Empirical/Experimentation) 分支, 开始于 1000 年前, 主要的研究方法是对自然现象的描述论证, 对自然现象进行系统归类, 如对化学元素的分类;2.理论式 (理论
15、推演) (Theoretical) 分支, 当科学假设与预期结果一致时, 则使得理论框架开始占有一席之地, 出现于数百年前, 主要采用建模方式, 由特殊到一般进行推演;3.计算式 (计算机仿真) (Computational) 分支, 开始于几十年前, 主要方法为利用计算方式模拟复杂现象, 科学数据可以用模拟的方法获得, 而不再依赖于单一的实验;4.数据密集型科学 (Data-Intensive Science) , 在前三种方法的基础之上, 采用 IT 技术获取、处理、存储、统计分析大数据, 从中获取知识。数据密集型科学被称之为科学研究的“第四范式”, 与其他三种范式一起成为科学研究的方法,
16、 它的出现与大数据密切相关。因此, Gray 提出的“范式”更接近于 Thagard19提出的“方略”。Gray20认为, 数据密集科学包含三项针对数据的活动:获取、存储维护、分析。大数据给科学研究带来巨大改变的同时, 也意味着多方面的挑战。学者们认为, 整个数据获取到分析的过程都存在不同的困难和挑战。21例如, 在获取数据时, 如何摒弃无用的数据, 如何做到在数据收集的过程中过滤数据以免却储存之后再进行处理的麻烦;同时, 如何自动产生元数据 (Meta Data) 对数据进行描绘。其次是数据存储, 即数据库存问题, 事务性数据库不适合存储关系不明确的大数据。在分析方面, 传统的统计算法的前提
17、是数据的同质性 (Homogeneity) , 大多数大数据不具备此特性。针对这些挑战 (大数据的非结构化, 具有多样性, 同时数量巨大) , 传统的关系数据库无法满足要求;No SQL (Not Only SQL) 数据库则为存储和检索大数据提供了可能。Google 的 Google File System、Big Table、Map Reduce 代表了这方面的技术创新。在第四范式:数据密集型科学发现22一书中, 多位作者提出了各个科学领域的研究与大数据结合的必要性和数据密集科学对不同领域科学研究方法的影响, 包括地球与环境科学、生命与健康科学、数字信息基础设施和数字化学术信息交流等。他们
18、也描述了大数据以及数据密集科学影响下不同领域的科研活动、过程、方法以及成果, 拓宽了不同学科领域应用大数据的思路。例如, Robertson23等在讨论发展中国家的医疗合作时, 描述了他们的以计算机和手机结合为基础的 Nx KM (Nx Opinion Knowledge Manager) 系统。该系统包括一个有专家开发的知识库、一个医疗诊断引擎和一个手机界面, 用来输入患者信息并根据该信息自动产生问题 (多项选择) , 以从患者获得更多信息。因此, 虽然患者信息可以由当地人连接输入系统, 但该信息由远程专家分析, 因此, 多方面的合作以及信息数据的综合使用, 使得诊断结果和诊治手段也将更加可
19、靠。该书虽然涵盖了多方面内容, 包括信息密集型科学研究范式对地球环境、医学、认知科学、学术信息交流等方面的深刻影响, 但没有涉及大数据对教育, 尤其是教育技术的影响。四、教育技术研究范式演变轨迹本文对教育技术不做定义方面的明确界定, 它基本等同于英语的 Educational Technology、Instructional Technology 或者 Instructional Development24 (Dills同时他认为教育技术研究也经历了一系列范式转换。他应用库恩的理论, 主要描述了四种涉及计算机的教育技术范式, 即计算机辅助教学 (CAI, Computer-Assisted I
20、nstruction) 、智能教学系统 (ITS, Intelligent Tutoring System) , Logo-as-Latin 以及计算机支持的协作学习 (CSCL, Computer-SupportedCollaborative Learning) 。Koschmann 强调, CAI 主要是针对教学技术的设计和评估的研究范式, 他在后来的研究中认为, 32CAI 并非与计算机同时出现, 相反, 它可能是桑代克 (Thorndike) 教育心理学研究范式的延伸和扩展。IBM 公司开发的Coursewriter (一种课件著作软件) 被认为是 CAI 开始的标志, 即使没有任何编
21、程经验, 人们也可以用该系统开发自己的教学课件。由于 CAI 开发人员大部分具有教学背景, CAI 系统大多反映了教育界对教和学的认知, 即学习是被动获取信息的过程, 而教学则是知识传递的过程。CAI 系统一般贯彻如下学习策略和措施:确定学习目标, 将学习目标分解为一系列学习任务, 然后开发一系列学习活动, 以达到预定学习目标。CAI 同样以行为主义和实证主义为理论基础, 因此 CAI 研究人员认为学习是可测量的学习成绩或者能力水平的变化, 学习是CAI 研究中的因变量, 而学习过程中引进的技术方面的创新成为干预措施和自变量。对照组的使用在研究中很常见, 研究问题通常为:使用该项技术对教学有何
22、影响?因此, 教学效验 (Instructional Efficacy) 成为该范式下的核心研究问题。第二个范式为 ITS, 起源于人工智能, 以 Carbonell33的博士论文的出现为标志。ITS 理论认为, 认知是一个计算过程, 可以通过建立模拟人脑工作模式的智能型系统来研究。34如果智能型行为可以通过系统程序表现, 那么具备经验和技能的教师的角色也可以设计出来。由于一对一教学被认为是金牌标准, 35因此可以推断出如果每个学生都有个人的导师, 那么整个社会的教育水平都会相应得到提高, 这也是智能教学系统研究范式的基本理念。信息加工理论是人工智能前提之一, 它认为问题解决是定义问题空间的表
23、征 (Representations) 的过程, 包括初始状态、目标状态以及不同状态之间的一系列运作。在此基础上, 表征成为解决问题和理解认知过程的中心问题, 而学习则成为获取正确的问题空间的表征的过程, 教学则是辅助学习者获取表征的活动。在此过程中技术的角色与其在 CAI 中并没有本质不同然而人工智能系统更注重交互性, 也更偏重于复杂技能的习得。与 CAI 不同, 智能教学系统范式的核心研究问题是教学能力, 即该系统是否完全能与娴熟的真正的导师相媲美。因此, 研究问题更看重的是系统的效果, 而不是学生的成绩。计算机辅助教学与人工智能系统尽管有所不同, 但从认知论的角度说, 他们都属于现实主义
24、和绝对主义 (Realist and Absolutist) , 即认为学习是被动获取知识, 而教师是绝对权威。36第三个范式为 Logo-as-Latin, 意指像学习拉丁语一样看待 LOGO 语言的学习。其中 LOGO 是上个世纪 60 年代由 MIT 数学教育实验室 Papert 教授领衔开发的程序语言, 主要供儿童在编程的过程中学习。该范式以建构主义为理论基础。建构主义起源于皮亚杰的发展心理学, 认为学习是新的信息与已有的知识融合同化的过程。有学者认为, 计算机编程可以成为建构主义学习方式的重要角色。37例如学生可以建立模拟系统, 在此过程中, 学习者成为“教师”, 而计算机则开创了一
25、个新的教育技术在学习中的角色, 即成为“被辅导者”。与 CAI不同的是, CAI 研究关注教学效果, 而 Logo-as-Latin 研究更专注于教学迁移。编程教学被看作干预手段, 学习者在其他相关学习任务上的成绩被看作因变量。然而, 在后期的文章中, Koschmann 认为, 38Logo-as-Latin 与 CAI 同样起源于传统教育心理学, 与 CAI 密切相关, 因此应该将它看作 CAI 的一个变种, 而不是独立的教育技术研究范式。Koschmann 提出的第四种范式是 CSCL。CSCL 与前三种范式有很多不同之处。首先, 前三种研究范式都是建立在心理学基础之上, 其本质是行为主
26、义和认知主义。而 CSCL 的基础是人类学、社会学、语言学以及传播学等。具体说来, 其理论基础包括 (不限于) 社会建构主义、社会文化理论以及情景认知理论等。社会建构主义认为知识的建构本质上是社会性过程;社会文化理论以维果斯基的文化历史理论为代表, 强调语言在智力发展过程中的作用;情景认知理论认为, 学习是进入实践共同体 (Community of Practice) 的过程, “要想学会如同真正的专业从业人员那样使用一个工具, 一个学生就应该像一个学徒, 必须融入该社区及其文化。因而, 在相当大的程度上, 学习是, 我们相信, 一个文化熏陶的过程”39。因此 CSCL 范式中, 学习的社会性
27、和文化性成为核心问题。不同于前三种范式针对的问题 (教学效果、教学能力、教学迁移) , CSCL 被称为“演绎的实践性教学” (Instruction as Enacted Practice) 。CSCL 研究范式有几个特点: (1) 研究问题比较集中在学习过程而不是结果; (2) 研究多倾向于描述性, 而不是实验性; (3) 很多研究者乐于以参与者 (CSCL 成员) 的角度研究合作学习的过程。因此 CSCL 研究着眼于参加者的谈话, 合作过程中使用的工具, 合作小组的成果等。CSCL 范式下的研究问题包括:学习如何在学习者的语言中表现出来?社会性因素如何影响学习过程?技术如何在合作学习中应
28、用?Koschmann 将这这四种范式做了简单对比, 见表 1。表 1 教育技术研究范式 下载原表 五、数据密集科学影响下的教育技术研究范式:个性化自适应学习数据密集型研究方法捕捉了整个信息时代带来的大数据的基本整体影响。在不同的领域, 研究方法的侧重和目的不同, 因此各有特点。如在工业界, 商业智能系统 (Business Intelligence System) 体现了大数据对决策的影响。在教育领域, 美国教育部在一份简报中指出, 40大数据在教育领域的具体应用主要为学习分析学 (LA, Learning Analytics) 和教育数据挖掘 (EDM, Educational Data
29、Mining) 。EDM 和 LA 之间没有明确的分界线, 但它们的起源、理论和目标不尽相同, 并且逐渐成为泾渭分明的两个研究领域。EDM 的目的是研究和利用统计学、机器学习和数据挖掘方法来分析教和学的过程中产生的数据。学者们认为, EDM 的研究目的包括以下方面:41 (1) 应用多方信息如学生的知识程度、动机、元认知、学习态度等建立学生模型, 并以此预测学生的学习行为; (2) 发现或改进学习内容展现和最佳教学序列的领域模型; (3) 研读由学习软件提供的不同的教学支持的效果; (4) 建立包括学生、领域模型和教学软件的计算模型, 推动关于学习和学习者的科学研究。美国教育部的简报中总结了
30、EDM 针对和所要回答的问题:42 (1) 什么样的教学顺序 (不同学习主题) 对不同特点的学生最有效? (2) 什么样的行为与更好的学习成绩相关 (如较高的课程学习成绩) ? (3) 什么样的学生的行为指标预示了学生的满意程度、参与度和学习进步, 等等? (4) 什么特点的在线学习环境能导致更好的学习成绩? (5) 什么因素能够预测学生取得成功?Siemens 将 LA 定义为“关于学习者以及他们的学习环境的数据测量、收集、分析和汇总呈现, 目的是理解和优化学习以及学习情境”。43LA 的一个重要应用是监测和预测学生学习成绩, 及时发现潜在问题, 并据此作出干预, 以预防学生在某一科目或者院
31、系课程学习中产生风险。44相比于 EDM, LA 借鉴了更广泛的学科, 除了计算机科学、统计学、心理学、学习科学, 还引进并应用信息学和社会学的理念和技术。45LA 回答的问题如下: (1) 什么时候学生可以进行下一个学习主题? (2) 什么时候学生可能在某一门课程中落后? (3) 什么时候某个学生可能有完不成一门课程的风险? (4) 如果没有干预补救措施, 学生可能得到什么样的成绩? (5) 对特定学生来说, 下一个最好的课程是什么?学生是否需要特殊帮助?美国教育部46的简报中总结了应用 EDM 和 LA 的范畴: (1) 用户知识模拟、用户行为分析、用户经验分析; (2) 用户分类/分组
32、(Profiling) ; (3) 知识域模拟如学习课题分类排序等, 知识元素与相应的教学原则分析; (4) 趋势分析; (5) 自适应和个性化学习。应用 LA 和 EDM 数据分析结果, 教师可以更好地了解学生, 理解和观测学生的学习过程, 发现最合适的教学方法和顺序, 及时发现问题并进行干预, 以提供个性化的学习服务为主旨。现在已经研发出的应用系统案例有普渡大学的“课程信号系统” (Course Signals System, 以下简称 Signals) 47、在美国加州大学圣巴巴拉分校以及阿拉巴马大学使用的 Moodog, 48以及美国西部州际高等教育委员会教育技术合作部 (WICHE,
33、 WCET, Western Interstate Commission for HigherEducation, CooperativeforEducational Technologies) 的教育大数据分析项目预测分析报告 (PAR, Predictive Analytics Reporting) 系统。49Signals 系统通过数据挖掘和统计预测模型, 根据多个变量 (表现指标包括:现有平均分和努力程度, 如学生 LMS 的交互频率;个性特点指标包括学术准备, 如高中平均分和各项标准考试成绩;学生特点, 如是否为美国居民、年龄和选修学分) 来预测学生是否能够完成/通过该课程。Sign
34、als 在课程进行的过程中, 以交通信号指示灯的方式, 让学生了解自己的学习状况:课业良好 (绿色) , 课业中度危急 (黄色) , 或者课业严重危急 (红色) 。同时教师可以提供给学生有效的反馈信息, 引导学生使用合适的资源等来提高成绩。50Moodog 的主要功能是跟踪记录学生在课程管理系统 (CMS, Course Management System) 上的学习活动, 其基本目标有两个: (1) 为教师提供学生与在线学习材料交互情况; (2) 帮助学生将自己的学习行为和进程与其他学生相比较。51PAR52的主要目的是应用 EDM 技术, 分析跨越多所高等院校的学生数据, 以期发现并确认影
35、响学生退学/以及是否能够毕业的因子, 并据此实施有效的教学干预。参与 PAR 的高校包括两年制和四年制高校, 有公共学校和私立学校, 亦有传统高校和非传统高校如网络大学。已经有 16 个 WCET 成员机构提交了 1, 700, 000 条匿名和去身份标识的学生记录以及 8, 100, 000 条课程级别数据记录。所有高校使用统一的数据模型, 该数据模型包括以下核心数据元素。 (1) 总体元素:基本框架, 描述所有 PAR 数据的基本概况。 (2) 学生一般元素:描述学生人口数据和学术背景信息。 (3) 学生课程元素:描述学生参加的课程和学生的课程成果。 (4) 学生的学术元素:学生级别的数据
36、。 (5) 课程目录的元素:教育机构开办的 PAR 学生就读的课程细节信息。 (6) 学校元素:学术单位的具体信息。应用描述、推理和预测分析技术, PAR 项目初步发现 32 个影响学生学习以及退学的普通变量 (多为学生特点变量) , 包括性别、种族、学位种类、多种专业、课程数量、班级人数等。其他发现如学生的性别、年龄以及种族与该生是否会退出某门课没有关系。该研究仍在继续。这些系统目前的主要功能是分析学生的网上学习活动, 判断实施干预措施的时间以及方法等;其潜在功能则可能包括教师可以根据学生使用学习资源的情况发现哪些最受学生欢迎或者哪些活动影响学习成绩, 提供适合不同学生需要的学习材料;调整学
37、习顺序或者学习活动等;最终, 完善的学习系统可以根据学生的特点 (学习风格、已有知识、动机情况等) 引导学生使用适合自己特点的学习材料和学习路径。因此 EDM 和 LA 在教育技术领域内的应用最终指向个性化学习和自适应学习环境的研究和开发。美国教育部简报认为应用 LA 和 EDM 技术达成预测学生学习和干预学习过程的自适应学习环境应该包括六个部分:53 (1) 自适应学习内容, 通过与学生的交互活动, 可以辨别学生的水平和能力, 因此可以管理、维护和呈现适合特定学生的学习内容; (2) 学生学习数据库, 用来获取存储学生与学习内容的互动, 包括时间和行为等; (3) 预测模型, 应用学生学习数
38、据和人口统计数据 (储存在另外的数据库中, 如年龄种族等) , 追踪学生学习过程, 预测未来行为以及成绩, 如课业成绩, 是否有可能辍学等; (4) 可视化报告, 将预测模型产生的结果用仪表盘形势表现出来; (5) 自适应引擎, 用来操控学习内容, 确保学习内容适合学生的能力和特点; (6) 干预引擎, 教师、管理员、系统开发人员等可否决系统提供的建议进行人为干预。除了六个自适应系统内部组成部分外, 还包括一个外部的学生信息系统。这个信息系统是由学校学区或者地区教育部门持有维护的学生背景信息资料, 如年龄、性别、所学过的课程、成绩、学习风格等。预测模型可以从中获取数据作为预测学生行为成绩等的部
39、分依据。图1 提供了自适应学习系统的概况。图 1 中的箭头和数字表示自适应学习环境中的数据流的方向和顺序。整个自适应学习系统包括三个信息反馈回路数据流 (Feedback Loop) 。数据流的第一步是学生与学习内容的交互, 交互内容被储存于学生学习数据系统里 (第二步) , 第三步则是预测模型抽取学生学习数据和背景数据, 应用 LA 和 EDM 技术进行分析, 然后将结果传递至自适应引擎 (第四步) , 自适应引擎据此针对特定学生作出学习方面的调整, 而这些调整则通过学习内容策略等的改变表现出来。同时, 预测结果也可以通过数据仪表盘 (数据可视化面板) 传达给教师和管理人员 (第五步) 。当
40、学生、教师, 管理人员等得到相关信息时整个反馈回路得以完成。学生通过自适应引擎获取的反馈信息包括学习活动情况、学习目标/技能完成程度、测评结果等, 学生可据此更好地进行自我调节学习 (Self-Regulated Learning) , 如在自己尚未完全掌握的学习内容上投入更多时间、改变学习策略等。教师方面获得的信息则包括学生整体学习情况以及每个学生的学习情况, 教师可以根据这些信息做出课程内容以及进度方面的调整, 例如决定是否对个别学生进行干预, 提供更多学习资料等。管理人员获取的信息则是包括多门课程、多个学生和教师的情况。根据整体信息, 管理者可以知道哪门课程的学生成绩不尽如人意、哪些特点
41、的学生的成绩更出色等。管理层可以据此作出决策, 如增加某门课程作为另一课程的先决条件 (Prerequisite) 等。图 1 自适应学习系统的构成以及数据流程图 下载原图图 2 个性化自适应学习 (PAL) 系统的构成 下载原图美国教育部简报中的自适应学习系统通过 LA 和 EDM, 引导学生了解自己的学习状况, 为教师的教学干预提供依据, 也使得管理层更好地进行决策。然而, 以数据密集科学为基础, LA 和 EDM 技术能够更好地分析学生的需要和特点, 从而使得学习更倾向于个性化。因此我们认为基于数据密集科学的自适应学习系统应该体现个性化的学习特点, 下一个教育技术研究范式是个性化自适应学
42、习 (Personalized Adaptive learning, 简称 PAL) , 即在自适应基础之上, 学习内容更体现学生特点和需求。根据学生的特点 (已有知识, 学习风格等) 和其他信息 (年龄, 性别, 兴趣等) 数据可以将学生分组 (Profiling) , 学习系统可以根据学生特点和需要推荐学习内容, 教师针对不同特点的学生提供丰富的学习材料, 学生同时可以自己选择学习材料、测评方式等。图 2 提供了 PAL 系统的基本结构。图 2 中虚线部分代表了学习内容生成的过程:学生背景数据 (以往成绩、所学课程、学习风格等) 导入预测模型, 分析生成可视化数据, 教师据此设计适合不同特
43、点学生组的不同学习内容。图 2 的实线箭头部分代表了自适应学习过程和数据流。自适应学习过程与图 1 一样, 由三个反馈回路组成。不同于以往的个性化学习和自适应学习的是, PAL 环境将以大数据为基础, 纳入 EDM 和 LA 数据分析和结果, 因此能够提供更适合特定学生的学习内容, 获取更多和更精确的学习者信息和学习活动信息, 更好地分析学习过程模式和学习活动有效性, 更准确地进行学习评估等。PAL 与 Koschmann 的四个教育技术范式相比较, 其独特之处在于它倾向于利用多方面数据:一方面根据已经存在的数据, 提供适合学生特点和需要的学习内容;另一方面分析已有数据和学习过程中产生的数据, 根据结果发现问题, 并采取个