1、教育大数据的实际应用及部分数据处理过程(1)MOOC 的蓬勃发展。MOOC 是 Massive(大规模的) 、Open(开放的)、Online(在线的) 、Course(课程)四个英文单词的首字缩写,意为大规模网络开放课程。2006 年,萨尔曼可汗(SalmanKhan)创办了利用在线视频进行免费授课的可汗学院,现有关于数学、历史、金融、物理、化学、生物、天文学等科目的 3400 多段视频,注册用户超过了 1000 万人。2011 年,斯坦福大学的一门人工智能网上课程吸引了 190 多个国家的 16 万名学生参加学习,该课程的讲授者塞巴斯蒂安特伦(Sebastian Thrun)教授创办了在线
2、教育网站Udacity。2012 年,盈利性在线大学教育平台 Coursera 上线,和普林斯顿大学、斯坦福大学、密歇根大学和宾夕法尼亚大学等 83 所大学协同提供课程,目前在全球拥有 380 万的注册用户。同年,哈佛大学与麻省理工学院宣布结成非营利性合作伙伴关系,联合发起了名为“edX”的网上课程系统,联手提供免费的在线课程,搭建共同教育平台,包括清华大学、北京大学在内的其他 26 所全球名校也相继加入了这一平台。互联网技术的发展带动了教育的网络化和国际化,MOOC 更将传统的远程教育推向了新的高度和广度,催动了网络学习时代的到来。在教育活动中,相对于通过师生面对面的接触获取教育数据的途径而
3、言,基于大型网络课程平台进行数据挖掘的方式显然有效得多:学习行为的数据将自动留存,更易于后期的学习行为评价和评估;教师只需通过分析整合学习行为就能得到学习过程中的规律;利用数据挖掘的关联分析和演变分析等功能,在学生管理数据库中挖掘有价值的数据,分析学生的日常行为,可得知各种行为活动之间的内在联系,并提出相应的对策。(2)个性化课程分析。佛罗里达州立大学利用 eAdvisor 程序为学生推荐课程和跟踪其课业表现。奥斯汀佩伊州立大学的“ 学位罗盘(Degree Compass) ”系统在学生注册课程前,通过机器人顾问评估个人情况,并向其推荐他们可能取得优秀学业表现的课程。系统首先获取某个学生以前(
4、高中或大学)的学业表现,然后从已毕业学生的成绩库中找到与之成绩相似的学生,分析以前的成绩和待选课程表现之间的相关性、结合某专业的要求和学生能够完成的课程进行分析、利用这些信息预测学生未来在课程中可能取得的成绩,最后综合考量预测的学生成绩和各门课程的重要性,为学生推荐一个专业课程的清单。(3)辍学行为的预测。美国西部州际高等教育委员会(Western Interstate Commission for Higher Education,简称 WICHE)以凤凰城大学和里奥萨拉多学院等 6 所学校的 64 万名学生为对象,建立了一个教育数据库。该数据库可以记录 3 百万条课程信息,进行 33 个针
5、对在线课程的变量分析。当一些与辍学行为有关的关键因素(如旷课、纪律问题、课堂表现)发生变化时,系统会向校方发出预警。里奥萨拉多学院有 43000 名接受在线学习的学生,学院的预警系统允许教师看到代表学生行为的红、黄、绿色指示灯,并根据学生的在线互动行为评估其表现,如阅读教科书和回应教师要求的频率。(4)助学需求的预测。华东师范大学的“家庭经济困难学生预警系统” 通过收集校园卡的记录进行分析测算,向可能存在经济困难的学生发送询问短信。系统具体的做法是:跟踪学生的校园卡,对全校本科生周一到周四的中、晚餐消费值进行统计,分别计算出男女同学的平均消费值,乘以 0.6 的系数,得出预警消费线。如经系统筛
6、选发现就餐消费明显偏低,学校勤工助学中心在对比分析学生入学时填写的资料后,会主动向学生发出短信以征询情况,同时也会通过院系教师做进一步了解,以判定学生是否真的面临家庭困难,需要帮助。(5)学术研究趋势的把握。斯坦福大学的文学实验室正在进行一项研究,尝试以通过谷歌图书计划放置在互联网上的海量书籍为平台,进行数据挖掘和分析,把握和预测文学作品和学术研究的发展趋势。斯坦福的英语教授马修L 乔卡斯(Matthew L. Jockers)在一堂课上布置了内容涵盖 1200 篇小说的作业。学生要完成的并不是逐篇阅读,而是通过计算机程序来研究文学风格、观点、语言和文化的演变。人文学科,无论是历史、文学还是语
7、言研究,只要是聚焦于书本的,都可以用这个思维来进行研究。(6)其他实践。美国的房产网站 TRULIA 将房产信息、税收信息、犯罪信息、学区信息、学校政府评价、社会评论集成在一起,美国几乎任何一个学校和学区的情况都可以在这一数据基础上通过可视化技术直观地展现在人们眼前;有研究指出,9教育大数据还可以用于分析合作学习小组中的强、弱方,促进学习任务的合理分配;教育机构还能从大数据中看到是否将教育款项恰当地拨到了需要的地方。(7)教育数据挖掘。早期的教育数据挖掘主要是网站日志数据的挖掘,现在新的计算机技术支持的交互式学习方法和工具(智能辅导系统、仿真、游戏),为量化和收集学生行为数据带来了新的机会。特
8、别是更加集成、更加模块化和更加复杂化的在线学习系统提供了更多类型的数据,其中包含了数据挖掘算法需要的许多变量。教育数据挖掘能发现这些数据中的模式和规律,探索建立预测模型,让我们重新发现和预测学生如何学习。例如,过去对在线课程的评价主要通过课程结束时的学生问卷来评价,Hung, J. L.等(2012)开发了一种在线课程评价方法,通过分析一个学生 K-12 在线课程的学生学习日志,一共有7539 名学生在 883 门注册课程中 23854527 份学习日志,结合学生人口特征数据、课程结束时对学生开展的课程评价问卷调查,对学生进行分类,发现高危学生和高表现的特征,预测学生的成绩,并研究学生表现和对
9、课程满意度的关系。(8)学习分析主要涉及学业分析、行为分析和预测分析的研究和应用。简介采纳了 Johnson et al(2011)对学习分析的定义,指的是对学生学习过程中产生的大量数据进行解释,目的是评估学业进步、预测未来表现、发现潜在问题。数据来自学生的显性行为,如完成作业和参加考试;还有学生的隐性行为,如在线社交,课外活动,论坛发帖,以及其他一些不直接作为学生教育进步评价的活动。学习分析模型处理和显示的数据帮助教师和学校更好地理解教与学。学习分析的目标是使教师和学校创造适合每个学生需要和能力的教育机会。学习分析技术对于学生、教师、管理人员、研究人员以及技术开发人员均具有重要价值。对于学生
10、而言,可以从学习者行为角度了解学习过程的发生机制,并用来优化学习,以基于学习行为数据的分析为学习者推荐学习轨迹,开展适应性学习、自我导向学习。对于教师和管理人员而言,可以用来评估课程和机构,以改善现有的学校考核方式,并提供更为深入的教学分析,以便教师在数据分析基础上为学生提供更有针对性的教学干预。对于研究人员而言,可以作为研究学生个性化学习的工具和研究网络学习过程和效用的工具。对于技术开发人员而言,可以优化学习管理系统。(9)数字校园。数字校园的建设大大推动了学校管理的数字化和网络化,办公自动化系统、资产管理系统、教务管理系统、科研管理系统等各种应用系统为教育管理数据的实时采集和深度挖掘提供了
11、条件。目前,国内已有一些高校率先开展基于大数据的教育管理服务。浙江大学对学校的设备资产数据进行了系统采集与整理, 提供便捷的查询与分析服务, 提升了实验室、教室、仪器、设备等资源的利用率和管理效率。江南大学通过物联网技术对学校用水、用电等数据进行全面监控和优化处理,实现了节能环保。华东师范大学利用学生的餐饮消费数据,对经济困难学生提供情感抚慰和助学金支持(第四条信息详细描述)。此外,大数据还可以在教师招聘上发挥重要作用。通过对应聘者的个人信息进行分析和预测, 从而将更有可能成功和更适合的教师招聘进来。美国一些学区开始与大数据公司合作,应用大数据工具辅助教师招聘。通过对教师的学位和专长以及信仰、
12、人生观、态度、经验开放性等因素的分析,结合面试结果,综合决定教师是否被聘用。(10)加拿大的 Desire2Learn 科技公司面向高校研发了“学生成功系统” ,该系统主要基于学生已有的学习成绩数据来预测并改善其在未来课程学习中的表现,并将分析结果详细地呈现给教师,以便教师进行个性化指导。(11)适应性教学支持适应性教与学是教学的最优化状态。适应性教学中的内容、方法和过程都可以根据学习者的状况来进行定制,让每个学习者都有可能获得适合自己的最大程度的发展。适应性教学的实现,需要基于学习者的个体特征和学习状况的全面分析。大数据为追踪和整合这些数据,并对学生进行个性化支持提供了可能。最为常见的适应性
13、教学系统来自在线学习领域。在各种学习管理系统和在线学习平台中,学习者的学习过程能够得到完整记录。学习过程的记录结合人口学和学习风格等学习者特征数据,可以清晰地表征学习者的学习路径和学习者特征,在有效记录学习过程、综合评价学习状况的基础上,进行诊断和推荐,开展有针对性的教学。当前,最具代表意义的适应性学习系统当属 knewton 和可汗学院(kehan academy) 。此类适应性学习系统重点支持了学生的学。学习系统试图扮演教师的角色,对学生的学习进行自动化记录、诊断和干预。适应性学习的另一个层面是对教师教的支持。应当看到,目前的学习系统还存在诸多局限,在MOOCs 发展的初期,教师是否会被在
14、线课堂所替代曾经成为一个引人瞩目的话题。然而,教师作为教育过程中的关键角色,不可能在短时间消失,而是会借助技术实现专业水平提升和角色转变。大数据将成为教师教学的强大助手,帮助教师更好地发挥自身作用,更好地促进学生的学习。在大数据支持下,教师可以根据自身的需求对学生的学习进行检测,并通过自己设定的标准,对学生进行自动化或半自动化的评价。在数据的支持下,教师可以结合自身的教学经验对学生进行诊断和干预。在教师的训练下,大数据工具将对教师的教学提供更有力的支持。大数据工具将成为教师最好的帮手,而不是竞争者。以 masteryconnect 为例, masteryconnect 对教师的教学提供了全面的
15、数据化支持,它从教师的日常工作出发,提供了数据采集、分析、呈现和基于数据的协作支持。教师可以在其支持下采集各种教学数据,包括课堂观察数据、答题卡数据、量表数据和在线测试数据。在采集数据之后,masteryconnect 可以进行自动化分析和可视化呈现。分析的结果可以通过该系统分享给其他教师,教师可以在数据的基础上进行交流和协作。Masteryconnect 对各种形成性评价提供了全面的支持,教师可以自行建立教学内容的结构,并为各个模块和知识点设计问卷、练习、试卷等各种测评方式。测评可以发布到 PC 和移动设备,学生可以自己选择自己喜欢的方式完成测评。同时,测评结果可以形成定制报告,并发送给家长
16、。对教与学的支持是大数据在适应性学习中应用的两个侧面。基于数据,学生的学习状态得以完整记录,学习系统可以推送定制化内容,教师可以开展更具针对性的教学。可见,数据正在改变着线上和线下的教学过程。(12)教育规律发现。教育研究是一项复杂的系统性研究。长期以来,小样本量、个案研究对教育规律探索起到了重要作用。而教育大数据的引入,大大拓展了教育规律探索的视角。图灵奖得主吉姆格雷在第四范式:数据密集型科学发现一书中,提出了一种新型研究范式,即数据密集型研究,这将成为大数据时代教育研究的利器之一。换言之,在大数据的驱动下,教育研究将出现不同的态势,通过挖掘、分析教育大数据,研究者可以量化学习过程,表征学习
17、状态,发现影响因素,找到干预策略,从更深的层次揭示教育规律。诚然,规律发现并非易事。但可以肯定的是,再多来源、大体量数据的基础上,通过技术手段进行数据汇集和共享,组织研究者进行群体协作,开展大量能够进行标准化,具有对比意义的研究,最终更易发现真实的教育规律。这里可以通过对美国的三个大数据教育应用的案例,即“预测分析报告项目(predictive analytics reporting,PAR) 、数据商店(data shop)和 data.gov”的介绍与分析,充分了解大数据标准化研究和数据门户对教育规律探索的意义。美国的预测分析报告项目(PAR)对高校学生的学习状况进行了全面分析,在学生辍学
18、等重要风险的预测方面进行了探索。从 2011 年开始,该项目与美国的高校合作,建立了标准化数据收集框架,通过对学生学习数据的收集和分析,发现影响因子并购建预测模型。该项目分析的原始数据包括学生人口学数据、教学管理数据、学习过程数据、成绩数据和学生财务信息数据等。通过分析,该项目建立了通用分析标准和风险预测模型,并为各个学校提供了定制化风险因素模型。迄今,PAR 已经服务 351 家院校,分析了超过了 2000 万条课程数据。PAR 也为学校分析学生学业表现提供了综合视角,为防止学生辍学提供了有效手段。教育大数据研究需要大量汇集数据,数据汇集需要大量研究者的群策群力,也需要行之有效的组织机制。匹
19、兹堡大学学习科学中心(pittsburgh science of learning center)的数据商店(data shop) ,是美国自然科学基金支持建立的学习科学数据库。经过十多年的建设,已经成为全球最大的学习数据分享社区。数据商店具有数据存储和数据分析两大类功能:一方面,它为全球学习科学研究者提供安全的数据存储与共享工具;另一方面,它提供了数据分析工具和调用接口,便于分析应用。数据商店中的数据,分为公开数据和私有数据,研究者可以根据需要选择自己的数据是否要公开。数据商店中的数据,包括教学软件应用数据,包括教学软件应用数据、在线课程数据、智能教学系统(intelligent tutor
20、ing systems) 、虚拟实验室数据、协作学习系统数据等。在数据汇集和分享功能的基础上,数据商店提供了丰富的数据分析功能,支持探索性统计分析和数据挖掘,提供 web service 支持远程调用,以及与 r 语言、excel 等工具的接口。美国教育部在教育研究与实践数据汇集方面开展了大量工作,汇集了大量数据。截止 2016 年 5 月,在其数据门户 data.gov 中,汇聚的数据包含了 325 个大型数据集。数据包含范围很广,涉及人口统计、学习成绩、贷款情况、校园安全等情况。Data.gov 针对各类数据提供了多种数据格式,同时,提供了在线数据分析功能,他可以实现灵活便捷的在线数据可视化。同时,Data.gov 还为每个数据集提供了 API,便于外部调用与分析。由此可见,大数据分析对于教育研究规律的发现意义重大。上述三个案例预测分析报告项目、数据商店和 data.gov,对于我们利用大数据研究教育现象、发现与探索教育规律,有着重要的借鉴意义。因为规律的发现,需要针对特定研究主题进行长期研究,需要大量标准化数据支持,需要对基于数据的研究与协作作广泛支持。对于重要的教育研究主题,设定数据标准,进行长期纵向跟踪和广泛横向比较研究,是探索教育规律的有效途径。同时,还需要建立更加通畅的数据分享渠道,通过开放,最大化实现数据的应用价值,以便为研究提供更加广泛的支持。