1、大数据时代高校云资源应用 刘中宇 刘海良 中南大学信息与网络中心 摘 要: 大数据是近年来 IT 界广泛关注的焦点, 在数据量庞大、种类繁多、信息多样化的大数据背景下, 高校教学服务和数据利用方式将发生显著的变化, 并因此带来新的机会。云计算和大数据技术的完美结合, 使得高校可以对其数据资源采取完全数据筛选的方式来进行分析、挖掘隐藏在数据背后的规律, 对未来进行预测, 以便教师、学生和管理者改变自己的教学、学习和管理决策, 最终真正实现学生做到心中有数的学习。关键词: 大数据; 云计算; 教育资源; 数据处理; 收稿日期:2013 年 4 月 20 日The Application of Cl
2、oud Resources in University in Era of Big DataAbstract: Big data is the focus of attention by the IT industry in recent years, under the background of huge volumes of data, difference data structures and various type of information, the teaching services and data-processing provided by university wi
3、ll change significantly and also will bring the new opportunities.The perfect combination of cloud computing and the technology of big data can make the university take fully filter the data resources and then mining the potential regular behind those data to predict the future, the teachers, studen
4、ts and administrators can change their teaching method, learning strategy and the management methods and finally achieve the goals of having a pretty good idea of learning.Keyword: big data: cloud computing;education resources;data-processing; Received: 2013 年 4 月 20 日引言“大数据” (Big data) 是 IT 界继“Web2
5、.0”、“数据挖掘”和“云计算”之后近两年最流行的词。大数据革命也正以 Apache Hardtop 为中心如火如荼地进行着, IBM、EMC、Oracle、VMware 和 Microsoft 等商业机构已看到了在这场革命中蕴含的商业价值, 都争相投入到研究大数据的领域, 都希望能抢先占有市场的主动权, 并基于云计算等平台开发了诸如 Biglnsights 等产品1, 大数据技术能够帮助用户在茫茫的数据海洋里快速找到所需的资源2。面对大数据的这些优势, 教育界也掀起了对大数据的研究热潮, 在2013NMC 地平线报告 (高教版) 中非常有预见性的认为“大数据和学习分析”将在未来 2 至 3
6、年成为主流技术3。在“大数据”时代如何提高对日益增长的教育资源的处理能力, 寻找新的数据计算策略是当今教育界所关注的焦点, 而要解决以上的几个问题, 我们就必须理性地认识大数据。一大数据概述2011 年 5 月, 全球知名咨询公司麦肯锡 (Mckinseyand Company) 发布了大数据:创新、竞争和生产力的下一个前沿领域4报告, 首次提出了“大数据”的概念, 并在报告中指出“数据已经渗透到每一个行业和业务职能领域, 逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”5。但到目前为止对大数据的定义还没有一个明确的界定, 但各种表达均存在一个共
7、同点, 即:大数据不是传统意义上的海量数据, 而是一种具有数据量庞大、数据种类繁多、数据信息多样化的特点。据 DCCI 互联网数据中心在 2012 年 7 月 26 日举办的“Adworld2012 互动营销世界”上给出的数据6显示:2010 年, 全球数据量已达 1.2ZB, 而在如此庞大的数据中, 只有 10%的数据是结构化数据, 其余的则是由邮件、视频、微博等大量的半结构化数据和非结构化数据7。它还具有市场价值高, 预测速度快等特点。如日本大地震发生后仅 9 分钟, 美国国家海洋和大气管理局 (NOAA) 就发布了详细的海啸预警8。二大数据与云计算的结合, 给高校教育资源的应用带来新机会
8、云计算的出现打破了以前高校信息化建设中的“信息孤岛”现象, 它成为了各种分散教育资源集中应用的平台, 这使得各种教育资源得到充分的应用, 同时, 云计算的出现让教师与学生有了真正的互动, 并且它与各种终端设备的无缝连接, 为移动学习提供了有力的技术支撑。然而大数据的出现更是让云计算的应用有了真正的用武之地, 它们的有力结合将会释放出巨大的能量, 它几乎会波及各行各业, 对于教育领域而言, 他们的结合也将会给高校的教育资源的应用带来更多的机会。1 给数字图书馆带来新变革对于图书馆行业来说, 云计算的出现也改变了传统图书馆的服务模式, 应用云计算的存储、管理等相关技术为读者提供网络化应用, 这在很
9、大程度上改变了传统图书馆的窗口服务模式, 因此各省高校都纷纷以云为基础建立起高校图书馆联盟以更快、更好地发展图书馆行业, 如江西省高校图书馆联盟平台应用云技术真正实现了资源共享一体化、服务一体化、管理一体化。然而在大数据时代下的图书馆行业更将面临新的变革, 大数据可应用数据分析、挖掘等技术对存储在云服务端的各种分散的关系化、结构化和非结构化数据进行分析和挖掘, 掌握读者的借阅行为、爱好、知识应用能力等以预测读者对知识服务的需求, 使图书馆管理人员能根据预测进行决策;也可应用大数据技术对读者的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测, 从而应对图书馆未来所面对的生存危机
10、9, 同时也可通过应用大数据的分析, 预测以及智能决策等技术为图书馆建立科学及实用的风险评估模型, 如数据图书馆馆藏信息安全评估模型。2 让数据更能引导用户学习对于教育界而言, 大数据与云技术的结合使得教育资源的应用突破了原有意义上的应用格局, 使教师与学生不仅仅是能够共享存储在云服务端的教育资源, 并且能够通过大数据的数据分析、数据挖掘等技术对各种类型多样的数据进行分析和挖掘, 以得出隐藏在其背后的数据信息, 并为师生提供最合理的策略和方案。教师可以通过大数据技术对学生学习行为、学习爱好等非结构化数据进行分析及挖掘, 让教师做出预测并及时做出决策, 更好地引导学生学习, 同时也可应用大数据的
11、分析技术对开设的课程进行效果评估, 以及时调整培养方案;大数据技术也可对学生某一段时间以来的各种表现, 如上网、业余学习等非结构化数据的进行分析, 预测出下一个时期将会发生的事情, 以便尽早通过这些预测做出最适合学生健康发展的决策, 并且基于大数据的数据分析技术为学生推荐学习轨迹, 开展适应性学习, 自我导向学习10。3 让高校教育决策者在掌握更多数据后做出更正确抉择早期的关系化数据时代, 对数据分析基本上是采用抽样的方法, 推及所有人群, 其准确性会大打折扣11。而在当今大数据时代, 利用大数据的分析能力, IT能够提供给企业决策层的将会是一个从各个领域进行了全面筛选的信息, 这能够让企业的
12、领导层更准确地了解市场、客户以及自己的产品12。同样高校云存储中心为大数据的应用提供了更多关于师生客观而又真实的行为记录的数据基础, 数据处理中心对这些零散而又无特定结构的数据应用大数据的数据分析、数据挖掘等技术处理后将会给决策者预示出做出某一决策后未来的发展趋势, 使决策者在了解其发展趋势之后决定是否做出某一决策, 这样, 使得决策者能在低风险下做出正确的决策, 真正实现基于数据进行决策。其次, 大数据技术也可帮助高校提高教学质量, 促进教育公平。高校可从数据中心获取关于高校内正常教学活动所产生的各项教学数据并在信息部门的协同下应用大数据的数据分析、挖掘技术实现自上而下的开展教学管理优化,
13、促使高校教学管理体变革。三大数据时代云资源数据处理及服务从存储在云服务端的资源中发现数据并加以利用, 再提出相应的策略以指导师生学习是大数据对数据分析、挖掘的最终目标, 然而关系数据库生成的简单报表远不能达到此目标, 这就需要对数据进行更加深入的分析, 这些分析需要依赖复杂的分析模型。运用这些模型人们不仅可以通过数据了解现在发生了什么, 而且可以对将要发生什么进行预测, 以便在行动上做出一些主动的准备13。对于高校师生更是如此, 他们不仅希望通过数据了解发生了什么, 更是希望通过数据对未来进行预测, 以便让他们做出相应的方案, 这样他们就可以在信息化时代处于主动的状态而不是被动状态。1 大数据
14、时代数据处理云计算的出现在很大程度上解决了数据存储以及计算等问题, 因此各高校纷纷投入资金以建设以云为中心的教学环境, 以提高教育资源的利用率。但对于数据的分析仍然是依赖于简单的关系数据库, 这种简单的分析方法对数据的分析, 查询往往耗费大量的时间、人力、物力并且效率不高。面对这些问题, 大数据时代提出利用 Hadoop 技术包括内存检索技术, 数据实时反应技术对大量的教育资源进行分析的方法, 这个方法通过构建一个基于云计算的大数据资源处理平台, 并通过 Map Reduce 编程模型对数据进行管理, 以提高对数据分析的速度以及效率。该数据处理平台首先是对各种碎片数据进行收集, 其主要的数据来
15、源是存储在远程云服务端的教育资源, 包括学生信息云、教室信息云等教育信息资源, 在完成数据收集之后, 便可对这些碎片数据进行过滤, 以提炼出连续的、低信息粒度的数据, 而后将提炼出的优质数据交于上层以进行数据分析, 利用这个数据处理平台对几百甚至是几千个数据节点进行分析。数据挖掘是利用数据挖掘算法, 包括分类算法, 回归算法, 聚合算法和降维算法等挖掘算法, 对数据分析之后的数据进行数据挖掘, 以挖掘出隐藏在数据背后有价值的信息为用户做出决策奠定基石。在大数据时代对数据的挖掘依然是结合云计算, 采用的数据挖掘技术对存储在云服务端的大量的、不完全的、模糊的教育资源挖掘其隐藏在这些数据背后的事先不
16、知道的, 但是又存在着对教师以及学生非常有价值的信息, 并及时提出预警和指导帮助14, 同样图书馆也可根据读者的借阅图书信息数据对读者的学习行为、借阅行为、爱好等数据分析, 提出新的服务方案、策略。其数据处理平台如图 1 所示。(1) 云资源层:云资源层的数据主要来源于云服务端的资源, 如教室信息云, 学生信息资源云等教育资源, 通过 Hadoop 中的 HDFS 技术对这些数据信息进行存储, 再利 Hbase、Zoo Keeper 等数据处理和管理工具动态生成 Map Reduce 任务并对其进行计算和聚合高效处理。(2) 模型层:模型层对存储在数据层里的学生信息数据进行 Hadoop 的
17、ETL 处理输出汇总信息, 包括学生学习行为, 与他人协作行为等基本行为模型的分析, 以掌握学生性格特征, 学习能力, 对资源满意度等基本信息, 以期在对学生有更多了解后, 给他们提出最适合他们自己学习的指导。(3) 应用层:通过模型层对学生信息或者其他教育资源信息分析后得出的结果, 包括学生学习能力, 学生性格特征等信息, 对教师目前的教学效果以及学生的学习效果进行评估, 并对未来师生教与学的效果进行预测, 通过对预测的结果进行分析、挖掘给师生提出最佳教与学的策略。图 1 基于云计算的大数据处理平台图 下载原图2 大数据时代的教育资源服务云计算和大数据技术的兴起以及用户对知识需求的变化使高校
18、资源服务得以变迁。在大数据的背景下, 高校教育资源在服务方式、途径、模式等方面将会不断得改变。未来的高校为教师、学生提供的服务将是通过数据的汇聚、过滤、分析和挖掘这一系列数据操作而得出的。因此, 未来的高校提供给师生的服务将更加具有针对性和鲜明性。首先, 在大数据的背景下, 教育所提供的资源服务对于用户来说, 只需要关注其最终结果而不必知道其内在原因。高校资源服务最终目标是为用户提供最快、最及时、最准确的服务, 对于高校数据处理中心而言只需应用大数据技术对各种碎片数据进行分析和挖掘, 以研判采取的某种教学方式对教师的教学效果或学生学习效果是否有影响, 如果效果明显, 那么决策者只需决定是否采用
19、这种教学方式, 不必要去追究这样做会使效率改变的原因。其次, 大数据时代下的资源服务将会更加主动、更加贴近用户的实际需求, 随着信息化时代的加速, 各高校在以数字校园的背景下纷纷对资源系统进行整合, 以最大限度的提高资源的应用, 如此一来高校师生不仅可以尽可能的应用资源, 而且也可以参与诸如资源平台建设、服务评价等交互式工作, 而系统可以收集用户在该平台上留下的“痕迹”以动态的掌握用户对各种资源的需求, 及时满足用户的需求, 这样使用户对资源中心所提供的资源更加认可, 而资源中心也会因为用户的认可而大大增强主动服务的意识。四大数据时代高校教育发展趋势云计算为大数据提供了更多可弹性扩展, 廉价的
20、存储空间和计算资源, 而且其提供的资源不仅种类繁多, 并且分布广泛, 是高校异构系统处理数据的有力方式, 因此, 在大数据时代下, 高校教育将会朝着更多方向发展。1 向以学生心中有数的终生制学习方向发展大数据时代, 高校信息中心将不仅仅是简单的关系数据, 而更多的是记录了关于学生在资源共享平台留下的行为方式 (浏览、下载) 等非结构化的数据, 而数据处理中心的任务是对这些数据进行分析、挖掘, 最终以某种数据表示方式呈现给学生, 让学生了解自己在各类资源子系统的活动频次及活动类型和某段时期内的学习状况, 同时给学生提出量身定制的学习计划。因此, 这将会使学生从以往的“模糊”学习向“以学生心中有数
21、”的学习发展, 真正实现终生制学习。2 改变传统教与学课堂, 向以交流为主的课堂方向发展在未来的大数据环境下, 课堂将会是以交流为主的学习, 在传统的课堂中教师主要是充当教的角色而很少是学生当中交流的一员, 这种方式很难达到很好的教学效果, 然而在大数据时代下, 通过大数据技术为教师呈现学生的基本情况, 教师在了解学生基本情况后可以制作出尽可能包括众多的学生不理解的知识点的学习视频, 而学生在课后可根据教师制作的教学视频, 有目的、有选择性地观看, 回到传统的课堂将疑难点与教师或同学面对面的交流, 这样一个以交流为主的课堂学生积极性也会更高, 而且学习效率也将大大提高。3 使教室管理向更高效、
22、更安全、更快捷的方向发展传统的实验室或多媒体教室的管理通常是一个管理人员管理一个机房或某几个机房, 然而这样的管理方式却不是高效率的, 而且大大浪费高校的人力资源, 在大数据时代, 高校内可将校内所有计算机实验室或者多媒体教室的信息存储到数据中心, 利用大数据技术, 对不同校区、不同教室类型、不同学期、不同时段以及不同教室里15的教学设备产生的各项参数进行分析, 挖掘后, 并通过反馈的数据对某一教室里在某一时刻的某一设备进行一个未来的趋势的预测, 判断是否可能发生故障或者该设备是否可以承受高负载的运行等情况, 这样可使管理人员提前对这些将会发生故障的设备进行更换, 以避免较大的损失, 这将会大
23、大提高设备的利用率, 并且在这种趋势下只需少数管理员在设备监控中心对校内所有机房进行监控, 这样大大节省了高校的人力、物力、财力。五结束语大数据是随着移动互联、云计算等技术的成熟而出现并不断发展起来的, 并且受到 IT 界、学术界的广泛关注, 它的出现为云计算的更多实际应用找到了更大的舞台, 大数据通过利用云计算的超强大的数据存储以及数据计算能力, 可以更加方便的处理大数据的海量信息, 为用户提供了更方便、更快捷的服务, 它将是人类走向“智慧”的钥匙16。然而大数据也面临着诸多技术问题, 如大数据的数据表示方法问题, 高效率低成本的大数据存储问题等, 但是随着市场的发展和信息技术的不断成熟,
24、围绕大数据的问题将会得到解决9。参考文献1InfoSphere BigInsightsOL. 2范范.大数据前景展望N.网络世界, 2012, (5) . 3魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值J.现代教育技术, 2013, (2) :5-11. 4James Manyika, Michael Chui, Brad Brown.Big data:Thenext frontier for innovation competition andproductivityM.Insights&Publications. 5韩翠峰.大数据带给图书馆的影响与挑战J.图书与情报, 2012,
25、(5) :37-40. 6Adworld2012 互动营销世界夏暨 2012 微锋汇启动J.电脑与电信, 2012, (5) :14-15. 7海量数据爆发大数据时代来临的五个转OL.8佘丛国, 朱志军.大数据与云计算的关系及其对通信行业的影响C.宽带中国战略与创新学术研会, 2012. 9樊伟红, 李晨晖, 张兴旺, 秦晓珠, 郭自宽.图书馆需要怎样的“大数据”J.图书馆杂志, 2012, (11) :63-68. 10Johnson.L.Adams, S., Cummins, M.The NMC HorizonReport:2012 Higher EducationZ.2012. 11赵一
26、鹤.大数据时代的营销策略:快、准、稳J.声屏世界, 2012, (8) :46. 12liusd.大数据时代下, 企业信息管理的新革命J.网络与信息, 2012, (4) :7. 13覃雄派, 王会举, 杜小勇, 王珊.大数据分析 RDBMS 与 MapReduce 的竞争与共生宰J.Journal of Software, 2012, (1) :32-45. 14卢蓓蓉, 沈富可.如何让数据真正说话J.中国教育网络, 2012, (7) :18-19. 15刘欢, 张瑾.数据挖掘改善校园网体验J.中国教育网络, 2012, (7) :27-30. 16丁健.浅析大数据对政府 2.0 的推进作用J.China information times, 2012, (9) :12-14.