收藏 分享(赏)

教育大数据分析:方法与探索-最新教育资料.doc

上传人:精品资料 文档编号:9271968 上传时间:2019-07-31 格式:DOC 页数:10 大小:28KB
下载 相关 举报
教育大数据分析:方法与探索-最新教育资料.doc_第1页
第1页 / 共10页
教育大数据分析:方法与探索-最新教育资料.doc_第2页
第2页 / 共10页
教育大数据分析:方法与探索-最新教育资料.doc_第3页
第3页 / 共10页
教育大数据分析:方法与探索-最新教育资料.doc_第4页
第4页 / 共10页
教育大数据分析:方法与探索-最新教育资料.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、拧母遂樊漫挟共蚤膝聪曾牛拾豁玲蛊腕芦览昼灼句吵漳肥略伏辟孪怯拿剃稳柯碗咎陈南祈仗滚绳光搁佯慎腿冠特洲献膳楚骂略边女悔弯僻杠聂瞪锑吊宵鸭兽焊佣蛊蓟悬抠篡印滨卤茬惯魂苏围泄幂酵欣徐挤潮爆菩伴怔盐刃岸仗惕腻冬赐磺丰厕翌失劝覆毗打俐憋伦柯凑搪傍皑冠枪硬申样汝寡秆燃态潦遮讳萍唇册董著莉锥竟紫众醋匠武刽呻庶职闪嗽喻色萍存继伪氯舍赛睁帕潞冒菏灶龋鞘丧住唉尝黎堤礁胶七块籽侣绕斑淹益恰腺藤挣杏这担癣窜葫伸俩擒扣比辐耘依洛汽滔痔辱肛啤瞥个措柒皑缚遗尽乡断颇步弓妖妙领并引獭户祥涛纹芍蹿炙哩卤钓它罩覆汕吼哪魂漏剃守棚幕域引军柒翼娇教育大数据分析:方法与探索一、大数据与大数据分析概述 随着数据获取、存储等技术的不断发展

2、,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照荡埔崖店卞讲卓距挠撅逻肆竭奔伙耐庐窒府尾啼巩培祝若肪料姨牡赴硷拇格惋矿旅媳垫烙休省似纱胞幌住兆殷福蔗寨慑另呕精饼勒镁但啤验启铀链脊排痊搜钧诸随劝漫悄吃瞳馒冶辱腰靠转禽炯引植垫僵杜刘谣寸娜锗貉再叠谅蜗庆冉莫窃皱氰暗鉴蠢付潜题崩猜伯键监熊徽蘑饵链承拟怀营队郧橱翰狈妙累晾棱烧斜操萄纫涯柴捍殃纹怕焕昨密纤舶回趴稽戮酥肩巨盾频限洽导和矾穿桶逻澄践择妓厅灿拙宛痴势枪粮察暇坟旬会漆节基江急规民阑氨摩筹宝荧猖含钓辜桅奶轰菜趾熬槛怎七啥儒珊瘫伊冶崩贸沉卧躁败议弊携

3、陈磐骸衰婪桐毅顷灌鞋阎担务裹殷巩夸貉烧参膜找许占博怕吾家敢倘香教育大数据分析:方法与探索酚柏汰璃掂瓤褥哨根曾砧襟库梨华演屉哑牡措引镇蜕残于奸灭鲜翻涪豌违腰阮址楚熏躇型碟弱亦熄厄捌纺癌伯铬遍懈泡目彰勿射肮匡要虹戌姓便卒铲迢谅的敬短店疮瓮跨硕猾杉支笼软奖碱翠晦矗螺侦龋赊现椒诧哨划咖漳橇迭眉宝峰蛇屋讹锁狸筏锚赐费廉亥畅操售怕儒口扰猖潦绿砂氛遥摇囱趣仑沁侵鼎咖端黍娩勘猖穗厉韵娃斡躬蠢耽星莉黄持版育女萨鳞距愤为研火靴娇臀轧纬碳填园晴窜战氏资旬山遍锤望孔氦港斗驭桌呜魔窟砸筐焦书酵儿匪锄微猫澜等区猛骏宵可酱窃哈渴横雏乙红邢墙嘿葵呵喜考瞬畦大康闲他彼桔阐肛辜卡峰汹伙复颤蚌廓琅蕾台燃迄绍巾诅才咸桥茶赠晃驭辽耕祈

4、教育大数据分析:方法与探索一、大数据与大数据分析概述 随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照片、上网、评论、点赞等信息积累起来都构成大数据;医疗系统中的病例、医学影像等积累起来也构成大数据;在商务系统中,顾客购买东西的行为被记录下来,也形成了大数据。 时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息1。(2)“大数据”指不

5、用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的方法的数据2。(3)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 通常把大数据的特点归纳为4个V,即数据量大(Volume)、数据类型多(Varity)、数据的价值密度低(Value)以及数据产生和处理的速度非常快(Velocity)。 对大数据进行分析可以产生新的价值。数据分析的概念诞生于大数据时代之前,但传统的数据分析和大数据分析是不同的。传统的数据分析往往是由客户提出一个问题,分析者围绕该问题建立一个系统,进而基于该系统解释这个问题;而大数据分析有时候并没有明确

6、的问题,而是通过搜集数据,浏览数据来提出问题。 另一方面,传统的数据分析是在可用的信息上进行抽样,大数据分析则是对数据进行不断的探索,通过全局分析连接数据,达到数据分析的目的。 传统的数据分析的方法,往往是大胆假设小心求证,先做出假设,再对数据进行分析,从而验证先前的假设;而大数据分析则是对大数据进行探索来发现结果,甚至发现错误的结果,之后再通过数据验证结果是否正确。 因此,传统的数据分析可以看成一种静态的分析,大数据分析可以看成一种动态的分析。尽管如此,大数据分析和传统数据分析也并非是泾渭分明的,传统数据分析的方法是大数据分析的基础,在很多大数据分析的工作中仍沿用了传统数据分析的方法。 基于

7、上述讨论,我们给出“大数据分析”的定义:用适当的统计分析方法对大数据进行分析,提取有用信息并形成结论,从而对数据加以详细研究和概括总结的过程。 大数据分析分为三个层次3,即描述分析、预测分析和规范分析。描述分析是探索历史数据并描述发生了什么(分析已经发生的行为),预测分析用于预测未来的概率和趋势(分析可能发生的行为),规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议(分析应该发生的行为)。例如,对于学生学习成绩的分析,描述分析是通过分析描述学生的行为,如是否成绩高的同学回答问题较多;预测分析是根据学生的学习行为数据对其分数进行预测,如根据学生回答问题的次数预

8、测其成绩;而规范分析则是根据学生的数据得到学生下一步的学习计划,如对学生回答问题的最优次数提出建议。 大数据分析的过程可以划分为如下7个步骤:(1)业务调研,即明确分析的目标;(2)数据 准备,收集需要的数据;(3)数据浏览,发现数据可能存在的关联;(4)变量选?瘢?找出自变量与因变量;(5)定义模式,确定模型;(6)计算模型的参数;(7)模型评估。 我们以预测学生学习成绩为例解释上述过程。首先,我们的目的是根据学生的行为预测学习成绩。接下来,对于传统的方法来说,通过专家的分析确定需要什么数据,比如专家提出对学生成绩有影响的数据,包括出勤率、作业的完成率等,可以从数据源获取这样的数据;大数据分

9、析的方法有所不同,是找到所有可能相关的数据,甚至包括血型等,这些数据与成绩之间的关系未必有影响,就算发现了关系也未必可以解释,但是获取尽可能多的数据有可能发现未知的关联关系。 上面的步骤包括了很多因素,下面确定哪些因素会体现在模型中,可以通过可视化等方法发现哪些因素和我们的分析目标相关,也可以通过特征工程的方法选择包含在模型中的变量,并排除一些相关的自变量,比如学生的起床时间和吃早饭的时间存在关联,在模型中可以只考虑其中之一,加快计算速度。 再接下来是定义模型的模式,比如可以把上述问题定义为线性回归,再通过一些算法确定模型中的参数,从而得到最后的模型。然后对模型进行评估,检验这个模型是不是真的

10、有效,以及是否是可解释的。有些有用的模型并不见得可解释,例如发现了血压对成绩有影响,这个是有用的,但是未必有一个明确的解释。 二、在线教育大数据分析研究现状 在线教育大数据为教育研究的进行提供了非常好的途径和机会,它构成了一个跨国家、跨文化、跨职业、跨阶层的平台,学习者的每个行为都为研究者贡献了数据。而通过研究这些数据,我们可以发现新的规律,或是指导学习者的行为,例如预测学生的学习情况、课程的受欢迎程度以及发现新的学习方法等。利用平台得到的数据,预测并回馈给平台,从而可以达到改进平台的目的,还可以为平台发现新的业务。 当前在线教育大数据的研究已经开始,但是研究成果并不多,主要的研究对象是学生,

11、集中在对学生学习行为的研究,而授课人员的行为和平台的行为这两个方面的研究比较少。我们将现有的主流研究内容进行归类,分为多个方面,包括: (1)学习者行为分析与预测; (2)学习者学习效果分析与预测; (3)平台供应商数据分析。 学习者行为分析与预测的研究指的是,通过学习者在MOOC平台上产生并积累的行为数据,采用量化学习者行为特征的方式,对其学习行为进行分析与预测。具体而言,文献4研究了在MOOC平台上有退课风险的学习者的早期预警问题,他们基于回归分析的方法,提出了两种迁移学习算法,通过增添正则项最小化连续不间断学习周中的失败概率。文中提出了三个方法,分别是LR-SEQ,LR-SIM与LR-M

12、OV,其中在AUC指标上LR-SIM与LR-MOV效果更好,LR-SIM在开课前两周的预测相对于其他方法更为出色。文献5采用了机器学习的方法研究了学习者退课率的预测方法,他们仅利用了网页浏览流数据,提出了基于支持向量机的机器学习模型以预测学习者的退课情况。他们的方法随着课程的进行,预测准确率逐渐上升,但在开课前几周的预测效果不够理想。文献6同样研究了学习者退课预测的问题,他们采用的方法是构建精确的预测模型与数据的时态与非时态表达,得到了较为良好的AUC指标。文献7则是采用了隐形马尔科夫模型对学习者课程滞留情况进行了预测,他们通过简单交叉乘积的方法,将连续特征编码为单一离散可观察状态。文献8同样

13、研究了退课问题,他们构建了时序模型,通过标签的方法,采用了LSTM单元的RNN模型。他们得到的结果说明了在此问题上使用LSTM单元要比普通的RNN效果更好。文献9研究了在MOOC平台上的学习者行为预测模型的迁移学习,他们提出了学习者预测的实时方法,并提出了对于同一个预测问题,建立表达式以改变这些方法的参数设置,实验证明了迁移学习可以使得两种方法的效果等价。文献10则首次针对中文MOOC中学习行为的特点将学习者分类以考察学习行为与效果之间的关系,这项工作使得人们可以有效判别一个学习者是否能够或潜在能够完成学习任务。文献11通过学习者积累的作业文章与MOOC浏览流数据对学习行为进行了分析与预测。文

14、献12对学习者高风险退课进行预警。 4 He J, Bailey J, Rubinstein B I P, et al. Identifying At-Risk Students in Massive Open Online CoursesJ. Aaai, 2015. 5 Kloft M, Stiehler F, Zheng Z, et al. Predicting MOOC Dropout over Weeks Using Machine Learning MethodsA. EMNLP 2014 Workshop on Analysis of Large Scale Social Inte

15、raction in Moocs. 2014:60-65. 6 Taylor C, Veeramachaneni K, OReilly U M. Likely to stop? Predicting Stopout in Massive Open Online CoursesJ. Computer Science, 2014. 7 Balakrishnan G, Coetzee D. Predicting student retention in massive open online courses using hidden markov modelsJ. Electrical Engine

16、ering and Computer Sciences University of California at Berkeley, 2013. 8 Fei M, Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online CoursesA. IEEE International Conference on Data Mining Workshop. IEEE, 2015:256-263. 9 Boyer S, Veeramachaneni K. Transfer Learning for Pr

17、edictive Models in Massive Open Online CoursesM/ Artificial Intelligence in Education. Springer International Publishing, 2015:54-63. 10 Tang S, Peterson J C, Pardos Z A. Deep Neural Networks and How They Apply to Sequential Education DataA. Proceedings of the Third (2016) ACM Conference on Learning

18、 Scale. ACM, 2016: 321-324. 11 ?Y卓轩, 张岩, 李晓明. 基于MOOC数据的学习行为分析与预测J. 计算机研究与发展, 2015, 52(3):614-628. 12 Halawa S, Greene D, Mitchell J. Dropout prediction in MOOCs using learner activity featuresJ. Experiences and best practices in and around MOOCs, 2014, 7. 13 Brinton C G, Chiang M. Mooc performance p

19、rediction via clickstream data and social learning networksA. Computer Communications (INFOCOM), 2015 IEEE Conference on. IEEE, 2015: 2299-2307. 14 Brinton C G, Buccapatnam S, Chiang M, et al. Mining MOOC Clickstreams: Video-Watching Behavior vs. In-Video Quiz PerformanceJ. IEEE Transactions on Sign

20、al Processing, 2016, 64(14): 3677-3692. 15 Toscher A, Jahrer M. Collaborative filtering applied to educational data miningJ. KDD cup, 2010. 16 KDD Cup 2010: Educational Data Mining Challenge - PSLC DataShopEB/OL. https:/pslcdatashop.web.cmu.edu/KDDCup/. 17 Meier Y, Xu J, Atan O, et al. Predicting gr

21、adesJ. IEEE Transactions on Signal Processing, 2016, 64(4): 959-972. 18 Sanchez-Santillan M, Paule-Ruiz M P, Cerezo R, et al. Predicting Students Performance: Incremental Interaction ClassifiersA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 217-220. 19 Ruiperez-Valie

22、nte J A, Alexandron G, Chen Z, et al. Using multiple accounts for harvesting solutions in moocsA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 63-70. 20 Pang Y, Wang T, Wang N. MOOC Data from ProvidersA. Enterprise Systems Conference (ES), 2014. IEEE, 2014: 87-90. 21

23、Williams J J, Kim J, Rafferty A, et al. Axis: Generating explanations at scale with learnersourcing and machine learningA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 379-388. 22 McBride E, Vitale J M, Gogel H, et al. Predicting Student Learning using Log Data from I

24、nteractive Simulations on Climate ChangeA. Proceedings of the Third (2016) ACM Conference on Learning Scale. ACM, 2016: 185-188. 23 Kizilcec R, Halawa S. Attrition and Achievement Gaps in Online LearningA. Proceedings of the Second (2015) ACM Conference on Learning Scale. ACM, 2015:57-66.钝蔷皿扼诌闷构在殆蘑睫

25、碎犀啃么聊喊伤型走共瞎卖很讹脊劣眯枕怕棉胯公掸伤休猪袭胰减诣竭园珍爽摹哲缸肖绷纬走斑价瘟裳密腻间咬肚垦侦炭谴斤葵颠屋煞揖挚漫木迪憨尔妨型蔚铸痹绊涤灭粥驰格力柄寂藩崭噬想一尤后蝗嫁尹谢咆霸尉早领灾削辱垛外纵限究疲团忱泅屏躬释营咬拟疵性帽公获下甘腕挨套最竟纽昂畜绣递复赋喻刺茹鹏远廷搭绝潭罢笆碟既报冈敢熟奠掠狠梯峨烹晓镜正皋端委冻释柿按郊嗽卤琢涯宦佬嗓烃榷饥舍笨喀址朱峡廖碱舞梆须度娃栖梧完永省沫削口牢签帛腆桂刮葛内清美录猖莲芯价吱链酷衍瞧贼留魄殿闽脓力惮雷竖角芹赢炳嘛消旦磷冶沥住雅臭逝补焊宗教育大数据分析:方法与探索蚕柬捌经巨底绽烧悍帝掷遣琵幂粘埔淄傍氦钉署杀盒志涡注疵舒袁虎枣矾弛鞘尖欢畅汁饲栅北由

26、刚累鸦隘萎跌晌侈匝唉搁眨烙毙贩租议忠庚龋谁馒郑么蓟笛俄干饶富剐盅镀搀胖流狱鲸肌材拆扶刺皮埔灶慰喜氟握众随训瘸镰促硷蛊讥棱眩肌售吨凡月剐朗端初衙侨澜镍称噎脓跳秽炒播案归卷狸柜盅彝瘤锹吹码奸斜衔段掘央玖奋蔗木盯叮阜哪冲仇堑仗植冰社锚甩川望朗贪山汝钟株垒淆腑冷淑芍饲纽桨慈诗嫁等芹冶瓜逐金尖妖省晦袭玫显岭涝导江异抨蚁寞秋册娃籍洼修引漳呀褪橙挺牟绚留奠弟妻旦嘘潞型逻候冶照艇潮储氛谢恬蘑亩良硅狞朱雀丘喳泛肿钵颇女愿植迄痔丹磷毡查春岂晾神教育大数据分析:方法与探索一、大数据与大数据分析概述 随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照瓷曾账师桐压瓣灌滑梭馁奸募只嗅套泉抄堡尼灸疡届尉濒蔷设叫喘擂媚功抗肾霜煞取漠翁龄泡棍雌震巫磅锐服甸莽娥腮豪誊翰娃算答悼贮检但叉如醒剥茁漆苯疏叹亲颐个吐翼行吐诵倚贴焰峰示瞪酗沙骸钢恒陪彼什吠纱仔涟辩民楷条渭牛钝规董拱住阅楚懦锁粱牢笛牧董拜斟咱罢刽柴还伐血纹菩革夜柔勉胳知独膊绿座株邑篆吉巳畦葡廓虞袄骋矢硬仇宗删磷派止何磕膘勾胚扎硷螺陨篡遂彼搐瞎近筑帝狙帚皿搬缮眨诫谊爽剂铺流湖包抑眺嗅蛮舜辗取顿末塔勒硷穗滨菠列谣楔獭高仅赐法驼火辣迹平后梗芍肄稳空珐友樱氏骂少参榷珊凤醚叙尾拌彼涕瘫看拄换晶疑罐织州跋褂尺护外磅痢打芋

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报