1、竞赛题目(在 AB 上打勾): A B 竞赛队编号(参赛学生不填写):_1目 录问题的提出3问题的分析与假设3模型的建立与求解6效绩评价12预测评估13信息推荐方案13模型的评价与推广14附:给有关部门的信15 参考文献162高等院校教育信息化推荐模型摘 要本文针对当前我国高等院校教育信息化过程关于信息推荐方面存在的问题,进行了分析研究,建立了包含满意度、准确率、覆盖率、实时性这四个方面的信息推荐评价指标体系,通过问卷调查的方式收集相关数据,确定了各指标的权重因子。主要利用奇异值分解法和 LSA 方法建立了信息推荐模型,并利用相关算法对我们设计出的模型的效绩进行检验,最后给出了具体的信息推荐方
2、案,并对我们的模型进行了评价推广。问题一、我们对不同用户的评测标准进行了问卷调查,通过数据分析,给出了各个指标的权重,满意度是 0.243,准确率是 0.265,覆盖率是 0.238 ,实时性是 0.255。确定了外生变量: 用户个体差异、网站建设。内生变量:信息资源建设如学术网站、期刊杂志、选修综合课。问题二、建立信息推荐模型,对奇异值分解后的矩阵进行降维, 构建潜在语义空间。通过计算得出表面上没有关联的关键词和文章之间的相关性达0.9333,验证了模型的效绩,并对模型进行了优化,给出了信息聚类图。问题三、提出了我国高等院校教育信息推荐的具体方案。奇异值分解和 LSA 方法建立信息推荐模型的
3、优势:1、应用条件易得;2、不在局限于计算方阵,可以适用于任意矩阵,更加具有普适意义。3、相比传统向量空间,潜在语义空间的维度更小,语义关系更明确。4、低维空间表示可以刻画同义词,同义词可对应相同或相似的主题。5、降维可去除部分噪声,使特征更明显。关键词:教育信息推荐模型、奇异值分解法、LSA 方法、Spearman coefficient 相关系数3一、问题的提出1、问题背景:21 世纪是信息时代,随着信息技术越来越广泛的应用,互联网已经成为我们日常生活中必不可少的工具,而传统教育体系所暴露出来的弊端也日益明显,例如严重受到地域限制,教育资源分配不均,相互之间交流不够等,为使之适应信息化社会
4、对教育发展的新要求,建设更好的教育信息平台来满足学生互联网学习的需求,教育体系信息化改革刻不容缓。由于教育信息化表现出快捷高效、节约成本,不受地域时间限制、资源共享,交流开放等优势,所以在教育教学及管理的各个领域都开始推出各种形式的信息教育平台,例如远程教育,网站管理,网课、论坛等很大程度上促进了教育信息化的发展,然而,目前的教育信息体系还是不够完善的,例如信息推荐体系这一块被严重忽略,而现有的推荐体系仍存在推荐准确率不够高,推荐方式单一等一系列的问题,因此建立出合理的数学模型来完善教育信息推荐体系是一项迫切等待解决的工作。2、需要解决的问题:(1)建立信息推荐的指标体系,确定信息推荐的变量(
5、2)建立高等学校信息推荐模型(3)就信息推荐模型设计推荐算法(4)给有关部门写一封信,推介你们的信息推荐模型。二、问题的分析及假设通过读题可知,有效信息推荐是目前教育信息化的重要问题,我们需要明确信息推荐的指标以及其推荐变量,然后为高等院校建立合理有效的信息推荐模型,设计其相应的算法,最后向相关部门推介我们的模型。1、信息推荐的指标体系为了提高信息推荐模型的准确度,我们的评测指标主要有包含以下四个方面的内容:(1)满意度 O:即用户的需求被满足的程度。满意度是用户的一种心理状态,它能够反映推荐的信息和用户的期望之间的契合程度,用数学式量化表示如下:O= exp(a1*x1+ a2 *x2+ a
6、3 *x3+ a4 *x4)(其中,x1 是下载率、x2 是点击率、x3 是停留时间、x4 是分享率,4a1,a2,a3,a4分别是各自的权重,令 a1=0.4,a2=0.2,a3=0.05,a4=0.35,这里我们假设用户的行为无出错。 )注:O 值越大,用户满意度越高。(2)准确率:信息推荐的准确性也是评价此体系的一个重要指标,可以有效的提高用户的搜索效率。我们这里用精确率 P 和召回率 R 来评测信息推荐的准确性 1。假设:系统检索到的相关信息(A)系统检索到的不相关信息(B)相关但是系统没有检索到的信息(C)不相关且没有被系统检索到的信息(D)则:精确率 P: P = A / ( A
7、+ B ),0num)z=z,i;endEnd通过这样的选择,就可以得到和第一篇文章相关性较强的文章,而这些文章就是我们所要推荐给用户的。6、模型优化将第 3 部分中的矩阵 U 和 V,投影到一个平面上,可以得到关键词和文章的分布图,代码及结果如下: clearclclsi=0,0,1,1,0,0,0,0,0;0,0,0,0,0,1,0,0,1;0,1,0,0,0,0,0,1,0;0,0,0,0,0,0,1,0,1;1,0,0,0,0,1,0,0,0;1,1,1,1,1,1,1,1,1;1,0,1,0,0,0,0,0,0;0,0,0,0,0,0,1,0,1;0,0,0,0,0,2,0,0,1;
8、1,0,1,0,0,0,0,1,0;0,0,0,1,1,0,0,0,0;U,S,V=svd(lsi);y=U(:,1:2)*S(1:2,1:2)*V(:,1:2);lu=size(U,1);lv=size(V,1);scatter(U(:,2),U(:,3)hold onscatter(V(:,2),V(:,3)legend(point1,point2)hold onfor i=1:lucircle(U(i,2),U(i,3),abs(U(i,3)hold onendfunction =circle(x,y;r)rectangle(Position,x-r,y-r,2*r,2*r,Curvat
9、ure,1 1 )axis equalend12图(三)图(三)中,每一个红色的点,表示一个关键词,每一个蓝色的点,表示一篇文章,这样我们可以对这些词和文章进行聚类。按聚类出现的效果,可以提取文章集合中的近义词,这样当用户检索文章的时候,就可以用语义级别(近义词集合)去检索了。这样一来就减少了检索次数和存储量。 (三)模型的总结在此模型中我们首先构建了用户行为(关键词)与信息资源(文章)之间的关系矩阵,接下来利用奇异值分解法和 LSA 法得到了一个语义空间矩阵,该矩阵可以反映那些在表面上看起来没有关系的关键词与文章之间的相关性,进一步的计算了 Spearman coefficient 系数,并
10、利用 Spearman coefficient 系数的大小判断文章是否推荐给用户,最后对模型进行了优化。上述模型的具体过程都是以用户输入关键词查找文章为例说明的,为了适用于高校教育信息化的其他方面,只需要将模型中的关键词换为用户的其他具体行为,文章换为其它信息资源。下面给出了一般情形的模型算法流程图:是 否开始构建用户行为与信息资源的的关系矩阵计算 Spearman coefficient 相关系数Spearman coefficient 相关系数相关系数a奇异值分解,构建语义空间 coefficient 相关系数计算 Spearman coefficient 相关系数Spearman coe
11、fficient 相关系数相关系数a聚类分析Spearman coefficient 相关系数进行推荐Spearman coefficient 相关系数不推荐Spearman coefficient 相关系数结束13图(四)上边算法流程图中,判断相关系数时即“相关系数a” ,其中a1,a 的确定值根据具体情况给,理论上要求接近 1。因为,a 的值越接近 1,相关性越大,推荐的信息的质量就越高。四、效绩评价针对教育信息推荐体系待完善的问题,我们从满意度、准确率、覆盖率、实时性四个方面建立了信息推荐指标体系,然后通过问卷调查,做图表汇总并分析相关数据,得出了各个指标的权重,满意度是 0.243,准
12、确率是 0.265,覆盖率是 0.238 ,实时性是 0.255。并且进一步确定了外生变量: 用户个体差异、网站建设;内生变量:信息资源建设,如学术网站,期刊杂志,选修综合课(包括校内课程与网络公开课) ;决策变量:用户需求。在此基础上我们采用奇异值分解和 LSA 方法建立信息推荐模型,通过一系列算法得出了在字面上看起来没有任何联系的关键词与文档实际上其潜在的深层次相关性达到 0.9333,验证了这一模型取的了显著的效绩,更加深入准确的剖析出了搜索关键词和期望文档之间的潜在联系,在很大程度上提高了信息模型的满意度、准确率、覆盖率、适时地性等评价指标。为进一步完善模型,我们还对模型的功能做了优化
13、,使信息推荐模型的更好的满足用户的需求,促进是 否14我过教育现代化的发展步伐。五、预测评估根据模型所取得的效绩,在未来几年,教育推荐体系的效率和准确性将有很大的提高,而且其功能将会进一步被完善,教育信息化将迎来前所未有的创新性改革,大量的云计算将会运用于教育信息化,为教育信息化提供更加广阔的空间。有望形成“人人皆学,处处能学、时时可学”的国家现代化教育发展目标。更好的实现教育信息化对学生全面发展的促进作用。对深化教育领域综合改革的支撑作用和对教育创新发展、均衡发展、优质发展的提升作用。形成具有国际先进水平、信息技术与教育融合创新发展的现代化教育信息体系。六、信息推荐方案针对目前教育信息化过程
14、中的一些待解决的问题,我们对信息推荐这一模块,通过收集数据,数学计算等方式建立了一套可以完善信息推荐功能的模型,经过算法检验,证明我们所建立的模型表现出很好的效绩,并且形成了信息推荐方案如下:第一、严格规范评价指标,全面提高信息推荐质量。采用多种形式,从各个方面全面的对信息推荐体系进行评价,并且打分排名,这样有利于规范这个网络平台的信息推荐体系的建设,并且在竞争压力的推动下,也有利于促进各网络平台信息推荐平台不断的创新完善其功能,从满意度、准确率、覆盖率、实时性等各方面全面的提高信息推荐质量。第二、加强用户需求分析,进一步提高信息推荐准确率。对用户需求的分析,不应该知识停留在浅显的字面分析,而
15、应该运用我们上面建立的模型,运用数学算法,客观的用数据结果给出搜索关键字于用户期望的文档之间潜在的深层次联系,并高效准确的为用户推荐其期望的文档,提高信息推荐的准确率,优化信息推荐体系的功能。第三、拓宽信息推荐体系的引用,提高教育信息现代化的整体水平。虽然教育信息推荐体系是主要针对教育信息的,在互联网如此发达的时代,整个信息现代化的发展形成了一个巨大的网络,各个领域的信息发展又是相互之间紧密联系,相互影响,荣辱共存的。所以应该讲此推荐体系的应用进一步推广到社会发展的各个领域,只有整个社会的信息化水平总体提高了,教育信息化水平才能进一步提高。不然,教育信息化水平仍然是受到社会总体信息化水平的15
16、制约。第四、做好信息推荐体系的监督工作,营造健康严谨的网络推荐环境。应该对系统推荐的信息进行初步过滤筛选,屏蔽不健康的、包含商业广告的、正确性没有权威保障的、以及娱乐八卦、头条热点等随意推送的一些垃圾骚扰信息然后再推送给用户,这样就提高了推送效率和质量,并且保障了健康严谨的网络推荐环境。七、模型的评价与推广模型中采取的评价指标及相关数据来源于问卷调查,有较高的可靠性和代表性,能够全面的、客观的、有效的评价各项指标的权重。奇异值分解法和 LSA 方法的优势:1、应用条件易得;2,不在局限于计算方阵,可以适用于任意矩阵,更加具有普适意义。3 相比传统向量空间,潜在语义空间的维度更小,语义关系更明确
17、。局限性:无法获取用户文章的评价值,仅仅是通过用户检索的关键词来给用户推荐文章,这样的方法会导致用户在下一次搜索时,上一次就筛选过的文章又会出现在推荐选项中,若要对模型进行优化处理,首先要考虑的问题就是需要如何避免文章的重复推荐,下一步对模型的构思是利用其他算法,来对用户行为进行学习,通过对用户搜索行为的记录,分析之后来推荐出更适合于用户的文章。推广:用奇异值分解法和 LSA 方法建立的模型,不仅可以解决高等学校教育信息化发展过程中推荐体系存在的一些问题,还可以解决商品购买推荐、旅游攻略、最佳路径推荐、求职岗位推荐等问题,具有普适意义,应用范围广泛,功能全面。附:给有关部门的信尊敬的各位领导:
18、您好!我们是西北师范大学的学生,在此向您推荐我们小组针对高等学校教育信息推荐体系所建立的数学模型并提出具体的信息推荐方案。首先,感谢您在繁忙之余能抽空来浏览我们的方案,也渴望您能够提出宝贵的意见,对此我们将非常感谢。下面简洁的介绍下我们的方案。16十八大以来,信息化以成为重要的国家战略,然而,目前的教育信息体系还是不够完善的,还存在资源分配不均、资源共享较少,值得关注的是信息推荐体系这一块被严重忽略,现有的推荐体系仍存在推荐准确率不够高,推荐方式单一等一系列的问题,因此建立出合理的数学模型来完善教育推荐体系是一项迫切等待解决的工作。我们从满意度、准确率、覆盖率、实时性四个方面建立了信息推荐指标
19、体系,然后通过问卷调查,做图表汇总并分析相关数据,得出了各个指标的权重,满意度是 0.243,准确率是 0.265,覆盖率是 0.238 ,实时性是 0.255。并且进一步确定了外生变量: 用户个体差异、网站建设;内生变量:信息资源建设如学术网站、期刊杂志、选修综合课(包括校内课程与网络公开课) ;决策变量:用户需求。在此基础上我们采用奇异值分解和 LSA 方法建立信息推荐模型,通过一系列算法挖掘出了在字面上看起来没有任何联系的关键词与文档实际上其潜在的深层次相关性达到 0.9333,验证了这一模型取的了显著的效绩,更加深入准确的剖析出了搜索关键词和期望文档之间的潜在联系,在很大程度上提高了信
20、息模型的评价指标。为进一步完善模型,我们还对模型的功能做了优化,使信息推荐模型更好的满足用户的需求,促进高等院校教育信息化的发展步伐。当然,此方法建立的模型也有一定的局限性,通常情况下,我们可能无法获取用户获得信息的评价值,仅仅是通过用户检索的关键词来给用户推荐信息,这样的方法会导致用户在下一次搜索时,那些用户在上一次就筛选过的信息又会出现在推荐选项中,若要对模型进行优化处理,首先要考虑的问题就是需要如何避免信息的重复推荐,下一步对模型的构思是利用其他算法,来对用户行为进行学习,通过对用户搜索行为的记录,分析之后来推荐出更适合于用户的信息。我们用奇异值分解和 LSA 方法建立的模型,不仅可以解决我国教育信息化发展过程中推荐体系存在的一些问题,还可以解决商品购买推荐、旅游攻略、最佳路径推荐、求职岗位推荐等问题,具有普适意义,应用范围广泛,功能全面。再次感谢您能抽出宝贵的时间来浏览我们的方案。此致。 敬礼!172017 年 6 月 7 日参考文献1在线疯狂,书影博客http:/ 9787115281586项亮,推荐系统实践,北京:人民邮电出版社,2012-6-1,第 27 页。 3 730105579X蓝以中,高等代数简明教程,北京:北京大学出版社,2007-7,第 46 页。4锐之锋芒,博客