收藏 分享(赏)

基于文献聚类的数据挖掘模型设计与实现.doc

上传人:dzzj200808 文档编号:2243066 上传时间:2018-09-07 格式:DOC 页数:20 大小:789KB
下载 相关 举报
基于文献聚类的数据挖掘模型设计与实现.doc_第1页
第1页 / 共20页
基于文献聚类的数据挖掘模型设计与实现.doc_第2页
第2页 / 共20页
基于文献聚类的数据挖掘模型设计与实现.doc_第3页
第3页 / 共20页
基于文献聚类的数据挖掘模型设计与实现.doc_第4页
第4页 / 共20页
基于文献聚类的数据挖掘模型设计与实现.doc_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、1基于文献聚类的数据挖掘模型设计与实现参赛队员:张静,李逸,徐良飞 指导老师:魏建香 徐斌 褚炜鑫(南京人口管理干部学院 江苏 南京 210042)摘要:聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型,改进了传统相似度的计算模型,提出了一种基于摘要词对关键词加权贡献的相似度模型,使得文献的空间向量更加精确。数据来源于 05 年 CSSCI 文献数据库图书情报学的 3 千多条文献数据,并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤,得到最终用于聚类的 681 篇文献和 108 个学科特征原子词。利用

2、 Matlab 软件编程实现了 FCM 算法的文献聚类。将聚类的结果通过基于学科原子特征词的学科交叉表来表示,统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对结果进行了检验,检验结果表明该统计模型是科学的、有意义的。关键词:聚类; 交叉学科; 关键词; 摘要; 相似度; FCM 一、引言1.研究背景聚类分析(Clustering Analysis)是统计、模式识别和数据挖掘等领域中一个非常重要的技术,文献聚类就是依据文献之间的相似度按照一定的算法准则,挖掘隐藏在海量文献数据背后的有用知识:如学科交叉、研究热点和新的研究方向。科学研究需要创新。科学技术

3、的发展为每个学科的发展带来新的机遇的同时,也带来更为严峻的挑战。目前,文、理、工、管等学科之间相互渗透、交叉、融合已经成为一种潮流和趋势,其深度和广度正在进一步深化。众所周知,近代科学发展特别是科学上的重大发现和国计民生中的重大社会问题的解决,常常涉及不同学科的相互交充满和相互渗透。学科交叉逐渐形成一批交叉学科,如化学与物理学的交叉形成了物理化学和化学物理学,化学与生物学的交叉形成了生物化学和化学生物学,物理学与生物学交叉形成了生物物理学等。这些交叉学科的不断发展大大地推动了科学进步,因此学科交叉研究(interdisciplinary research)体现了科学向综合性发展的趋势。科学上的

4、新理论、新发明的产生,新的工程技术的出现,经常是在学科的边缘或交叉点上,重视交叉学科将使科学本身向着更深层次和更高水平发展,这是符合自然界存在的客观规律的。由于现有的学科是人为划分的,而科学问题是客观存在的,根据人们的认识水平,过去只有天文学、地理(地质)、生物、数学、物理、化学六个一级学科;而经过 20 世纪科学的发展和交叉研究,又逐渐形成了新的交叉学科,如生命科学、材料科学、环境科学等。因此研究学科交叉可以反映学科的研究的热点和发展趋势。本次统计建模正是基于以上的研究背景,通过文献聚类来研究学科交叉,其意义在于:(1)通过对文献数据的聚类分析,挖掘学2科交叉点,使研究者了解本学科目前的研究

5、现状,如学科发展前沿与热点问题等,以提高研究者的创新意识和创新动力,为科学研究提供决策支持;(2)为管理者和研究机构提供决策支持,如交叉学科的政策支持、研究经费投入、人才培养方向等;(3)通过学科交叉的比较,使学科本身获得动力,提升学科竞争力,使学科能更好地适应社会和经济的发展,更好地服务社会。2.国内外研究现状不同的数据库,对其文献进行分类有不同的方法,没有一种方法能对所有数据库的文献分类都具有高效率、高精确率。对于科学文献的分类,目前主要采用的方法有 1:(1)引文分析法:引文分析是指通过对文献中所附的参考引文进行计量统计分析,从而揭示科学技术发展的历史及现状。其目的是寻找文献之间的联系来

6、研究文献内在联系和科学结构的一种方法。(2)关键词分析法:关键词分析就是通过对反映文献主题内容的词进行关联性或相异性定量分析,研究文献内在联系和科学结构的一种方法。(3)聚类分析法:聚类分析是指根据分析对象彼此之间的相关程度把文献分成类群,使群内尽量相似,群间尽量相异,然后进行分析研究的过程。(4)因素分析法:因素分析的概念是英美心理统计学者们最早提出的,因素分析法是从试验所得的 mn 个数据文献中概括和提取出较少量的关键因素,它们能反映和解释所得的大量观测事实,从而建立起最简洁、最基本的概念系统,揭示出事物间最本质的联系。(5)关键词分析与共引聚类分析相结合研究法。目前国内研究的主要热点集中

7、在第一方面,而国外在该领域的最新研究是通过关键词分析和共引聚类分析相结合,以揭示文献的主题结构。3.文本挖掘中的分词技术中文文本挖掘技术成败的关键在于文本中词汇切分的成功与否。由于汉语语言的特殊性和复杂性,使中文词汇的切分成为一个很伤脑筋的问题。而如果不进行分词,中文信息处理的其它很多研究就无法进行。分词技术中基于词库的算法目前使用较广,也较为成熟,如正向、逆向最大匹配法、逐词遍历法。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面,建立一个同时满足这两个要求的词库具有很大的难度 2。所以,对于中文文本挖掘来说,基于词库的分词技术可能会使某些具有重要意义的词

8、汇被疏漏,从而导致挖掘的内容不是十分准确。基于无词典的分词技术正处于研究发展阶段,其基本思想是:基于频度的统计,不依靠于词典,将文本中任意几个字同时出现的频率进行统计,次数越高的越可能是一个词 3。文中设计了一个基于无词典分词的算法 4,能比较准确地切分出文本中的新词。4.文本的特征提取特征提取主要是识别文本中代表其特征的词项。提取过程是自动的,提取的特征大部分是文本集中表示的概念。文本特征分为一般特征和数字特征,其中一般特征主要包括动词和名词短语,如人名、组织名等;数字特征主要包括日期、时间、货币以及单纯数字信息。这些特征包含重要的信息,因此特征提取是一种强有力的文本挖掘技术。通过文本特征抽

9、取,记录文本的特征,可以更好地组织文本,如文本的存储、检索、过滤、分类和摘要等。3中文姓名识别属于中文信息处理中未登录词处理的范畴,中文姓名在文章中的出现频率虽然不高,但绝非可以忽略,因为中文姓名本身包含着重要的信息,它可能是整个句子甚至整个段落的语义中心,如果不予处理,将影响文本挖掘的性能 5。数字特征反映一定的信息,但不能表达文本的中心思想,通常只作文本挖掘中的参考信息。5.聚类分析的原理与方法聚类分析主要包括统计学习和机器学习两种方法。在基于统计学习的聚类分析中,主要研究基于几何距离的聚类,这也是本次建模采用的方法。其主要步骤包括:(1)定义多维空间;(2)计算多维空间中样本点之间的距离

10、,作为样本点之间的相似度;(3)采用某种算法(如 FCM、K-means、层次法等)按照相似度大小将相似度高的样本聚为一类。在文献聚类问题中,一般都是根据向量空间模型(VSM)思想,将文献聚类的样本空间表示成 X=x1, x2, xn,其中样本 xi=( xi1, xi2, xim)为 m 维特征空间 Rm中的一个点,现在要找到这样一个划分 C=C1, C2, Ck,使得:且 ,并且满足,.,1kiCXiki jikjCji 且,.2,类内之和 的值最小, xj*表示类 Cj的中心, xi表示划分在类 CjkjcxjijiE1*中的文献。6.研究目标和具体思路本次建模研究目标是在海量数据的基础

11、上,采用聚类分析的理论和方法,挖掘隐藏在数据背后的学科交叉知识,研究的整体框架如下:图 1 文献聚类研究框架主要的研究思路为:(1)数据采集:采集三个学科(图书、情报、文献)一年的文献数据;(2)数据预处理: 降维:经过抽取和提炼,建立学科特征词库,构建聚类空间; 文献摘要分词:将摘要利用分词技术进行分词,去掉虚泛词; 关键词与摘要词加权:利用关键词在摘要中出现的频次,计算出摘要词对关键词的贡献度; 去噪声:对数据库中文献学科类别特点不明显的文献删除。文献样本数据库学科特征词库数据抽取和提炼结果分析聚类分析文献数据库数据采集加工4(3)利用 VSM 模型,建立文献空间向量;(4)利用 Matl

12、ab 软件中的 FCM 算法,将文献进行多次聚类;(5)对聚类的结果进行统计分析。二、模型设计1.向量空间模型(VSM)向量空间模型( VSM)是文献分类所使用的特征较为普遍采用的方法之一。在这种模型中,文献空间被看作是由一组正交词条向量组成的向量空间,每个文献表示为其中的一个范化特征向量: V(d)=(t1,w1(d),ti,wi(d),tn,wn(d),其中 ti,也可以要求 ti是 d 中出现的所有短语,以提高文献内容的准确性。Wi(d)常被定义为 ti在 d 出现频率 tfi(d)的函数,如 wi(d)=(tfi(d),常用的 函数有布尔函数: ;平方根函数: ;对数函数: 10,it

13、f, )itf; TFIDF 函数: 等。本次建模中采用了一种log()itfd()log)iiNtfdn新的 wi(d)的计算模型,具体步骤如下:(1)构建特征向量空间文献聚类是在一个非常高的维度中进行的,而聚类算法的复杂度与数据维度是非线性关系。理论证明,随着维度的增加,计算的复杂度将呈现指数级的增长。我们通过对 05 年 CSSCI 文献数据库中三大学科文献的统计发现,在3932 篇文献中关键字的个数为 14202,平均每篇文献的关键词个数为 3.61 个,互异的关键词达到 6708 个,利用普遍认可的 VSM 来计算文献相似度矩阵时,特征空间的维度很大,增加了计算的复杂性。因此,文献聚

14、类的首要问题是要将数据进行降维。原子特征词是指从所有文献关键词中找出能够反映出学科特点的关键词中的原子部分。这样做可以将数组维度从一个非常高的维度降低到一个维度相对较低的空间。原子特征词词典的确立是基于关键词的文本分类的非常关键的基础问题,词典中原子特征词的选取既要考虑这些词在文本集合中出现的统计特征,选取那些反映文本内容的原子特征词;又要做停用词表,去掉那些在特定语言中出现频率较高但含义虚泛的词,以降低特征空间的维数;同时还要考虑关键词的频幅限制,以防止因少数关键词在少数文本中频幅过高而造成的聚类中心的偏移影响。(2)关键词相似度计算模型由于我们对关键进行了抽取和加工,因此大部分的文献关键词

15、与原子特征词并不完全相同,由于在传统的相似度计算模型中两者的相似度将是 0,这会使得构建的文献空间向量矩阵绝大部分元素出现 0。因此,必须考虑两种关键词之间的部分相似性。 6假设两个关键字 ki和 kj,字符长度分别为 li和 lj,连续相同字符串长度为l,则该两个关键字相似度定义为 T(ki,kj):(1)04),(lljiji 当当5显然有 T(ki,kj)0,1。这个公式考虑了关键字之间的部分相似性,提高了相似度计算的精度。例如:两个关键字“公共图书馆”和“数字图书馆”,在许多的文献聚类方法中将这两个关键字的相似度定义为 0(即两者完全不同),这在某种程度上影响了文献相似度的精确度。利用

16、我们给出的公式(1)计算结果为 0.4286,能更加准确地表示两者的相似度。(3)相似度加权计算模型每一篇文献一般有若干个关键词,通过关键词相似度计算模型中公式(1)计算所得的值也相应地有若干个。为了进一步提高文献相似度的精确度,我们结合关键词相似度计算模型和关键词的频次提出一种新的计算文献相似度的相似度加权计算模型:假设文献的关键词为 ,则文献的关键词集合定义为 :ik ()iDk12(),)i inDk (1) 定义文献的关键词的频次为 ()iF12(),(),()i inkkFk (2) 通过关键词相似度计算模型计算12(),(),(),()i inTkkTk (3) 取公式(3)中的最

17、大值,定义为 ()iMax(4) ()iiaxkT定义相似度加权计算的值为 (iP(5) ()1)iiikxFk(4)文献空间向量的构建VSM 的目标是将文献数据表示为特征空间中的一个向量。该矩阵以文献作为行,以原子特征词作为文献的特征词,即作为列。每一篇文献的每一个关键词分别和每一个原子特征词进行相似度计算,乘以该关键词在摘要中出现的频次加 1 后的最大值作为最终结果,因为该词在文献关键词中也出现 1 次。假设n 篇文献, m 个学科原子特征词,则文献的空间向量矩阵表示为:nmnmw212112.其中,文献在 m 维空间的特征分量 wij(i=1,2,n; j=1,2,m)计算是通过每篇文献

18、的6关键词与原子特征词之间的相似度乘以该关键词在摘要中出现的频次加 1,并取最大值得到。例如:一篇文献中的 3 个关键词及在摘要中出现的频次分别为:数字型图书馆(3); 隐性知识(4); 图书馆工作( 2),第 i 维的原子特征词为 “图书馆”。则这篇文献的 wi(d)的计算方式为:首先利用相似度计算模型中公式(5)计算 3 个关键词与原子特征词“图书馆”的相似度值分别为 0.5、0、0.6,然后计算加权后的值分别为 0.5(3+1)=2.0、0(4+1)=0、0.6 (2+1)=1.8,取最大值 2.0 作为 wi(d)的值。2.FCM 聚类算法模型及步骤(1)FCM 聚类算法模型FCM算法

19、是一种基于划分的聚类算法,它的思想就是使得被划分到同一类的对象之间相似度最大,而不同类之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分 7。FCM 算法在迭代寻优过程中,不断更新各类的中心及隶属度矩阵各元素的值,直到逼近下列准则函数最小值, (2)21(,)NcmmijjJUVud式(1)中V=v 1,v 2,v c,v i为w i的中心矢量,权重 ,(1,)m,A为某正定阵, 时, 为欧式距离 。式(2)2()()jijiijdxAIijdjixv的约束条件为 , ,运用拉格朗日乘数法,可得无约束的准则函数1ciju

20、j, (3)2j11()NcNcmij ijjFudu式(3)取极小值的必要条件是(4)20,ijijj(5)1().cijJFu由式(3)可得(6)21(),mijjijd将式(6)代入式(5)可得, (7)1121()()ccjijiiju从而有(8)112(),()jmmkjd7将式(8)代入式(6)得(9)211.()ijcijmkud考虑到 可能为 0,对 ,定义集合 和 为ijdjjIj,jijI.1,23j jI如果 则jI(10) 211.()ijcijmkud如果 则 令 并使 类似地,可得聚类中心更新算式,jI,ijI0,ij .jiI令 可得(,)0,viJUV1 1()

21、()2()0,NNmmijjijiijjiJuxvAuAxv 由此可得(11)11.Nmiijijvux(2)FCM 聚类算法步骤(1)确定类数 、参数 m、矩阵 A 和一个适当的误差参数 ;(2)c 0(2)置定初始模糊分类矩阵 表示 中元素,令 s=0;(0),Uiju(3)计算 时的()sU()siv()11,2,.Nsmiijijvuxc(4)按下面的方法更新 为()s(1).sUjN计算 .jI和 0,jijd.,2j jIcI计算 的新隶属度。jx8如果 那么 否则 并取,jI211,()ijcijmkud,0,ijijuI1.jiIu(5)以一个适当的矩阵范数比较 和 ,如果 停

22、止;()sU(1)s()(1),ssU否则, s=s+1,返回(3) 8.三、文献聚类的实现文献聚类实现的步骤如下:(1)数据抽样:从 05 年 CSSCI 数据库中情报学、文献学、图书馆学三种学科文献共 3932 篇文献中,通过系统抽样法,从中选取了 800 篇文献,其中情报学 257 篇,文献学 120 篇,图书馆学 423 篇。(2)数据清洗:通过中知网()搜索,取出每一篇文献的摘要部分,并统计每一篇文献中关键词在摘要中出现的频次。去掉其中表达不规范的摘要,最终选取情报学、文献学、图书馆学三个学科文献共 681 篇,其中情报学 207 篇,文献学 98 篇,图书馆学 376 篇,处理后的

23、数据如图 2 所示。图 2 待聚类的文献数据(3)抽取原子特征词:取出 681 篇文献中所有的关键词,从中人工选取108 个原子特征词,如表 1。通过编写程序,求出每一篇文献中的每一个关键词相对于 108 个原子特征词的相似度值,然后乘以该关键词在摘要中出现的频次加 1 之后最大相似度值,即为相似度加权值。表 1 原子特征词表1 安全 19 传播 37 馆员 55 排架 73 数字 91影响因子2 版本 20 导航 38 集成 56 评估 74 搜索引擎 92 用户3 版权 21 电子 39 计算机 57 评价 75 索引 93 语义94 保存 22 调查 40 家谱 58 期刊 76 图书

24、94 元数据5 被引 23 读者 41 价值 59 企业 77 图书馆 95 阅读6 本体 24 敦煌 42 检索 60 情报 78 图像 96 整理7 编目 25 分布式 43 建筑 61 全文数据库 79 推送 97 政府8 标引 26 分词 44 借阅 62 人文 80 网络计量 98 知识9 博客 27 分类 45 竞争 63 人性化 81 网页 99 智能10 采访 28 佛经 46 口述 64 儒家 82 网站 100 中图法11 采购 29 个人 47 类目 65 商务 83 文献 101 主题12 参考 30 个性化 48 联合 66 社会 84 信息 102 著录13 藏书

25、31 公共 49 联机 67 社区 85 虚拟 103 著作14 查全 32 共享 50 联盟 68 史料 86 叙词表 104 专利15 查新 33 古籍 51 链接 69 视频 87 学科 105 咨询16 查询 34 关键词 52 论文 70 收录 88 学术 106 资料17 成本 35 馆藏 53 目录 71 书目 89 引文 107 资源18 出版 36 馆际 54 内容分析 72 数据 90 隐性知识 108 自动化(4)构建文献空间向量矩阵:以 681 篇文献作为行,108 个原子特征词作为列,以步骤(3)中求出的相似度加权值作为矩阵元素来构建文献空间向量矩阵 R,图 3 为

26、R 的部分元素。该矩阵每一行即为一篇文献的一个空间向量,每一列(每一维)即为一个文献特征。通过相似度加权计算的方法所取得的值与现有的方法相比较更加准确地反映出某个关键词在文献中的权重,而且所得的文献空间向量矩阵 R 中的数据的稀疏程度将大大降低,这样通过 FCM 聚类做出的结果将会更加地精确、稳定。图 3 文献空间向量矩阵(5)聚类实现:将文献空间向量矩阵 R 中的数据存入文本文档,作为Matlab 中 FCM 算法的数据源。运行 FCM 算法 100 以上,取出其中聚类目标函数值最小时的聚类结果作为最终结果输出,程序界面如图 4。通过多次运行并对结果进行比较发现,聚类的结果比较稳定,如表 2

27、。10图 4 Matlab 程序界面表 2 前 200 项数据的聚类结果1 3 21 3 41 2 61 1 81 1 101 1 121 1 141 1 161 2 181 32 2 22 2 42 1 62 1 82 1 102 2 122 1 142 2 162 3 182 13 2 23 1 43 1 63 1 83 1 103 1 123 1 143 1 163 2 183 34 3 24 1 44 1 64 1 84 1 104 1 124 1 144 1 164 2 184 35 1 25 3 45 1 65 2 85 1 105 1 125 1 145 1 165 2 185

28、26 3 26 3 46 3 66 1 86 1 106 1 126 1 146 2 166 2 186 17 1 27 2 47 1 67 3 87 1 107 3 127 1 147 3 167 3 187 38 1 28 1 48 1 68 3 88 1 108 2 128 1 148 3 168 3 188 29 3 29 2 49 1 69 1 89 1 109 1 129 1 149 3 169 3 189 310 2 30 1 50 1 70 1 90 1 110 1 130 1 150 3 170 1 190 111 3 31 2 51 1 71 1 91 2 111 1 13

29、1 1 151 3 171 2 191 312 3 32 2 52 1 72 1 92 1 112 1 132 1 152 1 172 1 192 113 3 33 1 53 2 73 1 93 1 113 1 133 2 153 2 173 1 193 314 1 34 1 54 1 74 3 94 1 114 1 134 3 154 1 174 2 194 315 3 35 1 55 1 75 2 95 3 115 1 135 1 155 1 175 3 195 116 1 36 1 56 1 76 1 96 2 116 1 136 3 156 1 176 3 196 117 1 37 3

30、 57 1 77 1 97 1 117 1 137 1 157 3 177 1 197 218 2 38 3 58 1 78 1 98 2 118 1 138 1 158 2 178 3 198 119 2 39 3 59 3 79 1 99 1 119 1 139 1 159 1 179 3 199 220 1 40 1 60 2 80 1 100 2 120 1 140 3 160 1 180 1 200 1(6)学科交叉研究方法:通过 FCM 算法运行所得的学科分类数据同(2)中已知的学科分类数据相比较,得到一张学科交叉表。该表以原子特征词作为行,以两两学科相互之间是否交叉作为列,统计原

31、子特征词是否在某两门学科之间出现以及如果出现,那么出现的频次为多大。这样就可以清晰地知道:哪11些文献属于交叉学科,学科之间正在共同探讨哪些方面以及该方面的关注度如何。四、聚类结果统计分析建立一张二维表,通过 FCM 聚类所得的文献分类结果与文献在现实中的学科分类相比,就可以很清楚地看到该文献是否为交叉学科,同时很清楚地看到该文献属于哪几门学科交叉及各学科之间的交叉点(关注点)。表 3 部分学科交叉表(完整学科交叉表见附录 II)原子特征词 I-1 I-2 I-3 II-1 II-2 II-3 III-1 III-2 III-3安全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0

32、 0 0 0 0 版权 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本体 0 8 0 0 0 0 0 6 0 表 1(见附录 II)中每个字段中前一个数字表示文献通过 FCM 聚类方法聚成的结果,共分为 3 类,分别用 I、II、III 表示;后一个数据表示文献的实际分类,其中“1”代表“图书馆学”;“2”代表“情报学”;“3”代表“文献学”。例如:“I-1”前一个“I”代表文献通过 FCM 聚类后分在第一类中,而后一个“1”表示文献现实中被归为图书馆学。从表 1(见附录 II)中我们可以看出:(1)文献中哪些属于交叉

33、学科范畴。当一部分文献通过原子特征词被聚为同一类时,说明这些文献研究或探讨的内容有相同或相似的方面,在这一类中的文献如果现实中属于不同学科时,那么说明学科之间有交叉的部分,其中一些文献属于交叉学科。从原子特征词中,我们可以进一步看出学科之间共同关注的课题。(2)如果某个原子特征词分别在不同学科中出现,那么从中我们可以很明显地看出该原子特征词被哪些学科同时关注。例如第八行的原子特征词“编目”通过 FCM 聚类被分为同一类,但在现实中同时出现于“图书馆学”、“情报学”、“文献学”三门学科。从中我们可以看出,这三门学科正在同时研究“编目”这个方面。(3)通过原子特征词的统计频次,我们可以进一步看出某

34、个原子特征词的关注度。如果某个原子特征词在某些学科中同时多次出现,那么可以肯定地是这个原子特征词是不同学科研究的热点问题。例如:“检索”在图书馆学中出现地频次为 7,在情报学中出现地频次为 98,在文献学中出现地频次为 11,而且是被聚为同一类中。从中可以看出,三门学科在“检索”方面属于交叉学科范畴,而且它在三门学科中的关注度很高。2. 统计分析(1)聚类结果的学科类别统计分析表 4 聚类结果的学科类别统计表文献数 图书馆学 情报学 文献学 合计12类别I 63 20.3% 154 49.7% 93 30% 310II 106 75.2% 32 22.7% 3 2.1% 141III 207

35、90% 21 9.1% 2 0.9% 230合计 376 207 98 681从表 4 中统计的结果可以看出,聚类结果的第 I 类主要是由情报学(占49.7%)和文献学(30%)组成,图书馆学占 20.3%,因此第 I 类中可以分析出情报学与文献学、情报学与图书馆学之间的交叉关系;第 2 类中主要是由图书馆学(占 75.2%)和情报学(占 22.7%)组成,因此第 II 类的结果可以分析出情报学与图书馆学之间的交叉关系;第 III 类主要由图书馆学(占 90%)组成,包含 9.1%的情报学有可能成为研究的新的增长点。图 5 是三个类别中学科分布情况。以上是对三个学科类别总体情况的分析,下面将作

36、更为详细的分析。第 I类 别 学 科 分 布 状 况情 报 学 : 49.7%图 书 馆 学 : 20.3%文 献 学 : 30%123第 II类 别 学 科 分 布 状 况图 书 馆 学 :75.2%情 报 学 : 22.7%文 献 学 : 2.1%12313第 III类 别 学 科 分 布 状 况图 书 馆 学 : 90%情 报 学 : 9.1%文 献 学 : 0.9%123图 5 三个类别学科分布状况(2)学科研究热点分析综合上述的统计情况,类别 I 是三个学科的交叉,类别 II、III 主要是图书馆学为主,因此,按以下思路分别对三个类别进行统计分析来研究各个学科的研究热点:(1)从第

37、I 类中,按情报学中原子特征词频次降序排列后,排在前 10 位的数据如下:原子特征词 图书馆 情报学 文献学 总计情报 0 115 0 115检索 7 98 11 116竞争 0 71 0 71信息 19 65 0 84数据 8 63 9 80资源 27 52 20 99数字 12 43 11 66知识 14 43 0 57参考 7 32 5 44期刊 13 30 6 49(2)从第 I 类中,按文献学中原子特征词频次降序排列后,排在前 10 位的数据如下:原子特征词 图书馆 情报学 文献学 总计文献 4 8 42 54资源 27 52 20 99编目 7 2 19 28查新 0 7 15 2

38、2分词 0 0 15 15标引 0 3 13 16著录 4 0 13 17藏书 2 0 12 14检索 7 98 11 116数字 12 43 11 66(3)从第 III 类中,按图书馆学中原子特征词频次降序排列后,排在前 1014位的数据如下:原子特征词 图书馆 情报学 文献学 总计图书 295 0 2 297图书馆 292 0 2 294数字 97 0 0 97知识 53 16 0 69资源 39 11 0 50馆员 27 0 0 27社区 25 0 0 25评价 23 0 0 23信息 17 0 0 17社会 17 0 0 17(4)研究热点汇总将三张表的结果进行汇总得到每个学科研究的

39、热点如下表:研究热点学 科 研究热点图书馆学 数字图书馆、知识管理、信息资源、信息评价、社区图书馆等情报学 情报检索、竞争情报、知识管理、信息资源管理、信息数字化等。文献学 文献资源管理、文献检索、文献查新、数字文献、藏书等(3)学科交叉分析从三张表中字体为黑斜体的数据统计出三个学科之间的交叉情况如下表:图书馆学 VS 情报学 数字图书馆、知识管理、信息资源等情报学 VS 文献学 文献检索、编目、文献、信息资源等文献学 VS 图书馆学 编目、文献、信息资源、知识管理等文献学 VS 图书馆学 VS 情报学 检索、数据、资源、参考、期刊、编目等(4)新的学科增长点分析为了研究新的学科增长点,我们从

40、第 III 类中提取了情报学文献进行研究,由于该类别中绝大部分属于图书馆学,尽管其中只有 21 篇文献既属于图书馆学又属于情报学研究内容,因此该类别中这种学科交叉点有可能成为情报学新的增长点。具体数据如下图:15图 6 第 III 类中情报学文献数据从数据中可以看出,其中“数字图书馆”涉及较多,当然它也是 05 年图书情报研究的热点,这是一个显性的知识;而其中的“语义 Web”、“本体”、“知识”等词的出现,应该成为我们必须关注的信号,因为它们可能在若干年后成为图书情报学研究的新的增长点。为了验证我们的结论,我们从中知网的数字出版物超市 中国学术文献网络出版总库 学科学术热点,从中检索“本体”

41、关键字的结果如下表:序号热点主题 主要知识点主题所属学科名称热度值文献数相关国家课题数研究人员数研究机构数5语义网;知识服务;本体;语义网;知识服务;本体;web 服务;xml;知识管理;万维网;高校图书馆;rdf;元数据;网络检索;图书馆;图书馆员;本体映射;智能检索;图书馆服务;知识地图;知识服务系统;数字图书馆建设;语义 web;图书情报与数字图书馆;计算机软件及计算机应用;10149 178 25 273 1276语义网;本体;信息组织;语义网;本体;web 服务;数字图书馆;万维网;rdf;xml;文献标题;搜索引擎;网络检索;元数据;知识服务;智能检索;圆周率;本体论;知识表示;信

42、息检索系统;ibase 数据库;ontology;本体语言;互联网技术;计算机软件及计算机应用;7959 146 28 226 104从表中可以检验我们通过对 05 年数据挖掘的结果在 09 年得到验证。五、结论本次建模的主要目标是通过文献聚类发现学科交叉和学科热点等隐藏在数据背后的学科知识。在建模中,我们选取了 05 年图书情报学的 681 篇文献作为统计建模的数据,由于采用了系统抽样的方法,因此研究的数据具有一定的代表性。通过数据的采集和预处理、模型的建立、实验仿真、结果的统计分析和结果检验等各个环节,我们比较顺利地完成了本次建模任务。经检验,模型是科学的,结果是正确的。主要的创新点:(1

43、)在设计的模型中,我们提出了一种新的相似度加权模型,从而使得 FCM 聚类所得的结果更加合理和准确。16(2)设计了学科交叉表。从学科交叉表中可以一目了然地看出哪些学科在哪些方面交叉,同时还可以看出哪些课题是学科之间的热点及新的增长点。这样研究人员、学者就可以在第一时间很清楚地了解到交叉学科的热点及增长点,不仅节省花在查找方面的时间与精力,更为重要地是,可以时刻掌握先机,抢占科学前沿。该模型还需改进的方面有:(1)模型只考虑了摘要词对关键词的贡献度,还可以考虑标题词对关键词的贡献度,以进一步加强文献间相似度的精确性;(2)由于 FCM 是一种没有聚类结果无交叉的算法,因此在该模型中可以引入模糊

44、理论,使得聚类的结果有重合,对于研究学科交叉将更为直接。参考文献1林春燕,朱东华.科学文献的模糊聚类算法.计算机应用,2004.2蒋澄,马范援,蒋思杰.中英文 WWW 搜索引擎的信息处理J.计算机工程,1999,25(4):37-38.3 严威,赵政.开发中文搜索引擎汉语处理的关键技术J.计算机工程,1999,25(6):5-6.4 胥桂仙,苏筱蔚,陈淑艳.中文文本挖掘的无词典分词的算法及其应用J.吉林工学院学报,2002,23(1):16-18.5 牛正雨,柴佩琪.文语转换系统中的中文姓名识别J.计算机应用研究,2001,(1):25-26.6魏建香,苏新宁. 基于关键字和摘要相关度的文献聚

45、类研究. 情报学报,2009,28(2).7金华. 分级聚类与平面划分结合方法在网页分类中的应用. 计算机工程与应用, 2004. 8胡宁静,王靖. 基于模糊 c 均值算法文档聚类问题的研究. 长沙电力学院学报, 2004.17附录 I: FCM 算法(Matlab)function center, U,obj_fcn=FCMClust(data,cluster_n,options)%FCMClust.m采用模糊c均值对数据集data 聚为cluster_n 类if nargin=2 endrows=size(data,1); %求出 data的第一维(rows)数,即样本个数columns=

46、size(data,2); %求出data的第二维(columns)数,即特征值长度default_options=2;100;1e0;1; %默认操作参数 隶属度矩阵U的指数 最大迭代次数 隶属度最小变化量 迭代终止条件 每次迭代是否输出信息标志if nargin=2,options=default_options;elseif length(options)1,if abs(obj_fcn(i)-obj_fcn(i-1)min_impro,break;18end,endenditer_n=i;obj_fcn(iter_n+1:max_iter)=;% obj_fcn:目标函数值% U:隶属

47、度矩阵% center:聚类中心 附录 II: 表 1 学科交叉表原子特征词 1-1 1-2 1-3 2-1 2-2 2-3 3-1 3-2 3-3安全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0 0 0 0 0 版权 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本体 0 8 0 0 0 0 0 6 0 编目 7 2 19 2 0 0 5 0 0 标引 0 3 13 0 0 0 0 0 0 博客 0 9 0 0 0 0 0 0 0 采访 2 2 7 8 0 0 4 0 0 采购 2 0 8 3 2 0

48、 3 0 0 参考 7 32 5 2 8 0 10 5 0 藏书 2 0 12 9 0 0 7 0 0 查全 0 7 0 0 0 0 0 0 0 查新 0 7 15 0 0 0 0 0 0 查询 0 10 0 0 0 0 0 0 0 成本 4 5 0 0 0 0 11 0 0 出版 0 0 3 0 0 0 0 0 4 传播 0 0 0 0 3 0 4 0 0 导航 0 8 2 0 0 0 0 0 0 电子 16 15 10 0 0 0 0 0 0 调查 0 0 0 0 0 0 3 0 0 读者 2 0 0 6 0 0 9 0 0 敦煌 0 0 4 0 0 0 0 0 0 分布式 2 0 0 0 0 0 0 0 0 分词 0 0 15 0 0 0 0 0 0 分类 0 0 4 0 0 0 0 0 0 佛经 0 0 5 0 0 0 0 0 0 个人 0 7 0 0 3 0 4 0 0 个性化 0 10 0 0 0 0 0 2 0 19公共 0 0 0 0 0 0 0 0 0 共享 7 6 8 6 2 0 8 0 0 古籍 0 0 0 0 0 0 0 0 0 关键词 0 3 4 0 0 0 0 0 0 馆藏 6 0 0 0 0 0 2

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报