1、如何可视化分析文献信息,刘玉婷 图书馆信息咨询部,提纲,背景概念 理论方法 工具介绍 注意问题,背景,信息爆炸 时间有限 科学计量学理论方法 信息可视化技术发展,相关概念,信息可视化将抽象数据用可视的形式表示,用于知识发现、决策制定、文献信息分析等领域。科学知识图谱(Mapping Knowledge Domain ) 又称知识图谱、知识地图。用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心框架、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。,信息获取,知识挖掘,可视化,科学知识图谱,科学知识历史
2、,研究热点、前沿、趋势,相邻学科间关系,研究人物、机构,提纲,背景概念 理论方法 工具介绍 注意问题,理论方法,1.引文分析法 2.共被引分析法 3.多元统计分析方法 4.词频分析法 5.社会网络分析方法,理论方法,1.引文分析法Citation Analysis 尤金加菲尔德Eugene Garfield 引文分析方法的创立者 SCI之父 HistCite的发明者,利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用与被引用现象进行分析,揭示其数量特征和内在规律的一种文献计量分析方法。 邱均平文献计量学,http:/www.garfield
3、.library.upenn.edu/,青蒿素研究引文编年图,理论方法,2.共被引分析法co-citation Analysis文献共被引分析是计量文献之间关系的一种新方法。即2篇文献共同被1篇文献引用,这2篇文献就构成共引关系。共被引频率定义为这2篇文献一起被引用频次马沙科娃斯莫尔(苏联、美国科学记录学家),citing paper,citation,理论方法,3.多元统计分析方法对若干相关的随机变量观测值的分析,包括:因子分析、多维尺度分析和聚类分析。这些方法将在关系矩阵上运算。如某领域文献群组的共被引矩阵。埃格赫信息计量学导论,国际科学学主流领域图。刘则渊,陈悦,侯海燕,等.科学知识图谱
4、:方法与应用M. 北京:人民出版社,2008.,沈建通,姚乐野. 多元统计与社会网络分析法在知识图谱应用的实证研究J. 情报杂志,2009,(8).,理论方法,4.词频分析法齐普夫George Kingsley Zipf 齐普夫第一定律 fr*r=C 在文献中,不同词汇的使用与出现频率是有一定规律的。按词频高低进行统计以供分析齐普夫计量学传统方法。,http:/www.glottopedia.de/index.php/History_of_quantitative_linguistics,理论方法,5.社会网络分析方法 Social Nework Analysis将社会结构界定为一个网络,网络
5、由成员之间的联系进行连接,社会网络分析更多地聚焦于成员之间的联系而非个体特征,并把共同体视为“个人的共同体”,即视为人们在日常和生活中所建立、维护并应用的个人关系的网络Wetherell等,提纲,背景概念 理论方法 工具介绍 注意问题,工具简介,HistCite Bibexcel、SATI、Thomson Data Analyzer CiteSpace Pajek Ucinet Vosviewer SPSS Aureka ,CiteSpace,美籍华人陈超美 德雷塞尔(Drexel)大学信息科学与技术学院 http:/cluster.cis.drexel.edu/cchen/citespace
6、/基于JAVA的可视化文献分析软件能够显示一个学科或知识域在一定时期发展的趋势、动向及热点,形成若干研究前沿领域的演进历程。,http:/cluster.cis.drexel.edu/cchen/bio.html,CiteSpace,研究前沿(Research Fronts)普赖斯最早提出“研究前沿”的概念,某个领域的研究前沿是由科学家积极引用的文章所体现的。大概由40 50篇最近发表的文章组成。Citespace定义研究前沿是正在兴起或突然涌现的理论趋势和新主题,代表一个研究领域的思想现状。 知识基础(Intellective Base)在科学文献中(即由引用研究前沿术语的科学文献所形成的演
7、化网络)的引文和共引轨迹。,CiteSpace的概念模型,http:/cluster.cis.drexel.edu/cchen/citespace/,CiteSpace的安装,是否安装JAVA,开机,进入网站:http:/cluster.cis.drexel.edu/cchen/citespace/ OR 离线开启,下载JAVA并安装,否,是,Citespace的操作步骤,确定数据库和检索词 收集数据 提取研究前沿术语 时区分割 阈值选择 精简和合并 可视化显示 图表解读、验证,选择数据切分年代,突现词来源,选择节点类型,C引文数量、CC共被引频次、CCV共被引系数三个层次设定阀值,其余的由线
8、性内插值决定。,选择数据切分年代,突现词来源,选择节点点类型,剪切连线 1、寻径 2、最小生成树 3、修剪切片网 4、修剪合并网,可视化显示,保存图谱/图像,图谱背景色,寻找聚类,寻找最佳聚类,用term标记聚类,用keyword标记聚类,用摘要词标记聚类,图谱大小调谐,年代色标,按年显示,频次,中心性,调谐term字体、节点大小,调谐node字体、节点大小,聚类视图,时间视图,时区视图,调谐图谱颜色、亮度、透明度、显示速度等,阿尔茨海默早期诊断研究国家,提纲,背景概念 理论方法 工具简介 注意问题,注意问题,安装软、硬件条件 数据清理 有些聚类效果不理想(时间视图) 图谱的判读 其他工具方法的扩展,谢谢!,,