1、第六 科学知识图谱方法及应用,课程考核:相关的课程论文,6月1号前交信息管理学院336办公室。 包括学号、姓名、联系方式,引言,对学科(领域、主题)过去、现状、前沿、热点、趋势的把握可通过什么方法手段?,引言的重要性!,文献是记录有知识的一切载体 文献是科学交流的主要途径与手段了解领域历史、现状热点、前沿趋势 选题,寻求切入点和突破点 寻求新的研究方法和有力的论证依据 避免重复劳动网络环境,大数据。,如果说我比别人看得更远些,那是因为我站在了巨人的肩膀上。,我不知道在别人看来,我是什么样的人;但在我自己看来,我不过就象是一个在海滨玩耍的小孩,为不时发现比寻常更为光滑的一块卵石或比寻常更为美丽的
2、一片贝壳而沾沾自喜,而对于展现在我面前的浩瀚的真理的海洋,却全然没有发现 牛顿,目 录,知识可视化概述,知识图谱绘制方法,知识图谱绘制工具,CiteSpace简介与操作,知识图谱应用案例,知识,语言,文字,肢体,其它,图像,1.知识可视化概述,一图展春秋,一览无余;一图胜万言,一目了然 大连理工大学教授刘则渊,知识可视化实质,知识,可视化 形式,图解,促进,传播 创新,百闻不如一见、一图胜万言! 纽约大学心理学专家吉米布洛诺(Jerome Bruner)在实验中发现,人们能记住10%听到的东西,30%读到的东西,但是却可以记住 80%看到的东西,1.知识可视化概述,1.知识可视化概述,科学计算
3、可视化(Visualization in Scientific; Computing)、数据可视化(Data visualization)、信息可视化、知识可视化、知识域可视化。 “Information Visualization”术语是由斯图尔特卡德、约克麦金利和乔治罗伯逊于1989年创造出来的; 美藉华人陈超美1999年率先发表了该领域的第一部专著信息可视化,创办了国际期刊Information visualization。,1.知识可视化概述,知识可视化发展时间很短,正式起源于2004年,M.J.Eppler和R.A.Burkhard共同发表论文(knowledge Visualiza
4、tion -Towards a New Discipline and its Fields of Application)。 Eppler认为:知识可视化主要研究视觉表征的使用,主要目的是改进两人或多人间知识的创造与转移;知识可视化是指能用来构建和传递复杂观点和内容的所有图形手段和方式。,1.知识可视化概述,1.知识可视化概述,此外,在科研写作中也需要绘制图表,呈现知识,关于 “概念图”的概念图,15,主題,思考的主题,思维导图:用于放射性思考,16,阅读下面黑体的词汇,然后立刻闭上眼睛,持续30秒,思考它。水果,2.知识图谱概述基本概念,知识是一个内涵非常丰富的概念;知识广泛存在于社会各个领
5、域。科学知识图谱广义上包括:生物的基因图谱、教育教学中的认知地图、探索太空的天体图、描绘地形的GIS、模拟人脑的神经网络图、各种金属图谱等。 科学知识图谱是以科学知识为对象,显示学科的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征。,2.知识图谱概述基本概念,2.知识图谱概述基本概念,较形象、定量、客观、真实地显示学科结构、热点、演化与趋势,是学科基础研究新视角。 知识图谱可发现、描述、解释、预测和评价科学知识。 对图书情报学科具有更重要意义,也有助于信息检索、信息分类与信息服务等。,耗时、 费力、 难以重复、 较主观 盲人摸象,2.知识图谱概述基本概念,2.知识图谱概述基本
6、概念,上世纪50年代,加菲尔德创制SCI,并以编年体形式手工绘制引文网络图谱;随后 “文献耦合”(Kessler,1963),“科学引文网络”(Price,1965),“同被引”(Small,1973)、“共词”(Callon,1983)、“引文可视化”(White,1998)相继提出 基本原理是分析知识单元(科学文献、科学家、关键词等)的相似性及测度。采用不同的方法和技术绘制不同类型的图谱。,科学学,科学计量学,应用数学,计算机科学,信息科学,科学知识图谱,2.知识图谱概述发展历程,传统的科学图谱以简单的二维、三维图形(如:柱形图、线性图、点布图、扇形图、平面图等)表示科学统计结果,文献摘要
7、或关键词纪录比例图,X论文增长趋势线型图,2.知识图谱概述发展历程,1987年,美国基金会发表研究报告科学计算中的可视,开始长期资助科学可视化(scientific visualization)研究,1987年,著名计量学家克雷奇默创立“三维构型图谱”three dimensional configuration map,之后出现“多维尺度图谱”multi-dimensional scaling map,20世纪20、30年代英国人类学研究提出“社会网络分析图谱”social networt analysis map,卡尔提出“自组织映射图谱”self-organizing map,实例: 某
8、学科期刊高频关键词共词网络2个知识群,实例:某学术群体知识图谱,2.知识图谱概述发展历程,PFNET算法根据经验性数据,对不同概念或实体间联系的相似性或差异程度做出评估,然后引用图论中的基本概念或原理生成特殊的网状模型,1990美国心理学家斯克沃斯兹恩巴克提出“寻径网络图谱”pathfinder network scaling map,PFNET,将数据以及数据间关系表达成一个图,图中节点表示数据,线表示数据间关系,运用较小生成树法及复杂连接删除算法,删除网络中大部分连接,保留最重要连接,最大限度简化网络,2.知识图谱概述发展历程,用克林伯格跳变算法和共生词分析法和图示技术,研制主要主题和复杂
9、趋势的发现地图,印第安纳大学Ketan K Mane和泊尔纳提出“PNAS主题爆炸图谱”,用以发现主要主题和复杂趋势,网络中各节点代表高频词和爆炸词节点大小代表该词达到最大爆炸水平颜色代表词常用和达到最大爆炸水平的年代,2.知识图谱概述发展历程,利用地理信息系统的可视化信息,地理地图的自然组织框架,构建隐含大量信息的可视化主题地图,有维斯(J. Wise)等提出“信息地图”information landscape,应用案例:期刊文章的数量与资助基金间的动态关系图谱,2.知识图谱概述发展趋势,随计算机处理能力日益提高、文献数字化,知识图谱工具在模拟人类信息分析等方面,可帮助人类进行某些领域的判
10、读、搜索、决策、预测,IN-SPIRE发现工具可整合交互式信息可视化与询问功能,利用专利分析工具形成的专利知识图谱,论文的最小生成树图谱,最小生成树导航图谱,3.科学知识图谱的绘制方法步骤,3.1样本数据获取,主要数据来源:Web of Science 科学文献数据:(SCI) (SSCI) 专利文献数据:德温特创新索引DII 国际会议文献数据:(CPCI) 另外还有Scopus,Science Direct,L国内数据库:CNKI、CSSCI、CSCD、万方等网络数据源:Google Scholar、arXiv、CiteSeerX,3.2样本数据清洗,基于文献数据库进行知识可视化的质量、合理
11、性和可靠性很大程度上依赖于所用数据的精确性和全面性,不准确或不全面的数据往往造成不精确甚至错误的结果。即使目前最权威、公认质量最高的WoS,也存在数据著录格式(如人名和地名的不统一)和遗漏的问题。 改正字符错误,统一或增补 分时段 有代表性的抽取,3.3选择知识单元,知识单元是知识处理的基本单位:关键词、题名、作者、机构、刊名、分类号、学科等等。目前也扩展到摘要、参考文献和全文。多种结合。,3.4 构建知识单元关系,1、说明科学知识和情报内容的继承和利用 2、标志科学的发展,耦合,文献共被引分析是计量文献之间关系的一种新方法。即2篇文献共同被1篇文献引用,这2篇文献就构成共引关系。共被引频率定
12、义为这2篇文献一起被引用频次马沙科娃、斯莫尔(苏联、美国),知识单元的共被引关系,CR 2001, NY TIMES 1226, B2*AM PSYCH ASS, 1994, DIAGN STAT MAN MENT*DEP HLTH HUMAN SE, 1999, MENT HLTH REP SURG G*US BUR CENS, 2000, STF3A DEP COMM BUR CBLAZER DG, 1994, AM J PSYCHIAT, V151, P979EATON L, 2001, NY TIMES 1116, A1FOTHERGILL A, 1999, DISASTERS, V2
13、3, P156FULLERTON CS, 1999, AVIAT SPACE ENVIR MD, V70, P902GINEXI EM, 2000, AM J COMMUN PSYCHOL, V28, P495GOENJIAN AK, 2001, AM J PSYCHIAT, V158, P788GREEN BL, 1990, J APPL SOC PSYCHOL, V20, P1033HANSON RF, 1995, J CONSULT CLIN PSYCH, V63, P987HARVEY AG, 1999, J CONSULT CLIN PSYCH, V67, P985KAWACHI I
14、, 2001, J URBAN HEALTH, V78, P458KESSLER RC, 1995, ARCH GEN PSYCHIAT, V52, P1048KILPATRICK DG, 1987, CRIME DELINQUENCY, V33, P479MADAKASIRA S, 1987, J NERV MENT DIS, V175, P286MAZURE CM, 2000, AM J PSYCHIAT, V157, P896NORTH CS, 1999, JAMA-J AM MED ASSOC, V282, P755ORTEGA AN, 2000, AM J PSYCHIAT, V15
15、7, P615POLE N, 2001, J NERV MENT DIS, V189, P442RESNICK H, 1999, J ANXIETY DISORD, V13, P359RESNICK HS, 1993, J CONSULT CLIN PSYCH, V61, P984ROTHBAUM BO, 1992, J TRAUMA STRESS, V5, P455RUBONIS AV, 1991, PSYCHOL BULL, V109, P384RUEF AM, 2000, CULTURAL DIVERSITY E, V6, P235SHAH B, 1997, SUDAAN USERS M
16、ANUALSHALEV AY, 1998, AM J PSYCHIAT, V155, P630SHALEV AY, 2000, J CLIN PSYCHIAT S5, V61, P33SHERBOURNE CD, 1991, SOC SCI MED, V32, P705SHORE JH, 1989, J NERV MENT DIS, V177, P681TUCKER P, 2000, J BEHAV HEALTH SER R, V27, P406,document co-citation,author co-citation,journal co-citation,ACA/DCA/JCA,3.
17、5数据分析数据标准化,为便于可视化,对简单地频次计算的单元数据,标准化常常通过数据间的相似度测量。主要有两大类:一是集合论方法(Set-theoretic measures),包括Cosine、Pearson、Spearman、Inclusion 指数和Jaccard指数;二是概率论方法(Probabilistic measure),主要有合力指数(Association Strength)和概率亲和力指数(Probabilistic Afnity),因子分析以较少几个因子描述许多指标或因素间关系,即把较密切的变量归在同一类,每类变量成为一个因子,以少量的因子反映原资料中大部分信息。 主成成分
18、分析 其它聚类分析,因子分析,多维尺度分析通过低维(2维)空间反映作者(文献)间的联系,利用平面距离来反映作者(文献)间的相似程度。 在科学知识图谱中,聚集高相似性的作者(文献),形成科学共同体(学科前沿),用中间位置反映作者(文献)与其他作者(文献)的联系越多,说明学科位置核心程度,3.6数据分析简化分析,3.6数据分析简化分析,自组织映射图(SOM),模拟人的神经中枢网络,采用无导师学习的分类方法,能把任意输入信息变换到二维离散网格上,并尽可能地保持原知识的拓扑有序结构。,3.6数据分析简化分析,寻径网络图谱(PFNET),模拟人的记忆模型和联想式思维方式,建立知识单元间最有效连接的路径,
19、经过较复杂的模型运算删除网络中大部分连接,只保留最重要的,目的是将复杂大型的网络进行最大程度的简化。 聚类分析(Cluster)、潜在语义分析(Latent Semantic)、Force Directed Placement (FDP)、三角法(Triangulation )、最小生成树法和特征向量法(Eigenvector)等,3.7知识可视化,知识图谱需要将处理后的知识在人机界面中,进行有效、精确地展示。 知识单元及其关系可以通过不同模拟来可视化展示,例如几何图、战略图、冲积图、主题河图、地形图、星团图、簸幅图等等。 例如主题河图(Theme River)可视化中,用河流做隐喻来描述文献
20、主题随时间的变化;主题的变化随着外部事件的时间线索而显示出来;主题河由术语的频次支流组成,支流的宽度依据术语在不同时间段上出现频次的不同而发生变化,2.8知识图谱解读,在知识图谱的解读过程中,常常需要对图谱进行相应操作,包括浏览、放大、缩小、过滤、查寻、关联和按需移动等。 解读主要从以下几方面着手:网络分析、历时分析、空间分析、突变检测,社会网络分析,据今日美国2006年的报道,911以后,美国国家安全局从AT&T, Verizon, BellSouth等三家美国主要电信公司搜集电话记录,从中分析和查找潜在的恐怖分子网络。著名SNA应用和管理咨询专家Valdis Krebs根据大量公开数据,也
21、绘制出了涉及911的恐怖分子关联网络,小世界现象(六度分隔理论),这个星球上的每个人都不过是被其他六个人分割开来。这就是在我们与这个星球上的另外任何一个人之间的六度分离关系。美利坚合众国的总统、威尼斯的船夫这不仅仅对这些大人物成立,而且对任何人都成立:雨林中的土著人、火地岛的居民、爱斯基摩人,等等。一根六人藤蔓把我和这个世界上的所有人都绑在了一起 理论指出:你和任何一个陌 生人之间所间隔的人不会超 过五个,也就是说,最多通 过五个中间人你就能够认识 任何一个陌生人,20世纪60年代,美国心理学家米尔格兰姆设计了一个连锁信件实验。米尔格兰姆把信随机发送给住在美国各城市的一部分居民,信中写有一个波
22、士顿股票经纪人的名字,并要求每名收信人把这封信寄给自己认为是比较接近这名股票经纪人的朋友。这位朋友收到信后,再把信寄给他认为更接近这名股票经纪人的朋友。最终,大部分信件都寄到了这名股票经纪人手中,每封信平均经手62次到达。,小世界现象(六度分隔理论),2020/1/10,社会网络分析方法中的基本术语在科学知识图谱中的释义,度数 (Node Degree),基本概念,分析角度,密度 (Density),捷径 (Geodesics),距离 (Distance),关联图 (Connected Graph),中心性 (Centrality),凝聚子群 (Clusters),核心-边缘 (Core-periphery),点度中心性 (Degree),中间中心性 (Betweenness),接近中心性 (Closeness),点入度 (In-degree),点出度 (Out-degree),局部中心度,对资源的控制程度,整体中心度 不受他人控制的程度,K核 (K-Core),成分 (Component),整体网络分析,网络密度,复杂网络,