1、大数据环境下的文献分析与利用叶艳鸣201311,一、几点认识,大数据的海啸巨量信息,43,600,000条结果,大数据的海啸,大数据时代的四个特征,6,大数据的阶梯处理过程模型,多阶段流水处理模型:,数据清理,数据集成,数据仓库,任务相关数据,选择,数据挖掘,模式评估,knowledge,主要的知识发现技术,基于文献的知识发现原理与技术,基 于 文 献 的 知 识 发 现,基于相关文献的 知识发现,基于非相关文献的 知识发现,基于全文献的 知识发现,共词分析理论与方法,共引分析理论与方法,Swanson理论与方法,文本挖掘理论与方法,资料来源:冷伏海基于文献的知识发现的应用进展研究,大数据的开
2、发路径,Big data,Mata data,Link data,知识发现进阶,二、“大数据”困局的破解之道目录索引的起源与发展,由易经想到的:,易经道:“易”有三易: 简易 变易 不易,简易:万事万物都是非常简单的,大道至简周易系辞上: 易有太极,是生两仪,两仪生四象,四象生八卦现代计算机之“0、1”世界,易经之简易,变易:宇宙万物,时刻变化,人事皆是如此周易系辞上:知变化之道者,其知神之所为乎?,易经之变易,不易:变的规律本身是相对不变的,是相对静止和相对稳定的,是可以感知的周易系辞上:易无思也,无位也,寂然不动, 感而遂通天下之故,易经之不易,岩刻、结绳记事、 文字起源,远古,人类应对“
3、大数据”之路径,实体世界,符号化,符号化,复杂 简化,日出云端与“旦”字的产生 喂有好“大”一片树林呀信息的标识:实物图画象形文字,符号的产生:,虚拟世界的起源,人与自然区分的分水岭,语言、书籍、通信知识体系起源,古代,信息世界,符号化,知识体系,复杂 简化,人类应对“大数据”之路径,近代- 现代,藏书体系,符号化,目录体系,复杂 简化,书、报、刊、学位论文、 标准、专利 目录学起源,人类应对“大数据”之路径,目录系统,OPAC系统,新世纪,大数据,符号化,Linked Data,复杂 简化,数字化、网络化 大数据时代来临,人类应对“大数据”之路径,易经思想给出的“大数据”困境破解之道,符号,
4、文字,语句,论著,知识体系,大数据集,三、基于知识挖掘的文献分析与利用以基因组研究为例,1、纵观全局的动态调研,研究概貌,315,264条,研究概貌,2、研究关联性分析(热点追踪),主要研究领域(关键词分析),不同时期研究热点变化追踪,1995-1999年,2005-2012年,3、研究关联性分析(时间序列),研究继承性追踪,研究继承性追踪(引用),关键词:禽流感,不同文献敏感度,关键词:禽流感,不同文献敏感度,竞争态势分析,4、机构研究能力评价分析,学术产出评价,学术产出评价高产学者,中山大学附属第三医院院长、党委副书记、教授、博士研究生导师。中华医学会器官移植学分会常委兼肝脏移植学组副组长
5、、中华医学会外科学分会常委兼外科手术学组组长,著名高分子化学和材料科学家及教育家,教授、博士生导师,中山大学校长(91-95年),863新材料领域第一届首席科学家,何梁何利基金科学与技术进步奖获得者,中山大学附属第一医院副院长、教授、博士生导师。卫生部人体器官移植临床应用专家委员会委员,中华外科杂志、中华实验外科杂志、中华器官移植杂志等编委,曾汉民(353) 陈规划(329) 何晓顺(278) 傅家瑞(277) 余学清(267) 莫金垣(259) 梁力建(246) 曾陇梅(234) 滕皋军(224) 詹文华(222),东北大学学术产出最多的前10名学者,王国栋教授:中国工程院院士。现任东北大学
6、轧制技术及连轧自动化国家重点实验室学委会副主任,中国金属学会轧钢学会副理事长,中国材料研究学会理事,刘相华教授,轧制技术及连轧自动化国家重点实验室主任。获国家科技进步二等奖2项,国家技术发明二等奖1项,国家发明创业奖1项,获得授权发明专利23项,王国栋(871) 刘相华(761) 闻邦椿(524) 翟玉春(451) 崔建忠(399) 柴天佑(392) 徐心和(321) 张庆灵(320) 赵海(314) 樊治平(285,蒋亚东教授,东北大学机械电子工程研究所名誉所长,国务院学位委员会第二、三、四届机械工程学科评议组成员, 1984年被评为全国第一批有突出贡献的中青年专家,1991年当选为中国科学院院士,清华大学与四川大学的专利对比情况,四、基于发现系统的用户行为分析,OPAC:本馆纸书,数据库: 书世界、CNKI、万方、超星书、方正.,读秀: 图书补缺,百链: 期刊等文献补缺,发现系统,无缝对接的 全文服务功能,数据库,云共享服务,读秀,数据库使用量,学科使用量统计,每一次信息技术进步都极大地推动了 科学技术的飞跃发展,知识发现为科技创新插上飞翔的翅膀,谢 谢,