收藏 分享(赏)

基于文献计量的大数据研究综述.doc

上传人:无敌 文档编号:173880 上传时间:2018-03-23 格式:DOC 页数:13 大小:143KB
下载 相关 举报
基于文献计量的大数据研究综述.doc_第1页
第1页 / 共13页
基于文献计量的大数据研究综述.doc_第2页
第2页 / 共13页
基于文献计量的大数据研究综述.doc_第3页
第3页 / 共13页
基于文献计量的大数据研究综述.doc_第4页
第4页 / 共13页
基于文献计量的大数据研究综述.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、基于文献计量的大数据研究综述 李贺 袁翠敏 李亚峰 吉林大学管理学院 摘 要: 本文通过检索 Web of Science 中有关大数据的论文, 采用文献计量分析法、可视化分析法和内容分析法等对文献进行梳理, 分析了该领域的研究现状和发展趋势, 并从大数据基本理论、大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点, 对未来研究进行展望。关键词: 大数据; Web of Science; 文献计量; 综述; 作者简介:李贺 (1964-) , 女, 吉林长春人, 教授、博士生导师, 主要从事知识管理、竞争情报分析、信息系统开发与设计研究.收稿日期:2013-12-10基金:国家科

2、技支撑计划 (课题编号:2013BAH21B05) A Review of Big Data Research Based on BibliometricsLI He YUAN Cui-min LI Ya-feng School of Management, Jilin University; Abstract: The paper analyzes related literatures in the field ofbig data retrieved from Web of Scienceusing methods of bibliometric analysis, visualizat

3、ion analysisand content analysis, and analyzes the research status and development trends. The paper shows the current research focus of big data from three angles: basic theory, technology of big data storage, analysis and processing, as well as big data applied research, and gives prospects of the

4、 future research.Keyword: big data; Web of Science; bibliometrics; review; Received: 2013-12-101 大数据概述1.1 大数据定义从学术角度来讲, 大数据一词最贴切的概念最早出现在 2008 年Nature杂志所设立的“Big Data”专刊中, 该专刊所发表的文章分别从互联网、数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战。自此以后, 大数据研究在各国兴起。2011 年 5 月, 大数据的概念由信息存储资讯科技公司 EMC (易安信) 在“云计算相遇大数据”大会正式提出。同年 6 月, IB

5、M 及麦肯锡等著名研究机构也相继发布大数据研究报告, 掀起了大数据研究的浪潮。然而, 各界对大数据的定义尚未统一。Gartner 结合其特征将大数据定义为数据量大、高运转速率和多样性的信息集合, 它需要新的处理形式以加强决策支持、深入发现和优化处理。我国学者孟小峰通过将大数据与数据库的概念进行对比, 并将两者分别比喻为“大海捕鱼”和“池塘捕鱼”, 从数据规模、数据类型、模式和数据的关系、处理对象以及处理工具几个方面分析了大数据这一概念, 较为准确、形象。总体上讲, 大数据不仅指数据量巨大, 且数据主要是以半结构化和非结构化形式存在, 数据产生模式和环境处于不断变化之中, 数据处理与数据环境密切

6、相关, 数据处理工具也多种多样。1.2 大数据的基本特征Gartner 在 2001 年发表的一份研究报告中, 从“Volume”、“Velocity”和“Variety”三个维度分析了数据增长带来的机遇与挑战。随后 Gartner 以及大多数其他产业沿用这一模型, 将大数据的基本特征描述为“3V”, 即数据量大 (volume) 、数据类型繁多 (variety) 、流动速度快 (velocity) 。随着大数据研究的不断深入, 一些组织在大数据基本特征描述中加入了价值密度低 (value) 和真实性 (veracity) 两个词。Gartner 的“3V”特征描述是目前最被认可的, 而“5

7、V”特征是对大数据特征最为全面的描述。2 数据来源与研究方法2.1 数据来源本文研究所选取的数据源为 Web of Science 数据库, 该数据库是国际上权威的大型综合性核心期刊引文索引数据库, 具有很高的查全率和权威性。本文分析研究的数据库选择了 Web of Science 数据库中的 Science Citation Index Expanded (SCI-EXPANDED) , Social Sciences Citation Index (SSCI) , Conference Proceedings Citation Index-Science (CPCI-S) 和 Confer

8、ence Proceedings Citation Index-Social Science时间跨度=所有年份;数据库=SCI-EXPANDED, SSCI, CPCI-S, CPCI-SSH;检索日期:2014 年 1 月 2 日。以此检索式进行检索得到 849 篇文献。2.2 研究方法本文研究主要采用文献计量分析方法和内容分析法, 并结合陈超美博士开发的可视化分析软件 Citespace 对检索得到的有关大数据的论文进行深入的分析研究。文献计量分析法是利用研究性论文发表的规律, 以数理统计等定量研究方法为基础, 客观评价不同国家、地区、科研机构或著者对某一领域的研究现状与发展历程。可视化分

9、析法则能更为直观地说明不同研究范畴间的内在联系, 从而科学有效地预测科学研究的发展动向与趋势。陈超美博士等于 2003 年所开发的可视化分析软件 Citespace 基于 Java 平台, 属于多元、分时、动态的第二代信息可视化技术, 该软件所绘制的科学知识图谱能显示一个学科或知识领域在一定时期发展的趋势, 有效把握研究前沿的演进历程。内容分析法是一种有效结合定性分析和定量分析的研究方法, 主要以研究对象的内容为切入点, 结合统计数据最终得出定性结论。将以上三种方法结合在一起, 对有关大数据的文献进行分析, 能客观科学地得到大数据研究现状及发展趋势等信息。3 数据分析3.1 年代分布利用文献计

10、量学方法分析某一研究领域发展历程时, 根据科技文献的增长及老化规律, 对相关论文发文量进行年度统计分析能够揭示当前该领域的发展状况, 预测其研究前景与发展趋势。在某一领域的研究初期, 由于相关理论与基础较为缺乏, 相关论文发文量较低, 随着研究深入, 进入该领域进行研究的学者、机构等增加, 发文量增长较快, 研究成熟后, 发文量趋于稳定。通过对 Web of Science 中检索得到的 849 篇有关大数据研究的文献进行年代分布分析, 统计得到表 1 所示结果。表 1 Web of Science 中大数据相关论文的年代分布表 下载原表 前面提到大数据最贴切的概念是 2008 年提出, 在下

11、表中 2008 年之前相关论文发表仅为 33 篇。经过分析, 这些论文中所提到的主要是“大数据集”“大数据组”“大的数据结构”等, 主要体现在数据量大, 但其数据量大小程度以及数据结构复杂程度远不及现在学术界所认同的大数据的概念。由图 1 可以看出2008 年以后, 尤其是 2012 年以来大数据研究越来越受重视, 论文发表增长较快, 成为当前研究热点。其中 2012 年 Web of Science 收录的论文中包含会议论文 162 篇, 占到总论文数的 65%以上, 到 2013 年会议论文数约为 170 篇, 说明大数据概念在学术会议和论坛中被广泛讨论与研究, 且取得较多研究成果。201

12、3 年期刊论文数则约占当年论文总数的一半, 说明大数据研究进入专业化、独立性的学科研究, 成果较为丰硕。这种变化, 不仅体现了学术界对大数据的重视, 与各国政府对大数据的投入与重点发展也有关系, 如 2012 年 3 月美国政府宣布“大数据的研究和发展计划”和我国设立大数据专项等。图 1 Web of Science 中大数据相关论文的年代分布曲线 下载原图综合上述分析, 大数据是当前的研究热点, 未来两年将有更多研究成果, 大数据有关的应用的研究也将更为深入。3.2 地域分布研究论文的地域分布, 能帮助研究人员认清当前在某一研究领域较为进步的国家和地区, 从而帮助研究人员认识本国该领域在国际

13、上所处的位置, 找到标杆国家, 从而进行更有效的学习研究。本文直接利用 Web of Science 中的检索结果分析工具进行地域分布分析, 整理汇总后得到表 2 和图 2 所示的结果。表 2 Web of Science 中大数据相关论文的地域分布表 下载原表 图 2 Web of Science 中大数据相关论文的地域分布图 下载原图结果显示当前在大数据研究领域中, 美国发文量为 363 篇, 约占总数的 43%, 处于世界顶尖水平, 是大数据研究的核心国家, 这与美国本身的科研实力是分不开的。中国在这一领域中论文发表量居于第二位, 但发文量不足美国的 1/3, 与美国差距还很大。英国和德

14、国水平相当, 但在当前大数据成为研究热点的条件下, 各国发文量都将有很大提升。在以后的研究中, 我国可以学习和借鉴美国在该领域中的研究方法和科研成果, 提升自身大数据分析、处理与应用能力。同时, 我国也应当充分了解学习英国、德国、加拿大等国在大数据研究中的经验, 集各家所长, 从而综合提升自身大数据研究水平。3.3 学科领域分布对文献进行学科领域分布分析, 能有效把握研究内容的侧重点, 发现核心研究内容。在对大数据相关论文进行学科分布研究时, 本文结合 Web of Science 中检索结果分析工具的研究方向和 Web of Science 类别这两项进行分析。文章选取了这两项中排名前十的结

15、果, 如表 3、表 4 所示。表 3 大数据相关论文的研究方向分布 下载原表 表 4 大数据相关论文的 Web of Science 类别分布 下载原表 通过对下表进行分析不难看出, 大数据相关论文的研究方向与论文所属 Web of Science 类别基本吻合, 主要集中在计算机科学、通信工程、物理学光学、情报学图书馆学、微生物应用技术等方面。结果表明, 当前大数据在这些学科领域发展较快。研究的核心主要是计算机科学、情报学图书馆学, 主要应用于通信、物理及生物等学科。大数据研究表现出显著的多学科性和学科融合特征。3.4 关键词词频统计和共现分析关键词是论文研究内容的高度提炼。通过对论文的关键

16、词词频进行统计和共现分析, 能有效得出当前该领域的研究热点。大数据作为新兴概念, 把握大数据研究热点和发展前沿, 对进行相关研究有着重要的指导意义。本文选用陈超美博士开发的可视化软件 Citespace 构建关键词聚类知识图谱。时间跨度选择2008 年到 2013 年。如图 3 所示, 按中心度排序前十的关键词及其中心度值与出现频次如下:big data (0.37, 194) 、future (0.35, 7) 、systems (0.27, 18) 、education (0.2, 7) 、cloud computing (0.19, 43) 、information society (0

17、.18, 3) 、simulator (0.17, 3) 、water (0.16, 3) 、collaboration (0.14, 4) 、design (0.14, 13) 、framework (0.14, 9) 。这些中心度值排名靠前的词与表 5 中所列的按词频排序的关键词并非完全相同, 但这基本反映了大数据研究的热点内容。作为研究主题, “big data”不论是中心度值排序还是关键词词频排序中都居首位。结合两种排序方法分析, “云计算”、“系统”、“协同”、“Map Reduce 模型”、“Hadoop 框架”和“模型”这几个关键词说明对大数据的研究主要以技术为主, 还涉及到大数

18、据的结构设计、绩效评估、可视化等。图 3 关键词聚类知识图谱 下载原图表 5 关键词词频统计 下载原表 Citespace 通过文献之间的引证关系, 发现研究领域的发展与演进轨迹。由图4 的研究前沿 Time-Zone 时区图可以看到大数据一词贯穿始终, 在近几年中先后在“模型”与“云计算”、“绩效”、“系统”和“Map Reduce”与“Hadoop”等方面分别有所侧图 4 研究前沿 Time-Zone 时区图 下载原图3.5 引文分析文献之间的引用关系反应了文献在内容或主题上的相通之处, 在很大程度上, 能说明被引用文献的学术价值及其对其他学术研究的影响。因而, 进行引文分析对确定权威文献

19、具有重要意义。大数据作为一个较新概念, 与上文研究相同, 本文仍选择 2008 年作为起始点进行研究, 以准确确定在大数据领域的核心和权威文献。在分析时, 本文利用 Web of Science 对检索结果创建的引文报告进行说明。图 5 反应了 2008-2013 年各年份的引文数, 体现出大数据研究热度逐年上升的特点, 与实际相符。表 6 则列举出大数据相关文献中被引频次前十位的文献。这十篇文献中有 3 篇是Nature杂志 2008 年在“Big Data”专刊中所发表的文章。被引频次最高的文献Big data:The future of biocuration发表在Nature中, 文章

20、提出大数据环境下生物文献数据结构化这一概念, 旨在结合数据结构化实现生物学信息规范化, 以便更好获取和利用这些数据及信息。被引频次排在第二位的文章是A Critical Review of the First 10 Years of Candidate Gene-by-Environment Interaction Research in Psychiatry, 以精神病学的文献研究得出结论, 指出在“大数据小影响”时代, 对开创性研究重新进行审视是必要的, 这将有效指导相关后续研究。Computational solutions to large-scale data management

21、and analysis指出基因组学中的数据量以低成本快速实时增长, 大规模的多位数据需要采用先进的信息技术进行处理, 该文章讨论了在不同的计算环境下, 如云计算和异构计算等, 如何成功解决大数据的问题。引文分析只是从一个侧面反映文献的重要程度, 而对新发表的有重要研究价值的文献不能及时有效地发掘出来, 想要更细致地进行研究, 应结合其他方法进行综合分析。图 5 2008-2013 年各年份引文数 下载原图3.6 主题分析结合上文的分析结果, 笔者又对大数据相关论文的内容进行了主题分析, 主要从以下三个方面对大数据研究进行梳理:大数据基本理论研究、大数据存储与分析处理技术研究和大数据应用研究。

22、3.6.1 大数据基本理论研究国内外学者对大数据基本理论的研究主要集中在大数据的起源与发展、大数据基本概念、大数据的特征以及大数据的基本架构和现实意义及影响等。Demchenko Y, Grosso P, de Laat C 等描述了大数据的本质、定义及其“5V”特征, 并说明了不同科研团体对大数据管理、获取控制和安全的需求情况, 重点描述了科学数据生命周期管理模型、科学数据结构如何被自然应用、使用基于非结构化的服务网络框架的现代云, 并对涉及大数据主要的非结构化因素的问题提出建议。Boyd D 和 Crawford K 从文化、技术、学术现象、数据分析等方面说明大数据这一概念出现所带来的影响

23、和意义。Zhang D 主要描述了大数据中知识内容的粒度和大数据分析应用的不一致性两个问题。Tien J M 将大数据描述为“不受束缚”的信息, 概述了大数据时代的数据采集、数据存取、数据分析和数据应用的基本理论及其改进方法。3.6.2 大数据存储与分析处理技术研究作为新的研究热点, 大数据的技术研究是建立在已有技术基础之上的, 包括云计算、网格计算、Hadoop、Mapreduce、数据挖掘聚类技术、社会化网络、分布式计算等。有关大数据存储与分析处理技术的研究性论文也是最多的, 主要是对技术和算法的改进与创新等。Liu Ling 对大数据处理的计算架构进行了综述, 着眼于有关大数据的文档构建

24、、存储和网络化带来的挑战, 简要介绍了计算框架的出现和改善数据并行机制、任务并行机制以及提升纵向横向计算并行机制的技术。本文则从以下技术层面对当前大数据的相关研究进行梳理。(1) 云计算。上文提及的技术中, 与大数据联系最为紧密的技术就是云计算, 这在前文的关键词分析中也有所体现。Ji C, Li Y, Qiu W 等首先从云数据管理和大数据处理机制的视角, 说明了大数据处理的关键问题, 包括云计算平台、云构建、云数据库和数据存储机制, 介绍了 Map Reduce 并行处理架构, 优化策略及应用, 最后讨论了开放问题和挑战, 深刻探究了在云计算环境下大数据处理的研究方向。Zhang X, L

25、iu C, Nepal S 等提出基于云的大数据隐私保护的大规模低成本框架, 利用基于云的 Map Reduce 来操纵匿名数据并管理匿名数据集, 从而改善数据加密和匿名两种方法在大数据时代不再完全适用的窘境。Cui W, Liu N, Dong Y 等提出基于云环境下大数据的聚类分析和数据分隔的创新型时序算法。云计算技术是大数据技术的基础, 将云计算与大数据有效结合, 对大数据研究至关重要。(2) Hadoop 和 Map Reduce 算法及其改进。Hadoop 是大数据处理常用的分布式系统基础架构, 它可靠且高效。作为一种编程模型, 主要用于大规模数据集并行运算。在大数据环境下, 对 M

26、ap Reduce 和 Hadoop 进行改进较为常见, 能有效提高数据处理效率的方法之一, 通常与云计算紧密结合。Zhao H, Yang S, Chen Z 等在 Map Reduce 系统中提出一种公平调度算法, 基于节点的单层多任务序列和数据局部性提出一种灵活任务调度策略。Lee J W 和 Kim S K 建立新的 Hadoop 模型以进行效能改善和并行处理。He Y 等在 Map Reduce 系统中提出名为 RCFile (记录圆柱形文件) 的大数据分布结构, 并将此系统应用到Facebook 和 Yahoo!的数据分析中。研究结果表明, Map Reduce 和 Hadoop

27、的使用及其改进能显著提高大数据环境下的数据处理的效率和效能, 取得了良好的效果。表 6 大数据相关文献中被引频次前十的文献 下载原表 (3) 数据挖掘聚类技术。在对大数据进行存储和分析时, 时间消耗和系统开销是巨大的挑战, 对大数据进行聚类将有效解决这一问题。Cui W, Liu N, Dong Y 等基于云环境引进聚类以改进算法, 根据不同节点间的传输成本将云节点划分为聚类, 然后选择一个聚类进行大数据分析服务, 实验结果证明了该时序算法的有效性。Yan W 等尝试通过使用并行 PIC 扩展 PIC 的数据规模, 进行大数据并行能力迭代聚类, 结果证明提出的 p-PIC 算法提升了数据和计算

28、资源的规模。Havens T C 等提出扩展模糊 C-均值聚类在大数据中的技术应用。(4) 其他技术。除上述数据存储和分析处理技术外, 还有将网格计算技术、分类算法等进行应用的方法;文献【26】汲取了 R 的机器学习和统计分析能力和Pig 的并行数据处理能力, 文献【27】构建了一个高效能和高可用性存档流系统, 采用集成方法来进行数据库聚类和快速恢复数据流存档;文献【28】对新型分布式 R 编程语言进行扩展从而实现大规模共同存档统计。大数据技术的应用与改进不是单一的, 而是对各种技术和方法的集成。通过技术融合, 使各种大数据技术在数据存储、分析处理与应用的不同阶段协同发挥作用, 最终实现大数据

29、环境下的信息服务。3.6.3 大数据应用研究大数据时代, 数据和信息来源于生活的方方面面, 从互联网、物联网到地理信息系统、遥感和数字城市等, 大数据的应用也十分广泛。大数据应用于生物医药领域, 例如对基因测序、基因测试进行研究, 大数据环境下的医药案例研究, 肾脏学、肾脏疾病研究, 以及社会医疗保健等;应用于社会网络方面进行智能手机日志挖掘;采用 Grid FTP 解决方案解决光谱学问题;将大数据大科学的概念应用到生态科学领域等。随着各国逐步将大数据提高到国家发展的战略高度, 大数据的发展与应用将会有更广阔的空间。4 研究结论与展望本文采用文献计量分析法、可视化分析法和内容分析法, 对 We

30、b of Science 中与大数据相关的论文进行分析得出以下结论:大数据作为当前研究的热点, 已取得了丰硕的研究成果, 且文献数量呈递增趋势, 研究热度越来越高;美国在大数据研究上处于顶尖水平, 是该领域的核心研究国家, 中国、英国和德国等研究处于较高水平, 但与美国差距较大;研究的核心主要是计算机科学、情报学图书馆、生物医药、通信及物理等学科, 有较为明显的学科交融性;大数据获取与分析处理技术的研究不断深入, 大数据与云计算、数据挖掘、社会网络等技术密不可分, 对 Map Reduce 框架和 Hadoop 模型的改进研究居多, 显著提高了数据处理效率;大数据应用十分广泛, 包括社会网络、

31、生物医药、疾病研究及许多其他相关领域, 随着技术的不断进步, 大数据应用将涉及更多的领域。然而, 大数据研究还面临许多的问题和挑战, 未来研究应主要围绕这些问题和挑战进一步展开。首先, 海量数据的成倍增长给数据存储能力和存储结构带来巨大的考验。当前数据存储能力不能满足数据增长对存储的潜在需求, 数据存储速度不及数据产生速度, 海量半结构化和非结构化数据实时产生。为了应对这些问题, 应设计专门的数据库和合理的分层存储架构, 提升数据存储能力, 优化存储结构。其次, 数据流动速率加快, 如何充分利用大数据的相关技术, 将云计算、Map Reduce、Hadoop 和数据挖掘等进行技术融合和优化集成

32、, 不断提升大数据时代的数据处理效率, 实时跟踪处理数据, 把握数据的时效性, 有效利用数据价值是今后的研究重点。再次, 大数据时代, 数据量的迅猛增长和数据源的复杂多样等原因造成数据的价值密度降低、数据的真实性难以分辨, 但从整体上讲, 有价值的数据总量增加, 对数据挖掘和利用是一个契机, 甄选数据源, 对数据的真实性、有效性和可用性进行合理判别, 并不断优化算法是研究重点之一。最后, 大数据时代, 信息安全和隐私更是不容忽视, 加强监管的同时, 优化现有的数据加密措施, 开发新的信息安全和保密技术刻不容缓。总之, 大数据研究应在现有基础上, 不断深入, 迎接更多更大的挑战。参考文献1 Na

33、ture.Big DataEB/OL.http:/ 2014-01-02. 2 Beyer M A, Laney D.The Importance ofBig Data:A DefinitionEB/OL.https:/ /importance-big-data-definition, 2014-01-02. 3 孟小峰, 慈祥.大数据管理:概念、技术与挑战J.计算机研究与发展, 2013, (1) :146-169. 4 Laney D.3D data management:Controlling data volume, velocity and varietyEB/OL.http:/ 2

34、014-01-02. 5 Beyer M.Gartner says solvingbig datachallenge involves more than just managing volumes of dataEB/OL.http:/ 2014-01-02. 6 陈超美, 陈悦, 侯剑华, 等.CiteSpace II:科学文献中新趋势与新动态的识别与可视化J.情报学报, 2009, 28 (3) :401-421. 7 Howe D, Costanzo M, Fey P, et al.Big data:The future of biocurationJ.Nature, 2008, 45

35、5 (7209) :47-50. 8 Duncan L E, Keller M C.A critical review of the first 10 years of candidate gene-by-environment interaction research in psychiatryJ.American Journal of Psychiatry, 2011, 168 (10) :1041-1049. 9 Schadt E E, Linderman M D, Sorenson J, et al.Computational solutions to large-scale data

36、 management and analysisJ.Nature Reviews Genetics, 2010, 11 (9) :647-657. 10 Demchenko Y, Grosso P, de Laat C, et al.Addressing big data issues in Scientific Data InfrastructureC/Collaboration Technologies and Systems (CTS) , 2013 International Conference on, UK:IEEE, 2013:48-55. 11 Boyd D, Crawford

37、 K.Critical questions for big data:Provocations for a cultural, technological, and scholarly phenomenonJ.Information, Communication&Society, 2012, 15 (5) :662-679. 12 Zhang D.Granularities and inconsistencies in big data analysisJ.International Journal of Software Engineering and Knowledge Engineeri

38、ng, 2013, 23 (6) :887-893. 13 Tien J M.Big data:Unleashing informationJ.Journal of Systems Science and Systems Engineering, 2013, 22 (2) :127-151. 14 Liu Ling.Computing infrastructure for big data processingJ.Frontiers of Computer Science, 2013, 7 (2) :165-170. 15 Ji C, Li Y, Qiu W, et al.Big data processing in cloud computing environmentsC/Pervasive Systems, Algorithms and Networks (ISPAN) , 2012 12th International Symposium on.IEEE, 2012:17-23. 16 Zhang X, Liu C, Nepal S, et al.SaCFRAPP:a scalable and costeffective framework for privacy preservation over big data on

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报