1、基于 Hadoop 的地质大数据融合与挖掘技术框架 朱月琴 谭永杰 张建通 毛波 沈婕 汲超飞 中国地质调查局发展研究中心 国土资源部地质信息技术重点实验室 中国交通通讯信息中心 南京财经大学 南京师范大学 中国矿业大学(北京) 摘 要: 地质领域数据量大,且种类多样。实现高效的多源异构地质数据的融合与挖掘,是研究地质作用机理,展开地质考察研究的重要手段。然而目前普遍存在着数据条块分割,格式各异,难以实现有效的共享与互操作。为此,本文提出了一种基于Hadoop 的地质大数据融合与挖掘技术框架,该框架包括统一的地质大数据采集与预处理方法,基于元数据索引的存储与管理平台,基于 Map/Reduce
2、 的地质大数据并行化计算模式与系统,面向可重用的地质大数据挖掘服务,以及支持在线三维展示的地质大数据分析结果可视化系统。该框架具有良好的实用性与可扩展性。本文在 5 个节点的测试系统上实现了多元素关联性分析,并取得了相对应单台机器 3 部的加速可比性。关键词: 地质大数据; Hadoop; 融合; 挖掘; 收稿日期:2015-11-15A Framework of Hadoop based Geology Big Data Fusion and Mining TechnologiesZHU Yueqin TAN Yongjie ZHANG Jiantong MAO Bo SHEN Jie JI
3、 Chaofei Development Research Center of China Geological Survey; China Transport Telecommunications Nanjing University of Finance Nanjing Normal University; China University of Mining and Technology(Beijing); Abstract: Geology studies requiremount of data in various types.It is important to implemen
4、t high efficiency fusion and mining methods for the big data in geology.These methods will promote the research on the geology mechanism and geological exploration.However,the existing methods are divided by different data type,format and coverage,so it is difficult to share the methods among differ
5、ent datasets.Therefore,in this paper,we propose a Hadoop based geology big data fusion and mining framework.This framework contains a unified data gathering and preprocess methods,a Meta data index based storage and management platform,a Map/Reduce based data mining system and a reusability oriented
6、 geology services to support such as 3Donline visualization and other applications.The proposed framework can be easily extend and the preliminary demo shows the efficiency of the proposed framework.Keyword: geology big data; Hadoop; fusion; mining; Received: 2015-11-151 引言地质大数据 1,2既是战略资源,也是经济社会发展的基
7、础资源,地质大数据开发利用具有重大的经济与社会效益。然而目前,地质数据的存储、共享、复用还停留在较低水平。因此有必要研究地质大数据技术,减少多文件、多时期、多源(手段)、多类型地质资料数据面向服务的整理建库工作量,实现地质资料和文献的智能化服务,提高地质资料数据的服务效率和水平,推进地质资料的二次开发利用,最大限度地发挥地质资料的潜在效益和价值,社会与经济效益巨大;同时,大数据技术在地质方面的研究也处于起步阶段,本文将为构建面向大数据的地质调查信息化建设总体框架提供技术支持。地质大数据应用 3能够充分利用已有基础设施、投入少、总能耗低,有利于提升经济效益。地质数据资料存储技术的改进,将改善传统
8、地质资料保存方式,并为更智能的服务提供可能。地质大数据处理分析挖掘技术,能够促进“数字地球”、“智慧地球”等科学计划 4的开展。进一步提升资源整合程度,推动地质知识社会化服务不断向纵深发展。基于大数据平台的地质知识服务能够建立统一有效的资源检索平台,完成覆盖地质数据整合、发布及检索工作,能够使地质信息资源内容展示的程度进一步加深、资源之间的内部联系更加一目了然,为管理、决策、科研提供快捷的知识获取服务。本文成果将为地质矿产调查评价中工程化应用大数据技术提供技术路线,并将支撑建立我国国家级地质数据平台,为地质行业提供示范性应用。2 相关研究2.1 大数据技术随着 Internet 的迅猛发展,把
9、传统软件作为产品的销售模式目前已经被广泛接受,软件作为一种服务形式提供给客户的需求逐渐增加 5。美国 Esri 公司在云GIS 研究方面走在了最前端,是全球第一家真正支持云架构 GIS 平台产品的厂商,通过支持 VMware 虚拟化技术,已经在 VCE 公司的 Vblock 私有云平台上成功测试了Arc Server,实现了 GIS 平台在云中的部署和服务模式,通过 Amazon EC2 向世界各地的公司提供 Arc Server 服务。2012 年投放市场的 ArcServer10.1 的设计和构架完全支持云部署,并且经过私有云服务、亚马逊 EC2 和微软 Windows Azure 的测试
10、和验证。欧洲环境总署(EEA)是欧盟国家中第一个将其网络制图服务迁移到云端的机构,EEA 开始利用 Esri 公司的 ArcGIS Sever 和 ArcGIS.com将 SEIS 地图服务迁移到云端。OneGeology 是第一个可公开访问的世界性地质数据共享站点,OneGeology 是利用传统和云 GIS 技术这种混合云模式的例子。其服务构架包括一些分散在世界各地的服务器,可通过 GIS 站点技术进行访问。北京超图公司发布了全球首套支持云计算的 64 位 Service GIS 平台软件产品SuperMap GIS 6R,以及超图地理信息云服务平台,支持虚拟化、跨平台、64 位CPU、二
11、三维一体化。武汉中地数码的 MapGIS 云平台采用了悬浮式体系架构,是具备适用于云计算、云服务的 GIS 体系架构,也即将步入云时代,能很好地屏蔽异构平台在体系架构和操作上的差异,方便快捷地在各种硬件平台的终端上快速部署各类 GIS 空间信息应用。其他还有高德云图、天下图的“天下图云”等。目前的云 GIS 平台多依赖于技术提供商,难以进行大规模的定制与重用,因此需要研究开源大数据框架。Hadoop 是大数据应用最广泛的开源分布式文件存储及处理框架 6。Hadoop 是Apache 软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括 Hadoop 核心模块、HDFS 与 MapR
12、educe。Hadoop 被定位为一个易于使用的平台,以 HDFS、MapReduce 为基础,能够运行上千台 PCServer 组成的系统集群,并以一种可靠、容错的方式分布式处理请求。其中,HDFS 是 Hadoop 分布式文件系统(Hadoop distributed file system)的缩写,为分布式计算存储提供了底层支持。采用 Java 语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。MapReduce 是由 Google 在一篇论文中提出并广为流传的。它最早是 Google 提出的一个软件架构,用于大规模数据集群分布式运算。任务的分解(Map)与
13、结果的汇总(Reduce)是其主要思想。Map 就是将一个任务分解成多个任务,Reduce 就是对分解后的多任务分别进行处理,并将结果汇总为最终结果。MapReduce 有众多的成功案例,获得业界广泛的支持和肯定,但随着分布式系统集群规模和工作负荷的增长,原框架的问题逐渐浮出水面,从业界使用分布式系统的变化趋势和 Hadoop 框架的长远发展来看,MapReduce 的JobTracker/TaskTracker 机制需要大规模的调整来修复在可扩展性、内存消耗、线程模型、可靠性和性能上的缺陷。在过去的几年中,Hadoop 开发团队作了一些 bug 修复,但是最近这些修复的成本越来越高,这表明对
14、原框架作出改变的难度越来越大。为从根本上解决原 MapReduce 框架性能瓶颈,促进 Hadoop 框架更长远发展,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构。新的Hadoop MapReduce 框架命名为 MapReduce V2 或 Yarn7。2.2 大数据存储关键技术大数据索引和查询技术是实现有效的大数据存储与管理的主要技术 8,传统的索引和查询技术虽然不能很好地解决大数据带来的挑战,但核心技术,如哈希索引、B 树索引、位图索引和 R 树索引、倒排索引等依然是大数据索引和查询的基石。分布式索引可以解决单个节点无法存储庞大的索引数据,以及单个节点构
15、建索引的效率瓶颈。当前切分数据的方式有随机方法、哈希方法和区间方法 9。分布式索引对应分布式查询,所有节点或部分节点的查询结果由主节点(主从架构)或者查询节点(点对点架构)进行汇总得到结果。分布式数据库系统支持 SQL 查询,NoSQL 产品类型和功能各异,有的仅支持主键查询,有的支持范围查询,有的还支持有限的 JOIN,全文检索系统的查询语法灵活,但通常不知道 JOIN 或有限支持JOIN。目前,各大数据库厂商,如 Oracle、IBM、Greenplum 都已经有支持分布式索引和查询的产品,很多 NoSQL 数据库,如 Mongodb、HBase、Cassandra 也支持分布式索引和查询
16、,很多面向全文检索的产品,如Solr、ElasticSearch、Sphinx,均支持分布式全文索引和查询 10,而且这些产品都是开源的,其中 Greenplum 的 GPText 将 Solr 的全文检索能力引入Greenplum 数据库之中,使得可以同时支持 SQL 和 Solr 的全文检索。2.3 地质大数据融合与挖掘技术中文自动分词语技术是重要的地质资料与地质文献智能分析挖掘的预处理技术11。从技术类型上分,自动分词包括基于字符串匹配的分词方法(如机械分词法和词表分词法)、基于理解的分词方法和基于统计的分词方法 3 种。北京航空航天大学 1983 年的 CDWS 是我国第一个实用的自动
17、分词系统,此后的各个时期,分别由山西大学、北京航天航空大学、清华大学、复旦大学、哈工大、杭州大学、微软、北京大学、中国科学院等不同机构开发了一些比较著名的、有代表性的分词系统。中国科学院计算技术研究所研制的中文词法分析系统实际使用的分词系统都是把使用词表的机械分词作为一种初分手段,再利用其他的词类信息来进一步提高切分的准确率,包括未登录词的识别。而歧义切分和未登录词识别,则是分词技术的难点,也是现阶段所有自动分词算法热点问题。在真实文本中未登录词对分词精度的影响超过了歧义切分,未登录词的处理在实用型分词系统中至关重要。自动标引技术。首次开展了文献自动标引试验,国外自 20 世纪 50 年代起自
18、动标引的发展一直没有停止,理论和方法层出不穷。但在 20 世纪 50 至 90 年代由于计算机的处理性能迅猛发展,自动标引进展速度却是逐渐放缓的,直至网络经济的兴起,自动标引又重新成为了研究热点、进展迅速,并且也逐步扩大到自动摘要、文档分类、文本聚类、文本分析、主题检索等领域 12。21 世纪初,根据Bagging 算法思想,Hulth 提出了以集成学习为根基的关键词自动提取方法。李素建引入了数学上的最大炮模型,实现了关键词提取最大熵模型的方法。随后,张阔提出了 SVM(support vector machine)自动标引模型。2006 年,张庆国等提出的海量数据集上的基于特征组合的关键词自
19、动提取方法。2007 年,ERCAN G.与 CICEKL I 提出基于词汇链的自动标引方法。章成志、苏新宁 13等于 2008 年,根据条件随机场(conditional random fields,CRF)这一概率图模型,得出了 CRF这一自动标引模型。汉语文献自动标引的历史可以上溯至 20 世纪 60 年代,到80 年代则发展到实用阶段,国内的上海交通大学、中国软件技术开发总公司、北京航空航天大学、北京大学等单位都先后建立了各自的试验性汉语文献自动标引系统。自动文摘技术 14的研究与自动分类技术一样,始于 20 世纪 50 年代末,IBM 公司的 Luhn 首次设计了一个自动文摘系统。进
20、入 20 世纪 90 年代以来,随着Internet 的发展,自动文摘的价值充分显露出来,引起了世人的极大关注,越来越多的学者纷纷开始从认知心理学、情报科学、计算语言学等各个方面展开研究,提出了实现自动文摘的新思路和新方法,自动文摘的研究进入了前所未有的繁荣期,研究的系统更趋 10 大规模和实用化。涌现出了很多研究小组,著名的如MITHE 公司的 Inderjeet Mani 和 Eric Bloedom,卡奈基梅隆大学的 Jade Goldstein 和 Jaime Carbonell 等人。国内学者们于 20 世纪 80 年代开展中文文献自动文摘方面的研究。1988 年“汉语文献自动编制文
21、摘试验系统 SJTUCAA“已能达到 90%以上文摘句比较令人满意的程度。在对 SJTUCAA 系统改进的基础上,1992 年又开发出一个新的中文文献的自动摘要模型系统 CAES。近两年来,从事这项研究的单位不断增加,包括上海交通大学、哈尔滨工业大学、北京邮电大学、山西大学以及杭州大学等。2.4 大数据可视化技术计算机科学领域的可视分析(visual analytics) 14概念提出于 2004 年 910月,2005 年,一个由跨学科领域专家组成的国际团队共同定义了这个崭新的学科方向可视分析,即“通过交互可视界面来进行分析、推理和决策的科学”,从此,可视分析的方法与目标都获得了前所未有的扩
22、展,涉及科学与其他领域的不同类型、形态、大小及领域的数据及其应用。由于超大规模数据革命性地改变着我们的工作生活,研究者们开始寻找有关大数据问题的可视分析解决方案。2004 年美国国土安全部为了应对恐怖袭击,成立了国家可视分析中心(NVAC)。欧洲成立了一个联合战略协同计划(http:www.vismaster.eu/)。国际上,特别是美国、德国、英国和日本已经将可视分析学列为重点研究方向,IEEE 和Eurograph 协会分别设立 IEEE VAST 和 EuroVAST 两个年度国际会议。美国的一些科研机构如美国国家可视分析中心、太平洋国家实验室、斯坦福大学、乔治亚理工大学、普度大学等,已
23、经投入大量人力和物力进行探索性研究。如今超大规模可视分析应用通常结合了用于计算的高性能计算机群、处理数据存储与管理的高性能数据库组件及云端服务器和提供人机交互界面的桌面计算机。本项目的目标就是解决 PB 级数据的可视分析问题。地质资料与数据最经典的应用场景就是面对图件的可视分析。伴随着地质调查工作推进,积累了大量的地质资料与数据,这些资料与数据包括各专业领域和多手段探测成果,为了满足实际需求,需要采用可视分析技术来解释、分析和应用这些资料与数据。三维可视化是大数据可视化的一个重要发展方向 15,16,由于大数据的复杂性,有必要采用三维手段充分展示数据的特性。目前三维显示主要基于 OpenGL
24、或DirectX 等三维开发包实现,同时硬件厂商也能提供针对通用开发包的驱动支持,然而随着网络特别是移动互联网技术的发展,基于浏览器的三维可视化成为重要趋势。目前浏览器已经可以支持 WebGL 等 HTML5 的新特性,从而实现较为高效的三维可视化。本文采用 HTML5 技术,实现了一个基于浏览器的地质大数据可视化平台。3 地质大数据处理框架由于地质数据种类多样,数据量庞大,传统关系型数据库难以满足对于多源异构地质数据的集成分析,因此,需要研究新型云计算平台,提高地质数据分析挖掘的速度与可扩展性。本节首先介绍现有地质数据的类型与基本情况,然后提出并介绍统一的基于 Hadoop 的地质大数据框架
25、。3.1 地质数据概况本项目的研究对象包括全国地质资料馆的多种地质数据,全国地质图书馆的各种文献和地质图件数据、全国矿产资源评价数据、中国地质调查局网格平台沉淀数据。全国地质资料馆保管的地质资料是我国重要的地质历史档案。目前,馆藏资料12 万 8 千种,电子数据 10 万种,电子文件约 400 万件,电子数据文件总数约 6259万个。中国地质图书馆馆藏文献量已达 70 多万卷(册),包括近代地质学启蒙时期以来近 200 年的国内外地学文献;世界各国地质图件 1 万余套;有近 30 个大型文献数据库,3000 万条文献信息数据;与 60 多个国家和地区的近 400 个地学机构建立了文献交换及互借
26、业务联系 17。该部分数据主要以文本、栅格图像数据为主。全国矿产数据。全国矿产资源潜力评价工作至今已实施了 8 年(20062013),完成了我国非油气重要矿产煤炭、铀、铁、铜、铝、铅、锌、锰、镍、钨、锡、钾、金、铬、钼、锑、稀土、银、硼、锂、磷、硫、萤石、菱镁矿、重晶石等矿种的资源潜力预测评价,圈定各矿产最小预测区 49 202 个,定量评价了各矿种500m 以浅、1km 以浅和 2km 以浅潜在资源量,基本摸清 25 个矿产资源潜力及其空间。随着“全国矿产资源潜力评价”项目已经接近尾声,国家财政先后投入达10 多亿元,形成的电子资料达近 5 亿兆字节。本文将研究这些数据的融合挖掘,实现这些
27、数据的动态更新、快速检索、安全共享、高效科学计算与逼真可视化等工作,为潜力评价成果集成、成矿远景区划、矿产资源调查评价与管理等工作提供技术支撑。该部分数据以矢量数据为主,同时包括栅格与文本数据。中国地质调查信息网格平台沉淀了两个 863 计划项目的核心技术,实现网格环境下分布式海量异构空间数据的集成与管理。经过近 10 年的建设,形成了包括主节点(位于承担单位)、大区节点专业节点和省级节点的 24 个网格结点和体系,已成为国内最大的行业网格之一 18-20。通过多年积累,中国地质图书馆形成了一套与知识组织有关的理论和加工规范,相继形成了地质学汉语叙词表等成果。中国地学文献库及检索系统的建设为开
28、展同现词网络等提供了必要的数据基础和技术条件平台。3.2 地质大数据处理框架本文所提出的地质大数据处理框架如图 1 所示,主要包括:地质大数据收集与预处理研究、地质大数据存储与管理研究、地质大数据计算模式与系统研究、地质大数据分析挖掘及可视化技术研究。地质大数据采集与预处理方面,需要面向地质数据、地质资料、地学文献等,归纳地质大数据来源与产生方式;总结地质大数据结构与类型;总结地质大数据采集获取方式;研究地质大数据质量与可用性特点;探索地质大数据实体识别模型;研究整理地质大数据高质量整合方法;探索地质大数据演化跟踪记录的溯源管理方式。地质大数据存储与管理方面,需要面向地质数据、地质资料、地学文
29、献等,研究分布式文件系统应用特点,包括集中式、分布式、无元数据管理的比较,随着数据规模增大和复杂度增加系统扩展方式,针对地质应用和负载优化存储以实现数据存储与应用耦合方式,分布式文件系统与新型存储系统耦合方式等;研究分布式数据库应用特点,包括新型事务型数据库 NoSQL 和 NewSQL 在地质调查工作中的应用分析,分析型数据库在地质调查工作中的应用分析;研究各种新型访问接口与查询语言在地质调查领域应用前景;研究整理可应用于地质大数据分布式索引与查询的软件的特点;研究整理可用于地质资料及地学文献全文检索的软件的特点。地质大数据计算模式和系统方面,需要面向地质数据、地质资料、地学文献等,研究地质
30、大数据典型处理的计算模式分类;研究整理适用于不同计算模式的典型系统的特点。地质大数据分析与挖掘方面,需要面向地质数据、地质资料、地学文献等,研究分析当前国内外机器学习和统计分析软件在地质大数据环境下的实用性;分析地质大数据环境下实时分析与挖掘的需求;探索地质大数据环境下分析与挖掘系统的基准测试方案;研究地质大数据智能挖掘的目标及可行性。地质大数据可视分析方面,需要面向地质数据、地质资料、地学文献等,研究地质大数据并行可视化方案;研究地质大数据可视分析中人机交互特点;研究地质大数据可视分析的系统要求。3.3 基于 Hadoop 的地质大数据融合挖掘框架地质大数据融合挖掘平台研究是在中国地质调查数
31、据网的基础上,利用 Hadoop技术完善和改造已有平台,使之适合大数据应用,为试点应用提供平台。地质调查网格平台按照虚拟层、计算层、终端应用层的 3 层云架构进行升级。虚拟层是基于 HDFS 虚拟化技术实现计算机资源的虚拟化,是支持云计算、云服务的基础。中间层即计算层,主要利用 map/reduce 方法,实现对于地质大数据的分析算法。目前地质大数据主要采用分块计算的方式,利用 Hadoop 特性,实现并行分析,从而加快地质数据分析处理速度。终端应用层设计为结果展示,并接收用户反馈,从而提高系统可用性。Hadoop 中的 HDFS 系统是 Google GFS 存储系统的开源实现,其 HDFS
32、 采用master/slave 架构。一个 HDFS 集群是由一个 Namenode 和一定数目的 Datanode组成。Namenode 是一个中心服务器,负责管理文件系统的 namespace 和客户端对文件的访问。Datanode 在集群中一般是一个节点一个,负责管理节点上附带的存储。在内部,一个文件其实分成一个或多个 block,这些 block 存储在Datanode 集合里由于地质数据的特性,绝大部分可以实现分块处理,因此 Hadoop 框架中的Map/Reduce 编程模式十分适合。具体而言,map/reduce 模式的主要思想是将自动分割要执行的问题(例如程序)拆解成 map(
33、映射)和 reduce(化简)的方式。在数据被分割后通过 Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过 Reduce 函数的程序将结果汇整,从而输出需要的结果。MapReduce 借鉴了函数式程序设计语言的设计思想,其软件实现是指定一个 Map函数,把键值对(key/value)映射成新的键值对(key/value),形成一系列中间结果形式的 key/value 对,然后把它们传给 Reduce(规约)函数,把具有相同中间形式 key 的 value 合并在一起。Map 和 Reduce 函数具有一定的关联性。通过将经典的地质挖掘算法转换为 Map
34、/Reduce 程序,可以大幅提高地质数据挖掘的速度。此外本文还利用 Hadoop 中的 Hive 模块,实现了对于地质大数据的结构化查询功能,支持 SQL 语言的并行查询。Hive 模块可以将用户的统计需求从 SQL 直接映射为 Map/Reduce 任务,从而降低程序开发难度。4 试验与分析本文利用 Linux ubantu14.04 系统搭建了一个由 5 个节点组成的 Hadoop 系统,其中包括 1 个主节点与 4 个子节点,其中 HDFS 系统部署在这 5 台机器的集群上,配置信息如图 2 所示。对地球化学数据的处理分析,研究多元素之间的关联性,区别于传统的相关性分析法,从形态学角度
35、进行了研究,提出了基于 Map/Reduce 的形态学相关分析法。图 3 展示了元素之间形态相关性情况。从图中可以看出,Mn、Co、Be 3 种元素在形态分布上比较相似,因此从定性角度来看,相关性较高。经过测试,本文所提出的原型系统的运行速度是现有普通运算平台速度的 3 倍以上,显示出地质大数据是适用于 Hadoop 平台的。5 结论本文提出了一种基于 Hadoop 的地质大数据融合挖掘框架,该框架采用 HDFS 技术实现多源异构地质文件的存储,并通过 MapReduce 实现对现有分析算法的并行化改造,所获取的结果通过 Hive 平台提供快速查询。并在此基础上,实现了地质大数据的可视化呈现,
36、为地质大数据的广泛使用提供了基础。同时,本文还分析了现有地质大数据的种类,数据的获取方式以及地质大数据的应用场景。最后通过一个原型系统,验证了所提分析框架的可实现性,并作了初步的应用测试,效果显示所提出的框架具有较好的可扩展性,能够实现地质大数据的融合挖掘任务。今后,将在完善现有平台、扩充服务器数量的基础上,研究其他通用大数据平台,如 spark 等架构,并分析深度学习技术在地质领域的应用前景,实现测试原型,从而丰富地质大数据的处理方法,并为地质应用提供支持。参考文献1ZHAO Pengda.Digital Geological Era of Big DataM.Xin Jiang:China
37、 Mathematics Geology,2013. 2赵鹏大.大数据时代数字找矿与定量评价J.地质通报,2015,34(7):1255-1259.ZHAO Pengda.Digital Mineral Exploration and Quantitative Evaluation in the Big Data AgeJ.Geological Bulletin of China,2015,34(7):1255-1259. 3郑啸,李景朝,王翔,等.大数据背景下的国家地质信息服务系统建设J.地质通报,2015,34(7):1316-1322.ZHENG Xiao,Li Jingchao,Wan
38、g Xiang,et al.Construction of the National Geological Information Service System in the Age of Big DataJ.Geological Bulletin of China,2015,34(7):1316-1322. 4郭华东,王力哲,陈方,等.科学大数据与数字地球J.科学通报,2014,59(12):1047-1054.GUO Huadong,WANG Lizhe,Chen Fang,et al.Scientific big data and digital EarthJ.Chinese Scien
39、ce Bulletin,2014,59(12):1047-1054. 5郭建忠,谢耕,成毅,等.网格 GIS 与云 GIS 辨析J.测绘科学技术学报,2014,31(2):111-114.GUO Jianzhong,XIE Geng,CHENG Yi,et al.The Analysis of Grid GIS and Cloud GISJ.Journal of Geomatics Science and Technology,2014,31(2):111-114. 6高志鹏,牛琨,刘杰.面向大数据的分析技术J.北京邮电大学学报,2015,38(3):1-12.GAO Zhipeng,NIU
40、Kun,LIU Jie.Analytics Towards Big DataJ.Journal of Beijing University of Posts and Telecommunications,2015,38(3):1-12. 7靳永超,吴怀谷.基于 Storm 和 Hadoop 的大数据处理架构的研究J.现代计算机,2015(2):9-12.Jin Yongchao,WU Huaigu.Research on the Big Data Process Framework Based on Storm and HadoopJ.Modern Computer,2015(2):9-12.
41、 8李婧,陈建平,陈翔.地质大数据存储技术J.地质通报,2015,34(8):1589-1594.LI Jing,CHEN Jianping,CHEN Xiang.A Study of the Storage Technology of Geological Big DataJ.Geological Bulletin of China,2015,34(8):1589-1594. 9邱均平,马力.大数据时代索引与数据库事业的发展与创新J.中国索引,2013,11(4):27-33.QIU Junping,MA Li.Development and Innovation of Index and
42、Database in Big Data EraJ.Journal of the China Society of Indexers,2013,11(4):27-33. 10刘迁,贾慧波.中文信息处理中自动分词技术的研究与展望J.计算机工程与应用,2006,42(3):175-177,182.LIU Qian,JIA Huibo.A View of Chinese Word Automatic Segmentation Research in the Chinese Information DisposalJ.Computer Engineering and Applications,2006
43、,42(3):175-177,182. 11BUITELAAR P,CIMIANO P,GROBELNIK M.Ontology Learning from TextCThe ECMI/PKDD Workshop on Knowledge Discovery and Ontologies(KDO-2005).Porto,Portugal:s.n.,2005. 12章成志,苏新宁.面向信息检索的词汇知识发现J.现代图书情报技术,2007(1):10-14.ZHANG Chengzhi,SU Xinning.Lexical Knowledge Discovery for Information RetrievalJ.New Technology of Library and Information Service,2007(1):10-14.