收藏 分享(赏)

基于数据挖掘的大数据管理模型研究.doc

上传人:无敌 文档编号:152450 上传时间:2018-03-22 格式:DOC 页数:6 大小:82KB
下载 相关 举报
基于数据挖掘的大数据管理模型研究.doc_第1页
第1页 / 共6页
基于数据挖掘的大数据管理模型研究.doc_第2页
第2页 / 共6页
基于数据挖掘的大数据管理模型研究.doc_第3页
第3页 / 共6页
基于数据挖掘的大数据管理模型研究.doc_第4页
第4页 / 共6页
基于数据挖掘的大数据管理模型研究.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、基于数据挖掘的大数据管理模型研究 吴晓英 明均仁 重庆科技学院图书馆 武汉工程大学管理学院 摘 要: 在大数据时代,数据量正在以极快的速度增长,有效管理这些庞大的复杂数据资源将成为大数据时代的主旋律。本文以数据挖掘技术为核心,构建了基于数据挖掘的大数据管理模型。该模型以 Hadoop 开源平台为支撑,利用 RDBMS 存储结构化数据、HDFS 存储非结构化与半结构化数据,基于混淆网络的关键词前向检索识别算法进行海量数据的特征检索与匹配,并在 Hive 平台下调用 Mahout 算法进行数据挖掘与分析,同时结合 Map Reduce 技术进行并行实时分析。通过实例分析得出,该模型能够有效地提高海

2、量数据分析的动态性、执行效率与智能水平,实现动态、一体化的数据采集、存储、分析及应用任务。关键词: 大数据; 管理模型; 数据挖掘; TRS 海贝大数据管理系统; 作者简介:吴晓英(1979-),女,湖北人,馆员,情报学硕士,主要从事信息资源管理研究.收稿日期:2014-01-29Research on the Big Data Management Model Based on Data MiningWU Xiao-ying MING Jun-ren Library of Chongqing University of Science School of Management, Wuhan

3、Institute of Technology; Abstract: In the era of big data, the volume of data to be analyzed grows rapidly. Complex data manage-ment effectively will become the main theme of the era of big data. In this paper, we took data mining tech-nologies as the core and constructed the big data management mod

4、el based on data mining. This model,supported by the Hadoop open-source platform, uses RDBMS to store structured data and use HDFS tostore unstructured and semi-structured data. It carries characteristics retrieval and matching of massivedata by means of keywords-forward searching recognition algori

5、thm based on confusion network. In addi-tion, it adopts Mahout algorithms in Hive platform to do data mining and analysis, and makes parallel re-al-time analysis combined Map Reduce technology. According to the case analysis, it could be concludedthat this model could effectively improve the dynamic

6、s, efficiency and intelligence level of massive dataanalysis, and then achieve dynamic, integrated data collection, storage, analysis and application tasks.Keyword: big data; management model; data mining; TRS hybase management system; Received: 2014-01-291 引言目前,随着前所未有的海量数据信息的聚集, 涉及大数据的研究主要体现在两方面:一是

7、大数据从商业行为上升为国家发展战略,如美国 2012 年月启动的“大数据研究和发展计划”;英国 22001111 年月启动的旨在获取“数据权”的“我的数据发展规划”。二是大数据处理与管理技术与方法的研究, 如覃熊派等、卓安、时念云等的研究。因此,以数据挖掘技术为基础,结合 Hadoop 平台进行海量数据的智能挖掘与高效管理、构建基于数据挖掘的大数据管理模型、实现海量数据采集、 分析、管理及应用的一体化处理,是应对大数据环境下大规模数据处理的可行途径。2 基于数据挖掘技术的大数据管理模型大数据既是数据量的激增(从最开始企业的 ERP/CRM 数据,逐步扩大到增加互联网数据,再到物联网、传感器等相

8、关数据),同时也是数据复杂性的提升。大数据的数据类型丰富多样,既有像原有的数据库数据等结构化数据,又有文本、视频等非结构化信息,而且数据的采集和处理速度要求也越来越快。其特征主要表现为 4V:一是 Volume,主要体现在数据存储量大和计算量大,大数据中的数据不再以 GB 或 TB 为单位进行衡量,而是以 PB、EB 或 ZB 为计量单位;二是 Variety,大数据中不但包含结构化的数据表和半结构化的文本、视频、图像等信息,而且数据之间的交互非常频繁和广泛;三是 Value,以视频为例,一部 1 小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒,如何通过强大的机器算法更迅速地完成数据

9、的价值“提纯” 成为目前大数据背景下亟待解决的难题;四是Ve-locity,不仅数据在不断更新、增长的速度快,而且数据存储、传输等处理速度也快。这些新特征使得目前的数据处理与管理模型呈现出很强的“二八定律”,即 80%的企业所产生的数据未被收集、存储和处理,80%的时间都用在数据的清洗、充实和匹配上,80%的分析结果没有价值,致使数据利用效率和水平低下。因此,本文将数据挖掘技术融入大数据处理与管理之中,结合 Hadoop 等开源技术进行海量数据的智能采集、分析、管理和高效利用,构建了基于数据挖掘的大数据管理模型,该模型架构如图 1 所示。图 1 基于数据挖掘的大数据管理模型架构图 下载原图该模

10、型主要由四部分组成:数据采集模块、数据存储模块、数据分析模块、数据应用模块组成。 各模块的主要功能描述如下:(1)数据采集模块。数据采集模块的采集对象主要包括四类数据:企业数据、机器数据、行业数据和社会化数据。其中,企业数据主要是指与企业经营相关联的数据集合,不仅包括传统的以文本形式存在的结构化数据,还包括社交网络、电子商务、 物联网等应用中的网络日志、音频/视频信息、地理位置等多类型的非结构化与半结构化数据;机器数据是指由机器设备的硬软件系统所产生的数据,是大数据中增长最快且所占比例最多的数据类型,涉及客户群体、交易情况、硬件设备等动作行为,如硬软件设备生产的信息、日志文件、交易记录、传感数

11、据等;行业数据是指政府机构对行业市场的调控信息、企业协会的规则制度、科研机构发布的研究成果及其它反映行业发展态势的动态数据信息;社会化数据是随着社会化媒体发展而产生的用户评论与分享的各类信息,具有高度的实时性和流动性。随着移动互联网和社交网络的快速发展,用户在社会化媒体上通过交流、购买、出售和其他日常生活活动中以免费的方式提供的大量微行为信息,蕴含着丰富的商业信息和市场价值。大数据环境下的海量数据不仅来源广泛,结构类型复杂,而且数据预处理与格式转换开销大,致使传统的数据采集方法的利用效率偏低,无法满足大规模数据的采集需求。针对这种情况,该模块根据数据存在的方式, 采用三种采集方法进行数据采集。

12、第一种方式是针对系统日志数据的采集,利用分布式架构的采集方法和工具进行 MB/s 的数据采集与传输,如利用 Hadoop 的Chukwa 工具 、Cloudera 的 Flume 工具 、 Facebook 的 Scribe 工具等;第二种方式是针对网络非结构化和半结构化数据,利用网站公开的 API 或网络爬虫进行原始网页抓取,再利用网页解析工具进行解析后提取数据;第三种方式是针对结构化数据,利用数据库导入工具或特定系统接口的方式进行采集。(2)数据存储模块。数据存储模块的主要功能是将数据采集模块的采集结果进行高效存储,并提高系统的容错性。大数据时代的海量数据致使传统的数据存储方法和数据库技术

13、无法有效处理这些数据信息,企业在存储能力上的建设步伐跟不上数据增长的速度,即使投入上百台服务器也难以满足企业日益增长的数据存储需求。考虑到这种情况,本文模型采用分布式的存储架构来解决该问题,通过分布式架构提升数据的存储能力及数据吞吐量,通过在不同分布节点上的备份提高系统的容错能力。在大数据领域,常用的分布式存储技术有 Google 的 GFS 技术和 Hadoop 的 HDFS 技术。HDFS 技术是 GFS 技术的开源实现方式,二次开发比较容易获取,其存储原理如图 2 所示。图 2 HDFS 存储原理 下载原图(3)数据分析模块。数据分析模块是模型的核心模块,其主要功能是进行基于Hadoop

14、 平台的数据挖掘与分析。其中,数据分析工作主要包括两部分内容:一是数据特征检索与匹配;二是在 Hive 平台上调用 Mahout 中的海量数据挖掘算法进行并行计算,获取大量数据间隐含的知识模式。在数据特征检索与匹配的过程中,采用基于混淆网络的关键词前向检索识别算法进行海量数据的特征检索与匹配:假设给定一个以词片序列表示的关键词集合 QM=q1qmqM(M 是关键词 QM中的词片个数),一个词片混淆矩阵 SCM,一个表示成混淆类序列的前向索引SN=s1snsN,N 是前向索引中混淆类的数目,前向检索所构建的搜索空间及匹配过程如图 3 所示。图 3 基于混淆网络的关键词前向检索识别算法示意图 下载

15、原图前向搜索算法就是将关键词音节序列与混淆类序列从 s1到 sN逐个动态匹配的过程。由于在混淆网络的生成过程中,存在着很多的“NULL”边,因此,搜索关键词的过程是一个典型的动态规划问题。假设在混淆类 sn处的最优匹配关键词词片序列为:q 1d2q2dmqmdMqM,其中,d m是在 qm前面存在的 “NULL”边数。令 R(QM, n)为 QM的平均匹配得分,定义如下:其中,G(m, n)为 QM在 qm处的累积得分,计算公式如下:其中,p(q m|sn, O)为后验概率得分, 为调节因子,P conf(m, n)是根据混淆矩阵计算出来的 qm与 Sn混淆度。通过上述处理后,调用 Mahou

16、t 算法库中的数据挖掘算法,在 Hive 平台下执行基于 Hadoop 的分布式数据挖掘与分析,如利用关联挖掘技术进行跨业务平台数据的整合分析与关联,实现基于关联的数据驱动的战略决策;利用文本挖掘技术进行客户关系管理与客户知识管理,增强客户的品牌忠诚度及减少客户流失概率;利用动态数据挖掘技术进行海量数据的实时分析等,全面提高数据分析的速度与效率。(4)数据应用模块。数据应用模块的主要功能是将数据分析模块的分析结果应用到国家及企业实践中,提升国家及企业的战略决策能力和创新能力,实现基于大数据的知识服务,即在对大数据的处理与分析、管理的过程中实现对数据、知识、资源、服务和过程等的知识服务配置和整合

17、能力的实时化、动态化,体现知识服务实体或机构完成相应行业、领域、任务及预期目标的服务水平。该模型以数据挖掘技术为核心,以 Hadoop 开源平台为支撑,融合多种数据采集方法和工具进行海量数据的高效采集和全面采集,提高了数据采集的效率与覆盖率;利用 RDBMS 存储结构化数据、 HDFS 存储非结构化与半结构化数据,提高了数据存储的效率与可靠性;利用基于混淆网络的关键词前向检索识别算法进行海量数据的特征检索与匹配,并在 Hive 平台下调用 Mahout 算法进行数据挖掘与分析,同时结合 Map Reduce 技术进行并行实时分析,提高数据分析的动态性、执行效率与智能水平, 实现一体化的数据采集

18、、存储、分析、应用过程。3 案例分析为了更进一步说明本文模型的实用性和有效性,本文选择大数据分析与管理领域比较成功的 TRS 海贝大数据管理系统(TRS Hybase Managemen System)进行说明和论证。TRS 海贝大数据管理系统是拓尔思公司为满足大数据环境下的海量数据处理需求而设计的平台级产品,其核心是以数据挖掘为基础,无缝整合 Ha doop 平台和HDFS 技术进行 PB 级数据的挖掘与分析、管理工作,其体系结构如图 4 所示。图 4 TRS 海贝大数据管理系统体系结构图 下载原图在该体系结构中,其核心是面向移动互联网、 电子商务、物联网等领域的 TRS机器数据挖掘引擎,以

19、实现大数据环境下的机器数据采集、存储、检索、分析等应用需求,其架构如图 5 所示。图 5 TRS 机器数据挖掘引擎架构图 下载原图通过图 4、图 5 可以看出,TRS 海贝大数据管理系统以数据挖掘技术为核心。TRS将机器数据挖掘引擎作为整个系统架构的核心模块,通过无缝整合 Hadoop 平台、HDFS 分布式存储技术、Map Reduce 并行技术方法进行数据处理与分析能力的扩展,实现基于 Hadoop 平台的数据挖掘与分析,提高海量数据采集、分析与管理的实时性与动态性。4 结语大数据是当前信息化的前沿领域,其技术变革的巨大力量以及商业实践中的神奇魅力吸引众多领域专家学者的青睐。本文根据国内外最新的研究成果为基础,构建了基于数据挖掘技术的大数据管理模型,并以 TRS 海贝大数据管理系统为例来论证模型的可行性与合理性。研究表明,结合数据挖掘等高新技术进行大数据的采集、分析、管理与应用,是提高数据开发与利用的关键,也是提升人类处理数据的智能性、动态性的可行途径,更是适应大数据时代海量数据处理的必由之路,必将成为大数据时代数据管理的主旋律。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报