收藏 分享(赏)

大数据技术综述.doc

上传人:tangtianxu1 文档编号:3235437 上传时间:2018-10-08 格式:DOC 页数:20 大小:4.89MB
下载 相关 举报
大数据技术综述.doc_第1页
第1页 / 共20页
大数据技术综述.doc_第2页
第2页 / 共20页
大数据技术综述.doc_第3页
第3页 / 共20页
大数据技术综述.doc_第4页
第4页 / 共20页
大数据技术综述.doc_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、大数据技术综述 Abstract: We are entering into a “big data” era. Due to the bottlenecks, such as poor scalability, installation and maintenance difficulties, fault tolerance and low performance, in traditional information technique framework, we need to leverage the cloud computing techniques and solutions

2、to deal with big data problems. Cloud computing and big data are complementary to each other and have inherent connection of dialectical unity. The breakthrough of big data techniques will not only resolve the current situation, but also promote the wide application of cloud computing and the intern

3、et of things techniques. We focus on discussing the development and the pivotal techniques of big data. And provide a comprehensive description of big data from several perspectives, including the development of big data, the current data-burst situation, the relationship between big data and cloud

4、computing and the big data techniques. Finally, we introduce the related technique researches and our current work.Key words: big data technique; cloud computing; data acquisition; data storage; data computation; presentation and interaction摘 要: 我们正在进入一个“ 大数据 ”时代,传统的信息技术架构,存在着扩展性差、容错性差、性能低、安装部署及维护困难

5、等诸多瓶颈,需要以现代云计算手段和技术来解决大数据问题.云计算与大数据是相辅相成、辨证统一的关系,大数据技术的突破不仅能解决现实困难,同时也会促使云计算、物联网技术真正落地并深入推广和应用.针对大数据的发展历程以及关键性的大数据技术进行探讨,从大数据的发展历程、当前面临的大数据问题、大数据与云计算的关系以及大数据技术等方面进行综合描述.归纳总结相关的技术研究和我们的研究成果.关键词: 大数据技术;云计算;数据采集;数据存储;数据计算;展现与交互中图法分类号: TP301 文献标识码: A1 大数据的发展背景及定义当今,信息技术为人类步入智能社会开启了大门,带动了互联网、物联网、电子商务、现代物

6、流、网络金融等现代服务业发展,催生了车联网、智能电网、新能源、智能交通、智能城市、高端装备制造等新兴产业发展.现代信息技术正成为各行各业运营和发展的引擎.但这个引擎正面临着大数据这个巨大的考验 57.各种业务数据正以几何级数的形式爆发 1,其格式、收集、储存、检索、分析、应用等诸多问题,不再能以传统的信息处理技术加以解决,对人类实现数字社会、网络社会和智能社会带来了极大的障碍.纽约证券交易所每天产生 1TB 的交易数据;Twitter 每天就会生成超过 7TB 的数据;Facebook 每天会产生超过 10TB 的数据;位于欧洲粒子物理实验室的大型强子对撞机每年产生约 15PB 的数据.根据著

7、名咨询公司 IDC 的调查与统计,07 年全球信息量约为 165EB,即使在全球遭遇金融危机的 2009 年,全球信息量仍达到 800EB,比上一年度增长 62%;未来每隔 18 个月,整个世界的数据总量就会翻倍;预计 2020 年这一数字将达到 35ZB,约为 2007 年的 230 倍,而人类历史 5000 年的文字记载只有5EB 数据.上述统计与调查预示着 TB、PB、EB 的时代已经成为过去,全球将正式进入数据存储的“泽它(Zetta)时代”.从 2009 年开始,“大数据” 成为互联网信息技术行业的流行词汇 ,大数据起初成熟应用多在互联网行业,互联网上的数据每年增长 50%,每两年翻

8、一番 ,全球互联网企业都意识到“ 大数据”时代的来临,数据对于企业有着重要意义.2011 年 5 月,麦肯锡全球研究院发布题为大数据:创新、竞争和生产力的下一个新领域 2的报告.报告发布2 后,“大数据” 迅速成为计算机行业的热门概念.2012 年 4 月美国奥巴马政府推出”大数据研究和发展倡议” 3,并划拨2 亿美元的专项资金之后,在全球掀起了一股大数据的热潮.根据 Wikibon 2011 年发布的大数据报告 4,大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将高达 500 亿美元.2012 年初,大数据相关软件、硬件和服务的收入总和只有约 50 亿美元.但随着企业逐渐认识到

9、大数据和相关分析将形成新的差异化竞争优势,提升运营效率,大数据相关技术和服务将获得长足发展,大数据将逐渐落地,并在未来五年保持 58%的惊人复合增长速度.投资银行 JMP Securities 分析师 Greg McDowell 则表示大数据工具市场预计将在 10 年内由去年的 90 亿美元增长至 860 亿美元.到 2020 年,企业在大数据工具方面的投资将占整体企业 IT 开支的 11%.目前,业界对大数据还没有一个统一的定义,常见的大数据定义如下:“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合.”麦肯锡.“大数据是指无法在一定时间内用常规软件工具对

10、其内容迚行抓取、管理和处理的数据集.”维基百科“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产.”-Gartner大数据具备 Volume、Velocity、Variety 和 Value 四个特征 47(简称为 “4V”,即数据体量巨大、处理速度快、数据类型繁多和价值密度低),下面对每个特征分别作简要描述 .Volume:表示大数据的数据量巨大.数据集合的规模不断扩大,已从 GB 到 TB 再到 PB 级,甚至开始以 EB 和ZB 来计数.比如一个中型城市的视频监控头每天就能产生几十 TB 的数据.Variety:表示大数据的类型复杂.

11、以往我们产生或者处理的数据类型较为单一,大部分是结构化数据.而如今,社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生大量半结构化或者非结构化数据,如XML、邮件、博客、即时消息等,导致了新数据类型的剧增.企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据.随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类型无以计数,包括:文本、微博、传感器数据、音频、视频、点击流、日志文件等.Velocity:数据产生、处理和分析的速度持续在加快 ,数据流量大.加速的原因是数据创建的实时性天性,以及需要将流数据结合到业务流程和决策过程中的要求.数据处理速度快

12、,处理能力从批处理转向流处理.业界对大数据的处理能力有一个称谓“1 秒定律 ”,也就充分说明了大数据的处理能力,体现出它与传统的数据挖掘技术有着本质的区别;Value:大数据由于体量不断加大,单位数据的价值密度在不断降低 ,然而数据的整体价值在提高.有人甚至将大数据等同于黄金和石油,表示大数据当中蕴含了无限的商业价值.根据 IDC 调研报告中预测,大数据技术与服务市场将从 2010 年的 32 亿美元攀升至 2015 年的 169 亿美元,实现年增长率达 40%,并且将会是整个 IT 与通信产业增长率的 7 倍.通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润.大数据处理技

13、术在具体的应用方面,可以为国家支柱企业的数据分析和处理提供技术和平台支持,为企业进行数据分析、处理、挖掘,提取出重要的信息和知识,再转化为有用的模型,应用到研究、生产、运营和销售过程中.同时,国家大力倡导“ 智慧城市” 建设 ,在城市化与信息化融合等背景下 ,围绕改善民生、增强企业竞争力、促进城市可持续发展等关注点,综合利用物联网、云计算等信息技术手段,结合城市现有信息化基础,融合先进的城市运营服务理念,建立广泛覆盖和深度互联的城市信息网络,对城市的资源、环境、基础设施、产业等多方面要素进行全面感知,并整合构建协同共享的城市信息平台,对信息进行智能处理利用,从而为城市运行和资源配置提供智能响应

14、控制,为政府社会管理和公共服务提供智能决策依据及手段,为企业和个人提供智能信息资源及开放式信息应用平台的综合性区域信息化发展过程.数据无疑是新型信息技术服务和科学研究的基石,而大数据处理技术理所当然地成为当今信息技术发展的核心热点,大数据处理技术的蓬勃发展也预示着又一次信息技术革命的到来.另一方面,随着国家经济结构调整、产业升级的不断深化,信息处理技术的作用将日益凸显,而大数据处理技术无疑将成为在国民经济支柱产业信息化建设中实现核心技术的弯道追赶、跟随发展、应用突破、减少绑架的最佳突破点 16.赵勇 等:大数据技术综述 32 大数据问题大数据因为它所蕴含的潜在价值,正在成为企业的隐形“金矿”.

15、 随着生产、运营、管理、监控、销售、客服等各个环节的数据不断累积和增长,以及用户数的不断上升,通过从庞大的数据中分析出相关模式以及趋势,可以实现高效管理、精准营销,成为企业打开这一“金矿” 的钥匙.然而传统的 IT 基础架构和数据管理分析方法已经不能适应大数据的快速增长.大数据的爆发是我们在信息化和社会发展中遇到的棘手问题,需要我们采用新的数据管理模式,研究和发展新一代的信息技术才能解决.我们把大数据问题归纳为表 1 中所列 7 类:Table 1 Problems of big data表 1 大数据问题大数据问题分类 大数据问题描述导入导出问题统计分析问题检索查询问题速度方面的问题实时响应

16、问题多源问题异构问题种类及架构问题原系统的底层架构问题线性扩展问题体量及灵活性问题动态调度问题大机与小型服务器的成本对比成本问题原有系统改造的成本把控数据分析与挖掘问题价值挖掘问题数据挖掘后的实际增效问题结构与非结构数据安全存储及安全问题隐私安全数据标准与接口共享协议互联互通与数据共享问题访问权限2.1 速度方面的问题传统的关系型数据库管理系统(RDBMS)一般都是集中式的存储和处理 ,没有采用分布式架构,在很多大型企业中的配置往往都是基于 IOE(IBM 服务器,Oracle 数据库,EMC 存储). 在这种典型配置中单台服务器的配置通常都很高,可以多达几十个 CPU 核,内存也能达到上百

17、GB;数据库的存储放在高速大容量的磁阵上,存储空间可达 TB 级.这种配置对于传统的信息管理系统(MIS)需求来说是可以满足需求的,然而面对不断增长的数据量和动态数据使用场景,这种集中式的处理方式就日益成为瓶颈,尤其是在速度响应方面捉襟见肘.在面对大数据量的导入导出、统计分析、检索查询方面,由于依赖于集中式的数据存储和索引,性能随着数据量的增长而急速下降,对于需要实时响应的统计及查询场景更是无能为力.比如在物联网中,传感器的数据可以多达几十亿条,对这些数据需要进行实时入库、查询及分析,传统的 RDBMS 就不再适合应用需求.2.2 种类及架构问题 RDMBS 对于结构化的、固定模式的数据,已经

18、形成了相当成熟的存储、查询、统计处理方式.随着物联网、互联网以及移动通信网络的飞速发展,数据的格式及种类在不断变化和发展.在智能交通领域,所涉及的数据可能包含文本、日志、图片、视频、矢量地图等来自不同数据采集监控源的,不同种类的数据.这些数据的格式通常都不是固定的,如果采用结构化的存储模式将很难应对不断变化的需求.因此对于这些种类各异的多源异构数据,需要采用不同的数据和存储处理模式,结合结构化和非结构化数据存储.在整体的数据管理模式和架构上,也需要采用新型4 的分布式文件系统及分布式 NoSQL 数据库架构,才能适应大数据量及变化的结构.2.3 体量及灵活性问题如前所述,大数据由于总体的体量巨

19、大,采用集中式的存储,在速度、响应方面都存在问题.当数据量越来越大,并发读写量也越来越大时,集中式的文件系统或单数据库操作将成为致命的性能瓶颈,毕竟单台机器的承受压力是有限的.我们可以采用线性扩展的架构和方式,把数据的压力分散到很多台机器上,直到可以承受,这样就可以根据数据量和并发量来动态增加和减少文件或数据库服务器,实现线性扩展.在数据的存储方面,需要采用分布式可扩展的架构,比如大家所熟知的 Hadoop 文件系统 25,和 HBase 数据库27.同时在数据的处理方面,也需要采用分布式的架构,把数据处理任务,分配到很多计算节点上,同时还需考虑数据存放节点和计算节点之间的位置相关性.在计算领

20、域中,资源分配,任务的分配实际上是一个任务调度问题.其主要任务是根据当前集群中各个节点上面的资源(包括 CPU、内存、存储空间和网络资源等)的占用情况,和各个用户作业服务质量要求,在资源和作业或者任务之间做出最优的匹配.由于用户对作业服务质量的要求是多样化的,同时资源的状态也在不断变化,因此,为分布式数据处理找到合适的资源是一个动态调度问题.2.4 成本问题集中式的数据存储和处理,在硬件软件选型时,基本采用的方式都是配置相当高的大型机或小型机服务器,以及访问速度快、保障性高的磁盘阵列,来保障数据处理性能.这些硬件设备都非常昂贵,动辄高达数百万元,同时软件也经常是国外大厂商如 Oracle,IB

21、M,SAP,微软等的产品,对于服务器及数据库的维护也需要专业技术人员 ,投入及运维成本很高.在面对海量数据处理的挑战时,这些厂商也推出了形似庞然大物的“一体机”解决方案,如 Oracle 的Exadata,SAP 的 Hana 等,通过把多服务器、大规模内存、闪存、高速网络等硬件进行堆叠 ,来缓解数据压力,然而在硬件成本上,更是大幅跳高,一般的企业很难承受.新型的分布式存储架构、分布式数据库如 HDFS,HBase,Cassandra28,MongoDB29等由于大多采用去中心化的、海量并行处理 MPP 架构,在数据处理上不存在集中处理和汇总的瓶颈,同时具备线性扩展能力,能有效地应对大数据的存

22、储和处理问题.在软件架构上,也都实现了一些自管理、自恢复的机制,以面对大规模节点中容易出现的偶发故障,保障系统整体的健壮性,因此对每个节点的硬件配置,要求并不高,甚至可以使用普通的 PC 作为服务器,因此在服务器成本上可以大大节省,在软件方面开源软件也占据非常大的价格优势.当然,在谈及成本问题时,我们不能简单地进行硬件软件的成本对比.要把原有的系统及应用迁移到新的分布式架构上,从底层平台到上层应用都需要做很大的调整.尤其是在数据库模式以及应用编程接口方面,新型的 NoSQL数据库与原来的 RDBMS 存在较大的差别,企业需要评估迁移及开发成本、周期及风险.除此之外,还需考虑服务、培训、运维方面

23、的成本.但在总体趋势上,随着这些新型数据架构及产品的逐渐成熟与完善,以及一些商业运营公司基于开源基础为企业提供专业的数据库开发及咨询服务,新型的分布式、可扩展数据库模式必将在大数据浪潮中胜出,从成本到性能方面完胜传统的集中式大机模式.2.5 价值挖掘问题大数据由于体量巨大,同时又在不断增长,因此单位数据的价值密度在不断降低.但同时大数据的整体价值在不断提高,大数据被类比为石油和黄金,因此从中可以发掘巨大的商业价值 54.要从海量数据中找到潜藏的模式,需要进行深度的数据挖掘和分析.大数据挖掘与传统的数据挖掘模式也存在较大的区别:传统的数据挖掘一般数据量较小,算法相对复杂,收敛速度慢.然而大数据的

24、数据量巨大,在对数据的存储、清洗、ETL(抽取、转换、加载)方面都需要能够应对大数据量的需求和挑战,在很大程度上需要采用分布式并行处理的方式,比如 Google,微软的搜索引擎,在对用户的搜索日志进行归档存储时,就需要多达几百台甚至上千台服务器同步工作,才能应付全球上亿用户的搜索行为.同时,在对数据进行挖掘时,也需要改造传统数据挖掘算法以及底层处理架构,同样采用并行处理的方式才能对海量数据进行快速计算分析.Apache 的 Mahout30项目就提供了一系列数据挖掘算法的并行实现.在很多应用场景中,甚至需要挖掘的结果能够实时反馈回来,这对系统提出了很大的挑战,因为数据挖掘算法通常需要较长的时间

25、,尤其是在大数据量的情况下,在这种情形下,可能需要结合大批量的离线处理和实时计算才可能满足需求.赵勇 等:大数据技术综述 5数据挖掘的实际增效也是我们在进行大数据价值挖掘之前需要仔细评估的问题.并不见得所有的数据挖掘计划都能得到理想的结果.首先需要保障数据本身的真实性和全面性,如果所采集的信息本身噪音较大,或者一些关键性的数据没有被包含进来,那么所挖掘出来的价值规律也就大打折扣.其次也要考虑价值挖掘的成本和收益,如果对挖掘项目投入的人力物力、硬件软件平台耗资巨大,项目周期也较长,而挖掘出来的信息对于企业生产决策、成本效益等方面的贡献不大,那么片面地相信和依赖数据挖掘的威力,也是不切实际和得不偿

26、失的.2.6 存储及安全问题在大数据的存储及安全保障方面,大数据由于存在格式多变、体量巨大的特点,也带来了很多挑战.针对结构化数据,关系型数据库管理系统 RDBMS 经过几十年的发展,已经形成了一套完善的存储、访问、安全与备份控制体系.由于大数据的巨大体量,也对传统 RDBMS 造成了冲击,如前所述,集中式的数据存储和处理也在转向分布式并行处理.大数据更多的时候是非结构化数据,因此也衍生了许多分布式文件存储系统,分布式 NoSQL 数据库等来应对这类数据.然而这些新兴系统,在用户管理、数据访问权限、备份机制、安全控制等各方面还需进一步完善.安全问题,如果简而言之,一是要保障数据不丢失,对海量的

27、结构、非结构化数据,需要有合理的备份冗余机制,在任何情况下数据不能丢.二是要保障数据不被非法访问和窃取,只有对数据有访问权限的用户,才能看到数据,拿到数据.由于大量的非结构化数据可能需要不同的存储和访问机制,因此要形成对多源、多类型数据的统一安全访问控制机制,还是亟待解决的问题.大数据由于将更多更敏感的数据汇集在一起,对潜在攻击者的吸引力更大;若攻击者成功实施一次攻击,将能得到更多的信息,“ 性价比” 更高,这些都使得大数据更易成为被攻击的目标.LinkedIn 在 2012 年被曝 650 万用户账户密码泄露;雅虎遭到网络攻击,致使 45 万用户 ID 泄露.2011 年 12 月,CSDN

28、 的安全系统遭到黑客攻击,600 万用户的登录名、密码及邮箱遭到泄漏.与大数据紧密相关的还有隐私问题.由于物联网技术和互联网技术的飞速发展,与我们工作生活相关各类信息都被采集和存储下来,我们随时暴露在“第三只眼” 下面.不管我们是在上网、打电话、发微博、微信,还是在购物、旅游,我们的行为都在随时被监控分析.对用户行为的深入分析和建模,可以更好地服务用户,实施精准营销,然而如果信息泄露或被滥用,则会直接侵犯到用户的隐私,对用户形成恶劣的影响,甚至带来生命财产的损失.2006 年,美国DVD 租赁商 Netflix 公司举办了一个算法竞赛.该公司公布了大约来自 50 万用户的一亿条租赁记录,并且公

29、开悬赏100 万美金,举办一个软件设计大赛来提高他们的电影推荐系统的准确度,胜利的条件是把准确度提高 10%.尽管该公司对数据进行了精心的匿名化处理,还是被一个用户认出来了,一个化名“无名氏”的未出柜的同性恋母亲起诉了Netflix 公司,她来自保守的美国中西部.在美国的微博网站 T 上面,很多用户习惯随时发布他们的位置和动态信息,结果有几家网站,如“PleaseRobM”-请来抢劫我,“WeKnowYourH”-我知道你的家,能够根据用户所发的信息,推测出用户不在家的时间,找到用户的准确家庭住址,甚至把房子的照片都能找出来.他们的做法旨在提醒大家我们随时暴露在公众视线下,如果不培养安全和隐私

30、意识,将会给自身带来灾难.目前世界的很多国家,包括中国,都在完善与数据使用及隐私相关的法律,来保护隐私信息不被滥用.2.7 互联互通与数据共享问题在我国的企业信息化建设过程中,普遍存在条块分割和信息孤岛的现象.不同行业之间的系统与数据几乎没有交集,同一行业,比如交通、社保系统内部等,也是按行政领域进行划分建设,跨区域的信息交互和协同非常困难.严重的甚至在同一单位内,比如一些医院的信息系统建设,病历管理、病床信息、药品管理等子系统都是分立建设的,没有实现信息共享和互通.“智慧城市 ”是我国十二五信息化建设的重点 ,而智慧城市的根本,是要实现信息的互联互通和数据共享,基于数据融合实现智能化的电子政

31、务、社会化管理和民生改善.因此在城市数字化的基础上,还需实现互联化,打通各行各业的数据接口,实现互联互通,在此之上才能实现智慧化.比如在城市应急管理方面,就需要交通、人口、公安、消防、医疗卫生等各个方面的数据和协助.当前美国联邦政府建立的数据共享平台www.data.gov,我国北京市政府数据资源网()等都是朝着数据开放、数据共享的有力的尝试.为实现跨行业的数据整合,需要制定统一的数据标准、交换接口以及共享协议,这样不同行业、不同部门、不同格式的数据才能基于一个统一的基础进行访问、交换和共享.对于数据访问,还需制定细致的访问权限,规定什么样的用户在什么样的场景下,可以访问什么类型的数据.在大数

32、据及云计算时代,不同行业、企业的数据可能存放在6 统一的平台和数据中心之上,需要对一些敏感信息进行保护,比如涉及到企业商业机密及交易信息方面的数据,虽然是依托平台来进行处理,但是除了企业自身的授权人员之外,要保证平台管理员以及其他企业都不能访问此类数据.3 大数据与云计算的辩证关系云计算技术自 2007 年以来取得了蓬勃的发展.云计算的核心模式是大规模分布式计算,将计算、存储、网络等资源以服务的模式提供给多用户,按需使用 5.云计算为企业和用户提供高可扩展性、高可用性和高可靠性,提高资源使用效率,降低企业信息化建设、投入和维护成本.随着美国亚马逊、Google、以及微软公司提供的公共云服务的不

33、断成熟与完善,越来越多的企业正在朝着云计算平台上迁移.由于国家的战略规划需要以及积极引导,云计算及技术在我国近几年来取得了长足的发展.我国设立了北京、上海、深圳、杭州、无锡作为第一批云计算示范城市,北京的“祥云”计划,上海的“云海” 计划,深圳的“云计算国际联合实验室”,无锡的 “元云计算项目 ”,以及杭州的“西湖云计算公共服务平台 ”也先后启动和上线,其他城市如天津、广州、武汉、西安、重庆、成都等也都推出了相应的云计算发展计划或成立了云计算联盟,积极开展云计算的研究开发和产业试点.然而中国云计算的普及在很大程度上仍然局限在基础设施的建设方面,缺乏规模性的行业应用,没有真正实现云计算的落地.究

34、其原因,物联网及云计算技术的全面普及是我们的美好愿景,能够实现信息采集、信息处理,以及信息应用的规模化、泛在化、协同化.然而其应用的前提是大部分行业、企业在信息化建设方面已经具备良好的基础和经验,有着迫切的需求去改造现有系统架构,提高现有系统的效率.而现实情况是我们的大部分中小企业在信息化建设方面还才刚刚起步,只有一些大型企业和国家部委在信息化建设方面具备基础.大数据的爆发则是社会和行业信息化发展中遇到的棘手问题.由于数据流量和体量增长迅速,数据格式存在多源异构的特点,而我们对数据处理又要求能够准确实时,能够帮助我们发掘出大体量数据中潜在的价值.传统的信息技术架构,已无法处理大数据问题,存在着

35、扩展性差、容错性差、性能低、安装部署及维护困难等诸多瓶颈.由于物联网、互联网、移动通信网络技术在近些年来的迅猛发展,造成数据产生和传输的频度和速度都大大加快,催生了大数据问题,而数据的二次开发,深度循环利用则让大数据问题日益突出.我们认为云计算与大数据是相辅相成、辨证统一的关系.云计算、物联网技术的广泛应用是我们的愿景,而大数据的爆发则是发展中遇到的棘手问题;前者是人类文明追求的梦想,后者是社会发展亟待解决的瓶颈;云计算是技术发展趋势,大数据是现代信息社会飞速发展的必然现象.解决大数据问题,又需要以现代云计算的手段和技术.大数据技术的突破不仅能解决现实困难,同时也会促使云计算、物联网技术真正落

36、地并深入推广和应用.从现代 IT技术的发展中,我们能总结出几个规律:(1) 大型机与个人 PC 之争,以个人 PC 完胜为终局.苹果 iOS 和 Android 之争,开放的 Android 平台在 2-3 年内即抢占了 1/3 的市场份额.Nokia 的塞班操作系统因为不开放,现在处于淘汰边缘.这些都体现了现代 IT 技术需要本着开放、众包的观念,才能取得长足发展.(2) 现有的常规技术同云计算技术的碰撞与之相类似,云计算技术的优势在于利用众包理论和开源体系,建设基于开放平台和开源新技术的分布式架构之上,能够解决现有集中式的大机处理方式难以解决或不能解决的问题.像淘宝、腾讯等大型互联网公司也

37、曾经依赖于 Sun,Oracle,EMC 这样的大公司专有解决方案,后来都因为成本太贵而采用开源技术,自身的产品最终也贡献给开源界,也反映了信息技术发展的趋势.(3) 传统行业巨头已经向开源体系倾斜,这是利于追赶的历史机遇.传统的行业巨头、大型央企如国家电网、电信、银行、民航等因为历史原因过度依赖外企成熟的专有方案,造成创新性不足,被外企产品绑架的格局.从破解问题的方案路径上分析,解决大数据问题,必须逐渐放弃传统信息技术架构,利用以“云”技术为代表的新一代信息技术来解决大数据问题.尽管先进的云计算技术主要还是发源于美国,但是基于开源基础,我们与发达技术的差距并不大,将云计算技术应用于大型行业中

38、的迫切的大数据问题,也是我们实现创新突破、打破垄断、追赶国际先进技术的历史契机.赵勇 等:大数据技术综述 74 大数据技术大数据带来的不仅是机遇,同时也是挑战.传统的数据处理手段已经无法满足大数据的海量实时需求,需要采用新一代的信息技术来应对大数据的爆发.我们把大数据技术归纳为五大类,如表 2 中所示.Table 2 Classification of big data techniques表 2 大数据技术分类大数据技术分类 大数据技术与工具云计算平台云存储虚拟化技术网络技术基础架构支持资源监控技术数据总线数据采集ETL 工具分布式文件系统关系型数据库NoSQL 技术关系型数据库与非关系型数

39、据库融合数据存储内存数据库数据查询、统计与分析数据预测与挖掘图谱处理数据计算BI 商业智能图形与报表可视化工具展现与交互增强现实技术基础架构支持. 主要包括为支撑大数据处理的基础架构级数据中心管理、云计算平台、云存储设备及技术、网络技术、资源监控等技术.大数据处理需要拥有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑.数据采集技术. 数据采集技术是数据处理的必备条件,首先需要有数据采集的手段,把信息收集上来,才能应用上层的数据处理技术.数据采集除了各类传感设备等硬件软件设施之外,主要涉及到的是数据的 ETL(采集、转换、加载) 过程,能对数据进行清洗、过滤、校验、转换等各

40、种预处理,将有效的数据转换成适合的格式和类型.同时,为了支持多源异构的数据采集和存储访问,还需设计企业的数据总线,方便企业各个应用和服务之间数据的交换和共享.数据存储技术. 数据经过采集和转换之后,需要存储归档.针对海量的大数据,一般可以采用分布式文件系统和分布式数据库的存储方式,把数据分布到多个存储节点上,同时还需提供备份、安全、访问接口及协议等机制.数据计算. 我们把与数据查询、统计、分析、预测、挖掘、图谱处理、BI 商业智能等各项相关的技术统称为数据计算技术.数据计算技术涵盖数据处理的方方面面,也是大数据技术的核心.数据展现与交互. 数据展现与交互在大数据技术中也至关重要,因为数据最终需

41、要为人们所使用,为生产、运营、规划提供决策支持.选择恰当的、生动直观的展示方式能够帮助我们更好地理解数据及其内涵和关联关系,也能够更有效地解释和运用数据,发挥其价值.在展现方式上,除了传统的报表、图形之外,我们还可以结合现代化的可视化工具及人机交互手段,甚至是基于最新的如 Google 眼镜等增强现实手段,来实现数据与现实的无缝接口.4.1 基础架构支持大数据处理需要拥有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑.云计算管理平台能为大型数据中心及企业提供灵活高效的部署、运行和管理环境,通过虚拟化技术支持异构的底层硬件8 及操作系统,为应用提供安全、高性能、高可扩展、高

42、可靠和高伸缩性的云资源管理解决方案,降低应用系统开发、部署、运行和维护的成本,提高资源使用效率.作为新兴的计算模式,云计算在学术界和业界获得巨大的发展动力.政府、研究机构和行业领跑者正在积极的尝试应用云计算来解决网络时代日益增长的计算和存储问题.除了亚马逊的 AWS、Google 的 App Engine 和Microsoft 的 Windows Azure Services 等商业云平台之外,还有一些如 OpenNebula67、Eucalyptus 12、Nimbus 9、和 OpenStack8等开源的云计算平台,每个平台都有其显著的特点和不断发展的社区.亚马逊的 AWS 可以说是当前最

43、主流的云计算平台,2013 年上半年其平台及云计算服务等收入 17 亿美元,同比增长 60%.其系统架构最大的特点就是通过 Web Service 接口开放数据和功能 ,并通过 SOA 的架构使系统达到松耦合.AWS 提供的 Web Service 栈可分为四层:1) 访问层:提供管理控制台,API 和各种命令行等2) 通用服务层:包括身份认证、监控、部署和自动化等3) PaaS 层服务:包括并行处理、内容传输和消息服务等4) IaaS 层服务 :包括云计算平台 EC2、云存储服务 S3/EBS、网络服务 VPC/ELB、数据库服务等Eucalyptus 是试图克隆 AWS 的开源云计算平台

44、,实现了类似 Amazon EC2 的功能,用来通过计算集群或工作站群实现弹性的、使用的云计算.它提供了与 EC2 和存储系统 S3 的接口兼容性.使用这些接口的应用可以直接与Eucalyptus 进行交互 ,支持 Xen10和 KVM11虚拟技术,还有用于系统管理和用户结算的云管理工具.Eucalyptus 包含五个主要组件,分别为云控制器 CLC、云存储服务 Walrus、集群控制器 CC、存储控制器 SC 和节点控制器NC.Eucalyptus 通过 Agent 的方式来管理计算资源,组件能相互协作共同提供所需的云服务.OpenNebula 是 2005 年欧洲研究学会发起的虚拟基础设备

45、和云端运算计划的虚拟化管理层的开源实现.它是一个用来创建 IaaS 私有云、公有云和混合云的开源工具,同时还是一个可以实现多种不同云架构并和多种数据中心服务进行交互的模块化系统.OpenNebula 集成了存储、网络、虚拟化、监测和安全技术,可以根据分配策略,以虚拟机形式在分布式基础设施上部署多层次服务.OpenNebula 分为三层,即接口层、核心层和驱动层.1) 接口层提供原生的 XML-RPC 接口,同时实现了 EC2、OCCI(开放云计算接口)和 OpenNebula Cloud API(OCA)等多种 API,为用户访问提供了多种选择.2) 核心层提供统一的插件管理、请求管理、VM

46、生命周期管理、Hypervisor 管理、网络资源管理和存储资源管理等核心功能.3) 最底层是由各种驱动构成的驱动层与虚拟化软件(KVM、XEN) 和物理基础设施交互.OpenStack 是一个开源云计算虚拟架构,用户可以使用它来建立并运行他们的云计算和存储架构.用户通过Amazon EC2/S3 兼容的 API 来使用 OpenStack 提供的云计算服务,并使得为亚马逊网络服务(AWS) 所写的客户工具也可以和 OpenStack 一起使用.OpenStack 在 SOA 和服务化组件解耦上是做得最好的.OpenStack 整体架构分也3 层,最上层为应用程序和管理门户(Horizon)、

47、API 等接入层;核心层包括计算服务(Nova)、存储服务( 包括对象存储服务 Swift 和块存储服务 Cinder)和网络服务(Quantum);第 3 层为共享服务,现在为账户权限管理服务(keystone)和镜像服务(Glance).Nimbus 系统是一个开源系统,提供和 Amazon EC2 兼容的接口,能够快速方便地生成一个虚拟机集群,这样就可以像普通集群一样使用集群调度系统在上面进行任务调度.Nimbus 也支持不同的虚拟实现(Xen 和 KVM).它主要被应用在科学计算领域.4.2 数据采集足够的数据量是企业大数据战略建设的基础,因此数据采集就成了大数据分析的前站.采集是大数

48、据价值挖掘重要的一环,其后的分析挖掘都建立在采集的基础上.大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是拥有大量的数据.绝大多数的企业现在还很难判断,到底哪些数据未来将成为资产,通过什么方式将数据提炼为现实收入.对于这一点即便是大数据服务企业也很难给出确定的答案.但有一点是肯定的,大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,现在的数据采赵勇 等:大数据技术综述 9集就是将来的资产积累.数据的采集有基于物联网传感器的采集,也有基于网络信息的数据采集.比如在智能交通中,数据的采集有基于GPS 的定位信息采集、基于交通摄

49、像头的视频采集,基于交通卡口的图像采集,基于路口的线圈信号采集等.而在互联网上的数据采集是对各类网络媒介,如搜索引擎、新闻网站、论坛、微博、博客、电商网站等的各种页面信息和用户访问信息进行采集,采集的内容主要有文本信息、URL、访问日志、日期和图片等.之后我们需要把采集到的各类数据进行清洗、过滤、去重等各项预处理并分类归纳存储.数据采集过程中的 ETL 工具负责将分布的、异构数据源中的不同种类和结构的数据如文本数据、关系数据、以及图片、视频等非结构化数据等抽取到临时中间层后进行清洗、转换、分类、集成,最后加载到对应的数据存储系统如数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础.针对大数据的 ETL 工具同时又有别于传统的 ETL 处理过程,因为一方面大数据的体量巨大,另一方面数据的产生速度也非常快 ,比如一个城市的视频监控头、智能电表每一秒钟都在产生大量的数据,对数据的预处理需要实时快速,因此在 ETL 的架构和工具选择上,也会采用如分布式内存数据库、实时流处理系统等现代信息技术.现代企业中存在各种不同的应用和各种数据格式及存储需求,但在企业之间、企业内部都存在条块分割、信息孤

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报