1、1云计算与大数据胡经国本文作者的话本文是根据有关文献和资料编写的漫话云计算系列文稿之一。现作为云计算学习笔录,奉献给云计算业外读者,作为进一步学习和研究的参考。希望能够得到大家的指教和喜欢!下面是正文一、大数据的定义表述1“大数据”是指一个数据集,它的尺寸大到已经无法由传统的数据库软件工具去采集、存储、管理和分析。“Big Data” referes to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. MGI
2、 May,2011“大数据”是指一个数据集,它的尺寸的增长已经让现有的数据库管理工具相形见绌,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. Wikipedia表述2大数据(big d
3、ata),是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。表述3大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目的的资讯。表述4麦肯锡公司:大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。2表述5美国咨询公司麦肯锡对大数据的定义,就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据
4、库软件工具已经无法采集、存储、管理和分析。传统数据库有效工作的数据上限,一般来说在10100TB;因此,10100TB通常成为大数据的门槛。无独有偶,IDC在给大数据做定义时,也设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。表述6维基百科对大数据的定义:所谓大数据在当今的互联网业是指这样一种现象:一个网络公司日常运营所生成和积累用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是
5、以P, E或Z为计量单位,所以称之为大数据。表述7国际数据公司(IDC)从大数据的4V特点来定义,即:海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。表述8大数据是指以多元形式、从许多来源搜集而来的往往具有实时性的庞大数据组。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。表述9大数据是指所涉及的数据量规模巨大到无法通过人工、在合理时间内达到掘取、管理、处理、并整理成为人类所能解读的信息。大数据的
6、特征,除了巨大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。表述10故名思意,大数据便是数量巨大,类型众多,结构复杂的数据集合。数据具有较小的价值;而数据集合因为数量的众多,量变引起的质变,所以其价值无可估量。表述11大数据是所有数据的集合,具有4V特征,即数据量大( Volume)、数据类型多样(Variety )、生成速度快(Velocity),以及蕴含巨大价值(Value)。二、大数据的特性31、大数据4V特性解读(1)大数据的4V特性是:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据的4V特性,或者说大数据的特性有四个层
7、面:、数据体量巨大从TB级别,跃升到PB级别。最小基本单位是bit,按顺序给出所有单位:bit(比特,二进制信息单位)、Byte(字节,1字节8位二进制)、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2 10)来计算,即:1 Byte8 bit1KB(Kilobyte,千字节)1024 Bytes1024B1MB(Megabyte,兆字节,简称兆)1024 KB1GB(Gigabyte,吉字节)1024 MB1TB(Terabyte,太字节)1024 GB1PB(Petabyte,拍字节)1024 TB1EB(Exabyte,艾字节)1024 PB1
8、ZB(Zettabyte,泽字节)1024 EB1YB(Yottabyte,尧字节)1024 ZB1BB(Brontobyte)1024 YB1NB1024 BB1DB1024 NB、数据类型繁多包括网络日志、视频、图片、地理位置信息等等。、价值密度低以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。、处理速度快要求满足1秒定律。1秒定律,或称秒级定律,是指对大数据处理速度有要求;一般要求在秒级时间范围内给出分析结果,时间太长就失去价值了。这个速度要求是大数据处理技术和传统数据挖掘技术最大的区别。42、大数据4V特性解读(2)虽然有多种解读,但业界一般认为,大数据有4V特性: Vo
9、lume(容量), Variety(种类) , Velocity(速度)和最重要的Value(价值)。、Volume(容量)Volume是指大数据巨大的数据量与数据完整性。IT业界所指的数据,诞生不过60多年。而一直到个人电脑普及之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。尽管业界对达到怎样的数量级
10、才算是大数据并无定论,但在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否具有完整性才是最重要的。、Variety(种类)Variety意味着要在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的关联性,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。、Velocity (速度)Velocity可以理
11、解为更快地满足实时性需求。数据的实时化需求正越来越清晰。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上。还可以用LBS(基于位置的服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接。这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。、Value(价值)比前面3个V更重要的就是Value。它是大数据的
12、最终意义:获得洞察力和价值。大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。就大数据的价值而言,就像在沙子里淘金,大数据规模越大,真正有价值5的数据相对越少。所以真正好的大数据系统,重要的不是越多越好,其实越少越好。开始数据要多,最好还是要少,把ZB、PB最终变成一个比特,也就是最后的决策。这才是最关键的。3、大数据的海量、多样性、高速、易变性、海量企业面临着数据量的大规模增长。例如,IDC最近的报告预测,到 2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变
13、化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。例如,从巴塞罗那至沙特首府利雅得的单程航行中,一架商用喷气飞机上收集的传感器数据量将超过1PB。当用一次飞行的数据量,乘以每天所有飞行的航班数,数据总量将非常惊人。、多样性普遍认为,人们使用互联网搜索是形成数据多样性的主要原因。这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样
14、性。、高速高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research研究机构关于数据创建速度的调查,通过跟踪互联网设备的激活量,发现联网设备增长的第二波浪潮正在加速到来。本轮增长后,将涌现更多新型互联网设备增长的浪潮。据预测,到2020年,全球将拥有220亿部互联网连接设备。、易变性大数据具有多层结构。这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造
15、成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是,处理并从以各种形式呈现的复杂数据中挖掘价值。4、大数据七大特性、容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息6。、种类(Variety):数据类型的多样性。、速度(Velocity):指获得数据的速度。、可变性(Variability):妨碍处理和有效地管理数据的过程。、真实性(Veracity):数据的质量。、复杂性(Complexity):数据量巨大,来源多渠道。、价值(value):合理运用大数据,以低成本创造高价值。5、记者访谈:
16、大数据有多大据报道,有记者就大数据有关问题进行了访谈。记者:对于大数据,有一个形象的说法:现在即使是一个孩子,也可以把一个小小的存储器放入书包,随身携带TB级的数据去学校上课,甚至把整个人类文明背上都不是问题。经过大量数据的训练和装备,未来的电子产品或者机器可以成为“ 大有裨益的终身数据伴侣:它可以预测你是想要一包方便面还是一颗感冒药;你想去旅游还是选择最不堵车的路线去看球赛;甚至还能以你的名义饱蘸激情投入工作。大数据这个概念,看似从字面就能理解;但确实以前没有这么火过。首先,我们想知道的是,大数据到底有多大?吴甘沙:互联网搜索、电子商务交易平台和微博等社交网站,产生的各种数据内容,经常被用来
17、证明大数据之大。其实,在传统产业和我们的生活中,大数据也比比皆是。以北京交通为例,北京市交通智能化分析平台,它的数据源来自路网摄像头传感器、地面公交、轨道交通、出租车,以及省际客运、旅游、化危运输、停车、租车等运输行业等。4万辆浮动车,每天产生2000万条记录;交通卡刷卡记录,每天1900万条;手机定位数据,每天1800万条;出租车运营数据,每天100万条;高速ETC(Electronic Toll Collection,(不停车)电子收费(系统)数据,每天50万条这些,从数据体量和速度上,也达到了大数据的规模。发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的
18、机会。这也正是大数据最主要的特点。比如,交通状况与其它领域的数据都存在较强的关联性。有研究发现,可以从供水系统数据中发现,晨洗的高峰时间,加上一个偏移量,通常是4045分钟,就是交通早高峰时间。同样,可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。国外的研究甚至发现了交通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。记者:IT业界所指的数据,诞生不过60多年。而一直到个人电脑普及前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。大数据有没有一个“门槛 ”?一些定义准确吗?吴甘沙:国际数据统计机构IDC,对
19、全世界每年创建和复制的信息的体量7,做了估计和预测:2011年1.8ZB,2012年2.8ZB。按照每两年翻一番的速度,2020年将达到40ZB。这个数据怎么算出来的?IDC秘而不宣。1.8ZB 什么概念?相当于4500亿张DVD,或6500万年的高清视频,或是1130亿台装满数据的iPad。如果把这些iPad覆盖到足球场,并往上堆叠,高度将达到 10.3公里,比珠穆朗玛峰还高。思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB 。其实,所有这些数据加起来都不如谷歌的前CEO施密特说法有感染力:从人类文明曙光到2003年数以万年计的时间长河里,人类一共产生了5EB (天知道他怎
20、么算出来的),而到2010年每两天人类就能产生5EB 的数据。这类数据的预测,对于存储和网络企业的投资者来说,无疑能提升信心;但对其他人来说,没有太大意义。他们更关心的是个体行业、企业和个人数据的状况。美国咨询公司麦肯锡对大数据的定义,就是从个体数据集的大体量入手的:大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。传统数据库有效工作的数据上限,一般来说在10100TB;因此,10100TB通常成为大数据的门槛。无独有偶,IDC在给大数据做定义时,也设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰的数值来指导企业大数据的判断,总是好事。6、大数
21、据的三种特性、大数据特性之一:数据的完整性和综合性大数据的特性之一是数据的完整性和综合性。很多业内朋友一谈起大数据,就习惯性地盘点起自己那点存货,或者那些可以直接从自身服务中可以获取的东西。考虑到目前互联网的发展还在非常初级的阶段,现有网络服务都是简化、扭曲、片面地对现实世界的浓缩和裁剪。由此产生的数据是零乱的、破碎的、局部的;其中所含有的含金量是极其有限的。如果同意这个世界上的万事万物可以而且正在被数据化和网络化,那么由此产生的大数据就必然是完整的和综合的。它不仅包括网络公司通过自身服务所获得的用户行为数据,而且包括社会的、经济的、政治的、自然的方方面面的数据。这些数据当然分散在不同企业、机
22、构和政府部门手中,汇聚整合在一起绝非易事。但操作上的困难并不能否定大数据本身的完整性和综合性。今天之所以讨论大数据时代的到来,是因为互联网发展到目前阶段使得现实世界数据化发展到了一定程度,各种信息终端普及到了一定程度,数据获取的成本降到了一定程度,使得完整和综合的数据不仅是一种理想,也正在变为现实。、大数据特性之二:数据的开放性和公共性大数据的特性之二是数据的开放性和公共性。正是因为完整、综合的大数据难以由一家公司、机构或政府部门所获得,所以大数据必然产生于一个开放的、公共的网络环境之中。这种开放性和公共性的实现,取决于若干个网络开放平台或云服务以及一系列受到法律支持或社会公认的数据标准和规范
23、。任何封闭的或单向获取的数据,都不可能是大数据,无论这些数据的规模有多大。、大数据特性之三:数据的动态性和及时性8大数据的特性之三是数据的动态性和及时性。天体物理学和理论物理学早就依赖于从宇宙间获取的大量数据。类似的学科还有:环境生态学、医药学和自控技术。但是,这和我们今天讨论的大数据不是一回事。今天的大数据是基于互联网的及时动态数据,不是历史的或严格控制环境下产生的东西。所以,今天我们谈论的大数据是完整综合的、开放公共的、动态及时的。这样的大数据是我们过去从未有机会获取利用过的全新挑战,也是我们未来应该努力去争取利用的全新战略机会。如果有人以为过去积累的那点数据就是大数据,或者过去积累的数据
24、处理利用能力和经验就可以在大数据时代自然领先,那不是无知就是狂妄。三、大数据的价值1、记者访谈:大数据的价值在于获得洞察力和价值据报道,有记者就大数据有关问题进行了访谈。记者:虽然有多种解读,但业界一般认为,大数据有四个“V”字开头的特性:Volume(体量), Velocity(速度), Variety(种类), Value(价值)。这其实也是大数据概念的组成。Volume是指大数据巨大的数据量与数据完整性;Velocity可以理解为更快地满足实时性需求;而Variety则意味着要在海量、种类繁多的数据间发现其内在关联;Value最重要,它是大数据的最终意义获得洞察力和价值。简单说,大数据4
25、个V:就是体量大,快速化,类型杂,价值大。张亚勤:体量容易理解。速度可以理解为更快地满足实时性需求。数据的实时化需求正越来越清晰。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上,还可以用LBS(Location Based Services,基于位置服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间,产生无处不在的连接;这些连接不可避免地带来数据交换。而数据交换的关键,是降低延迟,以近
26、乎实时意味着小于250毫秒的方式呈献给用户。类型杂必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的关联性;把似乎没有用的数据变成有用的信息,以支持我们做出的判断;最终形成大数据的价值获得洞察力和价值。大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。所以,真正好的大数据系统,重要的不是越多越好,其实越少越好,最终变成一个决策,这才是最关键的。2、大数据价值具体体现9大数据最核心的价值,在于对于海量数据进行存储和分析。相比现有的其他技术而言,大数据的“
27、廉价、迅速、优化 ”这三方面的综合成本是最优的。大数据的价值并不在“大”,而在于“有用”。价值含量、挖掘成本,比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值具体体现在以下几个方面:、对为大量消费者提供产品或服务的企业,可以利用大数据进行精准营销;、对做小而美模式的中长尾企业,可以利用大数据做服务转型;、在面临互联网压力之下必须转型的传统企业,需要与时俱进充分利用大数据的价值。3、大数据和高性能的分析对企业有益的情况在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数
28、据和分析,可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:、及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。、为成千上万的快递车辆规划实时交通路线,躲避拥堵。、分析所有SKU,以利润最大化为目标来定价和清理库存。、根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。、从大量客户中快速识别出金牌客户。、使用点击流分析和数据挖掘来规避欺诈行为。链接:SKUSKU(Stock Keeping Unit,库存量单位),即库存进出计量的基本单元, 可以是以件,盒,托盘等为单位。SKU 是大型连锁
29、超市DC(配送中心)物流管理的一个必要的方法。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。单品:对一种商品而言,当其品牌、型号、配置、等级、花色、包装容量、单位、生产日期、保质期、用途、价格、产地等属性与其他商品存在不同时,可称为一个单品。链接:点击流分析点击流数据(Clickstream 10Data),随着Web技术的不断发展,电子商务活动客户对企业网站的每一次点击都会被企业网络服务器记录在日志中,由此产生了点击流数据。对于一个网站来说,点击流分析(Clickstream Analysis),有时也叫做点击流分析学(Clickstream Analytics),是收
30、集、分析和汇报有关访客访问哪个页面、访问页面的顺序以及每个访客鼠标连续点击的结果(即点击流)的整体数据的过程。点击流分析有两种水平,分别是访问流量分析和电子商务分析。链接:数据挖掘数据挖掘(Data Mining,DM),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,KDD)中的一个步骤。数据挖掘一般是指从大量的数据中,自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)
31、和模式识别等诸多方法来实现上述目标。四、云计算与大数据的关系1、云计算与大数据的关系概说云计算和大数据是一个硬币的两面。云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。云计算是大数据成长的驱动力,而另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。30年前,存储1TB数据的成本,大约是16亿美元。如今存储到 “云”上,只需要不到100美元。但是,存储下来的数据,如果不用云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。目前,云计算已经普及并成为IT行业主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的
32、需求背景下被催生出来的一种基础架构和商业模式。个人用户将文档、照片、视频、游戏存档记录上传至“云”中永久保存。企业客户根据自身需求,可以搭建自己的私有云,或托管、或租用公有云上的IT 资源与服务。这些都已不是新鲜事。可以说,“ 云”是一棵挂满了大数据的苹果树。2、大数据需要云计算技术如上所述,从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法使用单台计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘。但是,它必须依托云计算的分布式处理、分布式数据库、云存储和或虚拟化技术。如上所述,大数据不采用随机分析法(抽样调查)这样的捷径,而采用对所有数据进行
33、分析处理的方法。11大数据常和云计算联系到一起。因为,实时的大型数据集分析,需要分布式处理框架来向数十、数百或甚至数万台电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。云计算思想的起源是麦卡锡在20世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。如今,一种行之有效的模式出现了:云计算提供基础架构平台,而大数据应用则运行在这个平台上。业内人士像这样形容这两者的关系的:没有大数据的信息积淀,云计算的计算能力再强大,也难以找到用武之地;而没有云计算的计算能力,则大数据的信息积淀再丰富,也终究只是镜花水月。那么,大数据到底需要哪些云计算技术呢?这里
34、暂且列举来说,比如:虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL(泛指非关系型数据库)、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。云计算和大数据两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。如果将云计算与大数据进行一些比较,最明显的区分在以下两个方面:第一,在概念上两者有所不同。云计算改变了IT,而大数据则改变了业务。然而,大数据必须有云作为基础架构,才能得以顺畅运营。第二,大数据和云计算的目标受众不同。云计算是CIO (Chief Information Officer,首席
35、信息官,一种新型的信息管理者)等关心的技术层;而大数据是CEO(Chief Executive Officer,首席执行官)关注的业务层产品。3、大数据处理需要云计算技术配合人们研究大数据,或是利用大数据技术,其战略意义并不在于是谁掌握了多么庞大的大数据信息,而是在于谁能否将已经捕捉到的那些含有一定意义的数据通过专业化处理,将其变成一种数据信息资产。这也是大数据分析所需要达到的真正目的。谁都不能否认,也不可能被否认,大数据既是一种科技,也是一种资产。既然大数据是一种资产,那么如何利用大数据这种资产最终实现盈利,才是运用大数据的关键。可是,将大数据加工成有增值的数据,并不是一件轻而易举的事情。、
36、研究大数据绝对离不开计算机云计算技术从某种观点上看,没有计算机云计算技术,就不会有大数据被分析和利用。大数据技术跟计算机云计算技术的关系,就像是一只手的手心和手背,是绝对密不可分。因为,分析和处理大数据,是无法用某一台计算机来完成的。它必须需要采用计算机分布式架构。处理大数据的特色,就在于对那些海量数据进行分布式数据挖掘。但是,这种分布式大数据挖掘,还必须依托计算机分布式处理。因为,计算机分布式数据库或是云存储以及计算机虚拟化技术,可以12支撑起对大数据相关技术处理的能力。、云计算技术时代到来将大数据处理变为现实大数据内部所含有的资产性质,被计算机云技术得到了实实在在的验证。由此而引出来效果,
37、就是让很多人都对大数据有了更多的关注或是重视。比如著云台的分析师团队认为,可用大数据来形容某家公司所创造的那些大量非结构化数据和半结构化数据,但不能将这些数据下载到关系型数据库中进行处理。因为,这样会在分析数据中浪费较多的时间或是金钱。他们主张,大数据分析必须要跟计算机云计算技术紧密连在一起。只有这样,才能将大数据的价值变成资产性的价值,并将大数据处理真正变成一种现实。4、大数据有助于进一步明晰云计算的价值大数据有助于进一步明晰云计算的价值。在云计算概念刚被提出的几年里,许多政企行业用户对其应用价值一直存在疑虑。而随着大数据的异军突起,云计算的价值又一次受到公众的关注。由于云计算帮助解决了大数
38、据无法进行抓取、管理和处理的问题,给予了它不同以往的存储和计算能力,使得结果获取更快速、分析更智慧。可以预见,在未来云计算将成为大数据应用分析最活跃的舞台。同样,大数据为云计算大规模与分布式的计算能力,提供了应用的空间,解决了传统计算机无法解决的问题,从而,进一步明晰了云计算的价值。5、揭开云计算与大数据非同一般的关系通常情况下,我们容易将大数据与云计算混淆在一起,笔者就概念定义先做科普工作。著名的麦肯锡全球研究所给出大数据定义是一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。而云计算
39、,则是一种基于互联网的计算方式;通过这种方式,共享的软硬件资源和信息,可以按需求提供给计算机和其他设备。借用大数据云计算关系一文中的直白介绍,云计算是硬件资源的虚拟化,而大数据则是海量数据的高效处理。从结果来分析,云计算注重资源分配,而大数据则注重资源处理。一定程度上讲,大数据需要云计算支撑,而云计算则为大数据处理提供平台。从二者的定义范围来看,大数据要比云计算更加广泛。大数据这一概念从2011年诞生以来,历经5个年头。中国从积极推动两化融合到深度融合,也有8年之久。再者,从各地纷纷建设大数据产业园可以看出,中国极其看重此次大数据发展契机。大数据需要新处理模式,才能具有更强的决策力、洞察发现力
40、和流程优化能力,来适应海量、高增长率和多样化的信息资产。大数据这个强大的数据库13,拥有三层架构体系,包括数据存储、处理与分析。简而言之,数据需要通过存储层先存储下来;之后,根据要求建立数据模型体系,进行分析产生相应价值。这其中缺少不了云计算所提供的中间数据处理层强大的并行计算和分布式计算能力。据了解,云计算的历史比大数据更加绵长。它是继1980年从大型计算机到客户端服务器转变之后的一种巨变。美国国家标准与技术研究院,定义云计算为一种按使用量付费的模式。这种模式提供可用便捷按需的网络访问。同时,进入可配置的计算资源共享池,即可快速提供资源,减少交互所需的步骤和时间。云计算可以实现每秒10万亿次
41、的运算;能够模拟核爆炸,分析市场发展趋势,预测气候变化等。笔者觉得,云计算的作用岂不是和大数据类似。对此,高新兴平安城市增值运营部总经理李波认为,云计算与大数据如同手心手背的关系,二者不可或缺,相辅相成。没有大数据,云计算什么都不是,而没有云计算成就不了大数据。以此看来,大数据与云计算之间,并非独立概念,而是关系非比寻常。无论在资源的需求上,还是在资源的再处理上,都需要二者共同运用。这也难怪不少地区在做出相关产业规划时,都会同时推进大数据与云计算建设。这也显示出,一方马虎必会影响另一方的发展。因此,与其计较大数据与云计算之间怎么区分,还不如规划在一起,让云计算为大数据提供强大平台,以大数据分析
42、得出的结论完成云计算的价值。6、大数据的成功应用依靠云计算大数据和云计算的关系则在于,大数据的成功应用除了“大”,还有三个必要条件:实时在线、对事件的全面描述以及产生差异化的效果。云计算使得这三个必要条件得以满足。首先,云计算使人们可以随时随地使用存储和计算,使大量数据得以及时被采集和分析。手机上APP 应用云的服务,就是一个云计算的例子。由于存储和计算成本的降低,云计算起到了实时在线的作用。从而,使得更多的人愿意使用云服务,大数据的雪球由此可以滚动起来。云计算的另一个好处,是可以实现大规模的数据整合。当今世界并不是为大数据应用准备的。因为,大量数据集散落在不同地方,以不同方式存放,其拥有者也
43、是不同的人。在云计算条件下,很多大规模数据整合的问题都会得到解决。当大家数据放在一起时,数据整合的门槛会大幅降低。因此,大数据也会像核物理的聚变一样, 产生成倍的效果。7、大数据的关键技术:云计算没有互联网就没有云计算,没有云计算模式就没有大数据处理技术。将大数据的应用,比作一辆辆“汽车” ,支撑起这些 “汽车”运行的“ 高速公路”就是云计算。正是云计算技术,在数据存储、管理与分析等方面的支撑,才使得大数据有用武之地。云计算时代会有更多的数据存储于“云端” 。数据是资产,云是数据资产保14管的场所和访问的渠道。8、未来发展将使云计算与大数据的关系越来越密切如果再找一个可以跟大数据并驾齐驱的IT热词,云计算无疑是跟大数据关系非常密切的一个词语。很多人在提到大数据的时候,总会想到云计算。虽然大数据与云计算并不是一个东西,但是二者之间有着千丝万缕的关系。云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用;而大数据则是我们要处理的数据。云计算是大数据的处理器的最佳平台。云计算与大数据密切结合是二者未来发展共同的一大趋势。这种发展趋势将使二者的关系越来越密切。2017年1月31日编写于重庆2017年4月21日修改于重庆