ImageVerifierCode 换一换
格式:PDF , 页数:67 ,大小:2.21MB ,
资源ID:5690930      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-5690930.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据处理:大数据概述.pdf)为本站会员(weiwoduzun)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

大数据处理:大数据概述.pdf

1、大数据处理大数据概述1参考资料2提纲大数据 的定义与特征大数据的产生和应用大数据与云计算大数据与物联网大数据处理平台的架构大数据 处理流程大数据 处理面临的挑战大数据 关键技术大数据处理的关键问题3大数据“大数据 ”是时下最火热的 IT行业词汇早在 1980年,著名未来学家阿尔文 托夫勒便在第三次浪潮一书中, 明确提出“数据就是财富”, 将大数据 称为 “第三次浪潮的华彩乐章 ”。第一次浪潮:农业阶段,约 1万年前开始第二次浪潮:工业阶段, 17世纪末开始第三次浪潮:信息化阶段, 20世纪 50年代后期开始“如果说 IBM的主机拉开了信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章。”大约

2、从 2009年开始, “大数据 ”才成为互联网信息技术行业的流行词汇 。4什么是大数据数据量超过一定大小,导致常规软件无法在一个可接受的时间范围内完成对其进行抓取、管理和处理的工作的数据,例如:互联网上的网页数据社交网站上的用户交互数据物联网中产生的活动数据电信网络中的话单数据5大数据无处不在科学研究 基因组 LHC 加速器 地球与空间探测企业应用 Email、文档、文件 应用日志 交易记录 Web 1.0数据 文本 图像 视频 Web 2.0数据 查询日志 /点击流 Twitter/ Blog / SNS Wiki6进入大数据时代 2011年,中国互联网行业持有数据总量达到 1.9EB( 1

3、EB字节相当于 10亿 GB) 2011年,全球被创建和复制的数据总量为 1.8ZB( 1.8万亿GB) 2013年,我们生成这样规模的信息量只需 10分钟 2015年,全球被创建和复制的数据总量将增长到 8.2EB以上 2020年,全球电子设备存储的数据将暴增 30倍,达到 35ZB7数据的度量8大数据的特征9大数据的特征 -大容量 Volume根据 IDC作出的估测,数据一直都在以每年 50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到 2020年,全球将总共拥有 35ZB的数据量,相较于 2010年,数据量将

4、增长近 30倍。10大数据的特征 -时效性 Velocity从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不 同。11大数据的特征 -多样化 Variety结构化数据( Structured) VS. 非结构化数据(Unstructured)结构化数据是可以用二维表结构来表示,并可存储在数据库中的数据。银行交易数据、民航航班信息非结构化数据则是指那些无法通过预先定义的数据模型表述或无法存入关系型数据库表中的数据。无格式文本(网页、邮件等)、图像、音频、视频12大数据的特征 -多样化 Variety非结构化数据企业数据中,目前已

5、有超过 80%的数据是以非结构化的形式存在的。互联网领域,非结构化数据已占到整个数据量比例的 75%以上 非结构化数据年增长速度约为 63%,远超过结构化数据增长速度32%。13大数据的特征 -价值化 Value价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的价值科学研究企业应用社会网络14舍恩伯格提出的大数据三大特征舍恩伯格的大数据时代受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。思维变革商业变革管理变革在舍恩伯格看来,大数据一共具有三个特征:全样而非抽样;效率而非精确;相关而非因果。15大数据的产生人类社会的数据产生方式大

6、致经历了 3 个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生 。运营式系统阶段数据库的出现使得数据管理的复杂度大大降低 , 数据往往伴随着一定的运营活动而产生并记录在数据库中的 , 这种数据的产生方式是被动的用户原创内容阶段数据爆发产生于 Web 2.0 时代,而 Web 2.0 的最重要标志就是用户原创内容以博客、微博为代表的新型社交网络的出现和快速发展以智能手机、平板电脑为代表的新型移动设备的出现这个阶段数据的产生方式是主动的感知式系统阶段感知式系统的广泛使用这个阶段数据的产生方式是 自动 的人类社会数据量第三次大的飞跃最终导致了大数据的产生16大数据的应用17大数据与大规模数

7、据的区别 从对象角度看,大数据是大小超出典型数据库软件采集、储存、管理和分析等能力的数据集合。大数据并非大量数据的简单无意义的堆积,数据量大并不意味着一定具有可观的利用前景。数据间是否具有结构性和关联性,是 “大数据 ”与 “大规模数据 ”的重要差别。 从技术角度看,大数据技术是从各种各样类型的大数据中,快速获得有价值信息的技术及其集成。 “大数据 ”这一概念中包含着对数据对象的处理行为。大数据技术是使大数据中所蕴含的价值得以发掘和展现的重要工具。 从应用角度看,大数据是对特定的大数据集合、集成应用大数据技术、获得有价值信息的行为。正由于与具体应用紧密联系,甚至是一对一的联系,才使得 “应用

8、”成为大数据不可或缺的内涵之一。18从数据库到大数据池塘捕鱼(数据库) vs.大海捕鱼(大数据)数据规模数据库 的处理对象通常以 MB 为基本单位 ,大数据 则常常以GB,甚至是 TB、 PB 为基本处理单位。数据类型数据库中 数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。大数据 包含着结构化、半结构化以及非结构化的数据 , 并且半结构化和非结构化数据所占 比例 越来越大模式 (Schema)和数据的关系传统的数据库都是先有模式,然后才会产生数据。大数据时代很多情况下 , 难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。19从

9、数据库到大数据处理对象在 “池塘 ”中捕鱼, “鱼 ”仅仅是其捕捞对象。而在 “大海 ”中, “鱼”除了是捕捞对象之外,还可以通过某些 “鱼 ”的 存在来判断其他种类的 “鱼 ”是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。处理工具捕捞 “池塘 ”中的 “鱼 ”,一种渔网或少数几种基本就可以应对,也就是所谓的 One Size Fits All。但是在 “大海 ”中,不可能存在一种渔网能够捕获所有的鱼类,也就是说 No Size Fits All。20典型的大数据的应用在医疗行业的应用在能源行业的应用在通信行业的应用在零售业

10、的应用21科学研究的四种范式 图灵奖获得者、著名数据库专家 Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,传统的三种范式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范式来指导新形势下的科学研究。基于这种考虑, Jim Gray 提出了一种新的数据探索型研究方式, 称 之为科学研究的 “第四种范式 ”(The Fourth Paradigm)。22大数据与云计算23Server Storage Server StorageApplicationPlatformInfrastruct

11、ureVisualizationIaaS 将基础设施 (计算资源和存储 )作为服务出租从一个集中的系统部署软件,使之在一台本地计算机上 (或从云中远程地 )运行的一个模型。由于是计量服务, SaaS 允许出租一个应用程序,并计时收费类似于 IaaS,但是它包括操作系统和围绕特定应用的必需的服务SaaSPaaSSoftware as a ServicePlatform as a ServiceInfrastructure as a Servicedata Storage as a ServiceSaaSPaaSIaaSdSaaSGoogle Apps, Microsoft “Software+S

12、ervices”IBM IT factory, Google App Engine, FAmazon EC2, IBM Blue Cloud, Sun GridNirvanix SDN, Amazon S3, Cleversafe dsNet大数据与云计算从整体上看,大数据与云计算是相辅相成的从技术上看,大数据根植于云计算云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大数据技术的基础。24大数据与云计算25大数据与云计算26大数据与物联网 物联网就是 “物物相连的互联网 ”。物联网通过智能感知、识别技术与普适计算、泛在网络的融合应用,被称为继计算机、互联

13、网之后世界信息产业发展的第三次浪潮 物联网架构可分为三层,包括感知层、网络层和应用层 物联网,移动互联网再加上传统互联网,每天都在产生海量数据,而大数据又通过云计算的形式,将这些数据筛选处理分析,提取出有用的信息,这就是大数据分析。27数据处理平台的基础架构文件存储文件的快速增长;大规模小文件;多类型;元数据管理数据存储数据模型;并发读写;复杂查询数据计算问题分解;统一的编程模型平台管理协同工作;资源监控28大数据处理的流程29整个大数据的处理流 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 行抽取和集成,结果按照一定的标准进行 统一存储,并利用合适的数据分析技术对存 储的数据进行分析, 从中提取有益的知识 , 并利用恰当 的方式将结果展现给终端用户 。数据抽取与集成大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。现有的数据抽取与集成方式可以大致分为以下四种类型:数据整合、数据联邦、数据传播和混合方法等。30

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报