收藏 分享(赏)

大数据平台基础介绍.pptx

上传人:IT人 文档编号:1420870 上传时间:2018-07-15 格式:PPTX 页数:38 大小:3.82MB
下载 相关 举报
大数据平台基础介绍.pptx_第1页
第1页 / 共38页
大数据平台基础介绍.pptx_第2页
第2页 / 共38页
大数据平台基础介绍.pptx_第3页
第3页 / 共38页
大数据平台基础介绍.pptx_第4页
第4页 / 共38页
大数据平台基础介绍.pptx_第5页
第5页 / 共38页
点击查看更多>>
资源描述

1、,大数据平台基础介绍,Page 1,目录1. 大数据概念与hadoop简介2. 大数据行业应用3. 大数据架构简介,Page 2,Big Data名词由来2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data,Page 3,大数据市场趋向稳定,Page 4,大量数据存储,海量计算,数据分析,大数据定义-不同的声音大量数据管理,Page 5,统一监控分析,精准营销深入洞察另外IBM有大数据5V特征定义,增加了一个Veracity(真实性),什么是大数据

2、维基百科:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长60%Gartner:大数据的四个V:Volume、Variety、Velocity、ValueVolume:数据量巨大 集中储存/集中计算已经无法处理巨大的数据量Variety:种类和来源多样化 日志/图片/视频/文档/地理位置 Velocity:分析处理速度快 海量数据的及时有效分析Value:价值密度低,商业价值高 大量的不相关信息的进行复杂深度分析,深挖价值,Page 6,海量数据从哪里

3、来人在web 2.0的时代,人们从信息的被动接受者变成了主动创造者全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据,Page 7,海量数据从哪里来机器,Boeing:飞机每个引擎3分钟产生

4、1TB数据,波音787 6小时飞行产生240TB数据,CERN:大型强子对撞产生1PB/s的数据SKA:2015年存储需要1EB,云化IDC建设催生了数据大集中,Facebook:每天产生50TB的日志数据,衍生分析数据超过100TB,“机器制造”和“人工制造”共同贡献了海量数据,集中式的数据中心建设加速数据集中,User Profile,结,信化,营主,Page 8,大数据的结构特征,平均1个P数据中,(例非互结联构网化公为司主),互联网:Google, 百度Facebook ,Twitter ,新浪.数据以非结构化处理为主,在企业大数据中, 仍然是以结构化数据处理为主,结构化,半结构化,非

5、结构化,35%, 23%27%,内容(ITEM,图像、视频、文本)数据用户行为轨迹(个体)10 %5 %社交网络数据(群体) 21个历史详单查询Web Page & Log,(例电构运为商),15%,网络XDR (探针俘获后,含历史),计费CDR(含历史),CUBE和统一视图,7%,18%,25 %,互联网 Web Page & Log(含历史) 13%社交网络数据 3%内容(图像、视频、文本)数据 7%12%主数据(三户 + 订购+ 接触 等 含历史)分析汇总数据(含历史),Page 9,传统的数据处理系统面临的问题,呼唤新的技术, 海量数据的高存储成本 大数据量下的数据处理性能不足 流式数

6、据处理缺失 有限的扩展能力 单一数据源 数据资产对外增值,数据扩展性需求和硬件性能之间存在差距,新的业务需求,需要新的大数据处理平台,Page 10,数据处理技术分布式演进趋势:Hadoop成为开放的事实标准,SMP+MPP混合特点:集群、ShareEverything 结构化、关系型 FlashCache+分布式块存储+IB,Hadoop特点:集群、ShareNothing 开放,、全球生态 结构化、半结构化、非结构化, 高性能、实时,MPP特点:集群、ShareNothing 结构化、关系型 通用的硬件,SMP特点:单机、Scaleup 性能存在瓶颈 扩展性差,Page 11,揭开Hado

7、op神秘的面纱Hadoop是Apache基金会的一个项目总称,主要由HDFS、MapReduce和HBase等组成。HDFS是对Google GFS的开源实现,MapReduce是对Google MapReduce的开源实现,HBase是Google BigTable的开源实现。Hadoop 来源于其创始人Doug Cutting的儿子给一头黄色大象取的名字。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。,BookKeeper,ZooKeeper,AVRO,Page 12,HDFS原理简介分布式文件系统,HDFS主要特点:存储大文件,将大文件分割成很多小块存储流式数据读取

8、,“write one read many”,本身是分布式的,具备良好的可扩展性通过放开POSIX要求,极大改善数据读写性能HDFS不适合于:存储大量小文件(1MB)实时数据读取需经常修改数据的场景,YARNHDFS,Hive,Map Reduce,HBase,Pig,Sqoop,文件被切分成大小相同的块(最末尾的块可能小于块大小),并存储在不同的数据节点上。,为确保文件块的容错性,同时提供更快的数据读取,默认每个数据块有3个副本,且分布在不同的数据节点DN上。File AFile BFile C,DataNode,文件就放它上了。A C,A,NameNode,元数据信息都在这。B B,C,D

9、N #1,DN #2,DN #3,NN #1B,DN #4,C,DN #5,A,DN #6,File D,D,D,D,Page 20,原生HDFS的真实存储结构1,Page 20,原生HDFS的真实存储结构2,Page 20,原生HDFS的真实存储结构3,Page 13,HBase原理简介分布式数据库HRegionServer内部管理了一系列HRegion对象,每个HRegion对应Table中的一个Region。HRegion由多个Store组成。每个Store对应Table中的一个Column Family的存储,即一个Store管理一个Region上的一个列族(CF)。每个Store包含

10、一个MemStore和0到多个StoreFile。Store是HBase的存储核心,由MemStore 和 StoreFile组成。,Page 14,MapReduce原理简介分布式计算架构Apache MapReduce是google MapReduce的开源实现。是对并行计算的封装,使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间。,Page 15,Spark 迭代计算框架:重构M-R,优于Hadoop,Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和

11、结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景,Page 17,Storm:流式数据处理框架,实时的HadoopStorm 广泛应用于实时分析,在线机器学习,持续计算、分布式远程调用等领域。,Page 18,Storm处理原理,特征匹配bolt,统计bolt,异常行为检测bolt输出,拦截模块,spout拦截,数据不存储,先计算,事件驱动实时响应,低延迟连续查询光纤MQ输入scribe旁路,EventData,AlertsActions,No waiting; Results delivered in-flightQuerie

12、s,Page 19,ZooKeeper简介 提供分布式锁的服务。例如,多个Master进程竞争主Master角色时,怎么样保,证仅有一个Active角色存在?这就需要一个分布式的锁机制来保证。多个Master进程都尝试着去ZooKeeper中写入一个对应的节点,该节点只能被一个Master进程创建成功,创建成功的Master进程就是Active角色。提供了事件侦听机制。例如,主Master进程宕掉之后,其它的备Master如何能够快速的接管?这个过程中,备Master在侦听那个对应的ZooKeeper节点。主Master进程宕掉之后,该节点会被删除,那么,其它的备Master就可以收到相应的消

13、息。个别场景,可充当一个微型数据库角色。例如,在ZooKeeper中存放了Root Region的地址(Root Region原来是存在ZooKeeper中的!),此时,可以将它理解成一个微型数据库。,“Master-1, Congratulations! Youare the active one!”“Sorry, Master-2. The activeseat has been taken by others.Please be patient!”,Page 20,第三方impala计算框架,Page 20,原生与第三方整体回顾与对比,Page 20,目录1. 大数据概念与hadoop简

14、介2. 大数据行业应用3. 大数据架构简介,Page 21,大数据应用的行业分类,经营分析电信信令金融细账金融票据电力调度智能电网,经营类,绩效报表文件社保分析纳税分析决策支持和预测,管理类,公安网监国安技侦舆情监控银监会稽查食品溯源环保监测,监管类,音视频地震勘探气象云图卫星遥感雷达数据物联网,专业类,10%结构化30%半结构化60%非结构化,互联网,非结构化为主,价值密度低,电信、金融结构化+非结构化,金融结构化+半结构化,政府结构化+半结构化,政府非结构化,“在大数据领域,不能充分形成大数据使用能力的竞争者将被淘汰”-McKinsey Global Institute电信、金融、政府等行

15、业数据分析的诉求强烈,互联网已开始应用新技术处理价值密度低的大数据,Page 22,实时征信、精准营销、在线明细、精准小微贷、,金融:大数据让银行更了解客户与识别潜在风险王五作为某银行客户,需要申请一张新的信用卡24周,大数据平台,客户信息系统,交易系统,信用系统,Page 23,电信:大数据支撑运营商向Digital Telco转型,2G,2.5G,3G,B3G/4G,语音封闭、垄断SPCP,窄带数据有限程度开放SPCP,宽带数据防御与竞合,超宽带数字经济使能管道运营能力运营跨界运营,商业架构,企业架构,网络架构,网络资源为中心,客户体验及生态圈为中心,封闭,开放、用户驱动、实时知识,Sil

16、o,云化, 业务感知, 自编排,大数据平台数字经济驱动运营商彻底进行数字化重构,M域,O域,B域,一份数据,一次采集,个人客户精准营销,家庭客户辅助决策,政企客户数据开放,互联网客户,. 一份存储,全局共享,全量分析,Page 24,公安:大数据实现在海量数据中快速检索出价值信息,3000+万条记录, 1+亿张照片,约100TB12天检索信息耗时:,大数据平台,国内某大城市1天的卡口数据:传统数据库平台模糊检索耗时:,2分钟,Page 25,电商:亚马逊“预判发货”,顾客未动包裹先行顾客此前订单顾客搜索记录,顾客心愿单顾客购物车顾客浏览行为,大数据平台,Page 26,400万影视评分,媒资:

17、大数据让Netflix在纸牌屋开播前就知道会火3300万订阅用户行为,300万搜索请求上线20天,点播400+万次,大数据平台,Page 27,目录1. 大数据概念与hadoop简介2. 大数据行业应用3. 大数据架构简介,1,1,Page 28,企业大数据平台架构,主数据仓库基于高性能平台,流数据处理CEP及流处理引擎,Hadoop云基于低成本X86平台统一ETL层,数据采集和预处理,结构化数据,实时流数据,互联网数据,101,111,多渠道访问门户开放支撑平台:基础服务、算法模型、自助分析、自助报表,电脑,智能手机,PAD,监控中心,云化ETL、云化DW、实时挖掘、自助分析、跨域模型、并发

18、查询、实时规则、知识自学习、内容语义分析等能力最终将在应用平台及多个数据平台中体现。包含关系型的主存储,也包含非关系型的HADOOP及流处理引擎,ZooKeeper,(Coordination),Oozie,Page 29,构建大数据平台技术组件(示意),结构化计算平台,数据治理,配置数据管理,Portal,ERP-EBS,Non-EBS DB,仪表盘,订阅发布,即席查询,分析维度管理,主数据管理,公共数据模型,ScoreCard,报表,展现层,Portal层,调度,文本挖掘,社交媒体,结构化数据,生命周期管理(数据/应用),数据质量管理,技,术,元数据,ROLAP DMMCA,Office

19、集成,展现服务Mobile BI,互动可视,数据提取,In-Mem DM,元数据管理元数据管,理应,用,批量抽取,CDC&ETL服务转换,加载,分发,实时获取,平台监控管理,ETL&调度,计算平台,非结构化化计算平台(Hadoop),Spark,作业流管理:,DWRDWRDW-I DW-I DW-I,Sqoop公共基础数据模型,MapReduce资源管理:YARNHBASE分布式文件系统:HDFS,电商,论坛,第一方数据,数据收集&集成Flume/chukwa,计算层存储层,HIVE/PIG,MAHOUT,分析,挖掘分析服务挖掘和预测,Access For Hadoop,数据,数据整合,画像,

20、应用,第一方数据,第二方数据,第三方数据,产品推荐360度CRM,标准报告,特征分析,Dashboard,海量查询hive,运维管,理,日常管理,日常监控作业调度安全管理权限管理,协同管理,备份监控报警查询迁移,大V 淘,小米社区DP标签,消费者微博 竞品Page 30 宝、京东,标签服务配置(面向业务),标签配置(面向特征),特征配置(面向消费者),数据探针,数据爬取 文件传输 数据库导入导出 数据同步,数据拉通规则配置(面向数据),潜在客户,预测,竞品,API,运营支持,数据应用,数据服务,大数据应用本身采集的数据,非结构化数据,数据交换,爬取,第三方标签,DP标签库百度百科,前端展现,宏

21、观画像基于业务场景微观画像,营销领域投放人群特征营销人群特征传播人群特征.人口属性营销特征,微信营销DSP投放,用户体验用户流失预警,微博营销营销效果评估,内容推荐活动效果评估,消费者数据拉通和用户脸谱项目 - 应用架构营销 用户经营,服务,购买,产品,配置管理,数据流用户归一化、数据清洗、标注化、结构化,离线处理,短期用户标签增量用户建模 增量业务建模实时计算引擎,即时标签预测增量数据挖掘,用户标签 用户长期特征用户建模 全量数据挖掘 全量业务建模批量计算引擎 长文本分析,群体特征挖掘,用户分群,即时群体特征挖掘,即时用户拓扑动态,上网特征实时处理,潜在需求,社交图谱,移动应用,人群分发 数

22、据分发用户经营领域花粉特征群细分影响力用户发现内容特征倾向.购物偏好当前需求,投放效果评估服务领域满意度人群特征投诉/咨询特征主动服务群特征,媒介决策购买购买价格特征活动购买特征官网场景特征兴趣/爱好内容偏好,建议领袖发现,用户动态关注产品领域用户需求特征APP应用特征竞品人群特征热点关注产品情感,HBASE,Data,Bridge,Page 31,Scaleout Block,Scaleout Object,分布式存储,应用适配, Programmable接口,通用服务器,网络(交换机,路由器),存储节点,分布式处理和分析实时处理和内存计算流处理内存数据库,批处理(Hadoop)Hive,P

23、ig,MashoutHcatalogMapReduce,分布式数据库(MPPDB)SQLQuery PlannerMPP Exec,设备管理,资源管理(YARN,多户,Zookeeper),管理平面策略调度,日志留存,OLAP,视频分析,数据可视化,内容检索,数据挖掘,华为大数据一体化平台,Hadoop FS API, NFS/CIFS,Posix,ISCSI,S3ScaleoutFilesystem,Scaleout Archive云操作系统 FusionSphere /云平台,第三方大数据整体能力堆栈,华,为大数据基础架构,Page 32,第三方大数据方案:提供大数据存储、处理、分析和消费

24、平台,海量数据存储,批处理,迭代处理、实时流处理,Manager统一管理,RH2288通用X86服务器,OceanStor 9000大数据存储,数据洞察平台,数据处理平台,大数据基础设施,数据集成平台,收集清洗转换,特征/模型/挖掘/可视/服务,业务相关的应用套件(业务逻辑/决策/安全/数据开放/可视)FusionInsight HD,应用套件层,电信详单查询、经分分析、精准营销,银行全生命周期分析、历史明细、精准营销、在线征信与风控等,行业应用,公安卡口 数据分析情报分析人口管理,Page 33,第三方大数据产品架构图,HIVE,系统管理,Manager,Hadoop API,应用服务层,REST/SNMP/Syslog,安全管理,M/ROozieHDFS,HUEPhoenix,Mahout,数据管理SQL能力,保持不变,新增开源,elk新增自研,Spark/SparkStreamingYarnHBase,SolrZookeeper,数据计算数据调度数据存储,增强算法,LoaderSpark SQL,MLlib,GraphX,增强开发,HCatalogImpala InceptorSQL,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 网络科技 > 管理信息系统

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报