收藏 分享(赏)

大数据整体解决方案.pptx

上传人:IT人 文档编号:1420741 上传时间:2018-07-15 格式:PPTX 页数:50 大小:4.80MB
下载 相关 举报
大数据整体解决方案.pptx_第1页
第1页 / 共50页
大数据整体解决方案.pptx_第2页
第2页 / 共50页
大数据整体解决方案.pptx_第3页
第3页 / 共50页
大数据整体解决方案.pptx_第4页
第4页 / 共50页
大数据整体解决方案.pptx_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、,大数据整体解决方案,目录,大数据基本介绍企业大数据建设数据库技术基础大数据解决方案,互联网工厂:生产型企业向服务型企业转型1.售前:精准广告投放、热力图、产品定制2.售中:生产过程可视化3.售后:运行数据分析,高效服务,大数据时代,专业咨询公司IDC对大数据特征的定义-4V,大数据的基本特征,大数据的价值,数据来源错综复杂,数据挖掘模型建立,数据开放与隐私权衡,大数据管理与决策,大数据人才缺口,现如今几乎任何规模企业,每时每刻也都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。,关于大数据分析,人们鼓吹其神奇价值的喧嚣声浪很高,却鲜见其实际运用得法的模式和方法。造成这种窘境的原因主

2、要有以下两点:一是对于大数据分析的价值逻辑尚缺乏足够深刻的洞察;其次便是大数据分析中的某些重大要件或技术还不成熟。,我国一些部门拥有大量数据但宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资.,在今时今日的商业世界中,高管的决策依然更多地依赖个人经验和直觉,而不是基于数据。,大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂智慧、懂技术、懂管理的大数据建设专业队伍,大数据的挑战,大数据产业链,目录,大数据基本介绍企业大数据建设数据库技术基础大数据解决方案,数据仓库,全文库,关联库,专题库,基础数据,应用数据,配置数据,数据质量检测,数据资源监控,数据资源目录,

3、数据价值评价,企业数据交易,咨询报告交易,数据分析服务,数据变现,结构化库,全文库,音视频库,元数据库,数据字典,数据安全管理,Hadoop/Spark,MPP分布式数据库,数据标准管理,企业级数据运营,大数据平台,大数据人才建设,企业大数据架构,数据管理,企业大数据建设目的:(1)大规模历史数据可靠存储、安全访问、高效查询平台;(2)大数据价值挖掘应用。企业大数据建设三步:(1)技术升级;(2)数据整合;(3)数据变现。,大数据建设步骤建议,数据变现,数据整合,技术升级,第一阶段,第二阶段,第三阶段,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL支持能力;用Hadoo

4、p实现半结构化、非结构化数据处理。这架构可同时满足结构化、半结构化和非结构化数据的处理需求。,大数据应用,第一阶段:技术升级,第二阶段:数据整合,企业数据,外企业数据,数据源,互联网数据,数据仓库,全文库,关联库,专题库,数据管理,基础数据,应用数据,配置数据,数据质量检测,数据资源监控,数据资源目录,数据价值评价,结构化库,全文库,音视频库,元数据库,数据字典,数据安全管理,数据标准管理,第三阶段:数据变现,企业数据交易,咨询报告交易,数据分析服务,数据变现,企业数据交易。企业内部数据和数据分析结果很多时候是其他企业的业务基础,企业把内部数据和分析结果经过加工、脱敏等处理后,作为商品通过大数

5、据交易平台(如贵阳大数据交易所)提供给第三方机构使用,变现数据价值。咨询报告交易。由专业的研究员对数据加以分析、挖掘,找出行业的定量特点进而得出定性结论,这些咨询报告面向社会销售。数据分析服务。用户利用企业的大数据平台提供的丰富算法和模型,进行数据处理、数据统计、数据挖掘和结果输出等,数据集由系统统一进行管理,区分私有和公有数据,可以保证私有数据只供持有者使用。,目录,大数据基本介绍企业大数据建设数据库技术基础数据类型及行业分布MPP分布式数据库Hadoop分布式计算数据库技术对比大数据解决方案,结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,特点:结构固定、数据定

6、长.,半结构化数据:就是介于完全结构化数据和完全无结构的数据之间的数据,如:HTML、XML。它是结构化的数据,但是结构变化很大。用XML格式来组织并保存到CLOB字段中,XML可能是最适合存储半结构化的数据了。将不同类别的信息保存在XML的不同的节点中就可以了。,非结构化数据:像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个BLOB字段中,对以后检索非常麻烦。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。现在还有很多非结构化数据的处理工具,市面上常见的

7、内容管理器就是其中的一种。,数据类型,大数据,4个V,文件报表邮件纳税分析决策支持预测结构化+半结构化,公安网监国安技侦舆情监控银监会稽查食品溯源环保监测结构化+半结构化,音视频地震勘探气象云图卫星遥感雷达数据物联网非结构为主,行业大数据的体量与互联网大数据的体量相当,在一个数量级上行业大数据的价值密度高于互联网数据行业大数据为数据库厂商带来的商业机会和商业价值高于互联网大数据。,行业大数据,ZB级,互联网大数据,经营类,管理类,监管类,专业类,电信信令电信话单金融细账金融票据电力调度智能电网经营分析结构化为主,10%结构化30%半结构化60%非结构化价值密度结构化半结构化非结构化,行业与互联

8、网数据,目录,大数据基本介绍数据库技术基础数据类型及行业分布MPP分布式数据库Hadoop分布式计算数据库技术对比大数据解决方案,memory,CPU,CPU,disks,memory,CPU,CPU,memory,CPU,CPU,Interconnection Network,Shared storage:SAN,NAS,数据,传统数据库Shared Disk架构,disks,disks,memory,CPU,CPU,Interconnection Network,数据,数据分布策略Hash,Range,Random,MPP架构横向扩展最多192个节点,MPP数据库Shared Nothin

9、g架构,MPP Cluster大规模并行计算,统一接口层收到上层发送的查询请求,根据指定的集群节点或经过负载均衡后选出的集群节点,将SQL发送至指定节点的GCluster层。收到请求的节点GCluster层负责对SQL进行词法、语法检查,进行查询优化,生成分布式执行计划,将生成的分布式执行计划发送至集群相关节点的GNode层进行执行。GCWare层对各节点当前状态进行监控,保证分布式查询计划可以正确执行。集群各节点GNode层对执行计划进行解析和执行。涉及到数据在不同节点间的搬运、结果汇总等操作通过GCluster层进行统一调度,GCWare层在各节点执行过程中对节点状态进行监控,各节点将最终

10、执行结果发送至SQL发起节点进行汇总,再通过统一接口层返回给上层应用。,高可用性SafeGroup,数据2个副本Replicator/复制引擎,一个safegroup,动态扩展能力,GBase Clusterdatabase,通过Safegroup 动态扩展集群节点 可以实际扩展到64x3个节点 每个节点可以处理10-20TB有效数据 每个节点同时提供计算和存储能力 Gcware 负责新节点的数据同步,目录,大数据基本介绍数据库技术基础数据类型及行业分布MPP分布式数据库Hadoop分布式计算数据库技术对比大数据解决方案,实时计算,内存计算,分布式文件系统HDFS,批处理MapReduce,数

11、据库HBase,Hive,Pig,内存计算Spark,Shark,Streaming,消息队列Kafka,流处理Storm,资源管理YARN,离线计算,Hadoop基于X86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储,提供低时延、高并发的查询功能,集群可以扩展到上千台服务器。资源管理YARN:改进的YARN统一资源管理,在同一物理主机/虚拟主机和数据集上运行多种计算框架,包括离线计算、内存计算和实时计算。分布式文件系统HDFS:分布式文件系统,有较强的容错性,可在x86平台上运行,减少总体成本,可扩展,能构建大规模的应用离线计算: MapReduce是一种离线计算框架,将一个算

12、法抽象成Map和Reduce两个阶段进行处理,适合数据密集型计算场景。内存计算:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘计算框架,而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。实时计算:MapReduce也不适合进行流式计算、实时分析,比如广告点击计算等,而Storm则更擅长这种计算、它在实时性要远远好于MapReduce计算框架。,Hadoop分布式计算,HDFS分布式文件系统,HDFS设计理念大规模数据集横向线性扩展硬件错误是常态复本冗余机制流式数据访问批量读而非随机读Master/Slave主从架

13、构namenodedatanode,HDFS数据块和副本,复本考量数量布局可靠性、写入带宽、读取带宽折中默认复本数3默认布局第1个放在客户端所在节点第2个不同机架第3个与第2个同一机架很好的稳定性、负载均衡,较好的写入带宽、读取性能,块均匀分布,批处理Map/Reduce,一个并行计算的框架提供并行计算能力,随着节点数增加近似线性递增分而治之的思想两个核心操作map和reduceMap操作就是把一组数据一对一的映射为另一组数据reduce操作就是整合全文每个单词出现的次数,Hadoop Map/Reduce,Hadoop MapReduce为批处理而设计,以磁盘为中心的计算框架数据每次都需要从

14、HDFS文件系统中读出计算的中间结果都被写入磁盘,任务中间结果必须经过磁盘不适合交互式或者迭代式计算复杂运算极为耗时,MapReduce的调度框架为长时间任务设计MapReduce的调度框架为长时间任务设计启动开销过大,没有索引,全数据扫描,内存计算Spark,Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适

15、用于数据挖掘与机器学习等需要迭代的map reduce的算法Spark特点中间结果内存存储合并任务流,不是Hadoop的一个变种(e.g., Tez, HaLoop, etc)全新的,高速的,类似Map/Reduce的分布式计算引擎支持将数据缓存在内存中,为迭代式查询优化,通用DAG执行和调度,支持延迟计算和高效优化轻量级的调度框架和多线程计算模型,极低的调度和启动开销比Hadoop快10x100x兼容Hadoop存储API可以读写存储在HDFS或HBase上的数据支持其他数据源,需要实现Hadoop InputFormat,实时计算Storm,信息流处理,分布式远程程序调用,连续计算,目录,

16、大数据基本介绍数据库技术基础数据类型及行业分布MPP分布式数据库Hadoop分布式计算数据库技术对比大数据解决方案,一种架构支持多类应用 (One Size Fits All),M. Stonebraker,多种架构支持多类应用,大数据时代,架构多元化,基于Stonebraker教授的论文。传统数据库的基本架构是30年前以事务处理为主要应用设计的。大数据的主要应用是分析类的,应采用新的技术架构。行业的技术大思路应该由“一种架构支持所有应用”转变成“多种架构支持多类应用”。数据库行业出现三个互为补充的三大阵营,OldSQL、NewSQL和NoSQL。 (斯教授主创的数据库产品Ingres、Inf

17、ormix、PostgreSQL和Vertica),大数据引发处理架构变革,OldSQL vs. NewSQL vs. NoSQL,列存储区别传统行存数据库,数据在磁盘中按照列的方式迚行组织和物理存储。行存储架构和列存储架构的数据库分别适用二不同的应用,具备各自的优劣势,如下图所示。列存储架构对查询、统计和分析类操作具备天然的优势。,只需要将涉及到的列写入内存,大量降低I/O。以列为单位进行压缩,由二数据类型的一致性,方便进行压缩,实现高压缩比。在数据包内自劢建立索引,实现数据即索引。行存储架构癿优势在于事务操作,即对数据库进行增删改操作,若没有索引,其查询需要使用大量的I/O,并且建立索引和

18、物化规图需要花费大量的时间和资源。,列存储 vs 行存储,能够按照数据类型和数据分布规律自动选择最优压缩算法,并设置了库级,表级,列级压缩选项,灵活平衡性能不压缩比的关系,而且压缩与解压缩过程对用户是透明。,压缩比可达到1:5 至1:20 甚至更优,远远高于行存储。节省50%-90%的存储空间,大大降低数据处理能耗。内置数十种不同等级的压缩算法,上图展示了一种对数值型数据的压缩算法。压缩态下对I/O 要求大大降低,数据加载和查询性能明显提升。,列存储数据压缩,粗粒度索引,每个数据包在加载数据时自动建立,包含过滤信息和统计信息,在数据查询时只需要解包就能得到统计值,可进一步降低I/O,对复杂查询

19、癿优化效果明显。,表中的所有列自动建立。不需用户手工建立和维护。索引本身占空间很少,扩展性很好,建立索引后无膨胀。建立索引的速度快,后续的数据包建立索引的速度不会受到前面数据包的影响。,列存储智能索引,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,列1,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,列2,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,列3,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,DC,列n,最大值,最小值,平均值,索引:数据包统计信息,最大值,最小值,平均值,最大值,最小值,

20、平均值,最大值,最小值,平均值,列存储结构,NewSQL事务型 引跑DBOne行存标准SQL,PL/SQL适合:增删改查,NoSQL分析型HBase列存SQL30%适合:增加和查询,NewSQL分析型南大Gbase/HP Vertical/GP列存/压缩/索引适合:增加和查询标准SQL,去IOEX86本地存储Scale out,数据库小结,目录,大数据基本介绍企业大数据建设数据库技术基础大数据解决方案,DataEngine大数据架构,兼容性好:基于开源Hadoop分布式计算框架,提供开放、兼容的大数据计算能力;硬件无关:支持物理机布署、虚拟机布署;支持独立布署、云平台布署;安装便捷:支持一键式

21、快速布署,几分钟即可完成集群创建;扩展性强:集群数量从几台到上千台,并支持在线横向扩展;方便运维:支持图形化管理工具,运维管理简单易用;兼容SQL:100兼容标准SQL92,包括Hadoop和MPP,Linux操作系统,X86服务器集群,资源管理YARN,任务调度Oozie,安全管理Kerberos,文件系统HDFS,集群安装布署,消息队列Kafka,数据管理,可视化数据挖掘,离线计算MapReduce,MPP数据库,HBase数据库,统一用户管理,自助服务,Hive数据仓库,同步系统ZooKeeper,内存计算Spark,流计算Storm,数据交换,全文检索,工作流管理,集群监控管理,大数据

22、应用,DataEngine大数据平台,统一安全管理,SQL即席查询,DataEngine : Hadoop+,40,原生Hadoop是一套分布式计算框架,可以处理低价值密度半结构化、非结构化数据,不能处理高价值密度的关系型结构化数据。原生Hadoop是一个开源生态圈,商用化需要经过二次开发,提高稳定性、可靠性、安全性、易用性等,提供数据从ETL采集到可视化BI展示的端到端解决方案。随着Hadoop的发展,用户对Hadoop有了更高的期待,对云与大数据融合、大数据与安全融合、网络对大数据支撑等提出了新的要求。,开放兼容,MPP数据库,自动安装,混合架构,云平台融合,多业务,高可靠,因此,H3C在

23、Hadoop基础上进行了大量优化,并与H3C其他产品线高度融合,提供端到端的大数据解决方案。,基于开源Hadoop架构增强开发,可以快速集成开源社区优秀组件;提供标准API,兼容标准SQL,便于大数据应用开发、数据分析挖掘,为ISV提供良好开发接口;,提供自主服务,统一用户管理、统一安全管理、工作流管理、数据管理、可视化数据挖掘以及BI等业务能力。,优化集群部署方式,提供自动安装功能,支持分钟级交付集群;集群规模灵活,集群主机可以从3台到上千台横向扩展;支持图形化管理工具,运维管理简单易用。,采用Hadoop+MPP混合架构,对结构化数据和非结构化数据差异化处理;解决Hadoop与MPP运维管

24、理融合以及集群间高速通道的搭建,对上层提供统一服务。,可以与H3Cloud集成,通过云平台为大数据分配和管理计算资源,提供多租户服务。,提供管理节点HA、服务节点HA、数据多备份以及灾备机制,DataEngine_MPP分布式数据库采用Shared Nothing 技术,具有如下技术优势:列存储、高效压缩、智能索引、并行加载、数据安全组、横向扩展。,华三云平台,VM,VM,VM,VM,VM,VM,云资源池,应用下发/监控/管理/部署,云平台集成及多租户,一键部署,分钟级交付,主节点:一键下发指令、自动安装部署,Hadoop集群,MPP集群,其他组件,细颗粒度在线水平扩容,管理节点,Hadoop集群(3台即可),MPP集群(4台即可),其他组件,可按1-2个节点为最小单位进行批量在线扩容,动态扩展,可视化运维,安装部署集群管理主机管理服务管理用户管理告警监控,多维度监控告警,多维度监控(节点、服务、组件)告警类型丰富(CPU、内存、硬盘)可自定义告警组自定义告警通知类型 (SNMP、EMAIL),数据管理,全文检索,学生画像,BI展示,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 网络科技 > 管理信息系统

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报