1、浪潮云海大数据一体机 暨云计算及大数据应用融合解决方案,云计算及大数据产品部(Bruce Lee),职业生涯简介,Bruce Lee ( 中文名: 李忠旭 ) 博士学位, 毕业于麻省理工学院和哈佛商学院,专修计算机科学和工商企业管理,致力理论联系实际,应用于日常的管理实践中。Inspur Group 云计算&大数据总监 兼任 首席解决方案架构师 Greenplum Corporation ( EMC ) 首席技术执行官 CTO 兼任 首席解决方案架构师Google Incorporated ( Google ) R&D 技术总监 兼任 GFS 首席架构师 Goldengate Corporat
2、ion ( Oracle ) R&D 技术总监,主持重大国内外项目经验,美国纳斯达克数据分析应用及决策支持项目美国纽约证券交易所指数预测分析项目美国银行数据仓库及数据分析应用(商务智能)项目美国 T-Mobil 电信公司数据经分和信令系统分析项目美国谷歌公司 R&D 项目GFS基础架构总体设计,中国建设银行新一代决策支持系统整体方案设计中国阿里巴巴集团企业级数据仓库( 支付宝)项目中国华为技术有限公司财经体系数据分析 R&A 项目中国辽宁省公安厅科技信息总队大数据分析系统项目中国公安部交通管理科学研究所大数据分析研判系统项目,EMC 数据分析事业部 (Pivotal Lab)产品研发项目(Cl
3、oud Foundry,GemFire XD,GP DB,Pivotal HD),目 录,1,3,大数据分析应用之关键技术,2,能源行业之大数据分析应用场景,大数据时代的来临,企业面临的挑战和分析需求,云计算、移动计算、社交媒体和大数据分析推动产生新的计算模式。该模式进而引发业务转型以提升效率, 促进法规遵从,提升整体业务可持续性以及以客户为中心。,Gartner 发布的 2012 技术趋势,互联网商业模式对传统行业的冲击,数据处理的难题及大数据革命,收集、存储和分析数据的能力在信息技术带来的影响中始终占有重要一席。在这个数字化程度日益提高的时代,您所做的每件事都会有一个电子记录。随着企业积聚
4、的数据越来越多并达到数百TB,他们纷纷寻求更加尖端的软件工具对数据进行挖掘和分析,从而帮助企业更好地了解市场和客户,甚至是帮助企业对未来作出预测。,您如何收集和存储数据? 您如何传输数据? 您如何分析数据? 您如何从数据获益?,大数据时代带来的思考 ,新时代需要一个全新的计算平台,互联网平台时代,第三代 IT体系的代表,互联网公司采用的是PaaS,DevOps来实现创新,虚拟化,运维自动化,PaaS,传统IT,Startups,时间,期望值,Innovation Gap,Cloud,Client-Server,互联网公司,DevOps, CD/CI, Agile, MicroService,大
5、数据时代行业商机无处不在!,大数据行业应用 社交媒体,大数据行业应用 电商平台,大数据行业应用 互联网平台,大数据行业应用 风力涡轮发电系统管理监控,以毫秒级捕获传感器数据(如:主轴传感器、齿轮箱传感器和定子传感器等),监控单台风力发电机运行状态 以秒级捕获传感器数据,监控风机位置、彼此协作情况,保证发电场以最优状态工作 以分钟级捕获传感器数据,监控输电状态、效率,大数据行业应用 工业互联网,资产管理 零部件库存管理 资产管理 供应链自动化 工作范围的自动化 场力优化 监控和诊断 状态检修 停电管理 资产生命周期管理,操作优化 物流管理 控制和工厂自动化 燃料消耗的优化 排放管理 法规遵从 健
6、康&安全保证 运营管理与监测系统 网络吞吐量的优化 终端客户信息服务,云计算改变IT,大数据应用重在创新,工业互联网和工业大数据特点,基于分布式内存计算技术的IOT逻辑架构,云计算改变IT,大数据应用重在创新,云计算侧重 资源管理,而大数据侧重 业务应用。 云计算资源池化的管理模式是大数据应用的前提。 云计算提供的存储和计算资源池可动态支撑大数据分析业务不断变化的需求。,目 录,1,3,大数据分析应用之关键技术,2,能源行业之大数据分析应用场景,大数据时代的来临,大数据分析应用的数据内容及实现技术,应用平台提交请求访问的数据,包括结构化和非结构化两类,在线存储周期超过数据生命周期规划的数据 适
7、合Hadoop分布式架构管理,无法用二维表结构来逻辑表达的无结构性的数据。例如文本、音频数据等。 适合Hadoop架构,方便用数据库的二维表结构来逻辑表达实现的数据,数据结构字段含义确定,清晰。例如:客户信息、用电记录等。是挖掘数据价值的主要对象。,支持分析型应用,时效性较低,支持前台交易系统查询需求,具有可靠性高、并发度大、采集频率短的特点 适合分布式内存数据处理技术,数据类别,数据格式,数据采集频度,大数据分析应用的数据内容及实现技术,在线数据,归档数据,非结构化数据,结构化数据,准实时数据,非实时数据,面向贴源数据查询和主题数据整合。 数据区,适合X86MPP数据库集群,范式化模型数据,
8、面向分析类应用。 对应ADW,适合MPP数据库集群,维度模型数据,数据模型,大数据分析应用的关键核心技术,大数据分析套件组合:(完善生态链)关系型数据库, NoSQL, 流计算,SQL on Hadoop, OLAP on Hadoop, OLTP on Hadoop,Cache 缓存,In-Memory DB, In-Memory Data Grid,非关系型数据库,等等 。,大数据分析应用的关键技术之一,分布式内存数据库,MPP 分布式数据库,流式处理,Hadoop 分析框架体系,大数据分析应用的关键技术之一,PaaS 平台弹性运行时环境,IAAS Interface,PaaS 运行时环境
9、,Services Interface,PaaS Service,应用中间件,Hadoop,消息中间件, ,SQL 数据库,NoSQL 数据库,安全管理,资源管理,配置管理,服务目录,服务管理,性能监控,资源监控,存储设备,计算资源池,存储资源池,网络资源池,计算机,网络设备,分析研判类应用,预测预警类应用,动态监控类应用,信息处理类应用, ,大数据时代平台产品的关键能力,开放弹性架构,真正无共享的海量并行处理架构 工业标准的X86平台 服务器资源按需分配,按需搭建集群,按需缩放集群规模,在线线性扩展,增加节点可线性增加存储、查询和加载性能 支持在线扩容,扩容期间保证系统继续对外提供服务,拥有
10、成本可控,保证用户不被专有平台锁定 企业初期投入和后续扩容的成本可控,海量并行处理,支持PB级的数据处理、存储和访问 在数据加载、处理、访问等各个环节最大化并行处理能力,优秀混合负载,按需分配资源(CPU、内存、IO) 动态调整资源,平台持续可用,数据镜像、硬件冗余等多种容错技术保证系统高可用 故障切换和恢复,对用户透明 扩容期间可持续对外服务,易于管理维护,直观的图形化界面,实时的状态监控 最大限度降低管理员的日常管理和维护工作,大数据时代催生 PaaS 平台的变革,IaaS: 硬件的自动化管理,人与机器的解耦合 获得效率/牺牲性能PaaS:应用的自动化管理,应用与OS的解耦合 获得弹性/牺
11、牲控制,业务创新需要重新定义企业级 PaaS,支持开放标准并与开源有效互动 强调以数据为中心兼顾各种数据类型处理 充分关注新一代开发人员和新一代企业级应用的需求 为有效进行实时大容量信息处理而设计 同时兼顾与传统应用的互操作性 与传统技术的有效结合,创新:以数据支撑为中心,未来大数据分析应用的 PaaS 平台发展方向,New Data-fabrics,Internet-of-things Pervasive telemetry,Open Data Platform,Cloud Abstraction & App Automation,面向数据的企业级 PaaS平台,快速应用开发,在收集数量庞大
12、的事件数据的同时对特定事件进行实时反应,与传统应用和基础 架构有机配合,配合不同云计算平台实现高效运维和水平扩展,存储并且在非常大量的数据上 进行分析,行业大数据分析应用的数据架构设计,大数据时代云计算及大数据融合架构全景图,计算,存储,网络,应用运行环境,云平台管理,云平台安全,应用开发接口,资源和服务交付,统一访问门户,应用容器,虚拟机,服务器虚拟化,存储虚拟化,网络虚拟化,公有云接口,iVirtual,vSphere,Nova,XenServer,PowerVM,分布式文件系统,分布式块存储,分布式对象存储,SAN存储网关,Open Flow,vxLan,vSwitch,AWS,ACE,
13、Azure,GAE,流处理,内存数据库,Hbase,Yarn,MapReduce,Hive, Pig, Mahout,SQL,Data Distribute,Query Planner,MPP Exec,Load Balancer,分布式缓存,消息中间件,RDBMS,vRoute,大数据分析应用的 PaaS 平台产品组合,实时的数据处理,Run-Time Applications,企业级数据仓库,大规模数据存储,实时的数据 捕获和共享,分析型数据集市,大数据分析应用的资源池拓扑图,存储系统,备份系统,存储系统,备份系统,K-HA,K-HA,K-HA,K1 -1,K1- 2,K1 -3,K1-
14、4,K1 -5,K1- 6,TS860,TS860,TS860,TS860,核心交换机,虚拟化(非关键应用)资源池,物理(核心业务系统)资源池,物理(大数据分析应用)资源池,大数据分析应用系统架构,系统管理体系 ( 日志审计、用户管理、运维监控 ),计算资源池,存储资源池,网络资源池,平台层 (PaaS),数据 存储层,数据 准备层,数据 处理层,数据 服务层,分布式文件系统,MPP 数据库,分析模型,算法引擎,挖掘工具,应用层(SaaS),基础设施(IaaS),应用层(SaaS),分析研判类服务,预测预警类 服务,动态监控类服务,信息处理类服务,大数据分析研判系统门户,运营状态监控,决策分析
15、预警,安全保障体系 ( 访问权限控制,防病毒、防入侵 ),内存计算,RDBMS,数据块,数据立方体,数据集市,基础设施(IaaS),流式处理,客户精准营销,系统管理体系 ( 日志审计、用户管理、运维监控 ),安全保障体系 ( 访问权限控制,防病毒、防入侵 ),服务总线,风险模式识别,PaaS平台弹性运行时环境,云数据中心管理平台,目 录,1,3,大数据分析应用之关键技术,2,能源行业之大数据分析应用场景,大数据时代的来临,大数据产品线规划和产业定位,大数据分析一体化产品提供商,大数据产品线的保障体系,大数据一体机产品定位及软硬一体化设计方案,计算单元: 采用Intel最新 Xeon E5 v3
16、系列处理器,性能相比上一代产品提升 2倍 FPGA 加速卡+CPU对比纯CPU性能那个提升 10+倍 系统进行内存调度算法优化,增强 内存访问速度 采用全文检索、动态页面生成等技术提供 ms级查询响应,存储单元: 优化文件系统热点数据读取算法,整机磁盘I/O高达 500+MB/s 小文件聚合技术,解决小文件快速写入问题 SSD 加速缓存与传统磁盘比较读性能提升 20倍,通信单元: 节点间通信网络采用远程直接数据存取技术,能够支持 1000+节点 之间同时的大数据量传输 节点间网络采用 40Gb/s 高速网络,网络延迟低至 us级,MPP 数据库:DaaS 的计算引擎,企业级数据仓库,分析型数据
17、集市,Greenplum DB: Data as a Service的计算引擎,Gartner 公司每年发布关于数据仓库管理系统业界地位的魔法象限研究报告 报告主要从数据仓库厂商的执行力和远景两个方面评估 评估对象包括传统的企业级数据仓库和新一代的 MPP 并行数据库厂商,支持各种规模、有大量并发用户、能管理混合工作负载的数据仓库 具备较高的客户满意度和强有力的服务支持 在数据仓库市场有长久的生命力 风险最低、产品成熟度最高,Gartner 对领导者象限的评价,采用前瞻性思维设计的数据仓库 较小的市场领导者,缺乏全球性发展 缺少较大的本地客户,因此不易证明其产品的功能和价值 在产品技术领域,某
18、些特性具备前瞻性,但综合能力需要完善,Gartner 对远见者象限的评价,MPP 数据库:极速分析平台,并行处理架构 MPP shared-nothing 架构,基于通用X86平台 PB级以上海量存储,最大支持10000节点以上 所有节点并发IO,实现超大IO吞吐,并行运行SQL自动化并行 自动化并行计算,实现超大计算能力 使用同传统DB一样,加载和运行SQL 数据多节点分布及高可用性都由DB自身实现极佳的横向扩展性 在线横向扩展 容量、加载和SQL查询性能随节点线性增加 专为BI及数据分析优化 深度整合统计数学模块(SAS, SOLR, MADLIB, R) 高性能并行SQL执行器,MPP
19、shared - nothing 架构,构建在X86开放平台上的并行处理架构,MPP 数据库:行业最快的数据加载技术,每个Rack(16节点),每小时16TB加载性能Scatter-Gather Streaming提供性能线性扩张支持大批量数据加载和持续化的数据加载Enable complex data transformations “in-flight”对GBK/UTF8/ISO8859字符集的原生支持,Single Rack Comparison,Greenplum load rates scale linearly with the number of racks, others do
20、 not. For example, two racks = 32 TB/H,Load,MPP 数据库:高可用性,提供了全量备份和增量备份功能,保证系统级故障后的数据恢复对于任一设备的故障,系统数据不丢失、提供持续服务多个节点宕机后,系统性能只降低1/6,MPP 数据库: 负载管理技术,查询层 对运行的查询提供基本的优先级管理 对CPU内存IO利用率进行定额分配 控制单个查询并发度,会话层 每个用户能够分配一个资源队列管理工作 允许控制查询和查询代价,数据库连接层 控制多少用户可以连接。 提供的池(允许大量)和(限制数量),MPP 数据库:Polymorphic Data Storage (
21、多态存储 - 同时支持行存储及列存储 ),Column-Oriented Archival Compression,Column-Oriented Fast Compression,Row-Oriented,提供灵活存储技术四种表类型: 普通行表, AO表, 列存储表, 外部表两种压缩技术: Gzip (levels 1-9), QuickLZ同一库内甚至同一个表中多种存储技术混合使用灵活定义不同表分区存储结构只需定义关键字orientation=row|column允许用户根据不同应用场景,达到最优性能效果,MPP DB 与 HD 通过gNet无缝集成,通过标准接口或编程语言,透明访问数据库
22、和Hadoop内部存储的数据 。,大数据一体机 SDA 50000,大数据分析系统软件:MPP 数据库应用场景 : 数据仓库应用 / OLAP 多维分析,大数据分析应用的关键技术之一,大数据分析套件组合:(完善生态链)关系型数据库, NoSQL, 流计算,SQL on Hadoop, OLAP on Hadoop, OLTP on Hadoop,Cache 缓存,In-Memory DB, In-Memory Data Grid,非关系型数据库,等等 。,大数据分析应用的关键技术之一,SQL on Hadoop 最初的设计定位:专为分析完整事务支持而优化的大规模并行SQL处理引擎 。,大数据分
23、析应用的关键技术之一,SQL on Hadoop 技术的重要特性和优点:,高度扩展和存储系统 业界领先的性能与动态流水线 弹性故障容错和事务支持 数据管理和分析工具包 真实的SQL功能,基于成本的世界一流查询优化、领先的边缘网络互连 、功能丰富的SQL和分析界面 、并配有事务性存储子系统的高性能执行运行时间 ,是唯一 能够提供此技术的 Hadoop 查询引擎 。,大数据分析应用的关键技术之一,Hadoop 分析框架体系,HDFS,HBase,Pig, Hive, Mahout,Map Reduce,Sqoop,Flume,Resource Management & Workflow,Yarn,
24、Zookeeper,Spring,Unified Storage Service,Xtension Framework,Catalog Services,Query Optimizer,Dynamic Pipelining,ANSI SQL + Analytics,Hadoop Virtualization Extension,MADlib Algorithms,HAWQ Advanced Database Services,大数据产品线 大数据一体机 SDA 60000,大数据分析系统软件:Hadoop 系统应用场景: 海量数据离线批处理 / 查询分析,大数据分析应用的关键技术之一,分布式内
25、存数据库,大数据一体机 SDA 80000,大数据分析系统软件(分布式内存数据库):应用场景:海量数据高并发查询 / 实时事务处理,PaaS 平台的核心组件 Cloud Foundry 企业版,Cloud Foundry 企业版的主要功能 跨云部署机制,PaaS 平台弹性运行时环境 Cloud Foundry,大数据一体机 SDA 90000,计算单元,分布式数据处理模块,大数据存储模块,加速器,高速交换网络,可视化管理,大数据分析处理 PaaS 平台,大数据分析 SaaS 应用,预测预警类服务,动态监控类服务,信息处理类服务,存储单元,网络单元,大数据分析 PaaS 平台(一体化集群部署方案
26、)应用场景: 海量数据 存储 / 分析 / 查询 / 开发,弹性运行时环境模块,数据服务总线,API 接口,分析研判类服务,公安行业信息化特点,公安行业面临的严峻形势和挑战,公安行业大数据应用整体解决方案,公安行业大数据分析平台建设内容,大数据分析平台分层模型,大数据分析应用检索工具库,大数据分析应用资源库建设之一,整合海量内外部异构数据资源,按要素、主题实现异构数据的集中管理,形成统一的大数据视图,为上层应用提供大数据资源服务。,大数据分析应用资源库建设之一,以公安要素模型为基础,以人和案件为核心,对海量数据进行划分和组织,为上层分析模型服务,进而提供分析、预测、预警等大数据服务。,大数据分
27、析业务场景之一,大数据分析应用场景 轨迹分析/关联比对,通过出行轨迹、车辆轨迹、住宿轨迹等动态轨迹信息综合研判,发现潜在线索与隐藏关系,为公安干警打击、预防犯罪提供支持 。,大数据分析 Hadoop / 开发框架 应用场景,大数据分析 专题库 / 数据资源 整合应用场景,大数据分析 业务专题 / 数据总线 应用场景,大数据分析应用平台资源池拓扑图,存储系统,备份系统,存储系统,备份系统,K-HA,K-HA,K-HA,K1 -1,K1- 2,K1 -3,K1- 4,K1 -5,K1- 6,TS860,TS860,TS860,TS860,核心交换机,虚拟化(非关键应用)资源池,物理(核心业务系统)
28、资源池,物理(大数据分析应用)资源池,大数据分析应用平台系统架构,安全保障、运维体系,计算资源池,存储资源池,网络资源池,平台层 (PaaS),数据 存储层,数据 准备层,数据 处理层,数据 服务层,分布式文件系统,MPP数据库,分析模型,算法引擎,挖掘工具,应用层(SaaS),基础设施(IaaS),应用层(SaaS),分析研判类服务,预测预警类 服务,动态监控类服务,信息处理类服务,大数据分析研判系统门户,反恐维稳,服务民生,犯罪模式识别,公安信息网安全保障体系(PKI/PMI,防病毒、防入侵),内存计算,RDBMS,数据块,数据立方体,数据集市,基础设施(IaaS),流式处理,路况预警,系统管理平台(日志审计、用户管理、运维监控),公安信息网安全保障体系(PKI/PMI,防病毒、防入侵),服务总线,热点地区识别,PAAS平台弹性运行时环境,云数据中心管理平台,公安交警大数据分析应用经典案例,2014年8月1日,浪潮集团与公安部交通管理科学研究所在济南举行战略合作签约仪式 。,浪潮电子信息产业股份有限公司与公安部交通管理科学研究所建成了“云计算和大数据应用联合实验室”,双方将共同致力于云计算技术、大数据分析技术在交通安全管理工作中的研发和应用,提升交通管理信息化水平 。,