收藏 分享(赏)

面向大数据数据处理的解决方案.pptx

上传人:IT人 文档编号:1419908 上传时间:2018-07-15 格式:PPTX 页数:43 大小:2.19MB
下载 相关 举报
面向大数据数据处理的解决方案.pptx_第1页
第1页 / 共43页
面向大数据数据处理的解决方案.pptx_第2页
第2页 / 共43页
面向大数据数据处理的解决方案.pptx_第3页
第3页 / 共43页
面向大数据数据处理的解决方案.pptx_第4页
第4页 / 共43页
面向大数据数据处理的解决方案.pptx_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、面向大数据数据处理的解决方案,1,Harmonious 云计算中心 (位于横滨第3中心内),采用基于丰富业绩的高可靠性、高安全性、环保型技术,Hitachi Virtual Storage Platform,能够应对磁盘驱动器双重故障的RAID6,数据中心运营服务,BladeSymphony,采用独特的硬件虚拟化辅助结构, 物理服务器、虚拟服务器的构成信息进行一元化管理,有机地连接各个分散系统,服务器虚拟化结构Virtage,JP1,其他( Cosminexus、HiRDB ),服务器,中间件,存储,冗余话的高可靠性模块,能够检测异常的管理模块,能够在不停机的状态下更新固件,模块型数据中心,约

2、43,000家客户(中国30个城市、500家客户)参与该市场,100个种类以上丰富的产品线,TWX-21,其他( Shareresearch、 FINEMAX、HIPLUS等),菜单,向1000家公司以上的客,户提供着服务,支撑IT系统/服务的平台以及应用产品,Twx-21,云计算,大型存储系统市场份额位于世界前列,日本国内运行管理软件市场份额No.1 (连续14年),日本最大规模的 e Market Place,1.致力于Big Data的数据处理及创造新的价值,Contents,2.面向大数据处理的产品及解决方案的介绍,3. 流数据处理平台,面向大数据处理的产品及解决方案的介绍,4.内存数

3、据网格,5.按时间顺序存储的数据库,6. 高速数据访问平台,7. 总结,1.致力于Big Data的数据处理及创造新的价值,面向大数据处理的产品及解决方案的介绍,信息爆炸时代的降临与IT商业领域的新方向,4,-,信息爆炸时代的降临与IT商业领域的新方向,5,-,致力于Big Data技术及从中勘探新价值,6,-,.面向大数据处理的的产品及解决方案的介绍,面向大数据处理的产品及解决方案的介绍,有效利用Big Data的前提条件,8,-,有效利用Big Data的前提条件, 通过实时监视和实时处理, 高效压缩数据并可高速查询, 集成分析数据挖掘有用信息,对现状进行实时的把握,得出适合自己的服务,从

4、中获得新的发现,数据中心,网络购买,金融交易记录,电力测量仪器数据,卡利用,博客,自动检票口,海量的数据必须经过处理后才能发挥其作用,为有效利用Big Data而提供的数据处理平台,9,-,面向Big Data数据处理的中间件和硬件,海量信息的实时处理,1.实时处理,对海量信息进行分析,3.集成与分析,uCosminexus Stream Data Platform,uCosminexus Elastic Application Data store,Hitachi Advanced Data Binder Platform,Hadoop,uCosminexus Grid Processing

5、 Server,流数据处理平台,高性能内存数据网格,网格计算,高速数据访问平台,uCosminexus Stream Data Platform/Data Store,按时间顺序存储的数据库,大量数据处理平台的相关产品及解决方案,10,-,以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,SQL:Structured Query Language,CQL:Continuous Query Language,OSS:Open Source Software,大量数据处理平台的使用效果,11,-,采用内存数据网格处

6、理技术对磁盘型的访问提高了约倍,流数据处理平台,非序列操作方式1提高了数据的输入输出效率,比原来快了约倍,高速数据访问平台,按时间顺序分割,通过数据压缩存储使得存储的容量削减到约通过特征点索引提高数据查询速度約倍,按时间顺序存储的数据库,内存数据网格,:以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,(注)实际效果根据数据内容,处理内容有差别,3. 流数据处理平台,面向大数据处理的产品及解决方案的介绍,什么是流数据处理,13,IT的瞬发力 像是拥有神经系统的反射能力一样的IT系统,以往的IT系统,对存储起来的

7、膨大数据进行集成与分析大脑的处理,在数据生成的同时,就对其进行集成与分析 反射神经系统,现实世界中发生的海量数据,从数据分析中了解到正在发生什么将要发生什么,POINT,流数据处理,得出对“过去”的分析结果,从数据分析中了解到过去什么了发生,得出对“现在”的分析结果,不间断地输入数据,1.实时处理,uCosminexus Stream Data Platform,储存数据,生产的数据,电力网的数据,感应器的数据,设备的数据,-,流数据处理的概要,14,发出SQL查询,参照所有数据范围, 然后抽出所有的结果,DBMS关系型数据处理,先把数据存储到数据库中,然后对其进行处理,查询语句,对a,b分别

8、进行求和,结果,DBMS,DBMS:DataBase Management System,-,流数据处理的应用领域,15,syslog,Proxylog,认证log,syslog,Proxylog,认证log,IT系统中生成的各种日志文件,从感应器中得到的数据,从汽车的位置信息中得到的数据,DBMS,数据图形化,警报通知,高效压缩存储,数据一旦生成,立即进行分析,-,流数据分析的事例:股指信息高速发布系统,16,通过高速的计算实现即时发布股指信息,从而提高了服务水平。实现股指算法的灵活性和高效性,可以很容易的对应将来业务的变化。,导入该系统对顾客的好处,股票买卖系统,用户行情查询系统,输入适配

9、器,输入数据/过滤处理,整理格式/发布数据,uCosminexus Stream Data Platform,每股股价,整体股指,指数高速分布系统,流数据处理平台,输出适配器,流数据计算处理,当个股股价一发生波动,就即时反应到整体股指上,并以微秒的 速度发送股指信息给客户端,要点,统计分析模式,-,当流通股的数量发生调整时,立即适用最新模式进行整体股价的计算,流数据分析的事例:交通路况实时监控,17,机动车车辆位置信息,流数据的处理平台uCosminexus Stream Data Platform,聚类分析,计算速度,计算行驶方向,计算车辆密度,监测拥堵,监测事故,车辆ID(纬度,经度),交

10、通拥堵信息,输入数据约2,000条/秒,红:低速黄:中速绿:高速始点:前一时间的位置终点:最新位置,车辆行驶状况,监测拥堵事故,这个位置发生了严重的交通拥堵交通事故, 通过对车辆行驶位置的收集和分析,可以对交通路况进行实时的监控 通过分析各车辆的速度和行驶方向,可以监测交通拥堵和交通事故等状况,-,. 内存数据网格,面向大数据处理的产品及解决方案的介绍,什么是内存数据网格,19,.实时处理,uCosminexus Elastic Application Data store,.存储与查询,虚拟化内存,服务器,客户端,-,内存数据网格的特长,20,C,添加服务器,透過的,D,透过性读取,KVS接

11、口,发出故障,简洁的数据建模,-内存中配置数据,-由索引和数值构成(),-隐藏了数据的物理配置位置,-即使服务器发生故障也不发生数据的丢失,数据访问高速化,位置透過性,耐故障性, KVS:Key-Value Store,应用了内存内数据网格的应用程序的优点,易于开发性,响应时间短高吞吐量,高可用性,内存空间,虚拟内存空间,uCEADs:uCosminexus Elastic Application Data store,-,内存数据网格的事例:座位预约系统,21, 通过直接调用对象数据到内存上进行处理,来实现整体处理的高速化 通过统合大量服务器上的内存来虚拟出超大内存空间,高度拓展数据处理的自

12、由度 通过对数据的多重化配置来防止数据丢失,座位预约处理的高速化,应用后,负载平衡器,座位预约管理应用程序,预约座位用的终端,座位预约管理DB,读写磁盘,触发事件,一个月的数据,#1,#2,#3,#1,#2,#3,通过读取内存来 实现高速化通过复制数据来 确保高信赖度,无需考虑数据的物理保存地址,通过读写磁盘来有效回避瓶颈问题,-,#4,5. 按时间顺序存储的数据库,面向大数据处理的产品及解决方案的介绍,什么是按时间顺序存储的数据库,23,.存储与查询,uCosminexus Stream Data Platform/Data Store,按数据发生的时间顺序来高效存储数据的管理平台,按时间顺

13、序存储的数据库uCosminexusStream Data Platform/Data Store,10:00:00,时刻,10:00:01,10:59:59,:,11:00:00,:,1.0,1.0,1.0,:,1.0,:,感应器1,10.0,25.2,11.1,:,11.1,:,感应器2,现实世界里的数据,感应器的数据,电力网的数据,设备的数据,存储,分析,收集现实世界里的信息并保存,收集数据,存储数据,读取数据,查询时间顺序的数据统计时间顺序的数据分析时间顺序数据得出结果,AP:Application Program,-,按时间顺序存储的数据库的特长,24,按时间顺序存储的数据库 uCo

14、sminexusStream Data Platform/Data Store,10:00:00,感应器1,压缩数据,特征点,10:00:00,感应器2,特征点,11:00:00,感应器1,特征点,11:00:00,感应器2,特征点,压缩数据,压缩数据,压缩数据,10:00:00,时刻,10:00:01,10:59:59,:,11:00:00,:,1.0,1.0,1.0,:,1.0,:,感应器1,10.0,25.2,11.1,:,11.1,:,感应器2,数据输入单位,数据保存单位,通过对每个时间点发生的数据列进行切割压缩,来有效削减整体的磁盘占有容量。,通过特征点索引来实现查询的高速化(最大/

15、最小,平均,波形模式等),提供按时间顺序数据的专用查询语句(查询条件,波形查询,关联查询,统计),通过对现实世界里的大量信息进行高压缩来实现信息存储的低成本化对按时间顺序存储下来的大量信息进行高速查询与高速分析,要点,内含计划内容,-,现实世界里的数据,感应器的数据,电力网的数据,设备的数据,收集数据,存储,收集现实世界里的信息并保存,分析,检索时间顺序数据统计时间顺序数据分析时间顺序数据得出结果,存储数据,读取数据,按时间顺序存储的数据库的事例:燃气轮机的维护系统 -什么是燃气轮机-,25,燃气轮机是高精密设备, 1套燃气轮机里配备有200个以上的各种感应器 全天候监控燃气轮机的运行状况,检

16、测出数据超过阀值立即报警 若检测出异常则立即自动紧急停止,运行状况的分析与监视,温度,震动,压力,-,按时间顺序存储的数据库的事例:燃气轮机的维护系统 -运行状况监控服务-,26, 收集分布在各地的燃气轮机的运行状况的数据到监控中心 收集到的数据量 1天=2GB、1个月=60GB、1年=720GB 分析过去燃气轮机的运行数据,来判断设备的现在的运行状况,从各地的燃气轮机中收集运行状况的数据进行分析,运行状况数据,运行状况数据,运行状况数据,收集燃气轮机的运行状况,客户,运行分析报告,互联网,-,按时间顺序存储的数据库的事例:燃气轮机的维护系统 -运用了按时间顺序存储的数据库的解析技术后-,27

17、,为实现快速的分析数据,长时间不间断的监控着整体设备的运行状况 为实现多视角分析数据,对各种各样的数据进行多角度的建模与解析,把通过分析数据而得到的准确的信息即时传达给客户,运行状况数据,运行状况数据,运行状况数据,按时间顺序存储的数据库,设备点检数据,高压缩,高速查询,客户,提高分析精度,运行分析报告,提案,-,按时间顺序存储的数据库的事例:燃气轮机的维护系统 -对消减存储空间的评价-,28,配合时间顺序生成的数据的特征,首先按列单位来存储数据 然后按小时单位来分割数据,通过压缩后再存储 从而达到了大幅地消减整体数据的存储空间,11.8,11.2,基准模型 感应器个数200个 数据收集周期1

18、次/秒 Block单位1小时,可将存储空间降到12!,对存储空间的核查,6个月,RDB:Relational Database,-,1年,现状的RDB,按时间存储的数据库,存蓄时间,存蓄量(MB),按时间顺序存储的数据库的事例:燃气轮机的维护系统 -对高速查询数据的评价-,29,通过特征点索引来提高数据的查询速度 通过数据分割保存的技术来有效提高数据访问速度( I/0 ) 从数据查询的分析结果中说明经得起实际运用的检验,例:从400个感应器中查询3个感应器的数据,查询时间s,查询数据的速度可提高10倍以上!,对查询时间的核查,时间顺DS:按时间顺序来存储数据的数据库(Data Store),-

19、,基准模型 感应器个数200个/400个 数据收集周期1次/秒 Block单位1小时,现状的RDB(3/200),现状的RDB(3/400),按时间顺序存储的数据(3/200),按时间顺序存储的数据(3/400),查询范围(日),查询时间(s),6. 高速数据访问平台,面向大数据处理的产品及解决方案的介绍,什么是高速数据访问平台,31,在先端技术研究开发支援计划下,与东京大学共同合作开发了超高速的数据库引擎技术的研究成果,并实现了产品化。,Hitachi Advanced Data Binder Platform,Hitachi Advanced Data Binder Platform,服务

20、器HA8000,存储设备BR1200,超高速的数据库引擎,首推的超高速的数据库引擎产品,结合了旗下的服务器和搭载SSD的存储产品,实现高速选取与搜索数据等功能。,实现以大型数据库为处理对象的超高速数据查询,为了最大限度地发挥超高速的数据库引擎的性能,提供了旗下的高信赖高性能的硬件产品与之组合,推出了验证完毕的最佳实践模式。,.存储查询,Hitachi Advanced Data Binder Platform,-,SSD:Solid State Drive,高速数据访问平台的专业应用领域,32,信息的爆炸性增长, (1018), (1015), (1012),【提取条件】(专业领域),在金融系

21、统中ATM,POS机,以及证券交易系统里,要求能及时地处理数据,整体统计分析,整体日志管理,热销商品分析,流行趋势分析,故障调查,批量处理等,特定URL搜索,向下钻取分析,假设检验等反复验证的搜索,例:年龄层(20来岁)场所(新宿) 的手机的使用情况,更加体系化,更加实时,执行查询处理的频率(1行/次),查询时发生的数据访问量(整体的处理),满足Big Data数据处理中的并列全件数据搜索的需求,通过搜索全件的数据,找出数据的潜在价值,-,ATM:Automatic Teller Machine,POS:Point Of Sale,URL:Uniform Resource Locator,以上

22、技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,超高速的数据库引擎的概述,33,-,是对大量的数据进行超高速搜索的新型DBMS是最先端研究开发支援计划下的研发成果通过将多核处理器与存储系统的使用效率提升至最大限度的“非序列性操作原理”技术,来实现超高速搜索数据的功能,超高速的DB,传统的RDB,一般的RDBMS,神奈川,東京,埼玉,JOB,并发型RDBMS,神奈川,東京,埼玉,JOB,JOB,JOB,容易出现磁盘输入与输出时的性能瓶颈问题,可分散磁盘输入与输出从而改善性能瓶颈问题但运营成本会增加,超高速DBMS,

23、JOB,对多个磁盘实行超高速的非同期的输入与输出操作。,DBMS:Database Management System,RDBMS:Relational Database Management System,以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,超高速的数据库引擎的特点,34,-,其一:搜索速度非常的快 擅长从一个表中的提取具体数据再结合多表进行数据处理 适用于以搜索业务为中心的信息系统。在自由搜索领域有着绝对的优势。,其二:充分发挥多核CPU的优势,并和使用磁盘(HDD/SSD)个数成正比实现了高

24、速化 系统结构简单。可以构建单台服务器的系统,随着处理业务的增大可以扩展系统 越是大量的数据(PB级,EB级)使用的硬盘数量会越多,越可体现出该技术的优势 即使是少量的(TB级)数据,结合具有随机存取特长的SSD硬盘,也可有效发挥该技术的优势,搜索处理(s),同期I/O处理(ms),服务器,存储设备,服务器,存储设备,分配任务,搜索过程,等待I/O结束,磁盘I/O,【传统型RDBMS】顺序操作方式 对一个SQL的操作请求,按顺序执行 由于受到磁盘I/O响应慢的因素的影响,CPU的 利用率非常的低,得不到充分的利用,【超高速DBMS】非顺序操作方式 可以多线程执行SQL的操作请求。充分有效的 利

25、用CPU和磁盘的性能 对DB的基础进行了重新的设计,HDD:Hard Disk Drive,SQL:Structured Query Language,I/O:Input/Output,以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,超高速的数据库引擎的性能评价,35,-,全部处理约需900秒,全部处理只需10秒,顺序操作方式,非顺序操作方式,速度提高了90倍,IOPS: IO per second = 每秒的I/O次数。该值越大则表明磁盘的访问速度越快。,以时间为横轴,逻辑地址为纵轴,描绘出磁盘访问的状态分

26、布图。左图为顺序操作方式,其磁盘的访问密度比较低,右图显示的是非顺序操作方式,其磁盘的访问密度非常的高。我们可以从图中判断出非顺序操作方在极短的时间内能处理大量的输入和输出。,以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,高速数据访问平台的事例:POS数据分析,36,将来:可以只对中央DWH的数据实行高速搜索。通过消减批量数据处理的运营成本,添加不同视角的分析轴来有效促进数据的利用。,现状:收集POS数据,创建数据集市(Data Mart)。因为批处理需要很长的时间,本想从更多的角度来分析数据,查看根多的结

27、果,但只能放弃作罢了。,POS数据,POS数据,POS数据,DataMart,DataMart,DataMart,DataMart,常见的处理,MasterData,収集,常见的处理,MasterData,収集,中央DWH,高速的POS数据分析,费时的夜间批处理,因数据量的增加,夜间批处理已不能应付本想从更多的角度来分析数据,但处理能力有限只好放弃,中央DWH,Hitachi Advanced Data BinderPlatform,课题,POS数据,POS数据,POS数据,使用高速数据访问平台,可以减少数据集市(Data Mart),解决方法,-,DWH:Data Warehouse,以上技

28、术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,37,结果,通过减少批量处理来降低运营成本!使添加不同视角的分析轴和按需搜索成为可能!,评价实例(客户分析),在高速数据访问的平台上,对1.5TB的数据进行处理: 速度比原来快了107倍(13.5小时7.5分钟),-,高速数据访问平台的事例:POS数据分析,以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,.总结,面向大数据处理的产品及解决方案的介绍,大量数据处理平台的相关产品及解决方

29、案,39,-,以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,SQL:Structured Query Language,CQL:Continuous Query Language,OSS:Open Source Software,大量数据处理平台的使用效果,40,-,采用内存数据网格处理技术对磁盘型的访问提高了约倍,流数据处理平台,非序列操作方式1提高了数据的输入输出效率,比原来快了约倍,高速数据访问平台,按时间顺序分割,通过数据压缩存储使得存储的容量削减到约通过特征点索引提高数据查询速度約倍,按时间顺序存

30、储的数据库,内存数据网格,:以上技术是在日本内阁府创设的最先端研究开发支援计划下,由东京大学和共同合作开发的“最高速的数据库引擎的开发(略称)”项目的研发成果。,(注)实际效果根据数据内容,处理内容有差别,的大量数据处理平台,41,-,的大量数据处理平台支持大数据的灵活应用,请结合实际试验的效果测试,体验的大量数据处理平台,作为协作共创的合作伙伴致力贡献于客户的下一个商机创新的产生,顾客,协作共创的合作能力,创新能力,IT技术,系统集成能力,通过内部自身的IT经营改革磨练出来经验与智慧,42,大量数据处理平台应用图(初期导入时),应用后:例1,应用后:例2,在不影响原有的系统下Add-in,实现效果验证试行服务,应用前:原有系统,原有数据处理系统,收集,处理,原有的数据处理系统,收集,处理,大量数据处理系统,收集,处理,实时数据处理,长期大量的数据处理,原有的数据处理系统,收集,处理,大量数据处理系统,存储,处理,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 网络科技 > 管理信息系统

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报