1、曙光Xdata大数据平台介绍,大数据应用场景,大数据项目实施,大数据系统挑战,数据展示的挑战,如何稳定的收集多源异构的数据及整合内部数据,数据源的挑战,数据分析的挑战,如何根据具体业务需求,定制针对性的分析模型,如何根据不同的客户群体,用不同的形式展示数据,大数据系统实现要素,传统数据分析架构,基于大数据的系统架构,数据质量监控,数据分析,集成算法,项目需求,需要根据具体项目的需求,进行此部分内容整理,包括客户需求、系统架构设计等,Xdata产品体系,XData-SDH大数据分析系统,XData-SDH一体机产品功能,ParaStor分布式文件系统,2010年单一系统16PB,2013年中国区
2、NAS IDC排名第3,2014年中国区NASIDC排名第,2015年上半年中国区 NASIDC排名第1,1100+用户成功应用累计销售容量260+PB,总体架构,ParaStor产品特征,纠删码冗余 N+M:b,N+M的理解N:数据对象个数M:校验对象个数,D1,D2,D3,D4,N=4,M=2,P1,P2,D1,D2,D3,D4,P1,P2,D1,D2,D3,D4,P1,P2,M:允许故障的磁盘数目,b的理解允许故障的节点数,4+2:1,4+2:2,可进行数据修复的最小节点数:b(N+M)/M + b,系统亮点 节点分区,A区,B区,b最大为4,节点规模较大时,也只能允许故障4个节点?,划
3、分多个分区,缩小节点故障域,30个节点,4+4:2A区16个节点,B区14个节点冗余度:2个节点(b=2),b:每个节点分区中允许故障的节点数,系统亮点 磁盘分组,Fail,Fail,M最大为4,磁盘数目较大时,也只能允许故障4个磁盘?,划分多个分组,缩小磁盘故障域,分区内包含50个磁盘分为4个磁盘分组,G1=G2=13,G3=G4=12冗余度:3个磁盘(M=3),M:每个磁盘分组中允许故障的磁盘数,系统亮点 分级存储,热数据区,冷数据区,新建文件,创建时间长,访问频度低,访问频度高,FILE1,FILE2,FILE3,FILE4,FILE5,FILE6,客户端,管理网,归档,数据迁移,并发读
4、写,并发读写,并发读写,数据迁移,元数据读写,高性能在线存储,高性价比近线存储,归档至离线存储,根据访问频率、文件大小、路径名规则等策略进行文件分级,数据全生命周期管理,系统亮点 配额管理,多粒度多层次配额设置,基于文件系统基于目录基于用户组基于用户,300TB,40TB,60TB,50TB,50TB,100TB,40TB,60TB,50TB,50TB,100TB,200TB,200TB,软硬阈值限定,文件数量软阈值容量软阈值文件数量硬阈值容量硬阈值,给出告警 可以继续写入,无法写入,系统亮点 自动功耗控制,活跃区,休眠区,休眠区,客户端,Windows,UNIX/LINUX,MAC,数据节点
5、按分区使用, 分为活跃区和休眠区,活跃区提供读写访问,活跃区故障,切换活跃区,待访问数据位于休眠区,自动切换 为活跃区,活跃区到达容量阈值,切换活跃区,在视频监控、卫星遥感等海量离线存储应用中,可以显著降低系统功耗,休眠区,活跃区,活跃区,*,WORM(Write Once Read Many) 全局WORM时钟,确保WORM时间不受硬件时钟影响,且不受篡改 支持手动将写入数据置于WORM状态 支持设置自动将写入数据置于WORM状态的时间 支持对WORM文件内容进行追加写入操作 支持设置WORM文件的过期时间 支持WORM日志,记录存储系统中的WORM行为。,Client,写,设置WORM后,
6、文件只读,读,系统亮点 WORM,XData-MPP并行数据库,XData-MPP一体机亮点,系统特点,数据分布策略,XData-MPP测试,测试情况数据导入性能到达了第一梯队SDH基准测试性能也达到了跟主要竞争对手相同,kmeans性能也进入第一梯队MPP的性能给用户带了惊喜改变了用户的看法,展现了团队的技术实力参与厂商:阿里、360、华为、浪潮;浪潮出局,应用特征针对海量结构化数据关联分析进行优化;可以应用在公安、安全、电力等行业;,数据采集流程,3,70TB/天,120万条记录/s,百亿条记录秒级返回,XData-AUS交互分析系统,AUS系统架构,XData-AUS性能分析,标准X86
7、架构服务器:6核*2.4GB,6*480GB SSD硬盘,128GB内存测试数据量为25亿条,总计约261GB测试表明:每小时可入库52GB数据,检索和聚合分析均可在1s内完成,某线上系统性能指标,某项目测试指标,主要面向大数据的实时检索分析能力进行测试,包括数据检索、实时统计分析、实时交互分析、稳定性、容错性和高并发等能力测试,某项目测试指标,系统业务运维,目的对行业纠纷进行调解客户个性化数据提取用途用户行为的分析用户行为的审计系统响应时间统计系统请求数量统计运维数据恢复,当主机发生数据灾难的时候,使用audit数据来恢复在灾难期间丢失或者损坏的数据实现形式使用统一的信息记录格式强制记录跟踪
8、信息记录机制对应用透明统一收集和传输,服务之间的调用关系问题的快速定位调试应用逻辑,商业决策的依据,多维度分析和展现准实时信息查询集中存储和备份,XData-EDU大数据实训系统网络拓扑,曙光XData-EDU大数据实训平台,XData-EDU优势,教学一体化设备:提供完整的开发运行环境以及详细文档支持实验开发平台:IDE开发环境,封装有JDK,Hadoop各组间依赖包,预置实验参考代码实验运行平台:学生可以通过Web界面上传程序包并运行,平台提供结果查看和错误反馈教学管理平台:提供整个平台的管理功能,包括用户、资源、课程、实验过程管理等运维管理平台:监控、告警、服务管理、参数配置等功能,XD
9、ata-MBM有线运营商大数据分析系统,设计思路,XDataMBM是面向广媒运营商的数据分析系统。基于分布式搜索引擎技术,提供对广媒行业海量数据资产的检索和分析服务。采用统一的数据平台,对不同部门各个系统的数据进行整合,统一管理采用自动发现技术构建存储分析集群,可对集群规模进行灵活控制实时数据接入框架,支持异构多源环境下的数据实时采集同步快速检索和分析,实现对亿级数据集的实时检索和切面分析集成广媒业务分析指标,提供全业务的个体和群体用户画像,设计思路,灵活的数据接入框架,整合多源数据支持异构存储系统存储容器类型:FTP、Oracle、MSSql、ES、CSV。数据同步配置增量同步、周期调度、同
10、步拓扑结构数据解析、数据转换、数据清洗实时数据写入接口RESTful、Java、Python,设计思路,集成业务分析指标灵活组合过滤条件,任意维度数据抽取任意时间尺度分析提供全业务的个体和群体用户画像收视分析、订购分析、支付分析、消费分析、工单分析,应用场景,实时行为的精准分析为实时推荐系统提供数据 统计支持结合节目标签化,定位收 视趋势,用户收视行为分析,精准市场营销,用户标签化(全面数据下)主动服务(挽留)精准营销市场分析,全面运维数据监控,预警网络恶化 主动网优及运维 促进网络资源合理分配,提高建设准确性和投资准确性 结合行为系统,分析用户行为,XData-MBM展示系统,XData部分
11、成功案例,北京市公安局,某省通信管理局,中国农业银行,中国银联,青海盐湖所,国家信息安全评测中心,北京交通发展研究中心,东莞公安,天津市政府采购中心,温州智慧交通,气象局公服中心,解放军理工大学,河北联合大学,珠江数码,意尔康,中科院信息工程研究所,重庆医科大学,中航信,贝尔信,新华社,同济大学,河南移动,北京市公安局,某省通信管理局,中国农业银行,中国银联,青海盐湖所,国家信息安全评测中心,北京交通发展研究中心,东莞公安,温州智慧交通,气象局公服中心,解放军理工大学,河北联合大学,珠江数码,意尔康,中科院信息工程研究所,重庆医科大学,中航信,贝尔信,新华社,同济大学,河南移动,珠江数码大数据
12、分析系统分析场景,收视行为分析越秀分公司收视情况分析近一个月共有20006人观看,共观看了17218997分钟,人均观看时长861分钟,共有2625680次观看记录观看人数趋势分析,每周六都是低谷观看喜好,珠江数码大数据分析系统分析场景,收视行为分析中央一台高清收视情况分析最近30天观看人数趋势和时间分布情况用户观看设备数排行及用户地理分布情况用户观看次数排行及观看节目偏好,珠江数码大数据分析系统分析场景,收视行为分析2016年春节联欢晚会收视情况分析观看人数趋势和时间分布情况(4小时为单位,支持任意粒度)用户观看次数排行及用户地理分布情况,珠江数码大数据分析系统分析场景,订购行为分析订购产品
13、数量分析过去5年订购产品数量品牌排行过去5年数字电视用户和互动电视用户订购产品数量趋势数字电视用户和互动电视用户订购产品排行,曙光助力民航业低成本迎接大数据挑战,客户需求业务需求对行业纠纷进行调解客户个性化数据提取统计分析用户行为的分析用户行为的审计系统响应时间统计系统请求数量统计数据恢复当主机发生数据灾难的时候,使用audit数据来恢复在灾难期间丢失或者损坏的数据方案效果使用统一的信息记录格式强制记录跟踪信息记录机制对应用透明统一收集和传输集中存储和备份,服务之间的调用关系问题的快速定位调试应用逻辑,商业决策的依据,多维度分析和展现准实时信息查询,曙光助力民航业低成本迎接大数据挑战,新华社全球云平台一期,系统部署架构,系统功能模块,用户行为分析,通过Restful API方式对外提供用户行为分析服务实现(57个)指标:系统特征、栏目特征、用户特征、稿件特征:报表周期设置:自然天、自然周、日然月、自然年产生报表,个性化推荐,实现用户兴趣特征展示:云图、饼图、柱状图实现用户实时推荐列表展示,