1、,电信业大数据分析平台建设经验,2016年7月,目录,什么是大数据?,2. Variety,4. Velocity,数据类型的多样性 如今的数据类型已经不仅仅是单一的结构化数据,也包括音频、图片、视频等非结构化数据,对数据处理能力提出了更高的要求,沙里淘金,价值密度低 在一段大量的数据中,有益于进行挖掘的数据仅占很小一部分。如何通过强大的计算和算法迅速地完成数据的价值提取,是目前大数据背景下亟待解决的难题,实时性 数据实时采集和处理区别于传统数据,如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命,数据量巨大全球在2010 年已正式进入ZB 时代,根据IDC统计:预计2020
2、 年,全球将总共拥有35ZB 的数据量,1. Volume,3. Value,大数据技术是被用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大数据量(volumes)、多类别(variety)的数据中提取价值(value),从而引起IT领域新一轮的技术与架构的变革。,通信业发展迅速,数字化时代到来,从通信行业发展的历史来看,经历了以语音和增值业务为主的2G时代,语音、流量、终端业务并存的3G时代、再到现在 语音流量、内容与应用、实物商品、数字化服务为特征的4G时代。数据的红利对大数据带来了更高的要求和发展。,以语音及增值业务为主 Vo
3、ice + VAS,语音、流量、终端业务并存 Voice + Data + Device,语音流量、内容与应用、实物商品、数字化服务 Voice + Data + Content + App + Physical Goods + Digital Services,业务需求和驱动力,某移动公司通过新建公司级大数据云平台,在原有B域的数据来源基础上,引入网络部A口信令、GN、GB口、LTE信令等数据,形成用户互联网特征标签,进一步提升流量经营和精准营销能力。 目前每天原始数据超过100TB,实际有效数据超过40TB,传统平台难以实现,迫切需要建设大数据系统。,目录,M域数据 合同、资产、投资等,O
4、域数据 OMC,网管,Mc、Gn、Gb、Gi、A+Abis等信令,日志,B域数据 Boss、话单、CRM、第三方平台,数据源,数据层,应用层,能 力 层,采 集 层,数据管控平台,数据资产管理,监控管理,安全管理,调度管理,系统管理,统一 ETL 采集,传统技术ETL,HadoopETL,流式计算ETL,ETL可视化管理,统一ETL调度,统一采集,数据共享,文件接口,以原有云经分平台为基础,将大数据平台中数据层、采集层统一规划与建设,复用硬件和基础平台,在共享数据的基础上,逐步实现统一建模的机制,分析用户、业务、数据泛在的相关性,建立公司级统一的大数据平台。,大数据平台整体建设思路,消息服务,
5、经分应用,营销 平台,产品 平台,客户 平台,网分应用,上网日志 查询,网优查询,内部企业管理及 其他对外服务应用,开发管理,开放API,数据分发,即席查询,Spark + Streaming,Gbase数据库 (生产),Gbase数据库 (历史),一经库(DB2),Hbase数据库,关系数据库,GP数据库,建设历程,近期:平台搭建期,中期:平台演进期,远期:平台完善期,第一阶段 :云试点,第二阶段:仓库云化,第三阶段:大数据,关系型数据库+MPP方案。,MPP+Hadoop,Hadoop+ 实时流处理集群,MPP集群:(复杂脚本、报表等) Hadoop (非结构化数据、大数据),Hadoop
6、(ETL),Hadoop(ETL),Hadoop(存储,计算) streams(流处理) SPARK(基于内存的hadoop运算),MPP集群(存储,计算),原有Etl处理模式,大数据平台系统部署,XX移动大数据平台系统,展示层,Spark + Streaming (80台X86),校园市场,长漫包营销,客户标签,Gbase数据库 (26*X86高配)(生产),Gbase数据库 (60台X86) (历史),管理系统,上网日志查询,渠道选址,营销平台,实时营销,调度管理,元数据管理,管控平台,开发管理平台,维护管理平台,自助分析,互联网域,B域,第三方域,O域,M域,基地平台,数据层,接口层,企
7、业外部,企业内部,接口机( GRFS 4台) 、加载机(GRFS-FPO 3台),指标库(DB2) (2*P780),一经,集团上报,领导报表,Hbase数据库 (60台X86),集团客户,手机阅读,O域ETL处理 (160台IBM Power linux),B域ETL处理 (40*X86),企业级ETL服务(Hadoop),实时监控,实时评估,关系数据库,MPP数据库,共享层,由接口层、数据层、共享层以及展示层组成,接口层负责数据的采集与分发;数据层由Hadoop组成ETL以及由Hbase、Gbase组成的数据存储与计算两部分混搭组成,共享层主要是为提高前台的展示性能而配置的关系型数据库。展
8、示层则是基于大数据分析的各种应用分类。,数据处理分工和数据流向,根据不同平台擅长不同,hadoop、mpp、Nosql、流处理技术分别负责不同的应用处理范围。,数据共享层,数据计算与存储,ETL(Hadoop),一经库,MPP数据库 (生产),MPP数据库 (历史),DWA,ODS,DWD,批量获取,实时获取,流处理,Nosql数据库 (Hbase),流处理技术,内存数据库,NOSQL数据库,转换后数据,轻度汇总数据,分域汇总数据,高度汇总数据 (基础模型),高度汇总数据,ST,应用展现层数据生成,应用展现层数据生成,MPP数据库 &nb
9、sp; 关系数据库,应用层,转换后数据,轻度汇总数据,信令数据,资料数据,部分应用场景举例,目录,Hadoop/mpp/流处理合理分工,数据的采集及Load过程,主要就是数据的传输过程,逻辑简单,适合采用Hadoop技术;可以充分利用Hadoop的并行特性和HDFS的高效的数据写入特性。 ODS-DW基础层-DW扩展及汇总层的处理过程中,数据的操作主要是单条记录的操作及基于group by的sum、count等操作,并且由于数据的量的变化会比较大而频繁,因此适合选用基于Hadoop的技术。 ST层的生成,操作比较
10、复杂,并且数据量比较稳定,因此适合选用MPP技术。 实时流处理选用专门平台,如streams、spark-streaming等。,基础平台考量因素,大数据平台采用pc server,分x86和power,如何进行选型?重点在如下5个要素,不同因素的权重,取决于各个使用者:,考量因素,性能测试,价格,占地空间,服务支持,兼容性,hadoop性能测试情况,1TB Terasort 性能测试结果: PowerLinux vs x86=1:2.3(每核处理能力) 在大数据平台中选择20个节点,做1TB Terasort的性能测试 采用CDH5.0.2,此结果非官方Benchmark,仅供参考,IBM
11、PowerLinux 硬件特性 线程利用:POWER7具备每核心4线程 vs. Intel处理器的每核心2线程需要高吞吐能力:POWER7具备海量的内存和I/O带宽 依赖于Java应用:POWER7提供极端优化的JVM需要极高的 I/O性能:POWER7 服务器提供极高的 I/O带宽完美匹配Apache Hadoop map/reduce架构:在Linux集群中进行海量并行处理,mpp性能测试情况-复杂SQL场景,MPP(南大通用Gbase)在power linux集群和x86集群的对比测试:,测试结果: 1、现网环境(SQL并发度不超过20业务场景下,建议设置集群并发参数 gbase_par
12、allel_degree=6最为适中); 2、Power运行结果优于X86运行结果,特定测试场景下运行程序执行时间高出1-2倍;注:仓库业务复杂度较高,测试场景仅供参考。,mpp性能测试情况-数据装载场景,加载数据量:11亿行 加载文件大小:600G 加载表名称:cdr_gprs_dm,以现网运行GPRS话单加载为例:Power加载性能平均高于X86加载20%左右,Gpfs+power linux测试情况,GPFS接口机文件系统,采用 块大小=2M,replica=1.进行顺序读写并发测试,顺序写,近5GB;顺序读,近8.3GB,如果系统中的文件比较大,可提高GPFS的块大小,在块大小设置为4
13、M,8M情况下,顺序写可达到8GB,测试结果是X86的1.3倍,其他因素比较,单台磁盘容量大,意味着集群台数更少,考虑到机房、电力等因素,最终选择Power linux 作为hadoop集群,其余采用x86,大数据平台整体采用x86+power linux混搭架构。,IBM PowerLinux配置情况,硬件配置: IBM Power 160*7R1 Redhat v6.4 8 Cores, 128GB Mem Internal Disk: 2 * 300GB, 4 * 1.2TB EXP24s: 24 * 1.2TB SAS disk Network Adapter: 2 x 1000Gbp
14、s, 2 x 10000Gbps开源软件部分清单: Hadoop 2.3.0-cdh5.0.0 HBase 0.98. Spark(Spark stream) HDFS 2.3.0-cdh5.0.0,Hadoop集群系统架构图,Hadoop平台 160台Linux on Power主机,Linux on Power 1,.,Powerlinux1,V7000,V7000,V7000,V7000,业务网(万兆),Linux on Power 2,Linux on Power 10,Linux on P
15、ower 51,Linux on Power 52,Linux on Power 60,PowerLinux2,Powerlinux3,PowerLinux4,HMC1,HMC2,硬件控制网,Linux on Power 11,Linux on Power 12,.,Linux on Power 20,.,.,.,业务网(千兆),管理网,SAN,注明:连线为示意图,GPFS,目录,效果,率先建立高可用、高扩展性云经分大数据融合平台,实现了经分核心仓库云化。采用低成本服务器(x86+ power linux)架构和传统架构相比,整体投资降低60%,由传统架构4600万降为1600万,初期可直接节省3000万,应用性能提升显著,总体数据处理性能相比传统架构提升59倍。,投资(万元),云经分和大数据融合平台总投资对比图,万元,kW,4000,00,总投资降低60,传统架构: 性能不是线性增长 扩容停机时间长 压缩比低,仅50%,云架构仓库的优势,云架构 增加节点可线性增加存储、查询和加载性能,并行计算 无需停机在线扩容 压缩比高,4-12倍,在线压缩,传统仓库架构的不足,谢 谢,