1、大数据与云计算: -信息技术发展的新纪元,大纲,大数据与云计算 云计算大数据平台与技术创新 大数据平台产业化与应用案例,什么是大数据,对数据的使用者来讲,如果数据集超出了使用者所拥有的信息处理和分析的能力,就给使用者带来了大数据问题,大数据V特征,Volume 数据规模大,Velocity 数据变化数据快,Variety 数据属性复杂,Value 价值,大数据的特点并不只是数据规模大,数据的量呈现指数增长 2009年至2020年将增加44倍 数据的体量从0.8 zettabytes增加到35ZB,生成和采集的数据将按指数增长,根据麦肯锡预计美国超过1000雇员的公司,平均每个公司存有200TB
2、的数据,很多行业的公司,如银行、电讯、互联网、政府部门等,平均存储的数据超过1个PB。,大数据的多样性Variety,不同的数据格式,数据类型和数据结构 文本、数字、图像、音频、视频、时间序列、社会媒体数据、高维矩阵数据等 静态数据 vs. 流数据 同一个应用可以生成和采集不同类型的数据,为了提取知识 尽可能多地综合不同类型的相关数据,大数据的速度Velocity,数据的采集速度的加快导致处理时间都需要有相应的提高 在线数据分析 (Online Data Analytics) 决策的延误 商机的消失 实例 网上营销(E-Promotions): 基于用户当前的位置和过往的交易数据预测用户的喜好
3、 在合适的时间和地点发送用户感兴趣的产品和店铺健康监控(Healthcare monitoring): 利用穿戴式的传感器监控用户的生理和活动数据 及时提供需要的医疗服务,大数据的价值 (Value),未来大数据的产业规模将会至少以万亿美元来进行衡量, 大数据将会给信息技术领域带来一个新的增长点。,美国医疗保健每年产值达3000亿美金 每年生产率增长约0.7%,制造业 最多可节省50%的产品研发、组装成本 最多可节约7%的营运资金,美国零售业 净利率增长可能高达60%+ 每年生产率增长0.5-1.0%,欧洲公共部门管理 每年2500亿欧元 每年生产率增长约0.7%,全球个人定位数据 1000亿
4、+的服务供应商收入 为终端用户带来高达7000亿美的价值,大数据的产生,数据的发展和创新将不再是如何生成和采集数据 具备对采集的数据进行管理、分析、总结、可视化展示和知识发现的能力已经成为新的挑战,社会媒体网络 (每个人都在产生数据),科学仪器(采集不同类型的数据),移动终端(个人地理信息数据),传感器网络 (测量不同类型的数据),大数据的技术挑战,存储 分布式、低成本 传输 能力、成本 处理 集成、融合、处理 分析 能力、效率 挖掘 方法、能力、技术、平台 应用 能耗,互联网与电讯行业需求,某互联网公司 100多在线游戏,4亿在线游戏用户 在线系统记录每个游戏用户在线玩游戏的详细数据,包括游
5、戏、时间、动作、结果等,TB级数据分析需求: 用户行分类与预测,用户行为客户群划分 用户挽留、用户奖励和级别提升 某电信公司 深度包检测(DPI)大数据分析,研究客户互联网行为模型,流量分析,数据套餐设计 百万人口城市,每天数据量TB级,云计算,云计算是一种新的大规模分布式计算模式 通过网络和资源 虚拟技术,实现计算及存储资源集中管理,面向用户提供服务 云计算可以解决目前计算机使用的诸多问题,是计算技术发展的一个新的里程碑,2019/8/24,12,云计算的五个基本特征,按需自助服务 (On-demand self-service) 广泛的网络接入 (Broad network access)
6、 资源池 (Resource pooling) 快速弹性化 (Rapid elasticity ) 可度量的服务 (Measured Service),2019/8/24,13,云环境 (A Cloud),云指的是一个遥远的计算环境,这个环境是用来为计算环境外的用户提供可扩展和可度量的计算资源。 用户可能不知道具体的云环境在哪里。如用户在深圳,云环境可能在内蒙古。,2019/8/24,14,云环境的计算资源,物理服务器CPU, 内存, 外存(磁盘、磁带) 虚拟服务器CPU, 内存, 外存 软件 服务 (应用),2019/8/24,15,物理服务器,虚拟服务器,软件,服务,虚拟化是云计算的核心技
7、术,虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用,多个用户共享物理服务器的资源,但用户对虚拟服务器的体验是独立的计算机。用户不需要了解物理服务器 虚拟服务器的运行由物理服务器统一管理和维护,虚拟机用户不需要维护。 当某虚拟机用户需求变化时,物理服务器的资源可以自动扩展。,2019/8/24,16,弹性化和可扩展性,弹性化是云计算的重要特征,计算资源弹性化可以使云环境的计算能力随着用户需求变化而增加或减少。水平扩展 向外扩展 Scale out增加资源 向内收缩 Scale in减少资源垂直扩展 向上扩展 Scale up提升CPU和内存 向下收缩 Scale down 降低CPU和内存
8、,2019/8/24,17,云服务器,面向服务 Service Orientation,云计算的独特特征是服务导向或面向服务,就是将计算和存储资源作为服务供用户使用 服务的收费方式是谁使用谁付钱,例如: 付使用存储服务的费用 付使用CPU的费用 付使用数据库软件的费用 用户不拥有这些资源,因此不需维护它们,2019/8/24,18,云计算的三种基本服务模式,云设施服务 Cloud Infrastructure as a Service (IaaS) 云平台服务 Cloud Platform as a Service (PaaS) 软件作为服务 Cloud Software as a Servi
9、ce (SaaS),2019/8/24,19,云计算架构 Cloud Architecture,2019/8/24,20,虚拟化,计算服务Computing Service,存储服务Storage Service,DBMS,MapReduce,Google App Engine,CRM,ERP,CAD/CAM,POS,Windows Azure,Infrastructure as a Service (IaaS),Platform as a Service (PaaS),Software as a Service (SaaS),物理资源,云服务应用的部署模型,公有云 Public cloud私
10、有云 Private cloud社区云 Community cloud混合云 Hybrid cloud,2019/8/24,21,大纲,大数据与云计算 云计算大数据平台与技术创新 大数据平台产业化与应用案例,挑战性的技术问题,数据融合(fusion) 数据集成(integration) 挑战,病人健康医疗数据,没有有效的数据集成就不能进行有效的综合数据分析,挑战性的科学问题,成千上万个属性超高维问题,百万以上甚至超亿个记录,混合数据类型 缺省值/噪声 相关性问题 Unbalance Subspace property Uninformativeness,1,2,n,n-1,n-2,n-3,n-
11、4,f1,f2,f3,f4,f5,大数据集的挑战 (Big Data Matrix),超高维数据聚类算法研究,对属性变量做分组归并,产生组变量 对组变量和属性变量分层加权重 扩展软子空间聚类算法EWKM,在聚类过程中自动计算组变量权重值和属性变量权重值 最后得到以组变量为主的子空间聚类结果,组变量相当于在高空看数据,大轮廓清晰 属性变量相当于在低空看数据,细节清晰,组变量,属性变量,SRF:基于MapReduce大数据随机森林算法,Layer,宽度优先、大规模分层建树策略,大数据随机森林算法研究成果,属性加权抽样随机森林算法,用于超高维数据分类,平均精度提高20%。,与澳大利亚联邦税务总局数据
12、挖掘首席科学家Graham Williams合作,将随机森林算法用于ATO缴税分类建模。,分布式高可扩展随机森林分类算法,实现了对千万个客户记录、千个变量、100GB规模数据的建模能力。,将分布式随机森林算法发布到国际著名的统计分析平台 R 系统上,扩大国际影响力。,研究成果国际化推广,研究成果国际化应用,随机森林模型并行化实现,属性加权抽样随机森林模型,云计算与大数据分析,数据挖掘是从数据中发现知识的方法和过程,是解决各种科学和应用问题的重要手段 由于数据的快速增长,传统的数据挖掘技术和软件正面临极大的瓶颈 银行:人民银行征信系统收录了自然人6.4亿人的信贷记录 金融:南方基金公司有近100
13、0万客户资料需要分析 电讯:广东中国移动每天产生2TB通话记录数据 零售:Wal-Mart每天产生2.6亿个交易记录,其数据中心存储4PB的交易数据 互联网: Amazon有5900万活跃客户,超过42TB的客户数据,2019/8/24,28,云计算的优点是处理海量数据的能力,为大数据挖掘提供了新的计算平台,云计算海量数据处理的核心技术,2019/8/24,29,MapReduce编程模型,主节点,节点,节点,节点,节点,节点,用户编程,文件,文件,文件,文件,文件,输出,输出,文件划分,Map 运算,Reduce 运算,结果输出,程序写成Map和Reduce两步运算1. Map统计单个文本词
14、频 2. Reduce综合所有文本的词频,(Map),(Reduce),MapReduce 管道式运算,2019/8/24,31,基于云计算的大数据分析平台,区域智能数据中心,区域智能数据中心,支持多种终端访问,以区域性智能数据中心及高速互联网为基础设施 以互联网服务体系为架构 以大数据存储、处理、挖掘和交互式可视化分析等关键技术为支撑 通过多样化移动智能终端及移动互联网为用户提供数据存储、管理及分析服务。,关键技术,云计算引擎,高性能海量数据挖掘算法库,工作流引擎,支撑海量数据处理、 挖掘与分析运算,提供海量复杂数据 处理、分析与挖掘 高可扩展算法,数据处理分析流程图形化 设计数据处理分析流
15、程 自动执行资源调度及优化,Open API,提供数据挖掘平台 与第三方应用系统 的扩展接口,支撑海量数据 存储与管理,云存储,大数据分析平台,云计算大数据挖掘平台,110台服务器, 840 CPU核, 550TB 存储容量,构建云计算大数据挖掘平台,具备TB级数据存储、处理与分析能力,为大数据挖掘技术与系统开发和测试提供实验支撑环境。,数据库:MySQL5.0 商用版 云存储:Hadoop、Casendral 数据挖掘软件:Alphaminer、R,平台规模,软件环境,平台功能,大数据云存储与管理 分布式并行数据挖掘任务执行 可视化数据分析执行引擎,云计算数据挖掘算法库,基于MapReduc
16、e模型,实现了11个常用数据挖掘算法分布式并行化。,部分算法的测试性能已达到TB级数据的处理能力。,K-Means算法性能 数据规模:1TB,1千万条数据* 1万维 执行效率:初始10个聚类中心,一次迭代时间约30分钟,Random Forests算法性能 数据规模: 110GB,1千万条数据*1千维 执行效率:建立20棵树约36分钟,针对传统数据挖掘算法不能处理大数据的挑战,开发基于云计算的高可扩展并行数据挖掘算法库,突破TB级数据处理瓶颈。,大数据处理流程-医保数据案例,1型糖尿病性神经炎 (原始记录),糖尿病性神经炎 (ICD国际疾病分类标准),内分泌,营养和代谢疾病 (ICD国际疾病分
17、类标准),疾病 匹配,疾病 分类,疾病分类,在线数据分析,通过仪表盘图形化的KPI指标 支持全局的运营表现和局部细节的钻取分析 快速了解业务运营的各项指标 实施获取告警信息 定制化的应用开发,移动终端上的商务智能,分析平台系统框架,基于浏览器的BI分析平台,基于智能移动终端的BI分析平台,海量数据可视化,大数据分析与挖掘平台,智能数据中心,基于WEB的数据分析流程设计工具,基于WEBD 数据管理工具,创新点:与搜索引擎区别,大数据分析平台,搜索引擎,创新点:与云服务区别,云服务平台,大数据分析平台,创新点:与传统BI区别,传统BI,大数据分析平台,大纲,大数据与云计算 云计算大数据平台与技术创
18、新 大数据平台产业化与应用案例,大数据信息服务产业链,金融,传统应用领域,新型应用领域,互联网,制造,零售,通信,大数据信息服务业的机遇,大数据是新兴技术和战略性产业,各国都处在同一起跑线,原始创新机遇大; 我国数据资源丰富,应用需求巨大,有条件实现跨越性发展,走在世界前列,大数据分析平台产业化,技术及产业化优势:降低企业应用成本,技术积累和专业化服务,培育新的大数据分析和信息服务产业。 孵化面向不同行业的专业咨询公司、大数据分析公司和信息服务公司。,电信大数据分析案例,MBB数据及预处理,MBB(Mobile Broadband)数据 通过移动互联网访问网络的日志数据,该数据为运行商的原始数
19、据。 2进制编码,有标准的协议,需要根据协议进行解码。 规模大,一个中等规模的城市每天产生数TB的MBB数据 MBB数据预处理 根据MBB数据协议进行解码,一般由设备供应商提供。解码后得到的数据payload字段是二进制编码,其他字段都是文本。 Payload是应用程序在互联网上的传输协议,每个协议都有具体的格式。对该部分内容的解析叫做DPI(Deep Packet Inspection)。,MBB数据格式(小部分属性),MBB数据重要字段解释,用户上网位置和行为分析,抽象数据模型 (U,L,A) U - IMEI和IMSI共同标示一个用户 L - 通过小区编号cell_id标识 A - 通过
20、详情detail_id作为用户的行为标识,用户上网位置和行为分析(续1),Locationgroups,Action groups,结果展示,地点组和行为组的关系,在地点主题1,用户的行为主题主要集中在行为主题6,某个地点组对应某个行为组的概率分布,其中列代表地点组,行代表行为组,颜色越深表示概率值越大,颜色越浅表示概率值越小,基于位置的推荐模型,基于位置的行为推荐 当用户出现在某个地方,推荐可能感兴趣的k个应用,模型预测准确度与k的关系,其他方法预测准确度,当k取到15以上,我们的方法比传统的分类方法具有更高的推荐预测准确率,电力行业大数据分析案例,智能电网大数据,自动化数据采集装置在智能电
21、网中大量采用 东莞 大工业的电力用户达两万多家 每十五分钟采集电压、电流、功率等数据 每月平均数据量达85GB,用电行为模式的客户分群,选取客户不同维度的数据进行客户分群 日周月用电模式 用户行业背景 用户地理信息 用户电力设备信息 地区宏观经济数据 通过对客户分群,获取用户不同的用电模式 工作日双班制,三班制,四班制 周末长短周轮休 夜间用电高峰 行业间用电模式比较 不同地区不同行业用电模式比较 节假日及用电模式趋势预测,用户类型分布,电力用户密度分布,(a)金属制品业 (b) 通信设备、计算机及其他,(c)塑料制品业 (d) 纺织服装、鞋帽制造业,工业用电年度曲线,某电镀有限公司(金属制造业),客户分群结构,两班型,其他类型,谢谢!,