1、企业大数据平台方案,全球市场规模,2013年全球大数据市场总体规模为186亿美元,2014年285亿美元,2015年将达到384亿美元,(数据来源:Wikibon 口径:含大数据专门硬件、软件和云服务),2012年,商业智能服务类,数据中心基础设施,广告/媒体服务类,数据库,数据存储,大数据分析软件,免费数据平台,通用在线分析工具类,日志数据服务类,数据交易服务类,分析和可视化服务类,技术服务、运维支持,大数据服务类收入包括大数据在线应用、专业咨询服务、技术支持服务等。服务类收入在大数据市场中占比约44%。,大数据相关的软件和硬件产品仍是大数据市场主要收入构成,其中软件收入占比22%,硬件收入
2、占比38%。,数据交易市场尚处萌芽期,市场规模仍然很小。,MapReduce,Hive,展示/交互,技术架构,领域模型,客户画像,数据平台,商业智能,Data Integration: Sqoop, Flume, Kafka,File System: HDFS,Online NoSQL: HBase,Workload Management: YARN (with docker),Elastic Search,Impala,Spark SQL,Spark Mllib,GraphX,Spark Streaming,Storm,关系型数据,流式数据,API接口,多媒体数据,块式数据,流式计算,机器学
3、习,全量索引,批量计算,Sql查询,关联分析,与既有系统的结合的数据流图,框架,第三方数据,爬虫采集数据,公开数据源,热点,三个行业& 三个热点大数据应用在各行各业的发展呈现“阶梯式”格局: 互联网行业是大数据应用的领跑者,金融、零售、电信、公共管理、医疗卫生等领域尝试当中电商 实时竞价广告DSP & 精准营销 . 提高服务 金融 互联网金融 & 行为预测, 风控, 实时授信, 信贷政府 政府监管 & 征信 税务 统计 舆情 犯罪预防 交警卡口,AI,Plus: 研究类热点 硬件演进,使机器学习(ML)重获生机, 反馈给现在的业务端,用于不可枚举型的分析查询ML级别的集群: Google(Go
4、ogle Brain), Facebook(DeepFace 2014) , Baidu(image, face- 百度识图) Tecent (Mariana语音,翻译- 微信, Ali (天池, 快的打车, )难点:算法收敛节点数量,联想内部使用大数据分析做产品设计的决策支持,AI,SQL on Hadoop 混合架构逐渐消失 云计算与大数据的融合 多container集群快速部署 ( Hadoop as service ) On SSD Computing 固态盘替代内存做为缓存, 取代In-memory computing 探索与发现 优化的深度学习能力,技术趋势,向 Hadoop架构统
5、一(5TB),Hadoop: 调度与计算框架分离, 流计算与批处理走向统一,挑战- 热点背后的疑点/盲点,部署工具无法按需选择不同厂商计算框架 绑定, 付费, 且无法广泛兼容, 被忽略的节点设计与 硬件接口优化 现有一体机设计多为仅做了简单的加法 最后一公里的集成与优化的落地 与既有平台的兼容和优化 ( ETL , 特征提取) 机器学习实践意义的提高 节点数庞大时算法无法收敛且难以优化,忽略从硬件角度优化与云计算的结合 与云结合, Docker 多container集群快速部署 ( Hadoop as service ),基础设施对大数据的关键性被忽略,咨询服务,Hadoop软件平台,硬件平台
6、,智慧分析平台,数据整合平台,提供了明显的差别发现新的见解实时操作,商业应用加速达到商业价值洞察商业问题的背景,可靠的基础设施与智能优化部署高可用可扩展易运维,了解业务需求与目标,分析与展现平台,垂直行业方案平台,大数据平台设计主张: 应用导向的定制化统一集成,大数据节点设计方案 所有的大数据问题都不一样,架构必须考虑到不同的要求:计算界限分析, 计算密集型分析(例如., 数据分类,文本挖掘,或先进的运算法则)I/O界限分析, I/O密集度分析(例如., 索引、搜索、数据排序)数据摄入的要求节点设计平衡性能/成本优化后的工作量:处理器:时钟速率和核数内存: 对于内存限制工作型,并为内存密集型管
7、理节点硬盘 :数目和种类 (SAS 或 SATA)核对硬盘比:工作负载的I/O密集程度,参考架构的数据节点设计要考虑计算或I/ O绑定的工作负载数量,# Figures from Intel E5-2400/#5-2600 Processor specifications,对于深度学习算法的收敛问题的解决来说, 比起优化算法, 优化硬件架构是更简单的解决方式, 举例来讲, 降低网络开销就可以,Lenovo优化部署方案 易用的硬件部署,自动部署OS ready for Hadoop 多元化的基础平台软件选择 贴合应用场景的优化管理节点的配置和数量是系统性能,可管理性和可用性的关键边缘节点定义影响
8、整体系统的性能和数据输入如果不考虑这些因素可能会导致主要瓶颈和长期增长潜在的问题,Lenovo BigData FoundationAppliance,Management Node,Data Node,Data Node,Data Node,Data Node,BigData Platform,NameNode,ResourceManager,HMaster,Lenovo BigData Foundation,案例- 视频推荐,a11, a12, a13, , a1na21, a22, a23, , a2n:am1, am2, am3, , amn,b11, b12, b13, , b1nb21, b22, b23, , b2n:bm1, bm2, bm3, , bmn,*,案例 基于自然语言分析的竞争对比,Sentiment Analysis,Product comparison on attributes,案例- 用户画像,Example: Gender identification words automatically generated based on Weibo,male,female,