收藏 分享(赏)

大数据与大数据技术.ppt

上传人:精品资料 文档编号:10481365 上传时间:2019-11-21 格式:PPT 页数:59 大小:15.39MB
下载 相关 举报
大数据与大数据技术.ppt_第1页
第1页 / 共59页
大数据与大数据技术.ppt_第2页
第2页 / 共59页
大数据与大数据技术.ppt_第3页
第3页 / 共59页
大数据与大数据技术.ppt_第4页
第4页 / 共59页
大数据与大数据技术.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、量变到质变 大数据与大数据技术,虞强 2016.10,议程,公司简介大数据与大数据技术大数据技术应用大数据案例分享问题讨论,Advanced Analytic Service All Rights Reserved 2016,2,公司简介,公司概况&发展历史 主要客户&大数据产品,Advanced Analytic Service All Rights Reserved 2016,3,新加坡,上海,北京,公司概况,青岛,雅加达,专注于分析预测与行业应用的的大数据公司,深圳,业务1,业务2,业务3,提供基于大数据技术的预测性分析及商务智能解决方案,大数据平台、数据集成与准备工具、开源开发技术 自

2、助式分析工具、数据可视化工具,提供全球顶尖的大数据软件产品,300+ 技术服务人员 端到端的大数据平台 数据集成、数据挖掘与预测性分析、高级分析 企业级大数据仓库、企业绩效管理、商务智能,大数据SaaS应用和DaaS服务,基于云平台的软件即服务大数据应用 为企业提供全面的数据服务,发展历史,2005,2007,2011,2002,14年来, 我们与数俱进,汽车制造 电子产品及家电 快消零售 医药与生命科学 航空与物流 高科技制造业 金融及其他,主要客户,云,以 H a d o o p 为核心的大数据产品系列,数据集成与准备,SQL on Hadoop,Text here,流计算,机器学习,开源

3、开发技术,数据挖掘,以 H a d o o p为核心的大数据产品,大数据软件产品,Statistica,数据 可视化,Vortex,数据,创新,经验,融合,拥有多元化的数据科学家团队和十余年的数据分析经验。经十余年自主开发的IP打造数据行业领先的技术优势。,追踪吸收和引进行业内最先进的技术,产品和应用经验。世界顶尖数据技术公司在中国地区的首选合作伙伴。,在一大批竞争行业(汽车、制药、快消、家电、物流等)内拥有深厚的客户基础和众多行业成功案例。,追求行业业务能力和技术能力的融合以及企业系统架构与解决业务问题间的平衡,具有扎实的项目实施能力。,HEADLINE,竞争优势,Advanced Anal

4、ytic Service All Rights Reserved 2016,9,大数据与大数据技术,Hadoop技术的发展,物联网应用需要将Hadoop变为一个高性能的分析平台 需要Hadoop不光能存储数据,更要能够处理计算数据,SQL 分析,挖掘预测,图形化数据分析,智能搜索,时间、用户、地理位置、事件 等标签,辅助技术:,Kafka, HBase, Cassandra, Accumulo,基于大数据技术的数据分析处理,Hadoop 核心层,数据准备,技术更迭过快 开源产品成熟度 开发效率 与现有架构的关系 运维与安全,大数据技术的顾虑,?,大数据平台计算框架,传统数仓功能,非结构化流式挖

5、掘分析,软件架构 (举例),DATA PLATFORM(HDFS),灵活数据准备,SQL in Hadoop,数据挖掘与预测,前端应用,报表,外部应用,下游系统,管理控制台 (CloudEra、Talend、KNIME),数据安全以及认证(Portal集成),用工具取代代码作坊,同时处理实时与批次,流式处理,批次处理,转换,清洗,治理,转换,清洗,治理,推荐引擎 Spark Streaming/Kafka,Spark,数据库,文件,批次数据,实时,流数据,HDFS 文件,数据流 输出,基于用户数据理解地模型预测,图形化数据准备挖掘 运用Spark Mlib 等进行计算 结果回写入Impala或

6、者HIVE,非结构化数据为存储的新型SQL,基于落地HDFS的文件或HBASE进行SQL建表解析提供工业MPP级别查询性能线性可扩展 标准JDBC SQL界面,直连BO,Tableau ,Qlikview, MSTR等报表工具,技术方案:特点小结,基于开源系统的成熟商用插件方案 部署简便 提高开发效率 降低实施风险 基于内存的计算 性能优异全部基于唯一Hadoop集群内,统一存储统一计算 减少数据传输迁移的同步问题 维护便捷:一套集群,维护简单 扩展性:无限扩展 线性提升便捷的开发及报表展现工具图形化 ETL,数据挖掘开发便捷报表展现分析工具建模过程100% 用户参与IT基础架构与用户数据准备

7、、探查、分析、预测分离,Advanced Analytic Service All Rights Reserved 2016,19,大数据团队组织建设,数据与业务的结合,大数据开发团队,技术平台支持,业务人员,咨询团队,内部团队与专业伙伴紧密合作,Evan,数据科学家,Advanced Analytic Service All Rights Reserved 2016,21,大数据技术应用,Internet of Customers and Internet of Things,Big Data on IoT,IoT 解决方案,本质是基于“信息物理系统”实现“智能化”,二、工业4.0时代的智能

8、制造,IoT 的本质,二、工业4.0时代的智能制造,IoT-智能工厂,Big Data on IoC,360 Customer Profile Micro-Segmentation Customer Lifetime Value Next Best Action Customer Sentiment Campaign Optimization Churn Market Basket Analysis,CRM账户信息及客户特征,EDW交易历史,社交媒体关键字,Sales Lift,20%,60%,100%,n%,购买周期趋势,购买家庭信息,购买人口特征,第一阶段,客户画像,数据流引擎,人口分布,

9、客户倾向,HADOOP 集群/YARN,数据库分析,查询可视化报表 分析工具及应用,集成服务器,BI服务器,数据库集群/服务器,消费心理,第一阶段,数据混合与浓缩,集成引擎,ACTIAN分析平台,CRM账户信息及客户特征,EDW交易历史,社交媒体关键字,购买周期趋势,购买家庭信息,购买人口特征,客户画像参考架构,360度客户视图,Advanced Analytic Service All Rights Reserved 2016,31,案例分享,车联网大数据应用,项目背景,围绕车辆全生命周期,数据驱动的车联网与跨行业融合,可衍生出多样的商业模式与创新服务;基于丰富的车联数据、多样的服务平台,可

10、对行业、社会热点展开洞见分析,同时挖掘更多的商业价值,拓展新的业务,安吉星大数据项目目标与当前的问题,目标: 主数据(数据质量)的升级 主题模型落地,保持数据一致性 提高运维的灵活性 应用数据缓存的改造 用空间换时间的方法保护后台核心应用的正常运行 企业经营分析的改造 提高运营速度和质量,降低数据开发成本 新业务的支持 驾驶行为分析 燃油分析 二手车评估 车况鉴定报告,问题: 缺少数据主题 重复开发和浪费成本 数据质量不可控 数据缺少管控 BI 开发成本高,周期长 缺少业务分析平台 车辆数据采集能力有限 业务数据无法有效支持,大数据平台逻辑架构,报表/可视化,数据集成区,批量数据处理,实时消息

11、队列,数据湖泊区,机器学习区,NoSQL区,流计算区,数据暂存区,数据仓库区,主题分析区,Mobile,DAAP,Vehicle,LVDS,Traffic Probe,HA/HB,OVD,ACR,其它数据源,其它数据源,系统管理,数据管理,搜索引擎区,数据交换区,数据源,车辆行驶日志,车辆行驶日志,急加速、加速日志,车载系统日志,实时数据计算,36,驾驶行为评分,37,驾驶行为评分阈值计算,通过机器学习算法,实时的将所有用户数据代入驾驶风险概率模型,动态计算相关阈值 Set response variable = uncomfortable maneuver Set predictor var

12、iable = acceleration, speed, turnsCalculate the score,38,驾驶行为评分,用车轨迹-用户画像,When 何时 Where 何地 Who 是谁 What 做什么,上班族 Commuter,商务人士 Biz Man,家庭主妇 Housewife,夜晚活动族 Night Owls,用车轨迹 交叉销售,售后维修保养机会点 Opportunities for A/S Maintenance,新车销售机会点 Opportunities for New Car Sales,Maintenance Opportunities,车况报告,车况报告,Advan

13、ced Analytic Service All Rights Reserved 2016,44,案例分享,智能生产预测,项目背景,项目背景 随着业务的不断发展,生产线不断扩张,不同生产线、不同机台、不同工序所产生的玻璃面板坏点数量参差不起,良品率总体呈现下降趋势。为了提高玻璃面板的良品率,不断优化工艺流程,提升产品质量,决定建立数据分析平台,来预测坏点产生跟生产流程上的哪些因素有关,来做有正对性的改进。项目实施 收集生产Glass过程当中所有相关的因子信息,通过Dataflow工具对品质异常的玻璃数据进行regression、correlation挖掘算法分析,计算各因子与产品异常之间的影响

14、关系。同时针对正常品质玻璃也做因子分析,计算得出正常品质下各因子的正常范围值,从而可以快速判定超出范围的为异常值。,品质异常因子分析,抽取源系统数据并通过数据的业务逻辑进行数据关联进行数据准备, 然后通过数据挖掘算法进行correlation、regression两类数据挖掘,并将挖掘 结果写到HDFS文件系统中。,通过针对defect_count、recipe、TC_C1_EV因子,经过regression算法,从测试数据中挖掘出defect_count预测数据,数据分析过程,通过针对不同Product_ID下,defect_count因子和TC_PRESSS、TC_IP1_PRESS、TC

15、_IP2_PRESS,车台温度等因子,经过correlation算法,从测试数据中挖掘出相关性数据,注:挖掘数据位于测试中转机I:To_Andycorrelation.txt 、I:To_Andyregression.txt,关联预测准确度,(越靠近中线,预测偏差越小),线性回归分析,异常点部分需要进一步分析,分析结果,Advanced Analytic Service All Rights Reserved 2016,51,案例分享,传统数仓转大数据,项目背景,使用传统的标准数仓建模,分ODS、DW、DM及DMA ETL主要通过存储过程实现 存储过程数据加工较多的使用临时表、中间表 使用传统

16、交易型DBMS ORACLE作为数据仓库平台 前端通过刷CUBE提升报表查询速度 支撑报表数量:目前150左右 每日增量更新时长:1:0012:50,存在的问题,数据冗余比较严重,临时表、中间表使用过多,对内存及磁盘IO压力较大,层与层之间调度依赖严格,数据加工性能不足,数据查询性能不足,高并发查询性能下降严重,并发的计算架构,54,SQL(JDBC/ODBC/.Net)JAVA/C/ API,加载入 分布式存储,SQL on Hadoop,加载入 SQL in Hadoop,Source,CDH Cluster + Hadoop ETL,分布式内存 数据整合,CDH Nodes (Cloud

17、eras distributiong including Apache Hadoop),Hadoop ETL runs natively on every node,SQL on Hadoop,SQL on Hadoop,基于标准SQL或者API界面输出,新架构解决的问题,数据冗余比较严重,临时表、中间表使用过多,对内存及磁盘IO压力较大,层与层之间调度依赖严格,数据加工性能不足,数据查询性能不足,高并发查询性能下降严重,Dataflow流式加工数据,只将结果集回写数据库,大大避免减少数据冗余,Dataflow中流式加工数据,可以不用临时表,节约大量磁盘IO,Dataflow作业中直接实现业务逻辑,各报表相对独立无依赖,Dataflow流式并行加工数据,且可通过扩展节点线性提升性能,Impala特有向量计算技术及采用分布式并行计算架构,Impala向量计算、列存储、并行计算等技术完美支持高并发查询,结果比较,大数据创新实验室,Better Data, Better Decision,大数据之路有我们,不再迷茫,总结,Advanced Analytic Service All Rights Reserved 2016,58,问题与讨论,知识回顾Knowledge Review,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报