收藏 分享(赏)

物流大数据处理6-17.ppt

上传人:11xg27ws 文档编号:4596905 上传时间:2019-01-03 格式:PPT 页数:84 大小:11.25MB
下载 相关 举报
物流大数据处理6-17.ppt_第1页
第1页 / 共84页
物流大数据处理6-17.ppt_第2页
第2页 / 共84页
物流大数据处理6-17.ppt_第3页
第3页 / 共84页
物流大数据处理6-17.ppt_第4页
第4页 / 共84页
物流大数据处理6-17.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

1、物 流 大 数 据 处 理,物流,大数据,处理,采集,导入/预处理,统计/分析,挖掘,1,2,3,4,5,6,7,潘 果,淘宝数据分析挖掘实践及变革,百度大数据分析系统架构,京东大数据实时处理技术,物流大数据处理简介,1,2,3,4,目 录,【推荐】,用大数据能力找到商品之间的关系,【推荐】,用大数据能力找到商品之间的关系,你知晓大数据在哪些方面有应用?,3,1,3,2,架构化1950-1970,数字化,1970-1990,网络化1990-2010+,物联网大数据Something Big is HappeningNOW,移动互联网云计算,4,信息技术革命的小周期智慧化,5,1:1 Marke

2、ting,Nanotargeting和Retargeting,6,2,IBM IBM 2013,多渠道交通控制交易分析,智慧的医疗国土安全制造,金融电信欺诈和风险,日志分析搜索质量零售:流失、促销 Copyright 2011 Corporation,大数据在各行各业都可以获得应用,2,4, Copyright 2011 Corporation,IBM IBM 2013,获得突破性回报了解关于客户的一切,作快速大量地创 新产品,和风险,利用工具化的 资产,利用大数据能力可以帮助企业获得突破性回报,利用大数据独有的技术能力可视化和发现,Hadoop执行零延迟的操,数据仓库流计算,文本分析,整合和

3、治理,多媒体内容,通过分析仸意大数据类型交易 / 应用数据,机器数据,社交媒体数据实时侦测欺诈,4,11,快,杂,大,大数据的新思维,13,多数据源的集成,浮动车GPS:20M/day,手机位置信息: 18M/day,居民调查: 80000户,视频/图像数据 和元数据: 100s of TB/dayGIS数据,供水系统,智能电网,睡眠质量,出租车运营数据: 1M/day交通卡:19M/day高速路收费数据:0.5M/day社交网络情感分析,部分数据来源:BeijingTOCC,12,大数据的新方法学数据极大丰富前提下的新分析思维和技术,采样数据 全集数据多数据源的整合基于主观因果假设 相关关系

4、,大数据+小算法+上下文+知识积累描述性分析 预测性和处方性分析实时性 绝对的精确性,数据,数据中介服务,生态系统,数据拥有者大数据的,数据中介,数据技术公司 数据产品和服务16,大数据系统的设计权衡,大体量,基于采样的查询实时性流计算,批量计算精确性,惰性数据的即席查询,Little data(个人计算)19,城市计算,增量计算内存计算,案例一: 大数据分析系统架构的搭建,百度的数据规模, 1001000PB 10100PB/天 千亿万亿 百亿千亿 十亿百亿/天 十亿百亿/天 100TB1PB/天,数据总量数据处理量网页索引更新量请求日志,离线,在线,离线分析与在线实验相结合,快速迭代是互联

5、网产品的主要创新手段算法A算法B算法B通过反馈来验证算法优劣,搜索引擎的迭代,5%,5%,Online Learning A/B test策略,机器学习平台FeatureTraining,数据网页网页库倒排表Data Mining,想法,原型,系统,快速开发,测试,产品,部署运维,开发框架,互联网产品的迭代A/B测试,持续优化数据智能,验证,数据分析,应用引擎云测试,应用引擎,数据,架构 技术,互联网服务enable数据智能,IT产业生产力的变化,60,70,80,90,00,10,硬件Mainframe,软件PC,Internet,Inf +人 +数据Cloud,迭代的本质是让人参与系统进化

6、, 而Big Data为迭代指导方向, Infrastructure则加速迭代。软件+人,互联网服务的典型技术特点,超大规模,快速迭代,数据智能,软件基础架构,大数据,数据中心、网络、服务器,数据中心计算,云计算技术体系,Disk,Flash,Pipe,K/V,File,Table,统一存储体系 平衡大容量、高并发、低延迟 不同访问模式通过组合满足 统一访问与传输,数据访问层,P2P,CDN,分布式存储,描述能力,数据流优化,控制流管理资源分配,优先级、并发控制 隔离、安全,执行层,模型层,Map,Reduce,表示层,SQL-like翻译,Join,Select,Top,分布式计算,BC,D

7、,A,实时存储与计算,kNN查询平台,向量计算引擎,流式数据处理引擎,PubSub引擎,机器学习 算法平台,OLAP 引擎,复杂事件处理引擎分布式数据结构超大规模数据仓库,图查询平台,实时检索平台,向量计算引擎,Vector,Layout,Map-,Shuffle,Operators/ Checkpoint,SIMDProgram,复杂事件处理,average(price) trigger(?,b,c) filter(b),pattern(a-b-c),condition(func(a,b,c),流式计算模型window,step,bound,time,M=Stream,目标, 1000PB

8、10亿维特征训练 100维条件查询 流式 触发式,海量高维、多维实时,更大、更复杂、更快!,数据智能,分布式 存储与计算,大规模人工 辅劣标注系统,人计算,向量引擎,Machine Learning算法,Web Contents,流式处理,Logs,PubSub,推荐系统智能交通,Apps自劢评估,商业智能,决策辅劣,关于京东,营销 管理,供应商管理,仓储 管理,财务 系统,客户 数据,网站 前台,关于京东 京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平台,全面提升用户体验。,配送 管理,大规模数据处理更加容易,ETL/企业数据仓库 (Hive/Pig/MR),数据挖掘/建模,(

9、R、Mahout),搜索和推荐,日志存储, ,“Next Click”运营智能风险控制互动分析,一些场景需要进一步的考量,MapReduce批量处理=延迟较长 无法满足用户的实时需求调度开销较大,大数据包括三部分,服务,模型 性能,大数据实时处理的思考, 模型, 海量数据, 数据量大 并发数高, 多个数据源整合, 预定义好的数据模型, 去规格化, 数据任务依赖关系简单 推和拉的问题, 拉比推好,大数据实时处理的思考, 性能, 高并发需求 大容量需求, GBTB 级后台数据处理吞吐, 高速度需求, 从数据产生到处理完成结果延迟要求到秒级 计算需要在短时间内完成, 批处理预算 硬件支持, 内存、C

10、PU、网络, 容错, 水平扩展,大数据实时处理的思考, ,关联获取价值,维度按需定制 互动分析、报表等完成价值交付 与其他在线生产系统进行数据对接(数据反哺) 计算即服务,大数据实时处理的思考 服务,生产数据库,企业数据仓库,大数据实时处理架构财务数据集市,采销数据集市,罗盘数据集市,分析挖掘数据集,数据 缓冲区,企业消息总线,流式计算集群,实时数据同步,模型,日志系统,高速存取集群在线实时计算集群,持久 化,PUSH,PULL/PUSH,订阅,ELT,ELT,高速存取集群,ETL,报表应用,分析应用,推荐应用,.,数 据 推,送,中 心,近实时分析集群,近实时计算,实时计算 在线服务,离线计

11、算,应用,分布式消息系统缓存集群, ,日志(用户行为、) 批量同步 消息队列 , 开源技术, ,Flume Scribe Kafka ,大数据实时处理技术 数据传输, Apache项目:http:/kafka.apache.org/ 一个分布式的发布/订阅消息系统 术语, Topics, 消息分组, Brokers, 消息存储, Producers, 消息生产者, Consumers, 消息消费者,Kafka, ,大数据实时处理技术 几个点,Sink,Agent,Agent,Storm等,Broker(Topic1),Broker(Topic2)HDFS,Zookeeper,解耦 缓冲 容错

12、透明 跨数据中心数据分发Flume,Kafka, ,Hadoop HBase Cassandra MongoDB Redis , 数据库Sharding 合适的就是最好的,大数据实时处理技术 存储 大容量低速存储 高速存储 KV存储 开源NoSQL数据存储, ,可加计算、不可加计算 实时数据的实时计算 实时数据的计算 数据的实时计算, 开源计算框架 Storm Impala ,大数据实时处理技术 计算,大数据实时分析,明细事实表,聚合表1,聚合表2,聚合表3, 基本概念 Streams(流), 元组序列 Spouts 流的源头 Bolts Functions, Filters, Joins,

13、Aggregations Topologies 优点 可扩展、容错、易用, 在内存中执行,流式计算Storm Twitter开源的分布式处理框架,Spouts,Bolt,Topologies, Nimbus, 主控节点,用于任务分配,集群任务监控等, Zookeeper, 集群中协调,共有数据的存放(如心跳信息), Supervisor, 对应一台物理机,用于启动worker, Worker, 工作进程,负责启动task,以及通过zeromq进行tuple的分发,与,接收。, Task, 工作线程,任务的处理,Storm的部署,Storm的应用模式,用户查询,大数据存储,数据视图集 (批处理)

14、,数据流,Hadoop,Storm,数据视图集 (实时处理)数据流,数据视图集 (实时处理)数据视图集 (实时处理),流式计算,流式计算,应用,事件收集器,Storm,前段展现, 事件驱动实现, 注意, 内存泄露 消息堆积, 算法模块拆分,流式计算, ,分析可视化 数据可视化 数据反哺 计算即服务, 仔细思考其价值, ,实时的统计:最流行 广告CTR预测 ETL:格式转换、重复值过滤、 运营需求:资源调派 ,大数据实时处理技术 服务和应用 价值展现, 对系统的压力, 数据量, 数据展现, 数据读写和传输, 解决方法, 前端和后端解耦, 缓存的应用, JS发挥前端的能力, 压缩 排队, 异步、非

15、阻塞IO模型 线程池, 事件驱动, 后端更强劲, 数据库集群:分库、分表、分区 NoSQL数据库:Hbase、MongoDB等,数据应用的问题,淘宝数据分析挖掘实践及变革,淘宝数据四阶段, 被动响应,2007年前, 主动变革2008-2010 优化完善2011-2012 引领驱动,2013-,数据系统变迁,2007年前 数据库(集群) 脚本 简单调度 数据报表,2008-2010 Hadoop集群 调度监控,实时日志传输 数据门户 多维分析,2011-2012 Hadoop集群,DXP公有云 实时Storm 调度监控,实时日志传输 实时数据库同步 数据门户 自助查询工具 元数据管理,2013-

16、 数据驱动 新模式探索,调 度,监,控,业务库(Mysql),Log Server,外部数据,数 据 源,数 据,计 算 平 台,数据门户,多维自助查询平台,OpenAPI,数据平台架构数,据 应,用,数 据 收 集,DBSync,TT,DataX,Hive,HDFS,Hbase,实时计算,Storm,OceanBase,分布式集群,量子恒道,在云端接入,数据魔方,DXP 数据交 换平台,冷数据集群,数据应用格局,对外数据产品, 数据魔方/淘宝指数,行业趋势 人群特征 成交排行 市场细分, 量子恒道,销售分析 营销效果 来源分析, 搜索排行榜,对外数据产品, 淘宝时光机,http:/ 回忆的感

17、动, 排行榜,对外数据产品-淘宝指数,对外数据产品-量子恒道,数据嵌入产品中, 搜索匹配、排序 广告匹配、排序 推荐, 商家后台数据 营销效果,直通车、展示广告、淘宝客,内部数据服务, 淘数据门户,用户分析 商家云图,活动效果分析 例行数据报表, 在云端,低门槛接入分布式集群 周活跃用户1000+,内部数据服务, 多维数据自助查询平台,数据仓库和索引技术结合 随意组合维度 秒级返回, 日常数据需求管理,数据接口人,数据工具, 天网调度, 元数据管理, 数据地图-定位、血缘分析 DataX异源数据传输, TimeTunnel实时日志传输 监控报警, 生命周期管理,新的探索, 金融服务,小微企业贷

18、款 个人消费贷款, 全网精准营销,DMP、DSP、AD Exchange、RTB, 无线与PC数据打通 数据交换,一些观点, 数据处理是手段,数据应用是根本 云系统运维能力是核心竞争力 整合关联让数据价值指数级增长 数据可视化很重要, 想大做小,迭代优化 关于隐私,隐私和服务的权衡,控制使用比控制收集更有效 不针对具体个体,初识物流,物流信息技术,物流信息平台,概念,发展历程,物流的概念(Logistics),来源于二战军事(运输管理、仓储管理和库存管理 )物流管理:除运输外的需求预测、采购、生产计划、存货管理、配送与客户服务等,物流信息技术,条码技术,射频技术,物流信息技术,EDI技术,GPS技术,物流信息技术,GIS技术,物流大数据来源,海量 并行 爆发式增长,物流大数据处理过程,处理过程,挖掘,统计/分析,导入/预处理,收集,识别、定位和感知,http:/,研究点:,物流信息平台的压力测试 物流信息平台大数据在亚马逊平台的性能分析 ,整合:用服务去换取管理 科学拆分 数据的数量优于质量 数据相关性优于数据逻辑性或因果性 公共平台解决网络(资源)与流程(服务) 电商物流企业 (物流仓储平台建设 、物流信息平台建设 ),启示,发展趋势,大数据能否预言足球盛况?,拭目以待,Thank You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 规范标准 > 物流与供应链

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报