1、从大数据到大智慧: Oracle大 数据解决之道 周建 Jonathan zhou 解决方案架构师 以下内容旨在概述产品的总体发展方向 。 该内容仅供参考 , 不可纳入任何合同 。 该内容不构成提供任何材料 、 代码或功能的承诺 , 并且不应该作为制定购买决策的依据 。 所描述的有关 Oracle 产品的任何特性或功能 的 开发 、 发布和时间安排均由 Oracle 自行决定 。 议题 大数据时代 的机遇和挑战 从大数据到大智慧的 Oracle解决之道 一 个大数据分析场景的探讨 Q&A 3 大数据时代的 机遇和挑战 http:/ 大数据时代的总统选举 依靠直觉与经验进行决策的优势急剧下降,在
2、政治领域,大数据的时代已经到来 “我们要用数据去衡量竞选活动中的每一件事情。” - Obama竞选活动经理 Jim Messina 竞选总部任命 Rayid Ghani为“首席科学家” Ghani和他的团队将试图挖掘选民在公开市场上可得的行动、行为、支持偏向方面的大量数据,并预计出选民的选举模式,这将使奥巴马竞选团队的花费更加精确和有效率。 新的大数据库能让竞选团队筹集到比他们曾预料到的更多的资金( 10.6亿美金 /08年 7.5亿) “我们每天晚上都在运行 66000次选举。每天早上,我们都会得出数据处理结果,告诉我们赢得这些州的机会在哪,从而我们去进行资源分配。” 华盛顿那些基于直觉与经
3、验决策的竞选人士的优势在急剧下降,取而代之的是数量分析专家与电脑程序员的工作 新的互联网,新的候选人,新的操盘手,一场新式的选举,创造出一个新媒体时代的总统。 淘宝网的指标体系除了自己分析运营的淘数据之外,为卖家提供了丰富的指标应用工具,主要是 淘宝量子恒道统计,淘宝魔方 等二十多种分析工具,通过这些工具为卖家更好的管理自己的店铺和优化店铺经营 阿里金融: 如何融资(挑战传统金融模式) 阿里金融相继开发出阿里信用贷款、淘宝(天猫)信用贷款,淘宝(天猫)订单贷款等微贷产品,均为纯信用贷款,不需要小微企业提交任何担保或抵押。 面向小微企业、个人创业者: 发放信贷最主要的因素是成本和风险,阿里金融通
4、过对数据的搜集和整合,解决了这两大难题。 通过对商家往来的交易、信用、客户评价、访问行为等数据的分析,了解可能需要的资金量并可以测算他们可能的还款时间,从而降低放贷风险。 通过数据的运算来评核企业的信用,不仅降低了申请贷款的门槛,也极大简化了申请贷款的流程,使其有了完全在互联网上作业的可能性 数据魔方: 卖什么 以行业商品为分类,提供行业内商品热卖排名等信息,分析行业内商品销售趋势 帮助商家: 何种商品上架 -借鉴行业商品在淘宝的销售信息,确定在何时上架什么类型的商品,为制定商品价格、优惠活动时长做出参考 指导生产和销售:买家喜欢搜索的品牌、产品和特征,企业可预先洞悉即将热销的商品指导生产和销
5、售 确定客户目标 -帮助商家分析买家的性别年龄、地域分布、客单价、购买频次以及购买时段等数据,便于企业精准营销 知己知彼 -帮助商家确定自己在淘宝的位置,查看竞争对手的销售概况,从而帮助商家进行店铺 销售 定位 大 数据带来高价值 互联网企业 7 2012年 7月,阿里巴巴在管理层设置了“首席数据官 (CDO)”一职,负责推进“数据分享平台”,落实“将阿里集团变成一家真正意义上的数据公司”战略。 什么是大数据? 具有 4V特性的数据称为大数据 巨大的数据量 Volume 集中储存 /集中计算已经无法处理巨大的数据量 VOLUME VELOCITY VARIETY SOCIAL BLOG SMA
6、RT METER VALUE 101100101001001001101010101011100101010100100101 3亿用户,每天上亿条微博 中型城市每月数十亿智能电表数据 2015年全球移动终端产生的数据量 6300PB 多结构化数据 Variety 文本 /图片 /视频 /文档等 增长速度很快 Velocity 海量数据的及时有效分析 用户基数庞大 /设备数量众多 /实时海量 /数据指数级别增长 价值密度低 Value 单条数据并无太多价值,但庞大的数据量蕴含巨大财富 媒体 /娱乐 访问者 通信 呼叫、内容 应用程序 教育与科研 建模 消费品 舆情 、地点、 设备 医疗保健 个
7、人传感器 监视 生命科学 临床试验 基因组 工业制造 质量 高科技 制造执行系统 石油与天然气 勘探 金融服务 欺诈 安全性 汽车 传感器 零售 消费者行为 航空与国防 性能 旅游与运输 每小时 20 TB 保险 个性化保险 公共部门 计量经济学 公用事业 智能量表 各行各业的用例 电子商务 网站 行为 面临的挑战 : 数据 量 、 高 速度、多样性 大数据大事业 (Big Data is a Big Deal) 大数据上升为国家意志 2012年 3月 29日,美国政府宣布启动“大数据研发计划”,将投入超过 2亿美元推动大数据提取、存储、分析、共享、可视化等领域的研究,并将其与历史上对超级计算
8、和互联网的投资相提并论。 http:/www.whitehouse.gov/blog/2012/03/29/big-data-big-deal 大数据为什么重要 ? 视频和图像 文档 社交数据 机器生成数据 After Big Data Before Big Data 决策基于 交易 型数据 决策基于 所有 的数据 大数据 : 面临的挑战 业务价值 高度多样性 大数据 量 高速度 低价值密度 大数据 现状 高敏捷性 高度可伸缩性 实时 深度分析 将来 挑战 大数据 平台 传统 DW难以处理大数据 大数据的 4V特点: Volume, Variety, Velocity, Value 传统 DW
9、系统不适用于大数据的分析 数据量过于 庞大 大数据的多样化格式 绝大部分大数据是 垃圾 需要更复杂的数据模型和挖掘 需要革新性的技术手段 海量数据“分而治之” -批量分布式并行计算 Hadoop 海量数据“灵活多变” -实时分布式高吞吐高并发数据存取处理 NoSQL 海量数据“跨越鸿沟” -大数据超高速装载进 数据库 海量数据“挖据价值” -数据、建模、算法 从大数据到大智慧 Oracle的解决之道 Bla 决策 深入分析 敏捷开发 高可用 实时响应 高吞吐 就地数据就绪 多种数据源和数据结构 可预测的低延时 高吞吐高交易 灵活的数据结构 大数据的 处理的主要阶段和需求 获取 组织 分析 数据
10、驱动 应用分析 实时高效 业务提升 软硬一体优化集成的 Oracle大数据综合 解决 方案 Oracle Big Data Appliance Oracle Exadata InfiniBand 捕 获 组织 分析 InfiniBand Oracle Exalytics 决策 决策 分析 获取 组织 Oracle NoSQL 数据库 HDFS RDBMS Oracle 面向大数据的集成解决方案体系 传统数据源 VS 新数据源 非结构化 半结构化 数据 结构化 数据 两组特性 面向批处理 实时 处理要使用的数据 提供服务 批量 存储 快速访问特定记录 一次写入,无限读取 读取、 写入、删除、更新
11、 最佳选择 Hadoop 分布式文件系统 (HDFS) Oracle NoSQL 数据库 文件系统 数据库 并行扫描 索引存储 无固有 结构 简单的数据 结构 大 量写入 大量 随机读写 HDFS - Hadoop Distributed File System 数据块 复制因子 2 冗余存储的分布式文件系统 可靠并 高度可伸缩的数据 存取 能力 针对大数据量 、 低密度数据的经济高效 文件系统 HDFS 用例 点击流存储和分析 持续时间超过 X 分钟的 Web 会话数 浏览频率最高 /最低的页面 按钟点和源位置进行会话时间分组 舆情分析 多少个评论包含单词或词组 关系发现 哪些项目看似在时间
12、或相近性方面相关 X 和 Y 有多少次相近 Oracle NoSQL 数据库 节点 东部 节点 西部 节点 中部 NoSQL 驱动程序 应用程序 NoSQL 驱动程序 应用程序 读取删除读取更新分布式键值对数据库 简单编程模型 可伸缩的吞吐量 商业软件和支持 易于管理 Oracle NoSQL 数据库主要特性 简单数据模型 键值对(主键 + 次键模式) 简单操作 读取 /插入 /更新 /删除, RMW 支持 事务范围 主键内的记录、单一 API 调用 无序扫描所有数据(非事务) 简单数据模型 用户 ID 地址 订阅 电子邮件 ID 电话号码 到期日 主键 : 次键: 值: 字符串 字节数组 O
13、racle NoSQL 数据库主要特性 按操作逐个指定,应用程序设置默认值 可配置的持久性策略 同步策略 + 副本确认策略 可配置的一致性策略 ACID 事务 Oracle NoSQL 数据库用例 数据捕获 传感器数据捕获(即信息家电、智能电网、地球科学、生物医学科学) 统计信息和网络捕获( QOS 网络管理) Web 应用(一路点击式捕获) 针对移动设备的备份服务 数据服务 NoSQL 数据共享(地球科学、生物医学) 可伸缩的身份验证 实时通信( MMS、 SMS、路由) 社交网络、个性化 Oracle NoSQL 数据库的独特优势 与 Oracle 体系无缝集成 商业级 可伸缩 简单编程模型 易于管理 如何正确理解 NoSQL? 获取大数据 最佳的数据存放处 HDFS NoSQL 关系 数据库 通过分析发现价值 Oracle 面向大数据的集成解决方案体系 决策 分析 Oracle NoSQL 数据库 HDFS RDBMS 获取 组织 Oracle Data Integrator Oracle Loader For Hadoop Hadoop (MapReduce) Oracle Direct Connector