收藏 分享(赏)

最全的大数据解决方案.pdf

上传人:weiwoduzun 文档编号:3547639 上传时间:2018-11-13 格式:PDF 页数:105 大小:5.25MB
下载 相关 举报
最全的大数据解决方案.pdf_第1页
第1页 / 共105页
最全的大数据解决方案.pdf_第2页
第2页 / 共105页
最全的大数据解决方案.pdf_第3页
第3页 / 共105页
最全的大数据解决方案.pdf_第4页
第4页 / 共105页
最全的大数据解决方案.pdf_第5页
第5页 / 共105页
点击查看更多>>
资源描述

1、1 Cloudera, Inc. All rights reserved. Cloudera Enterprise Introduction - From Hadoop to Enterprise Data Hub Presenters Name | Position 2 Cloudera, Inc. All rights reserved. 提纲 数据正在驱动行业的发展 以 Hadoop为核心的大数据平台 企业数据平台( Enterprise Data Hub) Cloudera Enterprise CDH Cloudera Security Cloudera Manager Cloude

2、ra Director Cloudera Support 总结 3 Cloudera, Inc. All rights reserved. 物联网及智能终端数据 用户交互行为数据 企业运营数据 无所不在的数据 数据正成为企业的核心资产,数据可以帮助企业实现商业价值。 4 Cloudera, Inc. All rights reserved. 数据价值挖掘 体量大 速度快 多样性 价值密度低 日志 社交数据 用户行为 机器数据 图片 音频 视频 传感器 运营数据 Value 更好地理解并服务客户 精细化运营管理 个性化医疗健康服务 公共事业服务 安全和合规性检查 用户标签 行为分析 文本分析 情

3、感分析 图片分析 音频分析 轨迹分析 5 Cloudera, Inc. All rights reserved. Data Sources Data Systems Data Access Business Analytics Custom Applications Existing Data Databases/ Warehouse Operational Applications New Data Limited Data Not efficient to keep existing data, let alone handle new data sources. Time consumi

4、ng to transform data for analysis in existing systems. Limited Insights Power users struggle with data. Many users have no data. Compliance and Privacy More data, more users, and more tools create complexity. Need to balance business agility with security and governance. 传统架构的劣势 6 Cloudera, Inc. All

5、 rights reserved. Data Sources Data Systems Data Access Business Analytics Custom Applications Existing Data Databases Operational Applications New Data Keep Unlimited Data From disparate and limited views, to unlimited information access. Unlock Value from Data From analytics for some, to insights

6、for all. Manage Compliance From risk due to regulations and customer privacy concerns, to trust in a secure and compliant platform. Enterprise Data Hub Security and Administration Unlimited Storage Process Discover Model Serve 亟需新的数据平台架构 7 Cloudera, Inc. All rights reserved. Cloudera 创立 成立于 2008,企业级

7、 Hadoop产品提供商 员工数量 超过 900名 全球支持 24x7 全球支持 创新的 主动支持和预测支持 项目 客户群 全行业客户 (金融、电信、零售、能源、互联网、媒体等) 各行业的顶尖企业都有 Cloudera Enterprise部署 强大的产业链 数百个生态链合作伙伴 ; Cloudera Connect Program (CCP) 培训和认证 超过 80,000管理员、开发者等受训;最有价值的大数据证书 开源领导者 Hadoop及其相关生态项目的绝对领导者,和 Intel合作加速 企业数据中心的革新 Cloudera中国 2014年 9月成立,上海是大中华区总部,负责产品培训、

8、专业技术服务和产品支持,在北京和广州有本地支持 8 Cloudera, Inc. All rights reserved. Cloudera和 Hadoop生态 Cloudera是 Hadoop项目的最大贡献者,同时也是 No.1的 Hadoop发行版提供商 Hadoop平台标准化的领导者 数据采集 Flume, Sqoop 数据存储 HDFS, HBase, Avro, Parquet 数据处理 MapReduce, Spark, Hive 数据分析 Impala, Solr JIRA Contributions, Source: ApacheJIRA January 2012 Februa

9、ry 2015 52% Hortonworks IBM MapR Microsoft Pivotal Databricks Projects Included: Accumulo Avro Bigtop Crunch Flume Hadoop Core HBase Hive Kafka Mahout Oozie Pig Solr Spark Sqoop Tez ZooKeeper 9 Cloudera, Inc. All rights reserved. Cloudera产品和服务 Cloudera Enterprise Cloudera提供了 100%开源的,开放标准的 Apache Had

10、oop发行版 ( CDH) 让 Hadoop真正进入企业级应用的 Cloudera Manager和 Cloudera Navigator 提供虚拟化和云化大数据方案的 Cloudera Director 业内最权威的 Hadoop技能培训和认证 深耕于开源社区的专业技术支持团队和产品支持团队 Cloudera Enterprise 按年订阅 Hadoop 认证 培训 专业技术 咨询与服务 产品支持 10 Cloudera, Inc. All rights reserved. Cloudera Enterprise System and Data Management Process Inge

11、st Sqoop, Flume, Kafka Transform MapReduce, Hive, Pig, Spark Discover Analytic Database Impala Search Solr Model Machine Learning R, Spark Mllib, Mahout Serve NoSQL Database HBase Streaming Spark Streaming Unlimited Storage HDFS, HBase YARN, Cloudera Manager Cloudera Navigator Deployment Flexibility

12、 On-Premises Appliances Engineered Systems Public Cloud Private Cloud Hybrid Cloud 完善的企业安全策略 身份认证,授权,审计,数据安全 数据可管理性 开放标准 100%开源 Hadoop及其相关组件 3rd标准的软件集成 开放 API 标准云服务集成 统一平台 数据导入导出 可扩展存储 多样化的处理引擎 安全 资源管理 元数据管理 11 Cloudera, Inc. All rights reserved. 企业级数据平台 稳定性 严格的测试 被客户和开发者证明 开源的模式 易用性 标准的 API( Java,

13、SQL, Python, Rest) 标准的工具集成( MS, Qlikview, Tableau, Teradata, Netezza, Quest) 一站式管理解决方案 安全性 企业安全标准集成 统一的访问安全控制 全面的数据保护,密钥管理 可管理性 部署、管理、监控、警告 可治理性 数据溯源 数据发现 数据生命周期管理 灵活性 不同的问题可以有不同的技术选择 性能 高吞吐的 NoSQL存储 原生的大规模数据处理引擎 内存计算 为 X86平台做的原生优化 12 Cloudera, Inc. All rights reserved. The Open Source Platform - CD

14、H 13 Cloudera, Inc. All rights reserved. 最具创新的开源核心 CDH Cloudera Distribution for Apache Hadoop 100%开源且开放标准的 Hadoop核心 数据 采集 多样化的可扩展存储 资源(负载)管理框架 灵活多样的处理引擎 全面的安全技术体系 易用的 Hadoop交互界面 Workload Management Process Ingest Sqoop, Flume,Kafka Transform MapReduce, Hive, Pig, Spark Discover Analytic Database Im

15、pala Search Solr Model Machine Learning R, Spark Mlib, Mahout Serve NoSQL Database HBase Streaming Spark Streaming Unlimited Storage HDFS, HBase YARN Sentry 14 Cloudera, Inc. All rights reserved. CDH CDH 全球最流行的 Hadoop发行版 最完整且稳 定的 版本,经过严格的行业检验 具有最快的更新,更多新的功 能 方便开发者和集成商使用 Hadoop 和其他一些 Hadoop发行版提供商对比 C

16、loudera做 Hadoop开发的,其他厂商仅是做 Hadoop集成或 CDH集成 和 Hadoop trunk最快的同步,能保证业务的前向兼容性;其他厂商在Hadoop上做的定制优化或修复,无法保证兼容性 所有组件的开发和专业支持能力,其他厂商也仅仅跟随 Cloudera包含的版本进行集成,缺乏问题修复和专业支持能力 15 Cloudera, Inc. All rights reserved. HDFS 分布式文件系统 灵活性 多样化数据的统一存储 可扩展性 良好的线性可扩展性 高容错性 设计之初就考虑了高容错性 开放性 存储的数据格式和内容完全可见 适合大文件的顺序读写 , 写一次读多次

17、 Enterprise Data Hub Security and Administration Process Unlimited Storage Discover Model Serve 16 Cloudera, Inc. All rights reserved. Apache HBase 构建在分布式存储上的 NoSQL数据库 和 HDFS紧密结合,适合高并发随机读写 具有分布式存储的所有优点 灵活性 多样化数据的统一存储 可扩展性 良好的线性可扩展性 开放性 存储的数据格式和内容完全可见 + 在线数据服务 Enterprise Data Hub Security and Adminis

18、tration Unlimited Storage Process Discover Model Serve 17 Cloudera, Inc. All rights reserved. Apache Kafka 每个节点称为 Broker 数据以 Topics方式写入 Kafka 每一个 Topic都可以被分片 分片分布在 Broker上 分片可以有多个副本,其中一个为 Leader Producer, Consumer都与 partition直接进行数据交换 Broker 1 Broker 2 Broker 3 Partition 1 (Leader) Partition 2 Partit

19、ion 3 Partition 2 (Leader) Partition 1 Partition 3 Partition 3 (Leader) Partition 1 Partition 2 Producer Producer Consumer Consumer Kafka Cluster 18 Cloudera, Inc. All rights reserved. Kafka + Apache Flume Kafka 可以被配置为 Flume 的 Channel Flume Sources 和 Sinks 可以配置成 Kafka的 Consumer和 Producer Flume Sourc

20、es Consume from Kafka: Write data to HDFS, HBase, or Search Flume Sinks Write to Kafka: Read from logs, files, jms, http, rpc, thrift, etc and write events to Kafka 19 Cloudera, Inc. All rights reserved. 多样的工作引擎 批处理引擎 ( MapReduce, Hive, Spark) - 适合长时间的数据处理作业,高度成熟可靠 实时数据处理( Spark Streaming) - 实时的数据同时

21、,异常检测,预测分析等 自助 BI分析 /交互式 SQL ( Impala) 准实时的分析作业,高效的数据探索式分析,高并发的自助 BI功能 搜索( Cloudera Search) - 快速的跨应用数据搜索能力 数据挖掘( Spark Mllib, R, Mahout) - 适合数据分析人员的快速模型创建,迭代 在线服务( HBase) - 提供实时的数据服务能力 20 Cloudera, Inc. All rights reserved. 交互式分析引擎 Impala 构建于 HDFS上的原生的分析型 SQL 易用性 利用现有的 SQL语法,和绝大多数 BI工具完美集成 高并发 为高并发的

22、随机分析而优化,用 C+编写 交互性 提供交互式的体验 原生 和 Hadoop栈深度融合 Enterprise Data Hub Security and Administration Unlimited Storage Process Discover Model Serve 21 Cloudera, Inc. All rights reserved. Apache Spark 适合数据科学家的分布式内存计算引擎 灵活 多种接口,多种算法 高效 内存计算,适合迭代是计算 易用 好用且丰富的 API 安全集成 和数据平台的其他功能无缝集成 适合批处理、流计算以及迭代式计算 Enterprise

23、 Data Hub Security and Administration Unlimited Storage Process Discover Model Serve 22 Cloudera, Inc. All rights reserved. SQL的实现途径 Hive是一个 SQL解析和优化层,底层引擎可以是 MapReduce或是 Spark SparkSQL是 Spark生态系统的一个 SQL解析和优化层,也需要借助于 Spark引擎 Impala就是一个原生的 SQL解析、优化以及内存执行引擎,直接操纵 HDFS Unlimited Storage HDFS MapReduce I

24、mpala Spark Hive Spark SparkSQL 23 Cloudera, Inc. All rights reserved. 数据处理和分析 多样化的 SQL解决方案 不同的需求需要不同的技术 互补而不是替代 实时监控和分析 交互式分析和探索式分析 批处理 时延要求 数秒到分钟 几十分钟以上 数据源 24 Cloudera, Inc. All rights reserved. 交互式 SQL性能 050100150200250300350Impala Spark SQL Presto Hive-on-TezTime (in seconds) Single User vs 10

25、User Response Time/Impala Times Faster (Lower bars = better) Single User, 510Users, 11Single User, 2510 Users, 120 10Users, 302 10 Users, 202Single User, 37Single User, 775.0x 10.6x 7.4x 27.4x 15.4x 18.3x Independent validation by IBM Research SQL-on-Hadoop VLDB paper: “Impalas database architecture

26、 provides significant performance gains” 25 Cloudera, Inc. All rights reserved. Cloudera Search 大数据平台内的搜索引擎 易用性 实现了企业内数据平台的搜索引擎 标准化 基于 Solr的标准搜索实现 灵活性 实现了多种索引的构建方式 安全和集成 和 Cloudera企业级功能的紧密集成 | Search 所有人都知道怎么搜索 Enterprise Data Hub Security and Administration Unlimited Storage Process Discover Model

27、Serve 26 Cloudera, Inc. All rights reserved. 实时数据处理 27 Cloudera, Inc. All rights reserved. 实时搜索 HDFS Online Streaming Data End User Client App (e.g. Hue) FlumeRaw, filtered, or annotated data SolrCloud Cluster(s) Indexed data MapReduce Batch Indexing w/ Morphlines GoLive updates HBase Cluster NRT Re

28、plication Events indexed w/ Morphlines OLTP Data Cloudera ManagerSearch queries NRT Data indexed w/ Morphlines 28 Cloudera, Inc. All rights reserved. 企业消息总线 29 Cloudera, Inc. All rights reserved. Hue 专门为 Hadoop打造的用户界面 HDFS的浏览以及管理 HBase的管理 作业流设计,作业提交以及管理 SQL操作前端 定制化的搜索前端 访问权限配置界面 30 Cloudera, Inc. All rights reserved. CDH发布模式 领先于开源的版本 包含社区版本尚未发布的创新和稳定性功能 更快获取问题的修复 强大的 Committer团队保证客户问题得到更快的修复 最广泛的测试 活跃的开源社区能让所有功能得到最全的测试

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 解决方案

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报