1、Cloudera大数据从最先进的 Hadoop平台到企业级数据中心Cloudera 公司背景创立 2008, 由几家世界顶级 IT企业前雇员创立世界顶级技术支持 24x7 全球技术支持主动技术支持 &预测性技术支持企业核心业务应用 数千家企业客户,超过 500名付费订阅企业客户超过 60%为世界 500强客户成功案例 全球范围内数百项成功实施案例 最大生态系统 超过 1300个合作伙伴培训 全球超过 5万人通过培训得到了 Cloudera认证开源社区领导者 Cloudera是无可争议的 Hadoop开源社区领导者和贡献者Cloudera首席架构师为 Hadoop之父: DongCutting公
2、司发展历史Cloudera Confidential - Internal Use Only3Cloudera应用成果Cloudera Confidential - Internal Use Only4行业成功案例Financial &Business ServicesTelecomTechnologyHealthcareLife SciencesMediaRetailConsumerEnergyPublic Sector应用行业62014 Cloudera, Inc. All rights reserved. 客户 360度分析Enhanced customer experience & s
3、upportPersonalization, targeted offerings, loyalty programsSentiment analysis渠道优化Campaign managementSelection process optimization供应链优化Manufacturing process efficiencySupplier/merchant management风险管理Fraud detectionIntrusion detection & digital forensics审计Regulatory compliance (retention, privacy)Usa
4、ge analysis and mediatione-Discovery市场资讯Competitive analysisEconomic factor analysisCustomer segmentation数据服务Data as-a-productData enriched with insights/inferencesCloudera大数据应用案例种类7Cloudera中国2014 Cloudera, Inc. All rights reserved.8 英特尔 7.4亿美元投资到 Cloudera 英特 尔与 Cloudera通 过开源驱动创新 英特 尔使得 Hadoop在 IA架构
5、上运行达到最优性能 Cloudera与 英特 尔协作建立广泛的合作伙伴生态系统 Cloudera在中国建立销售及技术服务团队, 英特 尔大数据团队 2014年 9月正式加入Intel与 Cloudera大数据联盟2014 Cloudera, Inc. All rights reserved.9数据量决定数据使用方式2014 Cloudera, Inc. All rights reserved.10以前拷贝数据到计算节点现在拷贝计算程序到数据节点Relative size & complexity数据信息驱动 :Multi-structured, internal & external data
6、 of all typesComputeComputeCompute流程 驱动 :Structured data mainlyInternal data only“Important” data onlyComputeComputeComputeDataDataDataData传统数据分析 : 将数据带至计算平台2014 Cloudera, Inc. All rights reserved.11复杂的架构许多特殊用途的系统频繁的数据移动缺乏数据的整体认识高数据遗失率许多资料数据未能被使用风险与合规高存储成本数据存取速度慢需要前期建模数据转换速度慢转换程序常遗失数据高数据分析的成本现有系统负荷量
7、过大缺乏灵活性“商业智能积压 ”4123服务器数据集市企业级数据仓库 文件资料库 存储系统 搜索系统 存档系统ERP、 CRM、数据库、机器 文件、图片、视频、日志、点击流 外部数据源服务器 数据集市 企业级数据仓库 文件资料库 存储系统 搜索系统 存档系统ERP 、 CRM 、数据库、机器 文件、图片、视频、日志、点击流 外部数据源 2014 Cloudera, Inc. All rights reserved.多样化的分析平台将应用程序带至数据结合多样化的工作于常见的数据(即 SQL+搜索 )真正的敏捷性分析4123 4大数据分析 : 将计算平台带至数据12主动合规存档全保真原始数据不定时
8、间,任何来源成本最低的存储1保持 Staging所有的分析使用单一数据源保持变换后的数据的状态更快更便宜2自动服务 BI探索简单的搜索 + BI工具“Schema on read” 灵活性降低 BI用户请求积压3Hadoop 改变游戏方式Hadoop方式传统方式$30,000+ per TBExpensive & Unattainable 难以线性扩展 网络成为瓶颈 只能存储结构化数据 难以扩展新的字段和数据类型Expensive, Special purpose, “Reliable” ServersExpensive Licensed SoftwareNetworkData Storage
9、(SAN, NAS)Compute(RDBMS, EDW)$300-$1,000 per TBAffordable & Attainable 无限性能扩展 没有网络瓶颈 方便聚合多种数据来源 灵活的数据访问方式Commodity “Unreliable” ServersHybrid Open Source SoftwareCompute(CPU) MemoryStorage(Disk)zz14 Cloudera, Inc. All rights reserved.Cloudera Enterprise统一平台,全面的大数据解决方案15 Cloudera, Inc. All rights res
10、erved.统一平台,全面的大数据解决方案批处理,交互式处理和实时处理 .兼具高性能和易用性的统一平台 .端到端交互式分析海量数据聚合全面的数据处理框架广泛的第三方工具兼容 集群管理和数据管理批 处 理数据导入Sqoop, Flume转换MapReduce, Hive, Pig, Spark1数据 发现分析数据库Impala搜索Solr建模机器学习SAS, R, Spark, Mahout在 线 服 务操作 数据库HBase流处理Spark Streaming无限分布式存 储 HDFS, HBaseYARN, Cloudera ManagerCloudera Navigator16 Cloud
11、era, Inc. All rights reserved.Cloudera Impala业内领先的开源 SQL数据库SQL兼容性 最广泛兼容 SQL92/99/2003语法,用户可以使用熟悉的 BI工具高并发度 为多用户并发查询优化,特别适合 BI生产环境高性能 海量数据 SQL操作秒级响应,并能够线性扩展整合 &安全 与 Cloudera Enterprise各组件高度整合,全面支持各种安全规范,达到企业级标准Enterprise Data HubSecurity and AdministrationUnlimited StorageProcess Discover Model Serve
12、17 Cloudera, Inc. All rights reserved.Impala的优势17勿需远程检索,勿需数据移动使用 Hadoop元数据开源 (Apache-licensed )与 YARN的整合便捷的安装、管理与监控可通过 Cloudera管理器进行升级ANSI SQL兼容性主流 BI工具的整合预先定义的分析方法 (MADlib)全面的数据安全性基于角色的访问控制可审计的权限管理简单 &开放便捷可管理安全 &管治先进的 MPP架构 : 不使用 MapReduce海量数据处理性能远超传统数据库性能是 Hive/Stinger的 10-100倍以上快速检索任意 Hadoop上的数据“
13、Schema on read or write”引擎之间共享数据 , 例如检索、机器学习Hadoop上最快的 SQL 灵活18 Cloudera, Inc. All rights reserved.SQL性能比较Single User, 510 Users, 11Single User, 2510 Users, 12010 Users, 30210 Users, 202Single User, 37Single User, 775.0x10.6x7.4x27.4x15.4x18.3xIndependent validation by IBM Research SQL-on-Hadoop VLD
14、B paper:“Impalas database architecture provides significant performance gains”19 Cloudera, Inc. All rights reserved.搜索Cloudera Search (Apache Solr)2014 Cloudera, Inc. All rights reserved.19易用交互式的全文检索与切面导航实时的数据检索多用户友好灵性批处理 , 实时或者按需索引多类型、多格式支持原生与 Hadoop执行引擎相结合丰富的 API与完善的生态系统100% 开源业界标准的搜索引擎成熟的代码基础 , 活
15、跃的社区探索导 航关 联CDH是唯一一个提供企业级搜索解决方案的商用 Hadoop版本20 Cloudera, Inc. All rights reserved.Cloudera Search 框架介绍非结构化数据 用户搜索界面 (Hue)FlumeHDFSRaw, filtered, or annotated dataSolrCloud Cluster(s)Data to be indexedIndexed dataMapReduce Batch IndexingGoLive updatesHBase ClusterReplication Events to be indexed结构化数据C
16、loudera ManagerSearch queries$21 Cloudera, Inc. All rights reserved.机器学习与流处理Apache Spark2014 Cloudera, Inc. All rights reserved.21开源的数据并行处理框架 快速 . 充分利用内存,比 MapReduce的数据处理快 100倍,有效支持迭代式机器学习与分析 开发友好 . 提供 Java, Scala, Python等多语言丰富的 API 完整 . 集成于 CDH, 可通过 Cloudera管理器管理;通过与 Databricks公司的协作共同对 Spark开发完善便捷的
17、实时流处理 简单 . API有利于快速部署流处理应用程序 容错 . 实现 “Exactly-once”语意 统一 . 基于 Spark平台共享数据与模型22 Cloudera, Inc. All rights reserved.第三方应用扩展性数百家和 CDH互相认证兼容性 的第三方合作伙伴为企业用户更方便整合Hadoop到现有业务系统Access, ingest, transform, and cleanse all data on Hadoop with a visual development environmentQuickly connect to Hadoop for ad-hoc
18、 visualizations of your data to find patterns and outliersRun leading analytical systems natively on Hadoop to get insights from all dataDeliver R-powered advanced predictive analytics to Hadoop for better data modelingEnterprise Data HubSecurity and AdministrationUnlimited StorageProcess Discover M
19、odel Serve23 Cloudera, Inc. All rights reserved.Cloudera Enterprise端到端大数据平台管理24 Cloudera, Inc. All rights reserved.让 Hadoop平台运维管理更容易Cloudera ManagerHadoop业内最完善,最全面的零宕机时间管理平台,管理整个大数据平台系统,而不仅是Hadoop集群本身独有特性 :统一配置,管理和监控全部 Hadoop模块在线向导式安装和升级一键寻求 Cloudera支持强大的第三方扩展支持25 Cloudera, Inc. All rights reserved.
20、一个工具搞定全部运维管理Hadoop运维管理的复杂性:+部署和配置 监控 工作流 事件和警告 日志搜索 故障诊断 运维报表 集群活动监控DIY方式的运维管理对比 Cloudera“在第三方客户调查中显示,超过 95%的客户希望使用统一的端到端管理工具对 Hadoop集群进行维护管理,而不是被迫学习多种开源工具用于不同类型的管理 ”26 Cloudera, Inc. All rights reserved.简化的故障诊断流程Cloudera Manager最大程度提高故障诊断效率注意到系统任务失败,集群停止服务在 TaskTracker界面中定位找到故障任务借助 Ganglia调查服务,主机,网
21、络的各种监控指标,帮助查找故障原因尝试找到合适的 HEAP MEMORY设置大小更新设置,分发到所有节点,暂时中断服务,重启整个集群故障原因:TaskTracker Heap Memeory设置过低1小时2小时1小时30分钟收到 CM警告:任务运行时间长于预期在 CM中自动定位并高亮显示故障任务自动对 TaskTracker节点做健康检查,找到故障原因用系统推荐的设置值更新集群重启单独的 TaskTracker,集群服务不会中断故障原因:TaskTracker Heap Memeory设置过低5分钟3分钟2分钟5分钟通过 CLOUDERA MANAGER4.5 小时15 分钟非 Clouder
22、a平台 故障诊断27 Cloudera, Inc. All rights reserved.Cloudera Manager 关键特性全面的灾备解决方案 零宕机时间 -滚动升级28 Cloudera, Inc. All rights reserved.Cloudera Manager 扩展接口 API access provides programmatic access to cluster operations (such as configuration and restart) and monitoring information (such as health and metrics
23、). The CM API is an HTTP REST API, using JSON serialization. The API is served on the same host and port as the CM web UI, and does not require an extra process or extra configuration. API users have the same privileges as they do in the web UI world.Exampleshttp:/cloudera.github.io/cm_apiMetrics pl
24、ug-inhttps:/ clientshttp:/ Cloudera, Inc. All rights reserved.Cloudera Enterprise企业级安全和审计功能30 Cloudera, Inc. All rights reserved.全面的企业级安全功能,满足企业合规性要求验证,授权,审计,合规验证Guarding access to the cluster itselfTechnical Concepts:验证网络隔离授 权Defining what users and applications can do with dataTechnical Concepts:权 限 许 可Authorization加密Protecting data in the cluster from unauthorized visibilityTechnical Concepts:加密,密 钥 ,数据遮罩审计Reporting on where data came from and how its being usedTechnical Concepts:审计LineageCloudera Manager Apache Sentry Cloudera Navigator Navigator Encrypt & Key Trustee | Partners