收藏 分享(赏)

数据中心运维管理.pdf

上传人:精品资料 文档编号:11080267 上传时间:2020-02-06 格式:PDF 页数:61 大小:4.93MB
下载 相关 举报
数据中心运维管理.pdf_第1页
第1页 / 共61页
数据中心运维管理.pdf_第2页
第2页 / 共61页
数据中心运维管理.pdf_第3页
第3页 / 共61页
数据中心运维管理.pdf_第4页
第4页 / 共61页
数据中心运维管理.pdf_第5页
第5页 / 共61页
点击查看更多>>
资源描述

1、Industry specific cover image 数据中心运维管理 王锐 甲骨文大中国区资深技术咨询顾问 议程 数据中心运维管理面临的问题与挑战 数据中心运维管理探讨 数据中心运维管理 的能力框架及建设演进 业务驱动 IT管理 完整的平台管理 全生命周期管理 总结 2 IT越来越复杂 ,带来的典型 IT运营问题 架构复杂 整体性能难保证 整体可用性难保证 运维管理复杂 复杂 ,多厂商 难扩展 需要多领域专家 消除 I/O瓶颈很复杂 多厂商集成方案成本高、耗时 异构的数据库、Java层、消息层和 Web层很难整体调优 尤其在通常虚拟环境中,整体性能不高、不可预测 异构环境可用性管理复杂

2、 在通常的虚拟环境中,应用可用性更难管理 不同厂商产品的可用性可以大大影响整体可用性 异构环境增加运维复杂度,职责不好界定 问题诊断、解决过程复杂 不同厂商产品的升级、补丁过程复杂 4 “稳定”和“安全 ” 是 IT运营的基本目标 日 常监控 服务响应 工作调度 数据备份 系统变更执行 事故报告 灾备操作 机房管 理 访问授权 健康检查 应用系 统 开发 测试 生产 灾备 中间 件 数据库 服务器与存储 问题 管理 变更 管理 事件 管理 配置 管理 版本 管理 可用性 管理 容量 管理 网络 运维人员在多个环境里进行手工配置和操作,难以避免人为操作风险 变更影响分析通常凭经验,也难以充分测试

3、,怎样控制和验证? 怎样确定问题的根源?可以从业务影响发现问题吗?怎样避免问题的再次发生? 真的了解运行状态吗?预警和主动监控能做到什么程度?健康检查是否有效? 如何快速定位和恢复故障?应急演练是否有效?备份的数据真的可用吗? 怎样判断架构的高可用性?当前的性能容量能否支撑下阶段业务发展? 基础架构和运维的驱动 性能提升 资源利用率提升 弹性扩展 弹性 /可靠性 /性价比 快速应用部署 压缩环境准备和应用安装部署时间 提高工作效率 节能减排 机房空间效率 电力供应 平均 CPU/存储利用率 追求更低的 TCO和高 ROI 降低软件、硬件、服务成本 简化运维工作,降低维护成本 数 据中心 不能成

4、为问题中心 集中管控 监控预警,实现主动管理 故障诊断和性能优化 可视化管理,面向服务质量 风险控制 降低操作风险 系统安全提升 5 6 来自业务的挑战 CIO办公室 对最终用户体验缺乏可见性 业务要求 IT可靠和透明 业务经理要求以业务的语言来描述 IT服务水平 客户对服务中断和性能问题毫无耐心 IT性能指标与业务毫不相干 不能有效控制服务中断和性能下降 缺乏通用语言 基础关注点 不一致 “像业务一样经营 IT”是 CIO共同目标, 目的是保障服务质量,提高 IT对业务的贡献。 IT运营 IT服务管理最佳实践的新要求 7 ITIL v3 帮助用户 从业务角度 完成整体设计、实施和持续优化 I

5、T服务管理,并通过 IT服务管理将企业的 业务需求和 IT管理实现量化对接 ISO 20000:2011 供应商和客户之间的实质关系将影响服务管理过程如何实施 业务战略指导落地,业务需求量化考核 问题与挑战的总结思考 8 来自业务的挑战 灵活的支持业务发展; 对业 务量持续以及爆发性增长的需 求; 对于最终用户体验具备可见性; 业务需求和 IT管理实现量化对接 运维的驱动 具有面对服务需求峰值而不需要额外投入的能力; 可提供 7 24小时高水平服务等级的能力; 需要具有丰富经验的资源; 80%的企业软件费用花费在 安装与维 护; 服务器对管理员的比例还维持在20-30:1的水平; 部署新的应用

6、 时间太长 。 IT基础架构与基础设施的驱动 数据中心空间优化与地点的选择; 不断增长的数据中心基础架构的复杂度; 服务器 的利用率介于 10% 15%; 数 据中心往往需要耗费上千万的资金去建设,而且不能在现有设施上去扩展。 日常监控 服务响应 工作调度 数据备份 系统变更执行 事故报告 灾备操作 机房管 理 访问授权 健康检查 应用系 统 开发 测试 生产 灾备 中间 件 数据库 服务器与存储 问题 管理 变更 管理 事件 管理 配置 管理 版本 管理 可用性 管理 容量 管理 网络 保障稳定和安全 业务连续性和高可用性建设; 潜在问题的分析和规避; 主动的客户体验监控; 问题快速定位和解

7、决。 IT的变革与创新 IT基础架构集中与标准化; 虚拟化、网格计算; 自动化与持续可用; 云计算 /绿色 IT。 议程 数据中心运维管理面临的问题与挑战 数据中心运维管理探讨 数据中心运维管理 的能力框架及建设演进 业务驱动 IT管理 完整的平台管理 全生命周期管理 总结 9 通过架构整合和简化、提升运营管理能力来解决面临的 IT运营问题与挑战 10 构建 完整平台管理 ,完善 运营基础管理 能力,同时帮助用户 从业务角度 优化 IT服务管理,将企业的 业务需求和IT管理实现量化对接 提升运营管理能力 架构整合和简化 软硬件 资源池、 横向整合和纵向整合结合的 一体化整合方式 、和 云计算

8、等架构优化手段 驱动了运营水平的提高 Oracle IT运营能力框架模型 11 ITIL v3.0 COBIT USMBOK ISO 20000 TOGAF Oracle Unified Method SAS 70 Type I and II 运营规划 运营设计 运营管理 服务规划 服务识别 用户体验 财务目标 服务水平管理 组合设计、 SLA实施、 SLA趋势分析 服务台 事件管理、知识管理、 SLA报告 配置与变更管理 配置规划、配置执行、变更管理、跟踪与报告 性能与可用性管理 基线、测量、分析、解决 架构规划 平台架构 可用性架构 性能架构 发布管理 规划、协调、确认 利用率管理 基线、

9、虚拟化 /集群、压缩 安全管理 政策、审计与报告、访问和识别管理 服务开通与补丁管理 政策、初始化资源、补丁升级 信息全生命周期管理 规划、灾难恢复、归档 业务 IT 提升 IT运营能力:技术成熟度模型 12 有感知的 标准化程度低 架构与运维无法共享 只对关键资产使用状况有了解 6周部署 普遍的单点故障 基本的监控 技术现代化 阶段 1 认可的 关键的硬件 /软件标准化 对于 75%资产的使用状况了解 25%已经整合 2周部署 N+1设计 基本的管理 集中与整合 阶段 2 主动的 硬件 /软件标准化 共享的架构与运维 75%整合、部分虚拟化 100%了解资产使用状况 数天内部署 关键系统可靠

10、性设计 运维管理工具集 虚拟化 阶段 3 集成的架构 75%虚拟化 运维资产 数小时分配资源 持续的可用性 IT服务工具 服务型的 自动化 阶段 4 业务合作伙伴 高扩展、弹性的架构 新技术使用 90%虚拟化 整体的架构与运维 动态资源分配 灾难下的持续可用性 业务服务工具 云计算 阶段 5 我们在哪里? 提升 IT运营能力:人员成熟度模型 13 有感知的 人员按技术分类 离散的 个人主义 较低的客户信心 非正式的审查 个人型 阶段 1 认可的 分级支持 角色按流程定义 正式的职业发展规划 培训 员工 KPI 组织型 阶段 2 主动的 以流程为中心 与 HR的流程相结合 能力中心 预防模式 趋

11、势分析 以流程为中心 阶段 3 服务为中心 新的角色 信任的服务供应商 技能管理 以服务质量为目标 参照行业最佳实践 服务型的 以服务为中心 阶段 4 业务合作伙伴 成为业务部门 虚拟团队 注重业务 高效的外包技能 业务与 IT轮岗 创建行业最佳实践 以业务为中心 阶段 5 我们在哪里? 提升 IT运营能力:流程成熟度模型 14 有感知的 救火队模式 工具定义流程 备件备份 以工具作为标准 没有流程文档 工具使用 阶段 1 认可的 事件管理 变更与问题管理 标准化 灾备管理 项目管理 较少的流程集成 运维流程 阶段 2 主动的 分析趋势 阀值设置 应用可用性监控 自动化 大部分 ITIL流程已

12、成熟 服务交付流程 阶段 3 IT作为服务供应商 服务分类与定价 保证的 SLA 服务可用性监控 集成的流程 容量管理 服务型的 服务与客户管理 阶段 4 业务合作伙伴 IT作为战略业务伙伴 IT与业务 KPI关联 提升业务流程协作 实时架构 业务变革 以业务为中心 阶段 5 我们在哪里? 我们在哪里? 数据中心运维管理的能力建设演进 完善运营管理基础能力 主动端到端监控 快速定位问题 集中配置管理 有效控制变更和发布 自动化生命周期管理 有效的应急和安全措施 实现业务驱动 用户体验 业务监控 业务指标 云管理 全生命周期管理 15 用户体验管理 业 务 服 务 管 理 业 务 交 易 管 理

13、 网络门户 产品目录 订单管理 .其它 业务服务 客户与业务用户 业务驱动 IT管理 完整的平台管理 全生命周期云管理 业务驱动 IT管理 以业务视角管理 IT资源 创建应用感知云,能够理解和适应实际业务需求 完整的平台管理 应用、中间件、数据库、硬件 一体机 (Exalogic,Exadata) 全生命周期云管理 建立敏捷的 IT管理以适应不断变化的业务需求 使用同一软件进行统一的云服务全生命周期管理 应用 中间件 数据库 OS, VM, Servers 存储,网络 Oracle 支持服务 云服务 Apps, PaaS, DBaaS, IaaS 数据中心运维管理解决方案 16 议程 数据中心

14、运维管理面临的问题与挑战 数据中心运维管理探讨 数据中心运维管理 的能力框架及建设演进 业务驱动 IT管理 完整的平台管理 全生命周期管理 总结 17 业务驱动型应用管理与能力框架的映射 运营规划 运营设计 运营 服务规划 服务水平管理 服务台 配置与变更管理 性能与可用性管理 架构规划 发布管理 利用率管理 安全管理 供应与补丁管理 信息全生命周期管理 虚拟机 服务器 存储 网络与基础设施 用户体验管理 业 务 服 务 管 理 业 务 交 易 管 理 网络门户 产品目录 订单管理 .其它 业务服务 客户与业务用户 业务驱动型应用管理 完整的云平台管理 全生命周期云管理 应用 中间件 数据库

15、OS, VM, Servers 存储,网络 Oracle 支持服务 云服务 Apps, PaaS, DBaaS, IaaS 真实用户体验管理 业务交易管理 JVM 和 DB诊断 用户满意度怎么样? 他的录入快速吗? 下 单情况怎么样? 下单为什么卡住? 为什么慢? 怎么 老超时? 根本原因是什么? 是核心的问题还是ECIF问题? 19 业 务驱 动的 端到端应用管理 用户体验管理 实时监测用户的 “真实的”活动,优化 业务响应率和转化率 Executive dashboard Business Reporting Transaction Performance SLA管理与行政驾驶舱 实时错误

16、报告与分析 KPI实时监控与报警 定制业务服务实时监控 实时交易 漏斗监控 整体页面浏览性能 -绿色 = 满意 -橙色 = 容忍 -蓝色 = 失望 用户满意度实时趋势分析 实时用户体验跟踪 用户出错页面重放 实时系统性能分析 持续监控关键事务 , 通过一系列的事务 /操作序列来定义 ” 业务交易 ” 典型 “ 业务交易 ” 问题 业务上定义的逻辑错误 , 比如 ”信用额度不足 ”, “ 库存少于 10件 ”, “ 审批周期超时 ”, “ 定单金额超过预定义金额 ” 失控流程 (Stalled processes), 不正常跳转 , 非正常中断的交易流程等 失控结果 , 定义范围以外的结果 技术

17、层面的问题 , 比如延时 和 EM其他模块互动 ,告警并解决问题 Rejected Order Alert WebLogic Service Bus Appliance DBMS Web Partner and Cloud 业务交易管理 22 Service Level Objective (SLO) For Platinum customers: Ave. Response time per hour 6 sec Warning threshold = 4 sec - Action: alerts 1 利用率跟踪和分类 譬如:白金卡,金卡,银卡等 2 3 服务水平协议 面向目标的性能监控 5

18、 为白金客户提供稳定的响应时间 在白金客户违规错误发生之前自动告警 4 Gold 面向客户可定制业务驱动的服务质量( QoS)交付 议程 数据中心运维管理面临的问题与挑战 数据中心运维管理探讨 数据中心运维管理 的能力框架及建设演进 业务驱动 IT管理 完整的平台管理 全生命周期管理 总结 23 完整平台管理与能力框架的映射 运营规划 运营设计 运营 服务规划 服务水平管理 服务台 配置与变更管理 性能与可用性管理 架构规划 发布管理 利用率管理 安全管理 供应与补丁管理 信息全生命周期管理 虚拟机 服务器 存储 网络与基础设施 用户体验管理 业 务 服 务 管 理 业 务 交 易 管 理 网

19、络门户 产品目录 订单管理 .其它 业务服务 客户与业务用户 业务驱动型应用管理 完整的云平台管理 全生命周期云管理 应用 中间件 数据库 OS, VM, Servers 存储,网络 Oracle 支持服务 云服务 Apps, PaaS, DBaaS, IaaS 服务器与存储告警 服务器故障管理 物理层与虚拟基础设施层的依赖关系分析 完整的、深度数据库监控 数据库自服务管理 (ADDM, AWR, ASH) 自动化 SQL优化 监控 Weblogic, SOA, Coherence JVM诊断 服务拓扑与依赖关系分析 用户体验管理 业务交易管理 EBS, Siebel,People Soft建

20、模与监控 为云提供业务驱动型应用监控 完整的、从应用到磁盘的资源监控 25 部署 /运行维护 。 系统间接口 连接 /超时 DB 系统间 客户端 系统内 资源使用冲突 连接 内存 CPU 类型 (根本原因 ) Root Cause (事故多发区 ) 交 易 线 问题现象 /当前系统数据 系统内 复杂逻辑处理 报文处理 日志 复杂交易 错误处理 针对交易线上每个环节,分析系统间接口、系统内资源使用、应用的复杂逻辑处理、以及部署、维护环节的实现机制与参数配置,可以深入分析问题的原因所在。 一体化的优化考虑、一站式的问题“会诊” 26 用户体验监控 通过综合检测比对服务实际运行响应水平和预定义 SL

21、A的要求 采用模型驱动的方法对应用进行基于上下文的下钻 . 支持 Servlet/JSP, EJB, JDBC 下钻 Java 代码级的诊断 跨层追踪至 Oracle 数据库 内存泄漏分析 复合应用管理 JVM 诊断 数据库管理 监控和优化数据库 提供关于数据库问题的建议 全面覆盖用户级 /应用级 /系统级等问题 27 数据库管理 事件 策略 管理数据 配置变更管理 集中管理 数据遮蔽 集中监控 ORACLE 性能诊断与优化 业务服务与SLA管理 集中的数据库监控管理 自动性能诊断 通过数据库自管理获得最佳性能 通过数据库自管理保持最佳性能 使用自动负载信息库快照进行自上而下的分析 使用自动数据库诊断监视器进行实时性能分析 通过深入的根源分析加速解决性能问题 基于性能调优经验的分类树 性能专家 提高管理员的工作效率 消除性能瓶颈 降低 IT 管理成本 提高服务质量 自动负载 信息库快照 性能与管理 顾问程序 高负载 SQL RAC 问题 IO / CPU 问题 自诊断引擎

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报