1、构建变更管理的闭环控制体系兴业银行数据中心变更管理工作实践 韩晓燕 潘波 兴业银行信息科技部数据中心 变更管理是银行业数据中心日常运维管理工作中非常重要的内容, 变更管理的成熟度直接影响到数据中心风险控制的水平, 与数据中心的安全稳定运行息息相关。监管部门对重要信息系统的变更管理制定了严格的管理办法, 各银行数据中心也将变更管理体系的搭建作为重头工作。在变更管理工作中如何利用合理的流程及适用的工具构建一套贯穿事前、事中、事后的全过程闭环控制体系?针对此问题, 兴业银行数据中心近年来不断探索与实践, 取得了一定的管理经验和良好的管理效果。一、变更管理的必要性数据中心的变更是指在维护过程中对系统或
2、服务所做的各种改变, 包括增补、移除和其他修改。变更是数据中心最基础的运维工作, 通常的变更起因包括解决突发事件及问题、调整参数或硬件、响应业务需求。银行业数据中心的运行环境复杂, 变更需求量大且频繁, 变更过程面临一系列挑战与风险:设备各类账号和密码数量繁多, 管理复杂;不同岗位的操作标准不统一, 变更操作不可定位和追溯;误操作、违规操作导致系统故障或信息泄露;变更操作行为缺乏监控和审计, 过于随意导致质量事故的发生等。在数据中心日常运维事故中, 有相当比例源自变更操作, 因此进行有效的变更管理非常必要。变更管理的目标是让数据中心的任何变更操作都在受控的方式下开展, 确保数据中心以标准的方法
3、和步骤, 及时、准确地处理所有变更, 减少变更带来的突发事件, 从而将变更对服务质量和业务连续性的影响降到最低, 并对变更影响、资源需求和变更批准进行控制和管理。所有变更都应是可跟踪和可追溯的。二、制度与流程是变更管理的基石“没有规矩, 不成方圆”, 构建完善的变更管理体系, 需要先建立合理的制度与流程。1. 建立相关的管理制度所有变更操作都应遵循既有的变更管理制度。兴业银行针对紧急变更的操作制定了信息系统紧急变更操作规程;针对重要系统的投产及变更制定了重要信息系统投产及变更管理办法;针对数据类变更在生产系统数据管理规定生产系统数据修改操作规程和业务数据提取管理规定中明确了生产系统数据修改和提
4、取的管理要求。2. 建立专业的管理标准标准的制定能够帮助数据中心逐步形成一套能够不断自我完善并在运维工作中行之有效的体系。2013 年 4 月, 兴业银行数据中心通过 ISO20000 贯标认证, 为将认证成果转化为生产力, 进一步推进一体化运维体系建设, 数据中心推行了量化绩效考核指标管理, 在变更管理方面设置了包括“变更吻合度”、“变更及时率”、“标准变更数”等考核指标, 大大提高了运维人员的工作规范性和积极性, 显著降低了运维操作风险, 大幅提升了系统稳定性与安全性。三、系统与工具提升变更管理效率“工欲善其事, 必先利其器”, 适用的系统和工具能显著提升变更管理的效率, 确保变更操作不偏
5、离已有的流程与制度。2010 年 9 月, 兴业银行数据中心建成运维服务管理系统, 整合运维服务台及各流程, 形成全行完整、集成、统一、跨地域支持的 IT 服务管理体系, 变更从发起、审批到办结全流程在系统的支撑下更加高效, 变更影响分析也在与配置库进行关联后更准确。2012 年 8 月, 兴业银行数据中心建成运维操作管理系统, 并于 2013 年 2 月建立了上海、福州、成都、北京多地的跨区域变更管理事后监督机制。该系统获得了中国人民银行颁发的“2013 年度银行科技发展三等奖”, 现阶段已接入了兴业银行总行多地机房及所有分行机房各类设备共 1900 多台、账户 6600 余个。运维操作管理
6、系统为兴业银行数据中心建立了完整的运维授权访问控制体系, 实现了运维人员身份认证、运维操作和访问控制、设备密码的统一管理, 以及集中的用户访问痕迹跟踪和审计;加强了运维操作的授权、监控和审计, 进一步降低了运维操作风险;实现了全行运维人力资源统一调度及跨区域、跨机房维护, 提高了运维工作效率;保障了全行各信息系统安全、稳定、高效运行。四、构建变更管理的闭环控制体系在已建立的制度、流程、系统与工具基础上, 兴业银行在变更管理工作中逐步构建出一套贯穿事前、事中、事后的全过程闭环控制体系。1. 事前审批变更需求的必要性、合理性、合规性以及变更方案的准确性、完备性是避免变更操作风险的关键。所有变更均通
7、过运维服务管理系统进行审批, 变更的定级和授权尤为重要。如果所有变更均需走复杂的审批流程, 将导致管理成本加大, 流程效率降低, 也会降低变更需求者使用变更申请流程的积极性, 一定程度上影响了变更风险的管控。兴业银行数据中心对变更进行了分类分级, 不同类型、不同级别的变更有相应的审批流程和审核矩阵。首先, 将变更分为三类, 即标准变更、常规变更和紧急变更。对于风险很小、变更执行步骤明确的标准变更, 进行简化管理, 遵循预设的审批流程;对于常规变更, 进行逐层审批, 最终由数据中心负责人审批后实施;对于紧急变更, 如涉及业务数据类修改或信息系统预计暂停时间较长的, 由数据中心负责人授权, 其他由
8、当日值班经理授权。其次, 将变更分为两级, 即重要信息系统的相关变更和一般变更。对于重要信息系统的相关变更, 数据中心负责人审批后, 还需风险管理中心评估风险, 审批通过后才能进行实施;对于一般变更, 由数据中心负责人审批后即可实施。在变更实施方案的控制方面, 运维服务管理系统的实施方案模板包含风险分析、实施对象、实施步骤及回退方案等要素, 实施方案要求细化至命令行。2. 事中监督审批流程再完备、方案再准确, 如果不能严格控制变更实施过程, 变更操作风险随时都可能发生。兴业银行数据中心所有变更操作统一登录运维操作管理系统, 并实施“交叉授权”, 即实施人员与复核人员分属不同岗位, 双人认证后获
9、取操作权限, 复核人员对操作全过程进行监督, 运维操作管理系统对操作过程进行录像留存。为进一步规避变更操作风险, 兴业银行数据中心对含有高风险命令或重要信息系统的相关变更设置固定的变更窗口时间, 最大程度地减少整体系统风险。3. 事后审计此阶段工作主要分为三部分:一是变更结果评审, 每个变更实施完成后均需进行结果评审, 包括变更是否达到目的、变更是否及时完成、变更有无负面影响等。变更关闭后自动通知变更申请人进行确认, 有效避免断点, 形成真正的闭环式管理。二是变更实施步骤的比对, 事后监督人员每天进行变更后的审核工作, 将事先审批通过的操作步骤与实际实施步骤进行逐行比对, 并进行符合性判定,
10、该项工作目前覆盖所有高权限维护变更, 极大程度上促进了变更实施方案的细化和准确。三是定期进行变更分析, 变更流程经理每月对变更管理进行回顾, 对变更记录进行分析, 根据变更类型统计、变更回退情况等数据, 发现变更增长的水平、频繁的变更类型、变更趋势及其他相关信息, 减少因系统功能缺陷、需求或设计不合理等原因造成的变更, 提升变更质量。同时变更流程经理通过发布“变更吻合度”、“变更及时率”、“标准变更数”等考核指标的结果, 促进标准变更率的提升, 利用标准变更和自动化变更减少误操作率, 提升变更的总体效率。图 1 变更闭环处置案例示意 (某突发事件导致的变更) 下载原图通过以上贯穿事前、事中、事
11、后的全过程闭环控制, 兴业银行数据中心具备了较为成熟的变更管理能力, 有效提升了风险控制水平, 确保了运行环境的安全稳定。4. 事例分析下面以某突发事件导致的变更为例, 对变更管理的全过程闭环控制体系进行阐述 (如图 1 所示) 。数据中心基础设施某设备向预警平台发出故障告警信息, 监控人员在运维服务管理系统中将该告警信息升级为事件, 运维人员受理该事件, 并制定相应的故障解决方案, 提交至事件升级后的变更流程中, 经审批人审核后, 运维人员登录运维操作管理系统, 根据运维服务管理系统发至运维操作管理系统的实施方案, 完成相应设备的变更操作, 该设备恢复正常, 告警消除, 事后监督人员在运维操
12、作管理系统中对该变更进行审计, 判断吻合度。以上过程从告警到事件受理, 再从变更提交到变更执行, 几乎都由系统工具自动化完成, 运维人员仅需在关键节点进行审核和操作, 达到了全过程闭环控制管理, 极大提升了运维效率和自动化水平。五、展望与改进当前业务市场竞争激烈, 新技术蓬勃发展, 银行业数据中心面临着复杂多变的挑战, 已有的运维管理体系既要维持稳定, 又要为适应灵活多变的新要求而作出积极应对。兴业银行数据中心在变更管理工作中将在以下方面持续改进:一是进一步加强变更操作事后监督的自动化水平, 减少人为比对的工作量, 以解放更多的生产力;二是通过对海量变更操作视频的挖掘, 将运维基础知识、运维工作方法、运维工作经验等分散的信息和数据进行提炼和加工, 升华为企业智慧, 从而实现全行运维知识的共享;三是通过对事后监督自动比对的分析, 结合标准变更、脚本化变更的推进, 探索变更的自动化实施。