1、数据中心自动化运维管理及平台的建设研究 马幸飞 无锡商业职业技术学院信息化建设与管理处 摘 要: 随着科学技术的不断进步, 计算机技术与信息技术已经在社会各领域得到了广泛应用, 其中, 以信息交换、传输、统计、分析与存储为一体的数据中心建设成为信息化时代的重要标志。文章以数据中心自动化运维管理及平台建设为主要内容, 通过深入了解自动化运维的相关内容, 从而指导数据中心自动化运维平台的建设。关键词: 数据中心; 自动化; 运维; 管理; 建设; 作者简介:马幸飞 (1982, 01-) , 男, 汉族, 江苏宜兴人, 本科, 助理实验师, 主要研究:计算机信息管理, 计算机安全。在计算机技术的应
2、用中, 通过软件等一系列非人为方式的操作与控制类型, 就是所谓的自动化运维。自动化运维技术的应用, 在提高运维工作效率的同时, 也减少了因人为失误所造成的损失。基于当前计算机软件技术发展水平的限制, 并不能够真正意义上实现运维工作的完全自动化, 在自动化运维实现的过程中, 需要借助科学的运维管理方法, 在一定的原则下, 使数据中心能够完成自我运行和维护。1 自动化运维管理概述计算机运维技术由来已久, 在运维技术发展初期, 仅有的几个服务器中所存有的数据信息极为有限, 时至今日, 信息技术的发展, 为数据中心的建立奠定了基础, 在此基础上, 计算机运维技术也得到了很大程度的提高。研究人员根据用户
3、需要, 设计出与之相适应的管理软件, 从而实现了有人参与下的数据中心自动化运维管理。自动化运维的实现, 大大减小了传统人工运维管理下的时间延迟, 将人们从反复性的工作中解放出来, 大大提高了工作效率。不仅如此, 基于计算软件技术的自动化运维系统还可以实现自我状态监控, 对运维管理中的各种风险进行预估, 并根据软件中阈值设置的大小发布预警信息, 从而降低自动化运维过程中存在的风险, 减少因自动化运维风险导致的成本支出。2 自动化运维管理需要实现的功能无论是政府、企业或者学校, 在自动化运维技术的实现方面, 需要大量的功能予以保证, 从当前自动化运维管理工作中广泛使用监控和诊断优化工具、流程自动化
4、工具可以看出, 自动化运维管理需要实现的功能主要包括以下几个方面。2.1 自动监控功能随着自动化运维管理的不断普及, 以及自动化运维系统的扩大, 运维人员在数量上已经无法满足日常管理需要, 以至于不能及时发现其中存在的风险, 进而导致较为严重的后果。因此, 实现自动化运维的自动监控功能, 有利于通过数据分析, 对相关运行风险进行评估, 并将评估结果上报计算机管理员, 以及时提出应对措施。2.2 自动检测配置变更功能在实际运维工作中, 由于工作量的增加, 导致在软件配置方面极易发生遗漏现象, 因此, 自动检测配置变更功能的实现, 能够使运维人员通过远程控制的方式, 检查对应软件的配置信息是否与约
5、定配置相同, 若不相同, 则需要通过远程配置的方式, 对软件中的配置进行变更, 与此同时, 触发自动化运维变更流程。2.3 自动提示功能运维工作是一项极为复杂的工作, 对运维人员有着极高的要求, 在运维管理工作中, 自动化运维平台需要对任务类型进行分类, 并严格按照流程执行相关任务。但是, 在实际应用中, 自动化运维平台出现故障的几率较高, 一旦出现故障, 自动化运维平台将向运维工作人员发出告警信息, 并为工作人员解决故障提供指导。2.4 自动记录维护过程为实现自动化运维系统的溯源性, 则需要对每一次产生的数据进行记录, 并且, 在运维人员例行检查的过程中, 对其检查过程进行详细记录。如此一来
6、, 运维人员可以通过该维护记录掌握其常见故障, 以及对应的解决方法, 从而提高了自动化运维平台的可靠性。3 自动化运维平台建设的主要内容3.1 构建自动化运维管理平台自动化运维管理平台是数据中心自动化运维平台的核心, 通过自动化运维管理平台, 能够实现对数据中心自动化运维平台所存在的风险提出预警, 并对其中出现的故障进行快速恢复。在自动化运维管理平台的构建中, 需要借助服务端、数据库、互联网、计算机等技术, 实现对数据中心海量数据的监控, 通过科学的数据分析, 对自动化运维风险进行评估, 同时给出降低自动化运维风险的建议。3.2 构建数据中心自动化运维平台的故障触发流程故障触法流程, 是指在自
7、动化运维平台出现故障之后, 系统将自动对故障信息进行汇总, 并启动上报流程, 将汇总后的故障信息发送至相关人员, 并对这一故障将产生的风险进行预估, 为运维人员后期故障的排查、处理提供依据, 提高自动化运维平台的故障处理效率。3.3 设计完善的事件跟踪流自动化运维平台的实现, 是基于软件对参数分析后的自我判断, 在软件判断行为做出之前, 需要对数据库中的信息进行比对, 从而确保自动化操作的正确性。为实现的对自动化运维平台工作情况的监督, 自动化运维平台的建设过程中, 应当设计完善的事件跟踪流, 从而明确自动化运维平台所发出的每一项指令, 减少运维工作人员对系统的随意操作, 避免不必要的风险与故
8、障出现。3.4 增加关键流程管控在自动化运维平台的建设过程中, 基于关键流程对整个平台的影响, 需要单独进行管控。在触发关键流程之后, 运维人员需要对关键流程进行分析, 详细介绍该流程的含义、处理机制, 以及对平台的影响, 从而为流程审批人员提供参考。除此之外, 针对关键流程所产生的影响, 运维人员应当进行特别监视, 避免关键流程所引起的自动化运维平台连锁反应造成的影响。4 数据中心自动化运维平台的设计目标基于数据中心自动化运维平台相关设备众多, 技术难度较高等一系列特点, 在平台设计目标的制定方面, 应当具有以下三个方面的特点:4.1 指导性为避免人为因素导致的各种风险, 数据中心自动化运维
9、平台的设计应当具有一定的指导性, 利用计算机软件技术在数据处理方面的优势, 通过科学的分析, 对风险进行评估, 为运维管理工作提供依据, 从而提高自动化运维平台的安全性, 降低平台运营风险。4.2 实时性自动化运维平台的相关工作均以数据流的形式进行展现, 因此, 为保证自动化运维平台的工作效率, 数据的实时传输就是必要条件之一。数据传输的实时性, 能够使运维人员在第一时间掌握自动化运维平台的工作状态, 并根据数据分析的结合, 对可能存在的风险进行防范。4.3 可靠性数据中心自动化运维管理平台建设的目的是实现以数据为参考的自动化运营和维护, 因此, 数据的可靠性就显得至关重要。因此, 在自动化运
10、维中心的设计过程中, 需要增加数据监控、对比、分析的功能, 保证数据的真实、有效。5 数据中心自动化运维平台功能的实现5.1 基于本地数据库与异地数据库的同步监控在自动化运维管理工作中, 以本地数据库和异地数据库之间的数据监控的同步进行为核心, 从而实现对应数据的精准复制, 确保数据中心安全。在缺少自动化运维技术的情况下, 该工作只能由人工完成, 通过对源端和目标端之间数据状态进行检查, 从而完成相应的数据处理工作, 这大大加重了运维工作人员的工作量, 其效率也明显偏低。为此, 技术人员通过编写程序的方式, 在本地服务器上运行 Shell 脚本, 并通过互联网将数据信息传输至自动化运维平台的数
11、据库中, 提高了数据的有效性, 还可以更加及时对故障进行预警, 并将故障点在自动化运营平台上显示。5.2 应用服务与数据库服务可用性监控作为运维人员的评估项目, 应用服务状态与数据库服务状态建设关系到政府、企业和高校的正常运营。在缺少自动化运维平台的情况下, 相关风险不能提前预警, 具有不同程度的滞后性, 从而大大降低了相关工作效率。在自动化运维管理平台的基础上, 通过对应用服务与数据库服务的实时监控, 将大量数据传送至自动化运维管理平台的前端, 运维人员借助软件对相关数据进行分析, 从而大大加快了数据分析的速度与准确度。在此过程中, 一旦发现存在风险的数据信息, 则会由自动化运维管理平台进行
12、预警, 从而弥补了传统人工运维过程中故障处理的滞后性。6 结束语大数据时代的到来, 使政府、企业、高校工作的信息化程度不断加深, 以数据中心为代表的新技术为政府、企业、高校等各项工作的开展带来了极大便利。加快数据中心自动化运维管理建设, 是降低数据中心管理过程中人为因素导致的故障, 减少运维管理成本, 提高管理效率, 实现真正意义上自动化管理的必然选择。参考文献1朱玉立, 任义廷.浅谈大数据时代下的数据中心运维管理J.信息系统工程, 2015 (11) . 2蒋飘蓬.基于云计算的数据中心服务架构研究与实践J.电脑知识与技术, 2017 (22) . 3王维沂.现代企业数据中心运维管理J.商, 2015 (14) .