1、 北明软件 IT 运维 管理 平台 技术白皮书 北明软件股份有限公司 IT 运维 管理 平台 技术白皮书 -2- 目 录 平台概述 4 平台设计思想 . 6 平台功能介绍 . 9 3.1 网络监控系统 . 10 3.1.1 网络拓扑管理 . 10 3.1.2 网络链路管理 . 11 3.1.3 网络设备管理 . 13 3.1.4 服务器管理 . 15 3.1.5 数据库管理 . 17 3.1.6 中间件管理 . 18 3.1.7 业务监控管理 . 19 3.1.8 节点信息管理 . 20 3.1.9 监控告警 . 21 3.1.10 系统配置管理 . 23 3.2 IT 服务管理系统 23 3
2、.2.1 统一门户 . 23 3.2.2 服务台 . 25 3.2.3 工单管理 . 25 3.2.4 流程管理 . 26 3.2.4.1 事件管理流程 . 26 3.2.4.2 问题管理流程 . 27 3.2.4.3 变更管理流程 . 28 3.2.4.4 发布管理流程 . 29 3.2.4.5 自定义流程设计器 . 29 3.2.5 资产与台帐管理 . 30 3.2.5.1 资产管理 30 3.2.5.2 台帐管理 31 3.2.5.3 资产管理与流程的结合 . 32 3.2.5.4 条码 扫描打印管理 . 32 3.2.6 配置管理数据库( CMDB) . 33 3.2.6.1 配置项数
3、据结构灵活扩展 . 34 3.2.6.2 配置管理数据库的属性及关联 . 34 3.2.6.3 配置项信息收集与查询 . 36 3.2.6.4 配置项之间的关系与控制 . 37 3.2.6.5 CMDB 对流程的支持 37 3.2.7 机房展示 . 38 3.2.8 统一告警 . 39 3.2.9 日志管理 . 39 IT 运维 管理 平台 技术白皮书 -3- 3.2.10 巡检管理 . 40 3.2.11 知识库管理 . 42 3.2.12 机房值班管理 . 43 3.2.13 报表中心 . 44 3.2.14 系统设置管理 . 46 系统运行环境说明 . 48 4.1 软件环境 . 48
4、4.2 硬件环境 . 49 部署方式 50 5.1 集中部署 . 50 5.2 分布式部署 . 50 IT 运维 管理 平台 技术白皮书 -4- 平台 概述 近几年来,随着各行各业的信息化水平的要求不断提高、信息化建设工作的深入开展、各种行业性的核心业务系统陆续上线运行,信息技术在支撑各业务运转、改造传统产业经营管理模式、推动企业管理创新等方面扮演着越来越重要的角色,同时,信息系统的 技术复杂度、业务关联性、数据安全性和管理维护难度也不断提升, 对信息系统的性能和稳定可靠的要求也越来越高,此外信息部门管理维护的实时性、灵活性和适应性也面临着极大的提高。 目前,大部分企事业单位信息部门的信息化管
5、理维护手段仍基本停留在手工或半手工方式,并未形成科学、规范、合理的工作流程 和管理标准,当人员流程频繁时,管理维护的经验知识和技术技能得不到很好的共享和传递,同时也缺乏行之有效的 IT 工作计量考核标准,已有的信息化技术支持系统已不能满足现有需求。因此,提升信息化维护管理服务水平,建设符合行业特色的 IT 服务管理体系就显得尤为必要。 北明软件股份有限公司(以下简称“北明软件”)自主设计研发的“ IT 运维管理平台” ,正是以 ITIL 这一业界公认的 IT 服务管理最佳实践为指导的全面、系统的体系化管理框架。该平台改进和优化了现有的工作流程,加强了主动化、规范化管理,提高了工作质量和管理水平
6、,实现了管 理的透明化、有序化和可视化。 在 IT 运维管理系统中: 1. 统一的网络监控管理实现 对网络设备、服务器、数据库、中间件的集中监控和管理,支持集中的故障告警管理、历史监控数据记录和统计分析。 2. 以网络监控、流程处理为基础,实现 对网络拓扑图、业务视图、第三方监控系统的告警、报表、公告、工作规范等信息的集中展现。 3. 优化 IT 服务管理流程,支持业务流程的自定义,业务处理过程的可视化。 4. 提供 统一的服务请求入口,以及时响应的方式提供 IT 服务,可追踪 IT服务过程,并可通过服务级别协议和反馈机制来约束并提高服务台人员IT 运维 管理 平台 技术白皮书 -5- 和后台
7、维护人员的服务质量。 5. 拥有面向普通用户的自助服 务系统,使提交业务很强和故障申请的操作更加简化和便捷,大大减轻 服务台人员和后台维护人员的建单工作,面向用户的工单审批、处理过程更加透明。 6. 界面提醒和邮件提醒功能让用户可以及时接收来自系统的消息。 7. 建立有效的配置管理数据库( CMDB),实现对硬件、软件、文档、合同、服务商等资产信息 的规范管理。 8. 知识管理经验化,通过统一的知识库管理,实现知识的共享。同时提供了知识入库的审核机制,确保知识的可用性。 9. 通过知识贡献评分标准、工单处理的报表统计和服务级别协议,实现 运维服务标准化,绩效考核量化管理。 IT 运维 管理 平
8、台 技术白皮书 -6- 平台设计思想 整个平台的构架由运维展现层(运维驾驶舱)、运维管理层(运维管理平台)、数据采集处理层(实时数据采集)组成。 其中北明软件网络 监控 系统负责底层采集网络、服务器 、 主机、数据库、中间件、应用系统相关的原始数据。在数据采集处理层中,这些采集的原始数据中的部分数据会得到分析、转换和过滤,然后传送至 IT 运维管理系统中,也有部分数据会直接传送至 IT 运维管理平台,由其进行分析、过滤和统计。 运维服务层的 IT 资产库、知识库、告警库和文档库会为当前的管理模块(例如:服务台、流程处理、资产与台帐管理、知识库管理、巡检管理、配置管理、服务级别协议)实时接收来自
9、客户或者用户的服务请求、设备告警以及拓扑图信息,并及时生成各种报表以供管理层人员查看日常工作进展。 同时,系统具有灵活的权限控制,可以对角色、地域、人员、机构、客户、职员组、工单配置信息进行相关设置。通过访问门户网页,不同岗位和职责的运维人员可以提交、查看和处理属于自己的工单、巡检任务;查看工作规范;接收IT 运维 管理 平台 技术白皮书 -7- 发布的信息和对关心的事项进行检索。 关键技 术 平台技术框架图如下: 关键技术说明: 基于 J2EE 平台、 B/S 结构、 MVC 设计模式开发,采用 面向 SOA 的体系架构,提供 面向服务的扩展接口。 使用 JDBC/JTA,支持数据事务的控制
10、,保证数据的完整性。 使用 基于 Mbean 的组件技术,将各功能模块细分为 Mbean 组件,有效降低 模块间的耦合性,并易于整合、部署。 基于 Flash 技术的流程设计器,并配合功能强大的 JBPM 流程引擎,可灵活地设计操作与流程。 页面部分使用 最新的 JSF/Servlet 的页面技术,并融合了 WEB2.0 等技术。 优势与特点 自有产权 北明 软件 是国内同时拥有网管、运维产品自主知识产权的厂商,保证 我们有能力为客户独立提供 ITSM 咨询、产品、服务乃至全面解决方案。 成熟产品 IT 运维 管理 平台 技术白皮书 -8- 系统构架设计遵循 ISO 9000、 CMM3、 I
11、TIL、 ISO 20000、 ISO 27001、 SOA等诸多国际先进管理理念和技术规范的指导,并经过 众多大型机关单位的实际应用,是符合行业 /国际标准、经过市场检验、成熟先进的运维管理系统。 多级部署 IT 运维服务管理平台支持大规模部署,对大型运维项目要求的安全性、稳定 性、可扩展性、权限管理、带宽控制等主要需求完全满足,已顺利通过 试点单位、专家、权威检测机构和国家大型机关部委的多项专题测试。 统一界面 实现 运维的集中统一监控,多个系统可以 集成在统一门户,实现单点登录。针对不同部门、级别人员的特点,可 设定不同角色,根据各自的权限和实际需求建立专有监控与运行维护界面。 三员管理
12、权限设计 系统采用三员分权管理思想(即系统管理员、安全管理员、日志审计管理员)进行权限设计,符合国家保密安全信息评测要求。 系统整合 针对客户 已有的监控类管理系统,甚至其它 IT 业务系统, IT 运维管理平台均可以围绕客户关心的业务,完成跨系统整合,实现数据调用、综合分析、多样化的报表和统一展现方式, 有效保护客户已有投资,建立统一的业务支撑平台。 量身定制 北明软件可 在自有产品平台的基础上,运用自身技术和项目经验,面向国内用户的特色需求,提供强大的客户化与定制开发服务。 服务体系 自身拥有国内范围的技术服 务和销售体系,依托北明软件的综合实力,覆盖全国服务支撑体系, 有能力为客户提供符
13、合行业特点的全面服务方案。 IT 运维 管理 平台 技术白皮书 -9- 平台 功能 介绍 通过建设 IT 运维管理平台,实现 IT 运维服务管理的体系化、规范化、工具化、自动化。梳理固化 IT 运维服务工作流程、规范管理手段、加强管理控制。建立面向 IT 服务质量、流程效率、个人绩效的规划、组织、执行、回馈的管理机制和考核机制,使得 IT 管理更加科学、规范、量化。确保 IT 运维的关键知识能够共享,核心工作不再严重依赖个人,降低人员流程带来的连续性风险。总体来说,北明软件 IT 运维管理平台的定位如下: 采用 ITIL 最佳实践 ,规范和统一运维流程,并通过服务级别协议( SLA) 保证 I
14、T 服务的质量。 合理组织和分配运维团队资源,加快问题响应速度,提高顾问工作 效率,改善与业务用户的沟通,提高客户满意程度。 建立由事件或问题驱动的系统配置变更,规范变更管理,降低风险。 通过运维服务台,统一运维入口。 通过运维过程管理,积累知识,形成专业知识库,共享知识。 监控运维行为,统计运维任务,为客户出具运维报告。 进行运维成本管理,计算 IT 服务价值。 本平台的建设通过网络监控系统与 IT 服务管理系统两套系统结合而成。网络监控系统负责底层数据采集,保障基础设施的运行; IT 服务管理系统从运维层面保障 故障快速恢复以及运维工作评价 。 IT 运维 管理 平台 技术白皮书 -10-
15、 3.1 网络 监控 系统 网络监控系统是运维工作的基础架构模块,可以称为运维工作的一双眼睛,监视 资产中最重要的硬件设备、应用系统、业务系统、链路的运行状态及性能状态,及时发现和判断出这些资产的故障。 网络监控包括对设备和系统的发现与拓扑,以拓扑图的方式展现设备及系统的布局,同时它能够采集并能展现每个资产的详细信息,包括设备基本信息、资源利用、端口链路、流量信息、事件、性能状态等等。目前监控系统可监控 Windows、AIX、 Linux、 Oracle、 DB2、 SQLServer、 Mysql、 IIS、 Tomcat、 Apahce HTTP Server、网站应用等各类系统及应用。
16、 3.1.1 网络拓扑管理 网络监控系统 具备自动发现拓扑的拓 扑管理模块,能够依据网络的路由信息自动搜索整个网络内的所有元素(包括路由设备、网络交换机、防火墙、打印机以及服务器等支持 SNMP 协议的设备),实现网络拓扑发现并 根据这些设备信息以直观的图形展现整个网络的拓扑结构。 拓扑管理模块能自动识别设备的 IP 地址、 类型、型号、生产厂家以及设备IT 运维 管理 平台 技术白皮书 -11- 的硬件配置信息,如端口、面板等;对服务器, 能获取服务器的操作系统类型、性能信息、软硬件信息以及进程信息。同时为网络管理员提供多种 拓扑 方式, 用户可根据自己的需要选择合适的方式 进行网络自动拓扑
17、,并在拓扑界面上 直观展现各个设备实时的使用情况, 拓扑方式 包括 : 网段拓扑 (通过输入的 IP 地址段进行网段内的拓扑发现) 种子节点拓扑(通过种子节点的 IP 地址,利用设备路由表网段进行拓扑发现) 对发现的设备,系统也提供手工编辑功能,网络拓扑结构的显示方式可 按照用户的爱好自行拖曳编排;设备属性也提供删除和修改功能 ,能够从拓扑图上将不需要管理且符合删除条件的设备删除掉, 以最方便直观的方式展示网络结构。 3.1.2 网络链路管理 在拓扑图中,用户所查看的流量信息均来自链路管理模块,为了更好 的 管理设备端口之间的通道,系统除了提供物理连接显示 外,还允许用户根据实际需要在拓扑图中
18、显示的物理连接上建立链路或 在链路管理中创建链路。 IT 运维 管理 平台 技术白皮书 -12- 链路与网络、服务器、应用一样都属于节点,链路性能指标包括链路流入量、链路流出量、链路总流量、带宽利用率、链路丢包率、链路错报率、链路入数据包、链路出数据包、链路丢包数、链路错报数。 在查看连接 信息时,如果该连接线两端的设备上端口属于链路采样端口,则用户可 查看相应的链路信息。 IT 运维 管理 平台 技术白皮书 -13- 每个链路节点包含了用于获取链路数 据的采样端口,这些采样端口属于链路两端中任意一端的设备,用户可 根据需要设置多个采样端口,相当于捆绑 多个端口为一个链路,且这些采样端口必须属
19、于同一设备,其所有指标是综合其包含的多个采样端口的性能指标值后获取 的 。 3.1.3 网络设备管理 网络设备管理模块能对各种网络设备进行实时监控,使 运维人员能够实时监控网络资源的使用情况,对整个网络资源状况评估,及时发现网络故障、流量异常等问题,从而提高网络管理效率。 IT 运维 管理 平台 技术白皮书 -14- 网络设备基本情况 在拓扑图上双击任何网络设备节点,即可显示任意指定网络设备节点的设备信息,以便网络管理员直观明了地监控网络设备细节。设备信息包括设备型号、系统配置信息、端口配置信息、设备 IP 地址 及当前设备的工作状态 。 IT 运维 管理 平台 技术白皮书 -15- 设备 /
20、端口 /链路 描述自定义 用户能够对设备 /端口 /链路 进行 中文描述,在增加描述后,在系统上任意地方都能够以中文的形式 显示 设备 /端口,更加直观方便。 设备端口状态 显示指定网络设备的端口状态,了解网络设备各端口的运行情况,并可对网络端口进行实时的监测与控制,如查看端口带宽、端口发送 /接收数据包、端口丢包率和端口误包率,为优化网络和提高设备运行性能提供数据分析支持。不同颜色表示端口连通、未连通或阻断的状态。 3.1.4 服务器管理 用户机房中有很多关键的服务器, 承载 着各类关键应用, 如 Oracle 数据库服务器、 SQLServer 数据库 服务器、 WEB 服务器、 DNS
21、服务器、邮件服务器、 FTP服务器以及网管服务器等。提早发 现服务器可能发生的故障,保障这些服务器的IT 运维 管理 平台 技术白皮书 -16- 正常运行是保证 运维管理 从被动管理向主动管理转变的关键。 网络监控系统中的服务器管理模块能够支持 Windows、 AIX、 Linux 等各类操作系统,对各服务器进行连通状态监测以及系统资源管理,监控各服务器实时运行状态。 服务器连通 状态 :定时的轮询各服务器判断其连通 状态 ,如在连续若干次轮询中都没有响应, 系统 可 提示严重告警, 并 通知相关人员 对 服务器 进行检查。 服务器资源管理:自动收集服务器磁盘 空间 、 CPU 利用率、内存
22、利用率等资源的 状态信息 , 对不同的 使用状态 采用 不同的告警级别 进行 区分 , 且 可 通过 不同的 告警 方式进行 通知 处理 。 IT 运维 管理 平台 技术白皮书 -17- 3.1.5 数据库管理 数据库是信息系统中的核心应用,系统提供数据库监控功能对数据库进行管理,保证数据库的安全,优化数据库的性能。 系统支持 Oracle、 SQL Server、 Mysql、 DB2 等数据库系统的监测。 IT 运维 管理 平台 技术白皮书 -18- 3.1.6 中间件管理 用户的 IT 环境内 有众多 Web 应用服务 , 保障这些 应用 服务的可用性是应用系统连续性 的最大关键。 网络
23、监控系统 能够支持 Tomcat、 Apache、 IIS 等应用服务的监测 指标 。 IT 运维 管理 平台 技术白皮书 -19- 3.1.7 业务监控管理 业务监控管理模块是面向业务的管理,用户可以根据实际需要,将网络资源按业务进行组合,在本系统中,业务的组成可以来源于网络设备、端口、服务器、服务器性能指标、应用、链路等。 业务监控管理包括以下功能: 展示业务概览图。在概览图中显示了业务的总个数、目前已经存在哪些业务、各业务的状态及业务之间的连接关系,其中连接关系需要 进行关联 设置 。 业务列表,以列表的形式展示当前已存在业务及其基本信息包括业务名称、状态、业务版本号、业务管理用户、业务
24、上线时间和业务描述。 IT 运维 管理 平台 技术白皮书 -20- 业务详细信息包括: 基本信息,包括业务名称、状态、业务版本号、业务管理用户、业务上线时间、业务描述。 业务组成,包括各节点的类型、名称、状态、 IP、配置项目(例如网络设备的端口、服务器的性能指标、服务器上监视的进程等)及状态(端口 up/down,指标的当前状态)。当业务发生告警事件时,管理员可以通过业务组成快速判断影响业务的故障点,及时采取相应措施解决故障。 可用性趋势:显示从监控之日起截止到昨天业务的可用性数据 , 包括日平均可用性、故障次数、故障总时长(分钟)、平均恢复时间(分钟)、平均无故障时间(小时),并以曲线图的
25、形式显示可用性趋势变化,页面提供 4 种查看方式,分别为 7 天、 30 天、周、月、自定义。 事件:显示该业务当天产生的最近 5 条事件,包括业务的告警事件和告警恢复事件。支持查询业务的历史事件信息。 告警分析:包括汇总信息和指标告警排名。默认显示从监控之日起截止到昨天的汇总信息,包括告警次数 /时长、严重告警次数 /时长、累计监控时间、故障率,并按告警次数和严重告警次数的和值对指标进行排名,默认显示排名前 5 的数据。 3.1.8 节点信息管理 为了更方便的对用户管理权限范围的节点信息进行管理,系统提供 节点状态IT 运维 管理 平台 技术白皮书 -21- 列表来集中显示用户可管理的网络设
26、备、服务器和应用,链路除外,如下图所示。 节点状态列表显示 节点的名称、 IP、节点类型、节点状态、设备厂家 /型号。 用户可 通过节点名称 查看节点的详细信息,包括节点的基本信息、关键性能的汇总统计信息及指标趋势曲线、普通 性能指标的趋势曲线、可用性趋势、事件、告警分析及相关的配置信息。 目前系统根据已 支持的节点类型可 提供与节点类型匹配的节点详细页面,方便用户进行查看和执行相关操作。 3.1.9 监控告警 系统检测 到故障发生时,会产生相应的事件信息,这些事件信息均被保存并可 查询。事件中心页面 仅显示最新的告警信息包括业务、主机、应用、链路的指标状态异常或者由异常恢复为正常,即对于告警
27、源和监视指标相同的告警信息只显示最新一条,系统会保留其历史事件记录以便用户查看。 每条事件信息包括事件源、监视指标、事件等级、发生时间、描述。 IT 运维 管理 平台 技术白皮书 -22- 事件源:事件发生的载体。通常业务、主机、应用和 链路 的 指标 可作为事件源 ,但是当主机、应用、链路与某业务进行绑定后,一旦这些主机、应用、链路的指标发生了事件,则系统会针对关联的业务也产生一条事件。 监视指标:产生事件的指标。 事件等级:可分为 5级,事件等级与产生该事件的指标的等级保持一致,如 swap 空间利用率的指标等级为 1 级,该指标产生的次要告警、告警、严重告警事件都是 1 级事件。 状态:
28、监视指标的状态。 发生时间:事件发生的时间。 描述:针对事件的描述信息。 系统支持高级查询功能,用户可设置查询条件过滤事件中心显示的事件信息。系统可根据事件源所在 节点的事件通知规则发送通 知给 用户,通知方式包括邮件IT 运维 管理 平台 技术白皮书 -23- 通知、短信通知、界面消息提醒,保证 对 故障 的 7*24 小时不间断监控。 3.1.10 系统配置管理 系统配置管理包括用户管理、全局设置、组管理 及配置监视。 用户管理是对登录系统的用户 信息进行管理,包括帐户信息、操作权限、管理的节点范围。 全局设置是适合所有节点的设置,包括管理用户设置、通知方式选择及参数设置、邮件配置、事件通
29、知规则、轮询设置。 组管理是对组的基本信息管理, 包括组名、负责人、属于该组的节点总数。 配置监视 与拓扑图中“增加节点”的功能相同,即手动配置节点。操作入口不同 是为了适应用户不同的操作场景,方便用户进行节点的配置。 3.2 IT 服务 管理 系统 北明软件的 IT 服务管理 系统的设计以 ITIL 的先进管理理念 为 指引,可 大幅度提升 运维管理水平,提高运维服务质量和效率的,使运维管理工作步入有序规范的阶段,从被动式管理转变成主动式管理;降低系统故障发生率,提高运行效率 , 真正意义上实现整合现有应用资源,使其转变为有价值 服务的目的。 基于 IT 服务管理的运行管理子系统的核心在于:
30、 服务管理的目标是要通过管理服务提供服务的质量。 服务管理要通过流程的管理方式来稳定服务的质量。 服务管理要有明确的服务质量( SLA)期望,并有合适的测评机制来确定是否满足服务质量的期望。 IT服务管理要把 IT服务与业务进行集成,才能体现出 IT服务管理的价值。 3.2.1 统一门户 “门户是一种 web 应用,通常用来提供个性化、单点登录、聚集各个信息源IT 运维 管理 平台 技术白皮书 -24- 的内容,并作为信息系统表现层的宿主。聚集是指将来自各个信息源的内容集成到一个 web 页面里的活动”。 统一门户对各子系统和 其他系统的运行环境进行信息采集、管理和监控,并在此基础上构建 平台
31、化、智能化、集成化、高可靠性的 IT 运维管理 平台。 IT 运维管理平台具有基本的网络、系统、 安全、环境和应用系统的监控报警功能,具备事件管理、值班管理、资产管理、知识库运行质量考核等管理功能,同时将人员、流程和技术 有机地结合起来,将管理、监控和考核有机地结合起来,进一步提升 IT 运行维护管理水平。 系统整体平台是通过门户方式展现,分为领导角色、运维人员、及客户和 供应商等提供自助服务,包括:提交故障和业务请求,查询打印帐单,利用知识库解决简单故 障,查询故障和业务处理情况,提交反馈意见。系统对内部授权用户可 根据角色权限分配,展现不同的内容包括服务请求、服 务支持、工作处理、报表查询
32、等。若用户被授权可直接登 录到各子系统。系统美观漂亮,简单易用,符合 IT 运维 部门 定位的内部工作平台。运维管理人员可通过各种方式登录 , 将资产申报、故障报修、查看工单等一切工作 进行统一的管理。 IT 运维 管理 平台 技术白皮书 -25- 3.2.2 服务台 服务台作为运维的统一 对外窗口,承担着接收或代发客户申请、首单处理、工单派发、收集客户反馈等主要工作, 是运维工作的调度中心,所有流程的发起、派 发、甚至关闭都是在服务台来完成,服务台工作的质量和效率直接决定运维工作的好坏; 工单的跟踪、工单池管理、信息的发布也都是在服务台完成。 服务台提供了解 IT 整体运维工作情况的运维一览
33、功能, 为各层级 领导 展现IT 运维 现状的多种数据,包括资产分布、工单处理统计、运维事件统计等,使管理层对运维工作现状能够一目了然。 为了便于客户 IT 各部门间 更好的 实现基于业务的流程管理 , 系统 支持 每个管理员根据自身拥有的权限将获得不同 服务台 的 功能,使其能够 根据各自 职责分工 处理和管理不同业务、不同类型的流程和工单。 为了便于维护多 种 业务系统的正常运行,流程管理可为每类业务提供 多种运维流程。考虑到工单提交和工单处理中的灵活性,运维管理系统设计了工单池功能,在工单池总,管理员可将某类业务工单的处理导入到其他业务工单流程中处理,避免用户重复提交工单,并提高工单处理
34、的效率。 3.2.3 工单管理 工单管理的核心是维护各类流程的设计和配置 ,目前系统提供了灵活的流程设计器,使管理员能够按照实际的工作情况设计流程,在流程设计中,管理员可自行设计表单字段、表单布 局、节点名称、处理人分配、任务提醒等各类参数。同时,系统也提供 流程和工单处理的权限控制,便于为不同用户提供不同的运维IT 运维 管理 平台 技术白皮书 -26- 服务,也为不同的运维人员提供不 同的流程处理权限。 为了方便管理员快速地创建流程,系统提供了表单的模板管理。在创建流程前,管理员可以创建表单的模板,在流程设计中可以直接引用表单,避免重复设计表单的工作。 同时,系统为各类工单提供 查询和统计
35、功能。 3.2.4 流程管理 系统内置 事件流程、问题流程、变更流程、发布流程等基于 ITIL 最佳实践的核心流程,并允许运维管理员干预这些工单的处理流程, 可 做到对工单的重新分派和表单数据的修改等。 3.2.4.1 事件管理 流程 事件管理的目标是在尽可能小地影响客户和用户业务的情况下使 IT 服务尽快恢复到服务级别协议所定义的服务级别,同时记录事件以为其他流程提供支持。 事件管理( Incident Mgmt)是 ITIL 中十分重要的组成部分。一般情况下,事件是所有 IT 问题的起源。因此,事件涵盖的种类非常多,如 IT 客户请求 、咨询、投诉和申告;故障告警、检测和预防;技术统计、分
36、析和调查 等。事件管理用于管理所有 IT 事件从产生到解决的整个过程。 IT 运维 管理 平台 技术白皮书 -27- 事件的产生来自以下几个方面: 系统自动将客户的自助服务请求转换为事件工单 由 IT 服务人员(包括服务台)根据需要建立的事件工单 系统自动将监控系统采集的告警转换为事 件工单,对于系统自动产生事件,需要相应的转换接口支持。 3.2.4.2 问题管理 流程 问题管理是通过调查和分析 IT 基础架构的薄弱环节、查明事件产生的根本原因,并制定解决事件的方案和防止事件再次发生的措施,将由于问题和事件对业务产生的负面影响减小到最低的服务管理流程。 问题的产生来自于: IT 运维 管理 平
37、台 技术白皮书 -28- IT 服务人员将 一个或 多个 事件工单升级为一个问题工单; IT 服务人员根据分析建立的问题工单。 3.2.4.3 变更管理 流程 变更管理是指对 IT 运维生产环境进行变更的管理过程,变更管理流程的目的是为了保证所有生产环境变化内容都经过评估和记录。 变更管理适用于硬件配置改 变、扩充硬盘分区、增加或删除账户、支持软件版本升级、配置文件调整 、数据库修改、应用系统部署改变等 配置管理数据库中任何配置信息的 改变情况。变更管理流程是较为特殊的一个流程,可 由其他流程派生而出,例如事件管理流程、问题管理流程、计划任务流程 , 因此在 系统中 ,此流程 产生 的变更记录
38、可和其他流程的记录进行关联,便于日后数据统计和 分析 。 IT 运维 管理 平台 技术白皮书 -29- 3.2.4.4 发布管理 流程 发布管理流程是 IT 服务管理中的重要流程,流程主要目的是通过足够的控制将系统发布对于生产 环境的影响减小到最低,保证上线发布的应用和系统的功能最大化 的被实现。具体来说,就是根据需要发布的应用和系统的特点 和需求,制订发布计划,并评估其风险,执行发布的测试和上线运行, 完成新应用的相关文档合并审核,培训相关支持人员等。 发布对象可能是一组经过测试后导入实际运行环境 的新增的或经过改动的配置项,也可能是一个全新的信息系统。新系统的 发布,在系统软硬件、应用等各
39、方面,都需要严谨的计划,进行测试、版本控制、部署及发布。发布管理的目的是为了保证发布的成功,主要应用于大型的或关键硬件、主要软件及打包或批处理一组变更。 3.2.4.5 自定义流程设计器 系统提供流程设计器,具有极强的流程扩展功能,使管理员可以根据未来业务 的发展,由相关人员自行的 定义 流程,而不需要重新对流程进行 代码 开发,并且流程编辑 采用所见即所得的模式,而无须对进行专门的培训。 IT 运维 管理 平台 技术白皮书 -30- 3.2.5 资产与台帐管理 3.2.5.1 资产管理 资产 管理是整个运维工作的数据基础, IT 运维的主要对象就是资产,资产覆盖的范围非常广,即包括固定资产、低值常用、低值易耗等硬件类资产,还包括应用系统、数据库、业务系统等软件类资产,也包括诸如人员、 IP 地址、服务商、文档、合同等与运维服务 相关的无形类资产。资产的管理也包含台帐的管理,所有资产的入库、出库、归还、报废、维修等 全 生命周期的信息均保存在 资产 管理数据中。各类资产之间 可建立 关系数据 并 可视化 展现 , 这类数据也是 IT 运维的核心数据 , 也是 运维系统的核心配置 管理 数据库,即 CMDB 数据库。