1、服务器及网络系统维护方案软件系统有限公司-11-51 保 障 维 护 目 标信息化建设管理中心机房是 各分公司的综合信息网络枢纽,包含多个关键业务系统,同时 各个业务网点也运行着多个 IT 设备,保障这些系统及相关的硬件设备正常运行并对外提供服务是方案的核心内容。信息化建设管理中心机房(以下简称中心机房)中包含各个收费系统,核心网络设备等多个关键业务系统,系统的稳定性、高效性、可靠性非常关键。同时各个分支机构(以下简称分支机构)均包含大量网络设备或服务器等 IT 设备。以上设备原价值超过 3000 万元,中心机房收费系统等系统中的有效数据总和近 1TB,价值无法估量。随着集团业务的发展和信息技
2、术的不断进步,中心机房和各分支机构对信息系统和 IT设备的稳定要求越来越高。集团 IT 设备中,大部分设备的使用年限均超过了设备原厂保修期,基于 集团目前的信息设备维护技术力量和人员配备,远远不能满足这种需求,这种缺乏专业维护所致的系统宕机及数据丢失隐患将会严重影响集团在全市业务工作的开展。维持中心网络设备的正常运转,为集团更好的为广大北京市民进行服务提供高效、稳定、可靠的信息平台和技术保障,有助于提高集团的工作质量、工作效率及良好的社会服务形象,从而更好的为广大市民服务。2 保 障 维 护 内 容2.1 服 务 器 及 存 储 硬 件 维 护在现场进行维护的 软件的工程师,根据设备的不同状况
3、采取适当的维护服务措施,主要包括:1) 对系统错误进行记录、分析,并实施故障诊断 2) 通知 相关负责人携带备件及时进行现场维修、更换 3) 对系统板卡、设备的微代码升级 4) 采取系统检测诊断(Diagnostic Online/Offline ) 5) 对设备实行定期的预防性维护 6) 提供设备维护、维修记录和报告 7) 辅导掌握系统的基本操作,并给予技术支持 8) 为用户提供技术培训、进行经验传授 为了更好的保障 集团系统硬件稳定运行,我们将在设备保修的基础上再为如下核心服务器设备购买 IBM 原厂保修服务,通过双重设备保修,保障集团核心服务器设备硬件故障得到最快速最有效的保障。设备型号
4、 设备类型 用途 备注P561 小型机 银企互联系统数据库服务器 ORACLE RACP561 小型机 银企互联系统数据库服务器 ORACLE RAC2.2 操 作 系 统 及 软 件 维 护操作系统类型的软件维护内容主要包括:一、系统运行状况检查1) 了解系统运行状况2) 解决客户系统软件问题3) 系统运行状况分析4) 客户同意前提下安装修正性软件(补丁) 。对于特定的系统安全性修正性软件以及IBM 紧急要求的系统修正性软件可能会被随时安装5) 提供与系统软件相关的技术支持及咨询二、远程技术支持服务将通过电话和 /或其它远程方式帮助 集团解决或解答以下与系统有关的日常运行、安装和使用等问题:
5、1) 系统软件故障解决2) 系统软件使用问题解答3) 远程安装单个 PTF 或 FixPack4) 远程在线诊断三、现场技术支持 对于通过上述远程技术支持服务方式未能解决或解答的问题,将安排工程师提供现场支持。四、提供修正性软件(PTF 或 Servicepack)根据实际情况,为客户免费提供修正性软件(PTF 或 Servicepack) 。五、系统性能监测应集团要求, 可以利用性能监测软件,每月或每季度为用户提供性能分析报告。报告内容包括:1) Executive Summary2) Management Summary3) Response Time4) Response Time, L
6、ocal Terminal5) Response Time, PC6) Transaction Volumes7) Transaction Analysis8) Jobs9) Print Outs10) Processor Utilization11) Processor Utilization, Trend12) Memory13) Disk Space Usage14) Disk Arms Utilization15) Communication Lines16) Additional Facts六、系统小版本(Release)升级在集团获得合法的系统升级软件后,软件将免费协助其进行系统小
7、版本(Release)升级 。七、其他服务内容1) 提供系统软件操作方面的 24 小时电话答疑 2) 提供系统维护、调整及安全性设置等方面的技术支持 3) 对系统软件的错误进行记录、分析,为操作系统做故障诊断 4) 实施系统增强和修补程序(ServicePacks & MaintenanceLevel)的分发、安装和测试 5) 辅导掌握系统软件的基本操作,并给予技术支持 6) 对系统软件运行实施定期预防性的维护和检查 7) 提供系统优化和性能调整 8) 提供设备维护、维修记录和报告2.3 数 据 库 系 统 软 件 维 护数据库类型的软件维护内容主要包括:一、系统运行状况检查1) 了解系统运行
8、状况2) 解决客户系统软件问题3) 系统运行状况分析4) 客户同意前提下安装数据库补丁。对于特定的数据库补丁以及紧急修正性补丁可能会被随时安装5) 提供与数据库软件相关的技术支持及咨询二、远程技术支持服务将通过电话和 /或其它远程方式帮助 集团解决或解答以下与系统有关的日常运行、安装和使用等问题:1) 数据库软件故障解决2) 数据库软件使用问题解答3) 远程在线诊断三、现场技术支持 对于通过上述远程技术支持服务方式未能解决或解答的问题,将安排工程师提供现场支持。四、提供数据库补丁根据实际情况,为客户免费提供数据库补丁。五、系统性能监测应集团要求, 可以利用性能监测软件,每月或每季度为用户提供数
9、据库性能分析报告。报告内容包括:1) Executive Summary2) Management Summary3) Response Time4) Response Time, Local Terminal5) Response Time, PC6) Transaction Volumes7) Transaction Analysis8) Jobs9) Print Outs10) Processor Utilization11) Processor Utilization, Trend12) Memory13) Table Space Usage14) TOP SQLs六、数据库小版本(R
10、elease)升级在集团获得合法的系统升级软件后,软件将免费协助其进行数据库小版本(Release)升级。七、其他服务内容1) 制定并执行数据库系统维护计划;2) 数据库系统维护;3) 数据库系统性能调优;4) 数据库平台的维护等;5) 数据灾难恢复;6) 数据库系统升级;7) 定期和不定期撰写数据库运行维护报告等。2.4 网 络 设 备 维 护网络设备的维护内容主要包括:一、设备运行状况检查1) 了解设备运行状况2) 解决网络设备使用问题3) 设备系统运行状况分析4) 客户同意前提下升级网络操作系统或固件版本。对于特定的 IOS 或 firmware 补丁以及紧急修正性补丁可能会被随时安装5
11、) 提供与网络设备相关的技术支持及咨询二、远程技术支持服务将通过电话和 /或其它远程方式帮助 集团解决或解答以下与系统有关的日常运行、安装和使用等问题:1) 网络设备故障解决2) 网络设备使用问题解答3) 远程在线诊断三、现场技术支持 对于通过上述远程技术支持服务方式未能解决或解答的问题,将安排工程师提供现场支持。四、提供网络系统补丁根据实际情况,为客户免费提供网络系统补丁或固件升级。五、网络系统性能监测应集团要求, 可以利用性能监测软件,每月或每季度为用户提供数据库性能分析报告。报告内容包括:1) Executive Summary2) Management Summary3) Servic
12、e Customer Report4) Business Unit Report5) Service Level Report6) Communications Transport Report7) Transaction Analysis8) Processor Utilization9) Processor Utilization, Trend10) Memory六、网络系统版本(Release)升级在集团获得合法的网络系统升级软件后,软件将免费协助其进行版本(Release)升级。七、其他服务内容1) 维护计划制定;2) 网络设备安全性维护;3) 网络故障处理;4) 网络性能监测;5)
13、网络线路维护;6) 网络设备系统升级;7) 定期和不定期撰写网络系统运行报告等。2.5 系 统 巡 检 服 务软件依照用户要求,每周对集团所有的维护服务对象,包括服务器、存储设备、网络设备和系统等各项软硬件进行巡检工作以保障系统稳定运行,提前发现问题和故障。2.5.1 服 务 器 及 存 储 硬 件 巡 检 内 容1外部环境检查机房环境:温度是否符合要求(1040): 符合要求 不符合 湿度是否符合要求(8%80% ): 符合要求 不符合 电源参数:相 电 压: 符合要求 不符合 线 电 压: 符合要求 不符合 零地电压: 符合要求 不符合 2系统硬件运行情况控制面板是否正常: 正常 不正常
14、钥匙是否妥善保存: 是 否 电源情况: 正常 不正常 风扇转动情况: 正常 不正常 是否有备份电池寿命报警: 是 否 检查设备故障灯是否有亮: 有 无 有否异常情况(如硬盘、风扇异常的声音,电缆破损): 有 无备注: 3检查磁盘阵列(如:DS4700)状况,并填写下表:序列号 硬盘数量 硬盘容量 硬盘微码 有无 Hot Spare 何种数据保护 Fast-Write Cache 是否打开2.5.2 操 作 系 统 巡 检 内 容 Windows 巡检内容1操作系统环境操作系统版本: 补丁(Service Packs)版本: 系统软件包情况:安装的病毒软件型号和版本: 运行的应用软件的型号和版本
15、: 2系统运行状态CPU 使用率是否持续大于 70%: 是 否 硬盘使用率 是否大于 80%: 是 否 系统日志有没有需要修复的错误: 是 否 有否合符要求的系统备份: 是 否 最近一次系统备份的时间: 检查各网卡的状态、IP 地址、路由表等: 正常 不正常检查通信状态: 正常 不正常 病毒库是否最新: 是 否 应用服务是否正常: 是 否 Administrator 密码是否妥善保管: 是 否 是否连接磁盘阵列: 是 否 磁盘阵列空间使用情况: AIX 巡检内容1操作系统环境操作系统版本: 补丁(Service Packs 和 Maintenance Level)版本: 系统软件包情况:2系统
16、运行状态有否硬件故障: 有 无 (硬件故障检测命令:# errpt -d H -T PERM)有否软件故障: 有 无 (软件故障检测命令:# errpt -d S -T PERM)有否发给 root 的错误报告: 有 无 (检查命令: #mail)CPU 使用率是否持续大于 70%: 是 否 (检查命令:#sar 1 10)硬盘使用率 是否大于 80%: 是 否 是否大数据读写都集中在某些硬盘上: 是 否 (检查命令:#iostat 1)是否有“stale”状态的逻辑卷: 是 否 (检查命令:#lsvg l )交换分区使用率是否超过 70%: 是 否 (检查命令:#lsps s)有否合符要求的
17、系统备份: 是 否 最近一次系统备份的时间: 磁带机是否需要清洗: 需要 不需要(“usr/lpp/diagnostics/bin/utape cd rmt0 n”查看磁带机使用时数)检查各网卡的状态、IP 地址、路由表等: 正常 不正常检查通信状态: 正常 不正常 (测试命令:#ping ip address)3检测诊断机器 shutdown 后以慢启动方式作自检,启动后运行 diag 系统诊断程序。系统板、CPU、内存、I/O 板: 正常 不正常网卡、SCSI 卡、SSA 卡: 正常 不正常系统其他扩展卡: 正常 不正常硬盘、磁盘阵列: 正常 不正常磁带机、磁带库: 正常 不正常诊断步骤:
18、1)#diag2)Enter 3)选择 Diagnostic Routines 4)选择 System Verification 5)选择 All Resources 6)按 F7 输出判断: 结果应为 No trouble was found。 AS400 巡检内容1系统记录信息Problem Log 中是否有必须处理的硬件故障记录 是 否 PAL 中是否有必须处理的硬件故障记录 是 否 SAL 中是否有必须处理的硬件故障记录 是 否 是否有其它异常信息 是 否 是否需要安装与硬件相关的 PTF 是 否 2操作系统环境操作系统版本: PTF 版本:HIPER CUM DB2 是否建议安装新的
19、 PTF: 是 否 特许程序状况: 正常 不正常 3系统处理能力表现CPU 使用率是否持续大于 70% 是 否 硬盘使用率 是否大于 80% 是 否 系统临时空间的占用是否持续增长 是 否 系统中总作业数 是否过多 是 否 全部活动作业是否正常 是 否 系统作业是否有异常 Joblog 是 否 Spool file 的数量 ,建议清理? 是 否 处理器性能是否被收集? 是 否 4系统备份和数据保护是否有硬盘数据保护,如:RAID/Mirror RAID Mirror 无保护 是否有一年内,系统最后一次变化后的全备份 是 否 是否有一年内,系统最后一次变化后的 SAVSYS 是 否 是否每天备份
20、用户数据 是 否 是否备份系统配置 是 否 备份磁带是否异地保存 是 否 是否有双机备份,状态是否正常 是 否 OS/400 QSECOFR 密码是否妥善保管 是 否 SST/DST QSECOFR 密码是否妥善保管 是 否 2.5.3 数 据 库 巡 检 内 容 DB2 巡检内容1日常维护内容检查管理服务器是否启动: 是 否 检查 DB2 实例是否启动: 是 否 表空间状态是否正常: 正常 不正常 表和索引状态是否正常: 正常 不正常 磁盘空间是否正常: 正常 不正常 存储管理软件是否正常: 正常 不正常 数据库备份是否正常: 正常 不正常 归档日志是否正常: 正常 不正常 缓冲池的命中率是
21、否正常: 大于 95% 低于 95% 当前运行最频繁的 SQL 命中率: 大于 95% 低于 95% 是否有死锁情况: 是 否 表是否需要重组: 是 否 2月巡检内容数据库补丁级别: DB2 日志是否正常,有无 Critical 错误: 是 否 备份和日志是否保存完好: 是 否 数据库性能抓取: 正常 不正常 Oracle 巡检内容1日常维护内容检查管理服务器是否启动: 是 否 检查 Oracle 实例是否启动: 是 否 检查 Oracle Rac 服务进程是否正常: 是 否 表空间状态是否正常: 正常 不正常 表和索引状态是否正常: 正常 不正常 磁盘空间是否正常: 正常 不正常 存储管理软
22、件是否正常: 正常 不正常 数据库备份是否正常: 正常 不正常 归档日志是否正常: 正常 不正常 缓冲池的命中率是否正常: 大于 95% 低于 95% 当前运行最频繁的 SQL 命中率: 大于 95% 低于 95% 是否有死锁情况: 是 否 表是否需要重组: 是 否 2月巡检内容数据库补丁级别: Oracle 日志是否正常,有无 Critical 错误: 是 否 备份和日志是否保存完好: 是 否 数据库性能抓取: 正常 不正常 2.5.4 网 络 设 备 巡 检 内 容 交换机巡检内容1硬件设备检查项引擎状态指示灯是否正常: 是 否 模块状态指示灯是否正常: 是 否 端口状态指示灯是否正常:
23、是 否 CPU 利用率是否正常: 正常 不正常 内存利用率是否正常: 正常 不正常 Buffer 分配是否正常: 正常 不正常 Crash 分析是否正常: 正常 不正常 有无明显异常 Log: 正常 不正常 冗余引擎是否正常: 正常 不正常 冗余电源是否正常: 正常 不正常 2交换机链路层检查项Spantree 配置是否正常: 正常 不正常 管理 VLAN 配置是否正常: 正常 不正常 Trunk 配置是否正确: 正常 不正常 VTP 配置类型: 交换机管理端口配置: 交换机管理界面是否正常访问: 是 否 配置信息备份和日志是否保存完好: 是 否 防火墙巡检内容1硬件设备检查项引擎状态指示灯是
24、否正常: 是 否 模块状态指示灯是否正常: 是 否 端口状态指示灯是否正常: 是 否 CPU 利用率是否正常: 正常 不正常 内存利用率是否正常: 正常 不正常 Buffer 分配是否正常: 正常 不正常 Crash 分析是否正常: 正常 不正常 有无明显异常 Log: 正常 不正常 冗余引擎是否正常: 正常 不正常 冗余电源是否正常: 正常 不正常 2防火墙检查项NAT 和静态路由配置是否正常: 正常 不正常 访问规则配置是否正确: 正常 不正常 防火墙管理端口配置: 防火墙管理界面是否正常访问: 是 否 配置信息备份和日志是否保存完好: 是 否 3 巡 检 报 告3.1 硬 件 环 境 巡
25、 检 报 告机房地点 用户名称机柜数量 服务器数量外部环境:温度是否符合要求 符合要求 不符合 湿度是否符合要求 符合要求 不符合电源参数:检测项目 结果 参考值相 电 压 符合要求 不符合线 电 压 符合要求 不符合零地电压 符合要求 不符合硬件运行情况:控制面板是否正常 正常 不正常钥匙是否妥善保存 正常 不正常服务器电源情况 正常 不正常风扇转动情况 正常 不正常是否有备份电池寿命报警 正常 不正常检查设备故障灯是否有亮 正常 不正常有否异常情况 正常 不正常 如硬盘、风扇异常的声音,电缆破损3.2 服 务 器 巡 检 报 告 AIX 小型机巡检报告主机名 业务范围主机型号 序列号硬件配
26、置:CPU、内存 硬盘RAID 方式 RAID0RAID1RAID5 OS 版本系统环境检查表检测项目 结果 参考值硬件故障 有 无软件故障 有 无root 的错误报告 有 无 故障内容:超额使用的文件系统 有 无交换分区使用率 70%CPU 空闲 20% 80%系统参数设置 正常 不正常系统日期 正确 错误磁带机、磁带库 正常 不正常网络状态 正常 不正常补丁等级 正常 不正常 返回结果: PC 服务器巡检报告主机名 业务范围主机型号 序列号CPU、内存 硬盘 电源冗余 有 没有系统环境检查表检测项目 结果 检测项目 结果电源供电 正常 不正常 网络 正常 不正常CPU 占用 占用_,是/否
27、20% 60%40% 60%错页率是否正常 正常 不正常硬盘空间 整体: GB 空闲: GB硬盘失败的数量 无硬盘失败 有硬盘失败 :数量RAID 状态 无 RAID 正常 不正常硬盘 I/O 使用率 80%内置磁带机状态是否正常 无磁带机 正常 不正常内置光驱状态是否正常 无光驱 正常 不正常网卡是否正常 正常 不正常TCPIP 状态是否正常 正常 不正常消息队列中有无报警性消息 有 无系统作业是否有异常Joblog 有 无Spool file 的数量是否有一年内,系统最后一次变化后的全备份 有 无是否有一年内,系统最后一次变化后的 SAVSYS 有 无是否每天备份用户数据 有 无是否备份系
28、统配置 有 无备份磁带是否异地保存 有 无是否有双机备份,状态是否正常 有 无系统检查密码是否妥善保管 有 无3.3 数 据 库 巡 检 报 告主机名 业务范围主机型号 序列号数据库配置:DB 版本 补丁级别备份方式 备份软件版本数据库环境检查表检测项目 结果 参考值管理服务器是否启动 是 否实例是否启动 是 否Oracle Rac 服务进程是否正常 是 否表空间状态是否正常 正常 不正常表和索引状态是否正常 正常 不正常存储管理软件是否正常 正常 不正常数据硬盘空间使用率 正常 不正常数据库备份是否正常 正常 不正常归档日志是否正常 正常 不正常缓冲池的命中率是否正常 正常 不正常 返回结果
29、:是否有死锁情况 是 否表是否需要重组 是 否日志是否正常,有无 Critical 错误 是 否 故障内容:备份和日志是否保存完好 是 否数据库性能 正常 不正常3.4 网 络 设 备 巡 检 报 告 交换机巡检报告设备名 业务范围设备型号 序列号硬件配置:吞吐量级 软件版本冗余方式 模块配置网络设备硬件环境检查表检测项目 结果 参考值引擎状态指示灯是否正常 是 否模块状态指示灯是否正常 是 否端口状态指示灯是否正常 是 否CPU 利用率是否正常 正常 不正常内存利用率是否正常 正常 不正常Buffer 分配是否正常 正常 不正常Crash 分析是否正常 正常 不正常有无明显异常 Log 正常
30、 不正常 故障内容:冗余引擎是否正常 正常 不正常冗余电源是否正常 正常 不正常交换机链路层检查表:检测项目 结果 参考值Spantree 配置是否正常 正常 不正常 返回结果:管理 VLAN 配置是否正常 正常 不正常 返回结果:Trunk 配置是否正确 正常 不正常 返回结果:管理界面是否正常访问 正常 不正常配置信息备份和日志是否保存完好 是 否 防火墙巡检报告设备名 业务范围设备型号 序列号硬件配置:吞吐量级 软件版本冗余方式 模块配置网络设备硬件环境检查表检测项目 结果 参考值引擎状态指示灯是否正常 是 否模块状态指示灯是否正常 是 否端口状态指示灯是否正常 是 否CPU 利用率是否正常 正常 不正常内存利用率是否正常 正常 不正常Buffer 分配是否正常 正常 不正常Crash 分析是否正常 正常 不正常有无明显异常 Log 正常 不正常 故障内容:冗余引擎是否正常 正常 不正常冗余电源是否正常 正常 不正常交换机链路层检查表:检测项目 结果 参考值NAT 和静态路由配置是否正常 正常 不正常 返回结果:访问规则配置是否正确 是 否 返回结果:管理界面是否正常访问 正常 不正常配置信息备份和日志是否保存完好 是 否