1、内部资料注意保存XXXX信息中心信息系统事故报告第 1 期信息中心 二一二年九月三日关于 8 月 20、22 日统一工作平台事故报告统一工作平台分别于2012年8 月20日上午、8月22日下午出现两次不能登录的系统故障,故障持续时间分别为76分钟和27 分钟。现将故障的原因及解决方案报告如下:一、故障描述2012年8月 20日8:52 分至10:08分,共76分钟,统一工作平台无法登录,登录页面不能打开。2012年8月 22日14:38分至15:05分,共27分钟,统一工作平台无法登录,登录页面不能打开。二、故障分析两次故障发生的原因是由于数据库服务器操作系统内存耗尽导致。引起内存耗尽的原因是
2、因为在 2012 年 8 月15 日晚为了 数据库 ORA-4030 的报错 调整了统一工作平台数据库内存参数,让数据库进程可使用的内存增加了14GB,但服务器的物理内存没有增加。此参数调整在评估时未能考虑到 ORACLE 数据库 11.2 版本存在 bug 10190759,该 Bug 会导致数据库部分进程在繁忙时内存的占用是正常值的两倍以上。因此当 8 月 20 日上午、8 月 22日下午数据库因业务量增加而繁忙时,出现数据库所需要的内存超过服务器具有的物理内存,而引起内存耗尽,导致应用不可用。另,2012 年 8 月 20 日在数据库出现故障时,统一工作平台的应用服务同时出现了 WebSphere Deploy Manager(DM)的服务功能异常的情况,该异常以前没有出现过,导致分析和解决故障的时间较长。三、解决方案解决的措施是给统一工作平台数据库服务器增加了14GB 物理内存,使服务器物理内存从 56GB 扩展到70GB,解决了数据库连接失败的问题,目前数据库服务器主机的内存使用率和数据库连接正常。四、改进措施1、后续数据库参数在调整前应充分讨论。2、加强监控告警,完善相关告警措施。3、提高统一工作平台系统管理员的维护技能,如遇到服务不能正常启动时,应将所有服务都先停止,然后再启动。