1、盛大网络服务器应急响应体系,2011年11月,内容提纲,应急响应体系介绍应急响应中的角色以及职责应急事件等级划分标准应急响应中的辅助故障判断工具情景模拟,应急响应体系介绍,基本目标积极预防,常备不懈; 及时发现,快速响应; 定期分析,及时总结。适用范围适用于突发的,不可预见的,对用户(公司内、外)造成影响的事件; 适用于涉及安全、网络、应用在内的多方面事件,包括:入侵、网络中断、服务器硬件故障、服务对内对外不可达或异常等情况。,应急响应体系介绍,下列那些属于应急事件?公司居里路办公楼突然大面积断电,无法正常办公。老楼一切正常。 小A的个人电脑无法使用公司网络,影响办公。 张江机房非我司服务器受
2、到攻击. 农行系统故障,导致玩家无法用农行卡进行充值。但我司电商系统正常。 收取邮件发生延迟:只是不能及时收取,没有发生邮件丢失状况,应急响应体系介绍,体系结构图,应急响应体系介绍,整体整个体系由前期预案、中期执行和后期分析三个阶段组成,这三个阶段循环往复,以达到系统不断完善、改进的目的。前期预案为紧急事件的发生做预防准备工作,后期分析对执行中的各项问题进行统计分析,分析结果指导改进前期预防机制。,应急响应体系介绍,前期-培训主要对事件判定和处理流程等内容的推广和普及。,应急响应体系介绍,前期-预案服务器管理员平时应针对应用、设备或某种类型的事件分别制定出完整的应急预案。例如:可针对DNS、邮
3、件、网站、游戏、网络故障、入侵、攻击等。应急预案的内容应包括:常见应急事件列举,分析判断的原则、处理措施,责任的划分,事故的报告要求,对应的应急联络人等。,应急响应体系介绍,前期-演习针对已发生过的重大事件进行环境模拟,以摸索验证突发事件的标准处理过程。演习必须严格按照演习计划,且在不影响正常工作秩序的情况下进行。为保证能快速、准确的处理公司可能遇到的各种突发事件,必须定期进行演习,一般应为1至3个月进行一次。 通过应急预案的演习,事件主处理人应了解和熟练掌握应急预案中的每一个步骤和方法。 每次演习的结果和演习相对于预案发现的问题,必须写入演习报告,及时进行总结,并对预案进行相应调整。,应急响
4、应体系介绍,中期执行事件处理流程非常重要,直接决定事件处理的质量和效率。事件协调员统一分机号码:6308、6688,提供7*24h值班响应;事件平台是统一记录应急事件处理过程的实时沟通、信息共享平台http:/61.172.241.91:8080/,应急响应体系介绍,中期执行发现:有两种情况:网络监控部通过监控手段发现;其他部门或人员发现的紧急事件。协调:任何人发现或接到外部紧急事件报告必须第一时间通知技术保障中心网络监控部的事件协调员。处理:协调员证实事件后会将事件录入事件平台,并及时通知事件主负责人,在事件处理过程中协调员会与事件主处理人随时保持联络,跟进事件的处理进展直至影响消除,事件关
5、闭。,内容提纲,应急响应体系介绍应急响应中的角色以及职责应急事件等级划分标准应急响应中的辅助故障判断工具情景模拟,应急响应中的角色以及职责,应急响应中的不同角色事件报告人:监控人员/其他人员(例如客服、项目组、高层领导)。事件协调员:接受紧急事件的报告,协调各方力量进行应急事件处理。事件主处理人:核心处理人员,负责调度事件处理人和各方资源去处理紧急事件。协助处理人:是紧急事件的协同处理人员,接受事件主负责人分配的工作。,应急响应中的角色以及职责,事件报告人的职责任何人发现或接到外部紧急事件后,不论事件是否与自己、自己所在的项目有关,均有责任在第一时间通知技术保障中心网络监控部的事件协调员。事件
6、协调员的职责判断事件类型和等级,通知事件主处理人; 记录事件发生梗概,跟进事件处理进展,并记录到事件平台,直至影响消除,事件关闭。,应急响应中的角色以及职责,事件主处理人的职责事件主处理人必须具有上网条件,如果你接到通知作为事件主处理人,而又不具备上网条件时,你应该重新指派某人作为事件主处理人,并向协调员说明情况,让他通知你所指派的人作为事件主处理人。接到协调员通知作为事件主处理人且具备上网条件的,应该对协调员描述的问题进行初步检查、分析和判断。事件主处理人有责任负责联系、协调其他协助处理人。对不属于自己业务范围的,向事件协调人反馈,通知其他事件处理人处理。,应急响应中的角色以及职责,事件处理
7、人一旦确定事件属于本职范围内, 应该立即登陆事件平台,打开当前事件(即进入交流界面),获取事件概况并进行相应处理;在处理过程中,可以通知其他相关人员加入交流界面协助处理,并将处理进展情况及时与在线人员沟通,实现信息共享。事件主负责人应主动反馈事件处理进展情况;遇到协调员提问应实事求是给予明确答复,绝对不允许置之不理,防碍相关人员了解情况;更不能故意隐藏事故真相,逃避事故责任。,应急响应中的角色以及职责,事件主处理人通过事件平台沟通界面统筹指挥处理过程,当事件处理结束时,主处理人应及时通知事件协调员关闭事件。 对于重大事件、不合理事件事件主处理人必须在事后提供事件报告。,应急响应中的角色以及职责
8、,协助处理人的职责配合事件主处理人对紧急事件进行应急响应,接受事件主处理人的调度。在配合事件主处理人进行处理的过程中,随时将处理进展向事件主处理人报告。,应急响应中的角色以及职责,事件报告必须在一个工作日内完成,必须包含以下内容事件发生时间/处理完成时间事件类型/IDC机房影响简述(范围/人数/时长)原因/责任分析处理过程(按时间记录处理进展)处理优化建议,应急响应中的角色以及职责,事件平台界面,应急响应中的角色以及职责,事件平台界面,应急响应中的角色以及职责,应急响应中的角色以及职责,事件报告撰写界面,内容提纲,应急响应体系介绍应急响应中的角色以及职责应急事件等级划分标准应急响应中的辅助故障
9、判断工具情景模拟,应急事件等级划分标准,应急事件根据故障类型划分为三大类 网络事件: 网络中断、网络延迟增大、路由环路、交换机故障等;安全事件: 被入侵、感染病毒、受攻击、中木马、中蠕虫等;应用事件: 硬件故障:cpu/硬盘/内存/raid卡/网卡/主板/电源; 服务/程序:失去响应、自动重启; 服务器宕机等;,应急事件等级划分标准,事件等级反映了事件对业务的影响程度,共分为三级。一级事件指可能会对公司造成重大损失的紧急事件。二级事件指可能对公司某部分业务造成较大损失的紧急事件。三级事件指可能对公司个别业务造成一定影响的紧急事件。,应急事件等级划分标准,应急事件等级划分表,应急事件等级划分标准
10、,核心业务计费、冲值、电子商务、密宝、DNS、集中备份、盛大通行证 主要业务各游戏服务器、数据库、令牌服务器、邮件服务器、公司官方网站、以及传奇、传世、梦幻、冒险岛、BNB、DDO、Archlord、游戏官方网站、圈圈、P2P、EZ、淘金乐园、积分游戏、客服事件递交系统、外部应用监控平台、事件平台系统、人数监控系统、OCTOPOD、NETVIEW、KM其他业务 核心业务和主要业务之外的其他业务,应急事件等级划分标准,核心机房上海张江机房、上海外高桥机房 主要机房南京电信龙江机房、上海网通漕河泾机房、北京电信通机房、哈尔滨网通第二枢纽机房、西安电信西部数据中心机房、杭州电信岗一号机房、成都天府热
11、线国际大厦机房、成都天府热线二枢机房、武汉电信南垸机房、 广州七星岗机房、青岛网通二枢纽机房其他机房 其他合作IDC机房,应急事件等级划分标准,辅助的细分判断标准(一),应急事件等级划分标准,辅助的细分判断标准(二),应急事件等级划分标准,试判断以下事件的等级:某日凌晨客服反馈:部分玩家 无法使用农行卡进行充值,我司技术人员结果检查发现:我方电商系统运行良好,为农行系统故障。联系农行人员,30分钟后故障解决。,内容提纲,应急响应体系介绍应急响应中的角色以及职责应急事件等级划分标准应急响应中的辅助故障判断工具情景模拟,应急响应中的辅助故障判断工具,人数监控二期(监控),应急响应中的辅助故障判断工
12、具,人数监控二期(监控)人数查询界面,应急响应中的辅助故障判断工具,CobWeb,应急响应中的辅助故障判断工具,CobWeb的节点分时走势图,应急响应中的辅助故障判断工具,CobWeb的节点到节点分时走势图,应急响应中的辅助故障判断工具,人数监控二期(分析),应急响应中的辅助故障判断工具,人数监控二期(分析)选择曲线对比界面,应急响应中的辅助故障判断工具,人数监控二期(分析)选择曲线对比界面,应急响应中的辅助故障判断工具,人数监控二期(分析)明细查询界面,内容提纲,应急响应体系介绍应急响应中的角色以及职责应急事件等级划分标准应急响应中的辅助故障判断工具情景模拟,情景模拟,2006年1月30日2
13、3:55泡泡堂监控值班A下楼吃晚餐,监控任务暂交传奇监控值班B代看,这时B发现泡泡堂2区人数突降31000多人,这时B该怎么办?首先判断属于应急事件应立即打6308电话分机报告协调员,情景模拟,协调员接到应急事件报告,确认情况后通知泡泡堂技术经理C作为事件主负责人,并在事件平台上新建事件,情景模拟,泡泡堂技术经理C接到协调员电话通知时,正在杭州出差无法处理,但能初步判断事件可能和2区的游戏登陆服务器有关,这时C该做些什么?向协调员说明情况,并指定新的事件主负责人,情景模拟,协调员通知经理指定人员-技术工程师D作为新的主负责人,D在家,可以上网,这时D该做些什么?立即登陆事件平台,打开当前事件,
14、进行协调处理,情景模拟,技术工程师D在线指导值班人员重启泡泡堂2区登陆服务器,经观察后无效 ;后查看游戏服务器日志,发现与DB连接异常。由于值班人员无权限连DB,D在家有IPsec限制、登陆DB有防火墙限制,所以在家无法继续进行处理,而深夜也没有项目值班。在这个阶段中D应该做些什么?接着该怎么办?在事件平台上及时反馈处理过程和进展通知合适人员协助处理,情景模拟,技术工程师D通知住在公司附近的项目组成员E立即赶往公司进行处理。E赶往公司清理DB空间,重启全区,人数回升至正常。E在工作中应该做些什么?同样登陆事件平台,随时汇报事件处理进展。,情景模拟,事件至此是否已经结束?结束的标准是什么?确认事件结束后,主负责人还需要做哪件事?结束对公司业务影响或对用户影响消除,事件就结束了通知协调员关闭当前事件,Q&A,