1、运维工作职责及制度管理办法一、 目的1.1、为明确运维部人员工作职责(重大责任)以及以往服务器故障处理过长导致百米用户流失并对业务扩张带来的影响,特制定本制度来规范运维人员的工作。二、工作范围:2.1、架构设计 为研发部门提供非代码方面的运维技术协助,并在产品开发初期或部署阶段与开发共同确认架构运行程序和服务器部署结构。2.2、运行监控 对线上生产环境中的服务器、交换机等各类设备以及关键程序运行状态进行7x24 小时轮班人力监控,如果遇到运行故障能在 5 分钟内获得通知,并立即开展应急处理工作(每天至少 1 人负责 ) 。 2.3、数据维护 公司业务内的各种关系和非关系数据库中持久化存储的数据
2、备份,并将备份数据从生产服务器保存到线下公司内部的存储器中并建立数据仓库。 为运营部门建立和维护运营数据“仓库” ,并开发部份运营数据挖掘工具。 2.4、企业信息化建设 公司内部办公自动化设备的采购选型、维护、组装,以及协助行政或财务部对该类物品进行资产管理。办公网络系统组建,例如内部文件共享、邮件、IM 等办公协同服务系统的组建和维护。2.5、运维技术文档资料管理公司生产服务器(外网)部署架构图、服务器软件安装清单、服务器密码管理等。三、架构设计工作细则由于研发人员对数据库以及服务器架构方面不是很擅长,需要运维部 DBA 和架构师协助进行产品研发初期或产品部署阶段的协助。主要工作要点如下:
3、3.1、 数据库结构设计:数据库的分布式运算架构设计,例如:读写分离;数据表的分割存储,存储引擎的择优;数据表字段的类型及数值格式择优。 3.2、 服务器架构设计:常见的有服务器网络分布,服务角色合并等等。 3.1、 运维自动化工具开发:主要采用系统的 Shell 脚本或 Python、C/C+语言,开发常用的自动备份、监控警报等工具,减少人力成本,加强维护监管的精准度。四、 运行监控工作细则:4.1、运行监控工作需 7 x24 小时不间断的对所有生产环境中的服务器、路由器以用服务端软件进行监控。 运维监控工作按每天 24 小时计算,由运维现有工程师每人轮班,假设为 ABCDE 五名员工,具体
4、排班表见附件运维轮排表4.2、运维工作中监测到异常时需按以下流程来处理:1) 记录详细的故障症状及相关输出信息 运维部会开发一套运维工作日志系统,用于记录每次故障的详情,以便日后对故障进行后续跟踪和职责过失判定。2) 进行应急处理 运维部与研发部双方会不断交涉更新汇总出一份常见故障应急处理方法的手册,以 B/S 形式发放至每一位运维工程师。当出现突发故障时,运维工程师在记录下故障详情后,则按照该手册结合自己的技术经验来进行故障修复。 3) 发布紧急维护通知(运营部=技术支持和商务部) 当故障在 10 分钟内无法恢复时,应属于紧急维护,需要对外发布维护公告。根据公司制度,运维工程师需先上报至运维
5、部负责人(负责人再次判断 10 分钟内是否能解决,能解决则直接解决),再由运维部负责人通知运营部负责人发布通知。 为了防止联系不上运维或运营部负责人以及公布发布专人,运营部需有权用运营部拟定的维护公告模板来发布紧急维护公告,但是由运维部发布的维护公告,需事后由运维及运营部负责人签字确认原因是有相关负责人联系不上。 4)运维部开始进行后续技术处理直至问题解决 较复杂的故障处理工作在发布紧急维护公告之后,运维部负责人需组织运维工程师进行后续的故障排队工作直至问题解决4.3、 运行监控中常出现的故障分为三个类别:硬件故障、软件故障、网络故障。由于服务器等硬件在外地 IDC 机房,而网络故障大多出在
6、IDC、ISP 环节,运维不能自行处理,需走对外的行政流程,因此对于运维工作的过失判断主要从软件故障上进行。 如果是因产品程序负载能力引起的故障,不属于运维工作失职。因此每次出现故障之后都需要记录详情,以便跟研发人员一起找出故障原因。五、 数据维护工作细则数据维护工作主要分为生产环境中的过期数据定时分割到公司内网的本地“数据仓库”中进行备份存储,以供后续进行数据挖掘分析。同时还需定时备份生产环境中的线上数据以便出现意外情况时进行数据恢复。数据维护工作主要分以下步骤: 5.1、每周将线上实时数据按月进行分割备份,例如广告统计、认证上网统计、网站访问统计等数据,把 30 天以前的数据从线上数据库中
7、分割出来保存到本地数据仓库(根据数据部需要选择性备份) 。 5.2、每周一 03:00 对线上数据库进行一次完整备份;5.3、每天 03:00 对线上数据库进行一次增量备份。(1 )备份文件全部保存到机房内部的“数据仓库”服务器中, “数据仓库”服务器使用至少三块硬盘组建 RAID-5 阵盘阵列,防止有硬盘损坏时出现数据丢失的情况。(2 )为防止“数据仓库 ”服务器的磁盘阵列卡出现损坏的意外, “数据仓库”中的文件会每三天复制一份到公司内网“数据仓库”中,做到本地一份和异地双份的三重备份。5.4、运维同事需每天检查“公网数据仓库”及“公司内网数据仓库”备份的数据是否正常。六、企业信息化建设工作
8、细则企业信息化建设的工作重点在公司内部办公网络的行为管理、办公设备异常处理。以下详细及规定:6.1、网络行为管理 1) 工作时间,每个员工的网络带宽最大为上传 60KB/s,下行为 100KB/s,以免出现个 别员工占用大量网络带宽影响其他员工的工作开展; 2) 工作时间,禁止访问部份与工作无关的娱乐性网站,以免影响工作效率; 3) 对办公网络问题处理以及办公电脑系统异常处理6.2、办公设备维护及资产管理 1) 公司公用打印机、扫描仪、传真机、复印机等办公设备,统一使用权限,以免出现 滥用办公耗材的情况; 2) 公司办公电脑严禁自行拆卸或调换配件,如有切实需求,需向公司申请按行政流程 审批通过
9、后,由运维工程师操作; 3) 公司所有内部办公及对外服务设备,每月进行一次清点检查,防止出现配件被调换 或丢失的情况(服务器需提供使用清单) 。七、运维技术文档资料管理工作细则7.1、每月更新一次服务器部署架构图以及服务器配置清单表(excel) ,存档到公司内网服务器,访问权限:运维部主管以及技术总监可访问。7.2、服务器软件安装清单(其中区分 Web、数据库、其它)安装软件增加则需更新,存档到公司内网服务器,访问权限:运维部系统工程师可访问。7.3、运维技术文档(故障排除文档、服务器优化文档、网络布置文档、学习资料)定时更新,存档到公司内网服务器,访问权限:运维部工程师均可访问7.4、所有生产服务器(外网)root 密码,整理后提交至 felix 处(有新增则增量提交至 felix 处) ,根据运维系统工程师等级开启相应操作权限账户,如:运维经理、主管 管理员权限(具体根据形势需要) 。