1、 运维操作规范版本控制信息版本 日期 拟稿和修改 说明A 2018.4.23 初版发行2目 录1 目的 32 总则 33 运维操作规范 34 数据库操作规范 45 安全运维规范 41 目的3旨在规范运维操作流程,保障生产环境的稳定运行。2 总则2.1 对生产环境存敬畏之心旨在规范运维操作流程,保障生产环境的稳定运行。2.2 白天(9:00-19:00)禁止对现网做变更操作除非紧急情况,的确必要,必须经过上级审批。2.3 禁止在生产环境进行未知后果的参数测试要测试的话需要测试环境先验证2.4 做好备份如修改配置文件、升级工程前,一定要先做好配置。2.5 对破坏性的命令要小心比如清除目录 rm -
2、r tomcat/work/Catalina, 要多核对下命令和参数2.6 需要 7*24 小时手机开机,保持通讯畅通3 运维操作规范3.1 白天一般只进行例行巡检、紧急更新需要经过审批3.2 对不可逆的删除或修改操作,尽量延迟或慢速执行3.3 新系统上线后,要记得分析日志,增加监控对象。3.4 版本升级后,需要进行观察,确保服务质量不受影响3.5 应对故障要先恢复再排查,无计可施时重启试试3.6 运维脚本和工具要版本化管理3.7 批量操作,需要在测试环境进行演练3.8 删除操作脚本交叉检查二次确认3.9 一人一次只做一个变更,降低人为失误风险43.10 数据备份任务要监控,并定时检查备份档的
3、有效性3.11 灾难的紧急预案一定要有演练的机制3.12 每个偶然的故障背后都深藏着必然联系,需要找到问题根源。4 数据库操作规范4.1 白天一般只进行例行巡检4.2 统计数据在只读实例上统计没有只读实例的话,若需要消耗大量性能,只在夜间进行计算。4.3 对大表的变更需要经过审批4.4 变更需要发送通知和报告,保证信息对齐4.5 知己知彼,了解所做操作产生的结果才去做4.6 重大操作要有操作和回滚方案,要双人检验且审批通过4.7 养成日常巡检核心监控属性的习惯、定期对比各数据中心的库表结构是否一致4.8 上线 SQL 先 Explain 一把,执行计划可以做一定的固化4.9 做好数据库容量规划
4、,做好容量监控4.10 对索引要根据访问类型做战略性规划4.11 定期的性能优化避免业务量突增造成的雪崩4.12 推动业务采用更合适的架构方案5 安全运维规范5.1Tomcat 的 webapps 目录缺省删除5.2 能过 WAF 的尽量过 WAF,测试环境开放公网端口的,必须经过 WAF5.3 开放公网的要事先经过安全组渗透测试5.4 一般用普通用户登录,不使用 root 权限55.5 尽可能使用非 root 帐号启动进程5.6 停用和关闭无用的服务,系统服务最小化5.7Syslog 日志定期备份,便于安全事件的追溯和审计5.8 定期对安全组规则进行 review,关闭不必要的端口。5.9 配置 iptables 规则时要记得放开自己的远程。