收藏 分享(赏)

运维思路.ppt

上传人:weiwoduzun 文档编号:5700528 上传时间:2019-03-13 格式:PPT 页数:75 大小:10.58MB
下载 相关 举报
运维思路.ppt_第1页
第1页 / 共75页
运维思路.ppt_第2页
第2页 / 共75页
运维思路.ppt_第3页
第3页 / 共75页
运维思路.ppt_第4页
第4页 / 共75页
运维思路.ppt_第5页
第5页 / 共75页
点击查看更多>>
资源描述

1、,运维职责,什么是运维?,运维职责,互联网运维工作始终以服务为中心,以保证产品的稳定、安全、高效运行为目标, 指产品向用户提供服务的可用性、准确性、完整性,访问速,度及用户体验符合产品的设计与预期,稳定, 指产品运行在安全,可控的状态下,包括用户访问安全,抵,御恶意攻击,网络故障,数据安全等抗风险能力符合产品的 服务要求,安全, 指系统运营的效率、以较小的资源投入带来最大的用户价,值,如单机负载、资源利用率、数据传输效率、更新周期等,高效,运维职责,运维的工作有哪些?,运维职责,故障 管理,数据 备份,监控,安全 扫描,日志 统计,系统 安装,机器 采购,网络管理故障处理,IDC 管理,数 据

2、 库,访问 质量,标准 制定,LVS,nginx,hadoop,服务变更域名 管理,CDN,资产 管理预案整理,硬件 测试,压力 测试,工具 开发,cron,ntp,运维工作,系统运维IDC、网络、CDN和基础设施(lvs,ntp,dns等)建设、资产管理平台和服务器采购、安装、上架和维修应用运维日常业务运维工作,参与服务变更、监控、容灾和数据备份,每日服务排查,故障应急处理以及常规运维工具开发工作DBA负责数据库设计、优化,以及类SRE的变更、监控、数据备份和报警处理工作。还负责数据库管理平台、中间件开发以及数据库安全工作运维研发运维平台开发工作,如监控、服务管理等各种运维自动化系统/平台。

3、运维安全安全体系加固,入侵检测,安全事件处理,常规安全扫描,渗透测试,应用运维系统运维,DBA,运 维 研 发,运 维 安 全,运维部,测试部,运维工作,NSRD,NSQANSOP,ECOMRD,ECOMQAECOMOP,PSRD,PSQAPSOP,INFRD,INFQAINFOP,DBA,OPED(运维平台研发),OPTC(运维技术委员会)系统部SYSTC(系统技术委员会),运维工作应用运维 1,设计评审,参与RD发起的产品设计评审,从线上部署和运维的角度提出评审意见。,服务变更,编制或审核上线步骤、回滚方案,确认是否可以触发变更及变更效果是否符合预期 紧急情况下控制回滚,服务管理,掌握所负

4、责的服务及服务间关联关系、服务各种资源 能够发现服务上的缺陷,能及时通报并推进解决 理解运维相关文档,及时更新运维相关文档。,机器管理,熟悉服务器资源状况,机房分布情况,不出现机器遗漏或丢失的情况,合理使用服务器资源,根据不同服务的需求,安排不同配置的服务器,不浪费机器资源 保证服务器正常运行,对服务器硬件添加或变更来解决资源不足问题,例行检查,理解例行检查列表的内容、检查项的含义以及可能引发的问题 按照例行检查表,定期检查系统状态,发现异常立即通报并推进解决 定期检查线上服务模块,排除可疑进程, 发现问题及时通报,理解监控和统计报表的各项含义,每天定时检查报表,发现异常立即通报并推进解决 制

5、定服务例行检查要点和方法,部署执行并不断完善,避免检查的盲点,运维工作应用运维 2,预案管理,确定服务所需的各项监控、系统指标的阀值或境界点,以及出现该情况后处理预案 建立和更新服务预案文档,并跟据日常故障情况不断补充完善,提高预案完备性 能够制定和评审各类预案,安排预案的演练,提高可执行性,数据备份,按线上数据备份规范来进行数据备份工作 保证数据备份可用性和完整性,制定数据备份策略,根据备份要求及时变更 定期完成数据恢复性测试,监控与统计,执行监控配置,并完善监控内容,提高报警准确度 完成服务的各种监控、运维报表开发,并不断完善,故障处理,熟悉服务日常故障处理方法和预案执行要点 对已知线上故

6、障能按流程进行通报并按预案执行 及时处理并回复相关的服务报警信息,能透彻分析报警原因,并推动报警问题解决,能发现服务隐患,总结处理方法和提出预案改进建议,运维工作应用运维 3,预算管理,熟悉服务模块的极限压力数据和评估方法,清楚了解服务预算公式和各种考虑因素(如内存、硬盘等),协调相关RD/PM, 定期修订服务预算公式,并编制产品线硬件预算 参与新型硬件设备的调研、测试及产品线硬件的选型,服务优化,发起或参与针对现有服务性能调优工作,并总结形成优化方法 针对新模块、新服务,能提出优化的部署方案并安排实施 根据业务需要,制定服务调整、迁移方案,不断完善和优化程序和系统的功能、效率,提高运行质量

7、制定服务稳定性指标及准入标准,某公司人机比例,2005年4971145,2006年11582155,2007年30004271,2008年41968251,55,0,70605040302010,9080,0服务器数 人数 人均服务器,350030002500200015001000500,45004000,服务器数与人数的比值45服务器数增长曲线,71人数增长曲线,5107年人数的增 幅没赶上服务 器的增幅,这 年大家更累了,运维压力,业务发展得很快,而运维处在产品末端,将全周期 地承受着产品与缺陷带来全部压力,任何产品,需求、设计、测试的周期都是有限的,但是其 运维周期是无限的,在上游引入

8、的任何缺陷,最终都由运维承担;但上游是无 法感受到运维压力的,随着业务增长,产品与缺陷带来了极大的运维压力,HOW?,运维压力,依赖人的手工操作是当前运维的主流方式,虽然有工具、系统,但是分散、零乱,无法产生规模信息关联方式简单,信息挖掘基本靠人,无法进行大信息 量处理与分析,信息孤岛林立,重复性工作较多,效率较低,实时性不高,人工失误率无法消除,几乎成为“系统误差”,HOW?,运维压力日益增长的业务量带来的运维压力和落后的运维生产力之间的矛盾,降低运维压力,提高运维生产力,内部,外部,控制缺陷运维标准,减少人工运维平台,服务体系,集合角度 Association,思维角度 Thinking,

9、规则角度Rules,运维体系 Architecture,动作流程规范标准,命令工具系统平台,想法概念理念理论,依 赖 人不 依 赖 人,体 力 密 集 型脑 力 密 集 型,G1 原始时代G2 农耕时代G3 工业时代现状G4 高科时代,服务平台,OUTLINE,运维标准 资源管理 监控告警 服务变更 容灾预案 运维安全 运维效率,1,1,U,U,运维标准标准化是服务可运维的基础,也是实现自动化的必要条件基础设施服务器标准化套餐,均衡型、高IO、高CPU机柜使用标准布线标准标签和二维码,IP使用标准,环境操作系统版本统一 centos/redhat,系统参数初始化标准 部署路径, /home/w

10、ork? /opt ? 生产环境账号,root? work? 主机命名规范 jx-cp-se00.jx sd-im-mq01.bj ?,agent部署和升级标准应用日志输出和切分的规范,./run.sh start/stop/restart/status,应用启停接口 端口使用 依赖标准,45 U,3 1 3 1 3 1 3 1 1,U U U U U U U U U,1,U,3U8 3U83U8 3U8 ILO,TOR,1 1 1 1 1 2 1 2 1,U U U U U U U U U,OUTLINE,运维标准 资源管理 监控告警 服务变更 容灾预案 运维安全 运维效率,资源管理资产管理

11、服务器,IDC 机柜,IP 域名 网络设备 配件 采购时间 所属机房,预算单,产品线机房系统版本,机器列表型号配置到货时间,服务器IP机架位置,报废,资源管理机器交付新采购,机器故障服务管理,以树的形式将硬件资产、应用服务、人和权限等多维度信息关联产品线-服务-模块机器模块模块进程服务监控模板机器人产品线域名模块状态、路径、版本,资产管理系统运维,服务管理应用运维,资源管理,资源管理,总体资源使用情况,各个部门、各个产皮线资源使用情况,是否充分使用?,是否有资源闲置?,新采购原因和历史?,OUTLINE,运维标准 资源管理 监控告警 服务变更 容灾预案 运维安全 运维效率,监控告警,价值,通过

12、各个层面的报警,快速的定位和发现故障 能够监控的数据展示,反应业务的容量和性能 能够清楚的通过数据来量化业务运行状态,监控分类,机器监控,CPU 内存 磁盘 IO,网卡流量 存活性,网络设备 服务监控,进程 端口 语义,访问质量,监控告警,传统的监控方式,使用zabbix、Cacti、Nagios等,使用snmp或agent的方式,采集机器监控和网络设备信息 通过监控应用的端口或进程,监控应用是否正常,可以自己编写插件,通过agent调用,获取应用运行的状态,监控告警,主动监控,程序在运行时,主动反馈自身运行状态的计数器 参考,很简单的方式上报,stathat.ez_post_count( ,

13、 nginx qps 10.234.5.19, 300),监控告警,域名监控,从全国多个节点监控域名的可用性 同时提供访问质量监控,前期可以采用监控宝等第三方监控服务,访问质量,JS检测,URL多地域监控 页面优化,采用基调等第三方服务进行监控,阿里测等进行页面分析,监控告警,分布式跟踪系统,Google dapper Twitter zipkin 淘宝 鹰眼,监控告警,进程监管,作用:当被监控的进程退出时将它自动重启,避免由于进程意外退出而导致 服务不可用 使用:,百度使用qmail里的supervised程序,通过supervised监管进程 很多公司使用开源的supervisord, h

14、ttp:/supervisord.org/ Monit和supervisord类似,god,http:/noops.me/?p=133 有详细介绍,当进程退出后自动将应用重启,能够限制重启次数和时间 支持start/stop/status等接口,启停进程,查看状态,能够对进程资源进行限制,比如mem超过500mb则进行重启 提供方面的接口,可以在应用启动、停止等情况是添加自定义行为,监控告警,报警合并 66%,报警分级,告警依然太多,避免重要短信被淹没 梳理告警,划分为5个级别,P0P4,OUTLINE,运维标准 资源管理 监控告警 服务变更 容灾预案 运维安全 运维效率,服务变更,服务变更a

15、dserver|-bin| |-adserver|,|-conf | |-adserver.conf | |-data | |-data1 | |-data2 | |-log | |-adserver.log | |-adserver.log.2012121910 | |-adserver.log.2012121909 | |-script | |-run.sh,adserver.confip_0_0: 10.0.0.1ip_0_1: 10.0.0.2ip_1_0: 10.0.0.3ip_1_1: 10.0.0.4Data_index: 0/1,服务变更,手工操作,for x in seq 0

16、0 10 do,ssh jx-cp-se$x.jx do something,done,批量操作,lh系列工具,lh jx-cp-se-* 获取列表,lhck jx-cp-se-* do something,lhscp jx-cp-se-* local_file work/xxx/,服务变更,WEB操作,标准,程序启停方式标准化,统一的run.sh接口,支持start、stop、restart、healthcheck. 服务部署路径的标准化,避免繁琐的配置,变更前备份方式的标准化,路径、命名规则、备份方式,服务通过服务树进行管理,可以方便的进行筛选,部署一批同类型的服务 所有机器上都一个负责具

17、体命令执行和反馈的agent,功能,选择需要部署的服务树节点,提供筛选功能,选择服务本次变更的版本,因为之前已经在服务树上把服务和SVN关系进行了绑定,只能在线上已运行服务的基础上,做增量上线,替换每次需要升级的bin,不影响data、conf 、log,提供一个web化的配置文件编辑器,每次发起部署任务前,先把线上每台机器的配置文件拉 回本地进行批量编辑,因为之前做了服务启停标准,所以只需要配置stop,start,还是restart等命令执行顺序即可 可以设置暂停点,如部署完第一台服务器后暂停,运维人员观察确认后再批量执行,支持与监控系统联动,在部署该服务器时,暂停该服务器上对应的服务监控

18、,部署完成后调 用healthcheck和开启监控,如果发现问题则暂停批量任务。,服务变更,WEB操作,问题,配置变更,复杂情况或极简情况 前置、后置动作 依赖关系 数据依赖,外挂型部署系统,服务变更,动态调度机器,IDC,单机下限 存活性,动态调配任务,优先级 并发度,资源使用 数据准备,预算组内任务端口唯一 任务ID全局唯一 taskid clusterid userid idc组合 支持supervise功能,定时任务根据预算组资源,运 行时部署,服务变更,任务,整体发布,可随意迁移 .app 任务包含数据依赖描述文件,数据,和任务分离,固定存放,通过注册+订阅的方式,dataid全局唯

19、一 不建议本地存储,云存储,配置,实例配置由同一的策略中心管理,包括上 下游连接,上下游依赖通过全局唯一url定位 仅定 位,由调度保证实例可用,日志,不建议本地存储,远程写日志 流式传输,实时分析,监控,单独的监控输出,基础监控链接lib 输出html文件,可抓取、可展现,服务变更资源调度和隔离:调度服务在机器及更细粒度的部署运行机器管理:机器统一备机管理,记录机器的属性、状态资源定位:采用pub/sub的方式,管理与服务与机器的对应关系,解耦服务之间查询的问题,降低由于上下游IP配置等导致的运维复杂度全量上线:降低上线操作和环境搭建的复杂度,动作一致,实现模块全量的上线,全量上线,资源定位

20、,机器管理,资源调度和隔离,服务变更灰度发布统一接入层(FE),UISRV1SRV2,UISRV1SRV2,UISRV1SRV2,UISRV1SRV2,线上基准环境灰度环境1,2,3,服务器管理,故障单,停机中offline下线单online对外提供服务,机器初始化完成 业务环境初始化完成 业务环境搭建完成No serviceproblem服务下线,自助服务,服务器重启&netoops 密码查询 自助装机 机器改名,服务器管理,服务器管理,业务部署 结构,PAAS,机器管理,CloudController,ROUTER,DEA,Services,AESIR,ODIN,FRIGGA,THOR,A

21、UTO BUILD,Release Server,备份,监控,安全,自动部署 AESIRWEB,Build Server,APP SERVER,frigga,thor,ODIN,APP SERVER,frigga,thor,监控系统服务树,全量部署 行为统一 快速回滚多环境和多配置 配置模板 配置继承,部署依赖 系统依赖 模块依赖关联周边系统 监控、备份 服务TAG,多模块联合部署 集群部署 顺序部署服务状态管理,自动部署 - 功能,发布包结构 Passport-agent|- release|- target|- deploy|- config.template.yml|- init.yml

22、| - 模板目录|- dch.conf.erb,自动部署 标准,程序、数据分离 /home/work/passport-agent|- bin|- conf/data/passport-agent|- log|- dict,自动部署 - WEB,自动部署 - WEB,cluster:name: dchversion: 1.0.0.1env: productionjobs: dch, abc, aaa, (可多个模块)dch:host: 10.237.37.43user: workversion: 93043path: /home/work/passport-dchpkg_url: ftp:/d

23、b_passwd:xxxxbackup_key:68e7012d5bdca6eaceeb2682e4b20a96mon_value: mon.template.ymlAbc: ,自动部署 配置Cluster.yml,THOR解析cluster.yml同步文件到base_dir个性配置项替换 (zk、db_passwd)通知frigga启动程序,Config.template.yml base:basedir: “$”user: “$“mod_name: “$“,#app running control mod_start: “$basedir/bin/run.sh“ mod_stop: “$b

24、asedir/bin/stop.sh“,production:zookeeper_host: staging:zookeeper_host: ,Init.yml Dch:type:filename:$basedir/conf/dch.confsource:template( “dch.conf.erb“),db_password: “$“ monitor:,type: mon name: $basedir/conf/mon.conf source:template(“mon.conf.erb“),to_email: backup:,type: backup name: $basedir/c

25、onf/backup.conf source:template(“backup.conf.erb“),自动部署 配置,自动部署 命令行,Odin.rb f cluster.yml Thor f cluster.yml,自动部署 管理,自动部署 管理,规范要求 - 发布规范,统一版本标识 让部署在流程和管理上有序统一目录结构规范 抽象部署动作的并保持简单的基础统一打包格式 tgz 简化传输、校验、属主和权限保持统一启停接口 简化部署动作,降低接入代价包是完整的,不存在包外信息 部署幂等,回滚=redeploy,发布 规范,封装 本地 构建 部署 工具,规范要求 - 自动发布本地开发,本地部署本地

26、测试,各种自动化测试部署到测试机,Jenkins,build,buildSCM,builddeploy,online,online,online,release,规范要求 系统环境,统一系统内核、发行版、初始环境,编译环境 解释器,系统Lib,关键配置依赖 命令行,规范要求 - Runtime依赖,Runtime package管理, 与service package用等同 方式 Runtime package的路径 ,固定or路径无关?,部署时需要的权限可能和应 用服务不同 一台server上多个应用,使 用不同的runtime or 共用 runtime?,Serveice Package

27、 A,Runtime Package BRuntime Package C,A,deployBC,C,规范要求 - 解耦关联配置,A,A,B,B,BA,BA,B,B,B,B,Namingservice,资源,未来 - 资源隔离CPU,MEMORYDISK QUOTADISK IONET IOIPPORTPATH,节省硬件资源,约15%容易动态调整资源虚拟化KVM,容器LXC资源隔离更彻底,未来 - 服务无感,上游容错,naming,优雅重启,动态筛选、调度,筛选器,物理 分布,资源网络 分布,CMDB,动态资源数据库,创建容器调度器,OUTLINE,运维标准 资源管理 监控告警 服务变更 容灾

28、预案 运维安全 运维效率,容灾预案,SMART DNS+同城负载,Smart DNS,用户请求,LVSnginx中间层主库,LVSnginx中间层从库,容灾预案,数据备份,备份级别 备份时间 备份介质,数据恢复测试,容灾预案,预案管理,预案文档,单机故障 网络故障 IDC故障 ,定期预案演练,OUTLINE,运维标准 资源管理 监控告警 服务变更 容灾预案 运维安全 运维效率,运维安全定期安全扫描WEB应用扫描系统漏洞及弱口令扫描操作系统安全加固账号安全Relay跳板机隔离办公网和IDC的直接访问门神系统进行账号统一管理、授权,动静态密码应用防护Web应用防火墙文件完成性校验Webshell扫

29、描,安全渗透测试 白盒代码扫描,服务器服务器服务器,办公网,Relay跳板机门神认证服务器IDC,OUTLINE,运维标准 资源管理 监控告警 服务变更 容灾预案 运维安全 运维效率,运维效率,服务分级,一级服务 99.99% 二级服务 99.95% 三级服务 99.9%,故障分级,E,I,运维效率EIPP, 事件管理Event Management 来自监控的报警或 其他系统的通知 通过响应和排查及 时发现故障 任何报警信息、通 知, 故障管理Incident Management, 引起或可能引起服 务中断或质量下降的 任何事件 快速恢复服务、减 少不利影响 线上死机,问题管理Proble

30、m,Management 引发一个或多个故,障的根本原因 定位根本原因,找 到解决方案,防患 于未然 线上死机的根本原 因,运维效率,EIP流程,故障生成故障分派,故障处理故障关闭,生成问 题?,问题生成问题分派,问题处理问题回顾,问题关闭,监控 报警,事件生成较高级别报警自动生成故障判断分级,END,用户提交,用户提交,END事件管理,故障管理,END问题管理,较低级别报警生成 Y故障?N事件认领,运维效率,故障处理流程,先通报,后处理,有预案的按照预案进行操作,没预案的确认后再操作 先用ditry的方式修复,暂时恢复后再寻找最佳解决方案,运维效率故障总结故障占比8%8%17%67%,程序故障,机器故障,网络故障,误操作,Thanks!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报