1、运维通服务方案建议书撰稿方: 广州网脊网络科技有限公司公司撰稿日期: CUSTOMERS NAME: 用户名称: PROJECT NAME: 项目名称: 运维通服务方案建议书VOLUME NUMBER: 卷标: 第一版电话:4006-3525-00传真:地址:广州市番禺区大学城中二横路 22 号创业楼 A 区 4 楼网址: 广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 2 of 18目 录第一部分 引言 .3第二部分 概述 .42.1 运维通设计背景 42.2 设计原则 4第三部分 运维通解决方案 63.1 一键通功能 .63.2 主机监控 73.3 网站监控 103
2、.4 自定义分组与拓扑图 103.5 丰富的自定义报表功能 113.6 丰富的事件查询机制 123.7 自定义阀值、报警 12第四部分 部署方案 134.1 部署方式 .13第五部分 服务方案 155.1 服务范围 155.2 故障级别 155.3 工作内容 165.3.1 日常支持 165.3.2 现场服务工程师工作内容 165.4 日常工作内容详细说明 .165.4.1 日常服务 165.4.2 客户服务经理及专家支持团队 175.5 驻场工作内容详细说明 .175.5.1 紧急故障处理 175.5.2 运维通变更支持 185.5.3 系统监控 185.6 运维通培训支持 .19广州网脊网
3、络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 3 of 18第一部分 引言伴随的 IT 服务的发展,IT 服务的概念也在发生着巨大的变化。IT 运维服务已经由原来局限在用户自身环境下的 IT 服务,延伸到覆盖公用云、私有云、外包服务商等多纬度、全天候的 SaaS运维模式,从狭义理解,IT 服务仅仅是为了解决信息系统出现的故障,在系统出现停顿的时候可以快速的恢复。而目前的 IT 服务已经包含了更多的内容,IT 服务渗透在信息系统的整个生命周期之中。本文基于该理念,对 IT 服务系统的实现进行分析研究。 文章基于网脊运维通 SaaS(Software as a Service)模式
4、理念 ,构建统一平台下支持多类型用户使用的基于 SaaS 模式的 IT 自动化运维平台。使用户在使用效果上与企业自有 IT 服务运维平台基本没有区别,但节省了大量用于购买硬件设备、技术支持和维护运行的资金,同时使得原来分散在不同区域多个机构孤立的信息有了信息共享的条件,使得用户能对分散在不同地方的 IT 系统进行控制、并及时了解相关信息。同时结合网脊运维通的手机 APP,用户可以随时、随地地了解自身 IT 基础环境、业务系统等 IT 资源的可用性、性能、安全事件等主要监控类别,同时结合手机 APP 上的一键通功能,用户可以方便地对远端机器进行硬件重启,预录制命令脚本执行等方便、快捷的一键运维功
5、能。运维通集成了简单、实用的监控、远程操作等实用功能,让普通用户无需购买、安装复杂的 IT 运维系统就可以享受在线的 IT 监控、运维系统,同时具备即时通讯功能的工单流转系统,可将用户、外包服务商、IDC 机房维护工程师等角色有机地整合在一起,是一个完全创新的基于SaaS 模式的社交型 IT 运维技术平台。广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 4 of 18第二部分 概述2.1 运维通设计背景运维通的设计背景主要是针对目前互联网上的设备、应用越来越多,而一般客户的运维技术人员多在公司本部,系统、设备多托管在远端机房,他们希望能有一套集成了远程连接、在线监控的自
6、动化运维解决方案,同时可以很好地集成到手机 APP 上,随时随地对远端设备进行监控或者简单常用的快捷操作等功能,同时 IDC 托管机房也希望可以拓展自身的业务范围,不停留在低价竞争的机柜出租业务上,而是可通过运维通系统对用户提供系统、实用的监控、远程维护、工单流转/考核等功能,从而可持续性地提升用户服务体验,提高自身品牌的客户美誉度。2.2 设计原则在线系统的监控、运维与普通运维解决方案看似有许多相似的地方,但其实还是有很大的不同,普通运维解决方案部署在本地,监控的设备数量有限,使用的用户数量也有限,但在线SaaS 系统则明显不同,监控的设备往往是海量数据,一个普通 IDC 就有上万台设备,用
7、户数量则往往过千,如果采用普通 IT 运维网管软件的设计是完全不行的,同时在 SaaS 模式下,整个监控是在公网上完成,用户对安全性要求比较高,如果采用插件的方式,用户也一定会比较抵制,总之,在线 SaaS 运维系统的设计有其自身的特定,我们在开发运维通过程中,遵循了以下设计原则: 弹性化架构考虑到在线 SaaS 系统的运营特点,运维通的设计采用了高度可扩展性的云系统架构,整个系统分为三个层次,按需部署的收集器、管理服务器以及数据库集群,任何层面的设备都是采用负载均衡的方式工作,任何设备实效后会自动切换到相应的健康设备上。 高性能网脊运维通的收集器,每台至少可监控、管理 500 台设备(主要是
8、 snmp 协议特点,而非运维通设计瓶颈) ,每台管理服务器至少可以管理 30 台收集器,一个 2 台管理服务器、60 台收集器的小型运维通系统集群就可以很好地管理、监控 3 万台互联网设备,其性能指标是比较高的。 安全性与完全运行在用户企业内部网络的本地监控系统不同,网脊运维通系统是为广大用户通过广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 5 of 18SaaS 方式来监控、管理自身设备而研发的,所以网脊科技在开发过程中摒弃了其企业解决方案运维通的很多功能强大,但会牺牲安全性的监控项目和监控策略,用户设备无需安装插件,主要通过配置 SNMP(支持 V3)对特定的收
9、集器的只读功能来实现监控功能,远程操作等通过配置 IPMI 的功能来实现,因为通过标准的网络管理协议来进行操作,与用户的业务系统是完全隔离的,安全性比存在后门的插件方式要强很多。 移动互联网网脊运维通的操作,除了普通的 web 浏览器的工作方式外,手机 APP 的良好操作体验是比较重要的设计原则之一,我们将一些相对复杂的配置保留在 web 端,而查看、快捷远程操作等重要功能,我们在手机界面都很好地进行了拓展,用户可以很流畅地体验随身、随时对在线 IT 系统监控、快捷操作的易用、方便。 二级管理接口网脊运维通的业务推广模式主要依靠与具备相应实力的 IDC 运营合作伙伴共同拓展的方式来实现,运维通
10、设计了专门的合作伙伴二级管理接口,合作伙伴可以通过该管理界面实现:替换其专属 LOGO、广告,批量导入/ 修改/删除用户、充值/余额查询、客户专属服务工程师分配等功能。广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 6 of 18第三部分 运维通解决方案运维通是一个监控、运维门户,用户只需经过简单的注册后,就可以在线实现互联网 IT 资源的监控、故障报警、报表、ITIL 事件跟踪、一键通自动化运维等功能,同时具备,以保障客户互联网业务应用的可靠运行。现在很多国内的 IT 用户都在考虑如何把自己的业务部署到私有云或混合云环境中,以增强其业务的可扩充性及高可用性,从理论上来
11、说,云架构可以提供更高可用性的 IT 基础环境,但实际上云计算不是万能的,最近亚马逊及 Google 的多次重大云故障说明,云计算环境除了系统层面以上的应用软件问题,其更加复杂的架构及资源池算法等因素,都需要更专业的监控管理工具及具备云计算知识背景的运维人员才能很好胜任云平台的高可用运维,但一般企业显然不能把他的运维团队搬到运营商机房去,这时候,运维通就有了用武之地,下面简单介绍网脊运维通的主要特点:3.1 一键通功能运维通的一键通功能,主要实现的功能就是通过预先配置好的 IPMI 接口协议,实现类似远程 KVM 的一些功能,主要可以实现以下功能: 远程开、关机 - 可对远程托管的已经死机、蓝
12、屏的远端服务器,直接进行重启操作,无需 IDC 购买价格高昂的 PDU 设备,只需连接服务器主板上的 IPMI 接口,通过运维通软件就可以实现硬重启; 一键命令 - 对于常用的运维命令脚本,如:重启服务、重启进程等等,可预先设置好后,在手机 APP 上一键运行,当某个服务出现僵死,而自己不在电脑旁边时,这个功能就变的非常实用;手机上也具备完整的一键通功能,具体使用界面可见下图:广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 7 of 183.2 主机监控在线 SaaS 监控系统中,最重要的部分是服务器主机的监控,通过监控主机的主要可用性、性能、日志等指标,用户可以随时了
13、解和掌握放在远端数据中心机房的设备工作好坏,配合手机 APP 的及时推送信息,免除在 IDC 托管机房还需购置短信网关等问题,主机监控主要涉及的监控项目主要有: CPU/内存 - 这是非常基本的监控项目,运维通以仪表板的方式直观地展现 CPU、内存的消耗情况,让用户了解这一基本资源的消耗情况; 端口监控 - 与目前主流的云监控、SaaS 监控系统的总端口流量监控不同,运维通的端口监控可以任意定义物理或虚拟端口的监控,对于多台设备托管在 IDC,跑不同业务的用户该项功能非常实用,并且端口监控是以连续波形的方式展现,用户可以通过设定小时、日、周等方式变换视角。 进程监控 - 一般的云监控平台只可监
14、控总进程数,这个对于网管人员非常不实用,运维通可以选择任意进程来进行监控,也是以连续波形的方式来展现。 磁盘监控-以图像化的方式展现目前所设定的监控磁盘、分区的总容量、可用容量等磁盘信息。 服务监控-用户可设定被监控的任意服务端口,系统会自动监控其服务状态,如果端口 down 则为红色,正常则为绿色广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 8 of 18手机界面展示如下:广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 9 of 18广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 10 of 183.3 网站监控网站监
15、控也是 SaaS 监控中非常重要的部分,毕竟大部分的在线系统主要是各种网站,对于网站监控,网脊运维通可以从不同的监控点来监控被监控网站的延时响应时间,这对目前国内的网络环境还是有必要的,下图为网脊运维通网站监控实际的例子:3.4 自定义分组与拓扑图网脊运维通除了针对主机、网站等进行监控外,还允许用户对该对象进行自定义分组,并且通过类似 VISIO 的绘图功能来绘制自己的网络拓扑图,让用户非常直观地了解自己被监控设备的工作情况,广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 11 of 183.5 丰富的自定义报表功能网脊运维通的报表是可以按照用户的需求进行自定义配置,自
16、定义的规则可以监控的任意项目来进行设定,并可导出为 PDF 格式,具体设定项目见下图所示:广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 12 of 183.6 丰富的事件查询机制网脊运维通的事件机制比一般 SaaS 监控产品或云监控产品丰富,可按照系统的不同分类监控项目,如:主机、网站、磁盘、进程等等来进行分类查看,同时也可选择不同的时间区间来进行事件查看,支持信息内容检索、组件检索等等辅助功能,详细见下图:3.7 自定义阀值、报警网脊运维通的监控项目,主要是在线服务器的一些重要的可用性、性能、事件等监控指标,每个监控项目,用户都可以自定义触发报警的阀值、报警级别等相
17、关条件,做到事件、报警按照用户的意愿和需求来生成,免却大量无用报警、事件的烦恼。广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 13 of 18第四部分 部署方案网脊运维通的监控功能简单、实用,但考虑到是SaaS应用方式,故其部署相对普通的监控系统来说要庞大和复杂一些,运维通的架构其实是分为4个层面,收集器、交互层、管理服务器/数据库、前端负载均衡/web服务器。面向用户设备的是收集器,主要负责采集用户设备的snmp监控数据,通过IPMI/SSH/WMI等协议与设备进行互动,与收集器连接的中间层面为Radis和Memcache数据缓存及交互层面,该层面负责将收集器和管理
18、服务器之间的交互,保证收集器出问题后,管理服务器可以维持数据的完整性并把数据交互到其他收集器,管理服务器和数据库负责存储用户配置信息、业务数据,前端负载均衡/web服务器负责与用户GUI交互。4.1 部署方式运维通主要是为大量用户同时使用而设计,其部署相对普通的内部局域网运维监控产品有所不同,运维通的部署分为以下4个层面:1: 收集器收集器的部署,取决于监控用户的多少,一般按照每收集器监控500台主机左右来进行收集器部署,网络拓扑上,可采用双网口,与内部中间层面交互的接口用内部接口,速度快,网络环境封闭、安全,监控用户设备的接口使用外部接口。2: 配置服务器配置服务器的部署数量主要取决于收集器
19、的数量,一般按照30:1的数量来进行配比,配置服务器最好通过内部网络接口连接收集器,配置服务器无需外部接口,只需要连接收集器和数据库。3: 数据库数据库存放所有的监控策略、监控到的各种数据、用户信息等等,当用户量比较大的情况下建议采用集群的方式来部署,运维通采用的是mongoDB,其集群部署最少需要5台设备。4: nginx/web服务器由于用户量比较大,采用nginx来做web服务器的负债均衡,web服务器采用的是Django方式,网脊运维通的网页内容相对还是比较简明,2000用户左右用一台web服务器都没什么问题,当用户数突破这个限制比较多的情况,可以使用Nginx负载均衡来解决。网脊运维
20、通与被监控设备直接需要开通相关通信接口如下表所示。部署前需要测试各端口是否可以正常通信。运维通部署的相关协议端口如下:广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 14 of 18服务名称 端口 源地址 目的地址 备注SSH 22 收集器地址 公网被监控设备 远程命令等WMI 135 收集器地址 公网被监控设备 windows 命令等SNMP 161 收集器地址 公网被监控设备 监控数据web 服务 80/81 外部用户 web 服务器/nginx web 访问数据库 27017/27018 配置服务器/web 服务器 数据库集群 数据库服务memcached1121
21、11121211213web 服务器 配置服务器 缓存服务rpyc 12233 收集器地址 配置服务器 传输连接服务网脊运维通典型部署的拓扑图如下:广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 15 of 18第五部分 服务方案为了更好地在IDC及运营商合作伙伴推广网脊运维通解决方案,网脊公司将为合作伙伴提供运维通的实施、维护服务和二次开发服务。5.1 服务范围服务对象范围包括:1、合作伙伴的所有网脊运维通产品;2、服务期限:一年。5.2 故障级别问题级别 问题定义 处理时限一级故障 业务中断或半中断状态,已影响用户的正常使用现场服务,鉴于地域的因素,如果在非现场服务
22、时间内,工程师到达现场的时间为 2 小时内,并 4 小时内修复故障或采用省地各局同意的替代方案恢复业务,保证业务的正常运行和用户的正常使用二级故障 存在故障隐患,业务处理能力下降,并影响了用户业务的正常使用6 小时修复三级故障 对业务有轻微影响,但不影响业务运行和用户正常使用的问题12 小时内给予技术支持四级故障 不影响业务运行和用户使用的问题 24 小时内给予技术支持广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 16 of 185.3 工作内容5.3.1 日常支持1、在本次运维通的服务项目中,网脊工程师将为省地各局提供日常的支持服务,包括 7*24小时的电话热线服务
23、、邮件服务以及传真服务。支持的内容可以包括运维通的配置疑问,产品咨询等非监控系统故障的问题。2、客户服务经理根据需求提供服务计划,定期与省地各局沟通控制服务质量,并在服务实施中负责相关协调。5.3.2 现场服务工程师工作内容为省地各局提供每月二天的 58 驻场服务,由熟悉运维通产品和熟悉省地各局网络环境的现场工程师执行,现场工程师 1 人,按照省地各局公司考勤进行考核,驻场服务工作内容如下:1、 紧急故障处理2、 运维通变更支持3、 系统监控4、 运维通配置策略优化5、 运维通软件升级6、 运维通运维文档7、 培训服务5.4 日常工作内容详细说明5.4.1 日常服务省地各局服务需求1、需设置专
24、门的客户服务经理及专家支持团队,提供支持人员联系信息;2、客户服务经理根据需求需提供服务计划,定期与省地各局沟通控制服务质量,并在服务实施中负责相关协调。厂家提供 724小时服务热线,提供如下技术支持:1)、产品技术咨询;2)、故障申报及处理;广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 17 of 183)、培训需求受理;4)、系统功能实现方案设计;5)、提供对省地各局提供的所有服务的全程处理记录文档;6)、为省地各局提供技术支持问题知识库。服务说明 (1)客户服务经理及专家支持团队可详见 6.2 部分;(2)客户经理提供服务计划、定期沟通并协调相关事宜,在 6.2
25、 部分中已经包括;厂家承诺提供以下服务及支持:1)、产品技术咨询;2)、故障申报及处理;3)、培训需求受理;4)、系统功能实现方案设计;5)、提供对省地各局提供的所有服务的全程处理记录文档;6)、为省地各局提供技术支持问题知识库。5.4.2 客户服务经理及专家支持团队省地各局服务需求提供一对一客户服务经理及专家支持团队服务说明 (1)针对省地各局提供一对一服务的客户服务经理,省地各局对服务有了新的要求及需要改进的地方可直接联系客户服务经理,由客户服务经理做出统一安排。(2)作为运维通厂商,网脊能够为省地各局提供强大的专家支持队伍。5.5 运维通培训支持省地各局服务需求 提供运维通系统培训服务服务说明 (1)在省地各局存在运维通体系培训需求时,网脊将根据当月服务时间、服务内容以及培训人员能力水平协调提供。(2)当运维通系统出新的版本、功能模块、补丁版本时,网脊将对这些部分出具介绍邮件,在省地各局需要进一步了解得情况下,可安排培训。(3)当省地各局有新人到岗时,第一时间安排运维通基础培训。网脊运维通项目组广州网脊网络科技有限公司 版权所有 广州网脊网络科技有限公司 Page 18 of 182014年6月