1、qwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdf
2、ghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmrtyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwert
3、yuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmrtyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxc
4、vbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmrtyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasd
5、fghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmrtyuiopasdfghjklzxcvbnmqwer
6、tyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjk
7、lzxcvbnmrtyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuio
8、pasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmrtyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnm
9、qwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmrtyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghj
10、klzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmqwertyuiopasdfghjklzxcvbnmVCS 双机软件使用与维护VERITAS CLUSTER SERVER目 录第 1 章 原理篇 41.1 VCS 组成部分 41.1.1 Clusters(集群)
11、.41.1.2 Resources and Resource Types(资源和资源类型) .51.1.3 Agents(代理) 51.1.4 Service Groups(服务组 ).61.1.5 资源的依赖关系 61.1.6 资源组的依赖关系 .71.2 VCS 基本原理 .71.2.1 HAD 81.2.2 Group Membership Services/Atomic Broadcast (GAB)81.2.3 Low Latency Transport (LLT)9第 2 章 运维篇 102.1 VCS 运维规范 .102.1.1 操作系统维护规范 .102.1.2 应用软件维护规
12、范 .102.1.3 LVM 维护规范 112.1.4 VCS 脚本维护规范 .122.2 VCS 日常巡检和定期切换测试 122.2.1 日常巡检 122.2.2 定期切换测试 .122.3 VCS 运维注意事项 12第 3 章 操作篇 143.1 命令行管理 VCS143.1.1 如何重启主机 .143.1.2 启动 VCS.143.1.3 停止 VCS.143.1.4 如何查看 license key.143.1.5 如何添加 license key.143.1.6 检查 cluster 状态 153.1.7 启动服务组 .153.1.8 停止服务组 .153.1.9 切换服务组 .16
13、3.1.10 停止某个资源 .163.1.11 启动某个资源 .163.1.12 冻结资源组 .163.1.13 解除冻结资源组 .163.1.14 管理 VCS 配置文件 .163.1.15 LVMVG 资源 updatepv 173.1.16 Vg 增加、删除 lv.173.2 图形界面管理 VCS173.2.1 添加集群 183.2.2 连接集群 193.2.3 查看资源和资源组状态 .193.2.4 打开,关闭和保存 VCS 配置 .203.2.5 添加资源组 .213.2.6 添加资源 213.2.7 定义资源依赖关系 .243.2.8 管理资源组 .243.2.9 管理资源 25第
14、 4 章 常见 VCS 问题处理 .284.1 VCS 日志 .284.2 发现某个资源出错后清除错误 284.3 如果资源无法启动或停止需要 FLUSH状态 .29第 5 章 附录 VCS 常用命令 .30第 1 章 原理篇Symantec Cluster Server(Veritas Cluster Server)是业界领先的开放式系统集群解决方案,是消除计划内和计划外停机时间,简化服务器合并,并有效管理多平台环境内广泛应用的理想选择。1.1 VCS 组成部分本节描述了 VCS 配置中的每个主要部分。了解这些组成部分对理解 VCS 的原理来说非常重要。这些部分包括: Clusters(集群
15、) Resources and resource types(资源和资源类型) Agents(代理 ) Service Groups(服务组) Resource Dependencies(资源的依赖关系) Heartbeat(心跳)1.1.1 Clusters(集群)一个 VCS cluster 是由共享存储系统的多个主机系统组成的。VCS 监控和管理 cluster环境中的应用程序,并且可以针对硬件或软件的错误进行重启或切换。一个 cluster 被定义成拥有同样的 cluster-ID 和通过心跳网络连接的所有系统的总称。Clusters 可以由 1 到64 个主机系统或 “nodes”构
16、成。在 cluster 中的所有系统都了解其它系统的所有资源的状态。应用程序被配置成运行在 cluster 环境中的某个系统上。存储设备为 cluster 的应用程序存放共享数据。在一个 VCS cluster 环境中,所有的系统必须运行同样的操作系统体系。例如, Solaris cluster 环境只能有 Solaris 系统构成 , HP/UX ,Linux, AIX 和 NT/2000 的 cluster 环境也一样。但多种 cluster 都可以通过一个 VOM 或 Cluster Manager(Cluster Java 图形界面)来集中管理。VOM 允许通过 web 管理所有的 V
17、CS cluster, Cluster Manager 允许管理员通过一个图形界面来管理 Cluster。通用的图形界面和命令行接口使管理员管理任何系统的cluster 时都得心应手。1.1.2 Resources and Resource Types(资源和资源类型)资源是 VCS 控制下的硬件或软件的实体, 如磁盘, 网卡 (NICs), IP 地址, 应用程序,和数据库。控制资源指的是启动,停止和监控它的状态。资源根据类型分类,许多资源可以是同一种类型;例如, 两个磁盘资源都是磁盘类型。VCS 如何启动和停止资源主要是依照资源的类型。例如, mounting 启动一个文件系统资源, IP
18、 资源通过配置 IP 地址启动。监控一个资源即测试出该资源是启动的还是停止的。VCS 如何监控一个资源也是依赖与资源类型。例如,文件系统资源如果是 mounted 就表明在线, IP 资源如果配置过就是在线的。每个资源通过 cluster 中一个唯一的名字来标识。VCS 包括许多预先定于好的资源类型,对每个资源类型,VCS 有一个对应的代理。代理对资源类型提供了管理的方法。1.1.3 Agents(代理)每种 cluster 支持的资源类型都和代理相关。代理是用来控制一种资源类型的程序, 负责启动,停止和监控该中类型的资源。VERITAS Cluster Server neSQL Server
19、AgentOracleAgentCustomAgent?VCS 代理是 “multi threaded”。这意味着一个 VCS 代理监控一台机器上的相同资源类型的所有资源;如磁盘代理管理所有的磁盘资源。VCS 不论资源是否在线都进行监控。所以当 cluster 被启动时,VCS 启动所有配置资源的代理。如果 cluster 上没有一种资源类型的资源,代理就不会在任何一个系统上启动。例如在系统上没有配置过 Oracle 资源 ,Oracle 代理就不会启动。VCS 针对主流的应用程序提供了 agent,如果用户的程序没有相应的 agent,VCS 提供支持用户开放 agent 或使用 appli
20、cation 类型 agent,由用户提供start, stop,monitor 和 clean 脚本。1.1.4 Service Groups(服务组)一个服务组是一组可以协同工作对外提供服务的资源的集合。例如, web 应用程序的服务组包括: web 主页存放的 disk Groups disk group 上建立的卷, 使用卷的文件系统, 数据库, 对外提供服务的网卡(NIC), 绑定在网卡上的一个或多个 IP 地址, 应用程序。VCS 在服务组的级别对资源进行各种管理工作如启动,停止, 重起和监控。服务组的操作影响内部所有资源的操作。例如,当一个服务组启动, 这个服务组内的所有资源也被
21、启动。当 VCS 发生切换 ,资源不会单独切换,整个服务组是切换的基本单位。如果系统上还有其他服务组,一个服务组的切换不会影响其它服务组的继续正常工作。1.1.5 资源的依赖关系服务组定义中最重要的部分就是资源依赖关系的概念。资源依赖关系决定了在一个服务组启动和停止时启动和停止资源的一定顺序。例如, VxVM Disk Group 必须在 disk group 中的卷被启动前被 import 进来,卷必须在文件系统被 mount 前启动。同样, 文件系统必须在卷被停止前 umount,卷必须在 disk group 被 deport 前停止。可以根据资源的依赖关系画出图来。在 VCS 的术语中
22、,资源是 Parents 或 Children。Parent 资源出现在连接它们的 child 资源的上方。child 资源必须在 parent 资源之前启动,parent 资源必须在 child resources 停止前停止。资源必须依照它们的顺序。依赖图描述出整个依赖的关系。在上图中,上层(parent)的资源需要底层(child) 的资源。所以卷需要 disk group 启动, 文件系统需要卷被启动。应用程序需要两个独立的资源才能正常工作一个数据库和用于通信的 IP 地址。1.1.6 资源组的依赖关系类似于资源直接的依赖关系,也可以定义对外提供服务的资源组之间的关系。例如,需要先启动
23、数据库再启动 web 应用。DiskGroupVolumeFileSystemDatabaseNetwork CardIP AddressAppVolume requires DiskGroupApplication requires database and IP address1.2 VCS 基本原理VCS 的系统状态在各台系统间自动进行复制。这需要两种基本的信息:所有的系统都需要知道 cluster 中的所有成员和各成员上的资源状态。这需要 cluster 的所有系统中经常进行信息沟通。下图描述了 VCS 通信的基本结构。在每个 cluster 系统上 ,代理负责监控资源状态.代理将资源
24、的状态通知 High Availability Daemon (HAD). HAD 通过 Group Membership Services/Atomic Broadcast (GAB) 协议将资源的信息传播出去 . GAB 使用底层的 Low Latency Transport (LLT) 在各个系统间进行可靠的通信.说明:单节点 VCS 不需要 GAB 和 LLT1.2.1 HADHigh Availability Daemon, “HAD” 是每个系统上主要的 VCS 守护进程. HAD 收集资源运行的信息并将它传播到 cluster 中的所有系统。它也管理每种运行的 agent,每个
25、agent 管理一种资源。hadGABLTGABLThad agent agentagentagent agentagentNODE A NODE BAgent FrameworkAgent Framework1.2.2 Group Membership Services/Atomic Broadcast (GAB)Group Membership Services /Atomic Broadcast 协议简称 GAB 负责 Cluster 成员管理和 Cluster 状态通信。成员管理是指监控集群中的成员状态,并响应成员状态变化。cluster 状态通信是每个节点上资源的状态等。1.2.3
26、Low Latency Transport (LLT)LLT 提供快速,内核到内核的通信,并监控网络连接。使用 LLT 而不用 IP 减少了延迟和 IP 栈的高负荷,确保系统状态改变以最快的速度反应到其它机器。可以配置两种类型的 LLT,高频(专有) LLT 和低频 LLT,必要配置高频心跳,高频心跳使用专用网络。低频心跳,当所有高频心跳损坏有低频心跳接替,低频心跳可使用业务或管理网络。LLT 有主要功能: 心跳。LLT 负责在私网上发送和接收心跳信号,监控成员状态。 LLT 链路管理。 LLT 会在所有高频心跳网卡上传输心跳,并管理网卡的损坏。第 2 章 运维篇2.1 VCS 运维规范2.1
27、.1 操作系统维护规范1、 VCS 集群中的各节点必须是相同的操作系统类型;2、 VCS 集群中的各节点要保证相同的操作系统版本;如果要对操作系统升级或打补丁需要集群中的所有节点都要升级和打补丁,升级的方式可以选择滚动升级减少对业务影响;3、 对操作系统的变更(修改配置文件,修改参数等) ,需要同步到所有集群节点上;如修改/etc/hosts 解析,保证在集群切换时应用能正常运行;4、 操作系统的用户和组要保证一致,即相同的用户名和组名,相同的 uid 和 gid;5、 VCS 集群中的各节点推荐配置 NTP 时钟同步,保证各节点时间相同;6、 VCS 对操作系统版本有兼容要求,安装和升级操作
28、系统或 VCS 时需要先查看兼容列表;2.1.2 应用软件维护规范1、 VCS 对主流应用软件提供 agent 支持,如果要使用这些 agent,需要先确认应用软件版本和 VCS 版本兼容;2、 对于没有 agent 的应用软件,可以使用通用 application 类型 agent,由用户提供 start,stop,monitor 和 clean 脚本,关于这些脚本的要求和规范参考2.1.6;3、 加入 VCS 管理的应用要能保证在切换到集群另一个节后应用保证一致状态,为此所有应用程序运行中会变化的数据都应放在共享存储上,如数据库的数据文件等;4、 对于不会运行中变化的数据,如程序二进制文件
29、,部分配置文件等,可以放在各节点的本地,但用户要保证在变更时保持一致;如果要修改本地的程序文件,对应用打补丁升级等,需要在所有节点上保持同步;5、 应用软件加入 VCS 管理后,应该由 VCS 来负责应用的启动和停止;VCS 会调用agent 的启动或 start 脚本来启动应用程序,当应用出问题时,切换应用到备用服务器上;6、 避免直接在 VCS 之外停止应用程序,应使用 VCS 命令停止和启动应用,具体方法参见操作篇如何启动和停止资源;7、 如果需要临时对应用进行维护(如升级,打补丁,故障处理等) ,而此时不想VCS 对应用进行管理,可以临时冻结该应用所在资源组,维护完成后应及时解冻资源组
30、以让应用高可用,具体方法见操作篇冻结和解冻资源组;2.1.3 LVM 维护规范1、 保证磁盘在主备节点上都能识别到;2、 新创建的 vg 要在主备节点上都 import;3、 vg 的 major number 在主备节点上要相同;4、 加入 vcs 管理的 vg 应设置 auto_on 属性为 no,即避免 vg 自动激活;5、 当增加 VG 时,需要新建一个 LVMVG 类型的资源;6、 当扩容 vg,删除磁盘或更换磁盘是要对相应 vg 资源执行 updatepv 操作,方法见操作篇 updatepv;7、 当在主节点将 vg 增加、扩容、删除一个 lv 时,需要在备机进行 importv
31、g 操作,具体方法见操作篇 vg 增加、扩容、删除 lv;8、 vg 资源的 SyncODM 要设置为 1;9、 如果生产系统 VG 为两个阵列镜像,而容灾端只有一份镜像,importvg 和varyvg 需要强制才能成功,所以 vg 资源的 ImportvgOpt 设置为f,VaryonvgOpt 设置为 f;10、 加入 vcs 管理的文件系统,不要设置系统启动时自动 mount;11、 增加一个受 vcs 管理的文件系统,首先判断新增加的文件系统所属的卷是否是新建的 lv,如果是则先进行操作篇 vg 增加、删除 lv,然后再需要新建一个mount 资源;12、 如果在重新导入 VG 导致
32、 major number 变化,需要及时更新 VCS 配置;2.1.4 VCS 脚本维护规范1、 如果应用存在支持的 agent,推荐使用 agent 来管理应用资源;2、 application 资源类型需要提供应用程序的 start,stop,monitor 和 clean 脚本;3、 monitor 脚本返回值 110 表示正常,返回值 100 表示资源出错;4、 由于 monitor 脚本执行频率很高,默认 60s,脚本不能消耗很多系统资源也不能执行太长时间;5、 为保障在异常情况下能进行应用切换,需要提供 clean 脚本来强制关闭应用;2.2 VCS 日常巡检和定期切换测试2.2
33、.1 日常巡检1、 VCS 集群应配置告警监控;2、 除告警外,应定期对集群进行巡检;3、 日常的巡检可以通过 VOM 集中查看,也可以到每个主机上查看集群状态;2.2.2 定期切换测试1、 为保证业务的高可用性,保障故障时系统能正常切换,建议对资源组和主机进行定期切换测试,以检查可能存在的问题;2、 切换测试可以针对主机也可以针对资源组进行;3、 测试前应考虑可能存在的故障点,模拟切换场景;4、 切换测试中发现的问题要及时整改;2.3 VCS 运维注意事项1、 有三种 VCS 管理方法:a) 命令行b) Cluster Manager 图像界面管理c) VOM web 界面集中管理2、 纳入
34、 VCS 管理的资源的启动和停止,应该使用 VCS 来完成启动或停止。如果不使用 VCS 而是直接对资源进行启动或停止(如手动 umount 文件系统)会导致VCS 状态异常。3、 对 VCS 的管理要按特定的顺序:a) 启动或停止资源要按照资源间的依赖关系,按顺序启动或停止资源b) 启动或停止资源组要按照资源组间的依赖关系,按顺序启动或停止资源组4、 当需要打开 VCS 配置文件 main.cf 进行资源配置修改时,修改后要记得保存配置。特别是在图像界面操作时。第 3 章 操作篇3.1 命令行管理 VCS3.1.1 如何重启主机VCS 环境下要使用 shutdown Fr 命令来重启主机,不
35、能使用 reboot 命令。shutdown Fr 命令会执行/etc/rc.d 下的 K 脚本,会正常地停止 cluster 软件,而reboot 不会。3.1.2 启动 VCS正常情况下,VCS 会随系统自动启动。如果出于某些原因 VCS 没有启动,可以通过以下方法启动:# hastart注:该命令只会启动本机上的 had 进程;执行该命令前需先确认 llt 和 gab 已启动正常。3.1.3 停止 VCS正常情况下,正常的关闭系统会先停止 VCS。停止 VCS 前,应先停止 VCS 管理的资源组。可以选择停止本机的 VCS had 进程# hastop -local或者,停止整个集群#
36、hastop all3.1.4 如何查看 license key# vxlicrep3.1.5 如何添加 license key# vxlicinst可以在线添加,立刻生效3.1.6 检查 cluster 状态jxysdb1:/# hastatus -sum #查看总体的 cluster 状态- SYSTEM STATE- System State FrozenA jxysdb1 RUNNING 0A jxysdb2 RUNNING 0B ysdb_sg jxysdb1 Y N ONLINEB ysdb_sg jxysdb2 Y N ONLINEJxysdb1:/# hastatus #用于查
37、看动态的 cluster 信息attempting to connectconnectedgroup resource system message- - - -jxysdb1 RUNNINGjxysdb2 RUNNING-ysdb_sg jxysdb1 ONLINEysdb_sg jxysdb2 ONLINE3.1.7 启动服务组# hagrp -online -sys 执行后通过 hastatus 查看状态,参考 2.1.43.1.8 停止服务组# hagrp -offline -sys 执行后通过 hastatus 查看状态,参考 2.1.43.1.9 切换服务组这个操作相当于在一边停止
38、服务组,在另一边启动服务组# hagrp switch -to 执行后通过 hastatus 查看状态,参考 2.1.43.1.10 停止某个资源# hares offline -sys 执行后通过 hastatus 查看状态,参考 2.1.43.1.11 启动某个资源# hares online -sys 执行后通过 hastatus 查看状态,参考 2.1.43.1.12 冻结资源组当维护资源时,可以临时禁止 VCS 对资源组的监控# hagrp -freeze -persistent-persistent 表示永久冻结,即 VCS 重启后依然冻结。3.1.13 解除冻结资源组# hagr
39、p -unfreeze -persistent-persistent 表示永久冻结,即 VCS 重启后依然冻结。3.1.14 管理 VCS 配置文件VCS 集群的配置信息(集群,资源,资源组信息)保存在/etc/VRTSvcs/conf/config/main.cf 中。该文件文件可读,但不要手动修改。对 VCS 配置的修改都需要先打开该配置,命令如下:# haconf -makerw修改后,需要保存并关闭该配置# haconf -dump makero3.1.15 LVMVG 资源 updatepv当对 LVMVG 类型的资源对应 vg 进行添加 pv,删除 pv,更换硬盘是应执行updat
40、epv,保障备机切换时的一致;# hares action updatepv sys 为当前变更的主机;3.1.16 Vg 增加、删除 lv在主节点添加、扩容或删除 lv 操作后,进行如下操作将信息同步至另一个节点:在主节点释放 vg 锁#varyonvg -b -u VGHATEST2PRD01在备节点导入但不激活此 vg#importvg -V 59 -y VGHATEST2PRD01 -n hdiskpower11在主节点重新激活(锁定)此 vg#varyonvg VGHATEST2PRD013.2 图形界面管理 VCS2 种方法启动 cluster 的操作界面:1、 服务器上 xwin
41、dows 下可以使用 hagui2、 windows 下可以使用安装的 java cluster Manager两个界面一样。3.2.1 添加集群点击 File-Add Cluster,输入集群中任意节点的 ip 地址(VCS 必须已经启动才能连接)3.2.2 连接集群选择要连接的 cluster 主机,点击“click here to login”,默认用户密码为admin/password3.2.3 查看资源和资源组状态登录后左边导航栏,选择资源组,右边选择 status,可查看该资源组和资源的状态点击 Resource,可以查看资源的依赖关系和状态可看到整个 cluster 的状态,可以
42、看到哪个服务组在哪台主机上启动蓝色表明资源在线,灰色表示资源停止3.2.4 打开,关闭和保存 VCS 配置1、 任何对 VCS 配置的修改需要先打开配置文件,选择 Fileopen configuration。2、 修改后应记得保存,选择 Filesave configuration3、 保存后,可以关闭配置,防止意外改动,选择 Fileclose configuration3.2.5 添加资源组1、 任何对 VCS 配置的修改需要先打开配置文件,选择 Fileopen configuration。2、 选择 EditAdd Service Group3、 在弹出的窗口中输入资源组名称,选择添
43、加资源组所在主机,主节点选择Startup3.2.6 添加资源在导航栏选择相应资源组,选择 Edit Add Resource,在弹出的窗口中输入资源名称和资源属性,注意:1) 黑体属性为必需填写的;2) 对于资源问题后会触发资源组切换的资源,启用 Critical;3) 选择 Enable,VCS agent 即开始监控资源;1、 添加 VG 资源先获取 vg 名称和 MajorNumber(可通过 ls -l /dev/查看)2、 添加文件系统资源3、 添加网卡资源4、 添加 IP 资源5、 添加 Application 资源添加前需要在主备节点上准备好 start,stop,monito
44、r 和 clean 脚本,并已经过脚本正确性3.2.7 定义资源依赖关系选择左边导航栏资源组,右边选择 Resource,然后选择 Link选择资源后,再选择需要依赖的资源,即建立资源的依赖关系,如文件系统依赖于vg,则文件系统为 parent, vg 为 clild。3.2.8 管理资源组在服务组上点击右键可以进行 online(启动),offline(停止),switch( 切换),clear fault(清除错误), freeze(冻结 ),unfreeze(解冻),flush(hang 在启动或停止时清除状态)等3.2.9 管理资源选择资源上点击右键可以 online(启动),offl
45、ine(停止),clear fault(清除错误),enabled(启用 ),critical(重要资源,出错后会进行切换),delete(删除)。如果一个资源出错就会有红 X,可以选择 clear fault 清除错误如果问题已经修复,资源就会变正常第 4 章 常见 VCS 问题处理4.1 VCS 日志VCS 日志存放在: /var/VRTSvcs/log这些日志显示 VCS engine 和 agent 的日志。首先查看 HAD 日志 engine_A.log。例子:-rw-rw-rw- 1 root other 22122 Aug 29 08:03 Application_A.log-r
46、w-rw-rw- 1 root root 9559 Aug 15 13:02 DiskGroup_A.log-rw-rw-rw- 1 root other 296 Jul 17 17:55 DiskGroup_ipm_A.log-rw-rw-rw- 1 root root 746 Aug 17 16:27 FileOnOff_A.log-rw-rw-rw- 1 root root 609 Jun 19 18:55 IP_A.log-rw-rw-rw- 1 root root 1130 Jul 21 14:33 Mount_A.log-rw-rw-rw- 1 root other 5218 Ma
47、y 14 13:16 NFS_A.log-rw-rw-rw- 1 root root 7320 Aug 15 12:59 NIC_A.log-rw-rw-rw- 1 root other 1042266 Aug 23 10:46 Oracle_A.log-rw-rw-rw- 1 root root 149 Mar 20 13:10 Oracle_ipm_A.log-rw-rw-rw- 1 root other 238 Jun 1 13:07 Process_A.log-rw-rw-rw- 1 root other 2812 Mar 21 11:45 ServiceGroupHB_A.log-r
48、w-rw-rw- 1 root root 6438 Jun 19 18:55 Sqlnet_A.log-rw-rw-rw- 1 root root 145 Mar 20 13:10 Sqlnet_ipm_A.log-rw-r-r- 1 root other 16362650 Aug 31 08:58 engine_A.log-rw-r-r- 1 root other 313 Mar 20 13:11 hacf-err_A.log-rw-rw-rw- 1 root root 1615 Jun 29 16:30 hashadow-err_A.log-rw-r-r- 1 root other 2743342 Aug 1 17:12 hashadow_A.logdrwxrwxr-x 2 root sys 3072 Aug 27 12:41 tmp4.2 发现某个资源出错后清除错误如果资源出错(通过 Java Consle 看到资源红色 X) ,在确认问题修复的前提下可以清除错误:命令行方式:#hare