1、VMware 高可用性工具可以在虚拟化环境中消除所需的备用软硬件。VMware 高可用性常用于改善可靠性,降低整个虚拟环境的宕机时间,并改善灾难恢复和业务连续性系统。本章节摘录自 Elias Khnaser 的第二版 VCP4 考试指南:VMware 认证工程师,探讨 VMware高可用性的最佳实践。阅读以下摘录后,您还可以下载备份和高可靠性整篇章节。VMware 高可靠性主要处理 ESX/ESXi 主机以及其上运行的虚拟机的故障。高可用性同样可以通过检测 VMware 工具是否仍在运行监控并重启虚拟机。当 ESX/ESXi 出于某种缘故发生故障时,其上所有运行的虚拟机同样会出现故障。VMwa
2、re 高可用性确保虚拟机从故障的主机下线,并能够在其它 ESX/ESXi 主机上重新启动。许多人错误地将 VMware 高可用性和容错功能搞混淆。当主机发生故障时,VMware 高可用性并不是容错的。高可用性只是将那些虚拟机在其它具有足够资源的 ESX/ESXi 主机上重新启动。而对于容错而言,其在主机发生故障时提供了不间断的访问途径。VMware 高可用性通过一条心跳线在同一个集群组中的所有 ESX/ESXi 主机中维持一条通讯渠道,这种心跳线默认地在 vSphere 4.0 里每一秒钟,在 vSphere 4.1 里每十秒钟发送一个指令。当一个 ESX 主机错过了一个心跳指令,其余的主机会
3、等待该主机 15 秒钟内进行响应。15 秒后,集群系统会将该 ESX/ESXi 主机上的虚拟机在其它 ESX/ESXi 主机上重新启动。VMware 高可用性同样会持续地监控集群系统中的每个成员 ESX/ESXi 主机并确保有足够的剩余资源以便在任意一台主机故障后接管其工作。虚拟机故障监控虚拟机故障监控技术默认是关闭的。该功能通过心跳线每 20 秒钟问询虚拟机来进行监控。该功能需要借助于虚拟机中安装的 VMware 工具才能完成。每当一个虚拟机错过了一个心跳线,VMware 高可用性认为该虚拟机发生故障并尝试对其进行接管。因此可以将虚拟机故障监控看成上某种程度的虚拟机高可用性。虚拟机故障监控可
4、以诊断一个虚拟机是否被认为下电,挂起或迁移,从而确定是否需要尝试重新将其启动。VMware 高可用性配置条件高可用性要求在其正常工作之前需要确保以下配置条件:vCenter:由于 VMware 高可用性上一项企业级特性,其激活要求 vCenter。DNS 解析:所有在同一高可用性集群中的 ESX/ESXi 主机必须可以通过 DNS 解析其它主机。对于共享存储的访问:所有高可用性集群中的主机须对同一共享存储可以访问存取;否则,其便无法访问相应的虚拟机。对于共享网络的访问:所有 ESX/ESXi 主机必须配置相同的网络参数,以便于每个虚拟机可以从任意的主机上进行重新启动后,仍可访问原网络。服务控制
5、台冗余推荐使用冗余的服务控制台。在 VMware 高可用性检测出配置 vSwitch 服务控制台仅有一台时, 其会发送警告。如下图 1 所示,你可以有两种方式将服务控制台配置为冗余模式。创建 2 个服务控制台端口组,每个组配置不同的 vSwitch。以同一 NIC 组的方式分配 2 台物理网络接口卡作为服务控制台 vSwitch。图 1:冗余模式的服务控制台无论何种方式,你都必须配置整个 IP 堆栈,包括 IP 地址,子网和网关。服务控制台vSwitches 用于同步心跳和状态,其使用以下端口:Incoming TCP port 8042(TCP 进入端口 8042)Incoming UDP
6、port 8045(UDP 进入端口 8045)Outgoing TCP port 2050(TCP 输出端口 2050)Outgoing UDP port 2250(UDP 输出端口 2250)Incoming TCP port 80428045(TCP 进入端口 80428045)Incoming UDP port 80428045(UDP 进入端口 80428045)Outgoing TCP port 20502250(TCP 输出端口 20502250)Outgoing UDP port 20502250(UDP 输出端口 20502250)错误的配置冗余服务控制台会在你启用高可用性后
7、收到警告信息。因此,为避免看到此类错误信息并符合最佳实践,请配置冗余的服务控制台。主机故障切换容量计划当配置高可用性,你必须手动地配置最大主机容错范围。在这项工作中,你需要对你部署过程中的硬件环境和规划过程深思熟虑。可能看上去你已经在部署 ESX/ESXi 主机时预留了足够,以协调高可用性所需的资源。举例来说,下图 2,提示该高可用性集群配置了 4 个 ESX 主机,而且所有 4 个主机都有足够的资源来运行至少 3 个额外的虚拟机。图 2:高可用性容量规划在高可用性集群的配置阶段,你会看到如下图所示的界面,提示你定义以下两种集群组配置:主机监控状态:激活主机监控:该设置可以使你控制高可用性集群
8、是否通过心跳线监控主机。这种集群方式主要用于确定一台主机是否仍处于激活状态。在有些情况下,当你运行 ESX/ESXi主机上的维护作业时,可能有必要关闭这一选项以避免隔离某台主机。http:/进入控制开启:不能启动违反可用性约束条件的虚拟机:选择该选项表示如果没有资源可用于满足一个虚拟机的需要,该虚拟机无法开启。关闭:可以开启如何违反可用性约束条件的虚拟机:选择该选项表示可以开启任意虚拟机,即便有可能超过已有的资源情况。进入控制策略:主机故障的集群容错程度:该设置使你配置希望容错的故障主机数量。可设置的数量从 1 到 4。用于故障切换的集群空余资源预留百分比:该选项表示你预留整个集群资源的一部分用于故障切换。在一个 4 个主机的集群系统中,25%的预留表示你预留一整台主机用于故障切换。如果你希望预留更少的资源,你也可以选择集群资源的 10%。指定一台故障切换主机:选择该选项表示你选择一台特殊的主机作为整个集群系统的故障切换主机。这种使用环境可以是你又一台备用主机或某台特定的主机,上面有更多的计算和内存资源可用。图 3:高可用性集群组策略本文章由 51 知识库整理共享: http:/