1、Dell XC 超融合方案建议书Dell XC 超融合解决方案建议书目录1 项目背景 .31.1 需求调研 .31.1.1 客户现有环境调研 31.1.2 客户应用规划分析 31.2 DELL XC 超融合方案与传统架构的差别 .41.3 DELL XC 超融合与传统架构选择 .52 超融合方案设计 .62.1 设计原则 .62.2 架构设计 .72.3 方案描述 .82.3.1 计算资源 82.3.2 存储资源 102.3.3 网络要求 112.3.4 备份容灾 122.4 方案优势 .132.4.1 横向扩展优势 152.4.2 性能优势 162.4.3 可靠性 172.4.4 易于部署
2、182.4.5 集中管理 182.4.6 自动故障恢复 193 配置清单 .204 XC 招标配置参数参考 .204.1 DELL XC 硬件招标参数 204.2 XC630 招标参数设定-8 节点参考 245 DELL XC 全球及国内成功案例 .25Dell XC 超融合解决方案建议书1 项目背景为了满足未来业务发展的需要,有效地解决数据安全、集中管控、快速部署、跨平台访问、节能环保等问题,XXXX 用户已经开始关注通过虚拟化、分布式及超融合等互联网相关技术来解决现有数据中心的各种挑战,随着虚拟化及云计算的日益成熟,计划将其数据中心新业务系统运行在的基于互联网基因的超融合基础架构平台上。1
3、.1 需求调研1.1.1 客户现有环境调研XXXX 现有数据中心存在的挑战包括: 服务器数量众多,管理变得越来越复杂; 新业务系统上线周期长,部署慢; SAN/NAS 存储扩展性差,无法支撑新业务的性能需求; 新业务走向互联网化,传统架构无法实现线性扩展能力; 应用系统缺乏高可用性保护; 数据中心空间资源有限等。1.1.2 客户应用规划分析Dell XC 超融合解决方案将融合基础设施、横向扩展架构和软件定义存储的各种优势结合在一起,可提供极佳的数据中心虚拟化体验,而其成本仅为传统服务器和存储器的一小部分。每一台 XC 服务器均包含 CPU、内存、网络、SSD 或闪存、以及 HDD存储功能。XC
4、 存储控制器是一台虚拟机,运行于每台服务器上,可将本地存储转换成为共享存储。Dell XC 完整集群中的所有可用存储均作为单一的文件系统提供,称为XC 分布式文件系统。Dell XC 超融合解决方案建议书尽管没有专门的 SAN 或 NAS,Dell XC 仍然能够无缝提供高可用性、DRS 和容错等企业虚拟化功能。为了将性能最大化,XC 存储控制器将特定虚拟机的所有数据保存在同一服务器上,从而将时延最小化,而将 SSD 闪存的优势最大化。1.2 Dell XC超融合方案与传统架构的差别企业构建虚拟化基础架构时,通常采用的方式是使用服务器通过存储网络连接存储,这样的传统架构无法满足虚拟化环境不断变
5、化的需求。低效的网络存储成为最大的成本开销,并且它使得虚拟化架构更为复杂。对于相对静态的工作负载而言,基于网络的存储架构能够很好的满足需求。对于虚拟化环境而言,尤其是当融合前云计算正在日益普及,使得整个数据中心越来越动态,虚拟机的创建和迁移依赖于大量的共享资源。这些特征使得管理虚拟机及其底层的基础架构变得越来越复杂。由于创建虚拟机变得越来越容易,导致数据中心内部数据量快速增长。在企业内部,使用虚拟桌面替代原来的工作桌面越来越成为趋势。服务供应商需要帮助客户解决他们无力承担的虚拟化项目所带来的成本和管理上的额外开销。在传统的集中存储的架构上,虚拟机的蔓延带来了越来越多的成本、性能和管理压力。De
6、ll XC 超融合解决方案建议书1.3 Dell XC超融合与传统架构选择超融合基础架构(Hyper-Converged Infrastructure,或简称“HCI”)是指在同一套单元设备中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括备份软件、快照技术、重复数据删除、在线数据压缩等元素,而多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(scale-out ),形成统一的资源池。 HCI 是实现“软件定义数据中心”的终极技术途径。HCI 类似 Google、Facebook 等互联网数据中心的大规模基础架构模式,可以为数据中心带来最优的效率、灵活性、规模、成本和
7、数据保护。使用计算存储超融合的一体化平台,替代了传统的服务器加集中存储的架构,使得整个架构更清晰简单。下表列举了使用超融合架构(计算+存储)和传统数据中心三层架构(服务器+ 光纤交换机+ 存储)的对比:超融合架构 传统数据中心基础架构性能 尽可能提供本地吞吐,并使用 SSD保证应用 IO 需求。不存在性能瓶颈 随着访问集中存储的服务器越来越多,性能瓶颈将日益凸显横向扩展 可以简单的在集群中增加节点以扩展集群规模和性能 由于架构限制,无法实现横向扩展高可用性可以通过三副本的方式容忍最多两个节点同时故障,并且硬件故障时数据重建速度快,性能几乎不受影响通过 raid 技术实现高可用性,但面对硬件故障
8、时,性能下降严重。整合比 虚拟机密度高,是传统 2 倍以上 虚拟机密度低安装配置 开箱即用的部署方式,只需 30 分钟即可完成安装配置需要准备大量安装实施前的信息收集和整理工作,并且由专人进行安装部署,最少需要 2 天时间管理维护 统一 WEB 界面管理,维护方便无需配置 LUN、卷、Raid 组 需要专门存储管理软件,配置复杂。需要厂商支持。Dell XC 超融合解决方案建议书2 超融合方案设计新一代数据中心建设包含众多信息化应用的实施,与此相对应,机房服务器和存储设备也必将大量使用,并且随着后期应用扩充和服务扩容,服务器和存储设备的投入必然越来越庞大。一方面,管理硬件基础设施的压力和成本会
9、不断增大;另一方面,由于应用的多样性,服务器和存储难于有效整合,服务器的资源使用都远低于其实际的处理能力,计算能力和存储容量难以充分利用。实施虚拟化/云计算数据中心,可以有效整合服务器及存储资源,形成计算资源池,根据新一代数据中心各项应用的实际需要动态分配计算资源,最大效率的利用现有服务器及存储设备,并对数据中心硬件设备进行有效管理和监控。2.1 设计原则在方案设计中我们将遵循以下总体原则:以业务需求为导向技术架构最终是为业务服务的,因此技术架构的设计一定要以业务的需求为导向,充分考虑非功能需求,例如系统的重要程度、安全要求、业务连续性等。遵循互联网标准Dell XC 超融合解决方案建议书新业
10、务系统都是面向互联网和物联网业务,因此架构体系要遵循互联网数据中心设计和建设标准,吸收互联网架构的优势。提高资源利用率现已经部署了大量的服务器,资源使用率低是较突出的一个问题,因此在项目中,提高资源利用率成为一个重要的任务。动态扩展性在 IT 发展趋势中,动态基础架构已经成为 IT 基础架构的发展方向。使 IT 基础架构成为一个动态、灵活、具有弹性的 IT 基础架构,同时在 IT 实时地运营过程可进行灵活的资源动态调整。资源扩展要体现在计算资源和存储资源的同时扩展。分布式一切应用系统的高可用性是保障服务等级的重要因素,在架构设计中应该以软件定义为主,借助软件的分布式架构满足高可用性要求,实现系
11、统架构和平台架构的无单点故障、无单点瓶颈问题,保障新一代的业务系统健壮性。安全性在系统设计中,安全性是一个非常重要的问题。在架构中需要考虑到虚拟化架构内外部的安全,包括数据安全等问题,以保证整个系统长期安全稳定的运行。2.2 架构设计超融合架构在数据中心中承担着计算资源池和分布式存储资源池的作用,极大地简化了数据中心的基础架构,而且通过软件定义的计算资源虚拟化和分布式存储架构实现无单点故障、无单点瓶颈、弹性扩展、性能线性增长等能力;在虚拟化层可以自由选择 Hypervisor的品牌,包括 VMware vSphere、MicroSoft Hyper-v 和 KVM;而且通过简单、方便的管理界面
12、,实现对数据中心基础架构层的计算、存储、虚拟化等资源进行统一的监控、管理和运维。超融合基础架构形成的计算资源池和存储资源池直接可以被云计算平台进行调配,服务于 OpenStack、Cloud Foundry、Docker、Hadoop 等 IAAS、PAAS 平台,对上层的互联网Dell XC 超融合解决方案建议书及物联网业务等进行支撑。同时,分布式存储架构简化容灾方式,实现同城数据双活和异地容灾。现有的超融合基础架构可以延伸到公有云,可以轻松将私有云业务迁到公有云服务。2.3 方案描述2.3.1 计算资源基于 Dell XC 架构的模块化数据中心由 Dell 公司超融合一体机做为多节点组成的
13、。 Dell XC 超融合解决方案建议书图 2.2: XC Block (区块 ) 和 Node (节点 )XC 超融合解决方案的计算资源池是通过 Dell 久负盛名的 Power Edge 服务器虚拟化来实现的,可以支持 VMware vSphere、MicroSoft Hyper-v 及 Nutanix Acropolis 平台提供的 KVM等 Hypervisor,如图 2.3。在虚拟化 Hypervisor 层形成计算资源池,为业务系统的虚拟机提供不同的服务质量和能力,包括了高可用(High Availability)、容错(Fault Tolerant)、在线迁移(Live Migr
14、ation/vMotion)、资源动态负载均衡(Distributed Resource Scheduler)等虚拟化的特性。同时,XC 系列可以支持业务虚拟机在不同的 Hypervisor 之前进行迁移,也就是 V2V 的能力,例如从 vSphere 迁移到 KVM 等。Dell XC 超融合架构计算资源池Dell XC 超融合解决方案建议书2.3.2 存储资源XC 提供的分布式文件系统(NDFS)可以将一组集群内的节点组成一个统一的分布式存储平台。NDFS 对于 XC 虚拟化一体机而言就是一个集中的共享式存储,与任何其他集中式存储阵列一样工作,且提供更为简单便捷的存储管理,无需像传统集中存
15、储那样再配置 LUN、卷、或者 Raid 组。Dell XC 分布式存储架构不仅同样提供传统存储的能力外,还提供更多的能力。针对于虚拟化方面提供快照、克隆等机制,数据层实现本地优先访问、存储分层等性能机制,对数据进行压缩和去重提高存储可用容量,借助两份以上冗余数据提供存储的可靠性,增加或减少节点数据分布会自动平台,当节点宕机或磁盘损坏后具备数据自恢复能力等。XC 系列每个节点提供两种磁盘,标准配置为 2 块以上 SSD,可以灵活配置。4 块 SATA的 HDD 为基准配置,可以根据容量需求灵活配置。Dell XC 分布式存储系统逻辑架构XC 被设计成为非常动态的平台,可以适用于不同工作负载的应
16、用,并且允许混合节点类型:例如将计算密集型节点和存储密集型节点混合在一个集群中。对于集群内部磁盘容量大小不同的,确保数据一致的分布非常重要。XC 有自带的称为磁盘平衡的技术,用来确保数据一致的分布在集群内部各节点上。另外,XC 节点通过 ILM 实现 SSD 和 HDD 的数据热分层。简单而言,磁盘的热分层时实现在集群内所有节点的 SSD 和 HDD 上,并且由 ILM 负责触发数据在热分层之间的迁移。本地节点的 SSD 在热分层中是最高优先级的,负责所有本地虚拟机 IO 的读写操作。并且还可Dell XC 超融合解决方案建议书以使用集群内所有其他节点的 SSD,因为 SSD 层总是能提供最好
17、的读写性能,并且在混合存储环境中尤为重要。在超融合的虚拟化环境中,所有 IO 操作都将由本地 XC 节点上的 Controler VM(CVM)接管,以提供极高的性能。据以往经验及用户习惯分析,一般运行服务器虚拟化的虚拟机对IO 性能要求在 200-300 IOPS 左右,而单个 XC 节点可提供 25000 上的 IOPS,4 节点集群可提供将近 100,000 的 IOPS。完全可以满足需求。2.3.3 网络要求在计算虚拟化资源池中的每台虚拟化 Hypervisor 节点上会运行多台虚拟机,多台虚拟机之间共享网络,为了方便管理建议采用虚拟交换机来配置和管理网络,虚拟交换机可在数据中心级别提
18、供集中和聚合的虚拟网络,从而简化并增强虚拟机网络。在虚拟交换机的网络划分上,仍然可以采用 VLAN 的方式划分不同的子网,实现不同子网段的安全和隔离。在网络隔离上,也可以采用网络虚拟化 VXLAN 技术。VXLAN 网络协议,即 VLAN 协议的扩展版本。VXLAN 网络可以跨越物理边界,从而跨不连续的数据中心和集群来优化计算资源利用率。VXLAN 采用逻辑网络与物理拓扑相互分离,使用 IP 的技术,所以无需重新配置底层物理网络设备即可扩展 VXLAN 网络。正因如此,也就无需再花费大量时间来规划如何调配 VLAN 及管理 VLAN 数量剧增问题。在每个 XC 物理节点上有多种网络需求,包括管
19、内部通讯网络、管理网络、生产网络等,因此每个 XC 节点需配置多块网卡,网络设计建议如下:类型 设计 备注XC 物理节点之间的内部通讯网络10Gb 以太网双链路冗余每个节点通过两条万兆链路分别连接两台万兆交换机,保证网络设备和链路的冗余度。Dell 建议用户使用万兆网络互联物理节点,当发生密集的写 IO 时,万兆网络能保证提供足够带宽满足节点之间的 IO 同步流量。客户端与服务器虚拟机之间的通讯网络,虚拟化服务器对外服务网络1Gb/10Gb 以太网,双链路冗余每个节点通过两条千/万兆链路分别连接两台千 /万兆交换机,保证网络设备和链路的冗余度。用户访问虚拟服务器对外提供服务时,通过千/万兆链路
20、可以实现与后端存储流量隔离。Dell XC 超融合解决方案建议书硬件管理网络(IPMI)1Gb 以太网 每个节点都有独立的千兆链路,用于连接专门的管理网络,实现管理网络与业务网络、存储网络分离。可以最大限度保证管理的灵活性和安全性。2.3.4 备份容灾XC 平台自带的存储层面及基于虚拟机粒度的备份恢复功能 Time Stream。用户可以针对每个虚拟机设置不同的备份策略,包括备份计划和备份保留周期,Time Stream 会自动通过存储快照方式对虚拟机进行备份。所有 Time Stream 的快照均是基于存储层面的,与虚拟化层面(例如 VMware vSphere)的快照不同,存储层面的快照不
21、会影响虚拟机的性能,对于虚拟化软件是完全透明的。传统的备份方式通过网络传输备份数据,需要特定的备份窗口以免影响业务正常运行。Time Stream 备份可以与传统的备份策略互补,既能保证对于重要的虚拟机进行高频度备份又不会占用额外的网络带宽。例如: 对于普通虚拟机可以使用传统的备份方式每周进行全备,将备份数据保留在外部存储(例如磁带库中);同时使用 Time Stream 备份进行每天甚至每 12 小时的备份,数据直接保留在存储上以便快速恢复。 对于比较重要的虚拟机可以使用传统备份每周全备、每天增量的方式,将备份数据保留在外部存储(例如磁带库中);同时使用 Time Stream 备份进行每
22、2 小时甚至每小时的备份,数据直接保留在存储上以便快速恢复。 可以采用 vSphere Data Protection Advanced(简称 VDPA,只针对 vSphere)、Commvault(VMware 和 Hyper-v)、Weeam(vSphere 和 Hyper-v)等虚拟化备份解决方案作为有效补充。Dell XC 超融合解决方案建议书XC 容灾功能,分为两个级别:Metro Availability 和 Remote Replication。都是基于虚拟机快照的方式将更新数据异步复制到远程的 XC 集群中。Metro Availability 可以实现同城双数据中心之间的 R
23、PO 接近于“零”(需要裸光纤支持),即便是标准 Remote Replication 也能实现 RPO 为 1 小时(基于网络带宽和更新数据量),满足绝大多数异地容灾的业务需求。XC容灾支持双向、一对多、多对一各种不同的复制模式。并且可以通过 XC 自带的管理界面激活容灾中心的虚拟机进行容灾演练。不再需要额外繁琐的灾难恢复计划,基于鼠标点击即可完成容灾切换。使用 Dell XC 超融合解决方案可以在项目初始即确定今后的容灾规划,而无需在今后专门立项重复设计整体容灾架构。依据用户规模和分支机构数量,通过简单灵活的软件配置,将已有分支机构的虚拟化环境远程容灾到总部数据中心,逐步形成星型的容灾架构
24、。2.4 方案优势使用 Dell XC 虚拟化基础架构,在保证用户数据的高速访问和高可靠性同时,不再需要传统的集中式存储架构,避免在今后运行过程中出现设计初期忽视的性能问题。Dell XC 超融合解决方案建议书按照服务器和存储使用现状,建议使用 Dell XC 来支撑现有应用。在今后随着业务发展,可以方便的按照节点进行扩容,避免建设初期一次性投资过大,后期却发现性能问题,需要追加投资的问题出现。Dell XC 是部署广泛、值得信赖的虚拟化基础架构平台。Dell XC 适用于最重要的国防、医疗、教育等领域,可为数据中心虚拟化带来横向扩展架构、高可用性和可靠性等优势。研究显示,并非所有的企业数据中
25、心项目真正做到了全面部署,很大一部分项目通常因为基础设施的成本不断攀升而束之高阁。传统服务器和存储阵列扩展成为企业数据中心项目成本高昂、过程复杂并且难于实施的主要因素。从诸多数据中心项目实施来看,在企业环境中,性能、可靠性、可扩展性是关键,因为最终用户体验直接来自于基础设施的高性能和高可靠性。Dell XC 将融合基础设施、横向扩展架构和软件定义存储的各种优势结合在一起,可提供极佳的数据中心虚拟化体验,而其成本仅为传统服务器和存储器的一小部分。XC 完整集群是一种能够横向扩展的计算和存储基础设施,它使各组织机构无需存储网络(SAN 或 NAS)即可实现数据中心虚拟化。XC 专门为虚拟化而设计,
26、能够提供全面的计算和存储能力,以及企业级的性能、可扩展性、可用性和数据管理功能。它采用英特尔芯片、固态硬盘等符合行业标准的硬件组件,以及市场领先的高级管理程序,以便提供开箱即用的解决方案,让数据中心虚拟化变得极其简单有效。1)互联网架构的分布式计算Dell XC 架构与 Google 的架构相类似,是一种可以横向扩展的计算存储融合的基础架构,消除了对于集中式存储对于网络的依赖。并且在基于 Google 的架构之上,提供了适合企业环境的解决方案。GFS 是一种特定的解决方案为 Google 内部的应用所使用(例如 Gmail),而 Dell XC 提供的是一种通用的虚拟化环境解决方案。另外,De
27、ll XC 有更好的横向扩展能力,提供更好的企业级数据管理特性,通常这些特性需要额外的网络或者存储硬件才能实现,例如,高可用性、备份、快照、灾难恢复等。2) 专为虚拟化设计Dell XC 是针对虚拟化环境而设计的,因此可以很好的支持虚拟化环境中基于传统存储架构所实现的功能,包括虚拟机的热迁移和高可用性等。XC 架构是虚拟机感知型的,它克服Dell XC 超融合解决方案建议书可传统架构下解决方案的一些弊端,例如,当一个存储设备(LUN)共享所有虚拟机使用时,很难使用在存储上使用基于虚拟机的备份、复制和快照功能,并且当架构越来越复杂时,很难诊断性能瓶颈, 而 XC 这种架构克服了这些限制。3) 存
28、储分层优势XC 架构充分发挥了存储分层的 SSD 固态硬盘的优势,由于传统存储都是针对机械硬盘而设计的,而传统的机械硬盘与 SSD 硬盘的数据访问方式完全不同,机械硬盘需要旋转和寻道,而 SSD 硬盘则完全没有这些限制,因此不能指望针对机械硬盘设计的存储软件能充分发挥 SSD 硬盘的性能优势。XC 架构使用 SSD 来保存大量经常访问的数据,从虚拟机的元数据到业务数据都保存在分布式 Cache 中已提供极高的 IO 性能,并且保存在持久化的存储中以便于存取。XC 超融合一体机极高的 IO 吞吐性能是得益于使用 SSD 磁盘,包括: 保留 SSD 用于 IO 敏感的操作; 包含空间节省的技术,允
29、许大量的逻辑数据被存储在一个小的物理空间中; 自动迁移“冷”数据(或者不常访问的数据)到大容量 SATA 硬盘中,并且允许管理员指定低优先级的虚拟机不使用 SSD 磁盘。2.4.1 横向扩展优势XC 超融合解决方案给虚拟化环境带来的重要差异化因素之一就是,基础设施在进行扩展时其性能仍然保持不变。在 XC 架构中,在每个 XC 物理节点本地都运行一个虚拟存储控制虚机(CVM)。 CVM 负责本地所有其他虚拟机的 IO 操作。当集群扩展时,新增加节点的同时也新增了 CVM,保证了整个集群性能的横向扩展。与传统集中存储不同,传统架构下集中存储只有两个存储控制器,在集群扩展时,存储控制器无法进行有效的
30、扩展,从而必然成为整个架构的瓶颈。参考图 2.4 说明了 Dell XC 的横向扩展架构的优势。为了展示这种能力,Dell 在国内实施过一个巨型的 VDI 项目,模拟桌面启动风暴,并且当基础设施从 300 台桌面扩展到 3000 台时,其性能从最终用户体验的角度来看保持了一致。在大多数传统的存储环境中,最佳性能仅出现在第一天,因为应用程序或工作负载越来越多,导致性能随着时间的推移不断下降,直至需要进行叉车式升级,采用全新的存储阵列。Dell XC 超融合解决方案建议书下图说明了从 300 台桌面扩展到 3000 台时,应用响应时间保持不变:图 2.8 XC 不同 VDI 数量下的相应时间2.4
31、.2 性能优势Dell XC 超融合解决方案在数据中心虚拟化环境中的主要优势之一就是性能,而性能优势是通过传统的服务器和存储架构实现的。在传统的架构中,时延是因为每次访问存储都需要通过网络而造成的。通过 NFS 和 iSCSI 等协议提供存储本身没有问题,但网络会增加时延。Dell XC 超融合解决方案可提供 NFS 协议的优势及其易用性,而通过所谓的“无网络 NFS”消除了网络时延。XC 分布式文件系统直接对虚拟机进行检测,然后将特定虚拟机的所有数据存放到本地物理服务器上。因此,虚拟机不是通过网络、而是通过高速内部总线访问其数据。并且所有节点标配 SSD 磁盘,提供极高的 IOPS 以满足虚
32、拟化环境各种类型应用需求,无论是虚拟桌面还是服务器虚拟化场景。更为重要的是,每个节点的 SSD 磁盘并非有每个节点单独使用,而是在整个集群范围内作为一个整体使用。言下之意,不会由于单个节点本地的 SSD 耗尽而导致其性能急剧下降。当出现这种极端情况时,节点会使用集群中其他节点的 SSD 空间。因为即使跨网络访问其他节点 SSD 磁盘也会比访问本地 SATA 磁盘快很多。因此极端最差情况时性能也与使用传统集中存储架构时服务器通过网络访问数据的场景相当。其实不会出现这种极端情况,因为当SSD 利用率超过一定阈值后,XC 的 CVM 会自动发现并将最少访问的数据从 SSD 迁移到 SATA上,以保证
33、 SSD 有足够容量满足突发的 IO 请求。这一自动热分层技术对虚拟化主机而言完全透明。用户无需关心数据保存在哪里,这完全由 CVM 依据数据访问频度而自动调度。相对应用性能虚拟桌面数量与应用响应时间Dell XC 超融合解决方案建议书2.4.3 可靠性XC 平台使用复制因子(RF - Replication Factor)和校验和(checksum)来保证当节点或者磁盘失效时,数据的冗余度和可用性。当数据写入 SSD 时,会被“同步”复制到另 1 个或者 2 个 XC CVM 的 SSD 之中(依赖 RF 设置为 2 或者 3),当这个操作完成之后,此次写操作才被确认(Ack)。这样能确保数
34、据至少存在于 2 个或者 3 个独立的节点上,保证数据的冗余度。所有 XC 节点都参与数据的复制操作,这样能消除“热点节点”,并保证线性的性能扩展。当数据被写入时,同时计算该数据块的校验和,并且作为数据块元数据中的一部分进行存储。随后数据块在保证满足 RF 的前提下,被“ 异步”推送到 HDD 中。当发生节点或者磁盘失效,数据块会重新在所有节点间进行复制以满足复制因子的设置。任何时候,读取数据块并同时计算其校验和以确保数据块有效。当数据块检查结果不匹配校验和时,副本数据将会覆盖该无效数据块。在 XC 分布式文件系统中(NDFS) ,我们使用了一些关键技术来确保:数据在 100%时间内都是可用的
35、(即“强一致性” ) ,并且保证 NDFS 扩展到超大规模数据量时依然可靠。这就是文件系统元数据强一致性的 Paxos 算法 1。NDFS 使用一种“环状”的 Key-Value 结构的分布式数据库来保存重要的元数据。为了确保元数据的可用性和冗余度,也同样引入了复制因子(RF) 。一旦一条 Metadata 记录被写或者更新后,这条记录将同时写到 “环”中的另一个节点,然后被复制到 n 个其他节点(n 决定与集群的大小) 。集群中大多数(majority)节点必须同意才能 commit 一条记录,这就是强一致性的 Paxos 算法。这确保了 Dell XC 平台数据的“可靠性” 。2.4.4
36、易于部署Dell XC 开箱即用的部署方式,可以免去传统集中存储环境下存储的规划、连接、配置Dell 等复杂的管理操作,无需再配置 Raid 组、LUN 、卷等。新设备安装上架后只需要约 20分钟即可完成初始化配置,用户可以马上开始部署应用虚拟机。Dell XC 超融合解决方案建议书XC 集群的扩展也非常方便,通过鼠标点击即可扫描并自动发现新安装的节点,按照提示完成 IP 地址配置之后,新节点即完成加入集群操作,新增资源也自动纳入资源池统一调度管理。2.4.5 集中管理通过 XC 的 Prism 界面实现所有基础架构的管理操作,包括健康检查、物理机管理、虚拟机管理、存储管理、数据保护、告警监控
37、、报表分析等内容。用户不再需要通过不同界面进行各种管理任务,所有任务都在同一个界面中完成,极大减少的管理复杂程度。并且可以通过设置不同权限的用户,支持 AD 整合,将域用户和角色对应到 XC 的用户和组,从而实现分级的运维管理。图 2.9 XC 统一管理界面 Prism所有物理和虚拟管理对象均提供详细的性能采集数据,包括 CPU、内存、磁盘容量、IOPS、吞吐、读写延迟等指标,不再依赖于专用的监控工具和复杂的监控脚本。自定义的报表工具可以灵活的将将不同监控项进行组合和展示,减少日常维护的工作量。Dell XC 超融合解决方案建议书XC 自定义监控指标另外,XC 还提供 Prism Centra
38、l 的管理组件,可以将多个 Prism 管理界面集中管理,不仅可以节省管理员在多个集群之间切换的繁琐动作,更能够将多个集群的状态数据进行汇总,可以方便管理员快速定位当前整个 IT 架构中是否存在热点主机或者热点虚拟机,特别有利于简化大规模 IT 架构、或者多站点场景下的日常管理任务。2.4.6 自动故障恢复XC 抛弃了传统的 Raid 机制来保护硬件失效,采用全新的复制因子和校验和技术来保证当节点或者磁盘失效时,数据的冗余度和可用性(参见章节 2.5.4 可靠性)。当发生单点磁盘甚至是单个节点故障时,XC 集群将自动发现这一故障,并立刻在后台开始数据重建工作。整个重建过程非常简单,假设复制因子
39、是 2,系统会自动发现只有 1 份副本的数据块,并将其在另一个节点上复制第 2 份副本即可。最重要的是,这个数据重建过程是基于 MapReduce的分布式框架实现的,集群中所有节点的 CVM 都可参与数据重建工作,并且依据负载情况动态调配,因此重建工作不会影响系统性能。与传统的 Raid 数据重建不同的是, Raid 重建过程会极大影响磁盘的正常操作,导致整个系统性能降级,并且由于磁盘容量越来越大,整个重建过程也将耗费更长时间,甚至超过20 小时。Dell XC 超融合解决方案建议书另外,XC 独有的 Availability Domain 技术更能预防单个机箱(即整个 Block)失效时数据
40、依然可以访问,实现原理即当用户环境中有超过 3 个 block,并且配置相近的节点数量时,XC CVM 会自动将原始数据块和副本数据块放在不同的 Block 中的两个节点上(缺省 RF=2 时,数据只是随机放在两个不同的节点上,有可能这两个节点位于同一个 Block 中)。当发生机箱故障时,由于数据副本在机箱之外,因此数据依然可用,Availability Domain 可以提供更高等级的数据冗余度。3 配置清单方案建议的详细软配置清单(XC630 举例):XC-630 节点系列配置 数量XC-630 3 节点每节点配置:CPU:2 颗 16 核 E5-2630v3 2.4GHzMEM: 25
41、6GB (16 x 16GB)SSD:2 块 200GBHDD: 4 块 2TB SATANETWORK:4 个 10Gb 电口分布式存储大数据分析平台等方案配置容量和能力:目前存储总容量可达 XX TB,分布式存储吞吐量达 XX IOPS 以上,支持虚拟机数量达 XX个 VM 以上。4 XC招标配置参数参考4.1 Dell XC硬件招标参数Dell XC 超融合解决方案建议书1融合架构服务器1系统架构:模块化的“云服务器节点”设备,采用横向扩展的体系结构;在一个资源池内,支持横向扩展(Scale-out);分布式架构,所有节点的空间能无缝融合为一个存储池;支持在线扩容512个物理节点。提供至
42、少一个超过500个物理节点成功案例;无主次节点之分,无计算,存储节点之分。2冗余性:架构内全局的N+1 冗余性,在某硬件出问题时,能够进行自动切换;所有数据至少同时存储2 份,分散在多个节点上,没有单点故障。3硬件配置:配置12个核心,主频2.4GHz 的Intel Xeon处理器;配置2个200GB SSD硬盘,和4TB NL-SAS硬盘;配置128GB 内存(单条内存16GB),要求自带 ECC 校验功能;每个节点配置2 个10Gb 和2 个1Gb 以太网端口,并有1 个10/100M IPMI 管理端口;4.虚拟控制器:每节点内置1个虚拟控制器,预装完全分布式文件系统。要求该分布式文件系
43、统以虚拟机(而非以程序或组件嵌入式)的方式部署于虚拟化平台(ESXi、Hyper-V、KVM)之中,从而避免某一虚拟化平台对其的“捆绑”。并可基于此“虚拟控制器”实现:集群智能管理功能,压缩,消重及精简资源功能,远程数据保护功能,自动存储分层功能等,以上功能无需额外付费。每个节点的虚拟控制器,以虚机的形式建立在虚拟化操作系统中,即以纯软件的方式管理整个集群,在管理集群方面无需依赖任何硬件。5.分布式数据存储:集成无RAID方式的分布式数据存储方式,内置算法将数据分块,分布式冗余存储在各个节点的多块硬盘上,以提升数据可用性;且具有自我修复能力,即允许单节点出现故障后,15-20min 内将数据恢
44、复至容错状态。此时,即使第二个节点故障,亦不影响系统使用;6.数据读写:为更好地提升系统性能,所有数据的读写优先在本地节点进行,当本地节点的容量不能满足时,再跨节点读写。7.集群智能管理3节点以上套Dell XC 超融合解决方案建议书安装部署简便,初始化耗时不超过30分钟。支持不同型号、不同年代的计算存储一体设备的混用,真正实现按需购买,保护用户投资。配置基于WEB 的管理软件许可,在单一WEB 管理界面实现计算及存储资源的管理和监控,能看到所有虚拟机磁盘文件IO性能和整个集群中CPU、内存使用情况;无需额外在服务器上安装管理软件;并能提供实时及历史效能监控及容量趋势分析之管理功能, 可以通过
45、标准SNMP接口实现和现有监控系统的整合,并且支持多种告警方式,包括邮件告警等;提供REST API接口方便进行定制开发和第三方接口。8.压缩,消重及精简资源功能:支持数据块的压缩,消重及Thin Provisioning,功能,提高存储空间利用率。支持在线和MapReduce两种压缩和消重机制。支持通过纠删码(EC-X: Erasure Coding)实现可用容量优化功能,最高可将存储可用容量提高至裸容量的75%。9.虚拟化软件集成与虚拟化操作系统集成,出厂前预装虚拟化软件,到用户现场可开箱即用。可自动发现在虚拟化软件管理的所有虚拟机,提供端到端的虚拟到物理的管理信息;支持虚拟桌面中的链接克
46、隆;产品取得了3 大主流虚拟化软件厂商(微软、思杰、VMware)中至少1 家的兼容性认证,在虚拟化软件厂商的官网可查,提供截图并加盖投标人公章。支持影子克隆技术优化桌面虚拟化的性能,降低启动风暴时间达50%。10.多路径功能内置存储多路径管理功能,提供节点间数据传输多路径的功能。11.自动存储分层功能内置自动存储分层功能,通过算法采样数据I/O 负载情况(采样时间间隔不大于1 小时),能让数据在不同性能的磁盘(SSD、SATA)之间进行自动迁移,迁移过程对上层虚拟机和应用透明,无需停机;且要求数Dell XC 超融合解决方案建议书据迁移是实时的,无需人为设置时间窗口,且要求通过此功能将Hot
47、 数据自动迁移至SSD,以此大幅提升IO 性能;支持将对性能要求高的虚机直接固定再闪存层运行,确保核心业务的高IPOS和低延时性能要求。12.本地和远程数据保护功能在存储层面提供基于虚拟机磁盘粒度的快照,并且具备自动快照管理功能,可以定制时间间隔自动拍摄快照,并且自定义保存最新的多个快照。支持1对1、1对多、多对1、多对多等远程数据复制功能,保证存储间数据一致性;配置远程容灾软件,实现集群间的容灾,支持同步复制,异步复制和延伸集群(stretched clusters)功能。支持与AWS和Azure公有云的集成,支持将工作负载按照策略自动备份到AWS和Azure公有云。支持虚机用户从Web管理
48、界面自助从虚机备份中恢复单个文件,且不需要系统管理员协助。13.系统扩容和升级能力通过点击鼠标自动发现新增节点,自动将新节点加入现有存储集群,实现集群无缝扩展,不中断业务正常运行。可以平滑扩展到几十甚至上百个节点,为用户实现真正大规模部署。支持一键升级超融合软件平台,虚拟化管理软件,SSD和磁盘固件等,升级过程对业务透明,系统完全在线,不停机。14.性能数据采集和分析缺省保留整个集群的性能数据,便于进行性能问题诊断和报表;提供灵活的性能报表展示,粒度达到每个独立的物理磁盘、网卡、虚拟机、主机等。15.自动故障切换提供故障切换能力,当组件自身故障或者需要进行补丁更新时,不影响整个集群正常运行,保
49、证业务连续性。16.机箱和电源节点采用工业标准的模块化设计,可安装于标准机柜中。每个物理节点Dell XC 超融合解决方案建议书4.2 XC630招标参数设定-8节点参考Dell XC 630招标参数技术指标 技术要求模块化的“云服务器节点”设备,采用横向扩展的体系结构;在一个资源池内,支持横向扩展(Scale-out),无节点扩展上限;分布式架构,所有节点的空间能无缝融合为一个存储池;支持在线扩容256个物理节点。系统架构无主次节点之分,无计算,存储节点之分。冗余性 架构内全局的N+1 冗余性,在某硬件出问题时,能够进行自动切换;所有数据至少同时存储2 份,分散在多个节点上,没有单点故障。本次初始配置8个物理节点。每个节点配置12个核心,主频2.4GHz 的Intel Xeon处理器;每节点配置2个200GB SSD(MLC)硬盘,和4TB NL-SAS硬盘;每节点配置128GB 内存(单条内存16GB),要求自带 ECC 校验功能;节点每个节点配置2 个10Gb 和2 个1Gb 以太网端口,并有1 个10/100M IPMI 管理端口;每节点内置1个虚拟控制器,预装完全分布式文件系统。要求该分布式文件系统以虚拟机(而非以程序或组件嵌入式)的方式部署于虚拟化平台(ESXi、Hyper-V、KVM)之