收藏 分享(赏)

软件定义存储SDS.doc

上传人:weiwoduzun 文档编号:2857009 上传时间:2018-09-28 格式:DOC 页数:28 大小:2.85MB
下载 相关 举报
软件定义存储SDS.doc_第1页
第1页 / 共28页
软件定义存储SDS.doc_第2页
第2页 / 共28页
软件定义存储SDS.doc_第3页
第3页 / 共28页
软件定义存储SDS.doc_第4页
第4页 / 共28页
软件定义存储SDS.doc_第5页
第5页 / 共28页
点击查看更多>>
资源描述

1、软件定义存储 SDS摘要:软件定义存储, Software Defined Storage。出现背景:应对数据暴增, 成本降低到普通机架式服务器硬盘的价位, 兼容各种硬件的开放性 , 可在线横向扩展; 哪些新的技术显著地改变了存储架构: SSD, SDS, CPU 多核技术, 高速网络, 大容量服务器和磁盘, 多副本存储方式。最近两、三年,在 IT 圈里,除了云计算、大数据、人工智能之外,最火的就属“软件定义”了,先是有软件定义网络 (SDN,Software Defined Networking),继而有软件定义数据中心(SDDC, SoftwareDefined Data Center)和

2、软件定义存储(SDS, Software Defined Storage)。转载自百度百家或微信公众号 - 乐生活与爱 IT。1. 为何出现软件定义存储?1.1 为何出现软件定义存储?人类各项发明、创新,大多都是为了更加的高效、方便、灵活,并且节省成本。例如,从种植业、畜牧业的出现,到蒸汽机的发明,到自来水、集中供电的出现,再到互联网的出现(信息传递更快更高效,更省成本) ,无一不是如此。IT 也不例外,以企业级存储为例,近 10 年来逐渐出现的自动分级、去重、压缩也是为了更高效地使用存储资源,更节省成本。而最近两三年,软件定义存储的出现,依然是为了这个需求。伴随着需求,还有两大背景:一是,随

3、着个性化、物联网、万联网的发展,数据以前所未有的速度迅猛增长,数据的存放、管理、优化、利用成为难题,用户面临着如下挑战:存储利用率低,数据僵化在某些硬件组件里,难以提供随需动态变化的服务等级,缺乏精确的控制,部署和调整存储资源需要经过复杂的流程(例如需要应用管理员与存储管理员等进行协调) ,自动化程度低,对请求的响应慢,。二是,虚拟化、云计算和硬件技术的发展,使得软件定义成为可能;在此之前,存储用户也希望更加高效、简单、灵活,且成本较低,但十年前,SSD 和高速网络尚未出现或发展不够,分布式存储难以堪当重任;彼时虚拟化云计算还未出现或者尚未成熟,从存储中调用控制信息给前端应用或 OS 使用,去

4、实现灵活敏捷的存储资源的部署,在那时还不是那么迫切。随着虚拟化和云计算的普及,用户的思维方式也发生了转变,逐渐意识到,快速、敏捷、灵活地获取计算资源已经成为可能,并且逐渐要求能按需使用,按需付费。因此,做为虚拟化和云计算里重要的组成部分,存储也应适应新的需求而不断完善。下面围绕这这两大背景展开阐述:我们先来看一下,在物联网、万联网(IoT, Internet of Things)的伴随下,未来数字宇宙的惊人变化。我们知道:KB= 210 x Byte ;MB=210 x KB ;GB=210 x MB ;TB=210 x GB ;PB=210 x TB ;EB=210 x PB ;ZB=210

5、 x EB ;IDC 在 2012 年预计,到 2020 年数字宇宙规模将超出其在 2011 年的预期,达到 40 ZB, 40 ZB 到底有多大呢?假设地球人口按照 73 亿计算,40ZB 相当于地球上人均 5600 GB 以上的数据。2014 年 4 月,IDC 发现数据的增长超过其在 2012 年的预期,预计 2020 年将达 44ZB 的数据量,比 2012 年的预估增加了 10%。有趣的是,在整个全球的数字宇宙中,2017 年新兴市场(Emerging Markets)的数据所占全球数据的百分比,将首次超过成熟市场(Mature Markets,也即指发达国家和地区)。预计,2014

6、2020 的 6 年里,IT 从业人员仅仅增长到 1.285 倍。平均每个 IT 人员管理的数据量从 230GB 增加到 1231GB,5 倍多!过去十多年甚至二十多年里,数据的增长速度在很多时候超越了摩尔定律(半导体芯片上集成的晶体管将每一两年翻一番) 。从硬盘厂商希捷的一份报告可以发现:在企业级 SSD 普及以前,存放数据的盘,无论性能还是容量,与 CPU、内存比较,都发展得异常缓慢。以 1987-2004 年为例,17 年间,CPU 和内存的性能提升了 200 万倍! 而磁盘仅仅提升了 11 倍!1.2 最后总结一下,为何出现软件定义存储?简而言之,随着用户需求的变化(因为数据激增) ,

7、技术的变革,软件定义存储能够提供给用户更快的性能,更高的灵活性和开放性,更强的扩展性,更简单的管理(后面的篇章会提到) ,更少的投入。以 Server SAN 为例:从投入成本看:由于省却了外置磁盘阵列的存储控制器,存储光纤交换机,服务器HBA 光纤卡,仅硬件的投入,即可降低到普通机架式服务器硬盘的价位。它将传统存储的专用硬件,转变成通用硬件,通过融合计算,存储达到降低成本的目的;从开放性看:只要通过兼容性验证,它支持业界标准的硬件,如服务器、SSD、磁盘、IO 控制器,并且能在最快时间采纳新的硬件,灵活性极高;从扩展性看:分布式的存储,都能支持在线的横向扩展,能自动地在一个资源池里线性地、同

8、时地增加计算资源和存储资源,使用户获得可预测的性能和容量;2. 什么是软件定义存储?2.1 什么是软件定义存储在 IT 基础架构领域的软件定义,最早出现的是:软件定义网络(SDN)。SDN 起源于2006 年斯坦福大学的 Clean Slate 研究课题。2009 年,Mckeown 教授正式提出了 SDN 概念。通过将网络设备的控制平面与数据平面分离开来,并实现可编程化控制,实现了网络流量的灵活控制,为核心网络及应用的创新提供了良好的平台。2012 年,VMware 在其 VMworld 大会上首次提出软件定义数据中心(SDDC)的概念。作为VMware 软件定义数据中心五大组成部分(计算、

9、存储、网络、管理和安全)之一,软件定义存储(SDS)的概念也首次被提出。EMC 公司在当年的 EMC World 发布大会上也发布了 SDS 战略,引发了业界对 SDS 的大讨论,SDS 迅速成为存储业界的研究热点。不过,时至今日,SDS 的定义并没有统一的标准,各家权威咨询机构,各大厂商等,都对这一概念有着不同的解释或描述。下面我们列出主要的机构和厂商对 SDS 的描述,看看有何共性和差异。2.1.1 IDCIDC 通过对 SDS 市场的深入了解和研究,对 SDS 定义如下:SDS 将数据中心或者跨数据中心的各种存储资源抽象化、池化,以服务的形式提供给应用,满足应用按需(如容量、性能、QoS

10、、SLA 等)自动化使用存储的需求。2.1.2 GartnerGartner 副总裁 Neil MacDonald 在其位于 Gartner 网站的博客上撰写道:SDS 必备的四个基本特征是:Abstraction (抽象化)、Instrumentation、Automation(自动化)和 Orchestration (编排)。另外,2013 年 10 月 Gartner 发布 2014 年十大战略技术中,重要的组成部分就有:软件定义一切。Gartner 认为:软件定义一切囊括了在基础设施可编程性标准提升下不断增长的市场势头、由云计算内在自动化驱动的数据中心互通性、DevOps 和快速的基础

11、设施提供等。软件定义一切还包括各种举措,如 OpenStack、OpenFlow、Open Compute Project和 Open Rack,共享相同的愿景。开放性将成为供应商的目标,SDN(网络)、SDDC(数据中心)、SDS(存储)和 SDI(基础架构)技术的供应商都力图成为所在领域的领导,但在恪守开放性和标准方面却可能各有各的打算。2.1.3 VMwareVMware 做为 SDS 概念的创造者,对 SDS 定义如下:软件定义的存储产品是一个将硬件抽象化的解决方案,它使你可以轻松地将所有资源池化并通过一个友好的用户界面(UI)或 API 来提供给消费者。一个软件定义的存储的解决方案使

12、得你可以在不增加任何工作量的情况下进行纵向扩展(Scale-Up)或横向扩展(Scale-Out)。软件定义存储是 VMware 软件定义数据中心的五大组成部分之一。VMware 认为,软件定义的数据中心,是 IT 演变的下一个阶段,是迄今为止最有效、恢复能力最强和最经济高效的云计算基础架构方法。SDDC 方法论将对存储、网络连接、安全和可用性应用池化、抽象化和自动化,整个数据中心由软件自动控制。 基础架构提供的服务将聚合起来,并与基于策略的智能调配、自动化和监控功能结合在一起使用。应用编程接口和其他连接器支持无缝延展到私有云、混合云和公有云平台。2.1.4 SNIA (全球网络存储工业协会)

13、实际上,最权威的 SDS 的定义莫过于 SNIA 对 SDS 的定义了,作为一家非盈利的行业组织,SNIA 拥有 420 多家来自世界各地的公司成员以及 7,100 多位个人成员,遍及整个存储行业。SNIA 曾先后定义了 DAS, SAN, NAS, 对象存储及云存储等标准。SNIA 认为,SDS 需要满足的是:提供自助的服务接口,用于分配和管理虚拟存储空间。SDS 应该包括如下功能: 自动化 标准接口 虚拟数据路径 扩展性 透明性(为了让大家更好的理解 SNIA 对 SDS 的看法,以下引用天玑数据 “小编爱翻译” 曾经翻译的版本 - SNIA 软件定义存储白皮书 2015 汉化先行版 ,其

14、中的部分内容,来对比一下传统存储与软件定义存储的区别)传统存储部署往往离不开存储管理员亲自创建各种虚拟存储设备(块存储逻辑单元,文件系统共享,对象容器)供应用使用。在后台,存储管理员还得为这些虚拟设备部署数据服务。通常情况下,单独数据服务需配备属于它的单独管理接口。一旦数据部署发生变更,存储在虚拟设备上的所有数据均会受到影响。数据请求通信经常发生其它存储接口带外传输。下图是传统人工传达数据的请求方式:如上图所示,该存储并不太“软件定义”,反而“ 存储管理员定义 ”更贴切。这种存储部署方式存在一个最大的问题,扩容艰难。由于刚性架构限制系统资源只能静态分配,这就意味着后续新部署的资源无法归入原先存

15、储体系。该传统存储部署方式会导致较高的存储TCO(总体拥有成本)。为实现存储基础架构的自动化机制,降低人工管理运维成本,数据请求需直接传达至自动化软件,且数据请求的粒度至少需在当前常见的个体虚拟化存储设备级别。随着后续自动化机制的进一步发展,每个数据对象需独立传达自我请求,不再依赖虚拟存储设备。数据对象经由分组和抽象后,可向 “用户”直接传达其选择, “用户”不必再是存储专家了。为将请求传达至存储系统,应用或用户需将请求信息标记至每个文件或对象,而元数据,或称作关于数据的“数据”,正好符合这一需求。采用记录请求信息的元数据来标记数据对象,存储系统可轻易定位获取请求信息。如图所示:下图是利用元数

16、据传达数据的请求方式存储请求信息有时仍存在数据路径带外传输,但自动化机制终将消除这一现象。有了软件定义存储,存储管理员可转向定制策略这类更高阶的工作,不再将时间精力囿于即时突发问题的处理上,而降格自身的服务级别。下列这张综合信息图涵盖了软件定义存储的全部要点:2.1.5 各家对 SDS 定义的共性虽然每家对 SDS 的定义都不尽相同,各有侧重点。但可以看出来,易于扩展(主要指在线横向扩展)、自动化、基于策略或者应用的驱动都几乎都成为大家定义中的必备特征。而这也是软件定义数据中心的重要特征,只有具备自动化的能力,才能实现敏捷交付,简单管理,节省部署和运维成本。自动化也成为各家 SDS 方案,是否

17、愿意走向更高阶段的试金石。3. 软件定义存储之现状各家(包括知名的咨询机构和知名的 IT 厂商) 对 SDS 定义的共性的描述: “虽然每家对SDS 的定义都不尽相同,各有侧重点。但可以看出来,易于扩展(主要指在线横向扩展)、自动化、基于策略或者应用的驱动都几乎都成为大家定义中的必备特征。而这也是软件定义数据中心的重要特征,只有具备自动化的能力,才能实现敏捷交付,简单管理,节省部署和运维成本。自动化也成为各家 SDS 方案,是否愿意走向更高阶段的试金石”。不过自动化是现阶段绝大多数 SDS 厂商或方案的较长远发展目标,也许需要 38 年。在此之前,还需先逐步完成抽象、池化的过程。实际上,绝大多

18、数存储厂商还停留在抽象、池化这两个阶段。本篇主要在抽象、池化这两个阶段展开详细的交流。最早提出抽象、池化和自动化的是 VMware 公司,这个过程论也是 VMware 首倡的软件定义数据中心(SDDC)概念中的重要组成部分。那么如何理解抽象、池化、自动化呢?如下图所示,抽象其实就是软硬件解耦的过程。早先的存储,如 2000 年以前,大多数集中存储( 以外置磁盘阵列为主流 ),逻辑卷一旦创建,就不能更改 (更改 RAID、增加大小) ,除非允许数据全部丢失,删除这个逻辑卷再创建 一个新的逻辑卷。那时候的逻辑卷与存储的前端端口、后端端口、物理磁盘,都紧密地绑定在一起,耦合度非常高。在这种情况下,即

19、使是为多个业务应用提供存储 资源的集中存储,也在内部形成了一个个的孤岛,孤岛的存储资源不能相互共享,数据不能自由流动。在这种环境下,存储首要解决的问题就是解耦,将逻辑卷与硬 件解耦,打破孤岛之间的疆界,让存储资源能够共享,数据能在各个存储的硬件组件间自由流动。例如,假设某用户单位的网管在最初给 FC SAN 光纤存储划分 ZONE 时,是按照物理WWWN 的方式。这样,每当 FC SAN 存储控制器的前端卡因故障需要替换时,就还得进入 SAN 光纤交换机 管理界面内,重新调整 FCSAN 的 Zone 分区,这个运维操作往往需要业务停机。 如果存储支持虚拟 WWWN 的方式,就简单多了,只需要

20、进入存储管理界面,SAN 光纤交换机不受影响。再如,以往逻辑卷在创建之初,先必须挑选几块盘来创建 RAID Group,在此基础上,在新建逻辑卷。这意味着逻辑卷被绑定在几块盘里,一旦业务增长规模扩大,所需容量和性能不够时,旧存储不得不停机去做数据迁移。如果存储支持精简配置(Thin Provisioning),在线扩容就比较容易了。这个软硬件逐渐解耦的过程,其实就是将同类硬件的不同细节的部分,隐藏起来,并与上层隔离开来。这样,上层就不必因为下层硬件的不同而修改。因此,增加了可移植性和灵活性。不过需要注意的是,软硬件解耦也是一个循环往复的过程。有时,硬件的某些内容解耦了,继而软件完成了这些内容的

21、抽象池化和自动化;过段时间之后,客户的需求 又可能推动再去解耦硬件的其他部分,这样,又需要再去完成其他部分的抽象池化和自动化。因为,不同时代的用户会对所需抽象的内容有不同的关注和需求,而且 硬件本身也在不停地发展。当硬件的发展日新月异,其速度和容量能够远远地超前于当下软件对其资源的要求时,硬件就有更多的机会在不同的层面、不同的角度, 不断地解耦,让更多的部件被抽象,被软件定义,直到最后,剩下该硬件的最核心最本质的部分。解耦硬件的哪一部分(换句话说,用软件去定义哪一部分 ),必须结合用户主流的需求,以及当时的客观条件(主要是硬件的能力 )。以上一篇文章 什么是软件定义存储 的比喻-空调为例,当智

22、能家居的周边条件远未具备时,例如手机应用、WIFI 尚未普及之时,空调遥控器开放几个简单的如温度、风速、风向的接口,就足够了。如果有公司过早的投入人力物力去做智能空调,研究移动设备或 PC 机如何通过互联网 来远程控制空调的接口,很有可能只有极少的用户(例如财大气粗的比尔盖茨 )才有这个需求。这样,这个公司就变成先烈,而不是先进了:)花絮:提到“先烈”,想起了 IT 的两位著名 “先烈”1)1995 年,拉里森提出网络计算 机(NC, Network Computer)的概念:配置简单却能充分利用网络资源的低价电脑,不需要不断更新的硬件设备和越来越复杂,庞大的操作系统,没有软盘和硬盘,只要打开

23、电源用浏览器连上网络,就可以获得信息和存储文件;2)1999 年,比尔盖茨宣布微软 耗资数十亿美元,向中国消费者推出“维纳斯计划” 。这个宏大的计划试图通过嵌入微软操作系统的“神奇盒子”,将中国人使用的 3.2 亿台电视机变成电脑。其实,拉里森和盖茨提出的东西,就是现在的云计算和互联网电视。尽管成为先烈,但不妨碍我们对其如此超前的预见、想法、举措充满敬意。十多年后的云计算和互联网引领者 Salesforce,Amazon, Apple TV,乐视, 小米也许正是由于这些”先烈”的启发,因时制宜,接过他们的接力棒,为人类的发展做出贡献。在抽象的基础之上,才能进一步做资源的池化。因为池化就意味着资

24、源不受硬件的限制,能被自由地分配、使用和调度。池化包括存储虚拟化和存储标准化,而存储虚拟化指所有存储资源的虚拟化,包括1)外置磁盘阵列内的虚拟化2)跨外置磁盘阵列的虚拟化(也即异构存储的管理)3)分布式存储服务器内的存储虚拟化,这部分在以后的篇章里再介绍存储虚拟化最早可以溯源到 IBM AIX LVM(逻辑卷管理器),和 HP EVA 的 vDisk 技术。其实 HP 的 EVA 技术,准确说是源于 Compaq,甚至是 DEC 的 VA,详情可在网上搜索林肯大叔的存储器那点事 。大约在距今 10 年左右,新兴厂商 Compellent 和 EqualLogic、3PAR 和LeftHand、

25、XIV、Pillar 的块级虚拟化,打破了以往 RAID Group 的限制,支持精简配置(Thin Provisioning)的功能,无需预先分配并实际霸占物理空间,实现写多少分配多少的策略,并支持在线扩容。有趣的是,后来上述新兴厂商分别被 DELL、HP、IBM、Oracle 收入囊中。外置磁盘阵列内的存储虚拟化,大多都不受以往存储 RAID Group 的限制,能将相同速度( 有的存储解耦做得还不够,严格要求磁盘类型也必须相同) 盘的空间形成一个存储池,统一分配和管理空间。再辅助以自动 分级 技术,便可以实现数据块在 SSD 盘、磁盘之间的数据流动,例如 DELL Compellent

26、的 Data Progression(数据调度,也即自动分级) 技术。跨外置磁盘阵列的存储虚拟化,指的是能够跨越异构的磁盘阵列,在更大的范围,如数据中心内,形成一个大的存储资源池,统一管理和分配来自不同存储厂商的存储资源。实际上,当我们讨论异构存储之间的管理的时候,其实也同时在讨论存储标准化,只有当大家开放的接口遵循共同的标准(也即规范) 的时候,也就是用相同的 “语言”对话时,才有可能被调用、被管理。随着用户的数据不断增加,为了不被单一厂商锁定,规模较大的用户的存储网络往往包含了来自多个存储厂商的外置磁盘阵列,每个阵列都需要自己的管理软件,这些阵列之间缺乏互联互通,管理复杂度增加。为了解决这

27、一个问题,2002 年,SNIA(全球网络存储工业协会) 提出了存储管理建议规范 SMI- S(Storage Management InitiativeSpecification),希望在存储网络中的存储设备和管理软件之间提供标准化的通信方式,从而使存储管理实现厂商无关性 (vendor-neutral),使得存储管理系统能够实现鉴别、分类、监控和控制物理及逻辑资源的能力,提高管理效率、降低管理成本,促进存储的发 展。SMI- S 是一种中间件性质的规范,定义了存储管理软件和受管对象之间的交互机制。它提供了多种特性以简化 SAN 的管理。首先,在 SMI-S 标准中定义了统一的数 据模型,使

28、用基于 Web 的企业管理(Web-Based Enterprise Management,WBEM)技术和公共信息模型规范(Common Information Model, CIM) ,SMI-S 的代理可以与交换机、磁盘阵列等各种支持 CIM 的设备进行交互,获取其管理相关的数据并返回给请求方。使用 SMI-S 可以免除设计管理数据传 输机制的麻烦,对各种设备和组件直接进行带内或带外的管理,甚至两者并用。SMI-S 还提供了基于 HTTP 的 CMI-XML 传输机制,以增强适用性。SNIA 对于 SMI-S 标准寄予了很高的期望,跨越的版图非常宏伟。从下图(摘自Storage Mana

29、gement from SMI-S to Management Frameworks),可以看出来,它希望做到,存储管理软件能够识别磁盘阵列、光纤交换机、IP 交换机、磁带库、FC HBA 卡、iSCSI HBA 卡等各种各样与存储相关的设备,并通过存储管理服务,自动发现、部署和配置存储资源。SMI- S 标准发布以后,得到了大多数主要存储供应商的支持,目前已经超过 500 多个产品支持 SMI-S 标准。4. 软件定义存储的分类4.1 概述“池化包括存储虚拟化和存储标准化,而存储虚拟化指所有存储资源的虚拟化,包括1)外置磁盘阵列内的虚拟化2)跨外置磁盘阵列的虚拟化(也即异构存储的管理)3)分

30、布式存储服务器内的存储虚拟化现在我们就来聊聊分布式存储服务器内的存储虚拟化。并以此为基础,介绍软件定义存储涉及到的概念和分类,帮助读者厘清概念之间的异同和关系。如下图所示,这种分布式存储的虚拟化是指,将多台标准 X86 服务器组成的集群内的 HDD/SSD 等存储资源,形成一个全局共享存储池。部署在 Operating System/Hypervisor 的软件,能按照一定的策略,采用类似互联网巨头 Google、 AWS、Facebook 的分布式计算和数据冗余的方式,提供与集中存储(外置磁盘阵列 )类似的存储服务和高级功能。其实这就是一种 Server SAN。我们先来回顾一下 Serve

31、rSAN (基于服务器的分布式存储) 这个词汇的来源,最早应该是来自 Wikibon,它对 Server SAN 的定义是:“Server SAN is software-led storage built on commodity servers withdirectly attached storage (DAS)”。如下图,注意图中标识体现了Server SAN 是 SDS、Hyperscale 与 Flash 的交集,不过图形并不代表百分比。可以认为,Wikibon 所认为的 Server SAN 是包含闪存盘的,具备横向扩展特征的 SDS。需要注意的是,Wikibon 所述的 Ser

32、ver SAN 还包括如下互联网公司大规模使用的分布式存储:Google,Amazon, Facebook, Microsoft 等。Wikibon 把这种互联网公司使用的 Server SAN 称为 Hyperscale Server SAN。它们共同的特点是,高度分布式(去中心化、无共享) 、采用标准的商用硬件(如 X86 服务器)、能够在线进行横向扩展;区别是 Enterprise Server SAN 用于企业私有云或数据中心,Hyperscale Server SAN 用于大型互联网公司。后面文章中提到的 ServerSAN,如果不特别说明,主要指 Enterprise Server

33、 SAN。不过,从 ServerSAN 的字面意思,以及存储当前的发展,Wikibon 的定义值得商榷,因为没有必要把采用 Flash 做为判断是否为 Server SAN 的前提条件。在软件定义存储领域内,超融合(Hyper-Converged)这个词汇也有很多人提及,它又表示什么意思?它与 ServerSAN 之间是什么关系?说来话长,我们先来看看什么是融合(或者称之为聚合)?最近几年,业内出现了一种发展趋势:融合计算、存储、网络,甚至应用程序的集成系统(Integrated System)的市场份额不断增加。出现的原因是:有些用户希望简单、高效,而这种在出厂前就预先集成(Pre-Inte

34、grated)好的产品,满足了他们的需求,这种产品有一个通俗的叫法,就是一体机。实际上,在我们生活中,就有类似融合的绝佳范例:智能手机,它集成了语音电话、相机、音乐播放器、GPS、网页浏览器、视频播放器、游戏等功能为一体,携带和使用都很方便,除了极少数某种应用的发烧友,大多数人都乐于购买这种简单高效的一体机。4.2 分类IDC 根据定义把集成系统市场分为了两类:集成基础设施或集成基础架构(IntegratedInfrastructure)和集成平台(Integrated Platforms)。其中,集成基础设施是通用型的融合系统;而集成平台是指专为特定工作负载或应用程序而优化的融合系统。4.2

35、.1 融合基础架构集成基础设施中,最著名而且市场份额最大的就是源于思科、EMC 以及 VMware 的VCE,该公司在 2014 年 10 月被 EMC 收购。集成平台中,最著名的产品就是 Oracle 公司的 Exadata,是专用于数据库应用的集成平台。与之相仿的有:天玑数据 PBdata 数据库一体机,不过 PBdata 属于后面将要提到的超融合基础架构。与集成基础设施这一概念相类似的叫法是 ConvergedInfrastructure(融合基础架构或融合基础设施,缩写为 CI)。融合基础架构是指将服务器,存储,网络,软件,服务整合起来,按服务方式提供基础设施 IaaS,其计算、存储和

36、网络都是各自独立的硬件实体。融合基础架构基本等同于集成系统。需要注意的是,业界往往在介绍创新性、高度整合的新硬件(此时服务器、存储并非独立的硬件模块,通常是存储内嵌在服务器内,或以JBOD 直连到服务器)时,更多的会使用前者,也即融合基础架构,例如 DELL FX2(2U 内可灵活选配服务器模块和存储组件)。Gartner 在“Predicts2015: Midmarket CIOs Must Shed IT Debt to Invest in Strategic IT Initiatives”的报告里推荐那些虚拟化程度较高的中型企业,应该转向采购集成系统。Gartner预计到 2018 年,

37、将有 40%的中型企业将会使用集成系统去替换掉原有数据中心的服务器和存储。有趣的是,Gartner 还预计,到 2017 年,有三分之一的中型组织,将部署 VMware VSAN 到其整个组织至少 30%的存储容量中。有趣的是,全球权威的 IT 咨询公司 IDC 和 Gartner 在其不同报告里都引用过这两个词汇。其实,CI 还有一个叫法:集成计算平台(Integrated ComputingPlantform),这个提法主要由另一家全球权威的 IT 咨询公司 ESG 引用,但无论中英文网页,这种提法相对较为少见。2012 年 8 月,VCE CTO 办公室的 Steve Chambers,

38、在其博客中首次提出 Hyper Converged(超融合)的概念。超融合指的是,基于标准的 X86 服务器,在每个物理服务器节点通过 Virtual Storage Appliance(虚拟存储设备,简称 VSA),管理节点内的 HDD 和 SSD,并与其他节点中的 VSA 一起来构建一个集群的分布式存储。后来 VMware ChuckHollis 在其博客里做出了更为准确的阐述, Hyper Converged,其实就是 Hypervisor Converged:Hypervisor( 虚拟服务器) 做为位于应用层与基础架构层之间的战略层,能够抽象并池化计算、网络和存储资源,并拥有强大的控

39、制平面的功能,而且Hypervisor(虚拟服务器) 能整合软件定义的数据中心内运维管理的经验,管理更简单。与Hyper Converged(超融合) 相关的概念还有:Hyper ConvergedInfrastructure(缩写为 HCI),可译为超融合基础架构(简称超融合架构 ),或者超融合基础设施 ;Hyper Converged Infrastructure Appliance(缩写为 HCIA),可译为超融合基础架构设备,或者超融合基础设施设备。4.2.2 HCIA 超融合基础架构HCIA(超融合基础架构设备) 由多个服务器节点构成,每个节点同时提供计算资源和存储资源,支持在线的横

40、向扩展,扩展节点时,性能和存储容量都能线性的增长。它为用户了一个很重要的特性:性能可预测性,性能可确保始终如一地按节点数,简单地、线性地在线扩展。运行在 HCIA 硬件之上的就是分布式的存储软件,完成存储资源的池化、部署和管理。典型的 HCIA,例如 VMware 推出的由 vSphere Enterprise Plus、VSAN、vCenter Server、vCenterLog Insight(用于监控和故障排除,是一个集成了 VMware 和其他厂家的特定日志分析工具)组成的,EVO:RAIL 一体机。以此(参见下图)为例,EVO:RAIL 一体机在2U 高里含有 4 个节点,可支持 1

41、00 多个虚机( 正常大小的通用数据中心虚拟机 ),或者 250个桌面(View 虚拟机 )。由于大家都看好超融合的市场趋势,EVO:RAIL 推出后,就连存储巨头也纷纷支持,例如 EMC(VSPEX BLUE)、NetApp、HDS ;除此之外,还有DELL、 HP、SuperMicro( 超微) 、Inspur(浪潮)、Fujitsu(富士通 )等 IT 大厂商。可以看出,HCI(超融合架构)符合 Server SAN 的特征:采用商用硬件,分布式,能在线横向扩展。实际上,HCI 是 Server SAN 的一种,是 ServerSAN 的子集。ServerSAN 中除了 HCI 以外,至

42、少还有另外一类,就是仍然采用商用硬件,也能在线横向扩展,但不提供计算资源,只提供存储资源的存储产品,例如 StorVirtual。行文至此,觉得最好有一个标识 SDS 分类的图形,能够直观的展现 SDS 相关的各个概念之间的关系(包括内含、外延 )。IDC 在 2014 年,曾按照 Delivery Model(部署方式) 做过一个分类( 参见下图),包含: Software-only,仅软件; Physical Storage Appliance,物理存储设备; Virtual Storage Appliance,虚拟存储设备; Cloud-based(Subscription),基于云的;

43、 Embedded Connector; Hyper-Converged,超融合。IDC 这个图对 SDS 的分类,是一个不错的参考,至少帮助大家对庞大混杂的 SDS 众多产品的分类有一个初步的了解。它是基于部署方式的,有不少媒体文章,也有 IT 厂商引用了这种分类方法。4.2.3 SDS 分类图4.2.3.1 VMware SoftwareDefined Storage Model这个 Model 分为 Policy-driven Control Plane 和 Virtual DataPlane 两个层级。Control Plan 由 SPBM,也即 Storage Policy Base

44、d Management 来实现。VMwareSPBM 之下,包括三大部分,一是分布式存储,也即 VSAN;二是传统 SAN/NAS;三是对象存储或云存储。三个部分都能被预先创建好的存储策略去驱动,其中第二部分就是由 Virtual Volumes 的 API来实现,目前至少已经有 15 家公司(包括传统存储及新兴的全闪存或混合存储) 支持 Virtual Volume。顺便说一句,我们往往觉得存储虚拟化或池化,是由类似 ViPR、SVC 之类的存储网关来实现的,其实 Hypervisor 或云平台(如 OpenStack)也在用户不知不觉的过程中完成了存储虚拟化或池化的工作,这是更高级的池化

45、,能够在虚机/ 应用级别去全局的、统一的、灵活的分配和协调存储资源。以 VMware 为例,SPBM 或 vSphere(池化那些尚未支持 Virtual Volume 的外置阵列) 将存储资源池化后,即可借由 DRS、Replication 或 SRM、或是免费的VDP(Data Protection)实现虚机存储资源的动态调配,或是虚拟磁盘的备份、归档和容灾,同样实现了异构阵列的利旧。4.2.3.2 EMC ViPRControl Plane and Data PlaneEMCViPR 同样分为 Control Plan 和 Data Plane,在 Data Plane 层,主要是其自身

46、的存储,包括 VMAX, VNX, Isilon 和 ScaleIO 等,也试图管理并驱动第三方的异构存储,并将商用硬件的存储资源(也即分布式存储 )纳入版图内。EMCViPR 的前瞻性强,以 Service Catalog 的方式组织并提供存储服务,在 SDS 领域是先行者之一。EMC ViPR 野心很大,但其挑战也很大,存储的互操作性在过去十多年里都是一个难点。不过 ViPR 开源之后,也许受管对象向其开放 API 的可能性增加。之前的文章也提到过,硬件与软件的分离,能够体现抽象、池化、自动化三阶段论中第一阶段抽象(也即解耦)的程度。但更重要的控制平面(Control Plane) 和数据

47、平面(Data Plane)的逐渐分离,正是由于这个分离,才使得 SDS 能够逐渐呈现出更丰富的 API 供Hypervisor/OS/Cloud 去调用,实现更高程度的自动化。关于控制平面与数据平面,将在后面的篇章里详细介绍。4.2.4 新的分类4.2.4.1 ControlPlane在 SDS ControlPlane 这一层,比较著名的有:VMware SPBM (Storage PolicyBase Management, 基于存储策略的管理);OpenStack Cinder 。Cinder 是 OpenStack 云平台的一个组件,用来提供块存储服务;EMC ViPR。目标是实现

48、EMC 存储、异构存储、商用硬件本地存储资源的存储虚拟化(包括互操作性);备注:对互操作性不了解的朋友,可以查看历史文章 SDS 之三);其他在整个 SDS 框架中,难度最大,但也最有价值的,是这一部分的公司,从长远来看,也许十年后,我们回过头会发现,得控制平面者,得 SDS 之天下。4.2.4.2 Data Plane在 SDS DataPlane 这一层,比较复杂,组成部分较多。相信也会众说纷纭。1)Based on Commodity Hardware (基于商用的硬件)其实,这一部分是最难分类的,种类繁多,命名还不容易。首先,想说明的是,它包括了 IDC 分类中 Virtual Sto

49、rage Appliance(简称 VSA,存储控制器运行在虚机上) 和 Physical Storage Appliance 两类,注意在这个分类里,后者并不包括传统的外置磁盘阵列。正如前面所提到的,控制平面与数据平面的分离之意义大于硬件与软件的分离。部署方式的这两种不同,并没有带来本质的差异。举例来说,VSAN FS(VSAN File System)之于EVO:RAIL,NDFS(Nutanix Distributed File System)之于 Nutanix 一体机,差别仅在于是否与硬件捆绑,共同点在于都是基于商用的硬件,将分布式存储资源池化。所以,VSAN, EVO:RAIL, Nutanix 都属于 Server SAN 的分类里,而且由于它们都不仅提供存储资源,还提供计算资源,所以还属于超融合架构这个子类里。可能与其他看法不同,我们以为,Server SAN 在它的原始定义里,就应该是一个横向扩展的分布式存储,它至少需要支持 3 个以上节点。这样,对于那些仅支持两个控制器做为集群的存储,就不在 Server SAN 这个分类里了。仅支持两个控制器做为集群的存储,虽然不在 Server SAN 这个分类里,但只要它支持商用的硬件,依然属于软件定义存储这个大的分类里。例如:Nexenta。2)Traditional S

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报