收藏 分享(赏)

Infiniband高速互连网络(徐迪威).pdf

上传人:weiwoduzun 文档编号:4297676 上传时间:2018-12-21 格式:PDF 页数:8 大小:348.63KB
下载 相关 举报
Infiniband高速互连网络(徐迪威).pdf_第1页
第1页 / 共8页
Infiniband高速互连网络(徐迪威).pdf_第2页
第2页 / 共8页
Infiniband高速互连网络(徐迪威).pdf_第3页
第3页 / 共8页
Infiniband高速互连网络(徐迪威).pdf_第4页
第4页 / 共8页
Infiniband高速互连网络(徐迪威).pdf_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、InfiniBand 高速互连网络 徐迪威 广州 广东省计算中心, 510033 摘要: InfiniBand 是目前发展最快的高速互连网络技术,具有高带宽、低延迟和易扩展的特点。 通过研究和实践, 对 InfiniBand 技术的数据包、数据传输、层次结构、与以太网技术的对比、 虚拟化、交换机制 、发展愿景 等进行了全面探索,提出了 InfiniBand 最终成为高速互连网络首选的观点。 关键词: InfiniBand;高速互连网络;数据包;结构模型; 虚拟化;交换机制 Research on Design of InfiniBand High Speed Interconnection A

2、bstract: InfiniBand is a fast growing technology of high speed interconnection (HSI), whose characteristics are high bandwidth, low latency and easy extension. Via researching and practicing, the paper explores on InfiniBand data packets, data transfer, multilevel architectures, comparing with Ether

3、net, virtualization, switching mechanism, roadmap, etc. The author presents the viewpoint that InfiniBand will become the first choice in setting up HSI. Keywords: InfiniBand(IB); High Speed Interconnection(HSI); Data Packet; Hierarchy Model; Virtualization; Switching Mechanism 1 引言 随着中央处理器( CPU)运算能

4、力的极速增长, 高速互连网络( High Speed Interconnection, HSI)已成为高性能计算机 研制的关键所在。 HSI 是为了改善计算机外围元件扩展接口( Peripheral Component Interface, PCI) 的 性能 不足 而提出的一项新技 术。经过多年的发展 ,支持高性能计算( High Performance Computing, HPC) 的 HSI 目前主要是 Gigabit Ethernet 和InfiniBand,分别占全球超级计算机 TOP500( 2011 年 11 月)的 44.8%和 41.8%, 而 InfiniBand是其中增

5、长最快的 HSI。 InfiniBand 是在 InfiniBand 贸易协会( IBTA) 监督下发展起 来的一种高性能、低延迟的技术。 2 InfiniBand Trade Association(IBTA) IBTA 成立于 1999 年, 由 Future I/O Developers Forum 和 NGI/O Forum 两个工业组织合二为一组成, 在 HP、 IBM、 Intel、 Mellanox、 Oracle、 QLogic、 Dell、 Bull 等 组成的筹划运作 委员会 领导 下工作 。 IBTA 专业从事 产品的 遵从 性和互用性测试,其成员 一直致力于 推进Inf

6、iniBand 规范的 设立 与 更新 。 3 InfiniBand 概述 InfiniBand 是一种 针对处理器与 I/O 设备之间数据流的通信链路,其支持的可寻址设备高达64000 个 1。 InfiniBand 架构( InfiniBand Architecture, IBA) 是一种定义 点到点( point-to-point)交换式的 输入 /输出 框架的行业标准规范,通常用于服务器、通信基础设施、存储设备和嵌入式系统的互连 2。 InfiniBand 具有普适、低延迟 、高带宽 、管理成本低 的特性, 是单一连接多数据流(聚类、通信、存储、管理)理想的连接网络 ,互连节点可达成

7、千上万 。 最小的完整 IBA 单元是子网( subnet),多个子网由路由器连接起来组成大的 IBA 网络。 IBA 子网由端节点( end-node)、交换机、链路和子网管理 器 组成 3。 InfiniBand 发展的初衷是把服务器总线网络化,所以 InfiniBand 除了具有很强的网络性能以外还直接继承了总线的高带宽和低时延 4。总线技术中采用的 DMA( Direct Memory Access) 技术在 InfiniBand 中以 RDMA( Remote Direct Memory Access) 的形式得以实现。RDMA 服务可在处理器之间进行跨网络数据传输,数据直接在暂时

8、内存 之间传递,不需要操作系统介入或数据复制。 RDMA 通过减少对带宽和处理器开销的需要降低 了时延, 这种效果是通过在 NIC 的硬件中部署一项可靠的 传输协议以及支持零复制网络技术和内核内存旁路实现的 5。 这 使得 InfiniBand 在与 CPU、 内存 及存储设备的数据交换方面天生地优于万兆以太网以及光纤通道( Fiber Channel, FC)。 InfiniBand 实现了基于客户机 -服务器和消息传递的通信方案及基于存储映射实现网络通信的方案,将复杂的 I/O 系统与处理器、存储设备分离,使 I/O 子系统独立,是一种基于I/O 通道共享机制的总线互连技术 6。 Infi

9、niBand 系统由信道适配器( Channel Adapter, CA)、交换机、 路由器 、线缆和连接器组成。 CA 分为主机信道适配器( Host Channel Adapter, HCA)和目标信道适配器( Target Channel Adapter, TCA) 。 IBA 交换机原理上与其 它标准网络交换机类似,但必须能满足InfiniBand 的高性能和低成本的要求。 InfiniBand 路由器 是用来 把 大网络分割为更小的子网,并用路由器连接在一起。 HCA 是 一个设备点, 诸如服务 器 或存储设备 的 IB 端节点通过该 设备点连接到 IB 网络。 TCA 是 信 道适

10、配器的一种特别形式,多 用于 存储设备等嵌入式环境 7。InfiniBand 体系结构如图 1 所示。 C P UC P U主机互连内 存 控 制 器C P U内 存H C A交 换 机T C AT C AI / O 控 制I / O 控 制路 由 器I B A 子 网 /以 太 网图 1 InfiniBand 体系结构 InfiniBand 有几 大优势:基于标准的协议 、高速率 、远程直接内 存存取( RDMA)、 传输卸载( transport offload) 、网络分区和服务质量( QoS) 。 标准:成立于 1999 年的 IBTA 拥有 300 多个成员,它们共同设计了 IBA

11、开放标准 。 IBA支持 SRP( SCSI RDMA Protocol)和 iSER( iSCSI Extensions for RDMA) 存储协议。 速率: InfiniBand 传输速率目前已达 168Gbps( 12xFDR) ,远远高于 万兆 光纤 通道 的10Gbps 和 10 万兆以太网的 100Gbps。 内存:支持 InfiniBand 的服务器使用主机通道适配 器( HCA),把协议转换到服务器内部的 PCI-X 或 PCI-E 总线。 HCA 具有 RDMA 功能, RDMA 通过一个虚拟的寻址方案,数据直接在服务器内存中传输,无需涉及操作系统的内核, 这对于集群来说很

12、适合 8。 传输卸载: RDMA 实现了传输卸载,使数据包路由从操作系统转到芯片级,大大节省了处理器的处理负担 9。 网络分区:支持可编程的分区密钥和路由。 服务质量:多层次的 QoS 保障 ,满足服务请求者对 QoS 需求 的 多样性 。 4 InfiniBand 数据包和数据传输 数据包 ( Packet) 是 InfiniBand 数据传输 的基本单元。为使信息在 InfiniBand 网络中有效传播,信息由 信 道适配器分割成许多的数据包 1。 一个完整的 IBA 数据包 由本地路由报头( Local Route Header, LRH)、全局路由报头( Global Route He

13、ader, GRH)、基本传输报头( Base Transport Header, BTH)、扩展传输报头( Extended Transport Header, ETH)、净荷( Payload, PYLD)、 固定循环冗余检测( Invariant CRC, ICRC)和可变循环冗余检 测( Variant CRC, VCRC)等域 ( field) 组成 7,如 图 2 所示。 LRH: 8 字节,用于交换机转发数据包时确定 本地源端口和目的端口以及规范数据包传输的服务等级和虚通路( Virtual Lane, VL)。 L R H G R H B T H E T H 净 荷 ( P a

14、 y l o a d )I D a t a I C R C V C R C起 始定 界 符数 据 符 号结 束定 界 符闲 置数 据 包上 层 协 议传 输 层 协 议网 络 层 协 议链 路 层 协 议L R H : 本 地 路 由 报 头 G R H : 全 局 路 由 报 头 B T H : 基 本 传 输 报 头E R H : 扩 展 传 输 报 头 I D a t a : 即 时 数 据 I C R C : 固 定 循 环 冗 余 检 测V C R C : 可 变 循 环 冗 余 检 测GRH: 40 字节, 用于对子网间的数据包进行路由,确保数据包在子网之间的正确传输。它由 LRH

15、 中的 Link Next Header(LNH)域指定,采用 RFC 2460 定义的 IPv6 报头规范。 BTH: 12 字节,指明目的队列偶( Queue Pair, QP)、指示操作码、数据包序列号 和分段。 ETH: 4-28 字节, 提供可靠数据报( Datagram)服务。 图 2 InfiniBand 数据包结构 Payload(PYLD): 0-4096 字节, 被发送的端到端应用数据。 ICRC: 4 字 节 , 封装数据包中从源地址发往目的地址时保持不变的数据。 VCRC: 2 字节 , 封装 链接过程中可变的 IBA 和原始( raw)数据包 。 VCRC 在结构(

16、fabric)中可被重构。 InfiniBand 数据包使用一个 128 位的 IPv6 扩展地址,其数据包包括 InfiniBand GRH 中的源( HCA)和目的( TCA)地址,这些地址使 InfiniBand 交换机可以立即将数据包直接交换到正确的设备上。 基于铜缆和光纤, InfiniBand 物理层支持单线( 1X)、 4 线( 4X) 、 8 线( 8X) 和 12 线( 12X)数据包传输。 InfiniBand 标准支持单倍速( SDR)、双倍速( DDR)、 四倍速( QDR) 、十四倍速( FDR)和增强倍速( EDR) 数据传输速率,使 InfiniBand 能够传输

17、更大的数据量(见表 1)。由于InfiniBand DDR/QDR 提供了极大地改善了性能,所以它特别适合于传输大数据文件的应用,如分布式数据库和数据挖掘应用。 表 1 InfiniBand 传输速率规格 通道数 信号对 SDR (Gbps) DDR (Gbps) QDR (Gbps) FDR (Gbps) EDR (Gbps) 1x 2 2.5 5 10 14 26 4x 8 10 20 40 56 104 8x 16 20 40 80 112 208 12x 24 30 60 120 168 312 与 InfiniBand SDR 一样, DDR 和 QDR 也采用了直通 转发技术( c

18、ut-through)。如果采用不同的传输速率,则 InfiniBand 子网管理器须是拓扑透明( topology-aware)的并只把 SDR数据包转发至 SDR 连接(或把 DDR 数据包转发至 DDR 连接),或者交换网络须能存储和转发数据包以提供速率匹配。当在 SDR 和 DDR 连接之间进行数据交换时,附加的存储转发延时是数据包串行化延时的一半。为了在 SDR 主机和 DDR 主机进行数据交换, DDR 主机根据连接建立时交换产生的 QP 参数进行限速传输。 5 InfiniBand 架构层次结构 根据 IBTA 的定义, InfiniBand 架构 由物理 层、链路层、网络层和传

19、输层组成,其 层次结构如图 3 所示。 图 3 InfiniBand 层次结构 图 物理层:物理层为链路层提供服务,并提供这两层的逻辑接口。物理层由端口信号连接器、物理连接(电信号和光信号)、硬件管理、电源管理、编码线等模块组成,其主要的作用: ( 1) 建立物理连接; ( 2) 通知链路层物理连接是否有效; ( 3) 监听物理连接状态,在物理连接有效时: 把控制信号和数据传递给链路层; 传输从链路层来的控制和数据信息。 链路层:链路层负责处理数据包中链接数据的收发,提供地址、缓 冲、流控制、错误检用 户上 层 协 议I B A 操 作S A R网 络链 路 编 码M A C传 输 层网 络

20、层链 路 层物 理 层用 户I B A 操 作S A R网 络链 路 编 码M A C用 户 操 作报 文( 队 列 偶 )子 网 交 互 路 由包 中 继链路MAC链路MAC包 中 继MACMAC子 网 路 由流 控 制交 换 机端 节 点路 由 器端 节 点S A R : 分 段 和 重 组 M A C : 介 质 访 问 控 制测和数据交换等 服务 。 服务质量( QoS) 主要由该层体现 。 状态机( state machine)用来把链路层的逻辑操作定义为外部可访问操作,并不指定内部操作。例如,虽然我们希望链路层的操作能够并行处理数据流的多个字节,但数据包接收状态机还是将从链路层接收

21、到的数据作为字节流来处理。 网络层: 网络层 负责 对 IBA 子网间的数据包进行路由 ,包括单点传送( unicast)和多点传送( multicast)操作 。 网络层不指定多协议路由(如非 IBA 类型之上的 IBA 路由),也不指定 IBA 子网间原始数据包是如何路由 。 传输层: 每个 IBA 数据包 含有一个 传输 报头 ( header) 。传输 报头 包含了端节点所需的信息以完成指定的操作。通过 操控 QP,传输层的 IBA 通道适配器通信客户端组成了 “发送 ”工作队列和 “接收 ”工作队列。对于主机来说,传输层的客户端是一个 Verbs 软件层,客户端传递 缓冲器或命令至这

22、些队列,硬件则往来传送缓冲器数据。 当建立 QP 时,它融合了四种IBA 传输服务类型(可靠的连接、可靠的自带寻址信息、 不 可靠的自带寻址信息、 不可靠的连接) 中的一种或非 IBA 协议封装服务。传输服务描述了可靠性和 QP 传送数据的工作原理和传输内容 。 6 InfiniBand 的交换机制 InfiniBand 所采用的交换结构( Switched Fabric)是一种面向系统故障容忍性和可扩展性的基于交换的点到点互联结构 10。 交换机主要作用是把数据包送达数据包本地路由报头指定的目标地址, 同时 交换机也耗用数据包以满足自管理的需要。 IBA 交换机 是内部子网路由的基本路由构件

23、(子网间路由功能由 IBA 路由器提供)。交换机的相互连接由链路间的中继数据包( relaying packets)来完成。 InfiniBand 交换机实现的功能有:子网管理代理( SMA)、性 能管理代理( PMA)和基板管理代理( BMA)。 SMA 提供 一个 让子网管理者通过子网管理包获得交换机内部的记录和表数据 的接口 ,实现消息通知、 服务等级( Service Level, SL)到虚路径( Virtual Lane, VL)的映射、 VL 仲裁、多播转发 、供应商特性 等功能 。 PMA 提供一个让性能管理者监控交换机的数据吞吐量和错误累计量等性能信息的接口。 BMA 在基板

24、管理者和底架 管理者之间提供一个通信通道。 InfiniBand 交换机的数据转发 主要 功能: (1) 选择输出端口: 根据数据包的本地目的 标识 符 ( Destination Local Identifier, DLID),交换机从 转发表中查出输出端口的端口号。 (2) 选择输出 VL:支持 SL 和 VL。交换机根据 SL-VL 映射表确定不同优先级别的数据包所使用输出端口的 VL。 (3) 数据流控制:采用基于信用的链路级流控机制。 (4) 支持单播、多播和广播 :交换机能把多播包或广播包转换为多个单播包进行交换。 (5) 分区划分:只有同一分区的主机才能相互通信。每个分区具有唯一

25、的分区密钥,交换机检查 数据包 的 DLID 是否在密钥所对应的分区内。 (6) 错误校验:包括不一致错误检验、编码错误校验、成帧错误校验、包长度校验、包头版本校验、服务级别有效性校验、流控制遵从和最大传输单元校验。 (7) VL 仲裁:支持子网 VL(包括管理 VL15 和数据 VL)。交换机采用 VL 仲裁保证优先级高的数据包得到更好的服务。 目前生产 InfiniBand 交换机的厂商主要有 Mallanox、 QLogic、 Cisco、 IBM 等。 7 InfiniBand 与以太网 从 InfiniBand 的诞生、发展,到现在占据 HPC 领域的主流地位, 人们总会拿它与普遍采

26、 用的以太网技术做比较。作者整理两者的比较如表 2 所示。 表 2 InfiniBand 与 万兆 以太网的比较 InfiniBand (12x) 万兆以太网 带宽 30G, 60G, 120G, 168G, 312G 10G 延迟 小于等于 1 微秒 接近 10 微秒 应用领域 超级计算 企业存储领域 互联网、城域网、 数据中心 骨干网等 优点 极低的延迟和高吞吐量。 应用范围广,已成为业界普遍认可的标准互联技术。 缺点 在服务器硬件上需要昂贵的专有互联设备。 延迟难以进一步降低。 从 上表可知, InfiniBand 在数据传输和低延迟 两 方面大大超过 了以太网。 InfiniBand

27、的低延迟设计使得它极其适合高性能计算领域。 此 外, InfiniBand 在 单位成本方面也具有相当的 优势。 从最新的全球 HPC TOP500( 2011 年 11 月)中可以发现, Infiniband 的 占有 率 不断提高,其在 TOP100 中更是占主导地位,而 以太网 的 占有 率则逐年下降 , 目前两者 在 HPC 领域 的占有 率基本持平 。 9 结束 语 随着 InfiniBand 的不断发展,它 已成为 取代千兆 /万兆以太网的最佳方案,必将成为高速互连网络的首选 ,其与以太网络、 iSCSI 融合 将 更加紧密 。 IBTA 对 InfiniBand 的发展作出了预测

28、,表明 在未来三年里 InfiniBand FDR、 EDR 和 HDR 将有快速增长的市场需求, 2020年之前 InfiniBand 的带宽将 有望 达到 1000Gbps。 InfiniBand 未来在 GPU、固态硬盘和 集群 数据库方面将有广阔的应用前景。 参考文献 : 1 What is InfiniBand? http:/ 2 IBTA. InfiniBand Architecture Specification Volume 1 Release 1.2.1S, Nov.2007 3 Gregory F. Pfister, “An Introduction to the Infi

29、niBand Architecture”, USA: IBM Enterprise Server Group, 2006 4 司马聪 .InfiniBand 的 现状和发展趋势 R.北京 :存储在线 ,2007 5 刘伟 ,郭丽 ,闫晋锋 .高速互联技术探索与发展 J.科技信息 ,2007(32):93,164 6 黄亮 ,刘福岩 .基于 RapidIO 和存储映射的高速互连网络 J.计算机工程 ,2008,34(14):116-120 7 Paul Grun. Introduction to InfiniBand for End Users. USA: IBTA white paper,2010. 8 洪钊峰 .采用 Infiniband 构建高性能计算平台 . http:/ 9 IBTA. InfiniBand Architecture Specification Volume 2 Release 1.2.1S, Oct.2006 10 董小社 ,贾志国 ,赵青苹 .InfiniBand 交换机制的研究 J.微电子 学 与计算机 ,2004,2(21):81-85 11 彭龙根 ,姚建华 .一种基于 Xen 平台的 InfiniBand 网络虚拟化技术 J.计算机工程与科学 ,2009(Z1)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 网络科技 > 网络与通信

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报