1、RAID 级别的介绍与选择依据RAID 在市场上的的应用,已经不是新鲜的事儿了,很多人都大略了解 RAID 的基本观念,以及各个不 RAID LEVEL 的区分。但是在实际应用面,我们发现,有很多使用者对于选择一个合适的 RAID LEVEL,仍然无法很确切的掌握,尤其是对于 RAID 0+1 (10),RAID 3,RAID 5 之间的选择取舍,更是举棋不定。 下面将针对 RAID 0+1/10、RAID 3 以及 RAID 5 的工作原理和特性,作一些分析和比较,以列出这些不同 RAID 阶层所适合的应用,对使用者能有原则性的帮助。 RAID 条带“striped”的存取模式 在使用数据条
2、带(Data Stripping)的 RAID 系统之中,对成员磁盘驱动器的存取方式,可分为两种: 并行存取 Paralleled Access 独立存取 dependent Access RAID 2 和RAID 3 是采取并行存取模式。 RAID 0、RAID 4、RAID 5 及 RAID 6 则是采用独立存取模式。 平行存取模式 并行存取模式支持里,是把所有磁盘驱动器的主轴马达作精密的控制,使每个磁盘的位置都彼此同步,然后对每一个磁盘驱动器作一个很短的 I/O 数据传送,如此一来,从主机来的每一个 I/O 指令,都平均分布到每一个磁盘驱动器。 为了达到并行存取的功能,RAID 中的每一
3、个磁盘驱动器,都必须具备几乎完全相同的规格:转速必须一样;磁头搜寻速度Access Time 必须相同;Buffer 或 Cache 的容量和存取速度要一致;CPU 处理指令的速度要相同;I/O Channel 的速度也要一样。总而言之,要利用并行存取模式,RAID 中所有的成员磁盘驱动器,应该使用同一厂牌,相同型号的磁盘驱动器。 并行存取的基本工作原理 假设 RAID 中共有四部相同规格的磁盘驱动器,分别为磁盘驱动器 A、B、C 和 D,我们在把时间轴略分为 T0、T1、T2、T3 和 T4: T0: RAID 控制器将第一笔数据传送到 A 的 Buffer,磁盘驱动器 B、C 和 D 的
4、Buffer 都是空的,在等待中; T1: RAID 控制器将第二笔数据传送到 B 的 Buffer,A 开始把 Buffer 中的数据写入扇区,磁盘驱动器 C 和 D 的 Buffer 都是空的,在等待中; T2: RAID 控制器将第三笔数据传送到 C 的 Buffer,B 开始把 Buffer 中的数据写入扇区,A 已经完成写入动作,磁盘驱动器 D 和 A 的 Buffer 都是空的,在等待中;T3: RAID 控制器将第四笔数据传送到 D 的 Buffer,C 开始把 Buffer 中的数据写入扇区,B 已经完成写入动作,磁盘驱动器 A 和 B 的 Buffer 都是空的,在等待中;
5、T4: RAID 控制器将第五笔数据传送到 A 的 Buffer,D 开始把 Buffer 中的数据写入扇区,C 已经完成写入动作,磁盘驱动器 B 和 C 的 Buffer 都是空的,在等待中; 如此一直循环,一直到把从主机来的这个 I/O 指令处理完毕,RAID 控制器才会受处理下一个 I/O 指令。重点是在任何一个磁盘驱动器准备好把数据写入扇区时,该目的扇区必须刚刚好转到磁头下。同时 RAID 控制器每依次传给一个磁盘驱动器的数据长度,也必须刚刚好,配合磁盘驱动器的转速,否则一旦发生 miss,RAID 性能就大打折扣。 并行存取 RAID 的最佳应用 并行存取 RAID 之架构,以其精细
6、的马达控制和分布之数据传输,将数组中每一个磁盘驱动器的性能发挥到最大,同时充分利用 Storage Bus 的频宽,因此特别适合应用在大型、数据连续的档案存取应用,例如:影像、视讯档案服务器数据仓储系统多媒体数据库电子图书馆印前或底片输出档案服务器其它大型且连续性档案服务器由于并行存取 RAID 架构之特性,RAID 控制器一次只能处理一个 I/O 要求,无法执行Overlapping 的多任务,因此非常不适合应用在 I/O 次数频繁、数据随机存取、每笔数据传输量小的环境。同时,因为并行存取无法执行 Overlapping 的多任务,因此没有办法“隐藏“磁盘驱动器搜寻?zseek?的时间,而且
7、在每一个 I/O 的第一笔数据传输,都要等待第一个磁盘驱动器旋转延迟?zrotational latency?,平均为旋转半圈的时间,如果使用一万转的磁盘驱动器,平均就需要等待 50 usec。所以机械延迟时间,是并行存取架构的最大问题。独立存取模式相对于并行存取模式,独立存取模式并不对成员磁盘驱动器作同步转动控制,其对每个磁盘驱动器的存取,都是独立且没有顺序和时间间格的限制,同时每笔传输的数据量都比较大。因此,独立存取模式可以尽量地利用 overlapping 多任务、Tagged Command Queuing 等等高阶功能,来“隐藏“上述磁盘驱动器的机械时间延迟 Seek 和 Rotat
8、ional Latency。 由于独立存取模式可以做 overlapping 多任务,而且可以同时处理来自多个主机不同的 I/O Requests,在多主机环境如 Clustering,更可发挥最大的性能。 独立存取 RAID 的最佳应用 由于独立存取模式可以同时接受多个 I/O Requests,因此特别适合应用在数据存取频繁、每笔数据量较小的系统。例如: 在线交易系统或电子商务应用多使用者数据库ERM 及 MRP 系统小文件之文件服务器 一般常用的 RAID 阶层,分别是 RAID 0、RAID1、RAID 3、RAID 4 以及 RAID 5,再加上二合一型 RAID 0+1 或称 RA
9、ID 10。我们先把这些 RAID 级别的优、缺点做个比较: RAID 级别 相对优点 相对缺点 RAID 0 存取速度最快 没有容错 RAID 1 完全容错 成本高 RAID 3 写入性能最好 没有多任务功能 RAID 4 具备多任务及容错功能 Parity 磁盘驱动器造成性能瓶颈RAID 5 具备多任务及容错功能 写入时有 overhead RAID 0+1/RAID 10 速度快、完全容错 成本高 接下来,我们分别针对 RAID 3、RAID 5 以及 RAID 0+1/RAID 10 作深入的讨论。 RAID 3 特点与应用RAID 3 是将数据先做 XOR 运算,产生 Parity
10、Data 后,在将数据和 Parity Data 以并行存取模式写入成员磁盘驱动器中,因此具备并行存取模式的优点和缺点。进一步来说,RAID 3每一笔数据传输,都更新整个 Stripe 即每一个成员磁盘驱动器相对位置的数据都一起更新,因此不会发生需要把部分磁盘驱动器现有的数据读出来,与新数据作 XOR 运算,再写入的情况发生这个情况在 RAID 4 和 RAID 5 会发生,一般称之为 Read、Modify、Write Process,我们姑且译为为读、改、写过程。因此,在所有 RAID 级别中,RAID 3 的写入性能是最好的。 RAID 3 的 Parity Data 一般都是存放在一个
11、专属的 Parity Disk,但是由于每笔数据都更新整个 Stripe,因此,RAID 3 的 Parity Disk 并不会如 RAID 4 的 Parity Disk,会造成存取的瓶颈。 RAID 3 的并行存取模式,需要 RAID 控制器特别功能的支持,才能达到磁盘驱动器同步控制,而且上述写入性能的优点,以目前的 Caching 技术,都可以将之取代,因此一般认为RAID 3 的应用,将逐渐淡出市场。 RAID 3 以其优越的写入性能,特别适合用在大型、连续性档案写入为主的应用,例如绘图、影像、视讯编辑、多媒体、数据仓储、高速数据撷取等等。 RAID 4 特点与应用RAID 4 是采取
12、独立存取模式,同时以单一专属的 Parity Disk 来存放Parity Data。RAID 4 的每一笔传输 Strip 资料较长,而且可以执行 Overlapped I/O,因此其读取的性能很好。 但是由于使用单一专属的 Parity Disk 来存放 Parity Data,因此在写入时,就会造成很大的瓶颈。因此,RAID 4 并没有被广泛地应用。 RAID 5 特点与应用RAID 5 也是采取独立存取模式,但是其 Parity Data 则是分散写入到各个成员磁盘驱动器,因此,除了具备 Overlapped I/O 多任务性能之外,同时也脱离如 RAID 4 单一专属Parity D
13、isk 的写入瓶颈。但是,RAID 5 在做资料写入时,仍然稍微受到“读、改、写过程“的拖累。 由于 RAID 5 可以执行 Overlapped I/O 多任务,因此当 RAID 5 的成员磁盘驱动器数目越多,其性能也就越高,因为一个磁盘驱动器再一个时间只能执行一个 Thread,所以磁盘驱动器越多,可以 Overlapped 的 Thread 就越多,当然性能就越高。但是反过来说,磁盘驱动器越多,数组中可能有磁盘驱动器故障的机率就越高,整个数组的可靠度,或MTDL (Mean Time to Data Loss) 就会降低。 由于 RAID 5 将 Parity Data 分散存在各个磁盘
14、驱动器,因此很符合 XOR 技术的特性。例如,当同时有好几个写入要求发生时,这些要写入的数据以及 Parity Data 可能都分散在不同的成员磁盘驱动器,因此 RAID 控制器可以充分利用 Overlapped I/O,同时让好几个磁盘驱动器分别作存取工作,如此,数组的整体性能就会提高很多。 基本上来说,多人多任务的环境,存取频繁,数据量不是很大的应用,都适合选用 RAID 5 架构,例如企业档案服务器、WEB 服务器、在线交易系统、电子商务等应用,都是数据量小,存取频繁的应用。 RAID 0+1 RAID 10 RAID 0+1/RAID 10,综合了RAID 0 和 RAID 1 的优点
15、,适合用在速度需求高,又要完全容错。RAID 0 和 RAID 1 的原理很简单,合起来之后还是很简单,我们不打算详细介绍,倒是要谈谈,RAID 0+1 到底应该是RAID 0 over RAID 1,还是 RAID 1 over RAID 0,也就是说,是把多个 RAID 1 做成 RAID 0,还是把多个 RAID 0 做成 RAID 1? RAID 0 over RAID 1 假设我们有四台磁盘驱动器,每两台磁盘驱动器先做成 RAID 1,再把两个 RAID 1 做成 RAID 0,这就是 RAID 0 over RAID 1: (RAID 1) A = Drive A1 + Drive
16、 A2 (Mirrored)(RAID 1) B = Drive B1 + Drive B2 (Mirrored)RAID 0 = (RAID 1) A + (RAID 1) B (Striped) RAID 1 over RAID 0 假设我们有六台磁盘驱动器,每两台磁盘驱动器先做成 RAID 0,再把两个 RAID 0 做成 RAID 1,这就是RAID 0 over RAID 1: (RAID 0) A = Drive A1 + Drive A2 (Striped)(RAID 0) B = Drive B1 + Drive B2 (Striped)RAID 1 = (RAID 1) A + (RAID 1) B (Mirrored) 在这种架构之下,如果 (RAID 0)A 有一台磁盘驱动器故障,(RAID 0) A 就算毁了,当然 RAID 1 仍然可以正常工作;如果这时(RAID 0) B 也有一台磁盘驱动器故障,(RAID 0) B 也就算毁了,此时 RAID 1 的两磁盘驱动器都算故障,整个 RAID 1 资料就毁了。 因此,RAID 0 OVER RAID 1 应该比RAID 1 OVER RAID 0 具备比较高的可靠度。所以我们建议,当采用 RAID 0+1/RAID 10 架构时,要先作 RAID 1,再把数个 RAID 1 做成 RAID 0。