独立硬盘冗余阵列与HDFS

http://zh.wikipedia.org/wiki/RAID

独立硬盘冗余阵列（RAID, Redundant Array of Independent Disks），旧称廉价磁盘冗余阵列（Redundant Array of Inexpensive Disks），简称硬盘阵列。其基本思想就是把多个相对便宜的硬盘组合起来，成为一个硬盘阵列组，使性能达到甚至超过一个价格昂贵、容量巨大的硬盘。根据选择的版本不同，RAID比单颗硬盘有以下一个或多个方面的好处：增强数据集成度，增强容错功能，增加处理量或容量。另外，磁盘阵列对于电脑来说，看起来就像一个单独的硬盘或逻辑存储单元。分为RAID-0，RAID-1，RAID-1E，RAID-5，RAID-6，RAID-7，RAID-10，RAID-50，RAID-60。

简单来说，RAID把多个硬盘组合成为一个逻辑扇区，因此，操作系统只会把它当作一个硬盘。RAID常被用在服务器电脑上，并且常使用完全相同的硬盘作为组合。由于硬盘价格的不断下降与RAID功能更加有效地与主板集成，它也成为了玩家的一个选择，特别是需要大容量存储空间的工作，如：视频与音频制作。

最初的RAID分成了不同的等级，每种等级都有其理论上的优缺点，不同的等级在两个目标间取得平衡，分别是增加数据可靠性以及增加存储器（群）读写性能。这些年来，出现了对于RAID观念不同的应用。

标准RAID

RAID 0

RAID 0亦称为带区集。它将两个以上的磁盘并列起来，成为一个大容量的磁盘。在存放数据时，分段后分散存储在这些磁盘中，因为读写时都可以并行处理，所以在所有的级别中，RAID 0的速度是最快的。但是RAID 0既没有冗余功能，也不具备容错能力，如果一个磁盘（物理）损坏，所有数据都会丢失，危险程度与JBOD相当。

RAID 1

两组以上的N个磁盘相互作镜像，在一些多线程操作系统中能有很好的读取速度，理论上读取速度等于硬盘数量的倍数，另外写入速度有微小的降低。只要一个磁盘正常即可维持运作，可靠性最高。RAID 1就是镜像，其原理为在主硬盘上存放数据的同时也在镜像硬盘上写一样的数据。当主硬盘（物理）损坏时，镜像硬盘则代替主硬盘的工作。因为有镜像硬盘做数据备份，所以RAID 1的数据安全性在所有的RAID级别上来说是最好的。但无论用多少磁盘做RAID 1，仅算一个磁盘的容量，是所有RAID中磁盘利用率最低的一个级别。

如果用两个不同大小的磁盘建RAID 1，可用空间为较小的那个磁盘，较大的磁盘多出来的空间也可以分区成一个区来使用，不会造成浪费。

RAID 2

这是RAID 0的改良版，以汉明码（Hamming Code）的方式将数据进行编码后分区为独立的比特，并将数据分别写入硬盘中。因为在数据中加入了错误修正码（ECC，Error Correction Code），所以数据整体的容量会比原始数据大一些，RAID2最少要三台磁盘驱动器方能运作。

RAID 3

采用Bit－interleaving（数据交错存储）技术，它需要通过编码再将数据比特分割后分别存在硬盘中，而将同比特检查后单独存在一个硬盘中，但由于数据内的比特分散在不同的硬盘上，因此就算要读取一小段数据资料都可能需要所有的硬盘进行工作，所以这种规格比较适于读取大量数据时使用。

RAID 4

它与RAID 3不同的是它在分区时是以区块为单位分别存在硬盘中，但每次的数据访问都必须从同比特检查的那个硬盘中取出对应的同比特数据进行核对，由于过于频繁的使用，所以对硬盘的损耗可能会提高。（块交织技术，Block interleaving）

RAID 5

RAID Level 5是一种储存性能、数据安全和存储成本兼顾的存储解决方案。它使用的是Disk Striping（硬盘分区）技术。RAID 5至少需要三颗硬盘，RAID 5不是对存储的数据进行备份，而是把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上，并且奇偶校验信息和相对应的数据分别存储于不同的磁盘上。当RAID5的一个磁盘数据发生损坏后，可以利用剩下的数据和相应的奇偶校验信息去恢复被损坏的数据。RAID 5可以理解为是RAID 0和RAID 1的折衷方案。RAID 5可以为系统提供数据安全保障，但保障程度要比镜像低而磁盘空间利用率要比镜像高。RAID 5具有和RAID 0相近似的数据读取速度，只是因为多了一个奇偶校验信息，写入数据的速度相对单独写入一块硬盘的速度略慢，若使用“回写高速缓存”可以让性能改善不少。同时由于多个数据对应一个奇偶校验信息，RAID 5的磁盘空间利用率要比RAID 1高，存储成本相对较便宜。

RAID 6

与RAID 5相比，RAID 6增加了第二个独立的奇偶校验信息块。两个独立的奇偶系统使用不同的算法，数据的可靠性非常高，即使两块磁盘同时失效也不会影响数据的使用。但RAID 6需要分配给奇偶校验信息更大的磁盘空间，相对于RAID 5有更大的“写损失”，因此“写性能”非常差。较差的性能和复杂的实作方式使得RAID 6很少得到实际应用。

同一数组中最多容许两个磁盘损坏。更换新磁盘后，数据将会重新算出并写入新的磁盘中。依照设计理论，RAID 6必须具备四个以上的磁盘才能生效。

可使用的容量为硬盘总数减去2的差，乘以最小容量，公式为：

同理，数据保护区域容量则为最小容量乘以2。

RAID 6在硬件磁盘阵列卡的功能中，也是最常见的磁盘阵列等级。

混合RAID

JBOD

JBOD（ Just a Bunch Of Disks）在分类上，JBOD并不是RAID的等级。由于并没有规范，市场上有两类主流的做法

使用单独的链接端口如SATA、USB或1394同时控制多个各别独立的硬盘，使用这种模式通常是较高级的设备，还具备有RAID的功能，不需要依靠JBOD达到合并逻辑扇区的目的。
只是将多个硬盘空间合并成一个大的逻辑硬盘，没有错误备援机制。

数据的存放机制是由第一颗硬盘开始依序往后存放，即操作系统看到的是一个大硬盘（由许多小硬盘组成的）。但如果硬盘损毁，则该颗硬盘上的所有数据将无法救回。若第一颗硬盘损坏，通常无法作救援（因为大部分文件系统将磁盘分区表（partition table）‎存在磁盘前端，即第一颗），失去磁盘分区表即失去一切数据，若遭遇磁盘阵列数据或硬盘出错的状况，危险程度较RAID 0更剧。它的好处是不会像RAID，每次访问都要读写全部硬盘。

RAID 7

RAID 7并非公开的RAID标准，而是Storage Computer Corporation的专利硬件产品名称，RAID 7是以RAID 3及RAID 4为基础所发展，但是经过强化以解决原来的一些限制。另外，在实现中使用大量的高速缓存以及用以实现异步数组管理的专用即时处理器，使得RAID 7可以同时处理大量的IO要求，所以性能甚至超越了许多其他RAID标准的实做产品。但也因为如此，在价格方面非常的高昂。^[1]

RAID 10/01

RAID 10是先镜射再分区数据，再将所有硬盘分为两组，视为是RAID 0的最低组合，然后将这两组各自视为RAID 1运作。

RAID 01则是跟RAID 10的程序相反，是先分区再将数据镜射到两组硬盘。它将所有的硬盘分为两组，变成RAID 1的最低组合，而将两组硬盘各自视为RAID 0运作。

当RAID 10有一个硬盘受损，其余硬盘会继续运作。RAID 01只要有一个硬盘受损，同组RAID 0的所有硬盘都会停止运作，只剩下其他组的硬盘运作，可靠性较低。如果以六个硬盘建RAID 01，镜射再用三个建RAID 0，那么坏一个硬盘便会有三个硬盘脱机。因此，RAID 10远较RAID 01常用，零售主板绝大部份支持RAID 0/1/5/10，但不支持RAID 01。

RAID 50

RAID 5与RAID 0的组合，先作RAID 5，再作RAID 0，也就是对多组RAID 5彼此构成Stripe访问。由于RAID 50是以RAID 5为基础，而RAID 5至少需要3台硬盘，因此要以多组RAID 5构成RAID 50，至少需要6台硬盘。以RAID 50最小的6台硬盘组态为例，先把6台硬盘分为2组，每组3台构成RAID 5，如此就得到两组RAID 5，然后再把两组RAID 5构成RAID 0。

RAID 50在底层的任一组或多组RAID 5中出现1台硬盘损坏时，仍能维持运作，不过如果任一组RAID 5中出现2台或两台以上硬盘损毁，整组RAID 50就会失效。

RAID 50由于在上层把多组RAID 5构成Stripe，性能比起单纯的RAID 5高，容量利用率比RAID5要低。比如同样9块硬盘，RAID 50则3个RAID 5组成RAID 0，每个RAID 5会浪费一块硬盘，利用率为(1-3/9)，RAID 5则为(1-1/9)。

RAID 53

它拥有一个镜射条带数组，硬盘里其中一个条带就是一个是由3组以上的RAID 5组成RAID 3硬盘阵列。

RAID 60

raid 60

RAID 6与RAID 0的组合：先作RAID 6，再作RAID 0。换句话说，就是对两组以上的RAID 6作Stripe访问。RAID 6至少需具备4台硬盘，所以RAID 60的最小需求是8台硬盘。

由于底层是以RAID 6组成，所以RAID 60可以容许任一组RAID 6中损毁最多2台硬盘，而系统仍能维持运作；不过只要底层任一组RAID 6中损毁3台硬盘，整组RAID 60就会失效，当然这种情况的机率相当低。

比起单纯的RAID 6，RAID 60的上层通过结合多组RAID 6构成Stripe访问，因此性能较高。不过使用门槛高，而且容量利用率低是较大的问题。

应用

RAID2、3、4较少实际应用，因为RAID5已经涵盖了所需的功能，因此RAID2、3、4大多只在研究领域有实现，而实际应用上则以RAID5为主。

RAID4有应用在某些商用机器上，像是NetApp公司设计的NAS系统就是使用RAID4的设计概念。

磁盘阵列比较表

RAID等级	最少硬盘	最大容错	可用容量	读取性能	写入性能	安全性	目的	应用产业
单一硬盘	(参考)	0	1	1	1	无
JBOD	1	0	n	1	1	无（同RAID 0）	增加容量	个人（暂时）存储备份
0	2	0	n	n	n	一个硬盘异常，全部硬盘都会异常	追求最大容量、速度	3D产业实时渲染、视频剪接高速缓存用途
1	2	n-1	1	n	1	最高，一个正常即可	追求最大安全性	个人、企业备份
5	3	1	n-1	n-1	n-1	高	追求最大容量、最小预算	个人、企业备份
6	4	2	n-2	n-2	n-2	安全性较RAID 5高	同RAID 5，但较安全	个人、企业备份
10	4	n/2	n/2	n	n/2	安全性高	综合RAID 0/1优点，理论速度较快	大型数据库、服务器

1. n代表硬盘总数
2. JBOD可接到现有硬盘，直接增加容量

种类

根据实现模式，分为软件和硬件两种：^[2]^[3]

软件磁盘阵列（Software RAID）

主要由电脑主板CPU处理数组存储作业，缺点为耗损较多CPU资源运算RAID，优点则是价格偏低。分类有二种：

纯软件磁盘阵列（Pure Software RAID）：只需要主板支持即可，不需要任何磁盘阵列卡。若主板损坏，可能难以购买同款主板重建RAID。
硬件辅助磁盘阵列（Hardware-Assisted RAID）：需要一张RAID卡，以及厂商所提供的驱动程序。这款RAID较易迁移到其他电脑。

硬件磁盘阵列（Hardware RAID）: RAID卡上内置处理器，不需要服务器的CPU运算。优点是读写性能最快，不占用服务器资源，可用于任何操作系统，也能在系统断电后，通过备份电池模块（BBU, Backup Battery Unit）以及非易失性存储器 (NVRAM)将硬盘读写日志文件（Journal）包含的剩余读写作业先纪录在存储器中，等待电力供应撤消后，再由NVRAM取回日志文件数据，接着再完成读写作业，将剩余读写作业安全完成以确保读写完整性。备份电池模块通常会配合数组卡的Write-Back高速缓存模式，借由此存储器高速缓存读写作业以得到更高的读写性能；但是没有备份电池模块的硬件磁盘阵列卡，切勿使用Write-Back高速缓存模式以免遭遇断电情形导致读写数据流失。此外，因为硬件磁盘阵列卡搭载CPU处理器，所以可以与系统分离出来，对硬盘进行各种作业，还原作业的速度也比软件磁盘阵列快。缺点是其售价很高，通常只用于RAID 5和RAID 6。

常见RAID产品种类

磁盘阵列相关产品

使用磁盘阵列技术的产品，可依照该产品位于电脑主机中的位置来区分，在电脑主机内部运作的数组产品，包括了主板内置的磁盘阵列、磁盘阵列卡；在电脑主机外部运作的数组产品，则包括硬盘外接盒（别名：磁盘阵列设备）、NAS网络存储设备、硬盘外接座、存储卡数组盒。

主板

磁盘阵列技术内置于主板的厂商，常见的有：“英特尔”（Intel）、“超微”（AMD）二家厂商，还有采用Intel芯片组的相关主板厂商，例如：“华硕”（ASUS）、“技嘉”（GIGABYTE）、“微星”（MSI）、“华擎”（ASROCK）等等。

磁盘阵列卡

磁盘阵列技术应用于磁盘阵列卡的厂商，常见的有：“艾萨”（LSI）、“峰际科技”（HighPoint）、“HP”、“Adaptec”、“Areca”、“Supermicro”、“登昌恒兴业”（UPMOST）等等。

硬盘外接盒

磁盘阵列技术应用于硬盘外接盒的厂商，常见的有：“世特力”（Century）、“艾客优品”（AKITIO）、“大卫肯尼”（CyberSLIM）、“中铵”（ICY DOCK）、“锐铵”（STARDOM）。

具备RAID功能的硬盘外接盒，通常也叫“磁盘阵列设备”。

硬盘阵列系统

磁盘阵列技术应用于磁盘阵列系统的厂商有：“普安”（Infotrend）、“商丞”（Unifosa）、“普桦（现为商丞旗下存储事业群）”（Proware）、“潍进”(Netstor)、“乔鼎”（Promise）、“Sans Digital”、“G-Technology”、“Accusys ExaSAN”（ExaSAN）等等。

通常指大型存储系统Rackmount等大容量的机箱，16Bay以上的多层式机箱内，还会配上主板与CPU成为一个独立的系统。

NAS网络存储设备

磁盘阵列技术应用于NAS网络存储设备的厂商，常见的有：“群晖”（Synology）、“威联通”（QNAP）、“色卡司”（Thecus）、“凡达克”（Vantec）、“华芸”（Asustor）等等。

硬盘外接座

磁盘阵列技术应用于硬盘外接座的厂商，常见的有：“世特力”（Century）、“峰际科技”（HighPoint）、“弘拓”（ONNTO）、“中铵”（ICY DOCK）、“大卫肯尼”（CyberSLIM）等等。

存储卡数组盒

磁盘阵列技术应用于存储卡的厂商，目前可见的有“信亿”（ARACRD）、“登昌恒兴业”（UPMOST）、“致宇”（Bplus）等等。

转换器

磁盘阵列技术应用于转换器的厂商，目前可见的有“峰际科技”（HighPoint）。

磁盘阵列相关客户类型

一般消费者备份数据之用、企业创建ERP系统或NAS系统时的重要数据备份。
影音多媒体数字内容创作公司、个人影音剪辑数字内容工作室。
数字监控系统（DVR）、网络监控系统（NVR）等等需要大量存储视频的监控系统业者，军方、赌场因为需要大量监控系统也是常见使用磁盘阵列的客户。
证券、银行等金融行业保管重要客户数据。

RAID vs. HDFS（http://book.51cto.com/art/201310/412864.htm）

RAID技术可以通过硬件实现，比如专用的RAID卡或者主板直接支持，也可以通过软件实现。RAID技术在传统关系数据库及文件系统中应用比较广泛，但是在大型网站比较喜欢使用的NoSQL，以及分布式文件系统中，RAID技术却遭到冷落。

例如在HDFS（Hadoop 分布式文件系统）中，系统在整个存储集群的多台服务器上进行数据并发读写和备份，可以看作在服务器集群规模上实现了类似RAID的功能，因此不需要磁盘RAID。

HDFS以块（Block）为单位管理文件内容，一个文件被分割成若干个Block，当应用程序写文件时，每写完一个Block，HDFS就将其自动复制到另外两台机器上，保证每个Block有三个副本，即使有两台服务器宕机，数据依然可以访问，相当于实现了RAID1的数据复制功能。

当对文件进行处理计算时，通过MapReduce并发计算任务框架，可以启动多个计算子任务（MapReduce Task），同时读取文件的多个Block，并发处理，相当于实现了RAID0的并发访问功能。

HDFS架构如图4.23所示。

独立硬盘冗余阵列与HDFS

在HDFS中有两种重要的服务器角色：NameNode（名字服务节点）和DataNode（数据存储节点）。NameNode在整个HDFS中只部署一个实例，提供元数据服务，相当于操作系统中的文件分配表（FAT），管理文件名Block的分配，维护整个文件系统的目录树结构。DataNode则部署在HDFS集群中其他所有服务器上，提供真正的数据存储服务。

和操作系统一样，HDFS对数据存储空间的管理以数据块（Block）为单位，只是比操作系统中的数据块（512字节）要大得多，默认为64MB。HDFS将DataNode上的磁盘空间分成N个这样的块，供应用程序使用。

应用程序（Client）需要写文件时，首先访问NameNode，请求分配数据块，NameNode根据管理的DataNode服务器的磁盘空间，按照一定的负载均衡策略，分配若干数据块供Client使用。

当Client写完一个数据块时，HDFS会将这个数据块再复制两份存储在其他DataNode服务器上，HDFS默认同一份数据有三个副本，保证数据可靠性。因此在HDFS中，即使DataNode服务器有多块磁盘，也不需要使用RAID进行数据备份，而是在整个集群上进行数据复制，而且系统一旦发现某台服务器宕机，会自动利用其他机器上的数据将这台服务器上存储的数据块自动再备份一份，从而获得更高的数据可靠性。

HDFS配合MapReduce等并行计算框架进行大数据处理时，可以在整个集群上并发读写访问所有的磁盘，无需RAID支持。

独立硬盘冗余阵列与HDFS的更多相关文章

【linux相识相知】独立硬盘冗余阵列-RAID
独立硬盘冗余阵列(RAID,Redundant Array of Independant Disks),旧称为廉价磁盘冗余阵列(Redundant Array of Inexpensive Disks ...
RAID-独立磁盘冗余阵列
此文章理论部分内容大多数摘自网站开心技术园的一篇文章,但并做了一些修改与调整.理论部分原文链接:图文并茂 RAID 技术全解 – RAID0.RAID1.RAID5.RAID100-- 本文实验部 ...
浅谈数据库技术，磁盘冗余阵列，IP分配,ECC内存，ADO,DAO，JDBC
整理-----数据库技术,磁盘冗余阵列,IP分配, ECC内存,ADO, DAO,JDBC 1.MySQL MySQL是最受欢迎的开源SQL数据库管理系统,它由 MySQL AB开发.发布和支持.My ...
dell服务器从硬盘导入阵列信息
前几天去南京客户那里更新新的业务系统,客户要求将服务器上的旧的硬盘拆下来,换上新的硬盘,重新做raid,客户自己要插入旧的硬盘读取旧数据,昨天做了几个实验,两台Dell R710服务器各4块硬盘,一台 ...
RAID廉价磁盘冗余阵列介绍
RAID(廉价磁盘冗余阵列)技术主要是为了改善磁盘的访问延迟,增强磁盘的可用性和容错能力.目前服务器级别的计算机都支持插入多块磁盘(8块或者更多),通过使用RAID技术,实现数据在多块磁盘上的并发读写 ...
RAID磁盘冗余阵列
RAID阵列分类 **一.RAID 0** 1.优点: 充分利用 I/O 总线性能使其带宽翻倍,读/写速度翻倍: 充分利用磁盘空间,利用率为 100%.2.缺点: 不提供数据冗余: 无数据检验,不能保 ...
CentOS中配置SoftWareRaid磁盘冗余阵列
(以vmware workstation为例) 1.关机添加一块硬盘 2.使用fdisk -l 可以看到 /dev/sdb硬盘设备 3.fdisk /dev/sdb配置磁盘分区,准备4个磁盘分区,用于 ...
HDFS配置参数及优化之实战经验（Linux hdfs）
HDFS优化之实战经验 Linux系统优化一.禁止文件系统记录时间 Linux文件系统会记录文件创建.修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失.在挂载文件系统时设置no ...
RAID 概述
原创地址:http://www.cnblogs.com/jfzhu/p/3999283.html 转载请注明出处独立硬盘冗余阵列(RAID, Redundant Array of Indep ...

随机推荐

轻量级前端MVVM框架avalon - 初步接触
迷你简单易用的MVVM框架 avalon的介绍http://rubylouvre.github.io/mvvm/ 按照作者的介绍,在HTML中添加绑定,在JS中用avalon.define定义View ...
无须任何软件配置iis+ftp服务器图文说明
1.1 检查是否安装已安装IIS6组件在windows service 2003 操作系统中,windows组件“IIS6.0”是用户搭建站点以及ftp文件共享的服务器. 具体检查步骤如下: 进入“ ...
EntityFramework ,ef 介绍
EntityFramework之领域驱动设计实践分层架构在引入实例以前,我们有必要回顾,并进一步了解分层架构.“层”是一种体系结构模式[POSA1],也是被广大软件从业人员用得最为广泛而且最为灵活 ...
linux ssh rsa免输入密码
A为本地主机(即用于控制其他主机的机器) ; B为远程主机(即被控制的机器Server), 假如ip为172.24.253.2 ; 在A上的命令: ssh-keygen -t rsa (连续三 ...
css一行内容过多显示省略号
四个缺一不可. 效果如下图
docker入门【1】
1.拉取镜像 docker pull 镜像名:版本号例如:docker pull tomcat:7.0 默认会从docker官方镜像库拉取,不指定版本的话版本为latest 拉取后docker im ...
Java设计模式系列-装饰器模式
原创文章,转载请标注出处:<Java设计模式系列-装饰器模式> 一.概述装饰器模式作用是针对目标方法进行增强,提供新的功能或者额外的功能. 不同于适配器模式和桥接模式,装饰器模式涉及的是 ...
Unity 5 使用Roslyn编译器支持C&num; 7
Unity 2017可选使用新的Mono编译器,支持.NET 4.6和C# 6,解决bug的同时,代码优化更佳. Unity 5可以使用社区开源方案:https://bitbucket.org/ale ...
Log4Net日志配置
1.添加Log4net.dll引用将release版Log4net.dll拷贝到Lib文件夹,然后添加引用.
centos7安装mysql 8
1.查看已有mysql(包括mariadb) rpm -pa | grep mariadb yum list installed | grep mariadb rpm -pa | grep mysql ...