为了保证数据的完整性,一般采用数据校验技术:
1、奇偶校验技术
2、md5,sha1等校验技术
3、CRC-32循环冗余校验技术
4、ECC内存纠错校验技术
HDFS数据完整性
1、HDFS以透明方式校验所有写入的数据,可以通过io.bytes.per.checksum属性设置,字节数默认是512 字节,创建一个单独的校验和,如果节点检测数据错误,就会报CheckSumException异常。
2、除了在读取数据时进行验证,数据节点也会在后台运行一个线程 DataBlockscanner
(数据块检测程序)周期性的验证存储在数据节点上的所有块。
3、一旦检测到corruptblock
,在heartbeat阶段,DN会收到NN发来的Block Command,从其他数据块中拷贝一份新的replica
(备份块)。
本地文件系统
如果使用本地文件系统file:///,在写一个文件file的时候,会隐式创建一个file.crc文件,包含每个数据块的checksum。
使用FileSystem.setVerifyChecksum(false)来禁用校验和验证,也可以在shell命令中使用-ignoreCrc选项。
禁用校验的方法还可以通过RawLocalFilesystem原生支持校验和,底层文件系统原生支持校验和,这里通过 RawLocalFileSystem来替代LocalFileSystem完成。
1、通过设置fs.file.impl的值为org.apache.hadoop.fs,RawLocalFileSystem
2、建立它的实例
LocalFileSystem
继承于ChecksumFileSystem
, ChecksumFileSystem
提供了文件校验的系统功能。
package org.apache.hadoop.fs;
/**********************************************************
Implement the FileSystem API for the raw local filesystem.
*************************************************************/
public class RawLocalFileSystem extends FileSystem {
}
public abstract class ChecksumFileSystem extends FilterFileSystem {
}
public class LocalFileSystem extends ChecksumFileSystem {
}
验证是否存在file.crc文件
package Compress;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.ChecksumFileSystem;
import org.apache.hadoop.fs.LocalFileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
public class CheckpointFileSystem {
public static void main(String[] args) throws IOException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "DeCodec");
//打包运行必须执行的方法
job.setJarByClass(CheckpointFileSystem.class);
LocalFileSystem localFileSystem = ChecksumFileSystem.getLocal(conf);
System.out.println(
localFileSystem.getChecksumFile(new Path("/liguodong/data")));
}
}
[root@master liguodong]# yarn jar checksum.jar
/liguodong/.data.crc