全外显子组生信分析流程-4-数据质控

数据质控
测序数据的产生经过了DNA提取、建库、测序等多个步骤，这些步骤会产生低质量或者无效的数据，需要对下机的原始数据进行质控。
1.原始序列数据解读
高通量测序得到的原始图像数据经过碱基识别（base calling）分析转化为原始测序序列（reads），我们称之为raw data，结果以fastq文件格式存储，该文件包含序列信息和序列的质量信息。一条read由4行描述：
全外显子组生信分析流程-4-数据质控
第1行：以@开头，随后是Illumina测序标识符（sequence identifier）进而描述性文字（上机相关信息）；
第2行：序列“ATCGN”,N指未识别碱基；
第3行：+
第4行：碱基的测序质量，与第2行对应。
!jk在这里插入图片描述
第四行数值换算方法是，每个字符对应的ASCII值-33，即为碱基质量值。
如果测序错误率用e表示，比如1/1000，Illumina Hiseq的剪接质量值用Qphred表示，Qphred=-10log10（e）
2．测序数据过滤（raw data to clean data）
测序得到的raw data会有少量reads包含接头信息、低质量碱基，为了保证后续分析，数据过滤主要成对去除一下三种情况的reads：
1）含有接头序列（Adapter）的 Reads；
2）单端 Read 中N（N表示无法确定碱基信息）的碱基个数超过该条 Read 碱基总数的 10%的 Reads；
3）单端 Read 中低质量（质量值低于 5）碱基数超过该条 Read 长度比例的 50%的。
全外显子组生信分析流程-4-数据质控
3. 测序错误率分布检查
碱基质量值和错误率对于关系如下：

总结：reads两端的错误率会高，中间低，如果中间高说明有问题。

4.测序数据质量分布
测序数据质量主要分布在Q30以上占比80%,这样的数据才能保证后续的分析
5.测序数据质量情况汇总
根据Illumina平台测序特点，要求Q30在80%以上，平均error rate在0.1%一下。
全外显子组生信分析流程-4-数据质控