三代测序的简介和原理

时间:2024-11-18 07:21:56

三代测序的简介

​ 第三代测序技术是指单分子测序技术。DNA测序时,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。第三代测序技术也叫从头测序技术,即单分子实时DNA测序。第三代测序技术以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技为代表,与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。

测序时代的发展img

技术原理

第三代测序技术原理主要分为两大技术阵营:

第一大阵营是单分子荧光测序,代表性的技术为美国螺旋生物(Helicos)的SMS技术和美国太平洋生物(Pacific Bioscience)的SMRT技术。其中PacBio SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体。基本原理是: DNA聚合酶和模板结合,4色荧光标记 4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。同时这个 DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即 ZMW(零模波导孔),外径 100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息(图7)。SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。

img

																图 SMRT测序原理

第二大阵营为纳米孔测序,代表性的公司为英国牛津纳米孔公司。新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔 来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而ATCG单个碱基的带电性质不一样,通过电信号的差异就能检测出通过的碱基类别,从而实现测序。Oxford Nanopore Technologies公司所开发的纳米单分子测序技术与以往的测序技术皆不同,它是基于电信号而不是光信号的测序技术5。该技术的关键之一是,他们设计了一种特殊的纳米孔,孔内共价结合有分子接头。当DNA碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基(图8)。

该公司在去年基因组生物学技术进展年会(AGBT)上推出第一款商业化的纳米孔测序仪,引起了科学界的极大关注。纳米孔测序(和其他第三代测序技术)有望解决目前测序平台的不足,纳米孔测序的主要特点是:读长很长,大约在几十kb,甚至100 kb;错误率目前介于1%至4%,且是随机错误,而不是聚集在读取的两端;数据可实时读取;通量很高(30x人类基因组有望在一天内完成);起始DNA在测序过程中不被破坏;以及样品制备简单又便宜。理论上,它也能直接测序RNA。纳米孔单分子测序计算还有另一大特点,它能够直接读取出甲基化的胞嘧啶,而不必像传统方法那样对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。并且改方法的测序准确性可达99.8%,而且一旦发现测序错误也能较容易地进行纠正。但目前似乎还没有应用该技术的相关报道

img

​ 图8. 纳米孔测序

解决关键技术

第一:因为在显微镜实时记录DNA链上的荧光的时候,DNA链周围的众多的荧光标记的脱氧核苷酸形成了非常强大的荧光背景。这种强大的荧光背景使单分子的荧光探测成为不可能。Pacific Biosciences公司发明了一种直径只有几十纳米的纳米孔[zero-mode waveguides (ZMWs)],单分子的DNA聚合酶被固定在这个孔内。在这么小的孔内,DNA链周围的荧光标记的脱氧核苷酸有限,而且由于A,T,C,G这四种荧光标记的脱氧核苷酸非常快速地从外面进入到孔内又出去,它们形成了非常稳定的背景荧光信号。而当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色的荧光会持续一小段时间,直到新的化学键形成,荧光基团被DNA聚合酶切除为止。

第二:共聚焦显微镜实时地快速地对集成在板上的无数的纳米小孔同时进行记录。

技术特点

1、它实现了DNA聚合酶内在自身的反应速度,一秒可以测10个碱基,测序速度是化学法测序的2万倍。

2、它实现了DNA聚合酶内在自身的延续性,一个反应就可以测非常长的序列。二代测序可以测到上百个碱基,但是三代测序就可以测几千个碱基。

3、它的精度非常高,达到99.9999%。

4、直接测RNA的序列。既然DNA聚合酶能够实时观测,那么以RNA为模板复制DNA的逆转录酶也同样可以。RNA的直接测序,将大大降低体外逆转录产生的系统误差。

5、第二个是直接测甲基化的DNA序列。实际上DNA聚合酶复制A、T、C、G的速度是不一样的。正常的C或者甲基化的C为模板,DNA聚合酶停顿的时间不同。根据这个不同的时间,可以判断模板的C是否甲基化。

平台比较

测序方法/平台 公司 方法/酶 测序长度 每个循环的数据产出量 每个循环耗时 主要错误来源
第三代测序技术 Heliscope/HelicosGenetic AnalysisSystem Helicos 边合成边测序/DNA聚合酶 30-35 bp 21-28 Gb 8 d 替换
SMRT Pacific Biosciences 边合成边测序/DNA聚合酶 100000 bp
纳米孔单分子 Oxford Nanopore 电信号测序/核酸外切酶 无限长

技术的应用

基因组测序

由于具有读长长的特点,SMRT测序平台在基因组测序中能降低测序后的Contig数量,明显减少后续的基因组拼接和注释的工作量,节省大量的时间[25]。Christophern等[26]仅仅用0.5的Pacbio RS系统长度的数据与38的二代测序(NGS)的测序数据,对马达加斯加的一种指猴基因组进行拼装,大幅度提高了数据的质量和完整度,同时借助Pacbio RS的帮助将原有的Contig数量减少了10倍。DavidA.等利用Pachio RS平台C2试剂通过全球合作几天内就完成了从德国大肠杆菌疫情中获得的大肠杆菌样品以及近似菌株的测序和数据分析,最终获得了2900bp的平均读长以及99.998%的一致性准确度。在对霍乱病菌的研究中,第三代测序技术已初现锋芒。研究人员对5株霍乱菌株的基因组进行了测序研究,并与其他23株霍乱弧菌的基因组进行对比。结果发现海地霍乱菌株与2002年和2008年在孟加拉国分离得到的变异霍乱弧菌ElTorO1菌株之间关系密切,而与1991年拉丁美洲霍乱分离株的关系较远。相对NGS的优势就是能更快获得结果,因此该系统在鉴定新的病原体和细菌的基因组测序方面得到很广泛的应用[1] 。

甲基化研究

SMRT技术采用的是对DNA聚合酶的工作状态进行实时监测的方法,聚合酶合成每一个碱基,都有一个时间段,而当模板碱基带有修饰时,聚合酶会慢下来,使带有修饰的碱基两个相邻的脉冲峰之间的距离和参考序列的距离之间的比值结果大于1,由此就可以推断这个位置有修饰。甲基化研究中关于5mC和5hmC(5mC的羟基化形式)是甲基化研究中的热点。但现有的测序方法无法区分5mC和5hmC。美国芝加哥大学利用SMRT测序技术和5hmC的选择性化学标记方法来高通量检测5hmC。通过聚合酶动力学提供的信息,可直接检测到DNA甲基化,包括N6甲基腺嘌呤、5mC和5hmC,为表观遗传学研究打开了一条通路。

突变鉴定

单分子测序的分辨率具有不可比拟的优势,而且没有PCR扩增步骤,就没有扩增引入的碱基错误,该优势使其在特定序列的SNP检测,稀有突变及其频率测定中大显身手。例如在医学研究中,对于FLT3基因是否是急性髓细胞白血病(AML)的有效治疗靶标一直存在质疑。研究人员用单分子测序分析耐药性患者基因,意外发现耐药性与FLT3基因下游出现的稀有新突变有关,重新证明了FLT3基因是这种最常见白血病—急性髓细胞白血病(AML)的有效治疗靶标,打破了一直以来对于这一基因靶标的疑惑。凭借PacBio平均3000bp的读长,获得了更多基因下游的宝贵信息,而基于单核酸分子的测序能够检测到低频率(低至1%)罕见突变,正是这项成果的关键所在。

三代测序的优缺点

优势:

①第三代基因测序读长较长,可以减少拼接成本,节省内存和计算时间;

②作用原理上避免了 PCR 扩增引入错误;

③拓展应用:RNA的序列,甲基化的DNA序列等;

缺陷:

①单读长的错误率偏高,需重复测序以纠错(增加测序成本);

②依赖DNA聚合酶的活性;

③成本较高(二代Illumina的测序成本是每100万个碱基0.05-0.15美元,三代测序成本是每100万个碱基0.33-1.00美元)。

④生信分析软件不够丰富、数据积累少。