SNP相关研究进展[转]

时间:2024-02-20 19:39:31

转自:http://www.labbase.net/News/ShowNewsDetails-4-38-8E916CC7FB32C101.html

SNP (Single Nucleotide Polymorphism 单核苷酸多态)具有分布密度高、基因分型方法具有进行大规模处理的潜力等特点,而成为继微卫星标记后引人注目的一类遗传多态标记。1980年 Botstein 等就已采用RFLP (限制性酶切片段长度多态)构建DNA的物理图谱。自从1995年以来在基因组测序的过程中,SNP被研究者重新认识,其应用越来越广泛,从复杂遗传病和肿瘤易感基因的定位,到群体和进化遗传学研究,SNP已成为一种重要的研究工具。NCBI的dbSNP数据库是启动最早,收集数据最多的公共数据库,尽管它无论在用户界面设计,还是在数据内容方面都存在相当多的局限和问题,但它仍然是在学术界最有影响的SNP数据资源之一。该数据库的数据一般都有两个身份标识(ID):ss编号和rs编号,前者是为所有研究者提交的SNP都生成的编号,称为NCBI分析编号(NCBI Assay ID),而后者是在对所有已有数据比较后,为独特SNP生成的编号,称为参考SNP编号(reference SNP ID)。理论上一个rs SNP可能对应多个不同的ss SNP, rsSNP应是唯一的。但事实上不同rs编号的SNP也不一定代表不同的SNP,这是NCBI目前的数据处理流程存在的问题之一。NCBI,UCSC和Sanger中心的基因组标释都对rs编号的SNP进行了基因组定位,因为SNP数据库的数据采集不如GenBank那样标准严格,也没有提供相应的软件帮助研究者制作标准的提交数据,因此也常有数据不完整,可靠性有局限等问题。所幸有其它一些数据库提供了更为全面的相关信息,如TSC (The SNP Consortium: http://snp.cshl.org/)提供的SNP等位基因频率数据,UCSC中可以获得定位SNP的旁侧序列。 最近,在这个领域有几项突破性的研究进展,其中包括确定与II型糖尿病相关的多个变异位点,这个发现主要归功于全基因组的关联性分析(GWA)技术的应用。进行这项研究的有Broad研究所的David Altshuler研究组(Science 316,1331-1336; 2007)、密歇根州的Michael Boehnke(Science 316,1341-1345; 2007)、牛津大学的Mark McCarthy (Science, 316,1336-1341; 2007),以及位于冰岛的deCODE 遗传学公司等。DeCODE遗传学公司在7月份的《自然》杂志上还报道了他们发现的另外两个变异位点,这两个位点可能增加心室纤维颤动,即最为常见的心律不齐的发病几率。有趣的是,这个变异位点与心脏发育相关的一个已知基因在染色体上的位置相邻。在6月份《科学》杂志上,deCODE遗传学公司还报道,位于9号染色体上的一个普通的变异位点可能会增加患心肌梗塞的几率。 当前,利用GWA技术进行阿尔茨海默病的研究是另一个焦点。美国菲尼克斯的转录基因组学研究所与亚利桑那州其他的一些阿尔茨海默病研究组织展开合作,对多达50万个的SNP进行筛选。结果发现,在GRB结合蛋白2(GAB2)基因中的6个变异位点与迟发型阿尔茨海默病有关(Neuron 54, 713-720; 2007)。另一个产业界和学术界的合作研究的例子是对精神分裂症相关基因的研究,参与合作的主体之一是PGxHealth公司。他们通过50万个标记的搜寻发现,在一个细胞因子受体基因中存在几个罕见的变异位点(Molec Psych 12, 572-580; 2007)。通过这些疾病相关的基因的研究,可以得出结论,发现疾病相关候选基因有助于解释流行病学获得的数据,例如对患有自身免疫性疾病、胚胎期感染和家族白血病的患者更容易出现精神分裂症进行解释等。 5月份,《自然》杂志和《自然•遗传学》分刊(39, 870-874; 2007和39, 865-869; 2007)发表了三篇研究论文,对可能会导致乳腺癌患病几率增加的5个常见遗传变异位点进行鉴定。这三篇论文是由英国癌症研究的Doug Easton、哈佛大学公共卫生学院的David Hunger和deCODE遗传公司共同合作完成的。 疾病相关基因和SNP的定位标志着基因组学研究中的一场新******的开始。在整合了序列数据、基因分型数据、分时的基因表达数据、家谱及种群数据、历史及档案数据和临床数据等各方面的数据之后,我们即将见证,利用这些数据进行疾病的危险评估、对有效的筛选过程进行指导,并且为疾病预防策略、早期诊断、安全和有效的治疗、和更好的前期诊断开辟另一条道路。 现在,几个因素都促使基因和疾病之间的相关性的迅速确定,其中最重要的是计算机硬件和软件在性能上以指数级的速度提高,从而使得大规模的GWA的研究可以进行。软硬件供应商联盟的通力合作最大限度的实现了硬件和软件的兼容性,从而使得相关技术的应用得到了迅速的普及。 在大规模的GWA研究中,硬件和软件供应商都想夸大自己产品的主导地位,希望别人相信:是自己的产品加速了研究结果的产生。虽然SNP/疾病相关性研究从当初的星星之火发展到现在的燎原之势是微阵列平台、软件、和专业用户的通力合作的结果,但是每个产品的供应商都想强调其在这个过程中的贡献。例如, Affymetrix公司希望别人都知道它的技术被Wellcome Trust Case Control Consortium联盟应用,作为7种常见疾病的主要研究工具,其中涉及了1.4万个病例。再如,在应用GWA进行前列腺癌和肌萎缩性侧索硬化等疾病研究中,Illumina公司的技术发挥了核心作用。 5月份,Affymetrix公司发布了人全基因组SNP阵列6.0 GeneChip基因芯片,其中包含了近百万个用于探测单核苷酸多态性(SNP)和拷贝数变化(CNV)的探针。在6月份,Illumina公司启动了超过100万个SNP的芯片——人类1M DNA分析芯片BeadChip——它还包含了大约5万个探针,对应于基因组上的CNV活跃位点。 富有讽刺意味的是,这两个芯片行业的竞争对手都在广泛寻求与工业界和学术界等领域的合作,以推进大规模的基因分型的研究。Affymetrix公司拥有一个GeneChip团队项目和Affymetrix软件开发者网络,后者还作为其软件开发者的论坛。5月份, Illumina公司启动了Illumina相关生物信息软件合作伙伴计划,相关的公司包括Biocomputing Platforms、GenoLogics等数十家公司。两家公司都允许其合作伙伴定制插件,以方便他们的算法和统计软件包与Illumina或 Affymetrix平台和软件产出的数据进行更好的整合。 Illumina公司平台产品经理Omoshile Clement说:“我们的合作伙伴也清楚的知道,没有任何一个软件能够满足所有研究者的需求。我们的目标是缩短数据分析的时间,提高分析质量,确保信息学分析不是GWA研究的瓶颈步骤,并且使芯片平台产生的数据和各种各样的计算应用软件能够形成直接的无缝衔接。”6月份,Illumina公司又启动了 iControlDB项目,这是一个保存了基因型对照组数据的数据库,面向于在科研一线从事病例/对照组GWA研究的研究人员。此项目的目标是为研究人员提供一个近万个对照样本的基因型的数据仓库。 转折点 新的计算策略和计算工具的大量涌现,大大提高了数据分析的速度和深度,并且也增强了GWA研究中的统计功效。这些策略和工具也驱使基因分型项目中的 QA/QC的提高,并鼓舞了人们对疾病相关基因研究的信心。这些都是至关重要的,因为研究者已经不仅仅满足于那些简单的、直觉可以发现的疾病-基因之间的关联,他们开始寻找那些在通路中不活跃、或者与已知疾病过程无关的基因变异。 Golden Helix公司销售副总裁Andy Ferrin说:“避免软件中的瑕疵和统计学方面的错误非常重要,只有这样,用户得到的相关性结果才不会出现错误。”和任何实验技术一样,GWA分析也会产生噪音,并具有一定的局限性。Panther Informatics和SciLink公司总裁Brian Gilman认为,大多数的研究人员在设计实验的时候都不会向统计学家寻求专家意见的指导。他说,GWA研究中主要的统计学难题是:“分析软件中存在的内在缺陷,特别是整合了多个实验平台的时候更容易出现内在设计缺陷”。例如,在使用更加侧重于SNP分析的Sequenom平台进行Affymetrix或者Illumina平台产生的病例-对照组数据分析的时候,要特别注意这个问题。Gilman说:“如今,大规模基因型项目中的软件系统做的最多的QC和 QA控制,”通过它们,应用程序实现对实验室信息的质量控制。公司用户需要评估原始数据,并且检验样品点、阳性对照和阴性对照的质量,以及芯片和输出数据的质量。 Gilman认为,现在最主要的变化是工业界和学术界的合作关系在不断地加强,从而使得软件供应商能够更早发现他们的软件平台存在的缺陷,加快其商业产品改进的速度。在他看来,现在的研究人员更清楚某种平台对于某类特定的研究的优势所在,以及其局限性。因此,才有了最近的GWA研究的大量成功的案例。 Ingenuity系统公司首席科学家Megan Laurance说,跟踪疾病相关的SNP只是其中一项研究而已,更重要的是研究人员希望“知道统计学意义上的相关背后蕴含的生物学故事或意义” 。事实上,许多专家见证了从简单的遗传确认——即在其他人群中找到相同的关联——到系统的功能确认的转变,后者通过考察特异的基因变异的生物学意义验证其结果的正确性。Ingenuity系统公司的旗舰产品是Ingenuity通路分析工具。把实验得到的基因列表添加到这个软件中,可以得到哪些通路、细胞过程、疾病类型和分子相互作用与列表基因中的特定子集的关联的信息。 Laurance说:“软件方面的任务是提供一个流畅的工作流程。”例如, UC-Santa Cruz公司的“Golden Path”基因组浏览器是一个识别SNP和定位基因的常用入口。Ingenuity公司把这个软件做得非常方便,可以通过浏览器实现整个研究过程,允许用户从软件中拖出和拖入基因,把基因放到某一类型的生物意义中进行考察。Laurance补充说:“对制药公司来说,它们通常有自己规模庞大的生物信息/计算研究团队,并且他们进行的研究可能比纯学术的基因定位方面的研究超前。我们同样为这类公司提供了程序化的研究工具,使他们的研究与我们的应用软件实现无缝衔接。” Kevin Cramer是Sapio Sciences公司软件产品的CE,对于主要微阵列平台的兼容性的重要性,他认为:“百分之九十的困难不是如何运行软件,而是前期的数据加载和格式转换,”数据输入必须尽量实现无缝衔接,以方便使用各种公共工具和商业化工具的用户,他们使用的数据格式是各式各样的。Illumina公司的 Clememt认为有几个关键性的问题需要特别注意,其中包括需要提高统计功效以减小对大数据样本的需求,使用更小的阈值P以保证获得的结果落在至少 80%的置信区间以内,等等。在理想的情况下,通过把GWA研究中的信噪比最大化,新的计算和数据分析方法可以提高统计功效,而不必借助更大的数据样本量。Clement说:“皇冠之珠属于那些能够通过对特异SNP/基因进行重新测序,并且证明这些SNP就是特定疾病的生物学相关的标记位点的研究。” 未来可能的发展轨迹 GWA研究整合了各种新出现的数据类型,例如甲基化模式分析的数据,这促使软件供应商开发对各种类型的新数据的解决方案。GWA软件演化的另一个重点是扩大其终端用户群,例如把临床医生包括进来,他们可能会根据病人的GWA研究的分析结果指导后续的筛选、诊断、预防、和治疗方案的确定,等等。 Golden Helix公司的Ferrin说:“随着基因型分析价格的骤降,以及芯片密度的提高,”利用GWA进行研究的热情在全世界十分高涨,“它已经不再只是那些大型研究机构的统计遗传学家进行各种数据分析的专利。”现在,关键的问题是,在既提供强大的分析功能和又为非编程人员和非统计学家提供直观而灵活的流程化应用之间寻找一个平衡。 因为企业用户正在获得越来越多的原始微阵列数据,所以软件供应商正在把目光转向对新的数据管理的解决方案的开发上。这样又产生一项重要的应用,就是帮助终端用户重新审视以前的数据集,进行大规模的数据比较和基于人群样本的分析研究。Rosetta BioSoftware产品经理Sasha Paegle说:“重新翻出以前的数据,并与现在产生新数据进行整合分析,这方面的需求巨大。” 正是意识到统计遗传学家、临床医生和基因型核心研究组之间有如此的“亲密关系”,Rosseta公司开发了Syllego系统,它提供一个映射工作空间,更好的组织基因型和参考数据,为分析结果提供功能分析的线索,并提供结果共享的途径。Peagle说:“我们的目标是,使科学家可以利用他们选择的计算方法或者工具,解决他们的科学问题。” Paegle说:“遗传学是一个‘老’研究领域。因此,有许多不同的文件格式,这样会使希望原始数据和分析结果共享的合作者之间产生一些摩擦。这就是目前没有统一的方法进行数据共享的原因。”Partek公司的CEO Tom Downey称,公司的GS软件“整合了强大的统计分析,并具有互动可视化功能实现人类基因组智能显示。并且,这个软件还为科学家设计了良好的用户界面 ——可以很方便的把分析结果返回医学研究人员”。 瓶颈的转移 在GWA研究中,数据点的增长速度已经达到令人惊愕的程度,现在需要同时对2万个病人样品的100万张微阵列进行GWA分析。 Golden Helix公司的CEO Christophe Lambert说,有些研究组正在考虑研究多达10万个病人的数据。基因型芯片的密度的增长甚至已经超过了摩尔定律,Lambert估计,芯片的密度在过去的18个月中达到了十几倍的增长速度。他说:“当你考虑到现在的32位的处理器只有2G字节这个限制的时候,无疑我们已经碰壁了。” 数据量的迅速增加也促使相关的软件公司加快其研发进程。Sapio Sciences公司的CEO Cramer回忆道,4年前,当Affymetrix的1万芯片是当时最先进技术的时候,他们的公司才开始起步。几年后,Sapio Sciences公司在其产品Exemplar Analysis Suite中逐渐加入了聚类分析、单体型分析、数量特征分析、基因本体图谱等模块,最近又加入了共变异分析模块。Cramer说,Sapio最新发布的产品能够完全的使用3G的内存(在Windows XP专业版或者Server版的启动文件中使用的是“3GB”的转换器),用户处理的数据量比使用传统的2-G的内存的系统多出50%以上。 SciLink公司的Gilman说,人们通常认为“硬件(特别是内存的大小)是大规模数据分析的瓶颈,其实是“对产业界的巨大误解”。生物信息学家不是专业的计算机科学家,他们一般不会考虑如何有效的使用内存,也不会考虑如何调试系统和算法以更好的发挥计算机的性能。 BC/SNPmax 是Finland公司的Biocomputing平台,它是GWA研究的规模化数据库管理系统,这个系统优化了基因型数据和表型数据的收集和整合过程,并且为下游的数据分析工具提供了接口。Biocomputing平台的技术总监Timo Kanninen说:“我们把主要的精力花在了研究过程中涉及的工作流程上面,通过开发用户定义的界面,把研究的问题分成各个小部分,分别在计算机集群的各个节点上并行化地运行,并且与不同的分析工具关联起来。”现在,小型研究组已经可以做以前只有大型基因组中心才能开展的基因组项目,虽然这些小型研究组通常没有相关工具和专家,无法开发自己的软件环境来管理数据。通过对基金分配情况的分析,Biocomputing平台的管理总监Pekka MŠkelŠ发现,虽然大量的资金被快速的投入到GWA相关的硬件开发上,基金管理机构“更希望看到数据管理和分析的成熟方案”,它们更倾向于把钱投到支持生物信息学方面的需求上面。 人们可能不禁会质疑,分布式或网格计算策略是为在同一个计算机上的多处理器,或者数十、数百、甚至数千个不同计算机的CPU上装载高密度数据而开发的,这些策略是否能够发挥其应有的作用。不考虑其具体的实现方法,网格计算为GWA研究快速增长的速度和内存需求提供了一个可能的解决方案。多台计算机可以独立的分析分割的小数据包,例如不连续的SNP数据,并且把收集到的结果数据进行整合、解释、并呈现给用户。 Golden Helix公司开发了一个GWA网格解决方案,用来管理下一代GWA平台产生的数据,这个平台使用的芯片含有多于100万个的SNP和数万个病人的样品。与通常由学术部门开发的批量处理GWA数据的开放源码的解决方案相比,Lambert说,这个产品可以“通过我们提供的用户界面,互动的监视批处理任务所处的状态”。这个用户界面支持Condor Pool(Wisconsin大学开发的网格系统)和United Device公司的Grid MP两种构架结构。 然而,根据Golden Helix公司市场总监Josh Forsythe的说法,仅仅利用普通的计算机和他们公司的HelixTree软件,在用户可接受的时间内就可以进行互动的GWA研究。例如,最近利用 Affymetrix 500K阵列数据,HelixTree软件完成了对数百人携带的精神分裂症的一个可能位点的鉴定工作(Molec Psychiatry 12, 572-580; 2007)。Forsythe补充说,HelixTree软件已经成功实现与Affymetrix SNP GeneChip 6.0 Array内部衔接。与之类似,Agilent公司的桌面工具GeneSpring GT也被用于分析大量的、高密度的基因型数据,与分析基因表达数据的GeneSpring GX一块,用于精神分裂症和躁郁症的研究。 个性化医疗的序曲 5月份,SAS研究所组织了FDA芯片质量控制(MAQC)协会,指导微阵列技术的研究。来自SAS研究所的MAQC参与者已经应用相关公司提供的JMP 基因组学软件进行MAQC数据集的分析,并且用图形化的形式进行结果显示。最近,这个协会组织了一个GWA研究的小组,专门进行GWA相关的研究,同时他们还关注另一个持续升温的热点问题,就是通过微阵列数据来预测疾病风险和临床发病在个性化医疗中的应用。 JMP基因组学工具用来输入、分析和可视化SNP、表达和蛋白组学数据。这个工具专门为没有编程经验的用户设计,使他们也可以使用高级的SAS研究所的遗传分析工具。SAS研究所的科学发现和基因组学部经理Russ Wolfinger说,他们公司的软件可以用来进行基因型数据的可视化,在染色体上标出表示显著性的P值,用峰表示该位点相关性的强弱。他说:“在这些高度可视化的数据上,用户可以通过软件对所有显著性结果进行标记,并且可以深入研究这些标出了的基因区域。”利用JMP基因组学工具,还可以进行遗传数据的主成分分析,得到人群亚结构或者家庭关系图谱。主成分分析是一种降维技术,可以用来寻找相似的模式或者数据的趋势。 InforSense公司的流程化分析平台定位于基因表达项目的研究,专门为支持临床假设的提出而设计。公司CSO Jonathan Sheldon解释道:“研究人员利用我们的ClinicalSense产品,把大的数据集分割成小数据集,病人也可以被分成不同的亚群,例如条件反射的人群和非条件反射的人群等。”Sheldon把这个过程描述成“个性化医学研究的合理的切入点”。他说,把ClinicalSense软件和新开发的 GenSense全基因组遗传分析软件包结合在一起,有利于对研究结果中的差异给出合理的遗传学的解释。Sheldon说:“如何对统计学结果进行解释,以及把它们在更广泛的用户群中实现共享,是GWA领域的一个难题。”他表示,已经有了交互式的解决方案,就是把InforSense融入到 GenSense的设计中,后者“能够使非统计学家对全基因组的遗传研究的结果进行生物学意义的解释”。 Panther公司的Gilman预测,下一代的GWA研究技术将会把单体型图谱作为根据临床试验和药物基因组学对临床人群进行分类的指标。2007年春,华盛顿大学的基因组序列中心(GSC)从美国国家人类基因组研究所(NHGRI)获得了一份为期四年的1.56亿美元的基金。GSC的助理主管 David Dooling说:“我们的目标会逐渐锁定在医学研究上,对人类基因组的部分区域进行重新测序,发现与不同疾病相关的靶基因。我们利用表达芯片和CNV、杂合缺失的信息,来决定对基因组的哪些区域进行重新测序。”从现在开始,全基因组SNP和CNV分析会帮助重新确定染色体上感兴趣的区域进行后续的医学测序。但是,Dooling预测:“实现对全基因组进行测序已经为时不远了,未来对基因组进行全序列水平的分析是完全可能的。”Genizon BioScience公司的John Raelson承认,全基因组测序技术在未来五年以内将会在基因组分析领域占据主导地位。他说:“未来[GWA研究]将主要是药物基因组学,把全基因组相关性研究整合到检测基因对药物反应的临床试验中去。” 备选方案:Genizon的新视角 位于加拿大蒙特利尔省的Genizon BioSciences生物科学公司利用5万个被试建立了魁北克法裔加拿大人的群系,大大扩大其拥有的DNA的样品量,他们同时还对25种疾病的遗传基础进行研究。这家公司完成了10种疾病的全基因组扫描,其中包括克罗恩病、哮喘、阿尔茨海默氏病、和注意力缺失/过动症等。 Genizon生物科学公司的IT构架整合了一个FDA兼容的LabVantage Sapphire LIMS构架、一个包含电子数据捕捉和信号兼容的eResearch技术临床数据库管理系统、一个32-千兆的网络存储、和一个288-CPU的计算网格,进行他们需要的数据分析。Genizon生物科学公司的软件构架的领航者Borivoj (Bora) Stojkovic说,他们公司以积极的策略来应对无限膨胀的SNP密度和GWA样品的规模。他们模拟大规模数据,测试并开发新的方法预先突破未来可能出现的瓶颈。Stojkovic说,由于在数据压缩方面有经验,“我们把压缩后的数据加载到内存。这样的话,既可以使用全部的数据,又不必占满整个内存空间。同时,我们把内存空间进行分割,把小的数据集分配其中。”通过把数据集分配到更小的块中,利用多个CPU处理不同的块。 Stojkovic 说,Genizon生物科学公司的最新压缩策略能够把公司的文件存储覆盖区降低到原来的二十分之一。对于有不同计算强度需求的分析,他们能够做到在流程涉及到的网格和机群中分配数据库。公司的内部网格能够在机群的数千个CPU上自动分配数据。为了管理不同类型的数据,他们把内部数据格式标准化,通过转换过滤器把外部进来的数据进行过滤,实现标准化转换。 然而,Stojkovic强调说,虽然分布式或者网格计算的各种方法确实很有效,但是现在最重要的困难是如何把计算的思想过程和算法流程实现流水线化并进一步地优化,以提高整个系统的整合程度和关联度,并且使语言和流程更加紧凑、精练。