文件名称:序列的重排和缺失-php+mysql实现在线测试答题实例
文件大小:6.19MB
文件格式:PDF
更新时间:2024-07-05 00:32:36
生物信息学
第四节 数据库的冗余与偏差 1 在进行 DNA 和蛋白质序列分析时碰到的一个棘手问题是数据库的冗余 (redundancy)。DNA 和蛋白质数据库中的很多记录是属于同一基因和蛋白质家 族,或在不同生物体上发现的同源基因。不同的研究机构可能向数据库发送了相 同的序列数据,如果没有被检查出来,则这些记录或多或少地紧密相关。当然, 这些记录如果的确非常相近,可以被认定为它们是相同序列,但一些显著的差异 可能是由于基因组多样性的结果。 冗余数据至少可能导致以下 3个潜在的错误:一是如果一组 DNA 或氨基酸序 列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中, 这些族的特性被夸大;二是序列间不同部分的显著相关可能是在数据样本抽样时 是有偏的和不正确的;最后是如果这些数据是被用于预测,则这些序列将使预测 方法—如人工智能方法-发生偏离。 基于以上原因,有必须避免在数据库中存在太过于相似的序列,很多数据库 也是这样做了,努力使他们的数据库为非冗余(non-redundant,nr)。但是,生物 数据非常复杂,它远非“冗余”二字可以准备描述,例如,同一位点上的 2个等 位基因是不是冗余的?同一生物体内的 2个同功酶是否冗余?因此,过于苛刻地 去除“太过于相似的序列”可能导致一些有价值的信息被删除,应在数据规模和 非冗余之间找到一个合理的平衡点。“太过于相似”的准确界定应主要依据所要 研究的问题。实际研究中,试验数据往往“随机”地从数据库中抽取而不考虑减 少冗余问题;即使考虑到冗余问题,也或多或少地存在随意性,即随意地进行一 些同源性分析,确定一些蛋白质或 DNA 簇,然后从各簇中选取一个数据样本来组 合所谓的“代表性”数据样本。 序列数据的偏差或错误(artifacts) 主要来自实验过程,这与其它科学数据 的情况相同。这些错误主要来自以下几个方面: (1)载体序列污染:在测序列等实验过程中,载体序列可能造成污染,致使 序列记录数据中包含了载体序列; (2)异源(heterologous)序列污染:有研究表明一些人类 cDNA 测序结果在实 验过程中被酵母和细菌序列污染; (3)序列的重排和缺失; (4)重复序列污染:cDNA 克隆方法有时会受到逆转录因子(如 Alus)的影响。 (5)测序误差和自然多态性:测序过程存在一定的误差概率。 对付以上这些偏差,一个聪明的策略是用可能污染数据记录的序列(如载体) 去估计误差程度。同时,一些去除污染的专门软件系统已被研制出来,如 EBI 网 站 便 提 供 了 去 除 载 体 污 染 的 在 线 服 务 , 网 址 为 http://www.ebi.ac.uk/blastall/vectors.html。EMBL 研制了基于 BLAST 的载 体扫描服务和一个特殊的序列数据库 EMVEC。EMVEC 的序列来自 EMBL 的 SYN(synthetic division)类 2000 余条一般用于克隆和测序实验的序列,该库随 着 EMBL 的扩充而实时更新。 1本部分内容主要取自F.奥斯伯,R.E.金斯顿等.精编分子生物学实验指南, 北京:科学出版社,1998 22