序列的重排和缺失-php+mysql实现在线测试答题实例下载

【文件属性】：

文件名称：序列的重排和缺失-php+mysql实现在线测试答题实例

文件大小：6.19MB

文件格式：PDF

更新时间：2024-07-05 00:32:36

生物信息学

第四节数据库的冗余与偏差 1 在进行 DNA 和蛋白质序列分析时碰到的一个棘手问题是数据库的冗余 (redundancy)。DNA 和蛋白质数据库中的很多记录是属于同一基因和蛋白质家族，或在不同生物体上发现的同源基因。不同的研究机构可能向数据库发送了相同的序列数据，如果没有被检查出来，则这些记录或多或少地紧密相关。当然，这些记录如果的确非常相近，可以被认定为它们是相同序列，但一些显著的差异可能是由于基因组多样性的结果。冗余数据至少可能导致以下 3个潜在的错误：一是如果一组 DNA 或氨基酸序列包含了大量非常相关序列族，则相应的统计分析将偏向这些族，在分析结果中，这些族的特性被夸大；二是序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的；最后是如果这些数据是被用于预测，则这些序列将使预测方法—如人工智能方法－发生偏离。基于以上原因，有必须避免在数据库中存在太过于相似的序列，很多数据库也是这样做了，努力使他们的数据库为非冗余(non-redundant,nr)。但是，生物数据非常复杂，它远非“冗余”二字可以准备描述，例如，同一位点上的 2个等位基因是不是冗余的？同一生物体内的 2个同功酶是否冗余？因此，过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除，应在数据规模和非冗余之间找到一个合理的平衡点。“太过于相似”的准确界定应主要依据所要研究的问题。实际研究中，试验数据往往“随机”地从数据库中抽取而不考虑减少冗余问题；即使考虑到冗余问题，也或多或少地存在随意性，即随意地进行一些同源性分析，确定一些蛋白质或 DNA 簇，然后从各簇中选取一个数据样本来组合所谓的“代表性”数据样本。序列数据的偏差或错误(artifacts) 主要来自实验过程，这与其它科学数据的情况相同。这些错误主要来自以下几个方面： (1)载体序列污染：在测序列等实验过程中，载体序列可能造成污染，致使序列记录数据中包含了载体序列； (2)异源(heterologous)序列污染：有研究表明一些人类 cDNA 测序结果在实验过程中被酵母和细菌序列污染； (3)序列的重排和缺失； (4)重复序列污染：cDNA 克隆方法有时会受到逆转录因子(如 Alus)的影响。 (5)测序误差和自然多态性：测序过程存在一定的误差概率。对付以上这些偏差，一个聪明的策略是用可能污染数据记录的序列(如载体) 去估计误差程度。同时，一些去除污染的专门软件系统已被研制出来，如 EBI 网站便提供了去除载体污染的在线服务，网址为 http://www.ebi.ac.uk/blastall/vectors.html。EMBL 研制了基于 BLAST 的载体扫描服务和一个特殊的序列数据库 EMVEC。EMVEC 的序列来自 EMBL 的 SYN(synthetic division)类 2000 余条一般用于克隆和测序实验的序列，该库随着 EMBL 的扩充而实时更新。 1本部分内容主要取自F．奥斯伯，R．E．金斯顿等．精编分子生物学实验指南，北京：科学出版社，1998 22

立即下载

秒客网

序列的重排和缺失-php+mysql实现在线测试答题实例

网友评论

相关文章