使用序列模型学习表型结构

时间:2024-04-24 07:23:44
【文件属性】:

文件名称:使用序列模型学习表型结构

文件大小:384KB

文件格式:PDF

更新时间:2024-04-24 07:23:44

Data mining; bioinformatics; microarray data

先进的微阵列技术能够同时监视所有基因的表达水平。 微阵列数据分析中的一个重要问题是发现表型结构。 目标是:1)找到与不同表型(例如疾病或正常表型)相对应的样品组,以及2)对于每组样品,找到使该组与其他组区别开的代表性表达模式或特征。 已经针对该问题提出了一些方法,但是,共同的缺点是所识别的签名通常包括大量的基因,但是辨别力却很低。 在本文中,我们提出了ag *序列模型来解决这一局限性,其中基因之间的有序表达值被有效利用。 与现有方法相比,所提出的序列模型对噪声更鲁棒,并允许使用更少的基因以更大的判别力发现签名。 这对于生物学家的后续分析很重要。 我们证明了表型结构发现的问题是NP完全的。 开发了一种有效的算法FINDER,该算法包括三个步骤:1)琐碎的g *序列识别,2)表型结构发现和3)细化。 开发了有效的修剪策略以进一步提高效率。 我们使用合成和真实基因表达数据集评估FINDER和现有方法的性能。 大量的实验结果表明,FINDER可以显着提高发现的表型结构的准确性(无论是从统计意义上还是生物学意义上而言),并且可以以高辨别力检测签名。 而且,它比其他替代方案快几个数量级。


网友评论