文件名称:使用聚类技术和评估指数的基因表达分析-研究论文
文件大小:467KB
文件格式:PDF
更新时间:2024-06-29 23:30:26
Clustering Gene Expression
数据挖掘是指派生和识别数据中有效的、新颖的、潜在有用的和最终可理解的模式的重要过程。 数据挖掘可分为聚类、决策树、关联规则、顺序模式和时间序列等多种模型。 在这项工作中,更多地强调聚类技术在生物信息学方法下分析遗传表达数据。 实验分子生物学中的 DNA 微阵列方法等创新技术在基因表达谱中产生了大量有价值的数据。 现在可以在重要的生物过程和相关样本的集合中同时监测数千个基因的表达水平。 不断激增的实验数据在维护、存储和分析方面产生了新的挑战,以得出有意义的模式。 已经提出了许多聚类算法来分析基因表达数据。 然而,评估可行和适用的聚类算法正成为当前生物信息学研究中的一个重要问题。 本文在鸢尾花基因表达数据集上研究了四种聚类算法(K-Means、Hierarchical Clustering、自组织图(SOM)和DBSCAN)。 每个算法的聚类效率由各种外部和内部聚类评估指标访问。 通过绘制不同算法、不同指数和数据集的图形和图表来进一步分析这项工作产生的结果,以分析不同算法生成的聚类的相似性,从而能够比较不同的聚类方法。