文件名称:基于持久同源的机器学习及其应用——调查-研究论文
文件大小:2.2MB
文件格式:PDF
更新时间:2024-06-29 11:28:20
Persistent homology machine
一个合适的特征表示既可以保留数据的内在信息,又可以降低数据的复杂性和维度,是机器学习模型性能的关键。 持久同源(PH)深深植根于代数拓扑,在数据简化和内在结构表征之间提供了微妙的平衡,并已成功应用于各个领域。 然而,PH 和机器学习的结合受到三个挑战的极大阻碍,即数据的拓扑表示、基于 PH 的距离测量或度量以及基于 PH 的特征表示。 随着拓扑数据分析的发展,这三个问题都取得了进展,但广泛分散在不同的文献中。 在本文中,我们从计算的角度对 PH 和基于 PH 的有监督和无监督模型进行了系统回顾。 我们的重点是数学模型和工具的最新发展,包括 PH 软件和基于 PH 的函数、特征表示、内核和相似性模型。 从本质上讲,本文可以作为基于 PH 的机器学习工具实际应用的路线图。 此外,我们考虑了不同机器学习模型中的不同拓扑特征表示,并研究了它们对蛋白质二级结构分类的影响。