文件名称:论文研究-基于MapReduce的大规模数据集流形学习降维研究.pdf
文件大小:930KB
文件格式:PDF
更新时间:2022-10-10 12:22:30
论文研究
论文研究-基于MapReduce的大规模数据集流形学习降维研究.pdf, 信息技术的快速发展导致了数据规模的爆炸式增长,传统的机器学习、数据挖掘算法面临新的 挑战. 流形学习克服了传统线性降维算法的不足,成为十年来降维研究的热点领域. 然而流形学习 算法复杂度高,对于大规模的数据集并不适用. 针对大规模数据集下的流形学习降维问题,提出了 基于MapReduce 的分布式流形学习算法. 该算法采用局部敏感哈希函数将相似点映射到同一个桶中,利用流形具有局部欧氏同胚的性质,在每个桶内采用欧氏距离度量点之间的测地距离,桶之间采用 中心点及边缘点来计算修正的测地距离. 在大规模的人工合成数据集和真实数据集上的实验表明,该算法能有效地估计数据点间的测地距离,适用于处理大规模数据集的降维问题.