文件名称:数据挖掘聚类算法的分析和应用研究
文件大小:2.15MB
文件格式:PDF
更新时间:2013-11-15 16:50:23
dbscan 聚类分析 算法
研究生毕业论文 DBSCAN就是一种基于密度的方法,该算法的显著优点是速度快,可以发现任 意形状的聚类和噪声点。但是当数据量非常庞大时,该算法对主存要求较高;而 且需要定义一个全局变量Eps,如果这个全局变量Eps定义的不好,将会影响聚类 质量,尤其是数据分布不均匀时,因此DBSCAN对输入参数Eps是十分依赖的。 论文在分析这些不足的基础上,对DBSCAN算法进行了改进,把“分而治之”的 思想应用到该算法中。聚类前,先把数据划分成一个个网格,然后把网格分配给 多个处理机进行并行聚类,最后再对各个处理机的局部聚类结果进行合并。这样, 一方面降低了对主存的要求;另一方面,当数据分布不均匀时,全局变量Eps也 不会影响聚类质量,因为每个网格采用单独的Eps值;并且把每个网格分到单独 的处理机上进行并行聚类提高了聚类效率。试验表明,改进后的DBSCAN算法降 低了对主存的要求和对输入参数Eps的依赖。