文件名称:matlab聚类kmeans代码-hadoop-hw7:hadoop-hw7
文件大小:1.23MB
文件格式:ZIP
更新时间:2024-06-12 08:09:14
系统开源
matlab聚类kmeans代码 作业7 要求 在MapReduce上实现K-Means算法并在小数据集上测试。可以使用附件的数据集,也可以随机生成若干散点的二维数据(x, y)。设置不同的K值和迭代次数,可视化聚类结果。 提交要求同作业5,附上可视化截图。 实现思路 我直接使用了实例代码来运行,用原来的代码创建maven项目KMeansExample。由于原来的代码不是用maven管理的,而且是基于Hadoop1.2编写的程序,所以有一些地方需要进行小小的修改。比如每个java文件前面都要加上对应的包名称,Job对象的创建需要调用getInstance静态方法,而不能直接new Job。 我尝试研读了整个算法的代码,下面简要描述一下示例代码的思路。 主程序:KMeansDriver.main() KMeansDriver.main()方法是整个算法的主程序,它从命令行接收指定的参数k(需要聚成的类数),iterationNum(迭代次数),inputpath,outputpath。依次调用三个主要的过程: generateInitialCluster():随机产生k个cluster
【文件预览】:
hadoop-hw7-master
----.gitignore(477B)
----README.md(6KB)
----pom.xml(3KB)
----target()
--------KMeansExample-1.0-SNAPSHOT.jar(23KB)
----pics()
--------res2()
--------res1()
----src()
--------main()
----output()
--------result2()
--------result1()
----README.pdf(664KB)
----generate_res.sh(643B)