1、将.xls文件转化为.arff格式
(1)首先,将.xls文件另存为.csv格式,然后使用weka explorer的预处理面板(preprocess),导入.csv文件
首先,在weka的安装包里,将RunWeka.ini里面的编码格式改为UTF-8,避免出现中文乱码
(2)打开.csv文件时提示如下错误
错误一,.csv文件中存在特殊字符('),替换它
错误二,.csv文件中自动换行,删除自动换行,并取消单元格里的换行
错误三,若提示错误,修改特殊字符也没有,也无换行表现,则将上一行单元格内容复制过来,再手动还原该单元格内容即可
导入成功如下所示
(3)将.csv格式转化为.arff格式
2、进行聚类分析
(1)打开.arff文件
(2)切换到“Cluster”,点击“choose”按钮选择“SimpleKMeans"。(K均值算法)
(3)点击上面的文本框,将numClusters修改为16(我们把这16102条实例聚成16类),seed参数是要设一个随机种子,依次产生一个随机数,用来得到k均值算法中第k个簇中心的位置。(seed值不同,所算的误差平方和的结果不同)
(4)选中Cluster Mode的Use training set,选中Store clusters for visualization(存储聚类可视化),点击start按钮
可在左下角的Result list下产生的结果上右键,在新窗口中浏览结果。
3、结果分析
(1)误差平方和:这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小
(2)列出了各个簇中心的位置。
(3)各个簇中实例的数目及百分比
(4)可视化聚类结果,在Result list列出的结果下右击Visualize cluster assignments。
(5)将聚类的结果保存为arff文件
result.arff文件