一、下载二进制文件 点击打开链接
二、解压文件
tar -zxvf mahout-distribution-0.9.tar.gz -C /usr
三、 配置环境变量:在/etc/profile, 添加MAHOUT_HOME 环境变量export MAHOUT_HOME=/usr/apache-mahout-distribution-0.12.2
export PATH=$PATH:$HADOOP_HOME/bin:$MAHOUT_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib:$MAHOUT_HOME/lib:$JRE_HOME/lib:$CLASSPATH
注意:修改完环境变量一定要执行命令-source /etc/profile
四、启动 hadoop
start-all.sh
五、查看mahout版本
mahout --help
六、mahout使用
a.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。
b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh
c.创建测试目录input,并把数据导入到这个input目录中root@master# hadoop fs -mkdir inputroot@master:~/$ hadoop fs -put /home/ZC/Desktop/synthetic_control.data inputd.使用kmeans算法(这会运行几分钟左右)
root@master~/$ hadoop jar /usr/apache-mahout-distribution-0.12.2/mahout-examples-0.12.2.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Jobe.查看结果
hadoop fs -cat /output/data/part-m-00000