1.下载mahout-0.5 网址:http://mirror.bjtu.edu.cn/apache/mahout/0.5/
2.将压缩文件解压到/home/hadoop/tools/
3.在/etc/profile和~/.bashrc中添加:
export HADOOP_HOME=/home/hadoop/hadoop-1.0.1 export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.0.1/conf以及export MAHOUT_HOME=/home/hadoop/tools/mahout-0.5
source /etc/profile
source ~/.bashrc使之生效
4.安装maven2:sudo apt-get instal maven2
5.在/mahout-0.5下执行命令:mvn install
6.在/mahout-0.5/bin下执行:./mahout --help 查看可以执行的算法
测试kmeans算法
7.开启hadoop
8.下载数据集synthetic_control.data(http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data)。将数据集synthetic_control.data放到MAHOUT_HOME目录下面,(注意:这里一定要放到此目录下,否则会异常报错)
9.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
10.使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job