hadoop平台下Mahout安装与配置

时间:2022-07-02 00:30:04

    一、下载二进制文件 点击打开链接


   二、解压文件

 tar -zxvf mahout-distribution-0.9.tar.gz -C /usr

 三、 配置环境变量:在/etc/profile, 添加MAHOUT_HOME 环境变量

export MAHOUT_HOME=/usr/apache-mahout-distribution-0.12.2

export PATH=$PATH:$HADOOP_HOME/bin:$MAHOUT_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib:$MAHOUT_HOME/lib:$JRE_HOME/lib:$CLASSPATH

注意:修改完环境变量一定要执行命令-source /etc/profile

四、启动 hadoop

start-all.sh


五、查看mahout版本

mahout --help

hadoop平台下Mahout安装与配置


六、mahout使用

a.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。

b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh

c.创建测试目录input,并把数据导入到这个input目录中

root@master# hadoop fs -mkdir input 
root@master:~/$ hadoop fs -put /home/ZC/Desktop/synthetic_control.data input
hadoop平台下Mahout安装与配置

d.使用kmeans算法(这会运行几分钟左右)

root@master~/$ hadoop jar /usr/apache-mahout-distribution-0.12.2/mahout-examples-0.12.2.jar  org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

e.查看结果

hadoop fs -cat /output/data/part-m-00000