数据挖掘系列（5）使用mahout做海量数据关联规则挖掘

　　上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘，weka方便实用，但不能处理大数据集，因为内存放不下，给它再多的时间也是无用，因此需要进行分布式计算，mahout是一个基于hadoop的分布式数据挖掘开源项目（mahout本来是指一个骑在大象上的人）。掌握了关联规则的基本算法和使用，加上分布式关联规则挖掘后，就可以处理基本的关联规则挖掘工作了，实践中只需要把握业务，理解数据便可游刃有余。

安装mahout

　　骑在大象上的侠士必然需要一头雄纠纠的大象，不过本文不解绍大象hadoop，所以我假定已经安装好了hadoop，关于hadoop的安装，请google。

　　到Apache官网下载mahout8.0

　　解压

tar -zxvf mahout-distribution-0.8.tar.gz

　　移动

sudo mv tar mahout-distribution-0.8 /usr/local/mahout-

　　配置

sudo gedit /etc/profile

　　输入以下内容：

export MAHOUT_HOME=/usr/local/mahout-

export PATH=$MAHOUT_HOME/bin:$PATH

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

　　退出用户重新登录，使配置文件生效。输入mahout -version测试是否安装成功。

数据准备

　　到http://fimi.ua.ac.be/data/下载一个购物篮数据retail.dat。

　　上传到hadoop文件系统　　

hadoop fs -mkdir  /user/hadoop/mahoutData #创建目录

hadoop fs -put ~/data/retail.dat /user/hadoop/mahoutData

调用FpGrowth算法

mahout fpg -i /user/hadoop/mahoutData/retail.dat -o patterns -method mapreduce -s  -regex '[\ ]'

　　-i表示input，-o表示-output，-s表示最小支持度，'[\ ]'表示以行内的数据以空格分开。

　　一两分钟后执行完毕，生成的文件被序列化了，直接查看会是乱码，因此需要用mahout还原回来：

 mahout seqdumper -i /user/hadoop/patterns/fpgrowth/part-r- -o ~/data/patterns.txt

　　输出结果：　　

Key: : Value: ([],)

Key: : Value: ([],), ([, ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],), ([, ],), ([, , ],), ([, , ],), ([, , , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],), ([, ],), ([, ],), ([, , ],), ([, , ],), ([, , ],), ([, , ],), ([, , , ],), ([, , , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],)

Key: : Value: ([],), ([, ],), ([, ],), ([, , ],)

　　这里输出的只是频繁项集，但在此基础上提取关联规则已经不是难事。

　感谢阅读，欢迎回帖交流

转正请注明出处：www.cnblogs.com/fengfenggirl

秒客网

数据挖掘系列（5）使用mahout做海量数据关联规则挖掘

相关文章