深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
适合人群:高级
课时数量:17课时
用到技术:MapReduce并行分词程序 Mahout
涉及项目:Hadoop综合实战-文本挖掘项目 Mahout数据挖掘工具
咨询QQ:1840215592
课程介绍
本课程主要涉及以下内容的讲解:
1、Mahout数据挖掘工具
2、Hadoop实现推荐系统的综合实战,涉及到MapReduce、Pig和Mahout的综合实战
课程针对人群
1、本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士
2、最好有Greenplum Hadoop、Hadoop2.0、YARN、Sqoop、FlumeAvro、 Mahout等大数据基础,学习过北风课程《Greenplum 分布式数据库开发入门到精通》、《全面深入Greenplum Hadoop大数据分析平台》、《Hadoop2.0、YARN深入浅出》、《MapReduce、Hbase进阶提升》、《MapReduce、Hbase进阶提升》为最佳。
《深入浅出Hadoop Mahout数据挖掘实战》详细查看:
http://www.ibeifeng.com/goods-438.html
课程大纲
Mahout数据挖掘工具(10课时)
数据挖掘概念、系统组成
数据挖掘常用方法及算法(回归分析、分类、聚类等)
数据挖掘分析工具
Mahout支持的算法
Mahout起源和特点
Mahout安装、配置及测试
实战:Mahout K-means聚类分析
Mahout实现Canopy算法
Mahout实现分类算法
实战:Mahout逻辑回归分类预测
实战:Mahout朴素贝叶斯分类
推荐系统的概念及分类
协同过滤推荐算法概念、分类及应用
实战:实现基于Mahout的电影推荐系统
Hadoop综合实战-文本挖掘项目(7课时)
文本挖掘的概念及应用场景
项目背景
项目流程
中文分词技术
庖丁分词器的使用
MapReduce并行分词程序的设计与实现
Pig划分数据集
Mahout构建朴素贝叶斯文本分类器
模型应用-计算用户偏好类别