随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析,
挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况可见一斑。于是善于学习的程序员们开始了R语言的学习
之旅。对于有其他语言背景的程序员来说,学习R的语法小菜一碟,因为它的语法的确太简单了,甚至有的同学说1周就能掌握R语言,的确如
此。但是之后呢?……好像进行不下去了!死记硬背记住了两个分析模型却不明其意,输出结果如同天书不会解读,各种参数全部使用缺省
值,任何调整都是战战兢兢、如履薄冰…
在大数据的生态系统中,很多技能是可以自学的,唯有数据分析是个异数,因为它要求一定的数学知识,比如高等数学、线性代数、概
率统计学。而对于大多数同学来说,这些知识都是面目可憎的。
讲师本人之前和大部分同学都有着同样的经历,曾经做过开发、运维、管理,后因缘际会接触到数据分析行业并对此情有独钟,在十余
年的工作、学习过程中经历过各种折磨并有了一定积累。最清楚真正用得着的知识是哪些、学员最喜欢的讲解风格是什么样的,对于有志于从
事数据分析的同学来说,相信此视频能帮助你们快速跨过数据分析的门槛,预祝每位学员都能成为数据挖掘的行家里手。
1.课程研发环境
开发环境:R3.2
IDE:RStudio
2.内容简介
本课程面向从未接触过数据分析的学员,从最基础的R语法开始讲起,逐步进入到目前各行业流行的各种分析模型。整个课程分为基础和实战两个单元。
基础部分包括R语法和统计思维两个主题,R语法单元会介绍R语言中的各种特色数据结构,以及如何从外部抓去数据,如何使用包和函数,帮助同学快速通过语法关。统计思维单元会指导如何用统计学的思想快速的发现数据特点或者模式,并利用R强大的绘图能力做可视化展现。
在实战部分选择了回归、聚类、数据降维、关联规则、决策树这5中最基础的数据分析模型,详细介绍其思想原理,并通过案例讲解R中的实现方案,尤其是详细的介绍了对各种参数和输出结果的解读,让学员真正达到融会贯通、举一反三的效果。并应用到自己的工作环境中。
大圣,16年IT工作经验,10年的数据分析经验,曾就职阿里巴巴、雅虎,现为大数据独立顾问、北风网兼职讲师。
擅长技术:Hadoop、Oracle、R、Linux等。
一、R语法详解:
第一讲:R的核心数据结构之向量、因子的区别和使用技巧
第二讲:R的核心数据结构之矩阵、数据框、数组、列表的区别和使用技巧
第三讲:R的控制结构(包括分支结构和循环结构)、函数和包、以及向量化计算
二、数据组织和整理:
第四讲:数据导入,从多种数据源导入数据
第五讲:数据预处理之缺失值的处理
第六讲:数据预处理之数据转换,数据筛选
三、建立数据分析的统计思维和可视化探索:
第七讲:单变量数据特点的描述方法
第八讲:多变量数据特点的描述方法
第九讲:借助分组发现数据中的模式
第十讲:数据可视化建立对数据的感性认识
四、用回归预测未来:
第十一讲:线性回归的思想,代码、结果的详细解读;
第十二讲:多项式回归、多元线性回归
五、聚类方法:
第十三讲:层次聚类和k-means聚类方法
六、数据降维——主成分分析和因子分析:
第十四讲:维度过多会导致哪些问题
第十五讲:用逐步回归法筛除无用变量
第十六讲:用主成分分析法解决多重共线性问题
第十七讲:用因子分析法获得有业务意义的变量
七、关联规则:
第十八讲:用关联规则做购物车分析
八、决策树:
第十九讲、决策树算法ID.3、C4.5、CART算法区别和演示
第二十讲、分类效果的评价方式
目标一:熟练掌握R语言语法知识和使用技巧
目标二:全面掌握回归方法的背景知识和使用技巧,并知道如何评价回归模型的效果;
目标三:掌握两种典型的聚类方法包括层次聚类和k-means聚类原理、使用过程、注意事项和技巧
目标四:掌握决策树算法的原理和使用技巧,为以后学习高阶的组合算法奠定基础。
目标五:深刻理解数据降维的重要性和处理方法,掌握三种常用的降维方法。
目标六:掌握关联规则购物篮分析。
亮点一:本课程不要求学员有任何数学统计背景,课程中会对必须的数学知识会用最通俗的方式进行讲解,保证学员掌握其原理,即知其然也知其所以然。
亮点二:理论与实战相结合,由浅入深。即照顾到基础学员,又照顾到有一定经验的学员,讲解过程中遇到难点会用板书的方式讲解.
亮点三:对于涉及到的分析模型R函数,会给出详细的参数说明和模型解读,不仅要让学员知道如何使用,还要知道如何解读、如何调整模型,做到手中
有剑,心中也有。
亮点四:所有案例提供原始数据集,保证学员能够拷贝复现.
亮点五:个课程的选择的分析模型实用性超强.,都是目前互联网行业经典模型。也是很容易移植到大数据环境的算法。