由于工作和论文实验的需要,使用R语言已经有半年的时间了。入门书籍是Mr Huang推荐的《An instroduction to statistical learning with application in R》(简称ISLR),这本书不是专门讲解R的使用的,主要是数据挖掘常见方法,如线性回归、分类、抽样、SVM等,书中每一章后面都配有使用R进行的实验例子,在实验中会对R的工具包作简单说明,另外,该书第二章有个简单的R入门介绍,包括R环境的安装、常用基础命令、图形、读取数据等。有这个基础就能进行后面的实验了,无非就是读取数据,调用工具包跑实验,输出、画图,再者就是查看工具包的帮助文档,看懂参数配置、输出结果等。
在这里要推荐一下《ISLR》这本书,挺适合数挖学习的入门,纯英文,但是读懂难度不大,介绍每个数据挖掘的方法条理非常清晰,过程配合实例、应用问题,没有深奥的公式推导,非常便于理解,并且对每个方法的应用场景,常见重要问题都有介绍,如线性回归如何判断自变量的关系、哪个变量更重要,如何衡量拟合优度,如何处理高杠杆点、离群点等。
看了书中的前几个章节,并把实验做了一遍,对R的基本语法命令有了基本的掌握。后来因为发表论文需要,基于R进行了论文的实验,调用了random forest、GBDT、boosting、Rpart、SVM、lr等方法进行对比分析。另外,在工作上,也是换用R来做数据分析和数据展现(之前用matlab),陆续使用过R连接数据库(Mysql),后台数据处理程序(C#开发)调用R函数,数据局部拟合实验,分类实验等。过程中遇到不懂的就找度娘,不过不像Matlab,R有关的资料比较少。
R最初在学术界流行,现在在互联网行业也越来越流行了,看过一些公司招聘中也把R列为技能项之一。R的优势不必多说,免费、工具包丰富、面向对象、与其他语言和数据库有很好的接口等。
这几个月使用R其实都是一些很入门的使用,没有进行过系统的学习,没有发挥R丰富的绘图功能,也没有进行过复杂的运算。现在想抓住一些空闲时间整体学习下R,查了下资料,找到丁国徽翻译的《R导论》,准备以这本书为参考。