第一章,R语言介绍
一、为何要使用R
1、R是一种为统计计算和绘图而生的语言和环境(R是用于统计分析、绘图的语言和操作环境)
2、R拥有顶尖水准的制图功能
3、R是一个可进行交互式数据分析和探索的强大平台
4、R可以运行于多种平台上,win、UNIX、Mac
5、R的功能可以被整合进其他语言编写的应用程序,C++、Java、Python、PHP、、、
二、R的使用
1、R是一种区分大小的解析型语言
2、R语言由函数和赋值构成,使用<-,而不是传统的=作为赋值符号,
如:x <- rnorm(5),意思是创建了一个名为x的向量对象,它包含5个来自标准正态分布的随机偏差
3、R允许使用=作为对象赋值,但是不多,因为不是标准语法,rnorm(5)->x与上面语句等价
4、注释由符号#开头
三、新手上路
1、使用函数c()以向量的形式输入月龄和体重的数据,此函数可将其参数组合成一个向量或者列表
2、然后用mean()、sd()和cor()函数分别获得体重的均值和标准差,以及月龄和体重的相关度
3、最后用plot()函数,从而用图形展示月龄和体重的关系
4、函数q()将会结束会话并允许你退出R
5、想大致了解R能够做出何种图形,在命令行中运行demo()即可。demo(image)、等等,要看完整的示例列表,直接运行demo()即可,不带参数
四、获取帮助
1、help.start(),打开帮助文档首页,会打开一个浏览器窗口,可以查看入门和高级的帮助手册、常见问题,以及参考资料
2、help(“foo”)或??foo,查看函数foo的帮助(引号可以省略)
3、Example(“foo”),函数foo的使用示例
4、等等、、、
五、工作空间
1、可以使用getwd()来查看当前的工作目录
2、可以使用setwd()设定当前的工作目录
3、如果要安装一个不在当前工作目录下的文件,则需在调用语句中写明完整的路劲。记得使用引号闭合这些目录名和文件名
4、ls(),列出当前工作空间中的对象
5、rm(),移除或删除一个或多个对象
6、savehistory(“mylife”),保存命令历史到文件mylife中(默认值为.Rhistory)
7、loadhistory(“mylife”),载入一个命令历史记录
8、save.image(“mylife”),保持工作空间到文件mylife中(默认值为R.Data)
9、load(“mylife”),读取一个工作空间到当前会话中(默认值为.RData)
注意:setwd()命令的路径使用了正斜杠。R将反斜杠(\)作为一个转义符。即使你在win平台上运行R,路径也是要使用正斜杠。同时注意,函数setwd()不会自动创建一个不存在的目录,如果不要的话,可以使用函数dir.create()来创建新目录,然后使用setwd()将工作目录指向这个新目录。
六、输入和输出
1、输入。函数source(“filename”)可在当前会话中执行一个脚本。如果文件名中不包含路径,R将假设此脚本在当前的工作目录中
2、文本输出。函数sink(“filename”)将输出重定向到文件filename中。默认情况下,如果文件已经存在,则它的内容将被覆盖。使用参数append=TRUE可以将文本追加到文件后,而不是覆盖它。参数split=TRUE可将输出同时发送到屏幕和输出文件中。不加参数调用命令sink()将仅向屏幕返回输出结果。
3、图形输出。虽然sink()可以重定向文本输出,但是它对图形输出没有影响。要重定向图形输出,使用以下函数即可,最后使用dev.off()将输出结果返回到终端
bmp(“filename.bmp”),BMP文件
jpeg(“...”)
pdf(“...”)
png(“...”)
等等、、、
七、包
1、什么是包。包是R函数、数据、预编译代码以一种定义完善的格式组成的集合
2、函数.libPaths()能够显示库所在的位置,函数library()则可以显示库中有哪些包
3、包的安装。第一次安装一个包,使用命令install.packages()即可,若知道要安装的包名,则install.packages(“包名”)。使用update.packages()更新已经安装过的包。
4、查看已经安装包的描述,可以使用installed.packages()
八、R语言的基本功能
1、R语言是一种开发良好,简单有效的编程语言,包括条件,循环,用户定义的递归函数以及输入和输出设施;
2、R语言具有有效的数据处理和存储设施;
3、R语言提供了一套用于数组,列表,向量和矩阵计算的运算符;
4、R语言为数据分析提供了大型,一致和集成的工具集合。
5、R语言提供直接在计算机上或在纸张上打印的图形设施用于数据分析和显示。
九、数据分析过程
R的交互式数据分析功能强大且灵活。一个完整的数据分析过程可以大体包括以下几个步骤:
(1)导入数据;
(2)数据准备、探索和清洗;
(3)拟合一个统计模型;
(4)得到结果并进行评估;
(5)如果结果的评估不理想,重新完成(3)步骤;
(6)得到多个模型的结果,并进行交叉检验;
(7)根据模型结果进行预测、分析等;
(8)形成报告。