R程序包

时间:2022-05-03 21:36:59
=== 数据基础操作 ===
reshape2 横向、纵向做数据变换,例如把纵向堆叠在数据库中的证券行情数据转换成一个按照不同证券代码横向排列,按照时间纵向排列收盘价的数据表
stringr 方便地用正则表达式做批量字符串操作,可做检测、匹配、替换、计数等等
lubridate 方便地做日期/时间操作,各种标准化时间和时区的处理
plyr 轻松地在vector, list, data.frame之间做分组变换,实现拆分、变换、合并的操作
dplyr 轻松地处理data.frame, data.table以及多种数据库为基础的数据,实现选择、变换、分组等等,速度很快
RODBC 连接ODBC数据库接口
RSQLite 连接轻量级SQLite数据库连接
jsonlite 读写json文件
yaml 读写yaml文件,实现灵活的程序外部配置
Rcpp, Rcpp11 写C++03/11代码直接编译后给R调用,大幅提升算法性能
data.table 快速处理较大数据表
ggplot2 高级绘图,一套统一的语法实现复杂图像组合绘制
zoo 时间序列数据的预处理,比如滚动平均等等
rmarkdown 用Markdown写文档并可方便地运行R代码与绘图
knitr 自动文档生成
devtools 扩展包开发必备,在线安装托管的扩展包,检查扩展包是否符合CRAN标准等等
testthat 扩展包自动测试
pipeR 自己写的高性能、低损耗、分工明确的管道操作(pipeline operator)扩展包,使得数据变换流程化

=== 专业领域(数值计算) ===
rootSolve 非线性方程求根、ODE均衡状态解
Rsolnp 非线性优化

=== 专业领域(计量和统计学习) ===
sde 随机微分方程模拟和统计推断
KernSmooth 非参数平滑与分布估计
cpm Change Point Detection 实时分布或者统计关系变化检测
stats4 可用来方便地做MLE估计

=== 自己写的扩展包 ===
pipeR 管道操作符号
rlist by renkun-ken 方便地用list对象操作非关系型数据
rprintf by renkun-ken 方便地输出3种方式的格式化文本

ggplot2:不用说,画图神器
reshape2:变形,整合
stringr:处理字符串
lubridate:处理时间
RODBC:链接数据库
plyr:拆分,合并,重组。
knitr:谢益辉,自动化报告包
ggmap:ggplot2+map的一个包,主要用来画地图,但是ggplot2的功能也都有
animation:谢益辉,动画包
formatR:谢益辉,整理代码的包
googleVis:利用google的API,可以生成动态气泡图之类,炫
data.table:大的数据,用它取子集等,不怎么会。
sqldf:在R中,像写sql语句一样对数据框做操作

xlsx:excel文件读写
RODBC:数据库
caret: 数据挖掘
knitr是我这两年用得最多的包~~~

LARS: 变量选择
glmnet:也是变量选择的,只不是过广义线性模型的
rpart:分类树
e1071:支持向量机
MASS:经典的统计方法,包括各种估计和检验方法

Hmisc,主要用里面的recode函数来转换数据,比如把c("Jan", "Feb", "Mar")转换成1, 2, 3
reshape/reshape2,主要用来整理数据,做pivot table,方便进行下一步的统计或绘图
ggplot2,绘图
scales,用来生成特定的数据格式,比如百分数
R.matlab,以matlab支持的格式导出数据
ez,各种线性统计检验
dplyr,支持对data.frame的灵活操作,很方便

knitr 动态生成报告的工具包
大部分上面提到的都挺常用,补充个xtable。结合knitr来把数据、结果制表输出到报告中。

ggplot2以及与它相关的plyr包等。个人觉得R作图是目前最流行和出色的。也是多数人用它的原因之一
quantmod:做金融数据分析建模。既可以连接已有数据库,也可以从网上抓取免费数据,特别好用
rgl:3d绘图

我的可能和大家不太一样,用forecast最多。研究时间序列的forecast model结果