R语言并行处理

最新更新参考：http://cangfengzhe.github.io/

具体的不懂，只记录实现

parallel package

R自带的包，可以实现并行处理。

library(parallel)
detectCores(logical = F) #获得实际核数
cl <- makeCluster(getOption("cl.cores", 4))  # 设置并行核数为4
clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos")) # 导入全局环境中的数据
clusterEvalQ(cl, require(lme4)) # 导入使用的包
# 开始计算
parSapply(cl, ...)
parLapply(cl, ...)

foreach

Revolution R 提供的包，需要选择doParallel包(windows, Linux, Mac OSX 均可) 或者 doMC包(只适用于Linux，Mac OSX)作为后台

doParallel

library(foreach)
library(doParallel)
cl <- makeCluster(2)  # 设置并行核数
registerDoParallel(cl) # 注册并行
foreach(i=1:3) %dopar% sqrt(i) # 开始计算

不知何故，在Mac OSX 下采用doParallel速度特别慢，比不用并行还慢，于是又尝试了doMC

doMC

library(foreach)
library(doMC)
registerDoMC(2) # 设置并行核数, 并注册并行
foreach(i=1:3) %dopar% sqrt(i) # 开始计算

可以通过下面命令，查看选择的后台包

getDoParRegistered()
getDoParWorkers()
getDoParName()

plyr中的并行

plyr中的并行程序采用foreach作为并行包，所以在plyr中使用并行需完成上面提到的步骤。
以foreach，doMC包，ldply函数为例

library(foreach)
library(doMC)
registerDoMC(2) # 设置并行核数, 并注册并行
ldply(.data, .fun = NULL, ..., .progress = "none", .inform = FALSE,
  .parallel = T, .paropts = list(.export = c('your_data'), .packages=c('your_package') ), .id = NA)
# .parallel = T 开启并行
# .paropts = list(.export, .packages) 这是一个list， 里面的.export(导入用到的数据)， .package(导入需要的包)都是foreach：：foreach（）中的参数，可以??foreach 查看具体细节

秒客网

R语言并行处理

parallel package

foreach

doParallel

doMC

plyr中的并行

相关文章

R语言 并行处理

parallel package

foreach

doParallel

doMC

plyr中的并行

相关文章

R语言并行处理