文件名称:multidplyr:一个dplyr后端,可将数据帧划分为多个进程
文件大小:35KB
文件格式:ZIP
更新时间:2024-05-24 09:44:37
dplyr multiprocess R
多重 概述 multidplyr是dplyr的后端,它跨多个内核对数据帧进行分区。 您告诉multidplyr如何使用partition()拆分数据,然后数据保留在每个节点上,直到使用collect()显式检索它为止。 这样可以最大程度地减少移动数据所需的时间,并可以最大程度地提高并行性能。 这个想法的灵感来自通过规范Matloff和由Vertica的分析团队。 由于开销与节点之间的通信相关的,你不会看到不到〜千万观察与简单的操作太多的性能提升,并且你可能想代之以 ,它采用 。 发现multidplyr的优势与对更慢和更复杂的函数的调用并行。 (请注意,与tidyverse中的其他软件包不同,multidplyr要求R 3.5或更高。我们希望放宽此要求。) 安装 您可以使用以下方法从安装multidplyr的发行版本: install.packages( " multidplyr "
【文件预览】:
multidplyr-master
----codecov.yml(232B)
----_pkgdown.yml(212B)
----.github()
--------.gitignore(7B)
--------workflows()
----vignettes()
--------multidplyr.Rmd(6KB)
--------.gitignore(29B)
----NAMESPACE(2KB)
----NEWS.md(114B)
----cran-comments.md(196B)
----DESCRIPTION(948B)
----R()
--------cluster-utils.R(3KB)
--------dplyr-dual.R(3KB)
--------cluster.R(2KB)
--------partydf.R(6KB)
--------multidplyr-package.R(248B)
--------zzz.R(1001B)
--------cluster-call.R(2KB)
--------utils.R(360B)
--------dplyr-single.R(2KB)
----.Rbuildignore(181B)
----LICENSE(48B)
----LICENSE.md(1KB)
----README.md(5KB)
----multidplyr.Rproj(385B)
----.covrignore(26B)
----man()
--------party_df.Rd(1KB)
--------cluster_utils.Rd(2KB)
--------cluster_call.Rd(1KB)
--------partition.Rd(950B)
--------default_cluster.Rd(589B)
--------reexports.Rd(399B)
--------new_cluster.Rd(544B)
--------multidplyr-package.Rd(689B)
----tests()
--------testthat()
--------testthat.R(64B)
----.gitignore(44B)
----README.Rmd(4KB)