SparkRext:dplyr的SparkR扩展

时间:2024-05-19 08:48:39
【文件属性】:

文件名称:SparkRext:dplyr的SparkR扩展

文件大小:134KB

文件格式:ZIP

更新时间:2024-05-19 08:48:39

R

SparkRext-用于dplyr的SparkR扩展 这是提供的出色软件包的,它使用户可以将 NSE样式调用用于所有数据功能。 但是,仍然无法同时将这些函数用于分布式Spark DataFrame和本地R DataFrame。 该派生实现了如下所示的用例。 其动机是,尽管SparkR提供了强大的接口来转换分布式DataFrame和实践机器学习算法,但R在小型数据世界(例如,小型数据聚合等)中仍然表现出色。 概述 是数据科学中最热门的产品之一。 Spark 1.4.0正式采用了SparkR软件包,该软件包可以处理R上的Spark DataFrames。(请参阅) SparkR非常有用且功能强大。 原因之一是SparkR DataFrames提供了类似于dplyr的API。 例如: df <- createDataFrame( sqlContext , iris ) df % > %


【文件预览】:
SparkRext-master
----.gitignore(72B)
----NAMESPACE(348B)
----README_files()
--------figure-html()
----R()
--------group_by.R(443B)
--------SparkRext.R(77B)
--------arrange.R(388B)
--------mutate.R(518B)
--------zzz.R(426B)
--------summarize.R(670B)
--------filter.R(402B)
--------select.R(476B)
--------to_spark_input.R(643B)
----.Rbuildignore(28B)
----SparkRext.Rproj(365B)
----LICENSE(1KB)
----man()
--------SparkRext.Rd(276B)
----README.md(19KB)
----tests()
--------test-all.R(42B)
--------testthat()
----README.Rmd(10KB)
----DESCRIPTION(687B)

网友评论