sparkwarc:使用 sparklyr 将 WARC 文件加载到 Apache Spark

时间:2024-06-20 01:12:02
【文件属性】:

文件名称:sparkwarc:使用 sparklyr 将 WARC 文件加载到 Apache Spark

文件大小:360KB

文件格式:ZIP

更新时间:2024-06-20 01:12:02

WebAssembly

sparkwarc - sparklyr 中的 WARC 文件 安装 安装使用: devtools :: install_github( " javierluraschi/sparkwarc " ) 介绍 以下示例从加载 WARC 文件的一个非常小的子集, 是一个非营利性 501 组织,该组织爬网并免费向公众提供其档案和数据集。 library( sparkwarc ) library( sparklyr ) library( DBI ) library( dplyr ) sc <- spark_connect( master = " local " ) ## * Using Spark: 2.1.0 spark_read_warc( sc , " warc " , system.file( " samples/sample.warc.gz " , package =


【文件预览】:
sparkwarc-main
----man()
--------sparkwarc.Rd(235B)
--------rcpp_read_warc_sample.Rd(562B)
--------cc_warc.Rd(442B)
--------spark_rcpp_read_warc.Rd(626B)
--------spark_read_warc.Rd(2KB)
--------spark_warc_sample_path.Rd(261B)
--------spark_read_warc_sample.Rd(618B)
----.gitignore(680B)
----README.md(9KB)
----.Rbuildignore(121B)
----java()
--------SparkWARC.scala(852B)
----DESCRIPTION(747B)
----inst()
--------java()
--------samples()
----R()
--------RcppExports.R(244B)
--------sample.R(1KB)
--------dependencies.R(465B)
--------sparkwarc.R(5KB)
--------commoncrawl.R(539B)
--------package.R(142B)
----src()
--------Makevars(13B)
--------RcppExports.cpp(1KB)
--------warc.cpp(3KB)
----sparkwarc.Rproj(396B)
----NAMESPACE(353B)
----README.Rmd(4KB)

网友评论