DummyRDD:pyspark的RDD的纯Python模拟

时间:2024-05-31 07:43:18
【文件属性】:

文件名称:DummyRDD:pyspark的RDD的纯Python模拟

文件大小:386KB

文件格式:ZIP

更新时间:2024-05-31 07:43:18

Python

虚拟RDD 贡献者 概述 像RDD一样走路的测试类,像RDD一样说话,但只是一个列表。 包含3个主要类别: 星火汇 SparkContext RDD 所有这些都实现了与实际spark方法完全相同的API,但是使用一个简单的python列表作为实际数据存储区。 Hadoop API,分区,复杂操作等许多功能未实现。 有关实现的功能及其注意事项的详细列表,请参见下文。 请注意,目前这只是实验性的,以后可能对测试或开发有用,但是使用此工具开发的任何东西都应始终在真实的火花上进行检查,以确保在那里确实可以正常工作。 由于实际上没有任何代码在此环境中分发,因此某些事情的行为会有所不同。 打算将该库用作真正的Spark上下文的替代品,而不会出错,但实际上可能什么也没做(例如,在不相关的配置选项的情况下)。 当前,不支持数据框api,也不支持任何事物的大多数功能,但仍在进行中。 例子 一个


【文件预览】:
DummyRDD-master
----MANIFEST.in(17B)
----.travis.yml(234B)
----example()
--------simple.py(2KB)
--------__init__.py(53B)
----docs()
--------epytext.py(682B)
--------conf.py(10KB)
--------make.bat(199B)
--------_templates()
--------dummy_spark.rst(191B)
--------_build()
--------Makefile(7KB)
--------dummy_spark.sql.rst(420B)
--------make2.bat(7KB)
--------index.rst(2KB)
--------_static()
----tests()
--------unit()
--------__init__.py(24B)
----CONTRIBUTING.md(2KB)
----setup.cfg(64B)
----dummy_spark()
--------rdd.py(24KB)
--------conf.py(2KB)
--------resultsiterable.py(1KB)
--------__init__.py(233B)
--------context.py(14KB)
--------sql()
----requirements.txt(6B)
----setup.py(964B)
----LICENSE.md(1KB)
----.gitignore(775B)
----update_docs.sh(451B)
----README.md(3KB)

网友评论