文件名称:pyspark-testing:使用PySpark进行单元和集成测试可能很困难,让我们更轻松地进行
文件大小:904KB
文件格式:ZIP
更新时间:2024-05-17 08:28:39
Python
使用PySpark进行测试很痛苦,因此让我们通过示例使其变得更简单。 该项目是开发和测试PySpark应用程序/驱动程序脚本时应遵循的一些良好做法的示例。 提示1:使用Python包 Spark要求您的驱动程序中的所有代码都必须位于启动python进程的执行程序的PYTHONPATH上。 这意味着要么需要为集群中的每个节点正确配置所有必需的依赖项,要么将您的驱动程序所需的代码通过spark-submit --py-files /path/to/myegg.egg或sc.addPyFile()发送给执行者sc.addPyFile() 。 对于不经常更改的需求,可以在供应/引导过程中在所有节点上进行全局pip install ...很好,但是对于经常更改的专有代码,则需要更好的解决方案。 为此,您有两个选择之一: 手动创建一个常规的zip文件,然后通过--py-files或addPyF
【文件预览】:
pyspark-testing-master
----pyspark_testing()
--------__init__.py(0B)
--------models.py(3KB)
--------driver.py(2KB)
--------data()
--------version.py(190B)
----install-spark.sh(328B)
----LICENSE.txt(1KB)
----run_driver.sh(210B)
----run_tests.sh(67B)
----.travis.yml(212B)
----requirements-test.txt(27B)
----setup.py(1KB)
----README.md(5KB)
----tests()
--------pyspark_testing()
--------__init__.py(174B)
----.gitignore(78B)