文件名称:aztk:由Azure Batch支持的AZTK
文件大小:2.07MB
文件格式:ZIP
更新时间:2024-06-13 02:20:04
docker spark azure-batch azure-storage spark-jobs
Azure分布式数据工程工具包(AZTK) Azure分布式数据工程工具包(AZTK)是一个Python CLI应用程序,用于在Azure中的Docker群集上预配置按需Spark。 这是使用Spark集群启动和运行的一种廉价且简便的方法,对于想要进行大规模实验和开始测试的Spark用户来说,这是一个很好的工具。 该工具包基于Azure Batch构建,但不需要使用任何Azure Batch知识。 地位 该存储库已标记为存档。 它不再维护。 特色功能 Spark集群的平均配置时间为5分钟 Spark集群在Docker容器中运行 在启用GPU的集群上运行Spark 用户可以携带自己的Docker映像 使用低优先级VM的能力可享受80%的折扣 同时使用低优先级和专用VM的混合模式群集 内置对Azure Blob存储和Azure Data Lake连接的支持 能够直接从本地计算机的CLI运