文件名称:PyTorch Elastic :PyTorch分布式训练框架-python
文件大小:554KB
文件格式:ZIP
更新时间:2024-07-08 14:27:09
机器学习
PyTorch Elastic :PyTorch分布式训练框架 TorchElastic TorchElastic 允许您以容错和弹性的方式启动分布式 PyTorch 作业。 有关最新文档,请参阅我们的网站。 要求 torchelastic 需要 python3 (3.6+) torch etcd 安装 pip install torchelastic Quickstart 容错在 4 个节点上,8 个训练器/节点,总共 4 * 8 = 32 个训练器。 在所有节点上运行以下命令。 python -m torchelastic.distributed.launch --nnodes=4 --nproc_per_node=8 --rdzv_id=JOB_ID --rdzv_backend=etcd --rdzv_endpoint=ETCD_HOST:ETCD_PORT YOUR_TRAINING_SCRIPT.py (--arg1 ...训练脚本参数.. .) 弹性在 1 ~ 4 个节点上,8 个训练器/节点,总共 8 ~ 32 个训练器。 作业在 1 个节点健康后立即开始,您