文件名称:弹性:PyTorch弹性训练
文件大小:1.22MB
文件格式:ZIP
更新时间:2024-03-09 01:29:44
Python
火炬弹力 TorchElastic允许您以容错和弹性方式启动分布式PyTorch作业。 有关最新文档,请访问我们的。 要求 弹力要求 python3(3.8+) 火炬 等 安装 pip install torchelastic 快速开始 4节点上的容错能力,每个节点8教练员,总共4 * 8 = 32教练员。 在所有节点上运行以下命令。 python -m torchelastic.distributed.launch --nnodes=4 --nproc_per_node=8 --rdzv_id=JOB_ID --rdzv_backend=etcd --rdzv_endpoint=ETCD_HOST:ETCD_PORT YOUR_TRAININ