【文件属性】:
文件名称:弹性:PyTorch弹性训练
文件大小:1.22MB
文件格式:ZIP
更新时间:2021-02-17 07:43:04
Python
火炬弹力
TorchElastic允许您以容错和弹性方式启动分布式PyTorch作业。 有关最新文档,请访问我们的。
要求
弹力要求
python3(3.8+)
火炬
等
安装
pip install torchelastic
快速开始
4节点上的容错能力,每个节点8教练员,总共4 * 8 = 32教练员。 在所有节点上运行以下命令。
python -m torchelastic.distributed.launch
--nnodes=4
--nproc_per_node=8
--rdzv_id=JOB_ID
--rdzv_backend=etcd
--rdzv_endpoint=ETCD_HOST:ETCD_PORT
YOUR_TRAININ