弹性:PyTorch弹性训练

时间:2024-03-09 01:29:44
【文件属性】:

文件名称:弹性:PyTorch弹性训练

文件大小:1.22MB

文件格式:ZIP

更新时间:2024-03-09 01:29:44

Python

火炬弹力 TorchElastic允许您以容错和弹性方式启动分布式PyTorch作业。 有关最新文档,请访问我们的。 要求 弹力要求 python3(3.8+) 火炬 等 安装 pip install torchelastic 快速开始 4节点上的容错能力,每个节点8教练员,总共4 * 8 = 32教练员。 在所有节点上运行以下命令。 python -m torchelastic.distributed.launch --nnodes=4 --nproc_per_node=8 --rdzv_id=JOB_ID --rdzv_backend=etcd --rdzv_endpoint=ETCD_HOST:ETCD_PORT YOUR_TRAININ


网友评论