DistributedDeepLearning：关于在Batch AI上运行分布式深度学习的教程下载

【文件属性】：

文件名称：DistributedDeepLearning：关于在Batch AI上运行分布式深度学习的教程

文件大小：437KB

文件格式：ZIP

更新时间：2024-02-22 08:19:15

deep-learning azure nvidia convolutional-neural-networks nvidia-docker

培训关于批处理AI的分布式培训此仓库是有关如何使用Batch AI以分布式方式训练CNN模型的教程。涵盖的场景是图像分类，但是该解决方案可以推广到其他深度学习场景，例如分段和对象检测。图像分类是计算机视觉应用中的常见任务，通常通过训练卷积神经网络（CNN）来解决。对于具有大型数据集的大型模型，单个GPU的训练过程可能需要数周或数月。在某些情况下，模型太大，以致于无法在GPU上放置合理的批处理大小。在这些情况下使用分布式培训有助于缩短培训时间。在此特定方案中，使用Horovod在ImageNet数据集以及合成数据上训练ResNet50 CNN模型。本教程演示了如何使用三个最受欢迎的深度学习框架来完成此任务：TensorFlow，Keras和PyTorch。有许多方法可以以分布式方式训练深度学习模型，包括数据同步和基于同步和异步更新的模型并行方法。当前，最常见的场景是与同步更新并行的数据-这是最容易实现的，并且对于大多数用例而言已经足够。在具有同步更新的数据并行分布式训练中，该模型在N个硬件设备之间复制，并且一小批训练样本被划分为N个微批次（参见图2）。每个设备都

立即下载

【文件预览】：
DistributedDeepLearning-master
----HorovodTF()
--------01_TrainTensorflowModel.ipynb(12KB)
--------src()
--------Docker()
--------00_CreateImageAndTest.ipynb(6KB)
----.gitignore(1KB)
----images()
--------dist_training_diag2.png(65KB)
----00_DataProcessing.ipynb(4KB)
----Makefile(1KB)
----HorovodKeras()
--------src()
--------01_TrainKerasModel.ipynb(12KB)
--------Docker()
--------00_CreateImageAndTest.ipynb(6KB)
----LICENSE(1KB)
----HorovodPytorch()
--------src()
--------01_TrainPyTorchModel.ipynb(12KB)
--------Docker()
--------cluster_config()
--------00_CreateImageAndTest.ipynb(6KB)
----Docker()
--------dockerfile(2KB)
--------environment.yml(269B)
--------jupyter_notebook_config.py(166B)
----01_CreateResources.ipynb(17KB)
----README.md(5KB)
----include()
--------build.mk(325B)
----common()
--------timer.py(3KB)
--------utils.py(871B)
----valprep.sh(2.12MB)

秒客网

DistributedDeepLearning：关于在Batch AI上运行分布式深度学习的教程

网友评论

相关文章