文件名称:gcspytorchimagenet:使用Google Cloud进行可扩展培训的示例代码
文件大小:66KB
文件格式:ZIP
更新时间:2024-04-01 08:40:47
Python
使用Cloud Storage在Cloud TPU Pod上训练pytorch模型 免责声明:仅出于示例目的提供此代码。 此存储库包含支持文件,用于使用以下配置进行培训: 云TPU Pod TPU豆荚分为几片。 每个片都需要与VM Worker配对(异步训练)。 v2-32 TPU Pod具有4个切片(32/8 = 4)。 进行训练时,每个虚拟机将获得一个专用的pod切片。 XLA编译器执行代码转换,包括将矩阵平铺为较小的块,以有效地对矩阵单元(MXU)执行计算。 XLA编译器使用MXU硬件的结构,128x128脉动阵列以及TPU内存子系统的设计(首选尺寸是8的倍数)来提高切片效率。 托管实例组 每个TPU将从实例组中获取一个节点,因此该实例组将具有4个节点。 该图像是深度学习pytorch 1.7图像。 数据集 以ImageFolder兼容的布局在云存储中存储了约135GB的201
【文件预览】:
gcspytorchimagenet-main
----go.sh(987B)
----images()
--------gcp.png(47KB)
----Dockerfile(56B)
----test_gcsdataset.py(3KB)
----gcsdataset.py(7KB)
----test_train_mp_imagenet.py(11KB)
----LICENSE(11KB)
----test.sh(246B)
----README.md(8KB)
----main.tf(3KB)
----dashboard.json(4KB)
----.gitignore(427B)
----workerboot.sh.tmpl(365B)
----make-package.sh(297B)