【文件属性】:
文件名称:gloo:具有多种原语的集体通信库,用于多机培训
文件大小:375KB
文件格式:ZIP
更新时间:2021-04-29 00:41:07
C++
格洛
Gloo是一个集体通信库。 它带有许多对机器学习应用有用的集合算法。 这些包括屏障,广播和减少。
参与机器之间的数据传输是抽象的,因此可以随时使用IP,如果可用,则可以使用InifiniBand(或RoCE)。 在后一种情况下,如果使用InfiniBand传输,则可以使用加速跨机器GPU到GPU的内存传输。
在适用的情况下,算法的实现可与系统内存缓冲区一起使用,而另一种则可与NVIDIA GPU内存缓冲区一起使用。 在后一种情况下,无需在主机和设备之间复制内存; 这由算法实现来解决。
要求
Gloo是为在Linux上运行而构建的,除了libstdc ++之外没有任何硬性依赖项。 也就是说,它通常仅在与以下一些可选依赖项结合使用时才有用。
可选的依赖项是:
和用于CUDA感知算法,测试和基准测试
-构建和运行测试
通过Redis协调机器集合
通过MPI协调机器集合点
文献资料