文件名称:gloo:具有多种原语的集体通信库,用于多机培训
文件大小:375KB
文件格式:ZIP
更新时间:2024-05-18 18:27:47
C++
格洛 Gloo是一个集体通信库。 它带有许多对机器学习应用有用的集合算法。 这些包括屏障,广播和减少。 参与机器之间的数据传输是抽象的,因此可以随时使用IP,如果可用,则可以使用InifiniBand(或RoCE)。 在后一种情况下,如果使用InfiniBand传输,则可以使用加速跨机器GPU到GPU的内存传输。 在适用的情况下,算法的实现可与系统内存缓冲区一起使用,而另一种则可与NVIDIA GPU内存缓冲区一起使用。 在后一种情况下,无需在主机和设备之间复制内存; 这由算法实现来解决。 要求 Gloo是为在Linux上运行而构建的,除了libstdc ++之外没有任何硬性依赖项。 也就是说,它通常仅在与以下一些可选依赖项结合使用时才有用。 可选的依赖项是: 和用于CUDA感知算法,测试和基准测试 -构建和运行测试 通过Redis协调机器集合 通过MPI协调机器集合点 文献资料