文件名称:COSMA:分布式通信最优矩阵矩阵乘法算法
文件大小:1.37MB
文件格式:ZIP
更新时间:2024-06-04 05:32:18
linear-algebra mpi cuda scalapack matrix-multiplication
目录 可调参数 参数总览 控制GPU内存 控制CPU内存 性能分析 作者 问题? 致谢 概述 COSMA是并行,高性能,GPU加速的矩阵矩阵乘法算法,对于矩阵尺寸,处理器数量和内存大小的所有组合,都是通信最佳的,而无需任何参数调整。 COSMA背后的关键思想是首先得出一个严格的最佳顺序计划,然后才对其进行并行化,以保持进程之间的I / O最佳状态。 这与2D和3D算法形成鲜明对比,后者先解决了过程域分解问题,然后将其映射到矩阵维度,这可能导致渐近地进行更多的通信。 COSMA的最终设计促进了计算和通信的重叠,从而确保了诸如RDMA之类的现代机制的加速和适用性。 COSMA允许不使用某些处理器来优化处理器网格,这甚至进一步减少了通信量并增加了每个处理器的计算量。 在美国丹佛市享有盛誉的2019年超级计算会议上,COSMA获得了最佳学生论文奖。 COSMA缓解了当前最新算法的问题,可以