原始的代码通常无法获得最佳的性能,这时就需要借助CUDA提供的两个基本的性能剖析工具:nvvp,一个独立的视觉性能分析器(visual profiler)和nvprof,一个命令行性能分析器。
优化CUDA代码需要测量的几个问题:
1)应用程序空间(内存)或时间的复杂度
2)特殊指令的使用
3)函数调用的频率和持续的时间
限制核函数性能的三个因素:
1)存储器带宽
2)计算资源
3)指令和存储器延迟
原始的代码通常无法获得最佳的性能,这时就需要借助CUDA提供的两个基本的性能剖析工具:nvvp,一个独立的视觉性能分析器(visual profiler)和nvprof,一个命令行性能分析器。
优化CUDA代码需要测量的几个问题:
1)应用程序空间(内存)或时间的复杂度
2)特殊指令的使用
3)函数调用的频率和持续的时间
限制核函数性能的三个因素:
1)存储器带宽
2)计算资源
3)指令和存储器延迟