GPU（CUDA）学习日记（十一）------ 深入理解CUDA线程层次以及关于设置线程数的思考

最新推荐文章于 2024-09-07 17:24:19 发布

梦想难吗

最新推荐文章于 2024-09-07 17:24:19 发布

阅读量1.9w 收藏 21

点赞数 7

分类专栏： GPU CUDA 动态加载高性能计算并行运算文章标签： cuda 存储线程结构网格

本文链接：/MySniper11/article/details/8269776

版权

本文探讨CUDA线程层次，强调内核执行与数据访问的并行性，指出每个线程块应为32的倍数以适应Warp结构。线程数量过多可能导致效率下降，需平衡计算复杂性和存储需求。对于GeForce GTX560 Ti，最大化GPU利用率关键在于细粒度的线程数和循环优化。

摘要由****通过智能技术生成

GPU线程以网格（grid）的方式组织，而每个网格中又包含若干个线程块，在G80/GT200系列中，每一个线程块最多可包含512个线程，Fermi架构中每个线程块支持高达1536个线程。同一线程块中的众多线程拥有相同的指令地址，不仅能够并行执行，而且能够通过共享存储器（Shared memory）和栅栏（barrier）实现块内通信。这样，同一网格内的不同块之间存在不需要通信的粗粒度并行，而一个块内的线程之间又形成了允许通信的细粒度并行。这些就是CUDA的关键特性：线程按照粗粒度的线程块和细粒度的线程两个层次进行组织、在细粒度并行的层次通过共享存储器和栅栏同步实现通信，这就是CUDA的双层线程模型。
在执行时，GPU的任务分配单元（global block scheduler）将网格分配到GPU芯片上。启动CUDA 内核时，需要将网格信息从CPU传输到GPU。任务分配单元根据这些信息将块分配到SM上。任务分配单元使用的是轮询策略：轮询查看SM是否还有足够的资源来执行新的块，如果有则给SM分配一个新的块，如果没有则查看下一个SM。决定能否分配的因素有：每个块使用的共享存储器数量，每个块使用的寄存器数量，以及其它的一些限制条件。任务分配单元在SM的任务分配中保持平衡，但是程序员可以通过更改块内线程数，每个线程使用的寄存器数和共享存储器数来隐式的控制，从而保证SM之间的任务均衡。任务以这种方式划分能够使程序获得了可扩展性：由于每个子问题都能在任意一个SM上运行，CUDA程序在核心数量不同的处理器上都能正常运行，这样就隐藏了硬件差异。
对于程序员来说，他们需要将任务划分为互不相干的粗粒度子问题(最好

秒客网

GPU（CUDA）学习日记（十一）------ 深入理解CUDA线程层次以及关于设置线程数的思考

相关文章