深度学习——CPU，GPU，TPU等硬件说明（笔记）

深度学习硬件：CPU和GPU

深度学习硬件：TPU

深度学习硬件：CPU和GPU

1.提升CPU的利用率Ⅰ：提升空间和时间的内存本地性

①在计算a+b之前，需要准备数据

主内存->L3->L2->L1->寄存器

L1：访问延时 0.5ns

L2：访问延时 7 ns(14 * L1)

主内存访问延时： 100ns(200 * L1)，内存访问太慢了

② 提升空间和时间的内存本地性

时间：重用数据使得保持他们在缓存里（寄存器）

空间：按序读写数据使得可以预读取（数据相邻）

【例】

如果一个矩阵是按行存储的，访问一行比访问一列要快（按行的地址是连续的，读取快）

CPU一次读取64字节（缓存线）

CPU会“聪明的”提前读取下一个（缓存线）

深度学习——CPU，GPU，TPU等硬件说明（笔记）

2.提升CPU利用率 Ⅱ，尽量使用多核并行计算

①高端CPU有几十个核

②并行来利用所有核

超线程不一定提升性能，因为它们共享寄存器

3.提升GPU利用率

①并行，使用数千个线程

②内存本地性，缓存更小，架构更简单（GPU为了节省面积将缓存做得比较小，这样做的好处是内存的带宽会更高一点）

③少用控制语句，支持有限，同步开销大。

4.GPU和CPU的对比一般/高端

深度学习——CPU，GPU，TPU等硬件说明（笔记）

①GPU核数量远多于CPU，导致GPU每秒计算高于CPU

②每一次计算需要从内存读取数据，所以内存带宽很重要，达不到计算峰值是内存带宽的限制

③核心数量和内存带宽使GPU比CPU运算快，但GPU内存小，控制流弱。CPU做通用计算，控制流强。

4.CPU和GPU之间的带宽不是很高，多个GPU还要共享带宽，所以不要频繁在CPU和GPU之间传数据：带宽限制，同步开销。

总结：

①CPU：可以处理通用计算。性能优化考虑数据的读写效率和多线程

②GPU：使用更多的小核和更好的内存带宽，适合能大规模并行的计算任务

深度学习硬件：TPU

1.DSP：数字信号处理

①为数字信号处理算法设计：点积，卷积，FFT

②低功耗，高性能

③一条指令计算上百次乘累加

缺点：编程和调试困难，编译器良莠不齐

2.可编程陈列（FPGA）

①有大量的可以编程逻辑单元和可配置的连接

②可以配置成计算复杂函数

③通常比通用硬件更高效

缺点：工具链质量良莠不齐，一次编译需要数小时

3.Google TPU芯片

①跟英伟达GPU性能媲美

②Google内部部署，核心是systolic array

4.systolic array

①计算单元（PE）阵列

②适合做矩阵乘法

③设计和制造相对简单

深度学习——CPU，GPU，TPU等硬件说明（笔记）

【总结】

深度学习——CPU，GPU，TPU等硬件说明（笔记）

单机多卡并行

①一台机器可以装多个GPU（1-16）

②在训练和预测时，将一个小批量计算切分到多个GPU上来加速

③常用的切分方案：数据并行，模型并行，通道并行（数据+模型并行）

2.数据并行VS模型并行

①数据并行：将小批量分成n块，每个GPU拿到完整参数计算一块数据的梯度

通常性能更好

深度学习——CPU，GPU，TPU等硬件说明（笔记）

步骤：Ⅰ读一个数据块 Ⅱ拿回参数 Ⅲ计算梯度 Ⅳ发出梯度

②模型并行：将模型分成n块，每个GPU拿到一块模型计算它的前向和反向的结果

通常用于模型大到单GPU放不下

【总结】

①当一个模型能用单卡计算时，通常使用数据并行扩展到多卡上

②模型并行用到大模型上

秒客网

深度学习——CPU，GPU，TPU等硬件说明（笔记）

深度学习硬件：CPU和GPU

深度学习硬件：TPU

单机多卡并行

相关文章