PyTorch 2.5 发布带来一些新特性和改进

SDPA CuDNN后端：引入了新的CuDNN后端，为使用H100或更新型号GPU的SDPA用户提供了默认的速度提升。

torch.compile的区域编译：允许用户编译重复的nn.Module，而无需重新编译，减少了编译延迟并可能轻微降低性能。

TorchInductor CPU后端优化：包括CPP后端代码生成和FX融合，支持向量化操作和静态/符号形状，兼容Linux和Windows操作系统。

FlexAttention API：一个灵活的API，允许用少量代码实现多种注意力机制，如滑动窗口、因果掩码等，并自动生成反向传播。

编译自动微分：作为PT2技术栈的扩展，允许捕获完整的反向传播过程，提高了自动微分的灵活性。

飞行记录器：一个调试工具，用于捕获集体操作的信息，帮助快速识别和解决作业卡住的问题。

最大自动调优CPU支持：Inductor CPU后端在编译时配置多个操作实现，并选择最佳性能的一个。

TorchInductor在Windows上的支持：支持MSVC、clang和Intel编译器。

FP16在CPU路径上的支持：支持在CPU上使用FP16数据类型，有助于提升性能。

自动加载设备扩展：简化了设备扩展的集成过程，无需手动导入。

增强的Intel GPU支持：扩展了对Intel GPU的支持，包括数据中心和客户端GPU。

秒客网