SDPA CuDNN后端:引入了新的CuDNN后端,为使用H100或更新型号GPU的SDPA用户提供了默认的速度提升。
torch.compile的区域编译:允许用户编译重复的nn.Module
,而无需重新编译,减少了编译延迟并可能轻微降低性能。
TorchInductor CPU后端优化:包括CPP后端代码生成和FX融合,支持向量化操作和静态/符号形状,兼容Linux和Windows操作系统。
FlexAttention API:一个灵活的API,允许用少量代码实现多种注意力机制,如滑动窗口、因果掩码等,并自动生成反向传播。
编译自动微分:作为PT2技术栈的扩展,允许捕获完整的反向传播过程,提高了自动微分的灵活性。
飞行记录器:一个调试工具,用于捕获集体操作的信息,帮助快速识别和解决作业卡住的问题。
最大自动调优CPU支持:Inductor CPU后端在编译时配置多个操作实现,并选择最佳性能的一个。
TorchInductor在Windows上的支持:支持MSVC、clang和Intel编译器。
FP16在CPU路径上的支持:支持在CPU上使用FP16数据类型,有助于提升性能。
自动加载设备扩展:简化了设备扩展的集成过程,无需手动导入。
增强的Intel GPU支持:扩展了对Intel GPU的支持,包括数据中心和客户端GPU。