栗子 发自 凹非寺
量子位 出品 | 公众号 QbitAI
英伟达的CUDA 10工具包,终于可以下载了。
与9字头的前辈相比,10.0是第一次为图灵GPU定制的版本。
英伟达新近发布的GeForce RTX 20系列和Quadro RTX系列显卡,以及新一代GPU Tesla T4,都是基于图灵架构。
官网的评价是,要编写GPU加速的应用程序,CUDA 10是最强大的开发平台。
10.0是重大更新
CUDA工具包,都是为开发GPU加速的应用程序而存在。
而针对图灵GPU定制的10.0,主要发生了以下变化:
图灵架构
10.0支持图灵架构,包括最新的Tesla T4 GPU (适用于超大规模的数据中心等等) 。
CUDA平台
CUDA Graphs,是新的异步任务图像 (Task-Graph) 编程模型,让内核启动和执行更高效。
另外,CUDA和图形API之间的互操作性 (Interoperability) 增强了。
CUDA库
许多库的性能得到了优化。比如,做快速傅里叶变换(FFT)、线性代数以及矩阵乘法用的那些库。
开发者工具
增加了Nsight系列产品,用来追踪、分析、Debug。
操作系统
除此之外,CUDA 10支持的操作系统和编译器,也比以前更多了。
操作系统:
编译器:
CUDA库性能大幅提升
cuFFT 10.0
做快速傅里叶变换 (FFT) 的库,16 GPU时最高可以达到17 teraFlops (3D FFT, size 1024) 。
cuBLAS 10.0
做矩阵运算的库,包含了图灵优化的混合精度 (Mixed-Precision) 。做矩阵乘法 (GEMM) 时,最高可以达到90 teraFlops。
cuSOLVER 10.0
线性代数用的库,在对称的特征值求解 (eigensolver) 中,速度最多提升4倍。
下载,下载
9月27日,在SIGGRAPH大会上正式发布的一个多月之后,CUDA 10的下载入口姗姗来迟。
英伟达发了一篇超长博客,事无巨细地描述了这次进化。
GPU应用开发者的各位,请速前去下载。
下载传送门:
https://developer.nvidia.com/cuda-downloads
博客传送门:
https://devblogs.nvidia.com/cuda-10-features-revealed/
今日推荐
《深度学习:原理与实践》
适用于大数据平台系统工程师、算法工程师、数据科学家
可作为对人工智能和深度学习感兴趣的计算机相关从业人员的学习用书
也可作为计算机等相关专业的师生用书和培训学校的教材