本文讲的是AMD力挺OpenCL 用GPU打造通用计算神话,【IT168 专稿】日前,中国高性能计算年会在长沙召开,展会公布了2009年最新的中国TOP 100,国防科技大学研制的天河一号超级计算机以1 PFlops(千万亿次)的计算速度夺得了中国超算排行榜的第一名。各家厂商就目前日渐火热的高性能计算市场做出表示,认为随着金融危机的发生,企业逐步认识到高性能计算在工程和研发领域具有高效率、低成本等特点,从而使得高性能计算市场开始增加。
大会现场,我们看到了AMD将其新近推出的最新HD5000系列显卡和有关GPU通用高性能计算的相关应用案例做了展示。据了解,已经有很多实验性算法是基于OpenCL标准,面向最新的HD 5000系列GPU架构制作的。AMD举办的中国高校GPU加速计算竞赛中,前后有6个代表队以出色的GPU编程脱颖而出。
Super-LU-killer团队在稠密矩阵LU分解的OpenCL实现中,使用了HD 5870系列显卡的GPU作为运算核心,使得该算法的核心计算峰值达到了28GFlops(矩阵规模n=10240),相对于传统CPU的穿行LU分解版本得到了很高的加速。AMD的工程市介绍,这组算法的设计充分使用了HD 5870的特点,采用Foat4向量化,Memory Coalescing存储优化等方式提高了程序的性能。
类似的还有Sokudo团队利用GPU单元上的扫描原语和它在PageRank中的应用。据AMD工程师介绍,Sokudo团队将Google著名的PageRank算法从x86平台迁移到了GPU图形加速架构上,其计算速度相比普通四核CPU处理器,获得了24倍的提升。
据AMD负责GPU通用计算的工程师介绍,“HD 5870的SIMD阵列从10组增倍到20组,每组依然是16个5-D流处理单元和4个纹理单元,因而总计拥有多达1600个流处理器和80个纹理单元,另外还有32个ROP光栅化单元,是Radeon HD 4800系列的两倍。”
此外,HD 5870 RV870核心采用台积电40nm工艺制造,集成晶体管超过20亿个,核心面积338平方毫米,而55nm工艺的Radeon HD 4870 RV770为9.56亿个/260平方毫米,Radeon HD 4890 RV790则是9.59亿个/282平方毫米,也就是说新核心的晶体管数量翻了一番还多,核心面积却只增加了20-30%,由此可见40nm工艺功不可没。