OpenGL 性能优化
作者: Yang Jian (jyang@cad.zju.edu.cn)
日期: 2009-05-04
本文从硬件体系结构、状态机、光照、纹理、顶点数组、LOD、Cull等方面分析了如何优化 OpenGL 程序的性能。
|
OpenGL状态机(State Machine)OpenGL状态机的目前只有1.1版本,也是最经典的,大家可以参考下述链接: ftp://ftp.sgi.com/opengl/doc/opengl1.1/state.pdf ftp://ftp.sgi.com/opengl/doc/opengl1.1/state.ps 它们是内容相同而格式不同的状态机表达。整个文件中只有一张Postscript的图。这张图实际上就是SGI RealityEngine的硬件程序流程描述。 首先硬件接受应用程序输入的顶点信息,(Color, Normal, Texture, EdgeFlag, Vertex, ),经过世界坐标变换(glTranslate, glRotate, glScale),接着进行User Clip Plane,之后进入视图变幻和裁减(Projection Matrix),然后视口变换(ViewPort),经过Primitive Setup,光栅化处理(Flat或Phong)生成片断Fragment,下面的对每个依次作纹理贴图计算,纹理混合(Texture Blend),深度测试(Depth Test),模板测试(Stencil测试),透明测试(Alpha Test),透明混合(Apha Blend),然后写入颜色缓冲区,深度缓冲区,模板缓冲区。 整个流程如下:
我们可以看到OpenGL每处理一个几何图元,需要经过大量的处理过程。大家应该对这个图的每个步骤地工作相当清晰。这里有几个概念需要说明。 第一个概念是Fragment,片断或者片元。每一个片断对应屏幕上的一个像素点,它是光栅化(Rasterization)引擎使用FLAT shading或 Phong Shading生成的。 Rasterization引擎产生的片断包含一下信息:
第二个概念是纹理混合(Texture Blend),它是指纹理颜色和片断颜色(Diffuse和Specular)合成的方式。就是指glTexEnv的效果,根据不同的参数决定片断只保留Texel(纹理元)还是使用Texel(纹理元)和片断的颜色做混合。 第三个概念是透明融合Alpha Blend。如果一个片断经过深度测试,模板测试和透明测试,那么它将和缓冲区对应位置的像素作透明融合。 相信大家对OpenGL 状态机有了一定的了解,实际上这也是Direct3D8以前的图形流水线的主要参考模型(graphics processing pipeline)。 如果我们能够在流水线中减少一个操作,我们就能够获得性能的提高,当然前提是我们能够绘制正确的图像。 典型的D3D9硬件体系结构上面的OpenGL状态机实际上就是SGI的Reality Engine和其他Direct3D7及其一下版本的图形硬件流水线结构。下面我向大家介绍D3D9的典型硬件体系结构(或者说Direct3D9的参考模型)。
我们可以看到D3D9的流水线和OpenGL 1.1的流水线有很大的不同。
D3D8/D3D9的Vertex Shader和Pixel Shader是两个图形体系结构巨大的进步,当然使得图形程序设计更为灵活,也更为困难和复杂。 对于D3D8/D3D9的硬件体系结构,我们的程序优化工作有多了两个内容,优化Vertex Shader和Pixel Shader。 今天我的重点放在传统图形流水线(TnL)的性能优化上。 基本优化方法减少OpenGL的状态变化如果我们应用程序不断地改变OpenGL的状态,那么驱动程序和AGP数据传输,图形硬件的负担会则增加很多。因为每当我们改变一个OpenGL状态,可能会涉及到硬件的多个寄存器的数据,那么驱动程序就必须将修改的硬件寄存器通过AGP总线发送到硬件, 占用大量的CPU资源和AGP带宽和硬件命令解释器时间。 建议1:尽可能将状态相近的图形绘制命令放在一起,减少OpenGL状态变化。 建议2:使用状态集合,降低驱动程序的CPU处理时间。 避免光照计算特别是高光计算(Specular)Specular的计算是光照计算中最为耗时的运算之一。Diffuse计算相对比较普通,一般图形硬件都会对Diffuse运算进行优化。 图元类型优化我们使用的大多数图元类型都是Triangle。如果我们每次都是用GL_TRIANGLES,我们将浪费大量的CPU时间和AGP带宽和图形硬件资源。原因如下:
根据测试,我三年前在Geoforce 3和 Geoforce Quadro 3上对OpenGL做的测试,GL_TRIANGLE_STRIP比GL_TRIANLGES 快100% ~ 200%。 建议:尽可能地使用GL_TRIANGLE_STRIP替代GL_TRIANGLES。 三角形Stripe的成熟软件:http://www.cs.sunysb.edu/~stripe/ 光照条件下使用glMaterial替代glColor在光照条件下,如果程序使用glMaterial,那么驱动程序只加载Material属性一遍到硬件,使用glColor将使得驱动程序对每个定点加载颜色信息。将会占用更多的CPU时间和AGP带宽。 纹理优化优化纹理加载初学OpenGL一个常见的性能优化方面的问题是每次使用一个纹理的时候,都重新设置纹理参数并且调用 glTexImage2D函数。事实上,OpenGL对纹理和Display List都有一个命名机制,glBindTexture,glDeleteTexture,glBindTexture。下面我们比较一下效果。 方法一:每次使用纹理前调用glTexImage2D,并重新设置纹理参数。那么驱动程序将不断地调用IDirectDraw7::CreateSurface并且将数据从用户内存区拷贝到驱动程序系统内存区,然后再从系统内存区域复制到video memory。 方法二:使用glTexEnv和glTexImage2D设置当前的纹理参数和纹理内容,,然后调用glBindTexture,例如5号纹理;如果需要使 用该纹理,再次调用glBindTexture函数,glBindTexture会把5号纹理设置为当前的纹理,并且参数上次设置的参数,你可以根据需要 决定是否修改参数。方法二的主要优点在于应用程序仅仅调用glTexImage2D,从而节省大量的CPU和AGP时间,因为从CPU往video memory复制是最耗时,overhead is very high。 建议:
进一步阅读: 尽量使用MipMap纹理一般图形硬件都支持 Mipmap,如果应用程序使用 Mipmap,那么图形硬件会根据当前的片断对应的纹理 LOD 计算 Texel,这样能够节省大量的纹理元 video memory 寻址时间,而且图形硬件对纹理元做 Cache,mipmap 中尺寸较小的纹理(Level比较大的)能够节约大量的计算时间。如果应用程序仅仅提供 Level 0 的最大的纹理,那么图形硬件每次都将使用这个纹理作纹理元计算,不但会浪费大量的计算资源,而且消耗很多的图形芯片带宽。 建议:
Tips: gluBuild*DMipmaps 能够将非2^n的纹理转化带有MipMaps的标准OpenGL纹理。不过gluBuild*DMipMaps不支持压缩纹理的自动Mipmap。 进一步阅读: glu Manual 纹理组合在游戏或者可视化应用中,我们总是会遇到许多非常小的纹理,一种比较好的办法是我们把这些纹理组合成一个比较大的纹理,例 如256x256,这样驱动程序在加载纹理的video memory的地址时候,驱动程序仅仅需要加载一次家可以了。这种方法在多个造型软件中也经常见到,例如人体造型软件Pose,它将一个人的头发,脸,眼 睛,等组合为一个纹理。 建议: 将多个小纹理组合为一个大纹理,然后修改对应三角形定点的纹理坐标,或者使用glMatrixMode(GL_TEXTURE)对定点的纹理坐标作几何变换。 使用MultiTexture替代Multi-PassOpenGL 1.2.1 extension: GL_ARB_multitexture Direct3D7(OpenGL .2.1)及更高版本支持的显示卡都支持MutliTexture功能,我们可以充分利用这个特性做多纹理贴图替代Multi-Pass。 例如我们希望会绘制一个可乐瓶子,而且这个可乐瓶子需要两层标签,利用Multi-Pass我们可以分三次绘制, //绘制瓶子的本色,例如绿色, 如果使用MutliTexture(OpenGL.2.1扩展),我们只需要Single Pass完成这项工作: glMaterial(); Mutlitexture的方法将比第一种方法节约流水线的4个运算步骤,Depth Test,Alpha Test,Alpha Blend,和 write to frame Buffers。 建议:检查OpenGL extension支持,尽可能使用MultiTexture。 进一步阅读: OpenGL specs:http://www.opengl.org/developers/documentation/specs.html OpenGL extension Registry:http://oss.sgi.com/projects/ogl-sample/registry 使用压缩纹理OpenGL支持的压缩纹理包括:
压缩纹理比非压缩纹理具有更快的运算速度和更小的存储空间要求,而且很容易使用图形硬件纹理Cache。因此能够显著地提高应用程序性能,特别应用程序的纹理数据量巨大。 缺点:要求纹理的色彩空间规律性极强,否则会造成严重的颜色失真。 建议:检查下面的三个OpenGL Extension,尽可能地使用压缩纹理。
建议:检查OpenGL extension支持,尽可能使用MultiTexture。 进一步阅读: OpenGL specs:http://www.opengl.org/developers/documentation/specs.html OpenGL extension Registry:http://oss.sgi.com/projects/ogl-sample/registry 我们可以使用DirectX SDK的工具产生压缩纹理dxtex ,或者从nivdia获得工具和Tutorial: http://developer.nvidia.com/object/nv_texture_tools.html 合理的纹理尺寸图形硬件系统一般使用4x4,8x8,最高到64x64的纹理Cache策略,如果你的纹理比较简单,在满足可识感官的要求下,尽可能地使用较小的纹理尺寸。 Vertex Array相对于glBegin, glEnd以及Display List, Vertex Array对于驱动程序而言具有最高的内存复制效率,因为驱动程序仅仅需要一次内存数据移动,glBend, glEnd和Display List,则需要三次数据移动。因此尽可能多地使用 glDrawArrays和glArrayElement的方式。 针对Vertex Array,OpenGL 有如下的Extensions: GL_EXT_vertex_array 其中前面三个是经常使用 OpenGL extension,例如QuakeIII, CS, Half Life等。 进一步阅读: OpenGL specs:http://www.opengl.org/developers/documentation/specs.html OpenGL extension Registry:http://oss.sgi.com/projects/ogl-sample/registry Buffer Object事实上,我上面所讲到的内容都是传统的OpenGL图元定义,本质上都是通过glBegin和glEnd定义,都属于立即模式绘制的一种方法。而 Direct3D都是通过Vertex Buffer和Index Buffer实现图元及其组成顶点的属性定义。而Vertex Buffer和Index Buffer都在保存在video memory中,这样应用程序不需要每次都把地顶点数据通过AGP发送给硬件,从而加快了处理速度。为了在弥补这个缺陷,Nvidia和ATI推出了下面的Extension:GL_ARB_vertex_buffer_object 同时这个extesion也为 OpenGL 的Vertex Proram(即 D3D9的Vertex Shader)服务,关于这个Extension相关内容比较多,我就不展开这个讲述了。这里告诉大家,它是比所有立即模式图元定义方法都快的一个 OpenGL extension。原因如下:
请参考 OpenGL extension Registry: http://oss.sgi.com/projects/ogl-sample/registry Advanced Tech :Vertex Program 和 Fragment Program( D3D Vertex Shader和 Pixel Shader)使用 Shader 对渲染管线进行编程,控制渲染过程。 Less Operation for Depth Test,Stencil Test和 Alpha Test事实上,Depth Test,Stencil Test,Alpha Test能够影响到OpenGL 像素填充的30%。也就是说,如果你对他们进行优化,能够获得30%的性能。 我曾经对quake III的性能优化做过测试,得到下面结果; Disable Depth Test 2% gain 事实上,Quake III本身能够进一步优化,大家都知道Quake III是最经典的一个游戏引擎,它绘制图形采用BSP的结构,使用多纹理贴图和Alpha Blend获得非常好的光照效果,绘制图元的顺序是从最远处的物体到最近处的物体,由远及近的次序,那么如果QuakeIII把它改作由近及远的次序, Quake III中也少数的三角形遮挡关系,采用由近及远的次序绘制图形的时候,Depth Test将扔掉5%~10%甚至更多的片断(像素),那么流水线后面的操作将不会被执行,从而获得性能的提高,我相信这将会带来5%~15%的性能提高。 那么对于室外场景的漫游,我建议大家采用由近及远的次序。也许会带来极大的性能提高。 NoUse Depth Test 如果绘制的时候能够保证所有的绘制顺序是先后后前的顺序绘制,那么就可以避免Depth Test的时间。 很多人都在做类似的工作,我想以后抛砖引玉,作为一个单独的专题介绍。 MISC: LOD, cull, SwpaBuffers, wglMakeCurrentLODLOD,很经典的方法,使用较少几何数据量(Vertex)和纹理运算量(Texture LOD: mipmap)。 CULL FaceCULL Face,即背面删除,如果不绘制背面的三角形,理论上可以获得接近50%的性能提高,前提是假设TnL或者Vertex Shader足够的快。 glEnable(GL_CULL_FACE) ; 在我对QuakeIII的测试中,尽管QuakeIII是基于BSP树的,理论上QuakeIII不应该有背面的物体,我仍然获得了3%~5%的性能提高(不同的CPU和总线速度)。 SwapBuffers事实上,全屏幕的OpenGL程序是调用IDirectDrawSurface7::Flip或 IDirect3DDevice8::Present,那么每进行FLIP操作将比窗口的OpenGL程序少做 1024X768X4 bytes的显示内存数据移动,将设分辨率为1024X768X32bits,根据不同的应用,能够获得相当可观的性能提高,大家可以自己算算。 wglMakeCurrentwglMakeCurrent是一个非常耗时的操作,2001年我对Geoforce3 Ti500进行了测试,在最好的情况下,Geoforce3 Ti500能够做5000次/秒。当时的CPU速度好像是800M还是1.4Ghz。我不太清楚了。同时wglMakeCurrent也许会带来副作用, 一些图像可能发生丢失。其中一个典型的测试,indy3D就是采用这种方法,我在跟踪这种程序的时候,觉得Sense8(开发vtk的那个公司)程序设计能力太糟糕了。 建议:一定要避免调用wglMakeCurrent。 避免像素操作(Pixel)在OpenGL的实现中,都是使用纯软件的方法实现从系统内存到video memory 的复制,那么这些将中断整个图形流水线的执行,等待硬件空闲后使用CPU完成,它们将大大降低程序的执行效率。这些操作包括:
解决办法:使用纹理替代像素操作,例如建设你希望在屏幕输出一行字,例如” Qauke III Arena”,那首先产生一个纹理,它包含所有的字母和数字,我这里无法贴BMP图像,我画一个存储结构:代表RGBA各式的2D 纹理,这是Quake III 的字母纹理顺序。 A B C D E F G H I J KLM 使用两个三角形产生一个字母或者数字。 Reference |