SSE指令的使用学习

时间:2024-03-23 10:24:18

原文地址:https://blog.csdn.net/a200800170331/article/details/48706695

1. 什么是指令集?

指令集是为了增强CPU在某些方面(如多媒体)的功能而特意开发出的一组程序代码集合。

2.常见的指令集有哪些呢?

1)MMX(Multi-Media Extensions,做媒体扩展)指令集:Intel1996年推出的一项多媒体指令增强技术。共包含57条多媒体指令,这些指令一次可以处理多个数据。

2)SSE(StreamingSIMD Extensions,单指令多数据留扩展)数据集:包含70条指令,其中有50条SIMD(单指令多数据技术)浮点运算指令,12条MMX整数运算增强指令,8条优化内存中连续数据块的传输指令。理论上这些指令对目前流行的图像处理、浮点处理、3D运算、视频处理、音频处理等多媒体应用起到全面强化的作用。

注意:SSE指令和3DNow!指令彼此互不兼容,但SSE包含了3DNow!的绝大多数功能。

3)SSE2、SSE3、SSE4是SSE的扩展技术。

4)3DNow!指令集。

3.Visual Studio使用SSE需要添加对应的头文件:
原因:加入头文件可以将汇编形式的指令集封装成C语言形式,可增强可读性以及可维护性。

mmintrin.h------>MMX

xmmintrin.h------>SSE

emmintrin.h------>SSE2

pmmintrin.h------>SSE3

有了这些头文件的支持,在我们的代码中便可以调用指令集函数的程序。

但是这些函数必须获得硬件CPU的支持,我们如何才能确保我们的计算机可以调用这些指令集呢?

可以使用一个叫做CPU-Z的工具自己对你的CPU的各种参数进行查询:

所谓CPU-Z是一款CPU检测软件,包括检测CPU的处理器、内存、显卡等等,(挺好用的!)

其界面如下,大致功能也可以一目了然:

SSE指令的使用学习

4.加载了头文件便可使用SSE的指令了,那么SSE指令和数据有什么特点呢?

SSE指令的函数名称一般定义为:_m_operation() ;

SSE的数据类型:__m128

PS:需要注意因为SSE的数据类型的固有特点,所以SSE指令要求数据的地址是16字节对齐的,怎么把我们给定的数据转化成该类型,需要使用_mm_load_ps(float const * _A)加以实现,该函数的原型:extern __m128 _mm_load_ps(float const * _A)

通俗的理解,该函数实现了将float的数组的每四个元素进行组合作为__m128类型的数据返回,以实现SSE指令函数的数据要求。

在使用该函数时:输入数据_A应该先被指定为16字节对齐,实现方法:
__declspec(align(16)) float  Input[4]={1,2,3,4}

在处理完数据以后,用SSE指令完成的数据一般保存在以__m128的形式保存在暂存器里,为了后续运算一般需要将其保存会float形式的内存中,此时需要用到函数:

void _mm_storeu_ps(float* p,__m128 a);

一个例子很好的诠释以上知识点:

 

 
  1. #include "xmmintrin.h"

  2. #include <iostream>

  3. using namespace std;

  4. void main()

  5. {

  6. __declspec(align(16)) float Input1[4]={1,2,3,4};

  7. __declspec(align(16)) float Input2[4]={1,2,3,4};

  8. float *Result;

  9. Result=(float*)_aligned_malloc(sizeof(float)*4,16);

  10. __m128 c;

  11. __m128 a=_mm_load_ps(Input1);

  12. __m128 b=_mm_load_ps(Input2);

  13. c=_mm_add_ps(a,b);

  14. _mm_storeu_ps(Result,c);

  15. cout<<Input1[0]<<" "<<Input1[1]<<" " <<Input1[2]<<" "<<Input1[3]<<endl;

  16. cout<<a.m128_f32[0]<<" "<<a.m128_f32[1]<<" " <<a.m128_f32[2]<<" "<<a.m128_f32[3]<<endl;

  17. cout<<c.m128_f32[0]<<" "<<c.m128_f32[1]<<" " <<c.m128_f32[2]<<" "<<c.m128_f32[3]<<endl;

  18. for(int i=0;i<4;i++)

  19. {

  20. cout<<Result[i]<<" ";

  21. }

  22. cout<<endl;

  23. _aligned_free(Result);

  24. return;

  25. }

代码结果:

 

SSE指令的使用学习

5.怎么知道SSE有哪些可用的函数呢?

打开头文件“xmmintrin.h”,通过命名很容易推测出函数的应用目的。

参考:

1) http://blog.csdn.net/gengshenghong/article/details/7007100

2) http://blog.csdn.net/gengshenghong/article/details/7008704

3)http://blog.csdn.net/gengshenghong/article/details/7010615

4)http://blog.csdn.net/gengshenghong/article/details/7011373