对于一个可结合和可交换的合并操作来说,比如整数的加法或乘法,
我们可以通过将一组合并操作分割成 2 个或更多的部分,并在最后合并结果来提高性能。
原理:
普通代码只能利用 CPU 的一个寄存器,分割后可以利用多个寄存器。
当分割达到一个数量时,寄存器用完,性能不再提升,甚至会开始下降。
用代码来描述,如下:
// 一般情况下的代码
for (i = ; i < n+; i++)
{
res = res OPER i;
} // 循环分割后代码
for (i = ; i < n; i+=)
{
res1 = res1 OPER i;
res2 = res2 OPER (i+);
}
int 整数加法,性能测试结果对比如下:
整数的加法,普通代码运行 26s,循环分割后,18s。
浮点数计算的性能提升,明显大于整数,乘法的性能提升,略大于加法。
完整测试代码:
#include <time.h>
#include <iostream>
#define OPER +
#define INIT 0 using namespace std; int calc1(int n)
{
int i;
int res = INIT; for (i = ; i < n+; i++)
{
res = res OPER i;
} return res;
} int calc2(int n)
{
int i;
int res1 = INIT;
int res2 = INIT; for (i = ; i < n; i+=)
{
res1 = res1 OPER i;
res2 = res2 OPER (i+);
}
for (; i < n+; i++)
{
res1 = res1 OPER i;
} return res1 OPER res2;
} typedef int (*FUNC)(int n); int time_test(FUNC calc, int param)
{
cout << " Result: " << calc(param) << "\t";
time_t t_begin;
time(&t_begin); for (int i = ; i < ; i++)
for (int j = ; j < ; j++)
calc(param); time_t t_end;
time(&t_end);
cout << "Time Cost: " << difftime(t_end, t_begin) << endl;
} int main()
{
cout << "calc1 ";
time_test(calc1, ); cout << "calc2 ";
time_test(calc2, );
return ;
}