CUDA 多GPU调用实现

当设备存在多块GPU时，为了高效利用GPU，我们常常需要使用多卡计算。本例中我们使用OpenMP来进行多线程调用多GPU运行，初学者无须详细了解OpenMP，只需知道一两句命令就行。

详细步骤如下：

1、建立一个普通CUDA项目：

CUDA 多GPU调用实现

2、在项目属性C/C++设置语言：支持openMP

CUDA 多GPU调用实现

3、在CUDA C/C++中设置预编译命令：-Xcompiler "/openmp"（这一行很重要）

CUDA 多GPU调用实现

4、设置CUDA C/C++ Host中运行库：为多线程库，如果工程为动态库，则设置为 “Multi-threaded DLL”，这个通常在调用CUDA动态库需要。

CUDA 多GPU调用实现

5、属性设置完以后，则接下来便使用OpenMP语句【#pragma omp parallel for num_threads(N) 】进行多GPU调用。详细程序如下：

int subFunction()
{
    const int arraySize = 5;
    const int a[arraySize] = { 1, 2, 3, 4, 5 };
    const int b[arraySize] = { 10, 20, 30, 40, 50 };
    int c[arraySize] = { 0 };
 
    //查询GPU设备数量
    int deviceCount = 0;
    cudaGetDeviceCount(&deviceCount);
    if (deviceCount < 2) {
        printf("GPU device is less than Two.\n");
        return -1;
    }
    printf("Host CPUs:\t%d\n", omp_get_num_procs());
 
    //的使用OpenMP多线程调用多GPU进行计算
#pragma omp parallel for num_threads(deviceCount)
    for (int i = 0;i < deviceCount; i++) {
        printf("this is threads:%d Total threads is:%d\n", omp_get_thread_num(), omp_get_num_threads());
        //调用GPU内核程序
        addWithCuda(c, a, b, arraySize, 0);
    }
  
   
    return 0;
}

6、程序运行（由于本机只有一个GPU，多GPU卡具体测试结果就不奉上了）

CUDA 多GPU调用实现

秒客网

CUDA 多GPU调用实现

相关文章