CUDA 程序运行时 CPU 100%的一个解决方法

CUDA 程序运行时CPU 100%的问题有点让人头痛，在实验过程中调用了kernel函数后，再调用cudaMemcpyAsync，但发现在还有会到block在这个所谓的async api，strace 跟了一下，发现99.999%都是

clock_gettime(CLOCK_MONOTONIC_RAW, {2461, 485666623}) = 0

于是实然有了一个灵感，为什么我不写一个和它相似的poll函数，只不过我是每隔1分钟轮询一次，这样就可以把CPU的使用率降下来了

    kernel<<< dimGrid, dimBlock >>>(d_result_next_idx);

    _err = cudaGetLastError();
    if(cudaSuccess == _err) {
        low_cpu_usage_poll(qihao);

void low_cpu_usage_poll(int qihao)
{
    int min = 0;
    bool ready = false;
    while (1) {
        sleep(60);   // second
        ready = cudaSuccess==cudaStreamQuery(0);
        printf("low_cpu_usage_poll: %4d min, cudaStreamQuery: %s\n",
               ++min, ready ? "cudaSuccess" : "cudaErrorNotReady???");
        if (ready) {
            callback(qihao);
            return;
        }
    }
}

使用时在调用了kernel函数后，不再调用任何cudaXXXX函数，kernel函数是异步的，但随后的这些cudaXXXX函数还是会block直到kernel完成，所在应该在调用kernel后直接调用low_cpu_usage_poll，把所有后续处理放在low_cpu_usage_poll中调用的那个callback中。

秒客网

CUDA 程序运行时 CPU 100%的一个解决方法

相关文章