在 Visual Studio 2017 年,如何使用 CUDA 10.0 使 GPU 处理速度比 CPU 处理速度快得多?

How can i make GPU process much faster than CPU process with CUDA 10.0 in Visual Studio 2017?

聪明的开发者! 我是CUDA编程的初学者,我的代码有很大的问题。

以下代码是来自 Nvidia 的示例代码,为了显示 GPU 进程比 CPU 进程快得多,我做了一些改动。然而,编译这段代码后,我得到了意想不到的结果,CPU进程比GPU进程快得多。

This is my laptop gpu info.

这是我 Visual Studio 2017 年的 cuda 代码。

============================================= ==============================

#define N 10

这是来自 GPU 进程的 add2 function()

`___global____  void add2(int *a, int *b, int *c) {`

    // GPU block from grid sector
    //int tid = blockIdx.x;     // checking the data of index  = if you 

insert min of N, you will get slow result from CPU. But if you put big number, this show much faster than CPU

// GPU thread
//int tid = threadIdx.x;    // Same result as blockIdx.x

// GPU unexpected vector    // Same result as above
int tid = threadIdx.x + blockIdx.x*blockDim.x;
if (tid < N) {
    c[tid] = a[tid] + b[tid];
}
}

这是来自 CPU 进程的添加函数 ()

`void add(int *a, int *b, int *c) {

    int tid = 0;

while (tid < N) {
    c[tid] = a[tid] + b[tid];
    tid += 1;
}
}

这是主函数()

int main() {

    // Values for time duration
         LARGE_INTEGER tFreq, tStart, tEnd;
         cudaEvent_t start, stop;
         float tms, ms;

         int a[N], b[N], c[N];  // CPU values
         int *dev_a, *dev_b, *dev_c;    // GPU values----------------------------------------------

          // Creating alloc for GPU--------------------------------------------------------------
         cudaMalloc((void**)&dev_a, N * sizeof(int));
         cudaMalloc((void**)&dev_b, N * sizeof(int));
         cudaMalloc((void**)&dev_c, N * sizeof(int));

    // Fill 'a' and 'b' from CPU
         for (int i = 0; i < N; i++) {
            a[i] = -i;
            b[i] = i * i;
        }

    // Copy values of CPU to GPU values----------------------------------------------------
         cudaMemcpy(dev_a, a, N * sizeof(int), cudaMemcpyHostToDevice);
         cudaMemcpy(dev_b, b, N * sizeof(int), cudaMemcpyHostToDevice);


    //////////////////////////////////////
         QueryPerformanceFrequency(&tFreq);  // Frequency set
         QueryPerformanceCounter(&tStart);   // Time count Start

    // CPU operation
         add(a, b, c);

    //////////////////////////////////////
         QueryPerformanceCounter(&tEnd);     // TIme count End
         tms = ((tEnd.QuadPart - tStart.QuadPart) / (float)tFreq.QuadPart) * 1000;
    //////////////////////////////////////

    // show result of CPU
         cout << fixed;
         cout.precision(10);
         cout << "CPU Time=" << tms << endl << endl;

         for (int i = 0; i < N; i++) {
             printf("CPU calculate = %d + %d = %d\n", a[i], b[i], c[i]);
         }

         cout << endl;

    ///////////////////////////////////////
         cudaEventCreate(&start);
         cudaEventCreate(&stop);
         cudaEventRecord(start, 0);
    // GPU operatinog---------------------------------------------------------------------
         //add2 <<<N,1 >>> (dev_a, dev_b, dev_c);   // block
         //add2 << <1,N >> > (dev_a, dev_b, dev_c); // Thread
         add2 << <N/32+1, 32 >> > (dev_a, dev_b, dev_c);   // grid

    ///////////////////////////////////////
         cudaEventRecord(stop, 0);
         cudaEventSynchronize(stop);
         cudaEventElapsedTime(&ms, start, stop);
    ///////////////////////////////////////

    // show result of GPU
         cudaMemcpy(c, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost);
         cout << fixed;
         cout.precision(10);
         cout << "GPU Time=" << ms << endl << endl;


         for (int i = 0; i < N; i++) {
              printf("GPU calculate = %d + %d = %d\n", a[i], b[i], c[i]);
         }

    //Free GPU values
         cudaFree(dev_a);
         cudaFree(dev_b);
         cudaFree(dev_c);

         return 0;
}

This is result of compiling this code.

我想让 GPU 进程比 CPU 进程快得多。

对于 运行 单个操作,GPU 实际上通常比 CPU 慢。此外,将数据发送到 GPU 并再次读回它需要时间。

GPU 的优势在于它可以并行执行许多操作。

由于您已将 N 定义为 10,因此上传和下载数据可能比在 CPU 上执行需要更长的时间。为了看到 GPU 的优势,请将问题规模增加到更大。理想情况下,您希望在开始看到一些好处之前在每个 GPU 核心上执行最少的一些操作。例如,如果您的 GPU 有 1280 个内核,您可能希望一次执行 4000 次或更多操作,以充分利用 GPU。