cuda内核没有访问数组的所有元素

Question

我写了一个cuda程序来对大数组做一些操作。但是当我将该数组传递给 cuda 内核时，它的所有元素都不会被线程访问。下面，有一个简单的程序解释了我的用例：

#include <stdio.h>
#include <stdlib.h>

__global__
void kernel(int n){
        int s = threadIdx.x + blockIdx.x*blockDim.x;
        int t = blockDim.x*gridDim.x;
        for(int i=s;i<n;i+=t){
        printf("%d\n",i);  //printing index of array which is being accessed
        }
}

int main(void){
        int i,n = 10000; //array_size
        int blockSize = 64;
        int numBlocks = (n + blockSize - 1) / blockSize;
        kernel<<<numBlocks, blockSize>>>(n);
        cudaDeviceSynchronize();
}

我试过不同的 blockSize = 256, 128, 64, etc，它没有打印数组的所有索引。理想情况下，它应该打印 0 to n-1 的任何排列，但它打印的是更少的 (<n) 数字。

如果numBlocks和blockSize都为1，则访问所有元素。如果数组大小小于 4096，那么它也会访问所有元素。

Answer 1

实际上，所有的值都是在当前情况下打印的。但由于输出控制台的缓冲区限制，您可能无法看到所有这些。尝试增加输出控制台的缓冲区大小。

此外，请记住内核中的 printf 调用是乱序执行的。此外，设备上的 printf 缓冲区存在限制，这些限制在 documentation.

中进行了说明

Answer 2

使用更好的调试技术！您的代码功能正常

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>

#include <stdlib.h>

__global__
void kernel(int* in, int n){
    int s = threadIdx.x + blockIdx.x*blockDim.x;
    int t = blockDim.x*gridDim.x;
    for (int i = s; i<n; i += t){
        in[i] = 1;  //printing index of array which is being accessed
    }
}

int main(void){
    int i, n = 10000; //array_size
    int blockSize = 64;
    int numBlocks = (n + blockSize - 1) / blockSize;
    int* d_res,*h_res;
    cudaMalloc(&d_res, n*sizeof(int));
    h_res = (int*)malloc(n*sizeof(int));

    kernel << <numBlocks, blockSize >> >(d_res, n);
    cudaDeviceSynchronize();
    cudaMemcpy(h_res, d_res, n*sizeof(int), cudaMemcpyDeviceToHost);

    int sum = 0;
    for (int i = 0; i < n; i++)
        sum += h_res[i];
    printf("%d", sum);
}

cuda内核没有访问数组的所有元素

cuda kernel is not accessing all the element of an array

c

cuda

nvidia