OpenCL：只关心线程全局 ID 时的理想块数？

Question

所以我对 OpenCL 还很陌生，我正在努力更好地理解工作组和工作项。我了解单个组内的所有线程（项）共享内存、原子操作和屏障同步。

但是，如果我不需要这些好处并且只关心任何给定线程的全局 ID 怎么办？:

get_global_id(0)

如果我只关心线程总数，那么我应该如何选择多少个组以及每个组应该有多少个项目？（= 组 * 每组项目）

例如，假设我有一个计算 400x400 矩阵的程序。我总共有 160,000 个线程。最初我认为（天真地）让我们将它们全部放在一个块中，但这远远超出了每个块允许的线程数限制。因此，我选择任意数量的块：1600 个，每个块有 100 个线程。我的平均加速是 CPU 单线程的 x5.5（我还没有一个很好的 GPU 来运行我的代码...）。所以我想，既然我对块没有用，为什么不给每个线程自己的块呢？我的平均加速是 x4.5。所以给每个线程自己的块比较慢。

这里究竟发生了什么，我认为创建块有一些额外的开销？我如何着手计算我应该拥有的最佳块数？最好的解决方案是尽可能少地制作块吗？

Answer 1

一种选择是将 NULL 赋予 clEnqueueNDRangeKernel 的 local_work_size 参数，在这种情况下，OpenCL 实现将自行决定局部大小。这可能不会给出最佳结果，但至少 OpenCL 实现会尝试猜测最佳局部大小。

另外，clGetKernelWorkGroupInfo可以用来查询CL_KERNEL_PREFERRED_WORK_GROUP_SIZE_MULTIPLE。

OpenCL：只关心线程全局 ID 时的理想块数？

OpenCL: The Ideal # of Blocks when only caring about thread global ID?

c++

multithreading

block

opencl